Modalità lettura avanzata

Come configurare il file Robots txt ?

I motori di ricerca sono avidi di natura.

Vogliono indicizzare il maggior numero possibile d’informazioni, quindi quando arrivano al tuo sito, leggono tutto. Il problema si presenta quando si desidera impedire che alcune pagine siano incluse nei database di Google evitando l’indicizzazione della pagina o categoria.

In quale caso è utile bloccare gli spider e rendere una pagina non visibile nei database di Google? Possono essere svariati casi per esempio:

  • Le pagine che ospitano i moduli di Login per accedere a un’aria privata per esempio.
  • Pagine che ospitano moduli per i metodi di pagamento.
  • Sezioni private del sito web.

Generalmente se non c’è una ragione valida nel bloccare la lettura di una pagina si consiglia sempre la totale lettura, ma se proprio necessiti di questa funziona continua a leggere

 

Cos’è il file robots.txt ?

Robots.txt è un file di testo che viene utilizzato per istruire i robot del motore di ricerca (noti anche come crawler, robot o spider) come eseguire la scansione e l’indicizzazione delle pagine del sito Web. Idealmente, viene inserito nella directory di livello superiore del tuo sito Web in modo che i robot possano accedere alle sue istruzioni immediatamente.

È possibile paragonare il file robots come un semaforo dove lo spider o si ferma o procede, consente di limitare l’accesso al tuo sito web in modo selettivo. Se ci sono pagine che preferite tenere fuori dalla portata dei motori di ricerca con specifiche configurazione potrete escludere ogni singola pagina dalla lettura degli spider. Non improvvisate stringhe di codice, ma attenetevi alle direttive base, se non avete molta confidenza con la configurazione del file Robots, rischiate di rendere il vostro sito non accessibile ai motori di ricerca, se riscontrate questo tipo di problema potete contattare un consulente seo.

 

È possibile utilizzare il file per:

  • Pagine con contenuti duplicati
  • Pagine di paginazione
  • Pagine dinamiche di prodotti e servizi
  • Pagine dell’account
  • Pagine di amministrazione
  • Carrello della spesa
  • chat
  • Pagine di ringraziamento

Come generare il file

La generazione del file è molto semplice, basta creare un documento di testo con il nome “robots.txt” e caricarlo nella radice del tuo dominio ( http://www.example.com/robots.txt ), luogo dove i motori di ricerca sperano di trovarlo.

Puoi crearlo manualmente, utilizzando il  blocco note  o un editor di codice come Notepad ++,

Per caricare il file utilizzare un client FTP come FileZilla o Cyberduck .

Ecco un esempio di file robots.txt base, Potete copiarlo e incollarlo direttamente così com’è.

User-agent: *
Disallow:

Queste istruzioni consentono a tutti i motori di ricerca d’indicizzare ogni parte del sito web, compreso, tema, immagini,  praticamente libero accesso, gli spider troveranno le porte spalancate.

Come bloccare le risorse

Se invece desideri bloccare la lettura del tuo sito web agli spider, calare la serranda e lasciare tutti fuori, adotta questa configurazione.

User-agent: *
Disallow: /

Oppure nascondi la struttura della directory del tuo sito e le categorie specifiche, come questa:

User-agent: *
Disallow: / no-index /

Il file consente anche di dare la priorità a determinate pagine, categorie e persino porzioni di codice CSS e JS, dai un’occhiata qui sotto.

robots seo

Con questa configurazione non sono consentite delle pagine WordPress e categorie specifiche, ma sono consentiti file di contenuto wp, plug-in JS, stili CSS e blog. Questo approccio garantisce che gli spider eseguano la scansione e indicizzino codice e categorie utili.

Comandi principali

I comandi utilizzati  provengono dal cosiddetto Protocollo di esclusione dei robot , una convenzione universale la cui sintassi deve seguire:

  • È possibile utilizzare solo i comandi consentiti (anche se alcuni browser comprendono comandi aggiuntivi)
  • Devi rispettare le lettere maiuscole, la punteggiatura e gli spazi
  • Ogni gruppo User-agent / Disallow deve essere separato da una riga vuota
  • Puoi includere i commenti utilizzando il simbolo pad o hash (#)

I comandi più importanti sono:

  • User Agent – Indica quale tipo di robot deve rispettare le direttive elencate in seguito.
  • Disallow – nega l’ accesso a una directory o una pagina specifiche.
  • Allow – Funziona al contrario della direttiva Disallow, consentendo l’accesso alle directory e alle pagine. Può essere usato per sovrascrivere parzialmente o totalmente la direttiva Disallow.
  • Sitemap – Indicare il percorso in cui è posizionata una mappa del sito in XML.
  • Crawl-delay – Indica al robot il numero di secondi da attendere tra ogni pagina. Può essere utile nei casi in cui è necessario ridurre il carico del server.

Caratteri jolly:

  • Asterisco (*) – Valido per qualsiasi sequenza di caratteri. Ad esempio, tutte le directory che iniziano con “private” sarebbero “/ private * /”
  • Dollaro ($) – Indica la fine di un URL. Ad esempio, per indicare che qualsiasi file che termina con l’estensione .php utilizzi “/*.php$”.

Come utilizzare i comandi

Con i comandi  è possibile creare ogni tipo di restrizione. Tuttavia, non è una buona idea essere creativi, in quanto potreste finire per bloccare qualcosa che non si vuole.

È meglio attenersi alle restrizioni più comuni, quali:

  • Includi tutti i robot – User-agent: *
  • Specificare il robot Google – User-agent: Googlebot
  • Specificare il robot Bing – User-agent: Bingbot
  • Negare l’intero sito – Disallow: /
  • Negare una directory – Disallow: / directory /
  • Annulla directory che iniziano con “qualcosa” – Disallow: / maglietta rossa * /
  • Negare una pagina – Disallow: /pagina-web.htm
  • Negare l’estensione .gif – Disallow: /*.gif$
  • Consenti una sottodirectory – Allow: / directory / subdirectory /
  • Bookmark Sitemap – Sitemap:

Potrebbe interessarti anche la lista completa di user agent, utile per bloccare alcuni spider spam fastidiosi provenienti da nazioni indesiderate

Post suggeriti
Contatti

Illeggibile? Cambia il testo. captcha txt

Inizia a digitare e premi Enter per effettuare una ricerca

contenuti duplicatimeta robots