In SEO

Configurazione robots.txt

I motori di ricerca sono avidi di natura.

Vogliono indicizzare il maggior numero possibile d’informazioni, quindi quando arrivano al tuo sito, leggono tutto.

Il problema si presenta quando si desidera impedire che alcune pagine siano incluse nei database di Google evitando l’indicizzazione della pagina o categoria.

In quale caso è utile bloccare gli spider e rendere una pagina non visibile nei database di Google? Possono essere svariati casi per esempio:

  • Le pagine che ospitano i moduli di Login per accedere a un’aria privata per esempio.
  • Pagine che ospitano moduli per i metodi di pagamento.
  • Sezioni private del sito web.

Generalmente se non c’è una ragione valida nel bloccare la lettura di una pagina si consiglia sempre la totale lettura, ma se proprio necessiti di questa funziona continua a leggere

 

Cos’è il file robots.txt ?

Robots.txt è un file di testo che viene utilizzato per istruire i robot del motore di ricerca (noti anche come crawler, robot o spider) come eseguire la scansione e l’indicizzazione delle pagine del sito Web. Idealmente, un file robots.txt viene inserito nella directory di livello superiore del tuo sito Web in modo che i robot possano accedere alle sue istruzioni immediatamente.

Per comunicare i comandi a diversi tipi di crawler di ricerca, un file robots.txt deve seguire gli standard specifici presenti nel protocollo di esclusione dei robot (REP), creato nel 1994 e sostanzialmente ampliato nel 1996, nel 1997 e nel 2005.

Nel corso della loro storia, i file robots.txt sono stati gradualmente migliorati per supportare specifiche direttive del crawler, estensioni del pattern URI,  (note anche come tag REP o meta tag robots) e il microformat rel = “nofollow”.

Poiché i file robots.txt indica ai crawler di ricerca come eseguire la scansione o non eseguire la scansione di questa o quella parte del sito Web, sapere come utilizzare e impostare questi file è piuttosto importante. Se un file robots.txt è impostato in modo errato, può causare errori di indicizzazione. Quindi, ogni volta che avvii una nuova campagna SEO, controlla il tuo file robots.txt con lo strumento di verifica messo a disposizione da Google ovvero la search console test robots.txt

Non dimenticare: se tutto è a posto, un file robots.txt velocizzerà il processo di indicizzazione.

È possibile comprendere il file robots.txt come un semaforo dove lo spider o si ferma o procede, consente di limitare l’accesso al tuo sito web in modo selettivo. Se ci sono pagine che preferite tenere fuori dalla portata dei motori di ricerca il file robots.txt  viene in aiuto.

È possibile utilizzare il file robots.txt per:

  • Pagine con contenuti duplicati
  • Pagine di paginazione
  • Pagine dinamiche di prodotti e servizi
  • Pagine dell’account
  • Pagine di amministrazione
  • Carrello della spesa
  • chat
  • Pagine di ringraziamento

Ora, ecco alcune cose da tenere in mente riguardo a robots.txt:

  • Alcuni spider potrebbero ignorare le istruzioni contenute in questo file, in particolare,  spider dannosi come i malware, il file è pubblico, il che significa che chiunque può visualizzarlo solo digitando www.example.com/robots.txt

Quindi, se si intende utilizzare il file robots.txt per nascondere informazioni private, è necessario cercare un’altra alternativa.

Come generare il file robots.txt

La generazione del file è molto semplice, basta creare un documento di testo con il nome “robots.txt” e caricarlo nella radice del tuo dominio ( http://www.example.com/robots.txt ), luogo dove i motori di ricerca sperano di trovarlo.

Puoi crearlo manualmente, utilizzando il  blocco note  o un editor di codice come Notepad ++,

Per caricare il file utilizzare un client FTP come FileZilla o Cyberduck .

Ecco un esempio di file robots.txt base, Potete copiarlo e incollarlo direttamente così com’è.

Agente utente: *
Disallow:

Queste istruzioni consentono a tutti i motori di ricerca d’indicizzare ogni parte del sito web, compreso, tema, immagini,  praticamente libero accesso, gli spider troveranno le porte spalancate.

Bloccare robots.txt

Se invece desideri bloccare la lettura del tuo sito web agli spider, calare la serranda e lasciare tutti fuori, adotta questa configurazione.

User-agent: *
Non consentire: /

Oppure nascondi la struttura della directory del tuo sito e le categorie specifiche, come questa:

User-agent: *
Disallow: / no-index /

Il file robots consente anche di dare la priorità a determinate pagine, categorie e persino porzioni di codice CSS e JS, dai un’occhiata qui sotto.

robots seo

 

 

 

 

 

 

 

 

 

 

 

 

Con questa configurazione non sono consentite delle pagine WordPress e categorie specifiche, ma sono consentiti file di contenuto wp, plug-in JS, stili CSS e blog. Questo approccio garantisce che gli spider eseguano la scansione e indicizzino codice e categorie utili.

Comandi principali

I comandi utilizzati dal file robots.txt provengono dal cosiddetto Protocollo di esclusione dei robot , una convenzione universale la cui sintassi deve seguire:

  • È possibile utilizzare solo i comandi consentiti (anche se alcuni browser comprendono comandi aggiuntivi)
  • Devi rispettare le lettere maiuscole, la punteggiatura e gli spazi
  • Ogni gruppo User-agent / Disallow deve essere separato da una riga vuota
  • Puoi includere i commenti utilizzando il simbolo pad o hash (#)

I comandi più importanti sono:

  • User Agent – Indica quale tipo di robot deve rispettare le direttive elencate in seguito.
  • Disallow – nega l’ accesso a una directory o una pagina specifiche.
  • Allow – Funziona al contrario della direttiva Disallow, consentendo l’accesso alle directory e alle pagine. Può essere usato per sovrascrivere parzialmente o totalmente la direttiva Disallow.
  • Sitemap – Indicare il percorso in cui è posizionata una mappa del sito in XML.
  • Crawl-delay – Indica al robot il numero di secondi da attendere tra ogni pagina. Può essere utile nei casi in cui è necessario ridurre il carico del server.

Inoltre, è possibile utilizzare i caratteri jolly :

  • Asterisco (*) – Valido per qualsiasi sequenza di caratteri. Ad esempio, tutte le directory che iniziano con “private” sarebbero “/ private * /”
  • Dollaro ($) – Indica la fine di un URL. Ad esempio, per indicare che qualsiasi file che termina con l’estensione .php utilizzi “/*.php$”.
Guida file robot

Guida file robot

Restrizioni più comuni

Con i comandi  è possibile creare ogni tipo di restrizione. Tuttavia, non è una buona idea essere creativi con il file di robot, in quanto potreste finire per bloccare qualcosa che non si vuole.

È meglio attenersi alle restrizioni più comuni, quali:

  • Includi tutti i robot – User-agent: *
  • Specificare il robot Google – Agente utente: Googlebot
  • Specificare il robot Bing – Agente utente: Bingbot
  • Negare l’intero sito – Disallow: /
  • Negare una directory – Disallow: / directory /
  • Annulla directory che iniziano con “qualcosa” – Disallow: / maglietta rossa * /
  • Negare una pagina – Disallow: /pagina-web.htm
  • Elimina le directory e le pagine che iniziano con “qualcosa” – Disallow: / maglietta rossa
  • Negare l’estensione .gif – Disallow: /*.gif$
  • Consenti una sottodirectory – Allow: / directory / subdirectory /
  • Bookmark Sitemap – Sitemap: http://www.example.com/sitemap.xml

Sblocca le funzionalità CSS e JS

Fintanto che Google aggiorna le Linee guida per i webmaster specificando la negazione dell’accesso ai file CSS e JavaScript con robots.txt potrebbe danneggiare il tuo posizionamento, è una buona idea sbloccare qualsiasi directory che li possa contenere. Così il motore di ricerca può leggere le pagine in modo completo.

Per scoprire come Google vede le tue pagine, utilizza lo strumento di Google search console visualizza come google . Se non somiglia a quello che vedete nel browser o se ricevi errori o avvisi, rimuovi le righe dal file robots.txt che blocca l’accesso agli URL.

Un’altra alternativa più sicura potrebbe essere aprire esplicitamente la strada alle risorse CSS e JavaScript. In questo modo non importa se la directory è bloccata, Google sarà in grado di accedere alle risorse necessarie:

User-Agent: Googlebot
Consenti: /*.css$
Consenti: /*.js$

Convalida il file

Quando crei o modifichi il tuo file robots.txt, tieni presente che un errore semplice può bloccare l’accesso ai motori di ricerca e danneggiare la tua visibilità.

Il controllo è facile da fare con lo strumento Tester dei file di  Robots in Google Search Console. può essere una buona idea utilizzare la funzione  Visualizza come Google  per assicurarsi che non ci siano risorse bloccate.

tester dei file robots

Un esempio di robots.txt per WordPress

Avviso: Non esiste un file universale robots.txt, a seconda delle impostazioni del tuo sito potrebbe essere necessario aggiungere, modificare o rimuovere le restrizioni.

Per aiutarti a capire meglio il funzionamento del file robots.txt vorrei mostrarvi un vero esempio. Questo è lo stesso file che uso in questo blog, quindi un esempio orientato a WordPress.

Ho recentemente aggiornato il  mio file robots.txt  come segue (senza i numeri di riga):

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://seoking.it/sitemap_index.xml

Ora vorrei spiegare ogni linea:

  • Linea 1 – Dichiaro che le istruzioni che seguono riguardano i robot di qualsiasi motore di ricerca.
  • Linea 2  – Dichiaro di  bloccare l’area di back and admin di wordpress
  • Linea 3  – Dichiaro di seguire un percorso all’interno dell’aria admin il file ajax.php
  • Linea 4  – Indicare il percorso in cui si trova la mappa XML del mio sito.

Cosa sono i Meta Robots?

I tag Meta Robots (tag REP) sono elementi di una direttiva indicizzatore che indicano agli spider dei motori di ricerca come eseguire la scansione e indicizzare pagine specifiche sul tuo sito web. Consentono ai professionisti SEO di indirizzare le singole pagine e istruiscono i crawler su cosa seguire e cosa non seguire.

Come usare i tag Meta Robots? qui troverai una guida dedicata.
I tag Meta Robots sono piuttosto semplici da usare.

Innanzitutto , non ci sono molti tag REP. Esistono solo quattro parametri principali dei tag:

Seguire : Index
Non seguire : noindex
In secondo luogo , non occorre molto tempo per impostare i tag dei meta robot. In quattro semplici passaggi, puoi portare il processo di indicizzazione del tuo sito su un livello:

Accedi al codice di una pagina premendo CTRL + U.
Copia e incolla la parte <head> del codice di una pagina in un documento separato.
Fornire linee guida passo-passo agli sviluppatori che utilizzano questo documento. Concentrati su come, dove e su quali tag meta robot inserire nel codice.
Verifica che lo sviluppatore abbia implementato correttamente i tag. Raccomando di usare The Screaming Frog SEO Spider per farlo.

Hai avuto problemi a creare il tuo file robots.txt?

Post suggeriti
Lascia un commento
Showing 2 comments
  • daddy85
    Rispondi

    Grazie al tuo articolo ho risolto il problema di alcune pagine bloccate a mia insaputa dal file robots

    • Seoking
      Rispondi

      Ringraziamo te per aver seguito il nostro articolo

Leave a Comment

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.

Contatti

Illeggibile? Cambia il testo. captcha txt

Inizia a digitare e premi Enter per effettuare una ricerca

contenuti duplicatimeta robots