In Google, SEO

Configurazione robot.txt

I motori di ricerca sono avidi di natura.

Vogliono indicizzare il maggior numero possibile di informazioni, quindi quando arrivano al tuo sito, leggono tutto.

Il problema si presenta quando si desidera impedire che alcune pagine siano incluse nei tuoi indici, cosa farai allora?

Hai 2 opzioni:

  1. Inserire un’etichetta speciale in ogni pagina (vedere Meta Robots )   url da mettere
  2. Utilizza un file centralizzato per controllare la voce

Questa ultima opzione è il file  robots.txt .

Cos’è il file robots.txt e per che cosa serve?

robot  vengono utilizzati dai motori di ricerca per la scansione del web. Quando arrivano al tuo sito , la prima cosa che fanno è cercare il file robots.txt.

È possibile comprendere il file robots.txt come un elenco di robot non supportati , che consente di limitare l’accesso al tuo sito in modo selettivo. Se ci sono pagine che preferite tenere fuori dalla portata dei motori di ricerca il file robots.txt. ti viene in aiuto.

Più specificamente, è possibile utilizzare il file robots.txt per :

Ora, ecco alcune cose da tenere in mente riguardo a robots.txt:

  • Alcuni robot potrebbero ignorare le istruzioni contenute in questo file, in particolare i robot dannosi o il malware
  • Il file è pubblico, il che significa che chiunque può visualizzarlo solo digitando www.example.com/robots.txt

Quindi, se si intende utilizzare robots.txt per nascondere informazioni private, è necessario cercare un’altra alternativa.

Come generare il file robots.txt

La generazione del file è molto semplice, basta creare un documento di testo con il nome “robots.txt” e caricarlo nella radice del tuo dominio ( http://www.example.com/robots.txt ), che è il luogo dove i motori di ricerca sperano di trovarlo.

Il più facile crearlo manualmente, utilizzando il  blocco note  o un editor di codice come Notepad ++,

Per caricare il file utilizzare un client FTP come FileZilla o Cyberduck .

Ecco un esempio di file robots.txt base, Potete copiarlo ed incollarlo direttamente così com’è

Agente utente: *
Disallow:

Queste istruzioni consentono a tutti i motori di ricerca di indicizzare ogni parte del sito, compreso, tema, immagini,ecc….. praticamente libero accesso, gli spider troveranno le porte spalancate.

Comandi principali

I comandi utilizzati dal file robots.txt provengono dal cosiddetto Protocollo di esclusione dei robot , una convenzione universale la cui sintassi deve seguire:

  • È possibile utilizzare solo i comandi consentiti (anche se alcuni browser comprendono comandi aggiuntivi)
  • Devi rispettare le lettere maiuscole, la punteggiatura e gli spazi
  • Ogni gruppo User-agent / Disallow deve essere separato da una riga vuota
  • Puoi includere i commenti utilizzando il simbolo pad o hash (#)

I comandi più importanti sono:

  • User Agent – Indica quale tipo di robot deve rispettare le direttive elencate in seguito.
  • Disallow – nega l’ accesso a una directory o una pagina specifiche.
  • Allow – Funziona al contrario della direttiva Disallow, consentendo l’accesso alle directory e alle pagine. Può essere usato per sovrascrivere parzialmente o totalmente la direttiva Disallow.
  • Sitemap – Indicare il percorso in cui è posizionata una mappa del sito in XML.
  • Crawl-delay – Indica al robot il numero di secondi da attendere tra ogni pagina. Può essere utile nei casi in cui è necessario ridurre il carico del server.

Inoltre, è possibile utilizzare i caratteri jolly :

  • Asterisco (*) – Valido per qualsiasi sequenza di caratteri. Ad esempio, tutte le directory che iniziano con “private” sarebbero “/ private * /”
  • Dollaro ($) – Indica la fine di un URL. Ad esempio, per indicare che qualsiasi file che termina con l’estensione .php utilizzi “/*.php$”.

Restrizioni più comuni

Con i comandi  è possibile creare ogni tipo di restrizione. Tuttavia, non è una buona idea essere creativi con il file di robot, in quanto potrestie finire per bloccare qualcosa che non vuoi.

è meglio attenersi alle restrizioni più comuni, quali:

  • Includi tutti i robot – User-agent: *
  • Specificare il robot Google – Agente utente: Googlebot
  • Specificare il robot Bing – Agente utente: Bingbot
  • Negare l’intero sito – Disallow: /
  • Negare una directory – Disallow: / directory /
  • Annulla directory che iniziano con “qualcosa” – Disallow: / maglietta rossa * /
  • Negare una pagina – Disallow: /pagina-web.htm
  • Elimina le directory e le pagine che iniziano con “qualcosa” – Disallow: / maglietta rossa
  • Negare l’estensione .gif – Disallow: /*.gif$
  • Consenti una sottodirectory – Allow: / directory / subdirectory /
  • Bookmark Sitemap – Sitemap: http://www.example.com/sitemap.xml

Sblocca le funzionalità CSS e JS

Fintanto che Google aggiorna le Linee guida per i webmaster specificando che la negazione dell’accesso ai file CSS e JavaScript con robots.txt potrebbe danneggiare il tuo posizionamento, è una buona idea sbloccare qualsiasi directory che li possa contenere. Così il motore di ricerca è libero di elaborare le pagine in modo completo e sapere come l’utente li vedrà.

Per scoprire come Google vede le tue pagine, utilizza lo strumento di Google search console Crawl> Esplora come Google  . Se non somiglia a quello che vedete nel browser o se ricevi errori o avvisi, rimuovi le righe dal file robots.txt che blocca l’accesso agli URL.

Un’altra alternativa più sicura è aprire esplicitamente la strada alle risorse CSS e JavaScript. In questo modo non importa se la directory è bloccata, Google sarà in grado di accedere alle risorse necessarie:

User-Agent: Googlebot
Consenti: /*.css$
Consenti: /*.js$

Convalida il file

Quando crei o modifichi il tuo file robots.txt, tieni presente che un errore semplice può bloccare l’accesso ai motori di ricerca e danneggiare la tua visibilità.

Il controllo è facile da fare con lo strumento Tester dei file di  Robots in Google Search Console. È anche una buona idea utilizzare la funzione  Visualizza come Google  per assicurarsi che non ci siano risorse bloccate.

tester dei file robots

Un esempio di robots.txt per WordPress

Avviso : Non esiste un file universale robots.txt, a seconda delle impostazioni del tuo sito potrebbe essere necessario aggiungere, modificare o rimuovere le restrizioni.

Per aiutarti a capire meglio il funzionamento del file robots.txt vorrei mostrarvi un vero esempio. Questo è lo stesso file che uso in questo blog, quindi un esempio orientato a WordPress.

Ho recentemente aggiornato il  mio file robots.txt  come segue (senza i numeri di riga):

User-agent: *
Disallow:
Allow: /wp-admin/admin-ajax.php
Sitemap: https://seoking.it/sitemap_index.xml

Ora vorrei spiegare ogni linea:

  • Linea 1 – Dichiaro che le istruzioni che seguono riguardano i robot di qualsiasi motore di ricerca.
  • Linea 2  – Dichiaro di non bloccare nessuna cartella o directory
  • Linea 3  – Dichiaro di seguire un percorso per il funzionamento di un plug-in
  • Linea 4  – Indicare il percorso in cui si trova la mappa XML del mio sito.

Informazioni sul blocco di / wp-admin /

Devi sapere che non è necessario bloccare / wp-admin / nel file robots.txt. WordPress blocca già le pagine di directory utilizzando l’ intestazione HTTP X-Robots-Tag .

mezzi

Se hai bisogno di ulteriori informazioni sul file robots.txt, puoi trovare nelle pagine seguenti:

Hai avuto problemi a creare il tuo file robots.txt?

Ti è piaciuto l'articolo ?
[Totale: 0 Media Voto: 0]
Post recenti
Lascia un commento
Showing 2 comments
  • daddy85
    Rispondi

    Grazie al tuo articolo ho risolto il problema di alcune pagine bloccate a mia insaputa dal file robots

    • Seoking
      Rispondi

      Ringraziamo te per aver seguito il nostro articolo

Leave a Comment

Inizia a digitare e premi Enter per effettuare una ricerca

contenuti duplicatimeta robots