Se no vuoi indicizzare alcune pagine negli indici dei motori di ricerca, il file robots.tx è uno strumento versatile.
Consente di indicare quali file o directory si desidera escludere dalla scansione.
Inoltre, ha un comando molto utile per indicare dove è ospitata la Sitemap.
Ma il file robots.txt ha un inconveniente importante, in quanto non consente che PageRank scorri tra le pagine bloccate.
Fortunatamente, il tag meta robots evita questo problema.
Indice di riferimento
Come funziona il meta robots
Meta robots è un tag HTML utilizzato per fornire istruzioni ai motori di ricerca. Come il file robots.txt, può essere utilizzato per impedire la scansione e l’ indicizzazione di una pagina web , tuttavia, c’è una differenza.
Mentre il file robots.txt chiede ai motori di ricerca di non eseguire la scansione di una pagina (e quindi non indicizzarla), il meta tag per i robot consentono di eseguire la scansione di una pagina, ma non di memorizzarla nel suo indice. Questo ha un grande vantaggio al livello di SEO, ma per farvi capire farò un esempio:
Supponiamo di avere 2 pagine che non vogliamo far apparire nell’indice Google. Uno è bloccato dal file robots.txt e l’altro dal tag meta robots.
Questo è ciò che accadrà:
- La pagina bloccata con il file robots.txt non verrà indirizzata, il contenuto della pagina non sarà invisibile al motore di ricerca, bloccando anche i link in uscita.
- La pagina bloccata con meta robots non verrà indicizzata, ma verrà seguita dal motore di ricerca, i link non verranno bloccati, trasmettendo il valore di tali collegamenti.
Vantaggi meta robots versus robots.txt
Dato che i motori di ricerca seguono i link interni per scoprire le pagine di un sito web, i meta tag robots hanno un vantaggio evidente,impedisce l’indicizzazione di alcune pagine, senza diventare un ostacolo per lo spider nel suo compito di scoprire nuovi pagine del sito.
Questo esempio va bene per pagine, che per loro natura tendono a duplicare contenuti come:
- Risultati di ricerca interni
- File di categoria
- Tag Archives
- Autori degli autori
- File Data
Come utilizzare il tag meta robots
Devono essere inseriti nel codice HTML della tua pagina, e più in particolare, nella sezione delimitata dai tag <head> e </ head> .
Il codice del tag è simile a questo:
<meta name = “robots” content = ” VALORI “>
Dove i VALORI possono essere inclusi:
- Index / NoIndex – Indica se la tua pagina deve essere inclusa negli indici di ricerca oppure no
- Follow / NoFollow – Indica se i collegamenti nella pagina devono essere tracciati e passare il valore di collegamento o meno
Inoltre puoi includere altri valori come NoODP , NoYDIR e NoArchive , ma non preoccuparti al momento. Ciò che conta ora sono le combinazioni che possono essere fatte con i 2 tipi di valori che ti ho detto prima e che sono correlati all’indicizzazione e al tracciamento:
- index, follow – Consente l’indicizzazione e la scansione della pagina dai motori di ricerca. È la combinazione predefinita e quella assunta quando non si dispone di questo tag nelle pagine.
- NoIndex, Follow – Impedisce l’indicizzazione ma consente la tracciabilità. È la combinazione ideale quando si desidera impedire la visualizzazione di una pagina nell’indice dei motori di ricerca.
- Index, NoFollow – Consente l’indicizzazione ma evita la scansione. È la combinazione che si dovrebbe utilizzare quando una pagina contiene collegamenti che non supportano necessariamente (questo è il caso di pagine in cui il contenuto viene generato dall’utente).
- NoIndex, NoFollow – Impedisce l’indicizzazione e la scansione. Sinceramente, non esistono molte ragioni per utilizzare questa combinazione.
Combinazione alternativa al robots.txt
Secondo quello che abbiamo visto, quello che è formato dalla coppia NoIndex e Follow . È la combinazione che impedisce l’indicizzazione di una pagina web nell’indice del motore di ricerca allo stesso tempo che consente il monitoraggio e il flusso dei collegamenti.
Il tuo codice HTML è:
<meta name = “robots” content = ” noindex, follow “>
E per farlo funzionare ricorda che dovrebbe apparire all’interno della sezione delimitata da <head> e </ head> nel codice della tua pagina.
Se stai usando un CMS, dovresti aver bisogno di qualche plugin per configurarlo. Nel caso di WordPress sarà di grande aiuto:
Dovremmo smettere di utilizzare robots.txt?
Assolutamente NO!!!!!! Il file robots.txt è ancora uno strumento potente per bloccare directory complete e tutti i tipi di file ospitati sul server.
Personalmente, uso il file robot per bloccare tutto quello che non posso con il tag meta robots e il tag meta robots per tutto il resto.
Qual’è la tua visone dei meta robots? hai avuto problemi di configurazione ?