File Robots.txt

 In SEO

Configurazione Robots.txt

I motori di ricerca sono avidi di natura.

Vogliono indicizzare il maggior numero possibile d’informazioni, quindi quando arrivano al tuo sito, leggono tutto.

Il problema si presenta quando si desidera impedire che alcune pagine siano incluse nei database di Google evitando l’indicizzazione della pagina o categoria.

In quale caso è utile bloccare gli spider e rendere una pagina non visibile nei database di Google? Possono essere svariati casi per esempio:

  • Le pagine che ospitano i moduli di Login per accedere a un’aria privata per esempio.
  • Pagine che ospitano moduli per i metodi di pagamento.
  • Sezioni private del sito web.

Generalmente se non c’è una ragione valida nel bloccare la lettura di una pagina si consiglia sempre la totale lettura, ma se proprio necessiti di questa funziona continua a leggere

 

Cos’è il file robots.txt ?

Robots.txt è un file di testo che viene utilizzato per istruire i robot del motore di ricerca (noti anche come crawler, robot o spider) come eseguire la scansione e l’indicizzazione delle pagine del sito Web. Idealmente, un file robots.txt viene inserito nella directory di livello superiore del tuo sito Web in modo che i robot possano accedere alle sue istruzioni immediatamente.

Per comunicare i comandi a diversi tipi di crawler di ricerca, un file robots.txt deve seguire gli standard specifici presenti nel protocollo di esclusione dei robot (REP), creato nel 1994 e sostanzialmente ampliato nel 1996, nel 1997 e nel 2005.

Nel corso della loro storia, i file robots.txt sono stati gradualmente migliorati per supportare specifiche direttive del crawler, estensioni del pattern URI,  (note anche come tag REP o meta tag robots) e il microformat rel = “nofollow”.

Poiché i file robots.txt indica ai crawler di ricerca come eseguire la scansione o non eseguire la scansione di questa o quella parte del sito Web, sapere come utilizzare e impostare questi file è piuttosto importante. Se un file robots.txt è impostato in modo errato, può causare errori di indicizzazione. Quindi, ogni volta che avvii una nuova campagna SEO, controlla il tuo file robots.txt con lo strumento di verifica messo a disposizione da Google ovvero la search console test robots.txt

Non dimenticare: se tutto è a posto, un file robots.txt velocizzerà il processo di indicizzazione.

È possibile comprendere il file robots.txt come un semaforo dove lo spider o si ferma o procede, consente di limitare l’accesso al tuo sito web in modo selettivo. Se ci sono pagine che preferite tenere fuori dalla portata dei motori di ricerca il file robots.txt  viene in aiuto.

È possibile utilizzare il file robots.txt per:

  • Pagine con contenuti duplicati
  • Pagine di paginazione
  • Pagine dinamiche di prodotti e servizi
  • Pagine dell’account
  • Pagine di amministrazione
  • Carrello della spesa
  • chat
  • Pagine di ringraziamento

Ora, ecco alcune cose da tenere in mente riguardo a robots.txt:

  • Alcuni spider potrebbero ignorare le istruzioni contenute in questo file, in particolare,  spider dannosi come i malware, il file è pubblico, il che significa che chiunque può visualizzarlo solo digitando www.example.com/robots.txt

Quindi, se si intende utilizzare il file robots.txt per nascondere informazioni private, è necessario cercare un’altra alternativa.

Come generare il file robots.txt

La generazione del file è molto semplice, basta creare un documento di testo con il nome “robots.txt” e caricarlo nella radice del tuo dominio ( http://www.example.com/robots.txt ), luogo dove i motori di ricerca sperano di trovarlo.

Puoi crearlo manualmente, utilizzando il  blocco note  o un editor di codice come Notepad ++,

Per caricare il file utilizzare un client FTP come FileZilla o Cyberduck .

Ecco un esempio di file robots.txt base, Potete copiarlo e incollarlo direttamente così com’è.

User-agent: *
Disallow:

Queste istruzioni consentono a tutti i motori di ricerca d’indicizzare ogni parte del sito web, compreso, tema, immagini,  praticamente libero accesso, gli spider troveranno le porte spalancate.

Bloccare robots.txt

Se invece desideri bloccare la lettura del tuo sito web agli spider, calare la serranda e lasciare tutti fuori, adotta questa configurazione.

User-agent: *
Disallow: /

Oppure nascondi la struttura della directory del tuo sito e le categorie specifiche, come questa:

User-agent: *
Disallow: / no-index /

Il file robots consente anche di dare la priorità a determinate pagine, categorie e persino porzioni di codice CSS e JS, dai un’occhiata qui sotto.

robots seo

Con questa configurazione non sono consentite delle pagine WordPress e categorie specifiche, ma sono consentiti file di contenuto wp, plug-in JS, stili CSS e blog. Questo approccio garantisce che gli spider eseguano la scansione e indicizzino codice e categorie utili.

Comandi principali

I comandi utilizzati dal file robots.txt provengono dal cosiddetto Protocollo di esclusione dei robot , una convenzione universale la cui sintassi deve seguire:

  • È possibile utilizzare solo i comandi consentiti (anche se alcuni browser comprendono comandi aggiuntivi)
  • Devi rispettare le lettere maiuscole, la punteggiatura e gli spazi
  • Ogni gruppo User-agent / Disallow deve essere separato da una riga vuota
  • Puoi includere i commenti utilizzando il simbolo pad o hash (#)

I comandi più importanti sono:

  • User Agent – Indica quale tipo di robot deve rispettare le direttive elencate in seguito.
  • Disallow – nega l’ accesso a una directory o una pagina specifiche.
  • Allow – Funziona al contrario della direttiva Disallow, consentendo l’accesso alle directory e alle pagine. Può essere usato per sovrascrivere parzialmente o totalmente la direttiva Disallow.
  • Sitemap – Indicare il percorso in cui è posizionata una mappa del sito in XML.
  • Crawl-delay – Indica al robot il numero di secondi da attendere tra ogni pagina. Può essere utile nei casi in cui è necessario ridurre il carico del server.

Inoltre, è possibile utilizzare i caratteri jolly :

  • Asterisco (*) – Valido per qualsiasi sequenza di caratteri. Ad esempio, tutte le directory che iniziano con “private” sarebbero “/ private * /”
  • Dollaro ($) – Indica la fine di un URL. Ad esempio, per indicare che qualsiasi file che termina con l’estensione .php utilizzi “/*.php$”.
Guida file robot

Guida file robot

Comandi robots.txt

Con i comandi  è possibile creare ogni tipo di restrizione. Tuttavia, non è una buona idea essere creativi con il file di robot, in quanto potreste finire per bloccare qualcosa che non si vuole.

È meglio attenersi alle restrizioni più comuni, quali:

  • Includi tutti i robot – User-agent: *
  • Specificare il robot Google – Agente utente: Googlebot
  • Specificare il robot Bing – Agente utente: Bingbot
  • Negare l’intero sito – Disallow: /
  • Negare una directory – Disallow: / directory /
  • Annulla directory che iniziano con “qualcosa” – Disallow: / maglietta rossa * /
  • Negare una pagina – Disallow: /pagina-web.htm
  • Elimina le directory e le pagine che iniziano con “qualcosa” – Disallow: / maglietta rossa
  • Negare l’estensione .gif – Disallow: /*.gif$
  • Consenti una sottodirectory – Allow: / directory / subdirectory /
  • Bookmark Sitemap – Sitemap: http://www.example.com/sitemap.xml

Sblocca le funzionalità CSS e JS

Fintanto che Google aggiorna le Linee guida per i webmaster specificando la negazione dell’accesso ai file CSS e JavaScript con robots.txt potrebbe danneggiare il tuo posizionamento, è una buona idea sbloccare qualsiasi directory che li possa contenere. Così il motore di ricerca può leggere le pagine in modo completo.

Per scoprire come Google vede le tue pagine, utilizza lo strumento di Google search console visualizza come google . Se non somiglia a quello che vedete nel browser o se ricevi errori o avvisi, rimuovi le righe dal file robots.txt che blocca l’accesso agli URL.

Un’altra alternativa più sicura potrebbe essere aprire esplicitamente la strada alle risorse CSS e JavaScript. In questo modo non importa se la directory è bloccata, Google sarà in grado di accedere alle risorse necessarie:

User-Agent: Googlebot
Consenti: /*.css$
Consenti: /*.js$

Convalida il file

Quando crei o modifichi il tuo file robots.txt, tieni presente che un errore semplice può bloccare l’accesso ai motori di ricerca e danneggiare la tua visibilità.

Il controllo è facile da fare con lo strumento Tester dei file di  Robots in Google Search Console. può essere una buona idea utilizzare la funzione Visualizza come Google  per assicurarsi che non ci siano risorse bloccate.

tester dei file robots

Un esempio di robots.txt per WordPress

Avviso: Non esiste un file universale robots.txt, a seconda delle impostazioni del tuo sito potrebbe essere necessario aggiungere, modificare o rimuovere le restrizioni.

Per aiutarti a capire meglio il funzionamento del file robots.txt vorrei mostrarvi un vero esempio. Questo è lo stesso file che uso in questo blog, quindi un esempio orientato a WordPress.

Ho recentemente aggiornato il  mio file robots.txt  come segue (senza i numeri di riga):

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://seoking.it/sitemap_index.xml

Ora vorrei spiegare ogni linea:

  • Linea 1 –  Dichiaro che le istruzioni che seguono riguardano i robot di qualsiasi motore di ricerca.
  • Linea 2  – Dichiaro di  bloccare l’area di back and admin di wordpress
  • Linea 3  – Dichiaro di seguire un percorso all’interno dell’aria admin il file ajax.php
  • Linea 4  – Indicare il percorso in cui si trova la mappa XML del mio sito.

Lista user-agent

Il file robots.txt può essere usato anche per bloccare gli user agent indesiderati, come ad esempio tutti gli spider dei motori di ricerca provenienti da altre nazioni, questa tecnica può essere applicata se volete escludere per esempio tutti gli spider proveninti dal Giappone, dalla Korea o spider Cinesi e Russi.

# MOTORI DI RICERCA GIAPPONESI
User-agent: moget
User-agent: ichiro
Disallow: /

# MOTORI DI RICERCA COREANI
User-agent: NaverBot
User-agent: Yeti
Disallow: /

# MOTORI DI RICERCA CINESI
User-agent: Baiduspider
User-agent: Baiduspider-video
User-agent: Baiduspider-image
User-agent: sogou spider
User-agent: YoudaoBot
Disallow: /

# MOTORI DI RICERCA RUSSI
User-agent: Yandex
Disallow: /

 

User agent lista completa

Se desideri far leggere il tuo sito solo da google e bloccare tutti gli altri motori di ricerca puoi copiare questa lista di crowler divisi per nazione

 

User-agent: Googlebot-Image
Disallow:

#Disable User Agent
User-agent: A1 Sitemap Generator
Disallow: /

User-agent: ABACHOBot
Disallow: /

User-agent: ABCdatos BotLink
Disallow: /

User-agent: Aboundexbot
Disallow: /

User-agent: AboutUsBot
Disallow: /

User-agent: Accoona-AI-Agent
Disallow: /

User-agent: AddSugarSpiderBot
Disallow: /

User-agent: adidxbot
Disallow: /

User-agent: Ahoy! The Homepage Finder
Disallow: /

User-agent: AITCSRobot/1.1
Disallow: /

User-agent: AMZNKAssocBot
Disallow: /

User-agent: Arachnophilia
Disallow: /

User-agent: ArchitextSpider
Disallow: /

User-agent: ASpider/0.09
Disallow: /

User-agent: AURESYS/1.0
Disallow: /

User-agent: AhrefsBot
Disallow: /

User-agent: Alexibot
Disallow: /

User-agent: Aqua_Products
Disallow: /

User-agent: asterias
Disallow: /

User-agent: b2w/0.1
Disallow: /

User-agent: BackRub/.
Disallow: /

User-agent: BackDoorBot/1.0
Disallow: /

User-agent: BaiduSpider
Disallow: /

User-agent: Baiduspider-image
Disallow: /

User-agent: Baiduspider-news
Disallow: /

User-agent: Baiduspider-video
Disallow: /

User-agent: BecomeBot
Disallow: /

User-agent: BeslistBot
Disallow: /

User-agent: Big Brother
Disallow: /

User-agent: Bizbot003
Disallow: /

User-agent: Black Hole
Disallow: /

User-agent: BlackWidow
Disallow: /

User-agent: BLEXBot
Disallow: /

User-agent: BlowFish
Disallow: /

User-agent: BlowFish/1.0
Disallow: /

User-agent: Bookmark search tool
Disallow: /

User-agent: BotALot
Disallow: /

User-agent: BotRightHere
Disallow: /

User-agent: BuiltBotTough
Disallow: /

User-agent: Bullseye/1.0
Disallow: /

User-agent: BunnySlippers
Disallow: /

User-agent: CACTVS Chemistry Spider
Disallow: /

User-agent: CatchBot
Disallow: /

User-agent: ccbot
Disallow: /

User-agent: Cegbfeieh
Disallow: /

User-agent: Checkbot/x.xx LWP/5.x
Disallow: /

User-agent: CheeseBot
Disallow: /

User-agent: CherryPicker
Disallow: /

User-agent: CherryPickerElite/1.0
Disallow: /

User-agent: CherryPickerSE/1.0
Disallow: /

User-agent: coccoc
Disallow: /

User-agent: ChinaClaw
Disallow: /

User-agent: combine/0.0
Disallow: /

User-agent: conceptbot/0.3
Disallow: /

User-agent: Copernic
Disallow: /

User-agent: CopyRightCheck
Disallow: /

User-agent: cosmos
Disallow: /

User-agent: Crescent
Disallow: /

User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0
Disallow: /

User-agent: Custo
Disallow: /

User-agent: CyberPatrol SiteCat Webbot
Disallow: /

User-agent: CyberSpyder/2.1
Disallow: /

User-agent: Daumoa
Disallow: /

User-agent: Deweb/1.01
Disallow: /

User-agent: DISCo
Disallow: /

User-agent: DISCo Pump 3.0
Disallow: /

User-agent: DISCo Pump 3.2
Disallow: /

User-agent: DISCoFinder
Disallow: /

User-agent: DittoSpyder
Disallow: /

User-agent: dotbot
Disallow:/

User-agent: Download Demon
Disallow: /

User-agent: Download Demon/3.2.0.8
Disallow: /

User-agent: Download Demon/3.5.0.11
Disallow: /

User-agent: dumbot
Disallow: /

User-agent: eCatch
Disallow: /

User-agent: eCatch/3.0
Disallow: /

User-agent: EirGrabber
Disallow: /

User-agent: EmailCollector
Disallow: /

User-agent: EmailSiphon
Disallow: /

User-agent: EmailWolf
Disallow: /

User-agent: EnigmaBot
Disallow: /

User-agent: envolk
Disallow: /

User-agent: EroCrawler
Disallow: /

User-agent: es
Disallow: /

User-agent: ExaBot
Disallow: /

User-agent: explorersearch
Disallow: /

User-agent: Express WebPictures
Disallow: /

User-agent: ExtractorPro
Disallow: /

User-agent: EyeNetIE
Disallow: /

User-agent: FairAd Client
Disallow: /

User-agent: FDSE robot
Disallow: /

User-agent: FelixIDE/1.0
Disallow: /

User-agent: fido/0.9 Harvest/1.4.pl2
Disallow: /

User-agent: Fish-Search-Robot
Disallow: /

User-agent: Flaming AttackBot
Disallow: /

User-agent: FlashGet
Disallow: /

User-agent: FlashGet WebWasher 3.2
Disallow: /

User-agent: Freecrawl
Disallow: /

User-agent: FrontPage
Disallow: /

User-agent: Foobot
Disallow: /

User-agent: Gaisbot
Disallow: /

User-agent: Genieo
Disallow: /

User-agent: GetRight/4.2
Disallow: /

User-agent: GetWeb!
Disallow: /

User-agent: Gigabot
Disallow: /

User-agent: Girafabot
Disallow: /

User-agent: Go!Zilla
Disallow: /

User-agent: Golem/1.1
Disallow: /

User-agent: GrabNet
Disallow: /

User-agent: Grafula
Disallow: /

User-agent: grapeshot
Disallow: /

User-agent: Gromit/1.0
Disallow: /

User-agent: gsa-crawler
Disallow: /

User-agent: grub
Disallow: /

User-agent: grub-client
Disallow: /

User-agent: Harvest/1.5
Disallow: /

User-agent: HappyFunBot
Disallow: /

User-agent: Hatena Antenna
Disallow: /

User-agent: Hazel’s Ferret Web hopper
Disallow: /

User-agent: hloader
Disallow: /

User-agent: HMView
Disallow: /

User-agent: httplib
Disallow: /

User-agent: HTTrack
Disallow: /

User-agent: Huaweisymantecspider
Disallow: /

User-agent: humanlinks
Disallow: /

User-agent: ia_archiver
Disallow: /

User-agent: Image Stripper
Disallow: /

User-agent: Image Sucker
Disallow: /

User-agent: inagist.com url crawler
Disallow: /

User-agent: IncyWincy/1.0b1
Disallow: /

User-agent: Indy Library
Disallow: /

User-agent: InfoNaviRobot
Disallow: /

User-agent: Iron33/1.0.2
Disallow: /

User-agent: Informant
Disallow: /

User-agent: INGRID/0.1
Disallow: /

User-agent: InterGET
Disallow: /

User-agent: Internet Ninja 6.0
Disallow: /

User-agent: IRLbot
Disallow: /

User-agent: IsraeliSearch/1.0
Disallow: /

User-agent: ITI Spider
Disallow: /

User-agent: JennyBot
Disallow: /

User-agent: JetCar
Disallow: /

User-agent: JOC Web Spider
Disallow: /

User-agent: JubiiRobot
Disallow: /

User-agent: jumpstation
Disallow: /

User-agent: Katipo/1.0
Disallow: /

User-agent: Keyword Density/0.9
Disallow: /

User-agent: Kenjin Spider
Disallow: /

User-agent: LabelGrab/1.1
Disallow: /

User-agent: larbin
Disallow: /

User-agent: LeechFTP
Disallow: /

User-agent: LexiBot
Disallow: /

User-agent: libWeb/clsHTTP
Disallow: /

User-agent: Linguee Bot
Disallow: /

User-agent: linkdexbot/2.1
Disallow: /

User-agent: LinkedInBot
Disallow: /

User-agent: LinkextractorPro
Disallow: /

User-agent: linklooker
Disallow: /

User-agent: LinkScan/8.1a Unix
Disallow: /

User-agent: LinkWalker
Disallow: /

User-agent: LNSpiderguy
Disallow: /

User-agent: looksmart
Disallow: /

User-agent: lwp-trivial/1.34
Disallow: /

User-agent: lwp-trivial
Disallow: /

User-agent: magpie-crawler
Disallow: /

User-agent: Mass Downloader/2.2
Disallow: /

User-agent: Mata Hari
Disallow: /

User-agent: MediaFox/x.y
Disallow: /

User-agent: MerzScope
Disallow: /

User-agent: METAGOPHER
Disallow: /

User-agent: MIDown tool
Disallow: /

User-agent: MIIxpc
Disallow: /

User-agent: MIIxpc/4.2
Disallow: /

User-agent: MJ12bot
Disallow: /

User-agent: Microsoft URL Control
Disallow: /

User-agent: Microsoft URL Control – 5.01.4511
Disallow: /

User-agent: Microsoft URL Control – 6.00.8169
Disallow: /

User-agent: Mnogosearch
Disallow: /

User-agent: Mister PiX
Disallow: /

User-agent: moget
Disallow: /

User-agent: moget/2.1
Disallow: /

User-agent: Mozilla/4.0 (compatible; BullsEye; Windows 95)
Disallow: /

User-agent: MOMspider/1.00 libwww-perl/0.40
Disallow: /

User-agent: Motor/0.2
Disallow: /

User-agent: MSIECrawler
Disallow: /

User-agent: MSR-ISRCCrawler
Disallow: /

User-agent: MSRBot
Disallow: /

User-agent: NetMechanic
Disallow: /

User-agent: naver
Disallow: /

User-agent: NaverBot
Disallow: /

User-agent: Navroad
Disallow: /

User-agent: NearSite
Disallow: /

User-agent: NeoScioCrawler
Disallow: /

User-agent: Net Vampire/3.0
Disallow: /

User-agent: NetAnts
Disallow: /

User-agent: NetCarta CyberPilot Pro
Disallow: /

User-agent: NetScoop/1.0 libwww/5.0a
Disallow: /

User-agent: NetSpider
Disallow: /

User-agent: NetZIP
Disallow: /

User-agent: NHSEWalker/3.0
Disallow: /

User-agent: NICErsPRO
Disallow: /

User-agent: Nomad-V2.x
Disallow: /

User-agent: NorthStar
Disallow: /

User-agent: NPbot
Disallow: /

User-agent: Nutch
Disallow: /

User-agent: oBot
Disallow: /

User-agent: Occam/1.0
Disallow: /

User-agent: Octopus
Disallow: /

User-agent: Offline Explorer
Disallow: /

User-Agent: OmniExplorer_Bot
Disallow: /

User-agent: OGspider
Disallow: /

User-agent: Open Text Site Crawler V1.0
Disallow: /

User-agent: Openbot
Disallow: /

User-agent: Openfind
Disallow: /

User-agent: Openfind data gathere
Disallow: /

User-agent: Oracle Ultra Search
Disallow: /

User-agent: PageGrabber
Disallow: /

User-agent: PagePeeker
Disallow: /

User-agent: Papa Foto
Disallow: /

User-agent: pavuk
Disallow: /

User-agent: pcBrowser
Disallow: /

User-agent: PerMan
Disallow: /

User-agent: PGP-KA/1.2
Disallow: /

User-agent: ProPowerBot/2.14
Disallow: /

User-agent: ProWebWalker
Disallow: /

User-agent: psbot
Disallow: /

User-agent: Python-urllib
Disallow: /

User-agent: QueryN Metasearch
Disallow: /

User-agent: R6_CommentReader
Disallow: /

User-agent: R6_FeedFetcher
Disallow: /

User-agent: Radiation Retriever 1.1
Disallow: /

User-agent: RealDownload/4.0.0.42
Disallow: /

User-agent: ReGet
Disallow: /

User-agent: RepoMonkey
Disallow: /

User-agent: RepoMonkey Bait & Tackle/v1.01
Disallow: /

User-agent: Resume Robot
Disallow: /

User-agent: RMA
Disallow: /

User-agent: Roverbot
Disallow: /

User-agent: SafetyNet Robot 0.1
Disallow: /

User-agent: ScoutJet
Disallow: /

User-agent: searchpreview
Disallow: /

User-agent: SurveyBot
Disallow: /

User-agent: SiteSnagger
Disallow: /

User-agent: Senrigan/xxxxxx
Disallow: /

User-agent: SeznamBot
Disallow: /

User-agent: SiteSnagger
Disallow: /

User-agent: SlySearch
Disallow: /

User-agent: SmartDownload
Disallow: /

User-agent: Snooper/b97_01
Disallow: /

User-agent: Solbot/1.0 LWP/5.07
Disallow: /

User-agent: sootle
Disallow: /

User-agent: Sosospider
Disallow: /

User-agent: Sogou web spider
Disallow: /

User-agent: SpankBot
Disallow: /

User-agent: spanner
Disallow: /

User-agent: Spanner/1.0 (Linux 2.0.27 i586)
Disallow: /

User-agent: Speedy Spider
Disallow: /

User-agent: spyder3.microsys.com
Disallow: /

User-agent: SuperBot
Disallow: /

User-agent: SuperHTTP/1.0
Disallow: /

User-agent: Surfbot
Disallow: /

User-agent: suzuran
Disallow: /

User-agent: Szukacz/1.4
Disallow: /

User-agent: tAkeOut
Disallow: /

User-agent: Teleport
Disallow: /

User-agent: TeleportPro
Disallow: /

User-agent: Telesoft
Disallow: /

User-agent: The Intraformant
Disallow: /

User-agent: TheNomad
Disallow: /

User-agent: TightTwatBot
Disallow: /

User-agent: Titan
Disallow: /

User-agent: toCrawl/UrlDispatcher
Disallow: /

User-agent: True_Robot
Disallow: /

User-agent: True_Robot/1.0
Disallow: /

User-agent: turingos
Disallow: /

User-agent: TurnitinBot
Disallow: /

User-agent: Twiceler
Disallow: /

User-agent: UCSD-Crawler
Disallow: /

User-agent: UnisterBot
Disallow: /

User-agent: UnwindFetchor/1.0
Disallow: /

User-agent: URL Control
Disallow: /

User-agent: URL_Spider_Pro
Disallow: /

User-agent: urlck/1.2.3
Disallow: /

User-agent: URLy Warning
Disallow: /

User-agent: Valkyrie/1.0 libwww-perl/0.40
Disallow: /

User-agent: vBSEO
Disallow: /

User-agent: VCI
Disallow: /

User-agent: VCI WebViewer VCI WebViewer Win32
Disallow: /

User-agent: VoidEYE
Disallow: /

User-agent: VoilaBot
Disallow: /

User-agent: Web Image Collector
Disallow: /

User-agent: Web Sucker
Disallow: /

User-agent: WebAuto
Disallow: /

User-agent: WebBandit
Disallow: /

User-agent: WebBandit/3.50
Disallow: /

User-agent: WebCopier
Disallow: /

User-agent: WebEnhancer
Disallow: /

User-agent: WebFerret
Disallow: /

User-agent: WebFetch
Disallow: /

User-agent: WebLeacher
Disallow: /

User-agent: WebReaper
Disallow: /

User-agent: WebmasterWorld Extractor
Disallow: /

User-agent: WebmasterWorldForumBot
Disallow: /

User-agent: Website Quester
Disallow: /

User-agent: WebSauger
Disallow: /

User-agent: Website Quester
Disallow: /

User-agent: Webster Pro
Disallow: /

User-agent: WebStripper
Disallow: /

User-agent: WebVac
Disallow: /

User-agent: webwalk
Disallow: /

User-agent: WebWatch
Disallow: /

User-agent: WebWhacker
Disallow: /

User-agent: WebZip
Disallow: /

User-agent: WebZip/4.0
Disallow: /

User-agent: Wget/1.6
Disallow: /

User-agent: Wget/1.5.3
Disallow: /

User-agent: Wget
Disallow: /

User-agent: WWW-Collector-E
Disallow: /

User-agent: WhoWhere Robot
Disallow: /

User-agent: Widow
Disallow: /

User-agent: Xaldon WebSpider
Disallow: /

User-agent: Xenu’s
Disallow: /

User-agent: Xenu’s Link Sleuth 1.1c
Disallow: /

User-agent: Yandex
Disallow: /

User-agent: YandexBot
Disallow: /

User-agent: Zeus
Disallow: /

User-agent: Zeus Link Scout
Disallow: /

User-agent: Zeus 32297 Webster Pro V2.9 Win32
Disallow: /

User-agent: ZyBorg
Disallow: /

User-agent: 008
Disallow: /

User-agent: 200PleaseBot
Disallow: /

User-agent: 360Spider
Disallow: /

User-agent: 4seohuntBot
Disallow: /

 

Cosa sono i Meta Robots?

I tag Meta Robots (tag REP) sono elementi di una direttiva che indicano agli spider dei motori di ricerca come eseguire la scansione e indicizzare pagine specifiche sul tuo sito web. Consentono ai professionisti SEO di indirizzare le singole pagine e istruiscono i crawler su cosa seguire e cosa non seguire.

Come usare i tag Meta Robots? qui troverai una guida dedicata.
I tag Meta Robots sono piuttosto semplici da usare.

Innanzitutto , non ci sono molti tag REP. Esistono solo quattro parametri principali dei tag:

Seguire : Index
Non seguire : noindex
In secondo luogo , non occorre molto tempo per impostare i tag dei meta robot. In quattro semplici passaggi, puoi portare il processo di indicizzazione del tuo sito su un livello:

Accedi al codice di una pagina premendo CTRL + U.
Copia e incolla la parte <head> del codice di una pagina in un documento separato.
Fornire linee guida passo-passo agli sviluppatori che utilizzano questo documento. Concentrati su come, dove e su quali tag meta robot inserire nel codice.
Verifica che lo sviluppatore abbia implementato correttamente i tag. Raccomando di usare The Screaming Frog SEO Spider per farlo.

Hai avuto problemi a creare il tuo file robots.txt?

Post suggeriti
Lascia un commento
Showing 2 comments
  • daddy85
    Rispondi

    Grazie al tuo articolo ho risolto il problema di alcune pagine bloccate a mia insaputa dal file robots

    • Seoking
      Rispondi

      Ringraziamo te per aver seguito il nostro articolo

Leave a Comment

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.

Contatti

Illeggibile? Cambia il testo. captcha txt

Inizia a digitare e premi Enter per effettuare una ricerca

contenuti duplicatimeta robots