20 luglio 2021

Robots.txt: cos’è, a cosa serve e quali sono i suoi benefici

Scritto daAlex Baldarelli

Tempo stimato per la lettura7 minuti

Funzione robots.txt: limitare per migliorare
Se il sito web riporta dei sottodomini, sarà necessario creare un file di testo unico per ogni parte. Ciò significa che il sito principale avrà un proprio file robots.txt e, allo stesso modo, ogni altro sottodominio presenterà il suo specifico.
Robots.txt viene utilizzato per agevolare l’analisi del sito: grazie alla struttura del file di testo, il motore di ricerca è in grado di riconoscere quali settori del sito possono essere scansionati e quali, invece, si rivelano contenuti da evitare. Ciò permette di definire una limitazione per i contenuti non importanti e che, secondo il proprietario del sito web, non risultano essere rilevanti per l’analisi e l’ottimizzazione nel motore di ricerca, così da semplificare e alleggerire la scansione generale. È permesso, se lo si desidera, limitare l’accesso a determinate cartelle o settori del sito, richiedendo così di non indicizzare quel determinato soggetto.

I motori di ricerca con regolarità analizzano i siti web alla ricerca dei contenuti da scansionare e ottimizzare. Le istruzioni rilasciate dal robots.txt, più comunemente citate come direttive, facilitano l’operato, riportando delle precise spiegazioni da seguire alla lettera. Differentemente rispetto ad altri, di cui non si hanno certezze, il motore di ricerca Google ha aggiunto una limitazione. Questo, infatti, richiede un file robots.txt che non superi il peso di 500kb. Se il file di testo riporta un peso superiore, Google non seguirà le sue direttive ma procederà come se non esistesse alcun file di testo.
Ciò significa che, in assenza del file di testo, i crawler procederanno con la scansione completa del sito, senza alcuna limitazione.

Come riconoscere la presenza o meno del file di testo robots.txt
La presenza o meno del file robots.txt si può accertare dalla risposta che lo spider riceve nel momento in cui inizia l’analisi del sito. In base al tipo di risposta che recepirà, il crawler si muoverà di conseguenza. Se si presenta il codice http 404, il crawler capirà che il sito in questione non riporta alcun tipo di file e perciò analizzerà l’intero sito web. Al contrario, il codice http 200 evidenzia la presenza del file che potrebbe perciò supportare delle limitazioni che lo spider dovrà seguire. Se il software non riceverà alcun tipo di risposta, ovvero non leggerà nessun tipo di codice, il crawler non scansionerà il sito.

Scrivere il file di testo robots.txt
Appurata l’importanza di inserire all’interno della propria directory principale un file robots.txt, è di vitale importanza essere in grado di scrivere al meglio il file di testo. Inserire le direttive senza però conoscerle, invece di migliorare il proprio posizionamento, potrebbe finire per danneggiarlo. Nel caso in cui, successivamente, il testo volesse essere modificato, si può procedere manualmente oppure utilizzando un plugin di SEO come ad esempio Yoast SEO.
La presenza di un file corretto, che riporta cioè indicazioni precise, permette di eseguire la scansione in modo adeguato. Ciò consente anche di evitare l’ottimizzazione di contenuti doppi, rendendo così difficoltoso il posizionamento degli stessi.
Oltretutto, l’analisi del sito deve rientrare in determinate tempistiche. Esistono, ovvero, dei tempi che il software deve rispettare per analizzare un sito web. Le direttive inserite all’interno del robots.txt permettono di indirizzare la scansione verso i file principali, così da posizionare i propri contenuti nella maniera più strategica.

Migliorare visibilità sito: cosa inserire nel file robots.txt
La creazione del file robots.txt parte da un documento .txt vuoto. Inserite le direttive e rinominato il file con la dicitura “robots.txt”, il foglio verrà inserito, come scritto inizialmente, all’interno della directory principale del server. Se si preferisce una guida, è bene creare il proprio documento all’interno di un generatore di file robots.txt, in grado anche di riconoscere ed evitare eventuali errori. Prima regola importante da ricordare è che ogni direttiva deve essere inserita su una propria riga. Scrivere il documento senza separare le istruzioni porterebbe confusione al motore di ricerca, rischiando così di creare inesattezze.
ogni azione che si vuole svolgere riporta delle determinate diciture.

Prendiamo un esempio di robots.txt:

User-agent: Googlebot

Disallow: /Breadcrumb/

Allow: /Breadcrumb/google.pdf

Sitemap: https://www.nomedelmiosito.it/sitemap.xml

Vuoi migliorare la visibilità e il posizionamento del tuo sito? Contattaci!

Robots.txt: il comando user-agent
Prima di tutto, ci si rivolge agli “user-agent”. Qui si comunica direttamente ai motori di ricerca, dichiarando di voler indirizzare il lavoro a tutti, oppure limitare l’operato solo ad alcuni di questi. Nel caso in cui si voglia, ad esempio, lavorare solo ed esclusivamente su Google, è importante inserire questo tipo di dicitura: User-agent: Googlebot. Ciò fa capire al crawler che si vuole operare solo su un determinato motore di ricerca. Se ci si vuole, invece, rapportare con tutti, senza alcuna distinzione, basterà inserire l’asterisco al posto del nome del motore. L’asterisco, infatti, indica che l’azione indicata si rivolge a tutti, senza esclusione.

Robots.txt, permessi e limitazioni: allow, disallow e noindex
Nella riga inferiore, con la nomenclatura “disallow” ci si riferisce a quei contenuti che non si desidera scansionare. Inserendo in questa riga la cartella “breadcrumb” annunciamo a Google che deve evitare di analizzarla. Al contrario, nella riga “allow” inseriamo il percorso che è possibile seguire e scansionare. Possono essere inseriti differenti cartelle, specialmente se si desidera sì evitare la scansione dei “breadcrumb”, ma si vuole fare soprattutto un’eccezione per il file “google” presente all’interno della cartella “breadcrumb”. Permettono, cioè, di definire il percorso da eseguire nella scansione dei motori di ricerca, così da posizionare solo ciò che si desidera. Il comando Disallow, tuttavia, non blocca l’indicizzazione delle pagine analizzate dagli spider: per questo serve il tag Noindex. In questo modo le pagine scansionate non verranno incluse in SERP. Poiché Google non ha mai confermato l’efficacia di questo comando, se inserito nel file robots.txt, molti inseriscono il meta robots noindex nelle pagine che non voglio indicizzare nei motori di ricerca.

Robots.txt: il simbolo del dollaro e il cancelletto
Nel caso in cui si riporta un URL nelle direttive “disallow” oppure “allow”, si può aggiungere, al suo termine, il simbolo del dollaro ($). Con questo simbolo è possibile impedire la scansione di tutti gli URL che finiscono con quella specifica estensione. È possibile aggiungere, sia sopra alla prima riga di direttiva oppure al termine di questa, alcuni commenti. Inserendo all’inizio il simbolo del cancelletto (#), questi non verranno presi in considerazione dal software, ma possono tornare utili nel rapportarsi con sviluppatori o consulenti. Il cancelletto determina un testo che non interesserà al software e perciò non disturberà il suo operato.

Robots.txt: la funzione della sitemap nell’ottimizzazione del sito
Ultima riga della direttiva riportata è quella della sitemap. Questo perché il file di testo robots.txt permette di riportare, così da specificarla, la posizione delle Sitemap.xml ai motori di ricerca. La sitemap, che altro non è che la mappa del sito web, nasce con l’intento di riportare una sorta di indice del sito in navigazione. Uno strumento che semplifica la ricerca dell’utente, rendendogli più facile trovare gli elementi cercati. All’interno del file di testo robots.txt, le sitemap hanno il compito di organizzare la struttura dei contenuti del sito così da facilitare la scansione per i motori di ricerca. Inserendo nella direttiva, l’url della sitemap, nella maniera riportata nell’esempio, si dichiarerà la presenza di questa all’interno del sito web. In caso ci si ritrovi con differenti mappe del sito, è possibile inserirle e specificarle all’interno del file di testo robots.txt.
Utilizzando una riga di direttiva per ogni sitemap, è consentito aggiungerle tramite le diciture sitemap-1.xml e così via, riportando così la presenza di tutte.

Robots.txt, a cosa serve: il riepilogo
Riassumendo, vediamo l’impiego del file robots.txt:

· impedire l’accesso dei crawler a sezioni private del dominio;

· bloccare l’accesso dei motori di ricerca a script di codice, index, utility o altre tipologie di codice;

· bloccare l’indicizzazione di contenuti duplicati presenti all’interno del sito;

· semplificare la scansione della sitemap XML.

Ricordiamo sempre che non è obbligatorio implementare il file sul proprio sito, ma a fronte dei numerosi vantaggi è sempre consigliato, soprattutto in termini SEO.
Inoltre, il bot Google arriva sul sito già dotato del crawl budget, ovvero il numero di URL che è in grado di scansionare. Pertanto indicare le pagine da escludere fa sì che il bot impieghi il “budget” solo per le pagine di interesse, evitando di “sprecarlo” per pagine irrilevanti o addirittura duplicate presenti all’interno del sito.

Hai bisogno di un restyling del tuo sito? Contattaci!