27/05/2020 · di Patrizia Maimone

Crawl Budget, è davvero così importante per il SEO?

Se vi intendete di SEO non sarà certo la prima volta che sentite parlare di Crawl Budget e saprete di certo fornirne una definizione. Siamo certi, però, che anche per i più esperti possono esserci dei momenti in cui la confusione regna sovrana. Pare utile, quindi, cercare di comprendere cosa si intende esattamente per Crawl Budget andando ad approfondire, in particolare, le tecniche da utilizzare per sfruttarne le potenzialità in ottica SEO.

Cercheremo, di conseguenza, di comprendere in quale maniera lavora Googlebot e se il crawl Budget potrebbe avere una certa importanza per il posizionamento di un sito web.

Cosa si intende per Crawl Budget

Il crawl budget viene, di norma, definito come il numero totale delle pagine che Big G riesce a sottoporre a scansione in un determinato lasso di tempo.

A questa definizione, però, c'è un "ma" molto importante. Se andiamo ad approfondire l'argomento sul sito di Big G potremo leggere che il crawl budget non è un valore vero e proprio. Pare più corretto definirlo come un parametro che si forma dall'unione di due valori, il crawl rate limit e il crawl demand ovvero, rispettivamente, il limite di scansione e la richiesta di scansione. Detto questo, la definizione più appropriata per il crawl budget sarebbe quello di richiesta di accesso ad un gruppo di pagine ed i relativi limiti che lo spider di Google va ad incontrare per scansionarle.

Dare uno sguardo più da vicino a questi due valori è importante per approfondire nella maniera migliore l'argomento e cercare, soprattutto, di comprenderlo nella maniera più corretta possibile.

- Il Crawl Rate Limit (Limite di Scansione)

Lo spider web di Google può procedere con la lettura e lo scansionamento di tantissime pagine tutti i giorni e gli accessi ad ogni songolo sito internet possono avvenire anche più volte al giorno. Proviamo ad immaginare di avere un sito formato da un migliaio di pagine. Data la quantità di dati presenti, nel momento stesso in cui Google procede con la lettura di ciascuna (cercando di aggiornare costantemente i propri indici) potrebbe verificarsi un sovraccarico per il sito. Il volume di traffico, infatti, può crescere in maniera molto sensibile e causare pesantezza sull'intero sito. Nella pratica, gli effetti del Googlebot su un sito internet è lo stesso che si avrebbe quando un utente effettua l'accesso di continuo e in maniera regolare ad ogni pagina del nostro sito internet.

Proprio per evitare che scandire in maniera approfondita un sito si traduca in un impatto negativo sul sito stesso, Google ha pensato di limitare la velocità di scansione impostando, per l'appunto, un limite di scansione. Si tratta proprio del Crawl Rate Limit che corrisponde, per definizione, al numero di connessioni che Googlebot può eseguire simultaneamente e in parallelo per effettuare la scansione dei siti web. Questa velocità non è mai fissa ma può diminuire o aumentare in base alle "condizioni" dinnanzi a cui si trova. Sono due, in breve, le categorie di fattori che possono influire su questo parametro:

in presenza di un fattore interno o strutturale e quindi di siti internet lenti, che contengono diverse tipologie di errore o pagine che non esistono lo spider di Google diminuisce la velocità di scansione;
è anche possibile procedere con una limitazione manuale di questo valore mediante un'impostazione interna alla Google Search Console con il fine di limitare gli impatti del traffico generato da Google sui siti web.

- La Crawl Demand (Richiesta di scansione)

Insieme al Craw Rate Limit, il Crawl Budget è composto anche dalla cosiddetta Crawl Demand ovvero la richiesta di scansione. Si tratta di un parametro fondamentale per il lavoro di scansionamento di Google dal momento che va ad indicare se un sito merita di essere scansionato e quanto, in effetti, lo meriti.

Anche in questo caso esistono alcuni fattori esterni che vanno ad impattare sulla Crawl Demand. Ne possiamo indicare, sommariamente, due:

la popolarità in quanto gli indirizzi con maggiore popolarità vengono, di norma, scansionati molto più spesso dal Googlebot;
l'obsolescenza e l'eventuale presenza di errori. Al contrario le pagine più vecchie, quelle che presentano contenuti molto obsoleti e che non vengono aggiornate da diverso tempo vengono ritenute poco meritevoli e per questo scansionate con molta minor frequenza.

In definitiva, adesso che abbiamo conosciuto più da vicino questi due parametri, possiamo affermare con assoluta certezza che il crawl budget è il risultato dell'unione di entrambi. Errata, dunque, qualunque altra definizione che non tiene bene in conto questa fondamentale distinzione.

Clicca qui per maggiori informazioni

Perché il Crawl Budget è importante?

Detto questo, potrebbe essere normale chiederci se il Crawl Budget è importante e, in caso di risposta affermativa, riuscire a definire il perché. Per comprendere meglio il concetto possiamo servirci direttamente di quanto affermato dallo stesso Google.

"Vorremmo sottolineare" dicono in casa Google, "che il crawl budget non è qualcosa di cui la maggior parte dei siti deve preoccuparsi". Poi proseguono "se un sito ha meno di qualche migliaio di URL il più delle volte verrà sottoposto a scansione in modo efficiente".

È molto semplice, a questo punto, comprendere che il crawl budget, per diversi siti, può non essere assolutamente influente. La sua importanza, quindi, è notevolmente bassa. Questo discorso bale per tutti i siti internet che hanno un numero ridotto di pagine (per numero ridotto si intende, comunque, un numero al di sotto di 1.000) e per quelli che vengono aggiornati poco frequentemente. Un esempio di questo tipo potrebbe essere, ad esempio, un sito istituzionale così come un sito vetrina.

Molto spesso, quindi, questo parametro o, meglio, la sua importanza viene sopravvalutata quando in realtà buona parte dei webmaster potrebbe volentieri fare a meno di preoccuparsene.

Come viene determinato il Crawl Budget di un sito internet

Come viene determinato il Crawl Budget? Si tratta di un'operazione molto più semplice di quanto possa sembrare. Per farlo, infatti, ci basterà utilizzare la Google Search Console del nostro sito web. Accediamo alla voce denominata "Statistiche di scansione" posta nel menù di sinistra. Come dice il nome stesso, all'interno di questa sezione troveremo le statistiche relative agli accessi del Googlebot nel nostro sito. All'interno della schermata successiva sarà sufficiente leggere i valori relativi alle "pagine sottoposte a scansione giornalmente" riferendoci, in particolare, al valore medio.

Per calcolare, poi, il crawl budget del sito sarà sufficiente moltiplicare questo valore per 30 ovvero per il numero di giorni compresi in un mese. La velocità a cui vengono effettuate le scansioni sono soggette ad un possibile cambiamento e fluttuazione ma i numeri che otteniamo da questa ricerca possono darci l'idea di quante siano le pagine del nostro sito web che possiamo aspettarci di far scansionare all'interno di un certo lasso di tempo.

All'interno della medesima schermata è importante dare un'occhiata anche agli altri due grafici. Se il primo, quello blu, individua le pagine sottoposte a scansione ogni giorno, il grafico sottostante, quello rosso, indica i Kilobyte scaricati ogni giorno da Googlebot. Se, nel primo caso, era importante vedere un indice al rialzo, qui sarebbe importante vederlo al ribasso. Significherebbe che per lo spider di Google è stato semplice scansionare le pagine.

Il terzo grafico, di colore verde, individua invece il tempo occorrente per il download di una pagina. I valori indicati sono espressi in millisecondi e dovrebbe, per essere positivo, tendere anche in questo caso al ribasso. Questo si tradurrebbe in un server veloce nella fornitura dei files ed in un minor dispendio di tempo da parte di Google. Non vi sono valori limite ma l'ideale sarebbe mantenere questo valore sempre al di sotto di un secondo, meglio ancora se di mezzo secondo.

La Crawl Ratio (ovvero il rapporto di scansione) rappresenta l'interesse del motore di ricerca a procedere con la scansione del sito e deve risultare superiore ad una determinata percentuale per poterci garantire che il nostro sito è in salute. Di norma si considera buono un valore che è maggiore o uguale ad 80%. Ma come si calcola questo valore? Semplicemente dividendo la media delle pagine sottoposte a scansione durante il giorno per le pagine totali del sito internet e moltiplicando, poi, il risultato per 100.

Altro valore importante, l'index ratio, individua la percentuale delle pagine indicizzate dal motore di ricerca. Anche in questo caso esiste un valore percentuale sotto il quale non si dovrebbe mai scendere e che è stato fissato, anche in questo caso, all'80%. Ottimi risultati, invece, sopra il 100%. Per calcolarlo si divide il numero di pagine indicizzate per il numero totale di pagine del sito internet e si moltiplica, anche qui, il risultato ottenuto per 100.

La Sitemap ratio (o rapporto di indicizzazione della sitemap.xml) deve sempre risultare superiore al 100%. Qualora il risultato sia rappresentato da un valore inferiore vorrebbe dire che qualcosa è andato storto nel processo di scansionamento o che all'interno della sitemap si trovano dei file che, invece, non vi dovrebbero essere. Per calcolare questo valore ci si affida, ancora una volta, ad una semplice operazione matematica dividendo il numero di pagine che si trovano in sitemap.xml per il numero di pagine del sito e moltiplicando, poi, il risultato per 100.

E se il sito avesse dei problemi di Crawl Budget?

Una volta giunti alla determinazione del crawl budget del nostro sito internet possiamo procedere cercando di comprendere se i numeri venuti fuori nascondano, invece, dei problemi di scansionamento. Ma come fare? Anche in questo caso non è molto complicato. Ci basterà seguire alcuni semplici passaggi.

Andiamo a determinare la quantità di pagine inviate in sitemap;
determiniamo, come specificato poc'anzi, quante pagine vengono scansionate dal Googlebot ogni giorno;
adesso non ci rimane che fare una semplice operazione matematica. Dovremo, infatti, procedere dividendo il primo valore per il secondo. Se, ad esempio, abbiamo 800 pagine in sitemap e 520 pagine scansionate ogni giorno dovremo dividere 800 per 520 ottenendo 1.53. Questo è un parametro importante dal momento che ci indica che Google procede con lo scansionamento della stessa pagina mediamente ogni 1.53 giorni.

Quand'è che ci troviamo dinnanzi a problemi di Crawl Budget? Questo avviene nel momento stesso in cui il valore che otteniamo dalla precedente divisione supera il valore di 5. Ciò si tradurrebbe nel fatto che ogni pagina modificata (o realizzata da zero) impiegherebbe fino a 5 giorni per essere scansionata da Google.

Quali sono i fattori che vanno ad influenzare il Crawl Budget?

Vi sono vari fattori che influenzano in maniera negativa lo scansionamento dei siti web e, di conseguenza, il Crawl Budget. Abbiamo individuato i 6 errori che possono verificarsi più frequentemente in questo senso.

- Pagine hackerate

È ovvio che un sito internet che contiene delle pagine hackerate e, in genere, contenuti che possono rivelarsi una minaccia per l'utente che vi atterra, sia penalizzato da Google che ritiene inutile perdere tempo a scansionare e procedere con l'indicizzazione di pagine di questo tipo. Il consiglio è quello di procedere sempre all'aggiornamento del proprio sito cercando di mantenere al meglio i CMS e i vari plugin.

- "Spazio infinito" e proxies

Nel momento in cui Google procede a scansionare il web, capita molto spesso che vada incontro al cosiddetto spazio infinito. Stiamo parlando di un gruppo di collegamenti che, solitamente, non riescono a fornire contenuti per essere indicizzati da Google. Proprio per questo vengono definiti "infiniti". Se ci troviamo dinnanzi ad un problema di questo tipo, ovvero se questo errore è presente sul nostro sito, scansionare gli URL in questione potrebbe tradursi nell'utilizzo di una larghezza di banda non indispensabile. Ancor più grave sarebbe l'imposibilità per lo spider di Google di procedere con la corretta indicizzazione del nostro sito.

Per fare un esempio pratico, ci troviamo dinnanzi ad uno spazio infinito quando visualizziamo un calendario che, attraverso vari URL, rimanda ad ogni mese successivo. Google potrebbe seguire a vita quei link raggiungendo, però, un contenuto che potrebbe rivelarsi sempre di basso spessore e rappresentare, dunque, un'inutile perdita di tempo.

- Pagine con contenuto di scarsa qualità e con link spam

Andare a scansionare pagine con contenuti qualitativamente scarsi rappresenta, abbiamo visto, una perdita di tempo per lo spider di Google che potrebbe impiegare, invece, le proprie risorse su pagine più meritevoli. A queste si aggiungono anche tutte le pagine che contengono link spam ovvero che rimandano, a loro volta, a contenuti dalla qualità molto bassa che, dunque, non apporta alcun valore aggiunto e che risultano non meritare l'attenzione da parte di Google.

- Il Querystring

Anche il cosiddetto Quesrystring causa notevoli problemi allo spider di Google nello scansionare le pagine di un sito internet. La motivazione è comprensibile dalla stessa definizione del Querystring che è un utilizzo di parametri all'interno degli URL che mirino, ad esempio, a filtrare i risultati di una ricerca per colore o per tipo e che generano, quindi, diverse combinazioni di URL. Una pratica molto diffusa che si rivela molto utile per il filtraggio, appunto, dei risultati di ricerca ma che va ad impattare negativamente sul lavoro di Googlebot che si ritrova costretto a scansionare tante pagine impiegando, quindi, più tempo a rilevare contenuti nuovi o comunque davvero rilevanti. L'indicizzazione, poi, potrebbe non essere così accurata dal momento che i vari segnali sono suddivisi per tutti gli URL interessati.

- Contenuti duplicati

Per la stessa motivazione, anche i contenuti duplicati influenzano negativamente il Crawl Budget di un sito internet. Avere un sito, infatti, che presenta pagine con contenuti molto simili tra loro è una pratica che diminuisce l'autorità di ciascun contenuto (il famoso link juice) e riducono l'interesse di Google nei confronti del sito in questione. Consigliamo vivamente, dunque, di non creare contenuti duplicati o, comunque, pagine che siano la "fotocopia" di una pagina già esistente e, magari, indicizzata.

- Errori soft 404

Altro fattore che influisce negativamente sul Crawl Budget è rappresentato dalle pagine che restituiscono un errore 404 soft. Si tratta di pagine che si sono rivelate prive di contenuto (quindi vuote) o il cui contenuto è sparso è quindi praticamente inutile. Un errore di questo tipo dice agli utenti che una pagina non esiste quando, invece, per i motori di ricerca essa esiste ancora. Nel caso in cui una pagina non esista, il codice di errore dovrebbe essere semplicemente 404 e non soft 404.

Quand'è che possiamo trovarci in una situazione di questo tipo? Un caso che può verificarsi molto spesso può riguardare WordPress dal momento che sono moltissimi i siti che vi sono costruiti. Ebbene, nel momento stesso in cui andiamo a creare un nuovo tag ma non abbiamo ancora scritto alcun contenuto che sia riferito a questo tag, la relativa pagina risulterà vuota e verrà restituito un errore soft 404.

In pratica, Google, scansionando il nostro sito, se si imbatte in una pagina che secondo i server c'è ma che poi, in realtà non ha contenuto, la valuta come una pagina che non offre alcun valore all'utente finale che, quindi, non merita di essere indicizzata.

In definitiva, il bot di Google non deve assolutamente perdere tempo in azioni inutili che gli fanno perdere tempo ed energie. Vanno evitati, riassumendo:

pagine con contenuto duplicato;
pagine hackerate o con link spam;
pagine con contenuti qualitativamente scarsi;
pagine in cui è necessario fare un ulteriore clic per arrivare al contenuto desiderato;
pagine che restituiscono l'errore 404;
pagine contenenti, in generale, informazioni di servizio.

Clicca qui per ottenere maggiori informazioni

Come migliorare il Crawl Budget

Anche se i risultati del Crawl Budget non ci soddisfano, non dobbiamo perderci d'animo. È possibile, infatti, lavorare per migliorare questo risultato e riportarlo su livelli accettabili cercando, poi, di migliorarlo sempre di più. Come fare? Basterebbe seguire alcuni consigli che andiamo ad elencarvi qui di seguito.

Aumento del trust del sito a cui possiamo arrivare aumentando la quantità di backlink validi. Il modo migliore per ottenere link in entrata di qualità è quella di concentrarci sulla produzione di contenuti qualitativamente elevati che possano "convincere" gli altri ad inserire nei propri siti un link che riporti alle nostre pagine.
Aggiornamento frequente del sito da ottenere mediante la pubblicazione di contenuti sempre nuovi ed interessanti (oltre che di qualità, naturalmente).
Velocità del sito che deve sempre essere migliorata. Più il nostro sito è veloce migliore sarà il nostro Crawl Budget.
Pulizia del server da fare regolarmente assicurandoci che tutti i file che non hanno un link al sito vengano cancellati perché occupano spazio inutilmente e fanno perdere tempo al Googlebot.
Mettere in risalto ogni contenuto ritenuto importante all'interno del sito andando ad impostare l'attributo noindex a tutti i link che non hanno importanza in termini di ranking. Andare ad utilizzare il file robots.txt per indicare i contenuti meno rilevanti eviterà che lo spider di Google vada a scansionare ogni pagina che contiene l'attributo noindex e che si concentri, invece, sulle pagine davvero utili. In definitiva, sarà il file robots.txt a dire cosa fare al bot indicando le pagine da ignorare completamente e per le quali non vale la pena perdere tempo e sprecare risorse.
Alla stessa maniera, l'attributo nofollow su ogni link in uscita ci permetterà di creare una sorta di albero gerarchico tra le varie pagine indicando al motore di ricerca quelle che sono più rilevanti e, dunque, meritevoli di scansione.
Gestione della sitemap ottimizzata inserendo, quindi, al suo interno solo i contenuti che devono essere indicizzati andando ad evitare di inserire, al contrario, quelle meno importanti e, dunque, da non indicizzare.
Variare le impostazioni riducendo o aumentando le scansioni del proprio sito internet direttamente sulla Google Search Console. Dal menù Impostazioni (quello con la classica e ormai nota rotellina) si dovrà selezionare la voce "Limita la velocità massima di scansione di Google" andando ad aumentare o diminuire il valore della frequenza.
Aumento della popolarità del sito. Gli indirizzi con un CTR superiore nel momento in cui vengono selezionati in SERP vengono scansionati con una maggiore frequenza dal momento che Google cerca di trovare, al loro interno, eventuali aggiornamenti in termini di contenuto.
Google Plus, cercando di raggiungere il +1.
Modifica dell'URL. Una pratica di questo tipo va a fare in modo che Googlebot reindizzi le diverse pagine portando ad un aumentata frequenza di scansione e, dunque, ad un miglioramento.

Fattore che influenza positivamente il Crawl Budget

Se quelli che abbiamo visto fino a questo momento sono fattori che vanno ad impattare in maniera negativa sul Crawl Budget, è bene rilevare come esista anche un fattore che lo influenzi in maniera positiva. Stiamo parlando della velocità del sito internet. Lo spider di Google identifica come sano un sito web veloce. In una situazione ideale come questa si può ottenere un maggior numero di contenuti sul medesimo numero di connessioni per cui la velocità di scansione non può far altro che aumentare. Risultato? Un Crawl Budget migliore oltre che un'esperienza utente migliorata. Per questo motivo è consigliabile testare sempre la velocità del nostro sito prestando attenzione ad ogni minimo segnale di difficoltà.

Il Crawl Budget serve per il posizionamento dei siti internet?

Veniamo al dunque: il Crawl Budget serve per il posizionamento del nostro sito web? È questa la domanda che tutti ci poniamo e alla quale è importante trovare una valida risposta. È lo stesso Google a chiarire in concetto con una certa perentorietà facendoci comprendere a fondo se un Crawl Budget ottimo può garantire un miglior posizionamento al sito internet.

"Un aumentata velocità di scansione non porterà necessariamente a migliori posizioni nei risultati di ricerca. Google utilizza centinaia di segnali per classificare i risultati e mentre la ricerca per indicizzazione è necessaria per essere nei risultati, non è un segnale di classifica".

Queste le parole utilizzate da Big G che ci appaiono già abbastanza chiare. Il Crawl Budget, quindi, non influenza la classifica in SERP. Appare comunque importante ribadire, quindi, che se è vero che i siti web veloci sono sempre tra i primi posti tra i risultati di ricerca, è anche vero che questa posizione in classifica si deve essenzialmente ad una migliorata esperienza utente.

Concludendo..

Abbiamo imparato, parlando di Crawl Budget, che questo non è particolarmente significativo ed importante per tutti i webmaster i cui siti non superino le 1.000 pagine. Al contrario può assumere una criticità importante per tutti i siti più grandi, specie se con contenuto dinamico come possono essere, ad esempio, i siti di news o gli e-commerce.

Se è vero, come abbiamo visto, che il Crawl Budget non va ad impattare in maniera diretta con il posizionamento del sito, è altrettanto vero che è un indice dello stato di salute del sito stesso che va tenuto sempre in considerazione.

Se desiderate avere un parere professionale sullo stato di salute del vostro sito o più semplicemente ricevere maggiori informazioni in merito, non esitate a contattarci. Saremo ben lieti di aiutarvi a far decollare il vostro business. Noi di Doweb possiamo aiutarvi a migliorare il Crawl Budget del vostro sito e, di conseguenza, ad incrementare le soddisfazioni che solo un sito gestito al meglio può portare. Ci occupiamo del vostro problema utilizzando metodi di lavoro efficaci per la realizzazione e il mantenimento in regola di tutti i siti internet e lo facciamo da anni con la passione che ci ha da sempre contraddistnto. Non a caso sosteniamo da sempre che DOWEB non è migliore di altre Agenzie Web ma semplicemente è UNICA sul mercato. Non vi rimane che provare per credere, contattandoci con fiducia e parlandoci del vostro problema sul quale lavoreremo insieme sin dal primo momento.

← Torna al blog

Crawl Budget, è davvero così importante per il SEO?

Hai bisogno di supporto?