Googlebot

Questa voce o sezione sull'argomento internet non cita le fonti necessarie o quelle presenti sono insufficienti.

Puoi migliorare questa voce aggiungendo citazioni da fonti attendibili secondo le linee guida sull'uso delle fonti. Segui i suggerimenti del progetto di riferimento.

Googlebot è lo spider web (italianizzato in "agente mobile") di Google. Ha la funzione di cercare e indicizzare i nuovi siti e di aggiornare gli esistenti (cambiando titolo o testo).

Googlebot effettua due tipi di scansione del web: la Deep-crawl (fatta una volta al mese circa) e la Fresh-crawl (quasi tutti i giorni). La prima come detto viene fatta una volta al mese e viene scansionato tutto il web pagina per pagina, aggiornando indici, pagerank e cache.

Dopo una Deep-crawl Google impiega circa 6-8 giorni per aggiornare completamente i suoi indici e propagarli in tutti i datacenter. In questo periodo di tempo si parla della cosiddetta "Google dance" perché i risultati che escono possono essere diversi di volta in volta. Dopo qualche giorno invece si stabilizzano.

La seconda invece viene fatta quasi tutti i giorni e in pratica aggiorna le pagine che già sono presenti nell'indice e aggiunge quelle eventualmente create dopo l'ultima Deep-crawl.

Esistono altri strumenti e procedure che Googlebot utilizza per indirizzare (e limitare) le sue scansioni. Uno tra i più importanti è il file "robots.txt", che dovrebbe essere sempre presente sui web server attestati su internet, in quanto naturale oggetto di scansione da parte degli spider.

I webmaster possono gestire le indicizzazioni relative al proprio sito tramite Google Search Console.^[1]

Riconoscimento

[modifica | modifica wikitesto]

Il Googlebot, oltre a provenire da alcuni specifici IP riconoscibili (risolvibili come domini di terzo livello di googlebot.com o google.com), si identifica^[2] con una di queste stringhe User agent:

Googlebot/2.1 (+http://www.googlebot.com/bot.html)
Googlebot/2.1 (+http://www.google.com/bot.html)
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) (per compatibilità)
Googlebot-Image/1.0 (il crawler della ricerca immagini)

Note

[modifica | modifica wikitesto]

^ Google - Webmasters, su google.com. URL consultato il 15 dicembre 2012.
^ (EN) Lista aggiornata delle stringhe User agent più frequenti e rappresentative del Web [1]