Definizione
Crawler: software o script automatico che ispeziona in modo sistematico le parole chiave, il tipo di contenuto e i collegamenti di un sito web, restituendo le informazioni ai motori di ricerca.
Crawler: che cos’è
Un crawler – noto anche con il nome di bot, indicizzatori automatici e spider – viene usato dai motori di ricerca per raccoglie tutte le informazioni necessarie per indicizzare in modo automatico le pagine dal Web. Inoltre, aiutano anche a convalidare i codici HTML e a verificare i collegamenti ipertestuali su ciascuna pagina.
Il primo step che uno spider esegue quando si trova sul tuo sito web è quello di cercare un file chiamato “robots.txt”. Questo file è di fondamentale importanza, perché contiene tutte le istruzioni per il bot: quali sono le parti del sito web da indicizzare e quali da ignorare.
Crawler: esempio pratico
Prendiamo come esempio il motore di ricerca Google: il bot analizza ciascuna delle pagine indicizzate nel proprio database e recuperano tali pagine sui server di Google. Il web crawler segue tutti i collegamenti ipertestuali nei siti web e visita anche altri siti web.
Quando chiediamo al motore di ricerca, per esempio, un “corso di social media marketing”, avremo come risultato tutte le pagine web che contengono la parola chiave digitata. Gli indicizzatori automatici sono programmati per scansionare costantemente il Web in modo che i risultati generati siano sempre aggiornati.
Crawler: come funziona
I crawler devono sapere, anzitutto, che il tuo sito web esiste in modo tale che possano passare per dare un’occhiata. Quindi, per eseguire la scansione è necessario un punto d’ingresso. Una volta che un crawler atterra sul tuo sito web inizia la mappatura di tutti i suoi elementi: dai contenuti ai link in entrata e in uscita, e così via. Diciamo che, alla fine, tutto ciò che è sul Web verrà trovato e “spiderato”.
Sostanzialmente sono 3 i passaggi che compie un bot:
- Ricerca iniziale e scansione del sito web
- Indicizzazione delle parole chiave e del contenuto del sito
- Mappatura collegamenti ipertestuali (indirizzi pagine Web o URL) che si trovano all’interno del sito