Come ogni giovedì vi do il bentornato al nostro ormai consueto appuntamento con il SEO, per chi non avesse seguito le “puntate” precedenti voglio svelare subito che non è una nuova soap-opera ma una miniguida che parte dalle basi per arrivare a svelare numerose tecniche di posizionamento sui motori di ricerca.

Abbiamo dato definizioni e ripassato un po’ di teoria, credo che sia arrivato il momento, e lo dico per i più impazienti, di passare all’azione.

Ora che conosciamo almeno in superficie il funzionamento degli spider e quindi dei motori di ricerca a qualcuno potrebbe nascere il dubbio che per essere indicizzati bisogna solo aspettare che qualche spider venga a bussare alla nostra porta.

E se invece non volessimo invitarli a visitare il nostro sito?

Bisogna specificarlo nel “robots.txt”.
Il file robots .txt è un semplicissimo file di testo che va caricato nella root principale del sito, superfluo specificare che bisogna nominarlo esattamente “robots.txt”.

Il file contiene al suo interno delle istruzioni che vengono lette dagli spider al fine di escludere dall’indicizzazione determinate pagine, come possono essere per esempio le aree di un’area riservata.

E’ bene creare un file del genere anche se non vi sono pagine da escludere perchè è il primo file che gli spider cercano nel momento in cui si imbattono in un nuovo sito, quindi tanto meglio farglielo trovare ed evitare che venga generato un errore (errore che in ogni caso non riguarderebbe il nostro sito).
Voci di corridoio dicono che gli spider sono ghiotti di files del genere, tutto ciò non è verificato ma io consiglio vivamente di crearlo per ogni sito.

I comandi da specificare in robots.txt sono:

  • User-agent con il quale indichiamo il nome dello spider al quale ci rivolgiamo (usando l’asterisco (*) li comprendiamo tutti .
  • Disallow con il quale elenchiamo le directory o pagine che NON vogliamo che vengano indicizzate, questo campo, se lasciato vuoto, indica che non ci sono pagine da “nascondere” e quindi invita lo spider ad includere l’intero sito nel proprio indice.

I nomi dei maggiori spider sono:

  • googlebot:Google
  • Yahoo Slurp: yahoo
  • scooter: Altavista
  • Msnbot: Msn
  • Ia_archiver: Alexa

Facciamo qualche esempio per chiarire il concetto.

Se non vogliamo escludere pagine dall’indicizzazione ma vorremmo invece invitare tutti gli spider a visitare il nostro sito allora creeremo un file con all’interno le seguenti istruzioni:

User-agent: *

Disallow:

Se vogliamo dire allo spider di google di escludere dal suo indice la directory “privato” allora scriveremo:

User-agent: googlebot

Disallow: /privato/

Per escludere, a tutti gli spider, la singola pagina “fattimiei.htm” allora useremo la sintassi:

User-agent: *

Disallow:/fattimiei.htm

Inoltre aggiungendo alla fine del nostro file robos.txt la riga:

sitemap: http://www.miosito.com/sitemap.xml

diciamo chiaramente agli spider che nel nostro sito è presente una “sitemap” e che quindi sono i benvenuti.
La sitemap è uno dei modi migliori per velocizzare il processo di indicizzazione e sarà anche l’argomento di giovedì prossimo 😉

p.s. Una volta creato il file robots.txt vi consiglio di provare questo tool che ne rileva eventuali errori.

Meglio ancora disporre di un account google per accedere ai Webmasters Tools di Google, un servizio ottimo sia per correggere e rilevare errori del sito, che per monitorare posizionamento e indicizzazione!

Alla prossima!