Membro di PiperitaLab
Home » Seo e webmarketing » Seo, webmarketing, promozione online » File robots.txt per chiudere le porte agli spider.. e non solo.

File robots.txt per chiudere le porte agli spider.. e non solo.

Scritto da il 12 giugno 2008 in Seo, webmarketing, promozione online - 16 Commenti - 26 visite

Come ogni giovedì vi do il bentornato al nostro ormai consueto appuntamento con il SEO, per chi non avesse seguito le “puntate” precedenti voglio svelare subito che non è una nuova soap-opera ma una miniguida che parte dalle basi per arrivare a svelare numerose tecniche di posizionamento sui motori di ricerca.

Abbiamo dato definizioni e ripassato un po’ di teoria, credo che sia arrivato il momento, e lo dico per i più impazienti, di passare all’azione.

Ora che conosciamo almeno in superficie il funzionamento degli spider e quindi dei motori di ricerca a qualcuno potrebbe nascere il dubbio che per essere indicizzati bisogna solo aspettare che qualche spider venga a bussare alla nostra porta.

E se invece non volessimo invitarli a visitare il nostro sito?

Bisogna specificarlo nel “robots.txt”.
Il file robots .txt è un semplicissimo file di testo che va caricato nella root principale del sito, superfluo specificare che bisogna nominarlo esattamente “robots.txt”.

Il file contiene al suo interno delle istruzioni che vengono lette dagli spider al fine di escludere dall’indicizzazione determinate pagine, come possono essere per esempio le aree di un’area riservata.

E’ bene creare un file del genere anche se non vi sono pagine da escludere perchè è il primo file che gli spider cercano nel momento in cui si imbattono in un nuovo sito, quindi tanto meglio farglielo trovare ed evitare che venga generato un errore (errore che in ogni caso non riguarderebbe il nostro sito).
Voci di corridoio dicono che gli spider sono ghiotti di files del genere, tutto ciò non è verificato ma io consiglio vivamente di crearlo per ogni sito.

I comandi da specificare in robots.txt sono:

  • User-agent con il quale indichiamo il nome dello spider al quale ci rivolgiamo (usando l’asterisco (*) li comprendiamo tutti .
  • Disallow con il quale elenchiamo le directory o pagine che NON vogliamo che vengano indicizzate, questo campo, se lasciato vuoto, indica che non ci sono pagine da “nascondere” e quindi invita lo spider ad includere l’intero sito nel proprio indice.

I nomi dei maggiori spider sono:

  • googlebot:Google
  • Yahoo Slurp: yahoo
  • Scooter: Altavista
  • Msnbot: Msn
  • Ia_archiver: Alexa

Facciamo qualche esempio per chiarire il concetto.

Se non vogliamo escludere pagine dall’indicizzazione ma vorremmo invece invitare tutti gli spider a visitare il nostro sito allora creeremo un file con all’interno le seguenti istruzioni:

User-agent: *

Disallow:

Se vogliamo dire allo spider di google di escludere dal suo indice la directory “privato” allora scriveremo:

User-agent: googlebot

Disallow: /privato/

Per escludere, a tutti gli spider, la singola pagina “fattimiei.htm” allora useremo la sintassi:

User-agent: *

Disallow:/fattimiei.htm

Inoltre aggiungendo alla fine del nostro file robos.txt la riga:

sitemap: http://www.miosito.com/sitemap.xml

diciamo chiaramente agli spider che nel nostro sito è presente una “sitemap” e che quindi sono i benvenuti.
La sitemap è uno dei modi migliori per velocizzare il processo di indicizzazione e sarà anche l’argomento di giovedì prossimo icon wink File robots.txt per chiudere le porte agli spider.. e non solo.

p.s. Una volta creato il file robots.txt vi consiglio di provare questo tool che ne rileva eventuali errori.

Meglio ancora disporre di un account google per accedere ai Webmasters Tools di Google, un servizio ottimo sia per correggere e rilevare errori del sito, che per monitorare posizionamento e indicizzazione!

Alla prossima!

Libri da non perdere:
Amazon-Box creato da Giuseppe Frattura

L'Autore

Laura De Masi, web designer per passione e professione dal 2001. Interessata in particolare al web marketing e al SEO, condivide a pieno la filosofia di cooperazione e condivisione che si respira nei blog e nelle comminity.

homeSito personale|archiveArchivio autore

16 Commenti

  1. krayen (53 comments)
    Scritto il 12 giugno 2008 alle 08:41

    sempre molto interessanti questi articoli. il file robots lho sempre creato, la sitemap no ehehe. non vedo l’ora del prossimo articolo quindi…

  2. Lauryn (4189 comments)
    Scritto il 12 giugno 2008 alle 09:09

    ottimo articolo, questa cosa me l’avevano insegnata al corso di webdesign ed era per me una cosa nuova.
    non sapevo che fosse ancora usatissima, devo adeguarmi!

  3. ady (1 comments)
    Scritto il 12 giugno 2008 alle 09:21

    Spiegato così lo capisco anche io :)
    Complimenti

  4. Mauro Accornero (253 comments)
    Scritto il 12 giugno 2008 alle 09:32

    Bell’articolo! Preciso ed esaustivo, complimenti!

  5. Ivo (19 comments)
    Scritto il 12 giugno 2008 alle 11:02

    Perfetto. Non sapevo che si potesse inserire anche l’indirizzo alla sitemap. Vado ad adeguare ;)

  6. ADVsha (249 comments)
    Scritto il 12 giugno 2008 alle 11:13

    Bell’articolo, chiaro e semplice.

  7. ffranz (124 comments)
    Scritto il 12 giugno 2008 alle 12:18

    brava Laura…:D davvero interessante!!

  8. Laura De Masi (307 comments)
    Scritto il 12 giugno 2008 alle 12:24

    probabilmente per tanti saranno nozioni “trite e ritrite” mi fa quindi un sacco piacere che l’abbiate trovato interessante.
    Ovviamente per qualsiasi chiarimento sono qui!

  9. Ivo (19 comments)
    Scritto il 12 giugno 2008 alle 15:00

    Pollice su per webmaster tools di Google: li ho scoperti qualche tempo fa e devo dire che sono abbastanza utili…

  10. Sadegraphic (106 comments)
    Scritto il 12 giugno 2008 alle 16:13

    Beh, che dire… sempre interessanti questi articoli!
    Il file robot non l’ho mai usato, la siemap di google l’ho scoperta e la uso sempre è utilissima.
    Ma il file robot.txt è lo stesso che mettere robots nei metatag?

  11. Alex (115 comments)
    Scritto il 13 giugno 2008 alle 01:15

    Ciao Laura,
    ti segnalo (probabilmente lo conosci già) robotstxt.org con approfondimenti tools ed esempi a riguardo.
    Complimenti per l’articolo ;)

  12. Laura De Masi (307 comments)
    Scritto il 16 giugno 2008 alle 10:37

    Io lo conosco ma hai fatto benissimo a segnalarlo qui a tutti!

  13. Scritto il 19 giugno 2008 alle 08:02

    [...] lo carichiamo nella root del nostro sito e ne comunichiamo la presenza attraverso il file robots.txt di cui abbiamo precedentemente [...]

  14. ffranz (124 comments)
    Scritto il 19 giugno 2008 alle 17:11

    Laura ma se inserisco alla fine del file sitemap:… mi da errore, come mai?

  15. Scritto il 27 ottobre 2008 alle 11:39

    [...] L’utilità dei file robots.txt [...]

  16. Eugene (20 comments)
    Scritto il 29 novembre 2011 alle 12:31

    Non era a conoscenza dell’utilità di inserire un collegamento alla sitemap in robots.txt.
    Come ci si deve comportare nel caso in cui vengano create delle sitemap in formati differenti? Conviene segnalarle tutte?
    Se non ricordo male Yahoo, a differenza di Google, predilige il formato txt rispetto a xml.

Scrivi un commento!

© 2012 Italian webdesign. Diritti riservati. Ideato da Laura Gargiulo - Icone di Komodo Media - Logo di W3B.