Sapete già cos’è l’OCR vero? E’ quel sistema che usate per scansionare testi stampati e interpretarli senza doverli riscrivere a manina (tranne qualche correzione). Avete presente?
Ebbene sembra che Google lo userà nei suoi spider…mmmm leggiamo meglio da Merlinox
Su Punto Informatico leggo che Google sembra aver implementato nei suoi bot la capacità di fare OCR, cioè di trasformare testi in formato immagine, in testi in formato testo. OCR è l’acronimo di Optical Character Recognition e indica tutti quei software appunto in grado di interpretare il testo dentro normali immagini bitmap / raster.
A questo punto non mi resta che fare un test. Inserisco questa immagine dentro al mio blog: nell’immagine sono contenute parole non indicizzate da google, parole inesistenti.

ISCRIVITI AI FEED RSS










Italianwebdesign© - Da un'idea di Laura Gargiulo - mail:
18 Commenti
Mitici, quale onore
Per ora però in SERP tutto ancora tace!
hehe tienici aggiornati se si muove qualcosa!
io ne ho sentito parlare per le polemiche che google avuto riguardo la sezione libri, per nulla accessibile in quanto formata da testi-immagine. Mi pare che sia partito tutto da lì…
Cmq tecnicamente non mi pare una cosa assurda. Servizi OCR online ce ne sono già molti.
Ma quindi con questo sistema anche immagini contenenti testo scritto con font diverso dall’arial- Tiames new Roman o Geneva Verranno indicizzati?
in teoria sì, e in effetti sarebbe una soluzione ai titoli con font diversi creati graficamente.
aspettiamo di vedere l’esperimento di merlinox se da i suoi frutti
sbaglio o questa cosa renderà “fallibili” i captcha?
è vero! così finalmente scompariranno del tutto
(li odio)
non c’avevo pensato ai captcha…meglio così!!!
:D:D
Un amico nel blog dice che le immagini pare debbano essere PDF. Stavo scrivendo un post sul fallimento del test, ma faccio una prova allegando un PDF e si vedrà!
mmm sì, facci sapere, sarebbe comunque un vantaggio
mmmm…scusatemi, ma i pdf non sono gia indicizzati?…
Il PDF è un formato “prostituta”. Dentro un pdf puoi mettere immagini bitmap, vettoriali e testo. Nonchè ormai anche elementi dinamici e form.
Google oggi sicuramente indicizza i TESTI all’interno dei PDF. Come capire se sono testi o immagini? Aprite i pdf e provate a selezionare del testo. Se ce la fate e riuscite a incollarlo e editarlo in Notepad allora è testuale
quindi niente novità….:(
Non ci vedo nessun vantaggio…
Ho aggiornato il post. Ho inserito pure il PDF e poi in un altro blog ho messo il testo text/plain. Forse già lo trovate
Esperimento fallito:
http://www.google.it/search?q=misonfotrice&sourceid=navclient-ff&ie=UTF-8&rlz=1B3GGGL_itIT241IT241
Google si sta aggrappando a qualsiasi altra cosa esclusa la mia immagine!
azz
Trackback
[...] Google OCR Test lo possiamo considerare finito. Il post è stato indicizzato, alcuni amici hanno contribuito a spingerlo in SERP ma nessun [...]
Lascia un commento