phraserank

Phrase-based searching in an information retrieval system.

Questo è il nome del brevetto ufficiale, protagonista del nostro ultimo capitolo dedicato agli algoritmi di Google.

Il Phraserank, meno conosciuto del Pagerank, è l’ultimo nato in casa Google ed anche in questo caso le finalità sono legate alla volontà di arginare lo spam, di eliminare documenti duplicati e di fornire SERP sempre più coerenti con le chiavi di ricerca.

Come suggerisce il termine, Phraserank è un algoritmo che classifica documenti in base ad un sistema di frasi correlate tra loro, quindi basta con il keyword stuffing, parole chiave nascoste o messe alla rinfusa nel tentativo di posizionarsi in cima ai risultati.

Anche per il Phraserank è prevista l’individuazione di determinate frasi considerate “cattive” quindi spam, e frasi invece considerate “buone” ossia attendibili.

Il funzionamento è pressappoco il seguente: (vedi immagine)

Data una determinata frase inserita come query – il documento che presenterà la frase esatta avrà un punteggio alto (ranking), dopodiché verranno analizzati i documenti che presenteranno frasi sensate ottenute dai termini richiesti nella query, ogni frase ottenuta avrà un certo ranking e tale valore determinerà il posizionamento.

Ovviamente con questo articolo introduciamo semplicemente l’argomento, per chi volesse approfondire vi segnalo un’accurata traduzione del brevetto, del quale vi propongo questo abstract

“Un sistema di IR che usa frasi per indicizzare, recuperare, organizzare e descrivere documenti. Le frasi identificate predicono la presenza di altre frasi nel documento. I documenti vengono indicizzati in accordo alle frasi che includono. Le frasi correlate e l’estensione delle frasi sono anch’esse definite. Frasi in una query sono identificate e usate per recuperare e valorizzare i documenti. Le frasi sono anche usate per raggruppare i documenti nei risultati delle ricerche, creare le descrizioni dei documenti ed eliminare documenti duplicati dai risultati e dall’indice.”