Legge di Zipf e distribuzione di contenuti multimediali
Un professore americano George Kingsley Zipf, nel 1949, studiando la distribuzione delle parole nei diversi alfabeti linguistici, riuscì ad estrarre una legge empirica (nota appunto come legge di Zipf) che descrive la relazione tra il rango delle parole ovvero la posizione con cui compaiono in una ipotetica classifica che le ordina in modo decrescente in funzione della loro frequenza d’uso e la frequenza stessa.
Ben presto la validità di questa legge fu provata in tanti campi, dall’economia alla densità di popolazione nelle città, dalla linguistica all’informatica. E proprio sugli aspetti informatici punteremo la nostra attenzione. Quello che farò in questo articolo è descrivere come funziona la legge (con un esempio pratico) ed eventualmente per cosa può essere utile.
L’esempio in questione riguarda la distribuzione e la fruizione dei contenuti multimediali. La legge di Zipf si applica perfettamente ai server video. E quale tra i server video possiamo prendere in considerazione, se non il famosissimo YouTube ? Immaginiamo che un server video disponga di N filmati. La legge di Zipf afferma che il numero medio di visualizzazioni per un filmato che occupa la posizione k nella graduatoria di popolarità è pari a circa C/k-esimi delle visualizzazioni di tutti i filmati. Dove C è una costante di normalizzazione pari a :
C = 1/(1 + 1/2 + 1/3 + …. + 1/N)
Dunque facciamo un esempio pratico per capire la formuletta. Ho estratto da Youtube in data 8 luglio 2009 ore 19.42 i 5 filmati più visti di tutti i tempi :
video al 1° posto = 54.569.037 visualizzazioni
video al 2° posto = 24.701.700 visualizzazioni
video al 3° posto = 15.312.201 visualizzazioni
video al 4° posto = 13.630.703 visualizzazioni
video al 5° posto = 12.776.882 visualizzazioni
Bene….vediamo se la legge di Zipf funziona. Calcoliamo la costante di normalizzazione :
C = 1/(1 + 1/2 + 1/3 + 1/4 + 1/5) = 60 / 137
A questo punto confrontiamo i risultati empirici con quelli reali :

Come possiamo notare, i dati reali e quelli empirici tendono a convergere. Chiaramente per ragioni pratiche il nostro esempio fa riferimento a 5 video, ma su Youtube i video sono molti di più e più sono i video presi in considerazione più la costante di normalizzazione si modella e i dati empirici convergono con quelli reali.
Bene, a questo punto dobbiamo chiederci: A cosa può servire la legge di Zipf ?
1) Intanto il problema della distribuzione dei video si può paragonare alla fruizione di qualunque altro oggetto multimediale : musica, articoli, post di un blog, banner pubblicitari ecc.
2) La legge di Zipf ci fornisce un modello di previsione utilissimo per scopi economico-commerciali. La legge può essere usata per preventivare il costo di campagne pubblicitarie associate alla potenzialità di ogni singolo articolo, video, o contenuto multimediale. In relazione all’esperienza di un designer (che può fornire le migliori posizioni di fruizione di un contenuto) e ai dati statistici (numero medio di visitatori del sito) si può valutare in proporzione il valore economico di una pubblicità associata a quel particolare contenuto multimediale (immaginiamo un ipotetico banner o logo pubblicitario su un video di Youtube). E’ chiaro dunque che chi accetta di ottenere un potenziale 5° posto di visibilità pagherà circa 1/5 di colui che vuole usufruire di un potenziale 1° posto.

















Add to Google

8 Commenti
Molto molto interessante Giancarlo
Mi studierò bene questa legge, perchè non la conosco.
Grazie per l’articolo.
A però questa mi è nuova, non si finisce mai di imparare
Grazie dell’articolo.
Complimenti! cmq questa legge si applica un pò d’apperttutto. Nel natural languages process, non solo per calcolare la frequenza delle parole ma anche per determinare significati delle parole durante la disambiguaziazione.
Volevo precisare anche che gli elementi con rank più basso tendono ad avere lo stesso valore (basso)
Davvero interessante!
Grazie per l’articolo, davvero utile e interessante.
Mah… sono un po’ perplesso. Si dovrebbe dimostrarre meglio il risultato empirico.
hihihih…turiddu (Salvo per chi non è delle mie parti)….ti fai riconoscere sempre nei tuoi messaggi…