Il giorno 01/lug/2011, alle ore 11.35, billie ha scritto:
> -@lucha vorrei vedere se sporcherie che hai fatto nel fare topic
> analysis sulla nostra comunita' :P dove sta il codice?
dunque, le sporcherie sono davvero sporcherie, nel senso che un tool completo non ce l'ho davvero :)
ho usato questa "libreria" per TF-IDF:
http://code.google.com/p/tfidf/
più un paio di righe di python che aprono una mbox, aggiungono ogni email come nuovo documento, e poi salvano keywords e stopwords. come mi hanno fatto osservare, ci sono una serie di cose che andrebbero fatte e che non ho fatto
. stemming
. pulizia della mbox (quote che implicano duplicati dei messaggi)
. keyword di parole composte
poi ho aggiunto un paio di stopwords a mano, ho preso i primi 30 termini, e con Processing ho fatto questo
http://controesempio.noblogs.org/post/2011/05/13/come-leggo-la-lista-hackmeeting/
sulla tf-idf ci trovi papers a sfare, c'è anche una variante molto interessante che mi pare si chiami "cosine distance", che è un modo per definire una distanza in un insieme di documenti con la quale mi pare si possa fare un motore di ricerca (forse qualcosa di simile lo usava NGV?).
a me la roba dell'analisi dei trend su twitter mi incuriosisce, ho fatto un po' di ricerchine su 143th.net ma sono un po' basito dal fatto che spesso sembra più "rumore" che altro...
...comunque, secondo me td-idf non è quel ce vi serve. mi leggo il paper che hai linkato e poi vi dico.
l.