Autor: Johnny Data: A: hackmeeting Assumpte: [Hackmeeting] Filogenetica dei virus
Avrei bisogno del codice sorgente di programmi in relazione "storica"
tra loro. Ad esempio, a partire da un unico programma $p_0$ vengono
tratti i programmi $p_1$ e $p_2$, poi $p_1$ subisce un fork e nascono
$p_3$, $p_4$ e $p_5$, mentre $p_2$ da` origine a $p_6$ e $p_7$... e così
via. I vari $p_i$ dovrebbero essere significativamente diversi l'uno
dall'altro (quindi e` probabile che i vari trunk di un unico software
non vadano bene), ciononostante dovrebbe ancora essere possibile
ricostruire l'albero del loro sviluppo a partire dalla similarità tra i
sorgenti.
Mi vengono in mente soltanto le shells e i virus. Sapete se e dove posso
recuperare un insieme relativamente grande di sorgenti di virus o altro
self-replicating malware? Esiste un simile db per le shells? Avete
qualche altra idea?
Scenario numero due. Ho $n \approx 1000$ sorgenti scritti da $k$
programmatori diversi, e voglio raggrupparli automaticamente in base
all'autore. Che dataset mi consigliate? Probabilmente e` una domanda
ingenua, ma e` possibile cercare per autore attraverso un grande numero
di progetti open-source?