Re: [Hackmeeting] google su quanti siti continua a tracciart…

Delete this message

Reply to this message
Autor: Matteo G P Flora
Data:  
A: hackmeeting
Assumpte: Re: [Hackmeeting] google su quanti siti continua a tracciarti?

On Dec 13, 2006, at 12:26 PM, nail wrote:

> heritrix e' molto carino, ha il problema che e' monomacchina, pero'
> dipende
> quanta roba sotto il culo per farlo fare..
> Ne parliamo mercoledi' prox..


Ho anche io un paio di giochini multiclient/multiserver che ho
utilizzato qualche tempo fa per scansionare qualche milione di pagine
web (non ci ha messo tantissimo, ma avevo a disposizione un fottio di
banda)...
In realtà il task di "rintracciare google" è abbastanza semplice e ho
ancora le RegExp per beccare sia Adwords (nelle svariate forme,
comprensivi vari nuovi banner video e immagini) che Urchin (la
tecnologia alla base di Analytics e che Google ha comperato).

Inoltre c'è da considerare il sempre più sevente utilizzo dei vari
Widget di google di cui ho ancora le specifiche... In aggiunta a
questo i siti sviluppati con il framework Ajax di Google recuperano
il main JS dai loro server e sono quindi tracciabili.
Non dimentichiamoci anche Picasa e le immagini hostate su Picasa
Online, altra ghiotta fonte di informazioni...

E tutto questo andrebbe a fagiolo con il progettino mio e di Nail ;)

A Mercoledì prox allora...

M.

---
[LK] - F3B6BC10 - (www.|LK@)lastknight.com
"God is Real. Unless declared Integer."