Re: [Hackmeeting] Segnalazione di un modello IA probabilment…

このメッセージを削除

このメッセージに返信
著者: agropunx
日付:  
To: hackmeeting
題目: Re: [Hackmeeting] Segnalazione di un modello IA probabilmente utile per un Tolc di HackMeeting
Ciao!

Il nome del talk/progetto è geografia, si tratta dello sviluppo di un
app di messaggistica per persone sorde che stiamo procrastinando con
l'hacklab ifdo di firenze: vorremmo allargare il giro di contributi, in
particolare dentro la comunità hm, quindi a prescindere dall'utilità del
contributo, bella!

Detto questo provo a risponderti, sfruttando l'occasione anche per
riportare qua in lista dove stiamo col progetto.

Durante il talk abbiamo passato in rassegna diverse
tecnologie/strategie, una in particolare del tutto analoga a quella
riportata nei tuoi link: in brevissimo, puoi pure essere eccellente nel
scegliere la categoria giusta, ma se le categorie totali sono 6 ci fai
ben poco, considerato poi che quelle categorie dovrebbero poter
rappresentare un linguaggio come la LIS o la ASL (nel link le categorie
sono solo "Hello" , "I Love You", "Thank you","Please","Yes","No").

Scalare, si l'ho detto, un modello del genere per avere tante classi
quante le parole conosciute anche solo da un bambin* diventa un problema
di costo computazionale e sopratutto di raccolta dati, quindi abbiamo
abbandonato questa strada.

(tra gli esperimenti che abbiamo fatto ce n'è uno in grado di
distinguere una 50ina di categorie/segni: le lettere dell'alfabeto,
alcune parole comuni ed i numeri tra 0 e 9, qua trovi codice e modelli
https://git.tropici.net/agropunx/georesearch/src/branch/master/colemano)

Abbandonata questa strada abbiamo quindi preso la scorciatoia del
limitarci ad una traduzione text2text e non image/video2text,
scontrandoci con il lievissimo ostacolo che la LIS per sua natura è
non-trascrivibile; esistono però dei surrogati di questa benedetta
trasposizione scritta, cioè forme sintatticamente semplificate e
glossate della frase intesa, che abbiamo deciso di adottare per il
proseguo del progetto.

In pratica, nel caso in cui sia la persona sorda a produrre un messaggio
(gloss2text),la creazione di questo surrogato-scritto-della-LIS è a suo
carico ed costruito tramite un interfaccia grafica
https://git.tropici.net/ifdo/geografia-fe/src/branch/master in cui si
compone la frase come una sequenza di immagini con attributi
(...l'ulteriore ostacolo che abbiamo è che la persona che stiamo
cercando di aiutare non è in grado di leggere testo scritto...); questo
surrogato è poi tradotto/ricomposto in LIS da un modello linguistico, al
momento particolarmente accrocchiato: https://git.tropici.net/agropunx/ccq .

Nel caso in cui invece sia la persona sorda a ricevere il messaggio
(text2gloss) la traduzione/ricomposizione è interamente a carico del
sopracitato modello linguistico e l'interfaccia sarà responsabile solo
di visualizzare la sequenza di immagini corrispondenti alla sequenza di
termini ricomposta.

Prossimamante vorremmo chiedere un paio di mani esplicitamente qua in
lista (tipo creazione di un dataset text/gloss, sviluppo app, cose
grafiche ed interattive), prima però dovremmo definire un po di cose e
preparare una demo funzionante della app, sperando sia piu chiara di
questo sproloquio :)


On 03/11/2022 12:50, Alessandro Greco via Hackmeeting wrote:

> Non ho mai scritto in questa mailing list e non sono sicuro di farlo
> nella maniera corretta, spero possiate perdonarmi in caso di errori.
>
> Ricordo che all'ultimo hackmeeting c'è stato un Tolc dove si parlava
> di un'applicazione di messaggistica solidale nel confronti di persone
> ipoudenti (facendo distinzioni tra chi sente poco e chi non sente
> proprio, non ricordo bene i termini corretti).
>
> Non ricordo il nome del Tolc però vorrei usare questa mailing list per
> scrivere a quelle persone che lo hanno presentato perché ho appena
> letto un articolo [1] su  una sviluppatrice Indiana che è riuscita a
> costruire un modello di intelligenza artificiale che, a quanto pare,
> riuscirebbe a rilevare (con una certa percentuale di affidabilità) la
> parola relativa ad un determinato gesto.
>
> Non conosco questo campo e, per tanto, non sono sicuro che possa
> tornare utile in qualche modo, spero di si. :-)
>
> [1] Articolo:
> https://www.republicworld.com/technology-news/science/indian-engineer-develops-ai-model-that-instantly-translates-american-sign-language-to-eng-articleshow.html
>
> [2] Repo GitHub: https://github.com/priiyaanjaalii0611/ASL_to_English
>