Tech
Deep learning e il dataset in prima persona: come le macchine riconoscono le interazioni umane
Come può una macchina pensare come un uomo e comportarsi di conseguenza?
Albert Einstein diceva “Temo il giorno in cui la tecnologia andrà oltre la nostra umanità: il mondo sarà popolato allora da una generazione di idioti”. Una osservazione timorosa di uno scienziato che già intravedeva il potere della tecnologia. In effetti col tempo: l’essere umano ha dovuto adattarsi alle macchine mettendo in un certo senso i propri bisogni in secondo piano rispetto alla “rigidità” dei sistemi, diciamo che da un certo punto di vista si potrebbe dire che uomini e macchine stiano facendo dei passi l’uno verso l’altro, ma nell’avvicinarsi non si è sicuri di quanto uno sia più influenzato dall’altro. Sta di fatto che oggi la tecnologia sembra davvero “umanizzata”, come può però una macchina pensare come un uomo?
La risposta a questo interrogativo si chiama Deep-Learning un campo di ricerca dell’intelligenza artificiale. Il funzionamento non è banale ma volendo riassumerlo si può immaginare una riproduzione artificiale del cervello umano tramite dei neuroni che assumono concretezza grazie a funzioni matematiche. Un ruolo importante è assunto dai dati digeriti dalle reti di neuroni artificiali, cioè il dataset.
Queste tecnologie sono oggetto di studio della disciplina Machine Learning insegnata dal Prof. Giovanni Maria Farinella presso il Dipartimento di Matematica e Informatica dell’Università di Catania.
Il dataset per l’apprendimento automatico quanto più è ampio, strutturato e marcato correttamente, tanto più è in grado di fornire prestazioni alle macchine, soprattutto nell’ambito del riconoscimento di oggetti e immagini. Come vede una macchina è direttamente proporzionale a come gli insegniamo a vedere, e il primo passo in questa direzione è fornirgli le immagini sulle quali fare training. Epic-Kitchens si muove proprio in questa direzione, si tratta del più ampio dataset per computer vision di immagini tratte da camere indossabili.
Il dataset è il frutto di una collaborazione internazionale tra università, Bristol, Catania e Toronto. Il fine è quello di offrire immagini per l’apprendimento automatico di interazioni di oggetti nella vita di tutti i giorni. Come mi spiega il Prof. Farinella: “Epic-Kitcens permette l’individuazione di specifici oggetti da immagini, la comprensione delle interazioni tra utente e oggetti osservate in un video e, infine, la predizione di interazioni future.”
“La visione in prima persona – spiega la Prof.ssa Dima Damen dell’Università di Bristol – è stata ostacolata per anni dall’indisponibilità dei big data”, ma ora un dataset è stato approntato e, pur essendo all’inizio, può già contare su 11.5 milioni di immagini, registrate da 32 individui nelle loro case, per diversi giorni consecutivi. Il set di dati è completamente annotato per azioni e oggetti in tutti i video. Sono stati riportati circa 40.000 esempi di azioni e mezzo milione di oggetti. “È entusiasmante vedere il risultato di questa collaborazione, uno sforzo tanto atteso nella comunità di Computer Vision e Machine Learning – commenta la Prof.ssa Sanjia Fidler dell’Università di Toronto”.
Va sottolineato come la complessità delle sfide dell’informatica contemporanea non può che essere affrontata, non solo da campi più ampi e limitrofi (nel caso della computer vision, le neuroscienze e la psicologia, oltre all’ottica e la biologia), ma anche da reti internazionali in cui l’Italia può giocare un suo ruolo fondamentale. “Per il progetto – ci spiega il prof. Farinella – il nostro gruppo (IPLAB) ha contribuito nell’acquisizione di dati visuali da soggetti volontari e nella definizione di una ‘challenge’ di ‘visual action anticipation’ legata al dataset. La challenge mira alla predizione delle azioni effettuate dall’utente prima ancora che accadano. Inoltre, ci siamo occupati, insieme al Dr. Furnari, della produzione dei risultati sperimentali preliminari (le cosiddette ‘baseline’) a corredo del dataset e della definizione dei protocolli di valutazione.”
Il know how messo in campo dal gruppo di ricerca di Catania è frutto di anni di lavoro sulla Egocentric e First Person Vision che considera il rapporto tra l’occhio e la visione, analizzando quest’ultima “in prima persona” e quindi ponendo l’attenzione sul rapporto tra chi guarda e ciò che vede.
Epic-Kitchens sfrutta anche questa conoscenza per fornire un’idea di vista computazionale che comprende anche le relazioni all’interno delle immagini e le interconnessioni con le nostre sensorialità. La sfida è, da una parte, creare sistemi sempre più intelligenti, dall’altra, lavorare sulla “anticipation”, quindi non tanto sul riconoscimento di fatti già accaduti o di oggetti dopo averli visti, bensì provare a riconoscere le azioni e le interazioni con gli oggetti prima che queste accadono.
Secondo il Prof. Farinella gli effetti di queste ricerche sul mondo industriale sono svariati. Basti pensare alla sicurezza sul lavoro, se immaginiamo un sistema che sia capace di prevedere interazioni tra oggetti e operatori e nello stesso tempo sia in grado di fornire assistenza in realtà aumentata oppure di prevedere dei rischi sulle azioni che si potrebbero intraprendere prima che le azioni accadano. Simili scenari sono ipotizzabili in ambito medico, robotico e di home assistant living (es. supporto agli anziani).COPYRIGHT LASICILIA.IT © RIPRODUZIONE RISERVATA