Pubblicato su Science il risultato dell’esperimento della New York University che ha addestrato una rete neurale sulla base di video girati nella prospettiva del “cucciolo” umano
La questione, fortemente dibattuta dalla scienza, su come un bambino tra 6 mesi e 2 anni apprende il significato delle prime parole che entrano a far parte del suo linguaggio è uscita dai laboratori ed è ora meno misteriosa.
Il tutto grazie all’intelligenza artificiale. Che, a sua volta, ha dimostrato di essere in grado di generalizzare i concetti e allineare rappresentazioni visive e linguistiche, esattamente come un uomo all’inizio della propria vita.
È il doppio risultato ottenuto dall’esperimento della New York University, che ha addestrato una rete neurale relativamente generica facendola approcciare alla realtà proprio attraverso la prospettiva registrata dai video girati da telecamere montate su un caschetto indossato da un bambino.
L’apprendimento del linguaggio nei bambini
Utilizzando i dispositivi di ripresa, gli studiosi hanno raccolto materiale video e audio che ha documentato complessivamente ben 61 ore di attività quotidiane dell’infanzia: da giochi all’aperto come lo scivolo, all’immaginario tè preparato e “consumato” con il suo peluche, fino allo sfogliare un libro in braccio alla mamma. Già a partire da un’età tra 6 e 9 mesi, ci dice la scienza, il bambino inizia infatti ad acquisire le prime parole, collegandole alle rispettive controparti visive. Si calcola così che, entro i 2 anni, il vocabolario del bambino arrivi a comprendere mediamente 300 concetti. Un’acquisizione precoce del linguaggio che, negli esperimenti svolti finora, ha avuto il limite dello svolgimento al di fuori del mondo reale.
L’Ai per capire l’apprendimento linguistico dei bambini
Con un approccio innovativo gli scienziati hanno dunque provato a capire come le parole vengano apprese e associate alle relative immagini, utilizzando il materiale audiovisivo proveniente da un contesto naturalistico e non riprodotto in laboratorio per addestrare l’intelligenza artificiale.
L’obiettivo posto era di capire quanta di questa conoscenza può essere appresa con meccanismi relativamente generici e quanta richieda invece pregiudizi induttivi più forti.
È stato così introdotto un nuovo modello, chiamato “Child’s View for Contrastive Learning” (Cvcl), che accoppia i fotogrammi video alle parole pronunciate contestualmente e incorpora immagini e parole in spazi rappresentativi condivisi. “Cvcl – spiega Ekeoma Uzogara su Science – rappresenta insiemi di cose visivamente simili da un concetto (per esempio “puzzle” attraverso sottocluster distinti (es: “puzzle di animali” contro “alfabeti”).
I risultati (sull’uomo) e le prospettive (per l’intelligenza artificiale)
Il modello, conclude Uzogara, “combina l’apprendimento associativo e rappresentativo, che colma le lacune nella ricerca e nelle teorie sull’acquisizione del linguaggio”.
Il modello, cioè, secondo i ricercatori, offre una base computazionale per studiare il modo in cui i bambini acquisiscono le loro prime parole e come queste possano al tempo stesso essere associate alle immagini.
L’Ai, opportunamente programmata, è stata dunque in grado di imparare la mappatura “parola-oggetto” che caratterizza l’esperienza quotidiana del bambino. Non a caso, gli studiosi ritengono che i bambini siano il modello ideale da studiare e da imitare nel progressivo perfezionamento dell’addestramento delle reti neurali.
I risultati ottenuti potranno quindi aiutare anche a sviluppare sistemi di Ai in grado di apprendere il linguaggio in un modo sempre più simile a quello dell’uomo.
Alberto Minazzi