Macchine che imparano la lingua più come fanno i bambini: Il modello al computer potrebbe migliorare l'interazione uomo-macchina, fornire informazioni su come i bambini imparano la lingua.

I bambini imparano la lingua osservando il loro ambiente, ascoltando le persone intorno a loro, e collegando i punti tra ciò che vedono e sentono. Tra l'altro, questo aiuta i bambini a stabilire l'ordine delle parole della loro lingua, come ad esempio dove soggetti e verbi rientrano in una frase. Nell'informatica, l'apprendimento del linguaggio è compito dei parser sintattici e semantici. Questi sistemi vengono addestrati su frasi annotate da esseri umani che descrivono la struttura e il significato dietro le parole. I parser stanno diventando sempre più importanti per le ricerche sul web, interrogazione di database in linguaggio naturale, e sistemi di riconoscimento vocale come Alexa e Siri. Presto, possono essere utilizzati anche per la robotica domestica.

I ricercatori del MIT hanno sviluppato un “parser semantico” che impara attraverso l’osservazione per imitare più da vicino il processo di acquisizione del linguaggio di un bambino, che potrebbe estendere notevolmente le capacità informatiche.

Foto: notizie del MIT

Ma la raccolta dei dati delle annotazioni può richiedere molto tempo ed essere difficile per le lingue meno comuni. Inoltre, gli umani non sempre sono d’accordo sulle annotazioni, e le annotazioni stesse potrebbero non riflettere accuratamente il modo in cui le persone parlano naturalmente.

In un articolo presentato alla conferenza Empirical Methods in Natural Language Processing di questa settimana, I ricercatori del MIT descrivono un parser che impara attraverso l’osservazione per imitare più da vicino il processo di acquisizione del linguaggio di un bambino, che potrebbe estendere notevolmente le capacità del parser. Imparare la struttura della lingua, il parser osserva i video con didascalie, senza altre informazioni, e associa le parole ad oggetti e azioni registrati. Data una nuova frase, il parser può quindi utilizzare ciò che ha appreso sulla struttura della lingua per prevedere con precisione il significato di una frase, senza il filmato.

Questo approccio “debolmente supervisionato” – il che significa che richiede dati di formazione limitati – imita il modo in cui i bambini possono osservare il mondo che li circonda e imparare la lingua, senza che nessuno fornisca un contesto diretto. L'approccio potrebbe espandere i tipi di dati e ridurre lo sforzo necessario per addestrare i parser, secondo i ricercatori. Alcune frasi annotate direttamente, anche l'Organizzazione Mondiale della Sanità, potrebbe essere combinato con molti video con didascalie, che sono più facili da trovare, per migliorare le prestazioni.

In futuro, il parser potrebbe essere utilizzato per migliorare l'interazione naturale tra esseri umani e robot personali. Un robot dotato del parser, anche l'Organizzazione Mondiale della Sanità, potrebbe osservare costantemente il suo ambiente per rafforzare la sua comprensione dei comandi vocali, anche quando le frasi pronunciate non sono completamente grammaticali o chiare. “Le persone parlano tra loro con frasi parziali, pensieri di corsa, e linguaggio confuso. Vuoi un robot a casa tua che si adatti al loro particolare modo di parlare... e capisca comunque cosa significano,", afferma il coautore Andrei Barbu, ricercatore presso il Laboratorio di Informatica e Intelligenza Artificiale (CSAIL) e il Centro per i cervelli, Menti, e Macchine (CBMM) all’interno del McGovern Institute del MIT.

Il parser potrebbe anche aiutare i ricercatori a capire meglio come i bambini imparano la lingua. “Un bambino ha accesso a risorse ridondanti, informazioni complementari provenienti da diverse modalità, incluso ascoltare genitori e fratelli parlare del mondo, nonché informazioni tattili e informazioni visive, [che lo aiutano] per capire il mondo,", afferma il coautore Boris Katz, uno dei principali ricercatori e capo del gruppo InfoLab presso CSAIL. “È un puzzle straordinario, per elaborare tutti questi input sensoriali simultanei. Questo lavoro fa parte di un progetto più ampio volto a comprendere come avviene questo tipo di apprendimento nel mondo”.

I coautori dell'articolo lo sono: primo autore Candace Ross, uno studente laureato presso il Dipartimento di Ingegneria Elettrica e Informatica e CSAIL, e un ricercatore in CBMM; Yevgeny Berzak PhD '17, un postdoc nel Gruppo di Psicolinguistica Computazionale del Dipartimento di Scienze del Cervello e Cognitive; e lo studente laureato CSAIL Battushig Myanganbayar.

Che impara guardando

Per il loro lavoro, i ricercatori hanno combinato un parser semantico con un componente di visione artificiale addestrato sull'oggetto, umano, e riconoscimento dell'attività nel video. I parser semantici sono generalmente addestrati su frasi annotate con codice che attribuisce significato a ciascuna parola e alle relazioni tra le parole. Alcuni sono stati addestrati su immagini fisse o simulazioni al computer.

Il nuovo parser è il primo ad essere addestrato utilizzando il video, dice Ross. In parte, i video sono più utili per ridurre l'ambiguità. Se il parser non è sicuro di, dire, un'azione o un oggetto in una frase, può fare riferimento al video per chiarire le cose. “Ci sono componenti temporali – oggetti che interagiscono tra loro e con le persone – e proprietà di alto livello che non vedresti in un’immagine fissa o semplicemente nel linguaggio,"dice Ross.

I ricercatori hanno compilato un set di dati di circa 400 video che ritraggono persone che eseguono una serie di azioni, compreso prendere un oggetto o posarlo giù, e camminare verso un oggetto. I partecipanti sulla piattaforma di crowdsourcing Mechanical Turk hanno poi fornito 1,200 didascalie per quei video. Hanno messo da parte 840 esempi di sottotitoli video per la formazione e l'ottimizzazione, e usato 360 per il test. Un vantaggio dell’utilizzo dell’analisi basata sulla visione è che “non avrai bisogno di tanti dati, anche se ne avresti avuti [i dati], potresti scalare fino a enormi set di dati,"dice Barbu.

In allenamento, i ricercatori hanno assegnato al parser l'obiettivo di determinare se una frase descrive accuratamente un determinato video. Hanno fornito al parser un video e una didascalia corrispondente. Il parser estrae i possibili significati della didascalia come espressioni matematiche logiche. La frase, “La donna raccoglie una mela," ad esempio, può essere espresso come: λxy. donna X,raccolta xy, mela e.

Quelle espressioni e il video vengono inseriti nell'algoritmo di visione artificiale, chiamato "Tracciatore di frasi".," sviluppato da Barbu e altri ricercatori. L'algoritmo esamina ogni fotogramma video per monitorare come gli oggetti e le persone si trasformano nel tempo, per determinare se le azioni si stanno svolgendo come descritto. In questo modo, determina se il significato del video è possibilmente vero.

Collegare i punti

L'espressione con le rappresentazioni più simili per gli oggetti, umani, e le azioni diventano il significato più probabile della didascalia. L'espressione, inizialmente, può riferirsi a molti oggetti e azioni diversi nel video, ma l'insieme dei significati possibili serve come segnale di addestramento che aiuta il parser a vagliare continuamente le possibilità. «Partendo dal presupposto che tutte le sentenze debbano seguire le stesse regole, che provengono tutti dalla stessa lingua, e vedere molti video con didascalie, puoi restringere ulteriormente i significati,"dice Barbu.

In breve, il parser impara attraverso l'osservazione passiva: Per determinare se una didascalia di un video è vera, il parser deve necessariamente identificare il significato con la più alta probabilità della didascalia. “L’unico modo per capire se la frase è vera è un video [è] per passare attraverso questo passaggio intermedio di, «Cosa significa la frase?»?' Altrimenti, non hai idea di come collegare i due,” spiega Barbu. “Non diamo al sistema il significato della frase. Noi diciamo, «C'è una frase e un video. La frase deve essere vera per il video. Trova una rappresentazione intermedia che renda reale il video.’”

La formazione produce una grammatica sintattica e semantica per le parole apprese. Data una nuova frase, il parser non richiede più video, ma sfrutta la sua grammatica e il suo lessico per determinare la struttura e il significato della frase.

In definitiva, questo processo significa imparare “come se fossi un bambino”.,"dice Barbu. “Vedi il mondo intorno a te e senti le persone parlare per apprenderne il significato. Un giorno, Posso darti una frase e chiederti cosa significa e, anche senza visuale, conosci il significato.

“Questa ricerca è esattamente la giusta direzione per l’elaborazione del linguaggio naturale," dice Stefanie Tellex, un professore di informatica alla Brown University che si concentra sull'aiutare i robot a utilizzare il linguaggio naturale per comunicare con gli esseri umani. “Interpretare il linguaggio radicato, abbiamo bisogno di rappresentazioni semantiche, ma non è fattibile renderlo disponibile al momento dell'allenamento. Anziché, questo lavoro cattura rappresentazioni della struttura compositiva utilizzando il contesto dei video con didascalie. Questo è il documento che stavo aspettando!”

Nel lavoro futuro, i ricercatori sono interessati a modellare le interazioni, non solo osservazioni passive. “I bambini interagiscono con l’ambiente mentre imparano. La nostra idea è quella di avere un modello che utilizzi anche la percezione per apprendere,"dice Ross

fonte: http://news.mit.edu, di Rob Matheson