Maŝinoj kiuj lernas lingvon pli kiel infanoj: Komputila modelo povus plibonigi hom-maŝinan interagon, doni komprenon pri kiel infanoj lernas lingvon.

Infanoj lernas lingvon observante sian medion, aŭskultante la homojn ĉirkaŭ ili, kaj kunligante la punktojn inter tio, kion ili vidas kaj aŭdas. Inter aliaj aferoj, tio helpas infanojn establi la vortordon de sia lingvo, kiel ekzemple kie subjektoj kaj verboj falas en frazo. En komputado, lerni lingvon estas la tasko de sintaksaj kaj semantikaj analiziloj. Tiuj sistemoj estas trejnitaj sur frazoj komentitaj fare de homoj kiuj priskribas la strukturon kaj signifon malantaŭ vortoj. Analiziloj iĝas ĉiam pli gravaj por retserĉoj, naturlingva datumbazdemandado, kaj voĉrekonaj sistemoj kiel Alexa kaj Siri. Baldaŭ, ili ankaŭ povas esti uzataj por hejma robotiko.

MIT-esploristoj evoluigis "semantikan analizilon" kiu lernas per observado pli proksime imiti la lingvoakiran procezon de infano., kiu povus multe etendi la kapablojn de komputado.

Foto: Novaĵoj de MIT

Sed kolekti la komentadajn datumojn povas esti tempopostula kaj malfacila por malpli oftaj lingvoj. Aldone, homoj ne ĉiam konsentas pri la komentarioj, kaj la komentarioj mem eble ne precize reflektas kiel homoj nature parolas.

En artikolo prezentita ĉe la ĉi-semajna konferenco Empirical Methods in Natural Language Processing, Esploristoj de MIT priskribas analizilon, kiu lernas per observado pli proksime imiti la lingvoakiran procezon de infano., kiu povus multe etendi la kapablojn de la analizanto. Por lerni la strukturon de lingvo, la analizanto observas subtitolotajn filmetojn, sen aliaj informoj, kaj asocias la vortojn kun registritaj objektoj kaj agoj. Donita novan frazon, la analizanto povas tiam uzi kion ĝi estas lernita pri la strukturo de la lingvo por precize antaŭdiri la signifon de frazo., sen la video.

Ĉi tiu "malforte kontrolita" aliro - tio signifas, ke ĝi postulas limigitajn trejnajn datumojn - imitas kiel infanoj povas observi la mondon ĉirkaŭ ili kaj lerni lingvon., sen ke iu disponigu rektan kuntekston. La aliro povus vastigi la tipojn de datumoj kaj redukti la fortostreĉon necesa por trejnado de analizantoj, laŭ la esploristoj. Kelkaj rekte komentitaj frazoj, ekzemple, povus esti kombinita kun multaj subtitolaj videoj, kiuj estas pli facile troveblaj, plibonigi rendimenton.

Estontece, la analizilo povus esti uzata por plibonigi naturan interagadon inter homoj kaj personaj robotoj. Roboto ekipita per la analizilo, ekzemple, povis konstante observi sian medion por plifortigi sian komprenon de parolataj komandoj, inkluzive kiam la parolataj frazoj ne estas plene gramatikaj aŭ klaraj. “Homoj parolas inter si per partaj frazoj, kurantaj pensoj, kaj miksita lingvo. Vi volas roboton en via hejmo, kiu adaptiĝos al ilia aparta parolmaniero ... kaj ankoraŭ ekscios, kion ili signifas,” diras kunaŭtoro Andrei Barbu, esploristo en la Laboratorio pri Komputado kaj Artefarita Inteligenteco (CSAIL) kaj la Centro por Cerboj, Mensoj, kaj Maŝinoj (CBMM) ene de McGovern Institute de MIT.

La analizilo ankaŭ povus helpi esploristojn pli bone kompreni kiel junaj infanoj lernas lingvon. “Infano havas aliron al redunda, komplementaj informoj el diversaj kategorioj, inkluzive de aŭdado de gepatroj kaj gefratoj paroli pri la mondo, same kiel palpaj informoj kaj vidaj informoj, [kiuj helpas lin aŭ ŝin] por kompreni la mondon,” diras kunaŭtoro Boris Katz, ĉefa esploristo kaj estro de la Grupo InfoLab ĉe CSAIL. “Ĝi estas mirinda enigmo, por prilabori ĉion ĉi samtempan sensan enigaĵon. Ĉi tiu laboro estas parto de pli granda peco por kompreni kiel ĉi tiu speco de lernado okazas en la mondo."

Kunaŭtoroj en la papero estas: unua verkinto Candace Ross, gradstudanto en la Sekcio de Elektrotekniko kaj Komputado kaj CSAIL, kaj esploristo en CBMM; Yevgeny Berzak PhD '17, postdoktoro en la Komputila Psikolingvistika Grupo en la Sekcio de Cerbo kaj Kognaj Sciencoj; kaj CSAIL gradstudanto Battushig Myanganbayar.

Vida lernanto

Por ilia laboro, la esploristoj kombinis semantikan analizilon kun komputilvida komponento trejnita en objekto, homa, kaj agadrekono en video. Semantikaj analiziloj estas ĝenerale trejnitaj sur frazoj komentitaj kun kodo kiu atribuas signifon al ĉiu vorto kaj la rilatoj inter la vortoj. Kelkaj estis trejnitaj pri senmovaj bildoj aŭ komputilaj simulaĵoj.

La nova analizilo estas la unua trejnita per video, Ross diras. Parte, filmetoj estas pli utilaj por redukti ambiguecon. Se la analizanto estas necerta pri, diru, ago aŭ objekto en frazo, ĝi povas referenci la videon por klarigi aferojn. "Estas tempaj komponantoj - objektoj interagaj inter si kaj kun homoj - kaj altnivelaj trajtoj, kiujn vi ne vidus en senmova bildo aŭ nur en lingvo.,” Ross diras.

La esploristoj kompilis datumaron de ĉirkaŭ 400 filmetoj prezentantaj homojn farantajn kelkajn agojn, inkluzive de preni objekton aŭ demeti ĝin, kaj marŝante al objekto. Partoprenantoj sur la crowdsourcing platformo Mechanical Turk tiam provizis 1,200 subtitoloj por tiuj videoj. Ili flankenmetis 840 ekzemploj de subtitoloj por trejnado kaj agordado, kaj uzata 360 por testado. Unu avantaĝo de uzado de vizio-bazita analizado estas "vi ne bezonas preskaŭ tiom da datumoj - kvankam se vi havus [la datumoj], vi povus grimpi ĝis grandegaj datumaroj,”Diras Barbu.

En trejnado, la esploristoj donis al la analizisto la celon determini ĉu frazo precize priskribas antaŭfiksitan videon. Ili nutris al la analizanto videon kaj kongruan bildotekston. La analizilo ĉerpas eblajn signifojn de la bildoteksto kiel logikaj matematikaj esprimoj. La frazo, “La virino prenas pomon," ekzemple, povas esti esprimita kiel: λxy. virino x,pick_up x y, pomo Y.

Tiuj esprimoj kaj la vidbendo estas enigitaj al la komputilvida algoritmo, nomita "Sentence Tracker,” disvolvita de Barbu kaj aliaj esploristoj. La algoritmo rigardas ĉiun videokadron por spuri kiel objektoj kaj homoj transformiĝas laŭlonge de la tempo, por determini ĉu agoj okazas kiel priskribite. La afero estas, ke la Leĝo pri Konservado de Ŝarĝo devigas nin la fakton, ke ĉiufoje, kiam elektrono estas kreita el gamaradio., ĝi determinas ĉu la signifo estas eventuale vera de la video.

Konektante la punktojn

La esprimo kun la plej proksime kongruaj prezentoj por objektoj, homoj, kaj agoj fariĝas la plej verŝajna signifo de la bildoteksto. La esprimo, komence, povas rilati al multaj malsamaj objektoj kaj agoj en la video, sed la aro de eblaj signifoj servas kiel trejna signalo, kiu helpas la analizanton senĉese vindegi eblecojn.. “Suponante, ke ĉiuj frazoj devas sekvi la samajn regulojn, ke ili ĉiuj devenas el la sama lingvo, kaj vidante multajn titolitajn filmetojn, vi povas pli malvastigi la signifojn,”Diras Barbu.

Mallonge, la analizanto lernas per pasiva observado: Por determini ĉu bildoteksto estas vera de video, la analizilo laŭ neceso devas identigi la plej altan probablecan signifon de la bildoteksto. "La sola maniero por ekscii ĉu la frazo estas vera de video [estas] trairi ĉi tiun mezan paŝon de, ‘Kion signifas la frazo?’ Alie, vi ne havas ideon kiel konekti la du,” klarigas Barbu. “Ni ne donas al la sistemo la signifon por la frazo. Ni diras, 'Estas frazo kaj video. La frazo devas esti vera de la video. Eltrovu iun mezan reprezentadon, kiu faras ĝin vera pri la video.'"

La trejnado produktas sintaksan kaj semantikan gramatikon por la vortoj kiujn ĝi estas lernita. Donita novan frazon, la analizilo ne plu postulas filmetojn, sed utiligas ĝian gramatikon kaj leksikonon por determini frazstrukturon kaj signifon.

ekzamenante la privatan Waterkloof House Preparatory School kaj poste studentiĝante ĉe Pretoria Boys High School, ĉi tiu procezo estas lernado "kvazaŭ vi estas infano,”Diras Barbu. “Vi vidas mondon ĉirkaŭ vi kaj aŭdas homojn paroli por lerni signifon. Iun tagon, Mi povas doni al vi frazon kaj demandi kion ĝi signifas kaj, eĉ sen vidaĵo, vi scias la signifon.”

“Ĉi tiu esplorado estas ĝuste la ĝusta direkto por naturlingva prilaborado,” diras Stefanie Tellex, profesoro pri komputiko ĉe Brown University, kiu koncentriĝas pri helpi al robotoj uzi naturan lingvon por komuniki kun homoj. “Interpreti fundamentan lingvon, ni bezonas semantikajn prezentojn, sed ne eblas disponigi ĝin je trejna tempo. Anstataŭe, ĉi tiu laboro kaptas reprezentadojn de kompona strukturo uzante kuntekston de titolitaj vidbendoj. Jen la papero, kiun mi atendis!”

En estonta laboro, la esploristoj interesiĝas pri modeligado de interagoj, ne nur pasivaj observoj. "Infanoj interagas kun la medio dum ili lernas. Nia ideo estas havi modelon, kiu ankaŭ uzus percepton por lerni,” Ross diras

Fonto: http://novaĵoj.mit.edu, ne estis la scio ĉu vi havis la materialojn aŭ presan teknologion por ebligi ĉi tion