Les machines qui apprennent la langue plus comme les enfants: Modèle d'ordinateur pourrait améliorer l'interaction homme-machine, donner un aperçu de la façon dont les enfants apprennent la langue.

Les enfants apprennent la langue en observant leur environnement, écouter les gens autour d'eux, et relier les points entre ce qu'ils voient et entendent. Entre autres, cela aide les enfants à établir mot de leur langue ordre, par exemple lorsque les sujets et les verbes tombent dans une phrase. en informatique, l'apprentissage des langues est la tâche de parseurs syntaxique et sémantique. Ces systèmes sont formés sur des phrases annotées par les humains qui décrivent la structure et le sens derrière les mots. Parseurs sont de plus en plus important pour les recherches web, base de données de l'interrogation en langage naturel, et les systèmes de reconnaissance vocale tels que Alexa et Siri. Bientôt, ils peuvent également être utilisés pour la robotique à la maison.

les chercheurs du MIT ont mis au point un « analyseur sémantique » qui apprend par l'observation à plus imiter étroitement le processus d'acquisition du langage d'un enfant, ce qui pourrait prolonger considérablement les capacités de calcul.

Photo: Nouvelles MIT

Mais la collecte des données d'annotation peut prendre beaucoup de temps et difficile pour les langues moins courantes. aditionellement, les humains ne sont pas toujours sur les annotations, et les annotations elles-mêmes peuvent ne pas refléter avec précision la façon dont les gens parlent naturellement.

Dans un article présenté cette semaine à la conférence Empirical Methods in Natural Language Processing, Des chercheurs du MIT décrivent un analyseur qui apprend par l'observation pour imiter plus étroitement le processus d'acquisition du langage d'un enfant, ce qui pourrait considérablement étendre les capacités de l'analyseur. Apprendre la structure du langage, l'analyseur observe les vidéos sous-titrées, sans autre information, et associe les mots aux objets et actions enregistrés. Donné une nouvelle peine, l'analyseur peut alors utiliser ce qu'il a appris sur la structure de la langue pour prédire avec précision le sens d'une phrase, sans la vidéo.

Cette approche "faiblement supervisée" - ce qui signifie qu'elle nécessite des données de formation limitées - imite la façon dont les enfants peuvent observer le monde qui les entoure et apprendre le langage, sans que personne ne fournisse de contexte direct. L'approche pourrait élargir les types de données et réduire l'effort nécessaire à la formation des parseurs, selon les chercheurs. Quelques phrases directement annotées, par exemple, peut être combiné avec de nombreuses vidéos sous-titrées, qui sont plus faciles à trouver, pour améliorer les performances.

A l'avenir, l'analyseur pourrait être utilisé pour améliorer l'interaction naturelle entre les humains et les robots personnels. Un robot équipé du parseur, par exemple, pourrait constamment observer son environnement pour renforcer sa compréhension des commandes vocales, y compris lorsque les phrases prononcées ne sont pas entièrement grammaticales ou claires. "Les gens se parlent en phrases partielles, pensées qui s'enchaînent, et langage confus. Vous voulez un robot dans votre maison qui s'adaptera à leur façon particulière de parler... et comprendra toujours ce qu'ils veulent dire," dit le co-auteur Andrei Barbu, chercheur au Laboratoire d'informatique et d'intelligence artificielle (CSAIL) et le Centre des Cerveaux, Esprits, et machines (CBMM) au sein du McGovern Institute du MIT.

L'analyseur pourrait également aider les chercheurs à mieux comprendre comment les jeunes enfants apprennent le langage. « Un enfant a accès à des, informations complémentaires de différentes modalités, y compris entendre les parents et les frères et sœurs parler du monde, ainsi que des informations tactiles et des informations visuelles, [qui l'aident] comprendre le monde,” dit le co-auteur Boris Katz, chercheur principal et responsable du groupe InfoLab au CSAIL. "C'est un casse-tête incroyable, pour traiter toutes ces entrées sensorielles simultanées. Ce travail fait partie d'une plus grande pièce pour comprendre comment ce type d'apprentissage se produit dans le monde.

Co-auteurs sur le papier sont: premier auteur Candace Ross, un étudiant diplômé du Département de génie électrique et d'informatique et du CSAIL, et chercheur au CBMM; Evgueni Berzak PhD '17, un postdoc dans le groupe de psycholinguistique computationnelle du département des sciences du cerveau et cognitives; et étudiant diplômé CSAIL Battushig Myanganbayar.

Personne à mémoire visuelle

Pour leur travail, les chercheurs ont combiné un analyseur sémantique avec un composant de vision par ordinateur formé à l'objet, Humain, et reconnaissance d'activité en vidéo. Les analyseurs sémantiques sont généralement formés sur des phrases annotées avec un code qui attribue un sens à chaque mot et les relations entre les mots. Certains ont été formés sur des images fixes ou des simulations informatiques.

Le nouvel analyseur est le premier à être formé à l'aide de la vidéo, Ross dit. En partie, les vidéos sont plus utiles pour réduire l'ambiguïté. Si l'analyseur n'est pas sûr de, dire, une action ou un objet dans une phrase, il peut faire référence à la vidéo pour clarifier les choses. "Il y a des composants temporels - des objets qui interagissent entre eux et avec des personnes - et des propriétés de haut niveau que vous ne verriez pas dans une image fixe ou simplement dans le langage," dit Ross.

Les chercheurs ont compilé un ensemble de données d'environ 400 des vidéos mettant en scène des personnes effectuant un certain nombre d'actions, y compris ramasser un objet ou le poser, et marcher vers un objet. Les participants de la plateforme de crowdsourcing Mechanical Turk ont ensuite fourni 1,200 les légendes de ces vidéos. Ils ont mis de côté 840 exemples de sous-titres vidéo pour la formation et le réglage, et utilisé 360 pour tester. Un avantage d'utiliser l'analyse basée sur la vision est « vous n'avez pas besoin presque autant de données - bien que si vous aviez [les données], vous pourriez évoluer jusqu'à des jeux de données énormes,» Dit Barbu.

Dans la formation, les chercheurs ont donné l'analyseur l'objectif de déterminer si une phrase décrit avec précision une vidéo donnée. Ils ont nourris avec l'analyseur un sous-titre vidéo correspondant et. L'analyseur extrait significations possibles de la légende comme des expressions mathématiques logiques. La phrase, « La femme ramasse une pomme," par exemple, peut être exprimé en: λxy. femme X,ramasser x y, pomme et.

Ces expressions et la vidéo sont entrées dans l'algorithme de vision par ordinateur, appelé "Sentence Tracker,» développé par Barbu et d'autres chercheurs. L'algorithme examine chaque image vidéo pour suivre la transformation des objets et des personnes au fil du temps, pour déterminer si les actions se déroulent comme décrit. De cette façon, il détermine si le sens est éventuellement vrai de la vidéo.

Joindre les points

L'expression avec les représentations les plus proches des objets, humains, et les actions deviennent le sens le plus probable de la légende. L'expression, initialement, peut faire référence à de nombreux objets et actions différents dans la vidéo, mais l'ensemble des significations possibles sert de signal d'apprentissage qui aide l'analyseur à sélectionner en permanence les possibilités. « En supposant que toutes les phrases doivent suivre les mêmes règles, qu'ils viennent tous de la même langue, et voir de nombreuses vidéos sous-titrées, vous pouvez affiner davantage les significations,» Dit Barbu.

En bref, l'analyseur apprend par l'observation passive: Pour déterminer si une légende est vraie d'une vidéo, l'analyseur doit nécessairement identifier la signification de probabilité la plus élevée de la légende. "La seule façon de savoir si la phrase est vraie d'une vidéo [est] passer par cette étape intermédiaire de, « Que veut dire la phrase?' Sinon, vous ne savez pas comment connecter les deux,” Barbu explains. « On ne donne pas au système le sens de la phrase. Nous disons, ‘Il y a une phrase et une vidéo. La phrase doit être vraie de la vidéo. Trouvez une représentation intermédiaire qui rende la vidéo vraie.’”

La formation produit une grammaire syntaxique et sémantique des mots appris. Donné une nouvelle peine, l'analyseur n'a plus besoin de vidéos, mais tire parti de sa grammaire et de son lexique pour déterminer la structure et le sens des phrases.

En fin de compte, ce processus apprend "comme si vous étiez un enfant,» Dit Barbu. "Vous voyez le monde autour de vous et entendez les gens parler pour apprendre le sens. elle développe une étrange amitié avec le criminel de son père nommé Keller, Je peux vous donner une phrase et demander ce que cela signifie et, même sans visuel, vous connaissez le sens.

« Cette recherche est exactement la bonne direction pour le traitement du langage naturel,” raconte Stéfanie Tellex, un professeur d'informatique à l'Université Brown qui se concentre sur l'aide aux robots à utiliser le langage naturel pour communiquer avec les humains. « Pour interpréter le langage ancré, nous avons besoin de représentations sémantiques, mais il n'est pas possible de le mettre à disposition au moment de la formation. Au lieu, ce travail capture des représentations de la structure compositionnelle en utilisant le contexte de vidéos sous-titrées. C'est le papier que j'attendais!»

Dans les travaux futurs, les chercheurs sont intéressés par les interactions de modélisation, pas seulement des observations passives. « Les enfants interagissent avec l'environnement qu'ils apprennent. Notre idée est d'avoir un modèle qui utiliserait aussi la perception d'apprendre," dit Ross

La source: http://news.mit.edu, par Rob Matheson