Máquinas que aprenden idiomas más como los niños: El modelo informático podría mejorar la interacción hombre-máquina, proporcionar información sobre cómo los niños aprenden el idioma.

Los niños aprenden el lenguaje observando su entorno., escuchando a las personas que los rodean, y conectando los puntos entre lo que ven y oyen. Entre otras cosas, esto ayuda a los niños a establecer el orden de las palabras de su idioma, como dónde se encuentran los sujetos y los verbos en una oración. en informática, aprender un lenguaje es tarea de analizadores sintácticos y semánticos. Estos sistemas se entrenan con oraciones anotadas por humanos que describen la estructura y el significado detrás de las palabras.. Los analizadores son cada vez más importantes para las búsquedas web, consulta de bases de datos en lenguaje natural, y sistemas de reconocimiento de voz como Alexa y Siri. pronto, También se pueden utilizar para robótica doméstica..

Investigadores del MIT han desarrollado un "analizador semántico" que aprende a través de la observación a imitar más fielmente el proceso de adquisición del lenguaje de un niño., lo que podría ampliar enormemente las capacidades de la informática.

Foto: MIT Noticias

Pero recopilar datos de anotaciones puede llevar mucho tiempo y ser difícil para idiomas menos comunes.. Adicionalmente, los humanos no siempre están de acuerdo con las anotaciones, y es posible que las anotaciones en sí mismas no reflejen con precisión cómo habla la gente naturalmente.

En un artículo presentado en la conferencia Métodos empíricos en el procesamiento del lenguaje natural de esta semana, Investigadores del MIT describen un analizador que aprende a través de la observación para imitar más fielmente el proceso de adquisición del lenguaje de un niño, lo que podría ampliar enormemente las capacidades del analizador. Para aprender la estructura del lenguaje., el analizador observa videos subtitulados, sin otra información, y asocia las palabras con objetos y acciones registrados. Dada una nueva sentencia, el analizador puede entonces utilizar lo que ha aprendido acerca de la estructura de la lengua para predecir con precisión el significado de una frase, sin el video.

Este enfoque “débilmente supervisado” - lo que significa que requiere una formación limitada de datos - imita cómo los niños pueden observar el mundo que les rodea y aprender el lenguaje, sin que nadie proporcionando contexto directa. El enfoque podría ampliar los tipos de datos y reducir el esfuerzo necesario para analizadores de formación, según los investigadores. Unas pocas frases directamente con anotaciones, por ejemplo, podría combinarse con muchos videos subtitulados, que son más fáciles de conseguir, para mejorar el rendimiento.

En el futuro, El analizador podría usarse para mejorar la interacción natural entre humanos y robots personales.. Un robot equipado con el analizador., por ejemplo, Podría observar constantemente su entorno para reforzar su comprensión de las órdenes habladas., incluso cuando las oraciones habladas no son completamente gramaticales o claras. “La gente se habla entre sí en frases parciales., pensamientos continuos, y lenguaje confuso. Quieres un robot en tu casa que se adapte a su forma particular de hablar... y aún así descubra lo que quieren decir," dice el coautor Andrei Barbu, investigador del Laboratorio de Informática e Inteligencia Artificial (CSAIL) y el Centro para el Cerebro, Mentes, y maquinas (CBMM) dentro del Instituto McGovern del MIT.

El analizador también podría ayudar a los investigadores a comprender mejor cómo aprenden el lenguaje los niños pequeños. “Un niño tiene acceso a recursos redundantes, información complementaria de diferentes modalidades, incluyendo escuchar a padres y hermanos hablar sobre el mundo, así como información táctil e información visual., [que le ayudan] para entender el mundo," dice el coautor Boris Katz, Investigador científico principal y jefe del Grupo InfoLab en CSAIL.. “Es un rompecabezas asombroso, para procesar toda esta información sensorial simultánea. Este trabajo es parte de una pieza más grande para comprender cómo ocurre este tipo de aprendizaje en el mundo”.

Los coautores del artículo son: primera autora Candace Ross, estudiante de posgrado en el Departamento de Ingeniería Eléctrica e Informática y CSAIL, e investigador en CBMM; Yevgeny Berzak Doctorado '17, Postdoctorado en el Grupo de Psicolingüística Computacional del Departamento de Cerebro y Ciencias Cognitivas; y el estudiante graduado de CSAIL Battushig Myanganbayar.

Aprendiz visual

Por su trabajo, Los investigadores combinaron un analizador semántico con un componente de visión por computadora entrenado en objetos., humano, y reconocimiento de actividad en vídeo. Los analizadores semánticos generalmente se entrenan con oraciones anotadas con un código que atribuye significado a cada palabra y las relaciones entre las palabras.. Algunos han sido entrenados en imágenes fijas o simulaciones por computadora..

El nuevo analizador es el primero en ser entrenado mediante video., ross dice. En parte, Los vídeos son más útiles para reducir la ambigüedad.. Si el analizador no está seguro acerca de, decir, una acción u objeto en una oración, Puede hacer referencia al vídeo para aclarar las cosas.. “Hay componentes temporales (objetos que interactúan entre sí y con personas) y propiedades de alto nivel que no verías en una imagen fija o simplemente en el lenguaje.,"Ross dice.

Los investigadores compilaron un conjunto de datos de aproximadamente 400 Vídeos que muestran a personas realizando una serie de acciones., incluyendo recoger un objeto o dejarlo, y caminando hacia un objeto. Luego, los participantes de la plataforma de crowdsourcing Mechanical Turk proporcionaron 1,200 subtítulos para esos videos. ellos dejaron de lado 840 ejemplos de subtítulos de vídeo para entrenamiento y ajuste, y usado 360 para las pruebas. Una ventaja de utilizar el análisis basado en visión es que "no necesita tantos datos, aunque si tuviera [los datos], podría escalar a enormes conjuntos de datos,” Barbu dice.

Entrenando, Los investigadores le dieron al analizador el objetivo de determinar si una oración describe con precisión un video determinado.. Le dieron al analizador un video y un título coincidente.. El analizador extrae posibles significados del título como expresiones matemáticas lógicas.. La frase, “La mujer está recogiendo una manzana.," por ejemplo, puede expresarse como: λxy. mujer X,recoger x y, manzana y.

Esas expresiones y el video se introducen en el algoritmo de visión por ordenador, llamado “Rastreador de Sentencia,”Desarrollado por Barbu y otros investigadores. El algoritmo busca en cada fotograma de vídeo para realizar un seguimiento de objetos y personas a transformar con el tiempo, para determinar si las acciones están jugando a cabo como se describe. De este modo, se determina si el significado es posiblemente verdadera del video.

Conectando los puntos

La expresión con las representaciones más estrechamente a juego para objetos, los seres humanos, y acciones se convierte en el significado más probable del título. La expresion, inicialmente, puede referirse a muchos objetos y acciones diferentes en el video, pero el conjunto de posibles significados sirve como una señal de entrenamiento que ayuda al analizador a reducir continuamente las posibilidades.. “Asumiendo que todas las oraciones deben seguir las mismas reglas, que todos vienen del mismo idioma, y ver muchos videos subtitulados, puedes limitar aún más los significados,” Barbu dice.

En breve, el analizador aprende mediante observación pasiva: Para determinar si el título de un vídeo es verdadero, el analizador necesariamente debe identificar el significado de mayor probabilidad del título. “La única manera de saber si la frase es verdadera para un vídeo [es] para pasar por este paso intermedio de, '¿Qué significa la frase??' De lo contrario, no tienes idea de cómo conectar los dos,” Barbu explica. “No le damos al sistema el significado de la frase. Decimos, 'Hay una frase y un vídeo. La frase tiene que ser cierta para el vídeo.. Encuentre alguna representación intermedia que lo haga real en el video”.

La formación produce una gramática sintáctica y semántica de las palabras que aprende.. Dada una nueva sentencia, el analizador ya no requiere videos, pero aprovecha su gramática y léxico para determinar la estructura y el significado de las oraciones..

Por último, este proceso es aprender “como si fueras un niño”,” Barbu dice. “Ves el mundo que te rodea y escuchas a la gente hablar para aprender el significado.. Un día, Puedo darte una oración y preguntarte qué significa y, incluso sin una visual, sabes el significado.”

"Esta investigación es exactamente la dirección correcta para el procesamiento del lenguaje natural.,"dice Stefanie Tellex, Profesor de informática en la Universidad de Brown que se centra en ayudar a los robots a utilizar el lenguaje natural para comunicarse con los humanos.. “Para interpretar el lenguaje fundamentado, necesitamos representaciones semánticas, pero no es posible ponerlo a disposición durante el período de formación. En lugar, este trabajo captura representaciones de la estructura compositiva utilizando el contexto de videos subtitulados. Este es el documento que estaba esperando!”

En trabajo futuro, los investigadores están interesados en modelar interacciones, no sólo observaciones pasivas. “Los niños interactúan con el medio ambiente mientras aprenden. Nuestra idea es tener un modelo que también utilice la percepción para aprender.,"Ross dice

Fuente: http://news.mit.edu, por Rob Matheson