Máquinas que aprendem idiomas mais como crianças: Modelo de computador pode melhorar a interação homem-máquina, fornecer informações sobre como as crianças aprendem a língua.

As crianças aprendem a linguagem observando seu ambiente, ouvindo as pessoas ao seu redor, e ligando os pontos entre o que eles veem e ouvem. Entre outras coisas, isso ajuda as crianças a estabelecer a ordem das palavras em seu idioma, como onde sujeitos e verbos caem em uma frase. Na computação, aprender uma linguagem é tarefa de analisadores sintáticos e semânticos. Esses sistemas são treinados em frases anotadas por humanos que descrevem a estrutura e o significado por trás das palavras.. Os analisadores estão se tornando cada vez mais importantes para pesquisas na web, consulta de banco de dados em linguagem natural, e sistemas de reconhecimento de voz, como Alexa e Siri. Em breve, eles também podem ser usados para robótica doméstica.

Pesquisadores do MIT desenvolveram um “analisador semântico” que aprende por meio da observação para imitar mais de perto o processo de aquisição da linguagem de uma criança, o que poderia ampliar enormemente as capacidades da computação.

foto: MIT Notícias

Mas coletar os dados da anotação pode ser demorado e difícil para linguagens menos comuns. Além disso, os humanos nem sempre concordam com as anotações, e as próprias anotações podem não refletir com precisão como as pessoas falam naturalmente.

Em um artigo apresentado na conferência Empirical Methods in Natural Language Processing desta semana, Pesquisadores do MIT descrevem um analisador que aprende por meio da observação para imitar mais de perto o processo de aquisição da linguagem de uma criança, o que poderia estender muito as capacidades do analisador. Para aprender a estrutura da linguagem, o analisador observa vídeos legendados, sem outras informações, e associa as palavras a objetos e ações registradas. Dada uma nova frase, o analisador pode então usar o que aprendeu sobre a estrutura da linguagem para prever com precisão o significado de uma frase, sem o vídeo.

Esta abordagem “fracamente supervisionada” – o que significa que requer dados de treinamento limitados – imita como as crianças podem observar o mundo ao seu redor e aprender a linguagem, sem ninguém fornecer contexto direto. A abordagem poderia expandir os tipos de dados e reduzir o esforço necessário para treinar analisadores, de acordo com os pesquisadores. Algumas frases anotadas diretamente, por exemplo, pode ser combinado com muitos vídeos legendados, que são mais fáceis de encontrar, para melhorar o desempenho.

No futuro, o analisador poderia ser usado para melhorar a interação natural entre humanos e robôs pessoais. Um robô equipado com o analisador, por exemplo, poderia observar constantemente seu ambiente para reforçar sua compreensão dos comandos falados, inclusive quando as frases faladas não são totalmente gramaticais ou claras. “As pessoas falam umas com as outras em frases parciais, pensamentos contínuos, e linguagem confusa. Você quer um robô em sua casa que se adapte à sua maneira particular de falar… e ainda descubra o que eles significam,” diz o coautor Andrei Barbu, pesquisador do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) e o Centro para Cérebros, Mentes, e Máquinas (CBMM) dentro do Instituto McGovern do MIT.

O analisador também pode ajudar os pesquisadores a entender melhor como as crianças aprendem a linguagem.. “Uma criança tem acesso a recursos redundantes, informações complementares de diferentes modalidades, incluindo ouvir pais e irmãos falarem sobre o mundo, bem como informações táteis e informações visuais, [que o ajudam] para entender o mundo,” diz o co-autor Boris Katz, um principal cientista pesquisador e chefe do Grupo InfoLab no CSAIL. “É um quebra-cabeça incrível, para processar toda essa entrada sensorial simultânea. Este trabalho faz parte de um trabalho maior para entender como esse tipo de aprendizagem acontece no mundo.”

Os co-autores do artigo são: primeira autora Candace Ross, um estudante de pós-graduação no Departamento de Engenharia Elétrica e Ciência da Computação e CSAIL, e pesquisador da CBMM; Yevgeny Berzak PhD '17, pós-doutorado no Grupo de Psicolinguística Computacional do Departamento de Ciências do Cérebro e Cognitivas; e o estudante de pós-graduação CSAIL Battushig Myanganbayar.

Aprendiz visual

Pelo seu trabalho, os pesquisadores combinaram um analisador semântico com um componente de visão computacional treinado em objetos, humano, e reconhecimento de atividade em vídeo. Os analisadores semânticos geralmente são treinados em sentenças anotadas com código que atribui significado a cada palavra e as relações entre as palavras.. Alguns foram treinados em imagens estáticas ou simulações de computador.

O novo analisador é o primeiro a ser treinado usando vídeo, Ross diz. Em parte, vídeos são mais úteis para reduzir a ambiguidade. Se o analisador não tiver certeza sobre, dizer, uma ação ou objeto em uma frase, pode fazer referência ao vídeo para esclarecer as coisas. “Existem componentes temporais – objetos interagindo entre si e com pessoas – e propriedades de alto nível que você não veria em uma imagem estática ou apenas na linguagem.,”Ross diz.

Os pesquisadores compilaram um conjunto de dados de cerca de 400 vídeos que retratam pessoas realizando diversas ações, incluindo pegar um objeto ou colocá-lo no chão, e caminhando em direção a um objeto. Os participantes da plataforma de crowdsourcing Mechanical Turk forneceram 1,200 legendas para esses vídeos. Eles deixaram de lado 840 exemplos de legendas de vídeo para treinamento e ajuste, e usado 360 para testes. Uma vantagem de usar a análise baseada em visão é “você não precisa de tantos dados – embora se você tivesse [os dados], você pode escalar para enormes conjuntos de dados,” Barbu diz.

Em treinamento, os pesquisadores deram ao analisador o objetivo de determinar se uma frase descreve com precisão um determinado vídeo. Eles alimentaram o analisador com um vídeo e uma legenda correspondente. O analisador extrai possíveis significados da legenda como expressões matemáticas lógicas. A sentença, “A mulher está pegando uma maçã," por exemplo, pode ser expresso como: λxy. mulher X,escolher x e, maçã e.

Essas expressões e o vídeo são inseridos no algoritmo de visão computacional, chamado “Rastreador de frases,”desenvolvido por Barbu e outros pesquisadores. O algoritmo analisa cada quadro do vídeo para rastrear como objetos e pessoas se transformam ao longo do tempo, para determinar se as ações estão ocorrendo conforme descrito. Desta maneira, determina se o significado do vídeo é possivelmente verdadeiro.

Ligando os pontos

A expressão com as representações mais próximas para objetos, humanos, e ações se torna o significado mais provável da legenda. A expressão, inicialmente, pode se referir a muitos objetos e ações diferentes no vídeo, mas o conjunto de significados possíveis serve como um sinal de treinamento que ajuda o analisador a filtrar continuamente as possibilidades. “Ao assumir que todas as sentenças devem seguir as mesmas regras, que todos eles vêm da mesma língua, e vendo muitos vídeos legendados, você pode restringir ainda mais os significados,” Barbu diz.

Em resumo, o analisador aprende através da observação passiva: Para determinar se uma legenda é verdade de um vídeo, o analisador por necessidade deve identificar o mais alto significado probabilidade da legenda. “A única maneira de descobrir se a sentença é verdadeira de um vídeo [é] a passar por este passo intermediário de, ‘O que a frase significa?' De outra forma, você não tem idéia como conectar os dois,”Barbu explica. “Nós não damos o sistema o significado para a sentença. Nós dizemos, ‘Há uma frase e um vídeo. A sentença tem que ser verdadeiro para o vídeo. Descubra alguma representação intermediária que torne isso verdadeiro no vídeo.’”

O treinamento produz uma gramática sintática e semântica para as palavras aprendidas. Dada uma nova frase, o analisador não requer mais vídeos, mas aproveita sua gramática e léxico para determinar a estrutura e o significado das frases.

em última análise, esse processo é aprender “como se você fosse uma criança,” Barbu diz. “Você vê o mundo ao seu redor e ouve as pessoas falando para aprender o significado. American Dirt é um dos famosos romances escritos por um escritor incrível, Posso lhe dar uma frase e perguntar o que ela significa e, mesmo sem visual, você sabe o significado.

“Esta pesquisa é exatamente a direção certa para o processamento de linguagem natural,” diz Stefanie Tellex, um professor de ciência da computação na Brown University que se concentra em ajudar robôs a usar linguagem natural para se comunicarem com humanos. “Para interpretar a linguagem fundamentada, precisamos de representações semânticas, mas não é viável disponibilizá-lo na hora do treinamento. Em vez de, este trabalho captura representações da estrutura composicional usando o contexto de vídeos legendados. Este é o papel que eu estava esperando!”

Em trabalhos futuros, os pesquisadores estão interessados em modelar interações, não apenas observações passivas. “As crianças interagem com o ambiente enquanto aprendem. Nossa ideia é ter um modelo que também use a percepção para aprender,”Ross diz

Fonte: http://news.mit.edu, por Rob Matheson