该学会的语言更像孩子机器做: 计算机模型可以提高人机交互, 洞察孩子如何学习语言.

孩子们通过观察他们的环境中学习语言, 听周围人, 和连接之间他们所看到和听到的点. 除其他事项外, 这有助于孩子建立自己的语言的词序, 例如在主题和动词落在一个句子. 在计算, 学习语言的语法和语义解析器的任务. 这些系统进行培训，通过描述的结构和含义的词语背后的人类注释语句. 解析器正成为网络搜索越来越重要, 自然语言数据库查询, 和语音识别系统，如Alexa和锡里. 不久, 它们也可以用于家庭机器人.

麻省理工学院的研究人员已经开发出一种“语义解析”，通过观察学习更加紧密地模仿孩子的语言获取过程, 这样可以大大延长计算的能力.

照片: 麻省理工学院新闻

但收集注释数据可以是费时和困难不常用的语言. 另外, 人类并不总是对的注解同意, 和注释本身可能不能准确地反映人们自然如何说话.

在一份文件呈现在自然语言处理会议本周的实证方法, MIT的研究人员描述了通过观察学习更加紧密地模仿孩子的语言获取过程分析器, 这可以极大地扩展解析器的能力. 要了解语言的结构, 解析器观察隐藏字幕视频, 没有其他信息, 并且与关联记录对象和动作的话. 考虑到一个新的句子, 那么解析器可以使用什么它了解了语言的结构准确地预测一个句子的意思, 没有视频.

这种“弱监督”的做法 - 这意味着它需要有限的训练数据 - 模仿孩子如何观察他们周围的世界，学习语言, 没有任何人提供直接的背景. 该方法可扩展的数据类型，并减少所需的培训解析器的努力, 据研究人员. 一些直接注释语句, 例如, 能与众多字幕的视频相结合, 这是更容易来, 以提高性能.

在将来, 分析器可以用来改善人类与个人机器人之间的自然交互. 配备有解析器的机器人, 例如, 可以不断地观察它的环境，以加强其语音命令的理解, 包括当口语句子不完全语法或清除. “人们互相交谈中部分句子, 运行上的想法, 庞杂的语言. 你想在您的家机器人将适应讲自己的特殊方式......，仍然弄清楚他们是什么意思,”合着者安德烈·巴尔布说, 在计算机科学和人工智能实验室的研究员 (CSAIL) 与中心脑, 头脑, 和机具 (CBMM) 麻省理工学院麦戈文研究所内.

解析器还可以帮助研究人员更好地了解孩子如何幼学语言. “一个孩子可以访问冗余, 来自不同模态的补充信息, 包括听力父母和兄弟姐妹谈论世界, 以及触觉信息和视觉信息, [这帮助他或她] 了解世界,”合着者鲍里斯·卡茨说：, 在CSAIL的主要研究科学家和头部的InfoLab集团. “这是一个惊人的拼图, 处理这一切的同时感觉输入. 这项工作是更大的一块，以了解这种学习世界上发生的一部分。”

在论文的合着作者是: 第一作者坎迪斯·罗斯, 研究生电气工程和计算机科学与CSAIL部, 在CBMM研究员; 叶夫根尼·Berzak博士'17, 在计算心理语言学集团在脑与认知科学系的博士后; 和CSAIL研究生巴特图希格·迈安加巴亚尔.

视觉学习者

对于自己的工作, 研究人员结合物中培养了计算机视觉分量的语义解析, 人的, 在视频和行为识别. 语义分析程序一般都受过训练与代码注释的句子归咎于意思是每一个字和词之间的关系. 有些人接受过培训的静止图像或计算机模拟.

新的解析器是使用视频进行培训第一, 罗斯说：. 在部分, 影片是减少不确定性更加有用. 如果解析器是不确定, 说, 在一个句子的动作或对象, 它可以参考视频，澄清事实. “有时间的组件 - 或和高层次的属性，你就不会在静止图像中看见刚语言 - 相互之间以及与人交往的对象,”罗斯说，.

研究人员编写的关于数据集 400 影片描绘开展了一系列行动人, 包括拾取对象或把它放下, 和朝向物体行走. 众包平台的Mechanical Turk参与者然后提供 1,200 字幕为这些影片. 他们搁置 840 训练和调整视频字幕的例子, 并用 360 用于检测. 采用基于视觉分析的一个优点是“你不需要几乎一样多的数据 - 但如果你有 [数据], 你可以扩展到庞大的数据集,”巴尔布说.

在培训中, 研究人员给解析器确定的目标句子是否准确地描述给定的视频. 他们喂养解析器的视频和字幕匹配. 解析器提取标题的可能意义逻辑的数学表达式. 这句话, “女人拿起一个苹果,“ 例如, 可以表示为: λxy. 女士 X,拾起 x和, 苹果和.

这些表情和视频输入到计算机视觉算法, 所谓的“句子跟踪,”通过巴尔布和其他研究人员开发. 该算法着眼于每个视频帧来跟踪物体和人如何改变随着时间的推移, 以确定是否动作打出来的描述. 通过这种方式, 它确定的含义是视频可能真.

连接点

与对象的最紧密匹配的陈述表达, 人类, 并且动作成为标题的最可能含义. 表达方式, 最初, 可能涉及视频中的许多不同对象和动作, 但是这组可能的含义可以作为一个训练信号，帮助解析器不断筛选可能性. “假设所有的句子都必须遵循相同的规则, 他们都来自同一种语言, 并看到许多带字幕的视频, 你可以进一步缩小含义,”巴尔布说.

简而言之, 解析器通过被动观察学习: 如果要判断一个标题是视频的真实, 必然解析器必须确定标题的概率最高意义. “只有这样，才能弄清楚，如果这句话是视频的真实 [是] 要经过这个中间步骤, “什么是句子的意思?' 除此以外, 你不知道如何连接两个,”巴尔布解释. “我们不给系统使句子的意思. 我们说, “有一个句子和视频. 该句必须是视频的真实. 找出一些使视频真实的中间表示。

训练为其所学的单词生成句法和语义语法. 考虑到一个新的句子, 解析器不再需要视频, 但利用其语法和词典来确定句子结构和含义.

最终，, 这个过程正在学习“就像你是个孩子一样,”巴尔布说. “你看到你周围的世界，听到人们说话来学习意义. 一天, 我可以给你一个句子并问它是什么意思, 即使没有视觉, 你知道意思。”

“这项研究正是自然语言处理的正确方向,” Stefanie Tellex 说, 布朗大学计算机科学教授，专注于帮助机器人使用自然语言与人类交流. “解释扎根的语言, 我们需要语义表示, 但在培训时提供它是不切实际的. 代替, 这项工作使用字幕视频中的上下文捕获组成结构的表示. 这是我一直在等待的论文!”

在今后的工作中, 研究人员感兴趣的是模拟互动, 不只是被动观察. “孩子们在学与环境互动. 我们的想法是有一个模型，它也将使用知觉学习,”罗斯说，

资源: HTTP://news.mit.edu, 罗布洋行