Машины, которые изучают язык как дети: Компьютерная модель может улучшить взаимодействие человека и машины, дать представление о том, как дети изучают язык.

Дети изучают язык, наблюдая за своим окружением, прислушиваться к окружающим, и соединяя точки между тем, что они видят и слышат. Среди прочего, это помогает детям установить порядок слов в своем языке, например, когда подлежащее и глагол попадают в предложение. В вычислительной технике, изучение языка – задача синтаксических и семантических парсеров. Эти системы обучаются на предложениях, аннотированных людьми, которые описывают структуру и значение слов.. Парсеры становятся все более важными для веб-поиска., запросы к базе данных на естественном языке, и системы распознавания голоса, такие как Alexa и Siri.. Скоро, их также можно использовать для домашней робототехники.

Исследователи Массачусетского технологического института разработали «семантический анализатор», который посредством наблюдения учится более точно имитировать процесс овладения языком ребенка., что могло бы значительно расширить возможности вычислений.

Фото: MIT News

Но сбор данных аннотаций может занять много времени и затруднений для менее распространенных языков.. Дополнительно, люди не всегда согласны с аннотациями, и сами аннотации могут неточно отражать то, как люди естественно говорят.

В документе, представленном на конференции «Эмпирические методы обработки естественного языка» на этой неделе., Исследователи Массачусетского технологического института описывают синтаксический анализатор, который посредством наблюдения учится более точно имитировать процесс овладения языком ребенка., что могло бы значительно расширить возможности парсера. Изучить строение языка, парсер отслеживает видео с субтитрами, без какой-либо другой информации, и связывает слова с записанными объектами и действиями. Учитывая новое предложение, затем парсер может использовать полученные знания о структуре языка, чтобы точно предсказать значение предложения., без видео.

Этот подход со «слабым контролем» — то есть требует ограниченных обучающих данных — имитирует то, как дети могут наблюдать за окружающим миром и изучать язык., без предоставления прямого контекста. Этот подход может расширить типы данных и сократить усилия, необходимые для обучения парсеров., по мнению исследователей. Несколько предложений с прямыми аннотациями, например, можно комбинировать со многими видео с субтитрами, которые легче найти, для улучшения производительности.

В будущем, парсер можно использовать для улучшения естественного взаимодействия между людьми и персональными роботами. Робот, оснащенный парсером, например, мог постоянно наблюдать за своим окружением, чтобы лучше понимать устные команды, в том числе, когда произнесенные предложения не полностью грамматические или ясные. «Люди разговаривают друг с другом частичными предложениями., бегущие мысли, и запутанный язык. Вы хотите, чтобы у вас дома был робот, который адаптировался бы к их манере речи… и при этом понимал бы, что они имеют в виду.,— говорит соавтор Андрей Барбу, научный сотрудник лаборатории компьютерных наук и искусственного интеллекта (CSAIL) и Центр мозга, Умы, и машины (CBMM) в Институте Макговерна Массачусетского технологического института.

Синтаксический анализатор также может помочь исследователям лучше понять, как маленькие дети изучают язык.. «Ребенок имеет доступ к лишним, дополнительная информация из разных модальностей, в том числе слушать, как родители, братья и сестры говорят о мире, а также тактильную информацию и визуальную информацию, [которые помогают ему или ей] понять мир,— говорит соавтор Борис Кац, ведущий научный сотрудник и руководитель группы InfoLab в CSAIL. «Это удивительная головоломка, обрабатывать всю эту одновременную сенсорную информацию. Эта работа является частью более крупного проекта, направленного на понимание того, как такого рода обучение происходит в мире».

Соавторами статьи являются: первый автор Кэндис Росс, аспирант кафедры электротехники и вычислительной техники и CSAIL, и исследователь в CBMM; Евгений Berzak PhD '17, постдок в вычислительном психолингвистики группы в отделе мозга и когнитивных наук; и CSAIL аспирант Баттушиг Майанганбайяр.

Визуальный обучаемый

Для их работы, исследователи совместили семантический анализатор с компонентом компьютерного зрения обученного в объекте, человек, и признание деятельности в видео. Семантические анализаторы обычно обучаются на предложениях, снабженных кодом, который приписывает значение каждому слову и отношениям между словами.. Некоторые прошли обучение на неподвижных изображениях или компьютерном моделировании..

Новый парсер — первый, который обучается с помощью видео, Росс говорит. Частично, видео более полезны для уменьшения двусмысленности. Если парсер не уверен в, сказать, действие или предмет в предложении, он может сослаться на видео, чтобы прояснить ситуацию. «Есть временные компоненты — объекты, взаимодействующие друг с другом и с людьми — и свойства высокого уровня, которые вы не увидите ни в неподвижном изображении, ни просто в языке.,- говорит Росс.

Исследователи собрали набор данных примерно 400 видеоролики, изображающие людей, совершающих ряд действий, включая взятие предмета или его опускание, и иду к объекту. Затем участники краудсорсинговой платформы Mechanical Turk предоставили 1,200 субтитры к этим видео. Они отложили 840 примеры видео-титров для обучения и настройки, и использовал 360 для тестирования. Одним из преимуществ использования синтаксического анализа на основе видения является то, что «вам не нужно столько данных, хотя если бы у вас были [данные], вы можете масштабироваться до огромных наборов данных,- говорит Барбу.

В обучении, Исследователи поставили перед парсером задачу определить, точно ли предложение описывает данное видео.. Они передали парсеру видео и соответствующую подпись.. Парсер извлекает возможные значения подписи в виде логических математических выражений.. Предложение, «Женщина собирает яблоко," например, может быть выражено как: λxy. женщина Икс,подобрать х у, яблоко и.

Эти выражения и видео вводятся в алгоритм компьютерного зрения., под названием «Отслеживание предложений»,», разработанный Барбу и другими исследователями. Алгоритм просматривает каждый кадр видео, чтобы отслеживать, как с течением времени меняются объекты и люди., чтобы определить, происходят ли действия так, как описано. Таким образом, он определяет, верно ли значение видео.

Соединение точек

Выражение с наиболее близкими представлениями объектов., люди, и действия становятся наиболее вероятным смыслом подписи. Выражение, изначально, может относиться к множеству разных объектов и действий в видео, но набор возможных значений служит обучающим сигналом, который помогает анализатору постоянно отсеивать возможности.. «Предполагая, что все предложения должны следовать одним и тем же правилам, что все они происходят из одного языка, и просматриваю много видео с субтитрами, вы можете еще больше сузить значения,- говорит Барбу.

Короче, парсер учится посредством пассивного наблюдения: Чтобы определить, соответствует ли подпись видео, анализатор по необходимости должен идентифицировать наиболее вероятное значение подписи. «Единственный способ выяснить, верно ли это предложение в отношении видео [является] пройти этот промежуточный этап, «Что означает это предложение?' В противном случае, ты понятия не имеешь, как соединить эти два,- объясняет Барбу. «Мы не придаем системе смысл предложения. Мы говорим, «Есть приговор и видео. Предложение должно соответствовать видео. Придумайте какое-нибудь промежуточное представление, которое сделает это видео верным».

Обучение создает синтаксическую и семантическую грамматику для выученных слов.. Учитывая новое предложение, парсер больше не требует видео, но использует свою грамматику и лексику для определения структуры и значения предложения..

в конечном счете, этот процесс — обучение «как будто ты ребенок»,- говорит Барбу. «Вы видите мир вокруг себя и слышите людей, говорящих, чтобы понять смысл. Один день, Я могу дать вам предложение и спросить, что оно означает, и, даже без визуала, ты знаешь значение».

«Это исследование является именно правильное направление для обработки естественного языка,»Говорит Стефани Tellex, профессор информатики в Университете Брауна, который помогает роботам использовать естественный язык для общения с людьми.. «Для того, чтобы интерпретировать заземленный язык, мы должны семантические представления, но это практически невозможно, чтобы сделать его доступным во время обучения. Вместо, эта работа захватывает представления композиционной структуры с использованием контекста из приостановленных видео. Это бумага я жду!»

В будущей работе, исследователи заинтересованы в моделировании взаимодействий, не просто пассивные наблюдения. «Дети взаимодействуют с окружающей средой во время обучения. Наша идея состоит в том, чтобы создать модель, которая бы также использовала восприятие для обучения.,- говорит Росс

Источник: HTTP://news.mit.edu, Роб Мэтисон