Jetzt registrieren

Anmeldung

Passwort verloren

Passwort vergessen? Geben Sie bitte Ihre Email-Adresse ein. Sie erhalten einen Link und ein neues Passwort per E-Mail erstellen.

Eintrag

Sie müssen sich anmelden Beitrag hinzufügen .

In Frage

Sie müssen sich anmelden, um eine Frage zu stellen.

Anmeldung

Jetzt registrieren

Willkommen bei Scholarsark.com! Ihre Anmeldung wird gewährt Ihnen Zugriff auf mehr Funktionen dieser Plattform. Sie können Fragen stellen, beitragspflichtig oder geben Antworten, Ansicht Profile anderer Nutzer und vieles mehr. Jetzt registrieren!

Maschinen, die mehr Sprache lernen als Kinder: Das Computermodell könnte die Mensch-Maschine-Interaktion verbessern, Geben Sie Einblicke, wie Kinder Sprache lernen.

Kinder lernen Sprache, indem sie ihre Umwelt beobachten, den Menschen um sie herum zuzuhören, und verbinden die Punkte zwischen dem, was sie sehen und hören. Unter anderem, Dies hilft den Kindern, ihre Sprache der Wortfolge zu etablieren, wie, wo Themen und Verben in einem Satz fallen. in dem Computer, Lernen Sprache ist die Aufgabe der syntaktischen und semantischen Parser. Diese Systeme werden auf Sätze trainiert von Menschen kommentierten, die die Struktur und Bedeutung hinter den Worten beschreiben. Parser wird immer für Websuchen immer wichtiger, natürlichsprachlichen Datenbankabfragen, und Spracherkennungssysteme wie Alexa und Siri. Bald, sie können auch für zu Hause Robotik verwendet werden.

MIT-Forscher haben einen „semantischen Parser“ entwickelt, der durch Beobachtung lernt, den Spracherwerbsprozess eines Kindes genauer nachzuahmen, was die Möglichkeiten des Rechnens erheblich erweitern könnte.
Foto: MIT News

Das Sammeln der Annotationsdaten kann jedoch zeitaufwändig und für weniger gebräuchliche Sprachen schwierig sein. zusätzlich, Menschen sind sich nicht immer über die Anmerkungen einig, und die Anmerkungen selbst spiegeln möglicherweise nicht genau wider, wie Menschen natürlich sprechen.

In einem Papier, das diese Woche auf der Konferenz „Empirical Methods in Natural Language Processing“ vorgestellt wurde, MIT-Forscher beschreiben einen Parser, der durch Beobachtung lernt, den Spracherwerbsprozess eines Kindes genauer nachzuahmen, was die Fähigkeiten des Parsers erheblich erweitern könnte. Die Struktur der Sprache lernen, der Parser beobachtet untertitelte Videos, ohne weitere Informationen, und verknüpft die Wörter mit aufgezeichneten Objekten und Aktionen. Angesichts eines neuen Satzes, Der Parser kann dann das, was er über die Struktur der Sprache gelernt hat, verwenden, um die Bedeutung eines Satzes genau vorherzusagen, ohne das video.

Dieser „schwach überwachte“ Ansatz – das heißt, er erfordert begrenzte Trainingsdaten – ahmt nach, wie Kinder die Welt um sich herum beobachten und Sprache lernen können, ohne dass jemand direkten Kontext liefert. Der Ansatz könnte die Datentypen erweitern und den Aufwand für das Training von Parsern reduzieren, nach Ansicht der Forscher. Ein paar direkt kommentierte Sätze, zum Beispiel, kann mit vielen untertitelten Videos kombiniert werden, die leichter zu bekommen sind, Leistung zu verbessern.

In der Zukunft, Der Parser könnte verwendet werden, um die natürliche Interaktion zwischen Menschen und persönlichen Robotern zu verbessern. Ein mit dem Parser ausgestatteter Roboter, zum Beispiel, konnte ständig seine Umgebung beobachten, um sein Verständnis für gesprochene Befehle zu festigen, einschließlich, wenn die gesprochenen Sätze nicht vollständig grammatikalisch oder klar sind. „Menschen sprechen in Teilsätzen miteinander, laufende Gedanken, und verworrene Sprache. Sie wollen einen Roboter in Ihrem Zuhause, der sich an ihre besondere Sprechweise anpasst … und trotzdem versteht, was sie bedeuten,“, sagt Co-Autor Andrei Barbu, ein Forscher im Labor für Informatik und künstliche Intelligenz (CSAIL) und das Zentrum für Gehirne, Verstand, und Maschinen (CBMM) innerhalb des McGovern Institute des MIT.

Der Parser könnte Forschern auch dabei helfen, besser zu verstehen, wie kleine Kinder Sprache lernen. „Ein Kind hat Zugang zu überflüssigen, ergänzende Informationen aus verschiedenen Modalitäten, Dazu gehört auch, Eltern und Geschwistern zuzuhören, wenn sie über die Welt sprechen, sowie taktile Informationen und visuelle Informationen, [die ihm oder ihr helfen] die Welt zu verstehen,“, sagt Co-Autor Boris Katz, ein leitender Forschungswissenschaftler und Leiter der InfoLab-Gruppe bei CSAIL. „Es ist ein erstaunliches Puzzle, um all diesen gleichzeitigen sensorischen Input zu verarbeiten. Diese Arbeit ist Teil eines größeren Stücks, um zu verstehen, wie diese Art des Lernens in der Welt passiert.“

Co-Autoren auf dem Papier sind: Erstautorin Candace Ross, ein Doktorand in der Fakultät für Elektrotechnik und Informatik und CSAIL, und ein Forscher in CBMM; Jewgeni Berzak PhD ’17, Postdoc in der Computational Psycholinguistics Group im Department of Brain and Cognitive Sciences; und CSAIL-Doktorand Battushig Myanganbayar.

Visueller Lerner

Für ihre Arbeit, Die Forscher kombinierten einen semantischen Parser mit einer objekttrainierten Computer-Vision-Komponente, Marketingstrategie mit Prinzipien, die Sie zwingen, sich auf Ihre Mitarbeiter zu konzentrieren, und Aktivitätserkennung im Video. Semantische Parser werden im Allgemeinen mit Sätzen trainiert, die mit Code kommentiert sind, der jedem Wort und den Beziehungen zwischen den Wörtern eine Bedeutung zuschreibt. Einige wurden mit Standbildern oder Computersimulationen trainiert.

Der neue Parser ist der erste, der per Video trainiert wird, Ross sagt. Teilweise, Videos sind nützlicher, um Mehrdeutigkeiten zu reduzieren. Wenn der Parser unsicher ist, sagen, eine Handlung oder ein Objekt in einem Satz, Es kann auf das Video verweisen, um die Dinge zu klären. „Es gibt zeitliche Komponenten – Objekte, die miteinander und mit Menschen interagieren – und Eigenschaften auf hoher Ebene, die Sie in einem Standbild oder nur in der Sprache nicht sehen würden,“, sagt Roß.

Die Forscher stellten einen Datensatz von ca 400 Videos, die Menschen zeigen, die eine Reihe von Aktionen ausführen, einschließlich des Aufhebens oder Ablegens eines Gegenstands, und auf ein Objekt zugehen. Teilnehmer auf der Crowdsourcing-Plattform Mechanical Turk sorgten dann dafür 1,200 Untertitel für diese Videos. Sie legen beiseite 840 Video-Untertitel-Beispiele für Training und Tuning, und verwendet 360 zum Prüfen. Ein Vorteil der Verwendung von visionsbasiertem Parsing ist: „Sie brauchen nicht annähernd so viele Daten – obwohl, wenn Sie welche hätten [die Daten], Sie könnten auf riesige Datensätze hochskalieren,“, sagt Barbu.

In der Ausbildung, Die Forscher gaben dem Parser das Ziel, festzustellen, ob ein Satz ein bestimmtes Video genau beschreibt. Sie fütterten den Parser mit einem Video und einer passenden Bildunterschrift. Der Parser extrahiert mögliche Bedeutungen der Beschriftung als logische mathematische Ausdrücke. Der Satz, „Die Frau hebt einen Apfel auf," zum Beispiel, kann ausgedrückt werden als: λxy. Frau x,abholen x und, Apfel und.

Diese Ausdrücke und das Video an den Computer-Vision-Algorithmus eingegeben, genannt „Satz Tracker,“Von Barbu und anderen Forschern entwickelt. Der Algorithmus sucht an jedem Videorahmen zu verfolgen, wie Objekte und Menschen im Laufe der Zeit verwandeln, zu bestimmen, ob Aktionen wie beschrieben Ausspielen. Auf diese Weise, sie bestimmt, ob die Bedeutung möglicherweise wahr des Videos.

Die Punkte verbinden

Der Ausdruck mit den am ehesten passenden Darstellungen für Objekte, Menschen, und Aktionen wird zur wahrscheinlichsten Bedeutung der Bildunterschrift. Der Ausdruck, anfänglich, kann sich auf viele verschiedene Objekte und Aktionen im Video beziehen, aber die Menge möglicher Bedeutungen dient als Trainingssignal, das dem Parser hilft, kontinuierlich Möglichkeiten herauszufiltern. „Indem wir davon ausgehen, dass alle Sätze denselben Regeln folgen müssen, dass sie alle aus derselben Sprache stammen, und viele Videos mit Untertiteln zu sehen, Sie können die Bedeutungen weiter eingrenzen,“, sagt Barbu.

Zusamenfassend, der Parser lernt durch passive Beobachtung: Um zu bestimmen, ob eine Bildunterschrift auf ein Video zutrifft, der Parser muss notwendigerweise die Bedeutung der Beschriftung mit der höchsten Wahrscheinlichkeit identifizieren. „Der einzige Weg, um herauszufinden, ob der Satz auf ein Video zutrifft [ist] diesen Zwischenschritt zu durchlaufen, „Was bedeutet der Satz?' Andernfalls, Sie haben keine Ahnung, wie Sie die beiden verbinden sollen,“, erklärt Barbu. „Wir geben dem System nicht die Bedeutung für den Satz. Wir sagen, „Es gibt einen Satz und ein Video. Der Satz muss auf das Video zutreffen. Finden Sie eine Zwischendarstellung, die das Video wahr macht.‘“

Das Training erstellt eine syntaktische und semantische Grammatik für die gelernten Wörter. Angesichts eines neuen Satzes, der Parser benötigt keine Videos mehr, sondern nutzt seine Grammatik und sein Lexikon, um die Satzstruktur und -bedeutung zu bestimmen.

Letzten Endes, Dieser Prozess ist Lernen, „als ob Sie ein Kind wären,“, sagt Barbu. „Du siehst die Welt um dich herum und hörst Menschen sprechen, um die Bedeutung zu erfahren. Ein Tag, Ich kann Ihnen einen Satz geben und fragen, was er bedeutet und, auch ohne bild, Du kennst die Bedeutung.“

„Diese Forschung ist genau die richtige Richtung für die Verarbeitung natürlicher Sprache,“, sagt Stefanie Tellex, ein Professor für Informatik an der Brown University, der sich darauf konzentriert, Robotern dabei zu helfen, natürliche Sprache zu verwenden, um mit Menschen zu kommunizieren. „Geerdete Sprache interpretieren, wir brauchen semantische Repräsentationen, aber es ist nicht praktikabel, es zur Trainingszeit verfügbar zu machen. Stattdessen, diese arbeit erfasst darstellungen der kompositorischen struktur unter verwendung des kontexts aus beschrifteten videos. Das ist das Papier, auf das ich gewartet habe!“

In der zukünftigen Arbeit, Die Forscher interessieren sich für die Modellierung von Wechselwirkungen, nicht nur passive Beobachtungen. „Kinder interagieren beim Lernen mit der Umwelt. Unsere Idee ist, ein Modell zu haben, das auch die Wahrnehmung zum Lernen nutzt,“, sagt Roß


Quelle: http://news.mit.edu, von Rob Matheson

Autor

Über Marie

Hinterlasse eine Antwort