Kryptographisches Protokoll ermöglicht eine bessere Zusammenarbeit in der Wirkstoffforschung, ein neuronales Netzwerk, das groß angelegte Bündelung von sensiblen Daten könnten fördern sicher potenzielle Medikamente findet.

MIT-Forscher haben ein kryptographisches System entwickelt, das neuronale Netze identifizieren vielversprechende Medikamentenkandidaten in der massiven pharmakologischen Datensätze helfen könnte, während die Daten privat. Sichere Berechnung in einer solchen massiven getan konnte breiten Pooling von empfindlichen pharmakologischen Daten für die prädiktive Wirkstoffforschung ermöglichen.

Datenmengen von Drogen-Ziel-Interaktionen (DTI), die zeigen, ob die Kandidatenverbindungen an Zielproteine handeln, entscheidend sind bei der Unterstützung entwickeln Forscher neue Medikamente. Die Modelle können trainiert werden Datensätze von bekannten DTIs Knirschen und dann, Verwendung dieser Informationen, finden, neuartige Arzneimittelkandidaten.

In den vergangenen Jahren, Pharmafirmen, Universitäten, und andere Einrichtungen haben geöffnet werden, um Pooling pharmakologische Daten in größere Datenbanken, die stark Ausbildung dieser Modelle verbessern. Durch Fragen des geistigen Eigentums und andere Bedenken hinsichtlich der Privatsphäre, jedoch, Diese Datensätze bleiben in ihrem Umfang begrenzt. Kryptographieverfahren die Daten sind so rechenintensiv sichern sie nicht gut skalieren darüber hinaus Datensätze, sagen, Zehntausende von DTIs, Das ist relativ klein.

In einem Papier veröffentlicht heute in Wissenschaft, Forscher aus Informatik und Künstliche Intelligenz des MIT Laboratory (CSAIL) beschreiben ein neuronales Netz sicher trainiert und getestet auf einem Datensatz von mehr als eine Million DTIs. Das Netzwerk nutzt moderne Verschlüsselungstools und Optimierungstechniken, um die Eingangsdaten privat zu halten, während schnell und effizient in großem Umfang ausgeführt werden.

Die Experimente Team zeigen das Netzwerk führt schneller und genauer als bestehende Ansätze; es kann massiven Datensätze in Tagen verarbeiten, während andere Verschlüsselungs Rahmenbedingungen Monate dauern würde,. Außerdem, das Netzwerk identifiziert mehrere neuartige Interaktionen, einschließlich einer zwischen dem Leukämie-Medikament Imatinib und einem Enzym ErbB4 - Mutationen, von denen mit Krebs assoziiert wurden - die Bedeutung der klinischen haben könnte.

„Die Menschen erkennen, dass sie benötigen, um ihre Daten zu bündeln, um stark den Drug Discovery-Prozess zu beschleunigen und uns zu ermöglichen,, zusammen, wissenschaftliche Fortschritte bei der Lösung von wichtigen menschlichen Krankheiten zu machen, wie Krebs oder Diabetes. Aber sie haben keine gute Möglichkeiten, es zu tun,“Sagt entsprechenden Autor Bonnie Berger, der Simons Professor für Mathematik und ein Principal Investigator bei CSAIL. „Mit dieser Arbeit, wir bieten eine Möglichkeit für diese Unternehmen effizient zu bündeln und ihre Daten in einem sehr großen Maßstab analysieren.“

Joining Berger auf dem Papier ist Co-Autoren erster Brian Hie und Hyunghoon Cho, beide Studenten in der Elektrotechnik und Informatik und Forscher in der Gruppe Berechnung und Biologie des CSAIL.

„Secret Sharing“ -Daten

Das neue Papier baut auf früheren Arbeit von den Forschern beim Schutz der Vertraulichkeit der Patienten in Genomstudien, die finden Verbindungen zwischen bestimmten genetischen Varianten und dem Auftreten von Krankheiten. Dass genomischen Daten könnten möglicherweise persönliche Informationen preisgeben, so können die Patienten nur ungern in den Studien einschreiben. In dieser Arbeit, Berger, geben, und ein ehemaliger Stanford University Doktorandin entwickelte ein Protokoll basiert auf einer Kryptographiegrundstruktur namens „Secret Sharing,“Die sicher und effizient analysiert Datensätze von einer Million Genome. Im Gegensatz, bestehenden Vorschläge konnten nur ein paar Tausend Genome behandeln.

Secret Sharing wird in Mehrparteienberechnung verwendet, wo sensible Daten auf mehrere Server in separate „Aktien“ geteilt. Im Laufe Berechnung, Jede Partei wird immer nur ihren Anteil an den Daten, das scheint völlig zufällig. Gemeinsam, jedoch, Die Server können noch nützliche Operationen auf den zugrunde liegenden privaten Daten kommunizieren und führen. Am Ende der Berechnung, wenn ein Ergebnis benötigt, die Parteien kombinieren ihre Aktien das Ergebnis offenbaren.

„Wir haben unsere bisherige Arbeit als Grundlage Geheimnisteilung für das Problem der pharmakologischen Zusammenarbeit anzuwenden, aber es funktionierte nicht richtig aus dem Regal,“Berger sagt.

Eine wesentliche Neuerung war die Verringerung der Berechnung benötigt in Ausbildung und Prüfung. Bestehende prädiktiven arzneimittel Entdeckung Modelle stellen die chemischen und Proteinstrukturen von DTIs als Graphen oder Matrizen. Diese Ansätze, jedoch, skalieren quadratisch, oder quadriert, mit der Anzahl der im Datensatz DTIs. Grundsätzlich gilt, diese Darstellungen der Verarbeitung wird extrem rechenintensiv, da die Größe des Datensatzes wächst. „Dies kann zwar für die Arbeit mit den Rohdaten in Ordnung sein, wenn Sie, dass in sicherer Berechnung versuchen, es ist nicht machbar,“Hie sagt.

Die Forscher trainierten stattdessen ein neuronales Netzwerk, das auf lineare Berechnungen stützt, Welcher Maßstab wesentlich effizienter mit den Daten. „Wir sind absolut erforderlich Skalierbarkeit, weil wir versuchen, einen Weg, um Daten zu bündeln [in] viel größere Datensätze,“Cho sagt.

Die Forscher trainierten ein neuronales Netzwerk auf dem STICH Dataset, das hat 1.5 Millionen DTIs, es die größte öffentlich zugängliche Datenmenge seiner Art machen. In der Ausbildung, das Netzwerk codiert jede Wirkstoff-Verbindung und Proteinstruktur als eine einfache Vektordarstellung. Dies kondensiert im Wesentlichen der komplizierten Strukturen wie 1 und 0, dass ein Computer kann leicht Prozess. Aus diesen Vektoren, das Netzwerk lernt dann die Muster der Interaktionen und noninteractions. Fed neue Paare von Verbindungen und Proteinstrukturen, das Netzwerk sagt dann, wenn sie interagieren werden.

Das Netzwerk hat auch eine Architektur für Effizienz und Sicherheit optimiert. Jede Schicht eines neuronalen Netzes erfordert eine gewisse Aktivierungsfunktion, die bestimmt, wie die Informationen an die nächste Schicht senden. In ihrem Netzwerk, die Forscher eine effiziente Aktivierungsfunktion eine gleichgerichtetes Lineareinheit genannt (Zusammenfassung). Diese Funktion erfordert nur eine einzige, sichern numerischen Vergleich einer Interaktion zu bestimmen, ob senden (1) oder nicht senden (0) die Daten an die nächste Schicht, während auch nie etwas über die tatsächlichen Daten, aus denen. Dieser Vorgang kann effizienter in sicherer Berechnung im Vergleich zu komplexeren Funktionen, so reduziert sie Rechenlast während des Datenschutzes gewährleistet.

„Der Grund, dass wichtig ist, ist, dass wir dies wollen innerhalb des geheimen gemeinsam Rahmen tun ... und wir wollen nicht den Rechenaufwand zur Rampe herauf,“Berger sagt. Schlussendlich, „Keine Parameter des Modells werden aufgedeckt und alle Dateneingabe - die Drogen, Ziele, und Interaktionen - werden privat gehalten „.

Die Suche nach Wechselwirkungen

Die Forscher entkernten ihr Netzwerk gegen mehr state-of-the-art, Klartext (unverschlüsselt) Modelle an einem Abschnitt von bekannter DTIs von Drugbank, ein beliebtes Dataset, die etwa 2,000 DTIs. Zusätzlich zu den Daten privat zu halten, das Netzwerk der Forscher übertraf alle Modelle in der Vorhersagegenauigkeit. Nur zwei Baseline-Modelle könnten vernünftigerweise den STICH-Datensatz skaliert, und die Forscher Modell erreicht fast die doppelte Genauigkeit dieser Modelle.

Die Forscher testeten auch Drogen-Ziel-Paare ohne aufgeführten Wechselwirkungen in STICH, und fand mehrere klinisch Wechselwirkungen mit anderen Arzneimitteln etabliert, die nicht in der Datenbank aufgeführt wurden, aber sollte es sein. In der Zeitung, die Forscher zeigen die Top-stärkste Prognosen, einschließlich: Droloxifen und ein Estrogenrezeptor, die erreichte Phase III der klinischen Studien zur Behandlung von Brustkrebs; und Seocalcitol und ein Vitamin-D-Rezeptor zu anderen Krebsarten zu behandeln. Cho und Hie validiert unabhängig die torreichsten neuartige Interaktionen über Vertragsforschungsorganisationen.

Quelle:

http://news.mit.edu, von Rob Matheson