Cryptografisch protocol maakt meer samenwerking in drug discovery, Een neuraal netwerk dat stevig vast potentiële geneesmiddelen zouden grootschalige bundeling van gevoelige gegevens bevorderen.

MIT-onderzoekers hebben een cryptografisch systeem dat kan helpen neurale netwerken te identificeren veelbelovende kandidaat-geneesmiddelen in massieve farmacologische datasets ontwikkeld, terwijl de data private. Veilige berekeningen op zo'n enorme schaal zouden een brede bundeling van gevoelige farmacologische gegevens voor voorspellende medicijnontdekking mogelijk kunnen maken.

Datasets van interacties tussen geneesmiddelen en doelwitten (DTI), die laten zien of kandidaatverbindingen inwerken op doeleiwitten, zijn van cruciaal belang bij het helpen van onderzoekers bij het ontwikkelen van nieuwe medicijnen. Modellen kunnen worden getraind om datasets van bekende DTI's te kraken en vervolgens, die informatie gebruiken, nieuwe kandidaat-geneesmiddelen vinden.

In recente jaren, farmaceutische bedrijven, universiteiten, en andere entiteiten staan open voor het bundelen van farmacologische gegevens in grotere databases die de training van deze modellen aanzienlijk kunnen verbeteren. Vanwege intellectuele eigendomskwesties en andere privacykwesties, echter, deze datasets blijven beperkt van omvang. Cryptografiemethoden om de gegevens te beveiligen zijn zo rekenintensief dat ze niet goed kunnen worden geschaald naar datasets daarbuiten, zeggen, tienduizenden DTI's, die relatief klein is.

In een artikel dat vandaag is gepubliceerd in Wetenschap, onderzoekers van MIT's Computer Science and Artificial Intelligence Laboratory (LCS) beschrijf een neuraal netwerk dat veilig is getraind en getest op een dataset van meer dan een miljoen DTI's. Het netwerk maakt gebruik van moderne cryptografische tools en optimalisatietechnieken om de invoergegevens privé te houden, terwijl het snel en efficiënt op schaal draait.

De experimenten van het team tonen aan dat het netwerk sneller en nauwkeuriger presteert dan bestaande benaderingen; het kan enorme datasets in dagen verwerken, terwijl andere cryptografische frameworks maanden zouden duren. Bovendien, het netwerk identificeerde verschillende nieuwe interacties, waaronder een tussen het leukemiegeneesmiddel imatinib en een enzym ErbB4 - waarvan mutaties in verband zijn gebracht met kanker - die klinische betekenis kunnen hebben.

“Mensen realiseren zich dat ze hun gegevens moeten bundelen om het ontdekkingsproces van geneesmiddelen aanzienlijk te versnellen en ons in staat te stellen, samen, om wetenschappelijke vooruitgang te boeken bij het oplossen van belangrijke ziekten bij de mens, zoals kanker of diabetes. Maar ze hebben geen goede manieren om het te doen,' zegt corresponderende auteur Bonnie Berger, de Simons hoogleraar wiskunde en een hoofdonderzoeker bij CSAIL. “Met dit werk, we bieden deze entiteiten een manier om hun gegevens op zeer grote schaal efficiënt te bundelen en te analyseren.”

Deelnemen aan Berger op de krant zijn co-eerste auteurs Brian Hie en Hyunghoon Cho, zowel afgestudeerde studenten in elektrotechniek en informatica als onderzoekers in de Computation and Biology-groep van CSAIL.

Gegevens "geheim delen".

Het nieuwe artikel bouwt voort op het vorige werk door de onderzoekers bij het beschermen van de vertrouwelijkheid van patiënten in genomische studies, die verbanden vinden tussen bepaalde genetische varianten en de incidentie van ziekten. Die genomische gegevens kunnen mogelijk persoonlijke informatie onthullen, patiënten kunnen dus aarzelen om zich in te schrijven voor de onderzoeken. In dat werk, Berger, Geven, en een voormalige promovendus van Stanford University ontwikkelde een protocol op basis van een cryptografisch raamwerk genaamd "geheim delen".,” die veilig en efficiënt datasets van een miljoen genomen analyseert. In tegenstelling tot, bestaande voorstellen konden slechts een paar duizend genomen aan.

Geheim delen wordt gebruikt bij berekeningen met meerdere partijen, waar gevoelige gegevens worden verdeeld in afzonderlijke "shares" tussen meerdere servers. Gedurende de berekening, elke partij heeft altijd alleen zijn deel van de gegevens, die volledig willekeurig lijkt. Collectief, echter, de servers kunnen nog steeds communiceren en nuttige bewerkingen uitvoeren op de onderliggende privégegevens. Aan het einde van de berekening, wanneer een resultaat nodig is, de partijen combineren hun aandelen om het resultaat te onthullen.

“We gebruikten ons eerdere werk als basis om geheim delen toe te passen op het probleem van farmacologische samenwerking, maar het werkte niet direct uit de kast,', zegt Berger.

Een belangrijke innovatie was het verminderen van de rekenkracht die nodig is voor training en testen. Bestaande voorspellende modellen voor het ontdekken van geneesmiddelen vertegenwoordigen de chemische en eiwitstructuren van DTI's als grafieken of matrices. Deze benaderingen, echter, schaal kwadratisch, of in het kwadraat, met het aantal DTI's in de dataset. Eigenlijk, het verwerken van deze representaties wordt extreem rekenintensief naarmate de dataset groter wordt. “Terwijl dat misschien prima is voor het werken met de ruwe data, als je dat in veilige berekening probeert, het is onhaalbaar,' zegt Hie.

De onderzoekers trainden in plaats daarvan een neuraal netwerk dat vertrouwt op lineaire berekeningen, die veel efficiënter schalen met de gegevens. “We hadden absoluut schaalbaarheid nodig, omdat we een manier proberen te bieden om gegevens samen te voegen [naar binnen] veel grotere datasets,' zegt Cho.

De onderzoekers trainden een neuraal netwerk op de STITCH-dataset, welke heeft 1.5 miljoen DTI's, waardoor het de grootste openbaar beschikbare dataset in zijn soort is. In opleiding, het netwerk codeert voor elke geneesmiddelverbinding en eiwitstructuur als een eenvoudige vectorweergave. Dit condenseert in wezen de gecompliceerde structuren als 1-en en 0-en die een computer gemakkelijk kan verwerken. Van die vectoren, het netwerk leert dan de patronen van interacties en niet-interacties. Gevoed nieuwe paren verbindingen en eiwitstructuren, het netwerk voorspelt vervolgens of ze zullen communiceren.

Het netwerk heeft ook een architectuur die is geoptimaliseerd voor efficiëntie en veiligheid. Elke laag van een neuraal netwerk vereist een activeringsfunctie die bepaalt hoe de informatie naar de volgende laag moet worden verzonden. In hun netwerk, de onderzoekers gebruikten een efficiënte activeringsfunctie die een gelijkgerichte lineaire eenheid wordt genoemd (cv). Deze functie vereist slechts één, veilige numerieke vergelijking van een interactie om te bepalen of er moet worden verzonden (1) of niet sturen (0) de gegevens naar de volgende laag, terwijl ze ook nooit iets onthullen over de daadwerkelijke gegevens. Deze bewerking kan efficiënter zijn bij veilige berekeningen in vergelijking met complexere functies, dus het vermindert de rekenlast en zorgt tegelijkertijd voor gegevensprivacy.

"De reden die belangrijk is, is dat we dit willen doen binnen het raamwerk voor het delen van geheimen... en we willen de rekenkundige overhead niet opvoeren,', zegt Berger. Uiteindelijk, “Er worden geen parameters van het model onthuld en alle invoergegevens zijn de medicijnen, doelen, en interacties - worden privé gehouden.

Interacties zoeken

De onderzoekers zetten hun netwerk op tegen verschillende state-of-the-art, platte tekst (onversleuteld) modellen op een deel van de bekende DTI's van DrugBank, een populaire dataset met ongeveer 2,000 DTI's. Naast het privé houden van de gegevens, het netwerk van de onderzoekers presteerde beter dan alle modellen wat betreft voorspellingsnauwkeurigheid. Slechts twee basislijnmodellen konden redelijkerwijs worden geschaald naar de STITCH-dataset, en het model van de onderzoekers bereikte bijna het dubbele van de nauwkeurigheid van die modellen.

De onderzoekers testten ook drug-target-paren zonder vermelde interacties in STITCH, en vond verschillende klinisch vastgestelde geneesmiddelinteracties die niet in de database stonden, maar dat wel zouden moeten zijn. In de krant, de onderzoekers zetten de sterkste voorspellingen op een rij, inclusief: droloxifeen en een oestrogeenreceptor, die klinische fase III-onderzoeken bereikte als behandeling voor borstkanker; en seocalcitol en een vitamine D-receptor om andere vormen van kanker te behandelen. Cho en Hie onafhankelijk gevalideerd de hoogst scorende nieuwe interacties via contract research organisaties.

Bron:

http://news.mit.edu, door Rob Matheson

Auteur

Marie

Bekijk Berichten