Cryptografisch protocol maakt meer samenwerking in drug discovery, Een neuraal netwerk dat stevig vast potentiële geneesmiddelen zouden grootschalige bundeling van gevoelige gegevens bevorderen.
MIT-onderzoekers hebben een cryptografisch systeem dat kan helpen neurale netwerken te identificeren veelbelovende kandidaat-geneesmiddelen in massieve farmacologische datasets ontwikkeld, terwijl de data private. Veilige berekeningen op zo'n enorme schaal zouden een brede bundeling van gevoelige farmacologische gegevens voor voorspellende medicijnontdekking mogelijk kunnen maken.
Datasets van interacties tussen geneesmiddelen en doelwitten (DTI), die laten zien of kandidaatverbindingen inwerken op doeleiwitten, zijn van cruciaal belang bij het helpen van onderzoekers bij het ontwikkelen van nieuwe medicijnen. Modellen kunnen worden getraind om datasets van bekende DTI's te kraken en vervolgens, die informatie gebruiken, nieuwe kandidaat-geneesmiddelen vinden.
In recente jaren, farmaceutische bedrijven, universiteiten, en andere entiteiten staan open voor het bundelen van farmacologische gegevens in grotere databases die de training van deze modellen aanzienlijk kunnen verbeteren. Vanwege intellectuele eigendomskwesties en andere privacykwesties, echter, deze datasets blijven beperkt van omvang. Cryptografiemethoden om de gegevens te beveiligen zijn zo rekenintensief dat ze niet goed kunnen worden geschaald naar datasets daarbuiten, zeggen, tens of thousands of DTIs, which is relatively small.
In a paper published today in Wetenschap, researchers from MIT’s Computer Science and Artificial Intelligence Laboratory (LCS) describe a neural network securely trained and tested on a dataset of more than a million DTIs. The network leverages modern cryptographic tools and optimization techniques to keep the input data private, while running quickly and efficiently at scale.
The team’s experiments show the network performs faster and more accurately than existing approaches; it can process massive datasets in days, whereas other cryptographic frameworks would take months. Bovendien, the network identified several novel interactions, waaronder een tussen het leukemiegeneesmiddel imatinib en een enzym ErbB4 - waarvan mutaties in verband zijn gebracht met kanker - die klinische betekenis kunnen hebben.
“Mensen realiseren zich dat ze hun gegevens moeten bundelen om het ontdekkingsproces van geneesmiddelen aanzienlijk te versnellen en ons in staat te stellen, samen, om wetenschappelijke vooruitgang te boeken bij het oplossen van belangrijke ziekten bij de mens, zoals kanker of diabetes. Maar ze hebben geen goede manieren om het te doen,' zegt corresponderende auteur Bonnie Berger, de Simons hoogleraar wiskunde en een hoofdonderzoeker bij CSAIL. “Met dit werk, we bieden deze entiteiten een manier om hun gegevens op zeer grote schaal efficiënt te bundelen en te analyseren.”
Deelnemen aan Berger op de krant zijn co-eerste auteurs Brian Hie en Hyunghoon Cho, zowel afgestudeerde studenten in elektrotechniek en informatica als onderzoekers in de Computation and Biology-groep van CSAIL.
Gegevens "geheim delen".
Het nieuwe artikel bouwt voort op het vorige werk door de onderzoekers bij het beschermen van de vertrouwelijkheid van patiënten in genomische studies, die verbanden vinden tussen bepaalde genetische varianten en de incidentie van ziekten. Die genomische gegevens kunnen mogelijk persoonlijke informatie onthullen, patiënten kunnen dus aarzelen om zich in te schrijven voor de onderzoeken. In dat werk, Berger, Geven, en een voormalige promovendus van Stanford University ontwikkelde een protocol op basis van een cryptografisch raamwerk genaamd "geheim delen".,” die veilig en efficiënt datasets van een miljoen genomen analyseert. In tegenstelling tot, bestaande voorstellen konden slechts een paar duizend genomen aan.
Geheim delen wordt gebruikt bij berekeningen met meerdere partijen, where sensitive data is divided into separate “shares” among multiple servers. Throughout computation, each party will always have only its share of the data, which appears fully random. Collectively, echter, the servers can still communicate and perform useful operations on the underlying private data. At the end of the computation, when a result is needed, the parties combine their shares to reveal the result.
“We used our previous work as a basis to apply secret sharing to the problem of pharmacological collaboration, but it didn’t work right off the shelf,” Berger says.
A key innovation was reducing the computation needed in training and testing. Existing predictive drug-discovery models represent the chemical and protein structures of DTIs as graphs or matrices. These approaches, echter, schaal kwadratisch, of in het kwadraat, met het aantal DTI's in de dataset. Eigenlijk, het verwerken van deze representaties wordt extreem rekenintensief naarmate de dataset groter wordt. “Terwijl dat misschien prima is voor het werken met de ruwe data, als je dat in veilige berekening probeert, het is onhaalbaar,' zegt Hie.
De onderzoekers trainden in plaats daarvan een neuraal netwerk dat vertrouwt op lineaire berekeningen, die veel efficiënter schalen met de gegevens. “We hadden absoluut schaalbaarheid nodig, omdat we een manier proberen te bieden om gegevens samen te voegen [naar binnen] veel grotere datasets,' zegt Cho.
De onderzoekers trainden een neuraal netwerk op de STITCH-dataset, welke heeft 1.5 miljoen DTI's, waardoor het de grootste openbaar beschikbare dataset in zijn soort is. In opleiding, het netwerk codeert voor elke geneesmiddelverbinding en eiwitstructuur als een eenvoudige vectorweergave. Dit condenseert in wezen de gecompliceerde structuren als 1-en en 0-en die een computer gemakkelijk kan verwerken. Van die vectoren, het netwerk leert dan de patronen van interacties en niet-interacties. Gevoed nieuwe paren verbindingen en eiwitstructuren, het netwerk voorspelt vervolgens of ze zullen communiceren.
Het netwerk heeft ook een architectuur die is geoptimaliseerd voor efficiëntie en veiligheid. Elke laag van een neuraal netwerk vereist een activeringsfunctie die bepaalt hoe de informatie naar de volgende laag moet worden verzonden. In hun netwerk, de onderzoekers gebruikten een efficiënte activeringsfunctie die een gelijkgerichte lineaire eenheid wordt genoemd (cv). Deze functie vereist slechts één, veilige numerieke vergelijking van een interactie om te bepalen of er moet worden verzonden (1) or not send (0) the data to the next layer, while also never revealing anything about the actual data. This operation can be more efficient in secure computation compared to more complex functions, so it reduces computational burden while ensuring data privacy.
“The reason that’s important is we want to do this within the secret sharing framework … and we don’t want to ramp up the computational overhead,” Berger says. Uiteindelijk, “no parameters of the model are revealed and all input data — the drugs, targets, and interactions — are kept private.”
Finding interactions
The researchers pitted their network against several state-of-the-art, plaintext (unencrypted) models on a portion of known DTIs from DrugBank, a popular dataset containing about 2,000 DTIs. In addition to keeping the data private, the researchers’ network outperformed all of the models in prediction accuracy. Only two baseline models could reasonably scale to the STITCH dataset, and the researchers’ model achieved nearly double the accuracy of those models.
The researchers also tested drug-target pairs with no listed interactions in STITCH, and found several clinically established drug interactions that weren’t listed in the database but should be. In de krant, the researchers list the top strongest predictions, inclusief: droloxifene and an estrogen receptor, which reached phase III clinical trials as a treatment for breast cancer; and seocalcitol and a vitamin D receptor to treat other cancers. Cho en Hie onafhankelijk gevalideerd de hoogst scorende nieuwe interacties via contract research organisaties.
Bron:
http://news.mit.edu, door Rob Matheson
Laat een antwoord achter
Je moet Log in of registreren om een nieuwe opmerking toe te voegen .