Kryptografisk protokoll muliggjør større samarbeid i legemiddeloppdagelse, et nevralt nettverk som sikkert finner potensielle medisiner kan oppmuntre til storskala samling av sensitive data.

MIT-forskere har utviklet et kryptografisk system som kan hjelpe nevrale nettverk med å identifisere lovende medikamentkandidater i massive farmakologiske datasett, mens du holder dataene private. Sikker beregning utført i en så massiv skala kan muliggjøre bred sammenslåing av sensitive farmakologiske data for prediktiv legemiddeloppdagelse.

Datasett av interaksjoner mellom legemiddelmål (DTI), som viser om kandidatforbindelser virker på målproteiner, er avgjørende for å hjelpe forskere med å utvikle nye medisiner. Modeller kan trenes til å knuse datasett med kjente DTIer og deretter, ved å bruke den informasjonen, finne nye medikamentkandidater.

I de senere år, farmasøytiske firmaer, universiteter, og andre enheter har blitt åpne for å samle farmakologiske data i større databaser som kan forbedre opplæringen av disse modellene betraktelig. På grunn av immaterielle forhold og andre personvernhensyn, derimot, disse datasettene er fortsatt begrenset i omfang. Kryptografimetoder for å sikre dataene er så beregningsintensive at de ikke skaleres godt til datasett utover, si, titusenvis av DTIer, som er relativt liten.

I en artikkel publisert i dag i Vær oppmerksom på at søknadsfrister og annen informasjon gitt på denne siden kan endres når som helst, forskere fra MITs Computer Science and Artificial Intelligence Laboratory (CSAIL) beskrive et nevralt nettverk som er sikkert trent og testet på et datasett med mer enn en million DTIer. Nettverket utnytter moderne kryptografiske verktøy og optimaliseringsteknikker for å holde inndataene private, mens du kjører raskt og effektivt i skala.

Teamets eksperimenter viser at nettverket fungerer raskere og mer nøyaktig enn eksisterende tilnærminger; den kan behandle enorme datasett på dager, mens andre kryptografiske rammer vil ta måneder. Dessuten, nettverket identifiserte flere nye interaksjoner, inkludert en mellom leukemimedisinen imatinib og et enzym ErbB4 - mutasjoner av disse har vært assosiert med kreft - som kan ha klinisk betydning.

"Folk innser at de trenger å samle dataene sine for å akselerere prosessen med å oppdage medisiner og gjøre oss i stand, sammen, å gjøre vitenskapelige fremskritt i å løse viktige menneskelige sykdommer, som kreft eller diabetes. Men de har ikke gode måter å gjøre det på,” sier tilsvarende forfatter Bonnie Berger, Simons professor i matematikk og hovedetterforsker ved CSAIL. "Med dette arbeidet, vi tilbyr en måte for disse enhetene å effektivt samle og analysere dataene deres i svært stor skala.»

Med Berger på papiret er co-first forfattere Brian Hie og Hyunghoon Cho, både hovedfagsstudenter innen elektroteknikk og informatikk og forskere i CSAILs Computation and Biology-gruppe.

"Hemmelig deling"-data

Det nye papiret bygger på tidligere arbeid av forskerne for å beskytte pasientens konfidensialitet i genomiske studier, som finner sammenhenger mellom spesielle genetiske varianter og forekomst av sykdom. Disse genomiske data kan potensielt avsløre personlig informasjon, slik at pasienter kan være motvillige til å melde seg på studiene. I det arbeidet, Berger, Til, og en tidligere doktorgradsstudent ved Stanford University utviklet en protokoll basert på et kryptografisk rammeverk kalt "hemmelig deling,” som sikkert og effektivt analyserer datasett med en million genomer. I motsetning, eksisterende forslag kunne håndtere bare noen få tusen genomer.

Hemmelig deling brukes i flerpartsberegning, hvor sensitive data er delt inn i separate "shares" mellom flere servere. Gjennom hele beregningen, hver part vil alltid bare ha sin del av dataene, som fremstår helt tilfeldig. Samlet sett, derimot, serverne kan fortsatt kommunisere og utføre nyttige operasjoner på de underliggende private dataene. På slutten av beregningen, når et resultat er nødvendig, partene slår sammen sine aksjer for å avsløre resultatet.

"Vi brukte vårt tidligere arbeid som grunnlag for å bruke hemmelig deling på problemet med farmakologisk samarbeid, men det fungerte ikke rett fra hylla,sier Berger.

En nøkkelinnovasjon var å redusere beregningen som trengs i opplæring og testing. Eksisterende prediktive legemiddeloppdagelsesmodeller representerer de kjemiske og proteinstrukturene til DTI-er som grafer eller matriser. Disse tilnærmingene, derimot, skalere kvadratisk, eller firkantet, med antall DTIer i datasettet. I utgangspunktet, behandlingen av disse representasjonene blir ekstremt beregningsintensiv ettersom størrelsen på datasettet vokser. "Selv om det kan være greit for å jobbe med rådataene, hvis du prøver det i sikker beregning, det er umulig,sier Hie.

Forskerne trente i stedet et nevralt nettverk som er avhengig av lineære beregninger, som skaleres langt mer effektivt med dataene. "Vi trengte absolutt skalerbarhet, fordi vi prøver å gi en måte å samle data på [inn i] mye større datasett," sier Cho.

Forskerne trente et nevralt nettverk på STITCH-datasettet, som har 1.5 millioner DTIer, gjør det til det største offentlig tilgjengelige datasettet av sitt slag. Under opplæring, nettverket koder for hver medikamentforbindelse og proteinstruktur som en enkel vektorrepresentasjon. Dette kondenserer i hovedsak de kompliserte strukturene som 1-er og 0-er som en datamaskin enkelt kan behandle. Fra disse vektorene, nettverket lærer deretter mønstrene for interaksjoner og ikke-interaksjoner. Matet nye par med forbindelser og proteinstrukturer, nettverket forutsier deretter om de vil samhandle.

Nettverket har også en arkitektur optimalisert for effektivitet og sikkerhet. Hvert lag i et nevralt nettverk krever en aktiveringsfunksjon som bestemmer hvordan informasjonen skal sendes til neste lag. I deres nettverk, forskerne brukte en effektiv aktiveringsfunksjon kalt en rettet lineær enhet (gjenoppta). Denne funksjonen krever bare en enkelt, sikker numerisk sammenligning av en interaksjon for å bestemme om du skal sende (1) eller ikke sende (0) dataene til neste lag, mens de heller aldri avslører noe om de faktiske dataene. Denne operasjonen kan være mer effektiv i sikker beregning sammenlignet med mer komplekse funksjoner, så det reduserer beregningsbyrden samtidig som personvernet sikres.

"Grunnen til at det er viktig er at vi ønsker å gjøre dette innenfor rammeverket for hemmelig deling ... og vi ønsker ikke å øke beregningsoverheaden,sier Berger. Til slutt, "Ingen parametere for modellen er avslørt og alle inndata - stoffene, mål, og interaksjoner - holdes private."

Finne interaksjoner

Forskerne satte nettverket deres opp mot flere toppmoderne, klartekst (ukryptert) modeller på en del av kjente DTIer fra DrugBank, et populært datasett som inneholder ca 2,000 DTIer. I tillegg til å holde dataene private, forskernes nettverk utkonkurrerte alle modellene i prediksjonsnøyaktighet. Bare to grunnlinjemodeller kunne rimelig skalere til STITCH-datasettet, og forskernes modell oppnådde nesten dobbelt så nøyaktighet som disse modellene.

Forskerne testet også medikament-målpar uten oppførte interaksjoner i STITCH, og fant flere klinisk etablerte legemiddelinteraksjoner som ikke var oppført i databasen, men som burde være det. I avisen, forskerne lister opp de beste spådommene, gjelder også: droloksifen og en østrogenreseptor, som nådde fase III kliniske studier som behandling for brystkreft; og seokalsitol og en vitamin D-reseptor for å behandle andre kreftformer. Cho og Hie validerte uavhengig de nye interaksjonene med høyest score via kontraktsforskningsorganisasjoner.

Kilde:

http://news.mit.edu, av Rob Matheson