Zarejestruj się teraz

Zaloguj sie

Zgubione hasło

Zgubiłeś swoje hasło? Wprowadź swój adres e-mail. Otrzymasz link i utworzysz nowe hasło e-mailem.

Dodaj post

Musisz się zalogować, aby dodać post .

Dodaj pytanie

Aby zadać pytanie, musisz się zalogować.

Zaloguj sie

Zarejestruj się teraz

Witamy na stronie Scholarsark.com! Twoja rejestracja zapewni Ci dostęp do większej liczby funkcji tej platformy. Możesz zadawać pytania, wnosić wkład lub udzielać odpowiedzi, przeglądaj profile innych użytkowników i wiele więcej. Zarejestruj się teraz!

Protokół kryptograficzny umożliwia lepszą współpracę przy odkrywaniu leków, sieć neuronowa, która bezpiecznie wyszukuje potencjalne leki, może zachęcać do gromadzenia poufnych danych na dużą skalę.

Naukowcy z MIT opracowali system kryptograficzny, który może pomóc sieciom neuronowym w identyfikacji obiecujących kandydatów na leki w ogromnych zbiorach danych farmakologicznych, zachowując prywatność danych. Bezpieczne obliczenia wykonywane na tak masową skalę mogą umożliwić szerokie gromadzenie wrażliwych danych farmakologicznych w celu predykcyjnego odkrywania leków.

Zbiory danych interakcji lek-cel (DTI), które pokazują, czy kandydujące związki działają na białka docelowe, mają kluczowe znaczenie dla pomocy naukowcom w opracowywaniu nowych leków. Modele można wyszkolić, aby przetwarzały zbiory danych znanych DTI, a następnie, korzystając z tych informacji, znaleźć nowych kandydatów na leki.

W ostatnich latach, firmy farmaceutyczne, uniwersytety, a inne podmioty stały się otwarte na łączenie danych farmakologicznych w większe bazy danych, które mogą znacznie poprawić szkolenie tych modeli. Ze względu na kwestie własności intelektualnej i inne obawy związane z prywatnością, Jednakże, te zbiory danych mają ograniczony zakres. Metody kryptograficzne do zabezpieczania danych są tak intensywne obliczeniowo, że nie skalują się dobrze do zbiorów danych poza nimi, mowić, dziesiątki tysięcy DTI, co jest stosunkowo niewielkie.

W artykule opublikowanym dzisiaj w Nauka, naukowców z Laboratorium Informatyki i Sztucznej Inteligencji MIT (CSAIL) opisz sieć neuronową bezpiecznie przeszkoloną i przetestowaną na zbiorze danych zawierającym ponad milion DTI. Sieć wykorzystuje nowoczesne narzędzia kryptograficzne i techniki optymalizacji, aby zapewnić prywatność danych wejściowych, jednocześnie działając szybko i wydajnie na dużą skalę.

Eksperymenty zespołu pokazują, że sieć działa szybciej i dokładniej niż istniejące podejścia; może przetwarzać ogromne zbiory danych w ciągu kilku dni, podczas gdy inne ramy kryptograficzne zajęłyby miesiące. Ponadto, sieć zidentyfikowała kilka nowych interakcji, w tym między lekiem na białaczkę imatynibem a enzymem ErbB4 — którego mutacje są związane z rakiem — co może mieć znaczenie kliniczne.

„Ludzie zdają sobie sprawę, że muszą połączyć swoje dane, aby znacznie przyspieszyć proces odkrywania leków i umożliwić nam, razem, poczynić postępy naukowe w rozwiązywaniu ważnych chorób ludzkich, jak rak czy cukrzyca. Ale nie mają na to dobrych sposobów,”, mówi korespondentka Bonnie Berger, Simons profesor matematyki i główny badacz w CSAIL. „Dzięki tej pracy, zapewniamy tym podmiotom sposób na efektywne gromadzenie i analizowanie danych na bardzo dużą skalę”.

Do Bergera dołączają współpierwsi autorzy, Brian Hie i Hyunghoon Cho, zarówno absolwenci elektrotechniki i informatyki, jak i naukowcy z grupy obliczeniowej i biologicznej CSAIL.

„tajne udostępnianie” danych

Nowy dokument opiera się na poprzednim Praca przez naukowców w ochronie poufności pacjentów w badaniach genomicznych, które znajdują powiązania między poszczególnymi wariantami genetycznymi a występowaniem choroby. Te dane genomowe mogą potencjalnie ujawnić dane osobowe, więc pacjenci mogą niechętnie włączać się do badań. W tej pracy, Bergera, Dawać, i były doktorant Uniwersytetu Stanforda opracowali protokół oparty na ramach kryptograficznych o nazwie „dzielenie się tajemnicą”.,”, która bezpiecznie i wydajnie analizuje zestawy danych miliona genomów. W przeciwieństwie, istniejące propozycje mogłyby obsłużyć tylko kilka tysięcy genomów.

Tajne udostępnianie jest używane w obliczeniach wielostronnych, gdzie wrażliwe dane są dzielone na osobne „udziały” pomiędzy wiele serwerów. W całym obliczeniu, każda ze stron zawsze będzie miała tylko swój udział w danych, który pojawia się w pełni losowo. Zbiorowo, Jednakże, serwery mogą nadal komunikować się i wykonywać przydatne operacje na podstawowych danych prywatnych. Na koniec obliczenia, kiedy potrzebny jest wynik, strony łączą swoje udziały, aby ujawnić wynik.

„Wykorzystaliśmy naszą poprzednią pracę jako podstawę do zastosowania tajnego udostępniania do problemu współpracy farmakologicznej, ale nie działał od razu z półki,– mówi Berger.

Kluczową innowacją było ograniczenie obliczeń potrzebnych do szkolenia i testowania. Istniejące predykcyjne modele wykrywania leków przedstawiają struktury chemiczne i białkowe DTI w postaci wykresów lub macierzy. Te podejścia, Jednakże, skali kwadratowej, lub do kwadratu, z liczbą DTI w zbiorze danych. Zasadniczo, przetwarzanie tych reprezentacji staje się niezwykle intensywne obliczeniowo wraz ze wzrostem rozmiaru zbioru danych. „Chociaż może to być dobre do pracy z surowymi danymi, jeśli spróbujesz tego w bezpiecznych obliczeniach, to niewykonalne,— mówi Hie.

Naukowcy zamiast tego przeszkolili sieć neuronową, która opiera się na obliczeniach liniowych, które skalują się znacznie wydajniej z danymi. „Absolutnie potrzebowaliśmy skalowalności, ponieważ staramy się zapewnić sposób łączenia danych [do] znacznie większe zbiory danych,– mówi Cho.

Naukowcy przeszkolili sieć neuronową na zbiorze danych STITCH, Sprawdź Top 1.5 milionów DTI, co czyni go największym publicznie dostępnym zbiorem danych tego rodzaju. na treningu, sieć koduje każdy związek leku i strukturę białka jako prostą reprezentację wektorową. Zasadniczo kondensuje to skomplikowane struktury jako jedynki i zera, które komputer może z łatwością przetworzyć. Z tych wektorów, sieć następnie uczy się wzorców interakcji i braku interakcji. Nakarmiono nowe pary związków i struktur białkowych, sieć następnie przewiduje, czy będą wchodzić w interakcje.

Sieć ma również architekturę zoptymalizowaną pod kątem wydajności i bezpieczeństwa. Każda warstwa sieci neuronowej wymaga pewnej funkcji aktywacji, która określa sposób przesyłania informacji do następnej warstwy. W ich sieci, naukowcy wykorzystali wydajną funkcję aktywacji zwaną rektyfikowaną jednostką liniową (wznawiać). Ta funkcja wymaga tylko jednego, bezpieczne porównanie numeryczne interakcji w celu ustalenia, czy wysłać (1) lub nie wysyłać (0) dane do następnej warstwy, jednocześnie nigdy nie ujawniając niczego na temat rzeczywistych danych. Ta operacja może być bardziej wydajna w bezpiecznych obliczeniach w porównaniu z bardziej złożonymi funkcjami, dzięki czemu zmniejsza obciążenie obliczeniowe, zapewniając jednocześnie prywatność danych.

„Powodem, dla którego jest to ważne, jest to, że chcemy to zrobić w ramach tajnego udostępniania… i nie chcemy zwiększać narzutu obliczeniowego,– mówi Berger. Następnie zwrócił na siebie uwagę trenerów z North Carolina State University, „żadne parametry modelu nie są ujawniane, a wszystkie dane wejściowe — leki, cele, i interakcje — są prywatne”.

Znajdowanie interakcji

Naukowcy porównali swoją sieć z kilkoma najnowocześniejszymi technologiami, zwykły tekst (niezaszyfrowane) modele na części znanych DTI z DrugBank, popularny zbiór danych zawierający ok 2,000 DTI. Oprócz zachowania prywatności danych, sieć naukowców przewyższyła wszystkie modele pod względem dokładności przewidywania. Tylko dwa modele bazowe mogły w rozsądny sposób skalować się do zestawu danych STITCH, a model naukowców osiągnął prawie dwukrotnie większą dokładność niż te modele.

Naukowcy przetestowali również pary lek-cel bez wymienionych interakcji w STITCH, i znalazł kilka klinicznie ustalonych interakcji lekowych, które nie zostały wymienione w bazie danych, ale powinny być. Na papierze, naukowcy wymieniają najsilniejsze prognozy, łącznie z: droloksyfen i receptor estrogenowy, który osiągnął III fazę badań klinicznych jako lek na raka piersi; oraz seokalcitol i receptor witaminy D do leczenia innych nowotworów. Cho i Hie niezależnie zweryfikowali najwyżej oceniane nowatorskie interakcje za pośrednictwem kontraktowych organizacji badawczych.


Źródło:

http://news.mit.edu, autor: Rob Matheson

Zostaw odpowiedź