protocole permet Cryptographic une plus grande collaboration dans la découverte de médicaments, un réseau de neurones qui trouve en toute sécurité des médicaments potentiels pourraient encourager la mise en commun à grande échelle des données sensibles.
les chercheurs du MIT ont mis au point un système cryptographique qui pourrait aider à identifier les réseaux de neurones candidats médicaments prometteurs dans des jeux de données pharmacologiques massives, tout en gardant le privé des données. calcul sécurisé fait à une échelle telle pourrait permettre à une large mise en commun des données pharmacologiques sensibles pour la découverte de médicaments prédictive.
Les ensembles de données d'interactions médicament-cible (DTI), qui montrent que les composés candidats agissent sur des protéines cibles, sont essentiels pour aider les chercheurs à développer de nouveaux médicaments. Les modèles peuvent être formés pour croquer des ensembles de données connus IDT et, en utilisant ces informations, trouver de nouveaux candidats médicaments.
Dans les années récentes, entreprises pharmaceutiques, universités, et d'autres entités sont devenues ouvertes à la mise en commun des données pharmacologiques importantes bases de données qui peuvent améliorer grandement la formation de ces modèles. En raison des questions de propriété intellectuelle et d'autres problèmes de confidentialité, toutefois, ces ensembles de données restent limitées dans leur portée. méthodes de Cryptographie pour sécuriser les données sont si intense qu'ils ne informatiquement pas bien à échelle des ensembles de données au-delà de, dire, des dizaines de milliers de IDT, ce qui est relativement faible.
Dans un article publié aujourd'hui dans Science, les chercheurs du laboratoire d'informatique et d'intelligence artificielle du MIT (CSAIL) décrire un réseau de neurones en toute sécurité formé et testé sur un ensemble de données de plus d'un million IDT. Le réseau tire parti des outils de cryptographie modernes et techniques d'optimisation pour conserver les données d'entrée privée, tout en exécutant rapidement et efficacement à l'échelle.
Les expériences de l'équipe montrent le réseau fonctionne plus rapidement et avec plus de précision que les approches existantes; il peut traiter des ensembles de données massifs en jours, tandis que d'autres cadres cryptographiques prendraient mois. en outre, le réseau a identifié plusieurs nouvelles interactions, dont un entre le imatinib de médicament contre la leucémie et une ErbB4 enzyme - dont des mutations ont été associées au cancer - ce qui pourrait avoir une signification clinique.
« Les gens se rendent compte qu'ils ont besoin de mettre en commun leurs données pour accélérer considérablement le processus de découverte de médicaments et nous permettre, ensemble, de faire des progrès scientifiques dans la résolution de maladies humaines importantes, comme le cancer ou le diabète. Mais ils ne sont pas de bons moyens de le faire,» Dit l'auteur correspondant Bonnie Berger, le professeur Simons de mathématiques et chercheur principal au CSAIL. « Avec ce travail, nous offrons un moyen pour ces entités de mettre en commun et analyser efficacement leurs données à une très grande échelle « .
Rejoindre Berger sur le papier sont co-premiers auteurs Brian et Hyunghoon Cho Hie, les étudiants diplômés en génie électrique et informatique et des chercheurs dans le groupe de calcul et de biologie de CSAIL.
« données de partage de secret »
Le nouveau document se base sur précédent travail par les chercheurs dans la protection de la confidentialité des patients dans les études génomiques, qui trouvent des liens entre les variantes génétiques particulières et l'incidence des maladies. Ces données génomiques pourraient révéler des renseignements personnels, afin que les patients peuvent être réticents à inscrire dans les études. Dans ce travail, Berger, donner, et un ancien étudiant de doctorat de l'Université de Stanford a développé un protocole basé sur un cadre de cryptographie appelé « partage de secret,» Qui analyse en toute sécurité et efficacement des ensembles de données d'un million de génomes. En revanche, les propositions existantes pourraient gérer seulement quelques milliers de génomes.
le partage secret est utilisé dans le calcul du multipartisme, où les données sensibles est divisé en « parts » séparés entre plusieurs serveurs. Tout au long de calcul, chaque partie aura toujours sa part que des données, qui semble totalement aléatoire. collectivement, toutefois, les serveurs peuvent toujours communiquer et effectuer des opérations utiles sur les données privées sous-jacentes. A la fin du calcul, lorsqu'un résultat est nécessaire, les parties combinent leurs actions pour révéler le résultat.
« Nous avons utilisé notre précédent travail de base pour appliquer le partage secret au problème de la collaboration pharmacologique, mais cela ne fonctionnait pas bien sur l'étagère,», Dit Berger.
Une innovation clé a été réduit le calcul nécessaire dans la formation et les tests. modèles prédictifs-découverte de médicaments existants représentent les structures chimiques et de protéines de IDT sous forme de graphiques ou de matrices. ces approches, toutefois, échelle quadratiquement, ou au carré, avec le nombre de DTI dans l'ensemble de données. Fondamentalement, le traitement de ces représentations devient extrêmement intense que la informatiquement taille de l'ensemble de données se développe. « Bien que cela puisse être bien pour travailler avec les données brutes, si vous essayez que dans le calcul sécurisé, il est infaisable,», Dit-Hie.
Les chercheurs formés à la place d'un réseau de neurones qui repose sur des calculs linéaires, qui échelle beaucoup plus efficacement avec les données. « Nous avons absolument besoin d'évolutivité, parce que nous essayons de fournir un moyen de mettre en commun les données ensemble [dans] ensembles de données beaucoup plus,» Dit Cho.
Les chercheurs ont formé un réseau de neurones sur l'ensemble de données STITCH, qui a 1.5 millions IDT, ce qui en fait le plus grand ensemble de données accessible au public en son genre. Dans la formation, le réseau code pour chaque composé médicamenteux et la structure des protéines comme une simple représentation vectorielle. Ce condensent essentiellement les structures complexes comme 1 et de 0 qu'un ordinateur peut facilement processus. De ces vecteurs, le réseau apprend alors les schémas d'interactions et noninteractions. Fed nouvelles paires de composés et de structures protéiques, le réseau prédit alors s'ils interagissent.
Le réseau dispose également d'une architecture optimisée pour l'efficacité et la sécurité. Chaque couche d'un réseau de neurones nécessite une fonction d'activation qui détermine comment envoyer les informations à la couche suivante. Dans leur réseau, les chercheurs ont utilisé une fonction d'activation efficace appelé une unité linéaire redressé (curriculum vitae). Cette fonction ne nécessite qu'une seule, assurer la comparaison numérique d'une interaction pour déterminer si d'envoyer (1) ou non envoyer (0) les données à la couche suivante, tout en révélant aussi jamais rien sur les données réelles. Cette opération peut être plus efficace dans le calcul sécurisé par rapport à des fonctions plus complexes, il réduit la charge de calcul, tout en assurant la confidentialité des données.
« La raison qui est important est que nous voulons faire dans le cadre de partage de secret ... et nous ne voulons pas monter en puissance les frais généraux de calcul,», Dit Berger. À la fin, « Aucun paramètre du modèle sont révélés et toutes les données d'entrée - les médicaments, cibles, et les interactions - sont tenus confidentiels « .
trouver des interactions
Les chercheurs ont dénoyautées leur réseau contre plusieurs état de l'art, plaintext (non crypté) modèles sur une partie de DTI connue de DrugBank, un ensemble de données populaires contenant environ 2,000 IDT. En plus de garder le secteur privé des données, le réseau de chercheurs a surclassé tous les modèles de la précision de prédiction. Seuls deux modèles de base pourraient raisonnablement échelle pour l'ensemble de données STITCH, et le modèle des chercheurs atteint presque le double de la précision de ces modèles.
Les chercheurs ont également testé des paires cibles de médicaments sans interactions énumérées dans STITCH, et a trouvé plusieurs interactions médicamenteuses cliniquement établies qui ne sont pas répertoriés dans la base de données, mais devrait être. Dans le journal, les chercheurs présentent les meilleures prédictions les plus fortes, comprenant: droloxifène et un récepteur d'oestrogène, qui a atteint la phase III des essais cliniques comme traitement du cancer du sein; et séocalcitol et un récepteur de vitamine D pour traiter d'autres cancers. Cho et Hie validés indépendamment les nouvelles interactions le plus élevé de notation par les organismes de recherche contractuelle.
La source:
http://news.mit.edu, par Rob Matheson
Laisser une réponse
Vous devez s'identifier ou S'inscrire ajouter un nouveau commentaire .