密码协议使得能够在药物发现更好的协作, 安全地发现潜在的药物可能会鼓励对敏感数据的大型池的神经网络.
麻省理工学院的研究人员已经开发出一种加密系统,可以帮助神经网络识别大量的药理数据集有前途的候选药物, 同时保持数据的私密性. 在如此大规模的做秘密计算可以使能预测药物发现敏感药理学数据的广泛汇集.
药物靶标相互作用的数据集 (DTI), 其示出候选化合物是否作用于靶蛋白, 在帮助关键研究人员开发新的药物. 模型可以被训练紧缩已知DTIS然后的数据集, 使用该信息, 寻找新的候选药物.
最近几年, 制药公司, 高校, 和其他实体已成为开放池药理数据到更大型的数据库,可以大大提高这些模型的培训. 由于知识产权问题和其他隐私问题, 然而, 这些数据集仍然范围有限. 加密方法来保护数据是如此计算密集型的,他们不能很好地扩展到超出数据集, 说, 数以万计的DTIS, 这是比较小的.
在论文今天发表于 科学, 从麻省理工学院计算机科学和人工智能实验室的研究人员 (CSAIL) 描述安全培训,并对超过一百万DTIS的数据集测试神经网络. 该网络利用现代密码工具和优化技术,以保持输入数据私人, 而在规模快速和高效运行.
该小组的实验表明,在网络上比现有的方法进行更快,更准确; 它可以处理在天海量数据集, 而其他加密框架将需要数月时间. 此外, 网络确定了几个新的相互作用, 包括白血病药物伊马替尼和酶之间的ErbB4一个 - 突变,其已经与癌症相关 - 这可能具有临床意义.
“人们意识到他们需要汇集他们的数据,可以大大加快药物开发过程,使我们, 一起, 制定科学的进步在解决重要的人类疾病, 如癌症或糖尿病. 但他们没有这样做的好方法,”通讯作者邦妮Berger说, 数学西蒙斯教授和CSAIL首席研究员. “有了这个工作, 我们提供了这些实体有效游泳池和一个非常大规模分析数据的方式。”
在纸张上加入伯杰是共同第一作者布赖恩枝和Hyunghoon卓, 两个研究生在电气工程和计算机科学和研究人员在CSAIL的计算和生物组.
“秘密共享”数据
新文件建立在以前的 工作 由研究人员在基因组研究中保护患者机密, 其中找到特定的遗传变异和疾病发生率之间的联系. 该基因组数据可能会泄露个人信息, 因此患者可能不愿在研究中招收. 在这项工作, 伯杰, 给, 和前斯坦福大学的博士生开发了基于所谓的“秘密共享一个加密框架协议,”它安全有效地分析了一百万的基因组数据集. 相反, 现有的建议只能处理几千个基因组.
秘密共享的多方计算使用, 敏感数据被划分成多个服务器之间单独的“股份”. 纵观计算, 每一方将始终只有它的数据共享, 这似乎完全随机. 统, 然而, 服务器仍然可以沟通和对下层专用数据执行有用的操作. 在计算结束, 当需要一个结果, 双方结合自己的股份以显示结果.
“我们用我们以前的工作为基础,秘密共享应用到药物的合作问题, 但它没有工作的权利下架,” Berger说.
一个关键创新是降低训练和测试所需的计算. 现有预测药物发现模型代表DTIS的化学和蛋白质结构如图表或矩阵. 这些方法, 然而, 规模平方, 或方形, 与DTIS的数据集中的数. 基本上, 处理这些陈述变得数据集的大小增长极为计算密集型. “虽然这可能与原始数据的工作被罚款, 如果试图在安全计算, 这是不可行,”枝说.
研究人员经过培训,而不是依赖于线性计算神经网络, 该比例远远更有效地与数据. “我们绝对需要的可扩展性, 因为我们试图提供一种方式来汇集数据一起 [成] 更大的数据集,”赵说:.
研究人员训练关于针脚数据集神经网络, 其中有 1.5 亿个DTIS, 使其成为同类产品中最大的可公开获得的数据集. 在培训中, 网络编码每种药物化合物和蛋白质的结构为简单的向量表示. 这基本上凝结在复杂的结构为1和0的是,计算机可以很容易地处理. 从这些载体, 网络学习,然后相互作用和noninteractions的模式. 美联储新对化合物和蛋白质结构的, 网络则预测它们是否会相互影响.
该网络还具有一个体系结构的效率和安全性优化. 神经网络的每个层需要,它确定如何将信息发送到下一层一些激活函数. 在他们的网络, 研究人员使用称为整流线性单元的有效激活功能 (简历). 此功能只需要一个, 固定相互作用的数值比较,以确定是否发送 (1) 或不发送 (0) 数据到下一层, 同时,也从来没有透露关于实际数据什么. 这种操作可以在安全计算相比,更复杂的功能更有效, 所以它减少,同时确保数据保密计算负担.
“这是很重要的原因是我们想要的秘密共享的框架内做到这一点......我们不想斜升计算开销,” Berger说. 到底, “没有模型的参数显示,所有输入数据 - 药品, 目标, 和交互 - 是保密的。”
查找互动
研究人员进站其网络免受几个国家的最先进的, 纯文本 (加密) 从DrugBank已知DTIS的部分模型, 含有约一个受欢迎的数据集 2,000 DTIS. 除了保持数据的私密性, 研究人员的网络胜过所有的模型预测精度. 只有两个基准模型可以合理地扩展为针脚数据集, 和研究人员的模型来实现这些模型的近一倍的准确性.
研究人员还测试了药物靶标对在缝没有上市的相互作用, 发现未在数据库中列出,但应该会出现一些临床上建立的药物相互作用. 在纸, 研究者榜前最强预测, 包含: 屈洛昔芬和雌激素受体, 即达到III期临床试验作为乳腺癌治疗; 和西奥骨化醇及维生素d受体来治疗其他癌症. Cho和枝独立验证通过合同研究组织,得分最高的新的相互作用.
资源:
HTTP://news.mit.edu, 罗布洋行
发表评论
你必须 登录 要么 寄存器 添加新评论 .