क्रिप्टोग्राफिक प्रोटोकॉल दवा की खोज में अधिक सहयोग को सक्षम बनाता है, एक तंत्रिका नेटवर्क जो सुरक्षित रूप से संभावित दवाओं को ढूंढता है, संवेदनशील डेटा के बड़े पैमाने पर पूलिंग को प्रोत्साहित कर सकता है.
एमआईटी शोधकर्ताओं ने एक क्रिप्टोग्राफिक प्रणाली विकसित की है जो तंत्रिका नेटवर्क को बड़े पैमाने पर फार्माकोलॉजिकल डेटासेट में आशाजनक दवा उम्मीदवारों की पहचान करने में मदद कर सकती है, डेटा को निजी रखते हुए. इतने बड़े पैमाने पर की गई सुरक्षित संगणना भविष्यवाणिय दवा की खोज के लिए संवेदनशील फार्माकोलॉजिकल डेटा के व्यापक पूलिंग को सक्षम कर सकती है.
ड्रग-टारगेट इंटरैक्शन के डेटासेट (डीटीआई), जो दिखाते हैं कि उम्मीदवार यौगिक लक्ष्य प्रोटीन पर कार्य करते हैं या नहीं, शोधकर्ताओं को नई दवाएं विकसित करने में मदद करने में महत्वपूर्ण हैं. मॉडल को ज्ञात DTI के डेटासेट को क्रंच करने के लिए प्रशिक्षित किया जा सकता है और फिर, उस जानकारी का उपयोग करना, उपन्यास दवा उम्मीदवारों को खोजें.
हाल के वर्षों में, दवा फर्मों, विश्वविद्यालयों, और अन्य इकाइयां औषधीय डेटा को बड़े डेटाबेस में पूल करने के लिए खुली हैं जो इन मॉडलों के प्रशिक्षण में काफी सुधार कर सकती हैं. बौद्धिक संपदा मामलों और अन्य गोपनीयता चिंताओं के कारण, तथापि, ये डेटासेट दायरे में सीमित रहते हैं. डेटा को सुरक्षित करने के लिए क्रिप्टोग्राफी के तरीके इतने कम्प्यूटेशनल रूप से गहन हैं कि वे डेटासेट से परे अच्छी तरह से स्केल नहीं करते हैं, कहो, हजारों डीटीआई, जो अपेक्षाकृत छोटा है.
में आज प्रकाशित एक पत्र में विज्ञान, एमआईटी के कंप्यूटर साइंस और आर्टिफिशियल इंटेलिजेंस लेबोरेटरी के शोधकर्ता (सीएसएएल) एक मिलियन से अधिक DTI के डेटासेट पर सुरक्षित रूप से प्रशिक्षित और परीक्षण किए गए तंत्रिका नेटवर्क का वर्णन करें. इनपुट डेटा को निजी रखने के लिए नेटवर्क आधुनिक क्रिप्टोग्राफ़िक टूल और ऑप्टिमाइज़ेशन तकनीकों का लाभ उठाता है, पैमाने पर जल्दी और कुशलता से दौड़ते हुए.
टीम के प्रयोग दिखाते हैं कि नेटवर्क मौजूदा दृष्टिकोणों की तुलना में तेज़ और अधिक सटीक प्रदर्शन करता है; यह बड़े पैमाने पर डेटासेट को दिनों में संसाधित कर सकता है, जबकि अन्य क्रिप्टोग्राफ़िक ढाँचों में महीनों लगेंगे. इसके अलावा, नेटवर्क ने कई उपन्यास इंटरैक्शन की पहचान की, ल्यूकेमिया दवा इमैटिनिब और एक एंजाइम ErbB4 के बीच एक सहित - म्यूटेशन जिनमें से कैंसर से जुड़ा हुआ है - जिसका नैदानिक महत्व हो सकता है.
"लोगों को एहसास है कि उन्हें दवा की खोज प्रक्रिया में तेजी लाने और हमें सक्षम करने के लिए अपने डेटा को पूल करने की आवश्यकता है, साथ में, महत्वपूर्ण मानव रोगों को हल करने में वैज्ञानिक प्रगति करना, जैसे कैंसर या मधुमेह. लेकिन उनके पास इसे करने के अच्छे तरीके नहीं हैं,”संबंधित लेखक बोनी बर्जर कहते हैं, गणित के सिमंस प्रोफेसर और CSAIL में एक प्रमुख अन्वेषक. "इस काम से, हम इन संस्थाओं के लिए एक बहुत बड़े पैमाने पर कुशलतापूर्वक पूल और उनके डेटा का विश्लेषण करने का एक तरीका प्रदान करते हैं।
पेपर पर बर्गर में शामिल होने वाले सह-लेखक ब्रायन ही और ह्युनघून चो हैं, दोनों इलेक्ट्रिकल इंजीनियरिंग और कंप्यूटर विज्ञान में स्नातक छात्र और CSAIL के संगणना और जीव विज्ञान समूह में शोधकर्ता.
"गुप्त साझाकरण" डेटा
नया पेपर पिछले पर बनाता है काम जीनोमिक अध्ययन में रोगी की गोपनीयता की रक्षा करने में शोधकर्ताओं द्वारा, जो विशेष अनुवांशिक रूपों और बीमारी की घटनाओं के बीच संबंध ढूंढते हैं. वह जीनोमिक डेटा संभावित रूप से व्यक्तिगत जानकारी प्रकट कर सकता है, इसलिए रोगी अध्ययन में नामांकन के लिए अनिच्छुक हो सकते हैं. उस काम में, बर्जर, देना, और स्टैनफोर्ड विश्वविद्यालय के एक पूर्व पीएचडी छात्र ने "गुप्त साझाकरण" नामक एक क्रिप्टोग्राफी ढांचे के आधार पर एक प्रोटोकॉल विकसित किया,"जो एक लाख जीनोम के डेटासेट का सुरक्षित और कुशलता से विश्लेषण करता है. इसके विपरीत, मौजूदा प्रस्ताव केवल कुछ हज़ार जीनोमों को संभाल सकते थे.
मल्टीपार्टी संगणना में गुप्त साझाकरण का उपयोग किया जाता है, जहां संवेदनशील डेटा को कई सर्वरों के बीच अलग-अलग "शेयरों" में विभाजित किया जाता है. गणना के दौरान, प्रत्येक पक्ष के पास हमेशा डेटा का केवल अपना हिस्सा होगा, जो पूरी तरह यादृच्छिक प्रतीत होता है. समग्र रूप से, तथापि, सर्वर अभी भी संचार कर सकते हैं और अंतर्निहित निजी डेटा पर उपयोगी संचालन कर सकते हैं. गणना के अंत में, जब एक परिणाम की आवश्यकता होती है, परिणाम प्रकट करने के लिए पार्टियां अपने शेयरों को जोड़ती हैं.
"हमने फार्माकोलॉजिकल सहयोग की समस्या के लिए गुप्त साझाकरण को लागू करने के आधार के रूप में हमारे पिछले काम का इस्तेमाल किया, लेकिन यह शेल्फ से ठीक काम नहीं करता था,"बर्गर कहते हैं.
एक प्रमुख नवाचार प्रशिक्षण और परीक्षण में आवश्यक संगणना को कम कर रहा था. मौजूदा भविष्यवाणी दवा-खोज मॉडल डीटीआई के रासायनिक और प्रोटीन संरचनाओं को ग्राफ या मैट्रिसेस के रूप में दर्शाते हैं. ये दृष्टिकोण, तथापि, चतुर्भुज पैमाने, या चुकता, डेटासेट में DTI की संख्या के साथ. मूल रूप से, जैसे-जैसे डेटासेट का आकार बढ़ता है, इन अभ्यावेदन को संसाधित करना कम्प्यूटेशनल रूप से गहन हो जाता है. "हालांकि यह कच्चे डेटा के साथ काम करने के लिए ठीक हो सकता है, यदि आप कोशिश करते हैं कि सुरक्षित संगणना में, यह संभव नहीं है,"हाय कहते हैं.
शोधकर्ताओं ने इसके बजाय एक तंत्रिका नेटवर्क को प्रशिक्षित किया जो रैखिक गणनाओं पर निर्भर करता है, जो डेटा के साथ कहीं अधिक कुशलता से स्केल करते हैं. "हमें पूरी तरह से स्केलेबिलिटी की जरूरत है, क्योंकि हम एक साथ डेटा पूल करने का तरीका प्रदान करने का प्रयास कर रहे हैं [में] बहुत बड़े डेटासेट,चो कहते हैं.
शोधकर्ताओं ने STITCH डेटासेट पर एक न्यूरल नेटवर्क को प्रशिक्षित किया, जो है 1.5 मिलियन डीटीआई, इसे अपनी तरह का सबसे बड़ा सार्वजनिक रूप से उपलब्ध डेटासेट बनाना. प्रशिक्षण में हूं, नेटवर्क प्रत्येक दवा यौगिक और प्रोटीन संरचना को एक साधारण वेक्टर प्रतिनिधित्व के रूप में कूटबद्ध करता है. यह अनिवार्य रूप से जटिल संरचनाओं को 1s और 0s के रूप में संघनित करता है जिसे कंप्यूटर आसानी से संसाधित कर सकता है. उन वैक्टर से, नेटवर्क तब बातचीत और गैर-बातचीत के पैटर्न सीखता है. यौगिकों और प्रोटीन संरचनाओं के नए जोड़े फेड, नेटवर्क तब भविष्यवाणी करता है कि क्या वे बातचीत करेंगे.
नेटवर्क में दक्षता और सुरक्षा के लिए अनुकूलित आर्किटेक्चर भी है. तंत्रिका नेटवर्क की प्रत्येक परत को कुछ सक्रियण फ़ंक्शन की आवश्यकता होती है जो यह निर्धारित करती है कि अगली परत को सूचना कैसे भेजी जाए. उनके नेटवर्क में, शोधकर्ताओं ने एक दक्ष सक्रियण क्रिया का उपयोग किया जिसे परिशोधित रेखीय इकाई कहा जाता है (फिर शुरू करना). इस फ़ंक्शन के लिए केवल एक की आवश्यकता है, भेजना है या नहीं यह निर्धारित करने के लिए किसी इंटरैक्शन की सुरक्षित संख्यात्मक तुलना (1) या नहीं भेजें (0) अगली परत के लिए डेटा, जबकि वास्तविक डेटा के बारे में कुछ भी प्रकट नहीं करते हैं. यह ऑपरेशन अधिक जटिल कार्यों की तुलना में सुरक्षित संगणना में अधिक कुशल हो सकता है, इसलिए यह डेटा गोपनीयता सुनिश्चित करते हुए कम्प्यूटेशनल बोझ को कम करता है.
"कारण यह महत्वपूर्ण है कि हम इसे गुप्त साझाकरण ढांचे के भीतर करना चाहते हैं ... और हम कम्प्यूटेशनल ओवरहेड को रैंप नहीं करना चाहते हैं,"बर्गर कहते हैं. अंततः, "मॉडल का कोई पैरामीटर प्रकट नहीं हुआ है और सभी इनपुट डेटा - दवाएं, लक्ष्यों को, और बातचीत — को निजी रखा जाता है।”
बातचीत ढूँढना
शोधकर्ताओं ने अपने नेटवर्क को कई अत्याधुनिक के खिलाफ खड़ा किया, सादे पाठ (अनएन्क्रिप्ट) ड्रगबैंक से ज्ञात डीटीआई के एक हिस्से पर मॉडल, के बारे में युक्त एक लोकप्रिय डेटासेट 2,000 डीटीआई. डेटा को निजी रखने के अलावा, शोधकर्ताओं के नेटवर्क ने भविष्यवाणी सटीकता में सभी मॉडलों से बेहतर प्रदर्शन किया. केवल दो बेसलाइन मॉडल STITCH डेटासेट के लिए यथोचित पैमाने पर हो सकते हैं, और शोधकर्ताओं के मॉडल ने उन मॉडलों की सटीकता को लगभग दोगुना कर दिया.
शोधकर्ताओं ने STITCH में कोई सूचीबद्ध इंटरैक्शन के साथ ड्रग-लक्षित जोड़े का भी परीक्षण किया, और कई चिकित्सकीय रूप से स्थापित ड्रग इंटरैक्शन पाए जो डेटाबेस में सूचीबद्ध नहीं थे लेकिन होने चाहिए. कागज़ पर, शोधकर्ता शीर्ष सबसे मजबूत भविष्यवाणियों को सूचीबद्ध करते हैं, समेत: ड्रोलोक्सिफ़ेन और एक एस्ट्रोजन रिसेप्टर, जो स्तन कैंसर के इलाज के रूप में तीसरे चरण के नैदानिक परीक्षणों तक पहुंच गया; और अन्य कैंसर के इलाज के लिए सेओकैल्सिटोल और एक विटामिन डी रिसेप्टर. चो और ही ने स्वतंत्र रूप से अनुबंध अनुसंधान संगठनों के माध्यम से उच्चतम स्कोरिंग उपन्यास बातचीत को मान्य किया.
स्रोत:
एचटीटीपी://news.mit.edu, रॉब मैथेसन द्वारा
उत्तर छोड़ दें
आपको चाहिए लॉग इन करें या रजिस्टर करें एक नई टिप्पणी जोड़ने के लिए .