โปรโตคอลการเข้ารหัสช่วยให้มีการทำงานร่วมกันมากขึ้นในการค้นคว้ายา, โครงข่ายประสาทเทียมที่ค้นหายาที่มีศักยภาพได้อย่างปลอดภัยสามารถกระตุ้นให้มีการรวมข้อมูลที่ละเอียดอ่อนจำนวนมาก.
นักวิจัยของ MIT ได้พัฒนาระบบการเข้ารหัสที่สามารถช่วยให้โครงข่ายประสาทสามารถระบุตัวยาที่มีแนวโน้มว่าจะเป็นตัวยาในชุดข้อมูลทางเภสัชวิทยาขนาดใหญ่, ในขณะที่รักษาข้อมูลให้เป็นส่วนตัว. การคำนวณที่ปลอดภัยในขนาดมหึมาดังกล่าวสามารถทำให้เกิดการรวมข้อมูลทางเภสัชวิทยาที่ละเอียดอ่อนในวงกว้างเพื่อการค้นพบยาเชิงคาดการณ์ได้.
ชุดข้อมูลปฏิสัมพันธ์ระหว่างยากับเป้าหมาย (สทป), ซึ่งแสดงว่าสารประกอบที่เข้าทดสอบออกฤทธิ์กับโปรตีนเป้าหมายหรือไม่, มีความสำคัญอย่างยิ่งในการช่วยให้นักวิจัยพัฒนายาใหม่ๆ. โมเดลสามารถได้รับการฝึกฝนให้กระทืบชุดข้อมูลของ DTI ที่รู้จักและจากนั้น, โดยใช้ข้อมูลนั้น, ค้นหาผู้สมัครยาใหม่.
ในปีที่ผ่านมา, บริษัทยา, มหาวิทยาลัย, และหน่วยงานอื่นๆ เปิดให้รวมข้อมูลทางเภสัชวิทยาเข้าไว้ในฐานข้อมูลขนาดใหญ่ ซึ่งสามารถปรับปรุงการฝึกอบรมโมเดลเหล่านี้ได้อย่างมาก. เนื่องจากประเด็นด้านทรัพย์สินทางปัญญาและข้อกังวลด้านความเป็นส่วนตัวอื่นๆ, อย่างไรก็ตาม, ชุดข้อมูลเหล่านี้ยังคงมีขอบเขตจำกัด. วิธีการเข้ารหัสเพื่อรักษาความปลอดภัยข้อมูลนั้นมีความเข้มข้นในการคำนวณมากจนไม่สามารถปรับขนาดชุดข้อมูลได้ดีเกินกว่านั้น, พูด, DTI นับหมื่น, ซึ่งมีขนาดค่อนข้างเล็ก.
ในบทความที่ตีพิมพ์ในวันนี้ที่ ศาสตร์, นักวิจัยจากห้องปฏิบัติการวิทยาการคอมพิวเตอร์และปัญญาประดิษฐ์ของ MIT (CSAIL) อธิบายโครงข่ายประสาทเทียมที่ได้รับการฝึกอบรมและทดสอบอย่างปลอดภัยบนชุดข้อมูลที่มี DTI มากกว่าล้านรายการ. เครือข่ายใช้ประโยชน์จากเครื่องมือเข้ารหัสที่ทันสมัยและเทคนิคการปรับให้เหมาะสมเพื่อรักษาข้อมูลอินพุตให้เป็นส่วนตัว, ในขณะที่ทำงานอย่างรวดเร็วและมีประสิทธิภาพในวงกว้าง.
การทดลองของทีมแสดงให้เห็นว่าเครือข่ายทำงานได้รวดเร็วและแม่นยำกว่าแนวทางที่มีอยู่; สามารถประมวลผลชุดข้อมูลขนาดใหญ่ได้ภายในเวลาไม่กี่วัน, ในขณะที่เฟรมเวิร์กการเข้ารหัสอื่นๆ จะใช้เวลาหลายเดือน. นอกจากนี้, เครือข่ายระบุปฏิสัมพันธ์ใหม่ ๆ หลายประการ, รวมถึงยาระหว่างยารักษาโรคมะเร็งเม็ดเลือดขาว imatinib และเอนไซม์ ErbB4 ซึ่งมีการกลายพันธุ์ที่เกี่ยวข้องกับมะเร็ง ซึ่งอาจมีความสำคัญทางคลินิก.
“ผู้คนตระหนักดีว่าพวกเขาจำเป็นต้องรวบรวมข้อมูลของตนเพื่อเร่งกระบวนการค้นพบยาอย่างมากและช่วยให้เรา, ด้วยกัน, เพื่อสร้างความก้าวหน้าทางวิทยาศาสตร์ในการแก้ปัญหาโรคที่สำคัญของมนุษย์, เช่นมะเร็งหรือเบาหวาน. แต่พวกเขาไม่มีวิธีที่ดีที่จะทำมัน," ผู้เขียนที่เกี่ยวข้อง Bonnie Berger กล่าว, ศาสตราจารย์วิชาคณิตศาสตร์ Simons และผู้ตรวจสอบหลักของ CSAIL. “ด้วยงานนี้, เราจัดเตรียมวิธีให้หน่วยงานเหล่านี้รวบรวมและวิเคราะห์ข้อมูลในวงกว้างได้อย่างมีประสิทธิภาพ”
การที่ Berger มาร่วมเขียนบทความนี้คือ Brian Hie และ Hyunghoon Cho ผู้เขียนร่วมคนแรก, ทั้งนักศึกษาระดับบัณฑิตศึกษาสาขาวิศวกรรมไฟฟ้าและวิทยาการคอมพิวเตอร์ และนักวิจัยในกลุ่มคอมพิวเตอร์และชีววิทยาของ CSAIL.
ข้อมูล "การแบ่งปันความลับ"
เอกสารใหม่สร้างขึ้นจากฉบับก่อนหน้า งาน โดยนักวิจัยในการปกป้องความลับของผู้ป่วยในการศึกษาจีโนม, ซึ่งค้นหาความเชื่อมโยงระหว่างตัวแปรทางพันธุกรรมเฉพาะกับอุบัติการณ์ของโรค. ข้อมูลจีโนมนั้นอาจเปิดเผยข้อมูลส่วนบุคคลได้, ดังนั้นผู้ป่วยจึงลังเลที่จะลงทะเบียนในการศึกษานี้. ในงานนั้น, เบอร์เกอร์, ให้, และอดีตนักศึกษาปริญญาเอกมหาวิทยาลัยสแตนฟอร์ดได้พัฒนาโปรโตคอลตามกรอบการเข้ารหัสที่เรียกว่า "การแบ่งปันความลับ",” ซึ่งวิเคราะห์ชุดข้อมูลของจีโนมนับล้านอย่างปลอดภัยและมีประสิทธิภาพ. ในทางตรงกันข้าม, ข้อเสนอที่มีอยู่สามารถรองรับจีโนมได้เพียงไม่กี่พันจีโนมเท่านั้น.
การแบ่งปันความลับใช้ในการคำนวณแบบหลายฝ่าย, โดยที่ข้อมูลที่ละเอียดอ่อนจะถูกแบ่งออกเป็น “การแบ่งปัน” แยกกันระหว่างเซิร์ฟเวอร์หลายเครื่อง. ตลอดการคำนวณ, แต่ละฝ่ายจะมีส่วนแบ่งของข้อมูลเท่านั้นเสมอ, ซึ่งปรากฏแบบสุ่มอย่างสมบูรณ์. เรียกรวมกัน, อย่างไรก็ตาม, เซิร์ฟเวอร์ยังคงสามารถสื่อสารและดำเนินการที่เป็นประโยชน์กับข้อมูลส่วนตัวที่ซ่อนอยู่ได้. เมื่อสิ้นสุดการคำนวณ, เมื่อต้องการผลลัพธ์, ทั้งสองฝ่ายรวมหุ้นของตนเพื่อเปิดเผยผล.
“เราใช้ผลงานก่อนหน้านี้เป็นพื้นฐานในการประยุกต์ใช้การแบ่งปันความลับกับปัญหาการทำงานร่วมกันทางเภสัชวิทยา, แต่มันใช้งานไม่ได้ทันทีจากชั้นวาง,เบอร์เกอร์กล่าว.
นวัตกรรมที่สำคัญคือการลดการคำนวณที่จำเป็นในการฝึกอบรมและการทดสอบ. แบบจำลองการค้นพบยาเชิงคาดการณ์ที่มีอยู่แสดงถึงโครงสร้างทางเคมีและโปรตีนของ DTI เป็นกราฟหรือเมทริกซ์. แนวทางเหล่านี้, อย่างไรก็ตาม, มาตราส่วนกำลังสอง, หรือกำลังสอง, ด้วยจำนวน DTI ในชุดข้อมูล. โดยทั่วไป, การประมวลผลการแสดงเหล่านี้จะมีความเข้มข้นในการคำนวณอย่างมากเมื่อขนาดของชุดข้อมูลเติบโตขึ้น. “ในขณะที่มันอาจจะดีสำหรับการทำงานกับข้อมูลดิบ, หากคุณลองใช้การคำนวณที่ปลอดภัย, มันเป็นไปไม่ได้,“ฮิเอะพูด.
นักวิจัยได้ฝึกโครงข่ายประสาทเทียมที่อาศัยการคำนวณเชิงเส้นแทน, ซึ่งปรับขนาดได้อย่างมีประสิทธิภาพมากขึ้นด้วยข้อมูล. “เราต้องการความสามารถในการขยายขนาดอย่างยิ่ง, เพราะเราพยายามหาทางรวมข้อมูลเข้าด้วยกัน [เข้าไปข้างใน] ชุดข้อมูลที่มีขนาดใหญ่กว่ามาก,” โชกล่าว.
นักวิจัยได้ฝึกโครงข่ายประสาทเทียมบนชุดข้อมูล STITCH, ซึ่งมี 1.5 ล้าน DTI, ทำให้เป็นชุดข้อมูลสาธารณะที่ใหญ่ที่สุดในประเภทเดียวกัน. “มีองค์ประกอบชั่วคราว - วัตถุมีปฏิสัมพันธ์ระหว่างกันและกับผู้คน - และคุณสมบัติระดับสูงที่คุณจะไม่เห็นในภาพนิ่งหรือเพียงแค่ในภาษา, เครือข่ายเข้ารหัสสารประกอบยาและโครงสร้างโปรตีนแต่ละรายการเพื่อแสดงเวกเตอร์อย่างง่าย. สิ่งนี้จะย่อโครงสร้างที่ซับซ้อนเป็น 1 และ 0 ที่คอมพิวเตอร์สามารถประมวลผลได้อย่างง่ายดาย. จากเวกเตอร์พวกนั้น, จากนั้นเครือข่ายจะเรียนรู้รูปแบบของการมีปฏิสัมพันธ์และการไม่โต้ตอบ. เลี้ยงสารประกอบและโครงสร้างโปรตีนคู่ใหม่, เครือข่ายจะคาดการณ์ว่าพวกเขาจะโต้ตอบกันหรือไม่.
เครือข่ายยังมีสถาปัตยกรรมที่ได้รับการปรับให้เหมาะสมเพื่อประสิทธิภาพและความปลอดภัย. แต่ละเลเยอร์ของโครงข่ายประสาทเทียมต้องมีฟังก์ชันการเปิดใช้งานบางอย่างซึ่งกำหนดวิธีส่งข้อมูลไปยังเลเยอร์ถัดไป. ในเครือข่ายของพวกเขา, นักวิจัยใช้ฟังก์ชันกระตุ้นที่มีประสิทธิภาพที่เรียกว่าหน่วยเชิงเส้นแบบแก้ไข (ประวัติย่อ). ฟังก์ชันนี้ต้องการเพียงฟังก์ชันเดียวเท่านั้น, การเปรียบเทียบเชิงตัวเลขที่ปลอดภัยของการโต้ตอบเพื่อพิจารณาว่าจะส่งหรือไม่ (1) หรือไม่ส่ง (0) ข้อมูลไปยังเลเยอร์ถัดไป, พร้อมทั้งไม่เคยเปิดเผยข้อมูลจริงใดๆ เลย. การดำเนินการนี้จะมีประสิทธิภาพมากกว่าในการคำนวณที่ปลอดภัยเมื่อเปรียบเทียบกับฟังก์ชันที่ซับซ้อนกว่า, ดังนั้นจึงช่วยลดภาระในการคำนวณพร้อมทั้งรับประกันความเป็นส่วนตัวของข้อมูล.
“เหตุผลที่สำคัญคือเราต้องการทำสิ่งนี้ภายในกรอบการแบ่งปันความลับ … และเราไม่ต้องการเพิ่มค่าใช้จ่ายในการคำนวณ,เบอร์เกอร์กล่าว. ในที่สุด, “ไม่มีการเปิดเผยพารามิเตอร์ของแบบจำลองและข้อมูลอินพุตทั้งหมด — ยา, เป้าหมาย, และการโต้ตอบ — จะถูกเก็บเป็นความลับ”
ค้นหาปฏิสัมพันธ์
นักวิจัยเจาะเครือข่ายของตนกับเทคโนโลยีล้ำสมัยหลายแห่ง, ข้อความธรรมดา (ไม่ได้เข้ารหัส) แบบจำลองในส่วนของ DTI ที่รู้จักจาก DrugBank, ชุดข้อมูลยอดนิยมที่มีเกี่ยวกับ 2,000 DTI. นอกจากการรักษาข้อมูลให้เป็นส่วนตัวแล้ว, เครือข่ายของนักวิจัยมีประสิทธิภาพเหนือกว่าโมเดลทั้งหมดในด้านความแม่นยำในการทำนาย. มีเพียงโมเดลพื้นฐานเพียงสองโมเดลเท่านั้นที่สามารถปรับขนาดชุดข้อมูล STITCH ได้อย่างสมเหตุสมผล, และแบบจำลองของนักวิจัยมีความแม่นยำมากกว่าแบบจำลองเหล่านั้นเกือบสองเท่า.
นักวิจัยยังได้ทดสอบคู่ยากับเป้าหมายโดยไม่มีการโต้ตอบใด ๆ ใน STITCH, และพบปฏิกิริยาระหว่างยาที่เป็นที่ยอมรับทางคลินิกหลายอย่างซึ่งไม่ได้อยู่ในฐานข้อมูลแต่ควรเป็นเช่นนั้น. ในกระดาษ, นักวิจัยแสดงรายการคำทำนายที่แข็งแกร่งที่สุด, รวมทั้ง: droloxifene และตัวรับเอสโตรเจน, ซึ่งถึงการทดลองทางคลินิกระยะที่ 3 เพื่อใช้รักษามะเร็งเต้านม; และซีโอแคลซิทอลและตัวรับวิตามินดีเพื่อรักษามะเร็งชนิดอื่น. Cho และ Hie ตรวจสอบการโต้ตอบแบบใหม่ที่ได้รับคะแนนสูงสุดอย่างอิสระผ่านองค์กรวิจัยตามสัญญา.
แหล่งที่มา:
http://news.mit.edu, โดย Rob Matheson
ทิ้งคำตอบไว้
คุณต้อง เข้าสู่ระบบ หรือ ลงทะเบียน เพื่อเพิ่มความคิดเห็นใหม่ .