जीव विज्ञान के मुख्य कार्यों में से एक हल हो गया है

जीव विज्ञान के मुख्य कार्यों में से एक हल हो गया है
जीव विज्ञान के मुख्य कार्यों में से एक हल हो गया है
Anonim

प्रोटीन संरचना मुख्य रहस्यों में से एक है जिसे विज्ञान को उजागर करने की आवश्यकता है, उदाहरण के लिए, प्लास्टिक कचरे के पुनर्चक्रण या वंशानुगत बीमारियों के इलाज के लिए। लेकिन यह पता चला कि प्रकृति किसी भी कंप्यूटर की तुलना में अधिक चालाक है: दुनिया में 200 मिलियन से अधिक प्रोटीन संरचनाएं हैं, और प्रत्येक व्यक्तिगत है। आर्टिफिशियल इंटेलिजेंस (एआई) ने वैज्ञानिकों को उनके रहस्यों को सुलझाने के करीब ला दिया।

आर्टिफिशियल इंटेलिजेंस (एआई) ने जीव विज्ञान में सबसे महत्वपूर्ण समस्याओं में से एक को हल कर दिया है: अब इसका उपयोग प्रोटीन की त्रि-आयामी संरचना के अमीनो एसिड अनुक्रम की भविष्यवाणी करने के लिए किया जा सकता है। इस क्रम की पूर्णता या अपूर्णता के आधार पर प्रोटीन अपना कार्य करता है। स्ट्रक्चरल बायोलॉजी के प्रमुख विशेषज्ञों और द्विवार्षिक प्रोटीन फोल्डिंग (फोल्डिंग) प्रयोग के आयोजकों ने आज ब्रिटिश कंपनी डीपमाइंड के वैज्ञानिकों द्वारा इस उत्कृष्ट उपलब्धि की घोषणा की, जो कृत्रिम बुद्धिमत्ता (एआई) के क्षेत्र में विकसित हो रही है। यह कहा गया है कि दीपमाइंड की पद्धति के दूरगामी प्रभाव होंगे। उदाहरण के लिए, यह नई दवाओं के विकास में नाटकीय रूप से तेजी ला सकता है।

यूरोपीय जैव सूचना विज्ञान संस्थान के निदेशक एमेरिटस जेनेट थॉर्नटन कहते हैं, "डीपमाइंड टीम एक शानदार परिणाम प्राप्त करने में सक्षम रही है जो संरचनात्मक जीवविज्ञान और प्रोटीन अनुसंधान के विकास की संभावनाओं को नाटकीय रूप से बदल देगी।" "यह चुनौती 50 साल पुरानी है," शैडी ग्रोव में मैरीलैंड विश्वविद्यालय के एक संरचनात्मक जीवविज्ञानी जॉन मौल्ट कहते हैं; मौल्ट क्रिटिकल असेसमेंट ऑफ़ प्रोटीन स्ट्रक्चर प्रेडिक्शन (CASP) वैज्ञानिक प्रतियोगिता के सह-संस्थापक हैं। "मैंने कभी नहीं सोचा था कि मैं इस पल को देखने के लिए जीवित रहूंगा," मौल्ट कहते हैं।

यह किस बारे में है? मानव शरीर में, हजारों विभिन्न प्रोटीन होते हैं, जिनमें से प्रत्येक कई अमीनो एसिड की एक श्रृंखला है - दसियों से कई सैकड़ों तक। अमीनो एसिड का क्रम उनके बीच अनगिनत संख्या में बातचीत को निर्धारित करता है और इस प्रकार, जटिल त्रि-आयामी संरचनाओं के उद्भव की ओर जाता है, जो बदले में, प्रोटीन के गुणों को निर्धारित करता है। इन प्रोटीन संरचनाओं के बारे में जानकारी वैज्ञानिकों को नई दवाएं बनाने की अनुमति देती है। और वांछित संरचना के साथ प्रोटीन को संश्लेषित करने की क्षमता एंजाइम (त्वरक) के विकास में तेजी लाएगी, जिसकी मदद से, उदाहरण के लिए, जैव ईंधन का उत्पादन करना और प्लास्टिक कचरे को पूरी तरह से विघटित करना संभव है।

दशकों से, वैज्ञानिक एक्स-रे क्रिस्टलोग्राफी या क्रायोइलेक्ट्रॉन माइक्रोस्कोपी (क्रायो-ईएम) जैसी प्रयोगात्मक तकनीकों का उपयोग करके त्रि-आयामी प्रोटीन संरचनाओं को समझ रहे हैं। हालाँकि, ऐसी विधियों के उपयोग में कई बार, महीनों या वर्षों का समय लगता है; इसके अलावा, ये तरीके हमेशा काम नहीं करते हैं। 200 मिलियन से अधिक ज्ञात प्रोटीन संरचनाओं में से केवल 170 हजार को ही डिक्रिप्ट किया गया है।

1960 के दशक में, वैज्ञानिक इस निष्कर्ष पर पहुंचे कि यदि किसी दिए गए प्रोटीन अनुक्रम की विशेषता वाले सभी कनेक्शनों को निर्धारित करना संभव था, तो प्रोटीन की स्थानिक संरचना की भविष्यवाणी करना संभव होगा। हालाँकि, चूंकि प्रत्येक प्रोटीन में सैकड़ों अमीनो एसिड इकाइयाँ होती हैं जो एक दूसरे के साथ अलग-अलग तरीकों से बातचीत करती हैं, अंत में हम पाते हैं कि प्रति अमीनो एसिड अनुक्रम में ऐसी संरचनाओं की कुल संभावित संख्या बस विशाल है। कंप्यूटर वैज्ञानिकों ने इस समस्या का हल निकाला, लेकिन चीजें धीरे-धीरे चलीं।

1994 में, जॉन मौल्ट और उनके सहयोगियों ने बड़े पैमाने पर CASP प्रयोग शुरू किया, जो हर दो साल में किया जाता है। इस प्रयोग में भाग लेने वालों को लगभग सौ प्रोटीन के अमीनो एसिड अनुक्रम दिए गए हैं, जिनकी संरचना अज्ञात है।वैज्ञानिकों के कुछ समूह प्रत्येक अनुक्रम के लिए संरचना की गणना करते हैं, जबकि अन्य समूह इसे प्रयोगात्मक रूप से निर्धारित करते हैं। प्रयोग के आयोजक तब अनुमान (जीडीटी) की सटीकता के अनुमान का उपयोग करके प्रयोगशाला परिणामों के साथ अनुमानित भविष्यवाणियों की तुलना करते हैं, जो शून्य से एक सौ तक होता है। 90 GDT से ऊपर के अनुमानों के साथ, गणना की गई भविष्यवाणियों को प्रायोगिक लोगों के करीब माना जाता है, मौल्ट ने कहा।

पहले से ही 1994 में, वैज्ञानिकों ने यह हासिल किया कि उनके द्वारा अनुमानित छोटे सरल प्रोटीन की संरचनाएं प्रयोगात्मक परिणामों के अनुरूप हो सकती हैं। हालांकि, बड़े और अधिक जटिल प्रोटीन के लिए, गणना परिणाम लगभग 20 जीडीटी थे - एक "पूर्ण विफलता", जैसा कि सीएएसपी न्यायाधीशों में से एक, एंड्री लुपास, विकास जीवविज्ञान संस्थान में एक विकासवादी जीवविज्ञानी, ने इसे रखा। मैक्स प्लैंक। 2016 तक, वैज्ञानिकों की प्रतिस्पर्धी टीमों ने सबसे जटिल प्रोटीन के लिए लगभग 40 GDTs की भर्ती की थी, मुख्य रूप से CASP के लिए ज्ञात प्रोटीन संरचनाओं का विश्लेषण करके।

जब डीपमाइंड ने 2018 में पहली बार प्रतियोगिता में प्रवेश किया, तो अल्फाफोल्ड नामक इसका प्रस्तावित एल्गोरिथ्म सैद्धांतिक और व्यावहारिक परिणामों की तुलना करने के लिए ऊपर वर्णित विधि पर निर्भर था। लेकिन अल्फाफोल्ड गहन शिक्षण विधियों का भी उपयोग करता है: सॉफ्टवेयर बड़ी मात्रा में डेटा (इस मामले में, ज्ञात प्रोटीन के अनुक्रम और संरचना) से सीखता है और पैटर्न की पहचान करना सीखता है। डीपमाइंड ने आसानी से जीत हासिल की, प्रत्येक प्रोटीन संरचना के लिए प्रतियोगिता को औसतन 15% से हराया और सबसे चुनौतीपूर्ण कार्यों के लिए लगभग 60 GDT अंक प्राप्त किए।

फिर भी, जॉन जम्पर के अनुसार, जो डीपमाइंड में अल्फाफोल्ड एल्गोरिथम विकसित करने के लिए जिम्मेदार है, की गई भविष्यवाणियां व्यावहारिक उद्देश्यों के लिए उपयोग किए जाने के लिए बहुत कच्ची थीं। "हम जानते थे कि हम अभी भी जीव विज्ञान में व्यावहारिक उपयोग से दूर थे," जम्पर ने कहा। बेहतर परिणाम प्राप्त करने के लिए, जम्पर और उनके सहयोगियों ने गहन शिक्षण को एक "ध्यान एल्गोरिथ्म" के साथ जोड़ा, जो पहेली को इकट्ठा करने की मानवीय क्षमता की नकल करता है। यहां बताया गया है कि यह कैसे होता है: पहले, छोटे टुकड़ों को छोटे टुकड़ों (इस मामले में, अमीनो एसिड इकाइयों के टुकड़े) से बनाया जाता है, और फिर इन टुकड़ों को मिलाने का प्रयास किया जाता है, जिससे एक ही बड़ा आकार बनता है। इस कार्य में 128 मशीन लर्निंग प्रोसेसर से युक्त एक कंप्यूटर नेटवर्क शामिल है; वे लगभग 170 हजार ज्ञात प्रोटीन संरचनाओं पर एल्गोरिथ्म को प्रशिक्षित करने में कामयाब रहे।

और यह काम किया! इस वर्ष, अल्फाफोल्ड एल्गोरिथम को प्रोटीन के लिए औसतन 92.4 GDT प्राप्त हुआ, जिसे CASP में विश्लेषण के लिए प्रस्तावित किया गया था। सबसे जटिल प्रोटीन का विश्लेषण करते समय, अल्फाफोल्ड एल्गोरिथ्म ने औसतन 87 अंक बनाए, जो कि पहले की गई सबसे सटीक भविष्यवाणियों से 25 अंक अधिक है। एल्गोरिथ्म ने प्रोटीन की संरचनाओं के विश्लेषण के साथ भी मुकाबला किया जो कोशिका झिल्ली में स्थित हैं और कई मानव रोगों के लिए जिम्मेदार हैं, हालांकि, एक ही समय में, एक्स-रे क्रिस्टलोग्राफी का उपयोग करके अध्ययन करना मुश्किल है। मेडिकल रिसर्च काउंसिल के आणविक जीवविज्ञान प्रयोगशाला के संरचनात्मक जीवविज्ञानी वेंकी रामकृष्णन ने परिणाम को "प्रोटीन संरचना की भविष्यवाणी की समस्या में एक आश्चर्यजनक उपलब्धि" कहा।

जॉन मौल्ट के अनुसार, इस वर्ष की प्रतियोगिता में वैज्ञानिकों के सभी समूहों ने और भी सटीक परिणाम प्रदर्शित किए हैं। लेकिन अगर हम अल्फाफोल्ड एल्गोरिथम के बारे में बात करते हैं, तो एंड्री लुपास के अनुसार, "स्थिति मौलिक रूप से बदल गई है।" CASP प्रयोग के आयोजकों ने डीपमाइंड एल्गोरिथम की अखंडता पर भी संदेह किया। और लुपास ने खुद को एक अलग कार्य निर्धारित किया: आर्किया प्रजातियों (प्राचीन सूक्ष्मजीवों के समूह का एक प्रतिनिधि) के झिल्ली प्रोटीन की संरचना का पता लगाने के लिए। दस वर्षों से, उनकी शोध टीम इस प्रोटीन की क्रिस्टल संरचना का एक्स-रे प्राप्त करने का प्रयास कर रही है। लेकिन, लुपास के अनुसार, इस समस्या का समाधान नहीं हो सका।

हालाँकि, AlphaFold एल्गोरिथ्म में कोई समस्या नहीं थी।आउटपुट बीच में दो पेचदार शाखाओं के साथ तीन-घटक प्रोटीन की एक विस्तृत छवि थी। एल्गोरिथम द्वारा निर्मित मॉडल ने लुपास और उनके सहयोगियों को एक्स-रे का उपयोग करके प्राप्त डेटा को समझने की अनुमति दी; आधे घंटे में, उन्होंने अपने प्रयोगात्मक डेटा की तुलना अल्फाफोल्ड एल्गोरिथम द्वारा अनुमानित संरचना से की। "परिणाम लगभग सही है," लुपास कहते हैं। - डेटा में हेरफेर करना असंभव था। मुझे समझ नहीं आता कि वे इसे कैसे कर पाए।"

CASP प्रयोग में भाग लेने की शर्तों में से एक, दीपमाइंड, अन्य सभी समूहों के साथ, अपनी पद्धति के आवश्यक विवरणों का खुलासा करने के लिए सहमत हुए ताकि अन्य समूह इसे दोहरा सकें। यह प्रयोगकर्ताओं के लिए एक उपहार है, क्योंकि प्रोटीन संरचना की सटीक भविष्यवाणी उन्हें एक्स-रे अध्ययन और क्रायो-इलेक्ट्रॉन माइक्रोस्कोपी (क्रायो-ईएम) का उपयोग करके प्राप्त अस्पष्ट डेटा की सही व्याख्या करने में मदद करेगी। इसके अलावा, मौल्ट के अनुसार, अल्फाफोल्ड एल्गोरिथम दवा डेवलपर्स को प्रोटीन की संरचना को जल्दी से निर्धारित करने की अनुमति देगा जो नए और खतरनाक रोगजनकों को बनाते हैं, जैसे कि SARS-CoV-2, जिसे बदले में, इनमें से एक के रूप में माना जाना चाहिए। अणुओं की खोज की प्रक्रिया में महत्वपूर्ण कदम जिनके साथ इन रोगजनकों को अवरुद्ध किया जा सकता है।

हालाँकि, AlphaFold एल्गोरिथ्म सभी कार्यों में सक्षम नहीं है। उदाहरण के लिए, CASP प्रयोग में, प्रोटीन में से एक का विश्लेषण करते समय इसका कार्य काफी धीमा हो गया (यह 52 छोटे दोहराव वाले खंडों का मिश्रण था जो असेंबली के दौरान एक दूसरे के स्थानों को विकृत करते हैं)। जॉन जम्पर का कहना है कि अनुसंधान दल अब अल्फाफोल्ड को प्रशिक्षित करना चाहेगा ताकि वह ऊपर वर्णित संरचनाओं का विश्लेषण कर सके, साथ ही प्रोटीन कॉम्प्लेक्स जो एक साथ सेल में महत्वपूर्ण कार्य करते हैं।

हालांकि, सबसे कठिन समस्याओं में से एक को हल करने के तुरंत बाद, अन्य निस्संदेह दिखाई देंगे। "यह अभी खत्म नहीं हुआ है," जेनेट थॉर्नटन कहते हैं। "हमारे आगे कई नए कार्य हैं।"

सिफारिश की: