अध्याय ०९ बायोइन्फॉरमॅटिक्सची ओळख

९.१ जैविक प्रणाली आणि प्रक्रिया समजून घेण्यासाठी मूलभूत गणितीय आणि सांख्यिकीय संकल्पनांची उपयुक्तता

या अध्यायाचा उद्देश तुम्हाला हे समजावून देणे आहे की जीवशास्त्रज्ञासाठी गणित आणि सांख्यिकीच्या मूलभूत संकल्पना समजून घेणे का महत्त्वाचे आहे.

कोणत्याही जैविक प्रयोगाचा परिणाम म्हणजे डेटा. पूर्वी, जीवशास्त्रज्ञ अत्याधुनिक सॉफ्टवेअर, संगणकीय साधने आणि सांख्यिकीय चाचण्यांच्या मदतीशिवाय डेटा निर्माण करत आणि विश्लेषण करत असत. तथापि, आता असे नाही. हायथ्रूपुट डीएनए सिक्वेन्सर्स, शक्तिशाली मायक्रोस्कोप्स, इतर इमेजिंग सिस्टीम्स आणि मोठ्या प्रमाणात डेटा निर्माण करण्यास सक्षम अशा विश्लेषणात्मक साधनांसारख्या उपकरणांच्या आगमनाने, जीवशास्त्रज्ञ आता त्यांच्या नोटबुक आणि एक्सेल शीट्सचा वापर करून डेटाशी व्यवहार करू शकत नाहीत. त्याऐवजी, डेटा हाताळण्यासाठी त्यांना संगणकीय आणि सांख्यिकीय साधनांची आवश्यकता असते. मोठ्या प्रमाणातील डेटाचे अर्थ लावण्यासाठी आणि जैविक अर्थ निर्माण करण्यासाठी प्रायः परिमाणवाचक विश्लेषणाची आवश्यकता असते. अशी विश्लेषणे करण्यासाठी संगणकीय आणि सांख्यिकीय संकल्पनांचे चांगले व्यावहारिक ज्ञान असणे आवश्यक आहे, उदाहरणार्थ; मशीन लर्निंग तंत्रज्ञान, रिग्रेशन, व्हेरियन्स आणि सहसंबंध इ. गणितीय आणि सांख्यिकीय संकल्पना केवळ जीवशास्त्रज्ञांना त्यांच्या डेटाचा अर्थ लावण्यास मदत करू शकतात आणि योग्य प्रश्न विचारणे आणि जैविक कुशलतेची जागा घेऊ शकत नाहीत. जीवशास्त्रात वापरल्या जाणाऱ्या काही सामान्य सांख्यिकीय संज्ञांची नावे बॉक्स १ मध्ये दिली आहेत.

बॉक्स १
बॉक्स १: जीवशास्त्रात सामान्यतः वापरल्या जाणाऱ्या सांख्यिकीय संज्ञांचा शब्दकोश
शून्य गृहीतक- दोन मोजलेल्या घटनांमध्ये कोणताही संबंध नाही असे विधान.
सांख्यिकीय महत्त्व- एखाद्या निकालाचे सांख्यिकीय महत्त्व असते जेव्हा तो घडण्याची शक्यता फार कमी असते.
p-मूल्य- एखाद्या अभ्यास प्रश्नाचे शून्य गृहीतक सत्य असताना निरीक्षण केलेले निकाल सापडण्याची संभाव्यता.
t-चाचणी- सांख्यिकीय परीक्षणाच्या माध्यमातून दोन लोकसंख्येच्या सरासरीचे विश्लेषण.
बहुचल विश्लेषण: एकापेक्षा जास्त चल असलेल्या डेटाच्या विश्लेषणासाठी वापरल्या जाणाऱ्या तंत्रांचा संच.
रिग्रेशन विश्लेषण- एका अवलंबित आणि स्वतंत्र चल यांच्यातील संबंध तपासण्यासाठीचे तंत्र.
बहुविध चाचणी दुरुस्ती- एक सांख्यिकीय चाचणी जी एकूण त्रुटी दर वापरकर्ता-निर्दिष्ट P-मूल्य कटऑफपेक्षा कमी किंवा समान ठेवण्यासाठी एकाधिक चाचण्यांसाठी दुरुस्ती करते.
व्हेरियन्स विश्लेषण किंवा ANOVA- नमुन्यातील गट सरासरीमधील फरकांचे विश्लेषण करण्यासाठी वापरल्या जाणाऱ्या सांख्यिकीय मॉडेल्सचा संग्रह.

चला विशिष्ट उदाहरणांसह तपासूया जेथे संगणकीय आणि सांख्यिकी दोन्हीचे ज्ञान जैविक घटना चांगल्या प्रकारे समजून घेण्यास मदत करू शकते. उदाहरणार्थ, आपल्याला दहा रुग्णांमध्ये रक्तदाब आणि हृदय गती यांच्यातील कोणताही संबंध समजून घ्यायचा आहे (सारणी ९.१). खालील सारणीत दिल्याप्रमाणे, दोन चलांमधील संबंध (सहसंबंध) अचूकपणे निश्चित करण्यासाठी एक साधे दृश्य अंदाज (आकृती ९.१) पुरेसे नाही. त्यासाठी, रिग्रेशन रेषा काढणे आवश्यक आहे. सहसंबंध आणि रिग्रेशन वेगळे आहेत, तरीही संबंधित आहेत. सहसंबंध चल कसे जोडलेले आहेत हे परिमाणवाचक करतो, परंतु रिग्रेशन दोन किंवा अधिक चलांमधील सांख्यिकीय संबंध परिभाषित करते जेथे एका चलातील बदल दुसर्याशी संबंधित असतो. म्हणून, वरील उदाहरणात एक साधी रिग्रेशन चाचणी आपल्याला हृदय गती आणि रक्तदाब यांच्यात थेट संबंध आहे की नाही हे सांगेल. रेखीय रिग्रेशन विश्लेषणाचा आउटपुट $\mathrm{R}^{2}$-मूल्य आहे, हे एक सांख्यिकीय माप आहे जे डेटा फिट केलेल्या रिग्रेशन रेषेच्या किती जवळ आहे हे दर्शवते. $R^{2}$ मूल्य ० (चलांमध्ये कोणताही सहसंबंध नाही) आणि १ (चलांमध्ये परिपूर्ण सहसंबंध) यांच्यात असते. आकृती ९.१ मध्ये दाखवल्याप्रमाणे, $R^{2}$ मूल्य सूचित करते की दोन चलांमध्ये चांगला सहसंबंध आहे. म्हणून, या प्रकरणात शून्य गृहीतक नाकारले जाते.

सारणी ९.१: दहा रुग्णांमध्ये नोंदवलेली हृदय गती आणि रक्तदाब

रुग्ण	हृदय गती	रक्तदाब (सिस्टोलिक)
१	११२	१८९
२	८३	१४०
३	९२	१५३
४	१२१	१९२
५	८५	१४७
६	१११	१७८
७	९४	१३५
८	८८	१४३
९	१०२	१७७
१०	१११	१८९

आकृती ९.१: साध्या रेखीय रिग्रेशन रेषेसह दोन चलांमधील सहसंबंध

जीवशास्त्राच्या अनेक क्षेत्रांसाठी संभाव्यतेची मूलभूत समज आवश्यक असते. सेल्युलर यंत्रणांसारख्या जटिल प्रणालीगत घटनांचे गणितीय मॉडेलिंग प्रणालीचे महत्त्वाचे पॅरामीटर्स आणि त्याची गतिजता समजून घेण्यास अनुमती देते. फायलोजेनेटिक पुनर्रचना, पूर्वज अनुक्रम निश्चित करणे आणि विद्यमान अनुक्रमांच्या गटातून उत्क्रांतीच्या दरांचे मॉडेलिंग करण्यासाठी संभाव्यतेचे ज्ञान आवश्यक असते. जीवशास्त्रज्ञांना प्रयोग करण्यापूर्वी सांख्यिकीय समस्या लक्षात ठेवण्याची आवश्यकता असते. उदाहरणार्थ, प्रयोगासाठी पुरेशा नमुन्यांची आणि पुनरावृत्तीची, दोन्ही जैविक आणि तांत्रिक, निवड करण्यासाठी सांख्यिकीचे ज्ञान आवश्यक असते. निकालांवर विश्वास मिळवण्यासाठी आणि ते खरे की खोटे आहेत हे जाणून घेण्यासाठी प्रयोगाची अनेक वेळा स्वतंत्रपणे पुनरावृत्ती करणे आवश्यक आहे. सांख्यिकीय यादृच्छिकता आणि मोठ्या संख्येच्या नियमाची आवश्यक पार्श्वभूमी एखाद्याला या समस्येचा सामना करण्यास सक्षम करते. मोठ्या संख्येपैकी यादृच्छिक नमुना घेतल्याने पक्षपाती निकाल मिळण्याची शक्यता कमी होते. जीवशास्त्रज्ञांनी हे सुनिश्चित केले पाहिजे की निकाल सांख्यिकीयदृष्ट्या महत्त्वपूर्ण आहेत. या चरणासाठी विविध चाचण्या आणि सांख्यिकीय महत्त्वाची मोजमापे यांची ओळख आणि प्रश्नातील समस्येसाठी योग्य चाचण्या लागू करणे आवश्यक आहे. समस्येवर अवलंबून, जीवशास्त्रज्ञाला एकाधिक चाचण्यांसाठी महत्त्वाचे माप दुरुस्त आणि समायोजित करावे लागू शकते.

उच्च स्तरीय संगणकीय कार्य, विश्लेषण आणि दृश्यीकरणासाठी, जीवशास्त्रज्ञ अंगभूत चौकटी वापरू शकतात. जसे की MATLAB (व्यावसायिक) आणि R (ओपन सोर्स) इ.

जीवशास्त्रज्ञांसाठी, वापरलेल्या सांख्यिकीय विश्लेषणाची निवड ही योग्य उत्तर निश्चित करण्याची गुरुकिल्ली आहे. कमकुवत किंवा चुकीचे सांख्यिकीय मानक चुकीच्या गृहीतकांकडे नेतात आणि म्हणून पुनरुत्पादन करण्यायोग्य नसलेले निकाल देऊ शकतात. उदाहरणार्थ, सांख्यिकीमध्ये वापरली जाणारी सामान्य संकल्पना म्हणजे $\mathrm{P}$ मूल्य हे गृहीतकासाठी समर्थनाचा पुरावा म्हणून. $\mathrm{P}$ मूल्य जितके लहान असेल तितकी चाचणीचा निकाल महत्त्वपूर्ण असण्याची शक्यता असते. ०.०५ (९५% महत्त्व) किंवा त्यापेक्षा कमी P मूल्य कटऑफ महत्त्वपूर्ण मानले जाते. तथापि, ०.०५ ही उंबरठा वैज्ञानिक साहित्यात बरेच खोटे सकारात्मक परिणाम दिसण्यास कारणीभूत ठरली आहे. म्हणून, $P$ मूल्य कटऑफ ०.०५ ची पुन्हा तपासणी करणे आवश्यक आहे. लहान नमुना आकारांसह, एका भ्रामक सरासरी आणि मानक विचलनासह दृश्यीकरण विकृत करण्याऐवजी सर्व स्वतंत्र डेटा बिंदू दर्शविणे चांगले आहे. नकारात्मक निकालासमोर आल्यावर विचारात घ्यायला सुरुवात केलेली सांख्यिकीय शक्ती देखील सकारात्मक निकालांच्या बाबतीत विचारात घेतली पाहिजे. म्हणून, चुकीच्या प्रकारच्या डेटासाठी काही स्थापित सांख्यिकीय मॉडेल्स आणि वितरणांची गृहीतके हा एक सामान्य गैरवापर आहे. उदाहरणार्थ, नॉनलाइनर डायनॅमिकल सिस्टीम्ससाठी गॉसियन वितरणाची गृहीतक, ज्यामुळे खोटे सकारात्मक परिणाम येतात. अवास्तव पॅरामीटर वजनांसह तयार केलेली असंतुलित गणितीय मॉडेल्स हा आणखी एक सामान्य गैरवापर आहे आणि तो शोधणे कठीण आहे. या चेतावण्यांचे योग्य विचार करून, जीवशास्त्रात गणित आणि सांख्यिकीचा वापर अधिक जटिल जैविक समस्या सोडवण्यासाठी अंतरशाखीय स्वरूपाच्या संशोधनाचे नवीन क्षेत्र उघडण्यास कारणीभूत ठरू शकतो.

९.२ ओळख

बायोइन्फॉरमॅटिक्स हे एक अंतरशाखीय क्षेत्र आहे जे जैविक समस्या सोडवण्यासाठी जैविक माहितीचे विश्लेषण करण्यासाठी संगणकीय, गणितीय, सांख्यिकीय आणि कधीकधी अभियांत्रिकी दृष्टीकोन वापरते (आकृती ९.२). अशाप्रकारे, बायोइन्फॉरमॅटिक्स संगणक-आधारित सॉफ्टवेअर आणि साधनांचा वापर करून जैविक डेटाच्या साठवणूक, पुनर्प्राप्ती, विश्लेषण आणि अर्थ लावण्याशी संबंधित आहे. फरक असले तरी, प्रबळ असलेल्या शाखात्मक घटकांवर अवलंबून ते ‘कम्प्युटेशनल बायोलॉजी’, ‘मॅथेमॅटिकल बायोलॉजी’, ‘क्वांटिटेटिव्ह बायोलॉजी’ आणि ‘बायो-स्टॅटिस्टिक्स’ यासारख्या इतर संज्ञांसह पर्यायी आणि परस्पर बदलण्यासाठी वापरले जाते. तथापि, हे लक्षात घेतले पाहिजे की या व्याख्यांचा वापर तज्ञ आणि व्यवसायकर्त्यांमध्ये बदलतो आणि कालांतराने बदलला आहे.

आकृती ९.२: बायोइन्फॉरमॅटिक्सचे अंतरशाखीय स्वरूप: जीवशास्त्राचे संगणक विज्ञान, गणित, अभियांत्रिकी आणि सांख्यिकी यासारख्या एक किंवा अधिक इतर शाखांशी छेदनबिंदू

९.२.१. ऐतिहासिक परिप्रेक्ष्य

बायोइन्फॉरमॅटिक्स डेटा मायनिंगद्वारे नवीन शोध शोधण्यास तसेच नवीन गृहीतक निर्माण करण्यास मदत करते. हे आण्विक डेटाचे मॉडेलिंग किंवा विश्लेषणाद्वारे केले जाते. बहुतेक बायोइन्फॉरमॅटिक्स साधने एकतर अनुक्रम आणि संरचना डेटाबेसमधील पूर्व-अस्तित्वात असलेले न्यूक्लियोटाइड आणि प्रोटीन डेटा वापरतात किंवा नेक्स्ट-जनरेशन सिक्वेन्सर्स आणि डीएनए मायक्रोअॅरेसारख्या हायथ्रूपुट उपकरणांचा वापर करून निर्माण केलेला नवीन डेटा वापरतात. यूएसए मधील नॅशनल सेंटर फॉर बायोटेक्नॉलॉजी इन्फॉर्मेशन (NCBI) हे बायोइन्फॉरमॅटिक्स साधने आणि सेवांसाठी एक संसाधन म्हणून तयार करण्यात आले होते. त्यात न्यूक्लियोटाइड आणि ग्रंथसूची डेटाबेस आहेत. जनबँक, एक व्यापकपणे वापरला जाणारा डेटाबेस जो सर्व सार्वजनिकरित्या उपलब्ध डीएनए अनुक्रम संग्रहित करतो, १९८२ मध्ये सुरू करण्यात आला. बायोइन्फॉरमॅटिक्स हा शब्द व्यापकपणे वापरला जाण्यापूर्वीच याचा वापर केला जात असला तरी, १९९१ पर्यंत तो साहित्यात दिसू लागला नाही. मानवी जीनोम प्रकल्प सुरू झाल्यानंतर हे नाव व्यापक स्वीकृती मिळाली आणि अनुक्रम डेटाच्या विश्लेषणासाठी बायोइन्फॉरमॅटिक्स साधनांचा मोठ्या प्रमाणावर वापर करण्यात आला. म्हणून, साहित्यात बायोइन्फॉरमॅटिक्स या शब्दाचा वापर ३० वर्षांपेक्षा जास्त नाही. जैवतंत्रज्ञान आणि संगणक तंत्रज्ञानातील प्रगती आणि प्रवेशयोग्यतेनंतर, जीनोम अनुक्रमण आणि हाय-परफॉर्मन्स कम्प्युटिंग युगात बायोइन्फॉरमॅटिक्सने व्यापक आकर्षण मिळवले आहे. याआधी, जेव्हा कमी थ्रूपुट अॅसेसवर लक्ष केंद्रित केले जात होते, जसे की एकाच जीनची क्रिया अभ्यासणे किंवा मायक्रोस्कोप अंतर्गत आकारिकीचा अभ्यास करणे, तेव्हा बायोइन्फॉरमॅटिक्सचा वापर केला जात होता परंतु लहान प्रमाणात.

स्ट्रक्चरल बायोइन्फॉरमॅटिक्स हे अनुक्रमण आणि डीएनए मायक्रोअॅरेसारख्या हायथ्रूपुट जीनोम-व्यापी अॅसेसवर आधारित इन्फॉर्मॅटिक्सच्या आधी येते. याचे कारण असे की १९०० च्या सुरुवातीच्या काळात एनएमआर स्पेक्ट्रोस्कोपी आणि एक्स-रे क्रिस्टलोग्राफी वापरून प्रोटीनच्या त्रिमितीय संरचनेवरील अभ्यास, जीनोम आणि इतर -ओम इन्फॉर्मॅटिक्सपूर्वीचे आहे जे केवळ २००० च्या सुरुवातीला सुरू करण्यात आले आणि आजतागायत चालू आहेत. प्रोटीन डेटा बँक (PDB) संरचना आणि जनबँक नोंदी दरवर्षी वाढत आहेत. बायोइन्फॉरमॅटिक्समधील प्राथमिक चिंता म्हणजे डेटाबेसच्या स्वरूपात अनुक्रम आणि संरचनात्मक डेटाचे व्यवस्थापन करणे आणि या डेटाबेसमधून डेटा मायनिंग करून जैविक अर्थ मिळवणे. NCBI विविध श्रेणींखाली (जीन, जीनोम, स्ट्रक्चर, सीक्वेन्स इ.) न्यूक्लियोटाइड आणि प्रोटीन डेटा होस्ट करते. सध्या, अभूतपूर्व दराने निर्माण होणारा जैविक डेटा आणि त्यांचे विश्लेषण आणि अर्थ लावणे यामुळे गंभीर जैविक अंतर्दृष्टी निर्माण होते आणि त्याला उच्च प्राधान्य दिले गेले आहे. हे साध्य करण्यासाठी सांख्यिकीय अनुकूलन आणि एकाधिक क्षेत्रांतील संश्लेषण असलेले नवीन, ऑप्टिमाइझ्ड आणि श्रेष्ठ अल्गोरिदम आणि साधने विकसित आणि अंमलात आणली जातात. आण्विक मार्ग, जीन अभिव्यक्ती, प्रोटीन संरचना आणि कार्य, परस्परसंवाद नेटवर्क्स, रोग-संबंधित बदल, जीव विशिष्टता आणि नियामक नेटवर्क्स यासारख्या माध्यमिक आणि तृतीयक स्तरावरील माहितीवर आधारित डेटाबेस तेव्हापासून विकसित आणि वापरले गेले आहेत. बायोइन्फॉरमॅटिक्स हे एक विकसनशील क्षेत्र आहे. जैविक डेटाच्या गतिमान स्वरूपामुळे, जीन्स आणि एक्सॉन-इंट्रॉन सीमा, अनुक्रमांमधील दूषितता आणि विसंगती, इन सिलिको भाषांतर त्रुटी जसे की फ्रेमशिफ्ट त्रुटी, शेरा त्रुटी, असेंब्ली त्रुटी आणि साधे शब्दलेखन चुका सतत अद्ययावत केल्या जात आहेत.

आता आपण विविध प्रकारच्या जैविक रेणूंबद्दल, या तंत्रांद्वारे निर्माण होणाऱ्या डेटाच्या प्रकारांबद्दल आणि डेटाचा अर्थ लावण्यासाठी आणि दृश्यमान करण्यासाठी सामान्यतः वापरल्या जाणाऱ्या विश्लेषणात्मक आणि सांख्यिकीय वर्कफ्लोजबद्दल शिकू (आकृती ९.३). जीनोमिक डेटा निर्मितीसाठी वापरल्या जाणाऱ्या प्रायोगिक तंत्रांच्या तपशीलांचे वर्णन युनिट V मध्ये केले आहे.

आकृती ९.३. जैवरेणूंपासून कार्यापर्यंत

९.२.२. जैवरेणूंचे विश्लेषण करण्यासाठी प्रायोगिक तंत्रज्ञानाचे प्रकार

जैवरेणूंची ओळख आणि/किंवा परिमाणवाचक करण्यासाठी वापरल्या जाणाऱ्या काही गंभीर प्रायोगिक तंत्रज्ञानांची यादी सारणी ९.२ मध्ये दिली आहे. यापैकी काही तंत्रांचे तपशील युनिट V मध्ये वर्णन केले आहेत.

सारणी ९.२: तंत्रज्ञानाचे नाव, अभ्यासलेले जैवरेणू आणि तंत्रज्ञानाचा उद्देश

तंत्रज्ञान	जैवरेणू	उद्देश
PCR (पॉलिमरेज चेन रिअॅक्शन)	डीएनए	स्वारस्याच्या क्षेत्राचे विस्तारण
RT (रिअल-टाइम)-PCR/qPCR (क्वांटिटेटिव्ह PCR)	आरएनए	आरएनए अभिव्यक्ती शोधणे
नेक्स्ट-जनरेशन सिक्वेन्सिंग	डीएनए/आरएनए	जीन्स/जीनोम्स आणि आरएनएचे अनुक्रमण करणे
जेल इलेक्ट्रोफोरेसिस	डीएनए, आरएनए आणि प्रोटीन	त्यांच्या आकार आणि चार्जवर आधारित तुकड्यांचे विभाजन
HPLC (हाय-परफॉर्मन्स लिक्विड क्रोमॅटोग्राफी)	मेटाबोलाइट्स	मेटाबोलाइट्सचे विभाजन, ओळख आणि परिमाणवाचक करणे
MS (मास स्पेक्ट्रोमेट्री)	डीएनए, प्रोटीन, मेटाबोलाइट्स	विखंडन, समस्थानिक रचना मोजणे आणि वस्तुमान निश्चित करणे
EM (इलेक्ट्रॉन मायक्रोस्कोप)	डीएनए, आरएनए किंवा प्रोटीन	संरचना आणि अनुक्रम निश्चित करणे

९.२.३ आण्विक डेटाचे प्रकार

विविध तंत्रज्ञाने वेगवेगळे जैवरेणू अभ्यासतात आणि विविध स्वरूपांमध्ये वेगवेगळ्या प्रकारचे डेटा आउटपुट निर्माण करतात (सारणी ९.३). दोन सामान्यतः वापरल्या जाणाऱ्या डीएनए डेटा स्वरूपांचे (FASTQ आणि FASTA) वर्णन नंतर अध्यायात (जीनोम इन्फॉर्मॅटिक्स) दिले आहे.

९.२.४ सामान्यतः वापरल्या जाणाऱ्या विश्लेषणात्मक आणि सांख्यिकीय वर्कफ्लोज

ओपन सोर्स किंवा इतर मालकीच्या साधनांच्या अंमलबजावणीसाठी जैविक ज्ञान अनिवार्य असू शकते किंवा नसू शकते. तथापि, या अध्यायाच्या सुरुवातीला नमूद केल्याप्रमाणे संबंधित प्रश्न विचारण्यासाठी आणि जैविक निकालांचा अर्थ लावण्यासाठी ते आवश्यक आहे. कोणत्याही साधनाच्या कार्यामागील तर्कशास्त्र आणि तत्त्व समजून घेणे आणि अंतर्निहित गृहीतकांबद्दल जागरूक असणे आवश्यक आहे.

सारणी ९.३: आण्विक डेटाचे प्रकार आणि त्यांची स्वरूपे

काही सामान्यतः वापरली जाणारी विश्लेषण साधने खालीलप्रमाणे आहेत:

होमोलॉजी शोध (बेसिक लोकल अलाइनमेंट सर्च टूल (BLAST) - blastn, blastp)
अनुक्रम संरेखन (