అధ్యాయం 09 బయోఇన్ఫర్మేటిక్స్ పరిచయం

9.1 జీవ వ్యవస్థలు మరియు ప్రక్రియలను అర్థం చేసుకోవడానికి ప్రాథమిక గణిత మరియు గణాంక భావనల యొక్క ఉపయోగిత

ఈ అధ్యాయం యొక్క ఉద్దేశ్య, జీవశాస్త్రవేత్తకు గణితం మరియు గణాంకాల ప్రాథమిక భావనలను అర్థం చేసుకోవడం ఎందుకు ముఖ్యమో మీకు తెలియజేయడం.

ఏదైనా జీవ ప్రయోగం యొక్క ఫలితం డేటా. గతంలో, జీవశాస్త్రవేత్తలు అధునాతన సాఫ్ట్వేర్, గణన సాధనాలు మరియు గణాంక పరీక్షల సహాయం లేకుండా డేటాను ఉత్పత్తి చేసి విశ్లేషించేవారు. అయితే, ఇప్పుడు అది కాదు. హై-థ్రూపుట్ DNA సీక్వెన్సర్లు, శక్తివంతమైన సూక్ష్మదర్శినులు, ఇతర ఇమేజింగ్ సిస్టమ్లు మరియు పెద్ద మొత్తంలో డేటాను ఉత్పత్తి చేయగల విశ్లేషణాత్మక పరికరాల వంటి పరికరాల ఆవిర్భావంతో, జీవశాస్త్రవేత్తలు ఇకపై వారి నోట్బుక్లు మరియు ఎక్సెల్ షీట్లను ఉపయోగించి డేటాను నిర్వహించలేరు. బదులుగా, డేటాను నిర్వహించడానికి వారికి గణన మరియు గణాంక సాధనాలు అవసరం. పెద్ద మొత్తంలో డేటాకు తరచుగా పరిమాణాత్మక విశ్లేషణలు అవసరమవుతాయి, తద్వారా జీవ అర్థాన్ని అర్థం చేసుకోవడానికి మరియు రూపొందించడానికి. అటువంటి విశ్లేషణలను చేపట్టడానికి ఒకరికి గణన మరియు గణాంక భావనలపై మంచి పని జ్ఞానం ఉండాలి, ఉదాహరణకు; యంత్ర అభ్యాస సాంకేతికతలు, రిగ్రెషన్, వైవిధ్యం మరియు సహసంబంధం మొదలైనవి. గణిత మరియు గణాంక భావనలు జీవశాస్త్రవేత్తలకు వారి డేటాను అర్థం చేసుకోవడంలో మాత్రమే సహాయపడతాయి మరియు సరైన ప్రశ్నలు అడగడం మరియు జీవ పరిజ్ఞానానికి ప్రత్యామ్నాయం కాదు. జీవశాస్త్రంలో ఉపయోగించే కొన్ని సాధారణ గణాంక పదాల పేర్లు బాక్స్ 1లో ఇవ్వబడ్డాయి.

బాక్స్ 1

బాక్స్ 1: జీవశాస్త్రంలో సాధారణంగా ఉపయోగించే గణాంక పదాల నిఘంటువు

శూన్య పరికల్పన- రెండు కొలిచిన దృగ్విషయాల మధ్య ఎలాంటి సంబంధం లేదని తెలియజేసే ప్రకటన.

గణాంక ప్రాముఖ్యత- ఒక ఫలితం సంభవించే అవకాశం చాలా తక్కువగా ఉన్నప్పుడు దానికి గణాంక ప్రాముఖ్యత ఉంటుంది.

p-విలువ- ఒక అధ్యయన ప్రశ్న యొక్క శూన్య పరికల్పన నిజమైనప్పుడు, గమనించిన ఫలితాలను కనుగొనే సంభావ్యత.

t-పరీక్ష- గణాంక పరీక్షను ఉపయోగించి రెండు జనాభా సగటుల విశ్లేషణ.

బహుచర విశ్లేషణ: ఒకటి కంటే ఎక్కువ చరరాశులను కలిగి ఉన్న డేటా విశ్లేషణ కోసం ఉపయోగించే సాంకేతికతల సమితి.

రిగ్రెషన్ విశ్లేషణ- ఒక ఆధారిత చరరాశి మరియు స్వతంత్ర చరరాశి మధ్య సంబంధాన్ని పరిశోధించే సాంకేతికత.

బహుళ పరీక్ష దిద్దుబాటు- మొత్తం దోష రేటును వినియోగదారు-నిర్దేశించిన P-విలువ కట్ఆఫ్ కంటే తక్కువ లేదా సమానంగా ఉంచడానికి బహుళ పరీక్షల కోసం దిద్దుబాటు చేసే గణాంక పరీక్ష.

వైవిధ్యం విశ్లేషణ లేదా ANOVA- నమూనాలోని సమూహ సగటుల మధ్య వ్యత్యాసాలను విశ్లేషించడానికి ఉపయోగించే గణాంక నమూనాల సమాహారం.

నిర్దిష్ట ఉదాహరణలతో పరిశీలిద్దాం, ఇక్కడ గణన మరియు గణాంకాల జ్ఞానం రెండూ జీవ దృగ్విషయాలను బాగా అర్థం చేసుకోవడంలో సహాయపడతాయి. ఉదాహరణకు, పది రోగులలో రక్తపోటు మరియు హృదయ స్పందన రేట్ల మధ్య ఏదైనా సంబంధం ఉందో లేదో అర్థం చేసుకోవాలనుకుంటున్నాము (పట్టిక 9.1). క్రింది పట్టికలో ఇవ్వబడినట్లుగా, రెండు చరరాశుల మధ్య సంబంధాన్ని (సహసంబంధం) ఖచ్చితంగా నిర్ణయించడానికి ఒక సాధారణ దృశ్య అంచనా (Fig.9.1) సరిపోదు. దాని కోసం, ఒక రిగ్రెషన్ రేఖను గీయాలి. సహసంబంధం మరియు రిగ్రెషన్ విభిన్నమైనవి, అయినా సంబంధితమైనవి. చరరాశులు ఎలా అనుసంధానించబడి ఉన్నాయో సహసంబంధం పరిమాణాత్మకంగా తెలియజేస్తుంది, కానీ రిగ్రెషన్ రెండు లేదా అంతకంటే ఎక్కువ చరరాశుల మధ్య ఒక గణాంక సంబంధాన్ని నిర్వచిస్తుంది, ఇక్కడ ఒక చరరాశిలో మార్పు మరొకదానిలో మార్పుతో సంబంధం కలిగి ఉంటుంది. అందువల్ల, పై ఉదాహరణలో ఒక సాధారణ రిగ్రెషన్ పరీక్ష హృదయ స్పందన రేటు మరియు రక్తపోటు మధ్య నేరుగా సంబంధం ఉందో లేదో మనకు తెలియజేస్తుంది. సరళ రిగ్రెషన్ విశ్లేషణ యొక్క అవుట్పుట్ $\mathrm{R}^{2}$-విలువ, డేటా ఫిట్ చేయబడిన రిగ్రెషన్ రేఖకు ఎంత దగ్గరగా ఉందో చూపించే గణాంక కొలత. $R^{2}$ విలువ 0 (చరరాశుల మధ్య సహసంబంధం లేదు) మరియు 1 (చరరాశుల మధ్య పరిపూర్ణ సహసంబంధం) మధ్య ఉంటుంది. Fig. 9.1లో చూపినట్లుగా, $R^{2}$ విలువ రెండు చరరాశుల మధ్య మంచి సహసంబంధం ఉందని సూచిస్తుంది. అందువల్ల, ఈ సందర్భంలో శూన్య పరికల్పన తిరస్కరించబడుతుంది.

పట్టిక 9.1: పది రోగులలో నమోదు చేయబడిన హృదయ స్పందన రేటు మరియు రక్తపోటు

రోగిహృదయ స్పందన రేటురక్తపోటు (సిస్టోలిక్)
1112189
283140
392153
4121192
585147
6111178
794135
888143
9102177
10111189

Fig. 9.1: సరళ రేఖీయ రిగ్రెషన్ రేఖతో రెండు చరరాశుల మధ్య సహసంబంధం

జీవశాస్త్రం యొక్క అనేక రంగాలకు సంభావ్యత యొక్క ప్రాథమిక అవగాహన అవసరం. సెల్యులార్ యాంత్రికాలు వంటి సంక్లిష్ట వ్యవస్థాగత దృగ్విషయాల గణిత మోడలింగ్ వ్యవస్థ యొక్క ముఖ్యమైన పారామితులు మరియు దాని గతిశాస్త్రాన్ని అర్థం చేసుకోవడానికి అనుమతిస్తుంది. ఫైలోజెనెటిక్ పునర్నిర్మాణం, పూర్వీక క్రమాలను నిర్ణయించడం మరియు ఉన్నత క్రమాల సమూహం నుండి పరిణామం రేట్లను మోడలింగ్ చేయడానికి సంభావ్యత జ్ఞానం అవసరం. జీవశాస్త్రవేత్తలు ప్రయోగం చేయడానికి ముందు గణాంక సమస్యలను పరిగణనలోకి తీసుకోవాలి. ఉదాహరణకు, ప్రయోగం కోసం తగిన సంఖ్యలో నమూనాలు మరియు పునరావృత్తులు, జీవ మరియు సాంకేతిక రెండింటినీ ఎంచుకోవడానికి గణాంకాల జ్ఞానం అవసరం. ఫలితాలపై విశ్వాసాన్ని నిర్ధారించడానికి మరియు అవి నిజమా లేదా నకిలీనా తెలుసుకోవడానికి ఒక ప్రయోగాన్ని బహుళ సార్లు స్వతంత్రంగా పునరావృతం చేయాలి. గణాంక యాదృచ్ఛికత మరియు పెద్ద సంఖ్యల నియమం పట్ల అవసరమైన నేపథ్యం ఈ సమస్యను ఎదుర్కోవడానికి ఒకరిని సజ్జుచేస్తుంది. పెద్ద సంఖ్య నుండి యాదృచ్ఛిక నమూనా తీసుకోవడం వలన పక్షపాత ఫలితాలు పొందే అవకాశం తగ్గుతుంది. ఫలితాలు గణాంకపరంగా ముఖ్యమైనవని జీవశాస్త్రవేత్త నిర్ధారించుకోవాలి. ఈ దశకు వివిధ పరీక్షలు మరియు గణాంక ప్రాముఖ్యత కొలతలతో పరిచయం మరియు ప్రశ్నలో ఉన్న సమస్యకు సరైన పరీక్ష(లను) వర్తింపజేయడం అవసరం. సమస్యను బట్టి, జీవశాస్త్రవేత్త బహుళ పరీక్ష కోసం ప్రాముఖ్యత కొలతను దిద్దుబాటు చేయాల్సి ఉంటుంది.

ఉన్నత స్థాయి గణన, విశ్లేషణ మరియు దృశ్యీకరణ కోసం, ఒక జీవశాస్త్రవేత్త అంతర్నిర్మిత ఫ్రేమ్వర్క్లను ఉపయోగించుకోవచ్చు. MATLAB (వాణిజ్య) మరియు R (ఓపెన్ సోర్స్) వంటివి.

జీవశాస్త్రవేత్తల కోసం, ఉపయోగించిన గణాంక విశ్లేషణ యొక్క ఎంపిక సరైన సమాధానాన్ని నిర్ణయించడంలో కీలకం. బలహీనమైన లేదా తప్పు గణాంక ప్రమాణాలు తప్పు ఊహలకు దారి తీస్తాయి మరియు అందువల్ల పునరుత్పాదించలేని ఫలితాలకు దారి తీయవచ్చు. ఉదాహరణకు, గణాంకాలలో సాధారణంగా ఉపయోగించే భావన $\mathrm{P}$ విలువ ఒక పరికల్పనకు మద్దతు యొక్క సాక్ష్యంగా ఉంటుంది. $\mathrm{P}$ విలువ చిన్నది అయినంత, పరీక్ష ఫలితం ముఖ్యమైనది అయ్యే అవకాశం ఎక్కువ. 0.05 (95% ప్రాముఖ్యత) లేదా అంతకంటే తక్కువ P విలువ కట్ఆఫ్ ముఖ్యమైనదిగా పరిగణించబడుతుంది. అయితే, 0.05 థ్రెషోల్డ్ శాస్త్రీయ సాహిత్యంలో చాలా తప్పు సానుకూల ఫలితాలు కనిపించడానికి కారణమైంది. అందువల్ల, $P$ విలువ కట్ఆఫ్ 0.05 పునఃపరిశీలించబడాలి. చిన్న నమూనా పరిమాణాలతో, అన్ని స్వతంత్ర డేటా పాయింట్లను చూపించడం మంచిది, తప్పు సగటు మరియు ప్రామాణిక విచలనంతో దృశ్యీకరణను వక్రీకరించడం కంటే. ప్రతికూల ఫలితాన్ని ఎదుర్కొన్నప్పుడు ఒకరు పరిగణనలోకి తీసుకోవడం ప్రారంభించే గణాంక శక్తి సానుకూల ఫలితాల విషయంలో కూడా పరిగణించబడాలి. కాబట్టి, నిర్దిష్ట స్థాపించబడిన గణాంక నమూనాలు మరియు పంపిణీల ఊహలను తప్పు రకం డేటాకు వర్తింపజేయడం ఒక సాధారణ దుర్వినియోగం. ఉదాహరణకు, రేఖీయేతర డైనమికల్ సిస్టమ్లకు గాస్సియన్ పంపిణీ యొక్క ఊహ, ఇది తప్పు సానుకూల ఫలితాలకు దారి తీస్తుంది. వాస్తవికం కాని పారామితి బరువులతో నిర్మించబడిన అసమతుల్య గణిత నమూనాలు మరొక సాధారణ దుర్వినియోగం మరియు గుర్తించడం కష్టం. ఈ హెచ్చరికలను తగు పరిగణనలోకి తీసుకుని, గణితం మరియు గణాంకాలను జీవశాస్త్రానికి వర్తింపజేయడం వలన మరింత సంక్లిష్టమైన జీవ సమస్యలను పరిష్కరించడానికి స్వభావంలో అంతర్శాస్త్రీయమైన పరిశోధన యొక్క కొత్త ప్రాంతాలు తెరవబడతాయి.

9.2 పరిచయం

బయోఇన్ఫర్మేటిక్స్ అనేది ఒక అంతర్శాస్త్రీయ రంగం, ఇది జీవ సమస్యలను పరిష్కరించడానికి జీవ సమాచారాన్ని విశ్లేషించడంలో గణన, గణిత, గణాంక మరియు కొన్నిసార్లు, ఇంజనీరింగ్ విధానాలను ఉపయోగిస్తుంది (Fig. 9.2). అందువలన, బయోఇన్ఫర్మేటిక్స్ కంప్యూటర్ ఆధారిత సాఫ్ట్వేర్ మరియు సాధనాలను ఉపయోగించి జీవ డేటా నిల్వ, తిరిగి పొందడం, విశ్లేషణ మరియు వివరణతో వ్యవహరిస్తుంది. వ్యత్యాసాలు ఉన్నప్పటికీ, ఇది ‘కంప్యూటేషనల్ బయాలజీ,’ ‘మ్యాథమెటికల్ బయాలజీ,’ ‘క్వాంటిటేటివ్ బయాలజీ’ మరియు ‘బయో-స్టాటిస్టిక్స్’ వంటి ఇతర పదాలతో ప్రధాన శాస్త్రీయ భాగాలను బట్టి ప్రత్యామ్నాయంగా మరియు పరస్పరం మార్చుకోవడం ద్వారా ఉపయోగించబడుతుంది. అయితే, ఈ నిర్వచనాల ఉపయోగం నిపుణులు మరియు ఆచరణకర్తల మధ్య మారుతూ ఉంటుంది మరియు కాలంతో మారిపోయిందని గమనించాలి.

Fig. 9.2: బయోఇన్ఫర్మేటిక్స్ యొక్క అంతర్శాస్త్రీయ స్వభావం: కంప్యూటర్ సైన్స్, గణితం, ఇంజనీరింగ్ మరియు గణాంకాలు వంటి ఒకటి లేదా అంతకంటే ఎక్కువ ఇతర శాస్త్రాలతో జీవశాస్త్రం యొక్క ఖండన

9.2.1. చారిత్రక దృక్పథం

బయోఇన్ఫర్మేటిక్స్ డేటా మైనింగ్ ద్వారా కొత్త ఆవిష్కరణలను కనుగొనడంలో మరియు కొత్త పరికల్పనలను రూపొందించడంలో సహాయపడుతుంది. ఇది మాలిక్యులర్ డేటా యొక్క మోడలింగ్ లేదా విశ్లేషణ ద్వారా చేయబడుతుంది. చాలా బయోఇన్ఫర్మేటిక్స్ సాధనాలు సీక్వెన్స్ మరియు నిర్మాణ డేటాబేస్ల నుండి ఇప్పటికే ఉన్న న్యూక్లియోటైడ్ మరియు ప్రోటీన్ డేటాను లేదా నెక్స్ట్-జెనరేషన్ సీక్వెన్సర్లు మరియు DNA మైక్రోఅరేలు వంటి హై-థ్రూపుట్ పరికరాలను ఉపయోగించి సృష్టించబడిన కొత్త డేటాను ఉపయోగిస్తాయి. USAలోని నేషనల్ సెంటర్ ఫర్ బయోటెక్నాలజీ ఇన్ఫర్మేషన్ (NCBI) బయోఇన్ఫర్మేటిక్స్ సాధనాలు మరియు సేవలకు వనరుగా సృష్టించబడింది. ఇది న్యూక్లియోటైడ్ మరియు గ్రంథ పట్టిక డేటాబేస్లను కలిగి ఉంటుంది. GenBank, విస్తృతంగా ఉపయోగించే డేటాబేస్ అన్ని బహిరంగంగా అందుబాటులో ఉన్న DNA క్రమాలను నిల్వ చేస్తుంది, 1982లో ప్రారంభించబడింది. బయోఇన్ఫర్మేటిక్స్ ఈ పదం విస్తృతంగా ఉపయోగించబడే ముందు చాలా కాలం నుండి ఆచరించబడుతున్నప్పటికీ, 1991లో ఇది సాహిత్యంలో కనిపించడం ప్రారంభించింది. మానవ జీనోమ్ ప్రాజెక్ట్ ప్రారంభం మరియు సీక్వెన్స్ డేటా విశ్లేషణ కోసం బయోఇన్ఫర్మేటిక్స్ సాధనాలు విస్తృతంగా ఉపయోగించబడిన తర్వాత ఈ పేరు విస్తృతంగా అంగీకరించబడింది. అందువల్ల, సాహిత్యంలో బయోఇన్ఫర్మేటిక్స్ పదం యొక్క ఉపయోగం 30 సంవత్సరాల కంటే ఎక్కువ కాదు. బయోటెక్నాలజీ మరియు కంప్యూటింగ్ టెక్నాలజీలో పురోగతి మరియు ప్రాప్యత తర్వాత, జీనోమ్ సీక్వెన్సింగ్ మరియు హై-పర్ఫార్మెన్స్ కంప్యూటింగ్ యుగం తర్వాత బయోఇన్ఫర్మేటిక్స్ విస్తృత ఆకర్షణను పొందింది. ఇంతకు ముందు, తక్కువ థ్రూపుట్ పరీక్షలపై దృష్టి సారించినప్పుడు, ఒకే జీన్ యొక్క చర్యను అధ్యయనం చేయడం లేదా సూక్ష్మదర్శిని కింద నిర్మాణశాస్త్రాన్ని అధ్యయనం చేయడం వంటివి, బయోఇన్ఫర్మేటిక్స్ ఇప్పటికీ ఉపయోగించబడింది కానీ చిన్న స్థాయిలో.

నిర్మాణ బయోఇన్ఫర్మేటిక్స్ సీక్వెన్సింగ్ మరియు DNA మైక్రోఅరేలు వంటి హై-థ్రూపుట్ జీనోమ్-వైడ్ పరీక్షలపై ఆధారపడిన ఇన్ఫర్మేటిక్స్ కంటే ముందు ఉంది. ఎందుకంటే 1900ల ప్రారంభంలో NMR స్పెక్ట్రోస్కోపీ మరియు X-రే క్రిస్టలోగ్రఫీని ఉపయోగించి ప్రోటీన్ల త్రిమితీయ నిర్మాణాలపై అధ్యయనాలు, 2000ల ప్రారంభంలో మాత్రమే ప్రవేశపెట్టబడిన జీనోమ్ మరియు ఇతర -ఓమ్ ఇన్ఫర్మేటిక్స్ కంటే ముందు ఉన్నాయి మరియు నేటి వరకు కొనసాగుతున్నాయి. ప్రోటీన్ డేటా బ్యాంక్ (PDB) నిర్మాణాలు మరియు GenBank ఎంట్రీల సంఖ్య ప్రతి సంవత్సరం పెరుగుతోంది. బయోఇన్ఫర్మేటిక్స్లో ప్రాథమిక ఆందోళన డేటాబేస్ల రూపంలో సీక్వెన్స్ మరియు నిర్మాణ డేటాను నిర్వహించడం మరియు ఈ డేటాబేస్ల నుండి డేటాను మైనింగ్ చేయడం ద్వారా జీవ అర్థాలను పొందడం. NCBI న్యూక్లియోటైడ్ మరియు ప్రోటీన్ డేటాను వివిధ వర్గాలలో (జీన్, జీనోమ్, నిర్మాణం, సీక్వెన్స్ మొదలైనవి) హోస్ట్ చేస్తుంది. ప్రస్తుతం, జీవ డేటా, అపూర్వ రేటుతో ఉత్పత్తి చేయబడుతుంది మరియు వాటి విశ్లేషణ మరియు వివరణతో పాటు క్లిష్టమైన జీవ అంతర్దృష్టులకు దారి తీస్తుంది, ఇవి ఎక్కువ ప్రాధాన్యతను పొందాయి. దీనిని సాధించడానికి కొత్త, ఆప్టిమైజ్ చేయబడిన మరియు ఉన్నతమైన అల్గోరిథంలు మరియు సాధనాలు గణాంక అనుకూలీకరణలు మరియు బహుళ రంగాల సంశ్లేషణతో అభివృద్ధి చేయబడ్డాయి మరియు అమలు చేయబడ్డాయి. ద్వితీయ మరియు తృతీయ స్థాయి సమాచారం ఆధారంగా డేటాబేస్లు, అంటే మాలిక్యులర్ మార్గాలు, జీన్ వ్యక్తీకరణ, ప్రోటీన్ నిర్మాణం మరియు పనితీరు, ఇంటరాక్షన్ నెట్వర్క్లు, వ్యాధి-సంబంధిత మార్పులు, జీవి నిర్దిష్టత మరియు నియంత్రణ నెట్వర్క్లు అప్పటి నుండి అభివృద్ధి చేయబడ్డాయి మరియు ఉపయోగించబడ్డాయి