Chapter 09 Introduction to Bioinformatics

అధ్యాయం 09 బయోఇన్ఫర్మేటిక్స్ పరిచయం

9.1 జీవ వ్యవస్థలు మరియు ప్రక్రియలను అర్థం చేసుకోవడానికి ప్రాథమిక గణిత మరియు గణాంక భావనల యొక్క ఉపయోగిత

ఈ అధ్యాయం యొక్క ఉద్దేశ్య, జీవశాస్త్రవేత్తకు గణితం మరియు గణాంకాల ప్రాథమిక భావనలను అర్థం చేసుకోవడం ఎందుకు ముఖ్యమో మీకు తెలియజేయడం.

ఏదైనా జీవ ప్రయోగం యొక్క ఫలితం డేటా. గతంలో, జీవశాస్త్రవేత్తలు అధునాతన సాఫ్ట్వేర్, గణన సాధనాలు మరియు గణాంక పరీక్షల సహాయం లేకుండా డేటాను ఉత్పత్తి చేసి విశ్లేషించేవారు. అయితే, ఇప్పుడు అది కాదు. హై-థ్రూపుట్ DNA సీక్వెన్సర్లు, శక్తివంతమైన సూక్ష్మదర్శినులు, ఇతర ఇమేజింగ్ సిస్టమ్లు మరియు పెద్ద మొత్తంలో డేటాను ఉత్పత్తి చేయగల విశ్లేషణాత్మక పరికరాల వంటి పరికరాల ఆవిర్భావంతో, జీవశాస్త్రవేత్తలు ఇకపై వారి నోట్బుక్లు మరియు ఎక్సెల్ షీట్లను ఉపయోగించి డేటాను నిర్వహించలేరు. బదులుగా, డేటాను నిర్వహించడానికి వారికి గణన మరియు గణాంక సాధనాలు అవసరం. పెద్ద మొత్తంలో డేటాకు తరచుగా పరిమాణాత్మక విశ్లేషణలు అవసరమవుతాయి, తద్వారా జీవ అర్థాన్ని అర్థం చేసుకోవడానికి మరియు రూపొందించడానికి. అటువంటి విశ్లేషణలను చేపట్టడానికి ఒకరికి గణన మరియు గణాంక భావనలపై మంచి పని జ్ఞానం ఉండాలి, ఉదాహరణకు; యంత్ర అభ్యాస సాంకేతికతలు, రిగ్రెషన్, వైవిధ్యం మరియు సహసంబంధం మొదలైనవి. గణిత మరియు గణాంక భావనలు జీవశాస్త్రవేత్తలకు వారి డేటాను అర్థం చేసుకోవడంలో మాత్రమే సహాయపడతాయి మరియు సరైన ప్రశ్నలు అడగడం మరియు జీవ పరిజ్ఞానానికి ప్రత్యామ్నాయం కాదు. జీవశాస్త్రంలో ఉపయోగించే కొన్ని సాధారణ గణాంక పదాల పేర్లు బాక్స్ 1లో ఇవ్వబడ్డాయి.

బాక్స్ 1
బాక్స్ 1: జీవశాస్త్రంలో సాధారణంగా ఉపయోగించే గణాంక పదాల నిఘంటువు
శూన్య పరికల్పన- రెండు కొలిచిన దృగ్విషయాల మధ్య ఎలాంటి సంబంధం లేదని తెలియజేసే ప్రకటన.
గణాంక ప్రాముఖ్యత- ఒక ఫలితం సంభవించే అవకాశం చాలా తక్కువగా ఉన్నప్పుడు దానికి గణాంక ప్రాముఖ్యత ఉంటుంది.
p-విలువ- ఒక అధ్యయన ప్రశ్న యొక్క శూన్య పరికల్పన నిజమైనప్పుడు, గమనించిన ఫలితాలను కనుగొనే సంభావ్యత.
t-పరీక్ష- గణాంక పరీక్షను ఉపయోగించి రెండు జనాభా సగటుల విశ్లేషణ.
బహుచర విశ్లేషణ: ఒకటి కంటే ఎక్కువ చరరాశులను కలిగి ఉన్న డేటా విశ్లేషణ కోసం ఉపయోగించే సాంకేతికతల సమితి.
రిగ్రెషన్ విశ్లేషణ- ఒక ఆధారిత చరరాశి మరియు స్వతంత్ర చరరాశి మధ్య సంబంధాన్ని పరిశోధించే సాంకేతికత.
బహుళ పరీక్ష దిద్దుబాటు- మొత్తం దోష రేటును వినియోగదారు-నిర్దేశించిన P-విలువ కట్ఆఫ్ కంటే తక్కువ లేదా సమానంగా ఉంచడానికి బహుళ పరీక్షల కోసం దిద్దుబాటు చేసే గణాంక పరీక్ష.
వైవిధ్యం విశ్లేషణ లేదా ANOVA- నమూనాలోని సమూహ సగటుల మధ్య వ్యత్యాసాలను విశ్లేషించడానికి ఉపయోగించే గణాంక నమూనాల సమాహారం.

నిర్దిష్ట ఉదాహరణలతో పరిశీలిద్దాం, ఇక్కడ గణన మరియు గణాంకాల జ్ఞానం రెండూ జీవ దృగ్విషయాలను బాగా అర్థం చేసుకోవడంలో సహాయపడతాయి. ఉదాహరణకు, పది రోగులలో రక్తపోటు మరియు హృదయ స్పందన రేట్ల మధ్య ఏదైనా సంబంధం ఉందో లేదో అర్థం చేసుకోవాలనుకుంటున్నాము (పట్టిక 9.1). క్రింది పట్టికలో ఇవ్వబడినట్లుగా, రెండు చరరాశుల మధ్య సంబంధాన్ని (సహసంబంధం) ఖచ్చితంగా నిర్ణయించడానికి ఒక సాధారణ దృశ్య అంచనా (Fig.9.1) సరిపోదు. దాని కోసం, ఒక రిగ్రెషన్ రేఖను గీయాలి. సహసంబంధం మరియు రిగ్రెషన్ విభిన్నమైనవి, అయినా సంబంధితమైనవి. చరరాశులు ఎలా అనుసంధానించబడి ఉన్నాయో సహసంబంధం పరిమాణాత్మకంగా తెలియజేస్తుంది, కానీ రిగ్రెషన్ రెండు లేదా అంతకంటే ఎక్కువ చరరాశుల మధ్య ఒక గణాంక సంబంధాన్ని నిర్వచిస్తుంది, ఇక్కడ ఒక చరరాశిలో మార్పు మరొకదానిలో మార్పుతో సంబంధం కలిగి ఉంటుంది. అందువల్ల, పై ఉదాహరణలో ఒక సాధారణ రిగ్రెషన్ పరీక్ష హృదయ స్పందన రేటు మరియు రక్తపోటు మధ్య నేరుగా సంబంధం ఉందో లేదో మనకు తెలియజేస్తుంది. సరళ రిగ్రెషన్ విశ్లేషణ యొక్క అవుట్పుట్ $\mathrm{R}^{2}$-విలువ, డేటా ఫిట్ చేయబడిన రిగ్రెషన్ రేఖకు ఎంత దగ్గరగా ఉందో చూపించే గణాంక కొలత. $R^{2}$ విలువ 0 (చరరాశుల మధ్య సహసంబంధం లేదు) మరియు 1 (చరరాశుల మధ్య పరిపూర్ణ సహసంబంధం) మధ్య ఉంటుంది. Fig. 9.1లో చూపినట్లుగా, $R^{2}$ విలువ రెండు చరరాశుల మధ్య మంచి సహసంబంధం ఉందని సూచిస్తుంది. అందువల్ల, ఈ సందర్భంలో శూన్య పరికల్పన తిరస్కరించబడుతుంది.

పట్టిక 9.1: పది రోగులలో నమోదు చేయబడిన హృదయ స్పందన రేటు మరియు రక్తపోటు

రోగి	హృదయ స్పందన రేటు	రక్తపోటు (సిస్టోలిక్)
1	112	189
2	83	140
3	92	153
4	121	192
5	85	147
6	111	178
7	94	135
8	88	143
9	102	177
10	111	189

Fig. 9.1: సరళ రేఖీయ రిగ్రెషన్ రేఖతో రెండు చరరాశుల మధ్య సహసంబంధం

జీవశాస్త్రం యొక్క అనేక రంగాలకు సంభావ్యత యొక్క ప్రాథమిక అవగాహన అవసరం. సెల్యులార్ యాంత్రికాలు వంటి సంక్లిష్ట వ్యవస్థాగత దృగ్విషయాల గణిత మోడలింగ్ వ్యవస్థ యొక్క ముఖ్యమైన పారామితులు మరియు దాని గతిశాస్త్రాన్ని అర్థం చేసుకోవడానికి అనుమతిస్తుంది. ఫైలోజెనెటిక్ పునర్నిర్మాణం, పూర్వీక క్రమాలను నిర్ణయించడం మరియు ఉన్నత క్రమాల సమూహం నుండి పరిణామం రేట్లను మోడలింగ్ చేయడానికి సంభావ్యత జ్ఞానం అవసరం. జీవశాస్త్రవేత్తలు ప్రయోగం చేయడానికి ముందు గణాంక సమస్యలను పరిగణనలోకి తీసుకోవాలి. ఉదాహరణకు, ప్రయోగం కోసం తగిన సంఖ్యలో నమూనాలు మరియు పునరావృత్తులు, జీవ మరియు సాంకేతిక రెండింటినీ ఎంచుకోవడానికి గణాంకాల జ్ఞానం అవసరం. ఫలితాలపై విశ్వాసాన్ని నిర్ధారించడానికి మరియు అవి నిజమా లేదా నకిలీనా తెలుసుకోవడానికి ఒక ప్రయోగాన్ని బహుళ సార్లు స్వతంత్రంగా పునరావృతం చేయాలి. గణాంక యాదృచ్ఛికత మరియు పెద్ద సంఖ్యల నియమం పట్ల అవసరమైన నేపథ్యం ఈ సమస్యను ఎదుర్కోవడానికి ఒకరిని సజ్జుచేస్తుంది. పెద్ద సంఖ్య నుండి యాదృచ్ఛిక నమూనా తీసుకోవడం వలన పక్షపాత ఫలితాలు పొందే అవకాశం తగ్గుతుంది. ఫలితాలు గణాంకపరంగా ముఖ్యమైనవని జీవశాస్త్రవేత్త నిర్ధారించుకోవాలి. ఈ దశకు వివిధ పరీక్షలు మరియు గణాంక ప్రాముఖ్యత కొలతలతో పరిచయం మరియు ప్రశ్నలో ఉన్న సమస్యకు సరైన పరీక్ష(లను) వర్తింపజేయడం అవసరం. సమస్యను బట్టి, జీవశాస్త్రవేత్త బహుళ పరీక్ష కోసం ప్రాముఖ్యత కొలతను దిద్దుబాటు చేయాల్సి ఉంటుంది.

ఉన్నత స్థాయి గణన, విశ్లేషణ మరియు దృశ్యీకరణ కోసం, ఒక జీవశాస్త్రవేత్త అంతర్నిర్మిత ఫ్రేమ్వర్క్లను ఉపయోగించుకోవచ్చు. MATLAB (వాణిజ్య) మరియు R (ఓపెన్ సోర్స్) వంటివి.

జీవశాస్త్రవేత్తల కోసం, ఉపయోగించిన గణాంక విశ్లేషణ యొక్క ఎంపిక సరైన సమాధానాన్ని నిర్ణయించడంలో కీలకం. బలహీనమైన లేదా తప్పు గణాంక ప్రమాణాలు తప్పు ఊహలకు దారి తీస్తాయి మరియు అందువల్ల పునరుత్పాదించలేని ఫలితాలకు దారి తీయవచ్చు. ఉదాహరణకు, గణాంకాలలో సాధారణంగా ఉపయోగించే భావన $\mathrm{P}$ విలువ ఒక పరికల్పనకు మద్దతు యొక్క సాక్ష్యంగా ఉంటుంది. $\mathrm{P}$ విలువ చిన్నది అయినంత, పరీక్ష ఫలితం ముఖ్యమైనది అయ్యే అవకాశం ఎక్కువ. 0.05 (95% ప్రాముఖ్యత) లేదా అంతకంటే తక్కువ P విలువ కట్ఆఫ్ ముఖ్యమైనదిగా పరిగణించబడుతుంది. అయితే, 0.05 థ్రెషోల్డ్ శాస్త్రీయ సాహిత్యంలో చాలా తప్పు సానుకూల ఫలితాలు కనిపించడానికి కారణమైంది. అందువల్ల, $P$ విలువ కట్ఆఫ్ 0.05 పునఃపరిశీలించబడాలి. చిన్న నమూనా పరిమాణాలతో, అన్ని స్వతంత్ర డేటా పాయింట్లను చూపించడం మంచిది, తప్పు సగటు మరియు ప్రామాణిక విచలనంతో దృశ్యీకరణను వక్రీకరించడం కంటే. ప్రతికూల ఫలితాన్ని ఎదుర్కొన్నప్పుడు ఒకరు పరిగణనలోకి తీసుకోవడం ప్రారంభించే గణాంక శక్తి సానుకూల ఫలితాల విషయంలో కూడా పరిగణించబడాలి. కాబట్టి, నిర్దిష్ట స్థాపించబడిన గణాంక నమూనాలు మరియు పంపిణీల ఊహలను తప్పు రకం డేటాకు వర్తింపజేయడం ఒక సాధారణ దుర్వినియోగం. ఉదాహరణకు, రేఖీయేతర డైనమికల్ సిస్టమ్లకు గాస్సియన్ పంపిణీ యొక్క ఊహ, ఇది తప్పు సానుకూల ఫలితాలకు దారి తీస్తుంది. వాస్తవికం కాని పారామితి బరువులతో నిర్మించబడిన అసమతుల్య గణిత నమూనాలు మరొక సాధారణ దుర్వినియోగం మరియు గుర్తించడం కష్టం. ఈ హెచ్చరికలను తగు పరిగణనలోకి తీసుకుని, గణితం మరియు గణాంకాలను జీవశాస్త్రానికి వర్తింపజేయడం వలన మరింత సంక్లిష్టమైన జీవ సమస్యలను పరిష్కరించడానికి స్వభావంలో అంతర్శాస్త్రీయమైన పరిశోధన యొక్క కొత్త ప్రాంతాలు తెరవబడతాయి.

9.2 పరిచయం

బయోఇన్ఫర్మేటిక్స్ అనేది ఒక అంతర్శాస్త్రీయ రంగం, ఇది జీవ సమస్యలను పరిష్కరించడానికి జీవ సమాచారాన్ని విశ్లేషించడంలో గణన, గణిత, గణాంక మరియు కొన్నిసార్లు, ఇంజనీరింగ్ విధానాలను ఉపయోగిస్తుంది (Fig. 9.2). అందువలన, బయోఇన్ఫర్మేటిక్స్ కంప్యూటర్ ఆధారిత సాఫ్ట్వేర్ మరియు సాధనాలను ఉపయోగించి జీవ డేటా నిల్వ, తిరిగి పొందడం, విశ్లేషణ మరియు వివరణతో వ్యవహరిస్తుంది. వ్యత్యాసాలు ఉన్నప్పటికీ, ఇది ‘కంప్యూటేషనల్ బయాలజీ,’ ‘మ్యాథమెటికల్ బయాలజీ,’ ‘క్వాంటిటేటివ్ బయాలజీ’ మరియు ‘బయో-స్టాటిస్టిక్స్’ వంటి ఇతర పదాలతో ప్రధాన శాస్త్రీయ భాగాలను బట్టి ప్రత్యామ్నాయంగా మరియు పరస్పరం మార్చుకోవడం ద్వారా ఉపయోగించబడుతుంది. అయితే, ఈ నిర్వచనాల ఉపయోగం నిపుణులు మరియు ఆచరణకర్తల మధ్య మారుతూ ఉంటుంది మరియు కాలంతో మారిపోయిందని గమనించాలి.

Fig. 9.2: బయోఇన్ఫర్మేటిక్స్ యొక్క అంతర్శాస్త్రీయ స్వభావం: కంప్యూటర్ సైన్స్, గణితం, ఇంజనీరింగ్ మరియు గణాంకాలు వంటి ఒకటి లేదా అంతకంటే ఎక్కువ ఇతర శాస్త్రాలతో జీవశాస్త్రం యొక్క ఖండన

9.2.1. చారిత్రక దృక్పథం

బయోఇన్ఫర్మేటిక్స్ డేటా మైనింగ్ ద్వారా కొత్త ఆవిష్కరణలను కనుగొనడంలో మరియు కొత్త పరికల్పనలను రూపొందించడంలో సహాయపడుతుంది. ఇది మాలిక్యులర్ డేటా యొక్క మోడలింగ్ లేదా విశ్లేషణ ద్వారా చేయబడుతుంది. చాలా బయోఇన్ఫర్మేటిక్స్ సాధనాలు సీక్వెన్స్ మరియు నిర్మాణ డేటాబేస్ల నుండి ఇప్పటికే ఉన్న న్యూక్లియోటైడ్ మరియు ప్రోటీన్ డేటాను లేదా నెక్స్ట్-జెనరేషన్ సీక్వెన్సర్లు మరియు DNA మైక్రోఅరేలు వంటి హై-థ్రూపుట్ పరికరాలను ఉపయోగించి సృష్టించబడిన కొత్త డేటాను ఉపయోగిస్తాయి. USAలోని నేషనల్ సెంటర్ ఫర్ బయోటెక్నాలజీ ఇన్ఫర్మేషన్ (NCBI) బయోఇన్ఫర్మేటిక్స్ సాధనాలు మరియు సేవలకు వనరుగా సృష్టించబడింది. ఇది న్యూక్లియోటైడ్ మరియు గ్రంథ పట్టిక డేటాబేస్లను కలిగి ఉంటుంది. GenBank, విస్తృతంగా ఉపయోగించే డేటాబేస్ అన్ని బహిరంగంగా అందుబాటులో ఉన్న DNA క్రమాలను నిల్వ చేస్తుంది, 1982లో ప్రారంభించబడింది. బయోఇన్ఫర్మేటిక్స్ ఈ పదం విస్తృతంగా ఉపయోగించబడే ముందు చాలా కాలం నుండి ఆచరించబడుతున్నప్పటికీ, 1991లో ఇది సాహిత్యంలో కనిపించడం ప్రారంభించింది. మానవ జీనోమ్ ప్రాజెక్ట్ ప్రారంభం మరియు సీక్వెన్స్ డేటా విశ్లేషణ కోసం బయోఇన్ఫర్మేటిక్స్ సాధనాలు విస్తృతంగా ఉపయోగించబడిన తర్వాత ఈ పేరు విస్తృతంగా అంగీకరించబడింది. అందువల్ల, సాహిత్యంలో బయోఇన్ఫర్మేటిక్స్ పదం యొక్క ఉపయోగం 30 సంవత్సరాల కంటే ఎక్కువ కాదు. బయోటెక్నాలజీ మరియు కంప్యూటింగ్ టెక్నాలజీలో పురోగతి మరియు ప్రాప్యత తర్వాత, జీనోమ్ సీక్వెన్సింగ్ మరియు హై-పర్ఫార్మెన్స్ కంప్యూటింగ్ యుగం తర్వాత బయోఇన్ఫర్మేటిక్స్ విస్తృత ఆకర్షణను పొందింది. ఇంతకు ముందు, తక్కువ థ్రూపుట్ పరీక్షలపై దృష్టి సారించినప్పుడు, ఒకే జీన్ యొక్క చర్యను అధ్యయనం చేయడం లేదా సూక్ష్మదర్శిని కింద నిర్మాణశాస్త్రాన్ని అధ్యయనం చేయడం వంటివి, బయోఇన్ఫర్మేటిక్స్ ఇప్పటికీ ఉపయోగించబడింది కానీ చిన్న స్థాయిలో.

నిర్మాణ బయోఇన్ఫర్మేటిక్స్ సీక్వెన్సింగ్ మరియు DNA మైక్రోఅరేలు వంటి హై-థ్రూపుట్ జీనోమ్-వైడ్ పరీక్షలపై ఆధారపడిన ఇన్ఫర్మేటిక్స్ కంటే ముందు ఉంది. ఎందుకంటే 1900ల ప్రారంభంలో NMR స్పెక్ట్రోస్కోపీ మరియు X-రే క్రిస్టలోగ్రఫీని ఉపయోగించి ప్రోటీన్ల త్రిమితీయ నిర్మాణాలపై అధ్యయనాలు, 2000ల ప్రారంభంలో మాత్రమే ప్రవేశపెట్టబడిన జీనోమ్ మరియు ఇతర -ఓమ్ ఇన్ఫర్మేటిక్స్ కంటే ముందు ఉన్నాయి మరియు నేటి వరకు కొనసాగుతున్నాయి. ప్రోటీన్ డేటా బ్యాంక్ (PDB) నిర్మాణాలు మరియు GenBank ఎంట్రీల సంఖ్య ప్రతి సంవత్సరం పెరుగుతోంది. బయోఇన్ఫర్మేటిక్స్లో ప్రాథమిక ఆందోళన డేటాబేస్ల రూపంలో సీక్వెన్స్ మరియు నిర్మాణ డేటాను నిర్వహించడం మరియు ఈ డేటాబేస్ల నుండి డేటాను మైనింగ్ చేయడం ద్వారా జీవ అర్థాలను పొందడం. NCBI న్యూక్లియోటైడ్ మరియు ప్రోటీన్ డేటాను వివిధ వర్గాలలో (జీన్, జీనోమ్, నిర్మాణం, సీక్వెన్స్ మొదలైనవి) హోస్ట్ చేస్తుంది. ప్రస్తుతం, జీవ డేటా, అపూర్వ రేటుతో ఉత్పత్తి చేయబడుతుంది మరియు వాటి విశ్లేషణ మరియు వివరణతో పాటు క్లిష్టమైన జీవ అంతర్దృష్టులకు దారి తీస్తుంది, ఇవి ఎక్కువ ప్రాధాన్యతను పొందాయి. దీనిని సాధించడానికి కొత్త, ఆప్టిమైజ్ చేయబడిన మరియు ఉన్నతమైన అల్గోరిథంలు మరియు సాధనాలు గణాంక అనుకూలీకరణలు మరియు బహుళ రంగాల సంశ్లేషణతో అభివృద్ధి చేయబడ్డాయి మరియు అమలు చేయబడ్డాయి. ద్వితీయ మరియు తృతీయ స్థాయి సమాచారం ఆధారంగా డేటాబేస్లు, అంటే మాలిక్యులర్ మార్గాలు, జీన్ వ్యక్తీకరణ, ప్రోటీన్ నిర్మాణం మరియు పనితీరు, ఇంటరాక్షన్ నెట్వర్క్లు, వ్యాధి-సంబంధిత మార్పులు, జీవి నిర్దిష్టత మరియు నియంత్రణ నెట్వర్క్లు అప్పటి నుండి అభివృద్ధి చేయబడ్డాయి మరియు ఉపయోగించబడ్డాయి

అధ్యాయం 09 బయోఇన్ఫర్మేటిక్స్ పరిచయం

9.1 జీవ వ్యవస్థలు మరియు ప్రక్రియలను అర్థం చేసుకోవడానికి ప్రాథమిక గణిత మరియు గణాంక భావనల యొక్క ఉపయోగిత

9.2 పరిచయం

9.2.1. చారిత్రక దృక్పథం

ICAR Preparation

NCERT Books

Important Resources

Forum

రోగి	హృదయ స్పందన రేటు	రక్తపోటు (సిస్టోలిక్)
1	112	189
2	83	140
3	92	153
4	121	192
5	85	147
6	111	178
7	94	135
8	88	143
9	102	177
10	111	189

రోగి	హృదయ స్పందన రేటు	రక్తపోటు (సిస్టోలిక్)
1	112	189
2	83	140
3	92	153
4	121	192
5	85	147
6	111	178
7	94	135
8	88	143
9	102	177
10	111	189

రోగి	హృదయ స్పందన రేటు	రక్తపోటు (సిస్టోలిక్)
1	112	189
2	83	140
3	92	153
4	121	192
5	85	147
6	111	178
7	94	135
8	88	143
9	102	177
10	111	189