અધ્યાય 09 બાયોઇન્ફોર્મેટિક્સનો પરિચય
9.1 જૈવિક પ્રણાલીઓ અને પ્રક્રિયાઓ સમજવા માટે મૂળભૂત ગાણિતિક અને આંકડાશાસ્ત્રીય ખ્યાલોની ઉપયોગિતા
આ અધ્યાયનો હેતુ તમને જણાવવાનો છે કે ગણિત અને આંકડાશાસ્ત્રના મૂળભૂત ખ્યાલોની સમજ જીવવિજ્ઞાની માટે શા માટે મહત્વપૂર્ણ છે.
કોઈપણ જૈવિક પ્રયોગનું પરિણામ ડેટા હોય છે. પહેલાં, જીવવિજ્ઞાનીઓ સુશોભિત સોફ્ટવેર, કોમ્પ્યુટેશનલ ટૂલ્સ અને આંકડાશાસ્ત્રીય પરીક્ષણોની મદદ વિના ડેટા જનરેટ અને વિશ્લેષણ કરતા હતા. જોકે, હવે આવું નથી. હાઇથ્રુપુટ ડીએનએ સિક્વેન્સર્સ, શક્તિશાળી માઇક્રોસ્કોપ્સ અને અન્ય ઇમેજિંગ સિસ્ટમ્સ, અને મોટા જથ્થામાં ડેટા જનરેટ કરવા સક્ષમ એનાલિટિકલ ઇન્સ્ટ્રુમેન્ટ્સ જેવા ઉપકરણોના આગમન સાથે, જીવવિજ્ઞાનીઓ હવે તેમની નોટબુક અને એક્સેલ શીટ્સનો ઉપયોગ કરીને ડેટા સાથે વ્યવહાર કરી શકતા નથી. તેના બદલે, ડેટા હેન્ડલ કરવા માટે તેમને કોમ્પ્યુટેશનલ અને આંકડાશાસ્ત્રીય ટૂલ્સની જરૂર પડે છે. મોટા જથ્થાના ડેટાને અર્થઘટન અને જૈવિક અર્થ જનરેટ કરવા માટે માત્રાત્મક વિશ્લેષણની જરૂર પડે છે. આવા વિશ્લેષણ કરવા માટે વ્યક્તિને સારી કાર્યરત જાણકારી હોવી જરૂરી છે કોમ્પ્યુટેશનલ અને આંકડાશાસ્ત્રીય ખ્યાલોની, ઉદાહરણ તરીકે; મશીન લર્નિંગ ટેક્નોલોજીઓ, રીગ્રેશન, વેરિઅન્સ અને કોરિલેશન, વગેરે. ગાણિતિક અને આંકડાશાસ્ત્રીય ખ્યાલો માત્ર જીવવિજ્ઞાનીઓને તેમના ડેટાનું અર્થઘટન કરવામાં મદદ કરી શકે છે અને તે યોગ્ય પ્રશ્નો પૂછવા અને જૈવિક કુશાગ્રતાનું સ્થાન લઈ શકતા નથી. જીવવિજ્ઞાનમાં વપરાતા કેટલાક સામાન્ય આંકડાશાસ્ત્રીય શબ્દોના નામ બોક્સ 1 માં આપવામાં આવ્યા છે.
બોક્સ 1
બોક્સ 1: જીવવિજ્ઞાનમાં સામાન્ય રીતે વપરાતા આંકડાશાસ્ત્રીય શબ્દોનો શબ્દકોષ
નલ પૂર્વધારણા- એક વિધાન કે બે માપેલ ઘટનાઓ વચ્ચે કોઈ સંબંધ નથી.
આંકડાશાસ્ત્રીય મહત્વ- જ્યારે પરિણામ થવાની શક્યતા ખૂબ જ ઓછી હોય ત્યારે તેને આંકડાશાસ્ત્રીય મહત્વ ધરાવે છે.
p-મૂલ્ય- અભ્યાસના પ્રશ્નની નલ પૂર્વધારણા સાચી હોય ત્યારે અવલોકિત પરિણામો મળવાની સંભાવના.
t-ટેસ્ટ- આંકડાશાસ્ત્રીય પરીક્ષણના ઉપયોગ દ્વારા બે વસ્તી સરેરાશનું વિશ્લેષણ.
મલ્ટિવેરિએટ એનાલિસિસ: એક કરતાં વધુ ચલ ધરાવતા ડેટાના વિશ્લેષણ માટે વપરાતી તકનીકોનો સમૂહ.
રીગ્રેશન એનાલિસિસ- એક આશ્રિત અને સ્વતંત્ર ચલ વચ્ચેના સંબંધની તપાસ કરવા માટેની એક તકનીક.
મલ્ટિપલ ટેસ્ટિંગ કરેક્શન- એક આંકડાશાસ્ત્રીય પરીક્ષણ જે એકંદર ભૂલ દરને વપરાશકર્તા-નિર્દિષ્ટ P-મૂલ્ય કટઓફ કરતાં ઓછા અથવા બરાબર રાખવા માટે બહુવિધ પરીક્ષણો માટે સુધારે છે.
વેરિઅન્સનું વિશ્લેષણ અથવા એનોવા- નમૂનામાં જૂથ સરેરાશ વચ્ચેના તફાવતોનું વિશ્લેષણ કરવા માટે વપરાતા આંકડાશાસ્ત્રીય મોડલોનો સંગ્રહ.
ચાલો ચોક્કસ ઉદાહરણો સાથે તપાસીએ કે જ્યાં કોમ્પ્યુટિંગ અને આંકડાશાસ્ત્ર બંનેનું જ્ઞાન જૈવિક ઘટનાઓને વધુ સારી રીતે સમજવામાં મદદ કરી શકે છે. ઉદાહરણ તરીકે, આપણે દસ દર્દીઓમાં રક્તદાબ અને હૃદય ગતિ વચ્ચે કોઈ સંબંધ છે કે નહીં તે સમજવા માંગીએ છીએ (કોષ્ટક 9.1). નીચેના કોષ્ટકમાં આપેલા પ્રમાણે, સરળ દ્રશ્ય અંદાજ (ફિગ.9.1) બે ચલો વચ્ચેના સંબંધ (સહસંબંધ)ને ચોક્કસપણે નિર્ધારિત કરવા માટે પર્યાપ્ત નથી. તે માટે, રીગ્રેશન લાઇન દોરવાની જરૂર છે. સહસંબંધ અને રીગ્રેશન અલગ છે, પરંતુ સંબંધિત છે. સહસંબંધ માપે છે કે ચલો કેવી રીતે જોડાયેલા છે, પરંતુ રીગ્રેશન બે અથવા વધુ ચલો વચ્ચે આંકડાશાસ્ત્રીય સંબંધને વ્યાખ્યાયિત કરે છે જ્યાં એક ચલમાં ફેરફાર સાથે સંકળાયેલ છે બીજામાં ફેરફાર સાથે. તેથી, ઉપરોક્ત ઉદાહરણમાં એક સરળ રીગ્રેશન પરીક્ષણ અમને જણાવશે કે હૃદય ગતિ અને રક્તદાબ વચ્ચે સીધો સંબંધ છે કે નહીં. રેખીય રીગ્રેશન વિશ્લેષણનું આઉટપુટ $\mathrm{R}^{2}$-મૂલ્ય છે, એક આંકડાશાસ્ત્રીય માપ જે દર્શાવે છે કે ડેટા ફિટેડ રીગ્રેશન લાઇનની કેટલી નજીક છે. $R^{2}$ મૂલ્ય 0 (ચલો વચ્ચે કોઈ સહસંબંધ નથી) અને 1 (ચલો વચ્ચે સંપૂર્ણ સહસંબંધ) વચ્ચે હોય છે. ફિગ. 9.1 માં બતાવ્યા પ્રમાણે, $R^{2}$ મૂલ્ય સૂચવે છે કે બે ચલો વચ્ચે સારો સહસંબંધ છે. તેથી, આ કિસ્સામાં નલ પૂર્વધારણાને નકારવામાં આવે છે.
કોષ્ટક 9.1: દસ દર્દીઓમાં રેકોર્ડ કરાયેલ હૃદય ગતિ અને રક્તદાબ
| દર્દી | હૃદય ગતિ | રક્તદાબ (સિસ્ટોલિક) |
|---|---|---|
| 1 | 112 | 189 |
| 2 | 83 | 140 |
| 3 | 92 | 153 |
| 4 | 121 | 192 |
| 5 | 85 | 147 |
| 6 | 111 | 178 |
| 7 | 94 | 135 |
| 8 | 88 | 143 |
| 9 | 102 | 177 |
| 10 | 111 | 189 |

ફિગ. 9.1: સરળ રેખીય રીગ્રેશન લાઇન સાથે બે ચલો વચ્ચેનો સહસંબંધ
જીવવિજ્ઞાનના ઘણા ક્ષેત્રોને સંભાવનાની મૂળભૂત સમજની જરૂર છે. કોષીય પદ્ધતિઓ જેવી જટિલ વ્યવસ્થાગત ઘટનાઓનું ગાણિતિક મોડેલિંગ વ્યક્તિને સિસ્ટમના મહત્વપૂર્ણ પરિમાણો અને તેની ગતિશીલતા સમજવાની મંજૂરી આપે છે. ફાયલોજેનેટિક રીકન્સ્ટ્રક્શન, પૂર્વજ ક્રમ નક્કી કરવા અને વિકાસના દરનું મોડેલિંગ વર્તમાન ક્રમના સમૂહમાંથી સંભાવનાના જ્ઞાનની જરૂર છે. જીવવિજ્ઞાનીઓએ પ્રયોગ કરતા પહેલાં આંકડાશાસ્ત્રીય મુદ્દાઓ ધ્યાનમાં રાખવાની જરૂર છે. ઉદાહરણ તરીકે, પ્રયોગ માટે પર્યાપ્ત નમૂનાઓ અને પુનરાવર્તનો, જૈવિક અને તકનીકી બંને, પસંદ કરવા માટે આંકડાશાસ્ત્રનું જ્ઞાન જરૂરી છે. પરિણામોમાં વિશ્વાસ સ્થાપિત કરવા અને તે ખરા છે કે નકલી છે તે જાણવા માટે પ્રયોગને બહુવિધ વખત સ્વતંત્ર રીતે પુનરાવર્તિત કરવો આવશ્યક છે. આંકડાશાસ્ત્રીય રેન્ડમનેસ અને મોટી સંખ્યાના નિયમમાં જરૂરી પૃષ્ઠભૂમિ વ્યક્તિને આ સમસ્યા સાથે વ્યવહાર કરવા માટે સજ્જ કરે છે. મોટી સંખ્યામાંથી રેન્ડમ સેમ્પલિંગ પક્ષપાતી પરિણામો મેળવવાની તક ઘટાડે છે. જીવવિજ્ઞાનીએ ખાતરી કરવી જરૂરી છે કે પરિણામો આંકડાશાસ્ત્રીય રીતે મહત્વપૂર્ણ છે. આ પગલા માટે વિવિધ પરીક્ષણો અને આંકડાશાસ્ત્રીય મહત્વના માપની પરિચિતતા અને પ્રશ્નમાં રહેલી સમસ્યા માટે યોગ્ય પરીક્ષણ(ઓ) લાગુ કરવાની જરૂર છે. સમસ્યાના આધારે, જીવવિજ્ઞાનીએ બહુવિધ પરીક્ષણ માટે મહત્વના માપને સુધારવું અને સમાયોજિત કરવું પડશે.
ઉચ્ચ સ્તરની કોમ્પ્યુટિંગ, વિશ્લેષણ અને વિઝ્યુલાઇઝેશન માટે, જીવવિજ્ઞાની બિલ્ટ ઇન ફ્રેમવર્કનો ઉપયોગ કરી શકે છે. જેમ કે MATLAB (વ્યાપારી) અને R (ઓપન સોર્સ), વગેરે.
જીવવિજ્ઞાનીઓ માટે, ઉપયોગમાં લેવાતા આંકડાશાસ્ત્રીય વિશ્લેષણની પસંદગી સાચો જવાબ નક્કી કરવાની ચાવી છે. નબળા અથવા ખોટા આંકડાશાસ્ત્રીય ધોરણો ખોટી ધારણાઓ તરફ દોરી જાય છે અને તેથી પુનરાવર્તનયોગ્ય પરિણામો તરફ દોરી શકે છે. ઉદાહરણ તરીકે, આંકડાશાસ્ત્રમાં સામાન્ય રીતે વપરાતો ખ્યાલ $\mathrm{P}$ મૂલ્ય છે જે પૂર્વધારણા માટે સમર્થનના પુરાવા તરીકે છે. $\mathrm{P}$ મૂલ્ય જેટલું નાનું, તેટલી વધુ સંભાવના છે કે પરીક્ષણનું પરિણામ મહત્વપૂર્ણ છે. 0.05 (95% મહત્વ) અથવા તેનાથી ઓછા P મૂલ્ય કટઓફને મહત્વપૂર્ણ ગણવામાં આવે છે. જોકે, 0.05 થ્રેશોલ્ડે વૈજ્ઞાનિક સાહિત્યમાં ઘણા બધા ખોટા પોઝિટિવ્સ દેખાવા માટે કારણભૂત બન્યું છે. તેથી, $P$ મૂલ્ય કટઓફ 0.05 ની ફરી તપાસ કરવાની જરૂર છે. નાના નમૂના કદ સાથે, ભ્રામક સરેરાશ અને પ્રમાણભૂત વિચલન સાથે વિઝ્યુલાઇઝેશનને વિકૃત કરવાને બદલે બધા સ્વતંત્ર ડેટા પોઇન્ટ્સ બતાવવાથી વ્યક્તિ વધુ સારી સ્થિતિમાં છે. આંકડાશાસ્ત્રીય શક્તિ જે વ્યક્તિ નકારાત્મક પરિણામનો સામનો કરતી વખતે ધ્યાનમાં લેવાનું શરૂ કરે છે તે પોઝિટિવ પરિણામોના કિસ્સામાં પણ ધ્યાનમાં લેવી જોઈએ. ચોક્કસ સ્થાપિત આંકડાશાસ્ત્રીય મોડલો અને વિતરણોની ધારણાઓ ખોટા પ્રકારના ડેટા માટે છે, તેથી, એક સામાન્ય દુરુપયોગ છે. ઉદાહરણ તરીકે, ગૌસિયન વિતરણની ધારણા બિનરેખીય ગતિશીલ પ્રણાલીઓ માટે, જે ખોટા પોઝિટિવ્સ તરફ દોરી જાય છે. અવાસ્તવિક પરિમાણ વજન સાથે બનાવેલ અસંતુલિત ગાણિતિક મોડલ્સ હજી પણ એક સામાન્ય દુરુપયોગ છે અને એક જે શોધવું મુશ્કેલ છે. આ ચેતવણીઓ પર યોગ્ય વિચારણા સાથે, ગણિત અને આંકડાશાસ્ત્રનો જીવવિજ્ઞાનમાં ઉપયોગ વધુ જટિલ જૈવિક સમસ્યાઓનો સામનો કરવા માટે અંતરશાસ્ત્રીય સ્વભાવના સંશોધનના નવા ક્ષેત્રો ખુલવા તરફ દોરી શકે છે.
9.2 પરિચય
બાયોઇન્ફોર્મેટિક્સ એક અંતરશાસ્ત્રીય ક્ષેત્ર છે જે જૈવિક સમસ્યાઓ ઉકેલવા માટે જૈવિક માહિતીના વિશ્લેષણમાં કોમ્પ્યુટેશનલ, ગાણિતિક, આંકડાશાસ્ત્રીય અને ક્યારેક, ઇજનેરી અભિગમોનો ઉપયોગ કરે છે (ફિગ. 9.2). આમ, બાયોઇન્ફોર્મેટિક્સ કોમ્પ્યુટર આધારિત સોફ્ટવેર અને ટૂલ્સનો ઉપયોગ કરીને જૈવિક ડેટાના સંગ્રહ, પુનઃપ્રાપ્તિ, વિશ્લેષણ અને અર્થઘટન સાથે વ્યવહાર કરે છે. જોકે તફાવતો છે, તે અન્ય શબ્દો જેમ કે ‘કોમ્પ્યુટેશનલ બાયોલોજી’, ‘મેથમેટિકલ બાયોલોજી’, ‘ક્વોન્ટિટેટિવ બાયોલોજી’ અને ‘બાયો-સ્ટેટિસ્ટિક્સ’ સાથે વૈકલ્પિક રીતે અને વિનિમયાત્મક રીતે વપરાય છે, તે પ્રભુત્વ ધરાવતા શાખાકીય ઘટકો પર આધારિત છે. જોકે, એ નોંધવું જોઈએ કે આ વ્યાખ્યાઓનો ઉપયોગ નિષ્ણાતો અને વ્યવસાયીઓમાં બદલાય છે, અને સમય સાથે બદલાયો છે.

ફિગ. 9.2: બાયોઇન્ફોર્મેટિક્સની અંતરશાસ્ત્રીય પ્રકૃતિ: કોમ્પ્યુટર વિજ્ઞાન, ગણિત, ઇજનેરી અને આંકડાશાસ્ત્ર જેવા એક અથવા વધુ અન્ય શિસ્તો સાથે જીવવિજ્ઞાનનું આંતરછેદ
9.2.1. ઐતિહાસિક પરિપ્રેક્ષ્ય
બાયોઇન્ફોર્મેટિક્સ ડેટા માઇનિંગ દ્વારા નવી શોધોની શોધમાં અને નવી પૂર્વધારણાની પેદાશમાં મદદ કરે છે. આ અણુ ડેટાના મોડેલિંગ અથવા વિશ્લેષણ દ્વારા કરવામાં આવે છે. મોટાભાગના બાયોઇન્ફોર્મેટિક્સ ટૂલ્સ ક્રમ અને સ્ટ્રક્ચર ડેટાબેઝમાંથી પહેલેથી અસ્તિત્વમાં રહેલા ન્યુક્લિઓટાઇડ અને પ્રોટીન ડેટાનો ઉપયોગ કરે છે, અથવા નેક્સ્ટ-જનરેશન સિક્વેન્સર્સ અને ડીએનએ માઇક્રોએરે જેવા હાઇથ્રુપુટ ઇન્સ્ટ્રુમેન્ટ્સનો ઉપયોગ કરીને જનરેટ થયેલ નવા ડેટાનો ઉપયોગ કરે છે. યુએસએમાં નેશનલ સેન્ટર ફોર બાયોટેક્નોલોજી ઇન્ફોર્મેશન (NCBI) બાયોઇન્ફોર્મેટિક્સ ટૂલ્સ અને સેવાઓ માટે સંસાધન તરીકે બનાવવામાં આવ્યું હતું. તેમાં ન્યુક્લિઓટાઇડ અને ગ્રંથસૂચિ ડેટાબેઝ હોય છે. જનબેંક, એક વ્યાપક રીતે વપરાતો ડેટાબેસ જે તમામ જાહેરમાં ઉપલબ્ધ ડીએનએ ક્રમ સંગ્રહિત કરે છે, 1982 માં શરૂ કરવામાં આવ્યો હતો. જોકે બાયોઇન્ફોર્મેટિક્સ શબ્દના વ્યાપક ઉપયોગ પહેલાં ઘણું પહેલાં પ્રચલિત હતું, પરંતુ 1991 સુધી તે સાહિત્યમાં દેખાવાનું શરૂ નહોતું થયું. માનવ જીનોમ પ્રોજેક્ટ લોન્ચ થયા પછી નામને વ્યાપક સ્વીકૃતિ મળી અને ક્રમ ડેટાના વિશ્લેષણ માટે બાયોઇન્ફોર્મેટિક્સ ટૂલ્સનો વ્યાપકપણે ઉપયોગ કરવામાં આવ્યો. તેથી, સાહિત્યમાં બાયોઇન્ફોર્મેટિક્સ શબ્દનો ઉપયોગ 30 વર્ષથી વધુ જૂનો નથી. બાયોટેક્નોલોજી અને કોમ્પ્યુટિંગ ટેક્નોલોજીમાં પ્રગતિ અને સુલભતા બાદ, પોસ્ટ જીનોમ સિક્વેન્સિંગ અને હાઇ-પર્ફોર્મન્સ કોમ્પ્યુટિંગ યુગમાં બાયોઇન્ફોર્મેટિક્સે વ્યાપક આકર્ષણ મેળવ્યું છે. આ પહેલાં, જ્યારે ઓછી થ્રુપુટ એસેઝ પર ધ્યાન કેન્દ્રિત કરવામાં આવ્યું હતું, જેમ કે એક જ જીનની ક્રિયાનો અભ્યાસ અથવા માઇક્રોસ્કોપ હેઠળ આકારવિજ્ઞાનનો અભ્યાસ, બાયોઇન્ફોર્મેટિક્સનો ઉપયોગ હજુ પણ થતો હતો પરંતુ નાના પાયા પર.
સ્ટ્રક્ચરલ બાયોઇન્ફોર્મેટિક્સ સિક્વેન્સિંગ અને ડીએનએ માઇક્રોએરે જેવા હાઇથ્રુપુટ જીનોમ-વ્યાપી એસેઝ પર આધારિત ઇન્ફોર્મેટિક્સ પહેલાં આવે છે. આ એટલા માટે કે 1900 ની શરૂઆતમાં એનએમઆર સ્પેક્ટ્રોસ્કોપી અને એક્સ-રે ક્રિસ્ટલોગ્રાફીનો ઉપયોગ કરીને પ્રોટીનની ત્રિ-પરિમાણીય રચનાઓ પરના અભ્યાસો, જીનોમ અને અન્ય -ઓમ ઇન્ફોર્મેટિક્સ કરતાં પહેલાંના છે જે માત્ર 2000 ની શરૂઆતમાં રજૂ કરવામાં આવ્યા હતા અને તારીખ સુધી ચાલુ છે. પ્રોટીન ડેટા બેંક (PDB) સ્ટ્રક્ચર્સ અને જનબેંક એન્ટ્રીઓની સંખ્યા દર વર્ષે વધી રહી છે. બાયોઇન્ફોર્મેટિક્સમાં પ્રાથમિક ચિંતા ક્રમ અને માળખાકીય ડેટાને ડેટાબેઝના રૂપમાં મેનેજ કરવાની છે, અને જૈવિક અર્થ મેળવવા માટે આ ડેટાબેઝમાંથી ડેટા માઇન કરવાની છે. NCBI વિવિધ શ્રેણીઓ (જીન, જીનોમ, સ્ટ્રક્ચર, સિક્વન્સ, વગેરે) હેઠળ ન્યુક્લિઓટાઇડ અને પ્રોટીન ડેટા હોસ્ટ કરે છે. હાલમાં, જૈવિક ડેટા, અભૂતપૂર્વ દરે ઉ