અધ્યાય 09 બાયોઇન્ફોર્મેટિક્સનો પરિચય

9.1 જૈવિક પ્રણાલીઓ અને પ્રક્રિયાઓ સમજવા માટે મૂળભૂત ગાણિતિક અને આંકડાશાસ્ત્રીય ખ્યાલોની ઉપયોગિતા

આ અધ્યાયનો હેતુ તમને જણાવવાનો છે કે ગણિત અને આંકડાશાસ્ત્રના મૂળભૂત ખ્યાલોની સમજ જીવવિજ્ઞાની માટે શા માટે મહત્વપૂર્ણ છે.

કોઈપણ જૈવિક પ્રયોગનું પરિણામ ડેટા હોય છે. પહેલાં, જીવવિજ્ઞાનીઓ સુશોભિત સોફ્ટવેર, કોમ્પ્યુટેશનલ ટૂલ્સ અને આંકડાશાસ્ત્રીય પરીક્ષણોની મદદ વિના ડેટા જનરેટ અને વિશ્લેષણ કરતા હતા. જોકે, હવે આવું નથી. હાઇથ્રુપુટ ડીએનએ સિક્વેન્સર્સ, શક્તિશાળી માઇક્રોસ્કોપ્સ અને અન્ય ઇમેજિંગ સિસ્ટમ્સ, અને મોટા જથ્થામાં ડેટા જનરેટ કરવા સક્ષમ એનાલિટિકલ ઇન્સ્ટ્રુમેન્ટ્સ જેવા ઉપકરણોના આગમન સાથે, જીવવિજ્ઞાનીઓ હવે તેમની નોટબુક અને એક્સેલ શીટ્સનો ઉપયોગ કરીને ડેટા સાથે વ્યવહાર કરી શકતા નથી. તેના બદલે, ડેટા હેન્ડલ કરવા માટે તેમને કોમ્પ્યુટેશનલ અને આંકડાશાસ્ત્રીય ટૂલ્સની જરૂર પડે છે. મોટા જથ્થાના ડેટાને અર્થઘટન અને જૈવિક અર્થ જનરેટ કરવા માટે માત્રાત્મક વિશ્લેષણની જરૂર પડે છે. આવા વિશ્લેષણ કરવા માટે વ્યક્તિને સારી કાર્યરત જાણકારી હોવી જરૂરી છે કોમ્પ્યુટેશનલ અને આંકડાશાસ્ત્રીય ખ્યાલોની, ઉદાહરણ તરીકે; મશીન લર્નિંગ ટેક્નોલોજીઓ, રીગ્રેશન, વેરિઅન્સ અને કોરિલેશન, વગેરે. ગાણિતિક અને આંકડાશાસ્ત્રીય ખ્યાલો માત્ર જીવવિજ્ઞાનીઓને તેમના ડેટાનું અર્થઘટન કરવામાં મદદ કરી શકે છે અને તે યોગ્ય પ્રશ્નો પૂછવા અને જૈવિક કુશાગ્રતાનું સ્થાન લઈ શકતા નથી. જીવવિજ્ઞાનમાં વપરાતા કેટલાક સામાન્ય આંકડાશાસ્ત્રીય શબ્દોના નામ બોક્સ 1 માં આપવામાં આવ્યા છે.

બોક્સ 1
બોક્સ 1: જીવવિજ્ઞાનમાં સામાન્ય રીતે વપરાતા આંકડાશાસ્ત્રીય શબ્દોનો શબ્દકોષ
નલ પૂર્વધારણા- એક વિધાન કે બે માપેલ ઘટનાઓ વચ્ચે કોઈ સંબંધ નથી.
આંકડાશાસ્ત્રીય મહત્વ- જ્યારે પરિણામ થવાની શક્યતા ખૂબ જ ઓછી હોય ત્યારે તેને આંકડાશાસ્ત્રીય મહત્વ ધરાવે છે.
p-મૂલ્ય- અભ્યાસના પ્રશ્નની નલ પૂર્વધારણા સાચી હોય ત્યારે અવલોકિત પરિણામો મળવાની સંભાવના.
t-ટેસ્ટ- આંકડાશાસ્ત્રીય પરીક્ષણના ઉપયોગ દ્વારા બે વસ્તી સરેરાશનું વિશ્લેષણ.
મલ્ટિવેરિએટ એનાલિસિસ: એક કરતાં વધુ ચલ ધરાવતા ડેટાના વિશ્લેષણ માટે વપરાતી તકનીકોનો સમૂહ.
રીગ્રેશન એનાલિસિસ- એક આશ્રિત અને સ્વતંત્ર ચલ વચ્ચેના સંબંધની તપાસ કરવા માટેની એક તકનીક.
મલ્ટિપલ ટેસ્ટિંગ કરેક્શન- એક આંકડાશાસ્ત્રીય પરીક્ષણ જે એકંદર ભૂલ દરને વપરાશકર્તા-નિર્દિષ્ટ P-મૂલ્ય કટઓફ કરતાં ઓછા અથવા બરાબર રાખવા માટે બહુવિધ પરીક્ષણો માટે સુધારે છે.
વેરિઅન્સનું વિશ્લેષણ અથવા એનોવા- નમૂનામાં જૂથ સરેરાશ વચ્ચેના તફાવતોનું વિશ્લેષણ કરવા માટે વપરાતા આંકડાશાસ્ત્રીય મોડલોનો સંગ્રહ.

ચાલો ચોક્કસ ઉદાહરણો સાથે તપાસીએ કે જ્યાં કોમ્પ્યુટિંગ અને આંકડાશાસ્ત્ર બંનેનું જ્ઞાન જૈવિક ઘટનાઓને વધુ સારી રીતે સમજવામાં મદદ કરી શકે છે. ઉદાહરણ તરીકે, આપણે દસ દર્દીઓમાં રક્તદાબ અને હૃદય ગતિ વચ્ચે કોઈ સંબંધ છે કે નહીં તે સમજવા માંગીએ છીએ (કોષ્ટક 9.1). નીચેના કોષ્ટકમાં આપેલા પ્રમાણે, સરળ દ્રશ્ય અંદાજ (ફિગ.9.1) બે ચલો વચ્ચેના સંબંધ (સહસંબંધ)ને ચોક્કસપણે નિર્ધારિત કરવા માટે પર્યાપ્ત નથી. તે માટે, રીગ્રેશન લાઇન દોરવાની જરૂર છે. સહસંબંધ અને રીગ્રેશન અલગ છે, પરંતુ સંબંધિત છે. સહસંબંધ માપે છે કે ચલો કેવી રીતે જોડાયેલા છે, પરંતુ રીગ્રેશન બે અથવા વધુ ચલો વચ્ચે આંકડાશાસ્ત્રીય સંબંધને વ્યાખ્યાયિત કરે છે જ્યાં એક ચલમાં ફેરફાર સાથે સંકળાયેલ છે બીજામાં ફેરફાર સાથે. તેથી, ઉપરોક્ત ઉદાહરણમાં એક સરળ રીગ્રેશન પરીક્ષણ અમને જણાવશે કે હૃદય ગતિ અને રક્તદાબ વચ્ચે સીધો સંબંધ છે કે નહીં. રેખીય રીગ્રેશન વિશ્લેષણનું આઉટપુટ $\mathrm{R}^{2}$-મૂલ્ય છે, એક આંકડાશાસ્ત્રીય માપ જે દર્શાવે છે કે ડેટા ફિટેડ રીગ્રેશન લાઇનની કેટલી નજીક છે. $R^{2}$ મૂલ્ય 0 (ચલો વચ્ચે કોઈ સહસંબંધ નથી) અને 1 (ચલો વચ્ચે સંપૂર્ણ સહસંબંધ) વચ્ચે હોય છે. ફિગ. 9.1 માં બતાવ્યા પ્રમાણે, $R^{2}$ મૂલ્ય સૂચવે છે કે બે ચલો વચ્ચે સારો સહસંબંધ છે. તેથી, આ કિસ્સામાં નલ પૂર્વધારણાને નકારવામાં આવે છે.

કોષ્ટક 9.1: દસ દર્દીઓમાં રેકોર્ડ કરાયેલ હૃદય ગતિ અને રક્તદાબ

દર્દી	હૃદય ગતિ	રક્તદાબ (સિસ્ટોલિક)
1	112	189
2	83	140
3	92	153
4	121	192
5	85	147
6	111	178
7	94	135
8	88	143
9	102	177
10	111	189

ફિગ. 9.1: સરળ રેખીય રીગ્રેશન લાઇન સાથે બે ચલો વચ્ચેનો સહસંબંધ

જીવવિજ્ઞાનના ઘણા ક્ષેત્રોને સંભાવનાની મૂળભૂત સમજની જરૂર છે. કોષીય પદ્ધતિઓ જેવી જટિલ વ્યવસ્થાગત ઘટનાઓનું ગાણિતિક મોડેલિંગ વ્યક્તિને સિસ્ટમના મહત્વપૂર્ણ પરિમાણો અને તેની ગતિશીલતા સમજવાની મંજૂરી આપે છે. ફાયલોજેનેટિક રીકન્સ્ટ્રક્શન, પૂર્વજ ક્રમ નક્કી કરવા અને વિકાસના દરનું મોડેલિંગ વર્તમાન ક્રમના સમૂહમાંથી સંભાવનાના જ્ઞાનની જરૂર છે. જીવવિજ્ઞાનીઓએ પ્રયોગ કરતા પહેલાં આંકડાશાસ્ત્રીય મુદ્દાઓ ધ્યાનમાં રાખવાની જરૂર છે. ઉદાહરણ તરીકે, પ્રયોગ માટે પર્યાપ્ત નમૂનાઓ અને પુનરાવર્તનો, જૈવિક અને તકનીકી બંને, પસંદ કરવા માટે આંકડાશાસ્ત્રનું જ્ઞાન જરૂરી છે. પરિણામોમાં વિશ્વાસ સ્થાપિત કરવા અને તે ખરા છે કે નકલી છે તે જાણવા માટે પ્રયોગને બહુવિધ વખત સ્વતંત્ર રીતે પુનરાવર્તિત કરવો આવશ્યક છે. આંકડાશાસ્ત્રીય રેન્ડમનેસ અને મોટી સંખ્યાના નિયમમાં જરૂરી પૃષ્ઠભૂમિ વ્યક્તિને આ સમસ્યા સાથે વ્યવહાર કરવા માટે સજ્જ કરે છે. મોટી સંખ્યામાંથી રેન્ડમ સેમ્પલિંગ પક્ષપાતી પરિણામો મેળવવાની તક ઘટાડે છે. જીવવિજ્ઞાનીએ ખાતરી કરવી જરૂરી છે કે પરિણામો આંકડાશાસ્ત્રીય રીતે મહત્વપૂર્ણ છે. આ પગલા માટે વિવિધ પરીક્ષણો અને આંકડાશાસ્ત્રીય મહત્વના માપની પરિચિતતા અને પ્રશ્નમાં રહેલી સમસ્યા માટે યોગ્ય પરીક્ષણ(ઓ) લાગુ કરવાની જરૂર છે. સમસ્યાના આધારે, જીવવિજ્ઞાનીએ બહુવિધ પરીક્ષણ માટે મહત્વના માપને સુધારવું અને સમાયોજિત કરવું પડશે.

ઉચ્ચ સ્તરની કોમ્પ્યુટિંગ, વિશ્લેષણ અને વિઝ્યુલાઇઝેશન માટે, જીવવિજ્ઞાની બિલ્ટ ઇન ફ્રેમવર્કનો ઉપયોગ કરી શકે છે. જેમ કે MATLAB (વ્યાપારી) અને R (ઓપન સોર્સ), વગેરે.

જીવવિજ્ઞાનીઓ માટે, ઉપયોગમાં લેવાતા આંકડાશાસ્ત્રીય વિશ્લેષણની પસંદગી સાચો જવાબ નક્કી કરવાની ચાવી છે. નબળા અથવા ખોટા આંકડાશાસ્ત્રીય ધોરણો ખોટી ધારણાઓ તરફ દોરી જાય છે અને તેથી પુનરાવર્તનયોગ્ય પરિણામો તરફ દોરી શકે છે. ઉદાહરણ તરીકે, આંકડાશાસ્ત્રમાં સામાન્ય રીતે વપરાતો ખ્યાલ $\mathrm{P}$ મૂલ્ય છે જે પૂર્વધારણા માટે સમર્થનના પુરાવા તરીકે છે. $\mathrm{P}$ મૂલ્ય જેટલું નાનું, તેટલી વધુ સંભાવના છે કે પરીક્ષણનું પરિણામ મહત્વપૂર્ણ છે. 0.05 (95% મહત્વ) અથવા તેનાથી ઓછા P મૂલ્ય કટઓફને મહત્વપૂર્ણ ગણવામાં આવે છે. જોકે, 0.05 થ્રેશોલ્ડે વૈજ્ઞાનિક સાહિત્યમાં ઘણા બધા ખોટા પોઝિટિવ્સ દેખાવા માટે કારણભૂત બન્યું છે. તેથી, $P$ મૂલ્ય કટઓફ 0.05 ની ફરી તપાસ કરવાની જરૂર છે. નાના નમૂના કદ સાથે, ભ્રામક સરેરાશ અને પ્રમાણભૂત વિચલન સાથે વિઝ્યુલાઇઝેશનને વિકૃત કરવાને બદલે બધા સ્વતંત્ર ડેટા પોઇન્ટ્સ બતાવવાથી વ્યક્તિ વધુ સારી સ્થિતિમાં છે. આંકડાશાસ્ત્રીય શક્તિ જે વ્યક્તિ નકારાત્મક પરિણામનો સામનો કરતી વખતે ધ્યાનમાં લેવાનું શરૂ કરે છે તે પોઝિટિવ પરિણામોના કિસ્સામાં પણ ધ્યાનમાં લેવી જોઈએ. ચોક્કસ સ્થાપિત આંકડાશાસ્ત્રીય મોડલો અને વિતરણોની ધારણાઓ ખોટા પ્રકારના ડેટા માટે છે, તેથી, એક સામાન્ય દુરુપયોગ છે. ઉદાહરણ તરીકે, ગૌસિયન વિતરણની ધારણા બિનરેખીય ગતિશીલ પ્રણાલીઓ માટે, જે ખોટા પોઝિટિવ્સ તરફ દોરી જાય છે. અવાસ્તવિક પરિમાણ વજન સાથે બનાવેલ અસંતુલિત ગાણિતિક મોડલ્સ હજી પણ એક સામાન્ય દુરુપયોગ છે અને એક જે શોધવું મુશ્કેલ છે. આ ચેતવણીઓ પર યોગ્ય વિચારણા સાથે, ગણિત અને આંકડાશાસ્ત્રનો જીવવિજ્ઞાનમાં ઉપયોગ વધુ જટિલ જૈવિક સમસ્યાઓનો સામનો કરવા માટે અંતરશાસ્ત્રીય સ્વભાવના સંશોધનના નવા ક્ષેત્રો ખુલવા તરફ દોરી શકે છે.

9.2 પરિચય

બાયોઇન્ફોર્મેટિક્સ એક અંતરશાસ્ત્રીય ક્ષેત્ર છે જે જૈવિક સમસ્યાઓ ઉકેલવા માટે જૈવિક માહિતીના વિશ્લેષણમાં કોમ્પ્યુટેશનલ, ગાણિતિક, આંકડાશાસ્ત્રીય અને ક્યારેક, ઇજનેરી અભિગમોનો ઉપયોગ કરે છે (ફિગ. 9.2). આમ, બાયોઇન્ફોર્મેટિક્સ કોમ્પ્યુટર આધારિત સોફ્ટવેર અને ટૂલ્સનો ઉપયોગ કરીને જૈવિક ડેટાના સંગ્રહ, પુનઃપ્રાપ્તિ, વિશ્લેષણ અને અર્થઘટન સાથે વ્યવહાર કરે છે. જોકે તફાવતો છે, તે અન્ય શબ્દો જેમ કે ‘કોમ્પ્યુટેશનલ બાયોલોજી’, ‘મેથમેટિકલ બાયોલોજી’, ‘ક્વોન્ટિટેટિવ બાયોલોજી’ અને ‘બાયો-સ્ટેટિસ્ટિક્સ’ સાથે વૈકલ્પિક રીતે અને વિનિમયાત્મક રીતે વપરાય છે, તે પ્રભુત્વ ધરાવતા શાખાકીય ઘટકો પર આધારિત છે. જોકે, એ નોંધવું જોઈએ કે આ વ્યાખ્યાઓનો ઉપયોગ નિષ્ણાતો અને વ્યવસાયીઓમાં બદલાય છે, અને સમય સાથે બદલાયો છે.

ફિગ. 9.2: બાયોઇન્ફોર્મેટિક્સની અંતરશાસ્ત્રીય પ્રકૃતિ: કોમ્પ્યુટર વિજ્ઞાન, ગણિત, ઇજનેરી અને આંકડાશાસ્ત્ર જેવા એક અથવા વધુ અન્ય શિસ્તો સાથે જીવવિજ્ઞાનનું આંતરછેદ

9.2.1. ઐતિહાસિક પરિપ્રેક્ષ્ય

બાયોઇન્ફોર્મેટિક્સ ડેટા માઇનિંગ દ્વારા નવી શોધોની શોધમાં અને નવી પૂર્વધારણાની પેદાશમાં મદદ કરે છે. આ અણુ ડેટાના મોડેલિંગ અથવા વિશ્લેષણ દ્વારા કરવામાં આવે છે. મોટાભાગના બાયોઇન્ફોર્મેટિક્સ ટૂલ્સ ક્રમ અને સ્ટ્રક્ચર ડેટાબેઝમાંથી પહેલેથી અસ્તિત્વમાં રહેલા ન્યુક્લિઓટાઇડ અને પ્રોટીન ડેટાનો ઉપયોગ કરે છે, અથવા નેક્સ્ટ-જનરેશન સિક્વેન્સર્સ અને ડીએનએ માઇક્રોએરે જેવા હાઇથ્રુપુટ ઇન્સ્ટ્રુમેન્ટ્સનો ઉપયોગ કરીને જનરેટ થયેલ નવા ડેટાનો ઉપયોગ કરે છે. યુએસએમાં નેશનલ સેન્ટર ફોર બાયોટેક્નોલોજી ઇન્ફોર્મેશન (NCBI) બાયોઇન્ફોર્મેટિક્સ ટૂલ્સ અને સેવાઓ માટે સંસાધન તરીકે બનાવવામાં આવ્યું હતું. તેમાં ન્યુક્લિઓટાઇડ અને ગ્રંથસૂચિ ડેટાબેઝ હોય છે. જનબેંક, એક વ્યાપક રીતે વપરાતો ડેટાબેસ જે તમામ જાહેરમાં ઉપલબ્ધ ડીએનએ ક્રમ સંગ્રહિત કરે છે, 1982 માં શરૂ કરવામાં આવ્યો હતો. જોકે બાયોઇન્ફોર્મેટિક્સ શબ્દના વ્યાપક ઉપયોગ પહેલાં ઘણું પહેલાં પ્રચલિત હતું, પરંતુ 1991 સુધી તે સાહિત્યમાં દેખાવાનું શરૂ નહોતું થયું. માનવ જીનોમ પ્રોજેક્ટ લોન્ચ થયા પછી નામને વ્યાપક સ્વીકૃતિ મળી અને ક્રમ ડેટાના વિશ્લેષણ માટે બાયોઇન્ફોર્મેટિક્સ ટૂલ્સનો વ્યાપકપણે ઉપયોગ કરવામાં આવ્યો. તેથી, સાહિત્યમાં બાયોઇન્ફોર્મેટિક્સ શબ્દનો ઉપયોગ 30 વર્ષથી વધુ જૂનો નથી. બાયોટેક્નોલોજી અને કોમ્પ્યુટિંગ ટેક્નોલોજીમાં પ્રગતિ અને સુલભતા બાદ, પોસ્ટ જીનોમ સિક્વેન્સિંગ અને હાઇ-પર્ફોર્મન્સ કોમ્પ્યુટિંગ યુગમાં બાયોઇન્ફોર્મેટિક્સે વ્યાપક આકર્ષણ મેળવ્યું છે. આ પહેલાં, જ્યારે ઓછી થ્રુપુટ એસેઝ પર ધ્યાન કેન્દ્રિત કરવામાં આવ્યું હતું, જેમ કે એક જ જીનની ક્રિયાનો અભ્યાસ અથવા માઇક્રોસ્કોપ હેઠળ આકારવિજ્ઞાનનો અભ્યાસ, બાયોઇન્ફોર્મેટિક્સનો ઉપયોગ હજુ પણ થતો હતો પરંતુ નાના પાયા પર.

સ્ટ્રક્ચરલ બાયોઇન્ફોર્મેટિક્સ સિક્વેન્સિંગ અને ડીએનએ માઇક્રોએરે જેવા હાઇથ્રુપુટ જીનોમ-વ્યાપી એસેઝ પર આધારિત ઇન્ફોર્મેટિક્સ પહેલાં આવે છે. આ એટલા માટે કે 1900 ની શરૂઆતમાં એનએમઆર સ્પેક્ટ્રોસ્કોપી અને એક્સ-રે ક્રિસ્ટલોગ્રાફીનો ઉપયોગ કરીને પ્રોટીનની ત્રિ-પરિમાણીય રચનાઓ પરના અભ્યાસો, જીનોમ અને અન્ય -ઓમ ઇન્ફોર્મેટિક્સ કરતાં પહેલાંના છે જે માત્ર 2000 ની શરૂઆતમાં રજૂ કરવામાં આવ્યા હતા અને તારીખ સુધી ચાલુ છે. પ્રોટીન ડેટા બેંક (PDB) સ્ટ્રક્ચર્સ અને જનબેંક એન્ટ્રીઓની સંખ્યા દર વર્ષે વધી રહી છે. બાયોઇન્ફોર્મેટિક્સમાં પ્રાથમિક ચિંતા ક્રમ અને માળખાકીય ડેટાને ડેટાબેઝના રૂપમાં મેનેજ કરવાની છે, અને જૈવિક અર્થ મેળવવા માટે આ ડેટાબેઝમાંથી ડેટા માઇન કરવાની છે. NCBI વિવિધ શ્રેણીઓ (જીન, જીનોમ, સ્ટ્રક્ચર, સિક્વન્સ, વગેરે) હેઠળ ન્યુક્લિઓટાઇડ અને પ્રોટીન ડેટા હોસ્ટ કરે છે. હાલમાં, જૈવિક ડેટા, અભૂતપૂર્વ દરે ઉ