অধ্যায় ০৯ বায়োইনফরমেটিক্স পরিচিতি

৯.১ জৈবিক ব্যবস্থা ও প্রক্রিয়া বুঝতে প্রাথমিক গাণিতিক ও পরিসংখ্যানিক ধারণার উপযোগিতা

এই অধ্যায়ের উদ্দেশ্য হল আপনাকে জানানো কেন গণিত ও পরিসংখ্যানের মৌলিক ধারণাগুলো বোঝা একজন জীববিজ্ঞানীর জন্য গুরুত্বপূর্ণ।

যেকোনো জৈবিক পরীক্ষার ফলাফল হল তথ্য বা ডেটা। পূর্বে, জীববিজ্ঞানীরা অত্যাধুনিক সফটওয়্যার, গণনামূলক সরঞ্জাম এবং পরিসংখ্যানিক পরীক্ষা ছাড়াই ডেটা তৈরি ও বিশ্লেষণ করতেন। তবে এখন আর সেটা হয় না। হাই-থ্রুপুট ডিএনএ সিকোয়েন্সার, শক্তিশালী মাইক্রোস্কোপ এবং অন্যান্য ইমেজিং সিস্টেম, এবং বিপুল পরিমাণ ডেটা তৈরি করতে সক্ষম বিশ্লেষণাত্মক যন্ত্রপাতির আবির্ভাবের সাথে সাথে, জীববিজ্ঞানীরা আর তাদের নোটবুক এবং এক্সেল শীট ব্যবহার করে ডেটা নিয়ে কাজ করতে পারেন না। বরং, ডেটা হ্যান্ডেল করার জন্য তাদের গণনামূলক ও পরিসংখ্যানিক সরঞ্জামের প্রয়োজন হয়। বিপুল পরিমাণ ডেটার প্রায়ই জৈবিক অর্থ ব্যাখ্যা ও তৈরি করার জন্য পরিমাণগত বিশ্লেষণের প্রয়োজন হয়। এই ধরনের বিশ্লেষণ সম্পাদন করার জন্য একজনকে গণনামূলক ও পরিসংখ্যানিক ধারণার উপর ভালো ব্যবহারিক জ্ঞান থাকতে হয়, উদাহরণস্বরূপ; মেশিন লার্নিং প্রযুক্তি, রিগ্রেশন, ভ্যারিয়েন্স, এবং কোরিলেশন ইত্যাদি। গাণিতিক ও পরিসংখ্যানিক ধারণা কেবল জীববিজ্ঞানীদের তাদের ডেটা ব্যাখ্যা করতে সাহায্য করতে পারে এবং সঠিক প্রশ্ন জিজ্ঞাসা ও জৈবিক বিচক্ষণতার বিকল্প নয়। জীববিজ্ঞানে ব্যবহৃত কিছু সাধারণ পরিসংখ্যানিক পরিভাষার নাম বক্স ১-এ দেওয়া হয়েছে।

বক্স ১
বক্স ১: জীববিজ্ঞানে সাধারণভাবে ব্যবহৃত পরিসংখ্যানিক পরিভাষার শব্দকোষ
নাল হাইপোথিসিস- একটি বিবৃতি যা বলে দুটি পরিমাপিত ঘটনার মধ্যে কোনো সম্পর্ক নেই।
পরিসংখ্যানিক তাৎপর্য- একটি ফলাফলের পরিসংখ্যানিক তাৎপর্য থাকে যখন এটি ঘটার সম্ভাবনা অত্যন্ত কম।
p-মান- একটি গবেষণা প্রশ্নের নাল হাইপোথিসিস সত্য হলে পর্যবেক্ষিত ফলাফল পাওয়ার সম্ভাবনা।
t-টেস্ট- পরিসংখ্যানিক পরীক্ষার মাধ্যমে দুটি জনসংখ্যার গড়ের বিশ্লেষণ।
মাল্টিভেরিয়েট অ্যানালাইসিস: একাধিক চলকযুক্ত ডেটার বিশ্লেষণের জন্য ব্যবহৃত কৌশলসমূহের একটি সেট।
রিগ্রেশন অ্যানালাইসিস- একটি নির্ভরশীল ও একটি স্বাধীন চলকের মধ্যকার সম্পর্ক তদন্তের একটি কৌশল।
মাল্টিপল টেস্টিং করেকশন- একটি পরিসংখ্যানিক পরীক্ষা যা একাধিক পরীক্ষার জন্য সংশোধন করে সামগ্রিক ত্রুটি হার ব্যবহারকারী-নির্দিষ্ট P-মান কাটঅফের চেয়ে কম বা সমান রাখে।
অ্যানালাইসিস অফ ভ্যারিয়েন্স বা ANOVA- একটি নমুনায় গ্রুপ গড়গুলোর মধ্যে পার্থক্য বিশ্লেষণের জন্য ব্যবহৃত পরিসংখ্যানিক মডেলের একটি সংগ্রহ।

আসুন নির্দিষ্ট উদাহরণ দিয়ে পরীক্ষা করি যেখানে কম্পিউটিং ও পরিসংখ্যান উভয়ের জ্ঞান জৈবিক ঘটনাবলি ভালোভাবে বুঝতে সাহায্য করতে পারে। উদাহরণস্বরূপ, আমরা দশজন রোগীর (সারণী ৯.১) রক্তচাপ ও হৃদস্পন্দনের মধ্যে কোনো সংযোগ আছে কিনা তা বুঝতে চাই। নিচের সারণীতে প্রদত্ত হিসাবে, একটি সাধারণ দৃশ্যাত্মক অনুমান (চিত্র ৯.১) দুটি চলকের মধ্যকার সম্পর্ক (সহসম্পর্ক) সঠিকভাবে নির্ধারণের জন্য যথেষ্ট নয়। এর জন্য, একটি রিগ্রেশন লাইন আঁকতে হয়। কোরিলেশন ও রিগ্রেশন স্বতন্ত্র, তবুও সম্পর্কিত। কোরিলেশন পরিমাপ করে চলকগুলো কীভাবে সংযুক্ত, কিন্তু রিগ্রেশন দুই বা ততোধিক চলকের মধ্যে একটি পরিসংখ্যানিক সম্পর্ক সংজ্ঞায়িত করে যেখানে একটি চলকের পরিবর্তন অন্যটির পরিবর্তনের সাথে যুক্ত। অতএব, উপরের উদাহরণে একটি সাধারণ রিগ্রেশন পরীক্ষা আমাদের বলবে হৃদস্পন্দন ও রক্তচাপের মধ্যে সরাসরি সম্পর্ক আছে কিনা। একটি লিনিয়ার রিগ্রেশন বিশ্লেষণের আউটপুট হল $\mathrm{R}^{2}$-মান, একটি পরিসংখ্যানিক পরিমাপ যা দেখায় ডেটা ফিটেড রিগ্রেশন লাইনের কতটা কাছাকাছি। $R^{2}$ মানের পরিসর ০ (চলকগুলোর মধ্যে কোনো সহসম্পর্ক নেই) থেকে ১ (চলকগুলোর মধ্যে নিখুঁত সহসম্পর্ক) পর্যন্ত। চিত্র ৯.১-এ দেখানো হয়েছে, $R^{2}$ মানটি ইঙ্গিত করে যে দুটি চলকের মধ্যে একটি ভালো সহসম্পর্ক রয়েছে। অতএব, এই ক্ষেত্রে নাল হাইপোথিসিস প্রত্যাখ্যান করা হয়।

সারণী ৯.১: দশজন রোগীতে রেকর্ডকৃত হৃদস্পন্দন ও রক্তচাপ

রোগী	হৃদস্পন্দন	রক্তচাপ (সিস্টোলিক)
১	১১২	১৮৯
২	৮৩	১৪০
৩	৯২	১৫৩
৪	১২১	১৯২
৫	৮৫	১৪৭
৬	১১১	১৭৮
৭	৯৪	১৩৫
৮	৮৮	১৪৩
৯	১০২	১৭৭
১০	১১১	১৮৯

চিত্র ৯.১: একটি সরল রৈখিক রিগ্রেশন লাইনসহ দুটি চলকের মধ্যকার সহসম্পর্ক

জীববিজ্ঞানের অনেক ক্ষেত্রেই সম্ভাব্যতার একটি মৌলিক বোঝাপড়ার প্রয়োজন হয়। কোষীয় প্রক্রিয়ার মতো জটিল পদ্ধতিগত ঘটনাবলির গাণিতিক মডেলিং একজনকে সিস্টেমের গুরুত্বপূর্ণ প্যারামিটার ও তার গতিবিদ্যা বুঝতে দেয়। ফাইলোজেনেটিক পুনর্গঠন, পূর্বপুরুষের ক্রম নির্ধারণ এবং বিদ্যমান ক্রমগুলোর একটি গুচ্ছ থেকে বিবর্তনের হার মডেলিং করার জন্য সম্ভাব্যতার জ্ঞানের প্রয়োজন। জীববিজ্ঞানীদের একটি পরীক্ষা সম্পাদনের আগে পরিসংখ্যানিক বিষয়গুলো মাথায় রাখতে হয়। উদাহরণস্বরূপ, পরীক্ষার জন্য পর্যাপ্ত সংখ্যক নমুনা ও প্রতিলিপি, জৈবিক ও প্রযুক্তিগত উভয়ই, নির্বাচন করার জন্য পরিসংখ্যানের জ্ঞান প্রয়োজন। ফলাফলে আস্থা স্থাপন এবং জানার জন্য যে সেগুলো আসল নাকি ভুয়া, একটি পরীক্ষাকে একাধিকবার স্বাধীনভাবে পুনরাবৃত্তি করতে হয়। পরিসংখ্যানিক র্যান্ডমনেস ও বৃহৎ সংখ্যার সূত্রের উপর প্রয়োজনীয় পটভূমি একজনকে এই সমস্যা মোকাবিলায় সক্ষম করে। একটি বৃহৎ সংখ্যা থেকে র্যান্ডম স্যাম্পলিং পক্ষপাতদুষ্ট ফলাফল পাওয়ার সম্ভাবনা কমিয়ে দেয়। জীববিজ্ঞানীকে নিশ্চিত করতে হয় যে ফলাফলগুলো পরিসংখ্যানিকভাবে তাৎপর্যপূর্ণ। এই ধাপটির জন্য বিভিন্ন পরীক্ষা ও পরিসংখ্যানিক তাৎপর্যের পরিমাপের সাথে পরিচিতি এবং প্রশ্নে থাকা সমস্যার জন্য সঠিক পরীক্ষা(সমূহ) প্রয়োগ করার প্রয়োজন হয়। সমস্যার উপর নির্ভর করে, জীববিজ্ঞানীকে একাধিক পরীক্ষার জন্য তাৎপর্যের পরিমাপ সংশোধন ও সমন্বয় করতে হতে পারে।

উচ্চতর স্তরের কম্পিউটিং, বিশ্লেষণ, এবং দৃশ্যায়নের জন্য, একজন জীববিজ্ঞানী অন্তর্নির্মিত ফ্রেমওয়ার্ক ব্যবহার করতে পারেন। যেমন MATLAB (বাণিজ্যিক) এবং R (ওপেন সোর্স) ইত্যাদি।

জীববিজ্ঞানীদের জন্য, ব্যবহৃত পরিসংখ্যানিক বিশ্লেষণের পছন্দ হল সঠিক উত্তর নির্ধারণের চাবিকাঠি। একটি দুর্বল বা ভুল পরিসংখ্যানিক মান ভুল অনুমানের দিকে নিয়ে যায় এবং তাই অপ্রতিলিপিযোগ্য ফলাফলের দিকে নিয়ে যেতে পারে। উদাহরণস্বরূপ, পরিসংখ্যানে সাধারণভাবে ব্যবহৃত ধারণা হল $\mathrm{P}$ মান একটি হাইপোথিসিসের সমর্থনের প্রমাণ হিসাবে। $\mathrm{P}$ মান যত ছোট, পরীক্ষার ফলাফল তত বেশি সম্ভাব্য তাৎপর্যপূর্ণ। ০.০৫ (৯৫% তাৎপর্য) বা তার কম P মান কাটঅফকে তাৎপর্যপূর্ণ বিবেচনা করা হয়। তবে, ০.০৫ থ্রেশহোল্ড বৈজ্ঞানিক সাহিত্যে অনেক বেশি মিথ্যা ধনাত্মক ফলাফল উপস্থিত হওয়ার কারণ হয়েছে। অতএব, $P$ মানের ০.০৫ কাটঅফ পুনরায় পরীক্ষা করা প্রয়োজন। ছোট নমুনার আকারের ক্ষেত্রে, একটি ভ্রান্তিকর গড় ও স্ট্যান্ডার্ড ডেভিয়েশন দিয়ে দৃশ্যায়ন বিকৃত করার চেয়ে সমস্ত স্বাধীন ডেটা পয়েন্ট দেখানো ভালো। নেতিবাচক ফলাফলের মুখোমুখি হলে একজন যে পরিসংখ্যানিক শক্তি বিবেচনা করা শুরু করে, তা ধনাত্মক ফলাফলের ক্ষেত্রেও বিবেচনা করা উচিত। তাই, ভুল ধরনের ডেটায় কিছু প্রতিষ্ঠিত পরিসংখ্যানিক মডেল ও বন্টনের অনুমান করা একটি সাধারণ অপব্যবহার। উদাহরণস্বরূপ, অরৈখিক গতিশীল সিস্টেমে গাউসিয়ান বন্টনের অনুমান, যা মিথ্যা ধনাত্মক ফলাফলের দিকে নিয়ে যায়। অবাস্তব প্যারামিটার ওজন দিয়ে তৈরি ভারসাম্যহীন গাণিতিক মডেল হল আরেকটি সাধারণ অপব্যবহার এবং যা সনাক্ত করা কঠিন। এই সতর্কতাগুলোর যথাযথ বিবেচনার সাথে, জীববিজ্ঞানে গণিত ও পরিসংখ্যান প্রয়োগ আরও জটিল জৈবিক সমস্যা মোকাবিলার জন্য আন্তঃশাস্ত্রীয় প্রকৃতির গবেষণার নতুন ক্ষেত্র খুলে দিতে পারে।

৯.২ পরিচিতি

বায়োইনফরমেটিক্স হল একটি আন্তঃশাস্ত্রীয় ক্ষেত্র যা জৈবিক সমস্যা সমাধানের জন্য জৈবিক তথ্য বিশ্লেষণে কম্পিউটেশনাল, গাণিতিক, পরিসংখ্যানিক এবং মাঝে মাঝে, প্রকৌশল পদ্ধতি ব্যবহার করে (চিত্র ৯.২)। এইভাবে, বায়োইনফরমেটিক্স কম্পিউটার ভিত্তিক সফটওয়্যার ও সরঞ্জাম ব্যবহার করে জৈবিক ডেটার সংরক্ষণ, পুনরুদ্ধার, বিশ্লেষণ ও ব্যাখ্যার সাথে সম্পর্কিত। যদিও পার্থক্য রয়েছে, এটি পর্যায়ক্রমে ও বিনিময়যোগ্যভাবে অন্যান্য পরিভাষা যেমন ‘কম্পিউটেশনাল বায়োলজি,’ ‘ম্যাথমেটিক্যাল বায়োলজি,’ ‘কোয়ান্টিটেটিভ বায়োলজি’ এবং ‘বায়ো-স্ট্যাটিস্টিক্স’ এর সাথে ব্যবহার করা হয়, প্রাধান্য বিস্তারকারী শাস্ত্রীয় উপাদানগুলোর উপর নির্ভর করে। তবে, এটি লক্ষ্য করা আবশ্যক যে এই সংজ্ঞাগুলোর ব্যবহার বিশেষজ্ঞ ও অনুশীলনকারীদের মধ্যে ভিন্ন হয়, এবং সময়ের সাথে পরিবর্তিত হয়েছে।

চিত্র ৯.২: বায়োইনফরমেটিক্সের আন্তঃশাস্ত্রীয় প্রকৃতি: কম্পিউটার বিজ্ঞান, গণিত, প্রকৌশল, এবং পরিসংখ্যানের মতো এক বা একাধিক অন্যান্য শাস্ত্রের সাথে জীববিজ্ঞানের ছেদ

৯.২.১. ঐতিহাসিক দৃষ্টিকোণ

বায়োইনফরমেটিক্স ডেটা মাইনিং এর পাশাপাশি নতুন হাইপোথিসিস তৈরিতে নতুন আবিষ্কারে সাহায্য করে। এটি আণবিক ডেটার মডেলিং বা বিশ্লেষণের মাধ্যমে করা হয়। বেশিরভাগ বায়োইনফরমেটিক্স সরঞ্জাম হয় পূর্ববিদ্যমান নিউক্লিওটাইড ও প্রোটিন ডেটা সিকোয়েন্স ও গঠন ডাটাবেস থেকে ব্যবহার করে, অথবা নেক্সট-জেনারেশন সিকোয়েন্সার ও ডিএনএ মাইক্রোঅ্যারের মতো হাই-থ্রুপুট যন্ত্র ব্যবহার করে তৈরি নতুন ডেটা ব্যবহার করে। যুক্তরাষ্ট্রে ন্যাশনাল সেন্টার ফর বায়োটেকনোলজি ইনফরমেশন (NCBI) বায়োইনফরমেটিক্স সরঞ্জাম ও সেবার একটি সম্পদ হিসাবে তৈরি করা হয়েছিল। এতে নিউক্লিওটাইড ও গ্রন্থপঞ্জি ডাটাবেস রয়েছে। জিনব্যাংক, একটি বহুল ব্যবহৃত ডাটাবেস যা সমস্ত প্রকাশ্যে উপলব্ধ ডিএনএ সিকোয়েন্স সংরক্ষণ করে, ১৯৮২ সালে চালু হয়েছিল। যদিও এই পরিভাষার ব্যাপক ব্যবহারের অনেক আগেই বায়োইনফরমেটিক্স চর্চা করা হত, ১৯৯১ সাল পর্যন্ত নয় যখন এটি সাহিত্যে উপস্থিত হতে শুরু করে। মানব জিনোম প্রকল্প চালু হওয়ার পর নামটি ব্যাপক গ্রহণযোগ্যতা পায় এবং বায়োইনফরমেটিক্স সরঞ্জাম ব্যাপকভাবে সিকোয়েন্স ডেটা বিশ্লেষণের জন্য ব্যবহৃত হয়। অতএব, সাহিত্যে বায়োইনফরমেটিক্স পরিভাষার ব্যবহার ৩০ বছরের বেশি পুরনো নয়। জিনোম সিকোয়েন্সিং ও হাই-পারফরম্যান্স কম্পিউটিং যুগের পরে, বায়োটেকনোলজি ও কম্পিউটিং প্রযুক্তিতে অগ্রগতি ও প্রবেশাধিকারের পর, বায়োইনফরমেটিক্স ব্যাপক আকর্ষণ লাভ করেছে। এর আগে, যখন নিম্ন থ্রুপুট অ্যাসে-এর উপর ফোকাস ছিল, যেমন একটি একক জিনের ক্রিয়া অধ্যয়ন বা মাইক্রোস্কোপের নিচে মরফোলজি অধ্যয়ন, তখনও বায়োইনফরমেটিক্স ব্যবহৃত হত কিন্তু ছোট পরিসরে।

স্ট্রাকচারাল বায়োইনফরমেটিক্স সিকোয়েন্সিং ও ডিএনএ মাইক্রোঅ্যারের মতো হাই-থ্রুপুট জিনোম-ওয়াইড অ্যাসে-ভিত্তিক ইনফরমেটিক্সের আগে আসে। এর কারণ হল ১৯০০-এর দশকের গোড়ার দিকে NMR স্পেকট্রোস্কোপি ও এক্স-রে ক্রিস্টালোগ্রাফি ব্যবহার করে প্রোটিনের ত্রিমাত্রিক গঠন নিয়ে গবেষণা, যা ২০০০-এর দশকের গোড়ার দিকে চালু হওয়া জিনোম ও অন্যান্য -ওম ইনফরমেটিক্সের আগের ঘটনা এবং এখনও পর্যন্ত চলছে। প্রোটিন ডেটা ব্যাংক (PDB) গঠন ও জিনব্যাংক এন্ট্রির সংখ্যা প্রতি বছর বাড়ছে। বায়োইনফরমেটিক্সের প্রাথমিক উদ্বেগ হল ডাটাবেসের আকারে সিকোয়েন্স ও গঠনগত ডেটা পরিচালনা করা, এবং এই ডাটাবেস থেকে ডেটা মাইনিং করে জৈবিক অর্থ পাওয়া। NCBI বিভিন্ন বিভাগে (জিন, জিনোম, গঠন, সিকোয়েন্স ইত্যাদি) নিউক্লিওটাইড ও প্রোটিন ডেটা হোস্ট করে। বর্তমানে, অভূতপূর্ব হারে উৎপাদিত জৈবিক ডেটা, এবং তাদের বিশ্লেষণ ও ব্যাখ্যার সাথে সাথে গুরুত্বপূর্ণ জৈবিক অন্তর্দৃষ্টির দিকে নিয়ে যাওয়া উচ্চতর অগ্রাধিকার পেয়েছে। এটি অর্জনের জন্য নতুন, অপ্টিমাইজড ও উন্নত অ্যালগরিদম ও সরঞ্জাম পরিসংখ্যানিক অভিযোজন ও একাধিক ক্ষেত্রের সংশ্লেষণ সহ উন্নয়ন ও বাস্তবায়ন করা হয়। আণবিক পথ, জিন এক্সপ্রেশন, প্রোটিন গঠন ও কার্য, ইন্টারঅ্যাকশন নেটওয়ার্ক, রোগ-সংযুক্ত পরিবর্তন, জীবের নির্দিষ্টতা ও নিয়ন্ত্রক নেটওয়ার্কের মতো দ্বিতীয় ও তৃতীয় স্তরের তথ্যের উপর ভিত্তি করে ডাটাবেস তখন থেকে তৈরি ও ব্যবহৃত হয়েছে। বায়োইনফরমেটিক্স একটি বিবর্তনশীল ক্ষেত্র। জৈবিক ডেটার গতিশীল প্রকৃতির কারণে, জিন ও এক্সন-ইনট্রন সীমানা, সিকোয়েন্সে দূষণ ও অসঙ্গতি, ইন সিলিকো ট্রান্সলেশন ত্রুটি যেমন ফ্রেমশিফট ত্রুটি, অ্যানোটেশন ত্রুটি, অ্যাসেম্বলি ত্রুটি, এবং সাধারণ বানান ভুল ক্রমাগত আপডেট করা হচ্ছে।

আমরা এখন বিভিন্ন ধরনের জৈবিক অণু, এই কৌশলগুলো দ্বারা উৎপাদিত ডেটার প্রকার, এবং ডেটা ব্যাখ্যা ও দৃশ্যায়নের জন্য সাধারণভাবে ব্যবহৃত বিশ্লেষণাত্মক ও পরিসংখ্যানিক ওয়ার্কফ্লো সম্পর্কে জানব (চিত্র ৯.৩)। জিনোমিক ডেটা উৎপাদনের জন্য ব্যবহৃত পরীক্ষামূলক কৌশলের বিস্তারিত বিবরণ ইউনিট V-এ বর্ণিত আছে।

চিত্র ৯.৩. জৈব অণু থেকে কার্য পর্যন্ত

৯.২.২. জৈব অণু বিশ্লেষণের জন্য পরীক্ষামূলক প্রযুক্তির প্রকার

জৈব অণু শনাক্তকরণ ও/অথবা পরিমাপের জন্য ব্যবহৃত কিছু গুরুত্বপূর্ণ পরীক্ষামূলক প্রযুক্তি সারণী ৯.২-এ দেওয়া হয়েছে। এই কৌশলগুলোর কিছু বিবরণ ইউনিট V-এ বর্ণিত আছে।

সারণী ৯.২: প্রযুক্তির নাম, পরীক্ষিত জৈব অণু এবং প্রযুক্তির উদ্দেশ্য

প্রযুক্তি	জৈব অণু	উদ্দেশ্য
PCR (পলিমারেজ চেইন রিঅ্যাকশন)	DNA	আগ্রহের একটি অঞ্চল প্রশস্তকরণ
RT (রিয়েল-টাইম)-PCR/qPCR (কোয়ান্টিটেটিভ PCR)	RNA	RNA এক্সপ্রেশন শনাক্তকরণ
নেক্সট-জেনারেশন সিকোয়েন্সিং	DNA/RNA	জিন/জিনোম এবং RNA সিকোয়েন্স করা
জেল ইলেক্ট্রোফোরেসিস	DNA, RNA এবং প্রোটিন	আকার ও চার্জের ভিত্তিতে খণ্ডের পৃথকীকরণ
HPLC (হাই-পারফরম্যান্স লিকুইড ক্রোমাটোগ্রাফি)	মেটাবোলাইট	মেটাবোলাইটের পৃথকীকরণ, শনাক্তকরণ ও পরিমাপ
MS (মাস স্পেকট্রোমেট্রি)	DNA, প্রোটিন, মেটাবোলাইট	খণ্ডীকরণ, আইসোটোপিক গঠন পরিমাপ ও ভর নির্ধারণ
EM (ইলেকট্রন মাইক্রোস্কোপ)	DNA, RNA বা প্রোটিন	গঠন, এবং সিকোয়েন্স নির্ধারণ

৯.২.৩ আণবিক ডেটার প্রকার

বিভিন্ন প্রযুক্তি বিভিন্ন জৈব অণু পরীক্ষা করে এবং বিভিন্ন ফরম্যাটে বিভিন্ন ধরনের ডেটা আউটপুট উৎপন্ন করে (সারণী ৯.৩)। সাধারণভাবে ব্যবহৃত দুটি DNA ডেটা ফরম্যাট (FASTQ এবং FASTA) এর বিবরণ অধ্যায়ের পরে দেওয়া হয়েছে (জিনোম ইনফরমেটিক্স)।

৯.২.৪ সাধারণভাবে ব্যবহৃত বিশ্লেষণাত্মক ও পরিসংখ্যানিক ওয়ার্কফ্লো

ওপেন সোর্স বা অন্যান্য মালিকানাধীন সরঞ্জাম বাস্তবায়নের জন্য জৈবিক জ্ঞান আবশ্যক নাও হতে পারে। তবে, এই অধ্যায়ের শুরুতে উল্লিখিত হিসাবে প্রাসঙ্গিক প্রশ্ন জিজ্ঞাসা ও জৈবিক ফলাফল ব্যাখ্যার জন্য এটি আবশ্যক। যেকোনো সরঞ্জামের কার্যপ্রণালীর পিছনের যুক্তি ও নীতি বুঝতে হবে এবং অন্তর্নিহিত অনুমান সম্পর্কে সচেতন থাকতে হবে।

সারণী ৯.৩: আণবিক ডেটার প্রকার ও তাদের ফরম্যাট

কিছু সাধারণভাবে ব্যবহৃত বিশ্লেষণ সরঞ্জাম নিম্নরূপ:

হোমোলজি সার্চ (বেসিক লোকাল অ্যালাইনমেন্ট সার্চ টুল (BLAST) - blastn, blastp)
সিকোয়েন্স অ্যালাইনমেন্ট (CLUSTAL, MAFFT, MUSCLE)
ফাইলোজেনেটিক্স (PHYLIP, PAUP)
জিন প্রেডিকশন (GlimmerHMM, GenScan)
ফাংশনাল হোমোলজি সার্চ (HMMER)
RNA স্ট্রাকচার (mfold, sFold, uniFold)
রেগুলেটরি রিজিয়ন অ্যানালাইসিস (MatInspector, BEARR, RSAT)
প্রোটিন স্ট্রাকচার (Phyre2, Jpred)

বায়োইনফরমেটিক্স সরঞ্জাম বিভিন্ন পরিসংখ্যানিক ও গণনামূলক অ্যালগরিদম ও পদ্ধতি ব্যবহার করে। কিছু সাধারণভাবে ব্যবহৃত পরিসংখ্যানিক প্যাকেজ হল:

স্ট্যাটিস্টিক্যাল প্যাকেজ ফর দ্য সোশ্যাল সায়েন্সেস (SPSS)
স্ট্যাটিস্টিক্যাল অ্যানালাইসিস সিস্টেম (SAS)
$\mathrm{R}$
মাইক্রোসফট এক্সেল

জৈবিক ডেটা বিশ্লেষণের চূড়ান্ত পর্যায়ে, জিন ও প্রোটিন স্তরের ফলাফল কিছু কার্যের সাথে যুক্ত করা হয়। এই কার্যকরী ব্যাখ্যা সাধারণভাবে ব্যবহৃত জৈবিক পরীক্ষা যেমন লস- অর গেইন-অফ ফাংশন অ্যাসে, জিন নকআউট ও জিন এডিটিং ব্যবহার করে করা যেতে পারে। অতিরিক্তভাবে, গণনামূলক সরঞ্জাম ব্যবহার করে প্রভাবিত নেটওয়ার্ক ও পথ অনুমান করে, একজন একটি জিন ও তার প্রোটিন উৎপাদকে কার্যকরী তাৎপর্য দিতে পারে।

৯.৩ জৈবিক ডাটাবেস

একটি জৈবিক ডাটাবেস হল একটি ভাণ্ডার যা জৈবিক ডেটার একটি সংগঠিত, কাঠামোগত ও অনুসন্ধানযোগ্য সংগ্রহ ধারণ করে। অন্য কথায়, এটি জৈবিক তথ্যের একটি লাইব্রেরি, সহজে প্রবেশযোগ্য ও অনুসন্ধানযোগ্য। একটি জৈবিক ডাটাবেস সমস্ত প্রাসঙ্গিক ডেটাকে তাদের মূল স্রষ্টা বা অন্তর্নিহিত ডেটা বর্ণনাকারী একটি রেফারেন্সের সাথে সংযুক্ত করে। একটি ডাটাবেসের তথ্য পরীক্ষা ও গণনামূলক পদ্ধতির মাধ্যমে সংগ্রহ করা হয়। উদাহরণস্বরূপ, মানুষের জিনের একটি ডাটাবেসে সমস্ত জিনের প্রকৃত নিউক্লিওটাইড ক্রম ও তাদের বৈশিষ্ট্য উভয়ই থাকে। ডাটাবেসটি তৈরি হতে পারে বিভিন্ন পাবলিক সম্পদ থেকে তথ্য সংগ্রহকারী গবেষকদের একটি একক দল দ্বারা অথবা একক ভাণ্ডারে ডেটা যোগ করতে পারে এমন একাধিক গবেষক দল দ্বারা। একটি জৈবিক ডাটাবেস শুধুমাত্র এক ধরনের তথ্য সংরক্ষণ করতে পারে, উদাহরণস্বরূপ, DNA সিকোয়েন্স তথ্য, অথবা একাধিক ধরনের তথ্য সংরক্ষণ করতে পারে, উদাহরণস্বরূপ, একটি জিনের প্রাথমিক নিউক্লিওটাইড ক্রম; একটি রোগের জন্য নির্দিষ্ট একটি প্রদত্ত জিনে মিউটেশন এবং বিভিন্ন জনসংখ্যায় সিঙ্গেল নিউক্লিওটাইড পলিমরফিজম (SNP) এর ফ্রিকোয়েন্সি; জিনগুলোর অনূদিত প্রোটিন ক্রম, প্রোটিন ও ডোমেইনের 3D গঠন, এবং একটি প্রোটিনের অন্যান্যদের সাথে কার্যকরী মিথস্ক্রিয়া। একটি ভালো জৈবিক ডাটাবেসের বৈশিষ্ট্য হল যা প্রবেশ ও ব্যবহার করা সহজ, একটি ব্যবহারকারী-বান্ধব ইন্টারফেস আছে, চমৎকার ডকুমেন্টেশন আছে, ব্যবহারকারীদের যেকোনো প্রশ্নের উত্তর দিতে পারে এমন সহায়তা কর্মী আছে, অন্তর্নিহিত ডেটায় ত্রুটি নেই, ক্রস-রেফারেন্সড, এবং প্রাথমিক উৎস আপডেট হওয়ার সাথে সাথে ক্রমাগত তথ্য আপডেট করে। প্রধানত দুই ধরনের ডাটাবেস আছে, রিলেশনাল ও নন-রিলেশনাল। ডাটাবেস পরিচালনা করা হয় ডাটাবেস ম্যানেজমেন্ট সিস্টেম (DBMS) নামক একটি সফটওয়্যার সিস্টেম ব্যবহার করে যা ডেটা ম্যানিপুলেট, পুনরুদ্ধার ও পরিচালনা করতে ব্যবহৃত হয়। স্ট্রাকচার্ড কুয়েরি ল্যাঙ্গুয়েজ (SQL) হল একটি রিলেশনাল ডাটাবেসের জন্য স্ট্যান্ডার্ড অ্যাপ্লিকেশন প্রোগ্রাম ইন্টারফেস। একটি নন-রিলেশনাল বা NoSQL ডাটাবেস রিলেশনাল ডাটাবেসের ক্রম অনুসরণ করে না এবং বড় সেটের বিতরণকৃত ও অকাঠামোগত ডেটার জন্য ব্যবহৃত হয়।

৯.৩.১ একটি জৈবিক ডাটাবেসের প্রয়োজনীয়তা কী?

কল্পনা করুন যখন আপনি আপনার স্কুল লাইব্রেরিতে ঢুকেন এবং লাইব্রেরিয়ানকে একটি বই সম্পর্কে জিজ্ঞাসা করেন। লাইব্রেরিয়ানকে যদি শারীরিকভাবে সব শেলফে হেঁটে বইটি খুঁজতে হয়? এটি সময় নেবে, এবং কোনো গ্যারান্টি নেই যে লাইব্রেরিয়ান বইটি শেলফে পাবেন। বরং, যদি লাইব্রেরিয়ান কম্পিউটার ব্যবহার করে বইটির শিরোনাম ধারণকারী একটি কীওয়ার্ড বা লেখক বা উভয় ব্যবহার করে সমস্ত বই সংরক্ষণকারী একটি ডাটাবেসে অনুসন্ধান করে বইটি খুঁজে, কাজটি অনেক সহজ হয়ে যায়। এই কারণেই আমাদের ডাটাবেসের প্রয়োজন, অনুসন্ধান প্রক্রিয়াটি সহজ ও ভুলপ্রমাণ করতে। বইয়ের লাইব্রেরির মতো নয় যেখানে শারীরিক বস্তু যা খোলা চোখে দেখা যায়, উদাহরণস্বরূপ, বই, নিউক্লিওটাইড ক্রম বা জিন বা প্রোটিন গঠন অতি ক্ষুদ্র এবং শারীরিকভাবে অনুসন্ধান করা যায় না। অতএব, তথ্যটিকে এনকোড করে একটি মেশিন-পাঠযোগ্য ফরম্যাটে একটি ডাটাবেসে সংরক্ষণ করতে হবে যা ব্যবহারকারী ইন্টারফেস ব্যবহার করে সহজেই অনুসন্ধান করা যায়। জৈবিক ডেটার, বিশেষ করে বিভিন্ন জীবের জিনোম ডেটা তাদের কার্য ও মিথস্ক্রিয়ার পাশাপাশি, ব্যতিক্রমী বৃদ্ধির সাথে সাথে, ডাটাবেসে জৈবিক তথ্য সংরক্ষণ করা অপরিহার্য হয়ে উঠেছে।

কিছু সাধারণভাবে ব্যবহৃত জৈবিক ডাটাবেস হল-

জিনব্যাংক (https:/www.ncbi.nlm.nih.gov/genbank/): অ্যানোটেটেড প্রকাশ্যে উপলব্ধ DNA সিকোয়েন্সের একটি সংগ্রহ।
PDB (https:/www.wwpdb.org): প্রোটিন, নিউক্লিক অ্যাসিড, এবং জটিল সমাবেশের 3D গঠনের একটি সংগ্রহ।
ইউনিপ্রোট (https:/www.uniprot.org): প্রোটিন সিকোয়েন্স ও কার্যের একটি সংগ্রহ।
পাবমেড (https:/www.ncbi.nlm.nih.gov/pubmed/): বায়োমেডিকাল সাহিত্যের একটি সংগ্রহ।
KEGG (https:/www.kegg.jp): জৈবিক পথ, রোগ, ওষুধ, এবং রাসায়নিক পদার্থের একটি সংগ্রহ।
OMIM (https:/www.omim.org): মানুষের জিন ও জিনগত রোগের একটি ক্যাটালগ।

উপরেরগুলোর পাশাপাশি, জীব-নির্দিষ্ট, রোগ-নির্দিষ্ট ও মাধ্যমিক ডাটাবেস রয়েছে এবং জীববিজ্ঞানীরা নিয়মিতভাবে ব্যবহার করেন।

৯.৩.২ ডেটা দৃশ্যায়ন

জৈবিক ডেটা দৃশ্যায়ন বায়োইনফরমেটিক্সের একটি অপরিহার্য দিক। এটি গ্রাফিক্স ও ডেটা উপস্থাপনার প্রয়োগ জড়িত এবং ক্রম, জিনোম, অ্যালাইনমেন্ট, ফাইলোজেনি, ম্যাক্রোমলিকুলার গঠন, মাইক্রোস্কোপি, এবং অন্যান্য ইমেজিং তথ্য অন্তর্ভুক্ত করে। ডেটা দৃশ্যায়ন সরঞ্জাম ও তাদের ব্যবহারের কিছু উদাহরণ সারণী ৯.৪-এ দেওয়া হয়েছে।

সারণী ৯.৪. ডেটা দৃশ্যায়ন সরঞ্জাম ও তাদের ব্যবহার

দৃশ্যায়ন সরঞ্জাম	ব্যবহার
UCSC জিনোম ব্রাউজার
(https://genome.ucsc.edu/)	মেরুদণ্ডী ও অমেরুদণ্ডী প্রজাতির উপর ম্যাক্রো- ও মাইক্রো-লেভেল জিনোম তথ্য দৃশ্যায়নের জন্য একটি অনলাইন ইন্টারেক্টিভ ওয়েবসাইট।
KEGG(http://www.genome.jp/kegg/pathway.html) বায়োকার্টা (http://www.biocarta.com) রিঅ্যাক্টোম (https://reactome.org/)	পথের দৃশ্যায়ন।
CIRCOS (circos.ca/)	বৃত্তাকার লেআউটে ডেটা দৃশ্যায়ন।
EXCEL	হিস্টোগ্রাম, স্ক্যাটার প্লট, বাবল চার্ট, হিট ম্যাপ
R (https://www.r-project.org/)	পরিসংখ্যানিক কম্পিউটিং ও গ্রাফিক্স তৈরি করার জন্য একটি সফটওয়্যার পরিবেশ।
D3.js (https://d3js.org/)	ওয়েব ব্রাউজারে গতিশীল, ইন্টারেক্টিভ ডেটা ভিজুয়ালাইজেশন তৈরি করার জন্য একটি জাভাস্ক্রিপ্ট লাইব্রেরি।
ফিঞ্চ (phinch.org/)	জৈবিক ডেটা ভিজুয়ালাইজ করার জন্য একটি ইন্টারেক্টিভ, অন্বেষণমূলক ফ্রেমওয়ার্ক।
ইন্টিগ্রেটিভ জিনোমিক্স ভিউয়ার (IGV, http://software. broadinstitute.org/software/igv/)	বড়, সমন্বিত জিনোমিক ডেটাসেটের ইন্টারেক্টিভ অন্বেষণের জন্য একটি দৃশ্যায়ন সরঞ্জাম।

৯.৪ জিনোম ইনফরমেটিক্স

জিনোম

জিনোম হল একটি জীবের DNA-এর সম্পূর্ণ সেট, যার মধ্যে এর জিন ও ইন্টারজেনিক অঞ্চল অন্তর্ভুক্ত। জিনোমিক্স হল বিজ্ঞানের