باب 09 بایو انفارمیٹکس کا تعارف
9.1 حیاتیاتی نظام اور عمل کو سمجھنے کے لیے بنیادی ریاضیاتی اور اعدادوشمار کے تصورات کی افادیت
اس باب کا مقصد یہ ہے کہ آپ کو یہ بتایا جائے کہ ریاضی اور شماریات کے بنیادی تصورات کی سمجھ ایک حیاتیاتی ماہر کے لیے کیوں ضروری ہے۔
کسی بھی حیاتیاتی تجربے کا نتیجہ ڈیٹا ہوتا ہے۔ پہلے حیاتیاتی ماہرین نتائج کو پیدا اور تجزیہ کرنے کے لیے جدید سافٹ ویئر، کمپیوٹیشنل ٹولز اور شماریاتی تجربات کی مدد کے بغیر کرتے تھے۔ تاہم، اب ایسا نہیں ہے۔ اعلیٰ تھروپٹ ڈی این اے سیکوئنسروں، طاقتور مائکروسکوپس، دیگر امیجنگ سسٹمز اور تجزیاتی آلات جیسے آلات کی آمد کے ساتھ جو بڑی مقدار میں ڈیٹا پیدا کرنے کے قابل ہیں، حیاتیاتی ماہرین اب نوٹ بکس اور ایکسل شیٹس کے ذریعے ڈیٹا سے نمٹ نہیں سکتے۔ اس کے بجائے، انہیں ڈیٹا کو سنبھالنے کے لیے کمپیوٹیشنل اور شماریاتی ٹولز کی ضرورت ہوتی ہے۔ بڑی مقدار میں ڈیٹا اکثر مقداری تجزیے کی متقاضی ہوتی ہے تاکہ اس کی تشریح کی جا سکے اور حیاتیاتی معنی پیدا کیے جا سکیں۔ ایسے تجزیے انجام دینے کے لیے کمپیوٹیشنل اور شماریاتی تصورات کی اچھی کام کرنے والی معلومات کی ضرورت ہوتی ہے، مثلاً؛ مشین لرننگ ٹیکنالوجیز، ریگریشن، ویرینس، اور کوریلیشن وغیرہ۔ ریاضیاتی اور شماریاتی تصورات صرف حیاتیاتی ماہرین کو ان کے ڈیٹا کی تشریح میں مدد کرتے ہیں اور صحیح سوالات پوچھنے اور حیاتیاتی فہم کی جگہ نہیں لیتے۔ باکس 1 میں حیاتیات میں استعمال ہونے والے کچھ عام شماریاتی اصطلاحات کے نام دیے گئے ہیں۔
Box 1
Box 1: حیاتیات میں استعمال ہونے والی عام شماریاتی اصطلاحات کی لغت
نل ہائپوتھیسس- ایک بیان کہ دو ماپے گئے مظاہر کے درمیان کوئی تعلق نہیں ہے۔
شماریاتی اہمیت- ایک نتیجہ جب شماریاتی اہمیت رکھتا ہے جب یہ بہت کم امکان کے ساتھ رونما ہوا ہو۔
p-value- مطالعے کے سوال کی نل ہائپوتھیسس کے سچ ہونے پر مشاہدہ شدہ نتائج کو تلاش کرنے کی امید۔
t-test- شماریاتی جائزے کے استعمال کے ذریعے دو آبادیوں کے اوسط کا تجزیہ۔
ملٹی ویرایٹ تجزیہ: ایک ایسی تکنیکوں کا مجموعہ جو ڈیٹا کے تجزیے کے لیے استعمال کیا جاتا ہے جس میں ایک سے زیادہ متغیر ہوتے ہیں۔
ریگریشن تجزیہ- ایک ایسی تکنیک جو ایک منحصر اور ایک آزاد متغیر کے درمیان تعلق کی تحقیق کرتی ہے۔
ملٹیپل ٹیسٹنگ کی درستگی- ایک شماریاتی تجربہ جو متعدد تجربات کے لیے درستگی کرتا ہے تاکہ مجموعی غلطی کی شرح کو صارف کے مقرر کردہ P-value کٹ آف سے کم یا برابر رکھا جا سکے۔
ویرینس کا تجزیہ یا ANOVA- شماریاتی ماڈلز کا مجموعہ جو نمونے میں گروپ اوسط کے درمیان فرق کا تجزیہ کرنے کے لیے استعمال کیا جاتا ہے۔
آئیے مخصوص مثالوں کے ساتھ دیکھتے ہیں کہ کمپیوٹنگ اور شماریات کی معلومات حیاتیاتی مظاہر کو بہتر طور پر سمجھنے میں کیسے مدد کر سکتی ہے۔ مثال کے طور پر، ہم دس مریضوں میں بلڈ پریشر اور دل کی دھڑکن کے درمیان تعلق، اگر کوئی ہو، کو سمجھنا چاہتے ہیں (ٹیبل 9.1)۔ جیسا کہ نیچے دی گئی ٹیبل میں فراہم کیا گیا ہے، ایک سادہ بصری اندازہ (Fig.9.1) دونوں متغیرات کے درمیان تعلق (کوریلیشن) کو درست طریقے سے طے کرنے کے لیے کافی نہیں ہے۔ اس کے لیے، ایک ریگریشن لائن کھینچنے کی ضرورت ہوتی ہے۔ کوریلیشن اور ریگریشن علیحدہ ہیں، پھر بھی ایک دوسرے سے متعلق ہیں۔ کوریلیشن یہ مقدار باندھتا ہے کہ متغیرات کس طرح جڑے ہوئے ہیں، لیکن ریگریشن دو یا دو سے زیادہ متغیرات کے درمیان ایک شماریاتی تعلق کی وضاحت کرتا ہے جہاں ایک متغیر میں تبدیلی دوسرے میں تبدیلی سے جڑی ہوتی ہے۔ لہٰذا، اوپر دی گئی مثال میں ایک سادہ ریگریشن ٹیسٹ یہ بتائے گا کہ دل کی دھڑکن اور بلڈ پریشر کے درمیان کوئی براہ راست تعلق ہے یا نہیں۔ لکیری ریگریشن تجزیے کا نتیجہ $\mathrm{R}^{2}$-value ہے، ایک شماریاتی پیمانہ جو یہ ظاہر کرنے کے لیے استعمال ہوتا ہے کہ ڈیٹا فٹ کی گئی ریگریشن لائن کے کتنا قریب ہے۔ $R^{2}$ value 0 (متغیرات کے درمیان کوئی کوریلیشن نہیں) اور 1 (متغیرات کے درمیان مکمل کوریلیشن) کے درمیان ہوتا ہے۔ جیسا کہ Fig. 9.1 میں دکھایا گیا ہے، $R^{2}$ value اس بات کی نشاندہی کرتا ہے کہ دونوں متغیرات کے درمیان اچھی کوریلیشن ہے۔ لہٰذا، اس صورت میں نل ہائپوتھیسس کو مسترد کر دیا جاتا ہے۔
ٹیبل 9.1: دس مریضوں میں ریکارڈ کی گئی دل کی دھڑکن اور بلڈ پریشر
| مریض | دل کی دھڑکن | بلڈ پریشر (سسٹولک) |
|---|---|---|
| 1 | 112 | 189 |
| 2 | 83 | 140 |
| 3 | 92 | 153 |
| 4 | 121 | 192 |
| 5 | 85 | 147 |
| 6 | 111 | 178 |
| 7 | 94 | 135 |
| 8 | 88 | 143 |
| 9 | 102 | 177 |
| 10 | 111 | 189 |

Fig. 9.1: دو متغیرات کے درمیان تعلق ایک سادہ لکیری ریگریشن لائن کے ساتھ
حیاتیات کے بہت سے میدانوں کو احتمال کی بنیادی سمجھ کی ضرورت ہوتی ہے۔ سیلولر میکانزم جیسے پیچیدہ نظام کے مظاہر کی ریاضیاتی ماڈلنگ سسٹم کے اہم پیرامیٹرز اور اس کی کائنےٹکس کو سمجھنے کی اجازت دیتی ہے۔ فائلو جینیٹک تعمیرِ نو، آبائی ترتیبات کا تعین اور موجودہ ترتیبات کے ایک جھنڈے سے ارتقاء کی شرح کی ماڈلنگ کو احتمال کی معلومات کی ضرورت ہوتی ہے۔ حیاتیاتی ماہرین کو تجربہ انجام دینے سے پہلے شماریاتی مسائل کو ذہن میں رکھنے کی ضرورت ہوتی ہے۔ مثال کے طور پر، تجربے کے لیے نمونوں اور نقلوں کی مناسب تعداد، دونوں حیاتیاتی اور تکنیکی، کا انتخاب شماریات کی معلومات کی متقاضی ہوتا ہے۔ ایک تجربہ کو نتائج پر اعتماد کو یقینی بنانے اور یہ جاننے کے لیے کہ وہ حقیقی ہیں یا جعلی، متعدد بار آزادانہ طور پر دہرانا چاہیے۔ شماریاتی بے ترتیبی اور بڑی تعداد کے قانون میں ضروری پس منڈ حاصل کرنا اس مسئلے سے نمٹنے کے لیے لیس کرتا ہے۔ بڑی تعداد سے بے ترتیب نمونہ لینے سے تعصب زدہ نتائج حاصل کرنے کا امکان کم ہو جاتا ہے۔ حیاتیاتی ماہر کو یہ یقینی بنانے کی ضرورت ہوتی ہے کہ نتائج شماریاتی طور پر اہم ہیں۔ یہ قدم مختلف تجربات اور شماریاتی اہمیت کے پیمانوں سے واقفیت اور سوال کے لیے صحیح تجربہ(وں) کو لاگو کرنے کی متقاضی ہوتا ہے۔ مسئلے پر منحصر، حیاتیاتی ماہر کو متعدد تجربات کے لیے اہمیت کے پیمانے کو درست اور ایڈجسٹ کرنا پڑ سکتا ہے۔
اعلیٰ سطح کے کمپیوٹنگ، تجزیے اور وژولائزیشن کے لیے، حیاتیاتی ماہر بلٹ ان فریم ورکس استعمال کر سکتے ہیں۔ جیسے MATLAB (کمرشل) اور R (اوپن سورس)، وغیرہ۔
حیاتیاتی ماہر کے لیے استعمال شدہ شماریاتی تجزیے کا انتخاب صحیح جواب کا تعین کرنے کے لیے کلیدی ہوتا ہے۔ کمزور یا غلط شماریاتی معیارات جھوٹے مفروضوں کی طرف لے جاتے ہیں اور اس لیے ناقابلِ تکرار نتائج کی طرف لے جا سکتے ہیں۔ مثال کے طور پر، شماریات میں عام استعمال ہونے والا تصور $\mathrm{P}$ value ہے جو کسی ہائپوتھیسس کے لیے ثبوت کے طور پر استعمال ہوتا ہے۔ $\mathrm{P}$ value جتنا چھوٹا ہوگا، اتنا ہی زیادہ امکان ہے کہ تجربے کا نتیجہ اہم ہو۔ P value کا کٹ آف 0.05 (95% اہمیت) یا کم کو اہم سمجھا جاتا ہے۔ تاہم، 0.05 کی حد نے سائنسی ادبیات میں بہت سے جھوٹے مثبت نتائج کو جنم دیا ہے۔ لہٰذا، $P$ value کا کٹ آف 0.05 کو دوبارہ پرکھنے کی ضرورت ہے۔ چھوٹے نمونہ سائز کے ساتھ، کوئی بہتر ہے کہ تمام آزاد ڈیٹا پوائنٹس کو دکھائے بجائے اس کے کہ بصری نمائش کو گمراہ کن اوسط اور معیاری انحراف سے مسخ کرے۔ شماریاتی طاقت جس پر غور کیا جاتا ہے جب منفی نتیجے کا سامنا ہوتا ہے، اسے مثبت نتائج کے معاملے میں بھی غور کیا جانا چاہیے۔ کچھ قائم شدہ شماریاتی ماڈلز اور تقسیمات کے فرضیات کو غلط قسم کے ڈیٹا پر لاگو کرنا، اس لیے ایک عام غلط استعمال ہے۔ مثال کے طور پر، غیر لکیری ڈائنامک سسٹمز پر گوسیئن تقسیم کا فرض، جس کے نتیجے میں جھوٹے مثبت نتائج آتے ہیں۔ غیر متوازن ریاضیاتی ماڈلز جو غیر حقیقی پیرامیٹر وزن کے ساتھ تعمیر کیے گئے ہیں، یہ ایک اور عام غلط استعمال ہے اور ایک ایسا جسے پکڑنا مشکل ہوتا ہے۔ ان احتیاطی تدابیر پر غور کے ساتھ، حیاتیات پر ریاضی اور شماریات کا اطلاق نئی تحقیق کے میدانوں کو کھولنے کی طرف لے جا سکتا ہے جو مزید پیچیدہ حیاتیاتی مسائل سے نمٹنے کے لیے بین شعبہ جاتی نوعیت کے ہیں۔
9.2 تعارف
بایو انفارمیٹکس ایک بین شعبہ جاتی میدان ہے جو حیاتیاتی معلومات کے تجزیے کے لیے کمپیوٹیشنل، ریاضیاتی، شماریاتی اور بعض اوقات انجینئرنگ کے طریقوں کو استعمال کرتا ہے تاکہ حیاتیاتی مسائل کو حل کیا جا سکے (Fig. 9.2)۔ اس طرح، بایو انفارمیٹکس کمپیوٹر پر مبنی سافٹ ویئر اور ٹولز کا استعمال کرتے ہوئے حیاتیاتی ڈیٹا کے ذخیرے، بازیافت، تجزیے اور تشریح سے معاملہ کرتی ہے۔ اگرچہ فرق ہیں، یہ متبادل اور قابلِ تبادلہ طور پر دیگر اصطلاحات جیسے ‘کمپیوٹیشنل بایولوجی،’ ‘ریاضیاتی بایولوجی،’ ‘مقداری بایولوجی’ اور ‘بایو-شماریات’ کے ساتھ استعمال ہوتی ہے، غالب شعبہ جاتی اجزاء پر منحصر ہوتی ہے۔ تاہم، یہ نوٹ کیا جانا چاہیے کہ ان تعریفات کا استعمال ماہرین اور ماہرین کے درمیان مختلف ہوتا ہے، اور وقت کے ساتھ بدل چکا ہے۔

Fig. 9.2: بایو انفارمیٹکس کی بین شعبہ جاتی نوعیت: کمپیوٹر سائنس، ریاضی، انجینئرنگ، اور شماریات جیسے ایک یا زیادہ دیگر شعبہ جات کے ساتھ بایولوجی کا تقاطع
9.2.1. تاریخی تناظر
بایو انفارمیٹکس ڈیٹا مائننگ کے ساتھ ساتھ نئی ہائپوتھیسس کی تخلیق کے ذریعے نئی دریافتوں میں مدد دیتی ہے۔ یہ مالیکیولر ڈیٹا کی ماڈلنگ یا تجزیے کے ذریعے کیا جاتا ہے۔ زیادہ تر بایو انفارمیٹکس ٹولز یا تو ترتیب اور ساخت کے ڈیٹا بیسز سے پہلے سے موجود نیوکلیوٹائڈ اور پروٹین ڈیٹا استعمال کرتے ہیں، یا نئی تخلیق شدہ ڈیٹا استعمال کرتے ہیں جو اعلیٰ تھروپٹ آلات جیسے نئی نسل کے سیکوئنسروں اور ڈی این اے مائکروارے کے ذریعے پیدا کی گئی ہے۔ امریکہ میں نیشنل سینٹر فار بایوٹیکنالوجی انفارمیشن (NCBI) بایو انفارمیٹکس ٹولز اور خدمات کے لیے ایک وسیلہ کے طور پر تخلیق کیا گیا تھا۔ یہ نیوکلیوٹائڈ اور ببلائیوگرافک ڈیٹا بیسز کو ہاؤس کرتا ہے۔ GenBank، ایک وسیع استعمال شدہ ڈیٹا بیس تمام عوامی طور پر دستیاب ڈی این اے ترتیبات کو محفوظ کرتا ہے، 1982 میں لانچ کیا گیا تھا۔ اگرچہ بایو انفارمیٹکس کو وسیع استعمال سے پہلے ہی عمل میں لایا گیا تھا، یہ 1991 تک نہیں تھا جب یہ ادبیات میں ظاہر ہونا شروع ہوا۔ یہ نام انسانی جینوم منصوبے کے آغاز کے بعد وسیع قبولیت حاصل کرنے لگا اور بایو انفارمیٹکس ٹولز کو ترتیب کے ڈیٹا کے تجزیے کے لیے وسیع پیمانے پر استعمال کیا گیا۔ اس لیے، ادبیات میں بایو انفارمیٹکس کے استعمال کی عمر 30 سال سے زیادہ نہیں ہے۔ بایو انفارمیٹکس نے جینوم سیکوئنسنگ اور اعلیٰ کارکردگی کمپیوٹنگ کے دور میں وسیع توجہ حاصل کی ہے، بایوٹیکنالوجی اور کمپیوٹنگ ٹیکنالوجی میں ترقی اور قابلِ رسائی کے بعد۔ اس سے پہلے، جب توجہ کم تھروپٹ تجربات پر تھی، جیسے کہ ایک واحد جین کی کارروائی کا مطالعہ یا مائکروسکوپ کے تحت مورفولوجی کا مطالعہ، بایو انفارمیٹکس اب بھی استعمال ہوتی تھی لیکن چھوٹے پیمانے پر۔
اسٹرکچرل بایو انفارمیٹکس اعلیٰ تھروپٹ جینوم وسیع تجربات جیسے سیکوئنسنگ اور ڈی این اے مائکروارے پر مبنی انفارمیٹکس سے پہلے آتی ہے۔ یہ اس لیے ہے کہ ابتدائی 1900 کی دہائی میں NMR اسپیکٹروسکپی اور X-ray کرسٹالوگرافی کا استعمال کرتے ہوئے پروٹین کی سہ جہتی ساختوں پر مطالعات، جینوم اور دیگر -ome انفارمیٹکس سے پہلے ہیں جو صرف ابتدائی 2000 میں متعارف ہوئے اور آج تک جاری ہیں۔ پروٹین ڈیٹا بینک (PDB) ساختوں اور GenBank اندراجات کی تعداد ہر سال بڑھ رہی ہے۔ بایو انفارمیٹکس میں بنیادی تشویش ترتیب اور ساختی ڈیٹا کو ڈیٹا بیسز کی شکل میں منظم کرنا اور ان ڈیٹا بیسز سے ڈیٹا مائننگ کر کے حیاتیاتی معانی حاصل کرنا ہے۔ NCBI نیوکلیوٹائڈ اور پروٹین ڈیٹا کو مختلف زمرہ جات (جین، جینوم، ساخت، ترتیب، وغیرہ) کے تحت ہوسٹ کرتا ہے۔ فی الحال، حیاتیاتی ڈیٹا، جو غیر معمولی شرح پر پیدا ہوتا ہے، اور ان کے تجزیے اور تشریح کے ساتھ ساتھ اہم حیاتیاتی بصیرتوں کی طرف لے جانے کو زیادہ ترجیح دی گئی ہے۔ نئے، بہتر اور اعلیٰ الگورتھمز اور ٹولز جو شماریاتی موافقت اور متعدد شعبہ جات سے ترکیب رکھتے ہیں، اسے حاصل کرنے کے لیے تیار اور نافذ کیے گئے ہیں۔ ثانوی اور ثالثی سطح کی معلومات پر مبنی ڈیٹا بیسز جیسے کہ مالیکیولر پاتھ وے، جین ایکسپریشن، پروٹین ساخت اور فنکشن، انٹرایکشن نیٹ ورکس، بیماری سے منسلک تبدیلیاں، جاندار کی مخصوصیت اور ریگولیٹری نیٹ ورکز اس کے بعد سے تیار اور استعمال کیے گئے ہیں۔ بایو انفارمیٹکس ایک evolving میدان ہے۔ حیاتیاتی ڈیٹا کی متحرک نوعیت کی وجہ سے، جین اور ایکزون-انٹرون بارڈرز، آلودگی اور ترتیبات میں تضادات، in silico ترجمہ کی غلطیاں جیسے فریم شفٹ کی غلطیاں، تشریح کی غلطیاں، اسمبلی کی غلطیاں، اور سادہ ہجے کی غلطیاں مسلسل اپ ڈیٹ کی جا رہی ہیں۔
اب ہم مختلف قسم کے حیاتیاتی مالیکیولز، ان تکنیکوں کے ذریعے پیدا کیے گئے ڈیٹا کی اقسام، اور ڈیٹا کی تشریح اور وژولائزیشن کے لیے عام استعمال ہونے والے تجزیاتی اور شماریاتی ورک فلوز کے بارے میں سیکھیں گے (Fig. 9.3)۔ جینومک ڈیٹا کی پیداوار کے لیے استعمال ہونے والی تجرباتی تکنیکوں کی تفصیلات یونٹ V میں بیان کی گئی ہیں۔

Fig. 9.3. بایومالیکیولز سے فنکشن تک
9.2.2. بایومالیکیولز کے تجزیے کے لیے تجرباتی ٹیکنالوجیوں کی اقسام
بایومالیکیولز کی شناخت اور/یا مقدار کے لیے استعمال ہونے والی چند اہم تجرباتی ٹیکنالوجیوں کو ٹیبل 9.2 میں دیا گیا ہے۔ ان میں سے کچھ تکنیکوں کی تفصیلات یونٹ V میں بیان کی گئی ہیں۔
ٹیبل 9.2: ٹیکنالوجی کا نام، بایومالیکیول کا تجزیہ اور ٹیکنالوجی کا مقصد
| ٹیکنالوجی | بایومالیکیول | مقصد |
|---|---|---|
| PCR (Polymerase Chain Reaction) | DNA | دلچسپی کے علاقے کو بڑھانا |
| RT (Real-Time)-PCR/qPCR (quantitative PCR) | RNA | RNA ایکسپریشن کا پتہ لگانا |
| Next-generation sequencing | DNA/RNA | جینز/جینومز اور RNA کو سیکوئنس کرنا |
| Gel electrophoresis | DNA, RNA اور Proteins | سائز اور چارج کی بنیاد پر ٹکڑوں کو علیحدہ کرنا |
| HPLC (High-performance Liquid Chromatography) | میٹابولائٹس | میٹابولائٹس کو علیحدہ، شناخت اور مقدار بندی کرنا |
| MS (Mass spectrometry) | DNA, proteins, metabolites, | ٹکڑوں کو توڑنا، آئسوٹوپک کمپوزیشن اور ماس کا تعین کرنا |
| EM (Electron microscope) | DNA, RNA یا protein | ساخت، اور ترتیب کا تعین کرنا |
9.2.3 مالیکیولر ڈیٹا کی اقسام
مختلف ٹیکنالوجیاں مختلف بایومالیکیولز کا تجزیہ کرتی ہیں اور مختلف قسم کے ڈیٹا آؤٹ پٹ کو مختلف فارمیٹس میں پیدا کرتی ہیں (ٹیبل 9.3)۔ دو عام استعمال شدہ DNA ڈیٹا فارمیٹس (FASTQ اور FASTA) کی وضاحتیں بعد میں باب میں فراہم کی گئی ہیں (جینوم انفارمیٹکس)۔
9.2.4 عام استعمال ہونے والے تجزیاتی اور شماریاتی ورک فلوز
حیاتیاتی علم کھلے ذریعے یا دیگر مالکانہ ٹولز کے نفاذ کے لیے ضروری ہو سکتا ہے یا نہیں۔ تاہم، اس باب کے آغاز میں ذکر کیا گیا ہے کہ متعلقہ سوالات پوچھنے اور حیاتیاتی نتائج کی تشریح کے لیے یہ ضروری ہے۔ کسی بھی ٹول کے کام کرنے کے پیچھے منطق اور اصول کو سمجھنا ضروری ہے، اور اس کے کام کرنے کے پیچھے فرضیات سے آگاہ ہونا ضروری ہے۔
ٹیبل 9.3: مالیکیولر ڈیٹا کی اقسام اور ان کے فارمیٹس

کچھ عام استعمال ہونے والے تجزیاتی ٹولز درج ذیل ہیں:
ہومولوجی سرچ (Basic Local Alignment Search Tool (BLAST) - blastn, blastp)
ترتیب کی سیدھ (CLUSTAL, MAFFT, MUSCLE)
فائلو جینیٹکس (PHYLIP, PAUP)
جین کی پیشن گوئی (GlimmerHMM, GenScan)
فنکشنل ہومولوجی سرچ (HMMER)
RNA ساخت (mfold, sFold, uniFold)
ریگولیٹری علاقے کا تجزیہ (MatInspector, BEARR, RSAT)
پروٹین ساخت (Phyre2, Jpred)
بایو انفارمیٹکس ٹولز مختلف شماریاتی اور کمپیوٹیشنل الگورتھمز اور طریقوں کا استعمال کرتے ہیں۔ کچھ عام استعمال ہونے والے شماریاتی پیکیجز درج ذیل ہیں:
Statistical Package for the Social Sciences (SPSS)
Statistical Analysis System (SAS)
$\mathrm{R}$
Microsoft Excel
حیاتیاتی ڈیٹا تجزیے کے آخری مراحل میں، جین اور پروٹین سطح کی دریافتوں کو کچھ افعال سے جوڑا جاتا ہے۔ ان فنکشنل تشریحات کو عام استعمال ہونے والے حیاتیاتی تجربات جیسے کہ نقصان یا فنکشن کا حصول، جین knockouts اور جین ایڈیٹنگ کا استعمال کرتے ہوئے کیا جا سکتا ہے۔ اس کے علاوہ، کمپیوٹیشنل ٹولز کا استعمال کرتے ہوئے متاثرہ نیٹ ورکس اور پاتھ وے کا اندازہ لگا کر، کسی جین اور اس کے پروٹین پراڈکٹ کو فنکشنل اہمیت دی جا سکتی ہے۔
9.3 حیاتیاتی ڈیٹا بیسز
حیاتیاتی ڈیٹا بیس ایک ذخیرہ ہے جو حیاتیاتی ڈیٹا کا منظم، ساخت یافتہ اور قابلِ تلاش مجموعہ رکھتا ہے۔ دوسرے لفظوں میں، یہ حیاتیاتی معلومات کی ایک لائبریری ہے، جس تک آسانی سے رسائی اور تلاش ممکن ہے۔ حیاتیاتی ڈیٹا بیس تمام متعلقہ ڈیٹا کو ان کے اصل خالقین یا کسی حوالے سے جو بنیادی ڈیٹا کی وضاحت کرتا ہے، سے جوڑتا ہے۔ ڈیٹا بیس میں معلومات تجربات اور کمپیوٹیشنل طریقوں کے ذریعے جمع کی جاتی ہیں۔ مثال کے طور پر، انسانی جینز کا ڈیٹا بیس تمام جینز کی اصل نیوکلیوٹائڈ ترتیب اور ان کی خصوصیات دونوں کو رکھتا ہے۔ ڈیٹا بیس ایک واحد محققین کے گروپ کے ذریعے مختلف عوامی وسائل سے معلومات جمع کر کے یا متعدد محققین کی ٹیموں کے ذریعے جو ایک واحد ذخیرے میں ڈیٹا شامل کر سکتے ہیں، بنایا جا سکتا ہے۔ حیاتیاتی ڈیٹا بیس صرف ایک قسم کی معلومات، مثال کے طور پر، DNA ترتیب کی معلومات، یا متعدد قسم کی معلومات، مثال کے طور پر، کسی جین کی ابتدائی نیوکلیوٹائڈ ترتیب؛ کسی دی گئی جین میں کسی بیماری کے لیے مخصوص تبدیلی اور مختلف آبادی میں سنگل نیوکلیوٹائڈ پولیمرفزم (SNP) کی شرح؛ جینز کی ترجمہ شدہ پروٹین ترتیب، پروٹین اور ڈومینز کی 3D ساختیں، اور ایک پروٹین کا دوسرے کے ساتھ فنکشنل انٹرایکشن، کو محفوظ کر سکتا ہے۔ ایک اچھی حیاتیاتی ڈیٹا بیس کی خصوصیات یہ ہیں کہ یہ استعمال میں آسان اور قابلِ رسائی ہو، صارف دوست انٹرفیس رکھتی ہو، بہترین دستاویزات رکھتی ہو، اس کے صارفین سے کسی بھی سوال کا جواب دینے کے لیے سپورٹ عملہ رکھتی ہو، بنیادی ڈیٹا میں غلطیوں سے پاک ہو، کراس ریفرنس شدہ ہو، اور بنیادی ذریعہ اپ ڈیٹ ہونے پر معلومات کو مسلسل اپ ڈیٹ کرتی رہے۔ دو اہم قسم کے ڈیٹا بیسز ہیں، ریلیشنل اور نان-ریلیشنل۔ ڈیٹا بیسز کو ایک سافٹ ویئر سسٹم جسے ڈیٹا بیس مینجمنٹ سسٹم (DBMS) کہا جاتا ہے، کے ذریعے منظم کیا جاتا ہے جو ڈیٹا کو منظم کرنے، بازیافت کرنے اور سنبھالنے کے لیے استعمال ہوتا ہے۔ سٹرکچرڈ کوئری لینگویج (SQL) ریلیشنل ڈیٹا بیس کے لیے معیاری ایپلیکیشن پروگرام انٹرفیس ہے۔ نان-ریلیشنل یا NoSQL ڈیٹا بیس ریلیشنل ڈیٹا بیس کے حکم کی پیروی نہیں کرتی اور بڑے سیٹس کے لیے استعمال ہوتی ہے جو تقسیم شدہ اور غیر ساختہ ڈیٹا رکھتی ہے۔
9.3.1 حیاتیاتی ڈیٹا بیس کی ضرورت کیا ہے؟
تصور کریں کہ جب آپ اپنی اسکول لائبریری میں داخل ہوتے ہیں اور لائبریرین سے کسی کتاب کے بارے میں پوچھتے ہیں۔ اگر لائبریرین کو جسمانی طور پر تمام شیلفوں پر چل کر کتاب کو تلاش کرنا پڑے تو کیا ہوگا؟ اس میں وقت لگے گا، اور اس بات کی کوئی ضمانت نہیں ہے کہ لائبریرین کتاب کو شیلف پر تلاش کر لے گا۔ اس کے بجائے، اگر لائبریرین کمپیوٹر کا استعمال کرتے ہوئے کتاب کے عنوان یا مصنف یا دونوں پر مشتمل کلیدی لفظ کا استعمال کرتے ہوئے کتاب کو تلاش کرنے کے لیے ڈیٹا بیس کو تلاش کرے، تو کام بہت آسان ہو جاتا ہے۔ یہی وجہ ہے کہ ہمیں ڈیٹا بیسز کی ضرورت ہے، تلاش کے عمل کو آسان اور یقینی بنانے کے لیے۔ کتابوں کی لائبریری کے برعکس جہاں جسمانی اشیاء جیسے کہ کتابیں آنکھوں سے دیکھی جا سکتی ہیں، نیوکلیوٹائڈ ترتیب یا جینز یا پروٹین ساختیں بہت چھوٹی ہوتی ہیں اور جسمانی طور پر تلاش نہیں کی جا سکتیں۔ اس لیے، معلومات کو انکوڈ کر کے اور مشین قابلِ پڑھ فارمیٹ میں ڈیٹا بیس میں محفوظ کیا جانا ضروری ہے جسے صارف انٹرفیس کا استعمال کرتے ہوئے آسانی سے تلاش کیا جا سکتا ہے۔ حیاتیاتی ڈیٹا کی نمائشی نمو کے ساتھ، خاص طور پر مختلف جانداروں سے جینوم ڈیٹا کے ساتھ ساتھ ان کے افعال اور انٹرایکشنز، حیاتیاتی معلومات کو ڈیٹا بیسز میں محفوظ کرنا لازم ہو گیا ہے۔
کچھ عام استعمال ہونے والے حیاتیاتی ڈیٹا بیسز درج ذیل ہیں-
GenBank (https:/www.ncbi.nlm.nih.gov/genbank/): تشریح شدہ عوامی طور پر دستیاب DNA ترتیبات کا مجموعہ۔
PDB (https:/www.wwpdb.org): پروٹین، نیوکلیک ایسڈز، اور کمپلیکس اسمبلیاں کی 3D ساختوں کا مجموعہ۔
UniProt (https:/www.uniprot.org): پروٹین ترتیبات اور فنکشن کا مجموعہ۔
PubMed (https:/www.ncbi.nlm.nih.gov/pubmed/): بایو میڈیکل لٹریچر کا مجموعہ۔
KEGG (https:/www.kegg.jp): حیاتیاتی پاتھ وے، بیماریاں، ادویات، اور کیمیکل مادوں کا مجموعہ۔
OMIM (https:/www.omim.org): انسانی جینز اور جینیاتی خرابیوں کی فہرست۔
اوپر کے علاوہ، جاندار مخصوص، بیماری مخصوص اور ثانوی ڈیٹا بیسز بھی ہیں جو حیاتیاتی ماہرین کی طرف سے معمول کے طور پر استعمال کیے جاتے ہیں۔
9.3.2 ڈیٹا وژولائزیشن
حیاتیاتی ڈیٹا وژولائزیشن بایو انفارمیٹکس کا ایک ضروری پہلو ہے۔ اس میں گرافکس اور ڈیٹا کی نمائندگی کا اطلاق شامل ہے اور ترتیبات، جینومز، سیدھ، فائلو جینیز، میکرو مالیکیولر ساختوں، مائکروسکوپی، اور دیگر امیجنگ معلومات کو شامل کرتا ہے۔ ڈیٹا وژولائزیشن ٹولز اور ان کے استعمال کی چند مثالیں ٹیبل 9.4 میں فراہم کی گئی ہیں۔
ٹیبل 9.4. ڈیٹا وژولائزیشن ٹولز اور ان کے استعمال
| وژولائزیشن ٹول | استعمال |
|---|---|
| UCSC Genome browser | |
| (https://genome.ucsc.edu/) | ریڑھ دار اور بغیر ریڑھ کے جانداروں پر میکرو اور مائکرو سطح کی جینوم معلومات کو وژولائز کرنے کے لیے ایک آن لائن انٹرایکٹو ویب سائٹ۔ |
| KEGG(http://www.genome.jp/kegg/pathway.html) Biocarta (http://www.biocarta.com) Reactome (https://reactome.org/) | پاتھ وے کی وژولائزیشن۔ |
| CIRCOS (circos.ca/) | سرکلر لے آؤٹ میں ڈیٹا کی وژولائزیشن۔ |
| EXCEL | ہسٹوگرام، سکٹر پلاٹس، ببل چارٹس، ہیٹ میپس |
| R (https://www.r-project.org/) | شماریاتی کمپیوٹنگ اور گرافکس پیدا کرنے کے لیے ایک سافٹ ویئر ماحول۔ |
| D3.js (https://d3js.org/) | ویب براؤزرز میں متحرک، انٹرایکٹو ڈیٹا وژولائزیشن پیدا کرنے کے لیے ایک جاوا اسکرپٹ لائبریری۔ |
| Phinch (phinch.org/) | حیاتیاتی ڈیٹا کو وژولائز کرنے کے لیے ایک انٹرایکٹو، تلاشی فریم ورک۔ |
| Integrative Genomics Viewer (IGV, http://software. broadinstitute.org/software/igv/) | بڑے، مربوط جینومک ڈیٹا سیٹس کی انٹرایکٹو تلاش کے لیے ایک وژولائزیشن ٹول۔ |
9.4 جینوم انفارمیٹکس
جینوم
جینوم کسی جاندار کا DNA کا مکمل سیٹ ہے، بشمول اس کے جینز اور انٹرجینک علاقے۔ جینومکس سائنس کا ایک میدان ہے جو جینومز کی ساخت، فنکشن، ارتقاء، نقشہ بندی، اور ترمیم سے معاملہ کرتا ہے۔ جینوم انفارمیٹکس بایو انفارمیٹکس ٹولز کا اطلاق ہے جو جینوم وسیع تجربات اور ٹیکنالوجیوں کے آؤٹ پٹ کو پراسیس کرنے کے لیے ہوتا ہے، ڈیٹا کی تشریح میں مدد کرتا ہے اور انہیں فنکشن سے جوڑتا ہے۔ جینومکس omics فیلڈز میں سے ایک ہے (دیگر عام استعمال ہونے والے اصطلاحات ٹرانسکرپٹومکس، پروٹومکس، میٹابولومکس ہیں) جو گزشتہ دہائی میں تیزی سے evolve ہوا ہے۔
جینوم معلومات اعلیٰ تھروپٹ طریقوں یا تجربات کے ذریعے حاصل کی جاتی ہے جو آلات کا استعمال کرتے ہوئے DNA/RNA نیوکلیوٹائڈ ترتیب، جینومز میں تغیرات، جین ایکسپریشن میں تبدیلیاں، ریگولیٹری پروٹین کے DNA/RNA سے بائنڈنگ پروفائلز، اور DNA/RNA میتھیلیشن اور مختلف دیگر پروفائل تبدیلیوں پر معلومات فراہم کرتے ہیں۔ ان طریقوں کی تفصیلات یونٹ V میں فراہم کی گئی ہیں۔ اعلیٰ تھروپٹ کا اصطلاح اس عمل سے متعلق ہے جو ایک نمایاں مقدار میں ڈیٹا پیدا کرتا ہے۔ جینوم سیکوئنسنگ کے ذریعے پیدا ہونے والا ڈیٹا کافی ہوتا ہے۔ بطور مثال، اگر آپ کے ذاتی کمپیوٹر میں 1TB ہارڈ ڈسک کی جگہ ہے، تو دنیا کے کچھ بڑے جینوم سینٹرز جیسے کہ MIT اور ہارورڈ کے براڈ انسٹی ٹیوٹ روزانہ اتنا جینوم ڈیٹا پیدا کرتے ہیں جتنا $24 \mathrm{~TB}$ (ابتدائی 2018 کے مطابق)۔ یہ تقریباً 5000 ذاتی کمپیوٹرز کے برابر سالانہ ڈیٹا ہے (یہ سمجھتے ہوئے کہ سال میں 200 کام کرنے والے دن ہیں)۔ اگرچہ براڈ جیسے بہت سے بڑے جینوم انسٹی ٹیوٹس نہیں ہیں، یہ آپ کو آج پیدا ہونے والے جینوم ڈیٹا کے حجم کا اندازہ دیتا ہے۔ درحقیقت، یہ قیاس کیا جاتا ہے کہ جینوم ڈیٹا کو سنبھالنے کے لیے کمپیوٹنگ وسائل Twitter اور YouTube ڈیٹا کو پراسیس کرنے میں شامل ہونے والے وسائل سے تجاوز کر جائیں گے۔ جیسا کہ ڈیٹا کی مقدار نمایاں ہے، جینوم ڈیٹا کو کمپیوٹر سائنس، انفارمیشن ٹیکنالوجی، مقداری طریقوں اور تجزیات، اور شماریات کی طاقت کی ضرورت ہوتی ہے تاکہ بنیادی پیچیدگی، پیٹرنز اور معانی کو سمجھا جا سکے۔
9.4.1 انسانی جینوم منصوبہ
انسانی خلیوں میں مکمل نیوکلیوٹائڈ مواد کو سیکوئنس کرنے کا آغاز 1990 کی دہائی کے آغاز میں ہوا۔ اس اقدام کو انسانی جینوم منصوبہ کہا جاتا ہے۔ فریڈ سینجر کی طرف سے تجویز کردہ اور استعمال شدہ طریقہ کو دونوں عوامی طور پر فنڈ شدہ اقدام کے لیے جو USA کے نیشنل انسٹی ٹیوٹس آف ہیلتھ کے نیشنل ہیومن جینوم ریسرچ انسٹی ٹیوٹ (NHGRI) کی قیادت میں تھا، اور نجی کمپنی Celera Genomics کے لیے ترمیم کے ساتھ استعمال کیا گیا۔ دونوں اقدامات نے DNA کو سیکوئنس کرنے کے لیے مختلف طریقے استعمال کیے۔ عوامی طور پر فنڈ شدہ اقدام نے انسانی DNA کو بیکٹیریل مصنوعی کروموسومز میں کلون کر کے سیکوئنس کیا اور Celera Genomics نے بے ترتیب طور پر کاٹے گئے انسانی DNA کو سیکوئنس کیا، ایک تکنیک جسے whole-genome shotgun sequencing method کہا جاتا ہے۔
پہلا مکمل مسودہ انسانی جینوم 2001 میں شائع ہوا۔ یہاں تک کہ یہ منصوبہ، جس نے 2003 میں پورے انسانی جینوم کی ریلیز کا اعلان کیا، اب بھی ایک نامکمل کام ہے کیونکہ آج دستیاب انسانی جینوم ترتیب میں بہت سے خالی جگہیں ہیں جہاں ترتیب کی معلومات نہیں معلوم۔ جینوم کا زیادہ تر حصہ کروموسومز کے یوکروماٹک علاقے میں ہے اور ہیٹروکروماٹک علاقوں سے کم نمائندگی ہے۔ ہیٹروکروماٹک علاقے بنیادی طور پر دہرانے والے عناصر پر مشتمل ہوتے ہیں، بنیادی طور پر کروموسومز کے سینٹرومیرک اور ٹیلومیرک علاقوں میں واقع ہوتے ہیں، موجودہ سیکوئنسنگ ٹیکنالوجی کے ساتھ تجربہ کرنا مشکل ہوتا ہے۔ اس کے علاوہ، DNA کی دہرانے والی نوعیت کی وجہ سے، انہیں کروموسوم میں ایک واحد جگہ پر غیر مبہم طور پر اسمبل کرنا مشکل ہوتا ہے۔
9.4.2 عام استعمال ہونے والا ڈیٹا فارمیٹ
بایو انفارمیٹکس کی ایک چیلنج مختلف فارمیٹس میں حاصل ہونے والے ڈیٹا کے ساتھ کام کرنا ہے۔ بایو انفارمیٹکس کمیونٹی ایک ہی اینالائٹس کے لیے ڈیٹا کا معیاری ڈیٹا فارمیٹ اپناتی ہے۔ مثال کے طور پر، زیادہ تر DNA سیکوئنسنگ ڈیٹا (کچھ استثناء کے ساتھ) اعلیٰ تھروپٹ DNA سیکوئنسروں سے FASTQ فارمیٹ میں پیش کیا جاتا ہے۔ یہ ایک ٹیکسٹ بیسڈ فارمیٹ ہے جو ترتیب کی معلومات کے ساتھ ساتھ اس کے متعلقہ کوالٹی سکورز کو محفوظ کرتا ہے۔ ترتیب کے حرف اور اس کا متعلقہ کوالٹی سکور دونوں کو ایک ASCII حرف کے ساتھ انکوڈ کیا جاتا ہے۔ FASTQ ترتیب میں ترتیب کی معلومات FASTA فارمیٹ استعمال کرتی ہے، جو ترتیب کی معلومات کو سنگل لیٹر کوڈز میں پیش کرنے کے لیے ایک ٹیکسٹ بیسڈ فارمیٹ ہے (Fig. 9.4B)۔
FASTA فائل اور FASTQ فائل کی ایک مثال ٹیبل 9.3 میں دی گئی ہے۔ FASTA فائل کی پہلی لائن عام طور پر “>” (گریٹر-تھین) علامت سے شروع ہوتی ہے اور ترتیب کا خلاصہ بیان رکھتی ہے، اکثر ایک منفرد لائبریری accession نمبر یا جین کا نام۔ FASTQ فائل عام طور پر فی ترتیب چار لائنز استعمال کرتی ہے۔ پہلی لائن ‘$a$ ’ حرف سے شروع ہوتی ہے، اس کے بعد ترتیب کا بیان؛ لائن 2 میں خام ترتیب کے حرف ہیں، لائن 3 ‘+’ حرف سے شروع ہوتی ہے، اور لائن 4 میں لائن 2 میں پیش کردہ ترتیب کے لیے کوالٹی ویلیوز دکھاتی ہے۔ لائن 4 میں کوالٹی ویلیوز میں اتنے ہی علامات ہوتے ہیں جتنے حرف لائن 2 میں ترتیب میں پیش کیے گئے ہیں۔ اس کے علاوہ، لائن 1 اور لائن 3 دونوں میں اختیاری ترتیب شناخت کنندگان شامل ہو سکتے ہیں۔ کوالٹی ویلیوز کی نمائندگی کرنے والی لائن 4 میں، ‘!’ اور ‘$\sim$ ’ حرف بالترتیب کم ترین اور اعلیٰ ترین کوالٹی کی نمائندگی کرتے ہیں۔
9.4.3 جینوم انفارمیٹک ٹولز
جینوم انفارمیٹک ٹولز سیکوئنسنگ ٹیکنالوجی کی ترقی کے ساتھ ساتھ نتیجے میں آنے والے ڈیٹا کے تجزیے کے لیے آئے۔ اعلیٰ تھروپٹ سیکوئنسنگ آلات ترتیب کے ریڈز پیدا کرتے ہیں، یا تو مختصر (تقریباً 100-150 نیوکلیوٹائڈز) یا لمبے (چند kilobases) ہدف کے سائز اور استعمال شدہ آلے پر منحصر ہوتے ہیں۔ نتیجے میں آنے والے سیکوئنسڈ ریڈز کو یا تو کسی جینوم میں اسمبل کیا جانا چاہیے (جہاں کوئی پہلے سے جینوم کی معلومات نہیں ہے) یا کسی حوالہ جینوم سے سیدھ کیا جانا چاہیے (ری-سیکوئنسنگ کے معاملے میں)۔ وسیع طور پر دو ممکنہ تجزیاتی ورک فلوز ہیں، ایک حوالہ ترتیب (مثال کے طور پر، جینوم) سے ریڈز کو سیدھ کرنے پر مبنی ہے اور دوسرا ریڈز کو ڈرافٹ حوالہ جینوم ترتیب میں de novo اسمبلی پر مبنی ہے۔ دونوں منظرناموں میں، سیکوئنسنگ ڈیٹا کو پہلے سے پراسیس اور کوالٹی کے لیے چیک کیا جاتا ہے (ٹیبل 9.6)۔
ٹیبل 9.6: خام سیکوئنسنگ ڈیٹا کے پری-پروسیسنگ کے لیے کوالٹی کنٹرول ٹولز
| ٹول کی قسم | ٹولز کی مثالیں | فنکشن |
|---|---|---|
| QC (Quality control) | FastQC | اعلیٰ تھروپٹ ترتیب کے ڈیٹا کو QC کرنے کے لیے |
| Trimmomatic | کوالٹی اور ایڈاپٹر ٹرممنگ |
سیدھ پر مبنی ورک فلو کے لیے کسی مناسب مختصر یا لمبے ریڈز کے سیدھ کرنے والے کو منتخب کرنے، اس کے بعد ایک یا زیادہ ویرینٹ کالرز اور فلٹرڈ ویرینٹس کی پوسٹ-پروسیسنگ اور تشریح کی ضرورت ہوتی ہے۔ مختصر ترتیب کے ریڈز کو حوالہ جینوم سے سیدھ کرنے اور تین بڑے قسم کے ویرینٹس، یعنی سنگل نیوکلیوٹائڈ ویرینٹس (SNVs)، انسرشنز اور ڈیلیشنز (InDels)، اور کاپی نمبر ویرینٹس (CNVs) کی وژولائزیشن کو Fig. 9.4A میں دکھایا گیا ہے۔
<img src="
Fig. 9.4: (A) ریڈ سے حوالہ سیدھ پر SNVs، InDels، اور CNVs کی وژولائزیشن
(B) FASTA فارمیٹ
بایو انفارمیٹکس کا تعارف

Fig. 9.5: ریڈز کو مسلسل پھیلاؤ (contig) میں اسمبل کرنا
de novo اسمبلی پر مبنی ورک فلو میں ریڈز کو اوورلیپس اور انسرٹ سائز (paired-end ریڈز کے درمیان فاصلہ) کی بنیاد پر جینوم کو جوڑ کر اسمبل کرنا شامل ہے۔ اسمبلی مزید تشریح اور پروسیسنگ سے گزرتی ہے، یعنی نئے جینز کی پیشن گوئی، اور معلوم جینز سے ہومولوجی کی بنیاد پر جینز کی شناخت، جین ایکسپریشن کی مقدار بندی، سپلائس ویرینٹس، نئے آئسوفارمز، اور فیوزڈ ٹرانسکرپٹس کی شناخت۔
ریڈز کو مسلسل پھیلاؤ (contig) میں اسمبل کرنے کی ایک سادہ مثال Fig. 9.5 میں فراہم کی گئی ہے۔ اسمبلر کی کوالٹی کا تعین اس سے ہوتا ہے کہ یہ کتنی اچھی طرح سے ان contigs اور scaffolds (خالی جگہوں سے جوڑے گئے contigs) کو کم غلطی کی شرح کے ساتھ اسمبل کرتا ہے۔ اسمبلی کی intactness اور contiguity کو ماپنے کے لیے کئی میٹرکس ہیں۔ ایک ایسا ہی پیرامیٹر $\mathrm{N} 5 \mathrm{O}$ کہلاتا ہے، جو کم از کم contig لمبائی ہے جو کم از کم $50 %$ جینوم کو کور کرنے کے لیے درکار ہے۔ دوسرے لفظوں میں، N50 وہ contig لمبائی ہے جس پر اور اس سے اوپر تمام contigs $50 %$ جینوم کو جوڑتے ہیں۔ تاہم، ان مقداری شماریات پر صرف انحصار نہیں کیا جا سکتا تاکہ سیکوئنس شدہ جینوم کی کوالٹی کا تعین کیا جا سکے کیونکہ وہ اسمبلی کی کوالٹی اور غلطی سے پاک ہونے کو شامل نہیں کرتے۔ مائکروارے کے محاذ پر، پری-پروسیسنگ اور تجزیے کے لیے مخصوص ٹولز ہیں۔ پری-پروسیسنگ سسٹمک نوز ویرینس اور بیچ اثرات کو ہٹانے کے لیے کیا جاتا ہے اور ڈیٹا کو بڑے پیمانے پر قابلِ موازنہ بناتا ہے۔
جینوم ڈیٹا کے ڈاؤن اسٹریم تجزیے کے لیے کئی کنورژن اور معاون ٹولز ہیں۔ نیچے ٹیبل 9.7 میں ان میں سے چند ٹولز کو اجاگر کیا گیا ہے۔
ٹیبل 9.7: تجزیاتی ورک فلو میں استعمال ہونے والے کنورژن اور معاون ٹولز
| Aligners |
|
|
| |||||||||
|
| |||||||||||
| BLAST (bl2seq) |
| ||||||||||
| CLUSTAL | Series of multiple sequence alignment programs | |||||||||||
|
| |||||||||||
|