অধ্যায় ১০ প্রোটিন ইনফরমেটিক্স ও কেমইনফরমেটিক্স
১০.১ প্রোটিন তথ্য
১০.১.১ ভূমিকা
তথ্য প্রযুক্তির কৌশল ব্যবহার করে যেকোনো প্রোটিন সম্পর্কে তথ্য সংগ্রহ করা প্রোটিন ইনফরমেটিক্সের অন্তর্ভুক্ত। প্রকল্পিত প্রোটিনগুলির কার্যকরী স্থানের জ্যামিতিক অবস্থান, জৈব রাসায়নিক কার্যাবলী এবং জৈবিক কার্যাবলী বোঝার ক্ষেত্রে প্রোটিন ইনফরমেটিক্স অত্যন্ত সহায়ক হয়েছে। এছাড়াও, এটি অনেক প্রকল্পিত প্রোটিনের তৃতীয় পর্যায়ের গঠন নির্ধারণে নেতৃত্ব দিয়েছে, যাদের আণবিক কার্যাবলী প্রচলিত পদ্ধতি ব্যবহার করে বোঝা যায়নি। প্রোটিওম স্কেলে অ্যামিনো অ্যাসিড ক্রম, তৃতীয় পর্যায়ের গঠন এবং পথের বিভিন্ন ডেসক্রিপ্টর এবং ভিন্নধর্মী ডাটাবেসও প্রোটিন ইনফরমেটিক্স বিকাশে সহায়ক হয়েছে।
১০.১.২ প্রোটিন ডেটার প্রকারভেদ
তথ্য নিষ্কাশনের গণনা প্রক্রিয়ার জন্য প্রোটিনের কাঁচা ডেটার প্রয়োজন হয়। এই প্রোটিন ডেটা নিম্নলিখিত প্রকারের হতে পারে -
(i) তাপ-বিকৃত প্রোটিন সমষ্টির অণুবীক্ষণিক চিত্র
(ii) দ্রবণ আকারে প্রোটিন
(iii) ম্যাট্রিক্স অ্যাসিস্টেড লেজার ডিসরপশন/আয়নাইজেশন (MALDI)-এর আউটপুট হিসেবে প্রোটিন ক্রম
(iv) সংযোজিত প্রোটিন ক্রম
(v) প্রোটিন ডেটা ব্যাংক (PDB) ফরম্যাটে প্রোটিন স্ফটিক গঠন
(vi) প্রোটিন-প্রোটিন, প্রোটিন-লিগ্যান্ড বা প্রোটিন-নিউক্লিওটাইড মিথস্ক্রিয়া ফাইল
(vii) নিউক্লিয়ার ম্যাগনেটিক রেজোন্যান্স (NMR) ডেটা, ম্যাস স্পেকট্রোমেট্রি (MS) ডেটা
(viii) জিনোমিক ক্রম থেকে সরাসরি প্রাপ্ত প্রোটিন ক্রম, যাতে অস্তিত্বের পরিচিত প্রমাণ নেই (প্রকল্পিত প্রোটিন)
উল্লিখিত প্রকারের প্রোটিন ডেটা নিম্নলিখিত মতো দরকারী তথ্য পাওয়ার জন্য ব্যবহার করা যেতে পারে:
(i) তাপ-বিকৃত প্রোটিন সমষ্টির অণুবীক্ষণিক চিত্রের মাল্টি-ফ্র্যাক্টাল বৈশিষ্ট্য প্রোটিন-মার্কার ডিজাইনের জন্য ব্যবহৃত হয়।
(ii) দ্রবণে প্রোটিন ডেটা ভৌত-রাসায়নিক বৈশিষ্ট্য এবং গতিবিদ্যা তথ্য বিশ্লেষণের জন্য উপযোগী।
(iii) MALDI থেকে প্রোটিনের খণ্ডিত সংক্ষিপ্ত ক্রমগুলি পূর্ণ দৈর্ঘ্যের ক্রম বের করতে ব্যবহৃত হয়।
(iv) প্রোটিন স্ফটিক গঠন মিউটেশন এবং মিথস্ক্রিয়া অধ্যয়নের জন্য ব্যবহৃত হয়।
(v) PDB, NMR এবং MS ডেটা অ-স্ফটিকীকৃত প্রোটিনের গঠন ভবিষ্যদ্বাণীর জন্যও ব্যবহৃত হয় (সরাসরি ক্রম থেকে)।
(vi) এমন প্রোটিন রয়েছে যাদের পরিচিত অস্তিত্ব নেই (প্রকল্পিত প্রোটিন নামে পরিচিত) যা জিনোমিক ক্রম থেকে শনাক্ত করা যেতে পারে।
(vii) প্রোটিনের নেটওয়ার্ক ম্যাপিং বিভিন্ন রোগের চিকিৎসার সম্ভাব্য লক্ষ্য সম্পর্কে তথ্য প্রদান করে।
প্রোটিন ইনফরমেটিক্স বিশ্লেষণ সম্পাদনের জন্য, নিম্নলিখিত দুটি মৌলিক সুবিধার প্রয়োজন:
(i) বিভিন্ন ডাটাবেস, যেমন NCBI, PDB, CHEMBL, BIOMODELS ইত্যাদি থেকে কাঁচা ডেটার প্রাপ্যতা।
(ii) বিশ্লেষণের জন্য ব্যবহৃত ইনফরমেটিক্স সরঞ্জাম ও কৌশল। কিছু সুপরিচিত কৌশল হল: (a) ওয়েভলেট কৌশল দ্বারা চিত্র বিশ্লেষণ, (b) ক্রম সাদৃশ্য এবং হোমোলজি গণনা, (c) গঠন অপ্টিমাইজেশন কৌশল, (d) পরিসংখ্যান এবং মেশিন লার্নিং কৌশল যেমন আর্টিফিশিয়াল নিউরাল নেটওয়ার্ক (ANN), সাপোর্ট ভেক্টর মেশিন (SVM) এবং হিডেন মার্কভ মডেল (HMM) দ্বারা ডেটা বিশ্লেষণ। (e) নেটওয়ার্ক ম্যাপিং কৌশল, এবং (f) সিস্টেমস বায়োলজি মার্ক-আপ ল্যাঙ্গুয়েজ (SBML)।
১০.১.৩ প্রোটিন গঠনের গণনামূলক ভবিষ্যদ্বাণী
জৈব তথ্যবিজ্ঞান সরঞ্জাম ব্যবহার করে প্রোটিন গঠন ভবিষ্যদ্বাণীর লক্ষ্য হল অন্বেষণ করা কিভাবে অ্যামিনো অ্যাসিড ক্রম প্রোটিনের গঠন নির্দিষ্ট করে এবং কিভাবে এই প্রোটিনগুলি তাদের কার্যাবলী সম্পাদনের জন্য সাবস্ট্রেট এবং অন্যান্য অণুর সাথে আবদ্ধ হয়। জৈব তথ্যবিজ্ঞান সরঞ্জাম ব্যবহার করে একটি প্রোটিনের (প্রকল্পিত প্রোটিনগুলিসহ) গঠন ভবিষ্যদ্বাণীর এই কাজটি তখনও সম্ভব যখন শুধুমাত্র জিন ক্রম জানা থাকে, অর্থাৎ প্রোটিন ক্রমের অনুপস্থিতিতে। প্রোটিনের গঠনগত এবং ভৌত-রাসায়নিক বৈশিষ্ট্যের ভবিষ্যদ্বাণী করার জন্য বিভিন্ন উৎস থেকে অনেক গণনামূলক সরঞ্জাম উপলব্ধ। গণনামূলক পদ্ধতির প্রধান সুবিধাগুলি হল জড়িত সময়সীমা, উচ্চ ব্যয় এবং উচ্চ-থ্রুপুট স্ক্রিনিং-এর সম্ভাব্যতা।
১০.১.৩.১ প্রাথমিক গঠন ভবিষ্যদ্বাণী
প্রোটিন প্রাথমিক গঠন ভবিষ্যদ্বাণীতে আইসোইলেকট্রিক পয়েন্ট, এক্সটিংকশন কো-এফিসিয়েন্ট, অস্থিরতা সূচক, অ্যালিফ্যাটিক সূচক এবং গ্র্যান্ড এভারেজ হাইড্রোপ্যাথির মতো ভৌত-রাসায়নিক বৈশিষ্ট্য নির্ধারণ জড়িত। এগুলি সবই ExPASy প্রোটিওমিক্স সার্ভারের ProtParam টুলের সাহায্যে গণনা করা যেতে পারে। প্রোটিনের কিছু ভৌত-রাসায়নিক বৈশিষ্ট্য সংক্ষেপে নিম্নলিখিত বিভাগে বর্ণনা করা হয়েছে।
আইসোইলেকট্রিক পয়েন্ট- আইসোইলেকট্রিক পয়েন্ট (pI) হল সেই $\mathrm{pH}$ যেখানে প্রোটিনের পৃষ্ঠ আধান দ্বারা আবৃত থাকে কিন্তু প্রোটিনের নেট আধান শূন্য হয়। pI-তে, প্রোটিনগুলি স্থিতিশীল এবং কমপ্যাক্ট। যদি গণনা করা $\mathrm{pI}$ মান $7(\mathrm{pI}<7)$-এর কম হয়, তবে এটি নির্দেশ করে যে প্রোটিনকে অম্লীয় হিসাবে বিবেচনা করা হয়।
7-এর বেশি pI (pI> 7) প্রকাশ করে যে প্রোটিনের প্রকৃতি ক্ষারীয়। গণনা করা আইসোইলেকট্রিক পয়েন্ট (pI) আইসোইলেকট্রিক ফোকাসিং পদ্ধতি দ্বারা শুদ্ধিকরণের জন্য বাফার সিস্টেম বিকাশের জন্য উপযোগী হবে।
অ্যালিফ্যাটিক সূচক- অ্যালিফ্যাটিক সূচক (AI), যা অ্যালিফ্যাটিক সাইড চেইন (A, V, I এবং L) দ্বারা দখলকৃত একটি প্রোটিনের আপেক্ষিক আয়তন হিসাবে সংজ্ঞায়িত করা হয়, গ্লোবুলার প্রোটিনের তাপীয় স্থিতিশীলতা বৃদ্ধির জন্য একটি ইতিবাচক ফ্যাক্টর হিসাবে বিবেচিত হয়। প্রোটিন ক্রমের খুব উচ্চ অ্যালিফ্যাটিক সূচক নির্দেশ করে যে প্রোটিন একটি বিস্তৃত তাপমাত্রা পরিসরের জন্য স্থিতিশীল হতে পারে।
অস্থিরতা সূচক- অস্থিরতা সূচক একটি টেস্ট টিউবে প্রোটিনের স্থিতিশীলতার একটি অনুমান প্রদান করে। নির্দিষ্ট কিছু ডাইপেপটাইড রয়েছে, যেগুলির ঘটনা অস্থির প্রোটিনগুলিতে স্থিতিশীলগুলির তুলনায় উল্লেখযোগ্যভাবে ভিন্ন। এই পদ্ধতিটি অস্থিরতার একটি ওজন মান নির্ধারণ করে। এই ওজন মানগুলি ব্যবহার করে একটি অস্থিরতা সূচক গণনা করা সম্ভব। একটি প্রোটিন যার অস্থিরতা সূচক 40-এর চেয়ে কম তাকে স্থিতিশীল হিসাবে ভবিষ্যদ্বাণী করা হয়, 40-এর উপরের একটি মান ভবিষ্যদ্বাণী করে যে প্রোটিনটি অস্থির হতে পারে।
গ্র্যান্ড এভারেজ হাইড্রোপ্যাথি (GRAVY) মান - একটি পেপটাইড বা প্রোটিনের জন্য গ্র্যান্ড এভারেজ হাইড্রোপ্যাথি (GRAVY) মান সমস্ত অ্যামিনো অ্যাসিডের হাইড্রোপ্যাথি মানের সমষ্টি হিসাবে গণনা করা হয়, ক্রমের অবশিষ্টাংশের সংখ্যা দ্বারা ভাগ করে। GRAVY মানের নিম্ন পরিসর জলের সাথে ভাল মিথস্ক্রিয়ার সম্ভাবনা নির্দেশ করে।
১০.১.৩.২ দ্বিতীয় পর্যায়ের গঠন ভবিষ্যদ্বাণী
প্রোটিন দ্বিতীয় পর্যায়ের গঠন গভীরভাবে অধ্যয়ন করা হয়েছে, যেহেতু এটি অজানা গঠনের প্রোটিনের কার্যাবলী প্রকাশ করতে খুব সহায়ক। এছাড়াও, এটি দেখানো হয়েছে যে প্রোটিন দ্বিতীয় পর্যায়ের গঠনের ভবিষ্যদ্বাণী প্রোটিন 3-মাত্রিক গঠন ভবিষ্যদ্বাণীর দিকে একটি পদক্ষেপ। APSSP, CFSSP, SOPMA, এবং GOR সাধারণ প্রোটিন দ্বিতীয় পর্যায়ের গঠন ভবিষ্যদ্বাণী সরঞ্জাম।
১০.১.৩.৩ ত্রিমাত্রিক (3D) গঠন ভবিষ্যদ্বাণী
নিম্নলিখিত তিনটি গণনামূলক পদ্ধতি সাধারণত প্রোটিন 3D গঠন ভবিষ্যদ্বাণী করতে ব্যবহৃত হয়।
হোমোলজি মডেলিং- হোমোলজি মডেলিংয়ের জন্য, অজানা গঠনের একটি প্রোটিনের অ্যামিনো অ্যাসিড ক্রম পরিচিত গঠনের প্রোটিনের ক্রমের সাথে সারিবদ্ধ করা হয়। উচ্চ মাত্রার হোমোলজি (প্রোটিনগুলির মধ্যে এবং জুড়ে খুব অনুরূপ ক্রম) অজানা গঠনের প্রোটিনের গ্লোবাল গঠন নির্ধারণ করতে এবং এটিকে একটি নির্দিষ্ট ফোল্ড বিভাগে স্থাপন করতে ব্যবহার করা যেতে পারে। নিম্ন মাত্রার হোমোলজি এখনও স্থানীয় গঠন নির্ধারণ করতে ব্যবহার করা যেতে পারে, একটি উদাহরণ হল দ্বিতীয় পর্যায়ের গঠন ভবিষ্যদ্বাণীর জন্য Chou-Fasman পদ্ধতি। হোমোলজি মডেলিং পদ্ধতির একটি সুবিধা হল শারীরিক নির্ধারকগুলির জ্ঞানের উপর নির্ভরতার অভাব। MODELLER এবং SWISS-MODEL হোমোলজি মডেলিংয়ের জন্য সাধারণভাবে ব্যবহৃত সরঞ্জাম।
ফোল্ড ভবিষ্যদ্বাণী- ফোল্ড শনাক্তকরণ পদ্ধতিগুলি একটি পরিপূরক পদ্ধতি গ্রহণ করে যেখানে গঠনগুলি সারিবদ্ধ করা হয়। ‘থ্রেডিং’ নামক পদ্ধতির সাহায্যে, অজানা গঠনের একটি প্রোটিনের ক্রমকে পরিচিত গঠনের একটি প্রোটিনের ব্যাকবোন (প্রোটিন সাইড চেইন) এর কনফরমেশন নিতে বাধ্য করা হয়। প্রতিটি প্রচেষ্টার জন্য শারীরিক নির্ধারকগুলি যত ভালভাবে পরিমাপ করে, সারিবদ্ধতার জন্য স্কোর তত ভাল। এই পদ্ধতিগুলি হোমোলজি মডেলিং পদ্ধতির চেয়ে বেশি গণনা-নিবিড় হওয়ার প্রবণতা রাখে, কিন্তু তারা ফলাফলের শারীরিক বাস্তবতা সম্পর্কে আরও আত্মবিশ্বাস দেয়। LIBELLULA এবং Threader এই পদ্ধতির জন্য সাধারণভাবে ব্যবহৃত সরঞ্জাম।
ডি নোভো প্রোটিন গঠন ভবিষ্যদ্বাণী: এটি একটি অ্যালগরিদমিক প্রক্রিয়া যার মাধ্যমে প্রোটিনের তৃতীয় পর্যায়ের গঠন তার অ্যামিনো অ্যাসিড প্রাথমিক ক্রম থেকে ভবিষ্যদ্বাণী করা হয়। QUARK হল $a b$ ইনিশিও প্রোটিন গঠন ভবিষ্যদ্বাণী এবং প্রোটিন পেপটাইড ফোল্ডিংয়ের জন্য একটি কম্পিউটার অ্যালগরিদম, যার লক্ষ্য শুধুমাত্র অ্যামিনো অ্যাসিড ক্রম থেকে সঠিক প্রোটিন 3D মডেল তৈরি করা। QUARK মডেলগুলি ছোট খণ্ড (1-20 অবশিষ্টাংশ দীর্ঘ) থেকে একটি পারমাণবিক-স্তরের জ্ঞান-ভিত্তিক বল ক্ষেত্রের নির্দেশনায় রেপ্লিকা-এক্সচেঞ্জ মন্টে কার্লো সিমুলেশন দ্বারা তৈরি করা হয়।
একটি প্রোটিনের গণনামূলকভাবে উদ্ভাবিত গঠন প্রোটিন-ডেটা-ব্যাংক ফাইলে পারমাণবিক স্থানাঙ্ক হিসাবে রেকর্ড করা হয়। ত্রিমাত্রিক স্থানাঙ্কগুলি একটি ধরনের টেক্সট-ফাইলে সংরক্ষণ করা হয়, যথা PDB-ফাইল যার ফাইল এক্সটেনশন .pdb প্রোটিন ডেটা ব্যাংক (PDB) ডাটাবেসে। এতে এক্স-রে ক্রিস্টালোগ্রাফি, NMR এবং কিছু তাত্ত্বিক গঠন মডেল থেকে ডেটা রয়েছে। এছাড়াও, PDB ডাটাবেস প্রোটিন ডাটাবেসের সাথেও সংযুক্ত, যা হোমোলজি মডেলিং এবং থ্রেডিংয়ের মতো পদ্ধতির মাধ্যমে গঠন ভবিষ্যদ্বাণীর জন্য হোমোলজাস ক্রম এবং 3D-গঠন অনুসন্ধান করতে ব্যবহৃত হয়। MODELLER হল প্রোটিন গঠন ভবিষ্যদ্বাণীর জন্য পরিচিত একটি বিনামূল্যে উপলব্ধ সরঞ্জাম।
ডোমেন ভবিষ্যদ্বাণী - ডোমেন হল একটি প্রোটিনের স্বতন্ত্র কার্যকরী এবং/অথবা গঠনগত একক। একটি পলিপেপটাইড চেইনের স্বাধীন ভাঁজ এককও নির্দিষ্ট কার্যাবলী বহন করে। এগুলি প্রায়শই পুনরাবৃত্তিমূলক (ক্রম বা গঠন) একক হিসাবে চিহ্নিত করা হয়, যা বিভিন্ন প্রসঙ্গে বিদ্যমান থাকতে পারে। ডোমেনগুলি প্রোটিন গঠন, কার্যাবলী, বিবর্তন এবং নকশার ভবিষ্যদ্বাণীর জন্য সবচেয়ে মূল্যবান তথ্য প্রদান করে। ডোমেন ভবিষ্যদ্বাণীর জন্য সবচেয়ে সাধারণ সরঞ্জামগুলি হল EMBL-এর InterPRO স্ক্যান এবং NCBI-এর CDD অনুসন্ধান।
একটি প্রোটিন ক্রম থেকে প্রোটিন গঠন ভবিষ্যদ্বাণীর জন্য বিভিন্ন সম্ভাব্য উপায় চিত্রিত করে একটি ফ্লোচার্ট চিত্র 10.1-এ দেখানো হয়েছে।
চিত্র ১০.১: একটি প্রোটিন ক্রম থেকে প্রোটিন গঠন ভবিষ্যদ্বাণীর জন্য সমস্ত সম্ভাব্য উপায়ের ফ্লোচার্ট
১০.২ কেমইনফরমেটিক্স
১০.২.১ ভূমিকা
রসায়নের সমস্যা বোঝার জন্য গণনামূলক এবং তথ্যগত কৌশলগুলির ব্যবহার কেমইনফরমেটিক্স নামে পরিচিত। কেমইনফরমেটিক্স হল পদার্থবিদ্যা, রসায়ন, জীববিজ্ঞান, গণিত, জৈব রসায়ন, পরিসংখ্যান এবং ইনফরমেটিক্সের নীতিগুলি একত্রিত করার জন্য একটি ইন্টারফেস বিজ্ঞান। কেমইনফরমেটিক্সের পাশাপাশি কেমোইনফরমেটিক্স এবং কেমিক্যাল ইনফরমেটিক্সের মতো শব্দগুলি একই পদ্ধতি নির্দেশ করতে ব্যবহৃত হয়। কেমইনফরমেটিক্স কৌশলগুলি ওষুধ আবিষ্কারে উপযোগী যেখানে লক্ষ্য কোষীয় অণুর সাথে মিথস্ক্রিয়ার জন্য বিপুল সংখ্যক যৌগ মূল্যায়ন করা হয়।
গত দুই দশক ধরে, কেমইনফরমেটিক্স বিজ্ঞান ধারণাগত এবং প্রযুক্তিগতভাবে বৃদ্ধি পেয়েছে, রাসায়নিক শিল্প, ফার্মাসিউটিক্যাল এবং বায়োটেকনোলজি গবেষণায় ব্যাপক প্রয়োগ খুঁজে পেয়েছে, যেমন কম্পিউটার-এইডেড ড্রাগ ডিজাইন (CADD) যেখানে কেউ নির্দিষ্ট জৈবিক এবং থেরাপিউটিক বৈশিষ্ট্যযুক্ত অণু খোঁজে।
কেমইনফরমেটিক্স বিশেষজ্ঞরা ভৌত বৈশিষ্ট্য, ত্রিমাত্রিক আণবিক এবং স্ফটিক গঠন, রাসায়নিক বিক্রিয়া পথ ইত্যাদির উপর তথ্য পরিচালনা করেন। প্রকৃত যৌগ ছাড়াও, কেমইনফরমেটিক্স গবেষকরা প্রাথমিকভাবে রাসায়নিক ডাটাবেসের ভার্চুয়াল লাইব্রেরি পরিচালনা করেন যাতে প্রকল্পিত যৌগ থাকতে পারে। ভার্চুয়াল লাইব্রেরিগুলিতে সম্ভাব্য সংশ্লেষণ পদ্ধতি এবং বিক্রিয়া পণ্যগুলির পূর্বাভাসিত স্থিতিশীলতা সম্পর্কে তথ্য থাকতে পারে। ভার্চুয়াল স্ক্রিনিং রাসায়নিক এবং ভৌত নীতি ব্যবহার করে প্রকৃত এবং ভার্চুয়াল অণুর বড় লাইব্রেরি থেকে একটি নির্দিষ্ট বৈশিষ্ট্য বা বিক্রিয়ার জন্য সেরা প্রার্থীদের চিহ্নিত করে এবং মূল্যায়ন করে। তারপরে সবচেয়ে কাঙ্ক্ষিত প্রার্থীদের পরীক্ষাগার গবেষণায় যাচাই করা যেতে পারে।
১০.২.২ রাসায়নিক ডেটা সংরক্ষণ ও পরিচালনা
অনেক গোষ্ঠী এবং সংস্থা রাসায়নিক যৌগের ডাটাবেস বজায় রাখে, তাদের মধ্যে কিছু বিনামূল্যে সর্বজনীনভাবে উপলব্ধ এবং কিছু বাণিজ্যিকভাবে উপলব্ধ। যদিও এই ডাটাবেসগুলিতে লক্ষ লক্ষ রাসায়নিক যৌগ, তাদের বিক্রিয়া ইত্যাদি রয়েছে, গণনামূলক শক্তি এবং সরঞ্জামগুলি এতটাই শক্তিশালী যে সম্পূর্ণ সম্পদ অনুসন্ধান করে রেকর্ডগুলি পুনরুদ্ধার করতে মাত্র কয়েক সেকেন্ড সময় লাগে।
বিজ্ঞান এতটাই অগ্রসর হয়েছে যে আমরা এখন ভার্চুয়াল অণুর লাইব্রেরির কথা বলছি (বিলিয়ন এন্ট্রিতে চলে যায়) - এগুলি এমন যৌগ যা উপলব্ধ সাহিত্য অনুসারে বিদ্যমান নেই, কিন্তু উন্নত কম্বিনেটোরিয়াল কৌশল ব্যবহার করে সংশ্লেষিত করা যেতে পারে।
CAS (কেমিক্যাল অ্যাবস্ট্র্যাক্টস সার্ভিস), আমেরিকান কেমিক্যাল সোসাইটির একটি বিভাগ) হল বিশ্বের বৃহত্তম রসায়ন অন্তর্দৃষ্টির সংগ্রহ। এটি রাসায়নিক নাম, গঠনের একটি কর্তৃত্বপূর্ণ উৎস এবং রসায়নবিদদের জন্য একটি সর্বজনীন মান হিসাবে কাজ করে।
২০১৮ সাল পর্যন্ত, CAS রেজিস্ট্রি গত ২০০ বছরেরও বেশি সময় ধরে সাহিত্য থেকে নেওয়া ১৪২ মিলিয়ন জৈব এবং অজৈব পদার্থ হোস্ট করে। রেজিস্ট্রিতে ৬৭ মিলিয়ন প্রোটিন এবং নিউক্লিক অ্যাসিড ক্রম অন্তর্ভুক্ত রয়েছে। ডাটাবেসে পদার্থের ৭.৬ বিলিয়নেরও বেশি বৈশিষ্ট্য মান রয়েছে।
জৈবচিকিৎসা বিজ্ঞান, রসায়ন, প্রকৌশল, উপাদান বিজ্ঞান ইত্যাদি সহ বিশ্বব্যাপী প্রচুর সংখ্যক প্রকাশিত সাহিত্য থেকে ডেটা প্রতিদিন CAS ডাটাবেসে যোগ করা হয়। ১৮০০-এর দশক থেকে, ডাটাবেসটি ১০০ মিলিয়নেরও বেশি রাসায়নিক বিক্রিয়া কভার করে ৪৭ মিলিয়নেরও বেশি প্রকাশনা কভার করে। এই বিশাল সম্পদ থেরাপিউটিক এবং শিল্পগত গুরুত্বের যৌগ খুঁজে বের করার জন্য একটি ধনভাণ্ডার। কিছু জনপ্রিয় রাসায়নিক ডাটাবেস সারণি ১০.১-এ উল্লেখ করা হয়েছে।
সারণি ১০.১: জনপ্রিয় রাসায়নিক ডাটাবেস
| নাম | বিবরণ |
|---|---|
| PubChem | PubChem হল রাসায়নিক অণুর একটি ডাটাবেস যা তিন ধরনের তথ্য বজায় রাখে, যথা, পদার্থ, যৌগ এবং BioAssays। |
| ZINC | ZINC ডাটাবেসে ভার্চুয়াল স্ক্রিনিংয়ের জন্য উপলব্ধ ২১ মিলিয়ন যৌগ রয়েছে। এই ডাটাবেসে আণবিক ওজন, লগ P ইত্যাদির মতো বিভিন্ন অণু বৈশিষ্ট্য অন্তর্ভুক্ত করা হয়েছে। |
| ChEMBL | এই ডাটাবেস ১ মিলিয়ন বায়োঅ্যাকটিভ (ছোট ওষুধের মতো অণু) যৌগ সম্পর্কে ৮২০০টি ওষুধের লক্ষ্যসহ বিস্তৃত তথ্য প্রদান করে। |
| NCI | NCI ডাটাবেসে $2,75,000$-এর বেশি ছোট অণু গঠন ছিল, ক্যান্সার/এইডস ক্ষেত্রে কাজ করা গবেষকদের জন্য একটি খুব দরকারী সম্পদ। |
| ChemDB | এটি পাঁচ মিলিয়ন রাসায়নিকের একটি ডাটাবেস যাতে রাসায়নিকের তথ্য রয়েছে, যার মধ্যে পূর্বাভাসিত বা পরীক্ষামূলকভাবে নির্ধারিত ভৌত-রাসায়নিক বৈশিষ্ট্য রয়েছে, যেমন 3D গঠন, গলন তাপমাত্রা এবং দ্রবণীয়তা। |
| ChemSpider | ChemSpider-এ ৪০০টিরও বেশি বৈচিত্র্যময় ডেটা সোর্স থেকে একত্রিত ২৮ মিলিয়নেরও বেশি অনন্য রাসায়নিক সত্তা রয়েছে। |
| BindingDB | এটি ছোট অণুর একটি বাইন্ডিং অ্যাফিনিটি ডাটাবেস যাতে ৬,২৬৩টি প্রোটিন লক্ষ্য এবং ৩৭৮,৯৮০টি ছোট অণুর জন্য ৯,১০,৮৩৬টি বাইন্ডিং ডেটা রয়েছে। |
| DrugBank | ডাটাবেস যা বিস্তারিত ওষুধ (যেমন, রাসায়নিক, ফার্মাকোলজিক্যাল এবং ফার্মাসিউটিক্যাল) ডেটাকে বিস্তৃত ওষুধের লক্ষ্য (যেমন, ক্রম, গঠন, এবং পথ) তথ্যের সাথে একত্রিত করে। ডাটাবেসে ৬৭১২টি ওষুধের এন্ট্রি রয়েছে যার মধ্যে ১৪৪৮টি FDA-অনুমোদিত ছোট অণু ওষুধ, $131 \mathrm{FDA}$-অনুমোদিত বায়োটেক (প্রোটিন/পেপটাইড) ওষুধ, ৮৫টি নিউট্রাসিউটিক্যাল এবং ৫০৮০টি পরীক্ষামূলক ওষুধ রয়েছে। |
| PharmaGKB | এটি একটি ফার্মাকোজেনোমিক্স জ্ঞান সম্পদ যা ওষুধের অণুর ক্লিনিকাল তথ্য অন্তর্ভুক্ত করে। |
| SuperDrug | এই ডাটাবেসে প্রয়োজনীয় বিপণিত ওষুধের সক্রিয় উপাদানের প্রায় ২৫০০টি 3D-গঠন রয়েছে। |
১০.২.৩ আমাদের কেন কেমইনফরমেটিক্স প্রয়োজন?
শত শত মিলিয়ন যৌগ, বৈশিষ্ট্য, রাসায়নিক বিক্রিয়া ইত্যাদির সম্মুখীন হয়ে, প্রশ্ন হল কিভাবে এই বিশাল সম্পদ নেভিগেট করতে হয় এবং সঠিক রাসায়নিক যৌগ খুঁজে বের করতে হয় যা আমাদের প্রয়োজনীয়তা পূরণ করে?
কেমইনফরমেটিক্স সরঞ্জামগুলি আমাদের বিপুল পরিমাণ সাহিত্য ব্রাউজ করতে এবং প্যাটার্ন খুঁজে পেতে সাহায্য করে। ফার্মা কোম্পানিগুলি নতুন ওষুধের ইন সিলিকো নকশার জন্য কেমইনফরমেটিক্স সম্পদ এবং সরঞ্জাম ব্যবহার করে, তারপর সংশ্লেষণ এবং পরীক্ষা করে। রাসায়নিক উত্পাদন শিল্পের নতুন বৈশিষ্ট্য ডিজাইন করতে, বাজারে আসার আগে রাসায়নিকের কার্যকারিতা এবং বিষাক্ততা ভবিষ্যদ্বাণী করতে কেমইনফরমেটিক্স প্রয়োজন।
১০.২.৪ রাসায়নিক যৌগের তথ্য কিভাবে সংরক্ষণ করবেন?
কেউ সহজেই কাগজে পরমাণুর মধ্যে বন্ড এবং একটি নির্দিষ্ট কোণে সারিবদ্ধ করে রাসায়নিক যৌগ আঁকতে পারে। অঙ্কন সরঞ্জাম ব্যবহার করে, ব্যবহারকারী ইন্টারফেসে পূর্বনির্ধারিত টেমপ্লেট ব্যবহার করে এবং সহজে স্ট্যান্ডার্ড জ্যামিতিক গঠন এবং বিক্রিয়া আঁকা সম্ভব। কেউ এমন তথ্য একটি চিত্র ফাইল (যেমন, jpg, tif) বা নথি আকারে (যেমন, doc, pdf) সংরক্ষণ করতে পারে। যাইহোক, রাসায়নিক ডেটার এমন সংরক্ষণ গবেষণা প্রকল্পগুলিতে খুব কম ব্যবহারের হয় যেগুলির জন্য একটি নির্দিষ্ট উদ্দেশ্যের জন্য সঠিক অণু খুঁজে বের করার জন্য বন্ড কোণ, ঘূর্ণনের নমনীয়তা ইত্যাদিতে ‘গভীর ব্রাউজিং’-এর প্রয়োজন হয়।
অতএব, রাসায়নিক গঠনগুলি কম্পিউটারে আণবিক গ্রাফ হিসাবে সংরক্ষণ করা হয়। একটি গ্রাফ হল নোড (রাসায়নিক পদার্থের একক) এবং এজ (নোডের মধ্যে তথ্যের চলাচল) এর একটি কাল্পনিক উপস্থাপনা। নোড-এজ পদ্ধতি ব্যবহার করে, কেউ পরমাণু এবং বন্ডের প্রতিনিধিত্বকারী গ্রাফ তৈরি করতে পারে। একটি উচ্চ স্তরে, একই উপস্থাপনা কোষে আণবিক পথ তৈরি করতে ব্যবহৃত হয়, যেমন গ্লাইকোলাইসিস এবং ক্রেবস চক্র ইত্যাদি।
একটি গ্রাফের সাবগ্রাফ থাকতে পারে, অর্থাৎ, ছোট গ্রাফের একটি সংগ্রহ যা একটি নির্দিষ্ট প্রয়োগের জন্য একটি গ্রাফ তৈরি করে। গ্রাফ বা সাবগ্রাফে, চক্র বা রিং পর্যবেক্ষণ করা সাধারণ। বিপরীতে, একটি ট্রি হল একটি বিশেষ ধরনের গ্রাফ যেখানে কোন রিং নেই। ট্রি উপস্থাপনায়, রুট নোড, তারপর শাখা নোড এবং পাতার নোড থাকবে, সবগুলি রূপান্তরের বিভিন্ন পর্যায়ে রাসায়নিক পদার্থের প্রতিনিধিত্ব করবে।
গ্রাফ তৈরি করার পরে, এর প্রতিটি যান্ত্রিক বিবরণের পরিপ্রেক্ষিতে কম্পিউটারে গ্রাফটি যোগাযোগ করার ক্ষমতা প্রয়োজন। এটি একটি ‘সংযোগ সারণী’ ব্যবহার করে অর্জন করা যেতে পারে।
একটি খুব মৌলিক স্তরে, সংযোগ সারণীর সহজতম রূপ দুটি বিভাগ নিয়ে গঠিত: (i) একটি অণুর পরমাণুগুলির পারমাণবিক সংখ্যার একটি তালিকা, এবং (ii) পরমাণুগুলির মধ্যে বন্ডের একটি তালিকা যা একে অপরের সাথে কথা বলে। তদতিরিক্ত, সংযোগ সারণীটি প্রতিটি পরমাণুর সংকর অবস্থা, পরমাণুর ত্রিমাত্রিক (xyz) স্থানাঙ্ক ইত্যাদির মতো অতিরিক্ত তথ্য দিয়ে সমৃদ্ধ। এটি বোঝা গুরুত্বপূর্ণ যে হাইড্রোজেন পরমাণুগুলি স্পষ্টভাবে সংযোগ সারণীতে উপস্থাপিত নাও হতে পারে (সেগুলি অন্তর্নিহিত হতে পারে)। এমন পরিস্থিতিতে, সংযোগ সারণী হাইড্রোজেন-দমনকৃত হয়।
আণবিক গ্রাফকে কম্পিউটারে উপস্থাপন এবং প্রেরণের আরেকটি উপায় হল ‘লিনিয়ার নোটেশন’ পদ্ধতির মাধ্যমে।
একটি লিনিয়ার নোটেশন গণনার জন্য সংরক্ষণ করতে আলফানিউমেরিক (a1, b2, c3 ইত্যাদি) স্কিম ব্যবহার করে। সবচেয়ে জনপ্রিয় লিনিয়ার নোটেশনগুলির মধ্যে একটি হল SMILES
১. পরমাণুগুলি তাদের পারমাণবিক প্রতীক দ্বারা উপস্থাপিত হয়।
২. হাইড্রোজেন পরমাণুগুলি বাদ দেওয়া হয় (অন্তর্নিহিত)।
৩. প্রতিবেশী পরমাণুগুলি একে অপরের পাশে উপস্থাপিত হয়।
৪. দ্বি-বন্ধন “=” দ্বারা, ত্রি-বন্ধন “#” দ্বারা উপস্থাপিত হয়।
৫. শাখাগুলি বন্ধনী দ্বারা উপস্থাপিত হয়।
৬. রিংগুলি দুটি সংযোগকারী রিং পরমাণুতে সংখ্যা বরাদ্দ করে উপস্থাপিত হয়।
চিত্র ১০.২: স্মাইলস নোটেশন
(সিমপ্লিফাইড মলিকুলার ইনপুট লাইন এন্ট্রি স্পেসিফিকেশন) (চিত্র ১০.২)। SMILES-এর জনপ্রিয়তার একটি কারণ হল এর সরলতা এবং স্কেলেবিলিটি।
১০.২.৫ গঠন অনুসন্ধান
এটি একটি নিয়ম হয়েছে যে বাণিজ্যিকভাবে উপলব্ধ ডাটাবেসগুলির উৎপত্তি একাডেমিক গবেষণা প্রকল্পে। কেমইনফরমেটিক্সের ক্ষেত্রেও এটি সত্য।
সরলতম কাজে রাসায়নিক গঠনের তথ্য নিষ্কাশন জড়িত। উদাহরণস্বরূপ, একটি পদার্থের ভৌত এবং রাসায়নিক বৈশিষ্ট্য খুঁজে বের করা, একটি নির্দিষ্ট স্ফুটনাঙ্ক পরিসরের মধ্যে সমস্ত রাসায়নিক পদার্থ জানা আমাকে দেখাও ইত্যাদি।
অনুসন্ধানের দ্বিতীয় স্তরে সাবস্ট্রাকচার পুনরুদ্ধার জড়িত। উদাহরণস্বরূপ, এটি সেই সমস্ত রাসায়নিক যৌগ দেখায় যা একটি নির্দিষ্ট কার্যকরী গোষ্ঠীর সাথে মিলে যায় যেমন একটি মিথাইল গ্রুপ, বেনজিন রিং বা একটি অ্যালকিন ব্যাকবোন।
যখন আমরা দেখি যে একটি ছোট গ্রাফ সম্পূর্ণরূপে অন্য বড় গ্রাফে এমবেড করা আছে, আমরা এটিকে সাবগ্রাফ আইসোমরফিজম (আইসো মানে একই ধরনের অনেক রূপ) বলি।
এই কারণে, অনেক সময় লোকেরা একটি দ্বি-পর্যায়ের অনুসন্ধান সম্পাদন করে। প্রথম ধাপে একটি সাধারণ স্ক্রিন ব্যবহার করা জড়িত যেগুলি সম্ভাব্য সাবস্ট্রাকচার ক্যোয়ারীর সাথে মেলে না এমন অণুগুলি দূর করতে। এই ধাপের সময়, বেশিরভাগ অণু বাতিল হয়ে যায়, দ্বিতীয় ধাপে অন্বেষণের জন্য আকর্ষণীয় হতে পারে এমন অণুর একটি ছোট সংখ্যালঘু অবশিষ্টাংশ রেখে যায়।
দ্বিতীয় পর্যায়ে একটি প্রদত্ত সাবস্ট্রাকচারের সাথে সত্যিই মেলে এমন অণু খুঁজে পেতে একটি আরও বিস্তারিত সাবগ্রাফ আইসোমরিজম প্রক্রিয়া জড়িত। অণু স্ক্রিনগুলি 0 এবং $1 \mathrm{~s}$-এর বাইনারি স্ট্রিং ব্যবহার করে প্রয়োগ করা হয়, যাকে বিটস্ট্রিং বলা হয়।
১০.২.৬ বিক্রিয়া অনুসন্ধান
একটি সংশ্লেষণ পরিকল্পনা করার সময়, একজন রসায়নবিদ পণ্যগুলির জন্য বিক্রিয়া