চ্যাপ্টার 03 ডেটা এর সংগঠন

1. পরিচিতি

আগের চ্যাপ্টারে আপনি জানতে পেরেছেন কীভাবে ডেটা সংগ্রহ করা হয়। আপনি আবার জানতে পেরেছেন কয়েক্স এবং স্যাম্পলিং এর মধ্যে পার্থক্য। এই চ্যাপ্টারে, আপনি জানতে পারবেন যে আপনি যে ডেটা সংগ্রহ করেছেন সেগুলো কীভাবে শ্রেণিবিন্যাস করা হবে। মূল ডেটা শ্রেণিবিন্যাস করার উদ্দেশ্য হলো সেগুলোতে ক্রম আনা যাতে সেগুলোকে পরবর্তী পর্যায়ের পরিসংখ্যান বিশ্লেষণের জন্য সহজে ব্যবহার করা যায়।

আপনি কখনো আপনার স্থানীয় জাঙ্ক ডেয়ালার বা কাবাডিওয়ালারকে দেখেছেন যিনি আপনাকে পুরনো নিউজপেপার, ভাঙা গৃহস্থলিক জিনিস, খালি লাল বোতল, প্লাস্টিক ইত্যাদি ক্রয় করে সেগুলো পুনর্ব্যবহারকারীদের কাছে বিক্রি করেন? আপনি এগুলো তাকে বিক্রি করেন এবং সে সেগুলো পুনর্ব্যবহারকারীদের কাছে বিক্রি করেন। কিন্তু তার দোকানে এত জাঙ্ক থাকলে সে তার ব্যবসা ব্যবস্থাপনা করতে অনেক কঠিন লাগতো, যদি সে সেগুলো সঠিকভাবে সংগঠিত না করেন। তার অবস্থা সহজ করার জন্য সে বিভিন্ন জাঙ্ককে উপযুক্তভাবে গ্রুপ বা “শ্রেণিবিন্যাস” করেন। সে পুরনো নিউজপেপারগুলো একসাথে এনে তাদের একটি তারে বাঁধেন। তারপর সব খালি লাল বোতলকে একটি ব্যাগে সংগ্রহ করেন। সে তার দোকানের এক কোণে ধাতু জিনিসগুলো সংগ্রহ করে এবং তাদেরকে “আয়রন”, “তামা”, “অ্যালিউমিনিয়াম”, “ব্রাস” ইত্যাদি গ্রুপে ভাগ করে নেন। এভাবে সে তার জাঙ্ককে বিভিন্ন শ্রেণিতে ভাগ করেন - “নিউজপেপার”, “প্লাস্টিক”, “লাল”, “ধাতু” ইত্যাদি - এবং সেগুলোতে ক্রম আনেন। একবার তার জাঙ্ক সঠিকভাবে সাজানো এবং শ্রেণিবিন্যাস করা হলে, একজন ক্রেতা যদি কোনো নির্দিষ্ট জিনিস চায় তবে সে সেই জিনিসটি সহজে খুঁজে পায়।

একইভাবে যখন আপনি আপনার স্কুল বইগুলো কোনো ক্রমে সাজান, তখন আপনি সেগুলো ব্যবস্থাপনা করতে সহজে থাকেন। আপনি তাদের বিষয় অনুযায়ী শ্রেণিবিন্যাস করতে পারেন যেখানে প্রতিটি বিষয় একটি গ্রুপ বা শ্রেণি হয়ে ওঠে। তাই যখন আপনার ইতিহাসের একটি নির্দিষ্ট বইয়ের প্রয়োজন হয়, তখন আপনাকে শুধুমাত্র “ইতিহাস” গ্রুপে সেই বইটি খুঁজে বের করতে হয়। অন্যথায়, আপনাকে আপনার সম্পূর্ণ সংগ্রহ থেকে খুঁজে বের করতে হতো।

জিনিস বা বস্তুগুলো শ্রেণিবিন্যাস করা আমাদের দায়িত্ব এবং প্রয়োজনীয় সময় বাঁচায়, কিন্তু এটি এলেপটিক ভাবে করা হয় না। কাবাডিওয়ালার তার জাঙ্ককে পুনর্ব্যবহারকারী দ্রব্যের জন্য বাজারের অনুযায়ী গ্রুপ করেন। উদাহরণস্বরূপ, “লাল” গ্রুপে সে খালি বোতল, ভাঙা আলোকিত আবরণ এবং জানালার পেনেল ইত্যাদি রাখবেন। একইভাবে যখন আপনি আপনার ইতিহাস বইগুলোকে “ইতিহাস” গ্রুপে শ্রেণিবিন্যাস করেন, তখন আপনি একই গ্রুপে অন্য কোনো বিষয়ের বই রাখবেন না। অন্যথায়, গ্রুপিং এর সম্পূর্ণ উদ্দেশ্য হারিয়ে যাবে। তাই, শ্রেণিবিন্যাস হলো কিছু মানদণ্ডের উপর ভিত্তি করে জিনিসগুলোকে গ্রুপ বা শ্রেণিতে সাজানো বা সংগঠিত করা।

কার্যক্রম

  • আপনার স্থানীয় ডাক বিভাগে যান এবং জানুন কীভাবে চিঠিগুলো সাজানো হয়। আপনি কি জানেন যে চিঠিতে পিন-কোড কী নির্দেশ করে? আপনার ডাকচাকরকে জিজ্ঞাসা করুন।

2. মূল ডেটা

কাবাডিওয়ালারের জাঙ্কের মতো, অশ্রেণিবিন্যাস ডেটা বা মূল ডেটা খুবই অসংগঠিত। এগুলো প্রায়শই খুব বড় এবং ব্যবস্থাপনা করা কঠিন। এগুলো থেকে অর্থপূর্ণ নিষ্কর্ষ বার্তা বের করা একটি কঠিন কাজ কারণ এগুলো পরিসংখ্যান পদ্ধতিগুলোর সাথে সহজে প্রক্রিয়া হয় না। তাই কোনো ব্যবস্থাপক পরিসংখ্যান বিশ্লেষণ শুরু করার আগে এই ধরনের ডেটাগুলো সঠিকভাবে সংগঠিত এবং উপস্থাপন করা প্রয়োজন। তাই ডেটা সংগ্রহের পরবর্তী ধাপ হলো সেগুলো সংগঠিত করা এবং শ্রেণিবিন্যাস করা উপস্থাপনা করা।

ধরুন যে আপনি আপনার স্কুলের গণিতে ছাত্রদের কর্মক্ষমতা জানতে চান এবং আপনি 100 জন ছাত্রের গণিতের নম্বর সংগ্রহ করেছেন। আপনি যদি এগুলো একটি টেবিলে উপস্থাপন করেন, তবে এগুলো টেবিল 3.1 এর মতো দেখাবে।

টেবিল 3.1 একটি পরীক্ষায় 100 জন ছাত্রের গণিতে প্রাপ্ত নম্বর

47 45 10 60 51 56 66 100 49 40
60 59 56 55 62 48 59 55 51 41
42 69 64 66 50 59 57 65 62 50
64 30 37 75 17 56 20 14 55 90
62 51 55 14 25 34 90 49 56 54
70 47 49 82 40 82 60 85 65 66
49 44 64 69 70 48 12 28 55 65
49 40 25 41 71 80 0 56 14 22
66 53 46 70 43 61 59 12 30 35
45 44 57 76 82 39 32 14 90 25

অথবা আপনি আপনার পার্শ্ববর্তী এলাকার 50টি পরিবারের খাবারের মাসিক খরচ সংগ্রহ করেছেন এবং তাদের খাবারের গড় খরচ জানতে চেয়েছেন। সেই ক্ষেত্রে আপনি যদি ডেটা টেবিলে উপস্থাপন করেন, তবে এগুলো টেবিল 3.2 এর মতো দেখাবে। টেবিল 3.1 এবং 3.2 উভয়ই মূল বা অশ্রেণিবিন্যাস ডেটা। উভয় টেবিলেই আপনি দেখবেন যে সংখ্যাগুলো কোনো ক্রমে সাজানো নয়। এখন যদি আপনাকে টেবিল 3.1 থেকে গণিতে সর্বোচ্চ নম্বর জানতে বলা হয়, তবে আপনাকে প্রথমে 100 জন ছাত্রের নম্বরগুলো উত্তরাধিকার বা অবনতি অনুযায়ী সাজাতে হবে। এটি একটি কঠিন কাজ। এটি আরও কঠিন হবে, যদি বদলে 100 জনের নম্বর 1,000 জনের নম্বর হয়। একইভাবে, টেবিল 3.2 এ, আপনি দেখবেন যে 50টি পরিবারের মাসিক খরচ নির্ধারণ করা কঠিন। এবং এই কঠিনতা বাড়বে যদি সংখ্যা বড় হয় - ধরুন, 5,000টি পরিবার। আমাদের কাবাডিওয়ালারের মতো, যে জাঙ্ক বড় হয়ে যাওয়ার সাথে সাথে কোনো নির্দিষ্ট জিনিস খুঁজে পাওয়া কঠিন হয়ে যায়, আপনি যখন বড় মূল ডেটাগুলো থেকে কোনো তথ্য পেতে চেয়েছেন, তখন আপনি একই ধরনের অবস্থা দেখবেন। তাই, একটি শব্দে বলা যায়, বড় অশ্রেণিবিন্যাস ডেটাগুলো থেকে তথ্য বের করা একটি কঠিন কাজ।

টেবিল 3.2 50টি পরিবারের খাবারের মাসিক খরচ (রূপীতে)

1904 1559 3473 1735 2760
2041 1612 1753 1855 4439
5090 1085 1823 2346 1523
1211 1360 1110 2152 1183
1218 1315 1105 2628 2712
4248 1812 1264 1183 1171
1007 1180 1953 1137 2048
2025 1583 1324 2621 3676
1397 1832 1962 2177 2575
1293 1365 1146 3222 1396

মূল ডেটা সংক্ষিপ্ত করা এবং বোঝার সুবিধা করার জন্য শ্রেণিবিন্যাস করা হয়। যখন একই বৈশিষ্ট্যযুক্ত ঘটনাগুলো একই শ্রেণিতে রাখা হয়, তখন এগুলো সহজে খুঁজে পাওয়া, তুলনা করা এবং কোনো কঠিনতা ছাড়াই নিষ্কর্ষ বার্তা বের করা যায়। আপনি চ্যাপ্টার 2 এ জানেন যে ভারত সরকার প্রতি দশ বছরে জনসংখ্যা পরিষ্কার করে। জনসংখ্যা 2001 এ প্রায় 20 কোটি মানুষকে যোগাযোগ করা হয়েছিল। জনসংখ্যা পরিষ্কারের মূল ডেটা এতই বড় এবং ছিঁড়ে ফেলা যায় যে এগুলো থেকে কোনো অর্থপূর্ণ নিষ্কর্ষ বার্তা বের করা একটি অন্যতম অসম্ভব কাজ হয়ে ওঠে। কিন্তু যখন এই একই ডেটা লিঙ্গ, শিক্ষাগত যোগ্যতা, বৈবাহিক অবস্থা, চাকরি ইত্যাদি অনুযায়ী শ্রেণিবিন্যাস করা হয়, তখন ভারতের জনসংখ্যার গঠন এবং প্রকৃতি সহজে বোঝা যায়।

মূল ডেটা চলকের উপর প্রতিটি প্রতিবেদন নিয়ে আসে। টেবিল 3.1 এ এবং 3.2 এ দেওয়া মূল ডেটাগুলো একটি নির্দিষ্ট বা গ্রুপ চলকের উপর প্রতিবেদন নিয়ে আসে। উদাহরণস্বরূপ টেবিল 3.1 এ 100 জন ছাত্রের গণিতে প্রাপ্ত নম্বর আছে। এই নম্বরগুলো কীভাবে বোঝা যায়? গণিত শিক্ষক এই নম্বরগুলো দেখে চিন্তিত হবেন - আমার ছাত্ররা কীভাবে করেছেন? কয়জন পাশ করেননি? আমরা ডেটা কীভাবে শ্রেণিবিন্যাস করব তা আমাদের মনের উদ্দেশ্য উপর নির্ভর করে। এই ক্ষেত্রে, শিক্ষক চায় এই ছাত্রদের কীভাবে করেছেন তা আরও গভীরে জানতে। সে প্রায়শই সংখ্যাত্বক বিন্যাস গঠন করার চেষ্টা করবেন। এটি পরবর্তী বিভাগে আলোচনা করা হয়েছে।

কার্যক্রম

  • এক বছরের জন্য আপনার পরিবারের মোট সপ্তাহান্তিক খরচ সংগ্রহ করুন এবং এটি একটি টেবিলে সাজান। আপনার কতগুলো প্রতিবেদন আছে তা দেখুন। ডেটা মাসিক ভাবে সাজান এবং প্রতিবেদনের সংখ্যা নির্ণয় করুন।

3. ডেটা এর শ্রেণিবিন্যাস

একটি শ্রেণিবিন্যাসের গ্রুপ বা শ্রেণি বিভিন্ন ভাবে করা যায়। বিষয় অনুযায়ী - “ইতিহাস”, “ভৌগলিক”, “গণিত”, “বিজ্ঞান” ইত্যাদি - আপনার বইগুলো শ্রেণিবিন্যাস করার পাশাপাশি আপনি তাদের লেখক অনুযায়ী বর্ণানুক্রমে শ্রেণিবিন্যাস করতে পারেন। অথবা, আপনি তাদের প্রকাশিত বছর অনুযায়ীও শ্রেণিবিন্যাস করতে পারেন। আপনি যেভাবে তাদের শ্রেণিবিন্যাস করতে চান সেটি আপনার প্রয়োজন উপর নির্ভর করে।

একইভাবে মূল ডেটা উদ্দেশ্য অনুযায়ী বিভিন্ন ভাবে শ্রেণিবিন্যাস করা হয়। সেগুলো সময় অনুযায়ী গ্রুপ করা যায়। এই ধরনের শ্রেণিবিন্যাস হলো ক্রনোলজিক্যাল শ্রেণিবিন্যাস। এই ধরনের শ্রেণিবিন্যাসে, ডেটা সময়ের উপর ভিত্তি করে উত্তরাধিকার বা অবনতি অনুযায়ী শ্রেণিবিন্যাস করা হয় যেমন বছর, কোয়ার্টার, মাস, সপ্তাহ ইত্যাদি। নিম্নলিখিত উদাহরণ ভারতের জনসংখ্যা বছর অনুযায়ী শ্রেণিবিন্যাস করার দেখায়। চলক ‘জনসংখ্যা’ হলো একটি টাইম সিরিজ কারণ এটি বিভিন্ন বছরের জনসংখ্যার একটি শ্রেণিবিন্যাস প্রদর্শন করে।

উদাহরণ 1

ভারতের জনসংখ্যা (কোটি ব্যবহার করে)

বছর জনসংখ্যা (কোটি)
1951 35.7
1961 43.8
1971 54.6
1981 68.4
1991 81.8
2001 102.7
2011 121.0

স্পাটিয়াল শ্রেণিবিন্যাসে, ডেটা ভৌগলিক অবস্থান অনুযায়ী শ্রেণিবিন্যাস করা হয় যেমন দেশ, রাজ্য, শহর, জেলা ইত্যাদি।

উদাহরণ 2 দেখায় যে বিভিন্ন দেশের গমের উৎপাদন।

উদাহরণ 2

বিভিন্ন দেশের গমের উৎপাদন (2013)

দেশ গমের উৎপাদন (কেজি/হেক্টার)
কানাডা 3594
চীন 5055
ফ্রান্স 7254
জার্মানি 7998
ভারত 3154
পাকিস্তান 2787

উৎস: ভারতীয় কৃষি পরিসংখ্যান দ্রুত দেখুন, 2015

কার্যক্রম

  • উদাহরণ 1 এ, জানুন ভারতের জনসংখ্যা কোন বছর ন্যূনতম এবং সর্বোচ্চ ছিল।
  • উদাহরণ 2 এ, জানুন কোন দেশের গমের উৎপাদন ভারতের চেয়ে একটু বেশি। এটি শতকরা হিসাবে কত হবে?
  • উদাহরণ 2 এর দেশগুলোকে উৎপাদন অনুযায়ী উত্তরাধিকার অনুযায়ী সাজান। একই কাজ উৎপাদন অনুযায়ী অবনতি অনুযায়ী করুন।

কখনো কখনো আপনি পরিমাণগতভাবে প্রকাশ করা যায় না এমন বৈশিষ্ট্যগুলো দেখেন। এই ধরনের বৈশিষ্ট্যগুলো হলো বৈশিষ্ট্য। উদাহরণস্বরূপ, জাতীয়তা, সাক্ষরতা, ধর্ম, লিঙ্গ, বৈবাহিক অবস্থা ইত্যাদি। এগুলো মাপা যায় না। তবুও এই বৈশিষ্ট্যগুলো একটি নৈরাত্ম্য বৈশিষ্ট্যের উপস্থিতি বা অনুপস্থিতি অনুযায়ী শ্রেণিবিন্যাস করা যায়। এই ধরনের বৈশিষ্ট্যের উপর ভিত্তি করে ডেটা শ্রেণিবিন্যাস করা হয় নৈরাত্ম্য শ্রেণিবিন্যাস। নিম্নলিখিত উদাহরণে, আমরা একটি দেশের জনসংখ্যা নৈরাত্ম্য চলক “লিঙ্গ” অনুযায়ী গ্রুপ করেছি। একটি প্রতিবেদন হতে পারে একজন পুরুষ বা একজন মহিলা। এই দুটি বৈশিষ্ট্যগুলো নিম্নলিখিতভাবে বৈবাহিক অবস্থা অনুযায়ী আরও শ্রেণিবিন্যাস করা যায়:

উদাহরণ 3

প্রথম ধাপের শ্রেণিবিন্যাস একটি বৈশিষ্ট্যের উপস্থিতি এবং অনুপস্থিতি অনুযায়ী হয়, যেমন পুরুষ না পুরুষ (মহিলা)। দ্বিতীয় ধাপে, প্রতিটি শ্রেণি - পুরুষ এবং মহিলা - আরও একটি বৈশিষ্ট্যের উপস্থিতি বা অনুপস্থিতি অনুযায়ী অন্য একটি বৈশিষ্ট্যের উপস্থিতি বা অনুপস্থিতি অনুযায়ী ভাগ করা হয়, যেমন বিবাহিত বা অবিবাহিত। উচ্চতা, ওজন, বয়, আয়, ছাত্রদের নম্বর ইত্যাদি এই ধরনের বৈশিষ্ট্য হলো পরিমাণগত প্রকৃতির। এই ধরনের বৈশিষ্ট্যের সংগ্রহকৃত ডেটা শ্রেণিতে গ্রুপ করা হলে এটি পরিমাণগত শ্রেণিবিন্যাস হয়ে ওঠে।

কার্যক্রম

  • আপনার চারপাশের বস্তুগুলো জীবিত বা অজীবিত হিসাবে গ্রুপ করা যায়। এটি কি একটি নৈরাত্ম্য শ্রেণিবিন্যাস?

উদাহরণ 4

100 জন ছাত্রের গণিতে নম্বরের সংখ্যাত্বক বিন্যাস

নম্বর সংখ্যা
0-10 1
10-20 8
20-30 6
30-40 7
40-50 21
50-60 23
60-70 19
70-80 6
80-90 5
90-100 4
মোট 100

উদাহরণ 4 দেখায় যে টেবিল 3.1 এ দেওয়া 100 জন ছাত্রের গণিতে নম্বরের পরিমাণগত শ্রেণিবিন্যাস।

কার্যক্রম

  • উদাহরণ 4 এর সংখ্যা মানগুলো মোট সংখ্যার হিসাবে প্রতিশত বা প্রতিশতকরা হিসাবে প্রকাশ করুন। এইভাবে প্রকাশ করা সংখ্যা মান হিসাবে পরিচিত যেন সংখ্যাত্বক সংখ্যা।
  • উদাহরণ 4 এ, কোন শ্রেণিতে ডেটার সর্বোচ্চ সংক্ষিপ্ততা আছে? এটি মোট প্রতিবেদনের হিসাবে প্রকাশ করুন। কোন শ্রেণিতে ডেটার সর্বনিম্ন সংক্ষিপ্ততা আছে?

4. চলক; অবিরাম এবং সম্পূর্ণরূপ

চলকের একটি সহজ সংজ্ঞা, যা আপনি গত চ্যাপ্টারে পড়েছেন, আপনাকে কীভাবে এটি পরিবর্তন করে তা বলে না। চলকগুলো নির্দিষ্ট মানদণ্ড অনুযায়ী পরিবর্তিত হয়। এগুলো প্রধানত দুটি ধরনের হয়:

(i) অবিরাম এবং অবিচ্ছিন্ন

(ii) সম্পূর্ণরূপ।

একটি অবিরাম চলক যে কোনো সংখ্যাগত মান নেয়। এটি পূর্ণ সংখ্যাগুলো $(1,2,3,4,\ldots)$, ভগ্নাংশের মান $(1 / 2,2 / 3,3 / 4,\ldots)$, এবং সঠিক ভগ্নাংশ নয় এমন মান $(\sqrt{2}=1.414$, $\sqrt{3}=1.732,\ldots,\sqrt{7}=2.645$ নেয়। উদাহরণস্বরূপ, একজন ছাত্রের উচ্চতা, যে ছাত্র $90 \mathrm{~cm}$ থেকে $150 \mathrm{~cm}$ বছর বয়সে বয় বাড়ছে, সেটি তাদের মধ্যে সব মান নেয়। এটি পূর্ণ সংখ্যাগুলো যেমন $90 \mathrm{~cm}, 100 \mathrm{~cm}, 108 \mathrm{~cm}, 150 \mathrm{~cm}$ নেয়। এটি ভগ্নাংশের মান যেমন 90.85 $\mathrm{cm}, 102.34 \mathrm{~cm}, 149.99 \mathrm{~cm}$ ইত্যাদি নেয় যা পূর্ণ সংখ্যা নয়। তাই চলক “উচ্চতা” প্রতিটি সম্ভব মানে প্রকাশ করতে সক্ষম এবং এর মানগুলো অনন্ত গ্রেডেশনে ভাগ করা যায়। অবিরাম চলকের অন্যান্য উদাহরণ ওজন, সময়, দূরত্ব ইত্যাদি।

একটি অবিরাম চলকের মতো করে, একটি সম্পূর্ণরূপ চলক শুধুমাত্র নির্দিষ্ট মান নেয়। এর মান শুধুমাত্র সীমাবদ্ধ “জাম্প” দ্বারা পরিবর্তিত হয়। এটি একটি মান থেকে অন্য মানে জাম্প করে কিন্তু তাদের মধ্যে কোনো মান নেয় না। উদাহরণস্বরূপ, একটি শ্রেণিতে ছাত্রদের সংখ্যা এমন একটি চলক যে বিভিন্ন শ্রেণিতে মাত্র পূর্ণ সংখ্যাগুলো নেয়। এটি কোনো ভগ্নাংশের মান যেমন 0.5 নেয় না কারণ “এক অর্ধ ছাত্র” অসম্ভব। তাই এটি 25 এবং 26 এর মধ্যে 25.5 এর মতো কোনো মান নেয় না। বরং এর মান হতে পারে শুধুমাত্র 25 বা 26। আমরা দেখি যে এর মান 25 থেকে 26 এ পরিবর্তিত হয়, তাদের মধ্যে থাকা ভগ্নাংশগুলো তা নেয় না। কিন্তু আমাদের মনে রাখা উচিত যে একটি সম্পূর্ণরূপ চলক কোনো ভগ্নাংশের মান নেয় না। ধরুন $X$ একটি চলক যে $1 / 8,1$ / $16,1 / 32,1 / 64,\ldots$ এর মতো মান নেয়। এটি কি একটি সম্পূর্ণরূপ চলক? হ্যাঁ, কারণ $\mathrm{X}$ ভগ্নাংশের মান নেয় কিন্তু দুটি পাশাপাশি ভগ্নাংশের মানের মধ্যে কোনো মান নেয় না। এটি $1 /$ 8 থেকে $1 / 16$ এবং $1 / 16$ থেকে $1 / 32$ এ পরিবর্তিত বা “জাম্প” করে। কিন্তু এটি $1 / 8$ এবং