અધ્યાય 13 આંકડાશાસ્ત્ર
“આંકડાશાસ્ત્રને સરેરાશ અને તેના અંદાજોનું વિજ્ઞાન કહેવું યોગ્ય છે.” - એ.એલ.બોઉલી અને એ.એલ. બોડિંગ્ટન
પ્રસ્તાવના
આપણે જાણીએ છીએ કે આંકડાશાસ્ત્ર ચોક્કસ હેતુઓ માટે એકત્રિત કરેલા ડેટા સાથે વ્યવહાર કરે છે. તેનું વિશ્લેષણ અને અર્થઘટન કરીને આપણે ડેટા વિશે નિર્ણયો લઈ શકીએ છીએ. અગાઉની કક્ષાઓમાં, આપણે ડેટાને ગ્રાફિકલી અને ટેબ્યુલર સ્વરૂપમાં રજૂ કરવાની પદ્ધતિઓનો અભ્યાસ કર્યો છે. આ રજૂઆત ડેટાની કેટલીક મુખ્ય વિશેષતાઓ અથવા લાક્ષણિકતાઓ ઉઘાડી પાડે છે. આપણે આપેલા ડેટા માટે પ્રતિનિધિત્વ મૂલ્ય શોધવાની પદ્ધતિઓનો પણ અભ્યાસ કર્યો છે. આ મૂલ્યને કેન્દ્રીય વલણનું માપ કહેવામાં આવે છે. યાદ કરો કે સરેરાશ (અંકગણિત સરેરાશ), મધ્યસ્થ અને બહુલક એ કેન્દ્રીય વલણના ત્રણ માપ છે. કેન્દ્રીય વલણનું માપ આપણને એક રફ ખ્યાલ આપે છે કે ડેટા પોઈન્ટ્સ ક્યાં કેન્દ્રિત છે. પરંતુ, તેમાંથી વધુ સારું અર્થઘટન કરવા માટે

કાર્લ પીઅર્સન (1857-1936 A.D.)
ડેટા, આપણે એ પણ ખ્યાલ હોવો જોઈએ કે ડેટા કેવી રીતે વેરવિખેર છે અથવા કેન્દ્રીય વલણના માપની આસપાસ તેઓ કેટલા ભેગા થયેલા છે.
હવે બે બેટ્સમેન દ્વારા તેમના છેલ્લા દસ મેચમાં કરેલા રનને ધ્યાનમાં લો:
બેટ્સમેન A : $30,91,0,64,42,80,30,5,117,71$
બેટ્સમેન B : $53,46,48,50,53,53,58,60,57,52$
સ્પષ્ટ છે, ડેટાનું સરેરાશ અને મધ્યસ્થ છે
| બેટ્સમેન A | બેટ્સમેન B | |
|---|---|---|
| સરેરાશ | 53 | 53 |
| મધ્યસ્થ | 53 | 53 |
યાદ કરો કે, આપણે ડેટાનું સરેરાશ ($\bar{x}$ દ્વારા દર્શાવેલ) નિરીક્ષણોની સંખ્યા દ્વારા નિરીક્ષણોના સરવાળાને વિભાજીત કરીને ગણીએ છીએ, એટલે કે,
$ \bar{x}=\frac{1}{n} \sum\limits_{i=1}^{n} x_i $
ઉપરાંત, મધ્યસ્થ પ્રથમ ડેટાને ચડતા અથવા ઉતરતા ક્રમમાં ગોઠવીને અને નીચેના નિયમ લાગુ કરીને મેળવવામાં આવે છે.
જો નિરીક્ષણોની સંખ્યા વિષમ છે, તો મધ્યસ્થ $(\frac{n+1}{2})^{\text{th }}$ નિરીક્ષણ છે.
જો નિરીક્ષણોની સંખ્યા સમ છે, તો મધ્યસ્થ $(\frac{n}{2})^{\text{th }}$ અને $(\frac{n}{2}+1)^{\text{th }}$ નિરીક્ષણોનું સરેરાશ છે.
આપણે શોધીએ છીએ કે બંને બેટ્સમેન $A$ અને B દ્વારા કરેલા રનનું સરેરાશ અને મધ્યસ્થ સમાન છે એટલે કે, 53. શું આપણે કહી શકીએ કે બંને ખેલાડીઓનું પ્રદર્શન સમાન છે? સ્પષ્ટપણે ના, કારણ કે બેટ્સમેન A ના સ્કોરમાં ચલનશીલતા 0 (ન્યૂનતમ) થી 117 (મહત્તમ) સુધીની છે. જ્યારે, બેટ્સમેન B દ્વારા કરેલા રનની રેન્જ 46 થી 60 સુધીની છે.
ચાલો હવે ઉપરના સ્કોરને નંબર લાઇન પર બિંદુઓ તરીકે પ્લોટ કરીએ. આપણે નીચેના આકૃતિઓ શોધીએ છીએ:
બેટ્સમેન A માટે

આકૃતિ 13.1
બેટ્સમેન B માટે

આકૃતિ 13.2
આપણે જોઈ શકીએ છીએ કે બેટ્સમેન B ને અનુરૂપ બિંદુઓ એકબીજાની નજીક છે અને કેન્દ્રીય વલણના માપ (સરેરાશ અને મધ્યસ્થ) ની આસપાસ ક્લસ્ટરિંગ કરી રહ્યા છે, જ્યારે બેટ્સમેન A ને અનુરૂપ બિંદુઓ વેરવિખેર અથવા વધુ ફેલાયેલા છે.
આમ, કેન્દ્રીય વલણના માપ આપેલા ડેટા વિશે સંપૂર્ણ માહિતી આપવા માટે પર્યાપ્ત નથી. ચલનશીલતા એ બીજો પરિબળ છે જેનો આંકડાશાસ્ત્ર હેઠળ અભ્યાસ કરવો જરૂરી છે. ‘કેન્દ્રીય વલણના માપ’ની જેમ આપણે ચલનશીલતાનું વર્ણન કરવા માટે એક જ સંખ્યા ઇચ્છીએ છીએ. આ એક સંખ્યાને ‘વિખેરવાનું માપ’ કહેવામાં આવે છે. આ અધ્યાયમાં, આપણે વિખેરવાના કેટલાક મહત્વપૂર્ણ માપ અને તેમની ગણતરીની પદ્ધતિઓનો અભ્યાસ કરીશું જે અસમૂહિત અને સમૂહિત ડેટા માટે છે.
13.2 વિખેરવાના માપ
ડેટામાં વિખેરવું અથવા વેરવિખેર નિરીક્ષણોના આધારે અને ત્યાં વપરાતા કેન્દ્રીય વલણના માપના પ્રકારોના આધારે માપવામાં આવે છે. વિખેરવાના નીચેના માપ છે:
(i) રેન્જ, (ii) ચતુર્થાંક વિચલન, (iii) સરેરાશ વિચલન, (iv) પ્રમાણભૂત વિચલન.
આ અધ્યાયમાં, આપણે ચતુર્થાંક વિચલન સિવાય આ બધા વિખેરવાના માપનો અભ્યાસ કરીશું.
13.3 રેન્જ
યાદ કરો કે, બે બેટ્સમેન A અને B દ્વારા કરેલા રનના ઉદાહરણમાં, આપણને દરેક શ્રેણીમાં ન્યૂનતમ અને મહત્તમ રનના આધારે સ્કોરમાં ચલનશીલતાનો કંઈક ખ્યાલ હતો. આ માટે એક જ સંખ્યા મેળવવા માટે, આપણે દરેક શ્રેણીના મહત્તમ અને ન્યૂનતમ મૂલ્યોનો તફાવત શોધીએ છીએ. આ તફાવતને ડેટાની ‘રેન્જ’ કહેવામાં આવે છે.
બેટ્સમેન A ના કિસ્સામાં, રેન્જ $=117-0=117$ અને બેટ્સમેન B માટે, રેન્જ $=60-46=14$. સ્પષ્ટ છે, A ની રેન્જ $>$ $B$ ની રેન્જ. તેથી, A ના કિસ્સામાં સ્કોર વેરવિખેર અથવા વિખેરાયેલા છે જ્યારે B માટે આ એકબીજાની નજીક છે.
આમ, શ્રેણીની રેન્જ $=$ મહત્તમ મૂલ્ય - ન્યૂનતમ મૂલ્ય.
ડેટાની રેન્જ આપણને ચલનશીલતા અથવા વેરવિખેરનો રફ ખ્યાલ આપે છે પરંતુ કેન્દ્રીય વલણના માપથી ડેટાના વિખેરવા વિશે કહેતી નથી. આ હેતુ માટે, આપણને ચલનશીલતાના અન્ય કેટલાક માપની જરૂર છે. સ્પષ્ટ છે, આવા માપ કેન્દ્રીય વલણથી મૂલ્યોના તફાવત (અથવા વિચલન) પર આધારિત હોવા જોઈએ.
વિખેરવાના મહત્વપૂર્ણ માપ, જે કેન્દ્રીય વલણથી નિરીક્ષણોના વિચલનો પર આધારિત છે, તે સરેરાશ વિચલન અને પ્રમાણભૂત વિચલન છે. ચાલો તેમની વિગતવાર ચર્ચા કરીએ.
13.4 સરેરાશ વિચલન
યાદ કરો કે નિરીક્ષણ $x$ નું નિશ્ચિત મૂલ્ય ‘$a$’ થી વિચલન એ તફાવત $x-a$ છે. $x$ ના મૂલ્યોના ‘$a$’ કેન્દ્રીય મૂલ્યથી વિખેરવું શોધવા માટે, આપણે $a$ વિશે વિચલનો શોધીએ છીએ. વિખેરવાનું એક સંપૂર્ણ માપ એ આ વિચલનોનું સરેરાશ છે. સરેરાશ શોધવા માટે, આપણે વિચલનોનો સરવાળો મેળવવો જોઈએ. પરંતુ, આપણે જાણીએ છીએ કે કેન્દ્રીય વલણનું માપ નિરીક્ષણોના સમૂહના મહત્તમ અને ન્યૂનતમ મૂલ્યો વચ્ચે રહે છે. તેથી, કેટલાક વિચલનો નકારાત્મક અને કેટલાક ધન હશે. આમ, વિચલનોનો સરવાળો શૂન્ય થઈ શકે છે. વધુમાં, સરેરાશ $(\bar{x})$ થી વિચલનોનો સરવાળો શૂન્ય છે.
ઉપરાંત $\quad \quad \quad $ વિચલનોનું સરેરાશ $=\frac{\text{ Sum of deviations }}{\text{ Number of observations }}=\frac{0}{n}=0$
આમ, વિખેરવાના માપ તરીકે, સરેરાશ વિશે વિચલનોનું સરેરાશ શોધવું આપણા માટે કોઈ ઉપયોગનું નથી.
યાદ રાખો કે, વિખેરવાનું યોગ્ય માપ શોધવામાં, આપણે દરેક મૂલ્યનું કેન્દ્રીય વલણ અથવા નિશ્ચિત સંખ્યા ‘$a$’ થી અંતર જોઈએ છે. યાદ કરો કે, બે સંખ્યાઓના તફાવતનું સંપૂર્ણ મૂલ્ય નંબર લાઇન પર રજૂ કરવામાં આવે ત્યારે સંખ્યાઓ વચ્ચેનું અંતર આપે છે. આમ, નિશ્ચિત સંખ્યા ‘$a$’ થી વિખેરવાનું માપ શોધવા માટે આપણે કેન્દ્રીય મૂલ્યથી વિચલનોના સંપૂર્ણ મૂલ્યોનું સરેરાશ લઈ શકીએ છીએ. આ સરેરાશને ‘સરેરાશ વિચલન’ કહેવામાં આવે છે. આમ કેન્દ્રીય મૂલ્ય ‘$a$’ વિશે સરેરાશ વિચલન એ ‘$a$’ થી નિરીક્ષણોના વિચલનોના સંપૂર્ણ મૂલ્યોનું સરેરાશ છે. ‘$a$’ થી સરેરાશ વિચલનને M.D. (a) તરીકે દર્શાવવામાં આવે છે. તેથી,
$ \text{ M.D. }(a)=\frac{\text{ Sum of absolute values of deviations from ’ } a \text{ ’ }}{\text{ Number of observations }} . $
ટિપ્પણી સરેરાશ વિચલન કેન્દ્રીય વલણના કોઈપણ માપથી મેળવી શકાય છે. જો કે, સરેરાશ અને મધ્યસ્થથી સરેરાશ વિચલનનો ઉપયોગ આંકડાકીય અભ્યાસમાં સામાન્ય રીતે થાય છે.
13.4.1 અસમૂહિત ડેટા માટે સરેરાશ વિચલન
$n$ નિરીક્ષણો $x_1, x_2, x_3, \ldots ., x_n$ થવા દો. સરેરાશ વિચલન સરેરાશ અથવા મધ્યસ્થ વિશે ગણતરીમાં નીચેના પગલાં સામેલ છે:
પગલું 1 કેન્દ્રીય વલણનું માપ ગણો જે વિશે આપણે સરેરાશ વિચલન શોધવાનું છે. તેને ‘$a$’ થવા દો.
પગલું 2 દરેક $x_i$ નું $a$ થી વિચલન શોધો, એટલે કે, $x_1-a, x_2-a, x_3-a, \ldots, x_n-a$
પગલું 3 વિચલનોના સંપૂર્ણ મૂલ્યો શોધો, એટલે કે, માઈનસ ચિહ્ન (-) છોડી દો, જો તે ત્યાં હોય, એટલે કે, $|x_1-a|,|x_2-a|,|x_3-a|, \ldots .,|x_n-a|$
પગલું 4 વિચલનોના સંપૂર્ણ મૂલ્યોનું સરેરાશ શોધો. આ સરેરાશ $a$ વિશે સરેરાશ વિચલન છે, એટલે કે,
$ \text{ M.D. }(a)=\frac{\sum\limits_{i=1}^{n}|x_i-a|}{n} $
આમ $\quad\quad\quad$ M.D. $(\bar{x})=\frac{1}{n} \sum\limits_{i=1}^{n}|x_i-\bar{x}|$, જ્યાં $\bar{x}=$ સરેરાશ
અને $\quad\quad\quad$ M.D. $(M)=\frac{1}{n} \sum\limits_{i=1}^{n}|x_i-M|$, જ્યાં $M=$ મધ્યસ્થ
નોંધ - આ અધ્યાયમાં, જ્યાં સુધી અન્યથા ન કહેવામાં આવે ત્યાં સુધી આપણે મધ્યસ્થ દર્શાવવા માટે M ચિહ્નનો ઉપયોગ કરીશું. ચાલો હવે નીચેના ઉદાહરણોમાં ઉપરોક્ત પદ્ધતિના પગલાં સમજાવીએ.
ઉદાહરણ 1 નીચેના ડેટા માટે સરેરાશ વિશે સરેરાશ વિચલન શોધો:
$ 6,7,10,12,13,4,8,12 $
ઉકેલ આપણે પગલું-દર-પગલું આગળ વધીએ છીએ અને નીચેના મેળવીએ છીએ:
પગલું 1 આપેલા ડેટાનું સરેરાશ છે
$ \bar{x}=\frac{6+7+10+12+13+4+8+12}{8}=\frac{72}{8}=9 $
પગલું 2 અનુરૂપ નિરીક્ષણોનું સરેરાશ $\bar{x}$ થી વિચલન, એટલે કે, $x_i-\bar{x}$ છે
$\quad\quad\quad\quad 6-9,7-9,10-9,12-9,13-9,4-9,8-9,12-9$,
અથવા $ \quad\quad\quad\quad -3,-2,1,3,4,-5,-1,3 $
પગલું 3 વિચલનોના સંપૂર્ણ મૂલ્યો, એટલે કે, $|x_i-\bar{x}|$ છે
$ 3,2,1,3,4,5,1,3 $
પગલું 4 સરેરાશ વિશે જરૂરી સરેરાશ વિચલન છે
$ \text{ M.D. } \begin{aligned} (\bar{x}) & =\frac{\sum\limits_{i=1}^{8}|x_i-\bar{x}|}{8} \\ & =\frac{3+2+1+3+4+5+1+3}{8}=\frac{22}{8}=2.75 \end{aligned} $
નોંધ - દરેક વખતે પગલાં કરવાને બદલે, આપણે પગલાંનો સંદર્ભ લીધા વિના પગલું-દર-પગલું ગણતરી ચાલુ રાખી શકીએ છીએ.
ઉદાહરણ 2 નીચેના ડેટા માટે સરેરાશ વિશે સરેરાશ વિચલન શોધો:
$ 12,3,18,17,4,9,17,19,20,15,8,17,2,3,16,11,3,1,0,5 $
ઉકેલ આપણે પ્રથમ આપેલા ડેટાનું સરેરાશ $(\bar{x})$ શોધવું પડશે
$ \bar{x}=\frac{1}{20} \sum\limits_{i=1}^{20} x_i=\frac{200}{20}=10 $
સરેરાશથી વિચલનોના અનુરૂપ સંપૂર્ણ મૂલ્યો, એટલે કે, $|x_i-\bar{x}|$ છે
$ 2,7,8,7,6,1,7,9,10,5,2,7,8,7,6,1,7,9,10,5 $
તેથી $\quad \sum\limits_{i=1}^{20}|x_i-\bar{x}|=124$
અને $ \quad\quad\quad\quad\text{ M.D. }(\bar{x})=\frac{124}{20}=6.2 $
ઉદાહરણ 3 નીચેના ડેટા માટે મધ્યસ્થ વિશે સરેરાશ વિચલન શોધો:
$ 3,9,5,3,12,10,18,4,7,19,21 \text{. } $
ઉકેલ અહીં નિરીક્ષણોની સંખ્યા 11 છે જે વિષમ છે. ડેટાને ચડતા ક્રમમાં ગોઠવીને, આપણી પાસે $3,3,4,5,7,9,10,12,18,19,21$ છે
હવે
$ \text{ Median }=(\frac{11+1}{2})^{\text{th }} \text{ or } 6^{\text{th }} \text{ observation }=9 $
મધ્યસ્થથી અનુરૂપ વિચલનોના સંપૂર્ણ મૂલ્યો, એટલે કે, $|x_i-\mathbf{M}|$ છે $6,6,5,4,2,0,1,3,9,10,12$
તેથી $ \quad\quad\quad\quad\quad \sum\limits_{i=1}^{11}|x_i-M|=58 $
અને $ \quad\quad\quad\text{ M.D. }(M)=\frac{1}{11} \sum\limits_{i=1}^{11}|x_i-M|=\frac{1}{11} \times 58=5.27 $
13.4.2 સમૂહિત ડેટા માટે સરેરાશ વિચલન
આપણે જાણીએ છીએ કે ડેટાને બે રીતે સમૂહિત કરી શકાય છે:
(a) અસતત આવૃત્તિ વિતરણ,
(b) સતત આવૃત્તિ વિતરણ.
ચાલો બંને પ્રકારના ડેટા માટે સરેરાશ વિચલન શોધવાની પદ્ધતિની ચર્ચા કરીએ.
(a) અસતત આવૃત્તિ વિતરણ આપેલા ડેટામાં $n$ અલગ મૂલ્યો $x_1, x_2, \ldots, x_n$ અનુક્રમે $f_1, f_2, \ldots, f_n$ આવૃત્તિઓ સાથે થતા હોય છે. આ ડેટાને નીચે આપેલા ટેબ્યુલર સ્વરૂપમાં રજૂ કરી શકાય છે, અને તેને અસતત આવૃત્તિ વિતરણ કહેવામાં આવે છે:
$ \begin{matrix} x: x_1 & x_2 & x_3 \ldots x_n \\ f: f_1 & f_2 & f_3 \ldots f_n \end{matrix} $
(i) સરેરાશ વિશે સરેરાશ વિચલન
સૌપ્રથમ આપણે આપેલા ડેટાનું સરેરાશ $\bar{x}$ સૂત્રનો ઉપયોગ કરીને શોધીએ છીએ
$ \bar{x}=\frac{\sum\limits_{i=1}^{n} x_i f_i}{\sum\limits_{i=1}^{n} f_i}=\frac{1}{N} \sum\limits_{i=1}^{n} x_i f_i $
જ્યાં $\sum\limits_{i=1}^{n} x_i f_i$ નિરીક્ષણો $x_i$ ના તેમની અનુરૂપ આવૃત્તિઓ $f_i$ સાથેના ગુણાકારોના સરવાળાને દર્શાવે છે અને $N=\sum\limits_{i=1}^{n} f_i$ આવૃત્તિઓનો સરવાળો છે.
પછી, આપણે નિરીક્ષણો $x_i$ નું સરેરાશ $\bar{x}$ થી વિચલન શોધીએ છીએ અને તેમના સંપૂર્ણ મૂલ્યો લઈએ છીએ, એટલે કે, $|x_i-\bar{x}|$ બધા $i=1,2, \ldots, n$ માટે.
આ પછી, વિચલનોના સંપૂર્ણ મૂલ્યોનું સરેરાશ શોધો, જે સરેરાશ વિશે જરૂરી સરેરાશ વિચલન છે. આમ
$ \quad\quad\text{ M.D. }(\bar{x})=\frac{\sum\limits_{i=1}^{n} f_i|x_i-\bar{x}|}{\sum\limits_{i=1}^{n} f_i}=\frac{1}{N} \sum\limits_{i=1}^{n} f_i|x_i-\bar{x}| $
(ii) મધ્યસ્થ વિશે સરેરાશ વિચલન મધ્યસ્થ વિશે સરેરાશ વિચલન શોધવા માટે, આપણે આપેલા અસતત આવૃત્તિ વિતરણનું મધ્યસ્થ શોધીએ છીએ. આ માટે નિરીક્ષણોને ચડતા ક્રમમાં ગોઠવવામાં આવે છે. આ પછી સંચિત આવૃત્તિઓ મેળવવામાં આવે છે. પછી, આપણે તે નિરીક્ષણને ઓળખીએ છીએ જેની સંચિત આવૃત્તિ $\frac{N}{2}$ ની બરાબર અથવા થોડી વધુ છે, જ્યાં $N$ આવૃત્તિઓનો સરવાળો છે. નિરીક્ષણનું આ મૂલ્ય ડેટાની મધ્યમાં આવેલું છે, તેથી, તે જરૂરી મધ્યસ્થ છે. મધ્યસ્થ શોધ્યા પછી, આપણે મધ્યસ્થથી વિચલનોના સંપૂર્ણ મૂલ્યોનું સરેરાશ મેળવીએ છીએ. આમ,
$ \text{ M.D.(M) }=\frac{1}{N} \sum\limits_{i=1}^{n} f_i|x_i-M| $
ઉદાહરણ 4 નીચેના ડેટા માટે સરેરાશ વિશે સરેરાશ વિચલન શોધો:
| $x_i$ | 2 | 5 | 6 | 8 | 10 | 12 |
|---|---|---|---|---|---|---|
| $f_i$ | 2 | 8 | 10 | 7 | 8 | 5 |
ઉકેલ ચાલો આપેલા ડેટાનું કોષ્ટક 13.1 બનાવીએ અને ગણતરીઓ પછી અન્ય કૉલમ ઉમેરીએ.
કોષ્ટક 13.1
| $x_i$ | $f_i$ | $f_i x_i$ | $|x_i-\bar{x}|$ | $f_i|x_i-\bar{x}|$ |
|---|---|---|---|---|
| 2 | 2 | 4 | 5.5 | 11 |
| 5 | 8 | 40 | 2.5 | 20 |
| 6 | 10 | 60 | 1.5 | 15 |
| 8 | 7 | 56 | 0.5 | 3.5 |
| 10 | 8 | 80 | 2.5 | 20 |
| 12 | 5 | 60 | 4.5 | 22.5 |
| 40 | 300 | 92 |
$ N=\sum\limits_{i=1}^{6} f_i=40, \quad \sum\limits_{i=1}^{6} f_i x_i=300, \quad \sum\limits_{i=1}^{6} f_i|x_i-\bar{x}|=92 $
તેથી $ \quad \quad \quad\bar{x}=\frac{1}{N} \sum\limits_{i=1}^{6} f_i x_i=\frac{1}{40} \times 300=7.5 $
અને $\quad \quad \quad$ M. D. $(\bar{x})=\frac{1}{N} \sum\limits_{i=1}^{6} f_i|x_i-\bar{x}|=\frac{1}{40} \times 92=2.3$
ઉદાહરણ 5 નીચેના ડેટા માટે મધ્યસ્થ વિશે સરેરાશ વિચલન શોધો:
| $x_i$ | 3 | 6 | 9 | 12 | 13 |