ਅਧਿਆਇ 09 ਬਾਇਓਇਨਫਾਰਮੈਟਿਕਸ ਦੀ ਜਾਣ-ਪਛਾਣ

9.1 ਜੀਵ-ਵਿਗਿਆਨਕ ਪ੍ਰਣਾਲੀਆਂ ਅਤੇ ਪ੍ਰਕਿਰਿਆਵਾਂ ਨੂੰ ਸਮਝਣ ਲਈ ਬੁਨਿਆਦੀ ਗਣਿਤਿਕ ਅਤੇ ਅੰਕੜਾਵਿਗਿਆਨਕ ਸੰਕਲਪਾਂ ਦੀ ਉਪਯੋਗਿਤਾ

ਇਸ ਅਧਿਆਇ ਦਾ ਉਦੇਸ਼ ਤੁਹਾਨੂੰ ਇਹ ਦੱਸਣਾ ਹੈ ਕਿ ਗਣਿਤ ਅਤੇ ਅੰਕੜਾ ਵਿਗਿਆਨ ਦੀਆਂ ਬੁਨਿਆਦੀ ਸੰਕਲਪਾਂ ਦੀ ਸਮਝ ਜੀਵ ਵਿਗਿਆਨੀ ਲਈ ਕਿਉਂ ਮਹੱਤਵਪੂਰਨ ਹੈ।

ਕਿਸੇ ਵੀ ਜੀਵ-ਵਿਗਿਆਨਕ ਪ੍ਰਯੋਗ ਦਾ ਨਤੀਜਾ ਡੇਟਾ ਹੁੰਦਾ ਹੈ। ਪਹਿਲਾਂ, ਜੀਵ ਵਿਗਿਆਨੀ ਸੋਫਿਸਟੀਕੇਟਡ ਸਾਫਟਵੇਅਰ, ਕੰਪਿਊਟੇਸ਼ਨਲ ਟੂਲਾਂ, ਅਤੇ ਅੰਕੜਾਵਿਗਿਆਨਕ ਟੈਸਟਾਂ ਦੀ ਮਦਦ ਤੋਂ ਬਿਨਾਂ ਡੇਟਾ ਤਿਆਰ ਕਰਦੇ ਅਤੇ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਦੇ ਸਨ। ਹਾਲਾਂਕਿ, ਹੁਣ ਇਹ ਕੇਸ ਨਹੀਂ ਹੈ। ਹਾਈ-ਥ੍ਰੋਪੁੱਟ ਡੀਐਨਏ ਸੀਕੁਐਂਸਰਾਂ, ਸ਼ਕਤੀਸ਼ਾਲੀ ਮਾਈਕ੍ਰੋਸਕੋਪਾਂ, ਅਤੇ ਹੋਰ ਇਮੇਜਿੰਗ ਸਿਸਟਮਾਂ, ਅਤੇ ਵੱਡੀ ਮਾਤਰਾ ਵਿੱਚ ਡੇਟਾ ਤਿਆਰ ਕਰਨ ਦੇ ਸਮਰੱਥ ਵਿਸ਼ਲੇਸ਼ਣਾਤਮਕ ਉਪਕਰਣਾਂ ਵਰਗੇ ਉਪਕਰਣਾਂ ਦੇ ਆਗਮਨ ਨਾਲ, ਜੀਵ ਵਿਗਿਆਨੀ ਹੁਣ ਆਪਣੀਆਂ ਨੋਟਬੁੱਕਾਂ ਅਤੇ ਐਕਸਲ ਸ਼ੀਟਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਡੇਟਾ ਨਾਲ ਨਹੀਂ ਨਜਿੱਠ ਸਕਦੇ। ਇਸ ਦੀ ਬਜਾਏ, ਉਨ੍ਹਾਂ ਨੂੰ ਡੇਟਾ ਨੂੰ ਸੰਭਾਲਣ ਲਈ ਕੰਪਿਊਟੇਸ਼ਨਲ ਅਤੇ ਅੰਕੜਾਵਿਗਿਆਨਕ ਟੂਲਾਂ ਦੀ ਲੋੜ ਹੈ। ਵੱਡੀ ਮਾਤਰਾ ਵਿੱਚ ਡੇਟਾ ਨੂੰ ਅਰਥ ਕੱਢਣ ਅਤੇ ਜੀਵ-ਵਿਗਿਆਨਕ ਅਰਥ ਪੈਦਾ ਕਰਨ ਲਈ ਅਕਸਰ ਮਾਤਰਾਤਮਕ ਵਿਸ਼ਲੇਸ਼ਣ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਅਜਿਹੇ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨ ਲਈ ਇੱਕ ਵਿਅਕਤੀ ਨੂੰ ਕੰਪਿਊਟੇਸ਼ਨਲ ਅਤੇ ਅੰਕੜਾਵਿਗਿਆਨਕ ਸੰਕਲਪਾਂ ਦੀ ਚੰਗੀ ਕਾਰਜਸ਼ੀਲ ਜਾਣਕਾਰੀ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ, ਉਦਾਹਰਣ ਲਈ; ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਤਕਨਾਲੋਜੀਆਂ, ਰਿਗਰੈਸ਼ਨ, ਵੇਰੀਅੰਸ, ਅਤੇ ਕੋਰਲੇਸ਼ਨ, ਆਦਿ। ਗਣਿਤਿਕ ਅਤੇ ਅੰਕੜਾਵਿਗਿਆਨਕ ਸੰਕਲਪ ਸਿਰਫ਼ ਜੀਵ ਵਿਗਿਆਨੀਆਂ ਨੂੰ ਉਨ੍ਹਾਂ ਦੇ ਡੇਟਾ ਦੀ ਵਿਆਖਿਆ ਕਰਨ ਵਿੱਚ ਸਹਾਇਤਾ ਕਰ ਸਕਦੇ ਹਨ ਅਤੇ ਸਹੀ ਸਵਾਲ ਪੁੱਛਣ ਅਤੇ ਜੀਵ-ਵਿਗਿਆਨਕ ਸੂਝ ਦੀ ਥਾਂ ਨਹੀਂ ਲੈ ਸਕਦੇ। ਜੀਵ ਵਿਗਿਆਨ ਵਿੱਚ ਵਰਤੇ ਜਾਂਦੇ ਕੁਝ ਆਮ ਅੰਕੜਾਵਿਗਿਆਨਕ ਸ਼ਬਦਾਂ ਦੇ ਨਾਮ ਬਾਕਸ 1 ਵਿੱਚ ਦਿੱਤੇ ਗਏ ਹਨ।

ਬਾਕਸ 1

ਬਾਕਸ 1: ਜੀਵ ਵਿਗਿਆਨ ਵਿੱਚ ਆਮ ਤੌਰ ‘ਤੇ ਵਰਤੇ ਜਾਂਦੇ ਅੰਕੜਾਵਿਗਿਆਨਕ ਸ਼ਬਦਾਂ ਦੀ ਸ਼ਬਦਾਵਲੀ

ਨਲ ਹਾਈਪੋਥੀਸਿਸ- ਇੱਕ ਬਿਆਨ ਜੋ ਦੱਸਦਾ ਹੈ ਕਿ ਦੋ ਮਾਪੇ ਗਏ ਘਟਨਾਵਾਂ ਵਿਚਕਾਰ ਕੋਈ ਸੰਬੰਧ ਨਹੀਂ ਹੈ।

ਅੰਕੜਾਵਿਗਿਆਨਕ ਮਹੱਤਤਾ- ਜਦੋਂ ਕੋਈ ਨਤੀਜਾ ਹੋਣ ਦੀ ਸੰਭਾਵਨਾ ਬਹੁਤ ਘੱਟ ਹੁੰਦੀ ਹੈ ਤਾਂ ਉਸਦੀ ਅੰਕੜਾਵਿਗਿਆਨਕ ਮਹੱਤਤਾ ਹੁੰਦੀ ਹੈ।

p-ਮੁੱਲ- ਜਦੋਂ ਕਿਸੇ ਅਧਿਐਨ ਪ੍ਰਸ਼ਨ ਦੀ ਨਲ ਹਾਈਪੋਥੀਸਿਸ ਸੱਚ ਹੁੰਦੀ ਹੈ ਤਾਂ ਦੇਖੇ ਗਏ ਨਤੀਜਿਆਂ ਨੂੰ ਲੱਭਣ ਦੀ ਸੰਭਾਵਨਾ।

t-ਟੈਸਟ- ਅੰਕੜਾਵਿਗਿਆਨਕ ਜਾਂਚ ਦੀ ਵਰਤੋਂ ਦੁਆਰਾ ਦੋ ਆਬਾਦੀਆਂ ਦੇ ਮਤਲਬਾਂ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ।

ਮਲਟੀਵੇਰੀਏਟ ਵਿਸ਼ਲੇਸ਼ਣ: ਇੱਕ ਤਕਨੀਕਾਂ ਦਾ ਸਮੂਹ ਜੋ ਇੱਕ ਤੋਂ ਵੱਧ ਵੇਰੀਏਬਲ ਵਾਲੇ ਡੇਟਾ ਦੇ ਵਿਸ਼ਲੇਸ਼ਣ ਲਈ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ।

ਰਿਗਰੈਸ਼ਨ ਵਿਸ਼ਲੇਸ਼ਣ- ਇੱਕ ਆਧਾਰਿਤ ਅਤੇ ਇੱਕ ਸੁਤੰਤਰ ਵੇਰੀਏਬਲ ਵਿਚਕਾਰ ਸੰਬੰਧ ਦੀ ਜਾਂਚ ਕਰਨ ਲਈ ਇੱਕ ਤਕਨੀਕ।

ਮਲਟੀਪਲ ਟੈਸਟਿੰਗ ਕਰੈਕਸ਼ਨ- ਇੱਕ ਅੰਕੜਾਵਿਗਿਆਨਕ ਟੈਸਟ ਜੋ ਮਲਟੀਪਲ ਟੈਸਟਾਂ ਲਈ ਸਹੀ ਕਰਦਾ ਹੈ ਤਾਂ ਜੋ ਕੁੱਲ ਗਲਤੀ ਦਰ ਨੂੰ ਯੂਜ਼ਰ-ਨਿਰਧਾਰਤ P-ਮੁੱਲ ਕੱਟਆਫ ਤੋਂ ਘੱਟ ਜਾਂ ਬਰਾਬਰ ਰੱਖਿਆ ਜਾ ਸਕੇ।

ਵੇਰੀਅੰਸ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਜਾਂ ANOVA- ਅੰਕੜਾਵਿਗਿਆਨਕ ਮਾਡਲਾਂ ਦਾ ਇੱਕ ਸੰਗ੍ਰਹਿ ਜੋ ਕਿਸੇ ਨਮੂਨੇ ਵਿੱਚ ਸਮੂਹ ਦੇ ਮਤਲਬਾਂ ਵਿੱਚ ਅੰਤਰਾਂ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨ ਲਈ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ।

ਆਓ ਖਾਸ ਉਦਾਹਰਣਾਂ ਨਾਲ ਜਾਂਚ ਕਰੀਏ ਜਿੱਥੇ ਕੰਪਿਊਟਿੰਗ ਅਤੇ ਅੰਕੜਾ ਵਿਗਿਆਨ ਦੋਵਾਂ ਦਾ ਗਿਆਨ ਜੀਵ-ਵਿਗਿਆਨਕ ਘਟਨਾਵਾਂ ਨੂੰ ਬਿਹਤਰ ਢੰਗ ਨਾਲ ਸਮਝਣ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦਾ ਹੈ। ਉਦਾਹਰਣ ਲਈ, ਅਸੀਂ ਦਸ ਮਰੀਜ਼ਾਂ (ਟੇਬਲ 9.1) ਵਿੱਚ ਖੂਨ ਦੇ ਦਬਾਅ ਅਤੇ ਦਿਲ ਦੀ ਧੜਕਣ ਵਿਚਕਾਰ ਸੰਬੰਧ, ਜੇ ਕੋਈ ਹੈ, ਨੂੰ ਸਮਝਣਾ ਚਾਹੁੰਦੇ ਹਾਂ। ਹੇਠਾਂ ਦਿੱਤੀ ਗਈ ਟੇਬਲ ਵਿੱਚ ਦਿੱਤੇ ਅਨੁਸਾਰ, ਇੱਕ ਸਧਾਰਨ ਵਿਜ਼ੂਅਲ ਅੰਦਾਜ਼ਾ (ਫਿਗ.9.1) ਦੋ ਵੇਰੀਏਬਲਾਂ ਵਿਚਕਾਰ ਸੰਬੰਧ (ਸਹਿ-ਸੰਬੰਧ) ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਨਿਰਧਾਰਤ ਕਰਨ ਲਈ ਕਾਫ਼ੀ ਨਹੀਂ ਹੈ। ਇਸ ਲਈ, ਇੱਕ ਨੂੰ ਇੱਕ ਰਿਗਰੈਸ਼ਨ ਲਾਈਨ ਖਿੱਚਣ ਦੀ ਲੋੜ ਹੈ। ਕੋਰਲੇਸ਼ਨ ਅਤੇ ਰਿਗਰੈਸ਼ਨ ਵੱਖਰੇ ਹਨ, ਪਰ ਫਿਰ ਵੀ ਸੰਬੰਧਿਤ ਹਨ। ਕੋਰਲੇਸ਼ਨ ਮਾਪਦਾ ਹੈ ਕਿ ਵੇਰੀਏਬਲ ਕਿਵੇਂ ਜੁੜੇ ਹੋਏ ਹਨ, ਪਰ ਰਿਗਰੈਸ਼ਨ ਦੋ ਜਾਂ ਦੋ ਤੋਂ ਵੱਧ ਵੇਰੀਏਬਲਾਂ ਵਿਚਕਾਰ ਇੱਕ ਅੰਕੜਾਵਿਗਿਆਨਕ ਸੰਬੰਧ ਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਕਰਦਾ ਹੈ ਜਿੱਥੇ ਇੱਕ ਵੇਰੀਏਬਲ ਵਿੱਚ ਤਬਦੀਲੀ ਦੂਜੇ ਵਿੱਚ ਤਬਦੀਲੀ ਨਾਲ ਜੁੜੀ ਹੁੰਦੀ ਹੈ। ਇਸ ਲਈ, ਉਪਰੋਕਤ ਉਦਾਹਰਣ ਵਿੱਚ ਇੱਕ ਸਧਾਰਨ ਰਿਗਰੈਸ਼ਨ ਟੈਸਟ ਸਾਨੂੰ ਦੱਸੇਗਾ ਕਿ ਕੀ ਦਿਲ ਦੀ ਧੜਕਣ ਅਤੇ ਖੂਨ ਦੇ ਦਬਾਅ ਵਿਚਕਾਰ ਸਿੱਧਾ ਸੰਬੰਧ ਹੈ। ਇੱਕ ਲੀਨੀਅਰ ਰਿਗਰੈਸ਼ਨ ਵਿਸ਼ਲੇਸ਼ਣ ਦਾ ਆਉਟਪੁੱਟ $\mathrm{R}^{2}$-ਮੁੱਲ ਹੈ, ਇੱਕ ਅੰਕੜਾਵਿਗਿਆਨਕ ਮਾਪ ਜੋ ਦੱਸਦਾ ਹੈ ਕਿ ਡੇਟਾ ਫਿਟ ਕੀਤੀ ਰਿਗਰੈਸ਼ਨ ਲਾਈਨ ਦੇ ਕਿੰਨਾ ਨੇੜੇ ਹੈ। $R^{2}$ ਮੁੱਲ 0 (ਵੇਰੀਏਬਲਾਂ ਵਿਚਕਾਰ ਕੋਈ ਸਹਿ-ਸੰਬੰਧ ਨਹੀਂ) ਅਤੇ 1 (ਵੇਰੀਏਬਲਾਂ ਵਿਚਕਾਰ ਸੰਪੂਰਨ ਸਹਿ-ਸੰਬੰਧ) ਦੇ ਵਿਚਕਾਰ ਹੁੰਦਾ ਹੈ। ਜਿਵੇਂ ਕਿ ਫਿਗ. 9.1 ਵਿੱਚ ਦਿਖਾਇਆ ਗਿਆ ਹੈ, $R^{2}$ ਮੁੱਲ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ ਕਿ ਦੋਵਾਂ ਵੇਰੀਏਬਲਾਂ ਵਿਚਕਾਰ ਇੱਕ ਚੰਗਾ ਸਹਿ-ਸੰਬੰਧ ਹੈ। ਇਸ ਲਈ, ਇਸ ਕੇਸ ਵਿੱਚ ਨਲ ਹਾਈਪੋਥੀਸਿਸ ਨੂੰ ਰੱਦ ਕਰ ਦਿੱਤਾ ਗਿਆ ਹੈ।

ਟੇਬਲ 9.1: ਦਸ ਮਰੀਜ਼ਾਂ ਵਿੱਚ ਦਰਜ ਕੀਤੀ ਗਈ ਦਿਲ ਦੀ ਧੜਕਣ ਅਤੇ ਖੂਨ ਦਾ ਦਬਾਅ

ਮਰੀਜ਼ਦਿਲ ਦੀ ਧੜਕਣਖੂਨ ਦਾ ਦਬਾਅ (ਸਿਸਟੋਲਿਕ)
1112189
283140
392153
4121192
585147
6111178
794135
888143
9102177
10111189

ਫਿਗ. 9.1: ਇੱਕ ਸਧਾਰਨ ਲੀਨੀਅਰ ਰਿਗਰੈਸ਼ਨ ਲਾਈਨ ਨਾਲ ਦੋ ਵੇਰੀਏਬਲਾਂ ਵਿਚਕਾਰ ਸਹਿ-ਸੰਬੰਧ

ਜੀਵ ਵਿਗਿਆਨ ਦੇ ਬਹੁਤ ਸਾਰੇ ਖੇਤਰਾਂ ਨੂੰ ਸੰਭਾਵਨਾ ਦੀ ਬੁਨਿਆਦੀ ਸਮਝ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਸੈਲੂਲਰ ਮਕੈਨਿਜ਼ਮਾਂ ਵਰਗੇ ਜਟਿਲ ਪ੍ਰਣਾਲੀਗਤ ਘਟਨਾਵਾਂ ਦਾ ਗਣਿਤਿਕ ਮਾਡਲਿੰਗ ਕਿਸੇ ਨੂੰ ਪ੍ਰਣਾਲੀ ਦੇ ਮਹੱਤਵਪੂਰਨ ਪੈਰਾਮੀਟਰਾਂ ਅਤੇ ਇਸਦੀ ਗਤਿਕੀ ਨੂੰ ਸਮਝਣ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ। ਫਾਈਲੋਜੈਨੈਟਿਕ ਪੁਨਰ ਨਿਰਮਾਣ, ਪੂਰਵਜੀ ਕ੍ਰਮਾਂ ਦਾ ਨਿਰਧਾਰਣ ਅਤੇ ਮੌਜੂਦਾ ਕ੍ਰਮਾਂ ਦੇ ਇੱਕ ਸਮੂਹ ਤੋਂ ਵਿਕਾਸ ਦੀਆਂ ਦਰਾਂ ਦਾ ਮਾਡਲਿੰਗ ਕਰਨ ਲਈ ਸੰਭਾਵਨਾ ਦੇ ਗਿਆਨ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਜੀਵ ਵਿਗਿਆਨੀਆਂ ਨੂੰ ਇੱਕ ਪ੍ਰਯੋਗ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਅੰਕੜਾਵਿਗਿਆਨਕ ਮੁੱਦਿਆਂ ਨੂੰ ਧਿਆਨ ਵਿੱਚ ਰੱਖਣ ਦੀ ਲੋੜ ਹੈ। ਉਦਾਹਰਣ ਲਈ, ਪ੍ਰਯੋਗ ਲਈ ਨਮੂਨਿਆਂ ਅਤੇ ਦੁਹਰਾਓਆਂ, ਦੋਵੇਂ ਜੀਵ-ਵਿਗਿਆਨਕ ਅਤੇ ਤਕਨੀਕੀ, ਦੀ ਢੁਕਵੀਂ ਗਿਣਤੀ ਦੀ ਚੋਣ ਕਰਨ ਲਈ ਅੰਕੜਾ ਵਿਗਿਆਨ ਦੇ ਗਿਆਨ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਨਤੀਜਿਆਂ ਵਿੱਚ ਵਿਸ਼ਵਾਸ ਪੈਦਾ ਕਰਨ ਅਤੇ ਇਹ ਜਾਣਨ ਲਈ ਕਿ ਉਹ ਅਸਲ ਹਨ ਜਾਂ ਨਕਲੀ, ਇੱਕ ਪ੍ਰਯੋਗ ਨੂੰ ਕਈ ਵਾਰ ਸੁਤੰਤਰ ਰੂਪ ਵਿੱਚ ਦੁਹਰਾਇਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ। ਅੰਕੜਾਵਿਗਿਆਨਕ ਬੇਤਰਤੀਬਤਾ ਅਤੇ ਵੱਡੀ ਗਿਣਤੀ ਦੇ ਕਾਨੂੰਨ ਵਿੱਚ ਇੱਕ ਜ਼ਰੂਰੀ ਪਿਛੋਕੜ ਇੱਕ ਨੂੰ ਇਸ ਸਮੱਸਿਆ ਨਾਲ ਨਜਿੱਠਣ ਲਈ ਸਜ਼ਾ ਦਿੰਦਾ ਹੈ। ਵੱਡੀ ਗਿਣਤੀ ਤੋਂ ਬੇਤਰਤੀਬ ਨਮੂਨਾ ਲੈਣ ਨਾਲ ਪੱਖਪਾਤੀ ਨਤੀਜੇ ਪ੍ਰਾਪਤ ਕਰਨ ਦਾ ਮੌਕਾ ਘੱਟ ਹੋ ਜਾਂਦਾ ਹੈ। ਜੀਵ ਵਿਗਿਆਨੀ ਨੂੰ ਇਹ ਯਕੀਨੀ ਬਣਾਉਣ ਦੀ ਲੋੜ ਹੈ ਕਿ ਨਤੀਜੇ ਅੰਕੜਾਵਿਗਿਆਨਕ ਤੌਰ ‘ਤੇ ਮਹੱਤਵਪੂਰਨ ਹਨ। ਇਸ ਕਦਮ ਲਈ ਵੱਖ-ਵੱਖ ਟੈਸਟਾਂ ਅਤੇ ਅੰਕੜਾਵਿਗਿਆਨਕ ਮਹੱਤਤਾ ਦੇ ਮਾਪਾਂ ਨਾਲ ਜਾਣ-ਪਛਾਣ ਅਤੇ ਸਵਾਲ ਵਿੱਚ ਸਮੱਸਿਆ ਲਈ ਸਹੀ ਟੈਸਟ(ਟੈਸਟਾਂ) ਲਾਗੂ ਕਰਨ ਦੀ ਲੋੜ ਹੈ। ਸਮੱਸਿਆ ‘ਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹੋਏ, ਜੀਵ ਵਿਗਿਆਨੀ ਨੂੰ ਮਲਟੀਪਲ ਟੈਸਟਿੰਗ ਲਈ ਮਹੱਤਤਾ ਦੇ ਮਾਪ ਨੂੰ ਸਹੀ ਅਤੇ ਅਨੁਕੂਲ ਕਰਨਾ ਪੈ ਸਕਦਾ ਹੈ।

ਕੰਪਿਊਟਿੰਗ, ਵਿਸ਼ਲੇਸ਼ਣ, ਅਤੇ ਵਿਜ਼ੂਅਲਾਈਜ਼ੇਸ਼ਨ ਦੇ ਉੱਚੇ ਪੱਧਰਾਂ ਲਈ, ਇੱਕ ਜੀਵ ਵਿਗਿਆਨੀ ਬਿਲਟ-ਇਨ ਫਰੇਮਵਰਕਾਂ ਦੀ ਵਰਤੋਂ ਕਰ ਸਕਦਾ ਹੈ। ਜਿਵੇਂ ਕਿ MATLAB (ਕਮਰਸ਼ੀਅਲ) ਅਤੇ R (ਓਪਨ ਸੋਰਸ), ਆਦਿ।

ਜੀਵ ਵਿਗਿਆਨੀਆਂ ਲਈ, ਵਰਤੀ ਗਈ ਅੰਕੜਾਵਿਗਿਆਨਕ ਵਿਸ਼ਲੇਸ਼ਣ ਦੀ ਚੋਣ ਸਹੀ ਜਵਾਬ ਨਿਰਧਾਰਤ ਕਰਨ ਦੀ ਕੁੰਜੀ ਹੈ। ਇੱਕ ਕਮਜ਼ੋਰ ਜਾਂ ਗਲਤ ਅੰਕੜਾਵਿਗਿਆਨਕ ਮਾਪਦੰਡ ਗਲਤ ਧਾਰਨਾਵਾਂ ਵੱਲ ਲੈ ਜਾਂਦੇ ਹਨ ਅਤੇ ਇਸ ਲਈ ਅਣ-ਦੁਹਰਾਉਣਯੋਗ ਨਤੀਜਿਆਂ ਵੱਲ ਲੈ ਜਾ ਸਕਦੇ ਹਨ। ਉਦਾਹਰਣ ਲਈ, ਅੰਕੜਾ ਵਿਗਿਆਨ ਵਿੱਚ ਆਮ ਤੌਰ ‘ਤੇ ਵਰਤਿਆ ਜਾਣ ਵਾਲਾ ਸੰਕਲਪ $\mathrm{P}$ ਮੁੱਲ ਹੈ ਜੋ ਕਿਸੇ ਹਾਈਪੋਥੀਸਿਸ ਲਈ ਸਹਾਇਤਾ ਦੇ ਸਬੂਤ ਵਜੋਂ ਹੈ। $\mathrm{P}$ ਮੁੱਲ ਜਿੰਨਾ ਛੋਟਾ ਹੋਵੇਗਾ, ਉੱਨੀ ਹੀ ਜ਼ਿਆਦਾ ਸੰਭਾਵਨਾ ਹੈ ਕਿ ਟੈਸਟ ਦਾ ਨਤੀਜਾ ਮਹੱਤਵਪੂਰਨ ਹੈ। 0.05 (95% ਮਹੱਤਤਾ) ਜਾਂ ਇਸ ਤੋਂ ਘੱਟ ਦਾ P ਮੁੱਲ ਕੱਟਆਫ ਮਹੱਤਵਪੂਰਨ ਮੰਨਿਆ ਜਾਂਦਾ ਹੈ। ਹਾਲਾਂਕਿ, 0.05 ਦੀ ਥ੍ਰੈਸ਼ਹੋਲਡ ਨੇ ਵਿਗਿਆਨਕ ਸਾਹਿਤ ਵਿੱਚ ਬਹੁਤ ਸਾਰੇ ਗਲਤ ਸਕਾਰਾਤਮਕ ਨਤੀਜੇ ਦਿਖਾਏ ਹਨ। ਇਸ ਲਈ, $P$ ਮੁੱਲ ਕੱਟਆਫ 0.05 ਦੀ ਮੁੜ ਜਾਂਚ ਕਰਨ ਦੀ ਲੋੜ ਹੈ। ਛੋਟੇ ਨਮੂਨੇ ਦੇ ਆਕਾਰਾਂ ਨਾਲ, ਸਾਰੇ ਸੁਤੰਤਰ ਡੇਟਾ ਪੁਆਇੰਟਾਂ ਨੂੰ ਦਿਖਾਉਣਾ ਬਿਹਤਰ ਹੈ ਬਜਾਏ ਇੱਕ ਗਲਤਫਹਿਮੀ ਵਾਲੇ ਔਸਤ ਅਤੇ ਮਿਆਰੀ ਭਟਕਣ ਨਾਲ ਵਿਜ਼ੂਅਲਾਈਜ਼ੇਸ਼ਨ ਨੂੰ ਵਿਗਾੜਨ ਤੋਂ। ਅੰਕੜਾਵਿਗਿਆਨਕ ਸ਼ਕਤੀ ਜੋ ਕੋਈ ਨਕਾਰਾਤਮਕ ਨਤੀਜੇ ਦਾ ਸਾਹਮਣਾ ਕਰਨ ‘ਤੇ ਵਿਚਾਰਨਾ ਸ਼ੁਰੂ ਕਰਦਾ ਹੈ, ਉਹ ਵੀ ਸਕਾਰਾਤਮਕ ਨਤੀਜਿਆਂ ਦੇ ਮਾਮਲੇ ਵਿੱਚ ਵਿਚਾਰਨੀ ਚਾਹੀਦੀ ਹੈ। ਇਸ ਲਈ, ਗਲਤ ਕਿਸਮ ਦੇ ਡੇਟਾ ਲਈ ਕੁਝ ਸਥਾਪਿਤ ਅੰਕੜਾਵਿਗਿਆਨਕ ਮਾਡਲਾਂ ਅਤੇ ਵੰਡਾਂ ਦੀਆਂ ਧਾਰਨਾਵਾਂ ਇੱਕ ਆਮ ਦੁਰਵਰਤੋਂ ਹੈ। ਉਦਾਹਰਣ ਲਈ, ਗੈਰ-ਰੇਖਿਕ ਗਤੀਸ਼ੀਲ ਪ੍ਰਣਾਲੀਆਂ ਲਈ ਇੱਕ ਗੌਸੀਅਨ ਵੰਡ ਦੀ ਧਾਰਨਾ, ਜਿਸ ਦੇ ਨਤੀਜੇ ਵਜੋਂ ਗਲਤ ਸਕਾਰਾਤਮਕ ਨਤੀਜੇ ਨਿਕਲਦੇ ਹਨ। ਅਯਥਾਰਥਕ ਪੈਰਾਮੀਟਰ ਭਾਰਾਂ ਨਾਲ ਬਣਾਏ ਗਏ ਅਸੰਤੁਲਿਤ ਗਣਿਤਿਕ ਮਾਡਲ ਇੱਕ ਹੋਰ ਆਮ ਦੁਰਵਰਤੋਂ ਹੈ ਅਤੇ ਇੱਕ ਅਜਿਹਾ ਹੈ ਜਿਸਦਾ ਪਤਾ ਲਗਾਉਣਾ ਮੁਸ਼ਕਲ ਹੈ। ਇਨ੍ਹਾਂ ਚੇਤਾਵਨੀਆਂ ਦੇ ਉਚਿਤ ਵਿਚਾਰ ਨਾਲ, ਗਣਿਤ ਅਤੇ ਅੰਕੜਾ ਵਿਗਿਆਨ ਨੂੰ ਜੀਵ ਵਿਗਿਆਨ ਵਿੱਚ ਲਾਗੂ ਕਰਨ ਨਾਲ ਖੋਜ ਦੇ ਨਵੇਂ ਖੇਤਰਾਂ ਦੇ ਖੁੱਲ੍ਹਣ ਦਾ ਕਾਰਨ ਬਣ ਸਕਦਾ ਹੈ ਜੋ ਕਿ ਵਧੇਰੇ ਜਟਿਲ ਜੀਵ-ਵਿਗਿਆਨਕ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਅੰਤਰ-ਅਨੁਸ਼ਾਸਨੀ ਪ੍ਰਕਿਰਤੀ ਦੇ ਹਨ।

9.2 ਜਾਣ-ਪਛਾਣ

ਬਾਇਓਇਨਫਾਰਮੈਟਿਕਸ ਇੱਕ ਅੰਤਰ-ਅਨੁਸ਼ਾਸਨੀ ਖੇਤਰ ਹੈ ਜੋ ਜੀਵ-ਵਿਗਿਆਨਕ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਜੀਵ-ਵਿਗਿਆਨਕ ਜਾਣਕਾਰੀ ਦੇ ਵਿਸ਼ਲੇਸ਼ਣ ਵਿੱਚ ਕੰਪਿਊਟੇਸ਼ਨਲ, ਗਣਿਤਿਕ, ਅੰਕੜਾਵਿਗਿਆਨਕ ਅਤੇ ਕਦੇ-ਕਦਾਈਂ, ਇੰਜੀਨੀਅਰਿੰਗ ਦੇਣਗਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ (ਫਿਗ. 9.2)। ਇਸ ਤਰ੍ਹਾਂ, ਬਾਇਓਇਨਫਾਰਮੈਟਿਕਸ ਕੰਪਿਊਟਰ ਅਧਾਰਿਤ ਸਾਫਟਵੇਅਰ ਅਤੇ ਟੂਲਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਜੀਵ-ਵਿਗਿਆਨਕ ਡੇਟਾ ਦੇ ਸਟੋਰੇਜ, ਪ੍ਰਾਪਤੀ, ਵਿਸ਼ਲੇਸ਼ਣ ਅਤੇ ਵਿਆਖਿਆ ਨਾਲ ਸੰਬੰਧਿਤ ਹੈ। ਹਾਲਾਂਕਿ ਅੰਤਰ ਹਨ, ਇਸਨੂੰ ਦੂਸਰੇ ਸ਼ਬਦਾਂ ਜਿਵੇਂ ਕਿ ‘ਕੰਪਿਊਟੇਸ਼ਨਲ ਬਾਇਓਲੋਜੀ’, ‘ਮੈਥੇਮੈਟੀਕਲ ਬਾਇਓਲੋਜੀ’, ‘ਕੁਆਂਟੀਟੇਟਿਵ ਬਾਇਓਲੋਜੀ’ ਅਤੇ ‘ਬਾਇਓ-ਸਟੈਟਿਸਟਿਕਸ’ ਨਾਲ ਬਦਲ ਕੇ ਅਤੇ ਆਪਸ ਵਿੱਚ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ, ਜੋ ਕਿ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਅਨੁਸ਼ਾਸਨੀ ਘਟਕਾਂ ‘ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ। ਹਾਲਾਂਕਿ, ਇਹ ਨੋਟ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ ਕਿ ਇਨ੍ਹਾਂ ਪਰਿਭਾਸ਼ਾਵਾਂ ਦੀ ਵਰਤੋਂ ਮਾਹਿਰਾਂ ਅਤੇ ਅਭਿਆਸੀਆਂ ਵਿੱਚ ਵੱਖ-ਵੱਖ ਹੁੰਦੀ ਹੈ, ਅਤੇ ਸਮੇਂ ਦੇ ਨਾਲ ਬਦਲ ਗਈ ਹੈ।

ਫਿਗ. 9.2: ਬਾਇਓਇਨਫਾਰਮੈਟਿਕਸ ਦੀ ਅੰਤਰ-ਅਨੁਸ਼ਾਸਨੀ ਪ੍ਰਕਿਰਤੀ: ਕੰਪਿਊਟਰ ਵਿਗਿਆਨ, ਗਣਿਤ, ਇੰਜੀਨੀਅਰਿੰਗ, ਅਤੇ ਅੰਕੜਾ ਵਿਗਿਆਨ ਵਰਗੇ ਇੱਕ ਜਾਂ ਵੱਧ ਹੋਰ ਅਨੁਸ਼ਾਸਨਾਂ ਨਾਲ ਜੀਵ ਵਿਗਿਆਨ ਦਾ ਇੰਟਰਸੈਕਸ਼ਨ

9.2.1. ਇਤਿਹਾਸਕ ਪਰਿਪੇਖ

ਬਾਇਓਇਨਫਾਰਮੈਟਿਕਸ ਡੇਟਾ ਮਾਈਨਿੰਗ ਦੁਆਰਾ ਨਵੀਆਂ ਖੋਜਾਂ ਦੀ ਖੋਜ ਵਿੱਚ ਸਹਾਇਤਾ ਕਰਦਾ ਹੈ ਅਤੇ ਨਵੀਂ ਪਰਿਕਲਪਨਾ ਦੀ ਪੈਦਾਵਾਰ ਵਿੱਚ ਵੀ। ਇਹ ਅਣੂ ਡੇਟਾ ਦੇ ਮਾਡਲਿੰਗ ਜਾਂ ਵਿਸ਼ਲੇਸ਼ਣ ਦੁਆਰਾ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। ਬਹੁਤੇ ਬਾਇਓਇਨਫਾਰਮੈਟਿਕਸ ਟੂਲ ਜਾਂ ਤਾਂ ਸੀਕੁਐਂਸ ਅਤੇ ਬਣਤਰ ਡੇਟਾਬੇਸਾਂ ਤੋਂ ਪਹਿਲਾਂ ਮੌਜੂਦ ਨਿਊਕਲੀਓਟਾਈਡ ਅਤੇ ਪ੍ਰੋਟੀਨ ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ, ਜਾਂ ਨੈਕਸਟ-ਜਨਰੇਸ਼ਨ ਸੀਕੁਐਂਸਰਾਂ ਅਤੇ ਡੀਐਨਏ ਮਾਈਕ੍ਰੋਐਰੇਜ਼ ਵਰਗੇ ਹਾਈ-ਥ੍ਰੋਪੁੱਟ ਉਪਕਰਣਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਤਿਆਰ ਕੀਤੇ ਗਏ ਨਵੇਂ ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ। ਯੂਐਸਏ ਵਿੱਚ ਨੈਸ਼ਨਲ ਸੈਂਟਰ ਫਾਰ ਬਾਇਓਟੈਕਨੋਲੋਜੀ ਇਨਫਰਮੇਸ਼ਨ (ਐਨਸੀਬੀਆਈ) ਬਾਇਓਇਨਫਾਰਮੈਟਿਕਸ ਟੂਲਾਂ ਅਤੇ ਸੇਵਾਵਾਂ ਲਈ ਇੱਕ ਸਰੋਤ ਵਜੋਂ ਬਣਾਇਆ ਗਿਆ ਸੀ। ਇਸ ਵਿੱਚ ਨਿਊਕਲੀਓਟਾਈਡ ਅਤੇ ਬਿਬਲੀਓਗ੍ਰਾਫਿਕ ਡੇਟਾਬੇਸ ਹਨ। ਜੀਨਬੈਂਕ, ਇੱਕ ਵਿਆਪਕ ਤੌਰ ‘ਤੇ ਵਰਤਿਆ ਜਾਣ ਵਾਲਾ ਡੇਟਾਬੇਸ ਜੋ ਸਾਰੀਆਂ ਜਨਤਕ ਤੌਰ ‘ਤੇ ਉਪਲਬਧ ਡੀਐਨਏ ਕ੍ਰਮਾਂ ਨੂੰ ਸਟੋਰ ਕਰਦਾ ਹੈ, 1982 ਵਿੱਚ ਲਾਂਚ ਕੀਤਾ ਗਿਆ ਸੀ। ਹਾਲਾਂਕਿ ਬਾਇਓਇਨਫਾਰਮੈਟਿਕਸ ਦਾ ਅਭਿਆਸ ਇਸ ਸ਼ਬਦ ਦੇ ਵਿਆਪਕ ਇਸਤੇਮਾਲ ਤੋਂ ਪਹਿਲਾਂ ਕੀਤਾ ਜਾਂਦਾ ਸੀ, ਇਹ 1991 ਤੱਕ ਨਹੀਂ ਸੀ ਜਦੋਂ ਤੱਕ ਇਹ ਸਾਹਿਤ ਵਿੱਚ ਦਿਖਾਈ ਦੇਣਾ ਸ਼ੁਰੂ ਨਹੀਂ ਹੋਇਆ ਸੀ। ਮਨੁੱਖੀ ਜੀਨੋਮ ਪ੍ਰੋਜੈਕਟ ਦੇ ਲਾਂਚ ਤੋਂ ਬਾਅਦ ਨਾਮ ਨੂੰ ਵਿਆਪਕ ਸਵੀਕਾਰਤਾ ਮਿਲੀ ਅਤੇ ਸੀਕੁਐਂਸ ਡੇਟਾ ਦੇ ਵਿਸ਼ਲੇਸ਼ਣ ਲਈ ਬਾਇਓਇਨਫਾਰਮੈਟਿਕਸ ਟੂਲਾਂ ਦੀ ਵਿਆਪਕ ਤੌਰ ‘ਤੇ ਵਰਤੋਂ ਕੀਤੀ ਗਈ। ਇਸ ਲਈ,