Sunteți pe pagina 1din 12

BIOSTATISTICĂ CURS 1

CUPRINS

1. INTRODUCERE
2. DISTRIBUŢII EXPERIMENTALE
2.1 Terminologie statistică
2.2 Înregistrarea şi prelucrarea primară a observaţiilor
2.2.1 Gruparea valorilor observate
2.2.2 Frecvenţele distribuţiilor experimentale
2.2.3 Reprezentarea grafică a distribuţiilor unidimensionale
2.3 Indicii distribuţiilor experimentale
2.3.1 Parametrii populaţiei şi indicii probei
2.3.2 Indicii distribuţiei experimentale
2.3.2.1 Momente
2.3.2.2 Valori medii

1. INTRODUCERE

Cursul are drept scop introducerea sistematică în studiul metodelor


statistice, astfel încât studentul să fie capabil, după asimilarea integrală a
cunoştinţelor primite, să utilizeze acest instrument în activitatea întreprinsă
în calitate de inginer silvic.
La modul cel mai general, statistica matematică se ocupă cu
gruparea, analiza şi interpretarea datelor referitoare la un anumit fenomen
sau proces, precum şi cu unele previziuni referitoare la producerea în viitor
a acestuia.
Sub raport istoric, primele preocupări sunt semnalate la începutul
secolului al XVII-lea, ajungându-se ca astăzi ansamblul de metode
statistice să dispună atât de solide fundamente teoretice cât şi de biblioteci
de programe capabile să asigure prelucrarea automată a datelor statistice.
Generic, prin
▪ date statistice se înţelege date cantitative afectate – într-o largă
măsură – de o mulţime de cauze;
▪ metode statistice se înţelege metodele special adoptate pentru
studierea datelor statistice;
▪ teoria statisticii sau – mai pe scurt – prin statistică înţelegem
expunerea sistematică a metodelor statistice.
O cercetare statistică se desfăşoară în trei etape distincte:
▪ efectuarea observaţiilor;
▪ prelucrarea datelor rezultate în urma observaţiilor;
▪ analiza şi interpretarea rezultatelor obţinute.
Analiza şi interpretarea rezultatelor obţinute prin prelucrarea datelor
statistice reprezintă etapa cea mai importantă care necesită din partea
celui care o efectuează o pregătire teoretică deosebită şi o experienţă
practică îndelungată.
Pentru a susţine această afirmaţie redăm din tratatul autorilor Yule şi
Kendall „Introducere în teoria statisticii” (apărut de-alungul timpului în zeci
de ediţii – prima ediţie 1911) următoarele constatări:
„În mâinile unui om lipsit de experienţă, metodele statistice sunt cele
mai periculoase instrumente de lucru”.
„Statistica este una din acele ştiinţe ai cărui slujitori trebuie să dea
dovadă de o artă a discernământului”.
Metodele statistice se caracterizează printr-un mare grad de
generalizare şi permit aplicarea lor în toate domeniile unde se produc
fenomene de masă. O pregătire temeinică în materie de statistică
matematică şi metode de experimentare necesită, în mod obligatoriu,
studierea lucrărilor devenite clasice pentru acest domeniu. Particularizate
la anumite domenii, metodele statistice utilizate sunt grupate sub o
denumire generică ce sugerează domeniul în care se aplică. Astfel
particularizarea acestor metode la domeniul, în accepţiune generală, al
biologiei s-a concretizat în disciplina numită biostatistică. Unii autori merg
mai departe cu această particularizare şi vorbesc despre o biostatistică
forestieră care ar reprezenta un instrument concret de cercetare a
fenomenelor şi proceselor din pădure cu aplicabilitate imediată în
fundamentarea rezultatelor din silvicultură, amenajament, dendrometrie,
climatologie, pedologie, genetică, dendrologie, botanică, împăduriri,
amenajarea torenţilor, transporturi, exploatări forestiere etc.
Nu toţi autorii împărtăşesc această concepţie, astfel academicianul V.
Giurgiu şi-a intitulat tratatul, apărut în anul 1972, devenit carte de căpătâi a
tuturor celor care îşi desfăşoară activitatea în silvicultură, „Metode ale
statisticii matematice aplicate în silvicultură”.
Indiferent sub ce denumire sunt grupate, în limita orelor planificate
pentru această disciplină, cunoştinţele minime necesare viitorului inginer
silvic vor fi asigurate în cadrul acestui curs. El este conceput pe structura
lucrării acad. V.Giurgiu, iar exemplele de calcul redate in scopul înţelegerii
depline a prezentărilor cu caracter teoretic, bazate pe date statistice
specifice silviculturii, se regăsesc in totalitate in aceasta.

2. DISTRIBUŢII EXPERIMENTALE

2.1 Terminologie statistică

Statistica matematică operează cu o serie de termeni primari iar


pentru o bună înţelegere a prezentărilor ulterioare se impune definirea lor.
10 Colectivitate statistică – reprezintă o mulţime formată din unităţi
statistice omogene din punctul de vedere al caracteristicilor urmărite. Se
distinge:
▪ colectivitate generală (populaţia),
▪ colectivitate de selecţie (eşantion).

2
Colectivitatea generală (populaţia) este constituită din totalitatea
unităţilor statistice identificate.
Colectivitatea de selecţie (eşantion) reprezintă o parte din
colectivitatea generală, extrasă după anumite criterii în vederea
caracterizării colectivităţii generale.
20 Unitatea statistică (unitatea de observare) – reprezintă cea mai
mică entitate luată în considerare în raport cu natura colectivităţii şi cu
scopul observării.
30 Caracteristica – reprezintă însuşirea esenţială luată în
considerare, comună unităţilor statistice ce formează colectivitatea.
Aceasta poate fi:
▪ cantitativă – nivelul însuşirii poate fi numărabil sau măsurabil,
deci pot fi exprimate numeric;
▪ calitativă – nivelul însuşirii nu poate fi exprimat numeric.
4 Valoare observată (variabilă) – reprezintă numărul prin care se
0

exprimă nivelul concret al unei caracteristici cantitative la o unitate


statistică. Variabilele pot fi:
▪ discontinue (discrete) – exprimate prin numere întregi (ex: nr.
arbori dintr-o clasă de calitate);
▪ continue – exprimate prin valori ce aparţin mulţimii numerelor
reale pozitive sau a unui interval al acesteia (ex: mărimea diametrului unui
arbore, înălţimea arborilor etc.).
50 Variabilitate statistică (variabilitate, împrăştiere, dispersie) –
reprezintă proprietatea pe care o are orice caracteristică cantitativă de a-şi
schimba nivelul însuşirii în cadrul colectivităţii cercetate.
60 Şir statistic – este reprezentat de totalitatea valorilor observate la
nivelul unităţilor ce alcătuiesc colectivitatea statistică luată în studiu. Acesta
poate fi redat în mod ordonat în raport cu diverse criterii (şir crescător, şir
descrescător etc.).
70 Volumul colectivităţii – este dat de numărul total al unităţilor din
care este alcătuită o colectivitate statistică.
Alte definiţii ale termenilor statistici vor fi introduse pe măsura
prezentării metodelor statistico – matematice.

2.2 Înregistrarea şi prelucrarea primară a observaţiilor

Aşa cum s-a mai arătat, cercetarea statistică, considerată un proces


complet de cunoaştere, se desfăşoară în trei etape:
▪ observarea, înregistrarea şi gruparea datelor;
▪ prelucrarea datelor primare în scopul obţinerii indicatorilor statistici
de caracterizare a populaţiei;
▪ analiză şi interpretare a rezultatelor obţinute în prelucrare.
Înainte de a începe observarea – prin numărare sau măsurare – se
impune stratificarea colectivităţilor eterogene în colectivităţi omogene,

3
operaţie care conduce în mod nemijlocit la obţinerea unor populaţii
alcătuite din unităţi identice din punct de vedere calitativ.
Pe măsura obţinerii lor, rezultatele observării (numărări, măsurări) se
înregistrează într-un tabel denumit tabelul datelor iniţiale.
În tabelul 2.1 se prezintă, în extras, rezultatele măsurării diametrelor
şi a creşterii în diametru, la 192 arbori într-un arboret de molid.
Tabelul 2.1

Tabelul datelor iniţiale.


(Diametrele şi creşterea în diametru la 192 arbori molid) (extras)

Nr. Diametrul Creşterea Nr. Diametrul Creşterea


arborelui de bază, în arborelui de bază, în
cm diametru, cm diametru,
mm mm
1 28,3 9,1 188 15,7 5,7
2 18,2 5,8 189 24,7 9,2
3 9,5 4,3 190 8,2 4,1
4 16,3 7,2 191 28,3 9,9
5 8,4 1,3 192 30,3 15,3
. . .
. . .
. . .

2.2.1 Gruparea valorilor observate

Valorile, aşa cum sunt înregistrate în tabelul datelor iniţiale, nu permit


o uşoară prelucrare şi interpretare statistică. În vederea facilitării realizării
acestor etape este necesară o grupare a valorilor în clase. Rezultatul
grupării se concretizează într-un şir statistic.
La un şir statistic, se distinge:
▪ amplitudinea variaţiei – reprezintă amplitudinea variaţiei valorilor
incluse în şirul statistic;
▪ limitele clasei;
▪ centrul clasei;
▪ mărimea clasei.
Amplitudinea variaţiei se determină prin diferenţa dintre valorile
maxime (xmax ) şi minime (x min ) ale variabilelor înregistrate în şirul statistic.
La gruparea datelor iniţiale în clase şi la formarea şirului statistic,
definitorie este stabilirea numărului de clase ce urmează a se forma.
Acesta variază în funcţie de natura fenomenului studiat. V. Giurgiu
recomandă, în raport cu numărul total de unităţi statistice, următorul număr
de clase:

4
Nr. total de unităţi statistice N 50 100 500 1000 10000
Nr. de clase recomandate k 8 10 13 15 20

Mărimea clasei (h) se stabileşte prin intermediul relaţiei:

amplitudinea de variaţie x max - x min


h = --------------------------------- = ---------------
numărul claselor k

În cazul datelor iniţiale ale creşterii în diametru, prezentate în Tabelul


2.1, gruparea valorilor s-a făcut în 15 clase cu un interval de 1 mm.
Limitele claselor s-au fixat în funcţie de mărimea adoptată a
intervalului unei clase: 0,6 – 1,5; 1,6 – 2,5; 2,6 – 3,5; ...; 13,6 – 14,5; 14,6 –
15,5. Valorile din Tabelul 2.1, cuprinse în limitele unei clase, se trec în
clasa respectivă. Rezultatele obţinute în urma grupării valorilor sunt
prezentate în Tabelul 2.2.

Tabelul 2.2

Gruparea în clase a datelor din Tabelul 2.1

Intervalul de Centrul Punctaj Frecvenţe


clasa, clasei, absolute
(numărul
mm mm observaţiilor)
1 2 3 4
0,6 - 1,5 1 II 2
1,6 - 2,5 2 IIII IIII II 12
2,6 - 3,5 3 IIII IIII IIII II 17
3,6 - 4,5 4 IIII IIII IIII IIII 19
4,6 - 5,5 5 IIII IIII IIII IIII IIII IIII I 31
5,6 - 6,5 6 IIII IIII IIII IIII II 22
6,6 - 7,5 7 IIII IIII IIII IIII IIII 24
7,6 - 8,5 8 IIII IIII IIII IIII III 23
8,9 - 9,5 9 IIII IIII III 13
9,6 - 10,5 10 IIII IIII II 12
10,6 - 11,5 11 IIII III 8
11,6 - 12,5 12 IIII 5
12,6 - 13,5 13 II 2
13,6 - 14,5 14 0
14,6 - 15,5 15 II 2
Total N = 192

5
2.2.2 Frecvenţele distribuţiilor experimentale

Ansamblul a două şiruri cu date aflate în corespondenţă în care în


primul şir se înscriu intervalele de clasă ale variabilei iar în cel de-al doilea
numărul de observaţii cuprinse în fiecare clasă formează o distribuţie
experimentală (empirică).
Numărul de observaţii corespunzătoare unei clase constituie
frecvenţa absolută a clasei respective (valorile din ultima coloană a
Tabelului 1.2).
Dacă aceste frecvenţe se cumulează succesiv, se obţin frecvenţele
absolute cumulate.
Raportul dintre frecvenţa absolută şi numărul total de observaţii
constituie frecvenţa relativă iar sumele succesive ale acestora formează
frecvenţele relative cumulate.
Prin raportarea frecvenţelor relative la mărimea clasei, se obţine
densitatea distribuţiei.
Aplicarea definiţiilor de mai sus la şirul statistic prezentat în Tabelul
2.2 a condus la rezultatele prezentate în Tabelul 2.3.
Tabelul 2.3

Frecvenţa distribuţiei empirice, privind creşterea în diametru la


192 arbori de molid
Amplitudinea Centrul Frecvenţe Frecvenţe Frecvenţe Frecvenţe
clasei clasei, absolute absolute relative relative
mm ni cumulate cumulate
1 2 3 4 5 6
0,6 - 1,5 1 2 2 0,011 0,011
1,6 - 2,5 2 12 14 0,063 0,074
2,6 - 3,5 3 17 31 0,089 0,163
3,6 - 4,5 4 19 50 0,099 0,262
4,6 - 5,5 5 31 81 0,161 0,423
5,6 - 6,5 6 22 103 0,114 0,537
6,6 - 7,5 7 24 127 0,125 0,662
7,6 - 8,5 8 23 150 0,119 0,781
8,9 - 9,5 9 13 163 0,068 0,849
9,6 - 10,5 10 12 175 0,062 0,911
10,6 - 11,5 11 8 183 0,042 0,953
11,6 - 12,5 12 5 188 0,026 0,979
12,6 - 13,5 13 2 190 0,011 0,990
13,6 - 14,5 14 0 190 0,990
14,6 - 15,5 15 2 192 0,010 1,000
Total N = 192 - 1,000 -

6
Distribuţiile care au o singură variabilă sunt numite distribuţii
unidimensionale.

2.2.3 Reprezentarea grafică a distribuţiilor unidimensionale

O evidenţiere mai clară a caracteristicilor de bază ale unei distribuţii


experimentale unidimensionale se poate realiza printr-o reprezentare
grafică.
Reprezentările grafice utilizate mai frecvent sunt sub forma unor:
▪ histograme (ale frecvenţelor absolute sau relative), prin construirea
pentru fiecare clasă a câte un dreptunghi cu baza egală cu mărimea clasei,
iar înălţimea proporţională cu frecvenţa luată în considerare;
▪ poligoane (ale frecvenţelor absolute sau relative), prin construirea
unei „curbe” a frecvenţelor prin unirea punctelor care au ca abcisă centrele
intervalelor de clasă, iar ca ordonată o valoare proporţională cu frecvenţele
respective.
Reprezentarea grafică a frecvenţelor (relative sau absolute) poartă
denumirea de curbă de frecvenţă experimentală, fiind în fapt o estimaţie
a curbei de frecvenţă teoretică.
Reprezentarea grafică a frecvenţelor cumulate (relative sau absolute)
poartă denumirea de curbă de distribuţie experimentală;
▪ diagrame de structură – pentru distribuţii cu o singură
caracteristică, în care frecvenţele sunt reprezentate prin dreptunghiuri sau
sectoare de cerc, unde înălţimea dreptunghiurilor sau mărimea arcelor sunt
proporţionale cu frecvenţele.
Distribuţiile de tip discret pot fi reprezentate grafic numai prin
histograme, iar distribuţiile de tip continuu sunt reprezentate mai sugestiv
prin intermediul poligoanelor.
Exemplificări ale tipurilor de reprezentări grafice pentru datele
înscrise în Tabelul 2.3 sunt prezentate în graficele alăturate (Fig. 1.1, Fig.
1.2, Fig. 1.3 şi Fig. 1.4).

7
2.3 Indicii distribuţiilor experimentale

2.3.1 Parametrii populaţiei şi indicii probei

Caracterizarea colectivităţii statistice se face pe baza unor indici ai


distribuţiilor experimentale. În cercetările statistice, se face distincţie între
indicii distribuţiei experimentale, obţinuţi în baza observării eşantioanelor, şi
indicatorii distribuţiei populaţiei, care se obţin prin observarea întregului
volum al populaţiei. Indicatorii populaţiei se numesc parametri, iar indicii
probei (eşantionului) sunt consideraţi estimaţii ale parametrilor.
8
Cele două categorii de indici utilizează două seturi de simboluri
diferite. Pentru indicatorii distribuţiei experimentale (ai probelor) se folosesc
litere latine, iar pentru parametrii probelor se utilizează litere greceşti
(Tabelul 2.4).
Tabelul 2.4

Simbolurile parametrilor şi ai indicilor statistici şi


distribuţiilor experimentale

Nr. Denumirea Simbol


crt. indicilor Eşantion Populaţie
1 Media aritmetică x µ
2 Varianţa s 2
σ2
3 Abaterea standard s σ
4 Coeficient de variaţie s% σ%
5 Covarianţa s xy σ xy
6 Asimetria A α
7 Excesul E ε
8 Eroarea standard sx σx
9 Coeficient de corelaţie r ρ
10 Coeficient de regresie b β

Pentru familiarizarea cu simbolurile exprimate prin litere greceşti,


prezentăm în Tabelul 2.5 alfabetul grecesc.

Tabelul 2.5

Litere Litere Denumirea Litere Litere Denumirea


mici mari mici mari
α Α Alfa ν Ν Niu
β Β Beta ξ Ξ Xi
γ Γ Gama ο Ο Omicron
δ ∆ Delta π Π Pi
ε Ε Epsilon ρ Ρ Ro
ζ Ζ Zeta σ Σ Sigma
η Η Eta τ Τ Tau
θ Θ Theta υ Υ Upsilon
ι Ι Iota φ Φ Phi (pron. fi)
κ Κ Kapa χ Χ Chi (pron. hi)
λ Λ Lambda ψ Ψ Psi
µ Μ Miu ω Ω Omega

9
2.3.2 Indicii distribuţiei experimentale

O primă clasificare a indicilor distribuţiei experimentale evidenţiază


trei categorii:
• indicii tendinţei centrale – oferă informaţii de caracterizare a poziţiei
distribuţiei: mediile, mediana, cuartile, modul;
• indicii de măsură a împrăştierii (a variabilităţii): amplitudinea
variaţiei, dispersia (varianţa), abaterea standard, coeficientul de variaţie;
• indicii de măsură a formei distribuţiei: asimetria şi excesul.

2.3.2.1 Momente

Momentele reprezintă medii aritmetice ale abaterilor de la un anumit


punct ales ca origine, abateri ridicate la diferite puteri.
Dacă punctul de origine este ales arbitrar se obţin momente
obişnuite (ordinare), iar dacă acesta se suprapune pe media aritmetică se
obţin momente centrate. Între cele două categorii de momente există
relaţii matematice simple ce permit determinarea momentelor centrate în
funcţie de cele obişnuite.
Relaţiile de calcul ale momentelor au următoarele expresii:

• momente obişnuite:

 x − x0 
k


N

ni  i 
mk =
' i =1  h  (2.1)
N
• momente centrate:

x −x
k


N

ni  i 
mk = i =1  h  (2.2)
N

unde m k reprezintă momentul obişnuit de ordinul „k”;


'

m k – momentul centrat de ordinul „k”;


x i – valorile observate; i = 1, ..., N;
x – media aritmetică a distribuţiei;
x 0 – valoarea aleasă arbitrar;
N – numărul total al observaţiilor;
h – mărimea clasei;
n i – frecvenţa absolută a clasei „i”.

10
Relaţiile dintre „ m k ” şi „m”:
'

m 2 = m '2 − m1'
2
(2.3)

m 3 = m 3' − 3m '2 m1' + 2m1'


3
(2.4)

Dacă h ≠ 1 şi n i = 1 (valorile observate sunt grupate în clase), calculul


momentelor este afectat de erori, astfel că se impune aducerea unor
corecţii. Shepard a stabilit corecţiile necesare pentru momentele centrate
de ordinul 2 (m 2 ) şi 4 (m 4 ):

m 2cor = m 2 – 0,083h2 (2.5)

m 4cor = m 4 – 0,5m 2 h2 + 0,029h2 (2.6)

Calculele momentelor prin relaţiile (2.1) – (2.2) se desfăşoară tabelar,


modalitatea practică de stabilire a acestora se va realiza în cadrul lucrărilor
practice.
O modalitate mai simplă de calcul manual al momentelor este dat de
un procedeu indirect denumit procedeul sumelor. Se recomandă utilizarea
calculatoarelor electronice în stabilirea valorilor momentelor pentru
distribuţii cu un număr mare de valori.

2.3.2.2 Valori medii

A. Media aritmetică – considerat un indicator expresiv al distribuţiei


experimentale; se calculează prin intermediul relaţiilor:

x=
∑x i
, dacă valorile nu sunt grupate (2.7)
N

x=
∑x n i i
, pentru valori grupate (2.8)
N
unde x i , din relaţia (2.8), reprezintă valoarea centrului de clasă „i”;
n i – frecvenţele absolute corespunzătoare clasei „i”.

B. Media geometrică – recomandată pentru şiruri statistice cu ritm


crescător, se calculează cu relaţia:

x g = N x 1n ⋅ x n2 ⋅ x 3n ....
1 2 3
(2.9)

11
C. Mediana
Mediana este valoarea observată în cadrul şirului statistic ordonat al
variabilei „x” care împarte şirul statistic al frecvenţelor absolute în două
părţi egale. Analitic, mediana se determină prin intermediul relaţiei:
N 
h − Sn 
Me = xe +  
2
(2.10)
ne
unde x e reprezintă limita inferioară a clasei în care cade mediana;
h – mărimea clasei;
N – numărul total de observaţii;
S n – frecvenţa cumulată până la intervalul median;
n e – frecvenţa corespunzătoare intervalului median.
Pentru valorile prezentate în Tabelul 2.3, avem N = 192, N/2 = 96,
h = 1. Intervalul median (în care se încadrează N/2 observaţii) se regăseşte
în clasa 6, cu limita inferioară (x e ) de 5,6 şi cu frecvenţa (n e ) de 22. Cu
aceste valori mediana este egală cu:

1(96 − 81)
M e = 5,6 + = 6,2 mm
22
De remarcat că mediana depinde într-o mai mică măsură (decât x )
de forma distribuţiei sau de valorile extreme ale şirului statistic.
D. Modul – se defineşte ca valoarea variabilei căreia îi corespunde
cea mai mare frecvenţă. Distribuţiile omogene au de regulă un singur
modul şi se numesc unimodule.
În cazul distribuţiilor discrete, modulul se determină citind variabila cu
cea mai mare frecvenţă. În cazul distribuţiilor continui, modul este abscisa
corespunzătoare vârfului curbei de frecvenţă. El se calculează după relaţia:
h (n 0 − n 1 )
M0 = xM + (2.11)
0
2n 0 − n 1 − n 2
unde x M reprezintă valoarea de la limita inferioară a intervalului
0

modul;
n 0 – frecvenţa clasei modul;
n 1 – frecvenţa clasei inferioare clasei modul;
n 2 – frecvenţa clasei superioare clasei modul.

Pentru distribuţia din Tabelul 2.3, modul este egal cu:

1(31 − 19 )
M 0 = 4,6 + = 5,2 mm
2 ⋅ 31 − 19 − 22

12

S-ar putea să vă placă și