Sunteți pe pagina 1din 52

Elemente de Biostatistic

8.1. Noiuni de baz



Statistica este tiina care se ocup cu descrierea i analizarea numeric a fenomenelor de mas. Ea studiaz
latura cantitativ a fenomenelor, legile statistice manifestndu-se sub form de tendine.
Biostatistica intereseaz aplicarea statisticii fenomenelor biologice, incluznd biologia uman, medicina i
sntatea public. Statistica este o ramur a matematicii aplicate dezvoltat din teoria probabilitilor i este
fundamentat pe toate tiinele experimentale: fizica, biologia, sociologia, chimia, etc.
Prelucrarea datelor statistice cu ajutorul unor formule matematice este necesar pentru a ne ajuta s
nelegem fenomenele mai puin evidente.
Observaiile sunt transformate n nregistrri numerice. Statistica este instrumentul matematic ideal pentru
analiza lor.

Detalii interesnd inferena statistic
1. Studiul reprezint o organizare tiinific a sarcinilor cu definirea unei mulimi de obiective.
2. Rezumatul este un studiu al crui scop este s evalueze condiiile care exist n natur i
modificrile orict de nensemnate (mici).
3. Experimentul este un studiu care modific condiiile existente ntr-o manier definit pentru a
evalua efectele unuia sau mai multor tratamente.
4. Unitatea este cel mai mic obiect sau individ care poate fi investigat, sursa informaiei de baz.
5. Populaia este un foarte mare grup de uniti cu privire la care sunt fcute inferene tiinifice.
6. Parametrul este o caracteristic a populaiei.
7. Descrierea este o descriere detaliat a prelucrrilor prin care vom obine informaia.
8. Analiza este activitatea privind colectarea i extragerea informaiilor numerice din unitile
selectate pentru studiu.
9. Eantionul reprezint un subset de uniti din populaie.
10. Statistica este o caracteristic a irului, utilizat pentru realizarea inferenelor.
11. Variabila este o caracteristic observabil pe uniti.
O populaie de uniti este un grup de entiti avnd aceleai caracteristici cuantificabile.
O unitate poate fi: popor, maini, animale, bacterii, familii sau orice alte entiti.
O populaie de observaii este un grup care const n valori numerice ale unei caracteristici cuantificabile
determinate pentru fiecare membru al populaiei de uniti.
Exemplu:







Un eantion de uniti este o submulime finit de uniti din populaia de uniti.
Un eantion de observaii este o submulime finit din populaia de observaii.
Exemplu: Analiza parametrilor de tipul vrst, sex, nlime, greutate pentru un grup de pacieni.



8.2. Variabile aleatoare. Distribuii

O variabil aleatoare este o cantitate care ia valori diferite sau mulimi de valori cu probabiliti variabile.
Un tabel, grafic sau expresie matematic dnd probabiliti cu care o variabil aleatoare ia diferite valori
sau mulimi de valori se numete distribuia variabilei aleatoare.
O distribuie indic pentru o populaie de observaii frecvenele relative cu care diferite valori sau mulimi de
valori aleatoare apar. Cnd vorbim despre medie, varian, deviaie standard, mod sau orice alt statistic
descriptiv a distribuiei, ne referim la ntreaga populaie de observaii.
Formule ale caracteristicilor (acestea vor fi tratate detaliat n paragraful 6.5):




Populaie de entiti
.
Populaie de observaii
* * .*
8
Media populaiei
Variana populaiei o
2

Deviaia standard a populaiei o
Media eantionului
x
Variana eantionului S
2

Deviaia standard a eantionului S
Mrimea eantionului n
Modulul reprezint valoarea a crei frecven este cea mai mare.
Mediana reprezint valoarea de la mijlocul eantionului.

Pentru un grup de valori numerice experimentale, prima operaie este ordonarea lor. Pentru fiecare valoare
a datelor numerice numrul se reine numrul de apariii. Acesta reprezint frecvena.
Mulimea valorilor efective ale frecvenelor constituie distribuia frecvenelor, pe care o putem reprezenta
ntr-un tabel sau pe un grafic.
Observarea statistic a diverselor boli sau fenomene s-a fcut din antichitate; primele statistici adevrate
s-au fcut n sec. XVII, de ctre John Grownt, care a fcut primele recensminte de bolnavi n timpul unor
epidemii de cium din Londra, construind tabele de natalitate i mortalitate. Termenul de biostatistic a fost
introdus n 1772, de ctre Achenwald, matematician german. Pearson, matematician i statistician englez, a
condus revista de biostatistic Biometrika; n 1900 a introdus testul _
2
. Un alt nume important este cel al lui
Francisc Gatton, expert n probleme de ereditate.


8.3. Statistic descriptiv
8.3.1. Descrierea unei serii statistice
O serie statistic este constituit dintr-un ansamblu (mulime) de valori numerice rezultat al unei observaii.
O serie statistic poate fi: numrul de biei ntr-un grup de familii, nlimea, greutatea, procentul urinar
sau sanguin al metabolismului ntr-un grup de bolnavi.
Prima etap a activitii n analiza statistic a datelor const n ordonarea rezultatelor obinute,
prezentarea sub o form facil i accesibil, care s ne ofere o descriere ct mai fidel a fenomenului
studiat.

8.3.2. Ordonarea datelor. Distribuie de frecven
Considernd un grup de valori numerice experimentale ale tipului pe care l citm, rezultatele sunt obinute
ntr-o ordine oarecare. Etapa de ordonare cresctoare sau descresctoare poart numele de punerea n
ordine a datelor. Se nscrie pentru fiecare valoare observat x, numrul F de apariii, care se va numi
frecvena (efectivul) valorii.
Mulimea valorilor efective ale frecvenelor respective constituie distribuia frecvenei, care se poate
prezenta printr-un tabel.
Exemplul 1: Se studiaz numrul de biei n 1877 familii de 7 copii. Rezultatele sunt prezentate n funcie de
numrul x de biei, cuprins ntre 0 i 7. Se observ fiecare dintre aceste valori, care indic efectivul F =
numrul de apariii ntlnite, adic numrul de familii avnd acest numr de copii.
Numr de biei
X
Numr de familii F Frecvena
f=F/n
Procentajul
100*f
0 22 0.01 1
1 112 0.06 6
2 285 0.15 15
3 470 0.25 25
4 513 0.27 27
5 320 0.17 17
6 132 0.07 7
7 23 0.01 1
Total 1877 1 100
Tabelul 8.1: Distribuia numrului de biei n 1877 familii cu cte 7 copii
8.3.3. Gruparea datelor n clase
Cnd valorile studiate variaz continuu, cum este cazul greutii i al nlimii, al procentului de substan
umoral etc., adic atunci cnd variabila poate lua toate valorile posibile ntr-un interval dat, diferitele valori
observate pot fi foarte numeroase.
Distribuia de frecven este foarte dispersat. De aceea este necesar reducerea numrului de valori
posibile. Se mparte domeniul de variaii posibile ntr-un numr de intervale sau clase n interiorul crora se
grupeaz toate valorile care cad n intervalul corespunztor.
Exemplul 2: Se studiaz distribuia greutii ntr-un grup de 100 aduli normali de sex feminin. Greutatea
variaz ntre 41 74 kg. Se mparte domeniul de variaie n intervale de 5 kg (40 44, 45 49, 50 54, ),
care constituie clase n interiorul crora se grupeaz toi subiecii a cror greutate este cuprins ntre limitele
intervalului; mulimea acestor subieci constituie efectivul clasei.
Clase
x
Efectiv
F
Frecvena
f=F/n
Procentaj
100*f
40-44 5 0.05 5
45-49 12 0.12 12
50-54 31 0.31 31
55-59 31 0.31 31
60-64 16 0.16 16
65-69 3 0.03 3
70-74 2 0.02 2
Total N=100 1 100
Tabelul 8.2: Distribuia greutii a 100 aduli de sex feminin

Intervalul de clas
Are importan precizarea domeniului claselor alese, numit interval de clas, care trebuie s fie n principiu
acelai pentru toate clasele; intervalele de clas trebuie de asemeni s fie alturate i fr suprapuneri.
Intervalele de clas se pot preciza n trei moduri (Figura 8.1, tabel 8.3):











Figura 8.1: Alegerea intervalelor de clas

- Indicnd, ca n exemplul precedent, msurile limit ale fiecrei clase, adic cea mai mic i cea mai
mare msur naintea apartenenei la clas, innd cont de precizia msurtorii.
- Indicnd ceea ce se numete limitele reale ale fiecrei clase, adic cea mai mic i cea mai mare
dintre valorile teoretice ale variabilei n aceast clas; de altfel, limita superioar a unei clase i limita
inferioar a clasei urmtoare coincid, ca de exemplu valoarea 44.5 pentru clasele (39.5 .. 44.5) i
(44.5 .. 49.5).
- Indicnd valoarea care se gsete exact n centrul clasei, numit punct median al clasei, i care este
dat de semisuma limitelor unei clase, ca de exemplu 42, 47, 52 etc.
Msuri
limit
Limitele
reale
Puncte
mediane
Efective

40-44 39.5 44.5 42 5
45-49 44.5 49.5 47 12
50-54 49.5 54.5 52 31
55-59 54.5 59.5 57 31
60-64 59.5 64.5 62 16
65-69 64.5 69.5 67 3
70-74 69.5 74.5 72 2
100
Tabelul 8.3: Distribuia greutii a 100 aduli de sex feminin

Grupnd datele n clase, se remarc asimilarea tuturor valorilor unei clase la o valoare unic, aceea a
punctului median (n acest mod, se face reducerea la cazul unei variabile discontinue).
Observaie: Experiena arat c n practic numrul intervalelor de clas este bine s fie cuprins ntre 10
i 20.


Msuri
limit
Puncte mediane: 42 47 52 57
Limite
reale
39.5 44.5 49.5 54.5 59.5
40 44 45 49 50 54 55 59
8.3.4. Frecvene relative
Efectivul F al unei valori (sau al unei clase) reprezint frecvena sa absolut, adic numrul de apariii ale
acestei valori (sau al acestei clase) n ansamblul distribuit.
Dac dorim s comparm serii statistice comportnd un numr diferit de cazuri, este interesant s
raportm aceast frecven absolut la numrul n de cazuri, numit efectivul total, care conine seria studiat.
Se definete la fel frecvena relativ, sau frecvena propriu-zis a valorilor considerate,
n
F
f r =
Se poate atunci completa tabloul distribuiei de frecvene printr-o coloan suplimentar indicnd dintr-o
privire valoarea frecvenei relative, care poate fi de asemeni exprimat sub form de procente (coloana 4 din
tabelele 8.1, 8.2).
Numrul total n de cazuri se definete ca fiind suma efectivelor fiecrei valori,

=
=
p
i
n Fi
1

Suma frecvenelor relative va fi egal cu 1, ceea ce reprezint mulimea, adic 100 procente, sau 100
cazuri ale distribuiei.

=
=
p
i
fi
1
1

8.3.5. Diagrama frecvenelor
Este interesant s nlocuim tabloul cifrelor unei distribuii de frecvene cu o reprezentare grafic, care d
distribuiei de frecven o imagine mai gritoare, permind a face s apar cu uurin alura general a
caracteristicilor eseniale, adic diagrama frecvenelor.
Modul de reprezentare cel mai des utilizat este histograma: fiecare valoare (clas) este figurat printr-un
dreptunghi a crui baz corespunde valorii (sau intervalului de clas) reprezentat pe axa absciselor i a crui
nlime este proporional cu efectivul (numrul, procentajul) acestei valori (clase), fiind reprezentat pe
ordonat.














Figura 8.2: Histograma numrului de biei n familii cu 7 copii
Se obine astfel o mulime de dreptunghiuri cu aceeai lime i a cror nlime i suprafa sunt respectiv
proporionale cu efectivele fiecrei valori (sau clase) (Figura 8.2, 8.3).















Figura 8.3: Histograma claselor de greutate
112
285
470
513
320
132
23
22
1.00%
6.00%
15.00%
25.00%
27.00%
17.00%
7.00%
1.00%
0
100
200
300
400
500
600
0 1 2 3 4 5 6 7
Numar de baieti
F
r
e
c
v
e
n
t
a

a
b
s
o
l
u
t
a
0
0.05
0.1
0.15
0.2
0.25
0.3
F
r
e
c
v
e
n
t
a

p
r
o
c
e
n
t
u
a
l
a

5
12
31 31
16
3
2
5.00%
12.00%
31.00% 31.00%
16.00%
3.00%
2.00%
0
5
10
15
20
25
30
35
40-44 45-49 50-54 55-59 60-64 65-69 70-74
Clase de greutate
F
r
e
c
v
e
n
t
a

a
b
s
o
l
u
t
a
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
F
r
e
c
v
e
n
t
a

p
r
o
c
e
n
t
u
a
l
a


Se poate construi identic diagrama frecvenelor, notnd pe ordonate nu frecvenele absolute, ci pe cele
relative,
n
F
f = . n acest caz suprafaa histogramei va fi egal cu suma frecvenelor relative, deci va fi
egal cu 1. Acest mod de lucru nu modific aspectul histogramei, cu condiia de a alege pentru scara
frecvenelor relative uniti mai mari. Axa ordonatelor este atunci gradat n procente n raport cu numrul
total de cazuri (figurile 6.2, 6.3, scala din dreapta).


8.3.6. Principalele tipuri de diagram de frecvene
Diagramele de frecvene folosite pentru observaiile din biologie i medicin pot acoperi pe ct posibil
aspecte foarte variate. Totodat, se pot reduce adesea la tipuri bine-definite, evocnd cu certitudine
distribuiile teoretice ale calculului probabilitilor.

1. Diagrame simetrice: frecvenele diferitelor clase se grupeaz simetric descresctor de o parte i de alta
a unei frecvene centrale maximale (Figura 8.4).















Figura 8.4: Distribuia a 8879 proteine marcate cu iod

Acest tip de distribuie apare ca o distribuie teoretic a calculului probabilitilor, numit distribuie normal
(gaussian), care joac un rol fundamental n statistic. Ea se ntlnete efectiv, foarte adesea n biologie,
cnd eantionul studiat aparine unei populaii normal distribuite.

2. Diagrame asimetrice: corespund cazului unei frecvene maximale n jurul creia se grupeaz i
frecvenele diferitelor clase. Frecvenele descresc mai rapid fa de cea maxim ntr-o parte a diagramei,
comparativ cu cealalt parte (Figura 8.5).

3. Diagrame hiperbolice: sunt un caz particular al distribuiei asimetrice, unde frecvena maximal se
situeaz la una dintre extremitile distribuiei (Figura 8.6).

Figura 8.5: Distribuia diametrelor a 100 cochilii de cepaea memoralis

Diagrama simetrica
0
2
7
10
14
23
27
22
13
11
7
3
2
0
5
10
15
20
25
30
0 1 2 3 4 5 6 7 8 9 10 11 12
F
r
e
c
v
e
n
t
e

a
b
s
o
l
u
t
e

Diagrama asimetrica
4
6
22
26
34
11
5
3
1
0
5
10
15
20
25
30
35
40
19 20 21 22 23 24 25 26 27
Valorile diametrului
F
r
e
c
v
e
n
t
a

a
b
s
o
l
u
t
a
















Figura 8.6: Distribuia deceselor prin scarlatin (Anglia 1933)

Uneori, distribuia asimetric este mascat prin adoptarea unui interval de clas mai mare (Figura 8.7).

4. Distribuia bimodal: prezint dou frecvene maximale corespunztoare diferitelor valori ale variabilei
(Figura 8.8). Acest aspect sugereaz existena, ntr-un eantion studiat, a dou populaii distincte.














Fig 8.7: Detaliu la Figura 8.6, cu schimbarea intervalelor de clas Fig 8.8: Vrsta de apariie a gimcomastiei la 98 subieci

8.3.7. Poligoane de frecven
Se unesc mijloacele marginilor superioare ale fiecrui dreptunghi al histogramei reprezentative a unei serii
de frecvene. Se obine o linie frnt, numit poligon de frecvene al seriei corespunztoare, care indic cum
variaz frecvena de-a lungul mulimii valorilor seriei (Figura 8.9). Dup construirea poligonului de frecvene,
se vede c fiecare dintre colurile amputate sunt compensate cu triunghiuri adiacente, astfel nct suprafaa
nglobat n poligonul de frecven rmne aceeai (fiind echivalent cu suprafaa histogramei).

Observaie: Poligonul de frecven are aceeai semnificaie cu marginea superioar a histogramei.













Figura 8.9: Poligon de frecvene

8.3.8. Frecvene cumulate
Plecnd de la valoarea cea mai mic (prima din ordinea tabelului ) se adun succesiv frecvenele fiecrei
valori (sau clase); prin urmare, pentru fiecare valoare se consider nu numai frecvena sa proprie, ci suma
Diagrama hiperbolica
330
302
286
195
40 39 42
23 22 24 23 21 20
35 36 34 37 32
0
50
100
150
200
250
300
350
5 10 15 20 25 30 35 40 45 50 55 60 65 70 65 70 75 80
Vrsta
F
r
e
c
v
e
n
t
a

a
b
s
o
l
u
t
a

Diagrama hiperbolica mascata
0
100
200
300
400
500
600
13579
1
1
1
3
1
5
1
7
1
9
2
1
2
3
2
5
Varsta
F
r
e
c
v
e
n
t
a

a
b
s
o
l
u
t
a

Diagrama bimodala
0
5
10
15
20
25
30
10 20 30 40 50 60 70 80
Varsta
F
r
e
c
v
e
n
t
a

a
b
s
o
l
u
t
a

0
5
10
15
20
25
1 2 3 4 5 6 7 8 9
F
r
e
c
v
e
n
t
a

acestei frecvene cu a tuturor valorilor inferioare. n acest mod se obine o distribuie de frecvene numite
cumulate (tabelul 8.4).

Numr de
biei x
Numr de
familii F
Numr cumulat
de biei x
c
Numr cumulat
de familii F
c
.
0 21 0 21
1 111 0 1 132
2 287 0 2 419
3 480 0 3 899
4 529 0 4 1428
5 304 0 5 1732
6 126 0 6 1858
7 19 0 7 1877
Total: 1877
Tabelul 8.4: Frecvene cumulate pentru numrul de biei
n familii cu 7 copii

Reprezentarea grafic a acestui tip de frecvene duce la obinerea unei diagrame numit diagrama cumulat
a datelor (Figura 8.10).













Figura 8.10. Diagrama cumulat a datelor


8.4. Clasificarea datelor

Datele folosite n calculele statistice sunt de dou tipuri: calitative (categoriale) i cantitative (numerice).

1. Date calitative: sunt date care pot fi clasificate dup categorii, i nu dup numr (valori).
Exemple:
- Brbai / Femei
- Fumtori / Nefumtori
- Grupa sanguin A /B /AB /0
- Cstorii / Necstorii / Divorai
Uneori utilizm numere pentru a reprezenta diferite categorii. Aceste tipuri de date calitative se numesc
nominale.
Alteori, cnd variabila poate lua doar dou valori, ea se va numi variabil binar (ex. Diabetic /
Nediabetic).
Adesea exist o ordine natural n organizarea variaiilor unui sistem (organizare n clase). Aceste tipuri
de date se numesc ordinale.
Exemplu:
- Consum de igarete: Nefumtori / Fumeaz sub 5 igri pe zi / Fumeaz 5 10 igri pe zi /
Fumeaz 10 20 igri pe zi / Fumeaz peste 20 igri pe zi
- Clase sociale: jos / mijloc / sus

2. Date cantitative: sunt caracterizate de valori numerice. Pot fi, la rndul lor:
- continue: pot lua orice valoare ntr-un interval dat;
- discrete: pot lua numai anumite valori numerice.
Exemplu:
- Date de tip continuu: greutatea ntr-un grup de pacieni, nlimea ntr-un lot de copii;
- Date de tip discret: numrul de copii ntr-o familie, numrul de internri ntr-un spital.
0 2
9
19
33
56
83
105
118
129
136
139 141
0
20
40
60
80
100
120
140
160
0 1 2 3 4 5 6 7 8 9 10 11 12
Diagrama cumulata

8.4.1. Reprezentarea datelor
Datele calitative se reprezint folosindu-se urmtoarele metode:
- Tabele de frecven;
- Bar chart (un tip de reprezentare grafic asemntoare histogramei);
- Pie chart.
Datele numerice se reprezint folosindu-se urmtoarele metode:
- Histograma (din exemplele anterioare);
- Graficul linie (Figura 8.11);









Figura 8.11: Exemplu de grafic linie
- Diagrama datelor (se figureaz norul de puncte Figura 8.12).










Figura 8.12: Exemplu de diagram a datelor
1`
8.5. Msurile valorilor centrale

Parametrii urmrii n analiza unei serii statistice sunt:

a) Media aritmetic:
Se aplic datelor care au valori numerice; se obine fcnd raportul dintre suma tuturor valorilor i numrul
acestora.
Exemplu: Vom calcula media aritmetic a urmtoarei serii de valori:
39, 42, 73, 67, 24 , 55.
Aceasta va fi:
50
6
300
6
55 24 73 42 39
= =
+ + + +
= x .

n cazul general: avem observaiile x
1
, x
2
, , x
n
; suma absolut a acestora va fi

=
= + + +
n
i
i n
x x x x
1
2 1
... ; n acest caz, media aritmetic se va calcula cu formula:
n
x
x
n
i
i
=
=
1
.
b) Mediana:
Cnd observaiile sunt aezate n ordine (descendent sau ascendent), mediana va fi valoarea care
mparte grupul de valori n dou pri egale.
Exemplul 1: Avem seria de valori:
C, E, B, D, A, A, B, F, C, C, D.
Le vom aranja n ordine ascendent:

A, A, B, B, C, C, C, D, D, E, F.

0
5
10
15
20
25
30

0
1
2
3
4
5
6
7
0 1 2 3 4 5 6 7

Mediana va fi elementul ncercuit.
Exemplul 2: Avem seria de valori:
61 , 49 , 53 , 61 , 74 , 82.
Aranjm elementele n ordine ascendent:
35 , 49 , 53 , 61 , 74 , 82.
Mediana se calculeaz fcnd media aritmetic a celor dou valori din mijlocul irului:
57
2
61 53
=
+
= mediana .
c) Modulul:
Este valoarea care are frecvena cea mai mare din setul de observaii.
Exemplu: Avem mulimea de valori:
A, O, O, B, B, AB, AB, A, A, O, O, O, AB, B, O, B, A, O, AB, O, O, B, O, A.
Valoarea A are 5 apariii.
Valoarea B are 5 apariii.
Valoarea AB are 4 apariii.
Valoarea O are 10 apariii. Aceasta va fi modulul seriei de valori.




8.6. Msuri ale mprtierii sau variabilitii

Msurile valorii centrale nu ne dau nici o indicaie privind mprtierea sau variabilitatea ntr-un set de
observaii.

Exemplu: S considerm c avem dou comuniti A i B; media locuitorilor celor 2 comuniti este aceeai,
ns distribuiile valorilor (mprtierea acestora) este diferit (conform tabelului 8.5).

Comunitatea A Comunitatea B
400 8000
6000 8000
8000 9000
10000 10000
12000 11000
14000 12000
16000 12000
10000 =
A
X 10000 =
B
X
Tabelul 8.5: Locuitorii din 2 comuniti A i B

Pentru a se putea caracteriza gradul de mprtiere al valorilor unei serii de valori, se definete o mrime
special, numit deviaie standard.
O alt msur util de caracterizare a mprtierii este rangul, definit ca diferena ntre cea mai mic i
cea mai mare valoare a seriei.

Variana (dispersia) i deviaia standard:

Variana este media ptratelor deviaiilor (abaterilor) de la medie. Cnd calculm variana unei serii
statistice, suma ptratelor deviaiilor de la medie se mparte la (n 1), deoarece aceasta d o mai bun
estimare a varianei populaiei totale. Numitorul (n 1) este numit numrul gradelor de libertate ale
varianei.
Formula de calcul a varianei pentru o serie de valori x
1
, x
2
, , x
n
va fi:


1
) (
) (
1
2
2 2

=

=
n
x x
S
n
i
i
o



Exemplu: Valorile variaiei ntr-un set de rezultate sunt prezentate n tabelul 8.6.

Vrsta
(rezultate)
Deviaia absolut
de la medie
Ptratul
deviaiei
1 68 13.8 190.44
2 65 10.8 116.64
3 59 4.8 23.04
4 59 4.8 23.04
5 57 2.8 7.84
6 52 2.2 4.84
7 49 5.2 27.04
8 48 6.2 38.44
9 48 6.2 38.44
10 48 6.2 38.44
11 47 11.2 125.44
Total 596 74.2 633.64
Tabelul 8.6: Variana ntr-un set de rezultate
2 . 54
11
596
= = X .
Numrul de grade de libertate: 11-1=10.
Mediana: 52.
Modulul: 48.
36 . 63
10
64 . 633
2
= = o .
Definiie:
Rdcina ptrat a varianei se numete deviaie standard.
1
) (
2
1

=

=
n
x xi
n
i
o .
Eroarea standard (e.s.) este dat de formula:
n
n
s e
2
. .
o o
= = .
Pentru exemplul nostru (tabelul 8.6):
510 . 2
316 . 3
96 . 7
10
96 . 7
. . = = = s e





















8.7. Principalele tipuri de distribuii statistice

8.7.1. Distribuia binomial

Experiena dublei extrageri
Avem un sac care conine o bil alb i dou negre i vedem ce se ntmpl probabilistic atunci cnd
procedm la dou extrageri succesive.
Presupunem c bila tras prima dat este repus n urn n aa fel nct componena acesteia s nu se
schimbe n timpul celei de-a doua extrageri.
n aceste condiii, la a doua extragere, la fel ca i la prima, exist probabilitatea p=1/3 de a extrage o bil
alb, i probabilitatea q=2/3 de a extrage o bil neagr. Ceea ce ne intereseaz este probabilitatea
combinaiilor care pot rezulta din a doua tragere.
n timpul acestei experiene, fiecare din cele 3 bile susceptibile de a fi extrase la prima extragere, poate fi
asociat cu fiecare dintre cele 3 bile susceptibile de a fi extrase a doua oar. Exist un total de 3 3 = 9
combinaii posibile de cte dou bile:

- o combinaie A+A
- 2 combinaii A+N
- 2 combinaii N+A
- 4 combinaii N+N




Probabilitile acestor combinaii diferite sunt:
- 1/9 (adic p
2
) pentru combinaiile A+A;
- 2/9 (adic pq) pentru combinaiile A+N;
- 2/9 (adic pq) pentru combinaiile N+A;
- 4/9 (adic q
2
) pentru combinaiile N+N.
Dac nu se ine cont de ordinea n care se prezint bilele (ceea ce poate fi realizat efectund o tragere de
2 bile odat dintr-un sac cu aceeai compoziie, adic avnd aceeai proporie de bile albe i negre, dar
coninnd un numr mare de bile) vedem c avem 3 posibiliti:
- combinaia A+A, cu probabilitatea p
2

- combinaia A+N (sau N+A), cu probabilitatea pq + pq = 2pq
- combinaia N+N, cu probabilitatea q
2

Aceste diverse combinaii de bile care comport respectiv notaiile 0, 1 i 2 bile negre, au deci
probabilitile egale respectiv cu p
2
, 2pq, q
2
, adic termenii succesivi din dezvoltarea bine- cunoscut:
2 2 2
2 ) ( q pq p q p + + = + .


Extrageri multiple; distribuia binomial
Judecnd n aceeai manier i plecnd de la datele precedente, se va gsi c n cazul tragerilor triple,
adic a 3 bile deodat, exist 3+1=4 combinaii posibile de 3 bile albe i negre, comportnd respectiv 0, 1, 2,
i 3 bile negre, deci probabilitile sunt reprezentate respectiv de termenii succesivi ai dezvoltrii:
( )
3 2 2 3 3
3 3 q pq q p p q p + + + = + , aa cum reiese i din tabelul 8.7.
Pentru p=1/3 i q=2/3, se obin pentru aceti termeni valorile 1/27, 6/27, 12/27, 8/27, care sunt
reprezentate n Figura 8.13.
n general, se arat c dac se realizeaz n trageri succesive (sau, ceea ce este acelai lucru, dac
plecm de la o urn binar cu aceeai structur, adic aceeai proporie de bile albe i negre, dar coninnd
un numr mare de bile, i extragem de fiecare dat un eantion de n bile) se obin (n+1) combinaii de bile
albe i negre, coninnd respectiv 0, 1, 2, 3, , n bile negre. Probabilitatea acestor combinaii diferite este
dat respectiv de termenii succesivi din dezvoltarea (p+q)
n
, p i q fiind probabilitile elementare de a
extrage o bil alb i respectiv de a extrage o bil neagr.








Prima extragere

A doua extragere

Comb.
dublei
extrageri
A 3-a
extragere
Comb. celei de
a 3-a extrageri
Probabilit.
coresp.
Probabilit.
finale
Nr. bile
negre
AA
(p
2
)
A(p) AAA
p p
2

p
3
0
N(q) AAN
q p
2

q p
)
`

2
3

1
AN(NA)
(pq)
A(p) ANA (NAA) 2pqp=2p
2
q
N(q) ANN (NAN) 2pqq=2pq
2

2
3 q p
)
`


2
NN
(q
2
)
A(p) NNA
p q
2

N(q) NNN
q q
2

q
3
3
Tabelul 8.7: Probabilitile triplei extrageri

0
0.1
0.2
0.3
0.4
0.5
P
r
o
b
a
b
i
l
i
t
a
t
e
a

P
0 1 2 3
Numarul de bile negre

Lund ca variabil aleatoare numrul r de bile negre coninute n eantionul de n bile, r poate lua toate valorile
discrete (ntregi) de la 0 la n; se obine o distribuie unde probabilitile diferitelor valori ale variabilelor aleatoare
sunt date de termenii succesivi din dezvoltarea binomului (p+q)
n
, de unde numele binomial, dat acestei
distribuii particulare a probabilitilor.


Expresia termenului de rang r
Dezvoltarea (p+q)
n
comport n+1 termeni calculai de la 0 la n, de la stnga la dreapta.
Termenul de rang 0 (cel mai din stnga) va fi ntotdeauna p
n
, iar termenul de rang n (cel mai din dreapta)
va fi q
n
.
Termenul de rang r (r variind de la 0 la n) este dat de expresia
r r n
p
r
n
q p C
) (
. innd cont de formula de
calcul al combinrilor,
( )! !
!
r n r
n
C
r
n

= , expresia general a termenului de rang r din descompunerea (p+q)
n

, notat cu P
r
, va fi:
( )
r r n
q p
r n r
n


=
) (
! !
!
Pr .


Semnificaia distribuiei binomiale
Rezult din consideraiile precedente c ntr-o distribuie binomial, termenul de rang r, adic acela care
corespunde unui eantion de r bile negre, are o probabilitate dat de valoarea termenului de rang r n
dezvoltarea (p+q)
n
, adic de P
r
.
P
r
indic deci probabilitatea de a exista o tragere, plecnd de la o urn binar i un eantion comportnd r
bile negre din cele n bile ale eantionului.
Se definete evenimentul favorabil (succes), ca fiind extragerea unei bile negre; prin urmare, extragerea
unei bile albe este un eec non-realizare a evenimentului favorabil. Putem spune c P
r
reprezint
probabilitatea de a avea r succese din n experiene succesive. Termenii respectivi ai distribuiei binomiale,
Figura 8.13. Probabilitile
triplei extrageri
vor reprezenta deci n ordine probabilitile de a avea 0, 1, 2, 3, , r, succese din n experiene repetate
(Figura 8.14).
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0 1 2 3 4 5 . . . . . r . . n
Numar de succese



Distribuia binomial simetric
S presupunem c p=q. Expresia general a termenului de rang r, fcnd abstracie de coeficientul
corespunztor combinrilor, devine:
n r r n
p p p =

.
Toi termenii dezvoltrii sunt atunci de forma p
n
, iar ei difer unul de altul numai prin valoarea
coeficientului corespunztor combinrilor, C. Din expresia coeficientului C rezult de asemeni c 2 termeni
situai la egal distan de extremiti sunt identici.

ntr-adevr, dac un termen are rangul r, simetricul su va avea rangul (n r). Coeficientul termenului de
rang (n r) va fi obinut nlocuind r cu (n r) n expresia
r
n
C , deci termenii sunt identici.
Rezult aadar c, dac p=q, termenii situai la egal distan de extremitile binomului sunt
egali ntre ei; distribuia binomial obinut se numete simetric (Figura 8.15).
0
0.2
0.4
0.6
0.8
1
1.2
1 3 5 7 9 11 13 15 17 19 21
r
P



Distribuia binomial asimetric
Dac p=q, distribuia binomial este numit asimetric, iar aspectul ei va fi diferit dup cum p < q sau q < p
(distribuia fiind deplasat oblic stnga sau dreapta, Figurile 8.16, 8.17).
Figura 8.14. Distribuie
binomial
Figura 8.15. Distribuie
binomial simetric
0
0.2
0.4
0.6
0.8
1
1.2
r
P

n aceast situaie, p = q, iar asimetria distribuiei tinde s se estompeze dac n crete; pentru valori
suficient de mari ale lui n, distribuia poate fi considerat practic simetric, chiar dac p = q (Figura 8.18).


0
0.2
0.4
0.6
0.8
1
1.2
r
P

x
P
0.1
0.2
0.3
0.4
0.5
0
n = 10
n = 20
n = 50
n = 100



Rangul termenului cel mai probabil
Diagramele arat c, indiferent de forma simetric sau asimetric a distribuiei, diferiii termeni ai acesteia
vor crete pn la o valoare maxim, pentru a descrete apoi. Exist deci totdeauna un termen al crui
probabilitate este cea mai mare.
Este interesant de cercetat rangul termenului care corespunde probabilitii maxime. Aceasta revine la a
determina componena cea mai probabil a eantionului de n bile extrase plecnd de la o urn binar de
componen dat.
Fie o urn coninnd, de exemplu, 100 bile, dintre care 30 albe i 70 negre. Extragen din mai multe
extrageri un eantion de 10 bile. tim c exist 10 + 1 = 11 combinaii posibile ale acestor bile bile albe i
negre, comportnd respectiv 0, 1, 2, 10 bile negre. Nu are importan ce combinaie din cele 11 posibile a
ieit.
Figura 8.16. Distribuie
binomial asimetric
deplasat dreapta (p < q)

Figura 8.17. Distribuie
binomial asimetric
deplasat stnga (q < p)

Figura 8.18. Distribuia
binomial asimetric
(p = 0.9, q = 0.1)
pentru diferite valori ale lui n

Intuitiv, tim c avem anse mai mari de a extrage un eantion coninnd 3 bile albe i 7 bile negre, deci
avnd aceeai proporie (pstrnd compoziia) cu urna nsi. Se arat efectiv c este de asemeni bine s
tim n particular c n este suficient de mare i c p i q nu trebuie s fie prea apropiate de 0 sau de 1.
n aceste condiii devine facil s calculm rangul termenului corespunztor probabilitii maxime: va fi
rangul r corespunztor numrului de bile negre coninut n combinaia respectiv.
Dac q este proporia de bile negre, numrul r de bile negre n eantionul de n bile va fi:
n q r
n
r
q = = sau .
n aceste condiii precizate (n mare, p i q nu prea apropiate de 0 sau 1), rangul termenului cel mai
probabil este dat de expresia: q n r = , care corespunde unui eantion avnd aceeai compoziie ca urna
binar din care s-a fcut extragerea.


Media distribuiei binomiale
Se arat c termenul cel mai probabil, q n r = , reprezint n acelai timp i media distribuiei binomiale,
care va fi prin urmare
q n m =
i, atta timp ct condiiile precizate sunt realizate, aceast medie corespunde termenului de rang cel mai
probabil.
Aceasta vrea s spun c ntr-o serie de n experiene, a cror probabilitate constnd din succese este q,
numrul de succese la care trebuie s ne ateptm este q n .


Variana; abaterea tip
Dac media este q n , abaterea de la medie pentru o valoare oarecare x
i
va fi (x
i
nq). Variana va fi:
( )

=
=
n
i
i
q n x
n
1
2 2
1
o .
Se arat c aceast expresie este egal cu p q n .
Variana unei distribuii binomiale este deci dat de formula:
q p n =
2
o .
Prin urmare, deviaia standard a distribuiei binomiale va deveni:
q p n = o


Exemplu de distribuie binomial
Repartiia sexelor la natere ofer un exemplu clasic de distribuie binomial. Se poate considera ntr-adevr
c exist pentru fiecare natere o probabilitate constant egal cu 1/2 de a avea o fiic, egal cu cea de a
avea un biat. Determinarea sexului poate fi simulat printr-un experiment de extragere dintr-o urn binar
coninnd un numr egal de bile albe i negre. Prin urmare, probabilitatea de a extrage o bil alb este egal
cu 1/2, fiind identic cu probabilitatea de a extrage o bil neagr.
n realitate, probabilitatea de a se nate un biat este puin superioar celei de a se nate o fat, prin
urmare urna binar reprezentativ ar trebui s conin 105 bile corespunztoare numrului de biei (negre)
i 100 bile corespunztoare numrului de fete (albe). Pentru 6 nateri, de exemplu, avem 6+1=7 combinaii
posibile, corespunztoare unui numr de 0, 1, 2, 3, 4, 5, 6 nou-nscui biei; probabilitile vor fi date de
termenii corespunztori dezvoltrii (p+q)
6
, unde p=1/2 i q=1/2.
Prin urmare, probabilitile vor fi (Figura 8.19):
- p
6
=1/64=0.016=1.6% pentru situaia 0 biei, 6 fete;
- 6p
6
=6/64=0.094=9.4% pentru situaia 1 biat, 5 fete;
- 15p
6
=15/64=0.234=23.4% pentru situaia 2 biei, 4 fete;
- 20p
6
=20/64=0.312=31.2% pentru situaia 3 biei, 3 fete;
- 15p
6
=15/64=0.234=23.4% pentru situaia 4 biei, 2 fete;
- 6p
6
=6/64=0.094=9.4% pentru situaia 5 biei, 1 fat;
- p
6
=1/64=0.016=1.6% pentru situaia 6 biei, 0 fete.
0
.
0
1
6
0
.
0
9
4
0
.
2
3
4
0
.
3
1
2
0
.
2
3
4
0
.
0
9
4
0
.
0
1
6
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0 1 2 3 4 5 6
Numarul de baieti
P

Media distribuiei este m = nq = 6 1/2 = 3 i corespunde eventualitii de a se nate 3 biei i 3 fete
(eventualitatea cea mai probabil Figura 8.20).
0
100
200
300
400
500
600
700
0 1 2 3 4 5 6
Numar de baieti
N
u
m
a
r

d
e

f
a
m
i
l
i
i

Vom vedea n cele ce urmeaz cum poate fi exploatat distribuia binomial pentru unele probleme
statistice, n particular pentru comparaia procentual a dou evenimente care se exclud mutual. Una dintre
utilitile eseniale ale distribuiei binomiale este aceea c ea st la baza unor alte distribuii teoretice, i n
particular a distribuiei normale.

Distribuia procentual
Dac se consider n locul numrului r, proporia r/n (numit procentual) de bile negre coninute n
eantion, distribuia acestor valori pentru diferite combinaii posibile ale eantionului este de asemeni o
distribuie binomial, dar n care avem procentaje 0/n, 1/n, , r/n care iau valori ntre 0 i 100 (Figura 8.21).
Media m
q
a acestei distribuii procentuale se obine din media distribuiei binomiale corespunztoare prin
divizare la n:
q
n
q n
n
m
m
q
=

= =
Media distribuiei procentuale este deci m
q
= q. Semnificaia acestui fapt este aceea c proporia cea mai
probabil este n mod precis, cea care corespunde urnei binare.
q
p
0/n 1/n 2/n 3/n ... r/n ... n/n



Figura 8.19. Diagrama
corespunztoare distribuiei
binomiale
pentru diferite valori ale lui n

Figura 8.20. Exemplu de
distribuie binomial
pentru diferite valori ale lui n

Figura 8.21. Distribuia
procentual

8.7.2. Distribuia normal

Definiie: Distribuia normal este o distribuie binomial simetric n care p = q =1/2.
S studien ceea ce se ntmpl cnd n +. n aceste condiii, distribuia valorilor fiind de la 0 la +,
numrul termenilor distribuiei, adic numrul dreptunghiurilor diagramei devine infinit. Baza fiecrui dreptunghi
se micoreaz prin urmare foarte mult, iar la limit, marginea superioar a diagramei se transform ntr-o linie
continu curb, care este curba de densitate de probabilitate corespunztoare (Figura 8.22).
Curba astfel obinut este perfect definit pe plan matematic curba Gauss-Laplace, care permite
caracterizarea unei forme de distribuie teoretic de importan fundamental: distribuia normal (gaussian).
Aceast distribuie corespunde unei distribuii binomiale simetrice, reprezentat la limit; prin urmare este n
mod forat simetric, ca o distribuie binomial de origine, mprejurul mediei sale (termenul cu probabilitatea cea
mai mare). Pe de alt parte, termenii extremi, situai la egal distan de axa de simetrie a distribuiei, sunt de
forma p
n
, unde p este o fracie a unitii deci devine rapid foarte mic, pe msur ce n crete. Curba se va nla
astfel rapid i de o manier simetric de o parte i de alta a mediei pe axa absciselor, ceea ce i confer un
aspect n clopot foarte caracteristic.
r
Pr

Importana legii normale:
- s poat servi modelele matematice pentru reprezentarea unui mare numr de distribuii experimentale;
- s poat fi exploatat, pentru a rezolva un mare numr de probleme de interpretare statistic.


Ecuaia curbei Gauss
n condiiile de mai sus, n i p, q sunt egale (nefiind apropiate de 0 sau 1). se arat, folosind formula lui
Stirling (pentru n suficient de mare, putem aproxima n e n n
n n
~

t 2 ! ) c expresia
( )
r r n
q p
r n r
n


=

! !
!
Pr , care d valoarea termenului de rang r n distribuia binomial, tinde ctre expresia:
( )
q p n
q n r
e
q p n


=
2
2
2
1
Pr
t
(1)
Cum, n plus, ntr-o distribuie binomial media este m=nq, iar variana este q p n =
2
o , expresia
precedent poate fi scris sub forma:
( )
2
2
2
2
1
Pr
o
t o


=
m r
e (2)
La limit, dreptunghiul de rang r, a crui nlime este dat de probabilitatea acestui termen, P
r
, se reduce
la o ordonat liniar y a crei abscis x este chiar r (Figura 8.23).
Valoarea lui y se obine nlocuind r cu x n expresia lui P
r
; prin urmare se obine:
( )
2
2
2
2
1
o
t o


=
m x
e y (3)
ecuaie cunoscut sub numele de ecuaia curbei Gauss.
+ 0
Figura 8.22. Curba Gauss-
Laplace i distribuia
normal

0
0.2
0.4
0.6
0.8
1
1.2
x
P
r
y
Pr(y)
r(x)



Curba Centrat
Expresia (3) corespunde unei curbe n care originea coordonatelor este plasat, ca pentru distribuia
binomial, la una dintre extremitile distribuiei (Figura 8.24).
0
0.2
0.4
0.6
0.8
1
1.2
x
y
y
x m

Exist ns interesul de a exprima ecuaia curbei n raport cu axa de simetrie a acesteia, care este de fapt
abscisa mediei m. Aceasta revine la a lua noi valori pentru abscisele punctelor de pe curb, i anume
abaterile de la medie ale acestora,
X = x m
Ecuaia curbei devine atunci:
2
2
2
2
1
o
t o


=
x
e y (4), unde X = abaterea de la medie.
Obinem astfel ecuaia curbei Gauss raportat la axa sa de simetrie, numit ecuaia curbei centrate, care
are pentru medie valoarea 0 (Figura 8.25).



x
y
y
x
0
x=x-m



Abaterea redus
Exist interesul de a opera transformri i asupra abaterii o . ntr-adevr, abaterea de la medie X i
abaterea tip o fiind exprimate n aceeai ecuaie dimensional, raportul
o o
m x X
t

= = = abatere redus,
este un numr independent de unitatea de msur, ceea ce permite s comparm ntre ele curbe diferite.
Figura 8.23. Dreptunghiul
de rang r n curba Gauss-
Laplace

Figura 8.24. Curba Gauss,
cu originea plasat la una
dintre extremiti

Figura 8.25. Curba centrat

Expresia lui y devine atunci
2
2
2
1
t
e y


=
t o
(5)
unde
o o
m x X
t

= = .


Curba redus
Pentru a da o portabilitate mai general a ecuaiei curbei Gauss, i a obine un aspect unic al curbei
reprezentative, se ia o ca unitate de msur a abaterilor, ceea ce revine la a face o = 1 n ecuaia (5). Se
obine atunci:
2
2
2
1
t
e y

=
t
(6)
relaie cunoscut sub numele de ecuaia redus a curbei (Figura 8.26).
Se observ c factorul
t 2
1
aproximeaz de fapt ecuaia
2
2
x
e y

= , a unei curbe n clopot clasice (pe
care am studiat-o).



















Morfologia curbei Gauss
Datele anterioare ne vor permite s precizm morfologia curbei Gauss, a crei form n clopot este deja
cunoscut.
Din ecuaia curbei,
2 /
2
x
e

, se deduce c aceasta prezint dou puncte de inflexiune simetrice, pentru x =


1 i x = 1. Curba redus va prezenta prin urmare de asemeni dou puncte de inflexiune simetrice, pentru t
= 1 i t = 1, care corespund lui X = o, respectiv X = o pe curba centrat (dar neredus) i lui x = m o pe
curba necentrat (Figura 8.27).
0
0.2
0.4
0.6
0.8
1
1.2
X
Y
y=f(x)
t -1 +1
o +o
x
0
0
mo
m+o m

0
0.2
0.4
0.6
0.8
1
1.2
X
Y
y=f(x)
+

Figura 8.26. Curba
redus

Figura 8.27. Punctele
de inflexiune pe cele trei
curbe

n toate cazurile curba descrete de o parte i de alta a maximului, la nceput mai ncet, apoi mai rapid,
pn la punctul de inflexiune, i apoi iari mai ncet de la acest punct n jos, pn devine asimptotic la axa
absciselor. Este clar c forma curbei va fi determinat de valorile lui o: cu ct o este mai mic, cu att
punctele de inflexiune sunt mai apropiate de axa ordonatelor, iar curba va fi mai strns n jurul valorii medii,
i invers.
De altfel, ordonata n origine (unde avem valoarea medie) se obine fcnd x = m n ecuaia (3), X = 0 n
ecuaia (4) sau t = 0 n ecuaia (5). Termenul n e devine e
0
= 1, i prin urmare obinem:
t o
=
2
1
y .
Aceast valoare este invers proporional cu o; deci, cu ct o este mai mic, cu att curba este mai strmt i
mai nalt, i cu ct o este mai mare, cu att curba este mai joas i mai ntins (Figura 8.28).
-1 -0.6 -0.2 0.2 0.6 1
o=0.5
o=0.25
o=1

Se poate vedea importana covritoare a lui o, care d morfologia curbei Gauss; asociat cu media, care
d poziia axei de simetrie a curbei, aceast mrime este suficient pentru a caracteriza curba Gauss. Prin
urmare, curba Gauss nu depinde dect de doi parametri: media i o. Acesta este unul dintre motivele care
justific interesul acordat studiului acestor doi parametri n statistic.


Semnificaia probabilistic a curbei Gauss
Cnd se tinde la infinit, fiecare dreptunghi al diagramei distribuiei binomiale se reduce la o ordonat liniar y
a curbei Gauss, care msoar densitatea de probabilitate a valorii x corespunztoare. Curba Gauss are deci
semnificaia unei funcii de densitate de probabilitate, i ea indic pentru fiecare valoare a variabilei
aleatoare x, probabilitatea y care i corespunde (Figura 8.23).
n timp ce n distribuia binomial variabila aleatoare nu poate lua dect un anumit numr de valori
discrete (i ntregi), n cazul distribuiei normale variabila aleatoare este continu i poate lua toate valorile
ntre 0 i + (Figura 8.24).
Cnd se trece la curba centrat, se nlocuiete variabila x cu abaterea de la medie X = x m, care poate fi
pozitiv sau negativ. Noua variabil aleatoare X acoper deci tot domeniul de valori ntre i 0 pe de o
parte, i 0 i + pe de alt parte (Figura 8.29).
Curba indic atunci probabilitatea de a ntlni o anumit abatere de la medie a unei valori date. Se vede
c media, a crei abatere este nul, este valoarea a crei probabilitate este cea mai mare. Mai mult, dac
este advrat c valoarea poate fi observat, toate valorile nu sunt egal probabile. Din forma n clopot a
curbei rezult c probabilitatea de a observa o valoare dat este cu att mai mic, cu ct ea se abate mai
mult de la medie, de o parte i de alta a acesteia. Probabilitatea se diminueaz foarte clar atunci cnd
abaterea depete 1o, dup cum indic aria marcat a curbei de la punctele sale de inflexiune (Figura
8.27). Aceast noiune foarte important, care arat caracterul reprezentativ al mediei n distribuia normal,
este una din noiunile de baz, util n exploatarea statistic a curbei Gauss.
Figura 8.28. Morfologia
curbei Gauss funcie de
diferite valori ale lui o


0
0.5
1
1.5
P
y
x m
0 X=x-m

+



Probabilitile cumulate ale distribuiei normale
Cnd n , distribuia binomial tinde ctre curba Gauss, iar diagrama probabilitilor cumulate care i
corespunde tinde ctre funcia de repartiie corespunztoare, adic integrala curbei Gauss, care este, curba
integral n S studiat anterior, multiplicat prin factorul
t 2
1
(Figura 8.30).
x



Probabilitatea cumulat a distribuiei gaussiene va fi deci obinut din integrala corespunztoare curbei
Gauss. Astfel, probabilitatea cumulat a tuturor valorilor cuprinse ntre i o valoare particular x
1
, adic
probabilitatea tuturor valorilor inferioare lui x
1
, care corespund suprafeei cuprinse sub curba Gauss, din
extremitatea stng i pn la ordonata corespunztoare lui x
1
va fi dat de integrala curbei Gauss, cuprins
ntre i x
1
:
dx e
x
x
2 /
1
2
2
1



}
t

Aceasta msoar ordonata Y
1
= F(x
1
), corespunztoare curbei integrale (Figura 8.31).
x
Y=F(x)
Y
1
x
1

Y



Aceeai probabilitate cumulat a tuturor valorilor lui x cuprinse ntre dou valori particulare x
1
i x
2
, care
corespunde suprafeei de sub curba Gauss, cuprins ntre ordonatele corespunztoare celor 2 valori x
1
i x
2

va fi dat de integrala curbei Gauss, cuprins ntre limitele x
1
i x
2
i calculat cu formula:
dx e
x x
x
2
2
1
2
2
1

}
t
,
care msoar diferena Y
2
-Y
1
ntre ordonatele corespunztoare curbei integrale (Figura 8.32).
Figura 8.29. Domeniul
de valori pentru x i X


Figura 8.30. Diagrama cumulat a distribuiei normale


Figura 8.31. Probabilitatea cumulat a valorilor ntre i x
1



x
y
y=f(x)
x
1
x
2
x
Y
Y=F(x)
Y
1
x
1
Y
2
x
2



Cnd se calculeaz probabilitatea cumulat a tuturor valorilor distribuiei, care este prin definiie egal cu
1, aceasta va corespunde ntregii suprafee de sub curba lui Gauss, fiind integrala curbei Gauss, cuprins
ntre i +, i calculndu-se cu formula:
}
+

dx e
x
2
2
2
1
t

(Figura 8.33).
x
Y
T





Tabelele curbei normale
n practic, nu este necesar s calculm de fiecare dat aceste integrale. Plecnd de la caracterizarea
numeric a curbei Gauss, s-au stabilit tabelele curbei normale (n anex), care ne permit s rezolvm cu
uurin aceste probleme. Tabelele sunt completate pentru curba redus, care are ca abscis
o
m x
t

= i
ca ordonat Y y = o . Aceste tabele indic pentru fiecare valoare t
1
a lui t:
1. Valoarea ordonatei y
1
a curbei reduse care i corespunde (Figura 8.34).
0 t
1
+
u(t
1
)
Y
Y
1

2. Valoarea suprafeei dt e t
t t
}

= u
1
2
0
2
1
2
1
) (
t
, cuprins ntre ordonata de origine i ordonata lui t
1
,
sub curba redus (Figura 8.34), i care msoar probabilitatea cumulat a tuturor valorilor cuprinse
ntre 0 i t
1
.

Figura 8.32. Probabilitatea cumulat a valorilor ntre x
1
i x
2



Figura 8.33. Probabilitatea cumulat a valorilor ntre i +


Figura 8.34. Ordonata y
1
i
suprafaa u(t
1
) pe curba redus


3. Suprafaa ) ( 2
1
t u cuprins sub curba redus, ntre ordonatele punctelor t
1
i +t
1
(Figura 8.35), care
msoar probabilitatea cumulat a tuturor valorilor cuprinse ntre t
1
i +t
1
. n aceste condiii, suprafaa
)] ( 2 1 [
1
t u va msura probabilitile cumulate ale tuturor valorilor exterioare acestui interval.
4. Suprafaa
}

=
1 2
2
1
2
1
) (
t
t
dt e t
t
t (Figura 8.36) cuprins sub curba redus ntre i t
1
i
complementul su fa de 1, )] ( 1 [
1
t t , care msoar probabilitatea cumulat a valorilor inferioare i
respectiv, a valorilor superioare lui t
1
.
t
1
t - t
1
2u(t1)
Y

t
H(t1)
H(t
1
)
1H(t
1
)
t
1

Exemplu: Pentru t
1
= 1/2 se gsete n tabel:
y
1
= 0.3521 u(t
1
) = 0.1915
2u(t
1
) = 0.3830 1 2u(t
1
) = 0.6170
H(t
1
) = 0.6915 1 H(t
1
) = 0.3085
Se poare calcula astfel, plecnd de la aceste date, probabilitatea tuturor valorilor cuprinse ntre dou
valori t
1
i t
2
, care este egal cu ) ( ) (
1 2
t t t t , sau cu ) ( ) (
1 2
t t u u dac t
1
i t
2
sunt de acelai semn
(Figura 8.37), i cu ) ( ) (
2 1
t t u u dac t
1
i t
2
sunt de semne contrare (Figura 8.38).
Exemplu: Pentru t
1
= 1/2 i t
2
= 7/10 se obine:
u(t
1
) = 0.1915; u(t
2
) = 0.2580
u(t
2
) u(t
1
) = 0.0665
Acest tabel permite s se obin pentru toate valorile lui x ale unei distribuii normale probabilitile
corespunztoare.
t
2
y
t
t
1

Figura 8.35. Suprafaa
) ( 2
1
t u pe curba redus

Figura 8.36. Suprafeele
) (
1
t t i )] ( 1 [
1
t t pe curba
redus

Figura 8.37. Suprafaa
) ( ) (
1 2
t t t t pe curba redus

t
1
y
t t
2

Observaie:
Tabelele sunt calculate pentru curba redus; prin urmare, trebuie calculat mai nti t, plecnd de la valorile
considerate x, folosind formula
o
m x
t

= . n tabel este de asemeni precizat ordonata redus y; pentru a
reveni la ordonata neredus, notat Y, folosim relaia
o
y
Y = .
Pentru valoarea x = 6 a unei distribuii normale de medie m = 5 i 2 = o se obine c:
2
1
2
5 6
=

=
o
m x
t .
Pentru t = 1/2 se gsete n tabel y = 0.3521
1760 . 0
2
3521 . 0
= = =
o
y
Y .
Prin urmare, probabilitatea valorii x este deci 0.1760, sau 17.6%.

Determinarea probabilitilor este considerabil mai uoar dect n cazul distribuiei binomiale, unde este
necesar s se calculeze separat diferiii termeni ai distribuiei. Distribuia normal oferind valori continue, are
o portabilitate mai general dect distribuia binomial, pe care am studiat-o i care nu ofer dect valori
discrete.


Suprafeele importante ale curbei Gauss
Datele anterioare ne permit s nelegem valoarea abaterii t corespunztoare valorii determinate de aria
2u(t), deci aria de sub curba neredus. Aceste valori ale ariei 2u(t) sunt cele care corespund valorilor
abaterii n raport cu o.
Se arat n Figura 8.39 c:
1. Aria 2u(t) care corespunde unei abateri t = 1, adic x = 1o, deci aria cuprins sub curba neredus
ntre abscisele x = (mo) i x = (m+o), reprezint 68.3% (mai exact 63.28% - din tablul curbei Gauss) din
suprafaa total de sub curb.
2. Aria 2u(t) care corespunde abaterii t = 2, adic x = 2o, deci aria cuprins sub curba neredus ntre
abscisele x = (m2o) i x = (m+2o), reprezint 95.5% din suprafaa total de sub curb.
3. Aria 2u(t) care corespunde abaterii t = 2.6, adic x = 2.6o, deci aria cuprins sub curba neredus
ntre abscisele x = (m2.6o) i x = (m+2.6o), reprezint 99% din suprafaa total de sub curb.
X
+

t
x
-2.6 -2 -1 0 1 2 2.6
m-2.6o m -2o m-1o m m-1o m-2o m-2.6o
68.30%
95.50%
99%

Figura 8.38. Suprafaa
) ( ) (
2 1
t t u u pe curba redus

Figura 8.39.
Suprafeele importante
ale curbei Gauss

Suprafaa total nglobat sub curba Gauss corespunde probabilitii cumulate a tuturor valorilor, adic
100% din cazurile distribuiei.
Suprafaa 2u(t) menionat mai sus corespunde deci probabilitilot cumulate de 68.3%, 95.5%, 99% ale
cazurilor distribuiei. Dac se consider probabilitile valorilor lui x exterioare intervalelor de mai sus, se
poate deduce:
1. Intervalul exterior lui [mo, m+o], care va ngloba 10068.3 = 31.7% din cazurile distribuiei (Figura
8.40);
+o t o m

2. Intervalul exterior lui [m2o, m+2o], care va ngloba 10095.5% = 4.5% din cazurile distribuiei (Figura
8.41);
t
2o +2o

3. Intervalul exterior lui [m2.6o, m+2.6o], care va ngloba 10099% = 1% din cazurile distribuiei (Figura
8.42);
t
2.6o +2.6o

Prin urmare, ntr-o distribuie normal exist numai:
- 31.7 anse din 100 de a observa o abatere a mediei superioar lui o;
- 4.5 anse din 100 de a observa o abatere a mediei superioar lui 2o;
- 1 ans din 100 de a observa o abatere a mediei superioar lui 2.6o.
Ariile curbei Gauss permit s determinm probabilitatea de a observa ntr-o distribuie gaussian o
abatere redus superioar unei valori date. Aceast proprietate fundamental este exploatat pentru a
reyolva un mare numr de probleme de interpretare statistic.




Figura 8.40. Intervalul
exterior lui [mo, m+o]
pe curba redus

Figura 8.41. Intervalul
exterior lui [m2o, m+2o]
pe curba redus

Figura 8.42. Intervalul
exterior lui
[m2.6o, m+2.6o]
pe curba redus

8.7.3. Distribuia Poisson

Este o distribuie teoretic care poate fi dedus din distribuia binomial: ea corespunde unei distribuii
binomiale n care una dintre eventualiti are o probabilitate foarte mic.

Exemplu introductiv:
Presupunem c avem o urn binar coninnd 999 bile albe i 1 bil neagr. Se tie c bila neagr unic
are o foarte mic ans s fie extras, adic 1/1000=0.1%. Probabilitatea acestui eveniment este deci foarte
mic, dar totui nenul. Dac efectum 1000 de extrageri, de exemplu, putem spera c vom extrage o dat
bila neagr. De fapt, n aceste 1000 extrageri bila neagr are mai multe anse de a iei; nu este exclus s
ias de 2, 3 sau chiar de mai multe ori.

Distribuia Poisson reprezint limita unei distribuii binomiale n care termenii q (de exemplu) devin foarte
mici (practic <0.03%), ceea ce d o distribuie foarte asimetric, atunci cnd n crete la infinit. n aceste
condiii se arat c expresia:
r r n
q p
r n r
n


=
) (
)! ( !
!
Pr ,
care d probabilitatea termenului de rang r, tinde ctre expresia:
) 1 (
!
) (
Pr
q n
r
e
r
q n

= .
Media distribuiei Poisson este q n m = . Prin urmare, expresia (1) devine:
) 2 (
!
Pr
m
r
e
r
m

= .
Dac inem cont de faptul c:

= =
+ + + + =

r
m m
r
m
e e
r
m m m
e
1 Pr
...
!
...
! 2 ! 1
1
2

Deci, suma probabilitilor este egal cu 1.



Proprietile caracteristice distribuiei Poisson
Expresia matematic a distribuiei Poisson arat c diferiii termeni ai acestei distribuii nu depind dect de
parametrul m:
- termenul de rang 0 este ntotdeauna e
-m
;
- dac m < 1, e
-m
este cel mai mare termen al seriei; distribuia descrete atunci constant de la acest
termen de rang 0 i tinde spre 0, avnd un aspect de J ntors;
- pentru m = 1, termenul de rang 0, 37 . 0
1
~ =

e e
m
; termenul de rang 1 este
m
e m

; cei doi termeni
reprezint valoarea maximal a distribuiei;
- pentru m > 1, exist dou valori maximale, numite modale, corespunztoare lui r = m i r = m 1.
termenii succesivi ai distribuiei vor crete pn la dublul maxim, i apoi vor descrete ctre 0 cnd r
crete. Distribuia are un aspect n clopot asimetric cu ntindere (etalare, coad) spre dreapta; acest
aspect asimetric se atenueaz rapid cnd m crete.
Se arat c variana (dispersia) distribuiei Poisson este egal cu m:
( ) ( ) q m q q n q p q p n = = = 1 1 , 1 ,
2
o
Cnd q 0, ultima expresie din ecuaiile anterioare tinde spre m. Prin urmare,
m
m
=
=
o
o
standard, abaterea
2

Distribuia Poisson este deci n ntregime determinat de singurul parametru m:
.
;
;
2
m
m
m
=
=

o
o
abaterea
dispersia
media

0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
0 2 4 6 8 10
m = 0.1
m = 1
m = 3
m = 5


Aplicaii ale distribuiei Poisson: Distribuia Poisson, numit legea probabilitilor mici, se poate aplica n
cazul n care evenimentele au probabiliti mici: accidente mortale, accidente de avion, maladii excepionale,
sinucideri, etc.


0
0,05
0,1
0,15
0,2
0,25
0,3
0 5 10 15 20 25
m = 2
m = 4
m = 8
m = 15


Diferite aspecte ale legii Poisson
Aceast distribuie are o portabilitate mai general. Expresia sa matematic arat nrudirea sa cu funcia
exponenial. Se constat c, atunci cnd evenimentele se succed n timp variabil (la ntmplare, datorate
hazardului) repartiiile lor n trane (intervale) de timp egale se fac urmnd o distribuie Poisson.
Exemple:
- Numrul de atomi care se dezintegreaz ntr-un interval de timp determinat;
- Controlul industrial al fabricaiei cnd procentajul obiectelor defecte este mic.


Interpretare statistic
Ceea ce intereseaz pe observator nu este eantionul pe care l studiaz, ci populaia original din care a
fost extras eantionul i inducerea n populaia original a rezultatelor obinute pe eantion.
Totdeauna, metodele statistice permit s determinm limitele ntre care se pot estima, cu un grad de
credibilitate dat, valorile parametrului vis--vis de populaia de origine, adic ceea ce se numete
determinarea intervalului de ncredere al parametrului. Pentru aceasta vom introduce alte cteva noiuni,
prezentate n cele ce urmeaz.


8.7.4.Distribuia mediilor
Fie o populaie statistic N (N foarte mare), pe care o considerm ca avnd o distribuie normal.
Vom extrage un eantion de efectiv n.
Fie m
1
, m
2
, m
3
mediile gsite pentru diverse eantioane.
Se studiaz fluctuaia statistic a mediilor eantioanelor extrase ntre ele, i egal repartizate fa de media
M a populaiei de origine. Se constat c mediile sunt mai puin dispersate fa de M, media global a
populaiei, dect valorile individuale din populaie (Figura 8.45).
Distribuia nou-obinut n acest mod se numete distribuia mediilor.
Abaterea tip a acestei distribuii de medii se numete abaterea standard a mediei, i se noteaz S
m
.
Figura 8.43. Reprezentarea
grafic a legii Poisson
pentru diferite valori ale lui m

Figura 8.44. Distribuii
Poisson pentru diferite valori
ale lui m

M
m
(a) Distributia mediilor
esantioanelor de cate
n observatii
(b) Distributia a
N valori individuale
Sm
S

Distribuia mediilor fiind mai puin dispersat, abaterea tip S
m
este totdeauna mai mic dect abaterea tip
S a populaiei de origine; ntre cele dou mrimi exist relaia:
n
S
S
m
=
Mulimea mediilor care se pot gsi pentru diverse eantioane avnd acelai numr de observaii, extrase
la ntmplare dintr-o populaie de medie M i abatere standard S, formeaz aadar o distribuie gaussian
de valoare medie M, i avnd abaterea tip S
m
.


Intervalul de ncredere al mediei
Intervalul corespunztor distribuiei mediilor, (M 2S
m
, M + 2S
m
), cuprinznd 95.5% din valorile pe care le
poate lua media m a eantionului din mulimea fluctuaiilor ntmpltoare, se numete interval de confiden
al mediei cu un coeficient de securitate de 95.5% (Figura 8.46).
t
2S
m
+2S
m
M


Analog se definete intervalul de confiden al mediei cu un coeficient de securitate de 99% (Figura 8.47),
ca fiind intervalul (M 2.6S
m
, M + 2.6S
m
) ne spune c avem 99 anse din 100 ca media unui eantion
ales s cad n acel interval.
t
2.6S
m +2.6S
m
M



Figura 8.45. Distribuia
mediilor n jurul mediei
globale a populaiei,
n comparaie cu distribuia
valorilor individuale

Figura 8.46. Intervalul de
confiden al mediei
cu un coeficient de securitate
de 95.5%

Figura 8.47. Intervalul de
confiden al mediei
cu un coeficient de securitate
de 99%

Determinarea intervalului de confiden al mediei
Dorim s studiem la un eantion intervalul de ncredere al mediei observate, m
0
. Nu cunoatem nici media
M, nici S
m
, dar presupunem c tim abaterea tip S a populaiei de origine.
Cteodat, experiena ne arat c n practic, orict de mic ar fi eantionul, dar suficient de important,
distribuiile de eantionaj sunt distribuii sensibil normale. n aceste condiii, valoarea m
0
gsit pentru m
reprezint valoarea a crei probabilitate este cea mai mare. n consecin, este logic s considerm c cea
mai bun estimare pe care o lum va fi media M, i s o substituim n intervalul de confiden.
De altfel, abaterea o a eantionului reprezint o estimare a abaterii tip S a populaiei de origine i se
consider substituia lui S cu S
m
rezultat din calcul. Abaterea o a eantionului va fi o estimare puin mai mic
dect S. Pentru a estima corect S trebuie s lum o valoare puin mai mare dect o al eantionului. Calculul
arat efectiv c cea mai bun estimare a lui S, pe care o vom nota cu S
o
, este puin mai mare dect o, fiind
definit de formula:
1
=
n
n
S o
o

Se poate deci utiliza aceast valoare pentru a calcula S
m
, care va fi:
1
1
1
1

=

=

= =
n
S
n
n
n
n n
S
S
m
m
o
o
o
o

Plecnd de la valorile estimate ale lui M i S
m
, se va putea exprima intervalul de confiden al mediei, care
va fi n final:
- m
0
2S
m
, cu un coeficient de securitate de 95%;
- m
0
2.6S
m
, cu un coeficient de securitate de 99%.
cu
1
=
n
S
m
o
.

Exemplu: Se dozeaz corticoizii urinari ntr-un grup de 253 femei cu greutate normal. Se gsete media m
= 4.50 mg/24h i abaterea tip o=1.50. S se gseasc intervalul de ncredere.
Avem:
1 . 0
252
5 . 1
1
= =

=
n
S
m
o

Intervalul de ncredere al mediei este deci:
m
0
2S
m
= 4.50 2 0.1 = 4.50 0.2
(4.30 , 4.70) cu un coeficient de securitate de 95%;
m
0
2.6S
m
= 4.50 2.6 0.1 = 4.50 0.26
(4.24 , 4.76) cu un coeficient de securitate de 99%.


8.7.5. Cazul eantioanelor mici. Distribuia Student

Raionamemtele anterioare sunt valabile pentru eantioane coninnd minim 30 observaii.
Dac nu este aa, distribuia mediilor nu este normal iar estimrile precedente ale mediei i abaterea tip
nu sunt acceptate.
Problema a fost rezolvat de matematicianul englez Gosset.
Pentru a nelege principiul acestei soluii, trebuie s notm de la nceput c distribuia mediilor poate fi
considerat ca o distribuie a abaterilor (m M) ntre mediile gsite m i media M a populaiei de origine,
distribuie care n cazul unui eantion suficient de important, este o distribuie normal de medie 0 i abatere
tip S
m
(Figura 8.48).
0 M - m
S
m

Gosset a studiat aceast distribuie ca o distribuie a abaterilor (m M), n cazul eantioanelor cu efectiv
mic.
Mai precis, Gosset a studiat distribuia raportului:
m
S
M m
t

= = parametrul t a lui Student
= abaterea redus a mediei, adic raportat la abaterea tip S
m
a mediei.
n cazul eantioanelor de efectiv important, distribuia abaterilor medii (din populaie) fiind normal, este
chiar cea a abaterilor reduse.
Prin urmare abaterea 2S
m
, egal cu de dou ori abaterea tip, i care corespunde valorii t = 2 a abaterii
reduse, nglobeaz 95% din valorile mediei (Figura 8.49).
0
- 2S
m
+ 2S
m
0
m - M
- 2 + 2 t=(m-M)/s
m

n cazul eantioanelor cu efectiv mic apar diferene. Gosset a artat c, n acest caz, valorile parametrului t
obinute pentru diferite eantioane cu acelai numr de observaii n < 30, se distribuie urmnd o lege numit
distribuia Student, care difer de curba normal. Curba reprezentativ a acestei distribuii, pentru o valoare
dat n < 30, este aproximativ o curb n clopot, simetric, dar mai aplatizat dect curba Gauss. Rezult c
abaterea tip este puin mai mare dect cea a curbei normale: aceast curb este numit hipernormal (Figura
8.50).
0 - 2 + 2 - 3 + 3
(a) Legea normala
(b) Legea Student
t = 0.05

Prin urmare, intervalul care nglobeaz 95% din valorile acestei distribuii, i care corespunde la dublul abaterii
tip, este atins pentru o valoare a lui t, notat t
0.05
, superioar valorii 2 (Figura 8.50).
Figura 8.48. Distribuia
normal de medie 0 i
abatere tip S
m


Figura 8.49. Abaterea 2S
m


Figura 8.50. Legea normal i
legea Student

Intervalul de ncredere al mediei (cu un coeficient de securitate de 95%) va fi atunci nu numai m
0
2S
m
, ci
m
0
t
0.05
S
m
, cu t
0.05
>2.
Nu exist o singur distribuie t, ci o familie de distribuii t corespunztoare diferitelor valori posibile pentru cele
n observaii, cu n<30, ale eantionului studiat.
Curbele reprezentative ale acestor distribuii t sunt din ce n ce mai aplatizate, i prin urmare valorile
parametrului t sunt cu att mai mari, cu ct numrul de observaii este mai redus (Figura 8.51).
t
n=1
n=10
n >= 30 - Curba normala

Parametrul t variaz deci n funcie de n, i este cu att mai mic cu ct mrimea eantionului se apropie de
efectivul limit n = 30. Plecnd de la aceast valoare a lui n, distribuia parametrului t se confund practic cu o
curb Gauss, i t
0.05
devine n consecin t
0.05
= 2 (Figura 8.51).
0
- t
0.01
-t
0.05
+ t
0.05
+t
0.01

Exist tabele speciale care dau, n funcie de mrimea eantionului studiat (mai precis, n funcie de numrul
gradelor de libertate, care va fi aici n 1), valorile limit ale parametrilor t care au numai 5 anse din 100 (t
0.05
n
Figura 8.52), i respectiv numai o ans din 100 (t
0.01
n Figura 8.52), de a fi depite sub influena fluctuaiilor
aleatoare. Se va deduce astfel intervalul de confiden corespunztor, i anume:
- m
0
t
0.05
S
m
, cu un coeficient de securitate de 95%;
- m
0
t
0.01
S
m
, cu un coeficient de securitate de 99%.

Exemple:
Presupunem c media m = 4.50 din exemplul precedent a fost obinut pe un eantion de 6 observaii. Care
este intervalul de ncredere?
67 . 0
5
5 . 1
1
= =

=
n
S
m
o

Tabelele lui t arat c pentru un eantion de 6 observaii avem:
- v = n 1 = 5;
- valoarea limit a parametrului t care are numai 5 anse din 100 de a fi depit este t
0.05
= 2.57;
- valoarea limit a parametrului t care are numai o ans din 100 de a fi depit este t
0.01
= 4.03.
Intervalul de confiden cutat va fi deci:
- m
0
t
0.05
S
m
= 4.50 2.57 0.67 = 4.50 1.72
(2.78, 6.22) , cu un coeficient de securitate de 95%;
- m
0
t
0.01
S
m
= 4.50 4.03 0.67 = 4.50 2.70
(1.80, 7.20), cu un coeficient de securitate de 99%.
Dup cum se poate vedea din compararea valorilor obinute, mrimea mic a eantionului duce la un interval de
ncredere al mediei mai mare.


Figura 8.51. Curbele pentru
diferite valori ale parametrului
t

Figura 8.52. Intervalele de
ncredere corespunztoare lui
t
0.05
i t
0.01

8.7.6. Normalitatea biologic
Dup cum se tie, nu exist pentru o constant biologic dat (de exemplu, glicemia sau tensiunea arterial) o
valoare normal unic, ci o serie de valori pe care le putem considera ca normale; aceast mulime de valori
constituie ceea ce se numete zona de variaie normal.
O problem important pentru biologie este de a determina limitele acestei zone de normalitate, i de unde
ncepe patologicul. Trebuie stabilit din ce moment putem considera c o valoare nu este normal, ci patologic.

Exemplu:
Dac valoarea glicemiei medii este 1g/l, nu vom ezita s considerm valoarea 1.05 g/l ca fiind normal. O
valoare de 2 g/l va fi cu siguran patologic. Ce putem spune ns despre valori ca 1.15 g/l, sau 1.20g/l ?

Problema const n a cuta care este abaterea maxim (abaterea limit). Zona de variaie normal va fi prin
urmare intervalul de confiden al mediei.
Valorile sczute ale glicemiei duc la hipoglicemie, cele crescute duc la diabet. Se observ c valorile
observate confruntate cu cele ale subiecilor normali, se distribuie sub forma unei curbe gaussiene. Aceasta este
n definitiv corelaia dintre o abatere statistic semnificativ i o stare patologic dat, care confer simptomului
(cifrabil) valoarea sa deosebit (semiologic): ceea ce se numete criteriul psihopatologic, indispensabil alturi
de noiunile statistice pentru definirea domeniului de variaie patologic n biologie.


8.7.7. Distribuia procentajelor

Estimarea unui procentaj
n urma unui tratament aplicat unui grup de n bolnavi, n = 120, se observ 36 cazuri mai grave (r = 36).
Se obine proporia:
% 30 30 . 0
0
= =
n
r
q
Ca i n cazul mediei, rmne de cercetat pn la ce limit variaiile procentajului pot fi puse pe seama
fluctuaiilor fortuite, adic s se determine intervalul de ncredere al procentajului observat.


Distribuia procentajelor
Pentru a rezolva problema enunat mai sus, se va face o analogie cu intervalul de ncredere al mediei, cutnd
cum se distribuie diferite procente q
1
, q
2
, q
n
, corespunztoare numerelor r
1
, r
2
, r
n
de cazuri grave observate
ntr-un mare numr de experiene pe diferite eantioane cu acelai efectiv n, plecnd de la o populaie teoretic
infinit, avnd aceeai compoziie (structur), adic comportnd o proporie identic q de cazuri grave i p = 1
q de cazuri non-grave.
Considerm o urn binar comportnd aceeai proporie q de bile negre corespunztoare unei boli grave i
aceeai proporie p = 1 q de bile albe corespunztoare bolilor uoare.
Problema revine la a cuta cum se distribuie diferite proporii 0/n, 1/n, 2/n,n/n de bile negre n toate
combinaiile posibile ale eantioanelor identice de efectiv n care pot fi extrase din aceast urn.
Aceast distribuie, dup cum tim, este o distribuie binomial: distribuia binomial a procentajelor, ai crei
termeni corespund dezvoltrii binomului (p + q)
n
. Eantionul cel mai probabil al acestei distribuii are aceeai
proporie de bile albe (p) i de bile negre (q) ca i urna binar.
Media va fi:
q
n
nq
m = =
Abaterea standard va fi:

n
pq
n
npq
n
S = = =
o


n
q q
S
q
) 1 (
=
Diferitele procentaje posibile pentru eantioane de acelai efectiv n formeaz o distribuie binomial de medie
q i abatere tip S
q
.
Intervalul de confiden al procentajului va fi prin urmare:
- q 2S
q
pentru un coeficient de securitate de 95%;
- q 2.6S
q
pentru un coeficient de securitate de 99%,
unde:

n
q q
S
q
) 1 (
=
n cazul eantioanelor mici, estimarea proporiei devine foarte imprecis.


8.7.8. Distribuia diferenelor dintre medii

Compararea a dou medii
Se pune adesea problema de a confrunta rezultatele obinute pe o serie cu cele obinute pe alte serii.
Problema este de a ti dac diferenele constatate ntre seriile comparate se explic prin fluctuaia de
eantionaj, legat de caracterul limitat al efectivului studiat, caz n care diferenele observate nu trebuiesc luate
n considerare. Dac, dimpotriv, diferenele observate sunt prea importante pentru a fi puse pe seama
fluctuaiei de eantionaj, ele sunt semnificative i ne conduc la necesitatea de a admite c seriile statistice
studiate aparin unor populaii de origine diferite.
Metodele statistice nu pot rezolva cu certitudine acest fel de probleme. Ele pot doar s ne indice dac, pe
baza diferenelor observate, putem admite i cu ce grad de securitate ipoteza conform creia seriile studiate
provin din populaii diferite.

Punerea problemei:
ntr-un grup de 253 femei de greutate normal se gsete valoarea medie a corticoizilor n urin 4.5mg/24h.
Aceeai cercetare, fcut ntr-un alt grup de 100 femei prezentnd obezitate, a dat o valoare medie de
6.3mg/24h.
Se pune ntrebarea dac se poate afirma c valoarea mediei corticoizilor urinari la femeile obeze este
superioar celei din grupul de femei normale, aa cum pare la prima vedere. Diferena constatat ntre cele 2
medii traduce o diferen real n natura populaiei studiate, sau este legat doar de fluctuaia de eantionaj?
n general, se lucreaz cu eantioane de volume diferite, n
1
, n
2
; se gsesc dou medii corespunztoare m
1
,
m
2
. Trebuie determinat dac diferena observat ntre cele dou medii este datorat unei fluctuaii sau
corespunde unei diferene reale, n natura celor dou eantioane, fiind semnificativ.


Ipoteza nul
Pentru a putea rezolva aceast problem, se poate studia intervalul de confiden al mediei n fiecare eantion.
Dac intervalele de confiden se suprapun mult, toate valorile care cad n zona de suprapunere pot aparine
att unei distribuii, ct i celeilelte, iar diferena observat poate fi datorat variaiei de eantionaj (hazardului) -
Figura 8.53.
m
1
m
2

Dimpotriv, dac intervalele de confiden ale celor dou distribuii sunt distincte (Figura 8.54), putem deduce
c eantioanele aparin la dou populaii diferite, iar diferena observat este semnificativ.
Figura 8.53. Intervalele de
confiden se suprapun mult
(diferena datorat hazardului)
m
1
m
2

Dar nu putem spune nimic n cazul n care intervalele de confiden se suprapun puin (Figura 8.55).
m
1
m
2

S cutm rezolvarea direct pentru o astfel de problem. Pentru aceasta, vom face ipoteza (numit ipoteza
nul, cci ea presupune c parametrul studiat nu variaz de la un eantion la altul) c cele dou eantioane
aparin aceleiai populaii de origine i vom cuta care va fi n acest caz abaterea maxim i abaterea limit care
pot fi observate ntre cele dou medii considerate, sub influena fluctuaiilor statistice. Ne rmne s studiem
cum se distribuie diferenele ntre mediile celor dou eantioane de efective n
1
, n
2
prelevate de un numr mare
de ori, plecnd de la aceeai populaie de origine.


Distribuia diferenelor dintre medii
Plecm de la aceeai populaie cu un efectiv N foarte mare, teoretic infinit, i extragem un eantion de efectiv n
1
;
valoarea cea mai probabil pentru media m
1
a acestui eantion va fi M, media populaiei originale (globale).
Dac se extrage un alt eantion de efectiv n
2
, valoarea cea mai probabil pentru media m
2
va fi tot M, aceast
probabilitate fiind cu att mai mare cu ct efectivul eantionului n discuie este mai mare. Prin urmare, dac
studiem diferena (m
1
m
2
) va trebui s ne ateptm, intuitiv, ca valoarea sa s fie cel mai probabil zero.
Se arat efectiv c dac dintr-o populaie de efectiv N foarte mare se extrag la ntmplare eantioane de
efective diferite n
1
, n
2
, avnd respectiv pentru medie valorile m
1
, m
2
i c s-au fcut un numr mare de astfel de
experiene, diferenele (m
1
m
2
) se repartizeaz urmnd o distribuie normal n jurul valorii zero (reprezentat
n eventualitatea m
1
=m
2
=M).
Distribuia diferenelor mediilor este deci n acest caz o distribuie normal care are pentru medie valoarea 0
(Figura 8.56).
Figura 8.54. Intervalele de
confiden sunt distincte
(diferena semnificativ)
Figura 8.55. Intervalele de
confiden se suprapun puin
0
Sd
(m
1
- m
2
)

Se arat c variana (dispersia) acestei distribuii, notat cu S
d
2
, este egal cu suma varianelor distribuiilor
mediilor din fiecare eantion.
1 1
2
2
2
1
2
1 2
2 2 2
2 1

=
+ =
n n
S
S S S
d
m m d
o o


Dac n
1
i n
2
sunt suficient de mari, relaia devine:
2
2
2
1
2
1 2
n n
S
d
o o
+ =
Prin urmare, abaterea standard S
d
a distribuiei diferenelor va fi:
2
2
2
1
2
1
n n
S
d
o o
+ =

Diferena semnificativ ntre dou medii
Dac facem referire la proprietile distribuiei normale, putem spune c pentru eantioane diferite plecnd de la
o aceeai populaie de origine, o diferen d = (m
1
m
2
) superioar lui 2S
d
nu se va observa dect n puine
situaii cel mult 5 cazuri din 100 (Figura 8.57).
0 - 2Sd + 2Sd
d

Dac am determinat c aceast diferen este superioar lui 2S
d
, mai curnd dect s acceptm o
eventualitate care nu are dect 5 anse din 100 de a se realiza, vom admite (cu 5 anse din 100 de a ne
nela) c ipoteza iniial fusese fals i c cele dou eantioane aparin n realitate la populaii diferite; vom
spune atunci c diferena observat este semnificativ cu un prag de probabilitate de 5%.
O diferen va fi deci considerat ca semnificativ cu un prag de semnificaie de 5% dac este superioar
lui 2S
d
: d > 2S
d

n acelai mod, vom spune c o diferen ntre dou medii este semnificativ cu un prag de semnificaie
de 1% dac este superioar lui 2.6S
d
: d > 2.6S
d

Pentru a putea ti dac o diferen ntre dou medii este sau nu semnificativ, este deci suficient s
calculm, plecnd de la abaterile tip o
1
i o
2
ale fiecrui eantion, abaterea standard a diferenei, S
d
, i s
vedem dac diferena constatat d este sau nu superioar lui 2S
d
sau 2.6S
d
, urmtorul grad de securitate
gsit.

Figura 8.56. Distribuia mediilor
Figura 8.57. Intervalul de
confiden [2S
d
, +2S
d
]

Exemplu:
Relum problema valorii mediilor pentru corticoizii urinari.
m
2
= 6.3 mg/24h : eantionul de 100 femei obeze;
m
1
= 4.5 mg/24h : eantionul de 253 femei cu greutate normal.
Abaterile tip sunt:
o
2
= 1.7 : eantionul de 100 femei obeze;
o
1
= 1.5 : eantionul de 253 femei cu greutate normal.
Avem:
n
1
= 100 : eantionul de 100 femei obeze;
n
2
= 253 : eantionul de 253 femei cu greutate normal.
d = m
1
m
2
= 1.8
Se calculeaz:
2S
d
= 0.39; 2.6S
d
= 0.47.
Diferena d ntre medii, 1.8, este deci superioar lui 2S
d
i chiar lui 2.6S
d
. Probabilitatea ca o astfel de
diferen s fie pur fortuit (datorat ntmplrii) este deci inferioar lui 1%. Prin urmare, diferena este
semnificativ, i putem concluziona c corticoizii urinari sunt mult mai ridicai la obeze n condiiile studiate.


Cazul eantioanelor mici
Pentru a putea fi considerat semnificativ cu un prag de probabilitate de 95%, diferena va trebui deci s fie
superioar nu numai lui 2S
d
, ci lui t
0.05
S
d
, unde t
0.05
> 2.
De altfel, expresia dispersiei standard este diferit. ntr-adevr, estimrile dispersiei furnizate separat
pentru fiecare eantion devin imprecise, astfel nct formula de estimare a dispersiei devine:
2
2 1
2
2 2
2
1 1 2
+
+
=
n n
n n
l
o o
o ,
unde variaiile estimate ale fiecrui eantion sunt:
1
;
1
2
2
2 2 2
1
2
1 1 2
2 1

=
n
n
n
n
l l
o
o
o
o .
Expresia dispersiei standard a diferenei devine atunci:
|
|
.
|

\
|
+ = + =
2 1
2
2
2
2
1
2
1 2
1 1
n n n n
S
l d
o
o o
,
de unde:
2
,
1 1
2 1
2
2 2
2
1 1
2 1
+
+
= + =
n n
n n
n n
S
l l d
o o
o o cu .
n tabele speciale sunt date, n funcie de efectivele n
1
i n
2
ale fiecrui eantion, i mai precis n funcie
de numrul de grade de libertate, = n
1
+ n
2
2 (se pierde un grad de libertate pentru fiecare eantion),
valorile limit t
0.05
i t
0.01
ale parametrului t care au respectiv 5 i o ans din 100 de a fi depite de o
fluctuaie fortuit.
Se pot calcula atunci produsele t
0.05
S
d
i t
0.01
S
d
, care permit s verificm dac diferena constatat este
sau nu semnificativ cu pragul de probabilitate corespunztor.

Exemplu:
Relum exemplul precedent; presupunem c n primul grup avem 6 observaii, iar n al doilea 8 observaii.
Se calculeaz la nceput dispersia estimat:
Pentru 12 grade de libertate, din tabelele valorilor t se obine:
194 . 0
100
) 7 . 1 (
253
) 5 . 1 (
2 2
2
2
2
1
2
1
= + = + =
n n
S
d
o o
12 2 8 6 2
94 . 0
8
1
6
1
75 . 1
1 1
75 . 1 05 . 3
2
2 1
2 1
2 1
2
2 2
2
1 1 2
= + = + =
= + = + =
= =
+
+
=
n n
n n
S
n n
n n
l d
l l

o
o
o o
o
t
0.05
= 2.18; t
0.01
= 3.06.
t
0.05
S
d
= 2.18 0.94 = 2.05 i
t
0.01
S
d
= 3.06 0.94 = 2.87.
Diferena dintre cele dou medii fiind 1.8, este inferioar lui t
0.05
S
d
. Deci aceast diferen nu poate fi
considerat semnificativ, chiar la pragul de probabilitate de 0.05.



8.8. Teste statistice pentru analiza dispersiei i a mediei

8.8.1. Compararea a dou dispersii
Notm raportul F
1,2
al dispersiilor o
1
2
i o
2
2
,
2
2
2
1
2 , 1
o
o
= F .
Acest raport, n care se convine s se pun la numrtor dispersia cea mai mare, traduce divergena ntre
dou dispersii i va fi folosit pentru a testa semnificaia.
Dac, ntr-adevr, eantioanele sunt extrase din aceeai populaie de origine, dispersiile o
1
2
i o
2
2

reprezint o estimare a dispersiei S
2
a acestei populaii. Teoretic, ar trebui s fie verificat relaia: o
1
2
= o
2
2
,
i prin urmare F
1,2
= 1.
Uneori fluctuaiile fortuite nu sunt rspunztoare de mrirea raportului dect pn la o valoare limit,
valoare pe care o putem calcula, i care variaz evident cu mrimea eantionului. Atunci cnd raportul F
depete aceast valoare limit, divergena este prea important pentru a fi atribuit numai fluctuaiei de
eantionaj pe care hazardul o poate determina n interiorul unei populaii unice. Aceast ipotez trebuie deci
eliminat i divergena trebuie considerat semnificativ.
Sndcor a stabilit tabelele raportului F care ne permit s rezolvm problema din punct de vedere practic.
Aceste tabele dau direct, pentru coeficienii de securitate obinuii, 95% i 99% i n funcie de mrimile
eantioanelor n
1
i n
2
(mai precis, n funcie de numrul gradelor de libertate
1
= n
1
1 i
2
= n
2
1 ale
fiecrui eantion) valorile limit ale lui F sub care se poate considera c dispersiile studiate difer
semnificativ. Este suficient s formm raportul celor dou dispersii,
2
2
2
1
2 , 1
o
o
= F , i s cercetm dac este
superior valorii limit dat de tabel.

Exemplu:
Dup administrarea unui somnifer ntr-un grup de 11 subieci, se observ un timp mediu de somn de 10.6
h, cu o abatere standard de 2.3 h. La un alt grup de 13 subieci, s-a observat o durat de somn de 8.1 h, cu
o abatere de 1.9 h. Ne propunem s studiem dispersia n aceste dou grupe.
Avem:
o
1
= 2.3 o
2
= 2.3
n
1
= 11 n
2
= 11
Formm raportul dispersiilor:
Raportndu-l la tabelele Sndcor, pentru
1
= n
1
1 = 10 i
2
= n
2
1 = 12, se gsete valoarea limit
pentru F, cu o probabilitate de 0.05 (adic 5 anse din 100 de a fi depit datorit fluctuaiilor fortuite), ca
fiind F
0.05
= 2.76. Valoarea gsit pentru F, egal cu 1.46, este net inferioar. Nu exist deci diferen
semnificativ ntre cele dou dispersii observate.


8.8.2. Analiza dispersiei
Analiza dispersiei i propune s studieze n ce msur diferenele observate ntre valorile mediilor din
fiecare grup traduc real o diferen a aciunii ntre diferitele clase testate, factor n funcie de care se
deosebesc diferitele grupuri, i nu sunt legate doar de fluctuaiile de eantionaj. Se pune problema
comparrii mediilor.
Fr ndoial, pentru a rezolva aceast problem, ne propunem s comparm mediile din aceste grupuri,
dou cte dou. Dar exist un procedeu care ne permite s testm omogenitatea mulimii grupurilor
studiate, adic de a face compararea simultan a acestor medii diferite i de a ti dac se poate sau nu s le
considerm ca aparinnd unei aceleiai populaii: este metoda numit analiza dispersiilor, datorat
46 . 1
) 9 . 1 (
) 3 . 2 (
2
2
2
2
2
1
2 , 1
= = =
o
o
F
statisticianului englez R. A. Fisher, i care are astzi o importan deosebit, n particular pentru a exploata
datele experimentale.
Principiul general al acestor probleme de comparare este testul ipotezei nule, urmrind la toate
eantioanele studiate aparinnd aceleiai populaii, n ce caz dispersia mulimii este condiionat unic de
fluctuaia de eantionaj.
Se vor analiza fluctuaiile individuale care se produc n interiorul unui grup, i ntre dou grupuri.


A. Dispersia intra-grup
n interiorul fiecrui grup, fluctuaiile de eantionaj sunt reprezentate de abaterile (x m) ntre fiecare valoare
individual x i media m a grupului. Rmne s considerm abaterile ptratice (x m)
2
(pentru care nu
intervine semnul). Fcnd suma acestor abateri ptratice pentru cele n valori individuale ale grupului, fie

=
=
n
i
i
m x S
1
2 2
) ( ,
se obine un indice de fluctuaie care se produce n interiorul grupului.
Se face apoi suma acestor ptrate pentru k grupe de eantion, obinnd un indice notat cu S
1
2
, al
dispersiei globale, introdus n mulime pentru dispersia care exist n interiorul fiecrui grup.
Pentru a da acestei sume de ptrate semnificaia general a unei dispersii, trebuie s o raportm la
numrul de grade de libertate,

1
= (n
1
1) + (n
2
1) + + (n
k
1)
= n
1
+ n
2
+ +n
k
k
= N k
Se obine astfel dispersia numit n grup, care se noteaz cu V
A
i exprim dispersia introdus n
ansamblul de dispersii existente n interiorul fiecrui grup:

= =

=
k
j
n
i
j i A
j
j
j
m x
k N
V
1 1
2
) (
1
.

B. Dispersia inter-grupe
Dac se asimileaz toate valorile dintr-un grup la media m a grupului, se va anula efectul dispersiei n
interiorul acestui grup, care va putea fi reprezentat prin media sa m.
n aceste condiii, abaterea fiecrei valori a grupului tratat n raport cu media general a mulimii
eantionului studiat este (m M), iar abaterea ptratic este (m M)
2
.
Abaterea ptratic global a grupului, unificat pentru cele n valori, este S
q
2
= n(m M)
2
.
Fcnd suma abaterilor ptratice ale celor k grupuri ale populaiei, se obine un alt indice, notat cu S
2
2
, i
care reflect dispersia introdus n populaie de fiecare grup, considerat ca un tot:

=
=
+ + + =
+ + + =
k
i
i i
k k
q q q
M m n
M m n M m n M m n
S S S S
k
1
2
2 2
2 2
2
1 1
2 2 2 2
2
) (
) ( ... ) ( ) (
...
2 1

Pentru a da acestei sume de ptrate semnificaia general a unei dispersii, trebuie s o raportm la
numrul de grade de libertate,
2
= k 1.
Se obine astfel dispersia inter-grup, notat cu V
B
, care exprim dispersii ale grupului la grup:

=
k
i
i i B
M m n
k
V
1
2
) (
1
1
.

C. Compararea dispersiilor
Dispersia intra-grup i cea inter-grup sunt dou elemente care condiioneaz fluctuaia mulimii. Dac toate
grupurile aparin unei aceleiai populaii de origine, cele dou dispersii nu vor putea s se abat una de la


= =
= = =
=
+ + + =
+ + + + =
k
j
n
i
j i
n
i
k i
n
i
i
n
i
i
k
j
j
j
k
k
k
m x
m x m x m x
s s s s S
1 1
2
1
2
1
2
2
1
2
1
2 2
3
2
2
2
1
2
1
) (
) ( ... ) ( ) (
...
2
2
2
1
1
1
alta dect ntr-o anumit msur, permis de fluctuaia de eantionaj. De la aceast limit, posibil de
calculat, va fi normal s considerm c abaterea ntre cele dou dispersii este prea important pentru a
putea fi atribuit numai fluctuaiei fortuite.
Problema rmne de a testa divergena ntre dou dispersii, ceea ce se face prin studiul raportului
dispersiilor de comparat. Se va forma raportul V
A
/V
B
(sau V
B
/V
A
, dac V
B
>V
A
) i se compar acest raport cu
valorile date n tabelele Sndcor pentru pragul de semnificaie cu un coeficient de securitate de 95% (sau
99%). Dac acest raport este superior pragului de semnificaie, se respinge ipoteza populaiei unice i se
admite c diferenele constatate sunt semnificative.

Exemplu:
Se dozeaz corticoizii urinari la 40 subieci de sex feminin, care au fost repartizai n funcie de greutate n
4 grupe, comportnd fiecare cte 10 subieci:
I : 50 59 kg;
II : 60 69 kg;
III : 70 79 kg;
IV : 80 89 kg.
Tabelul 8.8 d rezultatele obinute (n mg/24 h).
I II III IV
3.3 4.3 6.4 3.3
2.5 4.8 7.6 5.4
3.0 6.3 6.6 5.7
3.4 6.5 4.5 6.5
3.7 8.7 8.0 11.5
3.5 4.5 6.3 7.5
5.2 5.2 6.8 9.3
5.2 2.5 5.7 8.0
4.0 4.0 4.6 6.0
4.0 5.8 3.2 4.7
Ex
i
= 37.8
m
1
= 3.78
Ex
i
= 52.6
m
2
= 5.26
Ex
i
= 59.7
m
3
= 5.97
Ex
i
= 67.9
m
4
= 6.79
Tabelul 8.8: Corticoizii urinari la 40 subieci de sex feminin

Se cere s determinm dac diferenele observate ntre medii sunt semnificative i deci factorul greutate
n funcie de care s-au difereniat aceste grupe are o influen asupra mrimii corticoizilor urinari.
Se pot compara mediile dou cte dou, aplicnd Testul t (Student) pentru eantioane mici, dar acest
procedeu este lung (trebuiesc fcute 6 comparaii); n plus, se neglijeaz informaia coninut n ansamblul
datelor, pentru c nu intervin de fiecare dat dect 10+10=20 dintre ele. Procedeul de analiz a dispersiei ne
permite n schimb s testm ipoteza unic ntr-o singur operaie.

1) Calculm dispersia intra-grup, V
A
:
Se calculeaz mai nti abaterea ptratic n fiecare grup. Se gsete:
94 . 1
4 40
87 . 69 1
87 . 69
83 . 20 ) (
94 . 19 ) (
26 . 22 ) (
84 . 6 ) (
2
1
2
4
2
3
2
2
2
1
2
1
2
4
2
4
2
3
2
3
2
2
2
2
2
1
2
1
=

=
= + + + =
= =
= =
= =
= =

S
k N
V
s s s s S
m x s
m x s
m x s
m x s
A

2) Calculm dispersia inter-grup, V
B
:
Mai nti calculm media general, M:
45 . 5
40
9 . 67 7 . 59 6 . 52 8 . 37
4 3 2 1
=
+ + +
=
+ + +
=

N
x x x x
M
Apoi determinm abaterile ptratice din grup:
30 . 16
1 4
91 . 48
1
1
91 . 48
96 . 17 ) 45 . 5 79 . 6 ( 10 ) (
70 . 2 ) 45 . 5 97 . 5 ( 10 ) (
36 . 0 ) 45 . 5 26 . 5 ( 10 ) (
89 . 27 ) 45 . 5 78 . 3 ( 10 ) (
2
2
2
4
2
3
2
2
2
1
2
2
2 2
4 4
2
4
2 2
3 3
2
3
2 2
2 2
2
2
2 2
1 1
2
1
=

=
= + + + =
= = =
= = =
= = =
= = =
S
k
V
s s s s S
M m n s
M m n s
M m n s
M m n s
B
q q q q
q
q
q
q


3) Se formeaz raportul dispersiilor (inem cont c V
B
> V
A
) :
4 . 8
94 . 1
30 . 16
= = =
A
B
V
V
F
Tabelele Sndcor arat pentru
1
=
B
= k 1= 3 i
2
=
A
= N k = 40 4 =36, valoarea limit a lui F cu
un prag de probabilitate de 0.05 ca fiind F
0.05
= 2.9, i cu un prag de probabilitate de 0.01 ca fiind F
0.01
= 4.6.
Se observ c valoarea calculat a lui F este net superioar lui F
0.05
i lui F
0.01
.
O astfel de divergen are deci mai puin de o ans din 100 de a se produce ca urmare a fluctuaiilor
fortuite ntr-o populaie unic. Deci, ipoteza de mai sus trebuie nlturat, i vom admite c grupurile aparin
unor populaii diferite; diferenele constatate sunt nalt semnificative, iar factorul greutate are o influen real
asupra mrimii corticoizilor urinari.


8.8.3. Compararea valorilor medii (testul t Student)
Pentru a lmuri problema dac divergena valorilor unui anumit parametru x este ntmpltoare sau nu, se
efectueaz dou serii de experimente i pentru fiecare serie de rezultate se calculeaz media aritmetic a
parametrului, adic
1
x i
2
x . Problema care se pune este, deci, de a decide cnd socotim c diferena ntre
aceste medii este suficient de mare pentru ca practic s se poat afirma c deosebirile constatate n
calitatea parametrilor nu sunt ntmpltoare.
Msurtorile se presupun independente i, cel puin n cadrul fiecrei serii, de egal precizie, iar funcia de
repartiie a erorilor de msurare se presupune a fi normal.
Presupunem c s-au efectuat n
1
msurri independente de egal precizie ntr-o prim serie de msurri i
n
2
n cea de a doua serie de msurri (cu dispersiile o
1
2
i, respectiv, o
2
2
). Notm cu
1
x i
2
x mediile
aritmetice ale rezultatelor din prima i din cea de a doua serie.
Pentru a rspunde la problema dac diferena dintre aceste medii aritmetice este ntmpltoare sau nu,
vom calcula raportul:
2
2
2
1
2
1
2 1
n n
x x
t
o o
+

=
Fixm un interval de ncredere P i corespunztor determinm din tabelele pentru testul t, valoarea t = t(P).

Exemplu:
Pentru P = 0.99 t = 2.576

Dac valoarea absolut a lui t calculat, t
calculat
> t(P)
tabel
, urmeaz c diferena mediilor aritmetice se poate
considera ca nefiind ntmpltoare. n caz contrar, nu avem motive s considerm c diferena este
semnificativ (adic ea poate fi considerat ca o abatere ntmpltoare).

Exemplu:
S considerm dou serii, de cte 25 i 30 de msurtori.
59 . 2
80
1
25
1
20 . 1
80 . 22 56 . 23
1 1
80 . 22 , 56 . 23
20 . 1
2 1
2 1
2 1
2 1
=
+

=
+

=
= =
= = =
n n
x x
t
x x
o
o o o

t(0.99)
tabel
= 2.576, deci t(0.99)
tabel
< t
calculat
i rezult cu o certitudine de 0.99 c diferena ntre medii este
semnificativ.


8.8.4. Compararea dispersiilor (testul Fisher)
Cnd se efectueaz msurri n condiii diferite, apare problema comparrii preciziei msurrilor. n
particular apare problema comparrii preciziei de msurare a diferitor aparate. Importana acestei probleme
este subliniat ndeosebi de faptul c intervalele de ncredere ale abaterilor medii ptratice se dovedesc a fi
mari.
Presupunem c n dou serii de msurri s-au obinut dispersiile empirice ale datelor:
- S
1
2
: pentru k
1
grade de liertate;
- S
2
2
: pentru k
2
grade de libertate.
(n general, primul coeficient se refer la dispersia empiric cu valoarea cea mai mare).
Se va calcula raportul:
1
2
2
2
1
> =
S
S
F
Se alege un interval de siguran P = 0.95 sau P = 0.99, i se determin valoarea critic F,
corespunztoare numerelor gradelor de libertate k
1
i k
2
. Valoarea calculat a lui F, F
calculat
pentru seriile
observate va fi comparat cu valorile extrase din tabel, corespunztoare intervalelor de ncredere alese,
F(P)
tabel
; apar dou situaii posibile:
- F
calculat
> F(P)
tabel
diferena ntre medii nu este aleatoare;
- F
calculat
< F(P)
tabel
diferena ntre medii este aleatoare, i nu are o semnificaie special.


8.8.5. Testul Z (pentru procente)
Testul furnizeaz o estimare numeric a probabilitii ca diferena observat s survin sau nu datorit
hazardului.
Se calculeaz urmtorul coeficient, Z, pentru compararea a dou procentaje P
1
i P
2
, cu erorile standard
SE
1
, SE
2
.
2
2
2
1
2 1
) ( ) ( SE SE
P P
Z
+

=
Dac Z > 1.96, atunci se poate afirma cu un prag de semnificaie de 5% c cele dou procentaje difer nu
datorit hazardului, ci datorit unei cauze care trebuie determinat.
Dac Z > 2.56, atunci se poate afirma cu un prag de semnificaie de 1 % c cele dou procentaje difer nu
datorit hazardului, ci datorit unei cauze care trebuie determinat.



8.9. Corelaia statistic

Noiunile dezvoltate n capitolele precedente ne-au permis s studiem un caracter cantitativ dat: greutatea,
nlimea, tensiunea arterial, ntr-o populaie statistic determinat, definind parametrii numerici care permit s
caracterizm variaiile acestor mrimi, s precizm gradul de confiden pe care l putem ataa rezultatelor i s
confruntm rezultatele cu cele obinute pentru acelai caracter cantitativ ntr-o populaie statistic.
n tiinele experimentale i, n particular, n medicin i biologie, intereseaz nu numai variaia unei singure
mrimi, ci a dou valori, adic a dou caractere cantitative, ntr-o populaie statistic. De exemplu, dorim s tim
dac exist ntr-o grup de subieci o relaie ntre greutate i nlime, ntre tensiunea arterial i mrimea
umoral a unei substane, etc.
Pe plan matematic problema este rezolvat prin noiunea de funcie, care traduce relaia ntre variaia celor
dou mrimi. relaie materializat prin curba sa reprezentativ: y = f(x). n acest caz, unei valori date a variabilei
independente x i corespunde o valoare i numai una a variabilei dependente y, relaia y = f(x) permind
calcularea cu exactitate a acestei valori. O astfel de relaie fiind stabilit, cunoaterea unei valori ne este
suficient pentru determinarea valorii corespondente. Acest tip de relaie, numit relaie funcional, este cea
care se ntlnete n aa-zisele tiine exacte. Dar problema se complic atunci cnd valorile care se studiaz
(cea dependent i cea independent) sunt supuse fluctuaiilor.
Fluctuaiile se manifest nu numai pentru o singur valoare dat, ci pentru toate variabilele distribuiei.

Exemplu:
ntr-un grup de subieci crora li s-a studiat nlimea i greutatea, pentru o valoare dat a nlimii (de
exemplu 1.70 m) se va gsi seria tuturor subiecilor avnd aceeai nlime i diferind ntre ei prin greutate.
Invers, pentru o valoare dat a greutii se va gsi seria subiecilor cu aceeai greutate, dar cu nlimi diferite.
Nu se tie, i se pune problema dac greutatea este funcie de nlime, sau invers.
Se constat c la o nlime mic corespunde o greutate mai mic, i invers. Prin urmare, exist o relaie
sigur ntre aceste dou mrimi, dar mai puin rigid dect relaia funcional propriu-zis.

Aceast relaie, de o natur particular, constituie corelaia statistic, care joac un rol important n tiinele
vieii, i n particular n tiina medical, care este esenialmente o tiin a corelaiei.
Procedee speciale ne permit s studiem corelaia statistic, s punem n eviden legea general care
stabilete o legtur reciproc ntre variaiile mrimilor luate n studiu i s apreciem cantitativ gradul, adic
caracterul mai mult sau mai puin slab al acestei legturi.
Ne vom limita la corelaia liniar, unde una dintre mrimi variaz proporional cu alta.


8.9.1. Diagrama de dispersie
Un prim model de a aborda problema const n a merge la reprezentarea grafic. Ca pentru a studia o funcie,
se merge la un sistem de axe rectangulare Ox i Oy, pe care se vor reprezenta valorile a dou mrimi: x
(nlimea) i y (greutatea). Fiecare individ este reprezentat printr-o pereche (x, y).
Ansamblul populaiei studiate va fi reprezentat printr-un nor de puncte, care va constitui dispersia populaiei
studiate (Figura 8.58).
0
1
2
3
4
5
6
0 2 4 6 8
x
y
(x,y)

O astfel de diagram, numit diagram de dispersie, permite deja o aproximare a noiunii de corelaie:
ntr-adevr, dac exist o corelaie astfel nct, de exemplu, greutile mai mari s fie asociate nlimilor mai
mari, norul de puncte va avea o form alungit oblic n sus i la dreapta (Figura 8.59). Dac, dimpotriv, se
coreleaz valori mai mari ale uneia dintre mrimi cu valori mai mici ale celeilalte, norul de puncte va avea un
aspect analog, dar dirijat n jos i la dreapta (Figura 8.60).
0
0,5
1
1,5
2
2,5
3
3,5
4
4,5
0 0,5 1 1,5 2 2,5
x
y

Atunci cnd valorile nu se influeneaz reciproc, deci nu exist corelaie, norul de puncte va avea un aspect
uniform dispersat (de exemplu, nlimea i glicemia ntr-un lot de persoane) Figura 8.61. Absena corelaiei
indic independena caracterelor studiate.
Figura 8.58.Dispersia
unei populaii (norul de
puncte)
Figura 8.59.Corelaie
pozitiv

0
0,5
1
1,5
2
2,5
3
3,5
0 0,5 1 1,5 2 2,5
x
y

0
1
2
3
4
5
6
0 2 4 6 8
x
y



8.9.2. Noiunea de covarian
Putem considera o sub-populaie a unei populaii date, creia i vom calcula:
- media x ;
- abaterea de la medie x x ;
- media y ;
- abaterea de la medie y y .
Fie ) , ( y x M = punctul central al diagramei (centrul de greutate al norului de puncte) Figura 8.62.
Trasm prin ) , ( y x M dou noi axe de coordonate, Mx' i My', paralele cu axele iniiale Ox i Oy. Aceste
axe mpart planul n 4 zone:
- n zona din dreapta-sus (cadranul I), abaterile de la medie ale ambelor variabile sunt pozitive:
0 , 0 > > y y x x . Prin urmare, i produsul lor va fi pozitiv: 0 ) ( ) ( > y y x x .
- n zona din stnga-jos (cadranul III), abaterile de la medie ale ambelor variabile sunt negative:
0 , 0 < < y y x x . Prin urmare, produsul lor va fi tot pozitiv: 0 ) ( ) ( > y y x x .
- n zona din dreapta-jos (cadranul II), abaterea de la medie pentru x va fi pozitiv, 0 > x x , iar
abaterea de la medie pentru y va fi negativ, 0 < y y . Prin urmare, produsul lor va fi negativ:
0 ) ( ) ( < y y x x .
- n zona din stnga-sus (cadranul IV), abaterea de la medie pentru y va fi pozitiv, 0 > y y , iar
abaterea de la medie pentru x va fi negativ, 0 < x x . Prin urmare, produsul lor va fi negativ:
0 ) ( ) ( < y y x x .
Figura 8.60. Corelaie
negativ (invers)
Figura 8.61: Corelaie
zero
0
5
10
15
20
25
30
35
40
45
0 20 40 60
X
Y
M
II III
I
IV

Dac exist o corelaie pozitiv ntre x i y, majoritatea punctelor trebuie s se gseasc n cadranele I i
III. n consecin, dac calculm pentru fiecare pereche de valori (x, y) produsul 0 ) ( ) ( > y y x x i
facem suma algebric a tuturor acestor produse, obinem c:

> 0 ) )( ( y y x x .
n cazul corelaiei negative, majoritatea punctelor norului se vor situa n cadranele II i IV; analog, pentru
fiecare pereche de valori (x, y) produsul 0 ) ( ) ( < y y x x i fcnd suma algebric a acestor produse,
obinem c:
0 ) ( ) ( <

y y x x
.
Dac nu exist corelaie, punctele vor fi egal repartizate n cele patru cadrane i deci, urmnd un raionament
analog:

0 ) )( ( y y x x
.
Pentru a da o semnificaie mai general acestei sume, o raportm la numrul de cazuri N. Definim astfel
noiunea de covarian, P:
N
y y x x
P


=
) )( (
.
Deoarece
N
x x x x
N
x x


=

=
) )( ( ) (
2
2
2
o o : deviaia standard traduce dispersia statistic n cazul
unei singure serii statistice.


8.9.3. Linia de regresie
Regresia este o metod de estimare a relaiei numerice dintre variabile. Numele de regresie se datoreaz
lui Galton (1886), care a dezvoltat tehnicile de investigare a relaiei dintre nlimea copiilor i a prinilor lor.
n problemele de regresie, scopul este s vedem ct de bine poate fi folosit o variabil pentru a o
prediciona pe cealalt.
Cnd studiem o serie statistic important, avem interesul s grupm valorile n clase. Putem proceda la
fel pentru distribuia tuturor valorilor lui x. Prin urmare, vom decupa norul de puncte n bezi verticale (Figura
8.63).
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0 0,2 0,4 0,6 0,8 1
x
y
x
i
y
xi

Vom nota toate valorile lui y care corespund valorilor lui x din aceeai clas, i vom calcula valorile medii
pentru acest y.
Figura 8.63: Linia de regresie a
lui y n x
Figura 8.62. Centrul de
greutate al norului de puncte
i mprirea planului n
cadrane
Pentru fiecare band vertical a norului de puncte se obine astfel un numr sigur de valori medii pentru y,
numite punctele mediane ale fiecrei clase. Unind aceste puncte obinem linia de regresie, sau linia de
estimare a lui y n x.
Bineneles, putem, invers, s l estimm pe x n funcie de y. Pentru aceasta, este suficient s plecm de
la y i s partajm norul de puncte n benzi orizontale, corespunztoare fiecreia dintre clasele
individualizate pe axa Oy (Figura 8.64). Valorile medii ale lui x obinute n fiecare dintre aceste benzi
orizontale permit s definim o linie de regresie a lui x n y, evident diferit de cea precedent.
Liniile de regresie dau imaginea variaiilor mediilor unei mrimi n funcie de alta. Ele exprim legea
general, care stabilete variaiile acestor dou mrimi, fiind echivalentul curbei reprezentative a unei funcii.
Ele permit ca, plecnd de la o mrime variabil numit variabil de control, sau explicativ (care joac rolul
variabilei independente), s obinem informaii despre alt variabil, numit variabil controlat, sau
explicat (care joac rolul variabilei dependente, sau al funciei).
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
0 0,2 0,4 0,6 0,8 1
x
y
y
j
x
y j

Exemplu:
Dac y este greutatea i x este nlimea, linia de exprimare a lui y funcie de x va indica greutatea medie y
corespunztoare unie nlimi date x, exact la fel ca i cum aceast greutate medie ar fi fost o funcie de
nlime.


8.9.4. Dreapta de regresie
Unul dintre cazurile cele mai interesante n practic este acela unde legea variaiilor mediilor, reprezentat prin
linia de regresie, este o lege liniar, adic o mrime variaz proporional cu cealalt.
n acest caz, linia de regresie este o dreapt a crei liniaritate este mai puin mascat de fluctuaiile de
eantionaj. Deci vom ncerca s ajustm linia frnt de regresie obinut experimental la o dreapt teoretic,
numit dreapt de regresie, sau dreapt de estimare, ceea ce revine la a verifica legitimitatea acestei asimilri.
Se poate trasa aceast dreapt din ochi, dar numai n cazul n care forma norului este deja bine definit, i cnd
avem mai puine puncte; procedeul, ns, este puin precis.
Metoda general adoptat este metoda celor mai mici ptrate.
Dreapta obinut trebuie s dea cea mai bun estimare a unei variabile funcie de alta. De exemplu, pentru
dreapta de estimare a lui y, trebuie s gsim dreapta care, pentru o valoare dat a lui x, furnizeaz cea mai
bun estimare pentru y, adic aceea pentru care valorile lui y vor fi cel mai puin dispersate posibil.
Fie d distanele verticale (numite reziduuri) ale diferitelor puncte ale diagramei dreptei D (Figura 8.65). Aceste
reziduuri formeaz o distribuie cu media d i dispersia S
d
2
.
Din toate dreptele posibile, cea mai bun va fi cea pentru care dispersia S
d
2
, adic suma ptratelor distanelor
punctelor diagramei la dreapt, este minim (de unde numele metodei). Aceast condiie implic faptul c
dreapta va trece prin punctul central al diagramei, iar suma reziduurilor de o parte a dreptei este egal cu suma
reziduurilor de cealalt parte a dreptei.
Se arat c dreapta care corespunde acestor condiii are ecuaia:
) ( x x a y y
x
= ,
unde


=
2
) (
) )( (
x x
y y x x
a
x
.
Figura 8.64: Linia de regresie a
lui x n y
0
0,5
1
1,5
2
2,5
3
3,5
4
0 0,5 1 1,5 2 2,5
x
y
x
m
y
m
x'
y'
M
D
d
d
d
d
d
d
d
d
d
d

Fie P (Figura 8.66) un punct al diagramei i urmtoarele elemente:
- x, y coordonatele sale n raport cu axele Ox, Oy;
- x x x = ' , y y y = ' coordonatele n raport cu axele Mx, My;
- A, punctul de pe D situat pe verticala trecnd prin P;
- X, Y coordonatele lui A n raport cu axele Ox, Oy;
- a = tg(o), panta dreptei D.















n triunghiul MAB avem:
) ( ' ) ( ) ( x x a ax tg MB AB
MB
AB
tg = = = = o o .
Din figur se vede c y y BC AC AB = =
) ( x x a y y = .
Aceasta reprezint ecuaia unei drepte trecnd prin dou puncte (A i M), adic dreapta D.
Din figur se vede i c:
d = PA = PB AB = y ax


+ = =
2 2 2 2 2
' ' ' 2 ' ) ' ' ( x a y x a y ax y d .
Acest trinom n a trece printr-un minim cnd derivata sa se anuleaz:


= =
=
2 2
2
) (
) )( (
'
' '
0 ' ' 2 ' 2
x x
y y x x
a
x
y x
a
y x x a

Se definesc astfel coeficienii liniari de regresie:
- a
x
: coeficientul liniar de regresie al lui y n x, care msoar panta dreptei D pe orizontala Ox. Indic de cte
ori n medie y este mai mare sau mai mic dect x. Este pozitiv sau negativ dup cum dreapta este
ascendent sau descendent de la stnga la dreapta.
n mod simetric (schimbnd x cu y i y cu x) se definete dreapta de regresie a lui x n y, care corespunde
ecuaiei:
) ( y y a x x
y
= , cu coeficientul de regresie corespunztor a
y
. Prin urmare, avem i:
o
x
y
y
x
M ) , ( y x
x
x x
y
y y
0
P(x, y)
d
A
B
C
D

Figura 8.65. Dreapta de
regresie i reziduurile
Figura 8.66. Calculul
coeficienilor dreptei D
- a
y
: coeficientul liniar de regresie al lui x n y, care msoar panta dreptei D pe verticala Oy. Indic de cte ori x
este mai mare sau mai mic dect y.


=
2
) (
) )( (
y y
x x y y
a
y

Formulele coeficienilor liniari de regresie arat c ei se pot exprima la fel de bine i n funcie de covariana P:
2 2 2
) (
) )( (
) (
) )( (
x
P
N
x x
N
y y x x
x x
y y x x
o
=


2 2
,
y
y
x
x
P
a
P
a
o o
= = .


8.9.5. Dreapta de regresie i corelaia liniar
Dreptele de regresie permit de a preciza mai mult noiunea de corelaie liniar.
Exist o corelaie perfect, cazul relaiei funcionale unde unei valori date x i corespunde o valoare i numai
una y i invers, unei valori date y i corespunde o unic valoare a lui x. Dreapta de regresie a lui y funcie de x,
D
y
este identic cu dreapta de regresie a lui x funcie de y, D
x
; cele dou drepte D
x
i D
y
se suprapun ntr-o unic
linie, care exprim relaia direct de proporionalitate ntre variaiile celor dou mrimi (Figura 8.67).
Dac nu exist corelaie ntre variaiile celor dou mrimi, valoarea medie a lui y va fi independent de
valoarea lui x; aceast valoare va fi aceeai pentru orice valori ale lui x, i prin urmare dreapta D
y
de regresie a
lui y n x este paralel cu axa Ox. Analog, valoarea medie a lui x este independent de valorile lui y, iar dreapta
D
x
de regresie a lui x n funcie de y va fi paralel cu axa Oy; prin urmare, cele dou drepte D
x
i D
y
sunt
perpendiculare (Figura 8.68).































ntre aceste dou extreme se situeaz cazul n care exist corelaie; atunci exist dou drepte de regresie D
x

i D
y
care formeaz ntre ele un unghi < 90
0
(Figura 8.69). n consecin, dac se parcurg toate valorile lui r, se
observ c cele dou drepte de regresie se rotesc n jurul punctului M, apropiindu-se una de cealalt, pn cnd
se vor confunda (cazul corelaiei perfecte).
x
x
x
M
D
D
x
D
y
y y
y

x
x
x
M
D
D
x
D
y
y y
y

Figura 8.67. Cazul
corelaiei perfecte
Figura 8.68: Cazul
corelaiei zero
Convergena sau divergena acestor dou drepte d un aspect vizual gradului de legtur ntre cele dou
variabile, aceast legtur fiind cu att mai strns cu ct cele dou drepte sunt mai apropiate. Se va putea deci
evalua cantitativ gradul de corelaie, cu condiia de a gsi un parametru care s dea poziia celor dou drepte.
Se deduce c n parametru vor fi implicate pantele celor dou drepte.




















8.9.6. Coeficientul de corelaie liniar
Se utilizeaz ca parametru de corelaie produsul
y x
a a r =
2
(media geometric a celor dou pante de
regresie); acest parametru se numete coeficientul corelaiei liniare.
O alt formul de calcul al coeficientului de corelaie liniar rezult din:
y x y x
y x
P
r
P P
r a a r
o o o o
= = =
2 2
2 2

Prin urmare, r reprezint covariana P atunci cnd cele dou serii de variabile sunt raportate la abaterile tip, o
x
i
o
y
.















Aceast formul permite s exprimm pantele a
x
i a
y
funcie de r:
y
x
y
x
y
x
r a r a
o
o
o
o
= = , .
Folosind aceste formule, este posibil s studiem natura corelaiei:
- cnd nu exist corelaie: 0 0 = = = r a a
y x
;
- cnd exist corelaie perfect: 1 1
2
= = = r r a a
y x
; apar dou situaii:
- r = + 1 : indic o corelaie perfect pozitiv (Figura 8.70);
- r = 1 : indic o corelaie perfect negativ (Figura 8.71).
Studiul parametrului r permite deci o evaluare cantitativ a corelaiei.


x
x
x
M
D
D
x
D
y
y y
y

x
x
x
M
D
y y
y

x
x
x
M
D
y y
y

Figura 8.69. Cazul
corelaiei uzuale
Figura 8.70. Corelaie
perfect pozitiv














8.9.7. Principiul de calcul al unui coeficient de corelaie liniar
Pentru calculul unui coeficient de corelaie liniar, se aplic formula:
y x y x
N
y y x x
P
r
o o o o

=

=

) )( (
.
Este necesar s se calculeze covariana P i abaterile tip o
x
i o
y
ale distribuiei. Dac datele nu sunt prea
numeroase, se pot calcula direct aceste elemente care intr n formula coeficientului de corelaie.

Exemplu:
Ne propunem s evalum corelaia pe 40 subieci pentru care vom nregistra greutatea (x) n kilograme i
mrimea corticoizilor urinari y, n mg/24h. Rezultatele obinute sunt indicate n tabelul 8.9.

Greutate
X
Corticoizi
y
Greutate
x
Corticoizi
y
52 3.3 75 6.4
56 2.5 75 7.6
54 3.0 75 6.6
56 3.4 75 4.5
50 3.7 70 4.6
58 3.5 70 8.0
50 5.2 70 6.3
56 5.2 74 6.8
51 4.0 70 5.7
55 4.0 72 3.2
65 4.3 80 3.3
62 4.8 80 5.4
63 6.3 86 5.7
60 6.5 87 6.5
66 8.7 80 11.5
68 4.5 87 7.5
65 5.2 81 9.3
61 8.5 80 8.0
61 4.5 81 6.0
68 5.8 85 4.7
Tabelul 8.9: Corticoizii urinari i greutatea
Vor fi utilizate urmtoarele formule simplificate:
2
2
2
2
2
2
) (
) (
y
n
y
x
n
x
y
x
=
=

o
o


Figura 8.71. Corelaie
perfect negativ
11
8 . 120 ) 25 . 68 (
40
191159
) (
) (
25 . 68
40
2730
191159
2730
2 2
2
2
2
=
= = =
= = =
=
=

x
x
x
n
x
n
x
x
x
x
o
o

95 . 1
80 . 3 ) 60 . 5 (
40
140628
) (
) (
60 . 5
40
224
140628
224
2 2
2
2
2
=
= = =
= = =
=
=

y
y
y
n
y
n
y
y
y
y
o
o

Covariana va fi:
n
y y x x
P


=
) )( (

Deoarece
y
n
y
x
n
x
= =

,
, covariana devine:
y x
n
xy
P =

.
Dar 90 . 15663 =

xy

438 . 0 438 . 0
95 . 1 11
40 . 9
40 . 9 40 . 9 ) 60 . 5 25 . 68 (
40
90 . 15663
= =

=
= = =
r
P
r
P P
y x
o o

Exist deci o corelaie net ntre greutate i mrimea corticoizilor urinari. Vom putea calcula ecuaia dreptei de
regresie: coeficientul liniar al regresie este 077 . 0
80 . 120
40 . 9
2
= = =
x
x
P
a
o
.
Ecuaia dreptei de regresie va fi:
35 . 0 77 . 0
) 25 . 68 077 . 0 ( 077 . 0 ) 25 . 68 ( 077 . 0 60 . 5
) (
+ =
= =
=
x y
x x y
x x a y y
x
.
Aceast dreapt trece prin punctul central al diagramei, ) 60 . 5 , 25 . 68 ( ) , ( M y x M = ; ordonata la origine
este x
0
= 0, y
0
= 0.35.

Invers, pentru o femeie de 60 kg, corticoizii vor fi ~ 5.
y = 0.077x +0.35
~ 4.97
~ 5 mg/24 h.

ntr-un eantion suficient de mare, pentru coeficientul de corelaie se arat c distribuia de eantionaj
poate fi considerat practic normal n jurul valorii estimate r
e
, care a fost gsit n eantion, cu abaterea
standard S
r
.
n
r
n
r
S
e e
r
2 2
1
1
1
~

= ,
n = nr. de cupluri de valori (x, y).
Intervalul de confiden al coeficientului este deci:
r
e
2S
r
, cu un coeficient de securitate de 95% i
r
e
2.5S
r
, cu un coeficient de securitate de 99%.


8.9.8. Corelaia semnificativ diferit de zero
n cele mai multe cazuri, n biologie se dorete s se tie dac exist sau nu o corelaie ntre dou fenomene
studiate. nainte de a admite c, ntr-o populaie de dou serii de valori unde corelaia este nul, coeficientul
de corelaie este distribuit normal n jurul lui zero cu o eroare standard,
1
1
0

=
n
S , care reprezint valoarea lui S
r
, pentru r = 0.
Vom putea spune c valoarea r
e
gsit pentru r

este semnificativ diferit de zero i r
e
este superioar lui
2S
0
, adic
1
2
n
cu un prag de semnificaie de 95% i lui 2.6S
0
, adic
1
6 . 2
n
cu un prag de securitate
de 99%.
Pentru coeficientul de corelaie r = 0.471 avem:
- 95%:
1
2
n
= 0.122
- 99%:
1
6 . 2
n
= 0.159
Pentru eantioane cu N s 100, raionamentul anterior nu este valabil. Fisher a stabilit tabele care dau, n
funcie de N (mai precis n funcie de gradul de libertate) valorile corespunztoare ale lui 2S
0
i ale lui 2.6S
0
.

Exemplu:
Verificm dac coeficientul de corelaie r = 0.438 gsit este nalt semnificativ diferit de zero.
Pentru = n 2 = 40 2 = 38, tabelul indic:
- 95% 0.312
- 99% 0.406
Deci coeficientul gsit este semnificativ la un prag de semnificaie de 99%.


8.9.9. Eroarea standard de estimare
Dreapta de regresie exprim doar tendina central a estimrii variabilei corespunztoare y ( de exemplu,
dreapta de estimare a lui y funcie de x).
Dispersia de estimare este reprezentat de abaterile punctelor diagramei n raport cu dreapta de regresie
corespunztoare. Mai precis, ea va fi evaluat prin suma, raportat la N, a ptratelor abaterilor d ale dreptei
de regresie a lui y, adic prin dispersia reziduurilor n raport cu dreapta de estimare a lui y, notat cu
2
y
d
S .

=
2 2
1
y d
d
n
S
y

Se arat c ) 1 (
2 2 2
r n d
y y
=

o . Prin urmare,
) 1 (
1
2 2
2 2
r
d
n
S
y
y d
y
=
=

o

Deci avem:
) 1 (
2 2 2
r S
y d
y
=o ,
2
1 r S
y d
y
= o
y
d
S va fi abaterea standard a distribuiei reziduurilor n raport cu dreapta D. Dac admitem c distribuia este
gaussian, trasnd dou paralele le dreapta D, situate la o distan egal cu
y
d
S (msurat vertical), de o
parte i de alta a dreptei D, va trebui ca aceast suprafa s nglobeze 68% din date, adic punctele
diagramei de distribuie (Figura 8.72).
















Aceast abatere standard de regresie a lui y este adesea utilizat pentru a vizualiza limitele estimrii unei
variabile plecnd de la dreapta de regresie corespunztoare.
Formula lui
y
d
S arat c
y
d
S este cu att mai mic, cu ct banda determinat este mai ngust (r
2
1).
Pentru r
2
= 1 r = 1, urmeaz c
y
d
S = 0, deci banda se reduce la o linie, aceasta fiind grosimea
corelaiei perfecte.



8.9.10. Corelaia neliniar
De multe ori n practic, i mai ales n biologie nu avem o corelaie liniar, adic o linie de regresie, dar
corelaia existent poate fi asimilat la o dreapt. Pentru aceasta, se vor aplica nite transformri simple,
care s duc la obinerea unei legi liniare.
De multe ori este ntlnit cazul particular n care curba de regresie urmeaz o lege exponenial sau
logaritmic de exemplu, n biologie, n problemele de doz efect.
Astfel de funcii pot fi puse sub form liniar. Dac aceste transformri nu sunt totui posibile, dar aspectul
norului de puncte sugereaz existena unei corelaii, corelaia va fi caracterizat ca fiind neliniar, i se va
calcula expresia cantitativ a ei (Figura 8.73).
Observaie:
O mare parte a tehnicilor statistice se refer la variabile continue repartizate normal. Aceast restricie nu
este esenial, deoarece:
1) se poate gsi o transformare de variabil, presupunnd c se cunoate repartiia, care s conduc la o
variabil repartizat aproximativ normal;
2) teorema limit central afirm c dac variabila care caracterizeaz populaia are dispersia finit, atunci
repartiia mediei de selecie pentru n tinde ctre repartiia normal.













Tehnicile care nu fac presupuneri asupra formei repartiiei, dar presupun c repartiia este continu sunt
cunoscute sub numele de metode neparametrice (sau metoda repartiiei libere).


x
x
D
y y
S
dy
S
dy

x
y
0

Figura 8.73. Corelaie
neliniar
Figura 8.72. Abaterea
standard a distribuiei
reziduurilor