Sunteți pe pagina 1din 24

Cursul 8

8.7. Principalele tipuri de distribuii statistice


8.7.1. Distribuia binomial
Experiena dublei extrageri
Avem un sac care conine o bil alb i dou negre i vedem ce se ntmpl probabilistic atunci cnd
procedm la dou extrageri succesive.
Presupunem c bila tras prima dat este repus n urn n aa fel nct componena acesteia s nu se
schimbe n timpul celei de-a doua extrageri.
n aceste condiii, la a doua extragere, la fel ca i la prima, exist probabilitatea p=1/3 de a extrage o bil
alb, i probabilitatea q=2/3 de a extrage o bil neagr. Ceea ce ne intereseaz este probabilitatea
combinaiilor care pot rezulta din a doua tragere.
n timpul acestei experiene, fiecare din cele 3 bile susceptibile de a fi extrase la prima extragere, poate fi
asociat cu fiecare dintre cele 3 bile susceptibile de a fi extrase a doua oar. Exist un total de 3 3 = 9
combinaii posibile de cte dou bile:
-

o combinaie A+A
2 combinaii A+N
2 combinaii N+A
4 combinaii N+N

Prima extragere

A doua extragere
Probabilitile acestor combinaii diferite sunt:
- 1/9 (adic p2) pentru combinaiile A+A;
- 2/9 (adic pq) pentru combinaiile A+N;
- 2/9 (adic pq) pentru combinaiile N+A;
- 4/9 (adic q2 ) pentru combinaiile N+N.
Dac nu se ine cont de ordinea n care se prezint bilele (ceea ce poate fi realizat efectund o tragere de
2 bile odat dintr-un sac cu aceeai compoziie, adic avnd aceeai proporie de bile albe i negre, dar
coninnd un numr mare de bile) vedem c avem 3 posibiliti:
- combinaia A+A, cu probabilitatea p2
- combinaia A+N (sau N+A), cu probabilitatea pq + pq = 2pq
- combinaia N+N, cu probabilitatea q2
Aceste diverse combinaii de bile care comport respectiv notaiile 0, 1 i 2 bile negre, au deci
probabilitile egale respectiv cu p2 , 2pq, q2, adic termenii succesivi din dezvoltarea bine- cunoscut:
( p q ) 2 p 2 2 pq q 2 .

Extrageri multiple; distribuia binomial


Judecnd n aceeai manier i plecnd de la datele precedente, se va gsi c n cazul tragerilor triple,
adic a 3 bile deodat, exist 3+1=4 combinaii posibile de 3 bile albe i negre, comportnd respectiv 0, 1, 2,
i 3 bile negre, deci probabilitile sunt reprezentate respectiv de termenii succesivi ai dezvoltrii:
p q 3 p 3 3 p 2 q 3 pq 2 q 3 , aa cum reiese i din tabelul 8.7.
Pentru p=1/3 i q=2/3, se obin pentru aceti termeni valorile 1/27, 6/27, 12/27, 8/27, care sunt
reprezentate n Figura 8.13.
n general, se arat c dac se realizeaz n trageri succesive (sau, ceea ce este acelai lucru, dac
plecm de la o urn binar cu aceeai structur, adic aceeai proporie de bile albe i negre, dar coninnd
un numr mare de bile, i extragem de fiecare dat un eantion de n bile) se obin (n+1) combinaii de bile
albe i negre, coninnd respectiv 0, 1, 2, 3, , n bile negre. Probabilitatea acestor combinaii diferite este
dat respectiv de termenii succesivi din dezvoltarea (p+q)n , p i q fiind probabilitile elementare de a
extrage o bil alb i respectiv de a extrage o bil neagr.

Comb.
dublei
extrageri
AA
(p2)
AN(NA)
(pq)

NN
(q2)

A 3-a
extragere
A(p)

Comb. celei
de a 3-a
extrageri
AAA

N(q)

AAN

A(p)

ANA (NAA)

N(q)
A(p)

ANN (NAN)
NNA

N(q)

NNN

Probabilit.
coresp.

Probabilit.
finale

Nr. bile
negre

p2 p

p3

p2 q
2pqp=2p2q

2pqq=2pq
q2 p

2
3p q

3 p q 2

q
q q
Tabelul 8.7: Probabilitile triplei extrageri
2

Probabilitatea P

0.5
0.4
0.3

Figura 8.13. Probabilitile


triplei extrageri

0.2
0.1
0

1
2
3
Numarul de bile negre

Lund ca variabil aleatoare numrul r de bile negre coninute n eantionul de n bile, r poate lua toate valorile
discrete (ntregi) de la 0 la n; se obine o distribuie unde probabilitile diferitelor valori ale variabilelor aleatoare
sunt date de termenii succesivi din dezvoltarea binomului (p+q)n, de unde numele binomial, dat acestei
distribuii particulare a probabilitilor.

Expresia termenului de rang r


Dezvoltarea (p+q)n comport n+1 termeni calculai de la 0 la n, de la stnga la dreapta.
Termenul de rang 0 (cel mai din stnga) va fi ntotdeauna pn , iar termenul de rang n (cel mai din dreapta)
va fi qn.
r
( nr ) r
q . innd cont de formula de
Termenul de rang r (r variind de la 0 la n) este dat de expresia C n p p
r
calcul al combinrilor, C n

n!
, expresia general a termenului de rang r din descompunerea
r! n r !

(p+q)n , notat cu Pr, va fi:

Pr

n!
p (nr ) q r .
r! n r !

Semnificaia distribuiei binomiale


Rezult din consideraiile precedente c ntr-o distribuie binomial, termenul de rang r, adic acela care
corespunde unui eantion de r bile negre, are o probabilitate dat de valoarea termenului de rang r n
dezvoltarea (p+q)n , adic de Pr.
Pr indic deci probabilitatea de a exista o tragere, plecnd de la o urn binar i un eantion comportnd r
bile negre din cele n bile ale eantionului.
Se definete evenimentul favorabil (succes), ca fiind extragerea unei bile negre; prin urmare, extragerea
unei bile albe este un eec non-realizare a evenimentului favorabil. Putem spune c Pr reprezint
probabilitatea de a avea r succese din n experiene succesive. Termenii respectivi ai distribuiei binomiale,
vor reprezenta deci n ordine probabilitile de a avea 0, 1, 2, 3, , r, succese din n experiene repetate
(Figura 8.14).
0.8
0.7
0.6
0.5
0.4

Figura 8.14. Distribuie


binomial

0.3
0.2
0.1
0
0

Numar de succese

Distribuia binomial simetric


S presupunem c p=q. Expresia general a termenului de rang r, fcnd abstracie de coeficientul
corespunztor combinrilor, devine: p n r p r p n .
Toi termenii dezvoltrii sunt atunci de forma p n, iar ei difer unul de altul numai prin valoarea coeficientului
corespunztor combinrilor, C. Din expresia coeficientului C rezult de asemeni c 2 termeni situai la egal
distan de extremiti sunt identici.
ntr-adevr, dac un termen are rangul r, simetricul su va avea rangul (n r). Coeficientul termenului de
r
rang (n r) va fi obinut nlocuind r cu (n r) n expresia C n , deci termenii sunt identici.
Rezult aadar c, dac p=q, termenii situai la egal distan de extremitile binomului sunt
egali ntre ei; distribuia binomial obinut se numete simetric (Figura 8.15).
1.2
1
0.8

P 0.6

Figura 8.15. Distribuie


binomial simetric

0.4
0.2
0
1

11

13

15

17

19

21

Distribuia binomial asimetric


Dac pq, distribuia binomial este numit asimetric, iar aspectul ei va fi diferit dup cum p < q sau q < p
(distribuia fiind deplasat oblic stnga sau dreapta, Figurile 8.16, 8.17).

1.2
1
0.8

Figura 8.16. Distribuie


binomial asimetric
deplasat dreapta (p < q)

P 0.6
0.4
0.2
0

n aceast situaie, p q, iar asimetria distribuiei tinde s se estompeze dac n crete; pentru valori
suficient de mari ale lui n, distribuia poate fi considerat practic simetric, chiar dac p q (Figura 8.18).

1.2
1
0.8

Figura 8.17. Distribuie


binomial asimetric
deplasat stnga (q < p)

P 0.6
0.4
0.2
0

r
0.5

0.4

0.3

n = 10
n = 20
n = 50
n = 100

P
0.2

Figura 8.18. Distribuia


binomial asimetric
(p = 0.9, q = 0.1)
pentru diferite valori ale lui n

0.1

Rangul termenului cel mai probabil


Diagramele arat c, indiferent de forma simetric sau asimetric a distribuiei, diferiii termeni ai acesteia
vor crete pn la o valoare maxim, pentru a descrete apoi. Exist deci totdeauna un termen al crui
probabilitate este cea mai mare.
Este interesant de cercetat rangul termenului care corespunde probabilitii maxime. Aceasta revine la a
determina componena cea mai probabil a eantionului de n bile extrase plecnd de la o urn binar de
componen dat.
Fie o urn coninnd, de exemplu, 100 bile, dintre care 30 albe i 70 negre. Extragen din mai multe
extrageri un eantion de 10 bile. tim c exist 10 + 1 = 11 combinaii posibile ale acestor bile bile albe i
negre, comportnd respectiv 0, 1, 2, 10 bile negre. Nu are importan ce combinaie din cele 11 posibile a
ieit.

Intuitiv, tim c avem anse mai mari de a extrage un eantion coninnd 3 bile albe i 7 bile negre, deci
avnd aceeai proporie (pstrnd compoziia) cu urna nsi. Se arat efectiv c este de asemeni bine s
tim n particular c n este suficient de mare i c p i q nu trebuie s fie prea apropiate de 0 sau de 1.
n aceste condiii devine facil s calculm rangul termenului corespunztor probabilitii maxime: va fi
rangul r corespunztor numrului de bile negre coninut n combinaia respectiv.
Dac q este proporia de bile negre, numrul r de bile negre n eantionul de n bile va fi:

r
sau r q n .
n

n aceste condiii precizate (n mare, p i q nu prea apropiate de 0 sau 1), rangul termenului cel mai
probabil este dat de expresia: r n q , care corespunde unui eantion avnd aceeai compoziie ca urna
binar din care s-a fcut extragerea.

Media distribuiei binomiale


Se arat c termenul cel mai probabil,
care va fi prin urmare

r n q , reprezint n acelai timp i media distribuiei binomiale,

m nq

i, atta timp ct condiiile precizate sunt realizate, aceast medie corespunde termenului de rang cel mai
probabil.
Aceasta vrea s spun c ntr-o serie de n experiene, a cror probabilitate constnd din succese este q,
numrul de succese la care trebuie s ne ateptm este n q .
Variana; abaterea tip
Dac media este n q , abaterea de la medie pentru o valoare oarecare xi va fi (xi nq).

Variana va fi:

1
2
2 xi n q .
n i 1

Se arat c aceast expresie este egal cu n q p .


Variana unei distribuii binomiale este deci dat de formula:
2 n pq.
Prin urmare, deviaia standard a distribuiei binomiale va deveni:

n pq

Exemplu de distribuie binomial


Repartiia sexelor la natere ofer un exemplu clasic de distribuie binomial. Se poate considera ntr-adevr
c exist pentru fiecare natere o probabilitate constant egal cu 1/2 de a avea o fiic, egal cu cea de a
avea un biat. Determinarea sexului poate fi simulat printr-un experiment de extragere dintr-o urn binar
coninnd un numr egal de bile albe i negre. Prin urmare, probabilitatea de a extrage o bil alb este egal
cu 1/2, fiind identic cu probabilitatea de a extrage o bil neagr.
n realitate, probabilitatea de a se nate un biat este puin superioar celei de a se nate o fat, prin
urmare urna binar reprezentativ ar trebui s conin 105 bile corespunztoare numrului de biei (negre)
i 100 bile corespunztoare numrului de fete (albe). Pentru 6 nateri, de exemplu, avem 6+1=7 combinaii
posibile, corespunztoare unui numr de 0, 1, 2, 3, 4, 5, 6 nou-nscui biei; probabilitile vor fi date de
termenii corespunztori dezvoltrii (p+q)6, unde p=1/2 i q=1/2.
Prin urmare, probabilitile vor fi (Figura 8.19):
p6=1/64=0.016=1.6% pentru situaia 0 biei, 6 fete;
6p6=6/64=0.094=9.4% pentru situaia 1 biat, 5 fete;
15p6=15/64=0.234=23.4% pentru situaia 2 biei, 4 fete;
20p6=20/64=0.312=31.2% pentru situaia 3 biei, 3 fete;
15p6=15/64=0.234=23.4% pentru situaia 4 biei, 2 fete;
6p6=6/64=0.094=9.4% pentru situaia 5 biei, 1 fat;
p6=1/64=0.016=1.6% pentru situaia 6 biei, 0 fete.

0.
23
4

0.3

0.
23
4

0.
31
2

0.35

0.25
0.2

0.
01
6

0.
01
6

0.1
0.05

0.
09
4

0.
09
4

P0.15

Figura 8.19. Diagrama


corespunztoare distribuiei
binomiale
pentru diferite valori ale lui n

Numarul de baieti

Media distribuiei este m = nq = 6 1/2 = 3 i corespunde eventualitii de a se nate 3 biei i 3 fete


(eventualitatea cea mai probabil Figura 8.20).

Numar de familii

700
600
500

Figura 8.20. Exemplu de


distribuie binomial
pentru diferite valori ale lui n

400
300
200
100
0
0

Numar de baieti

Vom vedea n cele ce urmeaz cum poate fi exploatat distribuia binomial pentru unele probleme
statistice, n particular pentru comparaia procentual a dou evenimente care se exclud mutual. Una dintre
utilitile eseniale ale distribuiei binomiale este aceea c ea st la baza unor alte distribuii teoretice, i n
particular a distribuiei normale.
Distribuia procentual
Dac se consider n locul numrului r, proporia r/n (numit procentual) de bile negre coninute n
eantion, distribuia acestor valori pentru diferite combinaii posibile ale eantionului este de asemeni o
distribuie binomial, dar n care avem procentaje 0/n, 1/n, , r/n care iau valori ntre 0 i 100 (Figura 8.21).
Media mq a acestei distribuii procentuale se obine din media distribuiei binomiale corespunztoare prin
divizare la n:

mq

m nq

q
n
n

Media distribuiei procentuale este deci mq = q. Semnificaia acestui fapt este aceea c proporia cea mai
probabil este n mod precis, cea care corespunde urnei binare.

Figura 8.21. Distribuia


procentual

0/n 1/n 2/n 3/n

...
q

r/n

...

n/n

8.7.2. Distribuia normal


Definiie: Distribuia normal este o distribuie binomial simetric n care p = q =1/2.
S studien ceea ce se ntmpl cnd n +. n aceste condiii, distribuia valorilor fiind de la 0 la +,
numrul termenilor distribuiei, adic numrul dreptunghiurilor diagramei devine infinit. Baza fiecrui dreptunghi
se micoreaz prin urmare foarte mult, iar la limit, marginea superioar a diagramei se transform ntr-o linie
continu curb, care este curba de densitate de probabilitate corespunztoare (Figura 8.22).
Curba astfel obinut este perfect definit pe plan matematic curba Gauss-Laplace, care permite
caracterizarea unei forme de distribuie teoretic de importan fundamental: distribuia normal (gaussian).
Aceast distribuie corespunde unei distribuii binomiale simetrice, reprezentat la limit; prin urmare este n
mod forat simetric, ca o distribuie binomial de origine, mprejurul mediei sale (termenul cu probabilitatea cea
mai mare). Pe de alt parte, termenii extremi, situai la egal distan de axa de simetrie a distribuiei, sunt de
forma pn, unde p este o fracie a unitii deci devine rapid foarte mic, pe msur ce n crete. Curba se va nla
astfel rapid i de o manier simetric de o parte i de alta a mediei pe axa absciselor, ceea ce i confer un
aspect n clopot foarte caracteristic.

Figura 8.22. Curba GaussLaplace i distribuia


normal

Pr

Importana legii normale:


- s poat servi modelele matematice pentru reprezentarea unui mare numr de distribuii experimentale;
- s poat fi exploatat, pentru a rezolva un mare numr de probleme de interpretare statistic.
Ecuaia curbei Gauss
n condiiile de mai sus, n i p, q sunt egale (nefiind apropiate de 0 sau 1). se arat, folosind formula lui
Stirling (pentru n suficient de mare, putem aproxima n! n n e n 2 n ) c expresia

Pr

n!
p n r q r , care d valoarea termenului de rang r n distribuia binomial, tinde ctre expresia:
r! n r !
Pr

1
2 n p q

r n q 2
2 n p q

(1)

Cum, n plus, ntr-o distribuie binomial media este m=nq, iar variana este 2 n p q , expresia
precedent poate fi scris sub forma:

1
Pr
e
2

r m 2
2 2

(2)

La limit, dreptunghiul de rang r, a crui nlime este dat de probabilitatea acestui termen, Pr, se reduce
la o ordonat liniar y a crei abscis x este chiar r (Figura 8.23).
Valoarea lui y se obine nlocuind r cu x n expresia lui Pr; prin urmare se obine:

ecuaie cunoscut sub numele de ecuaia curbei Gauss.

xm 2
2 2

(3)

Pr y

1.2
1

Figura 8.23. Dreptunghiul


de rang r n curba GaussLaplace

Pr(y)

0.8
0.6
0.4
0.2

0
r(x)

Curba Centrat
Expresia (3) corespunde unei curbe n care originea coordonatelor este plasat, ca pentru distribuia
binomial, la una dintre extremitile distribuiei (Figura 8.24).
1.2

1
y

0.8

Figura 8.24. Curba Gauss,


cu originea plasat la una
dintre extremiti

0.6
0.4

0.2
0
m

Exist ns interesul de a exprima ecuaia curbei n raport cu axa de simetrie a acesteia, care este de fapt
abscisa mediei m. Aceasta revine la a lua noi valori pentru abscisele punctelor de pe curb, i anume
abaterile de la medie ale acestora,
X=xm
Ecuaia curbei devine atunci:

x2
2 2

(4), unde X = abaterea de la medie.

Obinem astfel ecuaia curbei Gauss raportat la axa sa de simetrie, numit ecuaia curbei centrate, care
are pentru medie valoarea 0 (Figura 8.25).

y
y

Figura 8.25. Curba centrat


x=x-m

0
x

Abaterea redus

Exist interesul de a opera transformri i asupra abaterii . ntr-adevr, abaterea de la medie X i


abaterea tip fiind exprimate n aceeai ecuaie dimensional, raportul

X
xm

= abatere redus,

este un numr independent de unitatea de msur, ceea ce permite s comparm ntre ele curbe diferite.
Expresia lui y devine atunci

y
unde t

X
xm

t2
2

(5)

Curba redus
Pentru a da o portabilitate mai general a ecuaiei curbei Gauss, i a obine un aspect unic al curbei
reprezentative, se ia ca unitate de msur a abaterilor, ceea ce revine la a face = 1 n ecuaia (5). Se
obine atunci:

1
2

t2
2

(6)

relaie cunoscut sub numele de ecuaia redus a curbei (Figura 8.26).


Se observ c factorul

x2
1

aproximeaz de fapt ecuaia


y e 2 , a unei curbe n clopot clasice (pe
2

care am studiat-o).

1.2

y=f(x)

1
0.8
Y 0.6

Figura 8.26. Curba


redus

0.4
0.2
0

Morfologia curbei Gauss


Datele anterioare ne vor permite s precizm morfologia curbei Gauss, a crei form n clopot este deja
cunoscut.
2
Din ecuaia curbei, e x / 2 , se deduce c aceasta prezint dou puncte de inflexiune simetrice, pentru x =
1 i x = 1. Curba redus va prezenta prin urmare de asemeni dou puncte de inflexiune simetrice, pentru t
= 1 i t = 1, care corespund lui X = , respectiv X = pe curba centrat (dar neredus) i lui x = m pe
curba necentrat (Figura 8.27).

1.2

y=f(x)

0.8

Figura 8.27. Punctele


de inflexiune pe cele trei
curbe

0.6
0.4
0.2
0

-1

m+

+1

n toate cazurile curba descrete de o parte i de alta a maximului, la nceput mai ncet, apoi mai rapid,
pn la punctul de inflexiune, i apoi iari mai ncet de la acest punct n jos, pn devine asimptotic la axa
absciselor. Este clar c forma curbei va fi determinat de valorile lui : cu ct este mai mic, cu att
punctele de inflexiune sunt mai apropiate de axa ordonatelor, iar curba va fi mai strns n jurul valorii medii,
i invers.
De altfel, ordonata n origine (unde avem valoarea medie) se obine fcnd x = m n ecuaia (3), X = 0 n
ecuaia (4) sau t = 0 n ecuaia (5). Termenul n e devine e0 = 1, i prin urmare obinem:

Aceast valoare este invers proporional cu ; deci, cu ct este mai mic, cu att curba este mai strmt i
mai nalt, i cu ct este mai mare, cu att curba este mai joas i mai ntins (Figura 8.28).

Figura 8.28. Morfologia


curbei Gauss funcie de
diferite valori ale lui

-1

-0.6

-0.2

0.2

0.6

Se poate vedea importana covritoare a lui , care d morfologia curbei Gauss; asociat cu media, care
d poziia axei de simetrie a curbei, aceast mrime este suficient pentru a caracteriza curba Gauss. Prin
urmare, curba Gauss nu depinde dect de doi parametri: media i . Acesta este unul dintre motivele care
justific interesul acordat studiului acestor doi parametri n statistic.
Semnificaia probabilistic a curbei Gauss
Cnd se tinde la infinit, fiecare dreptunghi al diagramei distribuiei binomiale se reduce la o ordonat liniar y
a curbei Gauss, care msoar densitatea de probabilitate a valorii x corespunztoare. Curba Gauss are deci
semnificaia unei funcii de densitate de probabilitate, i ea indic pentru fiecare valoare a variabilei aleatoare
x, probabilitatea y care i corespunde (Figura 8.23).
n timp ce n distribuia binomial variabila aleatoare nu poate lua dect un anumit numr de valori
discrete (i ntregi), n cazul distribuiei normale variabila aleatoare este continu i poate lua toate valorile
ntre 0 i + (Figura 8.24).
Cnd se trece la curba centrat, se nlocuiete variabila x cu abaterea de la medie X = x m, care poate fi
pozitiv sau negativ. Noua variabil aleatoare X acoper deci tot domeniul de valori ntre i 0 pe de o
parte, i 0 i + pe de alt parte (Figura 8.29).
Curba indic atunci probabilitatea de a ntlni o anumit abatere de la medie a unei valori date. Se vede
c media, a crei abatere este nul, este valoarea a crei probabilitate este cea mai mare. Mai mult, dac
este advrat c valoarea poate fi observat, toate valorile nu sunt egal probabile. Din forma n clopot a
curbei rezult c probabilitatea de a observa o valoare dat este cu att mai mic, cu ct ea se abate mai
mult de la medie, de o parte i de alta a acesteia. Probabilitatea se diminueaz foarte clar atunci cnd

abaterea depete 1, dup cum indic aria marcat a curbei de la punctele sale de inflexiune (Figura
8.27). Aceast noiune foarte important, care arat caracterul reprezentativ al mediei n distribuia normal,
este una din noiunile de baz, util n exploatarea statistic a curbei Gauss.
1.5

Figura 8.29. Domeniul


de valori pentru x i X

0.5
0

X=x-m

Probabilitile cumulate ale distribuiei normale


Cnd n , distribuia binomial tinde ctre curba Gauss, iar diagrama probabilitilor cumulate care i
corespunde tinde ctre funcia de repartiie corespunztoare, adic integrala curbei Gauss, care este, curba
integral n S studiat anterior, multiplicat prin factorul

1
2

(Figura 8.30).

Figura 8.30. Diagrama cumulat a distribuiei normale


Probabilitatea cumulat a distribuiei gaussiene va fi deci obinut din integrala corespunztoare curbei
Gauss. Astfel, probabilitatea cumulat a tuturor valorilor cuprinse ntre i o valoare particular x1 , adic
probabilitatea tuturor valorilor inferioare lui x1, care corespund suprafeei cuprinse sub curba Gauss, din
extremitatea stng i pn la ordonata corespunztoare lui x1 va fi dat de integrala curbei Gauss, cuprins
ntre i x1 :
x1

1
2

ex

/2

dx

Aceasta msoar ordonata Y1 = F(x1), corespunztoare curbei integrale (Figura 8.31).


Y=F(x)

Y1

x1

x1

Figura 8.31. Probabilitatea cumulat a valorilor ntre i x1


Aceeai probabilitate cumulat a tuturor valorilor lui x cuprinse ntre dou valori particulare x1 i x2, care
corespunde suprafeei de sub curba Gauss, cuprins ntre ordonatele corespunztoare celor 2 valori x1 i x2
va fi dat de integrala curbei Gauss, cuprins ntre limitele x1 i x2 i calculat cu formula:

x2

x1

x2
2

dx ,

care msoar diferena Y2-Y1 ntre ordonatele corespunztoare curbei integrale (Figura 8.32).
Y=F(x)

y=f(x)

Y1
Y

Y2
x
x1

x2

x2

x1

Figura 8.32. Probabilitatea cumulat a valorilor ntre x1 i x2


Cnd se calculeaz probabilitatea cumulat a tuturor valorilor distribuiei, care este prin definiie egal cu
1, aceasta va corespunde ntregii suprafee de sub curba lui Gauss, fiind integrala curbei Gauss, cuprins
ntre i , i calculndu-se cu formula:

1
2

x2
2

dx

(Figura 8.33).
y=f(x)

YT

Figura 8.33. Probabilitatea cumulat a valorilor ntre i


Tabelele curbei normale
n practic, nu este necesar s calculm de fiecare dat aceste integrale. Plecnd de la caracterizarea
numeric a curbei Gauss, s-au stabilit tabelele curbei normale (n anex), care ne permit s rezolvm cu
uurin aceste probleme. Tabelele sunt completate pentru curba redus, care are ca abscis
ca ordonat y Y . Aceste tabele indic pentru fiecare valoare t1 a lui t:
1. Valoarea ordonatei y1 a curbei reduse care i corespunde (Figura 8.34).
Y

(t1)
Figura 8.34. Ordonata y1 i
suprafaa (t1) pe curba redus
Y1

t1

xm
i

2. Valoarea suprafeei (t1 )

t1

t2
2

dt , cuprins ntre ordonata de origine i ordonata lui t1 ,

sub curba redus (Figura 8.34), i care msoar probabilitatea cumulat a tuturor valorilor cuprinse
ntre 0 i t1.
3. Suprafaa 2 (t1 ) cuprins sub curba redus, ntre ordonatele punctelor t1 i +t1 (Figura 8.35), care
msoar probabilitatea cumulat a tuturor valorilor cuprinse ntre t1 i +t1. n aceste condiii, suprafaa
[1 2 (t1 )] va msura probabilitile cumulate ale tuturor valorilor exterioare acestui interval.
t1

(t1 )

dt (Figura 8.36) cuprins sub curba redus ntre i t1 i


2
complementul su fa de 1, [1 (t1 )] , care msoar probabilitatea cumulat a valorilor inferioare i
4. Suprafaa

respectiv, a valorilor superioare lui t1.


Y

Figura 8.35. Suprafaa

2 (t1 ) pe curba redus

2 (t1)

- t1

t1

Figura 8.36. Suprafeele

(t
1)
(t1)

curba redus

t1

Exemplu:

(t1 ) i [1 (t1 )] pe

Pentru t1 = 1/2 se gsete n tabel:


y1 = 0.3521

(t1) = 0.1915

2(t1) = 0.3830
(t1) = 0.6915

1 2(t1) = 0.6170
1 (t1) = 0.3085

Se poare calcula astfel, plecnd de la aceste date, probabilitatea tuturor valorilor cuprinse ntre dou
valori t1 i t2 , care este egal cu (t 2 ) (t1 ) , sau cu (t 2 ) (t1 ) dac t1 i t2 sunt de acelai semn
(Figura 8.37), i cu (t1 ) (t 2 ) dac t1 i t2 sunt de semne contrare (Figura 8.38).
Exemplu: Pentru t1 = 1/2 i t2 = 7/10 se obine:
(t1) = 0.1915; (t2) = 0.2580
(t2) (t1) = 0.0665
Acest tabel permite s se obin pentru toate valorile lui x ale unei distribuii normale probabilitile
corespunztoare.

Figura 8.37. Suprafaa

(t 2 ) (t1 ) pe curba
redus

t2

t1

Figura 8.38. Suprafaa


(t1 ) (t 2 ) pe curba
redus

t2

t1

Observaie:
Tabelele sunt calculate pentru curba redus; prin urmare, trebuie calculat mai nti t, plecnd de la valorile

xm
. n tabel este de asemeni precizat ordonata redus y; pentru a

y
reveni la ordonata neredus, notat Y, folosim relaia Y
.

Pentru valoarea x = 6 a unei distribuii normale de medie m = 5 i 2 se obine c:


xm 65 1
t

2
2
considerate x, folosind formula t

Pentru t = 1/2 se gsete n tabel y = 0.3521

y 0.3521

0.1760 .

Prin urmare, probabilitatea valorii x este deci 0.1760, sau 17.6%.


Determinarea probabilitilor este considerabil mai uoar dect n cazul distribuiei binomiale, unde este
necesar s se calculeze separat diferiii termeni ai distribuiei. Distribuia normal oferind valori continue, are
o portabilitate mai general dect distribuia binomial, pe care am studiat-o i care nu ofer dect valori
discrete.

Suprafeele importante ale curbei Gauss


Datele anterioare ne permit s nelegem valoarea abaterii t corespunztoare valorii determinate de aria
2(t), deci aria de sub curba neredus. Aceste valori ale ariei 2(t) sunt cele care corespund valorilor
abaterii n raport cu .
Se arat n Figura 8.39 c:
1. Aria 2(t) care corespunde unei abateri t = 1, adic x = 1, deci aria cuprins sub curba neredus
ntre abscisele x = (m) i x = (m+), reprezint 68.3% (mai exact 63.28% - din tablul curbei Gauss) din
suprafaa total de sub curb.
2. Aria 2(t) care corespunde abaterii t = 2, adic x = 2, deci aria cuprins sub curba neredus ntre
abscisele x = (m2) i x = (m+2), reprezint 95.5% din suprafaa total de sub curb.
3. Aria 2(t) care corespunde abaterii t = 2.6, adic x = 2.6, deci aria cuprins sub curba neredus
ntre abscisele x = (m2.6) i x = (m+2.6), reprezint 99% din suprafaa total de sub curb.

99%
95.50%

Figura 8.39.
Suprafeele importante
ale curbei Gauss

68.30%
t

-2.6
m-2.6

X
-2

-1

m -2 m-1

2.6

m-1 m-2 m-2.6

Suprafaa total nglobat sub curba Gauss corespunde probabilitii cumulate a tuturor valorilor, adic
100% din cazurile distribuiei.
Suprafaa 2(t) menionat mai sus corespunde deci probabilitilot cumulate de 68.3%, 95.5%, 99% ale
cazurilor distribuiei. Dac se consider probabilitile valorilor lui x exterioare intervalelor de mai sus, se
poate deduce:
1. Intervalul exterior lui [m, m+], care va ngloba 10068.3 = 31.7% din cazurile distribuiei (Figura
8.40);

Figura 8.40. Intervalul


exterior lui [m, m+]
pe curba redus

2.

Intervalul exterior lui [m2, m+2], care va ngloba 10095.5% = 4.5% din cazurile distribuiei (Figura
8.41);

Figura 8.41. Intervalul


exterior lui [m2, m+2]
pe curba redus

3.

Intervalul exterior lui [m2.6, m+2.6], care va ngloba 10099% = 1% din cazurile distribuiei (Figura
8.42);

Figura 8.42. Intervalul


exterior lui
[m2.6, m+2.6]
pe curba redus

Prin urmare, ntr-o distribuie normal exist numai:


31.7 anse din 100 de a observa o abatere a mediei superioar lui ;
4.5 anse din 100 de a observa o abatere a mediei superioar lui 2;
1 ans din 100 de a observa o abatere a mediei superioar lui 2.6.
Ariile curbei Gauss permit s determinm probabilitatea de a observa ntr-o distribuie gaussian o
abatere redus superioar unei valori date. Aceast proprietate fundamental este exploatat pentru a
reyolva un mare numr de probleme de interpretare statistic.
-

8.7.3. Distribuia Poisson


Este o distribuie teoretic care poate fi dedus din distribuia binomial: ea corespunde unei distribuii
binomiale n care una dintre eventualiti are o probabilitate foarte mic.
Exemplu introductiv:
Presupunem c avem o urn binar coninnd 999 bile albe i 1 bil neagr. Se tie c bila neagr unic
are o foarte mic ans s fie extras, adic 1/1000=0.1%. Probabilitatea acestui eveniment este deci foarte
mic, dar totui nenul. Dac efectum 1000 de extrageri, de exemplu, putem spera c vom extrage o dat
bila neagr. De fapt, n aceste 1000 extrageri bila neagr are mai multe anse de a iei; nu este exclus s
ias de 2, 3 sau chiar de mai multe ori.
Distribuia Poisson reprezint limita unei distribuii binomiale n care termenii q (de exemplu) devin foarte
mici (practic <0.03%), ceea ce d o distribuie foarte asimetric, atunci cnd n crete la infinit. n aceste
condiii se arat c expresia:

Pr

n!
p ( nr ) q r ,
r!( n r )!

care d probabilitatea termenului de rang r, tinde ctre expresia:

Pr
Media distribuiei Poisson este

( n q ) r n q
e
r!

(1) .

m n q . Prin urmare, expresia (1) devine:


Pr

m r m
e
r!

(2) .

Dac inem cont de faptul c:

m m2
mr

...
...
1!
2!
r!
Pr e m e m 1
em 1
r

Deci, suma probabilitilor este egal cu 1.

Proprietile caracteristice distribuiei Poisson


Expresia matematic a distribuiei Poisson arat c diferiii termeni ai acestei distribuii nu depind dect de
parametrul m:
- termenul de rang 0 este ntotdeauna e-m;
- dac m < 1, e-m este cel mai mare termen al seriei; distribuia descrete atunci constant de la acest
termen de rang 0 i tinde spre 0, avnd un aspect de J ntors;
- pentru m = 1, termenul de rang 0, e m e 1 0.37 ; termenul de rang 1 este m e m ; cei doi termeni
reprezint valoarea maximal a distribuiei;
- pentru m > 1, exist dou valori maximale, numite modale, corespunztoare lui r = m i r = m 1.
termenii succesivi ai distribuiei vor crete pn la dublul maxim, i apoi vor descrete ctre 0 cnd r
crete. Distribuia are un aspect n clopot asimetric cu ntindere (etalare, coad) spre dreapta; acest
aspect asimetric se atenueaz rapid cnd m crete.
Se arat c variana (dispersia) distribuiei Poisson este egal cu m:

2 n p q , p 1 q , n q 1 q m 1 q

Cnd q 0, ultima expresie din ecuaiile anterioare tinde spre m. Prin urmare,
2 m
abaterea standard,

Distribuia Poisson este deci n ntregime determinat de singurul parametru m:

media m ;

dispersia 2 m ;
abaterea
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0

m.

m = 0.1

Figura 8.43. Reprezentarea


grafic a legii Poisson
pentru diferite valori ale lui m

m=1
m=3
m=5

10

Aplicaii ale distribuiei Poisson: Distribuia Poisson, numit legea probabilitilor mici, se poate aplica n
cazul n care evenimentele au probabiliti mici: accidente mortale, accidente de avion, maladii excepionale,
sinucideri, etc.

0,3
m=2

0,25

m=4

0,2

m=8

0,15

Figura 8.44. Distribuii


Poisson pentru diferite valori
ale lui m

m=15

0,1
0,05
0
0

10

15

20

25

Diferite aspecte ale legii Poisson


Aceast distribuie are o portabilitate mai general. Expresia sa matematic arat nrudirea sa cu funcia
exponenial. Se constat c, atunci cnd evenimentele se succed n timp variabil (la ntmplare, datorate
hazardului) repartiiile lor n trane (intervale) de timp egale se fac urmnd o distribuie Poisson.
Exemple:
- Numrul de atomi care se dezintegreaz ntr-un interval de timp determinat;
- Controlul industrial al fabricaiei cnd procentajul obiectelor defecte este mic.
Interpretare statistic
Ceea ce intereseaz pe observator nu este eantionul pe care l studiaz, ci populaia original din care a
fost extras eantionul i inducerea n populaia original a rezultatelor obinute pe eantion.
Totdeauna, metodele statistice permit s determinm limitele ntre care se pot estima, cu un grad de
credibilitate dat, valorile parametrului vis--vis de populaia de origine, adic ceea ce se numete
determinarea intervalului de ncredere al parametrului. Pentru aceasta vom introduce alte cteva noiuni,
prezentate n cele ce urmeaz.

Distribuia mediilor
Fie o populaie statistic N (N foarte mare), pe care o considerm ca avnd o distribuie normal.
Vom extrage un eantion de efectiv n.
Fie m1, m2, m3 mediile gsite pentru diverse eantioane.
Se studiaz fluctuaia statistic a mediilor eantioanelor extrase ntre ele, i egal repartizate fa de media
M a populaiei de origine. Se constat c mediile sunt mai puin dispersate fa de M, media global a
populaiei, dect valorile individuale din populaie .
Distribuia nou-obinut n acest mod se numete distribuia mediilor.
Abaterea tip a acestei distribuii de medii se numete abaterea standard a mediei, i se noteaz Sm.

(a) Distributia mediilor


esantioanelor de cate
n observatii
Sm
(b) Distributia a
N valori individuale

Distribuia mediilor n jurul mediei globale a


populaiei, n comparaie cu distribuia valorilor
individuale

Distribuia mediilor fiind mai puin dispersat, abaterea tip Sm este totdeauna mai mic dect abaterea tip
S a populaiei de origine; ntre cele dou mrimi exist relaia:

Sm

S
n

Mulimea mediilor care se pot gsi pentru diverse eantioane avnd acelai numr de observaii, extrase
la ntmplare dintr-o populaie de medie M i abatere standard S, formeaz aadar o distribuie gaussian de
valoare medie M, i avnd abaterea tip Sm.
Intervalul de ncredere al mediei

Intervalul corespunztor distribuiei mediilor, (M 2Sm, M + 2Sm), cuprinznd 95.5% din valorile pe care le
poate lua media m a eantionului din mulimea fluctuaiilor ntmpltoare, se numete interval de confiden
al mediei cu un coeficient de securitate de 95.5%

Sm

Sm

Intervalul de confiden al mediei


cu un coeficient de securitate de 95.5%

Analog se definete intervalul de confiden al mediei cu un coeficient de securitate de 99%ca fiind


intervalul (M 2.6Sm, M + 2.6Sm) ne spune c avem 99 anse din 100 ca media unui eantion ales s
cad n acel interval.

Sm

Sm

Intervalul de confiden al mediei cu un coeficient de securitate de 99%

Determinarea intervalului de confiden al mediei


Dorim s studiem la un eantion intervalul de ncredere al mediei observate, m0. Nu cunoatem nici media
M, nici Sm , dar presupunem c tim abaterea tip S a populaiei de origine.
Cteodat, experiena ne arat c n practic, orict de mic ar fi eantionul, dar suficient de important,
distribuiile de eantionaj sunt distribuii sensibil normale. n aceste condiii, valoarea m0 gsit pentru m
reprezint valoarea a crei probabilitate este cea mai mare. n consecin, este logic s considerm c cea
mai bun estimare pe care o lum va fi media M, i s o substituim n intervalul de confiden.
De altfel, abaterea a eantionului reprezint o estimare a abaterii tip S a populaiei de origine i se
consider substituia lui S cu Sm rezultat din calcul. Abaterea a eantionului va fi o estimare puin mai mic
dect S. Pentru a estima corect S trebuie s lum o valoare puin mai mare dect al eantionului. Calculul
arat efectiv c cea mai bun estimare a lui S, pe care o vom nota cu S, este puin mai mare dect , fiind
definit de formula:

n
n 1

Se poate deci utiliza aceast valoare pentru a calcula Sm , care va fi:

Sm

S
n

Sm

1
n

n 1

n 1

n 1

Plecnd de la valorile estimate ale lui M i Sm, se va putea exprima intervalul de confiden al mediei, care
va fi n final:
- m0 2Sm , cu un coeficient de securitate de 95%;
- m0 2.6Sm , cu un coeficient de securitate de 99%.
cu.

Sm

n 1

Ex: 3 Se dozeaz corticoizii urinari ntr-un grup de 253 femei cu greutate normal. Se gsete media m =
4.50 mg/24h i abaterea tip =1.50. S se gseasc intervalul de ncredere.
Avem:

Sm

1.5

0.1
n 1
252

Intervalul de ncredere al mediei este deci:


m0 2Sm = 4.50 2 0.1 = 4.50 0.2
(4.30 , 4.70) cu un coeficient de securitate de 95%;
m0 2.6Sm = 4.50 2.6 0.1 = 4.50 0.26
(4.24 , 4.76) cu un coeficient de securitate de 99%.

Teste statistice pentru analiza dispersiei i a mediei


Compararea a dou dispersii
Notm raportul F1,2 al dispersiilor 12 i 22,

F1, 2

12
22

Acest raport, n care se convine s se pun la numrtor dispersia cea mai mare, traduce divergena ntre
dou dispersii i va fi folosit pentru a testa semnificaia.
Dac, ntr-adevr, eantioanele sunt extrase din aceeai populaie de origine, dispersiile 12 i 22
reprezint o estimare a dispersiei S2 a acestei populaii. Teoretic, ar trebui s fie verificat relaia: 12 = 22 ,
i prin urmare F1,2 = 1.
Uneori fluctuaiile fortuite nu sunt rspunztoare de mrirea raportului dect pn la o valoare limit,
valoare pe care o putem calcula, i care variaz evident cu mrimea eantionului. Atunci cnd raportul F
depete aceast valoare limit, divergena este prea important pentru a fi atribuit numai fluctuaiei de
eantionaj pe care hazardul o poate determina n interiorul unei populaii unice. Aceast ipotez trebuie deci
eliminat i divergena trebuie considerat semnificativ.
Sndcor a stabilit tabelele raportului F care ne permit s rezolvm problema din punct de vedere practic.
Aceste tabele dau direct, pentru coeficienii de securitate obinuii, 95% i 99% i n funcie de mrimile
eantioanelor n1 i n2 (mai precis, n funcie de numrul gradelor de libertate 1 = n1 1 i 2 = n2 1 ale
fiecrui eantion) valorile limit ale lui F sub care se poate considera c dispersiile studiate difer
semnificativ. Este suficient s formm raportul celor dou dispersii,

F1, 2

12
22

, i s cercetm dac este

superior valorii limit dat de tabel.


Ex: 1 Dup administrarea unui somnifer ntr-un grup de 11 subieci, se observ un timp mediu de somn de
10.6 h, cu o abatere standard de 2.3 h. La un alt grup de 13 subieci, s-a observat o durat de somn de 8.1
h, cu o abatere de 1.9 h. Ne propunem s studiem dispersia n aceste dou grupe.
Avem:

1 = 2.3
2 = 1.9
n1 = 11
n2 = 13
Formm raportul dispersiilor:
Raportndu-l la tabelele Sndcor, pentru 1 = n1 1 = 10 i 2 = n2 1 = 12, se gsete valoarea limit
pentru F, cu o probabilitate de 0.05 (adic 5 anse din 100 de a fi depit datorit fluctuaiilor fortuite), ca
fiind F0.05 = 2.76. Valoarea gsit pentru F, egal cu 1.46, este net inferioar. Nu exist deci diferen

F1, 2

12 (2.3) 2

1.46
22 (1.9) 2

semnificativ ntre cele dou dispersii observate.


Analiza dispersiei
Analiza dispersiei i propune s studieze n ce msur diferenele observate ntre valorile mediilor din
fiecare grup traduc real o diferen a aciunii ntre diferitele clase testate, factor n funcie de care se
deosebesc diferitele grupuri, i nu sunt legate doar de fluctuaiile de eantionaj. Se pune problema
comparrii mediilor.
Fr ndoial, pentru a rezolva aceast problem, ne propunem s comparm mediile din aceste grupuri,
dou cte dou. Dar exist un procedeu care ne permite s testm omogenitatea mulimii grupurilor studiate,
adic de a face compararea simultan a acestor medii diferite i de a ti dac se poate sau nu s le
considerm ca aparinnd unei aceleiai populaii: este metoda numit analiza dispersiilor, datorat
statisticianului englez R. A. Fisher, i care are astzi o importan deosebit, n particular pentru a exploata
datele experimentale.
Principiul general al acestor probleme de comparare este testul ipotezei nule, urmrind la toate
eantioanele studiate aparinnd aceleiasi populaii, n ce caz dispersia mulimii este condiionat unic de
fluctuaia de eantionaj.
Se vor analiza fluctuaiile individuale care se produc n interiorul unui grup, i ntre dou grupuri.

Compararea valorilor medii (testul t Student)


Pentru a lmuri problema dac divergena valorilor unui anumit parametru x este ntmpltoare sau nu, se
efectueaz dou serii de experimente i pentru fiecare serie de rezultate se calculeaz media aritmetic a
parametrului, adic x1 i x 2 .
Problema care se pune este, deci, de a decide cnd socotim c diferena ntre aceste medii este suficient de
mare pentru ca practic s se poat afirma c deosebirile constatate n calitatea parametrilor nu sunt
ntmpltoare.
Msurtorile se presupun independente i, cel puin n cadrul fiecrei serii, de egal precizie, iar funcia de
repartiie a erorilor de msurare se presupune a fi normal.
Presupunem c s-au efectuat n1 msurri independente de egal precizie ntr-o prim serie de msurri i
n2 n cea de a doua serie de msurri (cu dispersiile 12 i, respectiv, 22). Notm cu x1 i x 2 mediile
aritmetice ale rezultatelor din prima i din cea de a doua serie.
Pentru a rspunde la problema dac diferena dintre aceste medii aritmetice este ntmpltoare sau nu,
vom calcula raportul:

x1 x 2

12 22

n1 n2

Fixm un interval de ncredere P i corespunztor determinm din tabelele pentru testul t, valoarea t = t(P).
Ex:
Pentru P = 0.99 t = 2.576
Dac valoarea absolut a lui t calculat, tcalculat > t(P)tabel, urmeaz c diferena mediilor aritmetice se poate
considera ca nefiind ntmpltoare. n caz contrar, nu avem motive s considerm c diferena este
semnificativ (adic ea poate fi considerat ca o abatere ntmpltoare).
Ex: 2 S considerm dou serii, de cte 25 i 30 de msurtori.

1 2 1.20
x1 23.56,
t

x 2 22.80

x1 x 2

1
1

n1 n 2

23.56 22.80
1
1
1.20

25 80

2.59

t(0.99)tabel = 2.576, deci t(0.99)tabel < tcalculat i rezult cu o certitudine de 0.99 c diferena ntre medii este
semnificativ.

Compararea dispersiilor (testul Fisher)


Cnd se efectueaz msurri n condiii diferite, apare problema comparrii preciziei msurrilor. n
particular apare problema comparrii preciziei de msurare a diferitor aparate. Importana acestei probleme
este subliniat ndeosebi de faptul c intervalele de ncredere ale abaterilor medii ptratice se dovedesc a fi
mari.
Presupunem c n dou serii de msurri s-au obinut dispersiile empirice ale datelor:
- S12 : pentru k1 grade de libertate;
- S22 : pentru k2 grade de libertate.
(n general, primul coeficient se refer la dispersia empiric cu valoarea cea mai mare).
Se va calcula raportul:

S12
1
S 22

Se alege un interval de siguran P = 0.95 sau P = 0.99, i se determin valoarea critic F,


corespunztoare numerelor gradelor de libertate k1 i k2 . Valoarea calculat a lui F, Fcalculat pentru seriile
observate va fi comparat cu valorile extrase din tabel, corespunztoare intervalelor de ncredere alese,
F(P)tabel ; apar dou situaii posibile:
- Fcalculat > F(P)tabel diferena ntre medii nu este aleatoare;
- Fcalculat < F(P)tabel diferena ntre medii este aleatoare, i nu are o semnificaie special.

Testul Z (pentru procente)


Testul furnizeaz o estimare numeric a probabilitii ca diferena observat s survin sau nu datorit
hazardului.
Se calculeaz urmtorul coeficient, Z, pentru compararea a dou procentaje P1 i P2, cu erorile standard
SE1, SE2.

P1 P2
( SE1 ) 2 ( SE 2 ) 2

Dac Z 1.96, atunci se poate afirma cu un prag de semnificaie de 5% c cele dou procentaje difer nu
datorit hazardului, ci datorit unei cauze care trebuie determinat.
Dac Z 2.56, atunci se poate afirma cu un prag de semnificaie de 1 % c cele dou procentaje difer nu
datorit hazardului, ci datorit unei cauze care trebuie determinat.

Corelaia statistic
Noiunile dezvoltate anterior ne-au permis s studiem un caracter cantitativ dat: greutatea, nlimea, tensiunea
arterial, ntr-o populaie statistic determinat, definind parametrii numerici care permit s caracterizm variaiile
acestor mrimi, s precizm gradul de confiden pe care l putem ataa rezultatelor i s confruntm rezultatele
cu cele obinute pentru acelai caracter cantitativ ntr-o populaie statistic.
n tiinele experimentale i, n particular, n medicin i biologie, intereseaz nu numai variaia unei singure
mrimi, ci a dou valori, adic a dou caractere cantitative, ntr-o populaie statistic.
De exemplu, dorim s tim dac exist ntr-o grup de subieci o relaie ntre greutate i nlime, ntre tensiunea
arterial i mrimea umoral a unei substane, etc.

Pe plan matematic problema este rezolvat prin noiunea de funcie, care traduce relaia ntre variaia celor
dou mrimi. relaie materializat prin curba sa reprezentativ: y = f(x). n acest caz, unei valori date a variabilei
independente x i corespunde o valoare i numai una a variabilei dependente y, relaia y = f(x) permind
calcularea cu exactitate a acestei valori.
O astfel de relaie fiind stabilit, cunoaterea unei valori ne este suficient pentru determinarea valorii
corespondente. Acest tip de relaie, numit relaie funcional, este cea care se ntlnete n aa-zisele tiine
exacte. Dar problema se complic atunci cnd valorile care se studiaz (cea dependent i cea independent)
sunt supuse fluctuaiilor.
Fluctuaiile se manifest nu numai pentru o singur valoare dat, ci pentru toate variabilele distribuiei.
Exemplu:
ntr-un grup de subieci crora li s-a studiat nlimea i greutatea, pentru o valoare dat a nlimii (de
exemplu 1.70 m) se va gsi seria tuturor subiecilor avnd aceeai nlime i diferind ntre ei prin greutate.
Invers, pentru o valoare dat a greutii se va gsi seria subiecilor cu aceeai greutate, dar cu nlimi diferite.
Nu se tie, i se pune problema dac greutatea este funcie de nlime, sau invers.
Se constat c la o nlime mic corespunde o greutate mai mic, i invers. Prin urmare, exist o relaie
sigur ntre aceste dou mrimi, dar mai puin rigid dect relaia funcional propriu-zis.
Aceast relaie, de o natur particular, constituie corelaia statistic, care joac un rol important n tiinele
vieii, i n particular n tiina medical, care este esenialmente o tiin a corelaiei.
Procedee speciale ne permit s studiem corelaia statistic, s punem n eviden legea general care
stabilete o legtur reciproc ntre variaiile mrimilor luate n studiu i s apreciem cantitativ gradul, adic
caracterul mai mult sau mai puin slab al acestei legturi.
Ne vom limita la corelaia liniar, unde una dintre mrimi variaz proporional cu alta.

Diagrama de dispersie
Un prim model de a aborda problema const n a merge la reprezentarea grafic. Ca pentru a studia o funcie,
se merge la un sistem de axe rectangulare Ox i Oy, pe care se vor reprezenta valorile a dou mrimi: x
(nlimea) i y (greutatea). Fiecare individ este reprezentat printr-o pereche (x, y).
Ansamblul populaiei studiate va fi reprezentat printr-un nor de puncte, care va constitui dispersia populaiei
studiate:
6
5
4
y3

(x,y)

1
0
0

.Dispersia unei populaii (norul de puncte)


O astfel de diagram, numit diagram de dispersie, permite deja o aproximare a noiunii de corelaie: ntradevr, dac exist o corelaie astfel nct, de exemplu, greutile mai mari s fie asociate nlimilor mai
mari, norul de puncte va avea o form alungit oblic n sus i la dreapta. Dac, dimpotriv, se coreleaz
valori mai mari ale uneia dintre mrimi cu valori mai mici ale celeilalte, norul de puncte va avea un aspect
analog, dar dirijat n jos i la dreapta.
4,5
4
3,5

3
2,5

.Corelaie pozitiv

2
1,5
1
0,5
0
0

0,5

1,5
x

2,5

Atunci cnd valorile nu se influeneaz reciproc, deci nu exist corelaie, norul de puncte va avea un aspect
uniform dispersat (de exemplu, nlimea i glicemia ntr-un lot de persoane) Absena corelaiei indic
independena caracterelor studiate.
3,5
3
2,5
y

Corelaie negativ

1,5
1
0,5
0
0

0,5

1,5

2,5

Corelaie zero

5
4
y3
2
1
0
0

4
x

S-ar putea să vă placă și