Sunteți pe pagina 1din 35

Cursul 8

8.7. Principalele tipuri de distribuii statistice


8.7.1. Distribuia binomial Experiena dublei extrageri Avem un sac care conine o bil alb i dou negre i vedem ce se ntmpl probabilistic atunci cnd procedm la dou extrageri succesive. Presupunem c bila tras prima dat este repus n urn n aa fel nct componena acesteia s nu se schimbe n timpul celei de-a doua extrageri. n aceste condiii, la a doua extragere, la fel ca i la prima, exist probabilitatea p=1/3 de a extrage o bil alb, i probabilitatea q=2/3 de a extrage o bil neagr. Ceea ce ne intereseaz este probabilitatea combinaiilor care pot rezulta din a doua tragere. n timpul acestei experiene, fiecare din cele 3 bile susceptibile de a fi extrase la prima extragere, poate fi asociat cu fiecare dintre cele 3 bile susceptibile de a fi extrase a doua oar. Exist un total de 3 3 = 9 combinaii posibile de cte dou bile: o combinaie A+A 2 combinaii A+N 2 combinaii N+A 4 combinaii N+N Prima extragere

A doua extragere Probabilitile acestor combinaii diferite sunt: - 1/9 (adic p2) pentru combinaiile A+A; - 2/9 (adic pq) pentru combinaiile A+N; - 2/9 (adic pq) pentru combinaiile N+A; - 4/9 (adic q2 ) pentru combinaiile N+N. Dac nu se ine cont de ordinea n care se prezint bilele (ceea ce poate fi realizat efectund o tragere de 2 bile odat dintr-un sac cu aceeai compoziie, adic avnd aceeai proporie de bile albe i negre, dar coninnd un numr mare de bile) vedem c avem 3 posibiliti: - combinaia A+A, cu probabilitatea p2 - combinaia A+N (sau N+A), cu probabilitatea pq + pq = 2pq - combinaia N+N, cu probabilitatea q2 Aceste diverse combinaii de bile care comport respectiv notaiile 0, 1 i 2 bile negre, au deci probabilitile egale respectiv cu p2 , 2pq, q2, adic termenii succesivi din dezvoltarea bine- cunoscut: ( p + q ) 2 = p 2 + 2 pq + q 2 . Extrageri multiple; distribuia binomial Judecnd n aceeai manier i plecnd de la datele precedente, se va gsi c n cazul tragerilor triple, adic a 3 bile deodat, exist 3+1=4 combinaii posibile de 3 bile albe i negre, comportnd respectiv 0, 1, 2, i 3 bile negre, deci probabilitile sunt reprezentate respectiv de termenii succesivi ai 3 dezvoltrii: ( p + q ) = p 3 + 3 p 2 q + 3 pq 2 + q 3 , aa cum reiese i din tabelul 8.7. Pentru p=1/3 i q=2/3, se obin pentru aceti termeni valorile 1/27, 6/27, 12/27, 8/27, care sunt reprezentate n Figura 8.13. n general, se arat c dac se realizeaz n trageri succesive (sau, ceea ce este acelai lucru, dac plecm de la o urn binar cu aceeai structur, adic aceeai proporie de bile albe i negre, dar coninnd un numr mare de bile, i extragem de fiecare dat un eantion de n bile) se obin (n+1) combinaii de bile albe i negre, coninnd respectiv 0, 1, 2, 3, , n bile negre. Probabilitatea acestor

combinaii diferite este dat respectiv de termenii succesivi din dezvoltarea (p+q)n , p i q fiind probabilitile elementare de a extrage o bil alb i respectiv de a extrage o bil neagr.

Comb. dublei extrageri AA (p2) AN(NA) (pq)

A 3-a extragere A(p) N(q) A(p)

Comb. celei de a 3-a extrageri AAA AAN ANA (NAA)

Probabilit. coresp.

Probabilit. finale p3

p2 p p2 q 2pqp=2p2q

Nr. bile negre 0 1

NN (q2)

N(q) A(p)

ANN (NAN) NNA

2pqq=2pq2 q2 p

N(q)

q3 q2 q Tabelul 8.7: Probabilitile triplei extrageri NNN

2 3p q 2 3p q

0.5 Probabilitatea P 0.4 0.3 0.2 0.1 0

Figura 8.13. Probabilitile triplei extrageri

1 2 3 Numarul de bile negre

Lund ca variabil aleatoare numrul r de bile negre coninute n eantionul de n bile, r poate lua toate valorile discrete (ntregi) de la 0 la n; se obine o distribuie unde probabilitile diferitelor valori ale variabilelor aleatoare sunt date de termenii succesivi din dezvoltarea binomului (p+q)n, de unde numele binomial, dat acestei distribuii particulare a probabilitilor.

Expresia termenului de rang r Dezvoltarea (p+q)n comport n+1 termeni calculai de la 0 la n, de la stnga la dreapta. Termenul de rang 0 (cel mai din stnga) va fi ntotdeauna pn , iar termenul de rang n (cel mai din dreapta) va fi qn. r ( n r ) r q . innd cont de Termenul de rang r (r variind de la 0 la n) este dat de expresia C n p p
r formula de calcul al combinrilor, C n =

n! , expresia general a termenului de rang r din r!( n r )!

descompunerea (p+q)n , notat cu Pr, va fi:

Pr =

n! p ( n r ) q r . r!( n r )!

Semnificaia distribuiei binomiale Rezult din consideraiile precedente c ntr-o distribuie binomial, termenul de rang r, adic acela care corespunde unui eantion de r bile negre, are o probabilitate dat de valoarea termenului de rang r n dezvoltarea (p+q)n , adic de Pr. Pr indic deci probabilitatea de a exista o tragere, plecnd de la o urn binar i un eantion comportnd r bile negre din cele n bile ale eantionului. Se definete evenimentul favorabil (succes), ca fiind extragerea unei bile negre; prin urmare, extragerea unei bile albe este un eec non-realizare a evenimentului favorabil. Putem spune c Pr reprezint probabilitatea de a avea r succese din n experiene succesive. Termenii respectivi ai distribuiei binomiale, vor reprezenta deci n ordine probabilitile de a avea 0, 1, 2, 3, , r, succese din n experiene repetate (Figura 8.14).
0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 1 2 3 4 5 . . . . . r . . n

Figura 8.14. Distribuie binomial

Numar de succese

Distribuia binomial simetric S presupunem c p=q. Expresia general a termenului de rang r, fcnd abstracie de coeficientul corespunztor combinrilor, devine: p n r p r = p n . Toi termenii dezvoltrii sunt atunci de forma p n, iar ei difer unul de altul numai prin valoarea coeficientului corespunztor combinrilor, C. Din expresia coeficientului C rezult de asemeni c 2 termeni situai la egal distan de extremiti sunt identici. ntr-adevr, dac un termen are rangul r, simetricul su va avea rangul (n r). Coeficientul r termenului de rang (n r) va fi obinut nlocuind r cu (n r) n expresia C n , deci termenii sunt identici. Rezult aadar c, dac p=q, termenii situai la egal distan de extremitile binomului sunt egali ntre ei; distribuia binomial obinut se numete simetric (Figura 8.15).
1.2 1 0.8

P 0.6
0.4 0.2 0 1 3 5 7 9 11 13 15 17 19 21

Figura 8.15. Distribuie binomial simetric

Distribuia binomial asimetric Dac pq, distribuia binomial este numit asimetric, iar aspectul ei va fi diferit dup cum p < q sau q < p (distribuia fiind deplasat oblic stnga sau dreapta, Figurile 8.16, 8.17).
1.2 1 0.8

P 0.6
0.4 0.2 0

Figura 8.16. Distribuie binomial asimetric deplasat dreapta (p < q)

n aceast situaie, p q, iar asimetria distribuiei tinde s se estompeze dac n crete; pentru valori suficient de mari ale lui n, distribuia poate fi considerat practic simetric, chiar dac p q (Figura 8.18).

1.2 1 0.8

P 0.6
0.4 0.2 0

Figura 8.17. Distribuie binomial asimetric deplasat stnga (q < p)

r
0.5

n = 10
n = 20 n = 50 n = 100

0.4

0.3

P
0.2

Figura 8.18. Distribuia binomial asimetric (p = 0.9, q = 0.1) pentru diferite valori ale lui n

0.1

Rangul termenului cel mai probabil Diagramele arat c, indiferent de forma simetric sau asimetric a distribuiei, diferiii termeni ai acesteia vor crete pn la o valoare maxim, pentru a descrete apoi. Exist deci totdeauna un termen al crui probabilitate este cea mai mare.

Este interesant de cercetat rangul termenului care corespunde probabilitii maxime. Aceasta revine la a determina componena cea mai probabil a eantionului de n bile extrase plecnd de la o urn binar de componen dat. Fie o urn coninnd, de exemplu, 100 bile, dintre care 30 albe i 70 negre. Extragen din mai multe extrageri un eantion de 10 bile. tim c exist 10 + 1 = 11 combinaii posibile ale acestor bile bile albe i negre, comportnd respectiv 0, 1, 2, 10 bile negre. Nu are importan ce combinaie din cele 11 posibile a ieit. Intuitiv, tim c avem anse mai mari de a extrage un eantion coninnd 3 bile albe i 7 bile negre, deci avnd aceeai proporie (pstrnd compoziia) cu urna nsi. Se arat efectiv c este de asemeni bine s tim n particular c n este suficient de mare i c p i q nu trebuie s fie prea apropiate de 0 sau de 1. n aceste condiii devine facil s calculm rangul termenului corespunztor probabilitii maxime: va fi rangul r corespunztor numrului de bile negre coninut n combinaia respectiv. Dac q este proporia de bile negre, numrul r de bile negre n eantionul de n bile va fi:

q=

r sau r = q n . n

n aceste condiii precizate (n mare, p i q nu prea apropiate de 0 sau 1), rangul termenului cel mai probabil este dat de expresia: r = n q , care corespunde unui eantion avnd aceeai compoziie ca urna binar din care s-a fcut extragerea. Media distribuiei binomiale Se arat c termenul cel mai probabil, binomiale, care va fi prin urmare

r = n q , reprezint n acelai timp i media distribuiei


m = nq

i, atta timp ct condiiile precizate sunt realizate, aceast medie corespunde termenului de rang cel mai probabil. Aceasta vrea s spun c ntr-o serie de n experiene, a cror probabilitate constnd din succese este q, numrul de succese la care trebuie s ne ateptm este n q . Variana; abaterea tip Dac media este n q , abaterea de la medie pentru o valoare oarecare xi va fi (xi nq). fi:

Variana va

2 =

Se arat c aceast expresie este egal cu n q p . Variana unei distribuii binomiale este deci dat de formula: 2 = n pq. Prin urmare, deviaia standard a distribuiei binomiale va deveni:
= n p q

1 2 ( xi n q ) . n i =1

Exemplu de distribuie binomial Repartiia sexelor la natere ofer un exemplu clasic de distribuie binomial. Se poate considera ntradevr c exist pentru fiecare natere o probabilitate constant egal cu 1/2 de a avea o fiic, egal cu cea de a avea un biat. Determinarea sexului poate fi simulat printr-un experiment de extragere dintr-o urn binar coninnd un numr egal de bile albe i negre. Prin urmare, probabilitatea de a extrage o bil alb este egal cu 1/2, fiind identic cu probabilitatea de a extrage o bil neagr. n realitate, probabilitatea de a se nate un biat este puin superioar celei de a se nate o fat, prin urmare urna binar reprezentativ ar trebui s conin 105 bile corespunztoare numrului de biei (negre) i 100 bile corespunztoare numrului de fete (albe). Pentru 6 nateri, de exemplu, avem 6+1=7 combinaii posibile, corespunztoare unui numr de 0, 1, 2, 3, 4, 5, 6 nou-nscui biei; probabilitile vor fi date de termenii corespunztori dezvoltrii (p+q) 6, unde p=1/2 i q=1/2. Prin urmare, probabilitile vor fi (Figura 8.19): p6=1/64=0.016=1.6% pentru situaia 0 biei, 6 fete; 6p6=6/64=0.094=9.4% pentru situaia 1 biat, 5 fete; 15p6=15/64=0.234=23.4% pentru situaia 2 biei, 4 fete;


0.35

20p6=20/64=0.312=31.2% pentru situaia 3 biei, 3 fete; 15p6=15/64=0.234=23.4% pentru situaia 4 biei, 2 fete; 6p6=6/64=0.094=9.4% pentru situaia 5 biei, 1 fat; p6=1/64=0.016=1.6% pentru situaia 6 biei, 0 fete.
0. 31 2 0. 23 4 0. 23 4

0.3 0.25 0.2

0. 09 4

0.1 0.05 0 0

0. 09 4

P 0.15
0. 01 6

Numarul de baieti

Media distribuiei este m = nq = 6 1/2 = 3 i corespunde eventualitii de a se nate 3 biei i 3 fete (eventualitatea cea mai probabil Figura 8.20).
700

Numar de familii

600 500 400 300 200 100 0 0 1 2 3 4 5 6

0. 01 6

Figura 8.19. Diagrama corespunztoare distribuiei binomiale pentru diferite valori ale lui n

Figura 8.20. Exemplu de distribuie binomial pentru diferite valori ale lui n

Numar de baieti

Vom vedea n cele ce urmeaz cum poate fi exploatat distribuia binomial pentru unele probleme statistice, n particular pentru comparaia procentual a dou evenimente care se exclud mutual. Una dintre utilitile eseniale ale distribuiei binomiale este aceea c ea st la baza unor alte distribuii teoretice, i n particular a distribuiei normale. Distribuia procentual Dac se consider n locul numrului r, proporia r/n (numit procentual) de bile negre coninute n eantion, distribuia acestor valori pentru diferite combinaii posibile ale eantionului este de asemeni o distribuie binomial, dar n care avem procentaje 0/n, 1/n, , r/n care iau valori ntre 0 i 100 (Figura 8.21). Media mq a acestei distribuii procentuale se obine din media distribuiei binomiale corespunztoare prin divizare la n:

mq =

m nq = =q n n

Media distribuiei procentuale este deci mq = q. Semnificaia acestui fapt este aceea c proporia cea mai probabil este n mod precis, cea care corespunde urnei binare.

Figura 8.21. Distribuia procentual

0/n 1/n 2/n 3/n

...
q

r/n

...

n/n

8.7.2. Distribuia normal Definiie: Distribuia normal este o distribuie binomial simetric n care p = q =1/2. S studien ceea ce se ntmpl cnd n +. n aceste condiii, distribuia valorilor fiind de la 0 la + , numrul termenilor distribuiei, adic numrul dreptunghiurilor diagramei devine infinit. Baza fiecrui dreptunghi se micoreaz prin urmare foarte mult, iar la limit, marginea superioar a diagramei se transform ntr-o linie continu curb, care este curba de densitate de probabilitate corespunztoare (Figura 8.22). Curba astfel obinut este perfect definit pe plan matematic curba Gauss-Laplace, care permite caracterizarea unei forme de distribuie teoretic de importan fundamental: distribuia normal (gaussian). Aceast distribuie corespunde unei distribuii binomiale simetrice, reprezentat la limit; prin urmare este n mod forat simetric, ca o distribuie binomial de origine, mprejurul mediei sale (termenul cu probabilitatea cea mai mare). Pe de alt parte, termenii extremi, situai la egal distan de axa de simetrie a distribuiei, sunt de forma pn, unde p este o fracie a unitii deci devine rapid foarte mic, pe msur ce n crete. Curba se va nla astfel rapid i de o manier simetric de o parte i de alta a mediei pe axa absciselor, ceea ce i confer un aspect n clopot foarte caracteristic.

Pr

Figura 8.22. Curba GaussLaplace i distribuia normal

Importana legii normale: - s poat servi modelele matematice pentru reprezentarea unui mare numr de distribuii experimentale; - s poat fi exploatat, pentru a rezolva un mare numr de probleme de interpretare statistic. Ecuaia curbei Gauss n condiiile de mai sus, n i p, q sunt egale (nefiind apropiate de 0 sau 1). se arat, folosind formula lui Stirling (pentru n suficient de mare, putem aproxima n! n n e n 2 n ) c expresia

Pr =

n! p n r q r , care d valoarea termenului de rang r n distribuia binomial, tinde ctre r!( n r )!


Pr = 1 2 n p q e

expresia:
( r n q ) 2
2n pq

(1)

Cum, n plus, ntr-o distribuie binomial media este m=nq, iar variana este 2 = n p q , expresia precedent poate fi scris sub forma:

1 Pr = e 2

( r m) 2 2

(2)

La limit, dreptunghiul de rang r, a crui nlime este dat de probabilitatea acestui termen, Pr, se reduce la o ordonat liniar y a crei abscis x este chiar r (Figura 8.23). Valoarea lui y se obine nlocuind r cu x n expresia lui Pr; prin urmare se obine:

y=

( xm ) 2 2 2

(3)

ecuaie cunoscut sub numele de ecuaia curbei Gauss.


1.2 0.8 0.6 0.4 0.2 0 r(x)

Pr y
1 Pr(y)

Figura 8.23. Dreptunghiul de rang r n curba GaussLaplace

Curba Centrat Expresia (3) corespunde unei curbe n care originea coordonatelor este plasat, ca pentru distribuia binomial, la una dintre extremitile distribuiei (Figura 8.24).
1.2 1 0.8 0.6 0.4 0.2 0 m x y

y
Figura 8.24. Curba Gauss, cu originea plasat la una dintre extremiti

Exist ns interesul de a exprima ecuaia curbei n raport cu axa de simetrie a acesteia, care este de fapt abscisa mediei m. Aceasta revine la a lua noi valori pentru abscisele punctelor de pe curb, i anume abaterile de la medie ale acestora, X=xm Ecuaia curbei devine atunci:

y=

x2 2 2

(4), unde X = abaterea de la medie.

Obinem astfel ecuaia curbei Gauss raportat la axa sa de simetrie, numit ecuaia curbei centrate, care are pentru medie valoarea 0 (Figura 8.25).

y
y

Figura 8.25. Curba centrat


x=x-m

0 x

Abaterea redus

Exist interesul de a opera transformri i asupra abaterii . ntr-adevr, abaterea de la medie X i abaterea tip fiind exprimate n aceeai ecuaie dimensional, raportul

t=

este un numr independent de unitatea de msur, ceea ce permite s comparm ntre ele curbe diferite. Expresia lui y devine atunci

X x m = = abatere redus,

y=
unde t =

X x m = .

t2 2

(5)

Curba redus Pentru a da o portabilitate mai general a ecuaiei curbei Gauss, i a obine un aspect unic al curbei reprezentative, se ia ca unitate de msur a abaterilor, ceea ce revine la a face = 1 n ecuaia (5). Se obine atunci:

y=

1 2

t2 2

(6)

relaie cunoscut sub numele de ecuaia redus a curbei (Figura 8.26). Se observ c factorul (pe care am studiat-o).
x2 1 aproximeaz de fapt ecuaia y = e 2 , a unei curbe n clopot clasice 2

1.2 1 0.8 Y 0.6 0.4 0.2 0 X

y=f(x)

Figura 8.26. Curba redus

Morfologia curbei Gauss Datele anterioare ne vor permite s precizm morfologia curbei Gauss, a crei form n clopot este deja cunoscut. 2 Din ecuaia curbei, e x / 2 , se deduce c aceasta prezint dou puncte de inflexiune simetrice, pentru x = 1 i x = 1. Curba redus va prezenta prin urmare de asemeni dou puncte de inflexiune simetrice, pentru t = 1 i t = 1, care corespund lui X = , respectiv X = pe curba centrat (dar neredus) i lui x = m pe curba necentrat (Figura 8.27).
1.2 1 0.8 0.6 0.4 0.2 0

y=f(x)

Figura 8.27. Punctele de inflexiune pe cele trei curbe


-1 m 0 0 m +1 + m+

t
X

n toate cazurile curba descrete de o parte i de alta a maximului, la nceput mai ncet, apoi mai rapid, pn la punctul de inflexiune, i apoi iari mai ncet de la acest punct n jos, pn devine asimptotic la axa absciselor. Este clar c forma curbei va fi determinat de valorile lui : cu ct este mai mic, cu att punctele de inflexiune sunt mai apropiate de axa ordonatelor, iar curba va fi mai strns n jurul valorii medii, i invers. De altfel, ordonata n origine (unde avem valoarea medie) se obine fcnd x = m n ecuaia (3), X = 0 n ecuaia (4) sau t = 0 n ecuaia (5). Termenul n e devine e0 = 1, i prin urmare obinem:

y=

Aceast valoare este invers proporional cu ; deci, cu ct este mai mic, cu att curba este mai strmt i mai nalt, i cu ct este mai mare, cu att curba este mai joas i mai ntins (Figura 8.28).

1 . 2

=0.25

=0.5 =1

Figura 8.28. Morfologia curbei Gauss funcie de diferite valori ale lui

-1

-0.6

-0.2

0.2

0.6

Se poate vedea importana covritoare a lui , care d morfologia curbei Gauss; asociat cu media, care d poziia axei de simetrie a curbei, aceast mrime este suficient pentru a caracteriza curba Gauss. Prin urmare, curba Gauss nu depinde dect de doi parametri: media i . Acesta este unul dintre motivele care justific interesul acordat studiului acestor doi parametri n statistic. Semnificaia probabilistic a curbei Gauss Cnd se tinde la infinit, fiecare dreptunghi al diagramei distribuiei binomiale se reduce la o ordonat liniar y a curbei Gauss, care msoar densitatea de probabilitate a valorii x corespunztoare. Curba Gauss are deci semnificaia unei funcii de densitate de probabilitate, i ea indic pentru fiecare valoare a variabilei aleatoare x, probabilitatea y care i corespunde (Figura 8.23). n timp ce n distribuia binomial variabila aleatoare nu poate lua dect un anumit numr de valori discrete (i ntregi), n cazul distribuiei normale variabila aleatoare este continu i poate lua toate valorile ntre 0 i + (Figura 8.24). Cnd se trece la curba centrat, se nlocuiete variabila x cu abaterea de la medie X = x m, care poate fi pozitiv sau negativ. Noua variabil aleatoare X acoper deci tot domeniul de valori ntre i 0 pe de o parte, i 0 i + pe de alt parte (Figura 8.29). Curba indic atunci probabilitatea de a ntlni o anumit abatere de la medie a unei valori date. Se vede c media, a crei abatere este nul, este valoarea a crei probabilitate este cea mai mare. Mai mult, dac este advrat c valoarea poate fi observat, toate valorile nu sunt egal probabile. Din forma n clopot a curbei rezult c probabilitatea de a observa o valoare dat este cu att mai mic, cu ct ea se abate mai mult de la medie, de o parte i de alta a acesteia. Probabilitatea se diminueaz foarte clar atunci cnd abaterea depete 1 , dup cum indic aria marcat a curbei de la punctele sale de inflexiune (Figura 8.27). Aceast noiune foarte important, care arat caracterul reprezentativ al mediei n distribuia normal, este una din noiunile de baz, util n exploatarea statistic a curbei Gauss.
1.5 1 0.5 0

P
y

Figura 8.29. Domeniul de valori pentru x i X

m 0

X=x-m

Probabilitile cumulate ale distribuiei normale Cnd n , distribuia binomial tinde ctre curba Gauss, iar diagrama probabilitilor cumulate care i corespunde tinde ctre funcia de repartiie corespunztoare, adic integrala curbei Gauss, care este, curba integral n S studiat anterior, multiplicat prin factorul

1 (Figura 8.30). 2

Figura 8.30. Diagrama cumulat a distribuiei normale Probabilitatea cumulat a distribuiei gaussiene va fi deci obinut din integrala corespunztoare curbei Gauss. Astfel, probabilitatea cumulat a tuturor valorilor cuprinse ntre i o valoare particular x1 , adic probabilitatea tuturor valorilor inferioare lui x1, care corespund suprafeei cuprinse sub curba Gauss, din extremitatea stng i pn la ordonata corespunztoare lui x1 va fi dat de integrala curbei Gauss, cuprins ntre i x1 :
x1

1 2

e x

/2

dx

Aceasta msoar ordonata Y1 = F(x1), corespunztoare curbei integrale (Figura 8.31).


Y

Y=F(x)

Y1

x1

x1

Figura 8.31. Probabilitatea cumulat a valorilor ntre i x1 Aceeai probabilitate cumulat a tuturor valorilor lui x cuprinse ntre dou valori particulare x1 i x2, care corespunde suprafeei de sub curba Gauss, cuprins ntre ordonatele corespunztoare celor 2 valori x1 i x2 va fi dat de integrala curbei Gauss, cuprins ntre limitele x1 i x2 i calculat cu formula:
x2

x1

1 2

x2 2

dx ,

care msoar diferena Y2-Y1 ntre ordonatele corespunztoare curbei integrale (Figura 8.32).
y

Y=F(x)
y=f(x)

Y1
Y

Y2
x x1 x2

x2

x1

Figura 8.32. Probabilitatea cumulat a valorilor ntre x1 i x2

Cnd se calculeaz probabilitatea cumulat a tuturor valorilor distribuiei, care este prin definiie egal cu 1, aceasta va corespunde ntregii suprafee de sub curba lui Gauss, fiind integrala curbei Gauss, cuprins ntre i +, i calculndu-se cu formula:
+

1 2

x 2 2

dx

(Figura 8.33).
y=f(x)

YT

Figura 8.33. Probabilitatea cumulat a valorilor ntre i + Tabelele curbei normale n practic, nu este necesar s calculm de fiecare dat aceste integrale. Plecnd de la caracterizarea numeric a curbei Gauss, s-au stabilit tabelele curbei normale (n anex), care ne permit s rezolvm cu uurin aceste probleme. Tabelele sunt completate pentru curba redus, care are ca abscis

t=

x m

1. Valoarea ordonatei y1 a curbei reduse care i corespunde (Figura 8.34).


Y

i ca ordonat y = Y . Aceste tabele indic pentru fiecare valoare t1 a lui t:

(t1)
Figura 8.34. Ordonata y1 i suprafaa (t1) pe curba redus
Y1

t1

+
e
t2 2

2. Valoarea suprafeei (t1 ) =

t1

1 2

dt , cuprins ntre ordonata de origine i ordonata lui

t1 , sub curba redus (Figura 8.34), i care msoar probabilitatea cumulat a tuturor valorilor cuprinse ntre 0 i t1.

(t1 ) cuprins sub curba redus, ntre ordonatele punctelor t1 i +t1 (Figura 8.35), 3. Suprafaa 2 care msoar probabilitatea cumulat a tuturor valorilor cuprinse ntre t1 i +t1. n aceste condiii, suprafaa [1 2(t1 )] va msura probabilitile cumulate ale tuturor valorilor exterioare acestui interval.

dt (Figura 8.36) cuprins sub curba redus ntre i t1 i 2 complementul su fa de 1, [1 (t1 )] , care msoar probabilitatea cumulat a valorilor inferioare
4. Suprafaa
2

(t1 ) =

t1

2 t

i respectiv, a valorilor superioare lui t1.

2 (t1)

2(t1 ) pe curba redus

Figura 8.35. Suprafaa

- t1

t1

(t 1) (t1)

1( t1 )

(t1 ) i [1 (t1 )] pe
curba redus

Figura 8.36. Suprafeele

t1

Exemplu:

Pentru t1 = 1/2 se gsete n tabel: y1 = 0.3521 (t1) = 0.1915

2(t1) = 0.3830 1 2(t1) = 0.6170 (t1) = 0.6915 1 (t1) = 0.3085 Se poare calcula astfel, plecnd de la aceste date, probabilitatea tuturor valorilor cuprinse ntre dou valori t1 i t2 , care este egal cu (t 2 ) (t1 ) , sau cu (t 2 ) (t1 ) dac t1 i t2 sunt de acelai semn (Figura 8.37), i cu (t1 ) (t 2 ) dac t1 i t2 sunt de semne contrare (Figura 8.38). Exemplu: Pentru t1 = 1/2 i t2 = 7/10 se obine: (t1) = 0.1915; (t2) = 0.2580 (t2) (t1) = 0.0665 Acest tabel permite s se obin pentru toate valorile lui x ale unei distribuii normale probabilitile corespunztoare.
y

(t 2 ) (t1 ) pe curba
redus

Figura 8.37. Suprafaa

t1

t2

Figura 8.38. Suprafaa (t1 ) (t 2 ) pe curba redus

t2

t1

Observaie: Tabelele sunt calculate pentru curba redus; prin urmare, trebuie calculat mai nti t, plecnd de la valorile considerate x, folosind formula t =

x m

. n tabel este de asemeni precizat ordonata

redus y; pentru a reveni la ordonata neredus, notat Y, folosim relaia Y =

Pentru valoarea x = 6 a unei distribuii normale de medie m = 5 i = 2 se obine c:

t=

Pentru t = 1/2 se gsete n tabel y = 0.3521 Y =

x m 6 5 1 = = . 2 2 y

Prin urmare, probabilitatea valorii x este deci 0.1760, sau 17.6%. Determinarea probabilitilor este considerabil mai uoar dect n cazul distribuiei binomiale, unde este necesar s se calculeze separat diferiii termeni ai distribuiei. Distribuia normal oferind valori continue, are o portabilitate mai general dect distribuia binomial, pe care am studiat-o i care nu ofer dect valori discrete. Suprafeele importante ale curbei Gauss Datele anterioare ne permit s nelegem valoarea abaterii t corespunztoare valorii determinate de aria 2(t), deci aria de sub curba neredus. Aceste valori ale ariei 2(t) sunt cele care corespund valorilor abaterii n raport cu . Se arat n Figura 8.39 c: 1. Aria 2(t) care corespunde unei abateri t = 1, adic x = 1, deci aria cuprins sub curba neredus ntre abscisele x = (m) i x = (m+), reprezint 68.3% (mai exact 63.28% - din tablul curbei Gauss) din suprafaa total de sub curb. 2. Aria 2(t) care corespunde abaterii t = 2, adic x = 2, deci aria cuprins sub curba neredus ntre abscisele x = (m2) i x = (m+2), reprezint 95.5% din suprafaa total de sub curb. 3. Aria 2(t) care corespunde abaterii t = 2.6, adic x = 2.6, deci aria cuprins sub curba neredus ntre abscisele x = (m2.6) i x = (m+2.6), reprezint 99% din suprafaa total de sub curb.

0.3521 = 0.1760 . 2

99% 95.50% 68.30%

-2.6 m-2.6 -2 -1 m -2 m-1

X 0 m 1 2 2.6

+
m-1 m-2 m-2.6 x

Figura 8.39. Suprafeele importante ale curbei Gauss

Suprafaa total nglobat sub curba Gauss corespunde probabilitii cumulate a tuturor valorilor, adic 100% din cazurile distribuiei. Suprafaa 2(t) menionat mai sus corespunde deci probabilitilot cumulate de 68.3%, 95.5%, 99% ale cazurilor distribuiei. Dac se consider probabilitile valorilor lui x exterioare intervalelor de mai sus, se poate deduce: 1. Intervalul exterior lui [m, m+], care va ngloba 10068.3 = 31.7% din cazurile distribuiei (Figura 8.40);

Figura 8.40. Intervalul exterior lui [m, m+] pe curba redus

2.

Intervalul exterior lui [m2, m+2], care va ngloba 10095.5% = 4.5% din cazurile distribuiei (Figura 8.41);

Figura 8.41. Intervalul exterior lui [m2, m+2] pe curba redus

+2

3.

Intervalul exterior lui [m2.6, m+2.6], care va ngloba 10099% = 1% din cazurile distribuiei (Figura 8.42);

Figura 8.42. Intervalul exterior lui [m2.6, m+2.6] pe curba redus

2.6

+2.6

Prin urmare, ntr-o distribuie normal exist numai: 31.7 anse din 100 de a observa o abatere a mediei superioar lui ; 4.5 anse din 100 de a observa o abatere a mediei superioar lui 2 ; 1 ans din 100 de a observa o abatere a mediei superioar lui 2.6 . Ariile curbei Gauss permit s determinm probabilitatea de a observa ntr-o distribuie gaussian o abatere redus superioar unei valori date. Aceast proprietate fundamental este exploatat pentru a reyolva un mare numr de probleme de interpretare statistic. -

8.7.3. Distribuia Poisson Este o distribuie teoretic care poate fi dedus din distribuia binomial: ea corespunde unei distribuii binomiale n care una dintre eventualiti are o probabilitate foarte mic. Exemplu introductiv: Presupunem c avem o urn binar coninnd 999 bile albe i 1 bil neagr. Se tie c bila neagr unic are o foarte mic ans s fie extras, adic 1/1000=0.1%. Probabilitatea acestui eveniment este deci foarte mic, dar totui nenul. Dac efectum 1000 de extrageri, de exemplu, putem spera c vom extrage o dat bila neagr. De fapt, n aceste 1000 extrageri bila neagr are mai multe anse de a iei; nu este exclus s ias de 2, 3 sau chiar de mai multe ori. Distribuia Poisson reprezint limita unei distribuii binomiale n care termenii q (de exemplu) devin foarte mici (practic <0.03%), ceea ce d o distribuie foarte asimetric, atunci cnd n crete la infinit. n aceste condiii se arat c expresia:

Pr =

n! p ( n r ) q r , r!( n r )!

care d probabilitatea termenului de rang r, tinde ctre expresia:

Pr =
Media distribuiei Poisson este

m = n q . Prin urmare, expresia (1) devine:


Pr = m r m e r! (2) .

( n q ) r n q e r!

(1) .

Dac inem cont de faptul c:

m m2 mr + ... + + ... 1! 2! r! Pr = e m e m = 1 em =1 +
r

Deci, suma probabilitilor este egal cu 1.

Proprietile caracteristice distribuiei Poisson Expresia matematic a distribuiei Poisson arat c diferiii termeni ai acestei distribuii nu depind dect de parametrul m: - termenul de rang 0 este ntotdeauna e-m; - dac m < 1, e-m este cel mai mare termen al seriei; distribuia descrete atunci constant de la acest termen de rang 0 i tinde spre 0, avnd un aspect de J ntors; - pentru m = 1, termenul de rang 0, e m = e 1 0.37 ; termenul de rang 1 este m e m ; cei doi termeni reprezint valoarea maximal a distribuiei; - pentru m > 1, exist dou valori maximale, numite modale, corespunztoare lui r = m i r = m 1. termenii succesivi ai distribuiei vor crete pn la dublul maxim, i apoi vor descrete ctre 0 cnd r crete. Distribuia are un aspect n clopot asimetric cu ntindere (etalare, coad) spre dreapta; acest aspect asimetric se atenueaz rapid cnd m crete. Se arat c variana (dispersia) distribuiei Poisson este egal cu m:

2 = n p q , p = 1 q , n q (1 q ) = m (1 q )

Cnd q 0, ultima expresie din ecuaiile anterioare tinde spre m. Prin urmare, 2 = m
abaterea standard, = m Distribuia Poisson este deci n ntregime determinat de singurul parametru m:

media m ;

dispersia 2 = m ; abaterea =
0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0

m.

m = 0.1

m=1 m=3 m=5

Figura 8.43. Reprezentarea grafic a legii Poisson pentru diferite valori ale lui m

10

Aplicaii ale distribuiei Poisson: Distribuia Poisson, numit legea probabilitilor mici, se poate aplica n cazul n care evenimentele au probabiliti mici: accidente mortale, accidente de avion, maladii excepionale, sinucideri, etc.

0,3 0,25 0,2 0,15 0,1 0,05 0 0 5 10 15 20 25 m=2 m=4 m=8 m=15

Figura 8.44. Distribuii Poisson pentru diferite valori ale lui m

Diferite aspecte ale legii Poisson Aceast distribuie are o portabilitate mai general. Expresia sa matematic arat nrudirea sa cu funcia exponenial. Se constat c, atunci cnd evenimentele se succed n timp variabil (la ntmplare, datorate hazardului) repartiiile lor n trane (intervale) de timp egale se fac urmnd o distribuie Poisson. Exemple: - Numrul de atomi care se dezintegreaz ntr-un interval de timp determinat; - Controlul industrial al fabricaiei cnd procentajul obiectelor defecte este mic. Interpretare statistic Ceea ce intereseaz pe observator nu este eantionul pe care l studiaz, ci populaia original din care a fost extras eantionul i inducerea n populaia original a rezultatelor obinute pe eantion. Totdeauna, metodele statistice permit s determinm limitele ntre care se pot estima, cu un grad de credibilitate dat, valorile parametrului vis--vis de populaia de origine, adic ceea ce se numete determinarea intervalului de ncredere al parametrului. Pentru aceasta vom introduce alte cteva noiuni, prezentate n cele ce urmeaz.

Distribuia mediilor
Fie o populaie statistic N (N foarte mare), pe care o considerm ca avnd o distribuie normal. Vom extrage un eantion de efectiv n. Fie m1, m2, m3 mediile gsite pentru diverse eantioane. Se studiaz fluctuaia statistic a mediilor eantioanelor extrase ntre ele, i egal repartizate fa de media M a

populaiei de origine. Se constat c mediile sunt mai puin dispersate fa de M, media global a populaiei, dect valorile individuale din populaie . Distribuia nou-obinut n acest mod se numete distribuia mediilor. Abaterea tip a acestei distribuii de medii se numete abaterea standard a mediei, i se noteaz Sm.
(a) Distributia mediilor esantioanelor de cate n observatii Sm (b) Distributia a N valori individuale

M
Distribuia mediilor n jurul mediei globale a populaiei, n comparaie cu distribuia valorilor individuale

Distribuia mediilor fiind mai puin dispersat, abaterea tip Sm este totdeauna mai mic dect abaterea tip S a populaiei de origine; ntre cele dou mrimi exist relaia:
Sm = S n

Mulimea mediilor care se pot gsi pentru diverse eantioane avnd acelai numr de observaii, extrase la ntmplare dintr-o populaie de medie M i abatere standard S, formeaz aadar o distribuie gaussian de valoare medie M, i avnd abaterea tip Sm.

Intervalul de ncredere al mediei Intervalul corespunztor distribuiei mediilor, (M 2Sm, M + 2Sm), cuprinznd 95.5% din valorile pe care le poate lua media m a eantionului din mulimea fluctuaiilor ntmpltoare, se numete interval de confiden al mediei cu un coeficient de securitate de 95.5%

2 Sm

+2 Sm

Intervalul de confiden al mediei cu un coeficient de securitate de 95.5%

Analog se definete intervalul de confiden al mediei cu un coeficient de securitate de 99%ca fiind intervalul (M 2.6Sm, M + 2.6Sm) ne spune c avem 99 anse din 100 ca media unui eantion ales s cad n acel interval.

2 .6 S m

+2 .6 S m

Intervalul de confiden al mediei cu un coeficient de securitate de 99%

Determinarea intervalului de confiden al mediei Dorim s studiem la un eantion intervalul de ncredere al mediei observate, m0. Nu cunoatem nici media M, nici Sm , dar presupunem c tim abaterea tip S a populaiei de origine. Cteodat, experiena ne arat c n practic, orict de mic ar fi eantionul, dar suficient de important, distribuiile de eantionaj sunt distribuii sensibil normale. n aceste condiii, valoarea m0 gsit pentru m reprezint valoarea a crei probabilitate este cea mai mare. n consecin, este logic s considerm c cea mai bun estimare pe care o lum va fi media M, i s o substituim n intervalul de confiden. De altfel, abaterea a eantionului reprezint o estimare a abaterii tip S a populaiei de origine i se consider substituia lui S cu Sm rezultat din calcul. Abaterea a eantionului va fi o estimare puin mai mic dect S. Pentru a estima corect S trebuie s lum o valoare puin mai mare dect al eantionului. Calculul arat efectiv c cea mai bun estimare a

lui S, pe care o vom nota cu S, este puin mai mare dect , fiind definit de formula:
S = n n 1

Se poate deci utiliza aceast valoare pentru a calcula Sm , care va fi:


Sm = S n = 1 n n = n 1

n 1

Sm =

n 1

Plecnd de la valorile estimate ale lui M i Sm, se va putea exprima intervalul de confiden al mediei, care va fi n final: - m0 2Sm , cu un coeficient de securitate de 95%; - m0 2.6Sm , cu un coeficient de securitate de 99%. cu.
Sm =

n 1

Ex: 3 Se dozeaz corticoizii urinari ntr-un grup de 253 femei cu greutate normal. Se gsete media m = 4.50 mg/24h i abaterea tip =1.50. S se gseasc intervalul de ncredere. Avem:
Sm =

1.5 = = 0.1 n 1 252

Intervalul de ncredere al mediei este deci: m0 2Sm = 4.50 2 0.1 = 4.50 0.2 (4.30 , 4.70) cu un coeficient de securitate de 95%; m0 2.6Sm = 4.50 2.6 0.1 = 4.50 0.26 (4.24 , 4.76) cu un coeficient de securitate de 99%.

Teste statistice pentru analiza dispersiei i a mediei


Compararea a dou dispersii Notm raportul F1,2 al dispersiilor 12 i 22,
12 F1, 2 = 2 2

Acest raport, n care se convine s se pun la numrtor dispersia cea mai mare, traduce divergena ntre dou dispersii i va fi folosit pentru a testa semnificaia. Dac, ntr-adevr, eantioanele sunt extrase din aceeai populaie de origine, dispersiile 12 i 22 reprezint o estimare a dispersiei S2 a acestei populaii. Teoretic, ar trebui s fie verificat relaia: 12 = 22 , i prin urmare F1,2 = 1. Uneori fluctuaiile fortuite nu sunt rspunztoare de mrirea raportului dect pn la o valoare limit, valoare pe care o putem calcula, i care variaz evident cu mrimea eantionului. Atunci cnd raportul F depete aceast valoare limit, divergena este prea important pentru a fi atribuit numai fluctuaiei de eantionaj pe care hazardul o poate determina n interiorul unei populaii unice. Aceast ipotez trebuie deci eliminat i divergena trebuie considerat semnificativ. Sndcor a stabilit tabelele raportului F care ne permit s rezolvm problema din punct de vedere practic. Aceste tabele dau direct, pentru coeficienii de securitate obinuii, 95% i 99% i n funcie de mrimile eantioanelor n1 i n2 (mai precis, n funcie de numrul gradelor de libertate 1 = n1 1 i 2 = n2 1 ale fiecrui eantion) valorile limit ale lui F sub care se poate considera c dispersiile studiate difer semnificativ. Este suficient s formm raportul celor dou dispersii,
F1, 2 =

12 2 2

, i s

cercetm dac este superior valorii limit dat de tabel. Ex: 1 Dup administrarea unui somnifer ntr-un grup de 11 subieci, se observ un timp mediu de somn de 10.6 h, cu o abatere standard de 2.3 h. La un alt grup de 13 subieci, s-a observat o durat de somn de 8.1 h, cu o abatere de 1.9 h. Ne propunem s studiem dispersia n aceste dou grupe. Avem: 1 = 2.3 2 = 1.9 n1 = 11 n2 = 13 Formm raportul dispersiilor:
F1, 2 =

12 (2.3) 2 = = 1.46 2 2 (1.9) 2

Raportndu-l la tabelele Sndcor, pentru 1 = n1 1 = 10 i 2 = n2 1 = 12, se gsete valoarea limit pentru F, cu o probabilitate de 0.05 (adic 5 anse din 100 de a fi depit datorit fluctuaiilor fortuite), ca fiind F0.05 = 2.76. Valoarea gsit pentru F, egal cu 1.46, este net inferioar. Nu exist deci diferen semnificativ ntre cele dou dispersii observate.

Analiza dispersiei
Analiza dispersiei i propune s studieze n ce msur diferenele observate ntre valorile mediilor din fiecare grup traduc real o diferen a aciunii ntre diferitele clase testate, factor n funcie de care se deosebesc diferitele grupuri, i nu sunt legate doar de fluctuaiile de eantionaj. Se pune problema comparrii mediilor. Fr ndoial, pentru a rezolva aceast problem, ne propunem s comparm mediile din aceste grupuri, dou cte dou. Dar exist un procedeu care ne permite s testm omogenitatea mulimii grupurilor studiate, adic de a face compararea simultan a acestor medii diferite i de a ti dac se poate sau nu s le considerm ca aparinnd unei aceleiai populaii: este metoda numit analiza dispersiilor, datorat statisticianului englez R. A. Fisher, i care are astzi o importan deosebit, n particular pentru a exploata datele experimentale. Principiul general al acestor probleme de comparare este testul ipotezei nule, urmrind la toate eantioanele studiate aparinnd aceleiasi populaii, n ce caz dispersia mulimii este condiionat unic de fluctuaia de eantionaj. Se vor analiza fluctuaiile individuale care se produc n interiorul unui grup, i ntre dou grupuri. A. Dispersia intra-grup n interiorul fiecrui grup, fluctuaiile de eantionaj sunt reprezentate de abaterile (x m) ntre fiecare valoare individual x i media m a grupului. Rmne s considerm abaterile ptratice (x m)2 (pentru care nu intervine semnul).

Fcnd suma acestor abateri ptratice pentru cele n valori individuale ale grupului, fie
S 2 = ( x i m) 2
i =1 n

se obine un indice de fluctuaie care se produce n interiorul grupului. Se face apoi suma acestor ptrate pentru k grupe de
2 2 S12 = s12 + s2 + s3 + ... + sk2 n1 n2 nk

= ( xi1 m1 ) 2 + ( xi2 m2 ) 2 + ... + ( xik mk ) 2


i1 =1 k i2 =1 ik =1

= ( xi j m j ) 2
j =1 i j =1

nj

eantion, obinnd un indice notat cu S12, al dispersiei globale, introdus n mulime pentru dispersia care exist n interiorul fiecrui grup. Pentru a da acestei sume de ptrate semnificaia general a unei dispersii, trebuie s o raportm la numrul de grade de libertate, 1 = (n1 1) + (n2 1) + + (nk 1) = n1 + n2 + +nk k =Nk Se obine astfel dispersia numit n grup, care se noteaz cu VA i exprim dispersia introdus n ansamblul de dispersii existente n interiorul fiecrui grup:
VA =
j k 1 ( xi j m j ) 2 N k j =1 i j =1

Dispersia inter-grupe Dac se asimileaz toate valorile dintr-un grup la media m a grupului, se va anula efectul dispersiei n interiorul acestui grup, care va putea fi reprezentat prin media sa m. n aceste condiii, abaterea fiecrei valori a grupului tratat n raport cu media general a mulimii eantionului studiat este ( m M), iar abaterea ptratic este (m M)2.

Abaterea ptratic global a grupului, unificat pentru cele n valori, este Sq2 = n (m M)2 . Fcnd suma abaterilor ptratice ale celor k grupuri ale populaiei, se obine un alt indice, notat cu S22, i care reflect dispersia introdus n populaie de fiecare grup, considerat ca un tot:
S 22 = S q21 + S q22 + ... + S q2k = n1 (m1 M ) 2 + n 2 ( m2 M ) 2 + ... + nk (mk M ) 2 = ni ( mi M ) 2
i =1 k

Pentru a da acestei sume de ptrate semnificaia general a unei dispersii, trebuie s o raportm la numrul de grade de libertate, 2 = k 1. Se obine astfel dispersia inter-grup, notat cu VB, care exprim dispersii ale grupului la grup:
VB = 1 k n i ( mi M ) 2 k 1 i =1

Compararea dispersiilor Dispersia intra-grup i cea inter-grup sunt dou elemente care condiioneaz fluctuaia mulimii. Dac toate grupurile aparin unei aceleiai populaii de origine, cele dou dispersii nu vor putea s se abat una de la alta dect ntr-o anumit msur, permis de fluctuaia de eantionaj. De la aceast limit, posibil de calculat, va fi normal s considerm c abaterea ntre cele dou dispersii este prea important pentru a putea fi atribuit numai fluctuaiei fortuite. Problema rmne de a testa divergena ntre dou dispersii, ceea ce se face prin studiul raportului dispersiilor de comparat. Se va forma raportul VA/VB (sau VB/VA, dac VB>VA) i se compar acest raport cu valorile date n tabelele Sndcor pentru pragul de semnificaie cu un coeficient de securitate de 95% (sau 99%). Dac acest raport este superior pragului de semnificaie, se respinge ipoteza populaiei unice i se admite c diferenele constatate sunt semnificative.

Ex: Se dozeaz corticoizii urinari la 40 subieci de sex feminin, care au fost repartizai n funcie de greutate n 4 grupe, comportnd fiecare cte 10 subieci: I: 50 59 kg; II: 60 69 kg; III: 70 79 kg; IV : 80 89 kg. Tabelul d rezultatele obinute (n mg/24 h). I 3.3 2.5 3.0 3.4 3.7 3.5 5.2 5.2 4.0 4.0 xi = 37.8 m1 = 3.78 II 4.3 4.8 6.3 6.5 8.7 4.5 5.2 2.5 4.0 5.8 xi = 52.6 m2 = 5.26 III 6.4 7.6 6.6 4.5 8.0 6.3 6.8 5.7 4.6 3.2 xi = 59.7 m3 = 5.97 IV 3.3 5.4 5.7 6.5 11.5 7.5 9.3 8.0 6.0 4.7 xi = 67.9 m4 = 6.79

Se cere s determinm dac diferenele observate ntre medii sunt semnificative i deci factorul greutate n funcie de care s-au difereniat aceste grupe are o influen asupra mrimii corticoizilor urinari. Se pot compara mediile dou cte dou, aplicnd Testul t (Student) pentru eantioane mici, dar acest procedeu este lung (trebuiesc fcute 6 comparaii); n plus, se neglijeaz informaia coninut n ansamblul datelor, pentru c nu intervin de fiecare dat dect 10+10=20 dintre ele. Procedeul de analiz a dispersiei ne permite n schimb s testm ipoteza unic ntr-o singur operaie. 1) Calculm dispersia intra-grup, VA : Se calculeaz mai nti abaterea ptratic n fiecare grup. Se gsete:

s12 = ( x m1 ) 2 = 6.84

2 s2 = ( x m2 ) 2 = 22.26 2 s3 = ( x m3 ) 2 = 19.94

2 s4 = ( x m4 ) 2 = 20.83 2 2 2 S12 = s12 + s 2 + s3 + s4 = 69.87

VA =

2) 3)
M =
2 q1

Calculm dispersia inter-grup, VB : Mai nti calculm media general, M:

1 69.87 S12 = = 1.94 N k 40 4

x +x +x +x
1 2 3

37.8 + 52.6 + 59.7 + 67.9 = 5.45 40

Apoi determinm abaterile ptratice din grup:


s = n1 (m1 M ) 2 = 10 (3.78 5.45) 2 = 27.89
2 2 2 sq 2 = n 2 ( m 2 M ) = 10 (5.26 5.45) = 0.36 2 2 2 sq 3 = n3 ( m3 M ) = 10 (5.97 5.45) = 2.70 2 2 2 sq 4 = n 4 ( m 4 M ) = 10 (6.79 5.45) = 17.96 2 2 2 2 2 S2 = sq 1 + s q 2 + s q 3 + s q 4 = 48.91

VB =

1 48.91 2 S2 = = 16.30 k 1 4 1

4) Se formeaz raportul dispersiilor (inem cont c VB > VA)


F= V B 16.30 = = 8.4 VA 1.94

Tabelele Sndcor arat pentru 1 = B = k 1= 3 i 2 = A = N k = 40 4 =36, valoarea limit a lui F cu un prag de probabilitate de 0.05 ca fiind F0.05 = 2.9, i cu un prag de probabilitate de 0.01 ca fiind F0.01 = 4.6. Se observ c valoarea calculat a lui F este net superioar lui F0.05 i lui F0.01. O astfel de divergen are deci mai puin de o ans din 100 de a se produce ca urmare a fluctuaiilor fortuite ntr-o populaie unic. Deci, ipoteza de mai sus trebuie nlturat, i vom admite c grupurile aparin unor populaii diferite; diferenele constatate sunt nalt semnificative, iar factorul greutate are o influen real asupra mrimii corticoizilor urinari.

Compararea valorilor medii (testul t Student)

Pentru a lmuri problema dac divergena valorilor unui anumit parametru x este ntmpltoare sau nu, se efectueaz dou serii de experimente i pentru fiecare serie de rezultate se calculeaz media aritmetic a parametrului, adic x i x .
1 2

Problema care se pune este, deci, de a decide cnd socotim c diferena ntre aceste medii este suficient de mare pentru ca practic s se poat afirma c deosebirile constatate n calitatea parametrilor nu sunt ntmpltoare. Msurtorile se presupun independente i, cel puin n cadrul fiecrei serii, de egal precizie, iar funcia de repartiie a erorilor de msurare se presupune a fi normal. Presupunem c s-au efectuat n1 msurri independente de egal precizie ntr-o prim serie de msurri i n2 n cea de a doua serie de msurri (cu dispersiile 12 i, respectiv, 22). Notm cu x i x mediile aritmetice ale rezultatelor din prima i din cea de a doua serie. Pentru a rspunde la problema dac diferena dintre aceste medii aritmetice este ntmpltoare sau nu, vom calcula raportul:
1 2

t=

x1 x2
2 12 2 + n1 n2

Fixm un interval de ncredere P i corespunztor determinm din tabelele pentru testul t, valoarea t = t(P). Ex: Pentru P = 0.99 t = 2.576 Dac valoarea absolut a lui t calculat, tcalculat > t(P)tabel, urmeaz c diferena mediilor aritmetice se poate considera ca nefiind ntmpltoare. n caz contrar, nu avem motive s considerm c diferena este semnificativ (adic ea poate fi considerat ca o abatere ntmpltoare). Ex: 2 S considerm dou serii, de cte 25 i 30 de msurtori.
1 = 2 = = 1.20
x1 = 23.56, t= x1 x 2 1 1 + n1 n 2 x 2 = 22.80 = 23.56 22.80 1 1 1.20 + 25 80 = 2.59

t(0.99)tabel = 2.576, deci t(0.99)tabel < tcalculat i rezult cu o certitudine de 0.99 c diferena ntre medii este semnificativ. Compararea dispersiilor (testul Fisher) Cnd se efectueaz msurri n condiii diferite, apare problema comparrii preciziei msurrilor. n particular apare problema comparrii preciziei de msurare a diferitor aparate. Importana acestei probleme este subliniat ndeosebi de faptul c intervalele de ncredere ale abaterilor medii ptratice se dovedesc a fi mari. Presupunem c n dou serii de msurri s-au obinut dispersiile empirice ale datelor: - S12 : pentru k1 grade de libertate; - S22 : pentru k2 grade de libertate. (n general, primul coeficient se refer la dispersia empiric cu valoarea cea mai mare). Se va calcula raportul:
S12 F = 2 >1 S2

Se alege un interval de siguran P = 0.95 sau P = 0.99, i se determin valoarea critic F, corespunztoare numerelor gradelor de libertate k1 i k2 . Valoarea calculat a lui F, Fcalculat pentru seriile observate va fi comparat cu valorile extrase din tabel, corespunztoare intervalelor de ncredere alese, F(P)tabel ; apar dou situaii posibile: - Fcalculat > F(P)tabel diferena ntre medii nu este aleatoare; - Fcalculat < F(P)tabel diferena ntre medii este aleatoare, i nu are o semnificaie special. Testul Z (pentru procente) Testul furnizeaz o estimare numeric a probabilitii ca diferena observat s survin sau nu datorit hazardului. Se calculeaz urmtorul coeficient, Z, pentru compararea a dou procentaje P1 i P2, cu erorile standard SE1, SE2.

Z=

P1 P2 ( SE1 ) 2 + ( SE 2 ) 2

Dac Z 1.96, atunci se poate afirma cu un prag de semnificaie de 5% c cele dou procentaje difer nu datorit hazardului, ci datorit unei cauze care trebuie determinat. Dac Z 2.56, atunci se poate afirma cu un prag de semnificaie de 1 % c cele dou procentaje difer nu datorit hazardului, ci datorit unei cauze care trebuie determinat. Corelaia statistic Noiunile dezvoltate anterior ne-au permis s studiem un caracter cantitativ dat: greutatea, nlimea, tensiunea arterial, ntr-o populaie statistic determinat, definind parametrii numerici care permit s caracterizm variaiile acestor mrimi, s precizm gradul de confiden pe care l putem ataa rezultatelor i s confruntm rezultatele cu cele obinute pentru acelai caracter cantitativ ntr-o populaie statistic. n tiinele experimentale i, n particular, n medicin i biologie, intereseaz nu numai variaia unei singure mrimi, ci a dou valori, adic a dou caractere cantitative, ntr-o populaie statistic. De exemplu, dorim s tim dac exist ntr-o grup de subieci o relaie ntre greutate i nlime, ntre tensiunea arterial i mrimea umoral a unei substane, etc. Pe plan matematic problema este rezolvat prin noiunea de funcie, care traduce relaia ntre variaia celor dou mrimi. relaie materializat prin curba sa reprezentativ: y = f(x). n acest caz, unei valori date a variabilei independente x i corespunde o valoare i numai una a variabilei dependente y, relaia y = f(x) permind calcularea cu exactitate a acestei valori. O astfel de relaie fiind stabilit, cunoaterea unei valori ne este suficient pentru determinarea valorii corespondente. Acest tip de relaie, numit relaie funcional, este cea care se ntlnete n aa-zisele tiine exacte. Dar problema se

complic atunci cnd valorile care se studiaz (cea dependent i cea independent) sunt supuse fluctuaiilor. Fluctuaiile se manifest nu numai pentru o singur valoare dat, ci pentru toate variabilele distribuiei. Exemplu: ntr-un grup de subieci crora li s-a studiat nlimea i greutatea, pentru o valoare dat a nlimii (de exemplu 1.70 m) se va gsi seria tuturor subiecilor avnd aceeai nlime i diferind ntre ei prin greutate. Invers, pentru o valoare dat a greutii se va gsi seria subiecilor cu aceeai greutate, dar cu nlimi diferite. Nu se tie, i se pune problema dac greutatea este funcie de nlime, sau invers. Se constat c la o nlime mic corespunde o greutate mai mic, i invers. Prin urmare, exist o relaie sigur ntre aceste dou mrimi, dar mai puin rigid dect relaia funcional propriu-zis. Aceast relaie, de o natur particular, constituie corelaia statistic, care joac un rol important n tiinele vieii, i n particular n tiina medical, care este esenialmente o tiin a corelaiei. Procedee speciale ne permit s studiem corelaia statistic, s punem n eviden legea general care stabilete o legtur reciproc ntre variaiile mrimilor luate n studiu i s apreciem cantitativ gradul, adic caracterul mai mult sau mai puin slab al acestei legturi. Ne vom limita la corelaia liniar, unde una dintre mrimi variaz proporional cu alta.

Diagrama de dispersie Un prim model de a aborda problema const n a merge la reprezentarea grafic. Ca pentru a studia o funcie, se merge la un sistem de axe rectangulare Ox i Oy, pe care se vor reprezenta valorile a dou mrimi: x (nlimea) i y (greutatea). Fiecare individ este reprezentat printr-o pereche (x, y). Ansamblul populaiei studiate va fi reprezentat printr-un nor de puncte, care va constitui dispersia populaiei studiate:
6 5 4
y3

2 1 0 0 2 4
x

(x,y)

.Dispersia

unei populaii (norul de puncte)

O astfel de diagram, numit diagram de dispersie, permite deja o aproximare a noiunii de corelaie: ntr-adevr, dac exist o corelaie astfel nct, de exemplu, greutile mai mari s fie asociate nlimilor mai mari, norul de puncte va avea o form alungit oblic n sus i la dreapta. Dac, dimpotriv, se coreleaz valori mai mari ale uneia dintre mrimi cu valori mai mici ale celeilalte, norul de puncte va avea un aspect analog, dar dirijat n jos i la dreapta.
4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 0 0,5 1 x 1,5 2 2,5

.Corelaie pozitiv

Atunci cnd valorile nu se influeneaz reciproc, deci nu exist corelaie, norul de puncte va avea un aspect uniform dispersat

(de exemplu, nlimea i glicemia ntr-un lot de persoane) Absena corelaiei indic independena caracterelor studiate.
3,5 3 2,5 y 2 1,5 1 0,5 0 0 0,5 1 x 1,5 2 2,5

Corelaie negativ

6 5 4 y3 2 1 0 0 2 4 x 6 8

Corelaie zero

S-ar putea să vă placă și