Sunteți pe pagina 1din 16

Lucian Vasile BOICULESE , Gabriel DIMITRIU, Mihaela MOSCALU ELEMENTE DE BIOSTATISTIC (ANALIZA STATISTIC A DATELOR BIOLOGICE) , ED.

PIM IASI 2007

1.1. TESTE DE IPOTEZ Concepte de baz n eviden a (siguran a) statistic n statistic obiectivul fundamental const n luarea unei decizii, chiar n cazul existen ei unei incertitudini. Decizia luat trebuie s fie corect i independent (pe ct posibil) de lipsa de cunotin materializat prin incertitudine. n cazul testelor de ipotez problema de baz const n elaborarea regulilor de decizie n aa fel nct, dintre variantele posibile s se aleag concluzia corect cu o probabilitate acceptat ca satisfctoare. Se emit mai multe ipoteze i prin decizie se accept doar o ipotez care se ncadreaz n probabilitatea stabilit. Ipoteza statistic reprezint o presupunere asupra parametrilor uneia sau unor reparti ii sau chiar asupra reparti iei n sine (spre exemplu, egalitatea mediilor a dou popula ii, a dispersiilor, a propor iilor, verificarea formei normale a unei reparti ii, etc.). Testele statistice reprezint metode matematice de verificare a ipotezelor statistice. Prin acestea se dorete examinarea unei ipoteze care apoi se aplic popula iei de date dac este confirmat a fi adevrat. Testarea se face pe baza eantionului de date. Astfel, orice decizie comport un anumit risc. Decizia se ia asupra ntregii popula ii, deci constituirea eantionului este de importan major. n enun area unei ipoteze exist dou posibilit i: Ipoteza nul notat H0, n care parametrii de comparat se consider egali. Spre exemplu, media popula iei 1 avnd date n eantionul 1 este egal cu media popula iei 2 caracterizat de eantionul 2. H0 : 1 = 2 . Aceasta arat lipsa diferen elor parametrilor examina i sau a existen ei unei rela ii. Ipoteza alternativ n care se consider cei doi parametri diferi i. H1 : 1 2 . Aceast ipotez este contrar ipotezei nule i arat existen a diferen elor sau a rela iilor posibile ntre parametri. Se creeaz apoi func ia discriminant statistic (forma matematic a testului), a crei valoare calculat se compar cu valori tabelate corespunztoare tipului de reparti ie n care se ncadreaz. Pe scurt, etapele de urmat n verificarea prin test statistic vor fi: 1. Enun area ipotezei. Se definesc ipotezele: nul, respectiv alternativ. Acestea urmresc scopul cercetrii, exprimnd ceea ce avem de verificat. 2. Alegerea parametrului de studiu (poate s fie con inut implicit n enun area ipotezei). Ca exemple avem: media, varian a, rela ia exprimat prin corela ie, parametrii de regresie, propor ii n cadrul popula iilor, etc. 3. Deducerea i calculul statisticii discriminante dorite aplicnd regula de decizie. De exemplu, la compararea mediilor se poate lua n calcul o nou variabil aleatoare definit ca diferen a ntre indicatori. n acest caz aceasta poate urma o distribu ie de tip t (Student) sau Z, deci normal. 4. Acceptarea sau respingerea ipotezei prin calculul semnifica iei p. Se calculeaz statistica (t, Z sau Fisher spre exemplu) din datele eantioanelor de lucru. Corespunztor se deduce valoarea p, care reprezint probabilitatea de a avea o eroare de tip I. Aceasta este o integral n cadrul distribu iei de frecven determinate i reprezint semnifica ia testului. Ca idee de baz, trstura popula iei studiate care este cuprins n eantionul analizat (tehnica de determinare a volumului eantionului i a elementelor sale este crucial) poate reprezenta o caracteristic majoritar, care dac este observat n propor ie de 95% (definit ca standard), atunci este acceptat. n situa ia n care nu este ntlnit n aceast propor ie (de exemplu avem doar 90% din cazuri ce respect regula), vom accepta mai degrab ipoteza alternativ, deoarece varia ia ntlnit (chiar dac este n propor ie de numai 10%) implic existen a unui factor ce a modificat trstura. Semnifica ia statistic este nivelul de probabilitate la care acceptm eroarea de tip I (este eroarea de a decide greit c H1 este adevrat, deci exist diferen fals). Aceasta este considerat puternic dac are 1

Lucian Vasile BOICULESE , Gabriel DIMITRIU, Mihaela MOSCALU ELEMENTE DE BIOSTATISTIC (ANALIZA STATISTIC A DATELOR BIOLOGICE) , ED. PIM IASI 2007

valoarea p=5% (deci 95% din cazuri nu s-au modificat), este definit ca medie pentru valori ntre 5-10% (deci peste 90% de cazuri nemodificate) i nu este acceptat pentru p>10% (deci sub 90% din cazuri nemodificate). Dac nu acceptm ipoteza nul, nseamn c alternativa a fost dovedit, dar nu cu 95% ncredere. Aici nu trebuie gndit complementar. n figura 2.8 1 se observ c n func ie de pragul ales suprafe ele , respectiv ce reprezint erori, nu sunt egale. Faptul c testul a ieit semnificativ implic existen a datelor modificate peste o limit admis ca normal, deci acceptm schimbarea ca fiind datorat probabil unor elemente care i-au impus efectul (acceptm ipoteza H1). Exist o varia ie intrinsec a datelor care motiveaz practic obiectul de analiz al statisticii. Aceast varia ie impune limitele definite de valoarea semnifica iei de 5%. Pentru valori diferite ale varian ei vom avea de exemplu, valori diferite corespunztoare abscisei de tip Z sau t. Lucrnd cu o probabilitate de 95% avem deja anumite riscuri. Chiar dac un procent destul de mare de date au o anumit caracteristic, aceasta nu nseamn c toate elementele popula iei vor pstra proprietatea. Evident i normal de anticipat, ateptm ca o propor ie de 5% din date s fie anormale. Trebuie s fim pregti i s tratm problema exhaustiv i s inem cont de aceast posibilitate cazurile limit. Metoda de lucru const n determinarea distribu iei, urmat de statistica creat prin scopul nostru. Spre exemplu, dac dorim s studiem diferen a mediilor a dou popula ii, atunci n mod generic, putem produce un numr mare de eantioane iar diferen a mediilor acestora va defini statistica de lucru. Avem practic un nou set de date care respect o anumit lege de distribu ie ce ne ajut n determinarea semnifica iei statistice cutate. Testele de ipotez sunt foarte importante deoarece reprezint o metod statistic de decizie bazat pe cntrirea cunotin elor obiective, prin estimri probabilistice asupra setului de valori determinate practic. Erori posibile Dup cum s-a prezentat deja, exist dou ipoteze n testele statistice i anume ipoteza nul notat H0, respectiv cea alternativ notat H1. Se pot comite n aceast situa ie dou erori : Eroare de tip I s se accepte n mod greit ipoteza alternativ H1, cnd n realitate H0 este adevrat. Eroare de tip II s se accepte n mod greit ipoteza nul H0, cnd n realitate H1 este adevrat. Situa iile posibile sunt prezentate n tabelul de mai jos. Tabelul 2.8 1. Situa ie adevrat Sistem decizional cu prag Ipoteza H0 este Ipoteza H0 este adevrat fals Eroare tip II Acceptare Nu exist eroare ipotez H0 Respingere Eroare tip I Nu exist eroare ipotez H0 Este de dorit ca aceste erori s fie ct mai mici posibil. Se cunoate c exist o legtur invers propor ional ntre ele. Putem micora eroarea dar drept consecin , eroarea de tip II se va mri ntr-o anumit msur (fig. 2.8 1). ncercnd s scdem valoarea ob inem o cretere a erorii de tip I. Este clar c efectele sunt contradictorii i un compromis trebuie acceptat, func ie de scopul urmrit. Parametrii distribu iilor estimate depind de volumul eantioanelor cercetate. n concluzie, pentru a micora ambele erori i a elimina pe ct posibil efectul nedorit al lipsei de informa ie vom folosi volume mari de date care vor duce la scderea n special a erorii de tip II. Astfel, vom putea modifica pragul notat d pentru a micora i eroarea de tip I. Grafic, putem reprezenta problema prin dou curbe Gauss-Laplace care se suprapun pe o anumit por iune (fig. 2.8 1). Avem dou distribu ii conform celor dou ipoteze posibile. Pragul decizional (d) poate fi ales func ie de dorin e. Se observ cu claritate dependen a invers propor ional ntre cele dou erori materializate prin suprafe ele respectiv ce reprezint n fapt probabilit i. Dac deplasm dreapta de decizie d n stnga, atunci micorm suprafa a notat , dar mrim suprafa a ce definete eroarea de tip I. 2 Decizie prin test

Lucian Vasile BOICULESE , Gabriel DIMITRIU, Mihaela MOSCALU ELEMENTE DE BIOSTATISTIC (ANALIZA STATISTIC A DATELOR BIOLOGICE) , ED. PIM IASI 2007

Cu ct cele dou distribu ii se suprapun mai pu in cu att erorile de decizie sunt mai mici.
0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0

H0 este adevrat

H1 este adevrat

d B

Figura 2.8 1 Distribu iile pentru cele dou ipoteze. A este distribu ia ce sus ine H0, B este distribu ia ce sus ine H1. Regiunea de acceptare / respingere a ipotezei nule n cadrul testelor statistice o tem important const n formarea regulilor de decizie. Se definesc astfel dou regiuni, numite de acceptare, respectiv de respingere a ipotezei nule. n continuare ne intereseaz dac n cazul ipotezei conteaz doar existen a diferen ei dintre indicatori sau, varianta a doua, ne intereseaz i direc ia diferen ei adic ipoteza alternativ prezint semnul mai mare sau doar mai mic. Dac suntem n primul caz i doar existen a diferen ei este important, avem n lucru un test cu semnifica ie bilateral. Acesta se aplic n situa iile n care ipoteza alternativ con ine variantele posibil mai mare i posibil mai mic. De exemplu, pentru compararea mediilor, ipoteza susceptibil H1 poate avea formele m1>m2, respectiv m1<m2.
Func ia densitate de probabilitate

Figura 2.8 2 - Regiunea de acceptare/respingere pentru ncredere bilateral


Regiunea de respingere a H0

Regiunea de respingere a H0

Regiunea de acceptare a H0

Z
Praguri corespunztoare a 95% ncredere
2

+ Z
2

Statistica calculat (t, Z, F, etc.)

Pentru situa ia n care avem un singur prag de decizie, ne intereseaz dac variabila studiat are valori mai mici (sau mai mari) dect o valoare cunoscut sau variabila din lotul 1 are valori mai mici (sau mai mari) fa de cea din lotul 2. Figura anterioar se simplific avnd doar un singur prag corespunztor semnifica iei dorite.
Func ia densitate de probabilitate Regiunea de acceptare a H0

Regiunea de respingere a H0

Figura 2.8 3 - Regiunea de acceptare/respingere pentru ncredere unilateral (H0: media m1 < m2)

m1

+ Z

Pragul corespunztor a 95% ncredere

Statistica calculat (t, Z, F, etc.)

Lucian Vasile BOICULESE , Gabriel DIMITRIU, Mihaela MOSCALU ELEMENTE DE BIOSTATISTIC (ANALIZA STATISTIC A DATELOR BIOLOGICE) , ED. PIM IASI 2007

Observa ie Nivelul de semnifica ie de 5% definete pragul (n situa ia unui test unilateral) sau pragurile (pentru un test bilateral) corespunztoare. Este de ateptat ca aceste limite s fie diferite, deoarece probabilitatea de 5% reprezint suprafa a cuprins n regiunea de respingere. n testul bilateral avem dou suprafe e simetrice iar n cazul unilateral avem doar o singur regiune de respingere. Astfel, pentru 5% semnifica ie unilateral avem valoarea Z tabelata (p=0,05) = 1,65 iar pentru semnifica ie bilateral avem Z tabelat(p=0,025) = 1,96. Testul ipotezei simple compararea mediei unui eantion cu o valoare de referin Acest test const n specificarea valorile parametrilor necunoscu i din cadrul unei reparti ii. Este vorba de seturi de date de tip continuu. Ca exemple putem prezenta verificarea egalit ii mediei glicemiei unui subgrup cu valoarea standard cunoscut, sau media presiunii arteriale, sau greutatea la natere etc. Algoritmul de determinare const n generarea de eantioane din popula ia int. Se calculeaz media acestora i se studiaz noul eantion astfel format. Conform teoremei limit central, eantionul mediilor urmeaz o distribu ie de tip t, care converge ctre distribu ia Z (normal) pentru nu numr suficient de mare de date. Acest rezultat este foarte important, deoarece indiferent de tipul densit ii de probabilitate a popula iei studiate, media eantioanelor are o distribu ie de tip cunoscut. Vom testa n continuare egalitatea mediei unei popula ii repartizate normal, cu o anumit valoare de referin . Cazul 1 Valoarea dispersiei este cunoscut Presupunem c avem de verificat egalitatea mediei unui parametru medical (spre exemplu uricemie, glicemie) cu o anumit valoare dat 0. Notm media popula iei cu i o considerm necunoscut. Notm dispersia cu 2 i presupunem c i se cunoate valoarea. Definim ipoteza nul H0: Mediile sunt egale, = 0 . Mediile difer, 0 . Definim ipoteza alternativ H1: Considerm de asemenea c lucrm cu un nivel de semnifica ie bilateral simetric. Dimensiunea eantionului este n, iar media calculat din eantion este X (aceasta este apropiat de media popula iei notat ). Distribu ia mediilor este de tip Gauss-Laplace de medie i abatere standard de mic,

n ori mai

(numit i eroare standard). Scznd valoarea constant 0 din mediile eantioanelor distribu ia

nu se modific dect prin translare. mpr ind n continuare la eroarea standard (dispersia eantioanelor) ob inem forma normalizat (medie 0 dispersie 1). Avem astfel func ia statistic discriminant de forma:

Zc = X 0

(statistica calculat din eantion).

Aceasta este repartizat normal cu media 0 i dispersia 1, N(0,1). Pentru nivelul de semnifica ie bilateral se alege un interval

( Z / 2

, + Z / 2 ) astfel:

P( Z / 2 Zc + Z / 2 ) = 1 . Dac Zc respect condi ia ( Z / 2 Z c + Z / 2 ) , cu Z / 2 valori tabelate ale reparti iei normale,


atunci ipoteza H0 se accept cu ncredere 1-, sau cu riscul . Aceast condi ie mai poate fi scris restrns sub forma: Z c Z .
2

Lucian Vasile BOICULESE , Gabriel DIMITRIU, Mihaela MOSCALU ELEMENTE DE BIOSTATISTIC (ANALIZA STATISTIC A DATELOR BIOLOGICE) , ED. PIM IASI 2007

n caz contrar, dac este ndeplinit rela ia Z c > Z , ipoteza H0 se respinge n favoarea acceptrii
2

ipotezei H1. Se poate aplica i un test unilateral. n acest caz se definesc ipotezele urmtoare : 1 Ipoteza H0: media popula iei este mai mic dect valoarea 0, < 0 . 2 Ipoteza H1: media popula iei este mai mare dect valoarea 0, 0 . Conform formulei probabilit ii avem de verificat: P Dac Z c =

X 0 n Z = 1 .

X 0

( , Z ] , atunci ipoteza H0 se accept cu nivel de semnifica ie , sau risc

, sau ncredere 1-. n caz contrar, se accept ipoteza H1 n defavoarea ipotezei H0. Tot n cadrul testului unilateral putem avea ipotezele de forma: H0: > 0 , cu alternativa H1: 0 . Intervalul de acceptare este definit de rela ia:

X 0 P Z = 1 . n
Observa ie n unele cr i de specialitate, ct i n unele programe de statistic nivelul de semnifica ie se noteaz cu p n loc de . Cazul 2 Valoarea dispersiei este necunoscut Considerm c avem de verificat ipoteza H0: = 0 , adic media unui parametru medical este egal cu valoarea 0 dat. Ipoteza alternativ este H1: 0 , media parametrului respectiv este diferit de valoarea 0 dat. Valoarea dispersiei popula iei, notat 2, nu este cunoscut, iar volumul eantionului l notm cu n. Pentru verificarea ipotezei H0 se va calcula func ia discriminant:

tc = X 0 n S
S2 =

(1), unde S reprezint aproximarea dispersiei cu formula:

n 1

n , 0 este valoarea de compara ie, iar X este valoarea medie a eantionului.

Variabila aleatoare creat cu formula (1) respect o reparti ie Student cu = n 1 grade de libertate (notat cu t). Notm nivelul de semnifica ie cu (sau riscul), respectiv ncrederea cu =1- (a nu se confunda cu eroarea de tip II, este doar o coinciden de nota ie!). Valoarea =0,05 (sau 5%) este acceptat n majoritatea cazurilor medicale. Conform formulei de calcul a probabilit ii avem: P( t / 2 t c + t / 2 ) = 1 . Compara ia se face cu t/2, deoarece folosim un risc bilateral simetric (valorile sunt tabelate n anexe). Dac rela ia t c < t , este respectat, atunci acceptm ipoteza H0 cu nivel de semnifica ie .
2

Dac avem respectat rela ia tc t , , atunci respingem ipoteza H0 i nu putem afirma cu ncredere 2 P=1- c mediile sunt egale.

Lucian Vasile BOICULESE , Gabriel DIMITRIU, Mihaela MOSCALU ELEMENTE DE BIOSTATISTIC (ANALIZA STATISTIC A DATELOR BIOLOGICE) , ED. PIM IASI 2007

Interpretarea trebuie fcut cu aten ie, deoarece a respinge ipoteza H0 nu nseamn c se accept ipoteza H1 cu ncredere P=1-. Ipoteza alternativ a fost acceptat ca urmare a depirii unui prag definit ca decident. Ne aflm pe suprafa a erorii de tip I i astfel ipoteza alternativ este de preferat. Exemplu Vom folosi un set de date create cu ajutorul computerului i rezolvm problema la modul generic. Considerm c n cadrul experimentului realizat am ob inut urmtorul set de valori:

LUCIAN VASILE BOICULESE, GABRIEL DIMITRIU, MIHAELA MOSCALU ELEMENTE DE BIOSTATISTIC (ANALIZA STATISTIC A DATELOR BIOLOGICE) , ED. PIM 2007

Tabelul 2.8 2. Parametrul analizat (X) 1 1,83 2 1,60 3 1,74 4 1,84 5 1,26 6 1,44 7 1,43 8 1,43 9 1,50 10 1,72 11 1,33

12 13 14 15 16 17 18 19 20 21 22 23

1,43 1,87 1,57 1,64 1,44 1,57 1,44 1,74 1,42 1,24 1,32 1,22

Se dorete s se verifice dac datele difer sau nu semnificativ fa de valoarea standard normal X0=1,2. Pentru aceasta se va afla media lotului se va deduce statistica t sau Z calculat i n final se va decide acceptarea sau respingerea ipotezei H0. Folosind Microsoft Excel: n situa ia dat nu avem cunotin e despre valoarea dispersiei, deci statistica calculat este de tip t cu formula t c =

(X X 0 )
S n

, unde S 2 =

2
n 1

n .

Ne intereseaz doar verificarea semnifica iei statistice pentru diferen a ntre valori nu i sensul acesteia (mai mare sau mai mic). Lucrm astfel cu un test bilateral. Distribu ia t (Student) este caracterizat de numrul gradelor de libertate df=23-1 (volumul eantionului minus 1, n cazul nostru) i de semnifica ia statistic 0,05 standard. n concluzie, citim valoarea de compara ie existent n tabele t (df =22, / 2=0,025) = 2,074 (din anexele cr ii). Putem calcula pas cu pas fiecare element din formula prezentat mai sus. Pentru medie: =AVERAGE(D4:D26), ob inem X = 1,523 . Pentru dispersia corectat: =STDEV(D4:D26), ob inem S = 0,196 . n final ob inem : tcalculat = 7,90. Valoarea calculat 7,90 este mai mare fa de cea tabelat 2,074 i decidem c ipoteza H0 nu este acceptabil. n concluzie, decidem c exist diferen semnificativ statistic ntre datele experimentale i valoarea standard normal cunoscut. Problema prezentat se putea rezolva i prin determinarea intervalului de confiden metod discutat n capitolul corespunztor. Dac intervalul determinat pentru media eantionului cuprinde valoarea de compara ie, atunci nu exist diferen semnificativ statistic. Folosind softul SPSS Pentru aceast verificare exist special o subrutin dezvoltat. Aceasta se lanseaz urmnd din meniu paii: Analyze + Compare means + One-Sample T Test

Page 7 of 16

Lucian Vasile BOICULESE , Gabriel DIMITRIU, Mihaela MOSCALU ELEMENTE DE BIOSTATISTIC (ANALIZA STATISTIC A DATELOR BIOLOGICE) , ED. PIM IASI 2007

Figura 2.8 4 - SPSS compararea mediei unui eantion cu o valoare de referin . Se definete conform figurii alturate variabila ce definete eantionul ct i valoarea de referin . Se ob in dou tabele cu datele statistice calculate.
Tabelul 2.8 3. One-Sample Statistics N X 23 Mean 1.5234 Std. Deviation .19675 Std. Error Mean .04103

Tabelul 2.8 4 . One-Sample Test Parametrul X Test Value = 1.2 t 7.883 df 22 Sig. (2-tailed) .000 Mean Difference .32339 95% Confidence Interval of the Difference Lower .2383 Upper .4085

n primul tabel sunt determinate valorile mediei, devia iei standard i a erorii standard. Acestea pot fi determinate i n Ms Excel. n tabelul al doilea gsim valoarea statisticii t calculate 7,883 (cu o precizie mai bun fa de cea calculat de noi, 7,90), nivelul de semnifica ie ce este sub 1 0 00 , iar n final limitele intervalului de confiden a diferen ei fa de referin a 1,2. Interpretare Conform nivelului de semnifica ie calculat (sub 1 0 00 ) deducem c exist diferen semnificativ statistic, deoarece valoarea de 0,001 este mai mic dect 0,05 sau 5%. Alt metod de interpretare const n studiul intervalului de confiden a diferen ei. Dac acesta nu cuprinde valoarea 0, atunci exist semnifica ie statistic. n cazul nostru evident ajungem la acelai rezultat. Valoarea 0 nu este cuprins n domeniul 0,2383 0,4085, deci media eantionului difer fa de valoarea normal 1,2.

Lucian Vasile BOICULESE , Gabriel DIMITRIU, Mihaela MOSCALU ELEMENTE DE BIOSTATISTIC (ANALIZA STATISTIC A DATELOR BIOLOGICE) , ED. PIM IASI 2007

Testul ipotezei duble compararea mediilor a dou eantioane (t, Student) Foarte frecvent n aplica iile de tip medical (i nu numai) apare problema comparrii unor parametri dintr-un eantion cu parametrii altui eantion (pot fi chiar din aceeai popula ie, dar la momente diferite). Presupunem c avem dou eantioane notate X, cu valorile x1, x2, , xnx, respectiv Y, cu valorile 2 y1, y2, , yny. Considerm c cele dou popula ii sunt repartizate normal, i anume X : N x , x ,

2 respectiv Y : N y , y .

Dorim s testm ipoteza H0: x = y, mediile sunt egale, cu alternativa H1: x y, mediile sunt diferite (se aplic testul t sau testul Z). Pentru aceasta se definete o variabil aleatoare V = X Y, 2 2 care func ie de cunotin ele despre dispersiile x , y , va respecta o anumit func ie de distribu ie. Din teorema limit central rezult c distribu ia diferen ei mediilor poate fi de tip t (Student) sau Z (Gauss-Laplace). Se respect acelai procedeu de determinare a unui numr mare de eantioane i se analizeaz diferen a mediilor ca fiind o nou variabil de studiu V. Cazul 1 Datele sunt perechi O metod des ntlnit n practica medical const n msurarea datelor nainte de tratament i dup tratament. Se dorete verificarea existen ei diferen ei semnificative, deci eficien a tratamentului este analizat. Marele avantaj al folosirii datelor pereche const n eliminarea efectului factorilor de confuzie: vrst, sex, ras, etc. Chiar n acest sens se proiecteaz studii perechi caz-martor n care persoanele care au aceleai valori ale factorilor de confuzie sunt trata i ca perechi. Datele astfel culese con in o anumit legtur a cuplului i nu vor putea fi analizate ca apar innd a dou eantioane independente. Se definete o nou variabil aleatoare format din diferen a pe fiecare pereche de date d. Aceast variabil va fi comparat cu valoarea 0. Distribu ia urmat va fi de tip Student (t) de medie d 2 respectiv dispersie d . Studiind distribu ia mediilor eantioanelor ob inem aceeai medie (ce poate fi 0) dar dispersia este micorat (conform demonstra iilor matematice) de n ori (n este volumul
2 eantioanelor), d = 2 d

n concluzie, distribu ia normalizat a mediilor eantioanelor este de tip Student de forma:

tc =

d 0 , unde Sd este aproximarea devia iei standard (mpr ire la n-1). Sd n

Ipoteza H0 afirm c mediile sunt egale deci d=0, diferen a este 0. Ipoteza alternativ H1: mediile nu sunt egale deci d este diferit de 0. Valoarea statisticii tabelate pentru test bilateral este determinat de semnifica ia standard de 5% iar numrul gradelor de libertate df=n-1. n tabelele distribu iei t se citete valoarea t (df = n 1, / 2= 0,025) . Interpretarea respect aceeai regul general, dac t calculat este mai mare ca t tabelat (ambele n modul) atunci exist semnifica ie statistic, deci cele dou seturi de date difer semnificativ. n caz contrar dac t tabelat este mai mare ca t calculat se accept ipoteza H0, deci mediile sunt egale. 2 2 Cazul 2 Dispersiile x , y sunt cunoscute n aceast situa ie variabila V urmeaz o distribu ie normal i va avea dispersia echivalent
2 V 2 x 2 y

nx

ny

Func ia discriminant se va calcula cu formula:

Lucian Vasile BOICULESE , Gabriel DIMITRIU, Mihaela MOSCALU ELEMENTE DE BIOSTATISTIC (ANALIZA STATISTIC A DATELOR BIOLOGICE) , ED. PIM IASI 2007

Z=

V V

(X Y ) (
2 x

y )

nx

2 y

.Variabila Z

este repartizat normal N(0,1). Pentru

ny

specifica ie bilateral simetric regiunea de acceptare va fi: P Z 2 < Zc < Z 2 = 1 , cu nivelul de semnifica ie.

Pentru medii egale se determin: Zc =

X Y
2 x

nx

2 y
ny

Atunci cnd se calculeaz Zc i se respect rela ia

Zc < Z 2 , se va accepta ipoteza H0 cu

ncrederea P = 1 - . Astfel, putem considera c mediile sunt egale. Dac rela ia: Zc Z 2 este respectat, atunci nu putem accepta ipoteza H0 i n schimb vom considera mediile ca fiind diferite. 2 2 Cazul 3 Dispersiile x , y sunt egale de valori necunoscute. n aceast situa ie statistica discriminant urmeaz o reparti ie Student de forma:

tc =

(X Y )
(n x 1) S x2
nx +

(n

2 1) S y

ny

1 1 + nx ny

2 , Sx

2 x

nx 1

nx ,

2 Sy

2 y

ny 1

n.

Valoarea calculat se compar cu valoarea tabelat t , 2 , unde:

= 1 + 2 = n1 + n2 2 .
Dac se respect rela ia t c < t , 2 , vom accepta ipoteza H0, deci mediile se pot considera a fi egale. Dac t c t , 2 , nu putem accepta ipoteza H0 i concluzionm c mediile sunt diferite. Cazul 4 Dispersiile sunt necunoscute (pot fi sau nu egale) n acest caz se calculeaz func ia discriminant:

tc =

(X Y )

2 Sy S x2 + nx ny

. Aceast variabil aleatoare aproximeaz o lege de distribu ie de tip Student.

Valoarea calculat se va compara cu valoarea tabelat t , 2 .Numrul gradelor de libertate se calculeaz cu formula:

x y y C + (1 C ) x
2 2

, unde constanta C este C =

Sx 1 . 2 2 nx S x nx + S y n y
2 y

De asemenea, s-au folosit formulele de calcul:


2 x = nx 1 , y = n y 1 , S x = 2 x

nx 1

2 nx , S y =
2

ny 1

ny .

La fel ca i n celelalte cazuri, dac t c < t , considerm mediile ca fiind inegale.

acceptm ipoteza H0 i mediile sunt egale, altfel

10

Lucian Vasile BOICULESE , Gabriel DIMITRIU, Mihaela MOSCALU ELEMENTE DE BIOSTATISTIC (ANALIZA STATISTIC A DATELOR BIOLOGICE) , ED. PIM IASI 2007

Observa ie Metodele prezentate reprezint tehnici statistice matematice optime pentru a ob ine un rezultat ct mai corect. Nu este greit dac se aplic cazul general pentru compararea datelor, de exemplu nu se cunoate nimic despre aceste valori (sunt sau nu perechi, au varian ele egale, sunt normal distribuite). Rezultatul ns va fi determinat ntr-o form aproximativ prezentnd lips de semnifica ie n anumite situa ii limit, tocmai prin lipsa de informa ie cuprins. Exemplu Presupunem c avem dou seturi de date nainte i dup tratament iar parametrul de studiu este glicemia. Dorim s analizm dac exist diferen semnificativ statistic, ceea ce ar confirma sau infirma eficien a tratamentului. 1.87 1.13 13 Tabelul 1.57 1.27 14 2.8 5. nainte dup 1.64 1.01 15 1.83 1.34 1 1.44 1.46 16 1.60 1.63 2 1.57 1.01 17 1.74 1.00 3 1.44 1.04 18 1.84 1.45 4 1.74 1.31 19 1.26 1.13 5 1.42 1.11 20 1.44 1.28 6 1.24 1.57 21 1.43 1.08 7 1.32 1.15 22 1.43 1.48 8 1.22 1.30 23 1.50 1.12 9 1.72 1.53 10 1.33 1.42 11 1.43 1.35 12 Este uor de observat c datele sunt perechi, deci vom aplica testul specific acestei situa ii. Folosind MsExcel Pentru lansarea testului urmm paii : Tools + Data Analysis + t-Test: Paired Two Sample for Means. Se completeaz interactiv datele din figura alturat.

Figura 2.8 5 - Compararea mediilor testul t MsExcel. Se definesc domeniile eantioanelor, numite variabila 1 respectiv 2, nivelul de semnifica ie (standard 5%) i domeniul sau celula de start a afirii rezultatelor. n final se ob in urmtoarele valori: 11

Lucian Vasile BOICULESE , Gabriel DIMITRIU, Mihaela MOSCALU ELEMENTE DE BIOSTATISTIC (ANALIZA STATISTIC A DATELOR BIOLOGICE) , ED. PIM IASI 2007

Tabelul 2.8 6 - Rezultatele testului t sau Student. t-Test: Paired Two Sample for Means nainte dup Mean 1.523389088 1.267697646 Variance 0.038711492 0.037625235 Observations 23 23 Pearson Correlation -0.040121114 Hypothesized Mean Difference 0 df 22 t Stat 4.351833135 P(T<=t) one-tail 0.000127727 t Critical one-tail 1.717144335 P(T<=t) two-tail 0.000255454 t Critical two-tail 2.073873058 Tabelul rezultatelor ne ofer toate informa iile necesare pentru o interpretare corect a analizei. Statistica t calculat are valoarea 4,351 i se compar cu valoarea tabelat ce este prezent n tabel pentru test bilateral avnd valoarea 2,07 (numit valoare critic). Valoarea calculat depind valoarea tabelat rezult c exist diferen semnificativ statistic. Acelai rezultat se ob ine comparnd valoarea semnifica iei p calculate n cazul bilateral al testului cu 5% valoare standard erorii de tip I. Valoarea semnifica iei (P two tailed=0,00025) este mult mai mic ca 0,05 deci i prin aceast metod (era de ateptat!) se ob ine semnifica ie statistic. Folosind SPSS i n acest program avem posibilitatea de a alege dintre mai multe variante ale testului t pentru compararea mediilor pe cea convenabil studiului. n situa ia n care datele sunt perechi, acestea se introduc pe dou coloane conform figurii alturate. Pentru lansare se urmeaz calea: Analyze + Compare Means + Paired Samples T-Test

Figura 2.8 6 - Compararea mediilor, testul t pentru date perechi n SPSS.

12

Lucian Vasile BOICULESE , Gabriel DIMITRIU, Mihaela MOSCALU ELEMENTE DE BIOSTATISTIC (ANALIZA STATISTIC A DATELOR BIOLOGICE) , ED. PIM IASI 2007

Se definesc n continuare cele dou variabile ce con in datele perechi i se realizeaz analiza. n final, se ob in dou tabele cu datele calculate.
Tabelul 2.8 7 - Paired Samples Statistics Mean 1.5226 1.2683 N 23 23 Std. Deviation .19650 .19481 Std. Error Mean .04097 .04062

Pair 1

nainte Dup

Tabelul 2.8 8 - Paired Samples Test Paired Differences Pair 1 nainte - Dup Std. Deviation .28195 Std. Error Mean .05879 95% Confidence Interval of the Difference Lower .13242 Upper .37627 t df Sig. (2-tailed)

Mean .25435

4.326

22

.000

Ca i n cazul utilizrii softului Ms Excel este determinat valoarea statisticii t=4,326 i corespunztor, nivelul semnifica iei dedus. Diferen a este semnificativ, pcalculat este sub 1 la mie. Sunt determinate de asemenea i limitele intervalului de confiden a diferen ei studiate pentru 95% probabilitate. n aceast situa ie valoarea 0 nu este cuprins n acest interval i astfel se justific (metoda a doua) existen a semnifica iei statistice. Observa ie Testele de compara ie au valoare practic n situa ia n care se specific n mod direct, diferen a necesar pentru a accepta ca util procesul de modificare a valorilor datelor. De exemplu, tratamentul este considerat eficient dac mediile celor dou popula ii difer cu cel pu in 0,4 n valoare absolut. Iat Ms Excel are aceast posibilitate de a impune verificarea diferen ei minime necesare n calcul. Verificarea semnifica iei statistice n cadrul impunerii unei anumite diferen e ntre mediile popula iilor studiate se poate realiza i prin studiul intervalului de confiden a diferen ei. Dac valoarea impus este cuprins n interiorul intervalului, atunci nu exist diferen semnificativ statistic. Testul ipotezei multiple compararea mediilor mai multor eantioane (ANOVA) Presupunem c avem de determinat semnifica ia diferen elor dintre m grupe independente de date. Fcnd apel la cunotin ele deja prezentate, un posibil rspuns ar fi s comparm dou cte dou, grupuri n toate combina iile posibile (se va aplica testul t). Dac am avea 10 loturi atunci numrul de
2 teste ar fi combinri de 10 luate cte 2, adic C10 = = 2 (10 2)!2! = 45 . Un numr destul de mare de variante. innd cont de performan ele actuale ale sistemelor informatice, nu aceasta ar fi problema. Dac privim tema n discu ie, n termeni ai probabilit ii de a avea o eroare, atunci iat c procentul de 5% ar nsemna n cazul nostru aproximativ 2 teste greite din cele 45 (aa zisa eroare de tip I este prezent aici i const n a accepta greit existen a diferen ei semnificative ntre dou grupe, cnd n realitate aceasta nu exist). Ideea de a elimina aceast posibil eroare se bazeaz pe crearea unui singur test pentru a compara cele m grupe de date simultan. Prin analiza varian ei numit ANOVA (analysis of variances) se aplic un singur test, ce respect o statistic de tip Fisher pentru determinarea semnifica iei diferen ei dintre mediile eantioanelor.

10

10!

13

Lucian Vasile BOICULESE , Gabriel DIMITRIU, Mihaela MOSCALU ELEMENTE DE BIOSTATISTIC (ANALIZA STATISTIC A DATELOR BIOLOGICE) , ED. PIM IASI 2007

Presupunem c avem m grupe de date, fiecare grup j avnd nj elemente. Notm un element din ntregul set de valori cu xij, unde i reprezint pozi ia elementului din grupul j. Astfel i variaz de la 1 la nj, iar j de la 1 la m. Ipoteza H0 este: 1 = 2 ... = j = ... = m , iar alternativa, H1: Exist cel pu in dou grupe de medii diferite. k, l pentru care k l . n figura alturat este prezentat componen a loturilor de studiu. x1 x2 xn1 Lotul 1 Medie x1 x1 x2 xnj Lotul j Medie x j x1 x2 xnm Lotul m Medie x m

Figura 2.8 7 Grupele de date de comparat. Ca ipotez de lucru, se presupune c fiecare grup de date este distribuit normal iar dispersiile sunt egale ntre grupuri. Aceste presupuneri trebuie verificate, altfel testul ANOVA nu poate fi aplicat. Numrul total de elemente n poate fi calculat cu formula urmtoare innd cont de cele m grupe :

n=

n j (j este numrul de grupe).


j =1

xij
Media total a tuturor valorilor este : x =
i, j

, deci suma tuturor elementelor raportat la

numrul total de elemente. Putem calcula media total i inem cont de valoarea mediei fiecrui grup astfel: Notm media grupului j cu x j . Acest grup are nj elemente.

nj xj
Avem n final media total: x =
j

Varia ia variabilei aleatoare X de interes este msurat conven ial n termeni ai devia iei fa de valoarea medie ( xij x ). Suma total a ptratelor devia iilor este (total sum of square):

SST = xij x 2 .
i, j

Putem scrie suma devia iei astfel (adugm i scdem x j ):

xij x = xij x j + x j x .
Folosind teorema lui Cochran se poate demonstra c prin sumare i ridicare la ptrat se pstreaz egalitatea:

) (

(xij x )2 = ( xij x j )2 + (x j x )2 .
i, j i, j i, j

innd cont c ultima sum depinde numai de numrul de grupe de comparat (j):

(xij x )2 = ( xij x j )2 + n j (x j x )2 .
i, j i, j j

Aceste varia ii reprezint:

14

Lucian Vasile BOICULESE , Gabriel DIMITRIU, Mihaela MOSCALU ELEMENTE DE BIOSTATISTIC (ANALIZA STATISTIC A DATELOR BIOLOGICE) , ED. PIM IASI 2007

Suma total a ptratelor devia iilor:

SST = xij x 2 .
i, j

Suma ptratelor devia iilor ntre grupuri (sum of square between):

SSB = n j x j x 2 .
j

Suma ptratelor devia iilor n grupuri (sum of square within):

SSW = xij x j
i, j

)2 .

Avem egalitatea: SST = SSW + SSB. Deducem astfel, c exist dou surse de varia ie, ntre grupuri i n cadrul grupurilor. Raportul mediilor acestor dou surse de varia ie respect (n cazul presupunerilor de reparti ii normale i dispersii egale) o distribu ie de tip Fisher. Aceasta este statistica de analizat n studiul de tip ANOVA. SSB reprezint o distribu ie de tip Chi ptrat, cu m-1 grade de libertate. SSW reprezint o distribu ie de tip Chi ptrat, cu n-m grade de libertate.

SSB SSW , respectiv MSSW = . m 1 nm MSSB Statistica Fisher se ob ine prin raportul F = . Aceasta va avea m-1 respectiv n-m grade de MSSW
Putem calcula mediile: MSSB = libertate. Pentru interpretare se calculeaz valoarea F prin raportul prezentat i se compar cu valoarea tabelat corespunztoare gradelor de libertate determinate i unui nivel de semnifica ie standard de 5% (0,05). Dac valoarea calculat este mai mare dect cea tabelat, rezult c mediile nu sunt egale i exist cel pu in dou grupe cu diferen semnificativ statistic. Dac se calculeaz valoarea semnifica iei, aceasta se va compara cu valoarea 5%. n situa ia n care este mai mic atunci exist diferen semnificativ statistic. Men ionm c testul ANOVA n cazul existen ei diferen ei semnificative are dezavantajul de a nu putea prezenta care sunt grupurile care difer. Aceast metod este optim n situa ia n care nu avem diferen semnificativ ntre grupe deoarece am realizat un singur test pentru m grupe de compara ie. Exemplu numeric de calcul Pentru a minimiza calculele necesare realizrii testului ANOVA vom considera c avem trei grupuri cu cte 4 date fiecare. Valorile sunt cuprinse n tabelul urmtor. Tabelul 2.8 9 Valorile grupelor de comparat. Grupul A Grupul B Grupul C 2 2,9 2 2,5 3,2 2,1 3 3 2,6 2,7 3,1 2,3 Calculnd mediile celor 3 grupe de date ob inem: x1 = 2,55 ; x1 = 3,05 ; x1 = 2,25 . Media pe toate grupurile este x = 2,616 . Valoarea SSW este: SSW = (2-2,55)2 + (2,5-2,55)2 + (3-2,55)2 + (2,7-2,55)2 + (2,9-3,05)2 + (3,23,05)2 + (3-3,05)2 + (3,1-3,05)2 + (2-2,25)2 + (2,1-2,25)2 + (2,6-2,25)2 + (2,3-2,25)2 ; SSW = 0,79.

15

Lucian Vasile BOICULESE , Gabriel DIMITRIU, Mihaela MOSCALU ELEMENTE DE BIOSTATISTIC (ANALIZA STATISTIC A DATELOR BIOLOGICE) , ED. PIM IASI 2007

Valoarea SST este: SST = (2-2,616)2 + (2,5-2,616)2 + (3-2,616)2 + (2,7-2,616)2 + (2,9-2,616)2 + (3,2-2,616)2 + (3-2,616)2 + (3,1-2,616)2 + (2-2,616)2 + (2,1-2,616)2 + (2,6-2,616)2 + (2,3-2,616)2 ; SST = 2,09. Valoarea SSB o calculm ca diferen a celor dou i ob inem SSB = 1,30. Se vor calcula mediile prin raportarea sumelor ptratelor diferen elor la gradele de libertate i n final se va determina valoarea statisticii Fisher. Pentru continuarea calculului putem realiza tabelul de mai jos (tabelul de mai jos este cuprins n toate programele de analiz a varian ei ANOVA, acestea calculeaz de asemenea i nivelul de semnifica ie p). Tabelul 2.8 10 - Tabelul de calcul pentru testul ANOVA. Grade de Suma ptratelor Media SS Sursa de varia ie libertate SS MS df Between Groups 1.306666667 3-1 = 2 0.653333333 Within Groups 0.79 12-3 = 9 0.087777778 Total 2.096666667 11

Statistica Fisher F 7.443037975

Valoarea statisticii Fisher corespunztoare tabelat este F(2; 9; p=5%)=4,256 Valoarea calculat fiind mai mare dect cea tabelat, deducem c mediile difer semnificativ, dar nu cunoatem efectiv care dintre acestea sunt diferite. Programele de calcul i analiz statistic determin i valoarea semnifica iei, notat cu p. Dac valoarea acesteia este mai mic de 0,05, atunci mediile difer semnificativ. Pentru studiu este indicat a se analiza i exemplul din capitolul EpiInfo 3.3.2.

16