Sunteți pe pagina 1din 14

Cursul 5.

Analiza variantei si teste neparametrice

Continutul acestui curs este urmatorul:

5.1. Teste neparametrice: testele Wilcoxon/Mann-Whitney ..................................... 99

5.2. Teste t pereche si nepereche............................................................................ 105

5.3. Analiza variantei (ANOVA) ........................................................................... 107

5.4. Interpretarea datelor medicale ......................................................................... 110

98
5.1. Teste neparametrice: testele Wilcoxon/Mann-Whitney

În cursurile anterioare ne-am pus problema compararii a doua populatii luând în


considerare mediile sau proportiile, eventual variantele lor. Cu alte cuvinte, am luat în
considerare parametrii care determina populatiile: mediile ( µ ), proportiile ( π ), variantele

( σ 2 ).

Multe dintre metodele de comparatie care sunt utilizate în tratamentul variabilelor


aleatoare continue se bazeaza pe ipoteza „fundamentala” ca anumite variabile sunt
distribuite normal (sau cel putin aproximativ normal). Sunt cunoscute în literatura
statistica, din motive evidente, sub numele de teste parametrice.

Exista însa situatii în care fie nu cunoastem deloc felul în care sunt distribuite
variabilele, fie distributia normala a lor este încalcata flagrant. În asemenea situatii,
pentru compararea populatiilor este posibil sa folosim teste care nu presupun nimic despre
tipul de distributie, cu alte cuvinte teste neparametrice.

(Evident, asemenea teste vor putea fi aplicate si pentru variabilele care sunt distribuite
normal, însa rezultatele pe care le vom obtine vor fi mai putin „semnificative” decât ale
testelor parametrice analoage.)

În cele mai cunoscute dintre aceste teste neparametrice, valorile numerice ale
variabilelor – obtinute din esantion – sunt înlocuite prin rangurile lor. De aceea ele sunt
denumite teste de rang.

Sa prezentam, în cele ce urmeaza, unul dintre cele mai simple teste de rang, anume
testul Wilcoxon.

Îpoteza alternativa de la care plecam, întro exprimare generala, este urmatoarea:

(Ha): distributia valorilor variabilei aleatoare numerice (care ne intereseaza) este


asimetrica în raport cu 0.

Îi vom opune ipoteza nula:

(H0): distributia valorilor variabilei aleatoare numerice este simetrica în raport cu 0.

99
Conform teoriei generale a testarii, vom încerca sa „deducem” consecinte logice ale
acceptarii adevarului ipotezei nule, apoi sa vedem daca datele provenite din esantion sunt
sau nu „compatibile” cu aceste consecinte.

Sa începem prin a analiza datele numerice x1 , x 2 ,..., x n provenite dintr-un esantion de


volum n. Evident, unele dintre aceste valori vor fi pozitive, altele vor fi negative, si este
perfect posibil ca sa avem câteva chiar egale cu 0. Sa presupunem ca m ≤ n dintre ele sunt
nenule.

Conform indicatiilor lui Wilcoxon, vom ordona crescator valorile nenule, luate în
modul (adica neglijându-le semnul), apoi le vom înlocui cu rangurile lor:

| x(1) |≤ | x (2) | ≤ ... ≤ | x ( m ) |

Sa notam cu T+ suma rangurilor valorilor pozitive, si cu T− suma rangurilor valorilor


negative. Daca acceptam ideea ca ipoteza nula este adevarata, atunci T+ si T− n-ar trebui
sa difere prea mult între ele. Pe de alta parte, suma lor T+ + T− ar trebui sa fie egala cu
m(m + 1)
suma tuturor rangurilor, adica cu . Ar trebui sa ne asteptam ca atât T+ cât si T−
2
m(m + 1) m(m + 1)
sa fie apropiate de . Cu cât T+ difera mai mult de , cu atât ipoteza nula
4 4
devine mai implauzibila si drept urmare vom fi înclinati sa acordam credit alternativei
(Ha).

Calculul valorii p a ipotezei alternative se bazeaza pe faptul ca statistica

T+ − m(m + 1) / 4
m(m + 1)(2m + 1) / 24

este distribuita (cel putin pentru valori „mari” ale lui n) aproximativ normal standard.

100
Ca un exemplu, fie datele din foaia de calcul Excel prezentata în figura de mai jos.
Observam ca dintre cele noua valori cinci sunt pozitive iar patru negative (niciuna nu este
nula). Abstractie facând de semn, ordinea lor este urmatoarea:

0.4 < 0.5 < 0.6 < 1.9 = 1.9 < 2.1 < 3.5...

Doua dintre cele pozitive sunt egale între ele, în consecinta rangurile lor vor fi ambele
4+5
egale cu = 4.5 .
2

Efectul comenzii

MEANS valori semn

din Epi Info este prezentat în figura urmatoare. Valoarea p a ipotezei alternative, obtinuta
cu testul Wilcoxon, este de 0.0139, suficient de mica pentru a ne determina sa o acceptam
ca adevarata.
Asadar, putem afirma ca setul celor cinci valori pozitive difera „semnificativ” de setul
celor patru valori negative. (De mentionat ca daca am fi folosit testul t clasic, valoarea p
ar fi fost de 0.0042, de circa trei ori mai mica. Însa putem fi siguri ca sunt satisfacute
toate conditiile preliminare de normalitate necesare pentru aplicarea testului t?)
Reamintim ca testul t (Student) poate fi folosit, în general, în situatii în care:
a) dispunem de doua esantioane extrase din doua populatii,
b) valorile obtinute de la indivizii din esantioane sunt numerice,
c) dorim sa stabilim ca centrul (valorilor) primei populatii difera de centrul
(valorilor) celei de-a doua populatii, si
d) localizam centrul unei populatii în media sa.

Însa centrul unei populatii poate fi localizat si în mediana, în conditiile în care suntem
interesati mai mult de ranguri si mai putin de valorile numerice ca atare.

101
Valori numerice obtinute din esantioane (extrase din populatii) pot aparea nu doar prin
masurare, ci si prin transformari ale valorilor ordinale, în mod arbitrar.

Exemple: hipo = +1, mediu = +2, hiper = +3;

– – – = –3, – – = –2, – = –1, + = 1, ++ = 2.

În asemenea situatii aplicarea testului t nu are nici o justificare, însa nimic nu ne


împiedica sa aplicam teste neparametrice.

Sa presupunem ca din prima populatie am extras setul de valori numerice

x1 , x 2 ,..., x n1

iar din a doua populatie am extras setul de valori numerice

y1 , y 2 ,..., y n2 .

Conform ideii lui Wilcoxon, sa ordonam crescator valorile (reunite ale) celor doua
seturi, apoi fiecarei valori sa-i atasam rangul ei. (Evident, rangul se recalculeaza în situatii
de egalitate a unor valori.)

Notam cu T1 suma rangurilor obtinute de cele n1 valori xi ce formeaza esantionul


extras din prima populatie. Analog, T2 va fi suma rangurilor obtinute de cele n2 valori
y j ce formeaza esantionul extras din a doua populatie.

102
Ipoteza alternativa pe care am dori-o confirmata este urmatoarea

(Ha): distributia valorilor x în prima populatie difera de distributia valorilor y în a


doua populatie

iar confirmarea ei va avea loc prin respingerea ipotezei nule:

(H0): distributia valorilor x în prima populatie coincide cu distributia valorilor y în a


doua populatie.

Suma de ranguri T1 are valoarea minima n1 (n1 + 1) / 2 si valoarea maxima


n1n 2 + n1 (n1 + 1) / 2 . Pe de alta parte, acceptând adevarul ipotezei nule, ne asteptam ca

suma de ranguri T1 sa fie egala cu n1 (n1 + n2 + 1) / 2 . Cu cât T1 se „departeaza” de aceasta


valoare (spre extremele n1 (n1 + 1) / 2 respectiv n1n 2 + n1 (n1 + 1) / 2 ), cu atât ipoteza nula
devine mai putin plauzibila. Asadar, testul Wilcoxon se bazeaza pe calculul unei sume de
ranguri.

În literatura medicala întâlnim destul de des un alt test, anume testul Mann-Whitney.
Acesta are exact acelasi scop ca si testul Wilcoxon. De fapt, cele doua teste sunt
echivalente.
Pe scurt, în testul Mann-Whitney nu se calculeaza suma de ranguri, ci se compara toate
perechile ( xi , y j ) si se noteaza cu U XY numarul perechilor ( xi , y j ) pentru care xi < yj

plus jumatate din numarul perechilor pentru care xi = yj.

Numarul U XY are valori între 0 si n1n2 , iar în cazul adevarului ipotezei nule ne
n1n2 nn
asteptam ca el sa fie egal cu . Cu cât U XY se „departeaza” de valoarea 1 2 , cu atât
2 2
ipoteza nula devine mai putin plauzibila.
Legatura dintre testele Wilcoxon si Mann-Whitney este data de formula

U XY = n1n2 + n1 (n1 + 1) / 2 − T1

care leaga numarul U XY (Mann-Whitney) de suma rangurilor T1 (Wilcoxon). Nu este de


mirare ca în raportarile Epi Info (vezi figura de mai sus) rezultatele aplicarii celor doua
teste sunt prezentate împreuna.

Testul Kruskal-Wallis nu este altceva decât o generalizare a testului Wilcoxon pentru


cazul a mai mult de doua esantioane.

103
Ca exemplu, sa consideram datele prezentate în articolul „Factors influencing the rate
of healing of gastric ulcers admission to hospital, phenobarbitone, and ascorbic acid”
aparut în Lancet, 1 (1952), pag. 171-175, autori R. Doll si F. Pygott. Este vorba despre
schimbarile procentuale în zona ulcerului gastric dupa un tratament de trei luni.
Datele despre 32 pacienti internati si 32 de pacienti externi, ce exprima schimbarile
procentuale, ordonate în ordine crescatoare, sunt prezentate în tabelele urmatoare:
Tabelul pentru pacientii internati:
-100 -100 -100 -100 -100 -100 -100 -100
-100 -100 -100 -100 -93 -92 -91 -91
-90 -85 -83 -81 -80 -78 -46 -40
-34 0 29 62 75 106 147 1321
Tabelul pentru pacientii externi:
-100 -100 -100 -100 -100 -93 -89 -80
-78 -75 -74 -72 -71 -66 -59 -41
-30 -29 -26 -20 -15 20 25 37
55 68 73 75 145 146 220 1044
Prelucrarea datelor cu Epi Info a condus la urmatoarele rezultate:

Descriptive Statistics for Each Value of Crosstab Variable


Obs Total Mean Variance Std Dev
E 32 490.0000 15.3125 42164.8669 205.3409
I 32 -444.0000 -13.8750 63930.3710 252.8446
ANOVA, a Parametric Test for Inequality of Population Means
(For normally distributed data only)
Variation SS df MS F statistic
Between 13630.5625 1 13630.5625 0.2569
Within 3288952.3750 62 53047.6190
Total 3302582.9375 63
T Statistic = 0.5069
P-value = 0.6140
Mann-Whitney/Wilcoxon Two-Sample Test (Kruskal-Wallis test for two groups)
Kruskal-Wallis H (equivalent to Chi square) = 6.0863
Degrees of freedom = 1
P value = 0.0136
Se poate observa ca testul t nu da rezultate, dar testul Wilcoxon da.

104
5.2. Teste t pereche si nepereche

Sa începem aceasta sectiune prin considerarea a doua seturi de date formale. Sa facem
observatia ca ultima valoare în fiecare set de date poate fi considerata ca aberanta
(outlier), fiind mult mai mare decât restul datelor din seturile respective.

Se poate observa ca aceste valori aberante ridica mediile respective cu circa 25%, însa
le pastreaza ordinea. (Chiar si prin eliminarea lor, media datelor din setul 1 este mai mica
decât media datelor din setul 2.)

Vom lua în considerare doua abordari diferite. În prima abordare vom admite ca datele
provin de la pacienti tratati cu un medicament M, fiind rezultate de laborator obtinute
înainte si dupa tratament (de exemplu, valori ale creatininei). Scaderea valorilor dupa
tratament înseamna îmbunatatirea starii pacientului. Prin urmare, aceste date indica
îmbunatatirea starii pacientilor – cu doua exceptii – dupa tratamentul cu medicamentul M,
ceea ce ne îndeamna sa credem în adevarul ipotezei alternative:

(Pa): în urma tratamentului cu medicamentul M, valoarea creatininei scade.

Valoarea p a acestei afirmatii, obtinuta printr-un test t pereche, este de 0.00010,


confirmând adevarul ipotezei alternative.

În a doua alternativa, vom admite ca datele provin de la doua populatii diferite, primul
set provine de la pacientii „tratati” cu placebo, al doilea set de la pacientii tratati cu
medicamentul M. Media mai mica a setului 2 (comparativ cu setul 1) indica eficacitatea
de ansamblu a medicamentului M si ne îndeamna sa credem în adevarul ipotezei
alternative:

(Na): tratamentul cu medicamentul M este eficace (comparativ cu lipsa de tratament).

Valoarea p a acestei afirmatii, obtinuta prin testul t nepereche, este însa de 0.4080. O
asemenea valoare nu confirma adevarul ipotezei alternative!

Asadar, aceleasi date conduc la concluzii diferite, concluziile depinzând în mod


esential de contextul în care am obtinut datele.

Aceeasi discrepanta se constata si dupa ce se renunta la valorile aberante.

105
106
5.3. Analiza variantei (ANOVA)

În a doua abordare din sectiune anterioara am analizat comparativ doua grupuri diferite
ale aceleiasi populatii, anume grupul celor tratati cu medicamentul M si grupul celor
tratati cu placebo. Grupurile au fost considerate ca esantioane provenind din populatii
diferite.

Daca s-ar fi prescris medicamentul M în câteva doze diferite, atunci am fi avut de-a
face cu mai multe grupuri.

Deseori se pune problema compararii a mai mult de doua populatii, sau a unei populatii
stratificate în mai mult de doua straturi, iar compararea se face prin medii. În asemenea
situatii se poate aplica o generalizare a testului t pentru doua populatii, cunoscuta sub
numele de analiza variantei sau testul ANOVA.

Din punct de vedere istoric, prima aplicare a analizei variantei s-a facut într-o situatie
în care se analizau recoltele obtinute în urma tratarii solului cu diferite feluri de
îngrasaminte. Se pastreaza, traditional, unele dintre notatiile/notiunile folosite atunci (cum
este „media tratamentului”).

Pentru a explica modul în care se efectueaza analiza variantei, sa luam în considerare


mai multe populatii, fiecare populatie având o medie si o varianta proprie (evident,
necunoscute). Extragem, din fiecare populatie, câte un esantion, conform schemei
urmatoare:

Populatia 1 Populatia k Populatia K

media µ1 … media µ k … media µ K

varianta σ12 varianta σ 2k varianta σ 2K

Esantion de volum n1 Esantion de volum nk Esantion de volum n K

media de esantion m1 media de esantion mk media de esantion m K

varianta de esantion varianta de esantion


varianta de esantion s k2
s12 s K2

107
Analiza variantei se efectueaza pentru o ipoteza nula

(H0): nu exista diferente între mediile populatiilor

care va trebui respinsa, pentru a se confirma ipoteza alternativa

(Ha): cel putin doua dintre mediile µ k difera între ele (adica cel putin doua dintre
populatii difera prin medii).

Ca de obicei în problemele de testare de ipoteze, sa admitem pentru moment ca ipoteza


nula ar fi adevarata, si sa deducem consecinte logice ale ei. Daca nu ar exista diferente
între mediile populatiilor µ k , ar trebui sa ne asteptam ca mediile de esantion mk sa fie
„apropiate” între ele. De asemenea, cumulând cele K esantioane întrun esantion „global”
de volum N = ∑n k , ar trebui ca nici media globala m = ∑n m ∑n
k k k sa nu difere

prea mult de mediile de esantion mk . Am avea nevoie de un numar care sa exprime cât de
„apropiate” sunt – în ansamblu – mediile de esantion mk de media globala m.

Un asemenea numar, denumit traditional variabilitatea între tratamente, este


urmatorul:

SST = ∑ n (m
k
k k − m) 2 .

(Initialele provin de la sum of squares for treatments = suma patratelor pentru


tratamente.)

Numarul SST este minim (de fapt este 0) daca si numai daca toate mediile de esantion
sunt egale între ele:

m1 = ... = mk = ... = m K .

Valori mici ale lui SST apar atunci când mediile de esantion mk sunt apropiate între
ele, iar asemenea situatii confirma ipoteza nula. Iar daca ar exista diferente mari între
mediile de esantion, atunci cel putin câteva dintre ele vor diferi considerabil de media
globala, ceea ce va determina o valoare mare a lui SST, confirmând astfel ipoteza
alternativa (prin respingerea celei nule). Dar, oare cât de mare trebuie sa fie numarul SST
pentru ca sa fim îndreptatiti sa respingem ipoteza nula?

108
„SS Total” nu joaca nici un rol special. Includerea acestei valori în tabel doar
evidentiaza faptul ca testul statistic se bazeaza pe descompunerea variantei totale a datelor
în cele doua surse de variabilitate: cea „dintre” esantioane (between) si cea din interiorul
esantioanelor (within).
Ca exemplu, sa consideram actiunea unui medicament asupra indivizilor din patru
categorii de vârsta, timp de 60 de zile, exprimata în scaderea procentuala a nivelului
colesterolului:

Sub 20 ani 20 – 39 ani 40 – 59 ani Peste 60 ani

15 22 17 13
17 25 22 8
31 20 28 19
7 36 15 16
19 22 10 22
20 12 2 media = 15.60
media = 18.17 9 8
41 media = 14.57
17
media = 22.67

Avem N = 27 , K = 4 . Rezultatele oferite de Epi Info sunt urmatoarele:

ANOVA, a Parametric Test for Inequality of Population Means


(For normally distributed data only)
Variation SS df MS F statistic
Between 305.4376 3 101.8125 1.3414
Within 1745.7476 23 75.9021
Total 2051.1852 26
P-value = 0.2822

Valoarea p fiind 0.2822, respingerea ipotezei nule este improprie (chiar daca
discrepanta între medii ni s-ar parea suficient de mare). Nu dispunem de suficiente date
pentru a trage concluzia ca scaderea procentuala a nivelului colesterolului depinde de
categoria de vârsta.

(Dar nici nu putem trage concluzia ca nu depinde de categoria de vârsta!)

109
5.4. Interpretarea datelor medicale
Interpretarea datelor (si cunostintelor) medicale trebuie sa se bazeze pe o întelegere
exacta a termenilor folositi. Din acest punct de vedere, notiunea de prevalenta a unei
maladii M este clara, fiind legata de frecventa indivizilor bolnavi. Mai precis, prevalenta
maladiei M este numarul de indivizi bolnavi dintr-un esantion de 1000 de indivizi ai
populatiei, alesi aleator.
Evident, prevalenta este o notiune statistica; ea poate fi doar estimata, prin metode
statistice.
Sa ne imaginam ca un test biologic S – care ar putea sa dea rezultat pozitiv sau negativ
– produce informatii asupra maladiei M. Ne intereseaza felul în care informatia privind
rezultatul testului asupra unui individ va modifica probabilitatea ca acel individ sa aiba
maladia M; cu alte cuvinte, cum se schimba probabilitatea apriorica P(M) în
probabilitatea a posteriori P(M | S).
Numar indivizi care
pentru care au maladia M nu au maladia M
Testul S da rezultat pozitiv TP FP
Testul S da rezultat negativ FN TN
Apar notiunile de senzitivitate si de specificitate a testului. Definirea lor este usoara
daca vom considera urmatorul tabel de contingenta:
Evident, un individ oarecare ar putea cadea în una dintre cele patru categorii:
– TP (true positive), care au maladia M iar testul da rezultat pozitiv,
– TN (true negative), care nu au maladia M iar testul da rezultat negativ,
– FP (false positive), care nu au maladia M iar testul da rezultat pozitiv,
– FN (false negative), care au maladia M iar testul da rezultat negativ.
Cunoscând repartizarea indivizilor, putem defini cu usurinta senzitivitatea testului S
prin proportia celor cu rezultat pozitiv în cadrul celor ce au maladia M:

Se = TP
TP + FN
Analog, specificitatea testului S este proportia indivizilor care testeaza negativ în
cadrul celor ce nu au maladia M:

Sp = TN
TN + FP
Un test bun trebuie sa aiba atât specificitatea, cât si senzitivitatea ridicate (aproape de 1).

110
Evident, specificitatea si senzitivitatea unui test sunt estimate din datele provenite
dintr-un esantion.
Iata, dupa Shortliffe, ca exemplu concludent, cazul testului PAP (Prostatic Acid
Phosphatase) folosit pentru detectarea cancerului de prostata, maladie despre care se stie
ca are prevalenta 33/100000. Studii de cercetare arata ca senzitivitatea testului PAP este
de aproximativ 70%, întrucât din 113 pacienti 79 au testat pozitiv. Specificitatea sa este
mai ridicata, de aproximativ 94% (doar 13 indivizi din 217 au testat pozitiv). Ce se poate
deduce odata cunoscute toate aceste date? Informatia cea mai importanta poarta numele
de valoarea predictiva pozitiva a testului, care prin definitie este probabilitatea ca un
individ ce testeaza pozitiv sa aiba maladia M. Este de fapt probabilitatea unui eveniment
conditionat, în notatii evidente P(M | S). Formula de calcul este simpla:
prev ⋅ Se
VPP =
prev ⋅ Se + (1 − prev) ⋅ (1 − Sp)
(ea este un caz particular al clasicei formule a lui Bayes!). In cazul nostru, un calcul
imediat arata ca VPP = 0.0038, o valoare destul de mica!
Repartizarea teoretica a indivizilor în functie de un test

True negatives
Nu au False positives
maladia

α
False negatives
True positives

Nu putem afirma întotdeauna ca rezultatul unui test biologic este boolean (fie pozitiv,
fie negativ). Exista teste care au ca rezultate numere reale. Acceptând un prag de separare
α între valorile „pozitive” si cele „negative” ale testului, reprezentarea grafica a acestei
situatii este cea din figura.
Evident, am presupus ca ambele populatii, si cea a celor ce au maladia, si cea a celor ce
nu au maladia, sunt repartizate normal (Gaussian). O deplasare spre dreapta a pragului a
conduce la o specificitate mai mare, dar la o senzitivitate mai scazuta. (Vor fi mai putini
indivizi fals pozitivi, dar mai multi fals negativi.)

111