Sunteți pe pagina 1din 56

TESTE STATISTICE.

TESTE
DE MEDII. TESTUL CHI
PĂTRAT
Călinici Tudor
2017
OBIECTIVE EDUCAŢIONALE

 Prezentarea testelor de tip Z pentru


comparația mediilor

 Prezentarea și exemplificarea testelor de tip


T pentru comparația mediilor

 Prezentarea și exemplificarea testului Chi


Pătrat
TEST STATISTIC
 Testează ipoteze statistice

 Scopul testului este de a demonstra că ipoteza nulă


este falsă.

 Metoda reducerii la absurd; testul are loc în condițiiile


în care ipoteza nulă ar fi adevărată

 Pe baza rezultatului testului (p sau valoare critică) se


respinge (sau nu) ipoteza nulă. Dacă ipoteza nulă se
respinge se acceptă ipoteza alternativă cu un risc de
eroare de speța I. Dacă ipoteza nulă nu se poate
respinge, nu se poate demonstra ipoteza alternativă,
cu un risc de eroare de speța II
TESTE STATISTICE - CLASIFICĂRI
 Parametrice – de semnificaţie
 Pentruindicatori ai caracteristicilor cantitative –
medie, variaţie, coeficient de corelaţie, abatere
standard, etc.
 Neparametrice – de concordanţă
 Pentru caracteristici calitative sau distribuții ce
nu urmează legea normală– distribuţii de
frecvenţe, coeficienţi de asociere, mediane, etc
VARIABILE CANTITATIVE
 Teste parametrice vs. Teste non-parametrice

 Distribuție normală
  teste parametrice
 Distribuție care nu respecta legea normală
  teste non-parametrice
SUNT DATELE NORMAL DISTRIBUITE?
 Parametrii de statistică descriptivă care
indică distribuția normală:
 Media, modulul și mediana au valori identice sau
apropiate
 Modulul este apropiat de centrul distribuției
 Populația este omogenă
 Asimetria aproape de 0
 Boltirea aproape de 0

6
SUNT DATELE NORMAL DISTRIBUITE?
 Teste de verificare a normalității datelor:
 TestulKolmogorov-Smirnov
 Dacă n < 50 se folosește testul Shapiro-Wilk

 H0 = nu există diferențe statistice


semnificative între distribuția
observată și cea normală
 H1 = există diferențe statistice
semnificative între distribuția
observată și cea normală
 p < 0,05 se respinge ipoteza nulă, datele nu
sunt normal distribuite
7
TESTE PARAMETRICE ȘI NON-
PARAMETRICE
Teste parametrice Teste non-parametrice
echivalente
Z, ANOVA Kruskal-Wallis
Student Mann–Whitney U
(eșantioane Mann–Whitney–
independente) Wilcoxon
În prealabil se aplică Wilcoxon–Mann–
teste pentru varianță Whitney
bazate pe statistica F – Wilcoxon rank-sum
F, Levine, Barlet, etc.
Student Wilcoxon signed-rank
(eșantioane pereche)
8
NUMĂRUL EȘANTIOANELOR /
CONDIȚIILOR
 Mai mult de 2 eșantioane / condiții:
 Distribuție normală – ANOVA
 Distribuția nu este normală – Kruskal-Wallis
TESTE PARAMETRICE

 Variabile cantitative – comparaţii de medii

 Comparație între valoare teoretică și valoare observata


 Comparație între două valori observate

 Ipoteza alternativă vs.ipoteza nulă

 Test unilateral, test bilateral

 Grupuri independente / Înregistrări perechi


MODEL TEORETIC
 Avem dovezi să afirmăm că două populații
sunt diferite din punct de vedere al unui
parametru – cantitativ
 Se poate formula ipoteza ca “din punct de
vedere al respectivului parametru, populațiile
sunt diferite” sau ” în prima populație
parametrul respectiv este mai mare decât în
a doua”
IPOTEZELE STATISTICE
 Ipoteza H0 – nu există diferenţă semnificativ
statistică între cele două medii
 Ipoteza alternativă test bilateral H1– cele

două medii sunt semnificativ diferite


 Ipoteza alternativă test unilateral H1 – una

dintre medii este semnificativ mai mare


decât cealaltă
REGIUNE CRITICĂ
 Pentru test bilateral – reuniune de intervale
(-, -Z ]  [Z , + )

 Pentru testul unilateral


(-, -Z ] sau [Z , + ) – în funcţie de direcţia de
comparaţie
TESTE DE TIP Z
 Condiţii de aplicare

 Populaţie normal distribuită


 Variaţia în populaţie este
cunoscută, sau cel puţin poate fi
estimată
 Eşantioane mari – talia peste 30
EXEMPLU 1
 Se cunoaşte că media taliei normale a nou-
născuţilor la termen este de 51 cm. Pe un
eşantion reprezentativ de 49 nou-născuţi
prematur se observă o medie a taliei de 45
cm cu o variaţie de eşantionare egală cu 9.
Diferenţa între cele două medii este
semnificativă? Adică, se poate afirma că
prematurii se nasc cu o talie mai mică decât
nou-născuţii la termen?
REZOLVARE (1)
 Ipoteza nulă H0: In ceea ce priveşte talia la
naştere nu există o diferenţă semnificativă
între talia prematurilor şi cea a nou născuţilor
la termen.
 Ipoteza alternativă H1: In ceea ce priveşte

talia la naştere talia prematurilor este


semnificativ mai mică decât talia născuților
la termen.
REZOLVARE (2)
 Parametrul testului este
 m
U=
 n

Alegem pragul de semnificaţie α = 0,05, regiunea


critică va fi [1,96, + )
REZOLVARE (3)

  
Pentru datele de cercetare parametrul U are
valoarea

 4,66>1,96, deci U aparţine regiunii critice, deci


ipoteza nulă H0 se poate respinge cu un risc de
eroare de speţa I < 0,05
CONCLUZIE
 Talia prematurilor este în medie semnificativ
mai mică decât cea a nou născuţilor la
termen. Această afirmație are probabilitatea
de 5% de a fi greșită.
TESTE T- STUDENT
TESTE T - STUDENT
 Se renunţă la cerinţa ca variaţia în populaţie
să fie cunoscută şi la condiţia referitoare la
talia eşantionului

 Comparaţia mediilor obţinute din date


provenind din eşantioane perechi
 Comparaţia mediilor obţinute din date
provenind din eşantioane independente
TEST T PENTRU EȘANTIOANE
PERECHI
 Pentru orice obiect din primul eșantion avem
perechea acestuia în al doilea eșantion

 Cel mai frecvent exemplu – un eșantion,


două măsurători

 Ex: Se dorește verificarea efectului somnului


asupra glicemiei. Astfel, s-a măsurat glicemia
la 10 persoane, acestea au primit un
somnifer, au fost trezite după 2 ore și li s-a
măsurat din nou nivelul glicemiei
IPOTEZE ȘI DECIZIE CU AJUTORUL
VALORII P
 Ipoteza nulă: Somnul nu influențează nivelul
glicemiei
 Ipoteza alternativă: Somnul influențează
nivelul glicemiei

 p<=0,05; ipoteza nulă se respinge, deci


somnul influențează nivelul glicemiei
 p>0,05; nu pot respinge ipoteza nulă, deci
nu putem demonstra că somnul ar influența
nivelul glicemiei
TESTE T PENTRU EȘANTIOANE
INDEPENDENTE
 Pe două eșantioane independente se
studiază un parametru cantitativ (ex: două
grupuri de persoane – diabetici respectiv fără
diabet– se studiază valoarea tensiunii
arteriale sistolice)

 Întrebarea de cercetare: Există diferențe din


punct de vedere al TAS între grupul
diabeticilor și cel al persoanelor fără diabet?
MEDII ȘI VARIANȚE
COMPARAŢIA DE MEDII CU TESTUL T –
EŞANTIOANE INDEPENDENTE
 Presupune iniţial verificarea diferenţelor dintre
variaţii cu ajutorul testelor bazate pe statistica F
(F, Barlet, Levine)

 Test Student pentru eşantioane perechi presupunând


variaţii egale
 Test Student pentru eşantioane perechi presupunând
variaţii inegale
IPOTEZE TESTE DE VARIANȚE
 Ipoteza nulă: Varianța este la fel în ambele
eșantioane

 Ipoteza alternativă: Varianța unui eșantion


este diferită de a celuilalt

 Decizie în funcție de valoarea p


 Dacă p<=0,05 respingem ipoteza nulă –
eșantioanle au varianțe diferite
 Dacă p>0,05 nu putem respinge ipoteza nulă –
eșantioanele au varianțele la fel
ALGORITM
Aplicăm test statistic (F;
Barlet; Levine) pentru a
verifica egalitatea
varianțelor.

Rezultatul este valoarea p

P<0.0
5

Aplic testul T pentru Aplic testul T pentru


eșantioane eșantioane
independente – independente –
varianțe inegale varianțe egale
TEST T - UNILATERAL
 Ipoteza nulă: Nu există diferență din punct de
vedere al respectivului parametru între cele două
eșantioane
 Ipoteza alternativă: Parametrul de interes are
valoare mai mare în primul eșantion

 Decizie cu ajutorul lui p:


 Dacă p<=0,05 atunci respingem ipoteza nulă și
acceptăm ipoteza alternativă, deci parametrul de
interes are valoare mai mare în primul eșantion,
afirmație făcută cu o încredere de 95%
 Dacă p>0,05 nu putem respinge ipoteza nulă; nu
avem destule argumente ca să spunem că diferența
observată se datorează eșantionării
TEST T - BILATERAL
 Ipoteza nulă: Nu există diferență din punct de
vedere al respectivului parametru între cele două
eșantioane
 Ipoteza alternativă: Există diferență din punct de
vedere al respectivului parametru între cele două
eșantioane

 Decizie cu ajutorul lui p:


 Dacă p<=0,05 atunci respingem ipoteza nulă și
acceptăm ipoteza alternativă, deci există diferențe
d.p.d.v. al parametrului studiat între cele două
eșantioane, afirmație făcută cu o încredere de 95%
 Dacă p>0,05 nu putem respinge ipoteza nulă; nu avem
destule argumente ca să spunem că diferența observată
se datorează eșantionării
NUMĂR DE GRADE DE LIBERTATE
 Fiind date 2 eșantioane, primul cu talie n, al
doilea cu talie m, numărul de grade de
libertate pentru testul T va fi

df=n+m-2
EXEMPLU DE APLICARE
 Se doreşte evaluarea unei substanţe (statina)
asupra nivelului colesterolului. În acest scop
s-a constituit un eşantion de 1204 de
persoane cu caracteristici clinice similare.
Unele persoane au primit medicament, altele
au primit placebo. S-a măsurat colesterolul la
intrarea în studiu şi la ieşirea din studiu.
EXEMPLU DE APLICARE
 Lotul a fost împărțit în două subloturi – cei ce
primesc substanță activă, respectiv cei ce
primesc placebo.
 Vom spune că medicamentul funcționează
dacă colesterolul final la grupul celor care a
primit medicament este semnificativ mai mic
decât colesterolul inițial la grupul respectiv.
 Acest lucru se realizează aplicând testul T
pentru eșantioane perechi
IPOTEZE
 Ho – Medicamentul nu a avut efect
(colesterolul la intrarea în studiu e la fel ca la
iesirea din studiu)
 H1 – Medicamentul a avut efect (colesterolul
la iesirea din studiu este mai mic decât la
intrarea în studiu)
DECIZIE
 P (one-tail) = 0 (<0,05) deci
acceptăm H1 cu o încredere
de 95%

 Medicamentul a avut efect


EFECTUL PLACEBO

 Pacienții care au primit placebo au înregistrat de


asemenea scăderea valorii colesterolului

 Pentru a putea spune că medicamentul funcționează


trebuie să arătăm că e mai bun ca placebo
EXEMPLU DE APLICARE

 Cele două subloturi ar trebui să fie la același


nivel la intrarea în studiu.
 Deci, înainte de aplicarea testului pentru
perechi va trebui comparat colesterolul inițial
la grupul ce va primi statină cu colesterolul
inițial la grupul care va primi placebo.
 Cele două eșantioane sunt independente, ce
test vom utiliza pentru această comparație?
 Răspunsul este dat de rezultatul testului F
 Ipoteza nulă: Varianța
este la fel în ambele
TEST F eșantioane

 Ipoteza alternativă:
Varianța unui eșantion
este diferită de a celuilalt

 p=0.087 >0,05 deci


putem considera că
varianțele sunt la fel în
cele două eșantioane
 Vom aplica testul T
pentru eșantioane
independente cu varianțe
egale
 Ipoteza nulă: Nivelul
colesterolului la intrarea
REZULTAT în studiu este același în
cele două eșantioane
 Ipoteza alternativă:
Nivelul colesterolului la
intrarea în studiu
DIFERĂ între eșantioane
 Decizie: p (two
tail)=0,27 >0,05, nu
pot respinge ipotea
nulă, deci nu am motive
să afirm că din punct de
vedere al colesterolului
grupurile sunt diferite
TESTUL HI-PĂTRAT

 compararea a două distribuţii observate în


scopul stabilirii fie a independenţei dintre
două criterii sau omogenitatea dintr-un tabel
de contingenţă

 Frecvenţele sunt date de numărul de cazuri şi nu


reprezintă procente sau ranguri
 Categoriile sunt exhaustive şi mutual exclusive:
orice subiect poate aparţine unei categorii dar
numai uneia
EXEMPLU
 Astfel vom presupune că se caută efectul
fumatului asupra îmbolnăvirii de o maladie
dată (M). Pentru aceasta se observă un
eşantion de 400 de subiecţi dintre care:
 160 au boala M prezentă ( şi 240 nu au boala
prezentă )
 130 sunt fumători T ( şi 270 nu sunt
fumători ).
TABEL DE CONTINGENŢĂ

Maladia M
Fumător T M M Total
T 80 50 130
T 80 190 270
Total 160 240 400
DECI
 Se caută să se stabilească dacă fumatul
influenţează apariţia maladiei M sau dacă
apariţia acesteia este independentă de
fumat.
 Tabelul de contingenţă prezentat anterior
este obţinut prin observarea unui eşantion de
400 de indivizi. Acesta se numeşte tabel de
contingenţă observat, iar frecvenţele pe care
le conţine se numesc frecvenţe observate.

PRINCIPIUL TESTULUI
2

 Astfel dacă se face ipoteza de independenţă între cele


două caractere M şi T (adică ipoteza nulă H 0 , în acest
caz) atunci se poate calcula un tabel de contingenţă
teoretic care satisface această ipoteză de independenţă.
Se determină apoi abaterea (ecartul ) dintre cele două
tabele de contingenţă observat şi teoretic.
 Dacă această abatere este mică atunci ea este explicată
doar prin întâmplare (hazard) şi ipoteza de independenţă
este acceptată. Dacă această abatere este foarte
importantă pentru ca doar întâmplarea să o explice
atunci ipoteza de independenţă trebuie să fie respinsă.
 Pentru efectuarea testului este deci necesar să se ştie:
 calculatabelul de contingenţă teoretic
 determina ecartul dintre cele două tabele de contingenţă.

  
CALCULUL TABELULUI DE
CONTINGENŢĂ TEORETIC

Maladia M
Fumător T M M Total
T 80 50 130
T 80 190 270
Total 160 240 400

M M Total
T 130  160 130  240 130
400 400

T
270  160 270  240 270
400 400

Total 160 240 400


TABELUL DE CONTINGENŢĂ TEORETIC
M M Total
T 52 130-52 130
T 160-52 270-(160-52) 270
Total 160 240 400

M M Total
T 52 78 130
T 108 162 270
Total 160 240 400
OBSERVAŢIE
 Se poate astfel constata că pentru un tabel
de contingenţă teoretic 2 x 2 este suficient
să calculeze o frecvenţă teoretică pentru a
putea determina tabelul în întregime.
 Această proprietate se regăseşte şi în cazul
general a unui tabel cu L linii şi C coloane,
unde este uşor de constatat că este suficient
să se calculeze primele (L-1) x (C-1)
frecvenţe teoretice celelalte obţinându-se
prin diferenţe. Produsul (L-1) x (C-1)
 2 de grade de libertate al lui
defineşte numărul
ECARTUL DINTRE CELE DOUĂ TABELE DE
CONTINGENŢĂ
 Fie fio şi fit frecvenţele observate şi teoretice
(i=1,2,..,n) situate în aceleaşi poziţii în cele două
tablouri (de exemplu, f10=80 şi f1t=52). Ecartul între
cele două tabele notat cu X2 se calculează prin
formula:
Maladia M
Fumător T M M Total
T 80 50 130
LC
( fi  fi )
0 t 2
X 
T 80 190 270
2
t Total 160 240 400
i 1 fi
M M Total
T 52 78 130
T 108 162 270
Total 160 240 400
ETAPELE TESTULUI
Maladia M
Fumător T M M Total
T 80 50 130
T 80 190 270
Total 160 240 400

Cazul general Ilustrarea printr-un exemplu


Problema Se încearcă să se determine, cu Fumatul (T) şi o maladie (M) sunt
ajutorul unui eşantion de n independente? In acest caz,
subiecţi, dacă două caractere A şi L=C=2, iar eşantionul observat are
B având L şi respectiv C n=400 subiecţi repartizaţi în tabelul
modalităţi de realizare sunt sau nu de contingenţă prezentat mai sus.
independente.
ETAPA 1

Etapa 1. H0: caracterele A şi B sunt


Definirea independente. H0: fumatul nu are influenţă asupra
ipotezei nule H0 apariţiei maladiei M.
ETAPA 2

Etapa 2. L C
( fi0  fit ) 2 LC
( fi0  fit )2
X 
2
urmează o X  
2
urmează o lege
Definirea unui i 1 fi t
i 1 fi t

parametru
lege  2 cu (L-1) x (C-1) grade de  2 cu 1 grad de libertate.
libertate
ETAPA 3

Etapa 3. Fie  pragul de semnificaţie al S-a ales pragul de semnificaţie  =


Pragul de testului. 0.05
semnificaţie
ETAPA 4
Etapa 4. Ţinând seama de faptul că X2 Pentru pragul  =0.05 şi  2 cu 1
Definirea urmează legea  2 cu (L-1) x (C- grad de libertate valoarea 2 =
regiunii critice 1) grade de libertate se determină 3.84, astfel că în acest caz regiunea
valoarea 2 încât critică este intervalul [3.84 , ).
P(  2  2 ) = . Regiunea
critică este [ 2 ,).
ETAPA 5
Etapa 5. - Se calculează frecvenţele 2 (80  52) 2
Calcularea valorii teoretice Se calculează X = +
52
observate a t total linietotal coloana
fi = (50  78) 2 (80  108) 2
parametrului n + +
78 108
- Se calculează
(190  162) 2
( fi0  fit )2
L C + =37.2
X 2 162
i 1 fit

Maladia M
Fumător T M M Total
T 80 50 130
T 80 190 270
Total 160 240 400

M M Total
T 52 78 130
T 108 162 270
Total 160 240 400
ETAPA 6

Etapa 6.  Dacă X2[3.84, ) se X2 >> 3.84 aşa că ipoteza nulă H0


Decizia respinge H0 cu un risc de se respinge cu un risc inferior lui
eroare de prima speţă  . 5%.
 Dacă X2[3.84, ) atunci H0 In concluzie, fumatul se asociază cu
nu se respinge, acceptându-se maladia M favorizând-o.
H0 cu un risc de eroare de
speţa a doua 
SĂRBĂTORI FERICITE ȘI UN AN NOU SEMNIFICATIV
MAI BUN! (TEST UNILATERAL, P<0,05)

S-ar putea să vă placă și