Sunteți pe pagina 1din 64

TESTE STATISTICE.

TESTE DE
MEDII
Călinici Tudor
2016
OBIECTIVE EDUCAŢIONALE
 Prezentarea conceptului de test statistic

 Prezentarea şi exemplificarea testelor de tip Z


pentru comparația mediilor

 Prezentarea și exemplificarea testelor de tip T


pentru comparația mediilor
IPOTEZE
 Formularea de noi ipoteze (sau modele sau teorii)
este una dintre cele mai importante aspecte ale
cercetării ştiinţifice. Aceste ipoteze încercă să
descrie sau să explice anumite fenomene reale. In
multe cazuri există ipoteze anterioare (descrieri
sau explicaţii) pe care oamenii de ştiinţă doresc
să le înlocuiască cu altele noi
 Pentru a fi valabile, ipotezele trebuie să fie
testate
POPULAŢIE - EŞANTION
 Atunci cînd o investigaţie de tip statistic se efectuează pe
un eşantion, orice rezultat obţinut are o valoare relativă,
în sensul că datele respective nu numai că nu coincid cu
cele referitoare la populaţie, dar nici măcar nu se poate
afirma cu certitudine care este diferenţa dintre cele două
genuri de date, de vreme ce starea populaţiei este, de
regulă, necunoscută.
IPOTEZA STATISTICĂ
 Prin urmare, asupra populaţiilor studiate selectiv nu se
pot emite judecăţi cu valoare de certitudine, ci se pot
exprima nişte supoziţii care poartă denumirea de ipoteze.
 Ipoteza statistică este exprimarea în limbaj
statistic a unei ipoteze științifice
 Testarea ipotezelor statistice înseamnă
supunerea ipotezelor unor probe, numite teste statistice,
operaţie în urma căreia ipoteza se respinge sau se
acceptă. O asemenea decizie are întotdeauna la bază
calculul intervalului de confidenţă ce corespunde unui
prag de semnificaţie ales
TEST STATISTIC - CONCEPT
 Testarea unei ipoteze statistice se face prin
compararea a două ipoteze concurente:
 Ipoteza nulă – modelul pe care cercetătorul doreşte
să îl înlocuiască
 Ipoteza alternativă – noul model, menit să
înlocuiască ipoteza nulă

 Exemplu de ipoteză: Populaţia X este diferită de


populaţia Y din punct de vedere al ...
SCOPUL TESTULUI STATISTIC
 Scopul testului statistic este de a dovedi că
ipoteza nulă este falsă.

 Rezultatul testului
 Nu putem afirma că acceptăm ipoteza nulă
 O putem sau nu nega
ETAPELE UNUI TEST STATISTIC
 Definirea ipotezelor
 Alegerea unui parametru

 Alegerea unui prag de semnificaţie

 Alegerea unei regiuni critice

 Calcularea valorii observate a parametrului

 Luarea deciziei
FORMULAREA PROBLEMELOR ÎN TERMENII
IPOTEZELOR STATISTICE

 Definirea ipotezei nule – testul se desfăşoară sub


prezumţia că ipoteza nulă ar fi adevărată H0

 Definirea diferenţei alternative - numită şi ipoteză de


lucru – contrazice ipoteza nulă H1
ALEGEREA PARAMETRULUI STATISTIC AL
TESTULUI

 Parametrul statistic al testului exprimă într-o


anumită formă diferenţa dintre elementele
comparate.

 Conceptual, parametrul testului este o variabilă


aleatoare de selecţie care urmează o anumită
lege de probabilitate

 Este specific fiecărui test statistic în parte


ALEGEREA REGIUNII CRITICE
 Regiunea critică este un interval sau o reuniune
de intervale care este specific atât de testului
statistic cât şi de nivelul de semnificaţie ales

 (-, -Z ]
 [Z , + )

 (-, -Z ]  [Z , + )

 Constanta Z  se obţine din tabelele teoretice


(cunoscute)
ALEGEREA PRAGULUI DE SEMNIFICAŢIE
 Pragul (nivelul) de semnificaţie reprezintă
mărimea riscului de eroare pe care cercetătorul
este dispus să îl accepte, implicit să şi-l asume

 De obicei se alege un nivel de semnificaţie între 1


şi 5%
CALCULAREA PARAMETRULUI

 Se calculează valoarea parametrului definit anterior


pe baza datelor de cercetare
LUAREA DECIZIEI CU AJUTORUL REGIUNII
CRITICE

 H0 este respinsă dacă valoarea parametrului aparţine


regiunii critice. În acest caz ipoteza alternativă va fi
acceptată, cu un risc de eroare <α – risc de primă speţă
 Dacă valoarea parametrului este în afara regiunii
critice atunci ipoteza nulă nu poate fi respinsă, cu un
risc de eroare de speţă a doua de valoare β
CONCLUZIE
 Prin respingerea ipotezei nule cercetătorul
afirmă că rezultatele observate nu sunt datorate
întâmplării = efect semnificativ
 Când ipoteza nulă nu este respinsă cercetătorul
afirmă că diferenţele observate sunt datorate
întâmplării şi rezultatele nu sunt semnificative
SEMNIFICAŢIA STATISTICĂ
 P – Probability

 Probabilitatea (teoretică) ca să se obțină


rezultatele în condițiile în care ipoteza nulă e
adevărată

 Este specific aplicării testelor cu ajutorul


software-ului statistic

 P nu reprezintă probabilitatea ca ipoteza nulă să


fie adevărată!
INTERPRETAREA VALORII P

 0,01≤ p ≤ 0,05 – rezultate semnificativ statistice


 0,001≤ p < 0,01 – rezultate înalt semnificativ
statistice
 p<0,001 - rezultate foarte înalt semnificativ
statistice
 p>0,05 – rezultate nesemnificativ statistice

 0,05< p ≤ 0,1 – tendinţă către semnificaţie


statistică
CONCLUZIE TEST STATISTIC ÎN FUNCŢIE
DE SEMNIFICAŢIA STATISTICĂ

 Ipoteza nulă poate fi negată dacă rezultatul testului


are cel puţin semnificaţie statistică

 Dacă rezultatul testului nu are cel puţin semnificaţie


statistică, ipoteza nulă nu poate fi negată
ERORI ÎN TESTELE STATISTICE

Adevăr

H0 adevărată H0
Falsă

H0 se Eroare tip I
Corect
respinge (α)
Rezultat
H0 nu se Corect
Eroare tip II
respinge (β)
EROAREA DE TIP I
 = H0 este respinsă deşi este adevărată
 Am concluzionat că există reale diferenţe deşi acestea
sunt datorate şansei
 Concluzionăm că un tratament este eficient pe baza
unei interpretări greşite
EROAREA DE TIP II
 = H0 nu este respinsă deşi este falsă
 Am concluzionat că diferenţele observate sunt
datorate şansei atunci când acestea apar datorită
diferenţelor dintre eşantioane
 Am putea abandona un tratament pe care tocmai
îl testăm sau o direcţie de cercetare
 “Puterea testului” = 1-probabilitatea apariţiei
unei erori de tip II
TEST STATISTIC – MANOPERĂ
 Ca realizare, un test statistic constă în calcularea
unei valori specifice testului (notată cu z, t, F, chi2 etc)
cu ajutorul datelor de cercetare, valoare ce se compară
apoi cu valorile „critice", aflate într-un tabel (valori
cunoscute), şi se decide dacă ipoteza nulă se respinge
sau nu.
TESTE STATISTICE - CLASIFICĂRI
 Parametrice – de semnificaţie
 Pentru indicatori ai caracteristicilor cantitative –
medie, variaţie, coeficient de corelaţie, abatere
standard, etc.
 Neparametrice – de concordanţă
 Pentru caracteristici calitative – distribuţii de
frecvenţe, coeficienţi de asociere
TESTE PARAMETRICE

 Variabile cantitative – comparaţii de medii

 Comparație între valoare teoretică și valoare observata


 Comparație între două valori observate

 Ipoteza alternativă vs.ipoteza nulă

 Test unilateral, test bilateral

 Grupuri independente / Înregistrări perechi


MODEL TEORETIC
 Avem dovezi să afirmăm că două populații sunt
diferite din punct de vedere al unui parametru –
cantitativ
 Se poate formula ipoteza ca “din punct de vedere
al respectivului parametru, populațiile sunt
diferite” sau ” în prima populație parametrul
respectiv este mai mare decât în a doua”
IPOTEZELE STATISTICE
 Ipoteza H0 – nu există diferenţă semnificativ
statistică între cele două medii
 Ipoteza alternativă test bilateral H1– cele două
medii sunt semnificativ diferite
 Ipoteza alternativă test unilateral H1 – una
dintre medii este semnificativ mai mare decât
cealaltă
IPOTEZE STATISTICE – FORMULARE
MATEMATICĂ

H 0 :  A  B sau H 0 :  A  B  0

H1 :  A  B sau H1 :  A  B  0

H1 :  A   B sau H1 :  A   B  0

H1 :  A  B sau H1 :  A   B  0
REGIUNE CRITICĂ
 Pentru test bilateral – reuniune de intervale
(-, -Z ]  [Z , + )

 Pentru testul unilateral


(-, -Z ] sau [Z , + ) – în funcţie de direcţia de
comparaţie
EXEMPLU 1
 O companie farmaceutică își propune să verifice
concentrația de heterozide cardiotonice pentru un
anumit produs. Concentrația medie admisă este
de 2 cu o deviație standard de 0,5 (%). Pentru
aceasta se realizează un eșantion conținând 100
mostre din respectivul produs.

 Care este tipul de test statistic care va fi utilizat?


EXEMPLUL 2
 O companie alimentară declară că un anumit
produs conține maxim 2% grăsimi nesaturate.
Pentru a verifica acest lucru se iau la întâmplare
100 de mostre din acel produs.

 Care este tipul de test statistic care va fi utilizat?


EXEMPLUL 3
 O companie farmacutică produce un medicament
în vederea scăderii tensiunii arteriale. Pentru a
verifica eficacitatea acestui medicament, el a fost
prescris unui eșantion de 100 persoane.
Persoanelor li s-a măsurat tensiunea arterială
înainte și după tratament.

 Care este tipul de test statistic care va fi utilizat?


EXEMPLUL 4
 O companie producătoare de băuturi energizante
dorește să demonstreze superioritatea produsului
ei față de produsele tradiționale Astfel, într-un
grup de 100 sportivi care au realizat aceleași
exerciții, 50 s-au hidratat cu respectivul produs,
50 cu apă. S-a măsurat cantitatea de lichid
eliminată de catre sportivi.

 Care este tipul de test statistic care va fi utilizat?


CATEGORII TESTE PARAMETRICE

 Teste de tip Z

 Teste de tip T
TESTE DE TIP Z
 Condiţii de aplicare

 Populaţie normal distribuită


 Variaţia în populaţie este cunoscută, sau cel puţin
poate fi estimată
 Eşantioane mari – mai mari de 30 de persoane
TIPURI DE TESTE Z
 Comparaţia mediei unui eşantion cu media unei
populaţii

 Comparaţia mediilor a două populaţii


EXEMPLU 1
 Se cunoaşte că media taliei normale a nou-
născuţilor la termen este de 51 cm. Pe un
eşantion reprezentativ de 49 nou-născuţi
prematur se observă o medie a taliei de 45 cm cu
o variaţie de eşantionare egală cu 9. Diferenţa
între cele două medii este semnificativă? Adică,
se poate afirma că prematurii se nasc cu o talie
mai mică decât nou-născuţii la termen?
REZOLVARE (1)
 Ipoteza nulă H0: In ceea ce priveşte talia la
naştere nu există o diferenţă semnificativă între
talia prematurilor şi cea a nou născuţilor la
termen.
 Ipoteza alternativă H1: In ceea ce priveşte talia la
naştere EXISTĂ o diferenţă semnificativă între
talia prematurilor şi cea a nou născuţilor la
termen.
REZOLVARE (2)
 Parametrul testului este
 m
U=  n

Alegem pragul de semnificaţie α = 0,05, regiunea


critică va fi (-, -1,96]  [1,96, + )
REZOLVARE (3)

 Pentru datele de cercetare parametrul U are valoarea

51 − 45 6𝑥7
𝑈= = = 4,66
9 9
49

 4,66>1,96, deci U aparţine regiunii critice, deci ipoteza


nulă H0 se poate respinge cu un risc de eroare de speţa
I < 0,05
CONCLUZIE
 Talia prematurilor este în medie semnificativ
diferită (mai mică) decât cea a nou născuţilor la
termen. Afirmând acest lucru există o
probabilitate mai mică de 5% de a face o eroare.
EXEMPLU 2
 Se doreşte să se studieze dacă există diferenţă
semnificativ statistică între nivelul seric al
magneziului la persoanele emigrate din
Republica Moldova în România. Se cunoaşte
faptul că nivelul seric al magneziului urmează
legea normală cu o variaţie de 1 mg/100ml la
persoanele din România, respectiv cu o variaţie
de 2,3/100ml la persoanele din Moldova.
 Nivelul mediu al magneziului seric, obţinut la un
eşantion de 120 de persoane din România a fost 2
mg/100 ml în timp ce la măsurătorile pe un grup
de 80 de persoane emigrate din Republica
Moldova a rezultat un nivel mediu de
2,5mg/100ml
REZOLVARE (1)
 Ipoteza nulă H0: In ceea ce priveşte nivelul seric
al magneziului la persoanele emigrate din
Republica Moldova în România nu există
diferenţă semnificativ statistică faţă de
persoanele născute în România
 Ipoteza alternativă H1: In ceea ce priveşte nivelul
seric al magneziului la persoanele emigrate din
Republica Moldova în România EXISTĂ
diferenţă semnificativ statistică faţă de
persoanele născute în România
REZOLVARE (2)
 În acest caz parametrul este

𝑋1 − 𝑋2
𝑍=
𝜎 21 𝜎 2 2
+
𝑛1 𝑛2
Alegem pragul de semnificaţie α = 0,05, regiunea critică va
fi (-, -1,96]  [1,96, + )
REZOLVARE (3)
 Utilizând datele de cercetare obţinem

2 − 2,5
𝑍= = −2,59
1 2,3
+
120 80
-2,59 <-1,96 deci Z aparţine regiunii critice, deci
ipoteza nulă H0 se poate respinge cu un risc de
eroare de speţa I < 0,05
CONCLUZIE
 In ceea ce priveşte nivelul seric al magneziului la
persoanele emigrate din Republica Moldova în
România EXISTĂ diferenţă semnificativ
statistică faţă de persoanele născute în România
TESTE T - STUDENT
 Se renunţă la cerinţa ca variaţia în populaţie să
fie cunoscută şi la condiţia referitoare la talia
eşantionului

 Comparaţia mediilor obţinute din date provenind


din eşantioane perechi
 Comparaţia mediilor obţinute din date provenind
din eşantioane independente
TEST T PENTRU EȘANTIOANE PERECHI
 Pentru orice obiect din primul eșantion avem
perechea acestuia în al doilea eșantion

 Cel mai frecvent exemplu – un eșantion, două


măsurători

 Ex: Se dorește verificarea efectului somnului


asupra glicemiei. Astfel, s-a măsurat glicemia la
10 persoane, acestea au primit un somnifer, au
fost trezite după 2 ore și li s-a măsurat din nou
nivelul glicemiei
IPOTEZE ȘI DECIZIE CU AJUTORUL VALORII
P

 Ipoteza nulă: Somnul nu influențează nivelul


glicemiei
 Ipoteza alternativă: Somnul influențează nivelul
glicemiei

 p<=0,05; ipoteza nulă se respinge, deci somnul


influențează nivelul glicemiei
 p>0,05; nu pot respinge ipoteza nulă, deci nu
putem demonstra că somnul ar influența nivelul
glicemiei
TESTE T PENTRU EȘANTIOANE
INDEPENDENTE

 Pe două eșantioane independente se studiază un


parametru cantitativ (ex: două grupuri de
persoane – diabetici respectiv fără diabet– se
studiază valoarea tensiunii arteriale sistolice)

 Întrebarea de cercetare: Există diferențe din


punct de vedere al TAS între grupul diabeticilor
și cel al persoanelor fără diabet?
MEDII ȘI VARIANȚE
COMPARAŢIA DE MEDII CU TESTUL T –
EŞANTIOANE INDEPENDENTE

 Presupune iniţial verificarea diferenţelor dintre


variaţii cu ajutorul testelor bazate pe statistica F (F,
Barlet, Levine)

 Test Student pentru eşantioane perechi presupunând


variaţii egale
 Test Student pentru eşantioane perechi presupunând
variaţii inegale
IPOTEZE TESTE DE VARIANȚE
 Ipoteza nulă: Varianța este la fel în ambele
eșantioane

 Ipoteza alternativă: Varianța unui eșantion este


diferită de a celuilalt

 Decizie în funcție de valoarea p


 Dacă p<=0,05 respingem ipoteza nulă – eșantioanle
au varianțe diferite
 Dacă p>0,05 nu putem respinge ipoteza nulă –
eșantioanele au varianțele la fel
ALGORITM
Aplicăm test statistic (F;
Barlet; Levine) pentru a
verifica egalitatea
varianțelor.

Rezultatul este valoarea p

P<0.05

Aplic testul T pentru Aplic testul T pentru


eșantioane independente eșantioane independente
– varianțe inegale – varianțe egale
TEST T - UNILATERAL
 Ipoteza nulă: Nu există diferență din punct de
vedere al respectivului parametru între cele două
eșantioane
 Ipoteza alternativă: Parametrul de interes are
valoare mai mare în primul eșantion

 Decizie cu ajutorul lui p:


 Dacă p<=0,05 atunci respingem ipoteza nulă și
acceptăm ipoteza alternativă, deci parametrul de
interes are valoare mai mare în primul eșantion,
afirmație făcută cu o încredere de 95%
 Dacă p>0,05 nu putem respinge ipoteza nulă; nu
avem destule argumente ca să spunem că diferența
observată se datorează eșantionării
TEST T - BILATERAL
 Ipoteza nulă: Nu există diferență din punct de vedere
al respectivului parametru între cele două eșantioane
 Ipoteza alternativă: Există diferență din punct de
vedere al respectivului parametru între cele două
eșantioane

 Decizie cu ajutorul lui p:


 Dacă p<=0,05 atunci respingem ipoteza nulă și acceptăm
ipoteza alternativă, deci există diferențe d.p.d.v. al
parametrului studiat între cele două eșantioane, afirmație
făcută cu o încredere de 95%
 Dacă p>0,05 nu putem respinge ipoteza nulă; nu avem
destule argumente ca să spunem că diferența observată se
datorează eșantionării
NUMĂR DE GRADE DE LIBERTATE
 Fiind date 2 eșantioane, primul cu talie n, al
doilea cu talie m, numărul de grade de libertate
pentru testul T va fi

df=n+m-2
EXEMPLU DE APLICARE
 Se doreşte evaluarea unei substanţe (statina)
asupra nivelului colesterolului. În acest scop s-a
constituit un eşantion de 1204 de persoane cu
caracteristici clinice similare. Unele persoane au
primit medicament, altele au primit placebo. S-a
măsurat colesterolul la intrarea în studiu şi la
ieşirea din studiu.
EXEMPLU DE APLICARE
 Lotul a fost împărțit în două subloturi – cei ce
primesc substanță activă, respectiv cei ce primesc
placebo.
 Vom spune că medicamentul funcționează dacă
colesterolul final la grupul celor care a primit
medicament este semnificativ mai mic decât
colesterolul inițial la grupul respectiv.
 Acest lucru se realizează aplicând testul T pentru
eșantioane perechi
IPOTEZE
 Ho – Medicamentul nu a avut efect (colesterolul
la intrarea în studiu e la fel ca la iesirea din
studiu)
 H1 – Medicamentul a avut efect (colesterolul la
iesirea din studiu este mai mic decât la intrarea
în studiu)
DECIZIE
 P (one-tail) = 0 (<0,05) deci
acceptăm H1 cu o încredere de
95%

 Medicamentul a avut efect


EXEMPLU DE APLICARE

 Cele două subloturi ar trebui să fie la același


nivel la intrarea în studiu.
 Deci, înainte de aplicarea testului pentru perechi
va trebui comparat colesterolul inițial la grupul
ce va primi statină cu colesterolul inițial la
grupul care va primi placebo.
 Cele două eșantioane sunt independente, ce test
vom utiliza pentru această comparație?
 Răspunsul este dat de rezultatul testului F
 Ipoteza nulă: Varianța este
la fel în ambele eșantioane
TEST F
 Ipoteza alternativă:
Varianța unui eșantion este
diferită de a celuilalt

 p=0.087 >0,05 deci putem


considera că varianțele sunt
la fel în cele două
eșantioane
 Vom aplica testul T pentru
eșantioane independente cu
varianțe egale
 Ipoteza nulă: Nivelul
colesterolului la intrarea
REZULTAT în studiu este același în
cele două eșantioane
 Ipoteza alternativă:
Nivelul colesterolului la
intrarea în studiu
DIFERĂ între eșantioane
 Decizie: p (two tail)=0,27
>0,05, nu pot respinge
ipotea nulă, deci nu am
motive să afirm că din
punct de vedere al
colesterolului grupurile
sunt diferite
VĂ MULŢUMESC PENTRU ATENŢIE!