Sunteți pe pagina 1din 78

Cosmina Bondor, Tudor Drugan

Statistica pe scurt
aa
Ne gândim la ce putem calcula

Numărăm
Tabel de
cazurile pe Frecvențe
frecvențe
fiecare categorie

Tabel de
Rapoarte Proporții
contingență
Ne gândim la cum să reprezentăm grafic variabila

• o variabilă calitativă
• Grafic pie/ column/ bar

• două variabile calitative


• 100% Stacked Column chart

Haak W et al . Massive migration from the steppe was a


source for Indo-European languages in Europe. Nature.
2015.
Cum să răspundeți la întrebări medicale?
Răspundem la o anumită întrebare de cercetare (ipoteza de studiu)
• prin realizarea de studii medicale
1. Pregătirea studiilor (protocolul de cercetare)
2. Identificăm variabilele de interes și populațiile
3. Transformăm întrebările medicale în ipoteze statistice testabile
4. Alegem testul statistic adecvat ipotezei sau metoda intervalului de încredere
5. Calculăm talia necesară a eșantioanelor
6. Realizăm studiul
7. Culegem datele
8. Executăm analiza datelor
9. Răspundem la întrebarea medicală prin analiza rezultatelor
Populație P
Obiectiv: studiul parametrului unei variabile calitative în populație

• Frecvență π , proporție, risc relativ... Cum?

Frecvența în populație Girafa iubitoare

! Denumire fictivă
Frecvența în populație
Populație P
Obiectiv: studiul parametrului unei variabile calitative în populație

• Frecvență π , proporție, risc relativ...


• Se extrage un eșantion reprezentativ
1.
• Se calculează indicatorul

Cum? 2. • Frecvența f, proporție, risc relativ...

• Prin inferență statistică se estimează la întreaga populație


• Punctual
3. • Prin interval de încredere
Intervalul de încredere de 95% pentru o frecvență
Frecvența în populație
- aflată în intervalul de încredere
Estimare punctuală = Frecvența pe eșantion cu o probabilitate de 95%
Poate fi oriunde în intervalul de
încredere estimat

Limita Limita - Avem șanse de 95% să


inferioară Intervalul de încredere superioară extragem un eșantion care
să conțină parametrul
populației
Exemplu
Pas 1. • Aflăm din literatură că
• Obiectiv: Volumul
• dorim să evaluăm infecția cu HPV
• prevalența Papiloma
în populația rurală eșantionului virus în Europa = 14.2%
• Populație
• mediul rural
• Variabila
• papilomavirus (HPV)
•Ipoteza
• Din p. de v. statistic
• Estimarea frecvenței infecției
cu HPV în populația rurală
• pentru a estima
• cu eroare de 5% frecvența cu
• o mărime a intervalului de Calculăm
încredere de 2% • o eroare α=5%
n=5000
• o mărime a intervalului
de 2%
Exemplu
Pas 2. Se
extrage din populația • un eșantion aleator de 5.000 de persoane
aflată în mediul rural

• frecvența infecției cu HPV


Pas 3. Se determină
• f=15,3%
• intervalul de încredere de 95%
Pas 4. Se calculează =[14,3; 16,3]

Pas 5. Se interpretează • Frecvența infecției HPV în populația rurală


rezultatul este între 14,3% și 16,3% cu o eroare de 5%
• Populații P1, P2,...
• Obiectiv: studiul diferențelor parametrilor unei variabile calitative X
în două/mai multe populații (categoriile variabilei de grupare Y)

• Frecvențe π1 , π2 , ...

• Se extrag eșantioane reprezentative din populații


1.

• Se calculează indicatorii
• Frecvențe f1, f2
2.
Cum? • Prin test statistic
• se testează ipoteza cum că nu avem două populații diferite, ci
aceeasi populație din p. de v. al frecvențelor variabilei testate
• Obținem probabilitatea p – probabilitatea găsirii unor diferențe egale
3. sau mai mari (extreme) decât cea găsită pe eșantionul aflat în studiu
dacă repetăm studiul pe alte eșantioane cu selecție întâmplătoare (se
datorează întâmplării)
Ipoteza nulă H0 - presupune negarea obiectivului pe
care dorim sa îl investigăm
Ipoteza cum că nu • Nu există o diferență semnificativă statistic între grupuri în cee
avem două a ce privește frecvența
populații diferite, • Nu există o asociere semnificativă statistic între 2 variabile:
• Factor de risc - boală
ci aceeași populație Ipoteza alternativă H1 (negarea lui H0): se refera la obiectivul pe
din p. de v. al care dorim sa îl investigăm
distribuției • Există o diferență semnificativă statistic între grupuri în ceea ce
privește frecvența
frecvențelor • Există o asociere semnificativă statistic între 2 variabile:
variabilei studiate • Factor de risc - boală
Testul statistic --> alegem între cele două posibilități H0 sau H1
Ipoteza nulă H0: Ipoteza alternativă H1:
1

Ce se întămplă la nivelul populației?

Aceeași populație Populații diferite


Important

Să specificați statistica pe care o comparați: ex. frecvențe


• în enunțul ipotezelor statistice
• în interpretarea rezultatului testului statistic
Să folosiți expresia
• „diferență semnificativă statistic”
• „diferă semnificativ”
Independență? Da Independență? Nu

Test McNemar
O frecvență? Da Două frecvențe? Da

Eșantion mare? 80% frecvențe 20% frecvențe Peste 20%


teoretice≥5? Da teoretice între 2 frecvențe Eșantion mare? Da
Da
și 5? Da teoretice≤5? Da

Frecvențe Frecvențe Frecvențe Test Z pentru două


teoretice>1? Da teoretice>1? Da teoretice>0? Da proporții

Test Z pentru o
proporție
Test Hi-pătrat Test Hi-pătrat cu Test Fisher
corecția Yates exact
Scenariu: În unele cazuri,
imediat după transplantul de
rinichi apare respingerea
grefei.
Exemplu
Ipoteză: Persoanele obeze
sunt mai dispuse să prezinte
respingerea grefei imediat
după transplantul de rinichi
Identificăm variabilele de interes și populațiile
• Variabile • Populație
• Factor de risc – Obezitatea • Persoane care au suferit transplant de rinichi
• Variabilă calitativă dihotomială
A. Sub-populații
• Boală – Respingerea grefei
• Persoanele obeze care au suferit transplant de
• Variabilă calitativă dihotomială
rinichi
• Persoane ne-obeze care au suferit transplant
de rinichi
B. Sub-populații
• Persoanele care au avut respingerea grefei
după transplant de rinichi
• Persoanele care nu au avut respingerea grefei
după transplant de rinichi
Transformăm întrebarea medicală în
ipoteze statistice testabile
Frecvența respingerii grefei după transpla Frecvența obezității diferă
nt de rinichi (până la o lună) diferă • la persoanele care au
• la persoanele obeze respingerea grefei după (până la o lună)
• la persoanele ne-obeze transplant de rinichi
• la persoanele care nu au avut respinger
ea grefei după (până la o lună)
transplant de rinichi
Alegem această ipoteză

mai sunt și altele posibile


Alegem testul statistic adecvat ipotezei
sau metoda intervalului de încredere
• Test statistic pentru frecvențe • Estimarea intervalelor de încredere
•Eșantioane independente de 95% pentru frecvențe
•Tabel de contingență df=1

Alegem această metodă

df = (2 linii-1) x (2 coloane-1) = 1
Calculăm talia eșantioanelor
Frecvența respingerii grefei • Considerăm de importanță medicală

după (până la o lună) transplant de o diferență de 2% între frecvențe


rinichi • Semnificația statistică α=5%
diferă • Puterea testului β=80%
• la persoanele obeze
• la persoanele ne-obeze • Calculăm talia necesară
persoane în fiecare eșantion
• 1500 obezi
Alegem această ipoteză
• 1500 ne-obezi
Efectuarea studiului

• Selectăm aleator dintre cei ce urmează să aibă transplant de rinichi


• 1500 de persoane obeze
• 1500 ne-obeze
• Urmărim apariția respingerii grefei pe o perioadă de 1 lună după
transplant
Tabelul de contingență observat
Respingere Respingere Total
de grefă+ de grefă-

Obez+ 50 1450 1500

Obez- 62 1438 1500

Total 112 2888 3000

Frecvențe pe linii
Culegerea datelor Respingere Respingere Total
de grefă+ de grefă- (%)
(%)
Pe eșantion am găsit o Obez+ (%) 3,33 100
diferență între frecvențe de Obez- (%) 4,13 100
3,33-4,13 = -0,8%
Alegerea
testului
Tabel de contingență df=1? Da df = (2 linii-1) x (2 coloane-1) = 1

4 frecvențe O frecvență teoretică Peste o frecvență teoretică≤5 sau


teoretice≥5? Da între 2 și 5? Da frecvențe teoretice<2 dar nu 0? Da

Test Hi-pătrat 4 frecvențe Test Fisher exact


teoretice>1? Da

Test Hi-pătrat cu
corecția Yates
Formularea ipotezelor
Ipoteza nulă H0 Ipoteza alternativă H1
• Nu există o diferență semnificativă st • Există o diferență semnificativă stati
atistic între obezi și ne- stic între obezi și ne-
obezi în ceea ce privește frecvența obezi în ceea ce privește frecvența r
respingerii grefei după (până la espingerii grefei după (până la o lun
o lună) transplant de rinichi ă) transplant de rinichi
• Nu există o asociere semnificativă st • Există o asociere semnificativă statis
atistic între obezitate și respingerea tic între obezitate și respingerea gre
grefei după (până la fei după (până la o lună) transplant
o lună) transplant de rinichi de rinichi
Parametrul testului statistic
• exprimă diferenţa dintre indicatorii/parametrii (ex. frecvențe, tabel
de contingență observat și teoretic) comparați
• cel puţin unul este o statistică (frecvență) pe eşantion
Eşantionul /eşantioanele - aleator extras/e din populaţie
- o variabilă aleatoare
• urmează o anumită lege de probabilitate
• Ex. Legea Hi-pătrat etc.
Alegerea regiunii critice
• Ce decidem? ipoteza nulă sau alternativă,
• decidem în funcţie de valoarea parametrului calculat al testului
• Alegerea dimensiunii regiunii critice
• în funcție de mărimea riscului de eroare pe care îl acceptăm
• Nivelul de semnificaţie α = mărimea riscului pe care suntem dispuşi
să ni-l asumăm la respingerea ipotezei nule H0 în cazul în care aceasta
este adevărată
• De obicei se alege un nivel de semnificaţie de 1% sau 5%.
Alegerea nivelului de semnificație și stabilirea
regiunii critice
• Alegem semnificația statistică α=5%
• Regiunea critică (3,84; +∞)
• Regiunea de respingere

• Regiunea de acceptare (0; 3,84]


p=0.05
p = aria de
sub curbă
(3,84; +∞)

parametrul testului urmează legea Hi-pătrat


Calcularea tabelului teoretic (nul)
Respingere Respingere Total
de grefă+ de grefă-

• Presupunem prin absurd că Obez+ 50 1450 1500


ipoteza nulă este adevărată Obez- 62 1438 1500
• Calculăm tabelul teoretic în care Total 112 2888 3000
obezitatea nu este factor de risc

Respingere de grefă+ Respingere de grefă- Total

Obez+ =(112∙1500)/3000=56 =(2888∙1500)/3000=1444 1500

Obez- =(112∙1500)/3000=56 =(2888∙1500)/3000=1444 1500

Total 112 2888 3000


Calcularea tabelului teoretic (nul)
• Obezitatea nu este factor de risc în acest tabel
• Obezii și ne-obezii au respingere de grefă în aceeași proporție 56/1500=3,73%
Respingere Respingere Total Respingere de Respingere Total
de grefă+ de grefă- grefă+ (%) de grefă- (%)

Obez+ 56 1444 1500 Obez+ (%) 3,73 100

Obez- 56 1444 1500 Obez- (%) 3,73 100

Total 112 2888 3000

• Comparăm tabelul observat cu cel teoretic


• Dacă găsim diferență mică (sub pragul critic), atunci obezitatea nu este factor de risc
• Dacă găsim diferență mare (peste pragul critic), atunci obezitatea este factor de risc
• Tabel de contingență observat • Tabel de contingență teoretic
Respingere Respingere Total Respingere Respingere Total
de grefă+ de grefă- de grefă+ de grefă-
Obez+ 50 1450 Obez+ 56 1444
Obez- 62 1438 Obez- 56 1444
Total Total

diferență
p = 0,248 > 0,05 p = aria de
sub curbă

χ2 =1,33 nu aparține (3,84, + ∞),


1.33
Decizia testului
A. Decizia testului în funcție de regiunea de respingere:

• Dacă χ2 aparține (3,84; +∞)


• avem suficiente dovezi să respingem H0, deci acceptăm H1

• Dacă χ2 NU aparține (3,84; +∞)


• NU avem suficiente dovezi să respingem H0, deci suntem în favoarea lui H0

• În cazul nostru: χ2 =1,33 nu aparține (3,84, + ∞),


• NU avem suficiente dovezi să respingem H0, deci suntem în favoarea lui H0

Concluzia: Nu există o asociere semnificativă statistic între obezitate și respingerea grefei în prima
lună după transplant de rinichi
B. Decizia testului în funcție de probabilitatea p – probabilitatea de a găsi o diferență
egală sau mai mică decât cea găsită dacă repetăm studiul:
• Dacă p < 0,05
• avem suficiente dovezi să respingem H0, deci acceptăm H1

• Dacă p ≥ 0,05
• NU avem suficiente dovezi să respingem H0, deci suntem în favoarea lui H0

• În cazul nostru: p =0,248 > 0,05


• NU avem suficiente dovezi să respingem H0, deci suntem în favoarea lui H0

• Concluzia: Nu există o asociere semnificativă statistic între obezitate și respingerea grefei după (
până la o lună) transplant de rinichi, adică probabilitatea de a găsi o diferență egală cu 1,33%
sau mai mică decât cea găsită dacă repetăm studiul
Nu am reușit să arătăm că avem două
sub-populații diferite obezi și ne-obezi)
din punctul de vedere al frecvenței
Decizia respingerii grefei, ci aceeași populație

statistică La nivelul populației


nu există asociere semnificativă
între obezitate și respingerea grefei în
prima lună după transplantul de rinichi
Concluzia medicală
• Deoarece am realizat calculul taliei eșantionului și am considerat că 2% este o diferență
semnificativă clinic

• putem afirma că obiectivul de 2% nu a fost atins,


• diferențe între frecvența respingerii grefei < 2%,
• deci diferențele sunt neimportante clinic

• Obezitatea nu influențează respingerea grefei în prima lună după transplant


(nu uităm de eroarea de 5%)
Măsurăm efectul factorului de risc calculând

RR –
riscul
relativ

• Acestor indicatori li se adaugă un


RIN – rata interval de încredere de 95%
OR – rata
îmbolnăvirii la
șansei
cei neexpuși

RIE – rata
îmbolnăv
irii la
cei expuși

În cazul aplicării unui test statistic nu măsurăm efectul factorului de risc


RR=4
• Riscul de îmbolnăvire este de 4
ori mai mare la cei expuși față de
Ex. RR=4, cei ne-expuși
95% CI (2; 7) 95% CI (2; 7)
• în populație riscul de îmbolnăvire
se găsește între 2 și 7 cu o eroare
de 5%
Testarea
variabilelor cantitative
Ne gândim la ce putem calcula

Media Deviația
Mediana Modul
aritmetică standard

Amplitudine Minim Maxim Cuartile

Coeficient de Coeficient de
Asimetrie Boltire
corelație determinare
Grafice
• Histogramă
- o variabilă cantitativă
• Cutie cu mustăți Mike Yi. Data
tutorial. https://chartio.com/learn/charts/histogram-
complete-guide/
• - o variabilă cantitativă
pe un grup
pe grupuri
testări repetate
• XY Scatter
- două variabile cantitative
Distribuția normală
SUNT DATELE NORMAL DISTRIBUITE?
Indicatori
Media, modulul și mediana aproape egale
Asimetria aproape de 0, între [-1; 1]
Boltirea aproape de 0, între [-1; 1]
Metoda grafică
Histograma sub formă de clopot
Cum să răspundeți la întrebări medicale?
Răspundem la o anumită întrebare de cercetare (ipoteza de studiu)
• prin realizarea de studii medicale
1. Pregătirea studiilor (protocolul de cercetare)
2. Identificăm variabilele de interes și populațiile
3. Transformăm întrebările medicale în ipoteze statistice testabile
4. Alegem testul statistic adecvat ipotezei sau metoda intervalului de încredere
5. Calculăm talia necesară a eșantioanelor
6. Realizăm studiul
7. Culegem datele
8. Executăm analiza datelor
9. Răspundem la întrebarea medicală prin analiza rezultatelor
Aceeași pași
MEDIA în populație Girafa iubitoare
Populație P
Obiectiv: studiul parametrului unei variabile CANTITATIVE în populație

• MEDIE µ , RANG, COEFICIENT DE CORELAȚIE...


• Se extrage un eșantion reprezentativ
1.

• Se calculează indicatorul

Cum? 2. • Medie ...

• Prin inferență statistică se estimează la întreaga


populație
3. • Punctual
• Prin interval de încredere
Intervalul de încredere de 95% pentru o medie
Media în populație - aflată în intervalul de încredere
Estimare punctuală = Media pe eșantion cu o probabilitate de 95%

Limita Limita
inferioară Intervalul de încredere superioară

- Media în populației - Poate fi oriunde în intervalul de încredere estimat

- Avem șanse de 95% să extragem un eșantion care va conține parametrul populației


Exemplu
Pas 1. • Aflăm din rezultate de la
• Obiectiv: recensământului populației
• dorim să evaluăm vârsta în
Volumul • Vârsta medie în România =
populația rurală eșantionului 45 de ani
• Populație
• mediul rural
• Variabila
• Vârsta
•Ipoteza
• Din p. de v. statistic
• Estimarea vârstei în populația
rurală • pentru a estima media vârstei
• cu eroare de 5% din populația rurală cu
• o mărime a intervalului de Calculăm
încredere de 2% • o eroare α=5%
n=1000 • o mărime a intervalului de
2 ani
Exemplu
Pas 2. Se
extrage din populația • un eșantion aleator de 555 de persoane
aflată în mediul rural

• media vârstei, deviația standard


Pas 3. Se determină • m=56
• s=12

• intervalul de încredere de 95%


Pas 4. Se calculează
=[55; 57]

Pas 5. Se • Media vârstei în populația rurală în


interpretează populația rurală este între 55 ani și 57 ani cu
rezultatul o eroare de 5%
• Populații P1, P2,...
• Obiectiv: studiul diferențelor (comparare) parametrilor unei variabile CANTITATIVE X
în două/mai multe populații (categoriile variabilei de grupare Y)

• Medii µ1 , µ2 , ... Diferit de două


variabile în aceeași
populație 
• Se extrag eșantioane reprezentative din populații corelație (asociere)
1.

• Se calculează indicatorii
2. • Medie m1, m2

Cum? • Prin test statistic


• se testează ipoteza cum că nu avem două populații diferite, ci
aceeasi populație din p. de v. al MEDIILOR variabilei testate
• Obținem probabilitatea p – probabilitatea găsirii unor
3. diferențe egale sau mai mari (extreme) decât cea găsită pe
eșantionul aflat în studiu dacă repetăm studiul pe alte
eșantioane cu selecție întâmplătoare
Ipoteza nulă H0 - presupune negarea obiectivului pe
Ipoteza cum că nu care dorim sa îl investigăm

avem două • Nu există o diferență semnificativă statistic între grupur


populații diferite, i în ceea ce privește media

ci aceeași populați
Ipoteza alternativă H1 (negarea lui H0):
e din p. de v. al se refera la obiectivul pe care dorim sa îl investigăm
distribuției • Există o diferență semnificativă statistic între grupuri în
mediilor variabilei ceea ce privește media

studiate
Testul statistic --> alegem între cele două posibilități H0
sau H1
Scenariu: La unii pacienți
imediat după transplantul de
rinichi apare diabetul.
Exemplu
Ipoteză: Persoanele obeze
sunt mai dispuse să prezinte
diabet imediat după
transplantul de rinichi
Identificăm variabilele de interes și populațiile
• Variabile • Populație
• Factor de risc – Obezitatea • Persoane care au suferit transplant de rinichi
• Variabilă calitativă dihotomială
A. Sub-populații
• Boală – Diabet
• Persoanele obeze care au suferit transplant de
• Variabilă calitativă dihotomială
rinichi
• Persoane ne-obeze care au suferit transplant
de rinichi
B. Sub-populații
• Persoanele care au avut diabet
după transplant de rinichi
• Persoanele care nu au avut diabet
după transplant de rinichi
Transformăm întrebarea medicală în ipoteze
statistice testabile
Media glicemiei după transplant de rinichi Media greutății diferă
(la o lună) diferă • la persoanele care au avut
• la persoanele obeze diabet după (la o lună)
• la persoanele ne-obeze transplant de rinichi
• la persoanele care nu au avut diabet du
pă (la o lună) transplant de rinichi

Alegem această ipoteză

Mai sunt și alte ipoteze testabile


Alegem testul statistic adecvat ipotezei
sau metoda intervalului de încredere
• Test statistic pentru medii • Estimarea intervalelor de încredere
•Eșantioane independente de 95% pentru medii sau

Alegem această metodă


Calculăm talia eșantioanelor
Media glicemiei • Considerăm de importanță medicală

la o lună după transplant de rinichi o diferență de 60 între medii


diferă • Deviația standard așteptată 15
• la persoanele obeze • Semnificația statistică α=5%
• la persoanele ne-obeze
• Puterea testului β=80%

• Calculăm talia necesară


persoane în fiecare eșantion
• 15 obezi
• 15 ne-obezi
De ce preferăm să testăm
medii? 1500 pacienți față de
15 pacienți ...
Efectuarea studiului

• Selectăm aleator dintre cei ce urmează să aibă transplant de rinichi


• 15 persoane obeze
• 15 persoane ne-obeze
• Măsurăm glicemia la o lună după transplant
Culegerea datelor

Obez + Obez-
(n=15) (n=15)
Glicemia (mg/dl) 160±20 95±10
Media±Deviația standard

Pe eșantion am găsit
o diferență între medii de 65
distribuție normală a glicemiei pe ambele eșantioane
Testarea varianțelor - aplicăm testul Fisher

Obez + Obez-
(n=15) (n=15)
Glicemia (mg/dl) 160±20 95±10
Media±Deviația standard
Testăm dacă în populație
varianțele, adică s12=202
Pe eșantion am găsit cu s22=102 sunt egale?
o diferență între medii de 65
distribuție normală a glicemiei pe ambele eșantioane
Test Fisher --> p<0,05
Testarea varianțelor
Formularea ipotezelor
Ipoteza nulă H0 Ipoteza alternativă H1
• Nu există o diferență semnificativă • Există o diferență semnificativă statistic într
statistic între obezi și ne- e obezi și neobezi în ceea ce privește media
obezi în ceea ce privește media glicemiei lao lună după transplant de rinichi
glicemiei la o lună după transplant
de rinichi
Distribuția normală versus diverse distributii t
• distribuția Student depinde de
gradele de libertate

• df = numărul de grade de
libertate
• df=n1+n2-2
• df=15+15-2=28 Normal distribution t distribution (df=1)
t distribution (df=3) t distribution (df=20)

• Dacă n>30 coincide cu distribuția


normală
Alegerea nivelului de semnificație și stabilirea regiunii critice

• Am ales semnificația statistică α=5%


• Regiunea critică corespunzătoare α
(-∞; t df α /2 ]∪[t df α /2 ; +∞)
• unde df = 28
• t critic t df α /2= 1,7
• Regiunea de respingere (-∞,-1,7] ∪[1,7; +∞) Distribuția t-Student
• Regiunea de acceptare (-1,7; 1,7)
Alegerea nivelului de semnificație și stabilirea regiunii critice

Regiunea de respingere
(-∞,-1,7] ∪[1,7; +∞)
Regiunea de acceptare
(-1,7; 1,7) -1,7 1,7
p = 1-α =95%
aria de sub curbă
p = α/2 =2,5% p = α/2 =2,5%
aria de sub curbă aria de sub curbă

Two-tail test = se însumează ariile de sub


curbă din stânga și din dreapta
Calculăm parametrul testului și valoarea p
p one-tail=0,0000000000035
Two-tail test = se însumează ariile de sub curbă din stânga și din dreapta, adică
p two-tail = 2* p one-tail
p=0,0000000000035+0,0000000000035=0,000000000007

t =11,26 aparține (-∞,-1,7] ∪[1,7; +∞)


Avem suficiente dovezi
să respingem H0, deci suntem în
favoarea lui H1
1-0,000000000007
aria de sub curbă
p=0.025 p=0.025

p = 0,0000000000035 -1,7 1,7 p = 0,0000000000035


aria de sub curbă aria de sub curbă
-11.26 11.26
Decizia testului
A. Decizia testului în funcție de regiunea de respingere:

• Dacă t aparține (-∞,-1,7]∪[1,7; +∞)


• avem suficiente dovezi să respingem H0, deci acceptăm H1

• Dacă t NU aparține (-∞,-1,7] ∪[1,7; +∞)


• NU avem suficiente dovezi să respingem H0, deci suntem în favoarea lui H0

• În cazul nostru: t =11,26 aparține (-∞,-1,7] ∪[1,7; +∞)


• avem suficiente dovezi să respingem H0, deci suntem în favoarea lui H1

Concluzia: Există o diferență semnificativă statistic între obezi și ne-


obezi în ceea ce privește media glicemiei la o lună după transplant de rinichi
B. Decizia testului în funcție de probabilitatea p – probabilitatea de a găsi o diferență egală
sau mai mică decât cea găsită dacă repetăm studiul:
• Dacă p < 0,05
• avem suficiente dovezi să respingem H0, deci acceptăm H1

• Dacă p ≥ 0,05
• NU avem suficiente dovezi să respingem H0, deci suntem în favoarea lui H0

• În cazul nostru: p =0,000000000007=7*E-12 (în Excel) < 0,05


• Avem suficiente dovezi să respingem H0, deci suntem în favoarea lui H1

• Concluzia: Există o diferență semnificativă statistic între obezi și ne-


obezi în ceea ce privește media glicemiei la o lună după transplant de rinichi, adică probabilitatea de
a găsi o diferență egală cu 65 sau mare decât cea găsită dacă repetăm studiul
Decizia statistică
• Am reușit să arătăm că avem două sub-populații diferite - obezi și ne-
obezi din punctul de vedere al mediei glicemiei

• La nivelul populației există asociere între obezitate și o glicemie mai


mare în prima lună după transplantul de rinichi
• Obs. Nu am reușit să demonstrăm chiar ceea ce ne-am propus, dar
suntem aproape: media glicemiei de 160 indică prezența diabetului la
mai mult de 50% dintre persoane.
Concluzia medicală
• Deoarece am realizat calculul taliei eșantionului și am considerat că
60 este o diferență semnificativă clinic
• putem afirma că obiectivul de 60 a fost atins, avem diferențe între media
glicemiei la persoanele obeze față de persoanele ne-obeze
• deci diferența este importantă clinic

• Obezitatea influențează glicemia în prima lună după transplant (nu uităm


eroarea de 5%)
Măsurăm efectul factorului de risc calculând
Intervalul de încredere pentru
• Media glicemiei la obezi
• Media glicemiei la ne-obezi
• Diferența dintre medii

În cazul aplicării unui test statistic nu


măsurăm efectul factorului de risc
Corelații - inferență statistică
• Varsta X: X1, X2,..., Xn
• TAS Y: Y1, Y2,..., Yn.

• Să se stabilească dacă există o legătură semnificativă statistic între variabilele X şi


Y şi să se determine o modalitate de a măsura intensitatea acestei legături.

• Coeficientul de corelație

• Să se stabilească legătura dintre cele două variabile

• Ecuația de regresie Y=aX+b


r/rho coeficientul de corelație
REGULILE EMPIRICE COLTON (1974)
• un coeficient de corelaţie
• de la -0,25 la 0,25
• înseamnă o corelaţie slabă sau nulă

• de la 0,25 la 0,50 (sau de la -0,25 la -0,50)


• un grad de asociere acceptabil

• de la 0,5 la 0,75 (sau de la -0,5 la -0,75)


• o corelaţie moderată spre bună

• mai mare decât 0,75 (sau mai mic decât -0,75)


• o foarte bună asociere sau corelaţie
Testul statistic de semnificaţie pentru
coeficientul de corelaţie
• Semnificaţia coeficientului de corelaţie - valoarea observată pe
eșantion a apărut datorită întâmplării?
• dacă testul statistic este semnificativ, probabilitatea p < 0,05
• Interpretarea la nivelul populației - dată de valorile lui r/rho după regulile
Colton
• Putem calcula un interval de încredere pentru r/rho
• dacă p ≥ 0,05
• interpretarea - datele experimentale nu ne permit afirmația existenţei unei
relaţii la nivelul populației între variabilele luate în studiu
• r=0
Interpretarea r/rho și p

Important

• p ≥ 0,05 coeficientul descrie doar eșantionul din care a fost extras

• Variabilele corelate sa fie cantitative


• Contra ex. Înălțimea și sexul
• Datele să fie normal distribuite

• Între variabilele pentru care se calculează corelație să existe o relație de


cauzalitate (asocierea să aibă sens)
• Contra ex. Temperatura mediului și IQ
Mulțumesc!

S-ar putea să vă placă și