Sunteți pe pagina 1din 50

CURSUL 5

Inferență referitoare la
medii
Metode de inferență pentru medii
• CE ESTE INFERENȚA STATISTICĂ?

• fundamentarea unor concluzii generale pe baza utilizării unor date


empirice limitate
• în virtutea unor raționamente logico-probabilistice
• presupune existența unui eșantion
• servește drept bază pentru descrierea populației din care a fost extras
CONCEPTE AJUTĂTOARE
• Distribuția de eșantionare
• Eroarea standard
• Distribuția normală
• Intervalul de încredere
Distribuția de eșantionare
• Toate eşantioanele au o măsură numerică folosită pentru a spune ceva (a
face inferențe) despre aceeaşi măsură în populație.
• Facem inferențe despre parametrul din populație, folosind statistica din
eşantion.
• Parametrul este întotdeauna o constantă.
• Statistica din eşantion variază întotdeauna, deci constituie o variabilă
aleatoare - posedă o distribuție de probabilitate.
• Pentru media din eşantion, avem distribuția de eşantionare a mediilor.
• Pentru abaterea standard din eşantion, avem distribuția de eşantionare a
abaterilor standard.
Distribuția de eșantionare
• Câte eşantioane posibile există?
• R: o infinitate
• Câte medii posibile de eşantioane există?
• R: o infinitate

Eroarea de eşantionare:
 distanța de la statistica din eşantion la parametrul din populație. Este datorată
întâmplării

Eroarea de non-eşantionare:
erori datorate altor factori, nealeatori (operatori de teren, operatori de introducere,
de prelucrare, etc.)
Observaţii:
• – deviația standard a distribuției de eşantionare este mai mică decât cea din
populație
• – deviația standard a distribuției de eşantionare scade din ce în ce mai mult, pe
măsură ce creştem mărimea eşantionului

Teorema Limită Centrală

Pentru un eşantion de mărime mare, forma distribuției de eşantionare este normală, indiferent
de forma distribuției în populație.

Concluzii:
Dacă vom calcula mediile tuturor eşantioanelor de aceeaşi mărime (mare), vom constata că:
– aproximativ 68% dintre acestea se află la o distanță de 1 E.S. față de media din populație
– aproximativ 95% dintre acestea se află la o distanță de 2 E.S. față de media din populație
• Rezultă că distribuția de eşantionare este o distribuție de
probabilitate continuă, care arată statisticile din eşantion şi
probabilitățile asociate acestora.
• Media acestei distribuții µx este media tuturor mediilor de eşantioane
posibile şi este chiar media din populație.
• Abaterea standard a acestei distribuții (a acestei variabile aleatoare)
se numeşte Eroare Standard şi este egală cu:
Principii Generale

În studiul într-o populație P a parametrilor a unei caracteristici oarecare (cantitative sau


calitative) este necesar în mod frecvent să se urmeze procedeul:
1. Se extrage un eșantion reprezentativ al acestei populații.
2. Prin mijloacele statisticii descriptive se descrie distribuția caracteristicii pe eşantionul
extras. Astfel se poate determina frecvența observată, dacă este vorba de o caracteristică
calitativă, sau se calculează media și variația, în cazul unei caracteristici cantitative.
3. Prin mijloacele statisticii inferențiale sau inductive se extind la întreaga populație
rezultatele observate pe eșantion. Pornind de la parametrii observați (frecvența, media,
variația, etc) pe eșantion se încearcă să se estimeze parametrii “teoretici” ai întregii
populații.
Metode de inferență pentru medii
O SINGURĂ MEDIE-METODA PENTRU
EșANTIOANE MARI
• Pentru a calcula intervale de încredere şi pentru a aplica testarea
statistică de semnificație în cazul mediilor eșantioanelor mari vom
folosi distribuția normală
• Proprietăți aplicabile doar în cazul eșantioanelor mari:
• mediile eșantioanelor mari extrase în acelaşi mod urmează o
distribuție normală
• abaterea standard estimată într-un eșantion mare va fi aproape de
aceea a întregii populații - eroarea standard estimată în eșantion
este o bună estimație
O SINGURĂ MEDIE-METODA PENTRU
EșANTIOANE MARI
• vom determina intervale de încredere pentru mediile eșantioanelor
mari folosind distribuția normală.
• estimăm eroarea standard a mediei - se obține cu ajutorul abaterii
standard calculată pentru observațiile din eșantion (eroarea standard
a mediei fiind abaterea standard împărțită la rădăcina pătrată a
numărului de observații din eşantion)
• Intervalul de 95% încredere este de la media minus 1.96 x eroarea
standard la media plus 1.96 x eroarea standard
O SINGURĂ MEDIE-METODA PENTRU
EșANTIOANE MARI
Condiții care trebuie îndeplinite:
• Observaţiile sunt independente între ele
• Nu putem folosi, de exemplu, un eșantion de 100 de observații în
care avem 10 subiecți cu câte 10 observații fiecare

• Eșantionul este suficient de mare pentru ca erorile standard să fie


bine estimate.
• Ca regulă empirică: ar trebui să avem cel puțin 100 observații
pentru un grup.
DIFERENțE ÎNTRE MEDIILE
EșANTIOANELOR PERECHI
• În cercetarea medicală se dorește adesea, mai degrabă să se compare
grupuri de subiecți decât să se estimeze media unei populații, pe baza
datelor provenite dintr-un eșantion
• Studiu - Christensen et al. (2004) - se compară modificările stării de
depresie cu ajutorul unui chestionar aflat pe internet.
• Au fost recrutate 525 persoane cu simptome de depresie identificate printr-un sondaj. Ei
au fost alocați aleatoriu la site-ul web BluePages care oferă informații despre depresie (N
= 166), la site-ul web MoodGYM prin se realizează o terapie cognitiv comportamentă (N =
182) sau la un grup de control care folosește placebo (N = 178). Principalele rezultate a
fost măsurate la Centrul pentru Studii epidemiologice cu ajutorul unei scale pentru
depresie
DIFERENțE ÎNTRE MEDIILE
EșANTIOANELOR PERECHI
Scorul inițial și după șase săptămâni de tratament pentru un grup de 525 pacienți cu depresie

Deoarece cele trei grupuri de tratament sunt toate eșantioane destul de mari, se poate estima un interval de încredere pentru media
fiecăruia dintre ele
BluePages - 165 de subiecţi
- o medie diferențelor în scoruri de 3.9
- abatere standard de 9.1.
- Eroarea standard a mediei este 0.71
- astfel, intervalul de 95% încredere pentru media diferențelor este de 3.9 - 1.96 x 0.71 la 3.9
+ 1.96 x 0.71, adică de la 2.5 la 5.3 puncte pe scala depresiei. !Atenție: 0 nu se află în interval
- Aceasta reprezintă o estimare pentru intervalul de diferențe ale mediilor punctajelor,
presupunând ca răspunsul nonrespondenților este același.
DIFERENțE ÎNTRE MEDIILE
EșANTIOANELOR PERECHI
• Putem testa
• ipoteza nulă - stabilește că media diferențelor este zero
• ipoteza alternativă - stabilește că există o schimbare, în orice direcție
• Deoarece eșantionul este mare, media va avea o distribuție normală
cu o abatere standard egală cu eroarea standard a mediei (0.71)
• Diferența dintre media observată în eşantion și media necunoscută a
populației (0) împărțită prin eroarea standard (statistica testului) va
urma distribuția normală standard
DIFERENțE ÎNTRE MEDIILE
EșANTIOANELOR PERECHI
• Ipoteza nulă: media schimbărilor în populație este zero
• dacă acest lucru este adevărat, media observată în eșantion împărțită
prin eroarea standard va urma o distribuție normală standard
• Pentru grupul BluePages aceasta este z = 3.9/0.71 = 5.49.
Probabilitatea de a obține o astfel de o valoare extremă la distribuția
normală standard este foarte mică, de 0.00000004. Nu putem fi siguri
că aproximarea distribuției normale este suficient de bună pentru
probabilități foarte mici, așa că vom cita rezultatul în forma: p<0.0001
• Acesta este testul pentru o singură medie în cazul eșantioanelor mari
care au distribuție normală, test cunoscut, de asemenea, și sub
denumirea de testul z pentru o singură medie.
Condițiile care trebuiesc îndeplinite pentru
aplicarea acestei metode sunt:
• Observațiile trebuie să fie independente;

• Eşantionul trebuie să fie suficient de mare. Regula empirică spune că


trebuie să avem cel puțin 100 observații pentru un grup;

• Media şi abaterea standard a diferențelor sunt constante, adică nu au


legătură cu dimensiunea variabilelor.
COMPARAREA MEDIILOR A DOUĂ
EșANTIOANE MARI INDEPENDENTE
COMPARAREA MEDIILOR A DOUĂ
EșANTIOANE MARI INDEPENDENTE
COMPARAREA MEDIILOR A DOUĂ
EșANTIOANE MARI INDEPENDENTE
• Putem efectua aceleaşi calcule pentru a compara fiecare grup cu intervenție
activă cu grupul de control.
• Pentru BluePages comparat cu grupul de control
• diferenţa mediilor este 3.9 - 1.0 = 2.9
• eroarea standard a diferenţei este de 0.95
• intervalul de 95% încredere este de la 2.9 - 1.96 x 0.95 la - 2.9 + 1.96 x 0.95, adică de la 1.0
la 4.8. – 0 nu se află în interval
• Testul de semnificație dă z = 2.9/0.95 = 3.05, p = 0.002.
• Pentru MoodGYM comparat cu grupul de control
• diferenţa mediilor este de 3.2
• eroarea standard de 0.92
• intervalul de 95% încredere este de la 1.4 la 5.0 – 0 nu se află în interval
• z = 3.48, p = 0.0005
COMPARAREA MEDIILOR A DOUĂ
EșANTIOANE MARI INDEPENDENTE

• Dacă se dorește testarea ipotezei nule de ansamblu care stabilește că


cele trei tratamente produc aceeaşi scădere medie în populație,
aceasta se poate face prin aplicarea corecţiei Bonferroni pentru cele
trei valori p

• Multiplicarea cu 3 ar da cea mai mică valoare p = 0.0005 x 3 = 0.0015,


care rămâne încă extrem de importantă
COMPARAREA MEDIILOR A DOUĂ
EșANTIOANE MARI INDEPENDENTE
Metoda pentru compararea a două medii în cazul eşantioanelor mari,
normal distribuite, necesită îndeplinirea a două condiții:
• Observaţiile şi grupurile trebuie să fie independente între ele.
• Nu trebuie să existe legături între observațiile dintre cele două grupuri –
Ex: un studiu în care fiecare subiect dintr-un grup este relaționat, de exemplu,
prin vârstă şi sex, cu un subiect din celălalt grup.
• Eșantioanele trebuie să suficient de mari pentru ca erorile standard
să fie bine estimate iar mediile să aibă o distribuţie normală.
• Regula empirică spune că pentru un singur eșantion ar trebui să avem cel
puțin 100 de observații, iar pentru două eşantioane de cel puțin 50 de
observații în fiecare dintre ele.
DISTRIBUțIA T
• În cazul eșantioanelor mici nu se pot aplica metodele pentru eşantioane mari care sunt normal
distribuite - problemă abordată de un statistician care și-a publicat rezultatele sub pseudonimul
de Student - distribuţia t sau Student
• Condiţii de utilizare pentru testul z:
• – cunoaştem media populației de referință
• – eşantion „mare” (N≥ 30)
• pentru eşantioane cu N<30
• – testul t
• – se bazează pe aceeaşi logică ca şi z
• – distribuţia t (Student)
• “subspecie” a distribuției normale a cărei formă este în funcție de “gradele de libertate”
(degree of freedom)
• df=N-1
• – “Student” ... William Gosset, 1908
DISTRIBUțIA T

• La fel ca și distribuția normală, distribuția Student t este o familie de


distribuții.
• Aceasta familie are un singur parametru, numărul care ne spune cu ce
membru al familiei de distribuții t ne confruntăm. Acesta este
cunoscut sub numele de grade de libertate.
• NB: Am folosit deja acest termen în calcul varianțelor şi abaterilor
standard. Numărul gradelor de libertate al distribuției t este egal cu
numărul gradelor de libertate de la abaterea standard folosită în
calculul erorii standard.
DISTRIBUțIA T
 Când numărul gradelor de libertate este mic
(eșantioane de mici dimensiuni) distribuţia t
are cozile mult mai mult lungi decât
distribuția normală. Acest lucru reflectă o
mai mare incertitudine la eroarea standard a
mediei.
 Când numărul gradelor de libertate şi, prin
urmare dimensiunea eşantionului începe să
crească, distribuţia t tinde să se apropie de
distribuţia normală standard.
 Distribuţiile t se identifică cu distribuţia
normală în teorie, atunci când eşantionul
este infinit de mare.
 În practică, este greu de spus dacă avem o
distribuţie normală sau t la aproximativ 30
de grade de libertate
• La fel ca la distribuția
normală, distribuția t nu are
o formulă simplă pentru
calculul probabilităților
sale.
• S-au folosit aproximări
numerice pentru a calcula
numărul care este înlocuit
de 1.96 în calculele
intervalelor de încredere şi
a valorile p în testele de
semnificație
DISTRIBUțIA T

Puncte critice pentru pragurile de 1%, 5%, 0.1% și 0.01%


pentru distribuția t

Puncte critice la pragul de 5% pentru distribuția t cu 4 grade


de libertate
METODA T PENTRU UN EșANTION
• Vom folosi distribuția t pentru a face analiza mediilor în eșantioanele
de mici dimensiuni, analiză pe care am făcut-o mai sus pentru
eşantioane mari folosind distribuția normală
• Rareori se întâmplă să fie necesară estimarea mediei unei populații
pe baza mediei unui eşantion mic, dar vom începe cu aceasta
deoarece este cel mai simplu caz
• Pentru înțelegerea metodei vom folosi datele a 9 pacienţi cu răni
cronice nevindecate (Shukla et al., 2004). Biopsiile au fost evaluate
folosind scorul obținut de la un sistem care gradează angiogeneza
microscopică (MAGS) și care furnizează un indice ce evaluează cât de
bine vasele mici de sânge sunt în curs de dezvoltare, evaluând astfel
regenerarea epitelială.
• Scorurile mari sunt cele mai bune
METODA T PENTRU UN EșANTION
• Cele nouă observații au fost: 20, 31, 34, 39, 43, 45, 49, 51 şi 63 – df=8

• Dacă am avea un eşantion mare am putea estima un interval de 95%


încredere prin scăderea/adunarea la medie a 1.96 x eroarea standard:
de la 41.7 - 1.96 x 4.2 la 41.7 + 1.96 x 4.2
METODA T PENTRU UN EșANTION
• avem numai 9 observații - acest interval nu
este valid. Vom folosi o distribuție t cu 8 grade
de libertate
• punctul critic la pragul de 5% pentru
distribuția t cu 8 grade de libertate este 2.31
(to.o5) , astfel că intervalul de încredere pentru
media scorurilor MAGS este de la 41.7 - 2.31 x
4.2 la 41.7 + 2.31 x 4.2, adică de la 32.0 la
51.4
Calculele sunt valabile numai dacă observaţiile
provin dintr-o distribuţie normală
VERIFICAREA PRESUPUNERILOR REFERITOARE
LA NORMALITATE
• Când am vorbit despre distribuția normală am prezentat histograme pentru mai
multe eșantioane mari şi am suprapus curbe normale pe acestea, pentru a vedea
dacă distribuția normală se potrivește acestor date. Pentru eșantioane de
dimensiuni mici este foarte dificil, pornind de la o histogramă, să se tragă o
concluzie referitoare la normalitatea distribuției
• Există o metodă grafică bună prin care se poate examina compatibilitatea dintre o
distribuție normală și un set de date, anume reprezentarea grafică a cuantilelor
normalei (Normal quantile plot) sau pe scurt reprezentarea grafică a normalității
(Normal plot)
• O reprezentarea grafică a normalităţii este o reprezentare grafică a perechilor de
date observate și a valorilor pe care ne aşteptăm să le obținem (valori teoretice),
în cazul în care datele urmează o distribuție normală
VERIFICAREA PRESUPUNERILOR
REFERITOARE LA NORMALITATE
• Mai întâi se ordonează observațiile
ascendent
• Se calculează valoarea estimată pentru
observația cu cea mai mică valoare din
eșantion pentru distribuția normală. În
cazul distribuției normale standard
aceasta este -1.28 – o face programul
de analiză statistică
• Vom transforma acum aceste valori într-o
distribuție normală cu aceeași medie şi
varianță precum datele observate prin
înmulţirea valorilor distribuţiei normale
standard cu abaterea standard calculată
în eșantion şi adăugarea apoi a mediei
eşantionului
• -1.28 x 12 0.5 + 41.7 = 25.6
• Vom compara această valoare cu cea mai mică valoare observată care este de 20
VERIFICAREA PRESUPUNERILOR
REFERITOARE LA NORMALITATE
• Estimăm cele 9 observații (valorile medii pentru cele 9 observații dintr-o
distribuție normală standard):

• Pentru un eșantion extras dintr-o distribuție normală cu media și abaterea


standard precum eșantionul MAGS, vom înmulți cu abaterea standard (x12.5) și
vom aduna cu media (41.7). Valorile obținute:
VERIFICAREA PRESUPUNERILOR
REFERITOARE LA NORMALITATE
• Reprezentare grafică perechi formate din
scorurile MAGS observate și scorurile
MAGS calculate pentru cazul în care datele
ar urma o distribuție normală.
• În cazul în care valorile observate şi cele
calculate sunt similare atunci perechile de
puncte se aliniază sau sunt foarte aproape
de linia de egalitate (prima bisectoare)
formată din puncte pentru care valorile
observate şi cele calculate sunt egale
• Cele mai multe dintre observații sunt
aproape de linie, ceea ce sugerează că
observațiile sunt destul de aproape de
ceea ce am calculat pornind de la o
distribuție normală (adică de ceea ce ne-
am fi așteptat dacă presupunerea de
normalitate a datelor era adevărată)
 Distribuțiile asimetrice
produc în jurul liniei de
egalitate o curbă
 Distribuția este negativ
asimetrică (asimetrică la
stânga) şi punctele se abat
mult de la linie încadrându-
se sub ea spre capete (mai
mult spre cel inferior) și
depășind-o spre mijloc

Reprezentarea grafică a normalității pentru datele referitoare de greutatea la


naștere
 Distribuțiile asimetrice produc în jurul
liniei de egalitate o curbă

 Distribuție pozitiv asimetrică


(asimetrică la dreapta) şi este vizibilă o
curbură în sens opus celei care
corespunde distribuției negativ
asimetrice

Reprezentarea grafică a normalității pentru colesterol la


pacienții cu accident vascular cerebral
Distribuție aproximativ simetrică

Se poate observa că aceste date se


potrivesc cu distribuţia normală
destul de bine

Reprezentarea grafică a normalității pentru greutatea la


naștere pentru vârsta gestațională de 37 săptămâni
• Există și teste de semnificație precum:
• teste Shapiro-Wilk
• Shapiro-Francia
• Kolmogorov-Smirnov
care pot fi folosite pentru a testa ipoteza nulă ce stabilește că datele provin dintr-o
distribuție normală. Metodele grafice sunt însă, mult mai utile în practică
Dacă eșantionul este mic, plecând de la distribuția normală, acestea nu pot fi
semnificative deoarece nu există date suficiente pentru a detecta normalitatea
Dacă eșantionul este mare, pot exista abateri foarte mici de la normalitate care
pot fi semnificative, dar astfel de abateri nu afectează rezultatele analizelor
Metoda t pentru eșantioane perechi
• lucrăm cu observații care sunt perechi (observațiile care provin de la acelaşi
subiect înainte şi după o intervenţie și observațiile care provin de la acelaşi
subiect pentru care se fac două intervenţii diferite, de exemplu într-un studiu
dublu-încrucișat numit și studiu cross-over sau într-un studiu de tip caz-control)
Metoda t pentru eșantioane perechi
• Dorim să știm dacă media scorurilor MAGS s-
a modificat semnificativ şi care este media
scorurilor.
• Calculăm diferența dintre scorul MAGS după
tratament şi scorul MAGS înainte de
tratament, adică creşterea în scor pentru
MAGS
• Avem 9 observații, astfel că numărul
gradelor de libertate folosite în calculul
abaterii standard este de 9 - 1 = 8
• Pentru a estima intervalul de 95% încredere
pentru media calculată în acest eşantion mic,
vom folosi punctul critic pentru pragul de 5%
Media diferenţelor=9.33 din distribuția t cu 8 grade de libertate.
Abaterea standard pentru diferenţe=4.03 (Pentru 8 grade de libertate valoarea din
Eroarea std a mediei diferenţelor=1.34 tabel este 2.31)
Metoda t pentru eșantioane perechi
• Pentru eșantioane mici presupunem că diferențele urmează o distribuție normală
• Intervalul de 95% încredere:
• Media-t0.05xeroarea standard a mediei , Media+t0.05xeroarea standard a mediei
• t0.05 reprezintă valoarea critică pentru pragul de 5% al distribuției t cu un nr de
grade de libertate=n-1
• De la 9.33 - 2.31 × 1.34 la 9.33 + 2.31 × 1.34 (de la 6.2 la 12.4)
• Testul de semnificaţie se referă la:
• Media diferențelor/Eroarea standard (Statistica testului) – urmează o distribuție t
cu n-1 grade de libertate
• =9.33/1.34=6.96
• Din tabelul t, p<0.001 - p = 0.0001. Diferența este (foarte) semnificativă
Metoda t pentru eșantioane perechi

Condiții care trebuiesc îndeplinite de datele testate, pentru ca metoda t


pentru eșantioane perechi să fie validă:

1. observațiile trebuie să fie independente, cu excepția asocierii


2. diferențele trebuie să urmeze o distribuție normală
3. media şi abaterea standard a diferențelor trebuie să nu depindă de
mărimea (magnitudinea) măsurătorilor.
Metoda t pentru eșantioane perechi
1. observațiile trebuie să fie independente,
cu excepția asocierii
- depinde de modul de proiectare al
studiului. Acestă condiție este îndeplinită
pentru datele MAGS, deoarece perechile
de date provin de la nouă subiecți diferiți
2. folosim reprezentarea grafică a
normalității - Datele par a fi apropiate de
linia de egalitate şi nu există nici un motiv să
presupunem că diferențele nu urmează o
distribuție normală
Metoda t pentru eșantioane perechi
3. media şi abaterea standard a diferențelor trebuie să nu depindă de
mărimea (magnitudinea) măsurătorilor.

media diferențelor sau


variabilitatea diferențelelor nu
este influențată sau este foarte
puțin influențată de
magnitudinea scorilor MAGS

Diferențele în comparație cu mediile creșterilor în scorul MAGS


reprezentare grafică de tip scatter plot
METODA T PENTRU DOUĂ EșANTIOANE
INDEPENDENTE

• este cunoscută sub mai multe denumiri: metoda t pentru


eșantioane neperechi, testul t nepereche, metoda t pentru două
grupuri sau testul Student t pentru două eșantioane

• ne permite să estimăm diferența dintre medii sau să testăm


ipoteza nulă, care stabilește că nu există nici o diferență în
populație, chiar şi în cazul în care eșantioanele sunt mici
METODA T PENTRU DOUĂ EșANTIOANE
INDEPENDENTE
• vom face o comparație a densității capilare (măsurată pe mm2) pentru
două grupuri de pacienți: un grup de pacienții cu ulcer diabetic la
picior şi un grup de control fără ulcer (Marc Lamah)

• Eșantioanele sunt prea mici - nu se poate


folosi metoda pentru eșantioane mari bazată
pe distribuția normală
• Nu se poate estima suficient de bine eroarea
standard
• Distribuția erorilor standard estimate depinde
de distribuția observațiilor

S-ar putea să vă placă și