Cursul 5 Inferență Referitoare La Medii

CURSUL 5
Inferență referitoare la
medii
Metode de inferență pentru
medii
• CE ESTE INFERENȚA STATISTICĂ?
• fundamentarea unor concluzii generale pe baza utilizării unor date

empirice limitate
• în virtutea unor raționamente logico-probabilistice
• presupune existența unui eșantion
• servește drept bază pentru descrierea populației din care a fost extras
CONCEPTE AJUTĂTOARE
• Distribuția de eșantionare
• Eroarea standard
• Distribuția normală
• Intervalul de încredere
Distribuția de eșantionare
• Toate eşantioanele au o măsură numerică folosită pentru a spune ceva (a
face inferenţe) despre aceeaşi măsură în populaţie.
• Facem inferenţe despre parametrul din populaţie, folosind statistica din
eşantion.
• Parametrul este întotdeauna o constantă.
• Statistica din eşantion variază întotdeauna, deci constituie o variabilă
aleatoare - posedă o distribuţie de probabilitate.
• Pentru media din eşantion, avem distribuţia de eşantionare a mediilor.
• Pentru abaterea standard din eşantion, avem distribuţia de eşantionare a
abaterilor standard.
Distribuția de eșantionare
• Câte eșantioane posibile există?
• R: o infinitate
• Câte medii posibile de eșantioane există?
• R: o infinitate
Eroarea de eșantionare:
 distanța de la statistica din eșantion la parametrul din populație. Este datorată
întâmplării
Eroarea de non-eşantionare:
erori datorate altor factori, nealeatori (operatori de teren, operatori de introducere,
de prelucrare, etc.)
Observaţii:
• – deviația standard a distribuției de eșantionare este mai mică decât cea din
populație
• – deviația standard a distribuției de eșantionare scade din ce în ce mai mult, pe
măsură ce creștem mărimea eșantionului
Teorema Limită Centrală
Pentru un eșantion de mărime mare, forma distribuției de eșantionare este normală, indiferent
de forma distribuției în populație.
Concluzii:
Dacă vom calcula mediile tuturor eșantioanelor de aceeași mărime (mare), vom constata că:
– aproximativ 68% dintre acestea se află la o distanță de 1 E.S. față de media din populație
– aproximativ 95% dintre acestea se află la o distanță de 2 E.S. față de media din populație
• Rezultă că distribuția de eșantionare este o distribuție de
probabilitate continuă, care arată statisticile din eșantion și
probabilitățile asociate acestora.
• Media acestei distribuții µx este media tuturor mediilor de eșantioane

posibile și este chiar media din populație.
• Abaterea standard a acestei distribuții (a acestei variabile aleatoare)

se numește Eroare Standard și este egală cu:
Principii Generale
În studiul într-o populaţie P a parametrilor unei caracteristici oarecare (cantitative sau
calitative) este necesar în mod frecvent să se urmeze procedeul:
1. Se extrage un eșantion reprezentativ al acestei populații.
2. Prin mijloacele statisticii descriptive se descrie distribuţia caracteristicii pe eșantionul
extras. Astfel se poate determina frecvența observată, dacă este vorba de o caracteristică
calitativă, sau se calculează media și variaţia, în cazul unei caracteristici cantitative.
3. Prin mijloacele statisticii inferenţiale (inductive) se extind la întreaga populație
rezultatele observate pe eșantion. Pornind de la parametrii observați (frecvența, media,
variația, etc) pe eșantion se încearcă să se estimeze parametrii “teoretici” ai întregii
populaţii.
Metode de inferență pentru medii
O SINGURĂ MEDIE-METODA PENTRU
EȘANTIOANE MARI
• Pentru a calcula intervale de încredere și pentru a aplica testarea
statistică de semnificație în cazul mediilor eșantioanelor mari vom
folosi distribuția normală
• Proprietăți aplicabile doar în cazul eșantioanelor mari:
• mediile eșantioanelor mari extrase în același mod urmează o
distribuție normală
• abaterea standard estimată într-un eșantion mare va fi aproape de
aceea a întregii populații - eroarea standard estimată în eșantion
este o bună estimație
EȘANTIOANE MARI
• vom determina intervale de încredere pentru mediile eșantioanelor
mari folosind distribuția normală.
• estimăm eroarea standard a mediei - se obține cu ajutorul abaterii
standard calculată pentru observațiile din eșantion (eroarea standard
a mediei fiind abaterea standard împărțită la rădăcina pătrată a
numărului de observații din eșantion)
• Intervalul de 95% încredere este de la media minus 1.96 x eroarea
standard la media plus 1.96 x eroarea standard
EȘANTIOANE MARI
Condiții care trebuie îndeplinite:
• Observațiile sunt independente între ele
• Nu putem folosi, de exemplu, un eșantion de 100 de observații în
care avem 10 subiecți cu câte 10 observații fiecare
• Eșantionul este suficient de mare pentru ca erorile standard să fie

bine estimate.
• Ca regulă empirică: ar trebui să avem cel puțin 100 observații
pentru un grup.
DIFERENȚE ÎNTRE MEDIILE
EȘANTIOANELOR PERECHI
• În cercetarea medicală se dorește adesea, mai degrabă să se compare
grupuri de subiecți decât să se estimeze media unei populații, pe baza
datelor provenite dintr-un eșantion
• Studiu - Christensen et al. (2004) - se compară modificările stării de
depresie cu ajutorul unui chestionar aflat pe internet.
• Au fost recrutate 525 persoane cu simptome de depresie identificate printr-un sondaj. Ei
au fost alocați aleatoriu la site-ul web BluePages care oferă informaţii despre depresie (N
= 166), la site-ul web MoodGYM prin se realizează o terapie cognitiv comportamentă (N =
182) sau la un grup de control care folosește placebo (N = 178). Principalele rezultate a
fost măsurate la Centrul pentru Studii epidemiologice cu ajutorul unei scale pentru
depresie
Scorul inițial și după șase săptămâni de tratament pentru un grup de 525 pacienți cu depresie
Deoarece cele trei grupuri de tratament sunt toate eșantioane destul de mari, se poate estima un interval de încredere pentru media
fiecăruia dintre ele
BluePages - 165 de subiecţi
- o medie diferențelor în scoruri de 3.9
- abatere standard de 9.1.
- Eroarea standard a mediei este 0.71
- astfel, intervalul de 95% încredere pentru media diferențelor este de 3.9 - 1.96 x 0.71 la 3.9
+ 1.96 x 0.71, adică de la 2.5 la 5.3 puncte pe scala depresiei. !Atenție: 0 nu se află în interval
- Aceasta reprezintă o estimare pentru intervalul de diferențe ale mediilor punctajelor,
presupunând ca răspunsul nonrespondenților este același.
• Putem testa
• ipoteza nulă - stabilește că media diferențelor este zero
• ipoteza alternativă - stabilește că există o schimbare, în orice direcţie
• Deoarece eșantionul este mare, media va avea o distribuţie normală
cu o abatere standard egală cu eroarea standard a mediei (0.71)
• Diferența dintre media observată în eşantion și media necunoscută a
populației (0) împărţită prin eroarea standard (statistica testului) va
urma distribuţia normală standard
• Ipoteza nulă: media schimbărilor în populație este zero
• dacă acest lucru este adevărat, media observată în eșantion împărțită
prin eroarea standard va urma o distribuție normală standard
• Pentru grupul BluePages aceasta este z = 3.9/0.71 = 5.49.
Probabilitatea de a obține o astfel de o valoare extremă la distribuţia
normală standard este foarte mică, de 0.00000004. Nu putem fi siguri
că aproximarea distribuției normale este suficient de bună pentru
probabilități foarte mici, așa că vom cita rezultatul în forma: p<0.0001
• Acesta este testul pentru o singură medie în cazul eșantioanelor mari
care au distribuție normală, test cunoscut, de asemenea, și sub
denumirea de testul z pentru o singură medie.
Condițiile care trebuiesc îndeplinite pentru
aplicarea acestei metode sunt:
• Observaţiile trebuie să fie independente – nici una din observațiile
unui grup nu se află în vreun raport cu observațiile celuilalt grup;
• Eşantionul trebuie să fie suficient de mare. Regula empirică spune că

trebuie să avem cel puțin 100 observații pentru un grup;
• Media şi abaterea standard a diferenţelor sunt constante, adică nu au

legătură cu dimensiunea variabilelor.
COMPARAREA MEDIILOR A DOUĂ
EȘANTIOANE MARI INDEPENDENTE
• Putem efectua aceleaşi calcule pentru a compara fiecare grup cu intervenție
activă cu grupul de control.
• Pentru BluePages comparat cu grupul de control
• diferența mediilor este 3.9 - 1.0 = 2.9
• eroarea standard a diferenţei este de 0.95
• intervalul de 95% încredere este de la 2.9 - 1.96 x 0.95 la - 2.9 + 1.96 x 0.95, adică de la 1.0
la 4.8. – 0 nu se află în interval
• Testul de semnificaţie dă z = 2.9/0.95 = 3.05, p = 0.002.
• Pentru MoodGYM comparat cu grupul de control
• diferența mediilor este de 3.2
• eroarea standard de 0.92
• intervalul de 95% încredere este de la 1.4 la 5.0 – 0 nu se află în interval
• z = 3.48, p = 0.0005
• Dacă se dorește testarea ipotezei nule de ansamblu care stabilește că

cele trei tratamente produc aceeaşi scădere medie în populaţie,
aceasta se poate face prin aplicarea corecţiei Bonferroni pentru cele
trei valori p
• Multiplicarea cu 3 ar da cea mai mică valoare p = 0.0005 x 3 = 0.0015,

care rămâne încă extrem de importantă
Metoda pentru compararea a două medii în cazul eşantioanelor mari,
normal distribuite, necesită îndeplinirea a două condiții:
• Observaţiile şi grupurile trebuie să fie independente între ele.
• Nu trebuie să existe legături între observaţiile dintre cele două grupuri –
Ex: un studiu în care fiecare subiect dintr-un grup este relaționat, de exemplu,
prin vârstă şi sex, cu un subiect din celălalt grup.
• Eșantioanele trebuie să suficient de mari pentru ca erorile standard
să fie bine estimate iar mediile să aibă o distribuţie normală.
• Regula empirică spune că pentru un singur eșantion ar trebui să avem cel
puţin 100 de observaţii, iar pentru două eşantioane de cel puţin 50 de
observații în fiecare dintre ele.
DISTRIBUȚIA T
• În cazul eșantioanelor mici nu se pot aplica metodele pentru eşantioane mari care sunt normal
distribuite - problemă abordată de un statistician care și-a publicat rezultatele sub pseudonimul
de Student - distribuţia t sau Student
• Condiții de utilizare pentru testul z:
• – cunoaştem media populaţiei de referinţă
• – eşantion „mare” (N≥ 30)
• pentru eşantioane cu N<30
• – testul t
• – se bazează pe aceeaşi logică ca şi z
• – distribuţia t (Student)
• “subspecie” a distribuţiei normale a cărei formă este în funcţie de “gradele de libertate”
(degree of freedom)
• df=N-1
• – “Student” ... William Gosset, 1908
DISTRIBUȚIA T
• La fel ca și distribuţia normală, distribuţia Student t este o familie de

distribuţii.
• Aceasta familie are un singur parametru, numărul care ne spune cu ce
membru al familiei de distribuţii t ne confruntăm. Acesta este
cunoscut sub numele de grade de libertate.
• NB: Am folosit deja acest termen în calcul varianțelor şi abaterilor
standard. Numărul gradelor de libertate al distribuţiei t este egal cu
numărul gradelor de libertate de la abaterea standard folosită în
calculul erorii standard.
DISTRIBUȚIA T
 Când numărul gradelor de libertate este mic
(eșantioane de mici dimensiuni) distribuţia t
are cozile mult mai mult lungi decât
distribuția normală. Acest lucru reflectă o
mai mare incertitudine la eroarea standard a
mediei.
 Când numărul gradelor de libertate şi, prin
urmare dimensiunea eşantionului începe să
crească, distribuţia t tinde să se apropie de
distribuţia normală standard.
 Distribuţiile t se identifică cu distribuţia
normală în teorie, atunci când eşantionul
este infinit de mare.
 În practică, este greu de spus dacă avem o
distribuţie normală sau t la aproximativ 30
de grade de libertate
• La fel ca la distribuția
normală, distribuţia t nu are
o formulă simplă pentru
calculul probabilităţilor
sale.
• S-au folosit aproximări
numerice pentru a calcula
numărul care este înlocuit
de 1.96 în calculele
intervalelor de încredere şi
a valorile p în testele de
semnificaţie
DISTRIBUȚIA T
Puncte critice pentru pragurile de 1%, 5%, 0.1% și 0.01%

pentru distribuția t
Puncte critice la pragul de 5% pentru distribuția t cu 4 grade de

libertate
METODA T PENTRU UN EȘANTION
• Vom folosi distribuţia t pentru a face analiza mediilor în eșantioanele
de mici dimensiuni, analiză pe care am făcut-o mai sus pentru
eşantioane mari folosind distribuţia normală
• Rareori se întâmplă să fie necesară estimarea mediei unei populaţii
pe baza mediei unui eşantion mic, dar vom începe cu aceasta
deoarece este cel mai simplu caz
• Pentru înțelegerea metodei vom folosi datele a 9 pacienți cu răni
cronice nevindecate (Shukla et al., 2004). Biopsiile au fost evaluate
folosind scorul obținut de la un sistem care gradează angiogeneza
microscopică (MAGS) și care furnizează un indice ce evaluează cât de
bine vasele mici de sânge sunt în curs de dezvoltare, evaluând astfel
regenerarea epitelială.
• Scorurile mari sunt cele mai bune
• Cele nouă observaţii au fost: 20, 31, 34, 39, 43, 45, 49, 51 şi 63 – df=8
• Dacă am avea un eşantion mare am putea estima un interval de 95%

încredere prin scăderea/adunarea la medie a 1.96 x eroarea standard:
de la 41.7 - 1.96 x 4.2 la 41.7 + 1.96 x 4.2
• avem numai 9 observaţii - acest interval nu
este valid. Vom folosi o distribuţie t cu 8 grade
de libertate
• punctul critic la pragul de 5% pentru
distribuţia t cu 8 grade de libertate este 2.31
(to.o5) , astfel că intervalul de încredere pentru
media scorurilor MAGS este de la 41.7 - 2.31 x
4.2 la 41.7 + 2.31 x 4.2, adică de la 32.0 la
51.4
Calculele sunt valabile numai dacă observaţiile
provin dintr-o distribuţie normală
VERIFICAREA PRESUPUNERILOR REFERITOARE
LA NORMALITATE
• Când am vorbit despre distribuţia normală am prezentat histograme pentru mai
multe eșantioane mari şi am suprapus curbe normale pe acestea, pentru a vedea
dacă distribuţia normală se potrivește acestor date. Pentru eșantioane de
dimensiuni mici este foarte dificil, pornind de la o histogramă, să se tragă o
concluzie referitoare la normalitatea distribuţiei
• Există o metodă grafică bună prin care se poate examina compatibilitatea dintre o
distribuţie normală și un set de date, anume reprezentarea grafică a cuantilelor
normalei (Normal quantile plot) sau pe scurt reprezentarea grafică a normalității
(Normal plot)
• O reprezentarea grafică a normalității este o reprezentare grafică a perechilor de
date observate și a valorilor pe care ne aşteptăm să le obținem (valori teoretice),
în cazul în care datele urmează o distribuţie normală
VERIFICAREA PRESUPUNERILOR
REFERITOARE LA NORMALITATE
• Mai întâi se ordonează observaţiile
ascendent
• Se calculează valoarea estimată pentru
observația cu cea mai mică valoare din
eșantion pentru distribuţia normală. În
cazul distribuţiei normale standard
aceasta este -1.28 – o face programul
de analiză statistică
• Vom transforma acum aceste valori într-o
distribuţie normală cu aceeași medie şi
varianță precum datele observate prin
înmulţirea valorilor distribuției normale
standard cu abaterea standard calculată
în eșantion şi adăugarea apoi a mediei
eşantionului
• -1.28 x 12.5 + 41.7 = 25.6
• Vom compara această valoare cu cea mai mică valoare observată care este de 20
• Estimăm cele 9 observații (valorile medii pentru cele 9 observații dintr-o
distribuție normală standard):
• Pentru un eșantion extras dintr-o distribuție normală cu media și abaterea

standard precum eșantionul MAGS, vom înmulți cu abaterea standard (x12.5) și
vom aduna cu media (41.7). Valorile obținute:
• Reprezentare grafică perechi formate din
scorurile MAGS observate și scorurile
MAGS calculate pentru cazul în care datele
ar urma o distribuţie normală.
• În cazul în care valorile observate şi cele
calculate sunt similare atunci perechile de
puncte se aliniază sau sunt foarte aproape
de linia de egalitate (prima bisectoare)
formată din puncte pentru care valorile
observate şi cele calculate sunt egale
• Cele mai multe dintre observaţii sunt
aproape de linie, ceea ce sugerează că
observaţiile sunt destul de aproape de
ceea ce am calculat pornind de la o
distribuţie normală (adică de ceea ce ne-
am fi așteptat dacă presupunerea de
normalitate a datelor era adevărată)
 Distribuțiile asimetrice
produc în jurul liniei de
egalitate o curbă
 Distribuţia este negativ
asimetrică (asimetrică la
stânga) şi punctele se abat
mult de la linie încadrându-
se sub ea spre capete (mai
mult spre cel inferior) și
depășind-o spre mijloc
Reprezentarea grafică a normalității pentru datele referitoare de greutatea la

naștere
 Distribuțiile asimetrice produc în jurul
liniei de egalitate o curbă
 Distribuţie pozitiv asimetrică

(asimetrică la dreapta) şi este vizibilă o
curbură în sens opus celei care
corespunde distribuției negativ
asimetrice
Reprezentarea grafică a normalității pentru colesterol la

pacienții cu accident vascular cerebral
Distribuție aproximativ simetrică
Se poate observa că aceste date se

potrivesc cu distribuţia normală
destul de bine
Reprezentarea grafică a normalității pentru greutatea la

naștere pentru vârsta gestațională de 37 săptămâni
Metoda t pentru eșantioane perechi
• lucrăm cu observaţii care sunt perechi (observațiile care provin de la acelaşi
subiect înainte şi după o intervenţie și observațiile care provin de la acelaşi
subiect pentru care se fac două intervenţii diferite, de exemplu într-un studiu
dublu-încrucișat numit și studiu cross-over sau într-un studiu de tip caz-control)
• Dorim să știm dacă media scorurilor MAGS s-
a modificat semnificativ şi care este media
scorurilor.
• Calculăm diferența dintre scorul MAGS după
tratament şi scorul MAGS înainte de
tratament, adică creşterea în scor pentru
MAGS
• Avem 9 observaţii, astfel că numărul
gradelor de libertate folosite în calculul
abaterii standard este de 9 - 1 = 8
• Pentru a estima intervalul de 95% încredere
pentru media calculată în acest eşantion mic,
vom folosi punctul critic pentru pragul de 5%
Media diferențelor=9.33 din distribuţia t cu 8 grade de libertate.
Abaterea standard pentru diferențe=4.03 (Pentru 8 grade de libertate valoarea din
Eroarea std a mediei diferențelor=1.34 tabel este 2.31)
• Pentru eșantioane mici presupunem că diferențele urmează o distribuție normală
• Intervalul de 95% încredere:
• Media-t0.05xeroarea standard a mediei , Media+t0.05xeroarea standard a mediei
• t0.05 reprezintă valoarea critică pentru pragul de 5% al distribuției t cu un nr de
grade de libertate=n-1
• De la 9.33 - 2.31 × 1.34 la 9.33 + 2.31 × 1.34 (de la 6.2 la 12.4)
• Testul de semnificație se referă la:
• Media diferențelor/Eroarea standard (Statistica testului) – urmează o distribuție t
cu n-1 grade de libertate Media diferențelor=9.33
Abaterea standard pentru diferențe=4.03
• =9.33/1.34=6.96 Eroarea std a mediei diferențelor=1.34
• Din tabelul t, p<0.001 - p = 0.0001. Diferenţa este (foarte) semnificativă
Condiții care trebuiesc îndeplinite de datele testate, pentru ca metoda t

pentru eșantioane perechi să fie validă:
1. observaţiile trebuie să fie independente, cu excepția asocierii

2. diferenţele trebuie să urmeze o distribuţie normală
3. media şi abaterea standard a diferenţelor trebuie să nu depindă de
mărimea (magnitudinea) măsurătorilor.
1. observaţiile trebuie să fie independente,
cu excepția asocierii
- depinde de modul de proiectare al
studiului. Acestă condiție este îndeplinită
pentru datele MAGS, deoarece perechile
de date provin de la nouă subiecți diferiți
2. folosim reprezentarea grafică a
normalității - Datele par a fi apropiate de
linia de egalitate şi nu există nici un motiv să
presupunem că diferenţele nu urmează o
distribuţie normală
3. media şi abaterea standard a diferenţelor trebuie să nu depindă de
mărimea (magnitudinea) măsurătorilor.
media diferenţelor sau

variabilitatea diferenţelelor nu
este influențată sau este foarte
puțin influențată de
magnitudinea scorilor MAGS
Diferențele în comparație cu mediile creșterilor în scorul MAGS

reprezentare grafică de tip scatter plot
METODA T PENTRU DOUĂ EȘANTIOANE
INDEPENDENTE
• este cunoscută sub mai multe denumiri: metoda t pentru

eșantioane neperechi, testul t nepereche, metoda t pentru două
grupuri sau testul Student t pentru două eșantioane
• ne permite să estimăm diferenţa dintre medii sau să testăm

ipoteza nulă care stabilește că nu există nici o diferenţă în
populaţie, chiar şi în cazul în care eșantioanele sunt mici

Cursul 5 Inferență Referitoare La Medii

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Cursul 5 Inferență Referitoare La Medii

Încărcat de

Drepturi de autor:

Formate disponibile

CURSUL 5

• CE ESTE INFERENȚA STATISTICĂ?

• fundamentarea unor concluzii generale pe baza utilizării unor date

Teorema Limită Centrală

• Media acestei distribuții µx este media tuturor mediilor de eșantioane

• Abaterea standard a acestei distribuții (a acestei variabile aleatoare)

• Eșantionul este suficient de mare pentru ca erorile standard să fie

• Eşantionul trebuie să fie suficient de mare. Regula empirică spune că

• Media şi abaterea standard a diferenţelor sunt constante, adică nu au

• Dacă se dorește testarea ipotezei nule de ansamblu care stabilește că

• Multiplicarea cu 3 ar da cea mai mică valoare p = 0.0005 x 3 = 0.0015,

• La fel ca și distribuţia normală, distribuţia Student t este o familie de

Puncte critice pentru pragurile de 1%, 5%, 0.1% și 0.01%

Puncte critice la pragul de 5% pentru distribuția t cu 4 grade de

• Dacă am avea un eşantion mare am putea estima un interval de 95%

• Pentru un eșantion extras dintr-o distribuție normală cu media și abaterea

Reprezentarea grafică a normalității pentru datele referitoare de greutatea la

 Distribuţie pozitiv asimetrică

Reprezentarea grafică a normalității pentru colesterol la

Se poate observa că aceste date se

Reprezentarea grafică a normalității pentru greutatea la

Condiții care trebuiesc îndeplinite de datele testate, pentru ca metoda t

1. observaţiile trebuie să fie independente, cu excepția asocierii

media diferenţelor sau

Diferențele în comparație cu mediile creșterilor în scorul MAGS

• este cunoscută sub mai multe denumiri: metoda t pentru

• ne permite să estimăm diferenţa dintre medii sau să testăm

S-ar putea să vă placă și