Sunteți pe pagina 1din 30

ESTIMARE PRIN

INTERVAL DE CONFIDENȚĂ

Conf. Dr. Lucian V. Boiculese


Introducere

În cazul realizării experimentelor de un număr repetat de ori se obţine un număr


finit de evenimente. Observaţiile ce se fac asupra populaţiei pot fi totale (dacă se
studiază toate evenimentele, sau toţi indivizii - exhaustiv) sau parţiale (dacă se studiază
doar un eşantion din total).
Cercetarea unitară a întregii populaţii în multe situaţii este greu de realizat, poate
chiar impracticabilă. O situaţie complementară este aceea în care numărul datelor
experimentale este mic. Bazându-ne pe aceste informaţii trebuie deduse caracteristici
generale asupra fenomenului sau obiectivului de studiu.
Eşantionul este considerat mic dacă volumul său are un număr de elemente până în
30 şi mare dacă numărul de elemente depăşeşte valoarea 30. Acest prag este necesar
pentru a aproxima cât mai bine modificările ce apar în tipul distribuţiei datelor şi ca
urmare un volum mare al eşantionului va avea implicaţii pozitive în rezultatele finale.
Astfel, funcţie de numărul de valori disponibile, se aplică diferite teste, iar precizia
estimărilor este cu atât mai bună cu cât avem mai multe date de studiu.
Scopul principal în cadrul culegerii datelor constă în a obţine cu un efort minim
(volum minim de date) un volum maxim de informaţii.
Estimarea constă în operaţia de determinare a parametrilor populaţiei pe baza
eşantionului studiat. Datorită lipsei de informaţie generată de cercetarea uneori neunitară
cât şi datorită dispersiei parametrilor doriţi, se poate deduce cu o anumită probabilitate (de
obicei acceptată la valoarea de 95% în domeniul medical), un anumit interval de încredere în
care se află parametrul studiat.
Obiectivul final al unui experiment constă, în majoritatea cazurilor, în a măsura valoarea
unui parametru. Valoarea măsurată (izolată de altfel) nu poate fi considerată satisfăcătoare
sau valoare de referinţă dacă nu se fac şi precizări referitoare la domeniul de variaţie precum
şi la probabilitatea corespunzătoare.
În cadrul estimării parametrilor unei populaţii, valoarea calculată este de fapt o variabilă
aleatoare legată de eşantionul studiat. Cu cât avem mai multe eşantioane, cu atât avem mai
multe valori ale parametrului care urmează a fi calculat.
Rolul inferenţelor statistice constă în a determina din informaţiile din eşantion concluzii
pertinente asupra întregii populaţii. Chiar dacă teoretic putem imagina un număr mare de
eşantioane extrase, aplicând metodele statisticii, se pot afla limitele de variaţie ale mediei (ca
exemplu de indicator analizat) doar dintr-un singur eşantion de studiu.
Media, acest indicator statistic de importanţă majoră, este în centrul temei de estimare
sau evaluare. Această estimare ajută nu numai la caracterizarea unei populaţii, ci şi la
compararea diferitelor loturi analizate (este important de menţionat că media poate
reprezenta şi frecvenţa de apariţie a unui eveniment – conform legi numerelor mari).
Intervalul de încredere pentru media unei variabile aleatoare de tip continuu
repartizată normal

Metoda de lucru pleacă generic de la ideea de a studia variabila aleatoare creată


din media eşantioanelor extrase din populaţia ţintă. Teoretic, putem extrage un număr
enorm de eşantioane dintr-o populaţie. Aceste eşantioane pot avea dimensiuni diferite,
iar media lor respectă un anumit tip de distribuţie.

Există în statistică teorema limită centrală (rezultat fundamental), care afirmă că


independent de tipul de distribuţie al datelor din populaţie, media eşantioanelor
extrase creează un lot de date care urmează o repartiţie de tip Gauss-Laplace (cu
condiţia să avem selecţie aleatoare simplă).

Graficul următor exprimă vizual ideea demonstrată prin teorema limită centrală.
Populaţia de
studiu
Lot Medie
Li Distribuţia mediilor este
Ln 1 M1 de tip (Gauss Laplace)
L1
2 M2
L7 L2
3 M3

Eşantion (lot) …. … 


extras
45 M45

Populația este caracterizată de media μ și deviația standard σ. Din populația de studiu


extragem aleator eșantioane.

Calculăm media fiecărui eșantion și creăm astfel o nouă populație definită de aceste
medii.

Această nouă populație definește distribuția statistică a mediilor cu ajutorul căreia


putem estima intervalul de confidență. Va avea media μ și deviația standard σ/sqrt(n),
unde n este volumul eșantionului.
Vom da un exemplu de determinare a distribuţiei mediilor eşantioanelor dintr-o
populaţie care nu este repartizată normal, tocmai pentru a observa forma gauss-iană
urmată de eşantionul mediilor.
Presupunem că avem o populaţie repartizată liniar constant pe intervalul [0, 1]. Vom
extrage 100 eşantioane de dimensiune 30. Pentru fiecare din cele 100 de eşantioane se
calculează media, apoi se realizează histograma frecvenţelor absolute.
Acestea sunt reprezentate grafic în figurile următoare.

Histograma datelor din populaţia ţintă


Histograma mediilor
(eşantion din 30 elem ente)
200
147 30
140
150 121
130
117 121 128 121 124
113
20
100
10
50
0

0.13
0.2
0.28
0.35
0.43
0.5
0.58
0.65
0.73
0.8
0.88
0.95
0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 More

Repartiție uniformă (un eșantion Repartiție normală – Gauss Laplace


de peste 1000 date).
Teorema limită centrală
Indiferent de tipul distribuţiei populaţiei, media eşantioanelor tinde către
distribuţia Gauss Laplace şi este cu atât mai apropiată de aceasta, cu cât volumul
eşantionului creşte (un volum mai mare decât 30 implică erori mici).

Observaţii
1 – Dacă distribuţia populaţiei este normală, atunci în mod sigur distribuţia mediilor
eşantioanelor este normală şi pentru valori mici ale eşantionului (aici trebuie discutat ce
înseamnă în statistică set de date mic ca volum).

2 – Media valorilor medii ale eşantioanelor este media populaţie. Aceasta arată că nu
există eroare de deplasare. Matematic putem scrie: M ( X 1 , X 2 ,... X n )   .

3 – Deviaţia standard a mediilor eşantioanelor este de radical din n ori mai mică decât
deviaţia standard a întregii populaţii. Avem astfel:  X   , unde n reprezintă
volumul eşantionului n

DACĂ CUNOAȘTEM TIPUL DISTRIBUȚIEI MEDIILOR ȘI PARAMETRII ACESTEIA, ATUNCI


PUTEM CALCULA INTERVALUL DE CONFIDENȚĂ !
Exemplu de calcul

Cazul 1 – Valoarea dispersiei este cunoscută.


Considerăm o variabilă aleatoare repartizată normal N(,2) pentru care dorim să
estimăm intervalul de încredere pentru valoarea mediei. Avem un set de date de volum n şi
notăm media calculată din datele eşantionului cu X , iar media populaţiei (de obicei
necunoscută) cu .
Evident, dacă am putea analiza întreaga populaţie, atunci media calculată ar avea
valoarea de încredere 100% iar calculul intervalului de variaţie nu ar avea sens, am avea
astfel X   .

Se poate demonstra (după cum am amintit deja) că dacă avem mai multe
eşantioane dintr-o populaţie normală, media de selecţie este o variabilă aleatoare
repartizată normal N(,2/n). Pentru a o centra şi normaliza vom aplica formula
X 
(se scade media şi se raportează la dispersie): z 
/ n

Cu alte cuvinte prin această transformare de variabilă obținem o distribuție


normal standardizată – caracterizată de medie μ=0 și deviație standard σ=1
Punem condiția ca această variabilă Z să fie cuprinsă într-un interval simetric față de
medie cu probabilitatea standard de 95% (deci acceptăm o eroare de 5%):

PZ1 Z  Z 2  0,95   1  

f(z) – densitatea de probabilitate


0.45
0.4
Pentru o curba gauss-iană standardizată
0.35 intervalul simetric față de medie cu 95%
0.3
0.25 încredere este determinat de valorile:
0.2
0.15
Z2=-Z1=1,96 (se pot calcula).
1 0.1 2
Intervalul
0.05de încredere
0 Pentru interval simetric se folosește
-4 -3 -2
Z1 -1 0 1 2
Z2 3 4
notația: Z2=Z(1-α/2) respectiv Z1=-Z(1-α/2)

- α este nivelul de semnificație și pentru interval simetric avem: α1= α2= α/2.
Nivelul de încredere este 1- α (notat și β).
Putem scrie în continuare:
X   
 Z (1   / 2)   Z (1   / 2)  X  Z (1   / 2)     X  Z (1   / 2) 
/ n n n

- se numește eroare standard, este deviația standard a distribuției mediilor eșantioanelor.
n AVEM ASTFEL METODA DE CALCUL A INTERVALULUI DE CONFIDENȚĂ !!!
Microsoft Excel - funcții pentru determinarea intervalului de încredere

Avem funcțiile următoare pentru determinarea valorilor distribuției Gauss Laplace:


NORM.S.INV(probability) – calculează valoarea abscisei corespunzător probabilității
cerute pentru o repartiție Gauss standardizată (medie=0, dispersie=1).
Exemplu:
NORM.S.INV(0.3) = -0.524
Pentru standardul de 95% și pentru interval simetric (deci α/2) avem :
Z(1-0.05/2)=NORM.S.INV(0.975)=1.9599 ce se poate aproxima cu 1.96
Ordonata – densitatea
0.45
de probabilitate
0.4
0.35 Suprafața reprezintă
0.3 probabilitatea.
0.25
0.2
0.15 Probabilitate: 0.30
0.1
Abscisa notată Z
(este variabila de
0.05
interes)
0
-4.00

-3.20
-2.80

-2.00
-1.60

-0.80
-0.40
-3.60

-2.40

-1.20

0.00

1.20

2.40

3.60
0.40
0.80

1.60
2.00

2.80
3.20

4.00
Abscisa corespunzătoare :
NORM.S.INV(0.3) = -0.524
Cazul 2 – Valoarea dispersiei este necunoscută / volum mic.

Dacă eșantioanele au volum mic (sub 30) sau dacă repartiția datelor nu este de tip
Gauss-Laplace sau dacă nu se cunoaște valoarea dispersiei populației, atunci folosirea
distribuției Z în estimarea intervalului de confidență a mediei va genera erori mari.
Se folosește pentru aceste situații distribuția t sau student, ce dă rezultate bune în
situațiile critice prezentate mai sus. Dacă volumul eșantionului crește distribuția student
tinde către cea normală – deci nu este nici o greșeală folosirea acesteia în situația în care
forma normală este aplicabilă.
Distribuția t (student) depinde de parametrul numit grade de libertate ce se
calculează funcție de volumul eșantionului. Pentru estimarea intervalului de confidență a
mediei unei variabile continue acest parametru este egal cu numărul de cazuri minus 1.

Excel
T.INV(probability, deg of freedom) – calculează abscisa (deci valoarea t)
corespunzătoare probabilității cerute și a gradelor de libertate ce definesc distribuția).
Formula de calcul a intervalului de confidență se păstrează aproximativ , în sensul că
în loc de Z folosim t. Comparativ t vs Z prob=0.975
S S volum invers-t invers-Z
X  t (1   / 2, n  1)     X  t (1   / 2, n  1)  10 2.262157 1.959964
n n
30 2.04523 1.959964
Iată în tabelul din dreapta pentru comparare 50 2.009575 1.959964
Cele două distribuții Z și t calculate în paralel: 150 1.976013 1.959964
300 1.96793 1.959964
Excel
Funcții pentru calculul intervalului de confidență al mediei – variabilă continuă:

Pentru calculul intervalului de confidență în Excel avem funcțiile dedicate :

CONFIDENCE.T(alpha,standard_dev,size) – care folosește distribuția t pentru determinarea


intervalului de confidență.
S
Aceasta calculează precizia deci valoarea : t (1   / 2)  , în Excel :
- n este volumul eșantionului n
T.INV(1-α / 2,n-1)  S/sqrt(n)

Pentru aproximare normală avem:

CONFIDENCE.NORM(alpha,standard_dev,size) – care folosește distribuția normalizată


(standardizată) de tip Gauss.

Se calculează precizia cu formula: Z (1   / 2)  , în Excel :
n
NORM.S.INV(1-α / 2)  S/sqrt(n)
Data + Data Analysis + Descriptive statistics


Eroarea standard (Standard Error) este : , este deviația standard a mediilor de selecție.
n

Precizia (Confidence level*Std. error) este : Z (1   / 2)  . , Precizia = Interval de confidență
n
Pentru eșantioane mici se folosește distribuția t(student) în loc de Z.
Exemplu de calcul cu formule detaliat:
Exemplu de calcul cu rezultate comparative:
Observație

Calculul intervalului de confidență este util și pentru compararea seturilor de date.

Dacă intervalele de confidență nu se suprapun, atunci sigur avem diferențe


semnificative între seturile de date – cum nivelul de confidență de estimare este standard
de 95% atunci semnificația statistică în compararea datelor este mai mică ca 5% adică
probabilitatea p calculată este p<0.05 – ceea ce este dese ori de dorit (de exemplu putem
compara seturile de date înainte și după tratament).

Rețineți:

Dacă intervalele de confidență nu se suprapun atunci avem confirmarea statistică a


diferențelor seturilor de date – spunem avem semnificație statistică !
SPSS

Metodă de determinare a intervalului de confidență în SPSS

Se lansează: Analyze+Descriptive Statistics+Explore


Intervalul de încredere pentru proporţia unei variabile aleatoare.

Suntem în situaţia estimării intervalul de confidenţă pentru o proporţie. Proporţia


poate fi asemănată cu o medie, iar metodele de lucru pot fi transpuse în acest context.
Evident, ca în cazurile deja prezentate, nu putem studia în totalitate populaţia şi apelăm la
informaţia cuprinsă într-un eşantion. Calculăm proporţia dedusă din lot şi aflăm limitele
intervalului de variaţie a mediei.

Problema se repetă şi generic putem considera un set format din mai multe
eşantioane pentru care calculăm şi studiem proporţia de realizare a unui anumit
eveniment de interes.

În situaţia în care loturile sunt consistente în informaţie, deci conţin date în număr
suficient pentru a păstra proprietăţile populaţiei, distribuţia mediilor este de tip normal şi
putem calcula relativ uşor limitele de confidenţă.
Se pleacă de la formula generală ce exprimă probabilitatea pentru o distribuţie
normală.
Notăm: P - probabilitatea, p - proporţia din eşantion, π - proporţia reală a populaţiei,
α - nivelul semnificaţiei ce este de 5% de obicei.

Amintim convenția de notație:


- Alfabet latin pentru mărimi aproximate (calculate pe baza eșantionului, p proporția din
eșantion);
- Alfabet grecesc pentru mărimi fără eroare (calculate din populație, π ).
Intervalul de confidență se determină punând condiția: Pz1  Z  z 2   1  
Media proporţiilor este repartizată normal si are dispersia σ ce poate fi aproximată cu
formula: p  1  p 

n

Trebuie să normalizăm variabila aleatoare proporţie, deci trebuie să scădem valoarea p


măsurată din eşantion şi să împărţim la dispersie. p 
Obţinem astfel variabila normalizată: Z

p
Înlocuind în prima formulă avem:  z  / 2    z  / 2 

p  1  p 
În final deducem: p  z1 / 2   - metoda Wald.
n
Observaţie
Determinarea intervalului prin metoda Wald este acceptabilă doar în situaţia în care este
îndeplinită condiţia: n∙p ∙(1-p) ≥ 10.
Dacă ţinem cont de faptul că produsul p ∙(1-p), pentru p reprezentând un număr pozitiv
subunitar, este maxim dacă p=0.5, deducem volumul minim al eşantionului de lucru.
Avem astfel : n ∙ 0.25 ≥ 10 => n ≥ 40.
Făcând un studiu amănunţit asupra estimării intervalului de confidenţă, se observă că
pentru valori ale proporţiei mai mici decât 0.2 respectiv mai mari ca 0.8 eroarea se măreşte
considerabil. Astfel s-au propus şi determinat noi metode de calcul a limitelor intervalului de
confidenţă care funcţionează corect pentru eşantioane mici de până la 20 de cazuri.
Rezultate mai bune pentru astfel de situaţii s-au obţinut folosind formulele de calcul: Wilson,
Agresti-Coull, sau verosimilitatea maximă a raportului.
Intervalul proporției p=n1/n poate fi astfel calculat:

Wilson:

1
~
p  1  p
~ n1   z 21 / 2 
~
Agresti-Coull: p  z1 / 2   , unde ~
p 2
n  z 21 / 2  n  z 21 / 2 
Interval de confidență pentru raportul cotelor (ODD RATIO)

Cota este raportul dintre probabilitatea ca un eveniment să se realizeze și probabilitatea ca


P( A) P( A)
acel eveniment să nu se realizeze: CA  
P( A ) 1  P( A)
Este un număr mai mare ca 0 ! C A  [0, )
C A pentru grupul 1
Raportul cotelor =
C A pentru grupul 2

AFECȚIUNE
Cota pentru grupul expuși factorului: + - total
+ a b a+b
a /(a  b) a
C AF    FACTOR - c d c+d
b /(a  b) b total a+c b+d a+c+b+d

Cota pentru grupul neexpuși factorului:


c /(c  d ) c
C AF   
d /(c  d ) d
ad
Astfel raportul cotelor (ODD RATIO): OR 
bc
Trebuie să cunoaștem tipul de distribuție a raportului cotelor pentru a putea
determina intervalul de confidență.

Formula de calcul este standard:


VALOARE PUNCTUALĂ ± NIVEL DE CONFIDENȚĂ * EROARE STANDARD

Este demonstrat că logaritmul natural din raportul cotelor are o distribuție normală.
Ca urmare se va logaritma , se va calcula intervalul de confidență apoi se va
exponenția pentru a reveni la raportul cotelor.
1 1 1 1
Eroarea standard pentru LN(OR) este : ES LN (OR )    
a b c d
1 1 1 1
Pentru LN(OR) avem intervalul de confidență: LN (OR)  z1 / 2     
a b c d
În final:
 1 1 1 1 
OR(limita inf.) este: exp LN (OR)  z1 / 2      

 a b c d 
 1 1 1 1 
OR(limita sup.) este: exp LN (OR)  z1 / 2      

 a b c d 
Interval de confidență pentru riscul relativ (RISK RATIO)

Riscul este probabilitatea ca un eveniment să se realizeze – pentru un subgrup de studiu.


De exemplu: pentru fumători care este riscul de a avea cancer de plămân ?
R A  P(A / fumat)
Este un număr mai mare ca 0 și mai mic ca 1: RA  [0,1]

RA pentru grupul 1
Raportul riscurilor =
RA pentru grupul 2

AFECȚIUNE
Riscul pentru grupul expuși factorului: + - total
+ a b a+b
a FACTOR - c d c+d
RAF  
ab total a+c b+d a+c+b+d
Riscul pentru grupul neexpuși factorului:
c
RAF  
cd
a  (c  d )
Astfel raportul cotelor (RISK RATIO): RR 
c  ( a  b)
Este demonstrat că logaritmul natural din raportul riscurilor are o distribuție normală.
Ca urmare se va logaritma , se va calcula intervalul de confidență apoi se va
exponenția pentru a reveni la raportul riscurilor.
b d
Eroarea standard pentru LN(RR) este : ES LN ( RR )  
a  ( a  b ) c  (c  d )

Se aplică același algoritm de estimare ca în cazul OR doar eroarea standard diferă.

În final obținem:
 b d 

RR(limita inf.) este: exp LN ( RR)  z1 / 2    
 a  (a  b) c  (c  d ) 
 b d 

RR(limita sup.) este: exp LN ( RR)  z1 / 2    
 a  (a  b) c  (c  d ) 

Observație
Intervalul de confidență atât pentru RR cât și pentru OR este simetric în forma
logaritmică !
În forma normală acest interval nu este simetric.
Intervalele de confidență pentru media unei variabile de tip continuu respectiv pentru
frecvența unui eveniment sunt simetrice – observație utilă în verificarea analizelor.
Interpretare – pentru intervalul de confidență 95%

Dacă intervalul de confidență pentru RR sau OR cuprinde valoarea 1 înseamnă că


nu există asociere între cele două variabile (afecțiune și factor risc), deci nu vom avea
semnificație.

Dacă limita inferioară a RR sau OR pentru interval de confidență (cu 0.95


încredere) este mai mare ca 1 atunci efectul expunerii este negativ ducând la o creștere
a probabilității de îmbolnăvire (avem factor de risc), deci avem și semnificație statistică.

Dacă limita superioară a RR sau OR pentru interval de confidență (cu 0.95


încredere) este mai mică ca 1 atunci efectul expunerii este pozitiv (benefic) ducând la o
scădere a probabilității de îmbolnăvire (avem factor de prevenție), deci vom avea și
semnificație.
Exemple de posibile întrebări de examen

• Ce reprezintă eroarea standard ?


• Care este formula de calcul a erorii standard pentru estimarea mediei ?
• Care este probabilitatea standard de estimare a intervalului de confidență ?
• Conform teoremei Limită Centrală distribuția mediilor urmează o formă de tip ….
• Dacă probabilitatea de stimare crește atunci intervalul de confidență scade sau crește ?
• Dacă eșantionul este mai mic ca 30 atunci distribuția ce aproximează mai bine mediile
eșantioanelor este de tip …..
• Care dintre măsurile studiate prezintă interval asimetric ?
• Definiți RR.
• Definiți OR.
• Dacă intervalul de confidență a RR conține valoarea 1 atunci …..
• …………………………….etc.
Suplimentar – Intervalul de încredere determinat prin metoda neparametrică
bootstrap
- suplimentar – nu este subiect de examen

Tehnica bootstrap constă în generarea de subseturi de date chiar din lotul sursă,
folosind alegeri de tip aleatoriu (metoda Monte Carlo). Noile seturi sunt formate din
elementele eșantionului sursă, iar dacă selecția este cu înlocuire (elementul ales este
reintrodus în sursă) atunci apare posibilitatea ca un element să se găsească de mai multe
ori într-un set nou.

Metoda bootstrap aplicată pentru determinarea intervalului de confidenţă pentru


medie poate fi prezentată prin următorii paşi:
1 – se generează conform tehnicii cunoscute n eşantioane.
2 – se calculează media pentru fiecare eşantion generat.
3 – se ordonează mediile calculate crescător.
4 – se determină ordinea din şir a mediilor ce reprezintă limitele intervalului pentru
nivelul de confidenţă stabilit.
Exemplu
Presupunem ca generăm 100 eşantioane şi ne interesează intervalul de confidenţă
90% pentru medie. Primii trei paşi prezentaţi se realizează relativ uşor după care
determinăm ordinea din cadrul şirului pentru limitele minimă respectiv maximă a
intervalului.
Pentru 90% confidenţă rezultă elementele de pe poziția 5% respectiv 95%. Pentru un
volum de dimensiune n, calculăm n*5/100 respectiv n*95/100.
În cazul nostru avem chiar pozițiile 5 respectiv 95, astfel din şirul ordonat crescător
se citesc limita inferioară adică a 5-a respectiv limita superioară așadar poziția a 95-a.

Excel
Metodă:
1 – Se definește setul sursă cu un nume (variabilă): Formulas+Define Name. În acest
fel lucrăm optim (ex. numim sursa esantion).
2 – Se aplică funcția INDEX(array, row_num, [column_num]) pentru a alege aleatoriu
valori din setul denumit mai devreme.
Numărul rândului respectiv a coloanei sunt valori întregi. Pentru a avea o alegere
aleatoare avem funcția rand() care generează aleatoriu un număr zecimal în domeniul
[0,1).
Ca urmare funcția ce alege aleator se poate scrie astfel:
=INDEX(esantion,ROWS(esantion)*RAND()+1,COLUMNS(esantion)*RAND()+1)

Obs. Se adaugă 1 deoarece rand() poate genera valoarea 0 – rând sau coloană 0 nu
există.
Realizare practică

În final se ordonează datele după media calculată și se aleg valorile de pe pozițiile 5%


respectiv 95%. Acestea reprezintă limitele intervalului de confidență 90%.
SOME INTERESTING SITES

http://stattrek.com/estimation/estimation-in-statistics.aspx?Tutorial=AP

http://onlinestatbook.com/2/estimation/mean.html

http://www.stat.yale.edu/Courses/1997-98/101/confint.htm

http://www.gla.ac.uk/sums/users/jdbmcdonald/PrePost_TTest/confid3.html

http://www.stat.wmich.edu/s160/book/node46.html