Sunteți pe pagina 1din 4

LP – Biostatistica

Intervale de confidență

Estimarea constă în determinarea parametrilor populației pe baza eșantionului.


Lipsa de informație cauzată de folosirea doar a unei părți a datelor (prin eșantion) duce
la necesitatea estimării parametrilor prin intervale de confidență – este o estimare în
care cu încredere de 95% standard se deduc limitele în care este încadrată valoarea fără
eroare a parametrului estimat (de exemplu media populației).

Notații – scoatem în evidență diferențele dintre valorile reale (fără eroare)


respectiv valorile calculate din eșantion (prezintă eroare)
Indicator statistic Populație Eșantion

Medie μ ̅
𝑿
Deviația standard σ S
Proporție π p

Example: - the average of a sample of data denoted


̅ is a point estimation of the population mean μ. The sample mean will be close to the
𝑿
population mean.
What is the confidence interval for the sample mean?
This is equivalent to find an interval defined by two boundaries LL(lower limit or
lower bound) and UL(upper limit) that depends on the probability of estimation.
Because the sample is random also the limits are random. In the long run (random
sampling from the population) these intervals will enclose the population mean μ with
a standard probability of 0.95.

Formule de calcul.

Intervalul de confidență pentru media unei variabile de tip continuu (se măsoară cu
scală raport sau interval).

1 – Cazul în care se cunoaște deviația standard σ a populației:

𝝈
̅−𝒁 𝜶∙
𝑳𝒐𝒘𝒆𝒓 𝒍𝒊𝒎𝒊𝒕 = 𝑿 𝟏−
𝟐 √𝒏

Page 1 of 4
𝝈
̅ + 𝒁𝟏−𝜶/𝟐 ∙
𝑼𝒑𝒑𝒆𝒓 𝒍𝒊𝒎𝒊𝒕 = 𝑿
√𝒏
Pentru 0.95 încredere α = 1-0.95 = 0.05
Coeficientul 𝐙𝟏−𝛂/𝟐 este valoarea corespunzătoare pe abscisa distribuției densității
de probabilitate Gauss Laplace:
𝜶
In Excel : 𝒁𝟏−𝜶/𝟐 = 𝑵𝑶𝑹𝑴. 𝑺. 𝑰𝑵𝑽(𝟏 − )
𝟐
σ – este deviația standard a populației.
𝝈
Produsul 𝒁𝟏−𝜶/𝟐 ∙ se numește precizie.
√𝒏
𝝈
In Excel: 𝒁𝟏−𝜶/𝟐 ∙ =CONFIDENCE.NORM(alpha, stdev, size)
√𝒏

1 – Situația în care deviația standard σ este necunoscută(situație des întâlnită în


practică):
𝒔
̅ −𝒕
𝑳𝒐𝒘𝒆𝒓 𝒍𝒊𝒎𝒊𝒕 = 𝑿 𝜶∙
𝒏−𝟏,𝟏−
𝟐 √𝒏
𝒔
̅ + 𝒕𝒏−𝟏,𝟏−𝜶/𝟐 ∙
𝑼𝒑𝒑𝒆𝒓 𝒍𝒊𝒎𝒊𝒕 = 𝑿
√𝒏
- n este dimensiunea eșantionului, s este deviația standard calculată din eșantion, t
este distribuția student.

In această situație precizia devine:


𝒔
𝒕𝒏−𝟏,𝟏−𝜶/𝟐 ∙ =CONFIDENCE.T(alpha, stdev, size)
√𝒏
Valoarea t se calculează ca funcție inversă:
𝒕𝒏−𝟏,𝟏−𝜶 = T.INV(1-α/2,n-1) = T.INV(probability, degree of freedom)
𝟐

Interval de confidență pentru o proporție (formula Wald):

Presupunem că avem un eșantion de forma: 1, 0, 1, 1, 0, 1, 0…


Prin 1 înțelegem eveniment realizat iar prin 0 nerealizat. Notăm cu x realizările (suma
valorilor de 1) evenimentului , iar cu n numărul total de date (volumul eșantionului.
Proporția de evenimente realizate este: p=x/n.
Limitele intervalului de confidență pentru această proporție sunt (formula Wald):
𝒑 ∙ (𝟏 − 𝒑)
𝑳𝒐𝒘𝒆𝒓 𝒍𝒊𝒎𝒊𝒕 = 𝒑 − 𝒁𝟏−𝜶 ∙ √
𝟐 𝒏

Page 2 of 4
𝒑 ∙ (𝟏 − 𝒑)
𝑳𝒐𝒘𝒆𝒓 𝒍𝒊𝒎𝒊𝒕 = 𝒑 + 𝒁𝟏−𝜶 ∙ √
𝟐 𝒏
𝜶
In Excel : 𝒁𝟏−𝜶/𝟐 = 𝑵𝑶𝑹𝑴. 𝑺. 𝑰𝑵𝑽(𝟏 − )
𝟐
- p este proporția din eșantion și poate de exemplu reprezenta prevalența
cancerului de plămân.
Observație: Formula Wald este cea mai simplă (pentru calculul proporției) dar are
anumite dezavantaje. De exemplu erorile sunt mari pentru proporții mai mici ca 0.2
respectiv mai mari ca 0.8. Pentru exemple practice este un bun început.

Răspundeți la următoarele întrebări:


Deschideți fișierul LP2 stat ConfInterval.xlsx.

1 – Folosind prima foaie de calcul calculați intervalul de confidență al mediei


hemoglobinei atât la internare cât și la externare cu 0.95 probabilitate.
Găsiți diferențe între intervalele de confidență calculate pe grupe definite de gen
(F/M) ? Cu alte cuvinte intervalele se suprapun sau nu ?

2 – Folosind a doua foaie de calcul aflați limitele intervalului de confidență pentru


media ESR pentru cele două momente de timp (internare / externare). Găsiți diferențe
semnificative ?

3 – Calculați folosind datele din foaia a 3-a de calcul intervalul de confidență al


proporției prin metoda Wald (cu 95% probabilitate). Iată formulele de calcul:

The limits that define the confidence interval are (Wald formula):
𝒑 ∙ (𝟏 − 𝒑)
𝑳𝒐𝒘𝒆𝒓 𝒍𝒊𝒎𝒊𝒕 = 𝒑 − 𝒁𝟏−𝜶 ∙ √
𝟐 𝒏

𝒑 ∙ (𝟏 − 𝒑)
𝑼𝒑𝒑𝒆𝒓 𝒍𝒊𝒎𝒊𝒕 = 𝒑 + 𝒁𝟏−𝜶 ∙ √
𝟐 𝒏
𝜶
In Excel : 𝒁𝟏−𝜶/𝟐 = 𝑵𝑶𝑹𝑴. 𝑺. 𝑰𝑵𝑽(𝟏 − )
𝟐

Page 3 of 4
4 – Calculați intervalul de confidență al riscului relativ pentru datele din foaia de
calcul 4. Rezultatul dovedește că avem un factor de risc ?

DISEASE
+ - total
+ a b a+b a  (c  d )
RR 
FACTOR - c d c+d c  ( a  b)
t a+c+b
otal a+c b+d +d

 b d 
RR _ Lower Limit (1   )  exp LN ( RR )  z 1 / 2    
 a  (a  b) c  (c  d ) 

 b d 
RR _ Upper Limit (1   )  exp LN ( RR )  z 1 / 2    

 a  ( a  b ) c  ( c  d ) 

5 – Folosind foaia a 5-a de calcul aflați limitele intervalului de confidență pentru


raportul cotelor. Comentați / interpretați rezultatul.
ad
OR 
bc
 1 1 1 1 
OR _ Lower Limit (1   )  exp LN (OR)  z 1 / 2      

 a b c d 

 1 1 1 1 
OR _ Upper Limit (1   )  exp LN (OR)  z 1 / 2      

 a b c d 

Additional exercises
*** – From spreadsheet named Exercise X compute the confidence interval of the
cholesterol difference between the groups defined by the smoke attribute (with 0.95
probability).

Confidence interval for the difference of two means

Page 4 of 4

S-ar putea să vă placă și