Sunteți pe pagina 1din 18

INTERVALE DE ÎNCREDERE

Eşantion sau lot = o submulţime a unei populaţii statistice.


Indicatorii statistici calculaţi pentru un eşantion anume sunt simple aproximări
pentru parametrii reali ai populaţiei din care provine eşantionul.

Exemplu:
coeficientul mediu de inteligenţă calculat la un eşantion de studenţi, este o
aproximare foarte proastă a coeficientului mediu de inteligenţă al întregii
populaţii, deoarece un eşantion de studenţi nu este reprezentativ pentru
întreaga populaţie.
coeficientul mediu de inteligenţă calculat la un eşantion mare de indivizi
aleşi la întâmplare din populaţie, va fi probabil o aproximare mai bună a
coeficientului mediu de inteligenţă al întregii populaţii

Inferenţa = extrapolarea sau generalizarea unor rezultate obţinute prin măsurători pe un


eşantion la întreaga populaţie .
Exemplu:
dacă coeficientul mediu de inteligenţă pe un eşantion reprezentativ este 101,5 
 se poate face afirmaţia generalizatoare sau inferenţa, că media coeficientului
de inteligenţă al populaţiei este de 101,5.

Modalităţile prin care se realizează inferenţa statistică.


Se consideră:
➢ o populație cu media m si deviaţia standard a populației:  = s
➢ medie m se aprox. prin medii obținute pe eșantioane mici de
volum n  medii aproximative mai apropiate sau mai depărtate de media m.


o nouă serie statistică M n : m1 , m2 , m3 ,... - seria

mediilor de eșantionare de volum n.


Pentru serie M n : m1 , m2 , m3 ,... se poate demonstra că:

• media seriei M n este aceeaşi cu a populaţiei, adică m.

s
• deviaţia standard a seriei M n este sn =  s , (s = deviaţia standard a populației)
n
• distribuţia seriei M n este Gauss.

Exemplu:
➢ Media coeficientului de inteligenţă într-o populaţie m = 100 , iar deviaţia
standard s = 15
➢ O serie de cercetători, dorind să aproximeze deviația standard, iau fiecare câte un
eşantion, şi calculează coeficientul de inteligenţă mediu, fiecare la eşantionul pe care
şi l-a ales.

Eșantioanele sunt de volum egal n = 144


Rezultatul: aproximaţii → mai bune sau mai proaste
→ unele sub media reală, altele peste 
→ unele mai mici, altele mai mari

 aproximatiile au şi o deviaţie standard.


s 15 15
s144 = = = = 1.25
n 144 12

ceea ce ne spune că aproximaţiile ar fi destul de bune, dacă se abat de la medie cu o deviaţie


standard aşa de mică, de 1,25.
Pentru eșantioane cu volume de 400 indivizi:
s 15 15
s400 = = = = 0.75
n 400 20
Deviația standard se mai numeşte “eroare standard” = Err - arată cât de precis aproximează
media calculată din valorile unei serii, media populaţiei din care a fost extras eşantionul pe
care s-au făcut măsurătorile.
s 
Err = =
n n
-  = deviaţia standard calculată folosind valorile seriei,
- n = numărul de valori din serie
- direct proporţională cu deviaţia standard a valorilor din serie:
✓ valorile din serie sunt mai dispersate  Err are o valoare mai mare.
- Valoarea lui Err, este influenţată şi de numărul de valori din serie:
✓ Err mică  nr mare de valori în serie și dacă  nu se schimbă
- Err scade în funcţie de numărul de valori din serie, nu însă proporţional.
 2.3 2.3
ErrX = = = = 0.46
n 25 5
 2.3 2.3
ErrY = = = = 0.23
n 100 10

Estimarea intervalului de încredere


Definiţie: Vom numi interval de încredere de siguranţă α% (95%, 99%, etc), un intreval de
numere în care suntem α% siguri că se află adevărata valoare a parametrului pe care îl
estimăm.
- este un interval în care bănuim că este situată valoarea reală a parametrului
populației studiate
- se obține cu ajutorul datelor furnizate de o selecție și un coeficient (nivel) de
încredere 1 −  care reprezintă probabilitatea ca intervalul să acopere valoarea
reală a parametrului:
P ( a  m  b) = 1− 

- 1− = 
-  = riscul sau nivel semnificație
-  = 1 +  2
-  1 - risc la stânga
-  2 = risc la dreapta
 
- = +  interval simetric bilateral
2 2
- Riscul poate fi plasat simetric sau asimetric fața de media care se dorește a fi
estimată.
Astfel estimarea unui parametru teoretic nu se face printr-o singură valoare ci
printr-un interval în care parametrul estimat se gasește cu o probabilitate mare numit
interval de încredere.
Intervalul de variație pentru variabila aleatoare studiată și pentru o anumită
probabilitate (95% standard) se numește și interval de confidență sau de încredere.

Se numește interval de încredere pentru un parametru  asociat unei populații


orice interval ( L , U ) pentru care se poate estima probabilitatea ca

  ( L ,U )  P ( L    U ) = 1 − 

- α - pragul de semnificație.
- X – v.a. ce caracterizează o populaţie statistică repartizată normal N ( ,  2 ) , cu

parametrii μ şi  2 .

Exemplu: un interval de încredere de 95% înseamnă că dacă se repetă un test de mai


multe ori, în 95% din cazuri media - dacă aceasta se compară - va fi între limita
superioară şi limita inferioară a intervalului de încredere
Dacă un parametru este repartizat Gauss (normal), cu media m şi abaterea standard s,
atunci media de eşantionare X , obţinută pe un eşantion de n indivizi, respectă
formula următoare:

   
P  X − 1.96   m  X + 1.96    0.95 
 n n

 există o probabiltate de aproximativ 95% ca media reală (necunoscută) m să fie cuprinsă


 
în intervalul de la X − 1.96  la X + 1.96 
n n

Formula de calcul pentru intervalul de încredere de 95% este deci:

   
I95% =  X − tn−1, 95%  , X + tn−1, 95%  
 n n

În general, pentru calculul intervalului de încredere de siguranţă α%, formula este:


   
I % =  X − tn−1,  %  , X + tn−1,  %  
 n n

Intervalele de incredre se pot calcula pentru:

• Media populației
• Dispersia populației
• Diferența a două medii, când se compară două eșantioane

Gradele de libertate reprezintă, în cazul determinărilor biologice numărul


mărimilor (animale, determinări, observaţii) folosite în experimentarea respectivă,
din care se scade o unitate.

Pornind de la această premiză, gradele de libertate reprezintă practic numărul


mărimilor independente folosite în experimentarea respectivă.
În determinarea erorii va interveni un factor de corecție „t”,

„t” → depinde de numărul gradelor de libertate (n-1)

→ se găseşte în tabele, calculat pentru diferite probabilităţi, în funcţie de


numărul de grade de libertate folosit (în general se lucrează cu p= 0,05).

→ scade cu cât creşte numărul observaţiilor, deci cu cât este mai mare numărul
gradelor de libertate.

media reală se află (1-α)% sigur (95% sigur, 99% sigur, etc), între limitele
intervalului de încredere.

media reală poate fi oriunde în interiorul intervalului de încredere, aşa cum


poate să fie chiar şi în afara lui, cu o probabilitate foarte mică.

Exemplu de calcul al intervalului de confidenţă în excel

✓ set de date numerice de tip continuu → variabilă medicală V1 de interes ce


caracterizează populaţia de studiu.
✓ V1 este definită prin 78 de valori prezentate în tabelul de mai jos

✓ Determinarea intervalului de încredere


1. Se introduc datele în excel
2. Se accesează modulul Data Analysis din grupul de meniu Tools.
3. Din analiza datelor se alege opţiunea Statistică Descriptivă (Descriptive
Statistics) şi se obţine fereastra prezentată mai jos.
Se definesc:

• domeniul de lucru (selecţia datelor introduse spre analiză – Input Range),


• celula de start pentru afişarea calculelor realizate – Output Range,
• se introduce numeric valoarea nivelului de încredere – Confidence Level for
Mean.

Rezultatele obţinute sunt prezentate în tabelul următor.


Valorile intervalului de încredere:

Regiunea critică – reprezintă


mulțimea valorilor x ale variabilei
statistice corespunzătoare X pentru
care se respinge ipoteza nulă

Regiunea de încredere a unui


parametru – reprezintă mulțimea
valorilor  pentru care se acceptă
ipoteza nulă

Estimarea intervalelor de încredere pentru medii

I. Cazul când se cunoaște dispersia.

Se consideră o populaţie repartizată normal N ( ,  2 )


X −
- se cunoaşte dispersia Z=  N ( 0,1)

n
- z cuantila de ordinul  pentru repartiţia N (0,1) .
- α - pragul de semnificație.
 
   X − 
P  z  z  z   = P  z  z  =
 2 1−
2   2  1−
2 
 
 n 
   
= P  z   X −  z   =
1−
 2 n 2 n

   
= P  − X + z   −   −X + z   =
1−
 2 n 2 n

   
= P−X − z    −  − X + z   =
1− 1−
 2 n 2 n
   
= P X − z     X +z    = 1− 
1− 1−
 2 n 2 n

Aşadar intervalul căutat este

   
( L ,U ) =  X − z1− ,X +z
n 

1−
 2 n 2


Mărimea Err = z  poartă numele de eroare.
1− n
2

II. Cazul când dispersia este necunoscută

- nu se cunoaște dispersia în estimarea intervalelor se utilizează dispersia de


selecţie
1
(
 xi − X )
2
s2 =
n −1
Se consideră x1 , x2 ,..., x n o selecţie dintr-o populaţie de tipul N ( ,  2 ) .
X −
Mărimea T = este repartizată T (n − 1) şi, ca urmare
s
n
 
   X − 
Pt   T  t   = P t   t  =
 n −1, 2 n −1,1−
  n −1, 2 s n −1,1−

2
 2

 n 
 s s 
= Pt    X − t   =
 n −1, 2 n n −1,1−
2 n 

 s s 
= P −X + t    −  − X +t   =
n −1, n −1,1−
 2 n 2 n

 s s 
= P −X − t    −  − X + t   =
n −1,1− n −1,1−
 2 n 2 n

 s s 
= P X −t      X +t    = 1− 
n −1,1− n −1,1−
 2 n 2 n 

Deoarece repartiția Student este simetrică faţă de origine

t  = −t 
n −1, n −1,1−
2 2

Ca urmare intervalul căutat este

 s 
( L ,U ) =  X − tn −1,1−  s
,X +t
n 

n −1,1−
 2 n 2

s
În acest caz eroarea este Err = t 
n −1,1− n
2

Dacă numărul de experienţe este n  30 , se poate folosi aproximaţia


t  =z 
n −1,1− 1−
2 2

Exemplu:
7 containere au greutățile 9.8; 10.2; 10.4; 9.8; 10.0; 10.2; 9.6. Să se găsească
un interval de încredere cu 1 −  = 0.95 pentru media greutății presupunând
că greutatea este distribuită normal.

Soluție

Dispersia este necunoscută  se va utiliza variabila aleatoare

X −
T= repartizată T (n − 1)
s
n

X=
x i
=
9,8 + 10,2 + 10,4 + 9,8 + 10 + 10,2 + 9,6
= 10.0 ;
n 7

1
 xi − X ( )
2
s2 = =
n −1

( 9,8 − 10 ) + (10, 2 − 10 ) + (10, 4 − 10 ) + (9,8 − 10 ) + (10, 2 − 10 ) + (9, 6 − 10 )


2 2 2 2 2 2

= =
7 −1
1  2   2   4   2   2   4  
2 2 2 2 2 2

=   +   +   +  −  +   +  −    0, 09 
6  10   10   10   10   10   10  

 s = 0.3

 
 2 = 0.025
1 −  = 95   = 0.05  
1 −  = 0.975
 2
t  T t   t6,0.025  T  t6,0.975
n −1, n −1,1−
2 2

t6,0.025 = − t6,0.975 
  t6,0.025 = −2.447
t6,0.975 = 2.447 

X − 10 −  0.3
t6,0.025   t6,0.975  − 2.447   2.447  
s 0.3 7
n 7
0.3 0.3
 − 2.447   10 −   2.447  − 10 
7 7
 − 0.258 − 10  −   0.258 − 10 

 − 10.258  −   −9.258  ( −1)  10.258    9.258 

   ( 9.258;10.258)

Estimarea intervalului de încredere 1 − 


pentru diferenţa a două medii

Se consideră două selecţii din populaţii normal repartizate N (1 ,  12 ) şi


N ( 2 ,  22 ) .
I. Cazul dispersiilor  12 ,  22 cunoscute.

- x11 , x12 ,..., x1n1 selecţie aleatoare dintr-o populaţie N (1 ,  12 )


- x21 , x22 ,..., x2n2 selecţie aleatoare dintr-o populaţie N ( 2 ,  22 )
- x1i şi x 2i sunt independente

 
n1 n2
x1i x2i
- X1 = 1
și X 2 = 1
n1 n2

- ni volumul de selecție

Se consideră variabila aleatoare X1 − X 2 normal repartizată cu

- (
M X 1 − X 2 = 1 −  2 media )
- (
D X1 − X 2 = )  12
n1
+
 22
n2
dispersia

cu x1i şi x 2i sunt independente.

Variabila aleatoare

z=
(X 1 )
− X 2 − ( 1 − 2 )
=
(X 1 )
− X 2 − ( 1 − 2 )
 N ( 0,1)
(
D X1 − X 2 )  12
+
 22
n1 n2

Aplicând raționamentul anterior se obține:


z  Z  z  
1−

  − z1−  Z  z1−
2 2

z = − z   2 2
1−
2 2 
−z 
(X 1 )
− X 2 − ( 1 − 2 )
z 
 12
+
 22

 
1−
 12  22 1− n1 n2
+
2 2

n1 n2

 12  22  12  22
 −z
1−

n1
+
n2
(
 X 1 − X 2 − ( 1 − 2 )  z) 1−

n1
+
n2
(
− X1 − X 2  )
2 2

 12  22
(
 − X1 − X 2 − z ) 1−

n1
+
n2
 − ( 1 − 2 ) 
2

 12  22
(
 − X1 − X 2 + z ) 1−

n1
+
n2
 ( −1) 
2

12  22  12  22
(
 X1 − X 2 + z ) 1−

n1
+
n2
 ( 1 − 2 )  X1 − X 2 − z ( ) 1−

n1
+
n2

2 2

12  22 12  22
(
 X1 − X 2 − z ) 1−

n1
+
n2
 1 − 2  X1 − X 2 + z ( ) 1−

n1
+
n2
2 2

Aşadar, intervalul de estimaţie pentru diferenţa mediilor este

  12  22  12  22 
( L ,U ) =  ( X1 − X 2 ) − z1− + (
, X1 − X 2 + z ) + 
n2 

n1 n2 1− n1
 2 2

În acest caz, eroarea este Err = z 12  22 .


 +
1− n1 n2
2

II. Dispersii necunoscute dar presupuse egale

În cazul în care nu se cunosc dispersiile dar se ştie că sunt egale


 12 =  22 =  2
se utilizează dispersia ponderată de selecţie
( n − 1) s12 + ( n2 − 1) s22 = 1 ( x1i − X 1 ) + 1 (x )
n1 2 n2 2
2i − X2
s2 = 1
n1 + n2 − 2 n1 + n2 − 2
p

și variabila aleatoare

T=
(X 1 )
− X 2 − ( 1 − 2 )
 T ( n1 + n2 − 2 )
1 1
sp +
n1 n2

Deoarece repartiţia Student este simetrică t  = −t  


n1 + n2 − 2, n1 + n2 − 2,1−
2 2

 t 
(X 1 )
− X 2 − ( 1 − 2 )
t 
 
n1 + n2 − 2, 1 1 n1 + n2 − 2,1−
2
sp + 2

n1 n2

 −t 
(X 1 )
− X 2 − ( 1 − 2 )
t 
 
n1 + n2 − 2,1− 1 1 n1 + n2 − 2,1−
2
sp + 2

n1 n2

1 1
 X1 − X 2 + t   sp +  1 − 2 
n1 + n2 − 2,1− n1 n2
2

1 1
 X1 − X 2 − t   sp +  ( −1)
n1 + n2 − 2,1− n1 n2
2

1 1
 X1 − X 2 − t   sp +  1 − 2 
n1 + n2 − 2,1− n1 n2
2
1 1
 X1 − X 2 − t   sp +
n1 + n2 − 2,1− n1 n2
2

Deci, intervalul de încredere este:


 1 1 1 1 
( L ,U ) =  X1 − X 2 − tn +n −2,1−  s p + , X1 − X 2 + t
+ − −
  sp + 
 1 2
2 n1 n2 n n2 2,1
21 n1 n2 

1 1
cu eroarea Err = t   sp + .
n1 + n2 − 2,1− n1 n2
2

Estimarea intervalelor de încredere pentru dispersie

Se consideră o selecţie de volum n dintr-o populaţie normală N ( ,  2 ) .


Variabila aleatoare

( n − 1) s 2
v= 2 ( n − 1) şi ca urmare
2

s2
2   ( n − 1)  2  
n −1,
2 2 n −1,1−
2

1 2 1
    ( n − 1) s 2 
 2
n −1,
 ( n − 1) s 2
 2
n −1,1−

2 2


( n − 1) s 2   2  ( n − 1) s 2 
( n − 1) s 2   2  ( n − 1) s 2

2

2
  2  2 
n −1, n −1,1− n −1,1− n −1,
2 2 2 2
Estimarea intervalului de încredere pentru
raportul a două dispersii

- x11 , x12 ,..., x1n1 selecţie aleatoare dintr-o populaţie N (1 ,  12 )


- x21 , x22 ,..., x2n2 selecţie aleatoare dintr-o populaţie N ( 2 ,  22 )

s12
 12 s12  22
Raportul F =  F ( n1 − 1, n2 − 1)  F =   F ( n1 − 1, n2 − 1) 
s22  12 s22
 22

s12  22 s22
f     f   
n1 −1, n2 −1,
2  12 s22 n1 −1, n2 −1,1−
2 s12

s22  22 s22
 f    f  
s12 n1 −1,n2 −1, 2 12 s12 n1 −1,n2 −1,1− 2
intervalul de estimaţie pentru raportul dispersiilor este:

 s22 s22 
( L ,U ) =  2 f n −1,n −1, , 2 f n −1,n −1,1− 
 s1 1 2 2 s1 1 2 2 

S-ar putea să vă placă și