Sunteți pe pagina 1din 8

III.

Intervalul de ncredere pentru media aritmetic


Mrimile statistice (cum ar fi media aritmetic x i deviaia standard s) sunt estimri ale parametrilor populaiei. Deci, media aritmetic " x ", calculat folosind valorile unui eantion din populaia int, reprezint o estimare a parametrului " " (media aritmetic a ntregii populaii int). n mod similar deviaia standard "s" a eantionului este o estimare a parametrului " " (deviaia standard a ntregii populaii). n concluzie mrimile statistice descriu diferite eantioane ale populaiei, iar parametrii descriu populaie n ntregime. Atunci cnd colectm eantioane ale populaiei int i le determinm media aritmetica " x " i deviaia standard "s" este foarte probabil ca valorile obinute s difere ntre ele i s difere de parametrii ce reprezint media " " i deviaia standard " " corespunztoare ntregii populaii. Acest fapt apare deoarece indivizii (valorile individuale) selectai pentru fiecare eantion sunt foarte probabil diferii de la un esantion la altul. ntradevr, dac lum un numr mare de eantioane din aceeai populaie ne asteptm ca fiecare s aib o medie i o deviaie standard diferite. Distribuia unui numr mare de asemenea mrimi statistice ce caracterizeaz eantioane obinute din aceeai populaie este numit distribuia eantioanelor. Dac aceste eantioane au fost alese imparial, mediile lor aritmetice vor fi distribuite simetric fa de media aritmetic a ntregii populaii. n mod identic, deviaiiile standard vor fi distribuite simetric fa de deviaia standard a ntregii populaii. De obicei, folosim un singur eantion, dar putem determina acurateea cu care am estimat parametrul ce caracterizeaz populaia (media aritmetic sau deviaia standard) printrun artificiu matematic, folosind o distribuie a eantioanelor ipotetic, distribuie bazat pe un numr mare de eantioane imaginare.

Teorema limitei centrale Dac ne imaginm c putem obine toate eantioanele posibile, de o anumit mrime, dintr-o populaie dat, distribuia mrimilor statistice ce caracterizeaz aceste eantioane (de exemplu media aritmetic " x " i deviatia standard "s") va fi o distribuie normal (indiferent de forma distribuiei populaiei mam).

Eroarea standard a mediei Deviaia standard a distribuiei mediei aritmetice a eantioanelor, cunoscut sub x " se calculeaz cu ajutorul relaiei: denumirea eroarea standard a mediei " x = sau x = s n (14)

(13)

Menionm c atunci cnd se cunoate parametrul " " (deviaia standard a ntregii populaii) se folosete relaia (13), iar dac se cunoate numai "s" (deviaia standard a eantionului) se folosete relaia (14). n analiza datelor preluate din mediul nconjurtor ultima variant este ntlnit cel mai frecvent.

Intervalul de ncredere din jurul mediei eantionului n capitolul precedent am prezentat modalitatea de folosire a mediei i a deviaiei standard ce caracterizeaz un set de date normal distribuit pentru determinarea probabilitii de a obine o anumit valoare. Putem determina probabiliti similare n cazul unei distribuii

x. de eantioane normal distribuit dac folosim eroarea standard a mediei De asemenea putem aprecia care este acurateea cu care media aritmetic a eantionului estimeaz media aritmetic a ntregii populaii, prin folosirea unui interval de
ncredere n jurul acesteia. Acest interval de ncredere ne permite s utilizm formulri de

genul: "Dimensiunea medie a pietrelor pe o plaj este 2,5 cm 0,20 cm pentru un nivel de ncredere de 95%, folosind un eantion de 100 pietre." n formularea de mai sus afirmm c suntem 95% siguri c media populaiei n discuie se afl ntre 2,3 cm i 2,7 cm, deci intervalul de ncredere este de 0,2 cm de ambele pri ale mediei eantionului pentru o probabilitate de 95%.

Calcularea intervalului de ncredere din jurul mediei eantionului

Presupunnd c avem un eantion de date, se pune problema de a calcula intervalul de ncredere din jurul mediei aritmetice a eantionului dat. n figura 20 este ilustrat o distribuie ipotetic a mediei artimetice a eantioanelor.
Teorema limitei centrale ne spune c aceast distribuie este normal i este centrat

pe media ntregii populaii. Deoarece distribuia eantioanelor este o distribuie normal,

putem face afirmaii aproximative (probabilistice) despre orice obiect din acea distribuie ntr-un mod asemntor ca n exemplul din capitolul precedent.

Fig. 20 De exemplu: tim c exist o probabilitate de 96% ca media oricrui eantion x fa (valoarea din distribuia mediilor eantioanelor) s fie la distan de 2 erori standard de media ntregii populaii. Cu alte cuvinte suntem 96% siguri c media eantionului considerat se afl la distan de cel mult dou erori standard de media populaiei, sau 96% din x. intervalul de ncredere este x 2
Exemplu: care este intervalul de ncredere corespunztor unei probabiliti de 95%?

Calcularea intervalului de ncredere (CI - confidence interval) se face parcurgnd urmtorii pai:
1) Se calculeaz media x i deviaia standard s (corespunztoare eantionului) sau

(corespunztoare ntregii populaii). x (cea mai bine estimat eroare standard a mediei) cu una 2) Se determin valoarea din relaiile (13) sau (14). 3) Aceast valoare se introduce n relaia (15) i se obine intervalul de ncredere pentru media eantionului x CI = x z (15)

4) Singurul termen necunoscut din relaia de mai sus este z. Acesta se poate determina din tabelul corespunztor statisticii z sau utiliznd functia NORMSINV din programul EXCEL. Deci trebuie determinat parametrul z (corespunztor probabilitii limitate la ambele extremiti), astfel nct probabilitatea ca deviaia standard normal s aparin intervalului [-z, z], s fie de 95%.

Fig 21 Pentru a determina valoarea z se traseaz curba dispersiei standard i se haureaz zona de interes (centrat n jurul valorii medii). Se observ c n ambele extreme rmn nehaurate 2 intervale simetrice a cror arie cumulat reprezint 0,05% din aria total. Aria unui singur interval este 0,025, deci trebuie determinat z pentru p=0,975 (p = 1-0,05/2). Din tabelul corespunztor statisticii z avem: p = 0,975 rezult z = 1,96. nlocuind x aceste valori n relaia (15) se obine: CI = x 1,96
Exemplu aplicativ

Presupunem c avem un set de date cu urmtoarele valori pentru medie, deviaie standard i numrul de msurtori: x = 2,5; de 90%. x folosind relaia (14): Pentru nceput calculm x = 0,2 = 0,02 100 s = 0,5; n = 100. Dorim s determinm intervalul de ncredere din jurul mediei eantionului corespunztor unui nivel de probabilitate

Urmeaz determinarea valorii lui z: Nivelul probabilitii este 90%, deci trebuie determinat valoarea lui z asociat unei valori p = 1-0,1/2 = 0,95. Din tabelul corespunztor
statisticii z observm c valoarea care ne intereseaz este z = 1,64 (s-a folosit valoarea

corespunztoare pentru p = 0,9495 0,95). Folosind relaia (15) putem determina intervalul de ncredere (CI): CI = 2,5 1,640,25 = 2,5 0,03 Acest rezultat arat c suntem 90% siguri c media populaiei se afl ntre valorile 2,47 i 2,53.

Alegerea intervalului de ncredere

Probabilitatea pe care o alegem pentru intervalul de ncredere depinde de certitudinea pe care o dorim ca domeniul din jurul mediei eantionului s cuprind ntradevr media

populaiei. Dac dorim o certitudine de 90%, vom folosi un nivel de probabilitate de 0,9, etc. Cu ct dorim o probabilitate mai mare, cu att mai mare va fi intervalul de ncredere. n practic se folosete un interval de ncredere mare atunci cnd costurile rezultate dintr-o decizie incorect (bazat pe deduciile fcute) sunt foarte mari.

Distribuia t

Distribuia mediilor eantioanelor mici (reduse numeric) nu este totdeauna normal distribuit, chiar dac populaia din care deriv este normal distribuit. Prin eantion mic se nelege acel eantion care conine maxim 30 msurtori. Dac eantioanele (ele nsele) sunt distribuite normal, distribuia eantioanelor urmeaz o distribuie uor diferit, cunoscut sub numele de distribuia t. Astfel avem posibilitatea de a calcula intervalul de ncredere pentru media eantioanelor mici, distribuite normal.
Distribuia t este simetric, la fel ca o distribuie normal, dar devine tot mai plat

odat cu micorarea domensiunii eantionului (figura 22).

Figura 22 Deci distribuia t descrie o familie de distribuii dependente de mrimea eantioanelor. Pentru un eantion ce conine mai mult de 30 msurtori, distribuia t devine identic cu o distribuie normal, deci pentru eantioane mari putem folosi ambele tipuri de distribuii (z sau t) pentru calculul intervalului de ncredere (CI). Pentru a calcula intervalul de ncredere corespunztor mediei unor eantioane cu numr mic de msurtori (normal sau aproape normal distribuite) vom folosi o form modificat a relaiei (15) x CI = x t (16)

Singurul termen pe care nu l-am intlnit nc este t, el putnd fi obinut din tabelul
probabilitilor pentru distribuia t sau folosind progranul EXCEL. n tabelul distribuiei t,

valorile sunt grupate n funcie de nivelul de semnificaie - a - ('significance level') i de


gradul de libertate - df.

Pentru a gsi valoarea lui t trebuie s folosim tabelul distribuiei t i s cunoatem


nivelul de semnificaie i de gradul de libertate.

Pentru a calcula gradul de libertate (df) se folosete relaia (17) df = n - 1 conine 30 de date, numrul gradelor de libertate este 29. Nivelul de semnificaie (a sau ) se calculeaz cu relaia (18) a = 1-P Dac probabilitatea este exprimata in procente, atunci formula folosit este: a = 1 - (P%)/100 (nivel de probabilitate de 0,9), nivelul de semnificaie va avea valoarea 0,1. Tabelul distribuiei t ne indic probabilitile (n cazul unei distribuii limitate la ambele capete) corespunztoare distribuiei t. Valoarea a din tabel reprezint aria de sub curba de distribuie situat la stanga lui -t i la dreapta lui +t. Acest lucru este ilustrat n figura (23), unde valoarea t = 1,96 este asociat cu o probabilitate de 0,05 (pentru limita la dreapta) sau cu o probabilitate de 0,025 (pentru limitare n ambele extreme). (19) Astfel dac dorim s calculm intervalul de ncredere (CI) cu o probabilitate de 90% (18) unde P reprezint probabilitatea si este exprimat ntr-un numr cuprins ntre zero i unu. (17) unde n reprezint numrul valorilor din setul de date. de exemplu pentru un eantion ce

Figura 23 S considerm din nou exemplul anterior: : x = 2,5; s = 0,5; n = 100 S determinm intervalul de ncredere din jurul mediei eantionului cu o probabilitate de 90 % folosind distribuia t. x = 1) calculm 0,2 = 0,02 100

2) determinm valoarea lui t parcurgnd urmtorii pai: - probabilitatea fiind de 90% (P = 0,9) rezult c nivelul de semnificaie este: 6

a = 1 - 0,9 = 0,1 - gradul de libertate este: folosete df = 100). - se obine t = 1,66 3) folosind relaia (16) se obine: CI = 2,5 1,660,02 = 2,5 0,03 Se observ c obinem acelai rezultat ca i n cazul distribuiei z deoarece eantionul considerat este mare. df = 100 - 1 = 99 - din tabelul distribuiei t determinm valoarea t asociat cu a = 0,1 i df = 99 (se

Folosirea distribuiei t sau z

Distribuia z s-a folosit cu precdere n perioada n care computerele nu puteau determina valoarea parametrului t pentru orice grad de libertate. De fapt distribuia z este o aproximaie a statisticii t, care devine tot mai precis odat cu creterea numeric a eantionului. n prezent se poate folosi statistica t, care este valabil indiferent de dimensiunea eantionului. Totui trebuie sa evideniem c funcia CONFIDENCE din programul EXCEL este bazat pe statistica z, deci nu este potrivit pentru eantioane mici. Atunci cnd folosim distribuia t presupunem c datele eantionului sunt normal distribuite. Aceast distribuie nu poate fi folosit n cazul n care distribuia n frecven a eantionului este departe de o distribuie normal. De remarcat faptul c intervalele de ncredere pot fi folosite ca msur a acurateei, nu ns i ca o msur a preciziei. Intervalul de ncredere din jurul mediei indic acurateea cu care media acestui eantion estimeaz media ntregii populaii. Astfel, dei putem calcula media eantionului cu trei sau patru zecimale, dac intervalul de ncredere este mare, media eantionului nu reprezint o estimare acurat a mediei ntregii populaii.

Anexa 2. Tabelul probabilitilor distribuiei t a este probabilitatea ca o valoare s fie mai extrem dect t Exemplu: zona nehaurat reprezint 0,05 din aria total (care este 1.0). n acest caz t va avea o valoare de 2,228 pentru un grad de libertate de 10 (df). Gradul de libertate Nivelul de semnificaie a = 0.05 a = 0.025

a = 0.20

a = 0.10

a = 0.01

a = 0.001

(df)

20% 3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325 1.323 1.321 1.319 1.318 1.316 1.315 1.314 1.313 1.311 1.310 1.303 1.299 1.296 1.294 1.292 1.291 1.290 1.289 1.287 1.286 1.282

10% 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.697 1.684 1.676 1.671 1.667 1.664 1.662 1.660 1.658 1.655 1.653 1.645

5% 12.706 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 2.045 2.042 2.021 2.009 2.000 1.994 1.990 1.987 1.984 1.980 1.976 1.972 1.960

2.5% 25.452 6.205 4.177 3.495 3.163 2.969 2.841 2.752 2.685 2.634 2.593 2.560 2.533 2.510 2.490 2.473 2.458 2.445 2.433 2.423 2.414 2.405 2.398 2.391 2.385 2.379 2.373 2.368 2.364 2.360 2.329 2.311 2.299 2.291 2.284 2.280 2.276 2.270 2.264 2.258 2.242

1.0% 63.656 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 3.106 3.055 3.012 2.977 2.947 2.921 2.898 2.878 2.861 2.845 2.831 2.819 2.807 2.797 2.787 2.779 2.771 2.763 2.756 2.750 2.704 2.678 2.660 2.648 2.639 2.632 2.626 2.617 2.609 2.601 2.576

0.1% 636.578 31.600 12.924 8.610 6.869 5.959 5.408 5.041 4.781 4.587 4.437 4.318 4.221 4.140 4.073 4.015 3.965 3.922 3.883 3.850 3.819 3.792 3.768 3.745 3.725 3.707 3.689 3.674 3.660 3.646 3.551 3.496 3.460 3.435 3.416 3.402 3.390 3.373 3.357 3.340 3.291

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100 120 150 200