Documente Academic
Documente Profesional
Documente Cultură
ESTIMARE PRIN
INTERVAL DE CONFIDENȚĂ
ESTIMARE PRIN
INTERVAL DE CONFIDENȚĂ
ESTIMARE PRIN INTERVAL DE CONFIDENȚĂ
În cazul realizării experimentelor de un număr repetat de ori se obţine un număr finit de evenimente. Observaţiile
ce se fac asupra populaţiei pot fi totale (dacă se studiază toate evenimentele, sau toţi indivizii - exhaustiv) sau
parţiale (dacă se studiază doar un eşantion din total).
Cercetarea unitară a întregii populaţii în multe situaţii este greu de realizat, poate chiar impracticabilă. O situaţie
complementară este aceea în care numărul datelor experimentale este mic. Bazându-ne pe aceste informaţii trebuie
deduse caracteristici generale asupra fenomenului sau obiectivului de studiu.
Eşantionul este considerat mic dacă volumul său are un număr de elemente până în 30 şi mare dacă numărul de
elemente depăşeşte valoarea 30. Acest prag este necesar pentru a aproxima cât mai bine modificările ce apar în tipul
distribuţiei datelor şi ca urmare un volum mare al eşantionului va avea implicaţii pozitive în rezultatele finale.
Astfel, funcţie de numărul de valori disponibile, se aplică diferite teste, iar precizia estimărilor este cu atât mai bună cu
cât avem mai multe date de studiu.
Scopul principal în cadrul culegerii datelor constă în a obţine cu un efort minim (volum minim de date) un volum
maxim de informaţii
ESTIMARE PRIN INTERVAL DE CONFIDENȚĂ
Estimarea constă în operaţia de determinare a parametrilor populaţiei pe baza eşantionului studiat. Datorită lipsei
de informaţie generată de cercetarea uneori neunitară cât şi datorită dispersiei parametrilor doriţi, se poate
deduce cu o anumită probabilitate (de obicei acceptată la valoarea de 95% în domeniul medical), un anumit
interval de încredere în care se află parametrul studiat.
Obiectivul final al unui experiment constă, în majoritatea cazurilor, în a măsura valoarea unui parametru. Valoarea
măsurată (izolată de altfel) nu poate fi considerată satisfăcătoare sau valoare de referinţă dacă nu se fac şi precizări
referitoare la domeniul de variaţie precum şi la probabilitatea corespunzătoare.
În cadrul estimării parametrilor unei populaţii, valoarea calculată este de fapt o variabilă aleatoare legată de
eşantionul studiat. Cu cât avem mai multe eşantioane, cu atât avem mai multe valori ale parametrului care urmează a
fi calculat.
Rolul inferenţelor statistice constă în a determina din informaţiile din eşantion concluzii pertinente asupra întregii
populaţii. Chiar dacă teoretic putem imagina un număr mare de eşantioane extrase, aplicând metodele statisticii, se pot
afla limitele de variaţie ale mediei (ca exemplu de indicator analizat) doar dintr-un singur eşantion de studiu.
Media, acest indicator statistic de importanţă majoră, este în centrul temei de estimare sau evaluare. Această estimare
ajută nu numai la caracterizarea unei populaţii, ci şi la compararea diferitelor loturi analizate (este important de
menţionat că media poate reprezenta şi frecvenţa de apariţie a unui eveniment – conform legii numerelor mari).
INTERVALUL DE ÎNCREDERE PENTRU MEDIA UNEI VARIABILE
ALEATOARE DE TIP CONTINUU REPARTIZATĂ NORMAL
METODA DE ► Pleacă generic de la ideea de a studia variabila aleatoare creată din media eşantioanelor
LUCRU extrase din populaţia ţintă.
► Teoretic, putem extrage un număr enorm de eşantioane dintr-o populaţie.
► Aceste eşantioane pot avea dimensiuni diferite, iar media lor respectă un anumit tip de
distribuţie.
TEOREMA
TEOREMA LIMITĂ CENTRALĂ (rezultat fundamental), care afirmă că:
LIMITĂ
CENTRALĂ
independent de tipul de distribuţie al datelor din populaţie, media eşantioanelor extrase
creează un lot de date care urmează o repartiţie de tip Gauss-Laplace (cu condiţia să avem
selecţie aleatoare simplă).
TEOREMA LIMITĂ CENTRALĂ
Populaţia de
studiu
Lot Medie
Li Distribuţia mediilor este
Ln 1 M1 de tip (Gauss Laplace)
L1
2 M2
L7 L2
3 M3
Calculăm media fiecărui eșantion și creăm astfel o nouă populație definită de aceste medii.
Această nouă populație definește distribuția statistică a mediilor cu ajutorul căreia putem estima intervalul de
confidență. Va avea media μ și deviația standard σ/sqrt(n), unde n este volumul eșantionului.
DISTRIBUŢIA MEDIILOR EŞANTIOANELOR
► Vom da un exemplu de determinare a distribuţiei mediilor eşantioanelor dintr-o populaţie care nu este
repartizată normal, tocmai pentru a observa forma gauss-iană urmată de eşantionul mediilor.
► Vom extrage 100 eşantioane de dimensiune 30. Pentru fiecare din cele 100 de eşantioane se calculează media,
apoi se realizează histograma frecvenţelor absolute.
Repartiție uniformă (un eșantion de peste 1000 date). Repartiție normală – Gauss Laplace
TEOREMA LIMITĂ CENTRALĂ
INDIFERENT DE TIPUL DISTRIBUŢIEI POPULAŢIEI, MEDIA EŞANTIOANELOR TINDE CĂTRE DISTRIBUŢIA GAUSS LAPLACE ŞI ESTE
CU ATÂT MAI APROPIATĂ DE ACEASTA, CU CÂT VOLUMUL EŞANTIONULUI CREŞTE (UN VOLUM MAI MARE DECÂT 30 IMPLICĂ
ERORI MICI).
OBSERVAŢII
1 – Dacă distribuţia populaţiei este normală, atunci în mod sigur distribuţia mediilor eşantioanelor este normală şi
pentru valori mici ale eşantionului (aici trebuie discutat ce înseamnă în statistică set de date mic ca volum).
2 – Media valorilor medii ale eşantioanelor este media populaţie. Aceasta arată că nu există eroare de deplasare.
Matematic putem scrie: .
3 – Deviaţia standard a mediilor eşantioanelor este de radical din n ori mai mică decât deviaţia standard a întregii
populaţii. Avem astfel: , unde n reprezintă volumul eşantionului. Aceasta se numește EROARE
STANDARD
DACĂ CUNOAȘTEM TIPUL DISTRIBUȚIEI MEDIILOR ȘI PARAMETRII ACESTEIA, ATUNCI PUTEM CALCULA INTERVALUL DE
CONFIDENȚĂ !
EXEMPLU DE CALCUL
CAZUL 1 – Considerăm o variabilă aleatoare repartizată normal N(, 2) pentru care dorim să estimăm
intervalul de încredere pentru valoarea mediei. Avem un set de date de volum n şi notăm media
Valoarea
dispersiei este
calculată din datele eşantionului cu , iar media populaţiei (de obicei necunoscută) cu .
cunoscută
Evident, dacă am putea analiza întreaga populaţie, atunci media calculată ar avea valoarea de
încredere 100% iar calculul intervalului de variaţie nu ar avea sens, am avea astfel
Se poate demonstra (după cum am amintit deja) că dacă avem mai multe eşantioane dintr-
o populaţie normală, media de selecţie este o variabilă aleatoare repartizată normal
N((, 2 /n).
► Punem condiția ca această variabilă Z să fie cuprinsă într-un interval simetric față de medie cu probabilitatea
standard de 95% (deci acceptăm o eroare de 5%):
► Pentru o curba gauss-iană standardizată intervalul simetric față de medie cu 95% încredere este determinat de
valorile: Z2=-Z1=1,96 (se pot calcula).
Dacă eșantioanele au volum mic (sub 30) sau dacă repartiția datelor nu este de tip Gauss-Laplace sau dacă nu se
cunoaște valoarea dispersiei populației, atunci folosirea distribuției Z în estimarea intervalului de confidență a mediei
va genera erori mari.
Se folosește pentru aceste situații distribuția t sau student, ce dă rezultate bune în situațiile critice prezentate mai sus.
Dacă volumul eșantionului crește distribuția student tinde către cea normală – deci nu este nici o greșeală folosirea
acesteia în situația în care forma normală este aplicabilă.
Distribuția t (student) depinde de parametrul numit grade de libertate ce se calculează funcție de volumul
eșantionului. Pentru estimarea intervalului de confidență a mediei unei variabile continue acest parametru este egal
cu numărul de cazuri minus 1.
EXCEL
T.INV(probability, deg of freedom) – calculează abscisa (deci valoarea t) corespunzătoare
probabilității cerute și a gradelor de libertate ce definesc distribuția). Comparativ t vs Z prob=0.975
Formula de calcul a intervalului de confidență se păstrează aproximativ, în sensul că în loc de volum invers-t invers-Z
Z folosim t. S S 10 2.262157 1.959964
X t (1 / 2, n 1) X t (1 / 2, n 1)
n n 30 2.04523 1.959964
50 2.009575 1.959964
Iată în tabelul din dreapta pentru comparare 150 1.976013 1.959964
Cele două distribuții Z și t calculate în paralel: 300 1.96793 1.959964
EXCEL: FUNCȚII PENTRU CALCULUL INTERVALULUI DE CONFIDENȚĂ AL MEDIEI – VARIABILĂ CONTINUĂ:
S
Aceasta calculează precizia deci valoarea : t (1 / 2) , în Excel : T.INV(1-α / 2,n-1) S/sqrt(n)
(n este volumul eșantionului) n
Eroarea standard (Standard Error) este : , este deviația standard a mediilor de selecție.
Precizia sau marginea de eroare este coeficientul de încredere * eroarea standard adică:
Precizia definește limitele Intervalului de confidență
Pentru eșantioane mici se folosește distribuția t(student) în loc de Z.
EXEMPLU DE CALCUL CU FORMULE DETALIAT:
EXEMPLU DE CALCUL CU REZULTATE COMPARATIVE:
OBSERVAȚIE
► Dacă intervalele de confidență nu se suprapun, atunci sigur avem diferențe semnificative între
seturile de date – cum nivelul de confidență de estimare este standard de 95% atunci semnificația
statistică în compararea datelor este mai mică ca 5% adică probabilitatea p calculată este p<0.05 –
ceea ce este dese ori de dorit (de exemplu putem compara seturile de date înainte și după
tratament).
Rețineți:
Suntem în situaţia estimării intervalul de confidenţă pentru o proporţie. Proporţia poate fi asemănată cu o medie,
iar metodele de lucru pot fi transpuse în acest context.
Evident, ca în cazurile deja prezentate, nu putem studia în totalitate populaţia şi apelăm la informaţia cuprinsă
într-un eşantion. Calculăm proporţia dedusă din lot şi aflăm limitele intervalului de variaţie a mediei.
Problema se repetă şi generic putem considera un set format din mai multe eşantioane pentru care calculăm şi
studiem proporţia de realizare a unui anumit eveniment de interes.
În situaţia în care loturile sunt consistente în informaţie, deci conţin date în număr suficient pentru a păstra
proprietăţile populaţiei, distribuţia mediilor este de tip normal şi putem calcula relativ uşor limitele de confidenţă.
Media proporţiilor este repartizată normal si are dispersia σ ce poate fi aproximată cu formula:
Trebuie să normalizăm variabila aleatoare proporţie, deci trebuie să scădem valoarea p măsurată din eşantion şi să
împărţim la dispersie. Obţinem astfel variabila normalizată:
Observaţie
Determinarea intervalului prin metoda Wald este acceptabilă doar în situaţia în care este îndeplinită condiţia:
n∙p ∙(1-p) ≥ 10.
Dacă ţinem cont de faptul că produsul p ∙(1-p), pentru p reprezentând un număr pozitiv subunitar, este maxim dacă p=0.5,
deducem volumul minim al eşantionului de lucru.
Avem astfel : n ∙ 0.25 ≥ 10 => n ≥ 40.
INTERVALUL DE ÎNCREDERE PENTRU PROPORŢIA UNEI VARIABILE ALEATOARE
Făcând un studiu amănunţit asupra estimării intervalului de confidenţă, se observă că pentru valori ale proporţiei mai mici
decât 0.2 respectiv mai mari ca 0.8 eroarea se măreşte considerabil.
Astfel, s-au propus şi determinat noi metode de calcul a limitelor intervalului de confidenţă care funcţionează corect
pentru eşantioane mici de până la 20 de cazuri.
Rezultate mai bune pentru astfel de situaţii s-au obţinut folosind formulele de calcul: Wilson, Agresti-Coull, sau
verosimilitatea maximă a raportului.
Wilson:
Agresti-Coull: , unde
INTERVAL DE CONFIDENȚĂ PENTRU RAPORTUL COTELOR (ODD RATIO)
Raportul cotelor =
Trebuie să cunoaștem tipul de distribuție a raportului cotelor pentru a putea determina intervalul de confidență.
În final:
Raportul riscurilor =
Este demonstrat că logaritmul natural din raportul riscurilor are o distribuție normală.
Ca urmare se va logaritma, se va calcula intervalul de confidență apoi se va exponenția pentru a reveni la raportul riscurilor.
În final obținem:
Observație
Intervalul de confidență atât pentru RR cât și pentru OR este simetric în forma logaritmică !
În forma normală acest interval nu este simetric.
Intervalele de confidență pentru media unei variabile de tip continuu respectiv pentru frecvența unui eveniment
sunt simetrice – observație utilă în verificarea analizelor.
INTERPRETARE – PENTRU INTERVALUL DE CONFIDENȚĂ 95%
Dacă intervalul de confidență pentru RR sau OR cuprinde valoarea 1 înseamnă că nu există asociere între cele două
variabile (afecțiune și factor risc), deci nu vom avea semnificație.
Dacă limita inferioară a RR sau OR pentru interval de confidență (cu 0.95 încredere) este mai mare ca 1 atunci efectul
expunerii este negativ ducând la o creștere a probabilității de îmbolnăvire (avem factor de risc), deci avem și
semnificație statistică.
Dacă limita superioară a RR sau OR pentru interval de confidență (cu 0.95 încredere) este mai mică ca 1 atunci efectul
expunerii este pozitiv (benefic) ducând la o scădere a probabilității de îmbolnăvire (avem factor de prevenție), deci
vom avea și semnificație.
Exemple de posibile întrebări de examen
• Ce reprezintă eroarea standard ? (R: Este deviația standard a mediilor eșantioanelor)
• Care este formula de calcul a erorii standard pentru estimarea mediei ? (R: )
• Care este probabilitatea standard de estimare a intervalului de confidență ? (R: 0.95)
• Conform teoremei Limită Centrală distribuția mediilor (pentru eșantioane consistente) urmează o formă de tip
….. (R: Gauss-Laplace, sau normală)
• Dacă probabilitatea de estimare crește atunci intervalul de confidență scade sau crește ? (R: crește)
• Dacă eșantionul este mai mic ca 30 atunci distribuția ce aproximează mai bine mediile eșantioanelor este de tip
….. (R: Este de tip ”t” sau Student)
• Care dintre măsurile studiate prezintă interval asimetric ? (R: RR și OR)
• Definiți RR.
• Definiți OR.
• Dacă intervalul de confidență a RR conține valoarea 1 atunci ….. (R: factorul nu influențează afecțiunea)
• Pentru o probabilitate de 100% (sau 1) pentru o aproximare Gauss-Laplace, intervalul de confidență devine …. (R:
Devine infinit)
• Intervalul de confidență poate fi folosit pentru compararea seturilor de date ? (R: Da)
• …………………………….etc.
SUPLIMENTAR – INTERVALUL DE ÎNCREDERE DETERMINAT PRIN METODA NEPARAMETRICĂ BOOTSTRAP
Tehnica bootstrap constă în generarea de subseturi de date chiar din lotul sursă, folosind alegeri de tip aleatoriu (metoda
Monte Carlo). Noile seturi sunt formate din elementele eșantionului sursă, iar dacă selecția este cu înlocuire (elementul ales
este reintrodus în sursă) atunci apare posibilitatea ca un element să se găsească de mai multe ori într-un set nou.
Metoda bootstrap aplicată pentru determinarea intervalului de confidenţă pentru medie poate fi prezentată prin următorii
paşi:
1 – se generează conform tehnicii cunoscute n eşantioane.
2 – se calculează media pentru fiecare eşantion generat.
3 – se ordonează mediile calculate crescător.
4 – se determină ordinea din şir a mediilor ce reprezintă limitele intervalului pentru nivelul de confidenţă stabilit.
SUPLIMENTAR – INTERVALUL DE ÎNCREDERE DETERMINAT PRIN METODA NEPARAMETRICĂ BOOTSTRAP
Exemplu
Presupunem ca generăm 100 eşantioane şi ne interesează intervalul de confidenţă 90% pentru medie. Primii trei paşi
prezentaţi se realizează relativ uşor după care determinăm ordinea din cadrul şirului pentru limitele minimă respectiv
maximă a intervalului.
Pentru 90% confidenţă rezultă elementele de pe poziția 5% respectiv 95%. Pentru un volum de dimensiune n, calculăm
n*5/100 respectiv n*95/100.
În cazul nostru avem chiar pozițiile 5 respectiv 95, astfel din şirul ordonat crescător se citesc limita inferioară adică a 5-a
respectiv limita superioară așadar poziția a 95-a.
Excel
Metodă:
1 – Se definește setul sursă cu un nume (variabilă): Formulas+Define Name. În acest fel lucrăm optim (ex. numim sursa
esantion).
2 – Se aplică funcția INDEX(array, row_num, [column_num]) pentru a alege aleatoriu valori din setul denumit mai devreme.
Numărul rândului respectiv a coloanei sunt valori întregi. Pentru a avea o alegere aleatoare avem funcția rand() care
generează aleatoriu un număr zecimal în domeniul [0,1).
Ca urmare funcția ce alege aleator se poate scrie astfel:
=INDEX(esantion,ROWS(esantion)*RAND()+1,COLUMNS(esantion)*RAND()+1)
Obs. Se adaugă 1 deoarece rand() poate genera valoarea 0 – rând sau coloană 0 nu există.
SUPLIMENTAR – INTERVALUL DE ÎNCREDERE DETERMINAT PRIN METODA NEPARAMETRICĂ BOOTSTRAP
Realizare practică
În final se ordonează datele după media calculată și se aleg valorile de pe pozițiile 5% respectiv 95%. Acestea reprezintă
limitele intervalului de confidență 90%.
CÂTEVA LINKURI UTILE
http://stattrek.com/estimation/estimation-in-statistics.aspx?Tutorial=AP
http://onlinestatbook.com/2/estimation/mean.html
http://www.stat.yale.edu/Courses/1997-98/101/confint.htm
http://www.gla.ac.uk/sums/users/jdbmcdonald/PrePost_TTest/confid3.html
http://www.stat.wmich.edu/s160/book/node46.html
Întrebari
Discuţii