Sunteți pe pagina 1din 7

Introducere in STATISTICA si PROBABILITATI

rezumat

Curs introductiv in
STATISTICA si PROBABILITATI

Capitolul 8: Esantionare si Estimare


Textul cursului (tradus si adaptat) din:
Elementary Statistics, Johnson/Kuby ITP Publishers ISBN 0534356761
B. Burt Gerstman, StatPrimer: Statistics for Public Health Practice.
www.sjsu.edu/faculty/gerstman/StatPrimer

8.1 Esantionare
Studiile statistice sunt realizate pentru a invata despre caracteristicile unei populatii.
Termenul populatie in statistici se refera la multimea tuturor valorilor posibile, reale sau ipotetice.
Un esantion este un subset dintr-o populatie. Esantionul este examinat si faptele pe care le descrie sunt
invatate. Pe baza acestor fapte, sunt realizate inferentele despre populatie.
Sunt luate in considerare populatii reale si ipotetice. Populatiile reale constau dintr-un numar finit de
indivizi sau obiecte. De exemplu, oamenii dintr-o regiune geografica data pot forma baza unei populatii
reale. Astfel de populatii formeaza adesea baza unei cercetari de tip survey. In contrast, atunci cand
dorim sa cuantificam efectele cauzale ale unor fenomene biologice, populatia este considerata ca fiind
ipotetica, avand un numar infinit de potentiale observatii.
Distinctia de mai sus cercetarea de tip observatie facuta asupra unei populatii finite fata de cercetarea
cauzala facuta supra unei populatii infinite poate fi mult prea simplificatoare. Exista multe tipuri de
populatii si esantioane. Totusi distinctia intre cercetare de observare si cercetare cauzala este utila pentru a
evita confuziile posibile. De exemplu, intr-o cercetare de observare, este important ca esantionul sa fie o
reprezentare unbiased a populatiei. Prin contrast, in cercetarea cauzala, tema reprezentarii ia un loc
secundar fata de temele de comparabilitate de grup. Este important sa intelegem scopul cercetarii atunci
cand determinam cat de potrivit este un esantion.

Esantion de observatie
Se considera un esantion dintr-o populatie reala pentru o cercetare de observare. Sa presupunem ca dorim
sa aflam distributia de varsta pentru aceasta populatie. Teoretic, este posibil sa obtinem informatie despre
intreaga populatie. Asta ar insemna sa facem un recensamant. In majoritatea cazurilor, un recensamant
este imposibil sau nu ar fi practic. De aceea un statistician investigator studiaza un esantion al populatiei.
Acest subset al populatiei este esantionul.
In ultima jumatate de secol, multe s-au invatat despre cum trebuie selectat un esantion bun. Ori de cate ori
este posibil, ar trebui cautat esantionul probabilistic. Esantioanele alese prin mijloace de convenienta sau
1

Introducere in STATISTICA si PROBABILITATI


rezumat

in mod sistematic ar trebui evitate pentru ca ele sunt predispuse erorilor sistematice in inference
(biases).
Cel mai simplu tip de esantion probabilistic este esantionul random simplu.
Un esantion random simplu este un esantion in care fiecare membru al
populatiei are sansa egala de a intra in esantion.

De exemplu, sa presupunem ca dorim sa selectam un esantion random simplu de dimensiune 6 indivizi


dintr-o populatie de 600. Daca acesta este cazul, atunci fiecare individ din populatie are 6 din 600 (1%)
sansa sa intre in esantion, calificandu-l ca pe un esantion probabilistic.
In general, fie n dimensiunea esantionului si N dimensiunea populatiei. Raportul n/N reprezinta raportul
de esantionare in studiu. De exemplu, pentru a selecta n =6 din populatia de N = 600, raportul de
esantionare este 6 / 600 = 0.01 sau 1%.
Esantionarea de observatie poate fi facuta cu sau fara reamplasare.
Esantionarea cu reamplasare se face prin re-introducerea membrilor selectati in esantion inapoi in
populatie. In acest fel, orice unitate data (persoana) poate sa apara mai mult de o singura data intr-un
esantion dat si fiecare din cei toti N membri ai populatiei au sansa de n/N de a fi selectati la fiecare
selectie.
In contrast, esantionarea fara reamplasare se face in asa fel incat un membru al populatiei o data
selectat, el este scos din cadrul populatiei pentru a nu mai fi selectat. Procedurile statistice introductive
presupun in general ca esantionul este creat cu reamplasare sau ca raportul de esantionare este atta de mic
incat nu face diferenta daca esantionarea a fost facuta cu sau fara reamplasare. Metodele mai avansate de
observatie ne cer insa sa luam in considerare daca esantionul a fost realizat cu sau fara reamplasare.

8.2. Esantion Simplu Random


Sa presupunem ca dorim sa selectam un esantion de n entitati dintr-o populatie de N entitati. Un esantion
random simplu este selectat astfel incat fiecare entitate are o probabilitate agala de a fi selectat, iar
entitatile sunt selectate independent selectia unui obiect nu schimba probabilitatea de selectie a oricarei
alte entitati din populatie. Esantioanele random simple sunt esantioane ideale. Analistii au incercat sa
dezvolte proceduri de esantionare alternative pentru a cobori costul esantionarii. Dar a determina daca
aceste strategii sunt acceptabile inseamna sa determini cat de mult aproximeaza ele un esantion random
simplu.

Distributii de esantionare
Sa consideram un esantion random selectat dintr-o populatie pentru a face o inferenta despre o
caracteristica a populatiei, cum ar fi media populatiei, utilizand o statistica simpla cum este aceea a
mediei esantionului, x . Inferenta se bazeaza pe realizarea ca fiecare esantion random ar avea un numar
diferit pentru x si astfel | X este o variabila random. Distributia de esantionare a acestei statistici este
distributia de probabilitati ale valorilor pe care ar putea sa le ia pentru toate esantioanele posibile ale
aceluiasi numar de observatii extrase din populatie.

Introducere in STATISTICA si PROBABILITATI


rezumat

8.3 Teorema Limita Centrala

Fie X1, X2, . . . , Xn un set de n variabile random independente avand distributii identite cu medie si
varianta 2 . Daca n devine mare, teorema limita centrala stabileste ca distributia

se apropie de distributia normala standard.

8.4 Introducere in Statistica Inferentiala


Statistica inferentiala este un act de generalizare de la un esantion la o populatie cu un grad
calculat de certitudine. Cele doua forme primare de statistica inferentiala sunt:
1. Estimarea
2. Verificarea ipotezelor
Estimarea furnizeaza cea mai posibila locatie a parametrului unei populatii, adesea cu o margine de
eroare calculata.
Verificarea ipotezelor furnizeaza un mod de a judeca aparitia unei observatii. De exemplu, dorim sa stim
despre prevalenta unei conditii intr-o populatie fumatul pe baza prevalentei acestei conditii intr-un
esantion. Intr-un anumit studiu, inferenta poate fi 25% din populatia adulta fumeaza (estimare
punctuala). Alternativ, inferenta poate fi intre 20% si 30% din populatie fumeaza (estimare de
interval). In sfarsit, specialistii in sanatate pot dori pur si simplu sa testeze daca prevalenta fumatului s-a
schimbat in timp (verificarea ipotezelor).

Parametri si Estimari
Indiferent de tipul de inferenta pe care il urmam, este important sa distingem intre parametrii despre care
dorim sa aflam si estimarile utilizate pentru inferente.
Parametrul este o caracteristica numerica a populatiei pe care o observam.
Estimarea este o caracteristica numerica a esantionului pe care il avem la dispozitie pentru studiu.
Desi cele doua sunt legate una de cealalta, ele nu sunt interschimbabile.

Introducere in STATISTICA si PROBABILITATI


rezumat

De exemplu, media unei populatii este un parametru. Se poate utiliza apoi media esantionului ca estimat
al acestui parametru. Pentru a distinge clar intre aceste doua medii, ne referim la ele cu simboluri diferite:
in general, utilizam caractere grecesti pentru denota parametri si caractere romane pentru a denota
estimari.
Distributii de esantionare ale mediilor

Cheia pentru intelegerea statisticii inferentiale este de a vedea fiecare medie a unui esantion ca pe un
exemplu de medie dintr-o populatie. Aceasta idee formeaza baza a ceea ce se cunoaste ca distributie de
esantionare a mediilor.
O distributie de esantionare a mediei este o distributie de frecvente ipotetica a mediei esantionului care
ar rezulta din extragerea repetata a unor esantioane independente de dimensiune n dintr-o populatie. Este
nevoie de imaginatie pentru a intelege conceptul de distributie de esantionare: sa ne imaginam ca luam
toate esantioanele posibile de dimensiune n dintr-o populatie data. Luam apoi mediile acestor esantioane,
si le reprezentam configuratia in care sunt dispuse pentru a observa ce distributie formeaza. Cam asta se
intelege prin distributia de esantionare.
Experimentele de esantionare demonstreaza trei fenomene de esantionare importante:
(1) pe masura ce creste dimensiunea esantionului, distributia de esantionare devine din ce in ce
mai bine conturata. Acest fenomen este cunoscut ca teorema limita centrala. Aceasta teorema stabileste
ca distributia de esantionare a mediilor tinde catre normalitate cand n devine mare. Asta justifica
utilizarea procedurilor statistice bazate pe teoria distributiilor normale chiar si atunci cand se lucreaza cu
date non-normale.
(2) fiecare distributie este centrata pe media populatiei . Spunem ca valoarea asteptata a mediei
esantionului este media populatiei sau media esantionului este un estimat valid (unbiased) al mediei
populatiei.
(3) cu cresterea dimensiunii esantionului, distributia de esantionare tinde sa se grupeze mai strans
in jurul mediei populatiei. Cu cat esantionul este mai mare, cu atat media esantionului reflecta media
populatiei.
Precizia mediei esantionului poate fi cuantificata in termenii abaterii standard a distributiei de esantionare,
care este numita eroarea standard a mediei sau SEM.
Cand abaterea standard a populatiei () este cunoscuta, eroarea standard a mediei este:

Introducere in STATISTICA si PROBABILITATI


rezumat

De exemplu, eroarea standard a mediei pentru o variabila cu = 13.586 bazata pe n = 10 are SEM =
13.586 / 10 = 4.296 .
Cand abaterea standard a populatiei () nu este cunoscuta, ea este estimata de abaterea standard a
esantionului s si eroarea standard a mediei (acum notata cu sem) este:

De exemplu, pentru un esantion cu abaterea standard (s) de 16 si dimensiunea esantionului de 10 are sem
= 16/ 10 = 5.060.

8.5 Intervalul de incredere


8.5.1. Intervalul de incredere pentru (cunoscut)
95% interval de incredere pentru
Estimatorii punctuali sunt formule care furnizeaza o singura valoare care ajuta la localizarea parametrului.
De exemplu, x este un estimator punctual al . Totusi, estimatorii punctuali nu furnizeaza informatii
despre precizia estimarii. Pentru a cuantifica precizia, noi inconjuram estimatorul punctual cu o
margine de eroare astfel incat exista o limita superioara si una inferioara a increderii:

Acest interval se numeste interval de incredere. Intervalele de incredere sunt de obicei construite la un
nivel de incredere de 95%desi pot exista si alte nivele de incredere.
Deoarece distributiile de esantionare ale mediei tind catre normalitate, 95% dintre mediile esantioanelor
se afla sub 1.96 din eroarea standard a lui .
Astfel,
Din algebra stim ca
Asta se poate scrie:

Introducere in STATISTICA si PROBABILITATI


rezumat

unde x reprezinta media esantionului si SEM reprezinta eroarea standard a mediei.


Alte nivele de incredere
Fie un termen care reprezinta sansa pe care cercetatorul este dispus sa o ia de a nu capta pe . Aici ne
vom referi la intervale de incredere (1 - )100%.
De exemplu:
Cand = 0.05, (1 - )= 0.95.
Cand = 0.10, increderea (1 - )= .90.
Cand = 0.01, (1 - )= 0.99.
Un (1 - )100% interval de incredere pentru este dat de:

unde x reprezinta media esantionului, z1 / 2 , reprezinta (1 - )100th procentaj de curba normala


standard (pe baza de tabele z), si SEM reprezinta eroarea standard a mediei.

Distributia tStudent
Formulele pentru intervalul de incredere bazate pe distributia normala au forma:
(estimat punctual) (coeficient de incredere)(eroare standard)
Cand este cunoscut, coeficientul de incredere provine din distributia normala standard.
Cand nu este cunoscut utilizam abaterea standard pentru esantion s pentru a estima pe si adoptam
distributia t-Student pentru a determina coeficientul de incredere.
Distributia t-Student este o familie de distributii simetrice, unimodale si bine-formate. Ele sunt putin
mai plate si cu cozi mai largi decat distributia normala.
Distributiile t sunt identificate prin grade de libertate (degrees of freedom, df), care determina largimea
cozii distributiei: distributiile t cu grade mici sunt mai plate si cu cozi mai largi. O distributie t cu multe
grade de libertate este in esenta o distributie normala standard (Z).

8.5.2 Interval de incredere pentru (estimat de s)


Cand abaterea standard a populatiei nu este cunoscuta, utilizam abaterea standard pentru esantion s ca pe
un estimat al si calculam un interval de incredere (1 )100% pentru ca:

Introducere in STATISTICA si PROBABILITATI


rezumat

unde x x reprezinta media esantionului, tn-1,1-/2 reprezinta procentajul (1 /2)100% pe o distributie t


cu n - 1 grade de libertate, si sem reprezinta eroarea standard estimata a mediei.

8.5.3 Cerintele asupra dimensiunii esantionului


Este important sa se determine cerinetele aasupra dimensiunilor esantionului inainte de colectarea datelor.
Pentru a deriva un estimat al mediei cu o precizie rezonabila, fie d marginea erorii sau zona din jurul
mediei eesantionului pe care construim intervalul de incredere.
Intervalul de incredere pentru
Deoarece SEM

rezolvand problema pentru n, obtinem:

S-ar putea să vă placă și