Documente Academic
Documente Profesional
Documente Cultură
rezumat
Curs introductiv in
STATISTICA si PROBABILITATI
8.1 Esantionare
Studiile statistice sunt realizate pentru a invata despre caracteristicile unei populatii.
Termenul populatie in statistici se refera la multimea tuturor valorilor posibile, reale sau ipotetice.
Un esantion este un subset dintr-o populatie. Esantionul este examinat si faptele pe care le descrie sunt
invatate. Pe baza acestor fapte, sunt realizate inferentele despre populatie.
Sunt luate in considerare populatii reale si ipotetice. Populatiile reale constau dintr-un numar finit de
indivizi sau obiecte. De exemplu, oamenii dintr-o regiune geografica data pot forma baza unei populatii
reale. Astfel de populatii formeaza adesea baza unei cercetari de tip survey. In contrast, atunci cand
dorim sa cuantificam efectele cauzale ale unor fenomene biologice, populatia este considerata ca fiind
ipotetica, avand un numar infinit de potentiale observatii.
Distinctia de mai sus cercetarea de tip observatie facuta asupra unei populatii finite fata de cercetarea
cauzala facuta supra unei populatii infinite poate fi mult prea simplificatoare. Exista multe tipuri de
populatii si esantioane. Totusi distinctia intre cercetare de observare si cercetare cauzala este utila pentru a
evita confuziile posibile. De exemplu, intr-o cercetare de observare, este important ca esantionul sa fie o
reprezentare unbiased a populatiei. Prin contrast, in cercetarea cauzala, tema reprezentarii ia un loc
secundar fata de temele de comparabilitate de grup. Este important sa intelegem scopul cercetarii atunci
cand determinam cat de potrivit este un esantion.
Esantion de observatie
Se considera un esantion dintr-o populatie reala pentru o cercetare de observare. Sa presupunem ca dorim
sa aflam distributia de varsta pentru aceasta populatie. Teoretic, este posibil sa obtinem informatie despre
intreaga populatie. Asta ar insemna sa facem un recensamant. In majoritatea cazurilor, un recensamant
este imposibil sau nu ar fi practic. De aceea un statistician investigator studiaza un esantion al populatiei.
Acest subset al populatiei este esantionul.
In ultima jumatate de secol, multe s-au invatat despre cum trebuie selectat un esantion bun. Ori de cate ori
este posibil, ar trebui cautat esantionul probabilistic. Esantioanele alese prin mijloace de convenienta sau
1
in mod sistematic ar trebui evitate pentru ca ele sunt predispuse erorilor sistematice in inference
(biases).
Cel mai simplu tip de esantion probabilistic este esantionul random simplu.
Un esantion random simplu este un esantion in care fiecare membru al
populatiei are sansa egala de a intra in esantion.
Distributii de esantionare
Sa consideram un esantion random selectat dintr-o populatie pentru a face o inferenta despre o
caracteristica a populatiei, cum ar fi media populatiei, utilizand o statistica simpla cum este aceea a
mediei esantionului, x . Inferenta se bazeaza pe realizarea ca fiecare esantion random ar avea un numar
diferit pentru x si astfel | X este o variabila random. Distributia de esantionare a acestei statistici este
distributia de probabilitati ale valorilor pe care ar putea sa le ia pentru toate esantioanele posibile ale
aceluiasi numar de observatii extrase din populatie.
Fie X1, X2, . . . , Xn un set de n variabile random independente avand distributii identite cu medie si
varianta 2 . Daca n devine mare, teorema limita centrala stabileste ca distributia
Parametri si Estimari
Indiferent de tipul de inferenta pe care il urmam, este important sa distingem intre parametrii despre care
dorim sa aflam si estimarile utilizate pentru inferente.
Parametrul este o caracteristica numerica a populatiei pe care o observam.
Estimarea este o caracteristica numerica a esantionului pe care il avem la dispozitie pentru studiu.
Desi cele doua sunt legate una de cealalta, ele nu sunt interschimbabile.
De exemplu, media unei populatii este un parametru. Se poate utiliza apoi media esantionului ca estimat
al acestui parametru. Pentru a distinge clar intre aceste doua medii, ne referim la ele cu simboluri diferite:
in general, utilizam caractere grecesti pentru denota parametri si caractere romane pentru a denota
estimari.
Distributii de esantionare ale mediilor
Cheia pentru intelegerea statisticii inferentiale este de a vedea fiecare medie a unui esantion ca pe un
exemplu de medie dintr-o populatie. Aceasta idee formeaza baza a ceea ce se cunoaste ca distributie de
esantionare a mediilor.
O distributie de esantionare a mediei este o distributie de frecvente ipotetica a mediei esantionului care
ar rezulta din extragerea repetata a unor esantioane independente de dimensiune n dintr-o populatie. Este
nevoie de imaginatie pentru a intelege conceptul de distributie de esantionare: sa ne imaginam ca luam
toate esantioanele posibile de dimensiune n dintr-o populatie data. Luam apoi mediile acestor esantioane,
si le reprezentam configuratia in care sunt dispuse pentru a observa ce distributie formeaza. Cam asta se
intelege prin distributia de esantionare.
Experimentele de esantionare demonstreaza trei fenomene de esantionare importante:
(1) pe masura ce creste dimensiunea esantionului, distributia de esantionare devine din ce in ce
mai bine conturata. Acest fenomen este cunoscut ca teorema limita centrala. Aceasta teorema stabileste
ca distributia de esantionare a mediilor tinde catre normalitate cand n devine mare. Asta justifica
utilizarea procedurilor statistice bazate pe teoria distributiilor normale chiar si atunci cand se lucreaza cu
date non-normale.
(2) fiecare distributie este centrata pe media populatiei . Spunem ca valoarea asteptata a mediei
esantionului este media populatiei sau media esantionului este un estimat valid (unbiased) al mediei
populatiei.
(3) cu cresterea dimensiunii esantionului, distributia de esantionare tinde sa se grupeze mai strans
in jurul mediei populatiei. Cu cat esantionul este mai mare, cu atat media esantionului reflecta media
populatiei.
Precizia mediei esantionului poate fi cuantificata in termenii abaterii standard a distributiei de esantionare,
care este numita eroarea standard a mediei sau SEM.
Cand abaterea standard a populatiei () este cunoscuta, eroarea standard a mediei este:
De exemplu, eroarea standard a mediei pentru o variabila cu = 13.586 bazata pe n = 10 are SEM =
13.586 / 10 = 4.296 .
Cand abaterea standard a populatiei () nu este cunoscuta, ea este estimata de abaterea standard a
esantionului s si eroarea standard a mediei (acum notata cu sem) este:
De exemplu, pentru un esantion cu abaterea standard (s) de 16 si dimensiunea esantionului de 10 are sem
= 16/ 10 = 5.060.
Acest interval se numeste interval de incredere. Intervalele de incredere sunt de obicei construite la un
nivel de incredere de 95%desi pot exista si alte nivele de incredere.
Deoarece distributiile de esantionare ale mediei tind catre normalitate, 95% dintre mediile esantioanelor
se afla sub 1.96 din eroarea standard a lui .
Astfel,
Din algebra stim ca
Asta se poate scrie:
Distributia tStudent
Formulele pentru intervalul de incredere bazate pe distributia normala au forma:
(estimat punctual) (coeficient de incredere)(eroare standard)
Cand este cunoscut, coeficientul de incredere provine din distributia normala standard.
Cand nu este cunoscut utilizam abaterea standard pentru esantion s pentru a estima pe si adoptam
distributia t-Student pentru a determina coeficientul de incredere.
Distributia t-Student este o familie de distributii simetrice, unimodale si bine-formate. Ele sunt putin
mai plate si cu cozi mai largi decat distributia normala.
Distributiile t sunt identificate prin grade de libertate (degrees of freedom, df), care determina largimea
cozii distributiei: distributiile t cu grade mici sunt mai plate si cu cozi mai largi. O distributie t cu multe
grade de libertate este in esenta o distributie normala standard (Z).