Sunteți pe pagina 1din 54

Determinarea mrimii eantionului

Nu este nevoie s mnnci tot tortul pentru a vedea ce gust are!

Parametrii populaiei i statistica eantionului


Caracteristicile unei populaii pot fi msurate prin intermediul parametrilor populaiei precum: modulul, media, dispersia, procentul sau proporia.

Variabile
Pentru a clasifica indivizii, a-i compara sau a stabili relaii ntre caracteristicile lor, apare cerina ca acestor caracteristici s le asociem variabile. n funcie de scopul urmrit, unei anumite caracteristici i putem asocia una sau mai multe variabile, n funcie de cerinele analizei pe care o ntreprindem. Avnd n vedere tipul de scal utilizat n procesul msurrii, variabilele pot fi: nominale, ordinale, interval proporionale.

Scopul cercetrilor de marketing care necesit un sondaj ce implic utilizarea unui eantion, este acela de a culege suficient de mult informaie de la componenii eantionului pentru a face inferene (extrapolri) privind caracteristicile urmrite, la nivelul ntregii populaii. La nivelul eantionului vorbim de statistica eantionului. Ea are menirea de a estima parametrii populaiei. Deci, determinnd media eantionului, procentul eantionului sau abaterea standard putem estima valoarea parametrilor populaiei precum medie, procent, abatere standard.

Estimarea
Estimarea reprezint activitatea prin care exprimm, prin intermediul unor mrimi numerice sau a unui interval de mrimi numerice, cu o anumit probabilitate, valorile necunoscute pentru parametrii sau caracteristicile populaiei cercetate, pornind de la rezultatele unuia sau mai multor eantioane extrase din populaia de referin. Estimarea este expresia procesului de inferen sau inducie statistic. Ea se reflect ntr-unul sau mai muli estimatori crora ntotdeauna li se asociaz un nivel de probabilitate ce reflect ncrederea pe care o putem avea n acetia.

Prin intermediul statisticii eantionului putem realiza o estimare a parametrilor populaiei n dou modaliti: estimare punctual estimare prin intervalul de ncredere.

Simboluri aferente parametrilor


parametrii Litere grecesti ca simboluri pentru paramertii populatiei Litere latine ca simboluri pentru parametrii esantionului

Media Dispersia Abaterea standard Proportia raspunsurilor da Proportia raspunsurilor nu Marimea populatiei Marimea esantionului

2
(1- ) N -

x
s2 s p

(1- p) n

Determinarea parametrilor unei populatii


Calcularea parametriilor continui: Tendinta centrala: media

x
i =1

Calcularea parametriilor continui:


Dispersia

2 =

(x )
i i =1

Abaterea standard

Calcularea parametriilor dichotomici:


Proportia celor care spun da:

=
Proportia celor care spun nu:

y
i =1

(1 )

Dispersia
2 =

2 ( y ) i i =1

N
2

Sau

= (1 )

Abaterea standard

Determinarea statisticii esantionului


Presupunem ca din randul populaiei cercetate se constituie un esantion format din 5 unitati alese aleator:
Nr. inregistrare
4 14 24 34 44

cheltuieli
75 100 240 340 170 925

optiunea
0 1 0 0 1 2 0.4

media

185

Calcularea variabilelor continui:


Tendinta centrala: media
N

x=

x
i =1

n
2

925 = = 185 5

Dispersia

s2 =

(x x)
i i =1

n 1

46,600.00 = 11,650.00 4

Gradele de libertate

Abaterea standard

s = s 2 = 107.94

Calcularea variabilelor dichotomice:


Proportia celor care spun da:

p=

y
i =1

= 0.4

Proportia celor care spun nu:

(1 p) = 0.6

Dispersia
s2 =

(y
i =1

p) 2 =

n 1

1.2 = 0.3 4

Sau

n 5 s = p(1 p )( ) = 0.4 0.6 = 0.3 n 1 4


2

Abaterea standard

s = s 2 = 0.55

Rezultatele reflecta situatia unui singur esantion posibil extras din populatia cercetata. Numarul esantioanelor care se pot forma in cazul prezentat:

N! 50! 50 49 48 47 46 c = = = = 2.118.760 n!( N n)! 5!45! 5 4 3 2 1


n N

Mediile rezultate din cadrul tuturor acestor esantioane formeaza distributia mediilor esantioanelor. Forma distributiei mediilor esantioanelor se modifica odata cu cresterea marimii esantionului tinzand catre o distributie normala.

Estimarea mediei
n procesul estimrii, "media eantionului" devine un estimator pentru parametrul media populaiei. Orice valoare particular luat de estimator - pentru un eantion dat - se numete estimaie a parametrului. Valoarea real corespunztoare acestui parametru, aa cum rezult ea din eantion, se numete estimaie punctual. n cazul unei cercetri riguroase nu se utilizeaz estimrile punctuale deoarece, acestea, de la un eantion la altul au valori diferite, iar abaterea acestor valori de la media real a populaiei (eroarea) nu poate fi cunoscut.

Intervalul de estimare
Cea mai indicat metod de estimare este metoda estimrii prin intervalul de estimare. Acesta ofer posibilitatea evidenierii apartenenei valorii parametrului la intervalul respectiv, cu un nivel de ncredere dorit stabilit anticipat.

Intervalul de ncredere
Intervalul de estimare asociat unui nivel de ncredere fixat (90%, 95%) poart numele de interval de ncredere pentru parametrul estimat. n acest sens, intervalul de ncredere pentru parametrul (media populaiei) n condiiile n care avem n vedere distribuia z (mrimea eantionului este mai mare de 30) se prezint astfel:

x z / 2

unde: abaterea standard de la medie valoarea din tabelul repartiiei normale (distribuia z) corespunztoare nivelului de ncredere stabilit (90%, 95%, 99% ) media calculat la nivelul eantionului ca estimaie pentru media populaiei ()

x + z / 2

Nivelul de ncredere exprim ansele ca valoarea parametrului s se afle n intervalul estimat. Diferena dintre 100% i nivelul de ncredere exprimat n procente, reprezint, n schimb, "neansa" sau eroarea ca intervalul de estimare s nu conin parametrul estimat. Dac vom nota cu probabilitatea acestei erori, atunci = 1 gradul de ncredere exprimat ca numr ntre 0 i 1. Dac vom opta pentru un nivel de ncredere de 95%, aceasta nseamn, n acelai timp, o eroare de 5%, adic o neans de 5% de a avea o medie de eantion care s nu se ncadreze n intervalul de ncredere stabilit.

Intervalul de ncredere se poate determina avnd n vedere dou tipuri de distribuie care pot interveni n calculul mrimii abaterilor (erorilor) de la media populaiei: distribuia t (sau distribuia Student) distribuia z

Distribuia t (sau distribuia Student)


n situaiile n care mrimea eantionului este n 30 iar abaterea standard a populaiei nu este cunoscut, se utilizeaz distribuia t (sau distribuia Student). n acest caz intervalul de ncredere va cuprinde valoarea t identificat din tabelul distribuiei t n funcie de nivelul de semnificaie ales i numrul gradelor de libertate. Distribuia t se aseamn cu distribuia normal, avnd, ca i aceasta, media zero i uniti de abateri standard. Forma curbei distribuiei t este influenat de numrul gradelor de libertate. Prin numr de grade de libertate se nelege numrul observrilor minus numrul constrngerilor sau mrimii impuse, necesare calculrii unui parametru statistic. Aceasta nseamn c o observare (valoarea unui atribut) este liber dac valoarea ei nu este nc determinat.

Care din cele dou distribuii, z sau t, este cea mai indicat
a) dac abaterea standard a populaiei este cunoscut, se utilizeaz distribuia z indiferent de mrimea eantionului; b) dac abaterea standard a populaiei este necunoscut -cazul cel mai frecvent n studiile de marketing- atunci, n funcie de mrimea eantionului, putem alege: distribuia t dac n 30; distribuia z dac n > 30. Cu ct mrimea eantionului sporete, cu att mai mult distribuia t se apropie de distribuia z.

Repartiia normal (Gauss-Laplace)

Valorile z
Gradul de incredere 90% (0,9) 95% (0,95) 99% (0,99) Valoarea Z/2 1,64 1,96 2,58

Estimarea procentului
Intervalul de ncredere n cazul n care avem n vedere un procent, n cazul distribuiei z, se determin astfel:

p z / 2 p p + z / 2 p
unde p reprezint estimarea procentului n caz de succes sau a celor care spun DA, iar p reprezint abaterea standard de la media procentului n cazul populaiei.

Cum pe p practic nu-l putem cunoate, se recurge la o estimare a acestuia. Aceast estimare a abaterii standard de la media procentelor se determin astfel:
p = p (100 p ) n 1 N -n N -1

(a )

dac avem n vedere o populaie finit i N 20 n

p =

p (100 p ) n 1

(b )

dac populaia este infinit iar N > 20 n

Mrimea eantionului n cazul mediilor


Pentru a determina mrimea unui eantion se impun a fi luai n considerare trei factori:
a. dispersia sau variana; b. eroarea acceptat; c. nivelul de ncredere.

Dispersia sau variana


Modalitatea statistic de evideniere a gradului de omogenitate a populaiei n raport cu o anumit caracteristic, o reprezint dispersia sau variana. Pe baza ei putem determina abaterea standard ca expresie sintetic a nivelului de omogenitate a populaiei. O abatere standard mic indic un nivel ridicat de omogenitate. Un nivel ridicat de omogenitate necesit un eantion de dimensiuni mici i invers.

Mrimea erorii admise (E)


Pe baza ei se determin intervalul de ncredere, ne arat nivelul de precizie al estimrii.

Nivelul de ncredere
De cele mai multe ori este stabilit la 95% Ne indic probabilitatea ca valorile statisticii eantionului s se gseasc n intervalul de ncredere stabilit.

Mrimea eantionului
Pornind de la relaia de calcul pentru intervalul de ncredere, putem determina mrimea eantionului avnd n vedere un nivel de ncredere dorit i o eroare impus de nivelul de precizie al cercetrii.

x z

Ca mrime absolut, nu reprezint altceva dect abaterea () fa de media populaiei, respectiv eroarea admis.

Dac vom nota cu E eroarea limit admis, avnd n vedere o populaie de dimensiuni foarte mari pentru care dorim s calculm media unui parametru, atunci:

z E = n
de unde vom deduce mrimea sau volumul unui eantion independent (extragere cu ntoarcere):

z2 n= E2

sau

z n= E

Marimea esantionului
z n= E2
2 2

z sau n = E

unde: z = valoarea rezultat din tabelul distribuiei z, n funcie de nivelul de ncredere avut n vedere; = abaterea standard a populaiei exprimat ca mrime absolut E = eroarea admis, exprimat ca mrime absolut

Atunci cnd cunoatem dimensiunile populaiei cercetate


Atunci cnd cunoatem dimensiunile populaiei cercetate, n cazul unei selecii ntmpltoare nerepetate (a procedeului extragerii fr ntoarcere), volumul eantionului se determin pe baza relaiei urmtoare:

z n = 2 z 2 E + N
2 2

unde N reprezint mrimea populaiei cercetate iar celelalte simboluri au semnificaiile menionate anterior.

Principala problem care se pune atunci cnd vrem s determinm mrimea eantionului este aceea c de cele mai multe ori nu cunoatem abaterea standard a populaiei. n asemenea situaie apare necesitatea de a estima abaterea standard a populaiei. Situaia ideal este aceea cnd, pe baza unor studii similare, anterioare, putem avea o baz de estimare a abaterii standard. n practic, atunci cnd nu exist aceast posibilitate, se recurge la o anchet pilot pentru a estima parametrii populaiei, avnd la baz un eantion de dimensiuni mai mici i pe ct posibil i reprezentativ. Pe baza datelor obinute se calculeaz media, variana i abaterea standard. Aceste rezultate se folosesc pentru a determina mrimea eantionului definitiv plecnd de la ipoteza c media i dispersia acestui eantion sunt aceleai ca la eantionul pilot.

O alt metod, des folosit pentru a estima mrimea abaterii standard a populaiei, este aceea de a calcula ct reprezint 1/6 din diferena care exist ntre valorile extreme ale caracteristicii studiate. Deci, dac xM reprezint valoarea maxim iar xm valoarea minim, n condiiile unei repartiii normale a valorilor lui x, atunci:

xM xm = 6

Mrimea eantionului n cazul procentelor


Sunt numeroase situaiile n care cercettorii trebuie s determine mrimea eantionului pentru acele caracteristici ale populaiei care sunt exprimate prin intermediul proporiilor sau procentelor. i n acest caz, punctul de plecare l reprezint cunoaterea intervalului de ncredere determinat pe baza procentelor. Acest interval, dup cum cunoatem, se determin:

p p z
p(100 p ) E = z n

sau

p z

p (100 - p ) n

Dac vom nota eroarea fa de p, cu E, atunci:

z 2 p(100 p ) de unde rezult : n = E2

Deoarece (100 p) = q, mai putem scrie c:

Deoarece (100 p) = q, mai putem scrie c:

z2 p q n= E2

unde: z^2 = ptratul coeficientului z corespunztor nivelului de ncredere avut n vedere; p = estimarea procentelor n caz de succes sau a celor care spun "DA"; q = (100 - p), estimarea procentelor n caz de insucces sau a celor care spun "NU"; E^2 = ptratul erorii admise exprimat ca procente (E = zSp) Pentru a stabili mrimea eantionului n ipoteza n care nu avem nici o informaie despre p, atunci se va lua n considerare nivelul maxim pe care acesta l poate atinge, care este 50%.

Pe scurt
Populaia (universul sau colectivitatea general) din care este ales un eantion este format din totalitatea elementelor din spaiu i timp care sunt semnificative pentru domeniul problemei studiate. Reprezentativitatea unui eantion este asigurat atunci cnd fiecare unitate din populaie are aceeai sans ca i celelalte de a fi inclus n eantion. Mrimea eantioanelor se determin n funcie de omogenitatea sau eterogenitatea populaiei din care sunt extrase. Dac populaia este omogen, atunci un eantion mai mic este suficient de reprezentativ pentru a caracteriza ntregul.

Volumul i structura eantionului sunt decisive pentru calitatea sondajului. Mrimea eantionului se stabilete n funcie de trei elemente: abaterea medie ptratic a colectivitii generale, probabilitatea cu care se garanteaz rezultatele sondajului i eroarea medie ptratic. Eroarea medie ptratic a distribuiei de sondaj a unei statistici se calculeaz cel mai adesea pentru o medie a unei variabile sau o proporie caracteriznd un atribut.

Cu ct mprtierea caracteristicii va fi mai mare, cu att volumul eantionului va fi mai mare. n general, dispersia nu este cunoscut nainte de efectuarea sondajului. Din acest motiv, ea este estimat cu abaterea medie ptratic a eantionului, s, calculat pe baza formulei:

unde, s abaterea medie ptratic din eantion N numrul de elemente din populaie n numrul de elemente din eantion x valoarea unui anumit element din eantion x - media eantionului

Factorul de corecie
Factorul de corecie

nu este necesar atunci cnd mrimea eantionului nu reprezint o fraciune important din numrul total.

Probabilitatea cu care se garanteaz rezultatele sondajului


indic n cte cazuri dintr-o sut, media colectivitii totale se afl n interiorul intervalului de ncredere.

Exemplu:
Pentru determinarea gradului de satisfacere a populaiei brasovene cu servicii de telefonie mobil, se preconizeaz desfsurarea unui sondaj n rndul firmelor furnizoare. S se stabileasc mrimea eantionului, astfel nct s fie reprezentativ pentru colectivitatea general. Se va considera o eroare limit acceptabil de 3 % i o probabilitate de garantare a rezultatelor de 97 %.

Not: valoarea erorii corespunde unei probabiliti de 97 % iar p se consider egal cu 0,5.

Exemplu:

Exemplu: