Sunteți pe pagina 1din 7

Verificarea reprezentativitii eantionului Ameliorarea estimatorilor prin post-stratificare

nainte de a trece la analiza statistic i la interpretarea rezultatelor este important s stabilim dac eantioanele sunt sau nu reprezentative pentru populaiile din care au fost selectate. Dac diferenele dintre parametri cunoscui din populaie fa de valorile estimatorilor obinui pe baza datelor din sondaj sunt semnificative atunci eantionul nu este reprezentativ. n ciuda eforturilor de a asigura reprezentativitatea eantionului, n anchetele de mare amploare, realizate la nivel naional, de cele mai multe ori estimatorii variabilelor auxiliare sunt deplasai fa de parametrii populaiei. Datorit existenei corelaiei dintre aceste variabile i variabilele de interes putem presupune c i estimatorii acestora din urm vor avea aceeai problem. Din acest considerent se impune ameliorarea estimatorilor.

Probleme rezolvate
Problema 1

S-a realizat un sondaj n rndul studenilor unei universiti partiulare pe un eantion de 90 persoane. n urma centralizrii datelor pentru variabilele auxiliare SEX i MEDIE (media ultimei sesiuni) au rezultat urmtoarele informaii: ponderea fetelor n eantion este de 67% iar nota medie 7,2 cu o dispersie de 1.42. Se cere s se verifice reprezentativitatea eantionului stiind c ponderea fetelor n populaie este e 65% iar nota medie a studenilor este de 6.98 iar probabilitatea de garantare a rezultatelor este de 95%.
Rezolvare

Pentru a vedea dac exist diferene semnificative fa de valoarea cunoscut din populaie a ponderii fetelor fa de cea din n eantion se utilizeaz testul z (eantionul este de volum normal) pentru compararea proporiei din eantion cu cea din populaie. Ipotezele testului bilateral sunt: H0: w= p i H1: w p . Regiunea critic n cazul testului bilateral este dat de relaia: W:

p (1 p) n

wp

>z

iar valoarea calculat a testului este: z c =

p (1 p )

wp

=0.398
n

Pentru o probabilitate de garantare a rezultatelor de 95% cruia i corespunde un nivel de semnificaie =0,05 n cazul efecturii unui test bilateral valoarea teoretic este z =1,96. Deoarece valoarea calculat a testului luat n modul este mai mic dect
1 2

valoarea teoretic se accept ipoteza nul concluzionndu-se c eantionul este reprezentativ. Pornind de la variabila auxiliar MEDIA, pentru verificarea reprezentativitii se utilizeaz testul z pentru compararea mediei unui eantion cu cea a populaiei. Ipotezele testului bilateral sunt: H0: x = X 0 i H1: x X 0 .

Regiunea critic n cazul testului bilateral este dat de relaia: W:


x X0

x X0

> z

iar valoarea calculat a testului este: z c =

=1.75

Valoarea calculat luat n valoare absolut se compar cu cea teoretic de 1,96 corespunztoare nivelului de semnificaie ales (=0,05) i, deoarece este mai mic dect aceasta se accept ipoteza nul concluzionndu-se c eantionul este reprezentativ.
Problema 2

n rndul populaiei de 160000 persoane (cu vrsta peste 15 ani) dintr-o localitate s-a realizat un sondaj pe un eantion de 800 persoane privind atitudinea fa de. n tabelul 7.1 este prezentat structura eantionului i structura populaiei pe grupe de vrst.
Grupe de vrst 15-24 25-34 35-44 45-54 peste 55 Total Structura populaiei (%) 16 20 24 21 19 100 Tabel 7.1 Structura eantionului (%) 19 23 20 17 21 100

Se cere: 1. S se verifice reprezentativitatea eantionului utiliznd testul 2 pentru un nivel de semnificaie =0,05. 2. S se verifice reprezentativitatea eantionului utiliznd testul KolmogorovSmirnov pentru un nivel de semnificaie =0,05.
Rezolvare

1. Atunci cnd se cunoate forma distribuia variabilei n populaie pentru verificarea reprezentativitii eantionului se poate utiliza unul din testele de concordan.
Tabelul 7.2 Grupe de vrst 15-24 25-34 35-44 45-54 peste 55 Total Structura Structura Numr salariai Numr salariai n eantion populaiei eantionului n populaie ( Fti ) (fei) (%) (%) 16 19 25600 152 20 23 32000 184 24 20 38400 160 21 17 33600 136 19 21 30400 168 100 100 160000 800 fti 128 160 192 168 152 800

( fei f ti )2
4.50 3.60 5.33 6.10 1.68 21.21

f ti

Ipotezele testului 2 sunt: H0: ft= fe i H1: ftfe unde ft reprezint frecvenele teoretice iar fe frecvenele empirice.

Frecvenele empirice sunt cele obinute n urma centralizrii datelor din sondaj iar cele teoretice se calculeaz dup relaia: fti = Fti N n ( Fti fiind frecvena corespunztoare a grupei i din populaie). Calculele necesare sunt sistematizate n tabelul 7.2. Valoarea calculat a testului este: c =
2

i =1

(f ei f ti )2
f ti

=2.1.21 Valoarea

teoretic pentru un nivel de semnificaie =0,05 i numrul de grade de libertate df=k2 2 1=5-1=4 este de 9,49. Deoarece c > =0, 05;df = 4 se respinge ipoteza nul putnd spune c cele dou distribuii nu concord i, deci eantionul nu este reprezentativ. 2. Testul Kolmogorov este unul dintre cele mai rspndite teste de concordan a repartiiilor empirice i teoretice pentru variabile aleatoare continue. Pentru efectuarea testului este necesar alctuirea claselor i stabilirea frecvenelor absolute empirice i teoretice (n funcie de repartiia testat). Ulterior se cumuleaz aceste frecvene cresctor i prin raportarea lor la total se obin funciile de repartiie empirice (Fn(x)) i teoretice (F(z)). Se calculeaz pe clase diferena lor i se ia diferena maxim n valoare absolut. Pe baza ei se obine statistica a testului Kolmogorov astfel: c = n max Fn ( x ) F(z) , unde n este volumul eantionului. Valoarea calculat c se compar cu valoarea teoretic tabelat n funcie de nivelul de semnificaie. Unui =0,05 i corespunde =1,36. Dac < repartiia empiric este n concordan cu cea teoretic. Testul Kolmogorov Smirnov este o extindere a testului Kolmogorov pentru cazul verificrii concordanei a dou repartiii empirice. Notnd cele dou variabile aleatoare cu x i y se calculeaz o valoare c dup relaia
n 1 n 2 .; n1 + n 2 unde F(x) i F(y) reprezint funciile repartiiilor empirice ale celor dou variabile. Se compar apoi valoarea calculat cu cea teoretic. Dac c < repartiiile sunt n concordan. Considerm variabilele x i y vrsta n totalul populaiei i respectiv n eantion. Calculele sunt sistematizate n tabelul 7.3

urmtoare: c = max F( x ) F( y)

Grupe de vrst 15-24 25-34 35-44 45-54 peste 55 Total

fei

fti

fei cumulat

fti cumulat

152 184 160 136 168 800

128 160 192 168 152 800

152 336 496 632 800

128 288 480 648 800

f* ei cumulat F(x) 0.19 0.42 0.62 0.79 1

f* ti cumulat F(y) 0.16 0.36 0.6 0.81 1

Tabel 7.3 di

0.03 0.06 0.02 0.02 0

n relaia de calcul a valorii teoretice c considerm n1 volumul populaiei N iar n2 volumul eantionului n. Relaia devine: c = max F( x ) F( y) Nn N+n .

n cazul n care volumul populaiei este mare n raport cu eantionul (n<0.05N) c se poate calcula dup relaia: c = max F( x ) F( y) n . =1.69. repartiia empiric nu este n concordan cu cea teoretic iar eantionul nu este reprezentativ ceea ce va duce la obinerea unor estimatori deplasai.

=1,36. Deoarece c >

Problema 3

n urma unui sondaj pe un eantion de 600 persoane privind caracterizarea nivelului de trai s-au obinut datele prezentate n tabelul 7.4 cu prinire la venitul mediu. Din surse administrative se cunoate repartiia populaiei pe grupe de vrst.
Nr. Persoane n populaie (mii) 30 70 40 140 Tabel 7.4 Venit mediu (mil. Lei) 5.2 8.3 3.2

Grupe de vrst

Nr. persoane n eantion

18-34 35-54 peste 55

180 320 100 600

Se cere: 1. S se calculeze estimatorul venitului mediu pe baza informaiilor din eantion. 2. S se calculeze estimatorul venitului mediu n urma aplicrii metodei poststratificrii pe baza informaiilor deinute din surse administrative.
Rezolvare

1. Calculele necesare sunt przentate n tabelul 7.5.


Grupe de vrst Ni (mii) ni

yi
5.2 8.3 3.2

y i ni
936 2656 320 3912

Tabel 7.5 y i N i (mii)

18-34 35-54 peste 55

30 70 40 140

180 320 100 600

156 581 128 865

Estimatorul venitului mediu se calculeaz dup relaia: y=

yn n
k i =1 k i i =1 i

3912 =6.52 mil. Lei 600

2. mbuntirea estimatorului prin post-stratificare presupune calcularea venitului mediu ca medie aritmetic ponderat pe baza ponderilor din populaie dup relaia: ~ yN y= N
k i =1 k i i =1 i i

865000 =6.178 mil lei 140000

Problema 4

Un sondaj n rndul salariailor a avut drept obiectiv evaluarea atitudinii acestora fa de evaluarea periodic i formarea profesional continu. Una din variabilele aixiliare ale studiului este variabila SEX. n urma centralizrii datelor pentru variabila auxiliar SEX i pentru variabila de interes ce corespunde ntrebrii: Suntei de acord cu evaluarea periodic? s-au obinut informaiile din tabelul 7.6.
Sex Masculin Feminin Total Acord 35 31 66 Indiferent 15 9 24 Dezacord 10 50 60 Tabel 7.6 Total 60 90 150

Se cere: 1. S se calculeze estimatorul procentului salariailor care sunt de acord cu evaluarea. 2. S se calculeze estimatorul procentului salariailor care sunt de acord cu evaluarea n urma aplicrii metodei post-stratificrii tiind din surse administrative procentul salariiailor de sex masculin este de 45%.
Rezolvare

1. Estimatorul procentului salariailor care sunt de acord cu evaluarea este: 66 wacord = = 0.44 . Deci 44% din salariai sunt de acord cu evaluarea 150 periodic. 2. Deoarece n populaie sunt 45% salariai de sex masculin i nu doar 40% ct reiese din eantion este recomandat s ameliorm estimatorul prin poststratificare. Pentru aceasta calculm ponderile wij pentru fiecare clas din tabelul 7.6 obinnd datele din tabelul 7.7.
Sex Acord Indiferent Dezacord ni

~ ni
68 82 150

Tabel 7.7

~ wi1 n i
40 28 68

Masculin Feminin Total

0.58 0.34

0.25 0.10

0.17 0.56

60 90 150

Practic estimatorul procentului celor ce sunt de acord cu evaluarea se poate calcula i ca medie ponderat astfel:
wacord =

wn n
j =1 ij i

= 0.44

Estimatorul ameliorat prin post-stratificare se obine dup relaia: ~ w n 68 j =1 ij i ~ wacord = = = 0.45 unde ~ n i sunt determinate ca frecvene ~ 150 n i teoretice astfel nct s se respecte structura pe sexe cunoscut din surse administrative ~ n i masculin = 0.45 150 =68 persoane ~ n i feminin = 0.55 150 =82 persoane

Probleme propuse
Problema 1

Patronatul Societilor de Construcii a organizat un sondaj n rndul firmelor participante la Construct Expo. n urma centralizrii celor 200 de chestionare s-a constatat c 64% din societile comerciale ce au intrat n eantion au sediul n provincie. Cunoscndu-se din fiele de nscriere la trg c doar 58% din firme au sediul n provincie s se verifice reprezentativitatea eantionului pentru o probabilitate e 95%.
Problema 2

n rndul salariailor unei companii s-a realizat un sondaj pe un eantion de 220 persoane. Vrsta medie a salariailor din eantion este de 39 de ani cu o dispersie de 4.5. tiind c vrsta medie a tuturor salariailor calculat pe baza informaiilor de la biroul de resurse umane este de 42.4 ani s se precizeze pentru o probabilitate de 95% dac eantionul este reprezentativ.
Problema 3

n tabelul 7.8 este prezentat distribuia agenilor economici dup numrul de salariai ce a fost obinut n urma centralizrii datelor dintr-un sondaj n rndul acestora. Din datele oficiale existente la circa financiar se cunoate distribuia tuturor agenilor economici nregistrai.
Tabel 7.8 Grupe de ageni economici dup numrul de salariai Nr. ageni economici n eantion Nr. ageni economici n populaie

sub 10 10-49 50-99 100 i peste Total

25 125 40 10 200

268 1450 335 178 2230

Se cere: 1. S se verifice reprezentativitatea eantionului utiliznd testul 2 pentru un nivel de semnificaie =0,05. 2. S se verifice reprezentativitatea eantionului utiliznd testul KolmogorovSmirnov pentru un nivel de semnificaie =0,05.
Problema 4

n chestionarul unui sondaj n rndul agenilor economici a coninut ntrebarea: Acordai o not de la 0-10 pentru importana acordat de ctre firm fiecrui criteriu n momentul recrutrii de for de munc Criteriul 1. Experiena 2. Nivelul studiilor Nota acordat

n tabelul 7.9 sunt prezentate rezultatele centralizrii datelor la aceast ntrebare pe grupe de ageni economici.
Tabelul 7.9 Nr. ageni Gr. ageni economici economici n dup nr. salariai eantion Nr. ageni economici n populaie Nota medie acordat criteriului experien Nota medie acordat criteriului nivelul studiilor

sub 10 10-49 50-99 100 i peste Total

25 125 40 10 200

201 1227 647 156 2230

7 8.9 8.7 9.2

7.6 8.2 8.8 9.3

Se cere: 1. S se calculeze estimatorii scorului mediu obinut de cele dou criterii pe baza informaiilor din eantion. 2. S se calculeze estimatorul estimatorii scorului mediu obinut de cele dou criteri n urma aplicrii metodei post-stratificrii pe baza informaiilor deinute din surse administrative.
Problema 5

n rndul populaiei unei localiti (cu vrsta de 15 ani i peste) s-a realizat un studiu privind amploarea i gravitatea problemelor determinate de fumatul activ i pasiv. Una din variabilele aixiliare ale studiului este variabila SEX. n urma centralizrii datelor pentru variabila auxiliar SEX i pentru variabila de interes ce corespunde ntrebrii: Suntei fumtor? s-au obinut informaiile din tabelul 7.10.
Sex Masculin Feminin Total DA 72 85 157 NU 28 65 93 Tabel 7.10 Total 100 150 250

Se cere: 1. S se calculeze estimatorul procentuluide fumtori. 2. S se calculeze estimatorul procentuluide fumtori n urma aplicrii metodei post-stratificrii tiind din surse administrative procentul locuitorilor de sex masculin este de 49%.

S-ar putea să vă placă și