Sunteți pe pagina 1din 112

Analiza legaturilor dintre variabile

2 variabile numerice

Intre cele 2 variabile exista o


legatura directa, de intensitate
redusa, cu semnificatie statistica
Analiza legaturilor dintre variabile
2 variabile ordinale

Intre nivelul de
incredere în banci și
grup de varsta a
capului gospodăriei nu
exista legatura
semnificativă statistic
2 variabile nominale
Testul chi2 arata ca mediul de
rezidenta nu influenteaza tipul de
risc asumat in economisire

Coeficientul V, bazat
pe baza lui Chi2, nu
are semnificatie
statistica
Sondajul in populatii neomogene.
Sondajul Stratificat

Populatii neomogene → imposibilitatea aplicarii SSA → esantionare stratificata

Avantajele stratificării:

1. Stratificarea asigură un grad mai mare de reprezentativitate şi de


precizie a rezultatelor.
 2  2  2
2. Dacă stratificarea se realizează pe criterii geografice culegerea datelor
se poate face cu specialişti locali, reducând astfel costul. Mai mult, se
pot analiza şi interpreta datele iniţial pe fiecare strat şi ulterior pe
întreaga populaţie.
Problemele organizatorice
A. Criteriile de delimitare a straturilor : calitative:
cantitative.
Alegerea caracteristicilor după care se face stratificarea este foarte importantă.

B. Numărul straturilor

1. Fiecare subeşantion constituit trebuie să aibă un număr suficient de mare de


unităţi astfel încât să permită estimarea mediei şi dispersiei fiecărui strat;
2. Populaţia este deja împărţită din punct de vedere administrativ în subpopulaţii
pentru care putem obţine cu uşurinţă baze de sondaj pentru fiecare strat;
3. sporul preciziei adus de un număr mare de straturi să nu fie anihilat de
creşterea cheltuielilor de resurse de timp, financiare şi umane.
C. Repartizarea eşantionului pe straturi
1. neproporţional obţinându-se un sondaj stratificat neproporţional sau
simplu;
2. proporţional respectându-se ponderea fiecărui strat în total populaţie
obţinându-se un sondaj stratificat proporţional;
3. ţinând cont atât de proporţia fiecărui strat în total cât şi de gradul de variaţie
al fiecărui strat obţinându-se un sondaj stratificat optim.
Volumul esantionului. Observatii

Volum mai mare de informatii (cunoaşterea gradului de variaţie pentru fiecare strat
pentru a putea calcula variaţia determinată de factorii întâmplători).
Dacă nu avem informaţii despre gradul de variaţie al fiecărui strat putem organiza o
anchetă pilot pe eşantioane de volum redus pentru a estima valoarea dispersiilor.

 
2 2
→ n SSA > n SSTR

TIP SONDAJ
Tip variabilă
SSAR SSAFR
z 2 2 z 2S 2
z 2 2 z 2S 2 n 
cantitativă n  z 
2 2
zS 2
 2
x  2
x 2x  2x 
N N
z 2 p2 z 2S p2
z 
2 2 2
z S 2
n 
n 
p p
alternativă z 
2 2
zS p2
 2
p  2
p  
2
x
p
 
2
x
N N
Sondaj stratificat simplu (neproporţional)

A) pentru caracteristicile cantitative.


Considerăm o populaţie „C” de volum N împărţită în „k” straturi.

C1 (X11, X21,….., XN11) C1 (x11, x21,….., xn11)


C2 (X12, X22,….., XN22) C1 (x12, x22,….., xn22)
…………………………………………………………………………………
Ck (X1k, X2k,….., XNkk) C1 (x1k, x2k,….., xnkk)

unde k este numărul de straturi


N1, N2,….. Nk, reprezintă volumul straturilor în populaţia totală şi
n1, n2,….. nk, reprezintă volumul straturilor în eşantion şi
Xij nivelurile caracteristicii cantitative.
Populaţie
N
S
T
R N1
A
T
Eşantion
1 n
k

x N
1
S
T n1 i i
R N2
A
~
x0  i 1
k

N
T
n2
2 i
1 i 1

S n3
T
R N3
A
T

k Nj

 X
i 1 j 1
ij
k
X0 
nj
x
k
 ni
N  x ij
i 1 j 1 x0  i 1
i

k
x0  k

X i  Ni n n
i 1
i

X0  i 1
k

N i 1
i
Calculul erorilor de reprezentativitate sondaj stratificat neproportional

N i2  i
2 2
N i2 Si N i2  i  N i  ni  N i2 Si  N i  n i 
k k 2 2
 x~   2 
k k
  x~   2      
i 1 N n i  1  Ni  1 i 1 N n i  1  N i  1
2
i 1 N ni i 1 N ni 
2

Pentru simplificarea relaţiilor de calcul în cazul în care subeşantioanele sunt de volum normal
nu se justifică împărţirea la ni-1 faţă de cea la ni. Totodată, dacă volumul fiecărui strat Ni este
suficient de mare numitorul coeficientului de corecţie poate rămâne Ni în loc de Ni-1.

Dacă prezintă interes şi analiza pe fiecare strat în parte

i
2 2
Si
x  
i
ni ni  1
N i2 2
k
 x~   2  xi
i 1 N
i  N  ni   N  ni 
2 2
Si
x    i     i 
i
ni  N i  1  ni  1  N i  1 
Sondaj stratificat proportional
k

x
k

n1 n 2 n n n i
n i  ni
  .... i ....  k   x~0 
i 1 i 1
k
N1 N 2 Ni Nk N
 Ni
k

i 1 n
i 1
i

ni2  i
2 2
k k
ni2 Si ni2  i  Ni  ni  ni2 Si  Ni  ni 
 ~x   2 
k 2 k 2
  ~x   2
i 1 n ni i 1 n ni  1
2
i 1 n

ni  Ni  1 
    
i 1 n ni  1  N i  1 
2

Dacă prezintă interes şi analiza pe fiecare strat în parte

i
2 2
Si
x  
i
ni ni  1
ni2 2
k
 ~x   2  xi
i 1 n
i  N  ni   N  ni 
2 2
Si
x    i     i 
i
ni  N i  1  ni  1  N i  1 
Avantajele sondajului stratificat proporţional faţă de cel neproporţional

1. se evită riscul de a subevalua în eşantion straturile mai mari;


2. se măreşte gradul de precizie al estimaţiei faţă de stratificarea
neproporţională.

Sondaj stratificat optim


k

n1 n2 ni nk n i
  ...   ....   i 1

N1   1 N 2   2 Ni   i Nk   k k

N
i 1
i  i
N i i
ni  k
n
N 
i 1
i i

Erorile de reprezentativitate vezi sondajului neproporţional


Poststratificarea
k
Ni
x pstr  xi
i 1 N

N i2  i  N i  ni  1
2
k
 Ni  2
 x~pstr   2    2  1 N   i
i 1 N ni  Ni  1  n

unde  i2 este dispersia stratului i calculată după relaţia:


Ni
1
 i
2

Ni
 ij i
( X
j 1
 X ) 2
.

Ni
1
S i2  
ni  1 j 1
( xij  xi ) 2
.
Sondajul pe cote

 să ştie să evite refuzurile;


 să evite interogarea, într-o zonă dată, a persoanelor foarte
asemănătoare sau a celor care trăiesc în aceleaşi condiţii;
 să nu ezite să renunţe la un interviu dacă persoana care
răspunde nu corespunde criteriilor de cotă;
 să respecte îndrumările de dispersare geografică a
interviurilor;
 să asigure o variaţie în interiorul unui criteriu de cotă. De
exemplu dacă trebuie să asigure un număr de salariaţi
aceştia nu trebuie sa fie doar muncitori, sau persoanele cu
vârsta peste 65 de ani să nu aibă doar 66 sau 67 ci şi vârste
mai mari.
Cum alegem variabile utilizate drept criterii de cotă:

 să fie cunoscute detaliat la nivelul geografic la care


avem nevoie;
 Să fie corelate cu variabilele de interes;
 Să fie uşor identificabile pe teren în timpul cercetării şi
validate la începutul interviului;
 Să fie independente între ele. Eventuala deformare a
uneia nu implică şi deformarea celeilalte;
 Cât mai puţin numeroase. Se poate realiza controlul altor
variabile prin poststratificare;
cote marginale (simple)

Sex % categorie socială %

masculin 47,50% salariat 45


feminin 52,50% patron 7,5
şomer 10
elev-student 10
liber profesionist 5
pensionar 22,5
Total 100,00% Total 100
cote marginale (simple)
40 de interviuri Tabel 5.1
Criterii nr.
Interviuri
de cotă interviuri
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
masculin 19
sex
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
feminin 21
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
salariat 18
1 2 3
patron 3
1 2 3 4
somer 4
Categoria
socială elev-student 4
1 2 3 4

liber 1 2
2
profesionist
1 2 3 4 5 6 7 8 9
pensionar 9
Cote imbricate
categorie socială
Sex
elev- liber
salariat patron somer pensionar Total
student profesionist
masculin 24000 4500 4200 4900 2000 7900 47500
% 50,53 9,47 8,84 10,32 4,21 16,63 100
feminin 21000 3000 5800 5100 3000 14600 52500
% 40,00 5,71 11,05 9,71 5,71 27,81 100
Total 45000 7500 10000 10000 5000 22500 100000
% 45 7,5 10 10 5 22,5 100
Cote imbricate
FOAIA DE COTE
40 de interviuri
nr.
Criterii de cotă Categoria socială interviuri
Interviuri
salariat 10 1 2 3 4 5 6 7 8 9 10

patron 2 1 2

somer 2 1 2
masculin
elev-student 2 1 2

liber profesionist 1 1
pensionar 3 1 2 3

salariat 8 1 2 3 4 5 6 7 8

patron 1 1
somer 2 1 2
feminin
elev-student 2 1 2

liber profesionist 1 1
pensionar 6 1 2 3 4 5 6
Criticile aduse metodei eşantionării pe cote:

Estimatorii astfel obţinuţi sunt deplasaţi. La diferite momente


ale zilei există diferite categorii de populaţie prezente în zonă.
Din această cauză multe institute de cercetare evită
intervievarea pe stradă.
Probabilitatea ca un individ să fie selecţionat este
necunoscută. Acest lucru face imposibilă calcularea erorii medii
de reprezentativitate şi măsurarea preciziei estimatorilor.
Recomandări pentru a aduce îmbunătăţiri eşantionării pe
cote:

 Întocmirea planului de sondaj să fie acompaniată de indicaţiile


necesare operatorului pentru a reduce deplasarea estimatorilor;
 Este important să controlăm prin criterii de cotă acele variabile
socio-demografice care sunt corelate cu variabilele de interes ale
studiului;
 Sectorul de activitate economică trebuie controlat fie prin criterii
de cotă în faza iniţială a sondajului fie prin redresarea eşantionului
prin poststratificare;
 Dacă se utilizează cote marginale există riscul ca spre sfârşitul filei
de cote operatorul să se găsească în imposibilitatea realizării
criteriilor de cotă. Acest risc este sensibil diminuat dacă se
utilizează fie şi o singură încrucişare de cote;
 Numărul criteriilor de cotă să se rezume la cele puternic corelate
cu variabilele de interes pentru a nu complica munca operatorului
de interviu.
1. Sondajul statistic – metodă modernă de investigare a fenomenelor social economice

Etapele planificării şi execuţiei sondajelor statistice

Stabilirea obiectivelor în urma B


discuţiilor beneficiar-statistician M A
E Z
Definirea populaţiei G A
A
Alegerea metodei de colectare a
datelor D
B E
Elaborarea chestionarului
A
Z D
Extragerea eşantionului Ă A
T
Ancheta pilot. Perfecţionarea E
chestionarului şi a metodei de culegere D
a datelor E
Culegerea verificarea şi centralizarea
datelor R
D E
A G
Baza de date T I
E O
1. Sondajul statistic – metodă modernă de investigare a fenomenelor social economice

M
Prelucrarea datelor (Excel, SPSS, E B
STATISTICA, etc.) G A
A Z
Date stocate A
din cercetări
Rezultatele prelucrării: indicatori de anterioare
sondaj pentru fiecare variabila B
A D
Analiza statistică a datelor: estimarea parametrilor, Z E
analiza legăturii dintre variabile, teste de semnificaţie, Ă
analiza evoluţiei în timp, sezonalitate D
A
D T
Rezultate finale ale analizei statistice E E

D
Publicaţii Arhivare
Documente A R
electronice T E
E G
I
O
Metode de colectare a informaţiilor
1. Metoda directă sau orală care cuprinde :
a) Interviului direct sau faţă în faţă.
b) Ancheta prin telefon.
2. Metoda indirectă sau în scris. În practică se utilizează patru variante ale acestei metode:

a) la domiciliul său persoana intervievată completează chestionarul pe loc sau operatorul poate
veni după un timp pentru a recupera chestionarul completat;
b) chestionarele se aplică simultan unui număr mai mare de indivizi cuprinşi într-o sală;
c) chestionarele sunt trimise prin poştă, fax, e-mail;
d) chestionarul este publicat în ziare sau reviste.

Avantaje:
 costul redus,
 înlăturarea influenţei perturbatoare a operatorului,
 asigurarea anonimatului,
 oferirea unui timp de gândire subiectului pentru formularea răspunsurilor.

Dezavantajele :
 lipsa certitudinii că la chestionar răspunde chiar persoana cuprinsă în eşantion;
 riscul pierderii spontaneităţii răspunsurilor;
 generarea unei proporţii mai mari de non-răspunsuri atât parţiale cât şi cele totale
 teama de răspuns în scris;
 posibilitatea producerii unui număr mai mare de erori datorate neînţelegerii chestionarului;
 imposibilitatea eliminării ambiguităţii răspunsurilor.
1. Sondajul statistic – metodă modernă de investigare a fenomenelor social economice

Obiectivele Caracteristici cantitative CHESTIONARUL


sondajuui Caracteristici calitative

Principiile generale de care trebuie ţinut cont în momentul întocmirii chestionarului sunt:

1. O primă problemă este lungimea chestionarului.

2. Un alt aspect de care trebuie ţinut seama în momentul întocmirii chestionarului este
evitarea acelor întrebări la care respondenţii să nu fie în măsură să dea răspunsuri
utilizabile.

3. O altă problemă este succesiunea întrebărilor.


1. Sondajul statistic – metodă modernă de investigare a fenomenelor social economice

intrebari ce au rolul de a stabili dialogul operator/respondent

Modul 1 intrebări uşoare


Intrebări cu grad de dificultate ridicat
intrebări uşoare

Modul k intrebări uşoare


Intrebări cu grad de dificultate ridicat
intrebări uşoare

Intrebări delicate

Intrebări de identificare
Tipuri de întrebări utilizate

Tipul Avantaje Dezavantaje


întrebării
Închise - uşurinţa completării chestionarului; - pierderea spontaneităţii răspunsurilor;
- precizarea conţinutului întrebării; - limitează câmpul opţiunilor celor
- necesită timp scurt pentru răspuns intervievaţi;
- uniformitatea înţelegerii întrebărilor şi a - induce o ordine de preferinţă prin
înregistrării răspunsurilor; ordinea înscrierii variantelor în
- uşurinţa codificării şi evitarea erorilor în chestionar;
realizarea acesteia; - sporeşte artificial frecvenţa
- uşurează munca operatorilor; răspunsurilor nu ştiu/nu răspund.
- rapiditatea şi uşurinţa prelucrării;
- permite compararea grupurilor;
- facilitează efectuarea testelor de
semnificaţie.
Deschise - spontaneitatea răspunsurilor; - lungeşte timpul de completare a
- indică fidel nivelul cunoştinţelor chestionarului;
- subiectului asupra problemei - cer un efort suplimentar
investigate; respondentului;
- indică elementele cărora subiectul le - rata de non-răspuns este mai mare
acordă cea mai mare importanţă; decât la întrebările închise;
- evită consecinţele efectelor de format - sunt foarte dificil de codificat şi
specifice întrebărilor închise (prin limitarea şi analizat;
ordonarea răspunsurilor). - nu oferă nici o informaţie
respondenţilor despre tipul de răspuns
aşteptat de la ei.
1. Sondajul statistic – metodă modernă de investigare a fenomenelor social economice

Exemple:

Cum apreciaţi stilul de conducere practicat de managerul instituţiei?


a) autoritar c) indiferent
b) comunicativ d) nu ştiu

Care este ultima acţiune întreprinsă pentru găsirea unui loc de muncă?
………………………………………………………………………………….

Ce acţiuni aţi întreprins pentru găsirea unui loc de muncă:


a) m-am înscris la o agenţie autorizată de ocupare a forţei de muncă
b) am consultat anunţurile din ziare
c) am apelat la prieteni şi cunoştinţe
d) alte acţiuni…………………………….

Enumeraţi instituţiile în care aveţi încredere în momentul de faţă:


……………………………………………………………………………..
Întrebările factologice.

După statutul profesional în ce categorie vă încadraţi?


a) Salariat
b) lucrător pe cont propriu
c) Patron
d) lucrător familial neremunerat

Întrebările de opinie sau atitudine vizează aspecte ce ţin de universul interior al individului cum ar
fi părerile, aşteptările, evaluările, ataşamentul faţă de valori, explicaţiile fenomenelor din jur,
comportament etc.
Întrebările de cunoştinţe au un specific foarte clar şi au ca scop caracterizarea nivelului de
cunoştinţe al subiectului. Pot fi utilizate şi ca întrebări de control validând sinceritatea si capabilitatea
subiectului.

Întrebări filtru.
Q9. Sunteţi membru al organizaţiei de sindicat? (Dacă răspunsul este da continuă interviul, dacă este nu, salt la
Q12).
a Da
b Nu

Q10. În ce măsură consideraţi că organizaţia vă reprezintă drepturile?

Foarte mare măsură F o a r t e m i c ă m ă s u r ă

Q11. Conducătorii organizaţiei sindicale servesc interesele:


a) salariaţilor
b) reprezentanţilor patronatului
c) organizaţiilor politice
d) nu ştiunu răspund
1. Sondajul statistic – metodă modernă de investigare a fenomenelor social economice

Analiza scalara

Scala Variabila Proprietăţi Operaţii permise


echivalenţa frecvenţe absolute şi relative,
nominală calitativă între modul, coeficient de asociere, testul
treptele scalei 2
ierarhizare între în plus: cuartile, coeficienţii de
ordinală calitativă
treptele scalei corelaţie a rangurilor
măsoară în plus: medii de calcul, dispersii,
cardinală cantitativă diferenţele dintre corelaţia parametrică, regresia,
treptele scalei testele parametrice
punctul zero
proporţională cantitativă
natural
toate operaţiile
1. Sondajul statistic – metodă modernă de investigare a fenomenelor social economice

Măsurarea atitudinilor

Scala binară.

Diferenţiala semantică. Exemplu:

Consideraţi că activitatea pe care o desfăşuraţi este


Foarte interesantă F o a r t e p l i c t i s i t o r e

Scala lui Likert. Exemplu:


acord total acord indiferent dezacord dezacord total
Organizaţia de sindicat vă
reprezintă drepturile
Cotizaţia plătită este prea mare
faţă de avantajele pe care le am
ca membru de sindicat

Scala tip scor. Exemplu:


Pe o scală de la 0-10 cum apreciaţi cursul de calificare la care aţi participat? …..
1. Sondajul statistic – metodă modernă de investigare a fenomenelor social economice

Materialul introductiv şi instrucţiunile de completare

Introducere :
• Declaraţii despre scopul şi obiectivele
chestionarului;
• Intenţiile de folosire a informaţiilor;
• Conţinutul întrebărilor;
• Timpul necesar completării
chestionarului.
Instrucţiuni de ghidare a respondentului în răspunsul la întrebări.
Motivaţii:

1. Dacă subiectul chestionarului este interesant sau important pentru individ, el


poate avea o predispoziţie mai mare de a răspunde;

2. Deseori prestigiul institutului care realizează sondajul poate creşte dorinţa de


participare;

3. Potenţialul respondenţilor de autoconsiderare sau ego-ul lor este deseori flatat


de faptul că opiniile şi vederile lor sunt luate în consideraţie.
1. Sondajul statistic – metodă modernă de investigare a fenomenelor social economice

Formatul şi aspectul general

1. Trebuie să existe suficient spaţiu liber pe pagină.

2. Mărimea chestionarului sau a literelor trebuie să fie suficient de mari;

3. Nu se vor plasa pe acelaşi rând două întrebări diferite;

4. Nu trebuie folosite prescurtările pentru a se evita interpretările eronate.


1. Sondajul statistic – metodă modernă de investigare a fenomenelor social economice

Procedee de prezentare a întrebărilor

1. Procedeul structurat (standardizat)

2. Procedeul nestructurat (flexibil).

3. Procedeul cu întrebări mascate.

4. Procedeul cu întrebări nemascate.


1. Sondajul statistic – metodă modernă de investigare a fenomenelor social economice

Ancheta pilot

Informaţii furnizate de ancheta pilot :

1. Cheltuielile şi durata probabilă a anchetei

2. Proporţia anticipată de non-răspunsuri.

3. Obţinerea de informatii necesare definirii populaţiei

4. Cel mai important rol al anchetei pilot îl reprezintă pretestarea


chestionarului.
Ancheta pilot

Informaţii ce pot fi furnizate de ancheta pilot sunt:

• Cheltuielile şi durata probabilă a anchetei.

• Proporţia anticipată de non-răspunsuri totale si partiale si


cauzele acestora.

• În cazul în care nu se cunosc suficiente informaţii în urma


organizării anchetei pilot se pot opţiune informaţii despre gradul
de variabilitate al populaţiei şi structura acesteia.

• Cel mai important rol al anchetei pilot îl reprezintă


pretestarea chestionarului.
Extragerea eşantionului

În această etapă se stabileşte:


• planul de sondaj
• procedeul de extracţie
• mărimea eşantionului,
•precizia teoretică a estimatorilor

Probleme ridicate:

1. Cunoaşterea, chiar cu o aproximaţie, dispersia populaţiei sau o estimaţie a


acesteia

2. Caracteristica în raport cu care se calculează volumul eşantionului

3. Modul în care urmează să fie analizate rezultatele

4. Restricţii de ordin financiar


volumul eşantionului de pornire

1 1 1
n p  nth   
Pr Pe Pv
Problema nonraspunsurilor

intrebarea
nr.
Chest 1 2 .. j …. p
1 Nonrăspuns
partial
2

i Nonrăspuns
total

npornire

Non-răspunsurile determina:
- cresterea erorii de reprezentativitate prin diminuarea volumului
eşantionului.
- modificarea structrurii eşantionului, non-respondenţii formând o
subpopulaţie aparte
A. Metode de tratare a nonrăspunsurilor parţiale

A.1. Metoda eliminării complete

Dezavantaje:

1. odată cu ştergerea unităţilor ce conţin valori lipsă mărimea


eşantionului disponibil se reduce simţitor fapt ce determină
o scădere a preciziei estimaţiei;

2. este posibil ca indivizii cărora le corespund valorile lipsă (ce


urmează să fie înlăturaţi din baza de date) să fie foarte diferiţi
de cei rămaşi. Acest lucru va face ca estimatorii rezultaţi să
fie puternic deplasaţi;

3. În schemele sondajelor complexe fiecărui individ îi este


atribuită o greutate (pondere) ce poate reflecta printre altele
şi probabilitatea cu care a fost selectată unitatea. Ştergerea
din bază a unităţilor ce conţin valori lipsă este foarte probabil
să invalideze schema de ponderare.
A.2. Metoda imputaţiilor

Notăm:
yij = răspunsul pe care îl dă individului i din eşantionul E la
întrebarea j (i=1,..,n, j=1,... ,p).
(yi1, ...., yip) vectorul format din raspunsurile individului i
Fiecare poziţie de coordonate (i,j) unde avem valoare lipsa trebuie
tratată separat, prin crearea unei valori y’ij numită ’’valoare
atribuită’’ sau ’’imputaţie’’.
Imputaţia predictivă prin mediere globală

Se realizează înlocuind non-răspunsul de pe poziţia (i,j) cu media


răspunsurilor care au fost obţinute la întrebarea j.

r
y' ij  y r, j   yij r
i 1

Avantaje: înlocuirea valorii lipsă se face cu o valoare probabilă ceea


ce îi dă un oarecare grad de stabilitate.

subevaluare severă a dispersiei estimatorului pentru


Dezavantaje:
media sau totalul caracteristicii yj.
Imputaţia predictivă prin mediere pe clase
Este similară imputaţiei predictive prin mediere globală, cu
deosebirea că nu se utilizează o singură ’’imputaţie’’, ci mai multe
corespunzătoare unor clase în care a fost împărţită mulţimea
respondenţilor. Astfel, partiţionăm mulţimea respondenţilor r la
întrebarea j în q clase disjuncte. Identificăm clasa căruia îi aparţine
individul şi construim imputaţia:

k
y' ij  y rjt   y ij k
unde t ia valorile 1,..,q iar k
este numărul de respondenţi
din clasa respectivă.
i 1

Avantaje: reduce gradul de subestimare a dispersiei estimatorului


Imputaţia „hot-deck”.

Este utilizată la scară largă deoarece, spre deosebire de imputaţia prin mediere
globală sau pe clase, evită subestimarea dispersiei estimatorului.

Etapa1: fişierul ce conţine baza de date este în prealabil sortat după caracteristicile
demografice, economice sau sociale pe baza cărora se poate pune în evidenţă
structura eşantionului.

Etapa 2: Un registru de lucru este iniţializat cu valorile aferente câmpurilor cuprinse


în prima înregistrare a unei caracteristici după care s-a realizat sortarea.

Etapa 3: Fişierul se parcurge înregistrare cu înregistrare si fiecare câmp este


identificat şi verificat să nu conţină valori lipsă.

Etapa 4: În cazul în care unul din câmpuri conţine valori lipsă acesta va fi înlocuit cu
valoarea corespunzătoare din registru.
Nr. Mediul NVINST F_ANG Venit
1 1 1 1 2,5
2 1 2 3 2,6
3 1 2 - 3,8 Registru de lucru
4 1 3 1 4
5 1 3 1 -
6 1 3 - 4 Mediul NVINST F_ANG Venit
7 1 3 2 4,5 1 1 1 2,5
8 1 4 1 8 1 2 3 2,6
9 1 4 1 8 1 3 1 4
10 1 4 2 - 1 4 1 8
11 1 4 2 12 2 1 1 2,5
12 2 1 1 2,5 2 2 2 2,8
13 2 1 2 1,8 2 3 3 3
14 2 2 2 2,8 2 4 4 1,6
15 2 2 - -
16 2 2 1 2,8
17 2 3 3 3
18 2 3 1 3,1
19 2 3 3 2
20 2 4 4 1,6

Fisier sortat dupa mediul de


provenienta si nivel de instruire
Nr. Mediul NVINST F_ANG Venit
1 1 1 1 2,5
2 1 2 3 2,6
3 1 2 3 3,8 Avantaje:
4 1 3 1 4
5 1 3 1 4
6 1 3 1 4
7 1 3 2 4,5
reduce gradul de subestimare a
8 1 4 1 8
dispersiei estimatorului şi deplasarea
9 1 4 1 8
estimatorilor
10 1 4 2 8
11 1 4 2 12
12 2 1 1 2,5
13 2 1 2 1,8
14 2 2 2 2,8
15 2 2 2 2,8
16 2 2 2 2,8
17 2 3 3 3
18 2 3 1 3,1
19 2 3 3 2
20 2 4 4 1,6

Se recomanda în cazul în care exista mai multe valori lipsa ca registrul de


lucru sa conţina mai mult de o singură înregistrare corespunzătoare unei
caracteristici după care s-a sortat fişierul. Aceste înregistrări vor fi supuse unei
rotaţii în timpul procesului de imputare.
Imputaţia aleatoare.

Constă în alegerea aleatoare din mulţimea respondenţilor sau dintr-o clasă a unui
’’donator’’ h din mulţimea de r respondenţi la întrebarea j. În acest caz avem:

y'ij  y hj
Este o variantă a imputaţiei hot-deck

Imputaţia obiectivă.

La baza acestei metode stă generarea unei ecuaţii de regresie pe baza setului de
date ce conţin înregistrări complete ale variabilei ce urmează a fi supuse
procesului de imputare. Ecuaţia poate avea următoarea formă:
y  b0  b1 x1  b2 x2  ......  bk xk
unde y este variabila ce urmează a fi imputată pentru valorile date ale variabilelor
xi, i=1,…,k corelate cu variabila y.

Avantaje: Imputaţia se armonizează cu restul înregistrărilor individului


respectiv.
reduce gradul de subestimare a dispersiei estimatorului şi
deplasarea estimatorilor
Metoda imputaţiilor multiple

Metoda constă în umplerea fiecărei celule corespunzătoare unei valori lipsă cu


una, două sau mai multe imputaţii şi analizarea fiecărui set de date.

Combinând rezultatul acestei analize cu rezultatul inferenţei statistice vom lua


în consideraţie şi nivelul de incertitudine introdus de valorile lipsă.

Etapa 1.
Se stabilesc variabilele auxiliare care sunt puternic corelate cu variabila
pentru care trebuie sa tratăm non-răspunsurile şi se sortează fişierul după
aceste variabile.

Etapa 2.
Se parcurge fişierului ce conţine tabelul indivizi-variabile înregistrare cu
înregistrare şi identificarea şi numărarea valorilor lipsă (MV1…..MVk). Fiecare
valoare lipsă se tratează individual.

Etapa 3.
Se identifică valorile variabilelor auxiliare corespunzătoare înregistrării ce
conţine o valoare lipsă.
Etapa 4.
Valoarea lipsa i ar putea fi substituită de oricare din valorile
corespunzătoare altor înregistrări ce au aceleaşi valori în câmpul
variabilelor auxiliare considerate. Notăm cu Ci numărul de variante posibile
corespuzătoate unei valori lipsă (MVi). Se procedează în mod similar
pentru toate valorile lipsă determinând pentru fiecare valorile cu care
acestea pot fi înlocuite. Numărul de combinaţii posibile este
C1xC2x….Ck.

Etapa 5.
Pentru fiecare combinaţie se va obţine un set de date şi se va calcula
media şi eroarea de reprezentativitate.

Etapa 6
Estimatorul mediei populaţiei se calculează ca medie a mediilor seturilor de
date.
k

x i
xi este media combinaţiei k.
x i 1

k
Etrapa 7
Pentru construirea unui interval de încredere pentru media populaţiei care să ia în
considerare incertitudinea introdusă prin folosirea imputaţiei este necesară
calcularea unei variaţii totale a estimatorului (mediei). Aceasta este formată din
două componente: variaţia interioară (S2int) ce reprezintă media variaţiilor faţă de
mediile estimate, condiţionate de valoarea imputaţiei şi variaţia dintre mediile
estimate pe baza diferitelor valori ale imputaţiilor (S2ext).

 K 2
S 2 int     xi  k
 i 1 
2
 1 k
S 2 ext  1   xi  x  /( k  1)
 k  i 1

Var ( x )  S 2
int S 2
ext
A. Metode de tratare a nonrăspunsurilor totale

B.1 Reselecţia pentru non-respondenţi

Este o metodă utilizată pentru tratarea non-răspunsurilor totale. Dacă


timpul şi bugetul alocate sondajului permit, se poate face o reselecţie pentru non-
respondenţi. Împărţim în mod formal populaţia de volum N în două straturi: cel al
respondenţilor de volum N1 şi cel al non-respondenţilor de volum N2.

Figura 3.3.4 Organizarea reselecţiei pentru nunrespondenţi

Faza 1 Faza 2

Respondenti n1
Respondenti n1 y 1   y i n1
N1 i 1

m
y2   yi m
Non-respondenti
n2 m
i 1

Non-respondenti
N2

n1 n2
y  y1  y2
n n
B.2. Metoda post-stratificării şi a calibrării generalizate

Utilizarea acestor metode necesită utilizarea unor informaţii


deteliate privind repartiţiile încrucisate după mai multe variabile
auxiliare, o dotare tehnică superioară şi un soft specializat.
Verificarea reprezentativitatii esantiounului

x  X0
zc 
H0: x = X0 şi H1: x  X0 . 2
n

wp
zc 
H0: w= p şi H1: wp p  1  p 
n
Verificarea concordantei repartitiilor
Testul 2
H0: ft= fe şi H1: ftfe
ft reprezintă frecvenţele teoretice
fe frecvenţele empirice f ti  Fti  N
n

Fti frecvenţa corespunzătoare a grupei i din populaţie

k
f ei  f ti 2
c2  
i 1
f ti

Daca  c 2   2 ;df df=k-1 Esantionul nu este reprezentativ


Testul Kolmogorov –Smirnov

Testul Kolmogorov –Smirnov este o extindere a testului Kolmogorov pentru


verificarea concordantei dintre o repatritie empirica si una teoretica

1. Stabilirea frecvenţelor absolute in populatie si in esantion


2. Calcularea frecventelor cumulate crescator
3. Calcularea funcţiilor de repartiţie empirice F(xP) şi F(xE) prin
raportarea frecventelor cumulate la total
4. Se calculeaza diferentele pe clase. Pe baza diferentei maxime
se calculeaza statistica testului:

n1n2
c  max F ( xP)  F ( xE) .
n1  n2
Verificarea reprezentativitatii esantiounului

x  X0
zc 
H0: x = X0 şi H1: x  X0 . 2
n

wp
zc 
H0: w= p şi H1: wp p  1  p 
n
Verificarea concordantei repartitiilor
Testul 2
H0: ft= fe şi H1: ftfe
ft reprezintă frecvenţele teoretice
fe frecvenţele Fti
empirice
f ti  n  ng N unde g N este structura in populatie
N
Fti frecvenţa corespunzătoare a grupei i din populaţie

k
f ei  f ti 2
c2  
i 1
f ti

Daca  c 2   2 ;df df=k-1 Esantionul nu este reprezentativ


Testul Kolmogorov –Smirnov

Testul Kolmogorov –Smirnov este o extindere a testului Kolmogorov pentru


verificarea concordantei dintre o repatritie empirica si una teoretica

1. Stabilirea frecvenţelor absolute in populatie si in esantion


2. Calcularea frecventelor cumulate crescator
3. Calcularea funcţiilor de repartiţie empirice F(xP) şi F(xE) prin
raportarea frecventelor cumulate la total
4. Se calculeaza diferentele pe clase. Pe baza diferentei maxime
se calculeaza statistica testului:

n1n2
c  max F ( xP)  F ( xE) .
n1  n2
Tipuri de erori întâlnite în cercetarea selectivă

Erorile cercetării prin sondaj

A. Erori de observare: B. Erori de


reprezentativitate

-erori ale operatorului


de interviu
B1. Erori sistematice : B2. Erori
-erori ale
cauzate de: întâmplătoare
respondentului
-erori de măsurare -nerespectarea
principiului selecţiei
-erori de culegere a datelor
aleatoare
-numărul mare de non-
răspunsuri
-aria de acoperire
POPULAŢIA ŢINTĂ Arie neacoperită

BAZA DE SONDAJ

Arie acoperită de baza de


sondaj dar care nu face parte
din populaţia ţintă
Procedee de eşantionare

Principii:

• Caracterul obiectiv şi aleator al selecţiei unităţilor. Includerea


unităţilor în eşantion trebuie realizată în mod obiectiv fără a favoriza unele
dintre ele, fiecare fiind extrasă după principiul hazardului, cu o
probabilitate calculabilă şi diferită de zero.

• Eşantionul trebuie să fie suficient de mare pentru a se realiza redarea


trăsăturilor esenţiale ale populaţiei astfel încât să permită obţinerea, pe
baza datelor de sondaj a unor indicatori cu grad mare de stabilitate.

• Includerea unei unităţi în eşantion trebuie să se facă independent de


alte unităţi.
Procedee de esantionare:
• eşantionare aleatoare
• eşantionare dirijată
• eşantionare mixtă.

A.Procedee de eşantionare aleatoare

Procedeele de eşantionare aleatoare sunt cele care acordă fiecărei unităţi din populaţie o probabilitate
nenulă şi cunoscută de a face parte din eşantion. Rezultatele obţinute pe această bază pot fi apreciate
în termeni probabilistici.
Eşantionarea aleatoare se poate face după planuri de sondaje simple (în cazul populaţiilor omogene şi
care nu au dimensiuni foarte mari) sau după planuri de sondaj complexe, în mai multe etape cum ar fi:
sondajul stratificat, sondajul multistadial, multifazic, sondajul de serii, sondajul secvenţial pentru
populaţiile neomogene, repartizate pe diferite subansamble.
Metoda de eşantionare utilizată în cazul în care probabilităţile acordate fiecărei unităţi din populaţie de a
intra în eşantion sunt egale se numeşte eşantionare aleatoare cu probabilităţi egale. Această metodă
se recomandă atunci când nu există diferenţe semnificative în ceea ce priveşte dimensiunea unităţilor
populaţiei. În caz contrar se recomandă utilizarea metodei de eşantionare cu probabilităţi inegale
(unităţile populaţiei au şanse diferite de a intra în eşantion).
Dintre procedeele de extracţie cu probabilităţi egale cele mai folosite sunt: procedeul loteriei,
procedeul numerelor aleatoare şi procedeul mecanic (sistematic).
Procedee nealeatoare

1. Cea mai folosită metodă de eşantionare dirijată este


eşantionarea pe cote

2. Metoda voluntariatului.
3. .
4. Eşantionarea la faţa locului

5. Metoda itinerariilor. Eşantionarea tip bulgăre de


zăpadă
Situaţiile cele mai frecvente când se utilizează sondajul de serii:
• controlul loturilor de producţie când produsele (unităţi simple) sunt livrate sub
forma unor pachete, containere (unităţi complexe);
• estimarea rezultatelor parţiale la alegeri, buletinele de vot fiind grupate în
pachete de câte 100 de bucăţi;
• studii ecologice, terenul fiind împărţit în suprafeţe egale;
• studii medicale, unităţile sanitare constituind seriile iar pacienţii unităţile simple
ce le formează;
• anchete asupra populaţiei când se utilizează ca unitate de selecţie gospodăria;
• când se doreşte realizarea unui sondaj ce trebuie să aibă o arie mare de
acoperire, suprafaţa teritorială se va împărţi în zone ce vor forma unităţile
complexe urmând ca toate persoanele cu domiciliul în zona selectată să
completeze chestionarul;
• anchetele în rândul pasagerilor transporturilor aeriene când pasagerii constituie
unităţile simple şi sunt grupaţi pe zboruri etc.
Avantajele sondajului de serii:

1.asigură un nivel rezonabil de precizie a rezultatelor, eroarea


medie de reprezentativitate fiind influenţată doar de variaţia dintre
serii;
2.reducerea costurilor şi a timpului necesar culegerii datelor.
Aceste cheltuieli descresc odată cu reducerea distanţei ce separă
unităţile simple;
3.uşurinţa obţinerii unei baze de sondaj pentru serii comparativ cu
obţinerea unei baze complete ce să conţină toate elementele
populaţiei mai ales că, de cele mai multe ori populaţia este deja
grupată în serii;
4.rezolvă problema dispersării geografice. Planurile de eşantionare
precedente ce selectează unităţi simple nu pot evita împrăştierea în
teritoriu a unităţilor ce compun eşantionul. Vom prefera selectarea
unităţilor grupate pe regiuni geografice.
Dezavantaj: efectul de serie
Criteriile pe care trebuie să le îndeplinească seriile:

1. să fie clar delimitate

2. unităţile componente trebuie să se situeze la distanţe relativ mici


unele faţă de altele.

3.seriile nu trebuie să conţină un număr prea mare de elemente;

4.pe cât posibil să se evite „efectul de serie”.

Alegerea planului de sondaj în funcţie de tipul variaţiei

Variaţia intra-clase  2 Variaţia inter-clase  2 Plan de eşantionare recomandat


Slabă Puternică Sondaj stratificat
Puternică Slabă Sondaj de serii
Probleme ce se pun în momentul organizării uni
sondaj de serii:

Definirea seriilor. :

• prin gruparea naturală a unor elemente naturale (gospodarii);


• prin gruparea naturală a unor elemente artificiale (suprafaţă cultivată
divizată în loturi);
• prin gruparea artificială de elemente naturale (curse pentru capturarea
dăunătorilor);
• prin gruparea artificială de elemente artificiale .

Alegerea mărimii seriilor.

.
Extragerea seriilor.
Etapele selectării eşantionului de serii printr-un procedeu sistematic cu probabilităţi egale:
1. pregătirea unei liste numerotate a seriilor aranjate în funcţie de context alfabetic sau geografic.
2. calcularea pasului de eşantionare împărţind numărul total de serii din populaţie (R) la numărul de
serii ce urmează a fi selecţionat (r) : k=R/r;
3. alegerea unui număr aleator de debut (D) în intervalul [1, k];
4. selectarea seriilor pornind de la numărul de debut şi pasul de eşantionare.

Exemplu: selecţie de serii sistematică cu probabilităţi egale

Nr. serie Selecţie


001
002 X
003 r = 40
004 R = 170
005 K = 170/40=4,25
006 X D =2
007 Seriile selecţionate:
008 002
009 2+4,25=6,25 ? 006
010 6,25+4,25=10,5 ? 011
011 X ………………………..

170
Etapele selectării eşantionului de serii printr-un procedeu sistematic cu
probabilităţi proporţionale cu mărimea seriilor (PPM):
1. pregătirea unei liste care să conţină unităţile de eşantionare şi o
mărime corespunzătoare dimensiunii fiecărei serii. Acestea vor fi
aranjate alfabetic sau geografic;
2. calcularea valorilor cumulate pentru mărimea seriilor;
3. calcularea pasului de eşantionare împărţind valoare cumulată totală a
mărimii la numărul de serii ce vor forma eşantionul;
4. alegerea unui număr aleatori de debut ( D ) în intervalul [1, k]
5. calcularea numărului de eşantionare
6. selectarea unităţii care va intra în eşantion. Ea este acea serie pentru
care mărimea cumulată este prima care este mai mare cel mult egală
cu numărul de eşantionare.
Ultimele două etape se vor repeta până când se vor selecta toate cele r
unităţi. Exemplu:
Nr. Mărime (nr. de Valoare Nr. de
Selecţie
serie gospodării) cumulată eşantionare
001 120 120 73 X
002 105 225 r = 40
003 132 357 R = 170
004 96 453 K = 17219/40=430,475
005 110 563 503 X D =73
Nr. de eşantionare:
006 102 665
007 165 830 73
008 98 928
009 115 1043 934 X 73+430,475=503,475 ? 503
010 60 1103
011 104 1207 503,475+430,475=933,96 ? 934
012 168 1375 1364 X
933,96+430,475=1364,425 1364
……………………………………..
170 196 17219
Total 17219 -
Notăm cu:
R = numărul de unităţi complexe (serii) din populaţie;
r = numărul de unităţi complexe (serii) din eşantion;
N = numărul de unităţi simple (indivizi) din populaţie;
n = numărul de unităţi simple (indivizi) din eşantion;
N
1 N
T  Yi este totalul din populaţie; T  Yi este totalul mediu pe serie;
i 1 R i 1
R N
1 N
Y  Yi   Y j este nivelul mediu pe fiecare unitate simplă (individ)
j

N i 1 j 1 N

unde Y j este nivelul mediu pe fiecare serie.


Prelucrarea unei variabile cantitative

A. Privim baza de date ca reprezentand un singur esantion.


Sondaj simplu aleator
Case Processing Summary

Cas es
Valid Mis sing Total
N Percent N Percent N Percent
Scor obtinut 365 100,0% 0 ,0% 365 100,0%

max
Q3
Descriptives
Me
Statis tic Std. Error
Scor obtinut Mean 1,77 ,136
95% Confidence Lower Bound 1,50
Q1
Interval for Mean Upper Bound
2,04

5% Trimmed Mean 1,82


Median 2,00 min
Variance 6,744
Std. Deviation 2,597
Minimum -5
Maximum 6
Range 11
Interquartile Range 4
Skewness -,343 ,128
Kurtos is -,594 ,255
Group Statistics

Sexul persoanei Std. Error


intervievate N Mean Std. Deviation Mean
Media masculin 269 7,8086 1,13852 ,06942
feminin 374 7,9278 1,06309 ,05497

Independent Samples Test

Levene's
Test for Eq.
of V. t-test for Equality of Means
95%
Std. Int erval
Sig. M ean Error Diff.
F Sig. t df (2-tailed) Diff. Diff. Lo Up
Eq. V.
1,16 ,28 -1,36 641 ,17 -,12 ,09 -,29 ,05
assumed
Eq. V not
-1,35 553,2 ,18 -,12 ,09 -,29 ,05
assumed

Daca niv de semnificatie este mai mare de


0.05 se accepta ipoteza egalitatii dispersiilor si
se interppreteaza prima linie
Dacă testul efectuat este bilateral, putem lua decizia şi pornind de la
nivelul de semnificaţie. Valoarea din outputul SPSS se compară cu 0,05
(corespunzătoare unei probabilităţi de 0,95). Dacă este mai mare, se
acceptă ipoteza diferenţei nule, iar în caz contrar se acceptă alternativa.
B. Esantioane dependente
Paired Samples Correlations

N Correlation Sig.
Pair Nota student-profesor
Nota st udent-personal adm. 673 ,338 ,000
1

Pa ired Sa mples Statistics

Std . Std . Error


M ean N Deviat ion M ean
Pair No ta s tudent-p rofesor 6,36 673 2,306 ,089
1 No ta s tudent-p erso nal adm. 5,87 673 2,591 ,100

Pa ire d Sa mples Test

Paired Differences

Std . 95% In terv al


Std . Error Diff. Sig.
M ean Deviat ion M ean Lo Up t df (2- tailed)
Pair 1 No ta
stu den t-pro feso r
No ta ,48 2,83 ,11 ,27 ,70 4,42 672 ,00001
stu den t-person al
ad m.

Dacă valoarea  este mică (uzual se


consideră 0,05), se respinge ipoteza
diferenţei nule între mediile variabilelor
pereche şi se acceptă alternativă.
Modelul de analiză dispersională unifactorială
One-Way ANOVA
Cu ajutorul testului parametric de analiză dispersională ANOVA se pot examina două
sau mai multe eşantioane independente, pentru a determina dacă mediile populaţiilor
din care provin ar putea fi egale, putându-se pune astfel în evidenţă influenţa
factorului considerat sau a tratamentului efectuat.

H0: X 1  X 2  ......  X i  .........  X k pentru i=1,…,k


H1: există i  j astfel încât X i  X j
Test of Homogeneity of Variances
Dacă valoarea acestuia este mai mare de 0,05,
Cuantificati cu o nota de la 1 la 10 utilitatea cursurilor se poate accepta ipoteza egalităţii varianţelor.
Levene
În exemplul considerat, se poate afirma că
Statistic df1 df2 Sig. dispersiile grupelor sunt egale, deoarece nivelul
3,260 9 663663 0,054
0.054 de semnificaţie  este 0,054
ANOVA

Cuantificati cu o nota de la 1 la 10 utilitatea curs urilor desfas urate de-a


lungul facultatii in formarea profesionala
Sum of Mean
Squares df Square F Sig.
Between Groups 732,377 9 81,375 19,391 ,000
Within Groups 2782,276 663 4,196
Total 3514,654 672

Primele coloane indică tipul variaţiei, variaţia, numărul de grade de


libertate şi media variaţie şi valoarea calculată a raportului F. Un nivel
de semnificaţie  <0,05 duce la respingerea ipotezei nule
Chiar dacă, în urma aplicării, se respinge ipoteza egalităţii mediilor, este
posibil să existe subseturi pentru care diferenţele dintre medii să nu fie
semnificative. Pentru a verifica această ipoteză, din fereastra de definire a
testului se activează meniul Post Hoc.
Prelucrarea unei variabile calitative
A. Un esantion. Sondaj simplu aleator

Deoarece variabila
nu este numerica
nu putewm calcula
decat eventual
valoarea modala
Acord cu evaluarea

Cumulative
Frequency Percent Valid Percent Percent
Valid Acord total 74 20,3 20,3 20,3
Acord 189 51,8 51,8 72,1 Erorile de
Indiferent 55 15,1 15,1 87,1 reprezentativitate si limitele
Dezacord 31 8,5 8,5 95,6
Dezacord total 16 4,4 4,4 100,0
intervalului de incredere se
Total 365 100,0 100,0 calculeaza manual

Se calculeaza
limitele de interval
in excel
Prelucrarea unei variabile cantitative

A. Privim baza de date ca reprezentand un singur esantion.


Sondaj simplu aleator
Case Processing Summary

Cas es
Valid Mis sing Total
N Percent N Percent N Percent
Scor obtinut 365 100,0% 0 ,0% 365 100,0%

max
Q3
Descriptives
Me
Statis tic Std. Error
Scor obtinut Mean 1,77 ,136
95% Confidence Lower Bound 1,50
Q1
Interval for Mean Upper Bound
2,04

5% Trimmed Mean 1,82


Median 2,00 min
Variance 6,744
Std. Deviation 2,597
Minimum -5
Maximum 6
Range 11
Interquartile Range 4
Skewness -,343 ,128
Kurtos is -,594 ,255
B. Privim baza de date ca fiind formată din mai multe esantioane.
Sondaj stratificat Variabila
analizata

Criteriul de
stratificare
Descriptives

s ociet Statis tic Std. Error


Scor obtinut SC1 Mean 3,28 ,180
Case Processing Summary
95% Confidence Lower Bound 2,92
Cas es Interval for Mean Upper Bound
Valid Mis sing Total 3,63
s ociet N Percent N Percent N Percent
5% Trimmed Mean 3,33
Scor obtinut SC1 116 100,0% 0 ,0% 116 100,0%
SC2 160 100,0% 0 ,0% 160 100,0% Median 3,00
SC3 89 100,0% 0 ,0% 89 100,0% Variance 3,767
Std. Deviation 1,941
Minimum -2
Maximum 6
Range 8
Interquartile Range 3
Skewness -,115 ,225
Kurtos is -,662 ,446
SC2 Mean ,45 ,204
95% Confidence Lower Bound ,05
Interval for Mean Upper Bound
,85

5% Trimmed Mean ,44


Median ,00
Variance 6,652
Std. Deviation 2,579
Minimum -5
Maximum 5
Range 10
Interquartile Range 5
Skewness -,019 ,192
Kurtos is -1,083 ,381
SC3 Mean 2,18 ,228
95% Confidence Lower Bound 1,73
Interval for Mean Upper Bound
2,63

5% Trimmed Mean 2,24


Median 3,00
Variance 4,626
Std. Deviation 2,151
Minimum -3
Maximum 6
Range 9
Interquartile Range 4
Skewness -,393 ,255
Kurtos is -,338 ,506
Teste statistice utilizate pentru verificarea ipotezelor privind mediile a două grupuri
A. Esantioane independente
Group Statistics

Sexul persoanei Std. Error


intervievate N Mean Std. Deviation Mean
Media masculin 269 7,8086 1,13852 ,06942
feminin 374 7,9278 1,06309 ,05497

Independent Samples Test

Levene's
Test for Eq.
of V. t-test for Equality of Means
95%
Std. Int erval
Sig. M ean Error Diff.
F Sig. t df (2-tailed) Diff. Diff. Lo Up
Eq. V.
1,16 ,28 -1,36 641 ,17 -,12 ,09 -,29 ,05
assumed
Eq. V not
-1,35 553,2 ,18 -,12 ,09 -,29 ,05
assumed

Daca niv de semnificatie este mai mare de


0.05 se accepta ipoteza egalitatii dispersiilor si
se interppreteaza prima linie
Dacă testul efectuat este bilateral, putem lua decizia şi pornind de la
nivelul de semnificaţie. Valoarea din outputul SPSS se compară cu 0,05
(corespunzătoare unei probabilităţi de 0,95). Dacă este mai mare, se
acceptă ipoteza diferenţei nule, iar în caz contrar se acceptă alternativa.
B. Esantioane dependente
Paired Samples Correlations

N Correlation Sig.
Pair Nota student-profesor
Nota st udent-personal adm. 673 ,338 ,000
1

Pa ired Sa mples Statistics

Std . Std . Error


M ean N Deviat ion M ean
Pair No ta s tudent-p rofesor 6,36 673 2,306 ,089
1 No ta s tudent-p erso nal adm. 5,87 673 2,591 ,100

Pa ire d Sa mples Test

Paired Differences

Std . 95% In terv al


Std . Error Diff. Sig.
M ean Deviat ion M ean Lo Up t df (2- tailed)
Pair 1 No ta
stu den t-pro feso r
No ta ,48 2,83 ,11 ,27 ,70 4,42 672 ,00001
stu den t-person al
ad m.

Dacă valoarea  este mică (uzual se


consideră 0,05), se respinge ipoteza
diferenţei nule între mediile variabilelor
pereche şi se acceptă alternativă.
Modelul de analiză dispersională unifactorială
One-Way ANOVA
Cu ajutorul testului parametric de analiză dispersională ANOVA se pot examina două
sau mai multe eşantioane independente, pentru a determina dacă mediile populaţiilor
din care provin ar putea fi egale, putându-se pune astfel în evidenţă influenţa
factorului considerat sau a tratamentului efectuat.

H0: X 1  X 2  ......  X i  .........  X k pentru i=1,…,k


H1: există i  j astfel încât X i  X j
Test of Homogeneity of Variances
Dacă valoarea acestuia este mai mare de 0,05,
Cuantificati cu o nota de la 1 la 10 utilitatea cursurilor se poate accepta ipoteza egalităţii varianţelor.
Levene
În exemplul considerat, se poate afirma că
Statistic df1 df2 Sig. dispersiile grupelor sunt egale, deoarece nivelul
3,260 9 663663 0,054
0.054 de semnificaţie  este 0,054
ANOVA

Cuantificati cu o nota de la 1 la 10 utilitatea curs urilor desfas urate de-a


lungul facultatii in formarea profesionala
Sum of Mean
Squares df Square F Sig.
Between Groups 732,377 9 81,375 19,391 ,000
Within Groups 2782,276 663 4,196
Total 3514,654 672

Primele coloane indică tipul variaţiei, variaţia, numărul de grade de


libertate şi media variaţie şi valoarea calculată a raportului F. Un nivel
de semnificaţie  <0,05 duce la respingerea ipotezei nule
Chiar dacă, în urma aplicării, se respinge ipoteza egalităţii mediilor, este
posibil să existe subseturi pentru care diferenţele dintre medii să nu fie
semnificative. Pentru a verifica această ipoteză, din fereastra de definire a
testului se activează meniul Post Hoc.
Prelucrarea unei variabile calitative
A. Un esantion. Sondaj simplu aleator

Deoarece variabila
nu este numerica
nu putewm calcula
decat eventual
valoarea modala
Acord cu evaluarea

Cumulative
Frequency Percent Valid Percent Percent
Valid Acord total 74 20,3 20,3 20,3
Acord 189 51,8 51,8 72,1 Erorile de
Indiferent 55 15,1 15,1 87,1 reprezentativitate si limitele
Dezacord 31 8,5 8,5 95,6
Dezacord total 16 4,4 4,4 100,0
intervalului de incredere se
Total 365 100,0 100,0 calculeaza manual
B. Mai multe esantioane. Sondaj stratificat
Acord cu evaluarea

Cumulative
s ociet Frequency Percent Valid Percent Percent
SC1 Valid Acord total 22 19,0 19,0 19,0
Acord 83 71,6 71,6 90,5
Indiferent 7 6,0 6,0 96,6
Dezacord 4 3,4 3,4 100,0
Total 116 100,0 100,0
SC2 Valid Acord total 36 22,5 22,5 22,5
Acord 76 47,5 47,5 70,0
Indiferent 33 20,6 20,6 90,6
Dezacord 11 6,9 6,9 97,5
Dezacord total 4 2,5 2,5 100,0
Total 160 100,0 100,0
SC3 Valid Acord total 16 18,0 18,0 18,0
Acord 30 33,7 33,7 51,7
Indiferent 15 16,9 16,9 68,5
Dezacord 16 18,0 18,0 86,5
Dezacord total 12 13,5 13,5 100,0
Total 89 100,0 100,0
Eşantioane independente

1 eşantion 2 eşantioane 2 sau mai multe eşantioane

DA DA DA
n30 ni30 ni(1-pi) 5
n(1-p)  5 ni(1-pi) 5 n ip i 5
np 5 n ip i 5
NU NU NU

Testul z Testul z Testul χ2


Relaţia 4.1 Relaţia 4.2 Relaţia 4.5

Construim regiunea critică Testul Testul Exact


utilizând repartiţia binomială Exact Fisher Fisher-Freeman-Halton

Eşantioane dependente

2 eşantioane 2 sau mai multe eşantioane

Testul Testul
Mc Nemar Cochran’s Q
relaţia 4.6
w p
z (4.1)
p  1  p 
n

Ipotezele testului bilateral sunt:


H 0 : p1  p 2 şi H 1 : p1  p 2
w1  w2
Statistica testului este: t  (4.2)
1 1 
w 1  w   
 n1 n2 

w1= proporţia observată în eşantionul 1; n1 = volumul eşantionului 1;


w2= proporţia observată în eşantionul 2; n2 = volumul eşantionului 2;
w = variaţia estimată pe baza proporţiilor selecţiilor după relaţia:
n w  n 2 w2
w 1 1 .
n1  n 2
Eşantion Eşantion ...Eşantion... Eşantion Total
1 2 j k (ni.) Notăm cu w1 j  n1 j n. j proporţia celor care îndeplinesc
Îndeplinesc caracteristica în eşantionul (grupul) j. Aceasta reprezintă estimatorul
n11 n12 ...n1j... n1k n1. proporţiei celor care îndeplinesc caracteristica în populaţia j din care a fost
caracteristica
Nu îndeplinesc selectat eşantionul j, notată cu p1 j .
n21 n22 ...n2j... n2k n2.
caracteristica Ipotezele testului sunt:
Volum eşantion H 0 : pi  p j  i, j  1,...., k şi H 1 :  i, j pentru care pi  p j .
n.1 n.2 ...n.j... n.k n
(n.j)

ni.
eij  n. j (4.4)
n
Unde i=1,..,l (numărul de linii – care în cazul de faţă este 2) iar
j=1,..,k (numărul de coloane – reprezintă numărul de eşantioane (grupuri)
pentru care se compară proporţiile).

Statistica testului este:


l k nij  eij 2
 c 2   (4.5)
i 1 j 1 eij
Valoarea calculată se compară cu valoarea teoretică corespunzătoare
nivelului de semnificaţie ales şi numărului de grade de libertate calculat
după relaţia df = (l-1) * (k-1). În situaţia în care  c 2   2 ,df , se respinge
ipoteza egalităţii proporţiilor.
În SPSS nu există posibilitatea procesării testului Student pentru
testarea ipotezelor cu privire la două proporţii (calculate ca pondere a celor
care deţin o caracteristică în două eşantioane independente). În acest caz
vom apela la testul χ2 (acesta poate fi utilizat pentru compararea proporţiilor
din două sau mai multe eşantioane independente). Pentru aceasta este
necesar să construim tabelul de contingenţă urmând calea: Analyze/
Descriptive Statistics/ Crosstabs.
masculin şi de 15,9% în cazul sexului feminin.
Ipotezele testului bilateral sunt: H 0 : p1  p 2 şi H 1 : p1  p 2

Tabel 4.7

Corupt * Sex Crosstabulation

Sex
masculin feminin Total
Corupt da Count 43 11 54
Expected Count 43,8 10,2 54,0
% within Sex 14,5% 15,9% 14,8%
nu Count 253 58 311
Expected Count 252,2 58,8 311,0
% within Sex 85,5% 84,1% 85,2%
Total Count 296 69 365
Expected Count 296,0 69,0 365,0
% within Sex 100,0% 100,0% 100,0%

Chi-Square Tests

Asymp.
Sig. Exact Sig. Exact Sig.
Value df (2-s ided) (2-s ided) (1-s ided)
Pears on Chi-Square ,089 b 1 ,766
Continuity Correctiona ,012 1 ,913
Likelihood Ratio ,087 1 ,767
Fisher's Exact Tes t ,711 ,445
N of Valid Cas es 365
a. Computed only for a 2x2 table
b. 0 cells (,0%) have expected count less than 5. The minimum
expected count is 10,21.
Esantioane dependente
Val2
Val1
mulţumit nemulţumit Total
mulţumit n11 n12 n1.
nemulţumit n21 n22 n2.
Total n.1 n.2 n

Aplicarea testului Testul Mc Nemar porneşte de la ipotezele:


H0= p.1= p1. şi H1= p.1? p1.
Deoarece volumul eşantioanelor din cele două anchete este acelaşi
ipotezele se reduc la:
H0= n.1= n1. H1= n.1? n1.
Cum n.1= n11+ n21 iar n1.= n11+ n12 , H0 se reduce la a testa n12=n21
Se va utiliza testul χ2 , frecvenţa teoretică fiind (n12+n21)/2.
2 2
 n  n21   n  n21 
 n12  12    n21  12 
 f e  f t 2
    
2 2
 c2 
ft n12  n21
2

 c2 
n12  n21 2
(4.6)
n12  n21
 Analyze/ Descriptive Statistics/ Crosstabs/ Statistics
Din submeniul Statistics se selectează testul Mc Nemar. În
această variantă putem obţine şi un tabel de contingenţă în care
sunt reprezentate frecvenţele observate în cifre absolute şi
relative.
 Analyze/ Nonparametric Tests / 2 Related Samples

Val1 * Val2 Crosstabulation

Val2
Da Nu Total
Val1 Da Count 11 20 31
Chi-Square Tests
% within Val1 35,5% 64,5% 100,0%
% within Val2 68,8% 58,8% 62,0% Exact Sig.
% of Total 22,0% 40,0% 62,0% Value (2-sided)
Nu Count 5 14 19 McNemar Test ,004a
% within Val1 26,3% 73,7% 100,0% N of Valid Cases 50
% within Val2 31,3% 41,2% 38,0% a. Binomial distribution us ed.
% of Total 10,0% 28,0% 38,0%
Total Count 16 34 50
% within Val1 32,0% 68,0% 100,0%
% within Val2 100,0% 100,0% 100,0%
% of Total 32,0% 68,0% 100,0% Valoarea p=0,004 (tabel 4.14) este mai mică decât
=0,05. În aceste condiţii se respinge ipoteza diferenţei
nule. Proporţia celor care prezintă simptome de angină s-
a ameliorat în urma aplicării tratamentului.

S-ar putea să vă placă și