Sunteți pe pagina 1din 60

Cuprins

1. Introducere.............................................................................................1
2. Erorile de sondaj....................................................................................1
3. Modalităţile de prelevare a unităţilor....................................................3
4. Sondajul aleator simplu.........................................................................4
4.1. Simboluri şi unele noţiuni introductive..........................................5
4.2 Indicatori ai sondajului aleator simplu repetat şi
nerepetat............8
4.2.1. Eroare medie de sondaj..............................................................8
4.2.2. Eroare limită.............................................................................11
4.2.3. Determinarea volumului eşantionului......................................12
4.2.4. Calculul intervalului de "încredere"........................................14
5. Calculul indicatorilor sondajului în cazul caracteristicilor binare
(alternative)...............................................................................................15
6. Sondajul tipic (stratificat).....................................................................18
7. Sondajul tipic proporţional..................................................................21
8. Sondajul tipic optim.............................................................................22
9. Sondajul de serii.Sondajul în mai multe faze....................................22
10. Sondajul pe baza de eşantioane fixe................................................24
11. Sondaje cu extracţie cvasialeatoare.................................................27
12. Analiza datelor de sondaj pentru realizarea inferenţei statistice...29
12.1. Principii de bază ale inferenţei
statistice...................................29
12.2. Tipuri de erori întâlnire în teoria şi practica sondajului.............34
12.3 Estimarea erorilor de sondaj………………………………………
39
13. Modele de măsurare a legăturilor statistice pentru datele
calitative....................................................................................................44
14. Modele de măsurare a legăturilor pentru datele cantitative...........49
14.1. Analiza de regresie……………………………………………….50
1
14.2. Elemente de analiză a variantei…………………………………54
14.3. Principii de analiză facrorială…………………………………….56
Bibliografie
1. Introducere

Între sursele de obţinere a datelor (informaţiilor) statistice, alături de alte


procedee cum sunt recensămintele, rapoartele statistice, anchetele, monografiile,
sondajele statistice constituie o variantă aflată în prezent în plină expansiune.
Datoria operativităţii, a economicităţii obţinerii datelor, metoda sondajului se află
printre procedeele "preferate" în obţinerea datelor. într-o economie de piaţă bazată
pe proprietatea privată sondajul este forma preponderentă de obţinere a datelor
statistice, în dauna rapoartelor statistice - formă specifică economiilor centralizate.
Rezultatele obţinute pe baza datelor de sondaj se extrapolează la
dimensiunea întregii populaţii. Extinderea rezultatelor de la "parte", la "întreg" nu
are, însă caracter determinist ci probabilist, deci sunt supuse unui risc de a fi
eronate. Avantajul metodei sondajului constă nu atât în eliminarea erorilor, cât mai
ales, în predimensionarea lor şi a "controlului" probabilităţii afirmaţiilor.

2. Erorile de sondaj
Principalele noţiuni pereche din colectivitatea generală şi din eşantion
utilizate în tehnica sondajelor.

2
Principala clasă a erorilor de sondaj o constituie erorile de
reprezentativitate sistematice -având drept sursă încălcarea principiilor
alcătuirii corecte a eşantioanelor şi erorile întâmplătoare, ce îşi au sursa în
însăşi natura sondajului ca cercetare parţială, erori ce nu pot fi eliminate, dar
pot fi predimensionate, deci distorsiunile de apreciere realizate prin
cercetarea unui eşantion pot fi "prevăzute" statistic.
Măsurarea erorii de reprezentativitate se poate efectua:
- absolut, ca dimensiune a deplasării indicatorului (parametrului) de
sondaj (Xmed). de la mărimea "adevărată" a parametrului în populaţia generală (m),
respectiv(Xmed -m)
- relativ, caz în care indicatorul "eroare de eşantionare" se poate
exprima:

(1)
O eroare relativă situată sub 5% permite a se aprecia că sondajul este
reprezentativ şi oferă deci o imagine aproximativ "fidelă" a realităţii.
Dimensionarea erorii este o chestiune a "proiectării" unui sondaj şi ţine de aflarea
unui "compromis" acceptabil între nivelul erorii şi costul măririi eşantionului.
Sursa principală a erorii - în cazul sondajelor - o constituie
nereprezentativitatea, iar erorile ce provin din aceasta se numeşte "de
reprezentativitate" şi sunt provocate de faptul că eşantionul nu reproduce "în mic"
structura populaţiei în ansamblu.

3
3. Modalităţile de prelevare a unităţilor

Statistica oferă variate procedee de prelevare a unităţilor şi alcătuire a


eşantioanelor astfel încât să se asigure un grad cât mai ridicat de reprezentativitate,
principalele tipuri de sondaj fiind:

A. Sondaje aleatoare:
a. sondajul simplu;
b. sondajul tipic (stratificat);
c. sondajul de serii;
d. sondajul secvenţial;
e. sondajul în trepte.
B.Sondaje dirijate
C.Sondaje sistematice

Fiecare din tipurile de sondaje enumerate se poate efectua în două variante:


"repetat" - când o unitate prelevată este restituită populaţiei de origine
şi deci are şanse să mai reintre în eşantion;
"nerepetat" - când unităţile nu sunt (sau nu pot fi) restituite în
populaţia generală. Modelul teoretic al acestor două variante de prelucrare se află
în "urna lui Bernoulli" cu bilă
revenită şi nerevenită. Prelevarea unităţilor se efectuează după diverse metode
dintre care amintim:
1. Procedeul "LOTERIE", este un procedeu aleator în care unităţile,
perfect identificabile ("seria" imprimată pe produse sau componente, "numărul de
marcă" al salariaţilor, "numărul casei" sau al apartamentului etc.) sunt prelevate
după corespondentul înregistrat pe bileţele amestecate şi extrase aleator dintr-o
"urnă".
2. Procedeul "tabelelor cu numere aleatoare" este oarecum similar celui
anterior, dar se aplică populaţiilor de mari dimensiuni, la care metoda de tip
4
"LOTO" este neoperantă. Conforma acestui procedeu, unităţile vor fi prelevate din
populaţia "N" şi se va alcătui eşantionul "n", în ordinea (aleatoare) în care sunt
înregistrate numerele într-un tabel de acest tip, special alcătuit. Aceste tabele oferă
serii de numere aleatoare rezultate în urmă aplicării unui procedeu de tip loterie şi
consemnarea rezultatelor, fie se obţin prin utilizarea calculatorului electronic,
folosind programele specifice pentru "generarea numerelor aleatoare".
3. Procedeul mecanic constă în prelevarea unităţilor la intervale (de timp,
sau numerice) bine precizate, deci la un anumit "pas de numărare" aplicat bazei de
sondaj. De exemplu, dacă eşantionul "n" reprezintă 10% din volumul populaţiei
"N", atunci se va prevala fiecare a 10-a unitate a populaţiei. Deci "pasul de
numărare" este egal cu K=N/n. Pentru a îmbunătăţii caracterul aleator al procesului
de prelevare nu se va porni extracţia cu unitatea numărului 001, ci cu o unitate
oarecare extrasă aleator, de exemplu din primele 20. Să presupunem deci unităţile
ce se vor extrage din populaţia şi vor forma eşantionul vor fi cele cu numere de
ordinele următoare: 7; 7+10=17; 17+10=27 ş.a.m.d.

4. Sondajul aleator simplu

Este varianta aleatoare elementară de sondaj, celelalte tipuri putând fi


înţelese ca soluţii obţinute prin particularizarea unor elemente ale acestui tip de
sondaj. El se poate realiza, din punct de vedere al prelevării unităţilor, în una din
cele două variante - repetat şi nerepetat.

5
4.1. Simboluri şi unele noţiuni introductive

Cele mai frecvente utilizate simboluri în acest capitol se prezintă în tabelul


nr. 1.

Tabelul nr. 1.
Simboluri de bază

Evident, în practică, spre deosebire de teorie, se operează asupra unor


populaţii (de obiecte, sau indivizi) finite. Prelevând "n" unităţi din cele N ale
populaţiei şi înregistrând pentru fiecare unitate din eşantion valoarea caracteristicii
urmărite se obţine şirul valorilor x1, x2,... ,xi ,...,xn pe baza căruia se calculează
media:

(2)

Această medie va diferi mai mult sau mai puţin de la media "adevărată" dar
necunoscută din populaţia generală. Evident că într-o altă eşantionare, unităţile
prelevate ar fi fost foarte probabil altele, astfel încât tot altele ar fi fost valorile
caracteristicii, respectiv ale mediei de sondaj. Faptul că indicatorii statisticii
calculaţi pe baza datelor de sondaj diferă de la eşantion la eşantion, rezultă că ei
pot fi interpretaţi ca variabile aleatoare. în consecinţă, în prelucrarea datelor de
sondaj se pot aplica metodele şi procedurile de tratare a datelor, specifice
disciplinei de "probabilităţi şi statistică-matematică".
6
Astfel, de exemplu, indicatorii estimaţi pe baza sondajului, fiind variabilă
aleatoare, pentru a putea fi extinşi la întreaga populaţie, trebuie să fie: estimaţii
nedeplasate (valoarea medie a indicatorului de sondaj, pentru un volum "n" finit,
trebuie să fie egală cu parametrul din populaţia generală); consistente (indicatorul
de sondaj să conveargă în probabilitate, pentru valori mari ale lui "n", către
parametrul teoretic - din populaţia generală); eficiente (să aibă dispersie minimă)
deci, se va putea afirma că un eşantion A de volum "n" în baza căruia se estimează
media "m" din populaţia
generală pentru variabila X, prin estimatorul "X med A " este mai eficient decât un
eşantion B, tot de volum "n" pentru estimarea mediei "m", prin estimaţia "X medB",
) ) ) )
dara: M( X MED A = m, iar M( X MED B = m, iar D ( X MED A < D(X MED B unde M - semnifică
media, iar D - dispersia.
Estimaţiile obţinute pe baza datelor de sondaj constituie evaluări
aproximative ale adevăratelor valori ale parametrilor necunoscuţi din populaţia
generală. Deci, rezultatele obţinute printr-un sondaj sunt afectate de erori. Ce se
poate obţine prin sondaj este nu valoarea "adevărată" a parametrului căutat ci un
"interval de încredere", care - cu o probabilitate fixată de către cercetător - acoperă
valoarea adevărată dar necunoscută a parametrului din populaţia generală. Acest
interval poartă numele de interval de estimaţie sau interval de încredere.

Cele două limite ale intervalului de încredere se calculează pe

baza datelor sondajului x x1, x2,... ,xi ,...,xn, astfel încât cu o probabilitate
să se îndeplinească relaţia:

(3)

Intervalul reprezintă intervalul de încredere şi defineşte


precizia estimaţiei.

Probabilitatea caracterizează siguranţa afirmaţiilor şi se numeşte nivel


de încredere.
7
e valoarea complementară a nivelului de încredere, se numeşte nivel sau
prag de semnificaţie şi se fixează prin programul de cercetare. Cele mai utilizate
valori ale probabilităţii de încredere sunt 90%, 95%, 99%, 99,9%, cărora le
corespund niveluri de semnificaţie de 10%, 5%, 1%, 0,1%.

Pe lângă coeficientul de încredere (1 - a) un rol important îl joacă lungimea


intervalului de

încredere dacă eroarea de sondaj se repartizează după legea


normală, atunci erorile egale în valoare absolută au probabilităţi egale de apariţie
pentru acelaşi volum al eşantionului. Jumătatea intervalului de încredere se

numeşte eroare limitată admisă şi se notează:


Sumarul determinării intervalului de încredere în cazul utilizării unui
sondaj simplu aleator cu probabilităţi egale:

8
Z -valoare din tabelele Laplace se pot obţine şi pentru alte praguri de
semnificaţie;
Xmed-simbol pentru o caracteristică cantitativă pe care o posedă unităţile din
eşantion;
S2 -dispersia caracteristicii cantitative în eşantion;
W -ponderea din eşantion care unde n<30;

4.2 Indicatori ai sondajului aleator simplu repetat şi


nerepetat

4.2.1. Eroare medie de sondaj

a. Cazul sondajului repetat.


Observaţiile înregistrate pe baza datelor eşantionului x 1, x2,... ,xi ,...,xn pot fi
considerate variabile aleatoare, iar folosind independenţa valorilor variabilei, se
arată că media de sondaj:

(4)

poate fi un estimator nedeplasat al mediei "m" a colectivităţii generale dacă se


îndeplineşte condiţia ca media de sondaj să fie egală cu media generală. Aceasta

înseamnă că: , (5)

Această relaţie exprimă faptul că media într-un sondaj este un estimator

nedeplasat al mediei a colectivităţii generale.

Se calculează dispersia mediei de sondaj


9
, (6)

Abaterea medie pătratică a mediei de sondaj este:

, (7)

adică dispersia de sondaj într-o eşantionare cu


revenire de volum n este de

ori mai mică decît dispersia a colectivităţii


generale.

b. Cazul sondajului nerepetat


La acest tip de sondaj unităţile sunt prelevate întâmplător din populaţia
generală, o "unitate" odată extrasă nefiind restituită populaţiei de origine, deci
neavând şanse să mai reintre în eşantion. Dacă

N este volumul populaţiei generale, atunci: dar probabilitatea


evenimentului X2 = x2 condiţionată de faptul că la prima extrategere a avut loc
evenimentul X1 = x1, iar elementul odată

verificat nu mai revine în populaţia generală este


caz în care abaterea medie pătratică a mediei de sondaj ca măsurător al erorii medii
de reprezentativitate este:

(8)

10
In calculele efective, pentru de regulă factorul

nu se mai ia în considerţie. Factorul este subunitar. Când n - volumul

sondajului creşte, precizia sporeşte aproximativ de după cum în acelaşi

raport se micşorează abaterea medie Acest fapt permite să se utilizeze în


practică sondaje de volum nu prea ridicat, căci sporirea volumului acestora nu se
regăseşte proporţional în ridicarea preciziei sondajului.
Dara volumul N al populaţiei este ridicat, iar al sondajului este redus, atunci

deci rezultatul estimării indicatorului practic coincide în ambele


variante de sondaj.

Dara n = N, atunci devine nul şi deci dispare şi eroarea medie de sondaj,


căci cercetarea parţială s-a transformat într-o cercetare integrală. Evident aceasta
nu generează erori de reprezentativitate (specifice numai cercetării prin
eşantioane).
În general, eroarea de reprezentativitate a eşantionării fără revenire este mai
mică decât a celei cu revenire, variantă la care reîntoarcerea repetată a aceloraşi
unităţi în eşantion înrăutăţeşte reprezentativitatea. Notă:
a. după cum s-a observat mai sus:
- abaterea medie pătratică prin populaţia generală este necunoscută, ea a fost
înlocuită cu s -estimatorul ei stabilit pe baza unui sondaj;
b. dacă eşantionul în vederea estimării abaterii mediei pătratice se
efectuează pe baza unui

număr redus de unităţi în probă, atunci estimatorul lui se obţine raportând suma
pătratelor de la

medie la (n - 1) şi nu la n - volumul unităţilor din probă;

11
c. un estimator al dispersiei (în cazul în care nu se poate asigura o
eşantionare preliminară pentru calculul împrăştierii) este şi valoarea
maximă a indicatorului:

în cazul caracteristicilor măsurabile;


d. în cazul caracteristicilor binare relaţiile de calcul ale erorii medii rămân
valabile, cu menţiunea că în locul lui se va lucra cu

, unde f este frecvenţa


relativă a caracteristicii binare căruia i s-a atribuit codul x1 = 1.
e. în situaţia sondajelor de volum ridicat calculul erorii probabile se
efectuează utilizând coeficienţii de probabilitate identificaţi în tabelele Laplace
(anexa); de exemplu: pentru un risc a = 5%; a = 1 -2Ф(z);
0,05 = 1 -2Ф(z); 2Ф(z) = 0,95; Ф(z) = 0,475 tabelar Z0.05 =1.96.Pentru sondajele
de volum redus (n < 30 - 40 de unităţi) se va folosi tabela legii Student.

4.2.2. Eroarea limită

(eroarea maxim admisă sau probabilă) -


Eroarea limită maximă admisă defineşte siguranţa (sau probabilitatea de
încredere) estimării mediei "m" prin variabila de sondaj şi se măsoară

probabilist, astfel: .

Mărimea - caracterizează precizia estimaţiei. Aprecierea satisfacerii


inegalităţii nu se poate face decât ca o probabilitate de realizare:

(9)

P robabilitatea 1 —
a se alege de către cercetător în funcţie de "nivelul de
siguranţă" urmărit în estimare, cele mai uzuale valori fiind 0,95; 0,99; 0,999.
Eroarea limită se determină pornind de la variabila
12
, (10)

care aşa cum se cunoaşte, are o repartiţie normală, fiind valoarea (tabelată) care

satisface relaţia: 2Ф(za )=P = 1- a


Pentru valoarea uzuală a = 0, 05; 0, 01; 0, 001 valorile variabilei z sunt
z0,05=l,96; z0,01=2,33 respectiv z0,001 =3,09. Din tabelele Laplace se pot obţine
mărimile z şi pentru alte praguri de semnificaţie.
Din calculele de mai sus rezultă că eroarea

este egală cu:

(11)
pentru cazul sondajului repetat;

şi, (12)
varianta sondajului nerepetat;
Evident toate precizările efectuate anterior cu
privire la înlocuirea indicatorului prin estimatori
rămân valabile.

4.2.3. Determinarea volumului eşantionului

La organizarea unei cercetări prin sondaj una din problemele de rezolvat este
dimensionarea lui raţională. Este adevărat că mărimea volumului ‚n’ al sondajului -
în virtutea legii numerelor mari -sporeşte precizia rezultatelor, reduce eroarea
medie probabilă. Ţinând seama de criterii de economicitate este necesar ca acest
volum să fie cât mai mic. Luând în considerare ambele aspecte, se determină
numărul minim de unităţi de observat care să satisfacă exigenţele de precizie şi
siguranţă formulate în raport cu cercetarea respectivă.

13
în teoria şi practica sondajului se operează cu eşantioane "mari" şi eşantioane "de
volum redus", în funcţie de gradul de omogenitate al colectivităţii generale.
Interpretarea erorii de reprezentativitate se face în mod diferit: pentru eşantioanele
de volum mare se foloseşte distribuţia normală Laplace, iar pentru cele de volum
redus distribuţia Student.
Calculul volumului eşantionului se realizează pornind de la eroarea limită
maximă admisă, care în cazul sondajului repetat este:

de unde punem în evidenţă pe n:

astfel încât:

(13)
iar în cazul sondajului repetat, relaţia este:

(14)
Pentru a dimensiona raţional volumul ‚n’ al eşantionului sunt necesare
următoarele elemente:

- eroarea limită admisibilă care se stabileşte în funcţie de


particularităţile concrete ale problemei practice de soluţionat, de precizia necesară
de asigurat;
- probabilitatea de încredere (1 - a ), (sau eroarea a ), suficient de apropiată
- din punct de vedere practic - de certitudine;

- dispersia (sau estimatorul acesteia), caracteristicii în populaţia generală ;


- în cazul prelevării fără revenire este necesar a se cunoaşte şi volumul N al
colectivităţii.
14
-
-

15
- 4.2.4. Calculul intervalului de "încredere"
-
"Intervalul de încredere" desemnează zona probabilă în interiorul căreia se
va plasa media populaţiei generale. El se determină pornind de la media de sondaj
corectată cu nivelul erorii limită maxim admisă:

relaţie echivalentă cu dubla inegalitate

şi ţinând cont de relaţia

respectiv

deci de modul de calcul a erorii limită,


rezultă că:

(15)
Deci, "intervalul de încredere" delimitează "zona probabilă" în care se va
plasa valoarea "adevărată" dar necunoscută a mediei din populaţia generală.
Lungimea intervalului de încredere este direct proporţională cu mărimea
împrăştierii valorilor (măsurată prin abaterea medie pătratică ) şi invers
proporţională cu nivelul pragului de

semnificaţie (la valori mici ale lui a valorile za cresc) şi mărimea eşantionului (la
creşterea lui n intervalul de încredere devine mai mic, deci precizia estimaţiei
sporeşte).
în unele situaţii prezintă interes şi poate avea sens logic calculul intervalului
probabil de plasare a nivelului totalizat al caracteristicii în populaţia generală:

16
(16)

Din intervalul de încredere pentru valoarea agregată este:

(17)
Evident, pentru sondajul nerepetat relaţia (15) se adaptează lesne, în sensul
înlocuirii valorii erorii probabile cu formula adecvată acestui tip de sondaj.
Alte aspecte referitore la fundamentarea stabilirii intervalelor de încredere vor fi
tratate în paragraful referitor la testarea ipotezelor statistice (9).

5. Calculul indicatorilor sondajului în cazul caracteristicilor


binare (alternative)

În cazul în care variabila X poate arăta doar o însuşire pe care o posedă doar
unele din elementele populaţiei, caracteristica poartă numele de "binară" sau
"alternativă".
De exemplu, pentru o colectivitate de piese (lot, comandă, contract etc.) X -
caracteristica poate fi felul piesei: "defectă" sau "bună", pentru o echipă de
muncitori, caracteristica X poate reprezenta nivelul de calificare sau salarizare
("peste" sau "sub medie") etc.
Presupunând ca şi până acum că populaţia supusă cercetării este formată din
N elemente, dintre care un număr oarecare fie K posedă caracteristica X şi N - k nu
o posedă. Se propune ca pe baza selecţiei să se estimeze populaţia elementelor din
colectivitatea care posedă caracteristica considerată, proporţie presupusă
necunoscută. în acest scop se atribuie elementelor colectivităţii ce posedă
caracteristica X valoarea 1 iar celor ce nu o posedă valoarea 0.
17
Dacă în sondajul (x1, x2,...xn) k unităţi cercetate posedă caracteristica X şi n -
k nu o posedă şi în plus
X1 = X2 =......... = Xk = 1 şi Xk+1 = Xk+2 =... = Xn = 0
proporţia în eşantion a elementelor care posedă caracteristica X este media

, (18)

care este tocmai frecvenţa relativă a caracteristicii cercetate în eşantion şi este


notată f sau fn. Se observă că frecvenţa relativă f a caracteristicii X în eşantion este
un estimator nedeplasat

al probabilităţii p deoarece din relaţia generală rezultă imediat, în


baza celor precedente, că M(f)=p.
De asemenea, teorema lui Bernoulli care exprimă convergenţa în
probabilitate a frecvenţei relative f către p, adică:

stabileşte că f este un estimator consistent pentru probabilitatea p.

Dispersia a caracteristicii alternative se calculează după cum urmează:

Ţinând seama de relaţiile anterioare se obţine precizia cu care se estimează


probabilitatea p prin frecvenţa relativă f, în cazul sondajului repetat şi nerepetat:

(19)
18
Respectiv

(20)

Intervalul de încredere pentru probabilitatea p în cazul sondajului repetat este:

(21)

Dacă N este mare, iar dacă n este de asemenea mare, dar relativ mic în raport cu N
se obţine intervalul de încredere pentru probabilitatea p. în cazul sondajului
nerepetat, intervine şi

coeficientul .
Volumul n se obţine din relaţia:

(22)

de unde în final rezultă:

(23)

unde p se estimează după cum s-a arătat anterior.

6. Sondajul tipic (stratificat)

19
Se consideră populaţia generală împărţită într-un număr de subpopulaţii
parţiale Ci, c2, Ck numite grupe sau straturi şi cărora le corespund următoarele
valori ale caracteristicii

(24)

După cum se vede stratul c1 are N1 unităţi, c2 are N2 unităţi etc. Numărul

total al unităţilor populaţiei c este:


Din fiecare din aceste straturi se fac câte n1, n2, , nk extrageri la întâmplare
nerepetate,
astfel că:

n fiind numărul total al unităţilor eşantionului.


Prin urmare din fiecare grupă (strat) se efectuează câte un sondaj, obţinând
eşantioane ale căror unităţi au caracteristici cu valorile:
x11, x21,..., xn11; x12, x22,..., xn22; x1k, x2k,....,Xnrk,
unde variabilele de sondaj Xij (i = 1, 2,..., nj; j = 1, 2,..., k) sunt considerate drept
variabile aleatoare.

Se introduc notaţiile:

- media generală

-media sondajului j

20
Prin urmare rezultă că media generală se mai scrie:

adică media valorilor caracteristice în populaţia generală este media ponderată a


mediilor de

grupă, ponderile fiind egale respectiv cu

Analog, în cadrul sondajelor, notând:

deducem:

deci media valorilor caracteristicii din sondaj de volum este egală cu


media ponderată a mediilor grupelor, ale valorilor caracteristicii din fiecare sondaj,

ponderea fiind egală cu

21
Se arată că este un estimator nedeplasat şi consistent al mediei generale

m deoarece se demonstrează că:

şi

unde:

După cum rezultă din (6.31) dispersia variabilei este cu atât mai mică cu

cât volumele nj, sunt mai mari şi dispersiile sunt mai mici. Prin urmare, ca
sondajul tipic să poată da rezultate acceptabile este necesar şi suficient ca numărul
unităţilor extrase din fiecare grupă să fie mare.
Rezultă că eroarea medie de reprezentativitate şi respectiv eroarea limită
admisă nu mai depind de dispersia totală şi de media dispersiilor grupelor.
Dacă se foloseşte dispersia din populaţia de bază, eroarea limită va fi:
- pentru sondajul repetat:

de unde:
sondajul nerepetat:

de unde:

22
In mod analog se procedează şi în cazul când estimatorul este S2

7. Sondajul tipic proporţional

Se caracterizează prin faptul că din fiecare grupă în care a fost împărţită populaţia
generală se extrag atâtea unităţi încât raportul dintre numărul lor şi volumul grupei
din care s-au extras să fie egal cu raportul dintre volumul general al eşantionului şi
volumul populaţiei, adică prin definiţie:

sau fj=f(j=1, 2, k)
Din formula de mai sus se deduce:

de unde (aplicând cunoscuta proprietate a şirului de rapoarte egale, "suma


numărătorilor / suma numitorilor, este egală cu fiecare din rapoarte"):

Introducând valoarea mai sus a lui nj în expresia de mai sus şi ţinând seama
ca fj=f, dispersia funcţiei de estimaţie (statistică) x devine:

8. Sondajul tipic optim


23
Dacă volumul sondajului de grupă rij este astfel dimensionat încât eficienţa
să fie maximă, atunci sondajul tipic este optim. Acest fapt revine la determinarea
numelor nj care să satisfacă condiţia:
n1 +n2 + ... + nk = n
şi pentru care:

să fie minimă. Folosind metoda multiplicatorilor lui Lagrange, se obţine:

Aceasta este deci expresia care determină volumele nj pentru care eficienţa
sondajului este maximă.

9. Sondajul de serii.Sondajul în mai multe faze.

Adesea unităţile colectivităţii generale alcătuiesc aşa-numitele unităţi


complexe. De pildă, muncitorii lucrează în cadrul anumitor formaţii de lucru,
oamenii trăiesc în familii etc. în asemenea cazuri, sondajul poate fi organizat în aşa
fel încât să se extragă spre studiu asemenea unităţi complexe, urmând ca toate
unităţile simple aferente unităţilor complexe extrase să se cerceteze, fără nici o
excepţie. în mod curent în practica metodei sondajului, unităţile complexe se
numesc serii(sauuneori"cuiburi"). De unde rezultă denumirea de sondaje de serii.
Evaluarea rezultatelor sondajului de serii se face cu ajutorul metodelor
descrise la sondajul aleator simplu, înlocuind însă numărul unităţilor simple din

24
populaţia N şi din sondaj n, cu numărul seriilor (unităţilor complexe) R şi r. în
locul dispersiei dintre valorile individuale s2 se utilizează
dispersia dintre serii (unităţi complexe), §2, determinată analog cu dispersia dintre
grupe. La acest calcul se presupune că volumul seriilor este egal. în mod tacit poate
fi extinsă această ipotecă de calcul şi pentru seriile aproximativ egale. Dacă însă
volumul seriilor este mult diferit, sunt necesare alte scheme de calcul. Atunci poate
fi asimilat cu un sondaj stratificat.
În statistica economică şi socială unităţile complexe, ce se pot asimila
seriilor, se formează nu la întâmplare, ci în procesul dezvoltării economice şi
sociale. De aceea, unităţile elementare din cadrul unei unităţi complexe sunt mai
asemănătoare între ele, deci şi cu cât ele diferă de la o unitate complexă la alta, cu
atât ele diferă de ansamblul populaţiei. în consecinţă, seria asemuită cu unitatea
complexă nu este reprezentativă faţă de populaţie. Un număr suficient de mare de
serii însă poate forma un eşantion reprezentativ. Datorită avantajelor organizatorice
pe care le prezintă, sondajul de serii - chiar cu carenţele sale de reprezentativitate -
se justifică în numeroase domenii ale statisticii economice şi sociale, ca, de pildă,
în statistica preţurilor pe piaţa ţărănească, statistica bugetelor de familie din cadrul
anchetelor integrate în gospodării etc.
În acest caz formula de calcul se particularizează în sensul că se lucrează cu
dispersia dintre serii, iar volumul eşantionului se estimează prin numărul seriilor.

25
10. Sondajul pe baza de eşantioane fixe

Esenţa acestei metode constă în a obţine informaţii repetate de la acelaşi


eşantion numit panel. Primul panel detaliat a fost realizat în Statele Unite de către
Arthur Charles Nielsen în anul 1929. La o diferenţă de 30 ani a fost creat primul
panel din Franţa tot de către Nielsen.
În literatura de specialitate se consideră că există două tipuri de eşantioane
fixe:eşantionul este permanent şi subiectul cercetării este identic sau foarte
asemănător (audienţa emisiunilor TV) şi eşantionul este permanent şi poate fi
utilizat pentru cercetări cu subiecte diferite.
Cercetarea poate avea loc periodic sau se poate face la intervale neregulate
de timp.
„Sondajele repetate, asupra aceleiaşi probleme, la intervale regulate de timp,
urmărind să identifice unele tendinţe, periodicităţi, sau alte elemente dinamice
pentru parametrul de interes se mai numesc şi sondaje longitudinale."
Sondajele pe baza unui panel presupun iniţial realizarea unui eşantion
reprezentativ pentru populaţia studiată. Acest eşantion este de cele mai multe ori
realizat după un plan multistadial cu stratificarea unităţilor primare. Unităţile care
formează aceste eşantioane pot fi diverse: întreprinderi, magazine, gospodării,
persoane. Eşantionul astfel constituit permite strângerea de informaţii cu o anumită
regularitate sau la intervale neprecizate de timp. Pentru culegerea datelor se poate
utiliza oricare din metodele cunoscute.
Frecvenţa realizării sondajele pe baza panelurilor depinde de:
Subiectul anchetei;
Utilitatea datelor obţinute;
Nivelul de precizie al cercetării;
Bugetul disponibil;

26
Ritmul în care trebuie raportate informaţiile.
Obiectivele sondajelor realizate pe baza panelurilor sunt:
furnizare estimatorilor parametrilor populaţiei la diferite perioade de timp;
■ măsurarea evoluţiei în timp a diferitelor componente şi pe niveluri diferite de
agregare;
■ cumularea şi agregarea datelor.
Avantajele sondajului pe bază de eşantioane fixe:
■ reducerea costurilor. Odată făcute cheltuielile necesare eşantionării acestea
nu se vor mai efectua pentru cercetările ulterioare realizate pe baza aceluiaşi
eşantion;
■ toate tipurile de sondaj prezentate până acum realizează analiza populaţiei la
momentul realizării sondajului. Acest tip de analiză se numeşte transversală. Datele
obţinute pe baza panelurilor permit si o analiză în dinamică (longitudinală) putând
pune în evidenţă mutaţiile ce au avut loc în populaţia cercetată.
■ Se reduc erorile de observare datorate slăbiciunii memorie.
Dezavantajele sondajului pe bază de eşantioane fixe:
Realizarea eşantionului iniţial este dificilă şi costisitoare. Se apreciază că
după primele cercetări se pierde un număr din membrii iniţiali datorită plictiselii,
după care panelul se stabilizează. Există posibilitatea înlocuirii acestora cu alţi
membrii ce prezintă aceleaşi caracteristici demografice sau socio-economice. Acest
lucru este posibil cu condiţia ca în momentul în care s-a constitui eşantionul iniţia
să se fi aplicat un plan de sondaj multifazic, în prima obţinându-se informaţii cu
privire la caracteristici demografice sau socio-economice.
Un alt dezavantaj îl constituie „condiţionarea eşantioanelor fixe". Există
riscul ca răspunsurile să nu mai fie spontane, ele devenind rezultatul unei rutine
sau fiind condiţionate de răspunsurile anterioare la întrebările similare.
Eşantionul se va deteriora în timp ca urmare a dispariţiei din eşantion a unor
unităţi (modificare de adresă, deces) sau datorită trecerii dintr-o categorie în alta.
27
De exemplu în momentul selecţiei o persoană era încadrată într-o anumită grupă de
vârstă. Dacă va rămâne mai mult timp în eşantion va rece într-o altă grupă de
vârstă. În cazul în care eşantionul este format din întreprinderi iar în momentul
eşantionării s-a ţinut cont de mărimea întreprinderii luată după cifra de afaceri sau
numărul de personal acestea se for modifica în timp producând o uzură
eşantionului.
Populaţia originală din care a fost extras eşantionul nu este stabilă în timp
ceea ce face ca eşantionul să îşi piardă reprezentativitatea . Dacă panelul a fost
construit pentru cercetarea forţei de muncă aceasta, ca parte componentă a
populaţiei unei ţări este un sistem dinamic supus influenţei factorilor demografici
economici şi sociali. Acest fapt poate determina importante modificări de structură.
O soluţie pentru înlăturarea acestor dezavantaje o constituie reînnoirea
panelurilor prin limitarea la un număr stabilit de participări la sondajele realizate
după care, vor fi înlocuiţi. Înnoirea eşantionului poate fi parţială sau totală.
Ca o conduită generală, condiţiile impuse de celelalte planuri de sondaj cu
selecţie probabilistică sunt necesare şi pentru construirea unui panel. De exemplu:
definirea cu exactitate a populaţiei de referinţă, construirea unei baze de sondaj
adecvate, stabilirea unui plan de sondaj eficient, alegerea metodei de culegere a
datelor, alegerea unor metode pertinente de redresare a eşantionului. Pe lângă
acestea există următoarele reguli specifice panelurilor ce trebuie respectate:
Odată stabilite unităţile ce constituie panelul acestea nu trebuie modificate;
Dacă se constată că există deplasări ale estimatorilor caracteristicilor demo-
economice este de preferat să nu se corecteze, panelul rămânând nemodificat. Este
rolul celor care realizează studiul de a realiza corecţii asupra datelor finale înaintea
prelucrării;
Pentru menţinerea eficienţei unui panel o perioadă mai lungă după realizarea
acestuia trebuie să aibă la bază studii riguroase.
Odată decise planul de eşantionare şi metoda de culegere a datelor se trece la
selecţia eşantionului. Se va contacta fiecare individ din cei ce au fost selecţionaţi
28
pentru a li se explica ce presupune şi ce importanţă are participarea la o astfel de
cercetare. Ulterior este necesară obţinerea asigurării unei colaborări de lungă
durată. Acest acord depinde complexitatea sarcinilor şi de timpul cerut de rămânere
în eşantion.
În general rata de recrutare în panel este inferioară ratei de răspuns pentru o
anchetă ad -hoc similară. „Recrutarea unui panel este o chestiune foarte
costisitoare. Asigurarea unui nivel de colaborare cât mai ridicat posibil din partea
„paneliştilor" constituie miza majoră a gestiunii unui panel. Continuitatea şi
coerenţa culegerii datelor depinde de relaţia de colaborare care se creează cu
membrii panelului " Această relaţie este fondată pe un contract ce trebuie respectat.
Pentru aceasta trebuie respectat termenul convenit şi nu trebuie să se solicite
membrilor panelului sarcini care nu au fost stabilite în momentul recrutării

11. Sondaje cu extracţie cvasialeatoare

Din cele expuse anterior rezultă că la alcătuirea eşantioanelor trebuie să se


asigure pentru fiecare unitate a populaţiei aceeaşi şansă de a fi prelevată. în felul
acesta se creează câmp liber pentru manifestarea "jocului întâmplării", în urma
căruia se realizează o reprezentativitate corespunzătoare a eşantionului.
Cu toate acestea, în practică, într-o serie de cazuri, din diferite motive,
extracţia se face nealeator. Un asemenea procedeu de extracţie îl constituie
"eşantionarea concentrată", care constă în includerea în eşantion numai a acelei
părţi ce reprezintă majoritatea cazurilor individuale. Această metodă se confundă
cu "observarea părţii principale".
În alte situaţii, cercetătorii efectuează selecţia dirijată a unităţilor, urmărind
prin aceasta selecţionarea elementelor pe care ei le apreciază reprezentative, de
obicei pe acelea pe care le consideră apropiate de media ce trebuie estimată.
întrucât valoarea medie nu se cunoaşte, aprecierea privind reprezentativitatea
29
diferitelor unităţi propuse a fi incluse în eşantion are caracter cu totul subiectiv.
Deci pe această cale nu este posibil să se asigure reprezentativitatea cert obiectivă
a rezultatelor sondajului.
Procedeul extracţiei sistematice, numit şi extracţie mecanică, ocupă o poziţie
intermediară între sondajul aleator şi nealeator. Acest procedeu constă în extragerea
din populaţie, sistematizată după un criteriu anume, a numărului n de unităţi care
formează sondajul, prin aplicarea aşa-numitului "pas de numărare" egal cu N/n.
Pasul arată diferenţa dintre numerele de ordin ale unităţilor ce se extrag succesiv
dintre unităţile populaţiei sistematizate.
Ordonarea sistematică a unităţilor se poate concretiza şi sub forma aşezării
în spaţiu a unităţilor colectivităţii. Exemplu cel mai edificator pentru o asemenea
ordonare este harta geografică a localităţilor sau a obiectelor cercetate. în cazul
acesta atracţia sistematică se efectuează cu ajutorul unei "distanţe", aplicată după o
anumită regulă, de pildă de la "vest la est" şi "de la nord la sud". O asemenea
ordine în general nu poate fi considerată perfect aleatoare, unităţile vecine fiind
mai asemănătoare între ele decât unităţile pe întreaga populaţie.
Când fenomenul observat se produce în timp, cum ar fi de exemplu
realizarea producţiei, pasul de extracţie poate fi intervalul de timp dintre
evenimente sau diferenţa dintre numerele de ordine ale producerii acestora.
Aplicarea extracţiei sistematice este contraindicată când în aşezarea sau
producerea cazurilor elementare există o anumită ciclitate.

30
12. Analiza datelor de sondaj pentru realizarea inferenţei statistice.

12.1. Principii de bază ale inferenţei statistice

Principiile de bază ale inferenţei statistice, efectuată in urma analizei datelor


de sondaj, implică şi în studiul pieţei serviciilor de consultanţă în resurse umane,
noţiunile de experiment, rezultat, spaţiul eşantionului, eveniment ţi probabilitate.
Ideea unui experiment include exemple precum aruncarea unei monede,
măsurarea numărului de angajaţi sau chestionarea managerului unei firme in
legătură cu obţinerea de profit sau pierdere. Asemenea expenmente au posibile
răspunsuri, finite sau infinite ca mimă:, ce formează spaţiul de sondaj. De exemplu,
o firmă poate obţine profit negativ, deci pierdere, profit zero, sau profit pozitiv,
deci beneficiu, categorii ce reprezintă rezultate. Seturile formate din aceleaşi
categorii formează evenimente. Posibilitatea ca firmele să fie solvabile, deci să
obţină profit zero sau pozitiv, reprezintă un eveniment.
In teoria sondajului, rezultatele unui număr mare de expenmente sint datele
primare. In anumite cazuri putem presupune că fiecare rezultat este independent de
cel precedent, aşa cum un număr al zarului este independent de celelalte aruncări.
In condiţiile în care cunoaştem mecanismul de probabilitate, putem calcula
probabilitatea de apariţie a fiecărui rezultat. Teoria sondajului se referă la aplicarea
teoriei probabiltăplor pentru seturi de date primare.
Dacă în urma unei cercetări se înregistrează doar informaţii parţiale, este
posibil ca datele înregistrate să fie utilizate pentru obdnerea intervalelor de
încredere, cu o anumită probabilitate dacă setul de date respectă condiţiile de
reprezentativitate pentru populaţia din care a fost extras.
Pentru a se putea estima corect parametrii colectivităţii de selecţie, pe baza
rezultatelor prelucrării datelor de sondaj, esnmaţie garantată cu o anumită
probabilitate, este necesar ca eşantionul pe baza cârma se culeg datele primare să
fie reprezentativ. Un eşantion este reprezentativ dacă structura sa reproduce cât mai
31
exact structura populaţiei de referinţă din care a fost prelevat.
Pentru asigurarea reprezentativităţii eşantionului este necesar să se respecte
amumte reguli .dintre care amintim:
a.includerea unităţilor in eşantion să se realizeze în manieră cât mai obiectivă,
toate unităţile trebuie să aibă aceaşi şansă de a participa la formarea eşantionului -
extragerea unităţilor să se realizeze conform
principiilor hazardului cu o probabilitate egală şi diferită de zero:
b.mărimea eşantionului să fie suficientă pentru a reda caracteristicile esenţiale
ale populaţiei generale;
c.includerea fiecărei imitări în eşantion trebuie să se facă independent de
cuprinderea altor unităţi.
Determinarea gradului de reprezentativitate a populaţiei studiate la un
moment dat ridică probleme deosebit de dificile in calea evaluării cercetărilor,
aceasta deoarece, de cele mai multe ori. nu pot fi cunoscute în prealabil
caracteristicile relevante ale populaţiei ce urmează a fi cercetată şi se procedează la
estimări mai mult sau mai puţin corecte: se ajunge la identificarea acestor
caracteristici numai în urma studiului, când, de fapt, nu se mai poate interveni
pentru alegerea populaţiei adecvate.
Cu excepţia cazurilor, rare de altfel, în care ne pot ajuta evidenţele, numai
efectuarea unor înregistrări prealabile cercetării propriu-zise ne permite să ne
fixăm. în cunoştinţă de cauză, la o anumită populaţie relevantă pentru tema şi
obiectivele cercetării.
Studiile statistice exhaustive prealabile, deşi necesare, sunt puţin practicate,
totuşi, datorită împovărării costurilor de cercetare, a creşterii timpului afectat şi a
muncii depuse. Determinarea cu maximă precizie a caracteristicilor economice, de
piaţă, politice şi de altă natură ale colectivităţii studiate, ca şi dispunerea ei
spaţială, se înscriu drept cerinţe elementare, obligatorii pentru o cercetare concretă.
Evident, practica studiului exhaustiv a diferitelor colectivităţi înlătură multe
neajunsuri in ceea ce priveşte reprezentativuatea cercetărilor, dar nu rezolvă
definitiv problema. Apare, de fiecare dată. întrebarea firească, de ce este studiata o
32
anumită colectivitate (consumatorii unui anumit produs, agenţii economici dintr-o
regiune, oraş, angajaţii dintr-o anumită organizaţie, sau domemu de activitate etc.)
nu altele.
Apoi, se impune să consemnăm faptul că în domemul fenomenelor de
marketing, mai ales al celor la nivel microeconomic, de piaţă şi individual,
repetabilitatea îmbracă forme specifice. Ceea ce este valabil pentru un individ sau
o colectivitate într-un anumit moment nu este valabil pentru alt individ sau
colectivitate, după cum poate să nu mai fie valabil pentru acelaşi individ sau
colectivitate într-un alt moment.
Numai prin studii repetate şi realizarea unor colecţii sistematice de
informaţii se poate efectua generalizarea rezultatelor. întemeierea acesteia pe un
„Mont Blank de fapte".
Investigarea exhaustivă a colectivităţilor devine foarte costisitoare atunci
când volumul acestora depăşeşte câteva sute de persoane sau organizaţii. De aceea,
se recomandă efectuarea unei cercetări selective, întocmirea de eşantioane
reprezentative, prin respectarea cerinţelor legii numerelor mari şi a calculului
probabilităţilor, care permit ca. prin studiul unei părţi a colectivităţii totale, să se
obţină rezultate valabile pentru întreaga colectivitate.
Fără a intra în detaliile elaborării eşantioanelor. vom enunţa doar câteva
elemente necesare determinării gradului de reprezentativitate a acestora. Un bun
eşantion poate fi întocmi: atunci când se dispune de un cadru optim de eşantionare,
de o evidenţă a colectivităţii totale cu specificarea caracteristicilor sale de bază.
Lipsa cadrului de eşantionare este principala piedică în calea realizării unor
eşantioane corespunzătoare.
Cu cât volumul colectivităţii studiate este mai amplu, apropiindu-ne de
nivelul colectivităţii naţionale, unde cercetările selective sunt de o foarte mare
importanţă, lipsa unui cadru de eşantionare se simte şi mai acut, dat fiind faptul să
sociologul nu o mai poate suplini pnntr-un recensământ prealabil.
Eroarea cea mai frecvent întâlnită în aceste condiţii, se referă la
presupunerea că s-a efectuat o selecţie simplă aleatoare şi tratarea în consecinţă a
33
rezultatelor obţinute, deşi se cunoaşte că cele mai multe cercetări realizate pe
ansamblun mari de populaţie se abat, in practică, de la modelul selecţiei simple
aleatoare.
Pentru a evita, in acest caz eventualele neajunsuri de interpretare, se impune
determinarea cu precizie a tipului de eşantionare rezultat şi efectuarea corecţiilor
necesare în privinţa prelucrării şi interpretării informaţiei recoltate.
Satisfacerea condiţiilor de reprezentativitate se realizează prin alegerea
procedeului de eşantionare potrivit, dintre următoarele: procedee de eşantionare
aleatoare, procedee de eşantionare dirijată şi procedee mixte de eşantionare.
Dacă în urma efectuării unui experiment de un anumit număr de ori s-a
înregistrat o secvenţă de rezultate, divizând frecvenţa de apariţie a unui eveniment
A (de câte ori se înregistrează o persoană cu venit zero sau pozitiv, deci o persoană
ce corespunde evenimentului de solvabilitate) la numărul total de persoane
cuprinse în eşantion (numărul de experimente) rezultă o estimare a probabilităţii de
apariţie a evenimentului A. Cu cât numărul experimentelor creşte, deci creşte
volumul eşantionului format din unitari omogene sau complexe, neomogene, creşte
şi probabilitatea de apariţie a evenimentului A, tinzând către 1.
In termeni matematici, dacă x1,x2,x3,...,xn este o secvenţă de rezultate
financiare ale firmelor şi A un eveniment, notând N (x1,x2,x3,...,xn, A) frecvenţa de
apariţie a evenimentului A din primele n experimente şi n tinde la mfinit, atunci N
(x1,x2,x3,...,xn, A)/n reprezintă o probabilitate ce tinde la 1.
Cu toate că legea minierelor mari îi precizează cercetătorului că va ajunge la
un răspuns corect după un număr mare de experimente, nu îi precizează şi cât de
aproape este de răspunsul corect după un anumit număr de experimente, de
înregistrări. In anumite condiţii, metodele statistice pot fi utilizate pentru estimarea
erorilor ce pot fi făcute prin repetarea unui experiment de un număr fimt de ori.
Un experiment este descris complet de către spaţiul valorilor de eşantionare
(setul posibilelor valori ce se pot înregistra), familia B a evenimentelor şi de către
probabilităţile de apariţie a fiecărui eveniment în parte.

34
Totalitatea variabilelor prin care este studiat un anumit fenomen de piaţă constituie
spaţiul de atribute (property-space). de caracteristici ale fenomenului respectiv.
Operaţiile efectuate cu ajutorul spaţiului de atribute vizează clarificarea mai
amănunţită a relaţiilor dintre variabile şi conceptele teoretice. Reducerea spaţiului
de atribute, prin combinarea categoriilor şi eliminarea unor subdiviziuni, permite
construcţia tipologiilor aferente fenomenelor de piaţă.
In schimb, operaţia de substracţie constă în parcurgerea drumului în sens
invers: de la tipologie se trece la elaborarea spaţiului de atribute implicat în acea
tipologie. Spaţiul de atribute, pe lângă rolul de a constitui un inventar cât mai
complet al variabilelor, serveşte la compararea schemelor operaţionale utilizate în
cercetare şi la găsirea unui eventual numitor comun al acestor scheme de cercetare
empirică.
Aşa cum notează I. Iordăchel şi I. Cauc, necesitatea dezvoltării unor
tipologii multidimensionale, care să ţină cont de multilateralitatea dimensiunilor de
piaţă, se înscrie ca o cerinţă fundamentală în „elaborarea unui sistem tipologic
operaţional pentru cercetarea şi politica de piaţa economică".
Substracţia şi reducerea spânilor de atribute sunt operaţii conceptuale de maximă
importanţă, atât în elaborarea schemelor descriptive, cât şi a conceptului în
utilizarea datelor empirice. Separarea evenimentelor în spaţiu şi omp asigură
independenţa acestora.
Conceptul de independenţă statistică sau probabilistică este necesar a fi
definit pentru extinderea sa, astfel încât apariţia umu eveniment să nu influenţeze
probabilitatea de apariţie a altui eveniment. In cazul unor evenimente
independente, probabilitatea ca acestea să apară simultan este egală cu produsul
probabilităţilor.
Dacă evenimentele sunt notate prin vectorul A 1, A2,…,An, cu probabilităţile
de apariţie, (frecvenţele de apariţie) notate prin vectorul P(A), i=l, ...,n,
probabilitatea de apariţie a tuturor evenimentelor va fi P(A 1) * P(A2)*…*P(An).
Analiza independenţei este aplicată investigaţiilor statistice in cadrul cărora datele
sunt eronate prin repetarea aceloraşi operanuni elementare, fiecare înregistrare
35
fiind efectuată independent de celelalte.

12.2. Tipuri de erori întâlnire în teoria şi practica sondajului

Se consideră eroare de sondaj abaterea dintre valorile obţinute în urma


prelucrării datelor primare şi rezultatele ce s-ar fi obţinut dacă s-ar fi organizat o
observare totală.
Orice măsurare statistică conţine erori. O posibilă clasificare a erorilor, din
mulţimea posibilităţilor de grupare şi clasificare existente poate fi: erori
sistematice, grosolane şi aleatoare. Erorile sistematice sint determinate de acţiunea
unor factori ale căror cauze de apariţie pot fi stabilite, iar apoi eliminate. Apariţia
erorilor grosolane este legată de încălcarea condiţiilor de efectuare a
experimentului sau a observaţiei. In teoria erorilor se dau criterii de depistare a
erorilor grosolane. Obiectul teoriei erorilor îl constituie numai erorile aleatoare,
care sunt determinate de acţiunea unor factori greu de depistat, din care cauză
efectul acţiunii lor este inevitabil. Erorile de sondaj mai sunt clasificate în erori de
înregistrare. comune tuturor tipurilor de observare, şi erori de reprezentativitate.
specifice sondajului. Erorile de reprezentativitate sunt la rândul lor: sistematice şi
întâmplătoare.
In desfăşurarea oricărei observări statistice trebuie respectat principiul
autenticităţii datelor culese, sau. cu alte cuvinte, corespondenţa dintre realitatea
primară studiată şi valorile înregistrate. Dacă înregistrarea se face de către
persoane specializate, erorile de înregistrare apar în număr redus şi pot fi corectate
cu uşurinţă. Erorile sistematice pot fi evitate dacă se respectă principiile teonei
sondajului.
Principalele cauze ale eronlor sistematice sunt alegerea deliberată a unor
date considerate în mod greşit ca fiind reprezentative, alegerea la “întâmplare”, ce
diferă esenţial de alegerea după principiile probabilistice, dorinţa voită a
cercetătorului de a demonstra o anumită concluzie, substituirea unei unităţi de
36
cercetare cu altă unitate, in mod voit, şi cuprinderea incompletă în sondaj a
imitaţilor de cercetare.
Spre deosebire, erorile aleatoare de selecţie apar din procesul de sondaj.
Aceste erori se produc chiar dacă se respectă principiile probabilistice, deoarece
eşantionul nu reproduce perfect distribuţia populapei generale. Dacă sondajul este
probabilistic, aceste eron pot fi calculate cu anticipaţie. Estimarea parametrilor din
populaţia generală se va efectua pe baza indicatorilor de sondaj, corectaţi cu o
eroare de reprezentativitate ce se găseşte într-un amumt interval probabilistic.
Analizele de perspectivă şi proiecţiile rezultatelor sondajului asupra populaţiei de
referinţă, fac din această metodă un puternic instrument în procesul luării deciziilor
în mediul economic de piaţă.
După culegerea informaţiei este necesar să se determine cu exactitate
mărimea erorii de reprezentativitate. pentru a se putea evalua in ce măsură se abate
de la eroarea propusă iniţial.
Calculul erorii este posibil prin utilizarea caracteristicilor eşantionului (acum
cunoscute) în locul caracteristicilor totale, lucru îndreptăţit numai dacă selectarea
persoanelor în eşantion a urmat o procedură care a asigurat prezenţa. în proporţii
optime, a tuturor categonilor de populaţie specifice colectivităţii totale.
Cât priveşte reprezentativitaiea conţinutului, analiza evaluativâ se referă la
calitatea definirii domeniului cercetat, la elaborarea schemei descriptive
(constmcua variabilelor), la formularea întrebărilor, cercetarea dezirabihtăţii de
piaţă a unui produs, a gradului de actualitate a respectivei mărfi şi la dificultatea pe
care o poate prezenta tema lansării unui nou produs, de exemplu. De asemenea, in
aplicarea instnimentelor de cercetare se urmăreşte controlul erorilor de răspuns:
contaminarea rezultatelor datorate setului de răspuns prin acord, prin negare sau
prin evitarea poziţiilor extreme etc.
De aici îi necesitatea abordărilor complexe (a măsurătorilor multiple) prin
mai multe metode şi tehnici ale unuia şi aceluiaşi fenomen de piaţă, pentru a obţine
cunoştinţe cât mai veridice pnn controlarea şi eliminarea erorilor datorate
instrumentelor de intervievare.
37
In practică, erorile de reprezentativitate se pot calcula efectiv in mărime
absolută, dacă s-au obţinut date referitoare la aceleaşi caracteristici dintr-o
observare totală organizată anterior, sau se pot estima ca erori probabile. De cele
mai multe ori se pot cunoaşte valorile adevărate, pentru a le putea separa de erorile
de măsurare. Cu toate acestea, nu putem ignora eventualele erori ce apar in cadrul
măsurătorilor efectuate.
Date fiind condiţiile concrete de lucru, puterea instrumentelor pe care le
folosim, intervenţia factorilor exteriori cercetării, este logic să presupunem că
valorile observate sunt o combinare de date reale (concrete) şi de erori: X o = Xa +/-
Xe, ceea ce îndreptăţeşte efortul de a izola erorile.
Compunerea valorilor observate din două seturi de informaţii (cele reale şi

cele datorate erorii) conduce la exprimarea dispersiei totale în termenii celor


două dispersii ce o alcătuiesc, respectiv dispersia reală şi dispersia datorată
erorilor.
Pentru a putea determina efectiv eventualele erori de măsurare, o importanţă
deosebită se acordă analizei efectului pe care un cercetător sau altul il poate avea
asupra rezultatelor obţinute, inclusiv a efectului operatorului de interviu, situaţie în
care posibilitatea influenţării rezultatelor este mult mai mare. Cunoaşterea ecuaţiei
personale de eroare a fiecărui participant la cercetare permite un control mai
riguros asupra condiţiilor de desfăşurare a acesteia şi de prevenire a erorilor.
O serie de analize s-au ocupat de şansa diferiţilor operatori (in funcţie de
sex. vârstă. înfăţişare) de a obţine acordul populaţiei pentru a participa la interviu,
ca şi de studiul interacţiunii operator-subiect în desfăşurarea acestuia. Pe baza
rezultatelor obţinute, s-a ajuns la elaborarea unei strategii de selecţie, instruire şi
supraveghere în teren a operatorilor.
In legătură cu distribuţia răspunsurilor subiecţilor în funcţie de realizatorul
internului, s-a adunat o documentaţie bogată. Aşa, de exemplu, în prezent se ştie că
influenţa investigatorului este mai mare în cazul întrebărilor de opinie decât în
cazul celor factuale. Cel mai puternic efect se produce in studiile care vizează

38
proiecţiile in viitor - intenţii, dorinţe etc.
Din punctul de vedere al posibilităţii controlului erorilor. în literatura
amencanâ de studiu al pieţei, erorile mai sunt clasificate in două mari grupe:
1.Erori ce pot fi previzionate: acestea sunt controlabile şi au drept cauze
măsurările statistice ale datelor continue şi rotunjirile efectuate pentru a obţine
rezultate discrete, conform conţinutului caracteristicii statistice, deci ele sunt
probabile - sau de sondaj şi de calcul - ambele tipuri putând fi estimate şi efectele
lor controlate. Prin operaţiunea matematică de rotunjire a valorilor înregistrate se
induc erori ce se amplifică dacă rotunjirea
continuă în faza de analiză.
Drept urmare, putem afirma că datele simt rotunjite din următoarele motive:
Când caracteristica observată este continuă, în anumite cazuri este necesară
rotunjirea pentm a putea exprima magnitudinea datei (de obicei se păstrează doar
două zecimale);
Pentru caractensticle discrete, rotunjirea are drept scop respectarea
caracterului întreg al acestora.
2.Erori ce nu pot fi previzionate: acestea sunt necontrolabile şi se datorează:
înregistrărilor incomplete sau incorecte, definirii ambigue a caracteristiclor sau
unităţilor statistice ce sunt studiate.
Controlul eronlor are drept scop aflarea erorilor de observare şi asigurarea
autenticităţii datelor statistice, şi se referă la controlul volumului datelor
înregistrate, controlul aritmetic şi logic.
O parte a erorilor se datorează operatorului de interviu.
Cele mai importante surse de erori de răspuns datorate operatorilor sint:
a)caracteristicile operatorilor, ca, de exemplu, nivelul de pregătire prea
scăzut sau prea ridicat care îi face să fie înclinaţi spre greşeli sistematice, sau pot să
inducă, prin opinia lor exprimată, persoanei intervievate, o anumită influenţă
asupra răspunsului:
b) anticipaţiile operatorilor ii determină să sugereze anumite răspunsuri
subiecţilor;
39
c) frauda operatorilor apare in foarte puţine cazun şi poate fi depistată prin
sondaje pilot de intervievare.
Alte surse importante de erori care pot fi evitate simt hmgimea
chestionarului, ce poate cauza oboseală operatorilor şi subiecţilor intervievaţi,
ponderea majoritară a întrebărilor deschise ce duce la dificultăţi in operaţiunea de
postcodifîcare conţinutul întrebărilor, mai ales cele personale pot duce la eron de
răspuns, formularea întrebărilor, mai ales utilizarea cuvintelor ambigue, cu mai
multe sensuri, locul şi timpul interviului, si. nu in ultimul rând. gradul de interes
sau cointeresare a persoanei intervievate.
In privinţa detectării eronlor de răspuns, se disting două modalităţi principale
de abordare ce constau în verificarea in totalitate a răspunsurilor, apreciind astfel
volumul erorilor brute şi aprecierea volumului erorilor nete, ţinând seama de faptul
ca erorile într-un sens sau altul se pot compensa.
Din punct de vedere metodologic, estimarea erorilor brute este adesea,
imposibilă.
Principalele mijloace de detectare amintite şi anterior sint:
1. Confruntarea răspunsurilor cu sursele de date secundare interne sau
externe, publice, mai ales în legătură cu datele demografice ce pot fi verificate
(vârsta, starea civilă), sau verificarea documentelor contabile, vamale, de la
Registrul Comerţului. în măsura în care este posibil, iu cazul in care eşantionul este
format din agenţi economici. Evident, operaţiunea necesită un consum ridicat de
resurse de timp. umane şi financiare:
2. Verificarea coerenţei răspunsurilor la diferite întrebări la care a
răspuns acelaşi subiect se efectuează prin includerea in chestionar a intrebănlor de
verificare, sau prin repetarea sondajului pe acelaşi eşantion, în penoade diferite;
3. Reintervievarea de control, prin sondaj, astfel încât să se reuşească
evitarea variabilităţii şi să se înregistreze răspunsuri valide; în acest scop. este
necesară efectuarea unui interviu calitativ superior. De fapt aceste sondaje
reprezintă studii intensive ale unor eşantioane relativ mici ce fac parte din

40
eşantionul iniţial. La aceste controale de calitate se schimbă formularea întrebării,
pentru a se evita repetarea erorii de răspuns iniţiale.
Scopul acestor sondaje de calitate este evidenţierea caracterului eronat al
răspunsurilor ţi obţinerea unei mai bune activităţi a operatorilor.

12.3 Estimarea erorilor de sondaj

Am văzut că teoria eronlor este o parte a statisticii consacrată problemelor


de determinare numerică a mănmilor măsurate aproximativ, de estimare a valorilor
lor adevărate şi a preciziei măsurărilor ce operează cu rezultatele măsurărilor x 1, x2,
…, xn, obţinute pe bază de experiment sau observaţie, repetate, cu respectarea
unora şi aceloraşi condiţii.
Sarcinile fundamentale ale teonei erorilor simt definirea legilor de repartiţie
a erorilor aleatoare, obţinerea estimaţiilor mărimilor măsurabile necunoscute, pe
baza datelor unor măsurări repetate, şi calculul acestor estimaşi.

Să admitem că, pentru determinarea unei mănmi scalare necunoscute a, s-


au efectuat n măsurări, ale căror rezultate sunt reprezentate prin mulţimea de
numere x1, x2,…, xn, (printre x1, ... xn pot exista şi numere egale). După înlăturarea
erorilor grosolane şi sistematice de măsurare, x1, x2,…, xn, vor conţine numai erori
aleatoare. Mărimea aleatoare z = x — a se caracterizează prin probabilitatea

P(6*i<z<&2). care determină probabilitatea ca valoarea z să se afle

într-un interval dat


Estimaţiile preciziei măsurărilor sunt: eroarea medie pătratică , numită, de

asemenea, eroare standard şi dispersia erorii ". Să admitem că reprezintă


mărimea abaterii standard sau eroarea medie pătratică. Atunci, în condiţiile legii
normale de repartiţie a erorilor aleatoare z, probabilitatea ca acestea să fie cuprinse

întâmplător în intervalul dat se calculează după formula:

41
Unde Ф(t) reprezintă funcţia de probabilitate.
Probabilitatea ca eroarea aleatoare să fie in afara mtervalului dat. având

limitele se calculează pe baza formulei De


exemplu, probabilitatea ca eroarea aleatoare să iasă în afara limitei de

adică depăşirea acestei limite este foarte puţin


probabilă. Ca estimaţie a maiimii necunoscute a se adoptă media aritmetică din
rezultatele măsurărilor

Estimaţia valorii adevărate a a mărimii măsurate cuprinde determinarea


funcţiei g (x1, x2,…, xn). care dă o bună aproximare a marimii a şi a limitelor
intervalului de încredere (g±e), adică a intervalului care, cu o probabilitate de

încredere, acoperă valoarea adevărata a. Această estimaţie trebuie să posede


proprietatea de nedeplasare, de consistenţa şi de eficienţă.
Dacă toate n măsurări ale mărimii a sunt la fel de precise, atunci valoarea
adevărată se deteirnină cu ajutorul formulei de mai sus. In acest caz, estimaţiile
sunt nedeplasate, cousitente şi eficiente, dacă distribuţia erorilor satisface legea
normală. In cazul unei mătiiiu date a siguranţei P şi în cazul unei precizii
necunoscute a măsurărilor, estimaţia de încredere are forma :

Unde n reprezintă numărul măsurărilor, k=n—l — numărul gradelor de


libertate şi S - eroarea standard calculată pe baza formulei

42
Valorile funcţiei t (P,k) se dau în tabelul construit pe baza repartiţiei Student
Nurnărul necesar de măsurări n pentru obţinerea estimaţiei de încredere de o

precizie dată este:


Cu siguranţă, data P se detemună prin expresia volumului eşantionului :

unde t = t(P) se află din egalitatea 2Ф{t) = P (prin utilizarea tabelului pentru
funcţia Ф (t).
-Astfel pentru obţinerea estimaţiei de încredere e = 0.15 cu siguranţa P = 0.99
este necesar să se efectueze n = 668 măsurări. Pentru depistarea originii
nealeatoare a diferenţei valorilor medii x1 si x2. obţinute ca urmare a două serii de
încercări n1 si n2, în cazul unor dispersii necunoscute este necesar să se calculeze

mărimea :
Unde:

Estimaţiile preciziei măsurărilor se efectuează pornindu-se de la


presupuiieiea că erorile sunt aleatoare si că ele sunt subordonate legii normale de
43
reparaţie, unde a este o mărime cunoscută şi se poate scrie conform ecuaţiilor
precedente:

unde x este media aritmetică a măsurărilor rnâriuni a.


Estimaţia de încredere a erorii medii pătratice (în cazul unui număr mare

de măsurări) este dată de intervalul: , unde q = q (P, k) se


calculează pe baza tabelului pentru estimarea lui a, ale cărui intrări sunt P -
siguranţă şi k — numărul gradelor de libertate. In cazul unui mare număr de
măsurări se adoptă ca estimaţie a dispersiei media aritmetică a dispersiilor
empirice, adică :

unde m este numărul seriilor de măsurări.


Dispersia de răspuns, ca şi dispersia de eşantionare pot fi estimate pe baza
rezultatelor eşantionării. Dacă erorile individuale de răspuns sunt independente,
fiind datorate doar neatenţiei, ele se compensează în medie şi sunt prevăzute în
formulele de estimare a variantei eşantionării. Iu cazul dispersiei de răspuns
datorată erorilor de înregistrare, dacă fiecare operator produce o distorsiune
sistematică, chiar dacă acestea se compensează reciproc, va avea loc o creştere a
dispersiei totale.

44
Apare, deci, o componentă a dispersiei de răspuns care va duce la
necesitatea modificării formulelor de calcul a dispersiei de eşantionare. Astfel dacă
r operatori extraşi întâmplător din totalul R al operatorilor de interviu, aceştia vor
intervieva n persoane constituind un eşantion aleator simplu. Dacă operatorul i
produce o distorsiune netă b1. Vom defini totalul distrosiunilor produse de operatori
ca:

unde bmed este media distrosiunilor nete.

Moser notează dispersia estimării unei caracteristici oarecare xmed este:

La aceasta tiebuie adăugată dispersia de răspuns rezultată din «orile


operatorilor, formula (7.2.11) devenind (7.12):

De unde rezultă că dispersia eşantionării este compusă din două


părţi:

, reprezintă dispersia eşatiouăiii

, şi a doua parte :
exprimă variabilitatea operatorului.
In privinţa estimaţiei. situaţia nu este clarificată: dispersia poate fi estimată,
dar distorsiunea nu.

45
13. Modele de măsurare a legăturilor statistice pentru datele calitative

Fenomenele şi procesele de marketing studiate statistic sunt extrem de


diferenţiate, numeroase şi variate în timp, spaţiu şi din punctul de vedere al
modalităţii de organizare. Cu cât sunt mai împrăştiate în spaţiu, de exemplu, cu atât
comensurarea statistică a variabilelor de marketing este mai dificila şi mai
imprecisă, impunând aplicarea unui sistem de metode care să carcatenzeze atât
ansamblul variabilelor, cât şi părţile acestuia.
Este cunoscut faptul că. pe lângă variabilele cantitative pe care le
identificăm şi le măsurăm cu uşurinţă, fenomenele de marketing sunt în marea lor
majoritate caracterizate de variabile de natură calitativă ce pot fi cu uşurinţă
identificate, dar care nu pot fi direct măsurate in expresii numence ce se pot regăsi
în structura sistemului informaţional al firmei şi în cea a subsistemului de
marketing.
De regulă, variabilele calitative asigură un grad mai mare de omogenitate
unităţilor la care se înregistrează, deoarece câmpul de variaţie al acestora este mult
mai restâns decât plaja posibilelor apariţii ale variabilelor cantitative.
O primă problemă a statisticii este să identifice care sunt variantele de
manifestare a unei variabile calitative şi să întocmească nomenclatoare în vederea
obţinerii unei scale. Nomenclatoarele vor fi utilizate unitar atât la culegerea
datelor, cât şi la prelucrarea şi analiza acestora. Dacă variabila calitativă are un
grad mai mare de complexitate şi putem identifica un criteriu organizatoric de
regrupare, atunci pe lângă nomenclatorul general se elaborează şi nomenclatoare
specifice fiecărei grupe. Exemplul classic provine din economie: există lin
nomenclator al ramurilor de activitate dm economia naţională şi câte un
nomenclator al subramunlor.
Pe baza nomenclatoarelor elaborate se pot centraliza datele înregistrate şi se
pot obţine distribuţii de frecvenţe, de ponderi. Dacă ponderile categoriilor sunt
foarte diferite se vor elimina acele categorii cu ponderi nesemnificative.
46
Nomenclatorul se poate revizui in urma organizării de sondaje şi snidii periodice
pe eşantioane extrase din aceeaşi populaţie de consumatori.
Pentm a trece la aplicarea modelelor de măsurare a asociaţiilor dintre
variabilele calitative se caută posibilitatea cuantificării acestora conform teoriei
scalare. Cel mai simplu caz este cel al variabilelor binare, ce se cuantifică prin 0 şi
1. O a doua categorie de variabile calitative o constituie cea a celor cu variante de
răspunsuri conform unei scale ordinale, care pot fi ierarhizate, pe baza creşterii
intensităţii conţinutului răspunsurilor de la un respondent la altul, după o scală
liniară. In acest caz problema cuantificării este rezolvată prin metoda rangurilor.
Pentru aceste două categorii metodele statistice de măsurare a existenţei,
intensităţii şi formei legăturilor statistice sunt metodele parametrice şi
nonparametrice de regresie şi corelaţie
O a treia categorie de variabile calitative. în afara celor ce pot fi transformate
într-o variabilă binară, sau a celor ce pot fi ierarhizate, este categoria variabilelor
pur calitative, pentru care categoriile înregistrate nu admit nici o posibilitate de
ordonare a răspunsurilor şi în consecinţă de cuantificare.
Acestea pot fi centralizate cu ajutorul nomenclatoarelor şi'sau pot fi
considerate intr-o analiză statistică drept caracteristici independente, factoriale sau
pot fi analizate ca variabile dependente doar prin modele de asociere.
Metodele calitative utilizate pentru explicarea fenomenelor pieţei pot
identifica structuri de piaţă şi relaţiile dintre acestea cu scopul formulării
premizelor necesare descrierii pierii. Snidiile calitative efectuate înaintea
cercetărilor cantitative au ca scop stabilirea naturii şi structurii populaţiei. Studiile
calitative ce urmează celor cantitative pot explica motivele apariţiei diferenţelor
semnificative între grupurile analizate.
Utilitatea colectării datelor calitative - "soft” poate fî rezumată prin:
- Obţinerea informaţiilor de bază in cazul lipsei totale de informaţii.
- Definirea problemei şi formularea ipotezelor ce urmează să fie
testate:
- Identificarea conceptelor de bază în cazul lansării unui nou serviciu sau produs.
47
- Identificarea modelelor de comportament al atitudinilor şi structurii eşantionului.
- Posibilitatea clarificării motivaţiilor apariţiei diferenţelor statistic semnificative
între structurile (clasele) eşantionului.
- -Explorarea domeniilor "'sensibile" pentru orice firmă. Modelele calitative de
investigare a pieţei nu sunt clar defimte, fiind împrumutate din ştiinţele sociale şi
umaniste, iar succesul lor se bazează mai ales pe experienţa cercetătorului.
Procesul fiind pur subiectiv apare problema nivelului de reprezentativitate şi
de încredere asigurat de modelele calitative. Unul dintre factorii principali ce
asigură utilitatea cercetării calitative este nanira dinamică, exploratorie a
investigaţiei. In timpul inteniului, cercetătorul participă pe mai multe niveluri, din
punct de vedere intelectual:
- ascultă şi acceptă datele ce sunt prezentate:
- procesează datele îşi formulează ipoteze;
- testează aceste ipoteze în timpul discuţiei prin întrebări de verificare;
- înregistrează mental nuanţele, subtilităţile limbajului, gesnirile decidentului
intervievat.
Abordarea calitativă pare mai potrivită în cazul eşantioanelor formate din
unităţi neomogene, firme - organizaţii, mai puţin disponibile în a furniza simple
date cantitative, ce pot fi considerate confidenţiale. In acest caz disponibilitatea
managerului de a ofen informaţii creşte o dată cu creşterea nivelului său de
încredere în operatorul de interviu.
Desigur, abordarea intelectuală a internului va trebui să fie
multidimensionala pentru a putea ofen un nivel acceptabil de înţelegere a
fenomenului de căire beneficiarul studiului - decidentul care reprezintă firma de
consultanţă în resurse umane, în cazul de faţă.
Procedurile statistice, ce se aplică fie pentru analiza variabilelor calitative,
fie pentru analiza celor cantitative, pornesc de la ideea existenţei unei variabile
condiţionate, considerată ca factor explicat, x, (sau mai multor variabile de acest
tip) de către una sau mai multe variabile, considerate factori explicativi, y (cauză).
Influenţa statistică constă în reducerea variaţiei unei variabile, atunci când
48
se cunoaşte poziţia indivizilor după o altă variabilă, reducându-se astfel gradul de
nedeterminare.
Modele incluse în această scurtă prezentare se disting după nanira
variabilelor, cantitative sau calitative, fiind de măsurare a asociaţiilor sau gradului
de corelaţie, după numărul variabilelor implicate, corelaţii simple sau multiple, şi
după forma legăturilor matematice dintre ele, liniare, curbilinii etc.
Cel mai simplu model este reprezentat de construcţia tabelului de
contingenţă sau asociere, între două variabile calitative, sau categoriale, dintre
care. una este presupusă a fi un factor determinant pentru cealaltă variabilă.
De exemplu, se poate măsura nivelul de asociaţie dintre ocupaţie (pe care o
putem nota cu A) şi atitudinea persoanei intervievate faţă de necesitatea plăţii
sporului de vechime (B). de exemplu. Pe total eşantion, distribuţia subiecţilor după
atitudine are o formă asemănătoare sau nu, cu forma de distribuţie pe fiecare grupă
ocupaţionalâ. Relaţia poate fi de cauzalitate sau doar de covariantă a seriilor de
distribuţie.
Dacă distribuţiile condiţionate diferă semnificativ unele de altele (raportul
de de terminaţie R2 este mai mare de 0.5) şi diferă de distribuţia marginală, atunci
ocupaţia explică din punct de vedere statistic variaţia atinidhui faţă de plata
sporului de vechime. Cu cât comportamentul şi atinidmea este mai diferită pe
diferite grupe ocupanonale. cu atât putem afirma că ocupaţia explică mai mult.
adică are o mai mare valore predictîvă pentru variaţia atitudinii.
Pentru măsurarea statistică a nivelului de cauzalitate se pot folosi mai mulţi
indicatori statistici, neexistând cel mai bun indicator, folosit în orice condiţii,
pentru once tip de variabile si de legături. Aceştia ar putea fi clasificaţi in
coeficienţi simetrici, utilizaţi pentm a sugera nivelul general de legătură dintre cei
doi factori, sau pentru calcule de analiză mai complexe şi coeficienţi asimetrici. în
sensul că iau o anumită valoare dacă A este presupus anterior lui B. şi o altă
valoare în situaţia inversă.
Dacă se urmăreşte analiza Legăturii dintre mai multe variabile este necesară
realizarea analizei multivanate. Dacă în plus, una dintre variabile sau amândouă
49
sunt calitative, analiza presupune construcţia tabelelor cu mai multe dimensiuni.
Statisticienii au demonstrat că, dacă în relaţia unei variabile factonale A cu o
variabilă rezultarivâ B. se introduce o a treia. C. denumită variabilă test. atunci
asocierea generală dintre A şi B apare ca suină a asociaţiilor parţiale ale celor două
variabile. în fiecare clasă a lui C. plus un termen ce se formează din produsul
asocierilor lui A cu C şi lui B cuC.
Interpretare:
Dacă primii termeni ai sumei sunt nuli. (sau tind la 0). atunci legătura dintre
A şi B este datorată exclusiv factorului C. Factorul C poate fi:
a) anterior ambilor factori analizaţi (caz în care ipoteza existenţei unei legături
între A şi B a fost falsă în totalitate);
b) intermediar, şi atunci influenţa lui asupra Im B se transmite în întregime prin
intermediul factorului C.
Dacă primii termeni ai sumei sunt diferiţi de zero. atunci introducerea
variabilei test C. nu modifică relaţia dintre variabilele A şi B.
Dacă relaţiile parţiale in grupele variabilei C diferă semnificativ unele de
altele. înseamnă că legătura lui A asupra lui B diferă după starea lui C, existând o
interacţiune a factorilor A şi C asupra variabilei B.
Analiza este mult uşurată de posibilitatea folosirii pachetelor de programe de tip
SPSS pentru variabile calitative, ce utilizează de exemplu, analiza loglineară. care
centrându-se pe frecvenţele din tabele multidimensionale, evidenţiază relaţiile
dintre factori şi efectele interacţiunii dintre ei.

50
14. Modele de măsurare a legăturilor pentru datele cantitative

In comparaţie cu modelele calitative cele cantitative se află la antiteză, prin


abordarea sistematică şi rigidă pe care o propun. In domeniul explicării
fenomenelor pieţei, metodele cantitative propun modele universale, ce permit
identificarea structurilor cheie şi a legânirilor stohastice manifestate, utilizând
pentru măsurare diferite tipun de scale.
Datele cantitative simt privite ca date "hard" ce pot fi supuse testelor
statistice de verificare a ipotezelor formulate în cadrul cercetării calitative, care
permit calculul eronlor şi estimarea intervalelor de încredere garantate cu o
anumită probabilitate şi asigură o bună reprezentativitate a populaţiei studiate.
Principalul dezavantaj al cercetării cantitative este imposibilitatea studiem în
profunzime a fenomenului. De aceea marea majoritate a studiilor combină
modelele calitative cu cele cantitative.
Pentru studiul legânirilor dintre variabilele cantitative spunem că două mărimi
aleatoare, ale căror valon simt înregistrate x si y. formează o corelaţie, dacă
speranţa matematică a uneia dintre ele variază în funcţie de variaţia celeilalte.
Intensitatea Legăturii dintre mărimile aleatoare x şi y se caracterizează (în cazul
respectării premiselor de liniaritate a legăturii) prin coeficientul de corelaţie p(x.
y). Dacă p(x. y) = 0. se spune că mărimile x şi y nu simt corelate. Dacă p

, avem o dependenţă funcţională liniară.


Analiza corelaţiei permite să se estimeze cantitativ legăturile dintre un mare
număr de fenomene economice interdependente. Aplicarea ei face posibilă
verificarea diferitelor ipoteze economice cu privire la prezenţa şi intensitatea
legăturii dintre două fenomene sau dm cadrul unui grup de fenomene fiind strîns
legată de analiza de regresie.

51
14.1. Analiza de regresie

Studiind legătura dintre două variabile cantitative se calculează coeficienţii


de regresie. rapornil de corelaţie şi. dacă legătura este liniar;, şi coeficientul de
corelaţie liniară simplă. Se studiază în general legătura dintre o variabilă factorială
şi una rezultativă presupunând ceilalţi factori constanţi.
Analiza unor forme de legătură, care determină relaţii cantitative între
mărimile aleatoare ale unui proces aleator studiat. In acest sens, teoria regresiei
constituie o parte a teoriei corelaţiei.
Fie X = xi: Y = yj; i = 1, 2…, n; j = 1, 2, ...., m sunt nişte mărimi aleatoare cu
repartiţia p(xi, yj). Prin definiţie, se numeşte regresia lui Y în X funcţia:

unde x este una dintre valorile unităţilor din eşantion x1, x2, iar
M(y/x) - (x, y)
Speranţa matematică condiţionată a mărimii aleatoare în cazul unui x fixat.
Varimdu-1 pe x ca pe un parametru, vom obţine în planul variabilelor locul
geometric al centrelor repartiţiilor condiţionate, numit curba de regresie a Im Y în
X. Dacă vom schimba locul variabilelor, vom obţine curba de regresie a Im X în Y.

Ca estimaţie a măsurii abaterii mărimii aleatoare fată de centru se adoptă


mărimea dispersiei condiţionate:

In teoria corelaţiei ecuaţia de regresie se foloseşte pentru rezolvarea


problemei de prognoză a modificării mărimii aleatoare Y pe baza datelor unui
experiment sau a unor observaţii x1, x2,…, xn. Precizia prognozei se estimează cu
ajutorul mediei dispersiilor condiţionate:

52
Funcţia de regresia y(x) posedă proprietatea de extremum în virtutea căreia
media pătratică a abaterilor a mărimii y faţă de y(x) va fi mai mică decât pentm
orice altă funcţie f(x), diferită de funcţia y(x). Pe această proprietate se întemeiază
metodele de construire a modelelor sistemelor economice, care corespund. în mod
optim, mulţimii corespunzătoare de date expenmentale.

Funcţia de regresie cea mai simplă este cea liniară unde coeficienţii x si p se
calculează prin metoda celor mai mici pătrate, pornind de la condiţia de inimizare a
funcţiei erorii:

Se ştie ca f(x, Q) atinge valoarea sa minimă pe dreapta.

Unde ax şi ay sunt mărimile aleatoare medii X, respectiv Y. Ecuaţia de


regresie obţinută, Y in X este aproximativă. Schimbând locurile variabilelor in
ecuaţie, vom obţine ecuaţia dreptei de regresie aproximativă X în Y:

Coeficienţii se numesc coeficienţi de regresie, iar p - coeficient de corelaţie.

Alegerea funcţiei de regresie depinde de caracterul procesului aleator


studiat:

53
Pentru procese mai complexe se construieşte un model de regresie liniară

multiplă:
Aici. ca şi în cazul construirii modelului de regresie pentiu o singură
variabilă, problema se reduce la deteminarea coeficienţilor ao, a1, an, prin
minimizarea funcţiei erorilor:

Problema miiumizăiii se rezolvă prin metoda celor mai mici pătrate.


O generalizare care perrnite studierea unor procese mai complexe este
extinderea procedeelor, expuse mai sus, la probleme de regresie multiplă, de pildă,
pentiu un model nominal de ordinul al doilea:

Pentru caracteristicile cantitative, exista proceduri clasice de analiză a


legăturilor multiple prin regresia multiplă. Pentiu un numai' de n variabile X],. x,.
fiecare individ dintre cei n intervievaţi, va primi câte o valoare după fiecare
variabila, deci va putea fi reprezentat într-un spaţiu n-dimensional. Considerând yi.
ca variabilă dependentă se va alege, în funcţie de ipotezele considerate, funcţia de
n parametrii.

Parametrii ce se vor stabili prin metoda celor mai mici pătiate, astfel încât, să
aproximeze cel mai bine poziţia subiecţilor, marcată de graficul norului de puncte.
Pentru estimarea tendinţei legăturii, în practică, se foloseşte cel mai des, dacă

54
numărul datelor analizate este suficient de mare pentiu exprimarea tendinţei,
funcţia liniară. Ecuaţia regresiei liniare este:

Reprezentând un hiperplan în spaţiul n-dimensional. Orice coeficient bi.


arată cu cât se modifică y1. dacă variabila xi se modifică cu o unitate. Coeficienţii
de regresie, b, nu pot fi comparaţi deoarece variabilele xi pot fi diferite, exprimate
in unităţi de măsură diferite.
Pentm a realiza compararea coeficienţilor funcţiei de regresie. adică a
compara factorii în funcţie de importanţa lor în influenţarea variabilei xi, se
calculează coeficienţii de regresie standardizaţi, coeficienţii beta, B. Valoarea
acestora arată care este legătura dintre variabila independentă şi valorile ajustate x i.
De aceea, orice ecuaţie de regresie trebuie însoţită şi de indicatorul care exprimă
eroarea medie a aproximării variabilei dependente. Dezavantajul regresiei constă în
faptul că nu ia în consideraţie relaţiile dintre variabilele ce sunt considerate
independente.
Valorea coeficienţilor de regresie se bazează pe coeficienţii de corelaţie
parţială, care sunt indici simetrici, adică nu presupun că o variabilă este dependentă
şi alta independentă una faţă de alta.
Legăturile statistice implicate în modelele de regresie se află la baza
modelelor complexe, care introduc relaţii de influenţă simultană a mai multor
variabile asupra celei rezultatîve. sau caută posibilităţi de defimre a unor noi
factori de influenţă, ce pot fi interpretaţi ca factori sintetici (fund considerate
variabile finale) sau latente (cele considerate a avea influenţă ca factori
intermediari). Un astfel de procedeu este "analiza path". Acesta metodă utilizează
un set de r factori, exprimaţi cantitativ. între care se stabilesc relaţii de dependenţă.
O variabilă xi poate fi considerată dependentă într-o ecuaţie şi independentă intr-o
altă ecuaţie, evitându-se cauzalitatea circulară. Coeficienţii path indică influenţa
directă a variabilei independente asupra celei dependente, fără a se evidenţia
influenţa transmisă prin intermediul altor variabile.
55
Corelaţia multiplă stabileşte intensitatea legămrii dintre mărimea aleatoare n
şi un grup de mărimi aleatoare x1, x2, …, xn. coeficientul de corelaţie multiplă:

Arată intensitatea Legăturii (D este determinantul matricei de corelaţie a


mărimilor y, x1, x2, …, xn ,

reprezintă acelaşi lucru, insă pentru mărimile . Dacă R = 0, nu


există legătură.

14.2. Elemente de analiză a variantei

Analiza dispersională, sau ANO VA, este o altă secţiune a statisticii social-
economice care se ocupă cu analiza rezultatelor unor observaţii depinzând de
factori diferiţi ce acţionează concomitent, cu alegerea factorilor celor mai
importanţi şi cu estimarea influenţei lor.
Să examinăm un exemplu tipic. Presupunem că la studierea unui anumit
fenomen, in condiţii diferite, s-au obţinut nişte date statistice. Problema constă in a
stabili dacă fenomentul studiat depinde de condiţiile în care s-a efectuat observarea
şi, dacă depinde, cum anume, Rezultatul observaţiilor poate varia atât datorită
condiţiilor în care s-a efectuat observarea, cât şi datorită unei anume influenţe
întâmplătoare. Influenţa condiţiilor observării se exprimă sub forma unui anumit
factor, iar influenţa întâmplătoare, sub forma unei anumite mărimi aleatoare, care
are o reparaţie normală (ipoteza fundamentală a analizei dispersionale). In general,
factorul este o mărime aleatoare necunoscută. Dar, în majoritatea covârşitoare a
problemelor practice, prin factor se înţelege un număr constant necunoscut, adică
se analizează aşa numitele modele cu factor constant.
Să admitem că avem r grupe de observaţii, fiecare fiind obţinută in anumite
condiţii. Să presupunem că pentm grupa i, care conţine n numere, orice observaţie
este formată din următoarele componente:
56
- este factorul comun pentru toate grupele:
- factorul propnu numai grupei i de observaţii; x I - mărimea aleatoare care
are o repartiţie normală, adică pentm grupa i presupunem existenţa egalităţii:

unde yI reprezintă orice observaţie corespunzătoare gnipei i, (i =1,2,…, m).


Sarcina analizei dispersionale constă in a estima raportul dintre factorii

pentru a stabili dacă deosebirile dintre grupe sunt esenţiale sau neesennale.
Faptul dacă deosebirile dintre grupele de observaţii i şi k simt esenţiale sau

neesenţiale se stabileşte prin compararea numerelor Am prezentat un


model unifactorial de analiză dispersională. Mult mai complex este modelul
bifactorial:

Acesta poate fi aplicat atunci când observaţiile se clasifică după factori


diferiţi. Să admitem că după primul factor toate observaţiile se împart in m grupe
(A1, A2, …, Am), iar după al doilea in n grupe (B 1, B2, …,Bn). Atunci reprezintă
orice observaţie care se referă, după primul factor, la grupa AI. iar după al doilea, la

grupa Bj; este factorul comun pentru toate observaţiile grupei Ai:

-factorul corespunzător gnipei Ai: - factorul corespunzător gnipei Bj; -


mărimea aleatoare care are o repartiţie normală.
Una dintre problemele care se elucidează cu ajutorul modelului bifactorial
poate fi următoarea: care dintre factori - primul sau al doilea -exercită o influenţă
esenţială asupra fenomenului studiat? Dacă, de pildă, Xi= 0 (i = 1, 2, .... m). atunci
primul factor se consideră neesenţial. In mod analog se poate scrie in model
trifactorial. Tetrafactorial, ş.a.m.d. Estimările factorilor se află după metoda celor
mai mici pătrate.
O altă metodă extrem de des utilizată pentru analiza datelor primare şi
57
secundare. într-o cercetare de piaţă, este analiza factorială. Ideea de la care se
porneşte este aceea că numărul de factori de influenţă este relativ redus. La limită,
când setul de întrebări este omogen, putem presupune că există un singur factor de
influenţă, de pildă intuiţia sau inteligenţa, sau uneori vârsta.
Evident, sunt puţine cazurile în care este posibilă determinarea unui singur
factor de influenţă, metoda utilizând ierarhizarea factorilor şi gruparea mulţimii
întrebărilor.

14.3. Principii de analiză facrorială

Analiza factonală, este un domeniu al statisticii social-economice, în care se


studiază structura matricelor de covanaţie şi de corelaţie. Să presupunem că
mărimile aleatoare supuse observării (x1, x2, …, xn) se subordonează unei repartiţii
normale multidimensionale cu matricea de covanaţie (C ij). In analiza factonală
ipoteza fundamentală este egalitatea:

unde:
fr - reprezintă factorul simplu r;
k - numărul de factori care urmează a fi aflat;
Ei - elementele reziduale, care reprezintă sursele de abatere, ce acţionează

numai asupra mărimii

Mărimile aleatoare , se presupun independente atât între ele, cât şi faţă


de acele k niarimi fr.
Coeficientul lir se numeşte de obicei sarcină a factorului r.

Dispersiile mărimilor aleatoare , le notăm prin Vi. Toate mediile se


presupun egale cu 0.

58
Determinarea valorilor parametrilor lir precum şi Vi, alcătmesc baza analizei
factoriale.
In practică prezintă interes, de pildă, următoarea problemă: pentru mărimile
de sondaj observate x1, x2, …, xn să se estimeze valoarea factorilor ipotetici f1, f2,
…, fk şi să se exprime aceşti factori ca funcţii liniare de variabilele x1, x2, …, xn .
In cazul de faţă nu se poate aplica metoda obişnuită a celor mai mici pătrate,
deoarece nu ne sunt cunoscute valorile adevărate ale factonlor fr.
Metoda de estimaţie a valorilor factorilor pe baza variabilelor observate
xi,..., Xn a fost pentru prima dată preconizată de către Thompson în anul 1951 şi
denumită metoda regresiei.
In cercetările economice, orientările cu cele mai multe perspective în
domeniul utilizării metodei analizei factoriale sunt:
1.reducerea numărului de indicatori care caracterizează esenţa unui anumit
fenomen economic fără o pierdere substanţială de informaţie:
2.obţinerea unor indici sintetici pentru caracterizarea unui fenomen
economic;
3.clasificarea unor obiecte economice, caracterizate printr-un set de
caractenstici independente:
4.construirea şi verificarea ipotezelor cu privire la esenţa unui fenomen
economic.
Indiferent de faza în care se află prelucrarea statistică a datelor, deoarece
indicatorii calculaţi s-au obţinut pe baza datelor din eşantion, aceştia trebuie supuşi
testelor de semnificaţie, pentru a stabili în ce măsură diferă de zero sau de altă
valoare de comparaţie, cu scopul evident de a efectua inferenţa statistică, de a
putea estima pe baza lor, indicatorii ce caracterizează populaţia studiată.

Bibliografie

1. Andrei. T., Stancu S., Pele D. Statistică Teorie şi aplicaţii, Ediţia a doua,
Bucureşti, Editura Economică, 2002

59
2. BIJI M. BIJI, E. LILEA, E. Tratat de Statistică, Bucureşti,
Editura Economică 2002

3. David R.Anderson, Dennis J.Sweeney, Thomas A.Williams - Statistics for


business and economics,Mason, Ohio:South-Western Thomson Learning,
2004.

4. Dumitrescu, M., Sondaje statistice şi aplicaţii, Editura Tehnică, Bucureşti,


2000, p. 110. 80

5. GRAMMONT L, Tehnica sondajelor şi anchetelor, Editura Independenţa


economică 2001

6. Isaic-Maniu Al., Vodă V. - Proiectarea statistică a


experimentelor.Ed.Economică,
Bucureşti, 2006.

7. Saporta, G., Enquetes et Sondages, 2003-2004, http://cedric.cnam. fr/saporta

8. TODEA ALEXANDRU “Raport de Cercetare”.

60

S-ar putea să vă placă și