Sunteți pe pagina 1din 52

Colectia UNIVERSITARIA Seria STIINTE MATEMATICE

PETRUS ALEXANDRESCU

Introducere
Editor: Calin Vlasie

Tehnoredactare: Cannen Radulescu


"In
Corectura: autorul
Coperta: Carmen Lucaci
Prepress: Viorel Mihart
statistica sociala

Descrierea CIP a Bibliotecii Nationale a României


ALE~RESCU,PETRUS
Introducere În statistica sociala / Petrus
Alexandrescu, - Pitesti: Paralela 45,2005
Bibliogr.
! il

ISBN 973-697-335-2
(
1
j

311:913(498)(075.8)

© Copyright Editura Paralela 45, 2005


CUPRINS

!!/'Prefata 7
i
::F'"

'il
.
,

Capitolul 1
Elemente de teoria probabilitatilor 9
Capitolul II
Elemente de statistica descriptiva 17
Capitolul III
Variabile aleatoare. Proprietati. Caracteristici.. 25
Capitolul IV
Indicatori ai caracteristicilor cantitative 41

Capitolul V
Corelatia rangurilor 56
Capitolul VI
Analiza de regresie , 61
Capitolul VII
Analiza de dependenta , 67
Capitolul VIn
Sondajul statistic si esantionul statistic 76
Capitolul IX
Chestionarul de opinie. Elemente privind proiectarea
chestionarului 87
Capitolul X
Teste de semnificatie 92
Bibliografie selectiva 97

5
PREFATA
.,

, urmeaza în esenta, cursul de statistica so-


Lucrarea de fata
ciala de un semestru, predat de autor la anul II al Facultatii de
Sociologie si Psihologie a Universitatii "Spiru Haret". Pentru a
fi utila în primul rând studentilor· acestei facultati, lucrarea ur-
mareste pe de o parte sa familiarizeze cititorul cu elementele de
statistica matematica necesare în abordarea si întelegerea unui
fenomen social. Pentru aceasta, am tinut cont de faptul ca
numerosi studenti ai acestei facultati au formatie umanista înca
din liceu. Acest lucru a facut ca interesul lor pentru disciplinele
realiste sa fie scazut. Întâlnirea acestora cu statistica în cadrul fa-
cultatii este privita cu o anumita retinere. Rolul profesorului în
acest caz este de a face, pe cât posibil, un curs foarte accesibil,
atractiv, si care sa stârneasca curiozitatea studentului (macar al
aceluia care îsi cunoaste interesul si stie de ce a venit la aceasta
facultate). Cursul predat a încercat pennanent sa tina seama de
acest deziderat, iar cursul scris încearca sa-I urmeze îndeaproape.
Dar, pe lânga a fi accesibil si atractiv, cursul trebuie sa fie
util. O data cu întelegerea rolului statisticii în realitatea sociala,
este important sa se înteleaga metodele, tehnicile sale, dar mai
ales este important sa se înteleaga gândirea statistica. Nu tre-
buie sa utilizaIl1 o metoda sau alta pentru ca ani auzit de ea sau
pentru ca utilizarea unor metode statistice sonore ne-ar scoate

7
din impas sau ne-ar pune în situatia comoda de a ne aseza în Capitolul 1
spatele lor si a ne multumi astfel cu orice rezultat obtinut.
Utilizarea statisticii în mod adecvat este deosebit de utila. ELEMENTE DE
Dar utilizarea statisticii poate fi si nociva atunci când se face în
.
TEORIA PROBABILITATILOR
mod mecanic, fara a se întelege utilitate a sa, si mai ales când,
cum si în ce fel poate fi folosita. Am încercat sa lamurim si
aceste lucruri de-a lungul cursului .
Autorul, de formatie matematician, si-a facut ucenicia în me- .L Câmp de probahilitatefinit
todologia stiintelor sociale de-a lungul anilor în cadrul Institu-
tului de Sociologie al Academiei Române. Aici a avut posibi- Experimentul statistic este un procedeu care poate fi
litatea sa participe la numeroase cercetari concrete în colective repetatîn conditii similare si în urma caruia se obtin rezultate ce
interdisciplinare, sa învete si sa experimenteze o serie de metode pot fi observate, masurate si apoi interpretate.
si tehnici. Anii de dupa Revolutie au putut fi mult mai profitabili Experimentul statistic are un caracter aleator, în sensul ca
din acest punct de vedere. rezultatul acestuia variaza la întâmplare; de aceea îl vom mai
Comenzile sociale ne-au ajutat sa tinem pasul cu realitatea numi adesea si experienta aleatoare.
sociala si sa gasim solutii practice chiar si atunci când teoria nu Rezultatul unei experiente aleatoare se va numi proba.
ne ajuta. Am învatat din greselile noastre ca si din ale altora, îm- Exemplu. Aruncarea unui zar constituie o experienta alea-
bunatatindu-ne stilul si bagajul de cunostinte. Toate aceste cu- toare. Rezultatele posibile acestei experiente sunt concretizate în
nostinte capatate le putem împartasi celor tineri pentru a le ne- aparitia uneia dintre fetele: 1, 2, 3, 4, 5, 6.
tezi drumul si a-i ajuta sa devina specialistii de mâine în do- Definitie. Realizarea sau nerealizare a unei. anumite situatii,
meniul stiintelor sociale. Facultatea de Sociologie si Psihologie ·legata de experienta aleatoare avuta în vedere,. dupa· efectuarea
a Universitatii "Spiru Haret" mi-a oferit aceasta ocazie. experientei, se numeste evenjment statistic.
Prezenta lucrare se adreseaza în primul rând studentilor Prin evenimentul elementar vom. întelege acel eveniment
Facultatii de Sociologie si Psihologie, dar si tuturor acelora care care poate fi realizat numai de o singura proba., Celelalte
doresc sa se initieze în statistica sociala. evenimente le vom numi compuse.
Autorul
8 9
De exemplu, evenimentul de aparitie: a fetei cu numarul 6 >LOperatii cu evenimente
este un eveniment elementar. Evenimentul de aparitie a unei fete Daca A si B sunt doua evenimente, numim reuniunea lor si
cu numar par este realizat de una dintre probele {2}, {4}, {6}. .otam AU B, evenimentul a carui realizare consta în realizarea a
Evenimentul sigur este evenimentul care se realizeaza cu el putin unuia din cele doua evenimente.
certitudine la fiecare efectuare a experientei. În mod asemanator, An B este evenimentul care se realizea-
Evenimentul {1,2,3,4,5,6} este evenimentul sigur al cu realizarea simultana a evenimentelor A si B.
experientei.
Daca evenimentele A si B sunt incompatibile, atunci
Evenimentul imposibil este evenimentul care nu se
realizeaza la nici o efectuare a experientei.
Definitia probabilitatii
Evenimentul imposibil se noteaza prin 0.
Sa consideram experienta de aruncare a lIDUi zar si A
Doua evenimente A si B se numesc contrare daca nereali-
de aparitie a fetei cu numarul 5. Sa repetam aceasta
zarea unuia este echivalenta cu realizarea celuilalt; asta
de 10 ori. Sa presupunem ca aruncând cu zarul de 10
înseamna ca nu exista nici o proba care sa le realizeze simultan
de trei ori a aparut fata cu numarul 5. Raportul
pe amândoua; în schimb, orice proba realizeaza unul din cele
doua evenimente. f=-103
În termeni de teoria multimilor, astfel de evenimente sunt
numeste frecventa de aparitie.
asociate multimilor complementare. Astfel, B = CA iar A = CB.
Frecventa de aparitie este un numar subunitar O ::; fn ::; 1.
Evenimentele A si B se numesc compatibile daca se pot
Doua evenimente A si B se numesc egal posibile daca au
realiza simultan, adica daca exista probe care le realizeaza în
aceeasi sansa de a se realiza.
acelasi timp pe A si pe B. În caz contrar, evenimentele A si B se
Daca la .experienta de aruncare a unui zar, A este
numesc incompatibile.
evenimentul în care apare fata 5 si B este evenimentul de
În primul caz, comparând cu multimile, avem An B :t= 0,
aparitie a fetei 3, atunci evenimentele A si B sunt egal posibile.
iar în al doilea caz, An B·= 0.
Defmitie. Numim probabilitate a unui eveniment, raportul
Evenimentul A implica evenimentul B si scriem A c B, daca dintre numarul· cazurilor egal posibile care realizeaza eveni,..
realizarea lui A implica realizarea lui B. mentul sau cazurile favorabile si numarul cazurilor egal posibile.

10 11
Exemple: 1) La experienta de aruncare a unei monede, p(A n B) = p(A)· p(B)
probabilitatea de a aparea stema este: p(A nC) = p(A)· p(C)
1
p=- p(B n C) = p(B)· p(C)
2
p(A n B n C) = p(A)p(B)p(C)
2) Care este probabilitatea ca anmcând doua zaruri sa
obtinem o dubla, adica (1, 1) sau (2, 2), ... , sau (6, 6)7 Formule clasice de probabilitate
6 1
1. Formule pentru calculul unor probabilitati
p = 36 =6
a) Fie A, B - 2 evenimente. Atunci are loc formula:
Proprietati ale probabilitatilor
p(A U B) = peA) + p(B) - p(A n B)
Daca p(A) este probabilitatea evenimentului A, atunci au 10&
b) Daca A, B, C sunt 3 evenimente, atunci are loc formula:
proprietatile:
p(AUBUC) = p(A) + p(B) + p(C)-p(AnB)-
1) O~ p(A).~ 1
- p(A n C) - p(B n C) + p( An B n C)
2) p(E) = 1, unde E este evenimentul sigur
Aceasta formula se poate generaliza la n evenimente si se ob-
3) p(0) = O,unde 0 este evenimentul imposibil
tine o formula care poarta denumirea de formula lui H. Poincare.
4) p(A U B) = p(A) + p(B), daca An B = 0
Aplicatie. O urna contine 4 bile albe si 6 bile negre, iar alta
Daca An B T. 0, atunci proprietatea 4) devine: urna contine 7 bile albe si 3 bile negre. Din fiecare urna se extrage
4') p(A U B) = p(A) + p(B) - p(A n B) câte o bila. Care este probabilitatea ca cel putin o bila sa ne alba?
5) p(A)+ p(A) = 1 Rezolvare. Notam cu A evenimentul ca bila extrasa din pri-

unde A este evenimentul contrar lui A. ma urna sa fie alba si cu B evenimentul ca bila extrasa din a
doua urna sa fie alba. Vom calcula probabilitate a evenimentului
Definitie. Daca A si B sunt doua evenimente si daca
p(A n B) = p(A)· p(B)
AUB:
p(A U B) = p(A) + p(B) - p(A n B)
atunci spunem ca eV91imentele A si B sunt independente.
Dar evenimentele A si B sunt independente, rezulta ca
Daca A, B, C sunt trei evenimente, atunci ele sunt indepen-
4 7 28
dente daca sunt îndeplinite relatiile: p(A n B) = p(A)· p(B) = -.- =-
10 10 100

12 13
Urmeaza ca: 0,012, q2 = 0,015, q3 = 0,014

(A U B) = ~ + ~ _ 28 = 110- 28 = 82 = ° 82 PI = 0,988, P2 = 0,985, P3 = 0,986


P 10 10 100 100 100 '
Asadar, coeficientul lui x2 vafi:

2. Scheme clasice de probabilitate PIP2q3 + PIP3Q2+ P2P3Ql = 0,988·0,985·0,014 + 0,988·


a) Schema lui Poisson .0,986.0,015 + +0,985·0,986·0,012 = 0,013 + 0,015 +

Sa presupunem ca avem n urne: + 0,012 = 0,04

UI, U2, .... , Un timp ce probabilitatea ca toate piesele extrase sa fie bune este:
care contin bile albe si negre. Daca Pi este probabilitatea cu care P = PIP2P3 = 0,988·0,985'0,986 = 0,959
este extrasa o bila alba din uma Ui, se cere probabilitatea de a b) Schema lui Bemoulli
extrage k bile albe ° ~ k ~ n, atunci când din fiecare urna se Este un caz particular al schemei Poisson, în care cele n urne
extrage câte o bila. continuturi identice. În acest caz:
Ca regula, sa retinem ca determinarea probabilitatii cerute Pl = P2 = ... = Pn = P SI
este similara cu detern1inarea coeficientului lui Xk din dezvol-
ql =Q2 = ..·=qn =q=l-q
tarea polinomului
Problema este aceeasi, anume, de a extrage câte o bila din
P(x) = (PIX + ql)(P2X + q2 )·· ..·(Pnx + qn)' fiecare urna si de a calcula probabilitatea ca din .cele n bile
Vom lamuri acest lucru printr-un exemplu. extrase, k sa fie albe si n-k tlegre.
Exemplu. Într-un atelier sunt 3 strunguri care executa piese. Probabilitate a ceruta estecoefidentullui xk din dezvoltarea
Primul da 1,2% rebuturi, al doilea 1,5% si al treilea, 1,4%. Se ia binomului:
la întâmplare câte o piesa de la fiecare strung. Se cere probabi:- P(x) = (px+Q)n
litatea ca 2 din piese sa fie bune si una sa fie rebut. adica: C~pkQn-k
Probabilitatea cautata va fi coeficientul lui x2 din dezvoltarea
Sa mai constatam ca problema extragerii a n bile din n urne
polinomului
identice, câte una din fiecare urna, este similara cu aceea a
(PIX + ql)(P2X + q2)(P3X + q3)
extragerii succesive a n bile din aceeasi urna, punând de fiecare
Se constata ca: n = 3, k = 2, data bila extrasa înapoi.

14 15
Aplicatie. Aruncam o moneda de 6 ori, Se cere probabi-
Capitolul II
litatea ca stema sa apara o singura data si banul de 5 ori.

Se constata ca n = 6 k = 1 p = q =
"
!2
ELEMENTE DE STATISTICA DESCRIPTIVA

Atunci P = C61 • - • - =- =- = O094


2
(1)1 2
(1)5 26
6 32
3 ' Statistica sociala se ocupa cu gruparea, analiza si interpre-
c) Schema bilei neÎntoarse tarea datelor referitoare la un fenomen social. Totodata, cu

Sa presupunem ca o urna contine a bile albe si b bile negre. mijloacele statisticii sociale se pot efectua o serie de previziuni
Din aceasta urna se extrag n bile, fara a pune bila extrasa înapoi. privind producerea fenomenului în viitor.
Se cere probabilitatea ca din cele n bile extrase, a sa fie albe si Statistica sociala sau metodologia statistica pe care o avem
~ = n-a sa fie negre, în vedere presupune doua etape:
Probabilitatea cautata va fi data de fonnula: statistica descriptiva este un proces de culegere a

Ca. ,C13
datelor despre un fenomen socjal si înregistrarea
a b
acestora;
Ca.+fl
a+b
statistica matematica se ocupa cu gruparea datelor, ana-
unde n <a +b, iar a+p = n
liza si interpretarea acestora în vederea explicarii feno-
Aplicatie. Într-o urna sunt 100 de bile: 40 rosii si 60 albe.
menului social si a posibilitatii efectuarii unor predictii
Care este probabilitatea ca extragând 4 bile, doua sa fie albe?
asupra derularii fenomenului în viitor.
Suntem în situatia schemei bilei neîntoarse cu a = 40, b = 60,
Populatia statistica. Prin conceptul de populatie statistica
0,=2, ~=2.
vom întelege orice multime care formeaza obiectul de studiu al
Probabilitatea cautata va fi: analizei statistice.
40·39 60·59 Elementele unei populatii statistice le numim unihtti
C~o . C:o = -1·-2-' -1.-2- = 0015 statistice (sau indivizi).
C~oo _10_0_'_99_'_9_8_,
9_7 ' O analiza statistica are în vedere anumite caractt~rjslici.
1·2·3·4
Astfel, daca luam ca exemplu rezultatele obtinute III llxlIIUQl\ul

16 17
de statistica a unei colectivitati de studenti, atunci putem, Exista si caracteristici continue al caror numar de valori
înregistra notele obtinute dupa: este infinit. Un astfel de exemplu îl constituie "vârsta". Structura
caracteristica "sex": (M, F). acestei caracteristici pe grupe de vârsta o transforma într-o
caracteristica "grupe de vârsta" etc. variabila discreta, dupa cum se poate vedea si din tabelul
În cazul efectuarii unui studiu în care avem în vedere urmator, în care am efectuat grupari ale populatiei adulte:
numarul locuitorilor dintr-o anumita zona, multimea localitatilor
56-62 peste
din acea zona poate constitui populatia statistica. O caracte-
Grupe
vârsta de \18-25
ani I 26-35
ani II 36-45
am II 46-55
am am 62 ani
ristica de studiu ar putea fi numarul locuitorilor din fiecare
localitate.
În analizele statistice suntem nevoiti sa facem astfel de
O caracteristica care se poate masura se va numi caracte-
grupari pentru a simplifica etapele cercetarii.
ristica cantitativa.
În cazul exemplului anterior, rezultatul obtinut la examen se
Frecvente absolute, frecvente relative, frecvente cumulate
masoara în note, deci este o caracteristica cantitativa.
Caracteristicile "grupe de vârsta", "venitul pe familie" etc.
Sa consideram exemplul unei colectivitati de 200 de stu-
pot fi considerate drept caracteristici cantitati ve.
denti, dintre care 86 studenti si 114 studente. Aceasta structura
Caracteristicile care nu pot fi masurate se numesc
pe sexe poate fi înregistrata în tabelul:
caracteristici calitative.
Un exemplu de caracteristica calitativa poate fi înregistrarea FeI!liJ!lJn Total
,~ ""'o,

raspunsurilor la întrebarea: Cunl va place emisiunea X de la


TV?: mult, putin, deloc.
Frecvente absolute
Frecvente relative
" r'
/11'1:;h.1c~

Caracteristicile calitati ve sunt cel mai greu de înregistrat


43%51
C ./ !
\" 57%
într-o analiza statistica. ~d ,
,~,,- "'.
I ~", ~,
--Cl'
Frecventa absoluta însekmna numarul de subiecti înregis-
""------_---:_---------'
Exista caracteristici
A~stea
care pot lua numai valori tgtregi.
se vor f!.umi caracteristici discrete. Exemplu: numarul
trati; frecventa relativa este raportarea, la total, adica:
1\ t"
86 j 1..:. '::.. ,j~7
de localitati dintr-un judet, numarul persoanelor dintr-o gospo- -- - O 43 - 430/70 '-'~l""
.1'1' '
200 ' ,~<,~v
darie etc.
18 19
Sa presupunem ca pe cei 86 de studenti de sex masculin îi ....................................................... 20%
distribuim dupa rezultatele obtinute la un examen astfel: ....... 25%
Nota
1216
5%8546
616%
7
30
47%
14
109
86
71
29%
19%
16
15
17%
100%
25't~}{-~
~H;'~~' 6 ~,f ......•......................... "3 5%
~t'~ 7%
~it-t~
l~.\-4~ 6
F
Total
Numar
Frecvente
Reprezentareainvestitiilor se poate face în mai I11ultefeluri:
a) cuaju.torul diagram.ei:

5,5

25

Frecventele cumulate se folosesc mai ales atunci când


urmarim evolutia unui fenomen. b) prin histograme:

40
Serii statistice. Reprezentari grafice 35
30
25
20
Seriile statistice sunt serii de date care se însiruiesc dupa o 15

anumita caracteristica. Daca aceasta caracteristica este timpul, 10


5
seriile se numesc temporale: o
A B c o E

Sa presupunem ca într-o întreprindere industriala se fac


investitii procentuale în cinci sectoare astfel:

Sectorul Investitii procentuale


A 5,5%
B 14,5%
20 21
40 Alte reprezentari sunt reprezentari "gen harti numite
35· cartodiagrame.
30
25
20
Diagrame de structura
15
10 - populatie> 60 ani
5
O l40% 160%"1

rlllllA III B I±IC IElD IIEI - populatie activa

c) cu ajutorul poligoanelor de frecventa


Exista reprezentari statistice în care apare numai poligonul
frecventelor fara histograme. -populatie tânara

- cresterea productiei industriale În privinta distributiei curbelor de frecventa, putem vorbi de


pe lunile unui an. urmatoarea clasificare:
- curbe simetrice (sau norrnale);
- curbe asimetrice.

d) curba frecventelor Distributia simetrica (sau noqnala) este distributia lui Gauss:

Poligonul frecventelor unei variabile aleatoare poate fi


aproximat cu o curba - numita curba frecventelor sau curba
de distributie.
22 23
Distributiile asimetrice sunt si ele de mai multe feluri: CapitolulUI
distributii usor asimetrice
VARIABILE ALEATOARE.
PROPRlETATI.
• CARACTERISTICI

distributii pronuntat asimetrice


o variabila aleatoare X este un tabel de forma
(1)

[XlPI P2 ....•.••••....•....
X2 pn
Xn J.

unde Xi sunt valorile pe care le poate lua variabila cu probabi-


litatile Pi. În plus, trebuie îndeplinite conditiile:
1. O::SPi::S1, i=1,2, .... ,n
2.PI+P2 + .. ···+Pn=l
distributii în forma de J
Spunem ca tabelul (l) reprezinta distributia sau repartitia
variabilei aleatoare X.
Pot exista variabile aleatoare diferite cu aceeasi distributie.
Sa consideram experienta aruncarii unui zar. Întrucât
fiecare fata are aceleasi sanse de aparitie în raport cu celelalte,

distributii în forma de U probabilitatea de aparitie a oricarei fete va fi: p =~.


Variabila aleatoare asociata acestei experiente are distributia:

-1
6
-1
6
-61 -61 -61 -1
6
[1 2 3 4 5~.'.

25
24
Operatii cu variabile aleatoare
Consideram variabila aleatoare X de repartitie:
X+ y [Xl Pll+ YI Xl+
Pl2 Y2 Xl
plm
+ Ym Xn+
PnmYml j
X
Pl
[. Xl
P2
X2
Pn
'.xnJ
astfel încât II
m n

j=l i=l
Pij =1

cu valorile XI, X2,... , Xncare sunt luate cu probabilitatile P!' P2, iar Pij este probabilitatea realizarii simultane a evenimentelor
·.. ,Pn.
(X = Xi) si (Y = Yj)· Daca evenimentele (X = Xi) si (Y = Yj) sunt
Putem scrie acest lucru astfel: independente, atunci
P(X = Xl) = PI, P(X = X2)= P2, ..... etc. Pij = P(X = Xisi Y = Yj) = P«X ::::xD n (Y = Yj» ==
Daca a este o constanta nenula, atunci putem vorbi de suma = P(X == Xi) . P(Y = Yj)= Pi . ~
variabilei aleatoare X cu constanta a si produsul cu constanta a.
Astfel, vom obtine noi variabile aleatoare: a + X si aX de Exemplu: Fie variabilele' aleatoare X si. Y de repartitii:
distributii: -1 O 1

a+X
X 111 -4 -
4
PI P2
[a+ Xl
a + X2
Pn
a +Xn]
SI SI

aX PI
[aX.l P2
aX2
Daca avem variabilele aleatoare
Pn ]
aXn Y ~f'! ,\i \ !
13 \ 2\
2 'J 3J
6 __------\
X
P2 Pn
X2 •••••••.••••••••••.• xnJ

Y 2'3
1 1 2'2 III,!.!
1 1 2'6&'2 j 4'6'(4'3
1 1\ 1 1 4'2
q2
Y2 ..............•..•. j
qmYml
X+Y
sau:
("O
~_/".J'~
1 2
r-
1
.. i5'
,~
3
1 1

atunci putem defini variabilele X + Y si XY astfel: X+Y I 1 1 1 1 1 1 1 1


26
l6 4 + 12 12 +8+ 12 24 +'8 iJ
24
27
24
312
ro
-
672413
1 în care am notat cu 1 valoarea variabilei la aparitia bilei albe si

:] C\lOneaparitia unei bile albe.


Atunci
0+1
q21
qp
0·1
pq1·0
1+0 pq
În mod analog se defineste variabila produs.

x·y
sau
adica
XrX2
p2 2pq
iar variabila produs:
Xr+X2
~J
XI+X2
XI'X2
U'
[+1
G
:iJ '
O'OJ2pqZqj

'-XIYl
I{"
Pii P12
XIY2
Plm
XIYm
Pnm
xnYj
Caracteristici ale variabilelor U/
aleatoare

În cazul exemplului de mai sus, variabila X Y va avea distri-


butia:-24112-21-1281-3
OO
O O
-12121--1
-284142-2
6
(-1 4
11
(-3
14J
2~

Sa consideram un alt exemplu. Sa presupunem ca peste pro- Consideram variabila aleatoare X de distributie
babilitatea extragerii unei bile albe dintr-o urna. Dupa efectuarea
primei extrageri si întoarcerea bilei în urna, repetam experienta.
P2 Pn
Fie Xl si X2 variabilele aleatoare asociate celor doua x, XnJ.

experiente, cu distributiile: CUPI+p2+ .... Pn = 1


Numim valoare medie a variabileialeatoare X expresia:

Xl [~n X, [~ n M(X)=PIXi +P2X2+ ... +Pnxn =LPi~i


fi

i=l .
.

28 29
Proprietati Se considera ca media acestei variabile aleatoare este O,
1) M(a) = a, unde a este o constanta. Acest lucru înseamna deoarece:
ca valoarea medie a unei constante este acea constanta. M(X - M(X» = M(X) - M(X) = O.

2) M(a+X)=a+M(X) Împrastierea variabilei X ,se caracterizeaza prin variabila


3) M(a' X) = a . M(X) IX- M(X)1 - numita abatere medie, cu distributia:
4) a.:::; M(X) :::;~ , unde am notat

a. = min(x1,x2 , •••,Xn) adica cea mai mica valoare a lui X


iar ~ = max(x1, X2 ,.o.,Xu) esteceamai marevaloarea luiX.
[lXI-mi
Pl
unde am notat m = M(X).
P2
Ix, ~ml
pn
Ix, -mi J
Cel mai comod indicator al împrastierii este dat de expresia
~ M(X + Y) = M(X) + M(Y)
6) M(X' Y) = M(X) . M(Y) M[(X-mi]
relatia ultima are loc numai daca variabilele X si Y sunt care este un moment centrat de ordinul al doilea. Acesta se mai
independente. numeste adesea dispersia variabilei X si se noteaza cu a2 sau
Spunem ca variabilele X si Y sunt independente daca D(X).Avem:
evenimentele (X = Xi) si (Y = Yj) sunt independente pentru toate a2 = D(X) = M[(X - mi].
cuplurile i sij, i E {1,2,o..,m}sij E {1,2,...,n}. unde m = M(X).
Momente Proprietati
Notam prin Xkvariabila aleatoare cu distributia a) D(a) = O, unde a este o constanta, adica dispersia unei
constante este O.

[ Plx~ x~
P2 x~ J
Pn (kER) b) D(a+ X) = D(X)
Numim moment de ordinul k al variabilei X, valoarea medie a c) D( aX) = a2D(X)
variabilei Xk: d) D(X + Y) = D(X) + D(Y) daca variabilele X si Y sunt

Mk(X) = M(Xk) =
n

IPiX~
independente. În caz contrar, -
Î=l D(X + Y) = D(X) + D(Y) + 2M[(x --x)(y-y)].
Variabila X-M(X) se numeste abaterea de la medie a variabilei
X.
30 31
Variabila 82 64
D(X) =a2 =-.16 =-.•.=
16 4
a = ..jD(X) = ~M(X2) - M2 (X)
Daca X si Y sunt doua variabile aleatoare, notam prin
se numeste abatere medie patratica.
~xy = M[(X - X Xy - Y)]
Inegalitatea lui Cebâsev
Urmatoarea inegalitate spune ca probabilitatea ca variabila
-
Coeficientul de covarianta
-dintre variabilele X si Y
Prin X am notat M(X) iar Y = M(Y) .
IX - mi sa fie mai mica decât o cantitate oricât de mica, 8, este Se poate arata prin calcul ca
2
~xy = M(XY) -M(X}· M(Y)
mai mare sau egala cu expresia 1-.;-,
8 unde a este abaterea

medie patratica a v.a. X, iar 8 este un coeficient de toleranta sau Coeficientul de corelatie
prag de semnificatie. Numim coeficient de corelatie a variabilelor .aleatoare X si Y
Inegalitatea lui Cebâsev se va scrie: expreSia:
a2
P~x - mi < 8) ~ 1- -2 . P = _~_Xy_ = -===M=(X=Y=)=-=-M_(X-;:=)=
•.=M=(Y=)
8
xy O'xay ..JM(X2)-M2(X).~M(y2)--M2(y)
Exemplu. Fie X o variabila aleatoare. Sa determinam dispersia
acesteia stiind ca
Proprietati
P~x-ml < 8) ~12.
16
1) Coefi.cientul de corelatie este un coeficient standardizat,
cuprins Între valorile -1 si +1.
Se constata~ ca~ 8 =8 . A tunCl. 1 - -2
a2 =-16
15 -lsPxysl
8
De unde: 2) Daca variabilele X si Y sunt independente, atuncj
Pxy = O

3) Daca Pxy = ±l, Între variabilele X si Y exista o


De aici rezulta:
dependenta liniara. Aceasta dependenta arata astfel:

32 33
a L .!L ~ ~ '/ t 11
y - M(Y) = -y (x - M(X)), cazul p = 1
A (') ~
Aplicatii 2-,'
~ ~
~"CrJ, ~ )
"f (',
\ ~1 .1-',
P
3,'
C;

y-M(Y)
ax
a
= -_Y (x -M(X)), cazul p =-1
Se arunca 2 ~zaruri si se noteaza c~ S .nu~a~l.total
care apar. Sa se formeze tabloul dlstnbutlellUl S.
t P~~,h,l ~
)( +' \1 ,
,,\:O

ax R. Iltr!Jr~ ';),
sau
S 1 2 3 4 5 6 5 4 3 2 1 - 1 fll,i.{ , ,

x-M(X) =~(y-M(Y)), cazul p =1 .~36 36


ay 3 36
4 36
5 36
6 3636
7 '8 36 36 36
9 10 11 36
12J ) G-It

x - M(X) = - a x (y - M(Y)), cazul p = -1 2. Se da variabila aleatoare X de distributie:


ay
1
Observatie. Daca = O nu rezulta ca variabilele X si Y sunt
]
Pxy
0,7
independente sau ca exista o slaba dependenta întrey.a. X si Y.
Acest lucru poate sa însemne mai degraba ca dependenta nu este
de tip liniar. În acest caz, se analizeaza cazurile de dependenta
parabolica, logaritmica, logliniara etc.
Împrastierea unei variabile aleatoare mai poate fi masurata prin
neN
coeficientul de variatie (sau de împrastier~):

v=~
-6 1
-
Fiev.a.6
3 X 2
M(X)
1
~J
X U
Care este probabilitatea ca X sa ia o valoare mai mica sau
egala cu 3?

34
R. Sa se calcu1eze: M(X)~ M2(X), M(X2), M(X - 1), M(X2 - 2X).
1 111 1 5 R.
P(X ~ 3) == P(X == 1)+ P(X == 2) + P(X == 3) == - + - + - == - +- ==-
2 6 6 2 3 6 M(X) == 0,3+0,8+0,6+0,4 =2,1
@ Fie v.a. X, Y M2(X) =4,41
3 4 5 M(X2) = 1· 0,3 + 4·0,4+ 9·0,2 + 16·0,1 == 5,3
1 1 1

X [16 1 21 6 6 6 6
X2 [10,3 4
0,4 9
0,2 16j
O,~
2 3 4 5 7. Fie
1 1 1 1

yD 6 6 6 6
X!
[1 6
!
26
2
33 J
Care este distributia sumei X +Y ?
R. A se vedea ex. 1. Calculati dispersia lui X.
R.
5. Fie X, Y 2 v.a. cu distributiile:
112
m = M.·(X) == -
6 + 2 . -:-
6 + 3 . -3' = 2 5

o o 1
5
-p q2
8
-q -6
1 X-m -1
6
-61 -2
3
3 Y [-1 5 [- 1,5 -0,5 0,5J.
2
M.[(X-m) ] = 2 '6'
1
25·~+ 025·-+025·--
1 4
==
1
-(2 5+1) ==-
35
Care este distributia v.a X+Y si XY? 6' 66' 60

6. Fie
8. Fie X o v.a. cu media ro si dispersia a2• Sa se calculeze

v al oarea me d"IesI d'lSperSla


. v.a. Y == X- m
X [10,3 2
0,4 3
0,2 4,
O,~ a

36 37
R.
--
Construim variabilele X si Y atasate rezultatelor obtinute la

=-
1 Il 1 58 -- 23
26
8 "A",
58
examenul 9 812
respectiv "B".
m(Y) (J :L)xi
i=1 -m)pi =-fLpiX;
(j"
-mLP;]=
YX
O
4

~]
;7]
[~
(J2 = M[(X - m)2] . Sa consideram v.a. (X - m)2 de distributie:

X-ro
[10
Pl P2 Pn
2 [(xl-mi (X2-m)2 (xn-mi]
Atunci
n TI. n

(J~ = LPi(Xi _m)2 = LPiX; -2mLPixi +m2 =


i=1 Î=I i=1

mI = M(X) = 4·10+9·8+8·23+7·23 _457


58 - 58 = 7,88
9. O grupa de 58 de studenti sustin doua examene la
m2 = M(Y) = 10·3+9·12.+8·26+7·17 465
disciplinele "A" si "B". Ne punem întrebarea daca exista 58 = 58 = 8,02
vreo legatura între rezultatele obtinute la cele doua examene.
Pentru aceasta, vom calcula coeficientul de corelatie. 82
Distributia rezultatelor studentilor la cele doua examene este X2 4 23 23
prezentata în tabelul urmator: 58 58 58
[.10' 72J
••••
=::1 ~(l;Iia 8
oo --::1 7
X68
2O13
4
12
26
15
910
Total
O 124
7 9
48Note
17
23
58 2O31 yobtinute la examenul "B"
3 10
,.Q
.•..(l;I
10
Total 82
y2 3 26 17
58 58 58
[1 02 72J

M(X2) = 4.102 +8.92 +23.82 + 23.72 = 3647. = 6288


58 58'

39
M(y2) = 3.102 + 12.92 + 26.82 + 17 .72 = 3769 = 64 99 Capitolul IV
58 58'

M(XY) = 2·100 + 2 ·90 + 1· 90 + 6 . 81 + 1·72 + 4 . 72 + 15 . 64 + INDICATORI AI CARACTERISTICILOR


58
CANTITATIVE
+ 4·56 + 10·56 + 13 . 49 = 3697 = 63 75
58 58'
mi = M2 (X) = 7,882 = 62,09 Prin indicatori vom întelege acele valori.atasate variabilelor
m~ = M2 (Y) = 8,022 = 64,32 cantitative, care exprima, sub forma sintetica, informatia conti-
nuta în distributia variabilei respective.
O"~ = 62,88 - 62,09 = 0,79; o"x = .J0,79 = 0,89
Exista trei tipuri de indicatori:
O"~ = 64,99 - 64,32 = 0,67; O"y = 0,82 indicatori de pozitie sau ai tel1dintei centrale de grupare;
M(XY) - M(X)· M(Y) = 63,75 - 63,20 = 0,55 indicatori de dispersie sau de împrastiere;
Atunci indicatori ai formei distributiei.
1. Indicatori ai tendintei centrale de grupare
= M(XY) - M(X) . M(Y) = 0,55 = O75
Pxy O"x'O"y
07'"
,.)
' Din seria indicatorilor de pozitie sau a tendintei centrale de

Se constata astfel ca între variabilele X si Y exista o corelatie grupare, vom mentiona:


directa destul de puternica. 1. Media aritmetica sau, simplu, media
Daca Xl, X2, •••. , Xn sunt cele n valori pe care le poate lua
o variabila cantitativa, atunci valoarea mediei va fi:
_ 1 1 Il
X =-(x1
n +x2 + .... +xn)=-
n LXi
i=l

Daca valorile Xi sunt luate cu frecventele fi, atunci


- 1 Il
X =-n 't"rxL..J
i=l
1 1

40 41
il
Exemplu. Sa consideram numarul. familiilor dintr-un imobil
atunci X = M(X) = LPiXi
dupa dimensiunea acestora (numarul de persoane ce alcatuiesc i=l

familia respectiva,). Valoarea medie se mai numeste si speranta matematica a


Nr. persoane 1 Total variabilei X.
Nr. familii 10 80 2. Mediana unei variabile cantitative X este acea valoare
notata Me a lui X pentru care are loc egalitatea:
Se constata ca numarul total de persoane este:
1
P(X < Me) = P(X >Me) =-2
1·10+2·15 +3· 25 +4· 20 +5·8 + 6· 2 = 10+30+ 75 + 80 +
+ 40+12 = 247 Din punct de vedere grafic, mediana este acea valoare a lui
Atunci dimensiunea medie a familiei va fi: X pentru care ariile din histograma despartite de ordonata lui Me
suntegale.
247 =3,087 persoaneI familie.
80
Desigur ca nu poate exista o astfel de familie, dar acest indicator
ne arata, în cazul familiilor absolut omogene, pe unde s-ar situa
dimensiunea acestora.
În cazul unei variabile aleatoare discrete X

2 3 4 5 6
0,07 0,08 0,13 0,32 0,22
Me
valoarea medie este Cazul variabilei discrete
X = 1· 0,05 + 2·0,07 + 3·0,08 + ... + 7·0,13 = 4,78
iar în forma generala

il
X [XI
PI P2
x, Pn
Xn .J Pi ;:::0; LPi
i=l
=1

42 43
Exemplu. Fie o variabila cantitativa continua, de exemplu di-
mensiunile llIlor piese, care au fost observate ca variind între 60
m.m si 168 mm.Apestinterval a fost împartit, din motive prac-
tice, în intervale de6mm.~ ..~-----,-'-------~~------:,
obti:nându-se discretizareavariabilei --. ----
-
."..•.. ..

urmatoarea tabela: '


-:-
Intervale Centrul Frecventa de
intervalelor aparitie
60-66 63 3
Me 7
66-72 69
Cazul variabilei continue 72-78 75 11

Daca valoarea mediana Me coincide cu o valoare Xi a variabilei 78-84 81 34

84-90 87 37
X, atunci valoarea mediana este bine precizata. Daca însa acest
90-96 93 38
lucru nu se întâmpla, avem de-a face cu un interval median. În
96-102 99 30
practica, se obisnuieste sa se ia drept valoare a lui Me mijlocul 102-108 105 41
acestui interval. 111 22
108-114
Exemplu. Variabila atasata experientei de aruncare cu zarul are 114-120 117 15

120-126 123 16
distributia uniforma:
126-132 129 6
5
l l l l l lJ 132-138 135
141 3
X 138-144
666 6 6 6 144-150 147 1
[1 2 3 4 5 6
Intervalul median este [3,4] iar valoarea medianei Me va fi: 150-156 153 O

, 156-162 159 O
M =3+4=35 1
e 2 ' 165
Total 270
3. Modul sau valoarea dominanta este în acelasi timp si \162-168

valoarea cea mai probabila pe care o poate lua variabila X. Se


noteaza prin Mo sau X.

44 45


50
exista o relatie aproximativa, valabila pentru distributii cel ,mult
40 usor asimetri~e:
30
20
Ma = 4Me -3x
10
Valorile celor trei indicatori ai tendintei centrale sunt fo-
O I IEI60-66 11II66-72 13172-78 IEI78-84 1184-90
Iosite pentru construirea parametrilor care redau forma distri-
1190-96 11III96-102 11102-10811II108-11411114-120
E!l120-126 11126-132 11II132-13811II138-14411I144.150 hutiei.
11II150-156II 156-162 rm 162-168

ll. Indicatori de dispersie


Indicatorii de dispersie caracterizeaza o populatie statistica
Frecventa maxima se obtine pentru x = 105, dar dj,n
din punctul de vedere al omogenitatii (eterogenitatii), în raport
examinarea histogramei se constata ca aceasta frecventa maxima
cu o variabila cantitativa data.
pare a fi accidentala în examinarea tendintei generale a fenome-
În anumite situatii, indicatorii de dispersie pot reflecta
nului statistic si, ca atare, ar putea fi datorata faptului ca în esan-
gradul de inegalitate între indivizii statistici, în raport cu o
tionarea a 20 de observatii studiate, hazardul a grupat în inter-
anumita caracteristica.
valul 102-108 o fractiune mai importanta decât aceea care se
În modelele explicative, indicatorii de dispersie pot explica
gaseste în mod normal în populatia statistica.
gradul de nedeterminare, de variabilitate al unui fenomen.
Trasarea curbei frecventelor implica, pe lânga continuitatea
fenomenului, si o fonna potrivita, clasica, astfel încât aria totala
Amplitudinea
sa fie aceeasi, prin compensare.
Este diferenta dintre cea mai mare si cea mai mica valoare.
În acest exemplu histograma indica, de fapt, ca modul valoarea
A = Xmax - Xmin
95. Curba se efectueaza printr-o ajustare analitica.
Între valorile: Quantile
Fie X o variabila aleatoare al carei argument x este definit în
Ma - modul sau valoare modala
intervalul [a, b]. S-a vazut ca pentru determinarea medianei Me
Me - valoarea mediana
trebuie rezolvata ecuatia
x - media
1
F(x) = 2
46 47
unde F(x) = P(X < x) este functia de repartitie a variabilei X. - QI se mai numeste cuartila mica sau inferioara;
Numim quantile de ordinul n ale variabilei X, radacinile - Q3 cuartila mare sau superioara.
ecuatiei: Diferenta:
i
F(x)=-, i= 1,2,....,n-l
1= Q3-QI
n se numeste abatereaintercuartlla (sau abaterea cuartiIa).
pentru nE N dat, iar F(x) este functia de repartitie.
Pentru n = 2 se obtine mediana Me. Valoarea:
Pentru n = 4 , cele 3 radacini: QJ, Q2, Q3 se vor numi cuartile
Pentru n = 10 solutiile se numesc decile
Pentru n = 100 solutiile se numesc centile se va numi abaterea semiintercuartila

Daca reprezentam grafic curba de distributie, quantilele de Adesea se foloseste o valoare relativa (standardizata)
ordinul n împart suprafata marginita de curba de distributie, axa --
Q3 -Ql
ax si ordonatele x = a, x = b în n parti de arii egale (sa~ împart 0.2

multimea indivizilor în n parti egale). numita abaterea intercuadila relativa.


Sa consideram rezultatele obtinute pe un lot de 1000 persoane la
un test cu valori de 11a 10.

-o
e:l :> .-<
() :::s
'i:
>
~
~~d
o()
.•.. 40
o-9
2130
1
25,
()
co .S
~
S
'"'o
7
-
3120
5830
8
6220
4
20
110
670
40
940
980
1000
200
250
450
90 160
:::s
CZl
1
0 15
CIlI -
o
E-I

a o
,o

.--
a=Qo

În cazul cuartilelor

,----
mediana:
QI

in = 4). a dou~artila -------


este egala cu·

~;3~~ 49
Amplitudinea: 10 - ·1= 9 pentru i:j::. j, în cazul caracteristicilor :fara frecventa, sau
Prima cuartila, care se obtine prin delimitarea primilor 250 1.n n
de indivizi este 4, mediana este 6 (deoarece sub 5 sunt 450 de G= L:L:IXi -
n(n -1) i=lj=l
Xii fifj

indivizi, iar sub 6 sunt 670).


pentru i :tj ,în cazul caracteristicilorcu frecventa (în care fi este
A treia cuartilaeste 7 (sub 7 sunt 830 de indivizi, deci si al frecventa relativa a valorii xD.
750-lea). Asadar,
Exemplu. Într-o sesiune, un student a obtinut la 5 examene
Ql =4
notele 6,7,8,9,10. Pentru a calculaindicele lui Gini, vom lua în
Q2=Me=6
calcul diferentele în modul:
Q3=7
16 - 71, \6 - 81, 16- 91, 16-101,17 - 6\' 17 -'-81, 17 - 91, 17 -101 '

1 = Q3 - Ql = 7 - 4 =3
18- 61, \8- 7[, 18- 91, \8 -101, 19- 61, 19- 71, 19 - 81, 19 -101 '
1 = Q3 - Ql _ 7 - 4 - O 5
rei Q2 --6--' 110- 61, \10- 71, 110- 81, \10- 91

Utilizarea decilelor si a centilelor se practica pentru a masura S = 1+ 2 + 3 + 4+ 1+ 1+ 2 + 3 + 2 + 1+ 1+ 2 + 3 + 2 + 1+ 1+ 4 +


inegalitatile dintre oameni. +3+2+1 = 40
Exemplu. În cazul venitului (pe familie sau pe cap de locuitor,
Deci: G = _1_.40 =2
etc.) se calculeaza venitul mediu al primilor 10% (cei mai 4·5
bogati) si venitul mediu al ultimilor 10% (cei mai saraci) si se Aceasta valoare.nespun~ ca diferental11€i\die îIltre dO\la valori
compara cele doua valori, printr-un indice standardizat. diferite este de 2.

Indicele lui Gini Abaterea medie


Corrado Gini a propus un indice ca fiind media aritmetica a
Daca a este o constanta, atunci marimea AM(a) =.1- ~:IXi-al
diferentelor dintre toate perechile de valori luate în valoare n i=l
absoluta (fara sume):

pentru o serie de valori individuale sau pentru o

50 51
repartitie de frecvente se va numi abaterea medie de la a. Daca
a = m = M(x), atunci AM(m) este abaterea medie de la media lui t(Xi -X)ri
0'= i=l n pentru o repartitie de frecvente.
X, sau mai simplu, abaterea medie.
Yule si Kendall au aratat ca cea mai mica abatere medie se
L)i
i=l

obtine atunci când se ia drept constanta a valoarea medianei Me. Expresia


În exemplul anterior, Me = 8 si abaterile de la mediana vor fi:

16 - = 2 ; 17 - 81 = 1; 18 -
81 81 = O; 19 - 81 = 1; 110 - 81 = 2;.
se mai numeste dispersie sau varianta.
Media acestor 5 valori va fi:
Daca populatia statistica este· conceputa ca o multime de
2+1+0+1+2 =~=12 grupuri, atunci media generala a caracteristicii este egala cu
5 5' media mediilor fiecarui grup.
Media celor 5 note va fi:
Varianta o'~ se va numi în acest caz varianta intergrupala:
(6 + 7 + 8 + 9 + 10) : 5 = 8, iar abaterea de la medie:
2.15 --2
x =- "n.(Xj
(2 + 1+ O + 10 + 2) : 5 = 1,2. Aceasta valoare coincide cu 0'- L.J -x) J
n j=l
valoarea obtinuta cu calculul medianei, deoarece în acest caz
mediana si valoarea medie au aceeasi valoare. unde s este numarul grupurilor, iar
nI+n2+ ... +lls=n

Abaterea patratica medie (abatere standard, abaterea tip, a) Se poate calcula o medie a variantelor din cadrul grupului,
Abaterea patratica medie este radacina patrata din media notata cr , numita varianta intragrupala data de formula:
aritmetica a patratelor abaterilor valorilor observate în raport cu -2 1 n 2
C'i = - "n.O'.
L.J J J
media lor aritmetica: n j=l
Se demonstreaza ca:
0'= .1-
n1 L.J
i=l
Xi -
~ (_)2 x pentru o sene. d e v al on..m d'IVI'dual esI .
C'i
2
= -2
a + C'i-2x
adica "varianta totala" se descompune în suma dintre varianta
intragrupala si cea intergrupala.

52 53
Coeficient de variatie (al lui Pearson) 2. Indicatori de boltire

Raportul dintre abaterea standard si media variabilei X se va Acest indicator are expresia:

numi coeficient de variatie:


1 n -
B =--4
nO"
~:CXi
i=l
_x)4_3
v x--=-
_O"x
X si este pozitiv în cazul boltirilor pronuntate:

ID. Indicatori ai form~i distributiei


Forma distributiei unei caracteristici cantitative este masurata de
doi indicatori:

1. Oblicitatea = x-M o ==
3(x-Me)
(J O" si negativ în cazul boltirilor aplatizate:
(Formula lui Pearson)
Daca aceasta expresie are semn pozitiv, curbele sunt alungite
catre dreapta:

Calculul acestor indicatori se poate executa cu ajutorul


calculatorului electronic pe baza programului "SPSS".

iar când expresia este negativa, alungirea este spre stânga:

54 55
Capitolul V caracteristici (care poate fi înaltimea) si are locul Întâi în ordinea
crescatoare a celei de a doua caracteristici (de ex. greutatea).
.
CORELATIA RANGURILOR Daca am fi avut ordinea (2):
VI V2 V3 V4 lIs V6 V7 Vg V9 VIO

(2) 3 1 10 6 2 5 7 8 4 9
Sa presupunem ca avem o serie de n unitati statistice: 3 1 10 6 2 5 7 8 4 9
VI, V2, .... , Vn înseamna ca am fi avut cea mai strânsa legatura între cele doua
fiecare dintre acestea având doua caracteristici caracteristici. În acest caz, fiecare persoana Vi ocupa acelasi loc
(Xl, YI), (X2, Y2), ... , (xn, Yn) în ordinea ierarhica a celor doua caracteristici.
De exemplu, aceste n unitati statistice pot reprezenta n persoane, Daca, dimpotriva, am fi avutOJ:dinea (3)
iar caracteristicile pot fi înaltimea si greutatea celor n persoane. UI V2 V3 U4 Us U6 V7 Vg V9 UlO

Problema care se pune este daca exista o corelatie între aceste (3) 3 1 10 6 2 5 7 8 4 9
doua caracteristici. 8 10 1 5 9 6 4 3 7 2
Sa admitem ca s-a facut urmatoarea înregistrare a datelor pe atunci am fi avut discordanta maxima între aceste doua
un lot de 10 persoane si ca aceasta înregistrare s·a facut dupa caracteristici.
doua caracteristici: Daca consideram clasificarea (1), diferentele dintre linia II si
VI U2 V3 V4 Us U6 V7 Vg V9 VIO linia III sunt:
(1) 3 1 10 6 2 5 7 8 4 9 di:2, -1, 1, -1, --2, 2, 1, -2, --1, 1
1 2 9 7 4 3 6., 10 5 8 Se observa ca : dl +d2 + ... + dJ()== O.

Astfel, în înregistrarea (1) am asezat în prima linie cele 10 De altfel, în general


persoane. n

L:dj =0
În linia a doua am înregistrat locul pe care îl ocupa fiecare i=1

persoana în raport cu prima caracteristica, iar pe linia a treia, Cu cât diferentele di sunt mai mari în valoare absoluta, cu atât
aceeasi ordine referitoare la a doua caracteristica. De exemplu, avem o discordanta mai mare între caracteristici.
persoana V I este al treilea în ordinea crescatoare a primei Astfel, este propus urmatorul coeficient:

56 57
n
crescatoare de la 1 la 10, iar persoanele Ui (i =1, ... 10) au
Ld;
p = 1- 6 i=! (n> 1) aceleasi caracteristici în ambele clasificari.
n(x2 -1) Sa constatam ca prima persoana din înregistrarea (4) ocupa
numit coeficient de corelatie a rangurilor al lui Spcarman. În locul 1 în ce priveste prima caracteristica si locul 2în ce priveste
cazul exemplului de mai sus, a doua caracteristica. Exista deci 9 persoane care depasesc pe U2
10
în ce priveste prima caracteristica si numai 8 care îl depasesc pe
Ld;
i=l
= 22.
U2 în raport cu a doua caracteristica.
Prin urmare: Practic, obtinem urmatorii indicatori

= 1- 6 . 22 = O 867
8, 6, 7, 5, 5,3, 3,0, 1
P 103 -10 ' astfel: locul 2 de pe linia a 3-a din tabloul (4) este depasit de 8
Se stie ca pE [-1,1], ceea ce înseamna ca acest coefi'cient ia pozitii. Locul 4 de 6 pozitii, locul 1de 7 pozitii s.a.m.d. Vom
valori cuprinse între -1 si 1. Când P = 1 avem concordanta nota cu P suma numerelor mai mari (care depasesc o anumita

maxima Între cele doua variabile, iar când p = -1 avem pozitie) si prin Q suma numerelor mai mici (care sunt depasite
de acea pozitie).
discordanta maxima între cele doua variabile.
Astfel:
Valoarea p = 0,867 , fiind destul de apropriata de 1, arata ca
P = 8 + 6 + 7 + 5 + 5 + 3 +3 + 0+ 1 = 38
Între cele doua caracteristici exista o corelatie destul de strânsa.
8=1+2+0+1+0+1+0+2+0=7
Kendall a propus urmatorul indicator pentru concordanta
Coeficientul de corelatie a rangurilor al lui Kendall
rangurilor:
Sa reIuam exemplul anterior si sa luam în consideratie
2(P -Q)
urmatoarea clasificare: r=---
n(n..,.l)
U1 U2 U3 U4 Us U6 U7 U8 U9 UlO
Când r =. 1.obtinem concordanta maxima, iar când r = -1· se
(4) 1 2 3 4 5 6 7 8 9 10
obtine discordanta maxima. ~.Jlre loc independenta
2 4 1 5 3 7 6 10 8 9
între cele doua caracteristici.
Tabloul (4) contine aceleasi elemente ca si clasificarea (1),
Încazulexenlpluluinostru
cu diferenta ca în linia a doua rangurile au fost scrise în ordine
58 59
r = 2(38 -7) = O69 Capitolul VI
10-9 '
ceea ce indica o concordanta pozitiva. ANALIZA DE REGRESIE
P se mai numeste indicator al concordantei pozitive, deoa-
rece el creste o data cu cresterea lui r, în timp ce Q se va numi
indicator al concordantei negative, întrucât r descreste când el În statistica sociala întâlnim adesea repartitii în care fiecarei
creste. unitati a populatiei îi corespund simultan doua sau mai multe
Acest coeficient al lui Kendall se aplica numai pentru serii caracteristici. Astfel de.repartitii se mai numesc bidimensionale.
mari. Pentru serii mici, dispersia acestui coeficient are valori Ele ne pot sugera existenta U110rrelatii între caracteristicile
man. respective.
Prezenta sau absenta unor astfel de relatii, ca si amploarea
acestora, formeaza obiectul analizei seriilor interdependente. Ea
presupune analiza simultana ahd6ua variabile si foloseste doua
tipuri de metode statistice: regresia si corelatia.
De regula, una dintre aceste doua variabile este considerata
ca variabila independenta sau explicativa, în timp ce a doua este
o variabila dependenta. Acest lucru are .loc.daca a doua variabila
prezinta modificari la variatiile primei variabile. Analiza·acestei
dependente se. face prin metoda regresiei. Termenul de regresie
a fost dat de statistici anul englez Francis GaIton (1822-1911) si
el stabileste legatura care exista între cele doua variabile X si Y.
Cazul cel mai simplu de regresie este cel liniar. Asta înseamna
ca punctele Ai(xi,yi) se distribuie în jurul unei drepte:
y= a+bx (1)

60 61
Reprezentate în plan într-un sistem de axe coordonate, o x x x
x x xx
astfel de legatura de tip liniar poate avea una din urmatoarele x x x x
x x xx
forme: x x x x x
x x x x x
x x x x x
x x x xx
x x x

a>O a<O
3) 4)
b>O b>O
a
Determinarea parametrilor a si .b .din ecuatia dreptei de
x x regresie se face cu ajutorul metodei celor. mai mici patrate,
o
care spune ca "suma patratelor diferentelor dintre valorile
empirice Y i si valorile teoretice Yi date de ecuatia de regresie, sa
a<O
a>O fie minima. Grafic, patratul diferentelor dintre Yi si Yi. se
b<O
a b<O exprima prin aria unor patrate ale caror laturi sunt egale cu Yi-
Yi . Suma ariilor. acestor patrate va fi cuamt mai mica cu cât
valorile empirice ale lui Y se vor apropria mai mult de valorile
teoretice corespunzatoare
Acestor tipuri de legaturi liniare le corespund diagramele de n
împrastiere a valorilor celor doua variabile:
S= I(Yi -Yi)2 =
i=1
minim (2)

x x
x x x x x si tinând cont de formula (1), se obtine conditia:
x x x x x
x x x n
x x
x x x x x L(Yi -a-bxi)2 = minim (3)
x x x xx
x x x i=l
x x
x x x x x
x x x x Utilizând metode ale .analizei matematice, am.darol
derivatelor partiale în (3), se obtine sistemul în necunoso\ltel~u'
1) 2) si b:

62 63
n n

na+bLxi = LYi (4) PO"I == P0"2


i~1 i~1
O"2 0'1
n n n

aLxi +bLx; = LXiYi sau 0"1==0"2


i=1 i=1 i~1
Prin urmare, cele doua drepte de regresie coincid daca
dispersiile 0'1 si O' 2 sunt egale.
a carui rezolvare conduce la solutiile:
Sa luam drept exemplu dol1a variabile.X si Y, pentru care au
a =------
m20"1-m1P0"2 SI. b =-_
pa2 (5) fost înregistrate 15 observatii conform cu tabelul de mai jos:
O"I 0"1 Tabelul]
Se obtine astfel dreapta de regresie 1 -91
944
9
1
141089
11
4
33 -9
1417Vi
X~
107
1
12
3933
3326
3 2639
196
-5
-3
24
16
8
3
19
196858
9
16
168
126
561
238
-. 1 I 13
165 17
O
O627
XiYi Xi
y-m2 =:-P0"2
-.-(x-mI
0"1
) (6) !~-
10 543
2698
14
1511
7
1:
65
Y==a+bX

Ecuatia de regresie are forma:


unde mI, mz sunt M(X), M(Y) - adica mediile variabilelor X si
Y, 0"1' 0"2- dispersiile lor, iar P - coeficientul de corelatie.
În mod analog, daca ne propunem sa determinam parametrii
arbitrari a si b astfel încât
n

M(x-a-by)2 =: L(xj -a-byJ2 =minim


i~1

vom putea obtine o alta dreapta de regresie:


PO"l
y-m2 =-(x-ml) (7)
0"2

Cele doua drepte de regresie date de relatiile (6) si (7) se


intersecteaza în punctul de coordonate G(mI, mz) care se va
numi centrul de greutate al distributiei.
În general, aceste drepte de regresie sunt diferite, afara de cazul .
când
64
unde Capitolul VII

SI
ANALIZA DE DEPENDENTA

b= LXiLYi -n:L:XiYi
(LxJ2 -nIx~ Conceptul de analiza de dependenta sau cum era cunoscut
Confonn datelor din tabelul 1, obtinem: anterior, pathanalysis sau cauza!. an~lysis se refera la determi-
a = -0,45; b = 0,69, deci narea relatiilorîntre un ansamblu de variabile în contextul unei
Y = -0,45 + 0,69X structuri cauzale, adica o structura a unui grup de variabile între
cu reprezentarea grafica: care se 'constata sau se presllpun anumite relatii de interde-
Y pendenta.
Prin variabila vom întelege orice criteriu de•clasificare, fie
ca este vorba de o însusire dihotomica(sexul), de ordine (nivelul
de scolarizare) sau cantitativa (yenitul).
Principalele modele propuse de Simon, Blalock si R.
x Boudon se bazeaza pe observatia coeficientului de corelatie
liniara între variabile si nu se departeaza de tehnicile clasice ale
analizei de regresie.
Vom nota prin X un ansamblu de variabile
X=(Xl,X2, .... )
Un model de structura cauzala va fi o structura cauzala în
care ipotezele sunt facute pe baza notarii relatiilor între
variabile.

66 67
Modelul recursiv
Faptul ca variabila Xl este determinata de variabila XI, îl vom
Acest model a fost studiat si dezvoltat de M. Simon, H. scrie analitic astfel:
Blalock si R. Boudon, De el s-au mai ocupat Duncan si Alker. X2= al2XI+e2 (1)
adica X2 este functie liniara de o singura variabila .xl; ez -
Ipotezele modelului recursiv
masoara reziduul,adica abaterea dintre valoarea variabilei Xl si
Ipoteza 1. Relatiile dintre variabile sunt liniare.
cantitatea explicata de X2; M. Simon îl numeste termen de
Asta înseamna ca orice variabila a grafului este exprimata ca eroare, iar R. Roudon îl numeste factor care actioneaza implicit
functie liniara de una sau mai multe variabile care o preced în asupra lui x2.Graful asociat relatiei (1) este în acest caz:
graf.

.'\..
/!
Xl e2
În acest caz, graful constituie reprezentarea· grafica a rela-
tiilor analitice si defineste structura cauzala.
De exemplu, sa presupunem ca avem un model sub forma de
graf orientat cu patru variabile Xl, X2,X3,X4,în care sagetile arata X2
influentele exercitate de unele variabile asupra altora. Fig. 2
În fig. alaturata avem un astfel de model:
Daca se aplica acestui model metoda celor mai mici patrate a
lui Gauss, atunci coeficientul al2 poate fi privit drept coeficien-
tul de regresie al lui X2în raport cu Xl-
A doua ecuatie din modelul analitic asociat grafului din fig.
1,va fi:
X3=a23XZ+ e3, (2)
daca variabila X3este functie liniara numai de Xl·
În tine, X4este functie de X2sLde X3,deci:
X4= a24X2+ a34X3+ e4 (3)
X4
Nu exista termen în Xl pentru ca riu exista sageata între Xl si X4·
Fig. 1
68 69
Sa mai observam ca în modelul din fig. 1, XI este o variabila
primara, ea nefiind influentata de o alta variabila din sistem, în
timp ce variabilele X2,X3si X4sunt variabile dependente.
Ipoteza 2. Nu exista efect de interactiune. Acest lucru
înseamna. ca .relatia dintre doua variabile nu este functie de o a
treia.

Un exemplu sugestiv este dat de Boudon si Lazarsfeld, care


studiaza influenta vârstei si a nivelului educatiei scolare asupra X4
receptarii radiofonice a muzicii clasice.
Fig. 3
Luata separat, fiecare variabila nu prezinta nici o relatie
particulara cu ascultarea muzicii clasice. Pe de alta parte, daca
iar sistemul asociat grafului din fig. 3 va ti:
s-ar studia subpopulatia adulta, s-ar constata ca exista o relatie
X2= aI2XI+ e2
între receptarea muzicii clasice si nivelul de educatie. Cei cu un
X3= aI3XI+ a23x2+ e3
nivel de instmire mai ridicat recepteaza mai mult emisiunile de
X4= aI4XI+ a24X2+ a34X3+ e4
muzica clasica decât alte tipuri de emisiuni.
Facând ipoteze simplificatoare privind prezenta saualisenta
Aceasta a doua ipoteza este cumva cuprinsa în prima.
relatiilor între variabile, vom putea construi un graf derivat din
Ipoteza 3. Reziduurile ei nu sunt corelate între ele.
primul, obtinut deci prin suprimarea anumitor sageti.
Asta înseamna ca în graf nu exista sageti între ei pe de o parte,
iar pe de alta parte nu exista sageti nici între ei si Xjpentru i -::f= j.

Constructia unui model de structura cauzala


Sa consideram grupul de 4 variabile ordonate:
XI, X2, X3, X4
si sa construim un graf complet, adica orice cuplu de variabile X4
este legat printr-o sageata:
Fig. 4

70 71
Atasam grafului derivat din fig. 4 sistemul de ecuatii corespun- S12
zator: bJ3,2= r13,2.-'
S3,2
X2 = a12Xl + e2 care leaga coeficientul de regresie partiala de cel de corelatie
(*) X3 = a23X2 + e3
partiala. De aici rezulta rl3,2= O.
X4 = a24X2 + a34X3 + e4
În continuare, se poate proceda în doua moduri:
Dupa cum se poate constata, absenta unei sageti în graful
1. Se calcllleaza acest coeficient pe baza datelor empirice,
orientat este echivalenta cu anularea coeficientului de regresie aij
pentru a se vedea daca el este apropiat de zero (în
corespunzator.
practica este putin probabil ca el sa fie egal exact cu
Analiza si testarea modelelor matematice ale structurilor
zero!)
cauzale se poate face în multe feluri. O cale este aceea prin care
, între coeficientii, de corelatie.
2. Sa se deduca o relatie ,
verificam daca··90eficientiiaij corespunzatori sagetilor absente
Astfel, r13,2= O antreneaza IJ3 = ru . r23, deci produsul
sunt nuli, metoda utilizata de H. Blalock. Altfel, putem rezolva
sistemul (*), pentru a-l urma pe R. Bou~on. Iu . r23 calculat da o valoare teoretica a lui r13,pe care
o notam ~3; aceasta valoare poate fi comparata cu
Modelul lui Blalock
valoarea obtinuta empiric a lui rl3, calculata direct pe
Dupa construirea structurii cauzale si a sistemului de ecuatii baza datelor.
asociat, Blalock ia în consideratie numai coeficientii aij care sunt În cazul modelului lui Blalock, în situatia când anumite
nuli, ca urmare a ipotezelor initiale.
legaturi cauzale sunt presupuse nule, problema care se pune este
Acesti coeficienti sunt coeficientii de regresie partiala din
de a sti ce se întâmpla daca una dintre ele este gresit pusa.
ecuatia analizei de regresie care este avuta în consideratie.
Astfel, daca ipoteza care conduce la o anumita ecuatie, de
Astfel, în schema din fig. 4, care are asociat sistemul (*),
avem: = O, este gresita, a; trebui sa. ne asteptam. ca ansamblul
ex. 1'13,2
t)
valorilor teoretice care au intrat în aCel;istarelatie sa se îndepar-
al3 = bl32
teze sensibil de valorile empirice corespunzatoare.
care este coeficientul de regresie partiala între Xl si X3; deci
Daca însa ipote:.la pusa legata de o veriga intermediara este
al3 = Oeste echivalent cu b13,2 = O. Pe de alta parte
falsa, numai acest din urma coeficient va prezeuta O variatie
72 73
sensibila în raport cu valoarea empirica corespunzatoare, rara ca Totodata este lasata ,la latitudinea si competenta cerceta-
ecuatiile si deci legaturile anterioare sa fie afectate. torului decizia de a se introduce o noua legatura cauzala în
În ambele cazuri, eroarea este de aceeasi natura. Daca o modelul explicativ .propus .si în ce masura aceasta decizie are
relatie este falsa, adaugarea sagetilor corespunzatoare poate sa rolul de a îmbunatati modelul propus.
îmbunatateasca modelul propus.
În situatia în care o greseala se repercuteaza asupra mai
multor relatii, vom avea tendinta sa respingem modelul. Daca
eroarea ramâne localizata asupra unei singure relatii, modelul
poate fi recuperat, indicându-se astfel si modalitatile de
ameliorare.
Din punct de vedere metodologic, un alt punct controversat
al acestui model consta în aceea ca nu este propus nici un test
care sa indice gradul de apropiere a valorilor teoretice de cele
empirice. În acest sens, cercetatorul are mai multa libertate de
decizie, de validare sau invalidare a modelului propus, de
îmbunatatire a acestuia atunci când rezultatele obtinute nu au
fost satisfacatoare.
Constructia apriorica a structurilor cauzale recursive deduse
din ipoteze sau rezultate din teorie ar trebui sa 'fie urmata de o
analiza profunda a validitatii prezentei sau absentei fiecareia
dintre relatiile date. Aceasta analiza ar consta dintr-un sir de
analize de regresie, aplicabile
l primelor variabile ale modelului,
apoi variabilelor intermediare introduse pe parcursul analizei.
Metodologia aceasta ofera posibilitatea si chiar oportunitatea
revenirii periodice asupra ipotezelor modelului si eventuala
ameliorare a acestora.
74 75
Capitolul VID controlate, .•cu rezultatele care s-ar fi obtinut daca. ar fi fost
anchetata întreaga populatie adulta; Acest lucru este cu adevarat
SONDAJUL STATISTIC SI remarcabil.
ESANTIONUL STATISTIC Desi cu vechi traditii, sondajul statistica capatat notorietate
stiintifica în prima jumatate a secolului 20. El a fost aplicat cu
mult.succes în perioada interbelica prin anchetele si rezultatele
Ce este sondajul statistic? obtinute de George Gallup în SUA .si mai apoi în Franta si
Procedeul statistic prin care reusim sa prelevam o parte din Anglia anilor premergatori celui de-al doilea razboi mondia1.
populatia intrata în studiu, denumit univers de esantionare, se În aceeasi perioada s-au realizat progrese notabile în teoria si
va numi sondaj statistic sau selectie. Rezultatul acestei opera- practica sondajelor statistice,prin contributiile aduse de lucrarile
tiuni se va numi esantion. lui J.Neyman privind esantionareasimplu aleatoare, stratificata,
Asadar, esantionul este subcolectivitatea extrasa din multistadiala, construirea optimala a unui esantion stratificat etc.
populatia totala, pe care dorim sa o studiem. Neavând intentia Odata puse bazele teoriei sondajelor, cercetarile s-au îndrep-
(si adesea nici posibilitatea) de a studia fiecare unitate statistica tat în directia· problemelor practice pe .care. le ridica utilizarea
a întregii populatii, scopul nostru este sa alegem esantionul de sondajelor: metode de esantionare, de estimare, de alcatuire a
asa maniera, încât studiindu-l, rezultatele obtinute sa poata fi chestionarelor de opinie, <:leinstruire a operatorilor de teren,
extinse asupra întregii populatii din universul de esantionare. codificarea si prelucrarea datelor recoitate, interpretarearezul.,
În preajma alegerilor electorale locale sau generale, tatelor obtinute.
candidatii si formatiunile politice interesate doresc sa afle cum Toate acestea au fost posibile ca urmare a dezvoltarii si utili-
se pozitioneaza ierarhic în preferintele electoratului. În cazul zarii metodelor statistice, cu precadere a statisticii inferentiale.
alegerilor generale, universul de esantionare înseamna populatia Contributii esentiale în acest domeniu si-au adus K. Pearson,
adulta a tarii, adica de peste 18 ani împliniti. Asta înseamna J. Neyman,·A.N. Kolmogorov, R. Fisher,Feller, Gnedenko etc.
aproximativ 16 milioane de alegatori. Statistica reuseste ca, prin În. anii din· urma, desi practica sondaj elor .statistice a luat o
respectarea riguroasa a anumitor reguli, sa extraga un esantion amploare. f"ara.precedent, utilizarea metodelor statistice a fost
de 1200-1800 de subiecti, iar rezultatele obtinute din anchetarea practicata cu stângacie sau în mod neadecvat. Acest lucru se
acestor subiecti sa coincida, în limita unei erori minimale, poate adesea întâlnisi în sondajele .de opinie care. au caracter
76 77
preelectoral si care confruntate la scurt timp cu realitatea - pe Esantionul .care urmeaza a fi extras trebuie sa îndeplineasca
care a constituit-o alegerile locale sau generale, pune în evidenta o conditie de baza, potrivit .careia concluziile obtinute din
uneori mari abateri de la realitate. studiul esantionului sa se poata extinde asupra întregii populatii.
Aceste situ.atii neplacute pot fi evitate prin cercetari minu- Acest proces se va numi inferenta statistica.
tioase, prin amplasarea judicioasa în teren a retelei anchetato- Capacitatea unui esantion de a reproduce cât mai fidel
rilor de opinie, prin instruirea adecvata a acestora, prin utilizarea structurile si caracteristicile populatiei din care a fost extras va fi
unor tehnici adecvate de corectie, a estimarii si minimizarii numita reprezentativitatea esantionului.
erorilor. Gradul de reprezentativitate al·unui esantion este·masurat de
De ce folosim sondajele de opinie? doua marimi:
Având în vedere ca un sondaj corect realizat reproduce eroarea maxima, notata prin d, si care exprima diferenta
*
structura populatiei investigate pe principalele ei caracteristici, cea mai mare pe care o acceptam între o valoare v , data
de aici vor rezulta avantajele utilizarii sondajelor de opinie. de esantion, si valoarea teoretica v (data de populatia
Sondajele se utilizeaza atunci când cercetarea statistica exhaus- totala).
tiva (cazul recensamântului populatiei) implica cheltuieli foarte Asadar, d = max\v' - vi
mari si consum urias de eforturi umane $i de timp. De asemenea,
marimea P - numita nivel de încredere, care arata ce
trebuie avut în vedere ca sunt situatii când un sondaj statistic
sanse sunt ca eroarea comisa sa nu depaseasca eroarea
bine efectuat da rezultate mai bune decât investigarea .întregii maximad.
populatii din universul de esantionare, si aceasta deoarece:
În acest fel, se construieste un interval (v' - d, v' +d) numit
programul de cercetare prin sondaj cuprinde, de regula,
interval de încredere
mai multe caracteristici decât o cercetare exhaustiva a
populatiei;
--1 J
anchetatorii de teren utilizati într-un sondaj de opinie * *
v v +d
sunt superior instruiti fata de situatia unui recensamânt,
când acestia sunt improvizati si cu un instructaj sumar.
Daca pentru o anumita caracteristica, valoarea teoretica v se
Dupa cum am vazut, recensamântul este studiul exhaustiv al
întregii populatii din universul de esantionare. gaseste în interiorul acestui interval v E (v' ~ d, v' + d), atunci,
78 79
pentru aceasta caracteristica a populatiei, eroarea maxima ad- marimea esantionului;
misa nu este atinsa, iar esantionul este valid din acest punct de _ procedura .de esantionare folosita.
vedere. Pentru caracterizarea nivelului de omogenitate al populatiei
Asadar, reprezentativitatea unui esantion este caracterizata se utilizeaza abaterea standard, care masoara nivelul de dispersie
de cuplul (d, P). al indivizilor în jurul mediei.
Cu toate acestea, nu putem vorbi de reprezentativitatea Sa mai retinem ca reprezentativitatea creste o data cu cres-
întregului esantion, ci de o reprezentativitate pe fiecare caracte- terea volumului esantionului, pe anumite portiuni. Acest lucru
ristica în parte. este pus în evidenta de urmatorul· grafic:
Reprezentativitatea este o notiune relativa, în sensul ca un Reprezentativitate
••
esantion este mai reprezentativ sau mai putin reprezentativ decât
altul. 100% \ , ~ .

Compararea se face în felul urmator: daca la un nivel de pro-


babilitate dat, pentru o aceeasi caracteristica, eroarea d este mai
mica în primul esantion, atunci acest esantion este mai reprezen-
tativ.
De asemenea, daca la o aceeasi eroare nivelul de încredere P ••••

este mai ridicat, din nou putem spune ca acest esantion este mai O Marimea esantionului
reprezentativ.
Relatia dintre volumul esantionului si reprezentativitatea sa
Pentru nivelul de încredere P se accepta valoarea minima:
0,95 (ceea ce înseamna ca posibilitatea de a gresi nu este mai Se constata ca peste o· anumita limita cresterea în volum a
mare de 0,05 sau 5%)
esantionului nu mai este justificata de ameliorarea reprezentati-
Pentru d se accepta o valoare mai mica decât 3% în
vitatii.
sondajele de opinie.
Marimea populatiei nu intervine în marimea si reprezenta-
Marimi le d si P nu sunt independente.
tivitatea esaritionului.
Gradul de reprezentativitate al unui esantion depinde de:
caracteristicile populatiei; J
80 81
Proceduri de esantionare cantitative (numarul de .membri ai unei. familii,··cifra de
Dupa modul cum sunt concepute, esantioanele sunt de doua afaceri,dimensiunea localitatii etc.).
feluri:
Dupa delimitarea celors straturi:. NI, N2, ..... , Ns se ·extrag în
aleatoare (sau pro babilistice); mod simplu aleator S ""-subesantioanede marimi: nl, n2, ... , ns·
nealeatoare. Aceste volume se extrag tiecaredinstratul corespunzator si sunt
Esantioanele nealeatoare pot fi dirijate si mixte. proportionale cu marimea stratului:
O procedura de esantionare se va numi aleatoare atunci 111 = n2 = = ns
când fiecare individ din populatie are o sansa reala, calculabila NI N2 •••• Ns
si nenula de a fi ales în esantion.
Se poate arata ca dintre doua esantioane de volum egal, cel
Orice alta procedura este neprobabilista. Pentru a fi siguri ca realizat prin stratificareare·o reprezentativitate mai mare decât
fiecare individ al populatiei are sanse de a fi' ales în esantion, cel obtinut prin tehnica si111plaa.leatoare.
este necesara o foarte buna cunoastere a structurii populatiei (a 3. Esantionarea multistadiala (sau grupala)
universului de esantionare). Asta înseamna existenta unor liste Aceasta presupune o grupare a populatiei pe ariigeografice,
ale populatiei, adica a unui cadru de esantionare, care sa culturaltfsaujudete. În cadrul acestor arii se selecteaia un numar
permita accesul la fiecare individ al populatiei. de localitati, în cadrul acestora se selecteaza un numar de strazi
Tipuri de esantionari etc.
1. Esantionarea simplu aleatoare are la baza principiul Un esantion muItistadial este mai putin reprezentativ, la
loteriei sau al tragerii la sorti. volume egale, decât unul simplu aleator, dar comporta> un cost
Practic, se vor folosi tabelele de numere aleatoare. mai scaZut.
2. Esantionarea prin stratificare se efectueaza în
4. Esantionaream1l1tifazica consta în alegerea .unui
populatii neomogene, alcatuite din subpopulatii esantion mare, la nivelul caruia se aplica un instrument· d.c
omogene sau straturi.
cercetare mai simplu; acest esantion· se supune· Unor operatii
Criteriile de determinare a structurilor sunt:
succesive deesl:ll1tion.areobtiM11.du-se straturi din ceîltce mai
calitative (geografic: judete, zone, localitati; salariat / mici, carora li Se aplica metodemaielaborate.
nesalariat; mediu de provenienta);

82 83
5. Esantionareape cote (nealeatoare) populatiei pentru viata social-politica, pentru anumite decizii de
Aceasta presupune gruparea populatiei dupa câteva interes local sau national.
caracteristici si apoi se determina marimea subesantioanelor. Putem deduce de aici ca politica unui guvern, a unei
Structura generala a populatiei se grupeaza de regula dupa formatiuni politice, a unei întreprinderi,.a conducerilorsindicale,
caracteristicile de baza (sex, grupe de vârsta, categorii socio- se regleaza permanent prin intermediul sondajelor care txprima
profesionale), zone urbane (rurale,judete etc.) de fapt interesul unei colectivitati.
În sondajul pe cote, care se aseamana cu cel stratificat, fieca- Sa retinem ca în cercetarile sociologice predomina
rui operator îi este repartizat un numar de subiecti, alesi dupa urmatoarele tipuri de sondaje: pe cote, ~leator si mixt.
câteva criterii (câte persoane de sex masculin si câte de sex fe- Sondajul mixt .face un compromis, .efectuându-se o cotare
minin trebuie luate, câte din fiecare grupa de vârsta etc.). sumara (pe 2-3 caracteristici, deex: zone traditionale,dimensiu~
Modul cum este ales fiecare subiect în parte este lasat adesea nea localitatilor etc.), iar în cadrul straturilor alegerea se
la latitudinea operatorului de teren. efectueaza aleator. ÎnSasi Hubert Blalock, celebrul metodolog
6.. Esantioane fIxe (panel). Acestea, odata fixate, sunt american, subliniaza avantajul, din punct de vedere practic, al
supuse unor investigatii repetate cu acelasi chestionar. El acestei metode.
urmareste schimbarile care se petrec în cadrul populatiei.
Prezinta dezavantajul uzurii morale a esantionului. Tipuri de erori în sondajele statistice
Pe parcursulelaborarii si aplicarii sondajului statistic se pot
Concluzii introduce o serie de erori, unele semnificative, altele mai putin ..
Metoda sondajului de opinie prezinta si o serie de E bine, Însa, de stiut, ca anumite tipuri de erori pot produce
dezavantaje, dintre care cel mai important este acela ca abateri importante ale rezultatului de la realitate.
sondajele, de cele mai multe ori, nu surprind schimbarile care se Erorile se sondaj sunt de douafeluri:
petrec în evolutia unui fenomen social. erori de înregistrare;
Sondajele reflecta, de regula, o situatie de moment, ele fiind erori de reprezentativitate.
de fapt o radiografiere a fenomenului studiat la un moment dat. Erorile de înregistrare se .pottihe usor sub ·.controI.atunci
În anii din urma, sondajele de opinie au devenit o practica când pentru realizarea anchetei de teren se apeleaza la personal
frecventa în viata social-politica a tarii. Ele masoara interesul calificat si experimentat.
84 85
Erorile de reprezentativitate pot fi si ele de doua feluri: Capitolul IX
erori sistematice;
erori.întâmplatoare. CHESTIONARUL DE OPINIE.
Erorile sistematice apar atunci când nu se respecta prin- ELEMENTE pRIVIND
cipiile. de baza ale teoriei esantionarii.
PROIECTAREA CHESTIONAR ULm
Sa dam câteva exemple în care apar erori sistematice de
reprezentativitate: afectarea caracterului aleator al sondajului
prin selectarea la întâmplare a elementelor statistice, rara a Chestionarul constituie principalul instrument de culegere a
respecta o metodologie anume; intelectualizarea sondajului, care datelor prin metoda sondajului statistic de opinie. EL nu
are loc atunci când chestionarul de opinie cuprinde întrebari constituie o simpla însirulrede întrebari, rara legatura între ele si
dificile, sofisticat formulate (care induc asa-numita "spirala a mai ales rara o anumita logica. Constructia unui chestionat de
tacerii"), când din comoditate, unii operatori de ancheta aleg cu opinie a fost îmbunatatita permanent, datorita experientei prac-
precadere subiecti mai scoliti si deci mai comozi În desfasurarea tice acumulate, dar. sistematizarea acestuia s"a produs o data cu
anchetei, si aceasta în detrimentul celorlalte categorii; în acest axiom.atizarea chestionarului de catre Claude Picard si apoi pe
fel sunt afectate proportiile straturilor, si deci reprezentativitatea baza analizei informationale fundamentata de scoala româneasca
esantionului. de statistica dupa ideile acad. Octav Onicescu. Câteva lucruri se
Lipsa constiinciozitatii operatorilor de teren si o mare impun a fi mentionate.
cantitate a non-raspunsurilor constituie cauzele principale ale Se spune adesea ca "un sondaj nu poate fi mai bun· decât
erorilor sistematice de reprezentativitate. chestionarul sau", adica decât modul cum sunt formulate între-
Erorile întâmplatoare sau aleatoare de selectie apar în barile, decât ordinea si complexitatea lor.
procesul derularii sondajului chiar si atunci când sunt respectate Se stie ca la întrebarile cu mai multe întelesuri se vor· primi
regulile metodologice. Acest tip de eroare provine din structura raspunsuri echivoce, neconcludente. De asemenea, un chestionar
metodei de esantionare. Aceste tipuri de erori sunt cunoscute, cu multe întrebari, si acestea cu formulari gre6aie,produce dis-
calculate anterior si se pot tine sub control. confort atât operatomlui, cate adesea îl va trata superficial, dar si
respondentului, care se va plictisi, va da semne de nervozitate,
nu va mai fi atent la întrebari.
86 87
În acest caz, el va raspunde monosilabic sau deloc, ducând la întrebarile trebuie puse cu tact si un anume menajament
cresterea numarului .de non-raspunsuri.
fata de subiect pentru a nu-i provoca reactii nedorite.
Proiectarea unui chestionar de opinie trebuie sa înceapa cu
specificarea problemei de cercetat. Problemele sociale au în Tipuri de întrebari
general un grad mare de complexitate care impune descompu- a) DupacontinutullDr, întrebarile sunt: factuale, de opinie,
nerea lor pe mai multe dimensiuni. Aceste dimensiuni trebuie de cunoastere.
transformate în indicatori, adica în modalitati de stabilire a Îutrebarile factuale privesc aspecte de comportament ale
prezentei sau absentei unei caracteristici, a intensitatii acesteia. indivizilor anchetati sau ale altora care· vin în .contact cu ele.
Fiecare întrebare din chestionar va reprezenta un indicator. Aceste informatii sunt, teoretic, verificabile (ce reviste, ziare
Selectarea întrebarilor care urmeaza sa fie incluse în citeste, Ice emisiuni TVa unnaritetc.).
chestionar presupune existenta unor ipoteze sau chiar a unei Întrebarile de· opinie vizeaza· parerile, atitudinile, credin-
teorii privind fenomenul social ce urmeaza sa fie cercetat. tele, atasamentul fata de anumite valori etc. Aceste informatii nu
O atentie deosebita trebuie acordata construirii scalelor de pot fi obtinute direct prin ale metode.
raspunsuri care implica atât posibilitatea de ierarhizare, cât si pe Întrebarile de cunoastere evidentiaza preocuparile intelec-
cea de masurare a atitudinilor, avându-se în vedere ca se por- tuale ale indivizilor. Ele pot fi utilizate si ca întrebari de control
neste de la opinii pentru a se ajunge la atitudini.
(astfel de întrebari nu aduc un plus de informatie, ele verifica
Este indicat sa se respecte un numar de reguli care urmaresc raspunsurile de la alte întrebari anterioare).
sa dea întrebarilor si raspunsurilor o forma coerenta, care sa b) Dupa forma de înregistrare a raspunsurilor, avem:
permita valorificarea corecta a acestora. întrebari închise;
Astfel:
întrebari deschise;
întrebarile trebuie sa se refere la opinii si nu la fapte; întrebari cu posibilitati multiple de raspuns (se pot alege
întrebar.ea trebuie sa fie la obiect, scurta si pusa într-un doua sau mai multe variante de raspuns).
limbaj adecvat, pentru a fi accesibila;
întrebarea trebuie sa prevada toate raspunsurile posibile,
iar anchetatorul de teren sa nu favorizeze din ton sau
nuanta vreunul din raspunsuri;
88 89
Analiza non-raspunsurilor În stiintele sociale întâlnim patru feluri de scale:
Prin non-raspunsuri întelegem atât lipsa raspunsurilor la 1) Scale nominale, care presupun o enumerare de posi-
unele întrebari în cadrul aceluiasi chestionar, cât si lipsa bilitati.
raspunsului la întregul chestionar. Exemplu: locul de provenienta.
Aparitia non-raspunsurilor în cadrul aceluiasi chestionar Termenii acestei scale nu pot fi comparati.

poate însemna ca anumite întrebari sunt dificile, ca ele pot 2) Scale ordinale, care permit o oarecare masurare a
deranja anumite segmente ale populatiei, ca nu prevad toate distantei dintre posibilii termeni ai scalei.
variantele de raspuns. Unele persoane nu raspund de teama, din Exemplu: note primite la examen, trepte de învatamânt etc.,
necunoasterea raspunsului sau alte situatii. în care fiecare treapta este superioara celei anterioare.
În orice caz, procente crescute de non-raspunsuri perturba 3)Scale cll intervale, care permit masurarea distantelor
rezultatul general al sondajului. Toate aceste lucruri trebuie dintre diferitele trepte si ranguri .

avute în vedere înca din faza de concepere si proiectare a cer- Exemplul cel maielocvertt este celalmasurarii cronologice.
cetarii si a chestionarului. 4) Scaleproportionale, care exprim.a·.posibilitatea· unui
A doua situatie în care chestionare întregi ramân necom- raport între doua pozitii de pe o scala.
pIetate este generata de urmatoarele situatii: refuzul de a De exemplu, putem spune ca o persoana care are 40 de ani
coopera, absenta de la domiciliu a respondentului în momentul este de doua ori mai în vârsta decât una de 20 de ani.

desfasurarii anchetei, schimbari de adrese si neactualizate pe


listele de esantionare, cazuri de infirmitati, alte unitati statistice
care au disparut din baza de sondaj.
Desi statistica ofera solutii care remediaza anumite situatii,
totusi este important sa se .identifice.cauzele care provoaca non-
raspunsurile.

Analiza scalara
Analiza scalara sau analiza ierarhica presupune atât posi-
bilitatea de esantionare, cât si masurarea atitudinilor.
90 91
Capitolul X prin utilizarea intervalelor de încredere;
prin utilizarea unor criterii, numite teste ale ipotezei nule,
TESTE DE SEMNIFICATIE . bazate pe ipoteza cavariabila ci = Â.*t·..:.X2 are medianu1a.
Acceptarea ipotezei nuleadmite l.1rn1atoarelealternative:
1. Ipoteza facuta este adevarata si urmeaza sa fie acceptata;
Problema semnificatiei unor marimi si mai ales a semnifi-
2 .. Ipoteza facuta este.falsa si· s-a comis· o eroare ca ea a fost
catiei diferentei dintre doua marimi se pune atunci când se com-
acceptata.
para doua valori, dintre care cel putin una provine dintr-o cer-
cetare concreta. Conceptul de prag de semnificatie este o probabilitate si
masoara riscul de a gresi atlmci c;â11dse ia o astfel de hotarâre.
Adoptarea unui plan de selectie la o populatie stratificata
Exista teste de semnificatie care se aplica esantioanelor mari,
se sprijina pe un sir de ipoteze: omogenitatea straturilor, volu-
mele esantioanelor etc. Un alt plan de selectie presupune alte precum: t~stul Z, testul ..X2 si teste. de semnificatie pentru
ipoteze, alte estimatii. În aceasta situatie, trebuie analizat caror esantioane mici:. testul t(al lui Student), testul F (Fisher-
estimatii le acordam mai multa încredere si a vedea, în acelasi Snedecor).
timp, în ce masura diferenta dintre ele este sau nu semnificativa. În cele ce urmeaza, vom· an.aliza testul. X2. ~
Daca avem în vedere o anumita caracteristica a variabilei Se pl.ille problema de a testa daca structura esantiqnului se
teoretice X si daca valori estimative Â.; si Â.*2 ale valorii teoretice abate semnificativ de la o structura standard, dupa o caracte-

Â., atunci media teoretica a variabilei diferenta trebuie sa se ristica.


anuleze, adica Sa luam un exemplu. Sa presupunem unesantionde 1000 de

M( Â.~ - Â.*2 ) =O nasteri cu urmatoarea distributie:

Acest lucru a condus la introducerea metodei de cercetare 240


10Vara
24%
1000 270 Total
27% Iarna
2Primavara
280
28% 1%
100%
To.amna ..
denumita ipoteza nula. Anotimp
Numar
Procent
Aplicarea ipotezei nule, în sensul de a constata daca
aceasta relatie este sau nu îndeplinita, poate fi facuta în doua
moduri:

92 93
Se constata ca subesantioanele nu sunt uniform distribuite pe
anotimpuri. 2 (240-250Y(270~250Y (280..,-250Y (210-250Y
X == 250 + 250 + 250 + 250 =
Se pune problema daca aceasta serie difera semnificativ de
==100 + 400 + 900 + 1600 ==3000 ==12
cea în care respectivele proportii ar fi identice: 25%. 250 250
Testul X2 se aplica astfel:
Cum 12 > 7,82 (valoarea critica), rezulta ca diferenta este
Notam prin k}, kz, ,ks un sir de frecvente obtinute pe un semnificativa.
esantion si cu mI, mz, , ms frecventele teoretice corespun- Altfel spus, ipoteza nula este respinsa cu o probabilitate d~ "
zatoare. Formula este:
0,95.

De o deosebita importanta în utilizarea testului X2 este


stabilirea numarului gradelor de libertate. Acesta se calculeaza
astfel:

v ==s -1 în cazul unui tabel unidimensional cu s celule;


v ==(s -1)(t -1) în cazul unui tabel bidimensional cu sxt
celule.

În cazul exemplului anterior, avem:


Sirul frecventelor empirice: 240; 270; 280; 210
Sirul frecventelor teoretice: 250; 250; 250; 250
v==4-1==3

Din tabele gasim valorile critice:


7,82 pentru pragul de semnificatie p ==0,05 .
9,84 pentru pragul de semnificatie p ==0,02
11,35 pentru pragul de semnificatie p = 0,01

94
95
Bibliografieselectiva

1. Johan Galtung, theory and Methods ofSocialResearch


/2. N. Mihaila, Introducere în teoria probabilitatil()rststatistica
matematica
3. GH. Mihoc, V.Urseanu, Matematici aplicate în statistica
4. Dumitru Porojan, Statistica si teoria Sondajului, Ed. Sansa,
1993
5. T. Rotariu, P. Ilut, Ancheta sociologica si sondajul de
opinie, Ed. Polirom, 1997
6. T. Rotariu (coord.) s.a., Metode statistice aplicate în stiintele
sociale, Ed. Polirom, 1999
7. IoanMarginean, Masurarea în sociologie, Ed. Stiintifica si
Enciclopedica, 1982
8. D. Sandu, Statistica în stiintele sociale, Bucuresti, 1992
9. Yule, G.U., Kendall, M.G., Introducere în teoria statisticii,
Ed. Stiintifica, 1969
10. Moser C.A., Metodele de ancheta în investigarea feno-
menelor sociale, Ed. Stiintifica (1967)
11. Durkheim, E., Regulile metodei sociologice, Ed. Stiintifica,
1974
12. Chelcea S., Chestionarul în investigatia sociologica, Ed.
Stiintifica si Enciclopedica, 1975
13. Alexandrescu P., Sistemele electorale. Principiul majoritatii
si limitele sale. Rev. Româna de Sociologie, nr. 5-6/2001

97
14. Alexandrescu P., Modalitati de ameliorare a cercetari/or de
teren care au la baza sondajul statistic, Rev. Româna de
Sociologie, nr. 1-2/2000

15. Alexandrescu P., O metoda de analiza scalara si


ierarhizare, Rev. Româna de Sociologie, nr. 3-4/2000

98
Editura Paralela 45

Pitesti, jud. Arges, cod 110174, str. Fratii Golesti 128-130;


tel./fax: (0248)63.14.39; (0248)63.14.92; (0248)21.45.33;
e-mail: redactie@edituraparalela45.ro

Bucuresti, cod 71341, Piata Presei Libere nr. 1,


Casa Presei Libere, corp C2, mezanin 6-7-8, sector 1,
tel./fax: (021)224.39.00; OP 33, CP 13,
e-mail: bucuresti@edituraparalela45.ro

COMENZI- CARTEA PRIN POSTA

EDITURA PARALELA 45
Pitesti, jud. Arges, cod 110174, str. Fratii Golesti 128-130
Tel./fax: 0248214533;
0248631439;
0248 631 492.
E-mail: comenzi@edituraparalela45.ro
sau accesati www.edituraparalela45.ro
Conditii:
• rabat Între 5% si 25%;
• taxele postale sunt suportate de editura;
• plata se face ramburs, la primirea coletului.

Tiparul executat la tipografia


Editurii Paralela 45

S-ar putea să vă placă și