Sunteți pe pagina 1din 52

Colectia

UNIVERSITARIA

Seria

STIINTE MATEMATICE

PETRUS ALEXANDRESCU

Editor: Calin Vlasie Tehnoredactare: Cannen Radulescu Corectura: autorul Coperta: Carmen Lucaci Prepress: Viorel Mihart

Introducere

" In

statistica sociala

Descrierea CIP a Bibliotecii Nationale a Romniei

ALE~RESCU,PETRUS
Introducere n statistica sociala / Petrus Alexandrescu, - Pitesti: Paralela 45,2005 Bibliogr. ISBN 973-697-335-2 311:913(498)(075.8)

!
il

(
1
j

Copyright Editura Paralela 45, 2005

CUPRINS
!!/'Prefata
::F'" ,

i
'il

7 9 17 25 41 56 , , 61 67 76

Capitolul 1 Elemente de teoria probabilitatilor Capitolul II Elemente de statistica descriptiva Capitolul III Variabile aleatoare. Proprietati. Caracteristici.. Capitolul IV Indicatori ai caracteristicilor cantitative Capitolul V Corelatia rangurilor Capitolul VI Analiza de regresie Capitolul VII Analiza de dependenta Capitolul VIn Sondajul statistic si esantionul statistic Capitolul IX Chestionarul de opinie. Elemente privind proiectarea chestionarului Capitolul X Teste de semnificatie Bibliografie selectiva

87 92 97

PREFATA .,
Lucrarea de fata urmeaza n esenta cursul de statistica so, , ciala de un semestru, predat de autor la anul II al Facultatii de Sociologie si Psihologie a Universitatii "Spiru Haret". Pentru a

fi utila n primul rnd studentilor acestei facultati, lucrarea urmareste pe de o parte sa familiarizeze cititorul cu elementele de statistica matematica necesare n abordarea si ntelegerea unui fenomen social. Pentru aceasta, am tinut cont de faptul ca numerosi studenti ai acestei facultati au formatie umanista nca din liceu. Acest lucru a facut ca interesul lor pentru disciplinele realiste sa fie scazut. ntlnirea acestora cu statistica n cadrul facultatii este privita cu o anumita retinere. Rolul profesorului n acest caz este de a face, pe ct posibil, un curs foarte accesibil, atractiv, si care sa strneasca curiozitatea studentului (macar al aceluia care si cunoaste interesul si stie de ce a venit la aceasta facultate). Cursul predat a ncercat pennanent sa tina seama de acest deziderat, iar cursul scris ncearca sa-I urmeze ndeaproape. Dar, pe lnga a fi accesibil si atractiv, cursul trebuie sa fie util. O data cu ntelegerea rolului statisticii n realitatea sociala, este important sa se nteleaga metodele, tehnicile sale, dar mai ales este important sa se nteleaga gndirea statistica. Nu trebuie sa utilizaIl1 o metoda sau alta pentru ca ani auzit de ea sau pentru ca utilizarea unor metode statistice sonore ne-ar scoate

din impas sau ne-ar pune n situatia comoda de a ne aseza n spatele lor si a ne multumi astfel cu orice rezultat obtinut. Utilizarea statisticii n mod adecvat este deosebit de utila. Dar utilizarea statisticii poate fi si nociva atunci cnd se face n mod mecanic, fara a se ntelege utilitate a sa, si mai ales cnd, cum si n ce fel poate fi folosita. Am ncercat sa lamurim si aceste lucruri de-a lungul cursului . Autorul, de formatie matematician, si-a facut ucenicia n metodologia stiintelor sociale de-a lungul anilor n cadrul Institutului de Sociologie al Academiei Romne. Aici a avut posibilitatea sa participe la numeroase cercetari concrete n colective interdisciplinare, sa nvete si sa experimenteze o serie de metode si tehnici. Anii de dupa Revolutie au putut fi mult mai profitabili din acest punct de vedere. Comenzile sociale ne-au ajutat sa tinem pasul cu realitatea sociala si sa gasim solutii practice chiar si atunci cnd teoria nu ne ajuta. Am nvatat din greselile noastre ca si din ale altora, mbunatatindu-ne stilul si bagajul de cunostinte. Toate aceste cunostinte capatate le putem mpartasi celor tineri pentru a le netezi drumul si a-i ajuta sa devina specialistii de mine n domeniul stiintelor sociale. Facultatea de Sociologie si Psihologie a Universitatii "Spiru Haret" mi-a oferit aceasta ocazie. Prezenta lucrare se adreseaza n primul rnd studentilor Facultatii de Sociologie si Psihologie, dar si tuturor acelora care doresc sa se initieze n statistica sociala. Autorul
8

Capitolul 1
ELEMENTE DE TEORIA PROBABILITATILOR .

.L Cmp de probahilitatefinit Experimentul statistic este un procedeu care poate fi

repetatn conditii similare si n urma caruia se obtin rezultate ce pot fi observate, masurate si apoi interpretate. Experimentul statistic are un caracter aleator, n sensul ca rezultatul acestuia variaza la ntmplare; de aceea l vom mai numi adesea si experienta aleatoare. Rezultatul unei experiente aleatoare se va numi proba.

Exemplu. Aruncarea unui zar constituie o experienta aleatoare. Rezultatele posibile acestei experiente sunt concretizate n aparitia uneia dintre fetele: 1, 2, 3, 4, 5, 6.

Definitie. Realizarea sau nerealizare a unei. anumite situatii,


legata de experienta aleatoare avuta n vedere,. dupa efectuarea experientei, se numeste evenjment statistic. Prin evenimentul elementar vom. ntelege acel eveniment care poate fi realizat numai de o singura proba., Celelalte evenimente le vom numi compuse.
9

De exemplu, evenimentul de aparitie: a fetei cu numarul 6 este un eveniment elementar. Evenimentul de aparitie a unei fete cu numar par este realizat de una dintre probele {2}, {4}, {6}. Evenimentul sigur este evenimentul care se realizeaza cu certitudine la fiecare efectuare a experientei. Evenimentul experientei. {1,2,3,4,5,6} este este evenimentul sigur nu al

>LOperatii cu evenimente
Daca A si B sunt doua evenimente, numim reuniunea lor si . tam AU B, evenimentul a carui realizare consta n realizarea a o el putin unuia din cele doua evenimente.

n mod asemanator, An B este evenimentul care se realizeacu realizarea simultana a evenimentelor A si B. Daca evenimentele A si B sunt incompatibile, atunci

Evenimentul

imposibil

evenimentul

care

se

realizeaza la nici o efectuare a experientei. Evenimentul imposibil se noteaza prin 0. Doua evenimente A si B se numesc contrare daca nerealizarea unuia este echivalenta cu realizarea celuilalt; asta nseamna ca nu exista nici o proba care sa le realizeze simultan pe amndoua; n schimb, orice proba realizeaza unul din cele doua evenimente. n termeni de teoria multimilor, astfel de evenimente sunt asociate multimilor complementare. Astfel, B = CA iar A = CB. Evenimentele A si B se numesc compatibile daca se pot realiza simultan, adica daca exista probe care le realizeaza n acelasi timp pe A si pe B. n caz contrar, evenimentele A si B se numesc incompatibile. n primul caz, comparnd cu multimile, avem An B iar n al doilea caz, An B= 0. Evenimentul A implica evenimentul B si scriem A realizarea lui A implica realizarea lui B. 10
:t=

Definitia probabilitatii
Sa consideram experienta de aruncare a
lIDUi

zar si A

de aparitie a fetei cu numarul 5. Sa repetam aceasta de 10 ori. Sa presupunem ca aruncnd cu zarul de 10 de trei ori a aparut fata cu numarul 5. Raportul

3 f=10
numeste frecventa de aparitie. Frecventa de aparitie este un numar subunitar O ::; fn
::;

1.

Doua evenimente A si B se numesc egal posibile daca au aceeasi sansa de a se realiza. Daca la .experienta de aruncare a unui zar, A este de evenimentul n care apare fata 5 si B este evenimentul aparitie a fetei 3, atunci evenimentele A si B sunt egal posibile.

0,

c B, daca

Defmitie. Numim probabilitate a unui eveniment, raportul


dintre numarul cazurilor egal posibile care realizeaza eveni,.. mentul sau cazurile favorabile si numarul cazurilor egal posibile. 11

Exemple: 1) La experienta de aruncare a unei monede, probabilitatea de a aparea stema este:

p(A

n B) = p(A)

p(B)

p(A nC) = p(A) p(C) p(B n C) = p(B) p(C) p(A n B n C) = p(A)p(B)p(C)

p=2) Care este probabilitatea

2 doua zaruri sa

ca anmcnd

obtinem o dubla, adica (1, 1) sau (2, 2), ... , sau (6, 6)7 6 1 p = 36 =6 Proprietati ale probabilitatilor Daca p(A) este probabilitatea evenimentului A, atunci au 10& proprietatile: 1) O~ p(A).~ 1 2) p(E) = 1, unde E este evenimentul sigur 3) p(0) = O,unde 0 este evenimentul imposibil 4) p(A U B) = p(A) + p(B), daca An B = 0 Daca An B T. 0, atunci proprietatea 4) devine: 4') p(A U B) = p(A) + p(B) - p(A n B) 5) p(A)+ p(A) = 1 unde A este evenimentul contrar lui A. Definitie. Daca A si B sunt doua evenimente si daca p(A n B) = p(A) p(B) atunci spunem ca eV91imentele A si B sunt independente. Daca A, B, C sunt trei evenimente, atunci ele sunt independente daca sunt ndeplinite relatiile: 12

Formule clasice de probabilitate 1. Formule pentru calculul unor probabilitati a) Fie A, B - 2 evenimente. Atunci are loc formula: p(A U B) = peA) + p(B) - p(A n B) b) Daca A, B, C sunt 3 evenimente, atunci are loc formula: p(AUBUC) - p(A = p(A) + p(B) + p(C)-p(AnB)B n C)

n C) - p(B n C) + p( An

Aceasta formula se poate generaliza la n evenimente si se obtine o formula care poarta denumirea de formula lui H. Poincare. Aplicatie. O urna contine 4 bile albe si 6 bile negre, iar alta urna contine 7 bile albe si 3 bile negre. Din fiecare urna se extrage cte o bila. Care este probabilitatea ca cel putin o bila sa ne alba? Rezolvare. Notam cu A evenimentul ca bila extrasa din prima urna sa fie alba si cu B evenimentul ca bila extrasa din a doua urna sa fie alba. Vom calcula probabilitate a evenimentului

AUB:
p(A U B) = p(A) + p(B) - p(A n B) Dar evenimentele A si B sunt independente, rezulta ca 4 7 28 =p(A n B) = p(A) p(B) = -.-

10 10

100

13

Urmeaza ca: P (A U B) = ~ + ~ _ 28 = 110- 28 = 82 = 82 10 10 100 100 100 '

0,012, q2 = 0,015, q3 = 0,014 PI = 0,988, P2 = 0,985, P3 = 0,986 Asadar, coeficientul lui x2 vafi:

2. Scheme clasice de probabilitate a) Schema lui Poisson


Sa presupunem ca avem n urne:
UI, U2,
.... ,

PIP2q3 + PIP3Q2+ P2P3Ql = 0,9880,9850,014 .0,986.0,015 + +0,9850,9860,012 + 0,012 = 0,04

+ 0,988

= 0,013 + 0,015 +

Un

timp ce probabilitatea ca toate piesele extrase sa fie bune este: P = PIP2P3 = 0,9880,985'0,986 = 0,959

care contin bile albe si negre. Daca Pi este probabilitatea cu care este extrasa o bila alba din uma Ui, se cere probabilitatea de a extrage k bile albe extrage cte o bila. Ca regula, sa retinem ca determinarea probabilitatii cerute este similara cu detern1inarea coeficientului lui Xk din dezvoltarea polinomului P(x) = (PIX + ql)(P2X + q2 ) ..(Pnx + qn)' Vom lamuri acest lucru printr-un exemplu. Exemplu. ntr-un atelier sunt 3 strunguri care executa piese. Primul da 1,2% rebuturi, al doilea 1,5% si al treilea, 1,4%. Se ia la ntmplare cte o piesa de la fiecare strung. Se cere probabi:litatea ca 2 din piese sa fie bune si una sa fie rebut. Probabilitatea cautata va fi coeficientul lui x2 din dezvoltarea polinomului (PIX + ql)(P2X + q2)(P3X + q3) Se constata ca: n = 3, k = 2, 14 adica:

b) Schema lui Bemoulli


Este un caz particular al schemei Poisson, n care cele n urne continuturi identice. n acest caz: Pl = P2 = ... = Pn = P
SI

~ k ~ n,

atunci cnd din fiecare urna se

ql =Q2 = ..=qn =q=l-q Problema este aceeasi, anume, de a extrage cte o bila din fiecare urna si de a calcula probabilitatea ca din .cele n bile extrase, k sa fie albe si n-k tlegre. Probabilitate a ceruta estecoefidentullui binomului: P(x) = (px+Q)n C~pkQn-k xk din dezvoltarea

Sa mai constatam ca problema extragerii a n bile din n urne identice, cte una din fiecare urna, este similara cu aceea a extragerii succesive a n bile din aceeasi urna, punnd de fiecare data bila extrasa napoi. 15

Aplicatie.

Aruncam o moneda de 6 ori, Se cere probabi-

litatea ca stema sa apara o singura data si banul de 5 ori. Se constata ca n = 6 k = 1 p = q =

Capitolul II
ELEMENTE DE STATISTICA DESCRIPTIVA

"

!
2

Atunci P =

C61

2 2 (1)1 (1)5

=-

26 6

=-

32 3

= O094
'

Statistica sociala se ocupa cu gruparea, analiza si interpretarea datelor referitoare la un fenomen social. Totodata, cu mijloacele statisticii sociale se pot efectua o serie de previziuni privind producerea fenomenului n viitor. Statistica sociala sau metodologia statistica pe care o avem n vedere presupune doua etape: statistica datelor acestora; statistica matematica se ocupa cu gruparea datelor, analiza si interpretarea acestora n vederea explicarii fenomenului social si a posibilitatii efectuarii unor predictii asupra derularii fenomenului n viitor. Populatia statistica. Prin conceptul de populatie statistica vom ntelege orice multime care formeaza obiectul de studiu al analizei statistice. descriptiva despre un este un proces de culegere fenomen socjal a si nregistrarea

c) Schema bilei nentoarse Sa presupunem ca o urna contine a bile albe si b bile negre. Din aceasta urna se extrag n bile, fara a pune bila extrasa napoi. Se cere probabilitatea ca din cele n bile extrase, a sa fie albe si ~ = n-a sa fie negre, Probabilitatea cautata va fi data de fonnula:
Ca. a
,C13

Ca.+fl a+b

unde n <a +b, iar

a+p = n

Aplicatie. ntr-o urna sunt 100 de bile: 40 rosii si 60 albe. Care este probabilitatea ca extragnd 4 bile, doua sa fie albe? Suntem n situatia schemei bilei nentoarse cu a = 40, b = 60,

0,=2, ~=2.
Probabilitatea cautata va fi: 4039
C~o . C:o

6059

Elementele

unei

populatii

statistice

le numim

unihtti

C~oo

= -1-2-' -1.-2- = 0015 _10_0_'_99_'_9_8_, ' 9_7 1234

statistice (sau indivizi). O analiza statistica are n vedere anumite caractt~rjslici. Astfel, daca luam ca exemplu rezultatele obtinute III
llxlIIUQl\ul

16

17

de statistica a unei colectivitati nregistra notele obtinute dupa: caracteristica "sex": (M, F).

de studenti, atunci putem,

Exista si caracteristici

continue al caror numar de valori

este infinit. Un astfel de exemplu l constituie "vrsta". Structura acestei caracteristici pe grupe de vrsta o transforma ntr-o variabila discreta, dupa cum se poate vedea si din tabelul urmator, n care am efectuat grupari ale populatiei adulte: 56-62 Grupe de \18-25 I 26-35 I 36-45 I 46-55 vrsta ani ani I am I am am peste 62 ani

caracteristica "grupe de vrsta" etc. n cazul efectuarii unui studiu n care avem n vedere numarul locuitorilor dintr-o anumita zona, multimea localitatilor din acea zona poate constitui populatia statistica. O caracteristica de studiu ar putea fi numarul locuitorilor din fiecare localitate. O caracteristica care se poate masura se va numi caracte-

n analizele statistice suntem nevoiti sa facem astfel de

ristica cantitativa.
n cazul exemplului anterior, rezultatul obtinut la examen se masoara n note, deci este o caracteristica cantitativa. Caracteristicile "grupe de vrsta", "venitul pe familie" etc. pot fi considerate drept caracteristici cantitati ve. Caracteristicile care caracteristici calitative. nu pot fi masurate se numesc

grupari pentru a simplifica etapele cercetarii. Frecvente absolute, frecvente relative, frecvente cumulate Sa consideram exemplul unei colectivitati de 200 de studenti, dintre care 86 studenti si 114 studente. Aceasta structura pe sexe poate fi nregistrata n tabelul:
FeI!liJ!lJn
,~ ""'o,

Un exemplu de caracteristica calitativa poate fi nregistrarea raspunsurilor la ntrebarea: Cunl va place emisiunea X de la TV?: mult, putin, deloc. Caracteristicile calitati ve sunt cel mai greu de nregistrat ntr-o analiza statistica. Exista caracteristici A~stea Frecvente absolute Frecvente relative
C ./

Total

"
43%51
"'. I

/11'1:;h.1 c~
\"

r'

57%
--Cl'~, ~ ",

~d , ,~,,-

""------_---:_---------'
18

Frecventa absoluta nsekmna numarul de subiecti nregistrati; frecventa relativa este raportarea, la total, adica: 1\ t" 86 j 1..:. '::.. ,j~7
-- O 43 - 430/ 70

care pot lua numai valori tgtregi.

se vor f!.umi caracteristici discrete. Exemplu: numarul

de localitati dintr-un judet, numarul persoanelor dintr-o gospodarie etc.

200

'

.1'1' '-'~l"" ,~<,~v

'

19

Sa presupunem ca pe cei 86 de studenti de sex masculin i distribuim dupa rezultatele obtinute la un examen astfel: Nota25 1215 16 46 86 30 71 47~t'~ 6 ~,f 16% 14 6100% 8 5 9 5% 7% 10 29% 19% 16 17% 't~}{-~ ~H;'~~' ~it-t~ l~.\-4~ 7% 6 Numar Frecvente
F

.......................................................
...............................

20% ....... 25%


"3 5%

Total Reprezentareainvestitiilor

se poate face n mai I11ultefeluri:

a) cuaju.torul diagram.ei:
5,5

25

Frecventele

cumulate se folosesc mai ales atunci cnd b) prin histograme:


40 35 30 25 20
15

urmarim evolutia unui fenomen. Serii statistice. Reprezentari grafice Seriile statistice sunt serii de date care se nsiruiesc dupa o anumita caracteristica. Daca aceasta caracteristica este timpul, seriile se numesc temporale: Sa presupunem ca ntr-o ntreprindere investitii procentuale n cinci sectoare astfel: Sectorul A B
20

10

5
o
A B

industriala se fac

Investitii procentuale 5,5% 14,5% 21

40

Alte

reprezentari

sunt

reprezentari "gen

harti

numite

35
30
25 20

cartodiagrame. Diagrame de structura - populatie> 60 ani l40%


rlllllA III B IIC IElD

15 10

5
O

160%"1

IIEI

- populatie activa

c) cu ajutorul poligoanelor de frecventa Exista reprezentari statistice n care apare numai poligonul frecventelor fara histograme. - cresterea productiei industriale pe lunile unui an. -populatie tnara n privinta distributiei curbelor de frecventa, putem vorbi de urmatoarea clasificare: - curbe simetrice (sau norrnale); - curbe asimetrice. d) curba frecventelor Distributia simetrica (sau noqnala) este distributia lui Gauss:

Poligonul

frecventelor

unei variabile

aleatoare

poate fi

aproximat cu o curba - numita curba frecventelor sau curba de distributie.


22

23

Distributiile asimetrice sunt si ele de mai multe feluri: distributii usor asimetrice

CapitolulUI
VARIABILE ALEATOARE. PROPRlETATI. CARACTERISTICI

distributii pronuntat asimetrice

o variabila

aleatoare X este un tabel de forma (1)

unde

[XlPI Xi sunt

P2 X2 .............

pn Xn

J.

valorile pe care le poate lua variabila cu probabi-

litatile Pi. n plus, trebuie ndeplinite conditiile: 1. O::S Pi::S1, distributii n forma de

i=1,2, .... ,n

2.PI+P2

+ .. +Pn=l

Spunem ca tabelul (l) reprezinta distributia sau repartitia variabilei aleatoare X. Pot exista variabile aleatoare diferite cu aceeasi distributie. Sa consideram experienta aruncarii unui zar. ntruct

fiecare fata are aceleasi sanse de aparitie n raport cu celelalte, distributii n forma de

probabilitatea de aparitie a oricarei fete va fi: p

=~.

Variabila aleatoare asociata acestei experiente are distributia:

1 [1

1 2

1 6
3

1 1 - 6 6
4

1 -

5~.'.

24

25

Operatii cu variabile aleatoare Consideram variabila aleatoare X de repartitie: X+ X [. Xl


Pl P2 Pn

[Xl Pll YI Xl+ Y2 + Pl2

X2

'.xnJ

astfel nct

II
m n

Xl + Ym plm
Pij

Xn+ Yml Pnm

=1

j=l i=l

cu valorile XI, X2,... , Xncare sunt luate cu probabilitatile P!' P2, .. ,Pn. Putem scrie acest lucru astfel: P(X = Xl) = PI, P(X = X2)= P2, ..... etc. Daca a este o constanta nenula, atunci putem vorbi de suma variabilei aleatoare X cu constanta a si produsul cu constanta a. Astfel, vom obtine noi variabile aleatoare: a + X si aX de distributii:

iar Pij este probabilitatea realizarii simultane a evenimentelor (X = Xi) si (Y = Yj) Daca evenimentele (X = Xi) si (Y = Yj) sunt independente, atunci x Pij = P(X = Xisi Y = Yj) = PX :::: D n (Y = Yj ==

= P(X

==

Xi) .

P(Y = Yj)= Pi . ~

Exemplu: Fie variabilele' aleatoare X si. Y de repartitii:

-1 X 111

a+X [a+
SI

PI

Xl

a + X2

P2

a +Xn]
SI

Pn

PI P2 aX [aX.l aX2 Daca avem variabilele aleatoare

Pn aXn ]

~f'!

,\i \
2 2\

3 1 \
Pn xnJ

'J 3J 6

__ ------\

X
P2
X2 ..

Y
q2 ................. Y2

qmYml

X+Y sau:

2'3 2'2 2'6&'2 j 1 1 1 1 III,!.! ~_/".J'~


("O 1
1 1 1

r2

4'6'(4'34'21 1 1\ 1 1 1 .. i5' ,~
3
1 24 +'8 1
24

atunci putem defini variabilele X + Y si XY astfel: 26

X+Y I 1

l6

4 + 12

1 1 12 +8+ 12 27

iJ

24 37 3 14 6 2 ro21

n care am notat cu 1 valoarea variabilei la aparitia bilei albe si


C\l

:]
n mod analog se defineste variabila produs. sau adica
XrX2

2pq p2 variabila produs: iar Caracteristici

Oneaparitia unei bile albe. Atunci 0+1 q2 qp1 01 1+0 pq10 pq Xr+X2 XI+X2 XI'X2

xy

'I{"XIYl
butia:

Pii

P12 XIY2

Plm XIYm

Pnm xnYj

ale variabilelor

U' [+1 G :iJ '2pqZqj O'OJ aleatoare U/

~J

n cazul exemplului de mai sus, variabila X Y va avea distri-

-12-24-2 --2 -12 2411 4 8 -1 12 1-32 16 21 4 1 (-1 8


OO O O

(-3

11

14J 2~

Sa consideram un alt exemplu. Sa presupunem ca peste probabilitatea extragerii unei bile albe dintr-o urna. Dupa efectuarea primei extrageri si ntoarcerea bilei n urna, repetam experienta. Fie Xl si X2 variabilele aleatoare asociate celor doua experiente, cu distributiile:

Consideram variabila aleatoare X de distributie

x,
CUPI+p2+ .... Pn = 1

P2

Pn
XnJ.

Xl

[~n
28

X,

[~

Numim valoare medie a variabileialeatoare

X expresia:
fi

M(X)=PIXi +P2X2+ ... +Pnxn =LPi~i


i=l .

29

Proprietati 1) M(a) = a, unde a este o constanta. Acest lucru nseamna ca valoarea medie a unei constante este acea constanta. 2) M(a+X)=a+M(X) 3) M(a' X) = a . M(X) 4)
a.:::;

Se considera deoarece:

ca media

acestei variabile

aleatoare

este O,

M(X - M(X = M(X) - M(X) = mprastierea variabilei X ,se caracterizeaza

O.

prin variabila

IX- M(X)1 - numita abatere medie, cu distributia:

M(X) :::; , unde am notat ~


, ,Xn) X2

a. = min(x1,x2 iar ~ = max(x1, ~

adica cea mai mica valoare a lui X

,.o.,Xu) esteceamai marevaloarea luiX.

unde am notat m = M(X).

[lXI-mi

Pl

Ix, ~ml

P2

Ix, -mi

pn

M(X + Y) = M(X) + M(Y) 6) M(X' Y) = M(X) . M(Y) X si Y sunt daca

Cel mai comod indicator al mprastierii este dat de expresia

M[(X-mi]
care este un moment centrat de ordinul al doilea. Acesta se mai numeste adesea dispersia variabilei X si se noteaza cu a2 sau

relatia ultima are loc numai daca variabilele independente. Spunem ca variabilele
Xi)

X si Y sunt independente

D(X).Avem:
a2

evenimentele (X = Momente

si (Y = Yj) sunt independente pentru toate

= D(X) = M[(X -

mi].

cuplurile i sij, i E {1,2,o..,m}sij E {1,2,..,n}. . Notam prin Xkvariabila aleatoare cu distributia


P2 Pn J (kER) [ Pl x~ x~ x~ Numim moment de ordinul k al variabilei X, valoarea medie a variabilei Xk:
n

unde m = M(X). Proprietati a) D(a) = O, unde a este o constanta, adica dispersia unei constante este O. b) D(a+ X) = D(X) c) D( aX) = a2D(X) d) D(X + Y) = D(X) + D(Y) daca variabilele X si Y sunt independente. n caz contrar,

Mk(X) = M(Xk) =

IPiX~ =l

D(X + Y) = D(X) + D(Y) + 2M[(x --x)(y-y)].

Variabila X-M(X) se numeste abaterea de la medie a variabilei X. 30 31

Variabila

D(X) =a2

a = ..jD(X) = ~M(X2)
se numeste abatere medie patratica. Inegalitatea lui Cebsev

- M2 (X)

=-. =-..= 4 16 16

82

64

Daca X si Y sunt doua variabile aleatoare, notam prin


~xy

= M[(X - X Xy - Y)]

Coeficientul de covarianta

Urmatoarea inegalitate spune ca probabilitatea ca variabila IX - mi sa fie mai mica dect o cantitate orict de mica, 8, este
2

-dintre variabilele X si Y
-M(X} M(Y)

Prin X am notat M(X) iar Y = M(Y) . Se poate arata prin calcul ca


~xy

mai mare sau egala cu expresia 1-.;-, 8

unde

a este

abaterea

= M(XY)

medie patratica a v.a. X, iar 8 este un coeficient de toleranta sau prag de semnificatie. Inegalitatea lui Cebsev se va scrie:
a2

Coeficientul de corelatie Numim coeficient de corelatie a variabilelor .aleatoare X si Y expreSia:

P~x - mi < 8) ~ 1- -2 .

P
xy

= _~_Xy_ = -===M=(X=Y=)=-=-M_(X-;:=)= .=M=(Y=) O'xay ..JM(X2)-M2(X).~M(y2)--M2(y)

Exemplu. Fie X o variabila aleatoare. Sa determinam dispersia acesteia stiind ca Proprietati P~x-ml < 8) Se constata~ ca 8 =8 . A tunCl 1 - -2 ~ . a2 8 De unde:

~12. 16
15 =16

1) Coefi.cientul de corelatie este un coeficient standardizat,

cuprins ntre valorile -1 si +1.


-lsPxysl

2) Daca variabilele X si Y sunt independente, atuncj


Pxy = O
3)

Daca

Pxy

= l,

ntre variabilele

X si Y exista

De aici rezulta: 32

dependenta liniara. Aceasta dependenta arata astfel: 33

a
y - M(Y) = -y (x - M(X)), cazul p = 1
ax

A Aplicatii (') ~

.!L
2-,'

rJ, ~"C ~ )
"f

'/

(', 1 \~

11
.1-',

a
y-M(Y) sau = -_Y (x -M(X)),
ax

Se arunca 2 ~zaruri si se noteaza c~ S .nu~a~l.total cazul p =-1 care apar. Sa se formeze tabloul dlstnbutlellUl S.

R. S

t P~~,h,l ~
,,\:O

C;

3,'

)(

+ \1 , ' Iltr!Jr~
1

';),

fll,i.{

, ,

x-M(X)

=~(y-M(Y)),
ay

cazul p =1

.~ 36 36 36 36 3636 36 3 4 5 6 7 '8

36 10 36 36 9 36 11 12J

G-It

x - M(X) = - a x (y - M(Y)), cazul p = -1


ay

2. Se da variabila aleatoare X de distributie: 1 0,7

Observatie. Daca

Pxy

= O nu rezulta ca variabilele X si Y sunt

independente sau ca exista o slaba dependenta ntrey.a. X si Y. Acest lucru poate sa nsemne mai degraba ca dependenta nu este de tip liniar. n acest caz, se analizeaza cazurile de dependenta parabolica, logaritmica, logliniara etc. mprastierea unei variabile aleatoare mai poate fi masurata prin coeficientul de variatie (sau de mprastier~):

]
neN

v=~
M(X)

-6
1

Fiev.a. X 1 6 3

~J

Care este probabilitatea ca X sa ia o valoare mai mica sau egala cu 3?

34

R.
P(X ~ 3) == P(X == 1)+ P(X == 2) + P(X == 3) == - + - + -

Sa se calcu1eze: M(X)~ M2(X), M(X2), M(X - 1), M(X2 - 2X).

111

2 6 6 2 3 6

== -

+-

1 5
==-

R. M(X)
==

0,3+0,8+0,6+0,4 =2,1 90,2 + 160,1 5,3

@ Fie v.a. X, Y
3
4 1

M2(X) =4,41 5
1 6 X2 M(X2) = 1 0,3 + 40,4+
==

X [1 6

1 2 1
6 2
1

1 6

6 4
1 6

[10,3

0,4 4

0,2 9

O,~ 16j

3
1

5
1

7. Fie

yD

X!
[1 6

Care este distributia sumei X +Y ? R. A se vedea ex. 1.

6 2

!
== -

2
3 3

Calculati dispersia lui X.

R.
5. Fie X, Y 2 v.a. cu distributiile:
o
o 1

m = M.(X) 1 [- 1,5

112 6 + 2 . -:- + 3 . -3' = 2 6


2 0,5J.

-p
3

Y [-1

q2

-q 5 6

X-m

-0,5
2

1 6

Care este distributia v.a X+Y si XY? 6. Fie

M.[(X-m) ] = 2 '6' 25~+ 025-+025-6'

4
66'
==

-(2 5+1)

35
==-

60

8. Fie X o v.a. cu media ro si dispersia a2 Sa se calculeze 0,4 2 0,2 3

[10,3

4, O,~
36

. v al oarea me d" IesI d'lSperSla v.a. Y

==

X- m

37

R. m(Y)

=-

1 Il (J :L)xi -m)pi i=1

1 =-fLpiX; (j"

-mLP;]=
X Y

O 4

58

Construim variabilele X si Y atasate rezultatelor obtinute la 23 9 12 26 8 58 examenul "A",8respectiv "B".

(J2 = M[(X - m)2] . Sa consideram v.a. (X - m)2 de distributie:


X-ro

Atunci

Pl [(xl-mi
TI.

P2 (X2-m)2
n

Pn (xn-mi]

[~

[10

~]
;7]

(J~ = LPi(Xi i=1

_m)2 = LPiX; =I

-2mLPixi i=1

+m2 =

mI = M(X) = 410+98+823+723 58 9. O grupa de 58 de studenti sustin doua examene la disciplinele "A" si "B". Ne punem ntrebarea daca exista vreo legatura ntre rezultatele obtinute la cele doua examene. Pentru aceasta, vom calcula coeficientul de corelatie. Distributia rezultatelor studentilor la cele doua examene este prezentata n tabelul urmator: X58 3 2 4 O O4 7 1 12 26 17 15 2 10 88 13 23 ::1 ,.Q 94 1 = -::1 Total 10y o (l;I 8693 2 obtinute la examenul "B" ... -~ 10 O o ia 7 Note Total
(l;I

_457 - 58 = 7,88 465 = 58 = 8,02

m2 = M(Y) = 103+912.+826+717 58
82 X2

[.10'

4 58

23 58
82

23 58 72J

y2

26

17 58

[1

58
02

58

72J
+ 23.72 = 3647. = 6288 58'

M(X2) = 4.102 +8.92 +23.82 58

39

M(y2)

= 3.102 + 12.92 + 26.82 + 17 .72 = 3769 = 64 99 58 58'

Capitolul IV
INDICATORI AI CARACTERISTICILOR CANTITATIVE

M(XY) = 2100 + 2 90 + 1 90 + 6 . 81 + 172 + 4 . 72 + 15 . 64 + 58 + 456 + 1056 + 13 . 49 = 3697 = 63 75 58 58' mi = m~ =


O"~
O"~

M2 M2

(X) = 7,882 = 62,09 (Y) = 8,022 = 64,32


o"x O"y

Prin indicatori vom ntelege acele valori.atasate nuta n distributia variabilei respective. Exista trei tipuri de indicatori:

variabilelor

cantitative, care exprima, sub forma sintetica, informatia conti= .J0,79 = 0,89 = 0,82

= 62,88 - 62,09 = 0,79; = 64,99 - 64,32 = 0,67;

indicatori de pozitie sau ai tel1dintei centrale de grupare; indicatori de dispersie sau de mprastiere; indicatori ai formei distributiei.

M(XY) - M(X) M(Y) = 63,75 - 63,20 = 0,55 Atunci = M(XY) - M(X) . M(Y) = 0,55 = O75
Pxy
O"x'O"y

1. Indicatori ai tendintei centrale de grupare


Din seria indicatorilor de pozitie sau a tendintei centrale de grupare, vom mentiona: 1. Media aritmetica sau, simplu, media

07'" ,.)

'

Se constata astfel ca ntre variabilele X si Y exista o corelatie directa destul de puternica.

Daca Xl, X2, . , Xn sunt cele n valori pe care le poate lua o variabila cantitativa, atunci valoarea mediei va fi:

_
X

1
=-(x1

+x2 + .... +xn)=-

n LXi i=l

Il

Daca valorile

Xi

sunt luate cu frecventele fi, atunci

=- 't"rx n
L..J i=l 1

Il

40

41

Exemplu. Sa consideram numarul. familiilor dintr-un imobil dupa dimensiunea acestora (numarul de persoane ce alcatuiesc familia respectiva,). Nr. persoane Nr. familii 1 10 Total 80

il

atunci X = M(X) =

LPiXi i=l

Valoarea medie se mai numeste si speranta matematica a variabilei X. 2. Mediana unei variabile cantitative X este acea valoare notata Me a lui X pentru care are loc egalitatea:

Se constata ca numarul total de persoane este: 110+215 +3 25 +4 20 +58 + 6 2 = 10+30+ 75 + 80 + + 40+12 = 247 Atunci dimensiunea medie a familiei va fi: 247 =3,087 persoaneI familie.
80

P(X < Me)

= P(X

>Me)

=-2

Din punct de vedere grafic, mediana este acea valoare a lui X pentru care ariile din histograma despartite de ordonata lui Me suntegale.

Desigur ca nu poate exista o astfel de familie, dar acest indicator ne arata, n cazul familiilor absolut omogene, pe unde s-ar situa dimensiunea acestora. n cazul unei variabile aleatoare discrete X 2 0,07 valoarea medie este X = 1 0,05 + 20,07 + 30,08 + ... + 70,13 = 4,78 iar n forma generala
il

3 0,08

4 0,13

5
0,32

6
0,22
Me

Cazul variabilei discrete

[XI
PI

P2

x,

Pn Xn

.J
42

Pi ;:::0;

LPi i=l

=1 43

Exemplu. Fie o variabila cantitativa continua, de exemplu dimensiunile llIlor piese, care au fost observate ca variind ntre 60
m.m

si 168 mm.Apestinterval

a fost mpartit, din motive prac..

tice, n intervale de6mm. ..~-----,-'-------~~------:, obti:nndu-se discretizareavariabilei ~ urmatoarea tabela: '

."....

--. ---de

-:-

Intervale

Centrul intervalelor
63 69
75 81

Frecventa

aparitie
3 7 11 34 37 38 30 41 22 15 16

Me

60-66 66-72 72-78


Xi

Cazul variabilei continue Daca valoarea mediana Me coincide cu o valoare a variabilei

78-84
84-90

X, atunci valoarea mediana este bine precizata. Daca nsa acest lucru nu se ntmpla, avem de-a face cu un interval median. n practica, se obisnuieste sa se ia drept valoare a lui Me mijlocul acestui interval. Exemplu. Variabila atasata experientei de aruncare cu zarul are distributia uniforma:

87
93

90-96 96-102 102-108 108-114 114-120 120-126 126-132 132-138 138-144 144-150 150-156 , 156-162

99 105
111

117 123 129 135 141 147 153 159 165

[1 2 3 4 5 6 Intervalul median este [3,4] iar valoarea medianei Me va fi: M =3+4=35 e 2 '

l l l l l lJ
666 6 6 6

6 5
3

1
O O

1
Total 270

3. Modul sau valoarea dominanta este n acelasi timp si


valoarea cea mai probabila pe care o poate lua variabila X. Se noteaza prin Mo sau X. 44

\162-168

45

50

exista o relatie aproximativa, valabila pentru distributii cel ,mult usor asimetri~e:
Ma

40 30 20 10 O I IEI 0-66 6 1190-96 11II66-72 13172-78 IEI 8-84 7 1184-90

= 4Me -3x

Valorile celor trei indicatori ai tendintei centrale sunt fo11III96-102 11102-10811II108-11411114-120

Iosite pentru construirea parametrilor care redau forma distrihutiei.

E!l120-126 11126-132 11II132-13811II138-14411I144.150 11II150-156II 156-162 rm 162-168

ll.
Frecventa maxima se obtine pentru x = 105, dar dj,n examinarea histogramei se constata ca aceasta frecventa maxima pare a fi accidentala n examinarea tendintei generale a fenomenului statistic si, ca atare, ar putea fi datorata faptului ca n esantionarea a 20 de observatii studiate, hazardul a grupat n intervalul 102-108 o fractiune mai importanta dect aceea care se gaseste n mod normal n populatia statistica. Trasarea curbei frecventelor implica, pe lnga continuitatea fenomenului, si o fonna potrivita, clasica, astfel nct aria totala sa fie aceeasi, prin compensare. n acest exemplu histograma indica, de fapt, ca modul valoarea 95. Curba se efectueaza printr-o ajustare analitica. ntre valorile:
Ma -

Indicatori de dispersie
Indicatorii de dispersie caracterizeaza o populatie statistica

din punctul de vedere al omogenitatii (eterogenitatii), n raport cu o variabila cantitativa data. n anumite situatii, indicatorii anumita caracteristica. n modelele explicative, indicatorii de dispersie pot explica de dispersie pot reflecta

gradul de inegalitate ntre indivizii statistici, n raport cu o

gradul de nedeterminare, de variabilitate al unui fenomen. Amplitudinea


Este diferenta dintre cea mai mare si cea mai mica valoare.

A = Xmax Quantile

- Xmin

modul sau valoare modala

Fie X o variabila aleatoare al carei argument x este definit n intervalul [a, b]. S-a vazut ca pentru determinarea medianei Me trebuie rezolvata ecuatia

Me - valoarea mediana

x - media

1
46

F(x) = 2 47

unde F(x) = P(X < x) este functia de repartitie a variabilei X. Numim ecuatiei: quantile de ordinul n ale variabilei X, radacinile

- QI se mai numeste cuartila mica sau inferioara;


- Q3 cuartila mare sau superioara.

F(x)=-, n

Diferenta: i= 1,2,....,n-l

1= Q3-QI
se numeste abatereaintercuartlla Valoarea: (sau abaterea cuartiIa).

pentru nE N dat, iar F(x) este functia de repartitie. Pentru n = 2 se obtine mediana Me. Pentru n = 4 , cele 3 radacini: QJ, Q2, Q3 se vor numi cuartile Pentru n = 10 solutiile se numesc decile Pentru n = 100 solutiile se numesc centile Daca reprezentam grafic curba de distributie, quantilele de ordinul n mpart suprafata marginita de curba de distributie, axa x = a, x = b n n parti de arii egale (sa~ mpart multimea indivizilor n n parti egale). se va numi abaterea semiintercuartila Adesea se foloseste o valoare relativa (standardizata) Q3 -Ql
0.2

ax si ordonatele

--

numita abaterea intercuadila un test cu valori de 11a 10.

relativa.

Sa consideram rezultatele obtinute pe un lot de 1000 persoane la

e:l :>

.-<
() :::s

20 'i: 25, 15 130 220 670 940 980 1000 200 250 450 90 30 1 6 8 7 5 4 9 ... o-40 () 2110 ~ 401601 > .S120 d ()830 o o S c o ~ ~
CIlI ~

'"'

:::s CZl

E-I

,o

,----

n cazul cuartilelor mediana:

.-a=Qo

QI

in =

4). a dou~artila

-------

este egala cu

~;3~~

49

Amplitudinea: 10 - 1= 9 Prima cuartila, care se obtine prin delimitarea primilor 250 de indivizi este 4, mediana este 6 (deoarece sub 5 sunt 450 de indivizi, iar sub 6 sunt 670). A treia cuartilaeste 750-lea). Asadar, Ql =4
Q2=Me=6

pentru

i:j::.

j, n cazul caracteristicilor :fara frecventa, sau G=

.n n L:L:IXi n(n -1) i=lj=l

Xii fifj

pentru i

:tj ,n

cazul caracteristicilorcu

frecventa (n care fi este

7 (sub 7 sunt 830 de indivizi, deci si al

frecventa relativa a valorii xD. Exemplu. ntr-o sesiune, un student a obtinut la 5 examene lui Gini, vom lua n notele 6,7,8,9,10. Pentru a calculaindicele calcul diferentele n modul:
16 -

Q3=7 1 = Q3 - Ql = 7 - 4 =3
1
rei

71, \6 - 81, 16- 91, 16-101,17 - 6\'


61,

17 -'-81, 17 -

91, 81,

17

-101

'

Q3 - Ql _ 7 - 4 - O 5 Q2

18-

\8- 7[, 18- 91, \8 -101,


81,

1991

61,

19- 71,

19 -

19 -101

'

--6--'

110- 61, \10- 71, 110+3+2+1 = 40

\10-

Utilizarea decilelor si a centilelor se practica pentru a masura inegalitatile dintre oameni. Exemplu. n cazul venitului (pe familie sau pe cap de locuitor, etc.) se calculeaza venitul mediu al primilor 10% (cei mai bogati) si venitul mediu al ultimilor 10% (cei mai saraci) si se compara cele doua valori, printr-un indice standardizat. Indicele lui Gini Corrado Gini a propus un indice ca fiind media aritmetica a diferentelor dintre toate perechile de valori luate n valoare absoluta (fara sume):

S = 1+ 2 + 3 + 4+ 1+ 1+ 2 + 3 + 2 + 1+ 1+ 2 + 3 + 2 + 1+ 1+ 4 +

Deci: G = _1_.40 45

=2
ca diferental11i\die Iltre dO\la valori

Aceasta valoare.nespun~ diferite este de 2.

Abaterea medie
Daca a este o constanta, atunci marimea AM(a) =.1- ~:IXi al -

n i=l

pentru o serie de valori individuale sau

pentru o

50

51

repartitie de frecvente se va numi abaterea medie de la a. Daca a = m = M(x), atunci AM(m) este abaterea medie de la media lui X, sau mai simplu, abaterea medie. Yule si Kendall au aratat ca cea mai mica abatere medie se obtine atunci cnd se ia drept constanta a valoarea medianei Me. n exemplul anterior, Me = 8 si abaterile de la mediana vor fi: = 2 ; 17 - 81 = 1; 18 Media acestor 5 valori va fi:
81

t(Xi -X)ri
0'=
i=l n

pentru o repartitie de frecvente.

L)i i=l
Expresia

16 -

81

= O;

19 -

81

= 1;

110 -

81

= 2;.

se mai numeste dispersie sau varianta. Daca populatia statistica este conceputa ca o multime de grupuri, atunci media generala a caracteristicii media mediilor fiecarui grup. Varianta o'~ se va numi n acest caz varianta este egala cu

2+1+0+1+2

=~=12

5'

Media celor 5 note va fi: (6 + 7 + 8 + 9 + 10) : 5 = 8, iar abaterea de la medie: (2 + intergrupala:

1+

O + 10 + 2) : 5 = 1,2. Aceasta valoare coincide cu

2.15 --2 0'- =- "n.(Xj -x) x L.J


n
J

valoarea obtinuta cu calculul medianei, deoarece n acest caz mediana si valoarea medie au aceeasi valoare. Abaterea patratica medie (abatere standard, abaterea tip,

j=l

unde s este numarul grupurilor, iar nI+n2+ ... +lls=n Se poate calcula o medie a variantelor notata
cr ,

a)

din cadrul grupului, data de formula:

Abaterea patratica medie este radacina patrata din media aritmetica a patratelor abaterilor valorilor observate n raport cu media lor aritmetica: 0'= 1 .1- L.J (_)2n ~ Xi i=l

numita varianta intragrupala


-2

1 n 2 C'i = - "n.O'. J L.J J

n j=l

Se demonstreaza ca:
x . 'dual esI . pentru o sene d e v al on..m d'IVI
C'i

= -2 + C'i-2 a x

adica "varianta totala" se descompune n suma dintre varianta intragrupala si cea intergrupala. 52 53

Coeficient de variatie (al lui Pearson) Raportul dintre abaterea standard si media variabilei X se va numi coeficient de variatie: v x--=_O"x
X

2. Indicatori de boltire Acest indicator are expresia: B

=--4 nO"

~:CXi
i=l

_x)4_3

si este pozitiv n cazul boltirilor pronuntate:

ID. Indicatori ai form~i distributiei


Forma distributiei unei caracteristici cantitative este masurata de doi indicatori: 1. Oblicitatea = x-M
(J
o ==

3(x-Me)
O"

si negativ n cazul boltirilor aplatizate:

(Formula lui Pearson) Daca aceasta expresie are semn pozitiv, curbele sunt alungite catre dreapta:

Calculul

acestor

indicatori

se poate

executa

cu

ajutorul

calculatorului electronic pe baza programului "SPSS". iar cnd expresia este negativa, alungirea este spre stnga:

54

55

Capitolul V
CORELATIA RANGURILOR

caracteristici (care poate fi naltimea) si are locul nti n ordinea crescatoare a celei de a doua caracteristici (de ex. greutatea). Daca am fi avut ordinea (2):
VI

(2) Sa presupunem ca avem o serie de n unitati statistice: VI, V2, .... , Vn fiecare dintre acestea avnd doua caracteristici
(Xl, YI), (X2, Y2), ... , (xn, Yn)

3 3

V2 1 1

V3

10 10

V4 6 6

lIs V6
2 2 5 5

V7 7 7

Vg

V9

VIO

8 8

4 4

9 9

nseamna ca am fi avut cea mai strnsa legatura ntre cele doua caracteristici. n acest caz, fiecare persoana Vi ocupa acelasi loc n ordinea ierarhica a celor doua caracteristici. Daca, dimpotriva, am fi avutOJ:dinea (3)
UI

De exemplu, aceste n unitati statistice pot reprezenta n persoane, iar caracteristicile pot fi naltimea si greutatea celor n persoane. Problema care se pune este daca exista o corelatie ntre aceste doua caracteristici. Sa admitem ca s-a facut urmatoarea nregistrare a datelor pe un lot de 10 persoane si ca aceasta nregistrare sa facut dupa doua caracteristici:
VI U2 V3 V4 Us U6 V7 Vg

(3)

3 8

V2 V3 1 10 10 1

U4

Us

U6

6 5

2 9

5 6

V7 7 4

Vg

V9

UlO

8 3

4 7

9 2

atunci am fi avut discordanta caracteristici.

maxima

ntre aceste doua

Daca consideram clasificarea (1), diferentele dintre linia II si linia III sunt:

(1)

3 1

1 2

10 9

6 7

2 4

5 3

7 6.,

V9 8 4 10 5

VIO

9 8

di:2, -1, 1, -1,


De altfel, n general

--2,

2, 1, -2,
O.

--1, 1

Se observa ca : dl +d2 + ... + dJ()==


n

Astfel, n nregistrarea (1) am asezat n prima linie cele 10 persoane. n linia a doua am nregistrat locul pe care l ocupa fiecare persoana n raport cu prima caracteristica, iar pe linia a treia, aceeasi ordine referitoare la a doua caracteristica. De exemplu, persoana V I este al treilea n ordinea crescatoare 56 a primei

L:dj =0
i=1

Cu ct diferentele di sunt mai mari n valoare absoluta, cu att avem o discordanta mai mare ntre caracteristici. Astfel, este propus urmatorul coeficient: 57

Ld;
p = 1- 6
i=!

crescatoare de la 1 la 10, iar persoanele Ui (i =1, ... 10) au

n(x2

-1)

(n> 1)
n

aceleasi caracteristici n ambele clasificari. Sa constatam ca prima persoana din nregistrarea (4) ocupa locul 1 n ce priveste prima caracteristica si locul 2n ce priveste a doua caracteristica. Exista deci 9 persoane care depasesc pe U2 n ce priveste prima caracteristica

numit coeficient de corelatie a rangurilor al lui Spcarman. cazul exemplului de mai sus,
10

Ld; i=l
Prin urmare: = 1-

= 22.

si numai

8 care l depasesc pe

U2 n raport cu a doua caracteristica.

Practic, obtinem urmatorii indicatori

103 -10

6 . 22

= O 867

8, 6, 7, 5,

5,3, 3,0, 1

'

astfel: locul 2 de pe linia a 3-a din tabloul (4) este depasit de 8 pozitii. Locul 4 de 6 pozitii, locul 1de 7 pozitii s.a.m.d. Vom nota cu P suma numerelor mai mari (care depasesc o anumita pozitie) si prin Q suma numerelor mai mici (care sunt depasite de acea pozitie). Astfel:
P

Se stie ca pE [-1,1], ceea ce nseamna ca acest coefi'cient ia valori cuprinse ntre -1 si 1. Cnd P = 1 avem concordanta maxima ntre cele doua variabile, iar cnd p = -1 avem

discordanta maxima ntre cele doua variabile. Valoarea p = 0,867 , fiind destul de apropriata de 1, arata ca ntre cele doua caracteristici exista o corelatie destul de strnsa. Coeficientul de corelatie a rangurilor al lui Kendall Sa reIuam exemplul anterior si sa luam n consideratie urmatoarea clasificare:
U1 U2 U3 U4

= 8 + 6 + 7 + 5 + 5 + 3 +3 + 0+ 1 = 38
a propus urmatorul indicator pentru concordanta

8=1+2+0+1+0+1+0+2+0=7

Kendall

rangurilor:
2(P r=----Q)

n(n..,.l)

(4)

1 2

2 4

3 1

4 5

Us 5 3

U6

U7

U8

U9

UlO

6 7

7 6

8 10

9 8

10 9

Cnd r =. 1.obtinem concordanta maxima, iar cnd r = -1 se obtine discordanta maxima. ~.Jlre ntre cele doua caracteristici. ncazulexenlpluluinostru 59 loc independenta

Tabloul (4) contine aceleasi elemente ca si clasificarea (1), cu diferenta ca n linia a doua rangurile au fost scrise n ordine 58

r = 2(38 -7) = O69

10-9

'

Capitolul VI
ANALIZA DE REGRESIE

ceea ce indica o concordanta pozitiva. P se mai numeste indicator al concordantei pozitive, deoarece el creste o data cu cresterea lui r, n timp ce Q se va numi indicator al concordantei negative, ntruct r descreste cnd el creste. Acest coeficient al lui Kendall se aplica numai pentru serii mari. Pentru serii mici, dispersia acestui coeficient are valori man.

n statistica sociala ntlnim adesea repartitii n care fiecarei unitati a populatiei i corespund simultan doua sau mai multe caracteristici. Astfel de.repartitii se mai numesc bidimensionale. Ele ne pot sugera existenta U110rrelatii ntre respective. Prezenta sau absenta unor astfel de relatii, ca si amploarea acestora, formeaza obiectul analizei seriilor interdependente. Ea presupune analiza simultana ahd6ua variabile si foloseste doua tipuri de metode statistice: regresia si corelatia. De regula, una dintre aceste doua variabile este considerata ca variabila independenta sau explicativa, n timp ce a doua este o variabila dependenta. Acest lucru are .loc.daca a doua variabila prezinta modificari la variatiile primei variabile. Analizaacestei dependente se. face prin metoda regresiei. Termenul de regresie a fost dat de statistici anul englez Francis GaIton (1822-1911) si el stabileste legatura care exista ntre cele doua variabile X si Y. Cazul cel mai simplu de regresie este cel liniar. Asta nseamna ca punctele Ai(xi,yi) se distribuie n jurul unei drepte: y= a+bx (1) caracteristicile

60

61

Reprezentate n plan ntr-un sistem de axe coordonate, o astfel de legatura de tip liniar poate avea una din urmatoarele forme:

x x x x
x x

x
x x x

xx x x xx
x x

x x x x x x x
x

x x x x x x xx
x

a>O
b>O a

a<O
b>O

3) Determinarea parametrilor

4) a si .b .din ecuatia dreptei de diferentelor dintre valorile

x
o

regresie se face cu ajutorul metodei celor. mai mici patrate, care spune ca "suma patratelor empirice Y i si valorile teoretice
Yi

date de ecuatia de regresie, sa dintre


Yi

a<O a>O a b<O b<O

fie minima. Grafic, patratul diferentelor

si

Yi.

se

exprima prin aria unor patrate ale caror laturi sunt egale cu
Yi .

Yi-

Suma ariilor. acestor patrate va fi cuamt mai mica cu ct valorile empirice ale lui Y se vor apropria mai mult de valorile
n

Acestor tipuri de legaturi liniare le corespund diagramele de mprastiere a valorilor celor doua variabile:
x

teoretice corespunzatoare S=

I(Yi -Yi)2 =
i=1

minim

(2)

x
x

x x x x x x x
x x

x x x x x

si tinnd cont de formula (1), se obtine conditia:


n

x
x x

x
x

x x x

x x x x
xx

L(Yi -a-bxi)2
i=l

= minim
ale .analizei

(3) matematice,
am.darol

x x x x

x x

x x x

Utiliznd si b:

metode

derivatelor partiale n (3), se obtine sistemul n necunoso\ltel~u' 1) 2) 62

63

na+bLxi i~1
n n

= LYi i~1
n

(4) sau 0"1== 0"2

PO"I

==

P0"2

O" 2

0'1

aLxi i=1

+bLx; i=1

= LXiYi i~1

Prin urmare, cele doua drepte de regresie coincid daca a carui rezolvare conduce la solutiile: m20"1-m1P0"2 a =-----O"I

dispersiile 0'1 si

O' 2

sunt egale.

Sa luam drept exemplu dol1a variabile.X si Y, pentru care au . SI b

pa2 =-_
0"1

(5)

fost nregistrate 15 observatii conform cu tabelul de mai jos: Tabelul]


I

Se obtine astfel dreapta de regresie y-m2 =:-P0"2 -.-(x-mI


0"1

(6) Ecuatia de regresie are forma: unde mI, mz sunt M(X), M(Y) - adica mediile variabilelor X si Y, 0"1' 0"2- dispersiile lor, iar P - coeficientul de corelatie. n mod analog, daca ne propunem sa determinam parametrii arbitrari a si b astfel nct
n

6 7 14 11 4 3 28 9 15 5 10 1:

!~-

-.

13
65

4 1089 1 -9 1424 -9 11 12 3933 2639 33196 3326 3 196 -5 -3 16 1 81 1 3 O 19 O 858 44 16 168 126 561 1417 99 238 9 17 627 165107 Xi X~ Vi XiYi

Y==a+bX

M(x-a-by)2

=: L(xj
i~1

-a-byJ2

=minim

vom putea obtine o alta dreapta de regresie: y-m2

=-(x-ml)
0"2

PO"l

(7)

Cele doua drepte de regresie date de relatiile (6) si (7) se intersecteaza n punctul de coordonate G(mI, mz) care se va numi centrul de greutate al distributiei. n general, aceste drepte de regresie sunt diferite, afara de cazul . cnd
64

unde
SI

Capitolul VII
ANALIZA DE DEPENDENTA
b= LXiLYi -n:L:XiYi

(LxJ2 -nIx~
Confonn datelor din tabelul 1, obtinem: a = -0,45; b = 0,69, deci Y = -0,45 + 0,69X cu reprezentarea grafica:
Y

Conceptul de analiza de dependenta sau cum era cunoscut anterior, pathanalysis sau cauza!. an~lysis se refera la determinarea relatiilorntre un ansamblu de variabile n contextul unei structuri cauzale, adica o structura a unui grup de variabile ntre care se 'constata sau se presllpun anumite relatii de interdependenta. Prin variabila vom ntelege orice criteriu declasificare, fie ca este vorba de o nsusire dihotomica(sexul), de ordine (nivelul de scolarizare) sau cantitativa (yenitul). Principalele modele propuse de Simon, Blalock si R. Boudon se bazeaza pe observatia coeficientului de corelatie liniara ntre variabile si nu se departeaza de tehnicile clasice ale analizei de regresie. Vom nota prin X un ansamblu de variabile
X=(Xl,X2, .... )

Un model de structura cauzala va fi o structura cauzala n care ipotezele sunt facute pe baza notarii relatiilor ntre variabile.

66

67

Modelul recursiv Acest model a fost studiat si dezvoltat de M. Simon, H. Blalock si R. Boudon, De el s-au mai ocupat Duncan si Alker. Ipotezele modelului recursiv Ipoteza 1. Relatiile dintre variabile sunt liniare. Asta nseamna ca orice variabila a grafului este exprimata ca functie liniara de una sau mai multe variabile care o preced n graf. n acest caz, graful constituie reprezentarea grafica a relatiilor analitice si defineste structura cauzala. De exemplu, sa presupunem ca avem un model sub forma de graf orientat cu patru variabile Xl, X2,X3,X4,n care sagetile arata influentele exercitate de unele variabile asupra altora. n fig. alaturata avem un astfel de model:

Faptul ca variabila Xl este determinata de variabila XI, l vom scrie analitic astfel: (1) X2= al2XI+e2 adica X2 este functie liniara de o singura variabila .xl; ez masoara reziduul,adica abaterea dintre valoarea variabilei Xl si cantitatea explicata de X2; M. Simon l numeste termen de eroare, iar R. Roudon l numeste factor care actioneaza implicit asupra lui x2.Graful asociat relatiei (1) este n acest caz:
Xl

.'\.. /!
X2

e2

Fig. 2 Daca se aplica acestui model metoda celor mai mici patrate a lui Gauss, atunci coeficientul al2 poate fi privit drept coeficientul de regresie al lui X2n raport cu Xl-

doua ecuatie din modelul analitic asociat grafului din fig. (2)

1,va fi:
X3=a23XZ+ e3, daca variabila X3este functie liniara numai de Xl n tine, X4este functie de X2sLde X3,deci: X4= a24X2 a34X3 e4 + +
X4

(3)

Nu exista termen n Xl pentru ca riu exista sageata ntre Xl si X4

Fig.

1
68
69

Sa mai observam ca n modelul din fig. 1, XI este o variabila primara, ea nefiind influentata de o alta variabila din sistem, n timp ce variabilele X2,X3si X4sunt variabile dependente. Ipoteza 2. Nu exista efect de interactiune. Acest lucru nseamna. ca .relatia dintre doua variabile nu este functie de o a treia. Un exemplu sugestiv este dat de Boudon si Lazarsfeld, care studiaza influenta vrstei si a nivelului educatiei scolare asupra receptarii radiofonice a muzicii clasice. Luata separat, fiecare variabila nu prezinta nici o relatie particulara cu ascultarea muzicii clasice. Pe de alta parte, daca s-ar studia subpopulatia adulta, s-ar constata ca exista o relatie ntre receptarea muzicii clasice si nivelul de educatie. Cei cu un nivel de instmire mai ridicat recepteaza mai mult emisiunile de muzica clasica dect alte tipuri de emisiuni. Aceasta a doua ipoteza este cumva cuprinsa n prima. Ipoteza 3. Reziduurile ei nu sunt corelate ntre ele. Asta nseamna ca n graf nu exista sageti ntre ei pe de o parte, iar pe de alta parte nu exista sageti nici ntre ei si Xjpentru i Constructia unui model de structura cauzala
-::f=

X4

Fig. 3 iar sistemul asociat grafului din fig. X2= aI2XI+ e2 X3= aI3XI+ a23x2+ e3

3 va ti:

+ X4= aI4XI+ a24X2 a34X3+ e4


Facnd ipoteze simplificatoare privind prezenta saualisenta relatiilor ntre variabile, vom putea construi un graf derivat din primul, obtinut deci prin suprimarea anumitor sageti.

j.

Sa consideram grupul de 4 variabile ordonate: XI, X2, X3, X4 si sa construim un graf complet, adica orice cuplu de variabile este legat printr-o sageata: 70
X4

Fig. 4 71

Atasam grafului derivat din fig. 4 sistemul de ecuatii corespunzator:

bJ3,2= r13,2 .-'

S12

S3,2

(*)

= a12Xl + e2 X3 = a23X2 + e3
X2 X4

care leaga coeficientul de regresie partiala de cel de corelatie partiala. De aici rezulta rl3,2= O. n continuare, se poate proceda n doua moduri:

= a24X2 + a34X3 + e4

Dupa cum se poate constata, absenta unei sageti n graful orientat este echivalenta cu anularea coeficientului de regresie aij corespunzator. Analiza si testarea modelelor matematice ale structurilor cauzale se poate face n multe feluri. O cale este aceea prin care verificam daca90eficientiiaij corespunzatori sagetilor absente sunt nuli, metoda utilizata de H. Blalock. Altfel, putem rezolva sistemul (*), pentru a-l urma pe R. Bou~on. Modelul lui Blalock Dupa construirea structurii cauzale si a sistemului de ecuatii asociat, Blalock ia n consideratie numai coeficientii aij care sunt nuli, ca urmare a ipotezelor initiale. Acesti coeficienti sunt coeficientii de regresie partiala din ecuatia analizei de regresie care este avuta n consideratie. Astfel, n schema din fig. 4, care are asociat sistemul (*), avem: al3 = bl32 care este coeficientul de regresie partiala ntre al3 = Oeste echivalent cu b13,2 = O. Pe de alta parte 72
Xl

1.

Se calcllleaza acest coeficient pe baza datelor empirice, pentru a se vedea daca el este apropiat de zero (n practica este putin probabil ca el sa fie egal exact cu

zero!) 2. Sa se deduca o relatie ntre coeficientii de corelatie. , , , Astfel, r13,2 O antreneaza IJ3 = ru . r23, deci produsul = Iu . r23 calculat da o valoare teoretica a lui r13,pe care o notam ~3; aceasta valoare poate fi comparata cu valoarea obtinuta empiric a lui rl3, calculata direct pe baza datelor. n cazul modelului lui Blalock, n situatia cnd anumite legaturi cauzale sunt presupuse nule, problema care se pune este de a sti ce se ntmpla daca una dintre ele este gresit pusa. Astfel, daca ipoteza care conduce la o anumita ecuatie, de ex. 1'13,2 O, este gresita, a; trebui sa. ne asteptam. ca ansamblul =
t)

valorilor teoretice care au intrat n aCel;istarelatie sa se ndeparteze sensibil de valorile empirice corespunzatoare. si
X3;

deci

Daca nsa ipote:.la pusa legata de o veriga intermediara este falsa, numai acest din urma coeficient va prezeuta 73
O

variatie

sensibila n raport cu valoarea empirica corespunzatoare, rara ca ecuatiile si deci legaturile anterioare sa fie afectate. n ambele cazuri, eroarea este de aceeasi natura. Daca o relatie este falsa, adaugarea sagetilor corespunzatoare poate sa mbunatateasca modelul propus. n situatia n care o greseala se repercuteaza asupra mai multor relatii, vom avea tendinta sa respingem modelul. Daca eroarea ramne localizata asupra unei singure relatii, modelul poate fi recuperat, ameliorare. indicndu-se astfel si modalitatile de

Totodata este lasata ,la latitudinea si competenta cercetatorului decizia de a se introduce o noua legatura cauzala n modelul explicativ .propus .si n ce masura aceasta decizie are rolul de a mbunatati modelul propus.

Din punct de vedere metodologic, un alt punct controversat al acestui model consta n aceea ca nu este propus nici un test care sa indice gradul de apropiere a valorilor teoretice de cele empirice. n acest sens, cercetatorul are mai multa libertate de decizie, de validare sau invalidare a modelului propus, de mbunatatire a acestuia atunci cnd rezultatele obtinute nu au fost satisfacatoare. Constructia apriorica a structurilor cauzale recursive deduse din ipoteze sau rezultate din teorie ar trebui sa 'fie urmata de o analiza profunda a validitatii prezentei sau absentei fiecareia dintre relatiile date. Aceasta analiza ar consta dintr-un sir de analize de regresie, aplicabile primelor variabile ale modelului, l apoi variabilelor intermediare introduse pe parcursul analizei. Metodologia aceasta ofera posibilitatea si chiar oportunitatea si eventuala 75 revenirii periodice asupra ipotezelor modelului ameliorare a acestora. 74

Capitolul VID
SONDAJUL STATISTIC SI ESANTIONUL STATISTIC

controlate, . u rezultatele care s-ar fi obtinut daca. ar fi fost c anchetata ntreaga populatie adulta; Acest lucru este cu adevarat remarcabil. Desi cu vechi traditii, sondajul statistica capatat notorietate

stiintifica n prima jumatate a secolului 20. El a fost aplicat cu mult.succes n perioada interbelica prin anchetele si rezultatele Ce este sondajul statistic? Procedeul statistic prin care reusim sa prelevam o parte din populatia intrata n studiu, denumit univers de esantionare, se va numi sondaj statistic sau selectie. Rezultatul acestei operatiuni se va numi esantion. Asadar, esantionul este subcolectivitatea extrasa din obtinute de George Gallup n SUA .si mai apoi n Franta si Anglia anilor premergatori celui de-al doilea razboi mondia1. n aceeasi perioada s-au realizat progrese notabile n teoria si practica sondajelor statistice,prin contributiile aduse de lucrarile aleatoare, stratificata, lui J.Neyman privind esantionareasimplu

multistadiala, construirea optimala a unui esantion stratificat etc. Odata puse bazele teoriei sondajelor, cercetarile s-au ndreptat n directia problemelor practice pe .care. le ridica utilizarea sondajelor: metode de esantionare, de estimare, de alcatuire a chestionarelor de opinie, <:leinstruire a operatorilor de teren, codificarea si prelucrarea datelor recoitate, interpretarearezul., tatelor obtinute. Toate acestea au fost posibile ca urmare a dezvoltarii si utilizarii metodelor statistice, cu precadere a statisticii inferentiale. Contributii esentiale n acest domeniu si-au adus K. Pearson, J. Neyman,A.N. Kolmogorov, R. Fisher,Feller, Gnedenko etc. n. anii din urma, desi practica sondaj elor .statistice a luat o amploare. f"ara.precedent, utilizarea metodelor statistice a fost practicata cu stngacie sau n mod neadecvat. Acest lucru poate adesea ntlnisi
77

populatia totala, pe care dorim sa o studiem. Neavnd intentia (si adesea nici posibilitatea) de a studia fiecare unitate statistica a ntregii populatii, scopul nostru este sa alegem esantionul de asa maniera, nct studiindu-l, rezultatele obtinute sa poata fi extinse asupra ntregii populatii din universul de esantionare. n preajma alegerilor electorale locale sau generale, candidatii si formatiunile politice interesate doresc sa afle cum se pozitioneaza ierarhic n preferintele electoratului. n cazul alegerilor generale, universul de esantionare nseamna populatia adulta a tarii, adica de peste 18 ani mpliniti. Asta nseamna aproximativ 16 milioane de alegatori. Statistica reuseste ca, prin respectarea riguroasa a anumitor reguli, sa extraga un esantion de 1200-1800 de subiecti, iar rezultatele obtinute din anchetarea acestor subiecti sa coincida, n limita unei erori minimale, 76

se

n sondajele .de opinie care. au caracter

preelectoral si care confruntate la scurt timp cu realitatea - pe care a constituit-o alegerile locale sau generale, pune n evidenta uneori mari abateri de la realitate. Aceste situ.atii neplacute pot fi evitate prin cercetari minutioase, prin amplasarea judicioasa n teren a retelei anchetatorilor de opinie, prin instruirea adecvata a acestora, prin utilizarea unor tehnici adecvate de corectie, a estimarii si minimizarii erorilor. De ce folosim sondajele de opinie? Avnd n vedere ca un sondaj corect realizat reproduce structura populatiei investigate pe principalele ei caracteristici, de aici vor rezulta avantajele utilizarii sondajelor de opinie. Sondajele se utilizeaza atunci cnd cercetarea statistica exhaustiva (cazul recensamntului populatiei) implica cheltuieli foarte mari si consum urias de eforturi umane $i de timp. De asemenea, trebuie avut n vedere ca sunt situatii cnd un sondaj statistic bine efectuat da rezultate mai bune dect investigarea .ntregii populatii din universul de esantionare, si aceasta deoarece: programul de cercetare prin sondaj cuprinde, de regula, mai multe caracteristici dect o cercetare exhaustiva a populatiei; anchetatorii de teren utilizati ntr-un sondaj de opinie sunt superior instruiti fata de situatia unui recensamnt, cnd acestia sunt improvizati si cu un instructaj sumar. Dupa cum am vazut, recensamntul este studiul exhaustiv al ntregii populatii din universul de esantionare.
78

Esantionul .care urmeaza a fi extras trebuie sa ndeplineasca o conditie de baza, potrivit .careia concluziile Acest proces se va numi inferenta statistica. Capacitatea unui esantion de a reproduce numita reprezentativitatea esantionului. Gradul de reprezentativitate alunui esantion estemasurat de doua marimi: eroarea maxima, notata prin d, si care exprima diferenta * cea mai mare pe care o acceptam ntre o valoare v , data de esantion, si valoarea teoretica v (data de populatia totala). Asadar, d = max\v' - vi marimea P - numita nivel de ncredere, care arata ce sanse sunt ca eroarea comisa sa nu depaseasca eroarea maximad. n acest fel, se construieste un interval (v' - d, v' +d) numit ct mai fidel structurile si caracteristicile populatiei din care a fost extras va fi obtinute din studiul esantionului sa se poata extinde asupra ntregii populatii.

interval de ncredere --1 * v


J

v +d

Daca pentru o anumita caracteristica, valoarea teoretica v se gaseste n interiorul acestui interval v E (v' ~ d, v' + d), atunci, 79

pentru aceasta caracteristica a populatiei, eroarea maxima admisa nu este atinsa, iar esantionul este valid din acest punct de vedere. Asadar, reprezentativitatea de cuplul (d, P). Cu toate acestea, nu putem vorbi de reprezentativitatea ntregului esantion, ci de o reprezentativitate pe fiecare caracteristica n parte. Reprezentativitatea este o notiune relativa, n sensul ca un unui esantion este caracterizata _

marimea esantionului; procedura .de esantionare folosita. Pentru caracterizarea nivelului de omogenitate al populatiei se utilizeaza abaterea standard, care masoara nivelul de dispersie al indivizilor n jurul mediei. Sa mai retinem ca reprezentativitatea este pus n evidenta de urmatorul grafic: Reprezentativitate
100% \ , ~ .

creste o data cu cres-

terea volumului esantionului, pe anumite portiuni. Acest lucru

esantion este mai reprezentativ sau mai putin reprezentativ dect altul. Compararea se face n felul urmator: daca la un nivel de probabilitate dat, pentru o aceeasi caracteristica, eroarea d este mai mica n primul esantion, atunci acest esantion este mai reprezentativ. De asemenea, daca la o aceeasi eroare nivelul de ncredere P este mai ridicat, din nou putem spune ca acest esantion este mai reprezentativ. Pentru nivelul de ncredere P se accepta valoarea minima: 0,95 (ceea ce nseamna ca posibilitatea de a gresi nu este mai mare de 0,05 sau 5%) Pentru d se accepta o valoare mai mica dect 3% n sondajele de opinie. Marimi le d si P nu sunt independente.
Gradul de reprezentativitate

Marimea esantionului

Relatia dintre volumul esantionului si reprezentativitatea sa Se constata ca peste o anumita limita cresterea n volum a esantionului nu mai este justificata de ameliorarea reprezentativitatii. Marimea populatiei nu intervine n marimea si reprezentativitatea esaritionului.

al unui esantion depinde de: J 81 80

caracteristicile populatiei;

Proceduri de esantionare Dupa modul cum sunt concepute, esantioanele sunt de doua feluri: aleatoare (sau pro babilistice); nealeatoare. Esantioanele nealeatoare pot fi dirijate si mixte. O procedura de esantionare se va numi aleatoare atunci cnd fiecare individ din populatie are o sansa reala, calculabila si nenula de a fi ales n esantion. Orice alta procedura este neprobabilista. Pentru a fi siguri ca fiecare individ al populatiei are sanse de a fi' ales n esantion, este necesara o foarte buna cunoastere a structurii populatiei (a universului de esantionare). Asta nseamna existenta unor liste ale populatiei, adica a unui cadru de esantionare, permita accesul la fiecare individ al populatiei. Tipuri de esantionari 1. Esantionarea simplu aleatoare are la baza principiul loteriei sau al tragerii la sorti. Practic, se vor folosi tabelele de numere aleatoare. 2. Esantionarea prin stratificare alcatuite se din efectueaza n care sa

cantitative (numarul de .membri ai unei. familii,cifra de afaceri,dimensiunea localitatii etc.). marimi: nl, n2, ... , ns corespunzator si sunt

Dupa delimitarea celors straturi:. NI, N2, ..... , Ns se extrag n mod simplu aleator S ""-subesantioanede Aceste volume se extrag tiecaredinstratul proportionale cu marimea stratului:
111

n2

= ns

NI
realizat prin stratificareareo

N2

Ns

Se poate arata ca dintre doua esantioane de volum egal, cel reprezentativitate mai mare dect cel obtinut prin tehnica si111plaa.leatoare. 3. Esantionarea multistadiala (sau grupala) Aceasta presupune o grupare a populatiei pe ariigeografice, culturaltfsaujudete. n cadrul acestor arii se selecteaia un numar de localitati, n cadrul acestora se selecteaza un numar de strazi etc. Un esantion muItistadial mai scaZut. 4. Esantionaream1l1tifazica consta n alegerea .unui este mai putin reprezentativ, la volume egale, dect unul simplu aleator, dar comporta> un cost

populatii neomogene, omogene sau straturi.

subpopulatii

esantion mare, la nivelul caruia se aplica un instrument d.c cercetare mai simplu; acest esantion se supune Unor operatii succesive deesl:ll1tion.areobtiM11.du-se straturi din celtce mici, carora li Se aplica metodemaielaborate. mai

Criteriile de determinare a structurilor sunt: calitative (geografic: judete, zone, localitati; salariat / nesalariat; mediu de provenienta); 82

83

5. Esantionareape Aceasta caracteristici presupune

cote (nealeatoare) gruparea populatiei dupa cteva

populatiei pentru viata social-politica, pentru anumite decizii de interes local sau national. Putem deduce de aici ca politica unui guvern, a unei formatiuni politice, a unei ntreprinderi,.a conducerilorsindicale, se regleaza permanent prin intermediul sondajelor care txprima de fapt interesul unei colectivitati. Sa retinem ca n cercetarile sociologice predomina

si apoi se determina marimea subesantioanelor.

Structura generala a populatiei se grupeaza de regula dupa caracteristicile de baza (sex, grupe de vrsta, categorii socioprofesionale), zone urbane (rurale,judete etc.) n sondajul pe cote, care se aseamana cu cel stratificat, fiecarui operator i este repartizat un numar de subiecti, alesi dupa cteva criterii (cte persoane de sex masculin si cte de sex feminin trebuie luate, cte din fiecare grupa de vrsta etc.). Modul cum este ales fiecare subiect n parte este lasat adesea la latitudinea operatorului de teren. 6.. Esantioane urmareste fIxe (panel). Acestea, odata fixate, sunt repetate cu acelasi chestionar. El care se petrec n cadrul populatiei. supuse unor investigatii schimbarile

urmatoarele tipuri de sondaje: pe cote, ~leator si mixt. Sondajul mixt .face un compromis, .efectundu-se o cotare sumara (pe 2-3 caracteristici, deex: zone traditionale,dimensiu~ nea localitatilor etc.), iar n cadrul straturilor alegerea se efectueaza aleator. nSasi Hubert Blalock, celebrul metodolog american, subliniaza avantajul, din punct de vedere practic, al acestei metode.

Prezinta dezavantajul uzurii morale a esantionului. Concluzii Metoda dezavantaje, sondajului de opinie prezinta si o serie de

Tipuri de erori n sondajele statistice Pe parcursulelaborarii si aplicarii sondajului statistic se pot introduce o serie de erori, unele semnificative, altele mai putin .. E bine, nsa, de stiut, ca anumite tipuri de erori pot produce abateri importante ale rezultatului de la realitate. Erorile se sondaj sunt de douafeluri: erori de nregistrare; erori de reprezentativitate. Erorile de nregistrare se .pottihe calificat si experimentat. 85 usor sub .controI.atunci cnd pentru realizarea anchetei de teren se apeleaza la personal

dintre care cel mai important

este acela ca

sondajele, de cele mai multe ori, nu surprind schimbarile care se petrec n evolutia unui fenomen social. Sondajele reflecta, de regula, o situatie de moment, ele fiind de fapt o radiografiere a fenomenului studiat la un moment dat. n anii din urma, sondajele de opinie au devenit o practica frecventa n viata social-politica a tarii. Ele masoara interesul 84

Erorile de reprezentativitate pot fi si ele de doua feluri: erori sistematice; erori.ntmplatoare. Erorile sistematice apar atunci cnd nu se respecta principiile. de baza ale teoriei esantionarii. Sa dam cteva exemple n care apar erori sistematice de reprezentativitate: afectarea caracterului aleator al sondajului a elementelor statistice, rara a prin selectarea la ntmplare

Capitolul IX
CHESTIONARUL DE OPINIE.

ELEMENTE pRIVIND PROIECTAREA CHESTIONAR ULm

Chestionarul constituie principalul instrument de culegere a datelor prin metoda sondajului statistic de opinie. EL nu constituie o simpla nsirulrede ntrebari, rara legatura ntre ele si mai ales rara o anumita logica. Constructia unui chestionat de opinie a fost mbunatatita permanent, datorita experientei practice acumulate, dar. sistematizarea acestuia s"a produs o data cu axiom.atizarea chestionarului de catre Claude Picard si apoi pe baza analizei informationale fundamentata de scoala romneasca de statistica dupa ideile acad. Octav Onicescu. Cteva lucruri se impun a fi mentionate. Se spune adesea ca "un sondaj nu poate fi mai bun dect chestionarul sau", adica dect modul cum sunt formulate ntrebarile, dect ordinea si complexitatea lor. Se stie ca la ntrebarile cu mai multe ntelesuri se vor primi raspunsuri echivoce, neconcludente. De asemenea, un chestionar cu multe ntrebari, si acestea cu formulari gre6aie,produce disconfort att operatomlui, cate adesea l va trata superficial, dar si respondentului, care se va plictisi, va da semne de nervozitate, nu va mai fi atent la ntrebari. 87

respecta o metodologie anume; intelectualizarea sondajului, care are loc atunci cnd chestionarul de opinie cuprinde ntrebari dificile, sofisticat formulate (care induc asa-numita "spirala a tacerii"), cnd din comoditate, unii operatori de ancheta aleg cu precadere subiecti mai scoliti si deci mai comozi n desfasurarea anchetei, si aceasta n detrimentul celorlalte categorii; n acest fel sunt afectate proportiile straturilor, si deci reprezentativitatea esantionului. Lipsa constiinciozitatii cantitate a non-raspunsurilor Erorile ntmplatoare operatorilor de teren si o mare

constituie cauzele principale ale de selectie apar n

erorilor sistematice de reprezentativitate. sau aleatoare procesul derularii sondajului chiar si atunci cnd sunt respectate regulile metodologice. Acest tip de eroare provine din structura metodei de esantionare. Aceste tipuri de erori sunt cunoscute, calculate anterior si se pot tine sub control.

86

n acest caz, el va raspunde monosilabic sau deloc, ducnd la cresterea numarului .de non-raspunsuri. Proiectarea unui chestionar de opinie trebuie sa nceapa cu specificarea problemei de cercetat. Problemele sociale au n general un grad mare de complexitate care impune descompunerea lor pe mai multe dimensiuni. Aceste dimensiuni trebuie transformate n indicatori, adica n modalitati de stabilire a prezentei sau absentei unei caracteristici, a intensitatii acesteia. Fiecare ntrebare din chestionar va reprezenta un indicator. Selectarea ntrebarilor care urmeaza sa fie incluse n chestionar presupune existenta unor ipoteze sau chiar a unei teorii privind fenomenul social ce urmeaza sa fie cercetat. O atentie deosebita trebuie acordata construirii scalelor de raspunsuri care implica att posibilitatea de ierarhizare, ct si pe cea de masurare a atitudinilor, avndu-se n vedere ca se porneste de la opinii pentru a se ajunge la atitudini. Este indicat sa se respecte un numar de reguli care urmaresc sa dea ntrebarilor si raspunsurilor o forma coerenta, care sa permita valorificarea corecta a acestora. Astfel: ntrebarile trebuie sa se refere la opinii si nu la fapte; ntrebar.ea trebuie sa fie la obiect, scurta si pusa ntr-un limbaj adecvat, pentru a fi accesibila; ntrebarea trebuie sa prevada toate raspunsurile posibile, iar anchetatorul de teren sa nu favorizeze din ton sau nuanta vreunul din raspunsuri; 88

ntrebarile trebuie puse cu tact si un anume menajament fata de subiect pentru a nu-i provoca reactii nedorite. Tipuri de ntrebari a) DupacontinutullDr, ntrebarile sunt: factuale, de opinie, ale de cunoastere. utrebarile factuale privesc aspecte de comportament

indivizilor anchetati sau ale altora care vin n .contact cu ele. Aceste informatii sunt, teoretic, verificabile (ce reviste, ziare citeste, Ice emisiuni TVa unnaritetc.). ntrebarile de opinie vizeaza parerile, atitudinile, credintele, atasamentul fata de anumite valori etc. Aceste informatii nu pot fi obtinute direct prin ale metode. ntrebarile de cunoastere evidentiaza preocuparile intelectuale ale indivizilor. Ele pot fi utilizate si ca ntrebari de control (astfel de ntrebari nu aduc un plus de informatie, ele verifica raspunsurile de la alte ntrebari anterioare). b) Dupa forma de nregistrare a raspunsurilor, avem: ntrebari nchise; ntrebari deschise; ntrebari cu posibilitati multiple de raspuns (se pot alege doua sau mai multe variante de raspuns).

89

Analiza non-raspunsurilor
Prin non-raspunsuri ntelegem att lipsa raspunsurilor chestionar, la unele ntrebari n cadrul aceluiasi raspunsului la ntregul chestionar. Aparitia non-raspunsurilor ct si lipsa

n stiintele sociale ntlnim patru feluri de scale: 1) Scale nominale, care presupun o enumerare de posibilitati. Exemplu: locul de provenienta. Termenii acestei scale nu pot fi comparati. 2) Scale ordinale, care permit o oarecare masurare a distantei dintre posibilii termeni ai scalei. Exemplu: note primite la examen, trepte de nvatamnt etc., n care fiecare treapta este superioara celei anterioare.

n cadrul aceluiasi chestionar

poate nsemna ca anumite ntrebari sunt dificile, ca ele pot deranja anumite segmente ale populatiei, ca nu prevad toate variantele de raspuns. Unele persoane nu raspund de teama, din necunoasterea raspunsului sau alte situatii. n orice caz, procente crescute de non-raspunsuri perturba rezultatul general al sondajului. Toate aceste lucruri trebuie avute n vedere nca din faza de concepere si proiectare a cercetarii si a chestionarului. A doua situatie n care chestionare ntregi ramn necompIetate este generata de urmatoarele situatii: refuzul de a coopera, absenta de la domiciliu a respondentului n momentul desfasurarii anchetei, schimbari de adrese si neactualizate pe listele de esantionare, cazuri de infirmitati, alte unitati statistice care au disparut din baza de sondaj. Desi statistica ofera solutii care remediaza anumite situatii, totusi este important sa se .identifice.cauzele care provoaca nonraspunsurile.

3)Scale cll intervale, care permit masurarea distantelor


dintre diferitele trepte si ranguri . Exemplul cel maielocvertt este celalmasurarii 4) cronologice.

Scaleproportionale,

care exprim.a.posibilitatea unui

raport ntre doua pozitii de pe o scala. De exemplu, putem spune ca o persoana care are 40 de ani este de doua ori mai n vrsta dect una de 20 de ani.

Analiza scalara
Analiza scalara sau analiza ierarhica presupune att posibilitatea de esantionare, ct si masurarea atitudinilor. 90 91

Capitolul X
TESTE DE SEMNIFICATIE

prin utilizarea intervalelor de ncredere;

prin utilizarea unor criterii, numite teste ale ipotezei nule, bazate pe ipoteza cavariabila
ci

= .*t..:.X2

are medianu1a.

Acceptarea ipotezei nuleadmite l.1rn1atoarelealternative: Problema semnificatiei unor marimi si mai ales a semnificatiei diferentei dintre doua marimi se pune atunci cnd se compara doua valori, dintre care cel putin una provine dintr-o cercetare concreta. Adoptarea unui plan de selectie la o populatie stratificata se sprijina pe un sir de ipoteze: omogenitatea straturilor, volumele esantioanelor etc. Un alt plan de selectie presupune alte ipoteze, alte estimatii. n aceasta situatie, trebuie analizat caror estimatii le acordam mai multa ncredere si a vedea, n acelasi timp, n ce masura diferenta dintre ele este sau nu semnificativa. Daca avem n vedere o anumita caracteristica a variabilei teoretice X si daca valori estimative
.,
.;

1. Ipoteza facuta este adevarata si urmeaza sa fie acceptata; 2 .. Ipoteza facuta este.falsa si s-a comis o eroare ca ea a fost acceptata. Conceptul de prag de semnificatie este o probabilitate si masoara riscul de a gresi atlmci c;11d ia o astfel de hotarre. se Exista teste de semnificatie care se aplica esantioanelor mari, precum: t~stul Z, testul ..X2 si teste. de semnificatie esantioane Snedecor). n cele ce urmeaza, vom an.aliza testul. X2. ~ Se pl.ille problema de a testa daca structura esantiqnului se abate semnificativ de la o structura standard, dupa o caracteristica. Sa luam un exemplu. Sa presupunem unesantionde nasteri cu urmatoarea distributie: Anotimp 240 24% 2 1000270 210 Primavara 2801%7% Iarna 28% Vara Total 100% To.amna .. 1000 de mici:. testul t(al pentru

lui Student), testul F (Fisher-

si .*2 ale valorii teoretice

atunci media teoretica a variabilei diferenta trebuie sa se anuleze, adica


M(
.~ - .*2 )

=O

Acest lucru a condus la introducerea metodei de cercetare denumita ipoteza nula. Aplicarea Numar Procent ipotezei nule, n sensul de a constata daca

aceasta relatie este sau nu ndeplinita, poate fi facuta n doua moduri: 92 93

Se constata ca subesantioanele nu sunt uniform distribuite pe anotimpuri. Se pune problema daca aceasta serie difera semnificativ de cea n care respectivele proportii ar fi identice: 25%. Testul X2 se aplica astfel: Notam prin k}, kz, esantion si cu mI, mz, zatoare. Formula este:
,ks un sir de frecvente obtinute pe un

(240-250Y(270~250Y X == 250 + 250


2

(280..,-250Y (210-250Y + 250 + 250 =

12 ==100 + 400 + 900 + 1600 ==3000 == 250 250 Cum 12 > 7,82 (valoarea critica), rezulta ca diferenta este semnificativa. Altfel spus, ipoteza nula este respinsa cu o probabilitate d~ " 0,95.

, ms frecventele teoretice corespun-

De o deosebita importanta n utilizarea testului

X2

este

stabilirea numarului gradelor de libertate. Acesta se calculeaza astfel: v == -1 n cazul unui tabel unidimensional cu s celule; s v == -1)(t -1) n cazul unui tabel bidimensional (s celule. n cazul exemplului anterior, avem: Sirul frecventelor empirice: 240; 270; 280; 210 Sirul frecventelor teoretice: 250; 250; 250; 250 v==4-1==3 Din tabele gasim valorile critice: 7,82 pentru pragul de semnificatie p == 0,05 . 9,84 pentru pragul de semnificatie p == 0,02 11,35 pentru pragul de semnificatie p = 0,01 94 cu sxt

95

Bibliografieselectiva
1. Johan Galtung, theory and Methods ofSocialResearch /2. N. Mihaila, Introducere n teoria probabilitatil()rststatistica matematica 3. GH. Mihoc, V.Urseanu, Matematici aplicate n statistica 4. Dumitru Porojan, Statistica si teoria Sondajului, Ed. Sansa, 1993 5. T. Rotariu, P. Ilut, Ancheta sociologica opinie, Ed. Polirom, 1997 6. T. Rotariu (coord.) s.a., Metode statistice aplicate n stiintele sociale, Ed. Polirom, 1999 7. IoanMarginean, Masurarea n sociologie, Ed. Stiintifica si si sondajul de

Enciclopedica, 1982 8. D. Sandu, Statistica n stiintele sociale, Bucuresti, 1992 9. Yule, G.U., Kendall, M.G., Introducere n teoria statisticii, Ed. Stiintifica, 1969 10. Moser C.A., Metodele de ancheta n investigarea fenomenelor sociale, Ed. Stiintifica (1967) 11. Durkheim, E., Regulile metodei sociologice, Ed. Stiintifica, 1974 12. Chelcea S., Chestionarul n investigatia sociologica, Ed.

Stiintifica si Enciclopedica, 1975 13. Alexandrescu P., Sistemele electorale. Principiul majoritatii si limitele sale. Rev. Romna de Sociologie, nr. 5-6/2001 97

14. Alexandrescu P., Modalitati de ameliorare a cercetari/or de

teren care au la baza sondajul statistic, Rev. Romna de


Sociologie, nr. 1-2/2000 15. Alexandrescu P., O metoda de analiza scalara ierarhizare, Rev. Romna de Sociologie, nr. 3-4/2000

si

98

Editura Paralela 45 Pitesti, jud. Arges, cod 110174, str. Fratii Golesti 128-130; tel./fax: (0248)63.14.39; (0248)63.14.92; (0248)21.45.33; e-mail: redactie@edituraparalela45.ro Bucuresti, cod 71341, Piata Presei Libere nr. 1, Casa Presei Libere, corp C2, mezanin 6-7-8, sector 1, tel./fax: (021)224.39.00; OP 33, CP 13, e-mail: bucuresti@edituraparalela45.ro

COMENZI-

CARTEA

PRIN POSTA 45

EDITURA PARALELA

Pitesti, jud. Arges, cod 110174, str. Fratii Golesti 128-130 Tel./fax: 0248214533; 0248631439; 0248 631 492. E-mail: comenzi@edituraparalela45.ro sau accesati www.edituraparalela45.ro Conditii: rabat ntre 5% si 25%; taxele postale sunt suportate de editura; plata se face ramburs, la primirea coletului.

Tiparul executat la tipografia Editurii Paralela 45

S-ar putea să vă placă și