Sunteți pe pagina 1din 46

Universitatea Bucureti

Facultatea de Filosofie
CUPRINS

STATISTIC

asist. drd. Lucian Pop

2001

Introducere i concepte de baz .................................................................................................................. 3


Capitolul 1................................................................................................................................................... 8
Descrierea variabilelor ................................................................................................................................ 8
Capitolul 2................................................................................................................................................. 23
Distribuii de probabilitate ........................................................................................................................ 23
Capitolul 3................................................................................................................................................. 32
Eantionarea. Distribuia de eantionare. Intervale de ncredere .............................................................. 32
Capitolul 4................................................................................................................................................. 45
Proceduri de eantionare ........................................................................................................................... 45
Capitolul 5................................................................................................................................................. 54
Testarea ipotezelor statistice. Teste de semnificaie ................................................................................. 54
Capitolul 6................................................................................................................................................. 62
Asocierea variabilelor calitative................................................................................................................ 62
Capitolul 7................................................................................................................................................. 69
Studiul relaiilor ntre variabile cantitative................................................................................................ 69
Anexa 1. Distribuia normal normat (standard)..................................................................................... 87
Anexa 2. Valorile critice ale lui t pentru aria de sub curb aflat la dreapta valorii. ................................ 89
Anexa 3. Valorile critice ale lui 2 ........................................................................................................... 91

Introducere i concepte de baz


Deseori, n viaa de zi cu zi, folosim sau auzim expresii cum ar fi: "statisticile
arat c ", "o statistic simpl sugereaza c " etc.. De multe ori, oamenii asociaz
statistica cu o simpl "colecie" de numere. Totui, statistica reprezint mult mai mult
dect att, ea dezvoltndu-se ca o metod tiinific de analiz larg utilizat n multe
domenii. n tiinele sociale, rolul ei a devenit din ce n ce mai important cu deosebire n
ultimii 30-40 de ani. i n acest domeniu, ca i n multe altele, colectarea, organizarea i
analiza informaiei sunt "instrumente" deosebit de utile. Tehnicile de culegere a
informaiei sunt variate, de la cercetri pe baz de chestionar sau interviuri telefonice la
experimente. Informaiile astfel culese poart numele generic de "date" i se refer n
general la msurarea unor atribute sau caracteristici ale "subiecilor" analizai. Msurarea
este efectuat prin clasificarea "observaiilor" (subiecilor) conform unor reguli specifice
(de exemplu, msurarea vrstei const n clasificarea indivizilor n funcie de numrul de
ani de la natere).
n general, statistica n tiinele sociale se preocup de trei mari aspecte: a) modul
n care datele sunt culese, sau mai exact modul n care se face selecia observaiilor care
urmeaz sa fie analizate, b) descrierea acestor date i c) explicarea i/sau predicia unor
fenomene studiate. nainte ns de a trece la tratarea pe larg a acestor aspecte este nevoie
de introducerea unor concepte de baz, precum i a ctorva distincii. Una dintre acestea,
i cea mai important poate, este aceea ntre statistica pur descriptiv i statistica
inferenial. Practic, aceasta din urm constituie "nucleul dur" al statisticii. Pentru a
nelege distincia mai sus amintit, e nevoie ns mai nti de clarificarea conceptelor de
populaie (statistic) i eantion.
Termenul de populaie are o semnificaie aparte n statistic. Populaia statistic
reprezint mulimea tuturor obiectelor sau indivizilor care prezint interes pentru studiu.
De exemplu, dac cineva dorete sa studieze problema neparticiprii colare, atunci
populaia va consta din totalitatea copiilor de vrst colar din Romnia. Dac ns
obiectul studiului este gradul de poluare a localitailor urbane, atunci populaia va consta
din toate oraele Romniei. n statistic aadar, cnd ne referim la populaie avem n
minte mulimea unitailor de analiz, indiferent ce reprezint acestea (coli, orae,
ntreprinderi, ri, oameni sau chiar procese, fenomene i aciuni).
Un eantion nu este nimic altceva dect un subset sau o submulime a populaiei
analizate. Extragerea unui eantion din populaie este util i chiar necesar n condiiile
n care resursele (financiare, de timp etc.) de care dispun iniiatorii studiului nu sunt
suficiente pentru a asigura investigarea ntregii populaii. S ne imaginm c cineva ar
dori s studieze problema srciei n Romnia. n absena unui eantion, respectivul
cercettor ar fi pus n situaia de a investiga peste 7 milioane de gospodrii, ceea ce ar
duce la costuri financiare imense i la o extindere extraordinar a timpului rezervat
culegerii de informaii. n acelai timp, un subset din populaia analizat, extras conform
unei scheme de eantionare riguroase, poate furniza toat informaia necesar la un nivel
de acuratee foarte ridicat.
Putem acum clarifica distincia dintre statistica descriptiv i cea inferenial: n
timp ce metodele statistice descriptive const n descrierea sintetic a informaiei
cuprinse ntr-un set de date, metodele statistice infereniale const n acele tehnici i
proceduri folosite pentru a face generalizri despre caracteristicile unei populaii, pe
baza informaiilor culese de la un eantion extras din acea populaie. Practic marea

provocare a statisticii o constituie exact acest proces de inferen (generalizare) de la


datele de eantion la populaie.
Exemplul I.1 Primarul unui ora dorete nfiinarea unor noi locuri de joac pentru copii.
Pentru acest lucru ns, ar mai avea nevoie de fonduri suplimentare, pe care se gndete
s le obin prin introducerea unei noi taxe. Totui, pentru c alegerile se apropie,
primarul ar dori s tie n ce msur populaia cu drept de vot a oraului consider ca
legitim introducerea acestei noi taxe. n acest caz, populaia vizat este constituit deci
din toate persoanele n vrst de peste 18 ani din respectivul ora. Deoarece este practic
imposibil ca primarul s discute cu fiecare alegtor n parte, el va efectua (cu ajutorul
unei firme specializate) un sondaj de opinie pe un eantion de - s zicem - 500 de
persoane. Rezultatele sondajului arat c 55% din persoanele investigate sunt n favoarea
introducerii acestei taxe. Totui acest rezultat nu reprezint "adevrata" valoare a
procentului din populaia cu drept de vot care este dispus s susin iniiativa primarului.
Pentru a afla "adevratul" procent din populaie, primarul (respectiv cei care au efectuat
sondajul i analizeaz datele) va trebui sa apeleze la inferena statistic.
Este momentul acum s introducem dou noi concepte, i anume acelea de
parametrii i respectiv statistici la nivel de eantion.
Caracteristicile populaiei despre care facem ineferene pe baza eantionului se
numesc parametrii. Caracteristicile eantionului pe baza crora inferm se numesc pur
i simplu statistici. n exemplul de mai sus, 55% reprezint o statistic descriptiv,
deoarece ea descrie sintetic o caracteristic a eantionului. Cele mai multe studii sunt ns
interesate n aflarea parametrilor, care n general sunt necunoscui (exemple: Ci sraci
exista n Romnia? Care este procentul din populaie de susintori ai unui partid? etc.).
Eantioanele i statisticile descriptive sunt utile n msura n care ele pot oferi informaii
despre parametrii de interes. Statistica inferenial este aceea care permite obinerea unei
masuri a acurateei statisticilor folosite pentru estimarea valorii parametrilor. n
consecin, atunci cnd ntreaga populaie este cuprins ntr-un studiu, statistica
inferenial nu este necesar.
n final ne vom opri asupra unei ultime noiuni deosebit de importante pentru
studiul statisticii, i anume asupra variabilelor. Vom defini variabila ca fiind orice
caracteristic a membrilor unei populaii sau unui eantion care variaz (n respectiva
populaie/eantion). Astfel, culoarea prului indivizilor dintr-o populaie este o variabil
n msura n care indivizii care compun respectiva populaie au pr de culori diferite.
Dac toi indivizii ar fi blonzi, s zicem, atunci culoarea prului ar fi constant n
respectiva populaie. Cu ct o caracteristic are o variaie mai mare, cu att respectiva
populaie este mai eterogen i, invers, cu ct o caracteristic dat are o variaie mai
mic, cu att respectiva populaie va fi mai omogen, din perspectiva respectivei
caracteristici. n exemplul de mai sus, valorile posibile ale variabilei "culoarea prului" ar
fi "brunet", "blond", "rocat" etc.. Fiecare individ (statistic) poate lua o singur valoare
pentru o variabil..
Variabilele pot fi clasificate n funcie de multe criterii. Una din distinciile
importante este aceea dintre variabile discrete i variabile continue. Att variabilele
discrete ct i variabilele continue pot lua o infinitate de valori. Diferena dintre ele

const n faptul c n timp ce n cazul variabilelor continue ntre dou valori succesive ale
variabilei pot exista o infinitate de valori, n cazul variabilelor discrete acest lucru nu se
ntmpl. Un exemplu de variabil continu este nlimea cldirilor unui ora masurat
n metri, iar un exemplu de variabil discret l reprezint veniturile indivizilor dintr-o
populaie, msurate n lei. n cazul primei variabile, ntre doua valori succesive ale
acesteia (de exemplu 5 i 6 m) exist o infinitate de alte valori deoarece metrii se
subdivid n centimetri, apoi n milimetri etc., n cazul veniturilor acest lucru nu mai este
posibil, ntre 5 lei i 6 lei nemaiexistnd subdiviziuni.
Nivelul de msurare al variabilelor este un alt criteriu de clasificare a acestora,
de o mare importan pentru studiul statisticii. Putem distinge ntre patru niveluri de
msurare (nominal, ordinal, de interval i de raport), n funcie de trei criterii:
a) posibilitatea de a ordona valorile variabilei,
b) egalitatea intervalelor dintre valorile variabilei (sau altfel spus existena unei uniti
de msur),
c) existena unei "origini" a variabilei sau, cu alte cuvinte, a unui "zero absolut".
Tabelul I.1 - Niveluri de masurare a variabilelor
Nominal
Ordinal
De interval
De raport

a) ordonare
nu
da
da
da

b) unitate de masur
nu
nu
da
da

c) zero absolut
nu
nu
nu
da

1. Nivelul de msurare nominal presupune clasificarea unor atribute, caracteristici,


fenomene etc. n categorii care trebuie s fie distincte, mutual exclusive i exhaustive.
Acest tip de variabile (respectiv scalele folosite n msurare) indic numai faptul c
exista o diferen calitativ ntre categoriile studiate, nu i magnitudinea acestei
diferene. La limit, putem privi aceste variabile ca pe nite tipologii. Cteva exemple
de variabile msurate la nivel nominal sunt: statutul ocupaional al indivizilor
(agricultor, salariat, mic ntreprinzator, omer etc.), religia (ortodox, romano-catolic,
greco-catolic etc.) apartenena etnic (romn, maghiar, rrom etc.), mediul de reziden
(rural, urban) .a.m.d.. Valorile acestui tip de variabile nu pot fi ordonate, sau cu alte
cuvinte nu exist o ierarhie (dect eventual conform unor criterii extrinseci) i n
consecin problema "distanei" sau a intervalelor dintre valori nici nu poate fi pus.
Cu att mai puin putem discuta despre existena unui "zero absolut" (exemplu:
fiecare individ are un statut ocupaional sau aparine unei etnii, sau altfel spus absena
caracteristicilor "statut ocupaional" sau "apartenen etnic" este imposibil).
2. Nivelul de masurare ordinal implic nu numai clasificarea elementelor n categorii ci
i posibilitatea ordonrii acestora de la minim la maxim (existena tranzitivitii: dac
a>b i b>c, atunci a>c). Totui, la acest nivel de msurare nu este oferit nici o
informaie cu privire la "distana" dintre valorile scalei de msur. Cu alte cuvinte,
diferena dintre prima valoare i cea de-a doua poate fi diferit de diferena dintre a
patra i a cincea. Exemple de variabile msurate la nivel ordinal sunt calificativele
colare (cu valorile "insuficient", "suficient", "bine" i "foarte bine"), satisfacia fa
de anumite aspecte (cu valorile "foarte nesatisfcut", "nesatisfcut", "satisfcut",
"foarte satisfcut") etc..

3. Msurarea la nivel de interval, ofer n plus faa de nivel anterior (cel ordinal) i
informaie referitoare la distana dintre valorile scalei i este caracterizat de existena
unor intervale egale. Totui, la acest nivel de msurare nu exist un zero absolut, ci
mai degrab unul convenional. Exemple de astfel de scale de msurare sunt
temperatura masurat n grade Celsius (intervalele dintre valori sunt egale, dar
punctul 0 este convenional ales ca fiind temperatura la care apa inghea),
coeficientul de inteligen - IQ - (daca dou persoane au scoruri de 100 i respectiv
150, putem spune ca diferena dintre cei doi este de 50 de puncte, dar nu putem spune
c cel de-al doilea este cu 1/2 mai inteligent dect primul sau c scorul 0 semnific
absena inteligenei).
4. Msurarea la nivel de raport include toate caracteristicile nivelurilor anterioare
(ordonare i intervale egale), plus existena unei "origini" sau zero absolut. Acest
lucru permite formularea unor afirmaii n termeni de proporii (raporturi) ntre valori.
De exemplu, vitezele de raspuns a doi subieci la un acelai stimul pot fi comparate n
termeni de "timpul de rspuns a fost de dou ori mai mare" etc.. Exemple de variabile
masurate la acest nivel sunt vrsta, greutatea, nlimea, distana, numrul de copii din
gospodrie etc.
Corecta identificare a nivelului de msurare utilizat este foarte important n alegerea
procedurilor satistice de analiz. Dup cum se poate observa din descrierea de mai sus,
pentru fiecare nivel exista operaii matematice permise i operaii interzise. Astfel, la
primul nivel, cel nominal nu sunt permise nici ordonarea, nici adunarea/scderea i nici
nmulirea/mprirea. La nivelul ordinal este permis numai ordonarea, la cel de interval
sunt permise n plus i operaiile de adunare/scdere, iar la ultimul nivel, cel de raport
sunt permise toate operaiile.
n funcie de nivelul de msurare, vom vorbi despre variabile msurate la nivel
nominal, variabile msurate la nivel ordinal etc., sau, mai pe scurt, variabile nominale,
ordinale, de interval i de raport. Reducnd cele patru clase la dou, putem vorbi de
variabile calitative (nivelurile nominal i ordinal) i variabile cantitative (interval i
raport). Datorita caracterului "ierarhic" i cumulativ al nivelurilor de msurare (de la
multe restricii ctre nici o restricie n ceea ce privete operaiile permise, sau de la
"calitativ" la "cantitativ"), vom putea ntotdeauna trata o variabil aflat la un nivel
"superior" de msurare ca i cum ar fi fost msurat la un nivel "inferior". De exemplu,
vrsta masurata n ani de via va putea oricnd fi tratat ca o variabil ordinal, dac i
grupm valorile (sub 20, 21-30, 31-50, peste 50). Niciodat ns nu vom putea trata o
variabil aflat la un nivel "inferior" ca pe una aflat "mai sus" n ierarhie. (Cteodat,
cercettorii fac excepie de la aceast regul, tratnd variabilele ordinale ca i cum ar fi
msurate la nivel de interval. Totui, o dat cu dezvoltarea unor noi tehnici de analiz,
dedicate special nivelelor de msurare "calitativ", aceste practici devin din ce n ce mai
rare.)
nainte de a ncheia aceast scurt introducere, ar mai fi necesare cteva cuvinte
despre utilizarea calculatoarelor n analiza statistic. Aplicaiile sau programele pentru
computer care pot fi utilizate sunt foarte numeroase, ele variind n funcie de
complexitatea analizelor pe care le pot efectua i n funcie de uurina n utilizare (sau
altfel spus n funcie de ct sunt de "prietenoase" cu utilizatorul). Pentru utilizatorii de

Microsoft Office, unul dintre cele mai la ndemn instrumente este MS Excel, care
poate efectua o serie de analize statistice - mai ales descriptive, fiind ns mai puin
"dotat" la capitolul statistic inferenial (totui exist module care i pot mbunti
performana n aceast privin). Dintre programele "dedicate" analizelor statistice, cel
mai rspndit la noi n ar pare a fi SPSS, datorit interfeei foarte prietenoase i deci
uurinei n utilizare. O alt variant, mai puin rspndit dar care are avantajul de a fi
complet gratuit i prietenoas este VISTA ( http://www.visualstats.org ). Dezavantajul
acesteia const n viteza relativ redus de lucru cu baze de date voluminoase (mai mult de
o mie de cazuri).
Bibliografie recomandat:

Clocotici V., Stan, A., Statistic aplicat n psihologie, Polirom, 2000


- capitolele 1-8
Rotariu Traian (coordonator), Metode statistice aplicate n tiinele sociale, Polirom,
1999
-capitolele 1-8
Sandu, Dumitru, Statistic n tiinele sociale , Universitatea Bucureti, 1992
- capitolele 1, 2, 3, 6, 7

Capitolul 1
Descrierea variabilelor

De obicei, dup colectarea datelor printr-o cercetare (fie ea de tip recensmnt adic prin investigarea ntregii populaii, fie de tip sondaj - adic prin investigarea unui
eantion), informaia este organizat ntr-o baz de date care de cele mai multe ori are
forma unui tabel n care pe rnduri sunt aezate observaiile (unitile de analiz sau
indivizii statistici), iar pe coloane variabilele (de obicei prima variabil fiind un
"identificator" al subiecilor):
Tabelul 1.1: Baza de date coninnd indicatori demografici n mediul rural, la nivel de comune, 1998
codul
localitii
1071
2130
2309
2381
2577
2988
3039
3397
3459
3761
3805
3958
4008
4106
.
.
.

denumirea localitii

populaia (numr
de locuitori)
CIUGUD
2463
ALBAC
2259
ALMASU MARE
1873
ARIESENI
1940
AVRAM IANCU
2083
BERGHIN
2048
BISTRA
5385
BLANDIANA
1160
BUCIUM
2009
CENADE
1048
CERGAU
1756
CETATEA DE BALTA
3468
CIURULEASA
1463
CALNIC
3078
.
.
.
.
.
.

numr
nateri
26
31
21
24
19
23
57
6
13
11
26
57
18
52
.
.
.

numr
decese
34
30
35
24
35
45
74
24
31
11
34
48
18
54
.
.
.

numar
sosii
65
4
13
3
18
44
33
22
23
4
22
4
10
75
.
.
.

numr
plecai
22
45
20
20
28
24
84
10
22
14
25
63
29
28
.
.
.

2.1 Tabele de frecvene i grafice


Prezentarea informaiei coninute ntr-o baz de date se face de obicei sintetic,
deoarece simpla listare a datelor "brute", primare - observaie cu observaie - nu poate
oferi de cele mai multe ori o imagine de ansamblu a situaiei analizate. Cel mai simplu
mod de prezentare/descriere l reprezint tabelele de frecvene, sau mai bine zis
distribuia frecvenelor. Distribuia de frecvene este o list a valorilor (categoriilor)
posibile ale unei variabile, nsoite de numrul de observaii care iau respectivele valori
(care se afl n fiecare din respectivele categorii). n cazul variabilelor continue sau al
celor discrete cu un numr mare de valori, se recurge mai nti la o "grupare" a datelor n
mai puine categorii (exemplu: comune sub 1000 de locuitori, ntre 1001 i 2000
locuitori, ntre 2001 i 3000, 3001-4000 etc.). Tabelul 1.2 prezint o distribuie de
frecvene a numarului de locuitori n comun, pentru comunele din Romnia. Cu ajutorul

Numarul de
frecvena (absolut)
locuitori n comun
54
1000 sau mai puini
379
1001-2000
651
2001-3000
602
3001-4000
391
4001-5000
267
5001-6000
145
6001-7000
87
7001-8000
110
peste 8000
2686
Total

frecvena relativ
(%)
2,01
14,11
24,24
22,41
14,56
9,94
5,40
3,24
4,10
100

frecvena relativ
cumulat (%)
2,01
16,12
40,36
62,77
77,33
87,27
92,67
95,90
100

Formula de calcul a frecvenelor relative este


n
n
fri = i , sau fri = i 100 , dac dorim s o exprimm n procente
N
N
unde:
fri este frecvena relativ a categoriei (valorii variabilei) i
ni este frecvena absolut a categoriei i (numarul de cazuri sau observaii care
aparin respectivei categorii)
N este numrul total de observaii

Cea de-a patra coloan a tabelului conine distribuia cumulativ a frecvenelor


relative, i reprezint suma dintre frecvena relativ a respectivei categorii i frecvenele
relative ale categoriilor inferioare. Informaia oferit de frecvenele cumulate este foarte
important, deoarece ea permite enunarea unor afirmaii cum ar fi: "n 1998, comunele
cu o populaie sub 3001 locuitori reprezentau 40,36% din totalul comunelor din
Romnia". Este de la sine neles c a calcula frecvene cumulate pentru variabile
nominale nu are nici un sens, din moment ce valorile acestui tip de variabile nu pot fi
ordonate.
Reprezentarea grafic a unui tabel de frecvene se face de obicei cu ajutorul unei
histograme (Graficul 1.1) sau a unei diagrame-bar (Graficul 1.2). n cazul ambelor tipuri
de grafice, pe axa vertical sunt reprezentate frecvenele (absolute sau relative) iar pe axa

Frecvente absolute

Tabelul 1.2 Distribuia de frecvene a numrului de locuitori n comun, pentru comunele Romniei

orizontal sunt reprezentate valorile variabilei analizate. Totui, cele dou tipuri de
grafice sunt utilizate difereniat: histograma este recomandat numai n cazul variabilelor
msurate la nivel de interval sau de raport, n timp ce diagrama-bar se folosete de
preferin pentru variabile nominale i ordinale. Aceast diferen provine din modul lor
de construcie:
- n cazul histogramei, fiecare bar nu reprezint o singur valoare a variabilei ci un
interval
de
valori.
n
Graficul 1.1 Histograma distanelor de la centrul comunei pn la
consecin,
limea
barei
cel mai apropiat ora cu peste 30 de mii de locuitori
variaz odat cu mrimea
400
intervalului, aceasta din urm
fiind
stabilit
de
ctre
cercettor. Valorile de pe axa
300
orizontal
a
graficului
reprezint centrele acestor
intervale. Histograma este
200
recomandat
n
cazul
variabilelor
"cantitative"
tocmai pentru faptul c acest
100
tip de variabile fie sunt
continue, fie au un numr
foarte mare de valori chiar dac
0
sunt
discrete.
Stabilirea
0
10
20
30
40
50
60
70
80
90 100 110 120 130 140
5
15
25
35
45
55
65
75
85
95 105 115 125 135
mrimii intervalelor nu este o
sarcin uoar: intervale prea
Distanta (km) pina la cel mai apropiat oras cu peste 30000 de locuitori
mari (adic bare puine) pot
duce la pierderea de informaie, n timp ce intervale prea mici (adic un numr prea mare
de bare) poate ascunde regularitile distribuiei.
- n cazul diagramei-bar, fiecare bar corespunde unei singure valori (categorii) a
variabilei. n plus, pentru a
Graficul 1.2 Diagrama bar - distribuia strii civile a capului de
evidenia faptul c datele nu
gospodrie ntr-un eantion de 32200 de gospodrii
sunt continue, barele nu sunt
100
lipite ntre ele, ca n cazul
histogramei.
80

60

Frecvente relative

acestui tabel vom introduce dou noiuni noi, i anume acelea de frecvene relative
respectiv frecvene cumulate (respectiv distribuie cumulativ). Prima coloan a
tabelului conine valorile variabilei "numr de locuitori", grupate n categorii. Cea de-a
doua coloan conine frecvenele de apariie ale acestor valori, sau cu alte cuvinte
numrul de observaii (n cazul nostru comunele) aflate n fiecare categorie. Putem deci
observa ca n 1998 n Romnia existau 54 de comune cu 1000 sau mai puini locuitori,
379 de comune cu 1001-2000 locuitori .a.m.d.. Ce-a de-a treia coloan a tabelului
conine frecvenele relative, adic ponderea sau proporia observaiilor din fiecare
categorie n totalul observaiilor. Putem afirma pe baza acestei informaii ca n Romnia
comunele cu mai puin de o mie de locuitori reprezint 2,01% din totalul comunelor, n
timp ce ponderea comunelor cu 1001-2000 locuitori este de 14,11% .a.m.d..

40

20

0
casatorit(a)

divortat(a)

uniune consensuala

Starea civila a capului gospodariei

necasatorit(a)
vaduv(a)

bimodal este o distribuie cu dou "vrfuri" (Graficul 1.3).


2.2 Tendina central, variaia i forma distribuiei
n general, o descriere complet a unei variabile se face urmrind trei
caracteristici ale acesteia:
a) tendina central (sau centrul distribuei) - adic valoarea "tipic" a acelei variabile
b) variaia variabilei - ca indicator al gradului de "mpratiere" a datelor
c) forma distribuiei
2.2.1 Indicatori (msuri) ai tendinei centrale
Pentru a descrie centrul unei distribuii, sau tendina centrala a unei variabile,
exist mai multe msuri. n aceasta seciune vor fi discutate cele mai des utilizate: modul,
mediana i media.

frecvente absolute

Modul este definit ca fiind valoarea cu frecvena cea mai mare a unei distribuii.
Altfel spus, modul este acea valoare a variabilei care apare cel mai des ntr-un
eantion sau ntr-o populaie.
Termenul deriv din francezul "mode", adic mod. n cazul distribuiei variabilei "starea
civil a capului gospodriei" reprezentat n Graficul 1.2, modul este valoarea
"csatorit()" (cu frecvena relativ 80%). De cele mai multe ori, pentru a simplifica
lucrul cu datele, valorilor variabilelor nominale li se acord convenional coduri
numerice. De exemplu, pentru datele din Graficul 1.2, putem acorda codul 1 pentru
valoarea "csatorit()", codul 2 pentru valoarea "uniune consensual", codul 3 pentru
valoarea "divorat()" etc.. Chiar dac aceste coduri sunt numerice, ele trebuie privite ca
nite simple simboluri convenionale. Utilizarea lor nu nseamn c valorile pot fi
ordonate sau c intervalele dintre valori sunt egale. n cazul n care valorile variabilei
"stare civil" ar fi fost codificate ca mai sus, modul ar fi fost valoarea (codul) 1.
Pentru datele din Tabelul 1.2, care prezint date grupate n intervale, vom vorbi
despre un interval modal - i anume categoria "2001-3000 locuitori", deoarece aceasta
este "valoarea" (de fapt intervalul de valori) cu frecvena cea mai mare (651).
Grafic, modul este valoarea variabilei creia i corespunde "vrful" distribuiei.
Dei simplu de obinut, modul Graficul 1.3 Distribuie bimodal - histograma variabilei
nu este ntotdeauna cea mai bun "nivel de educaie", pentru angajaii unei bnci
msur a tendinei centrale, deoarece
200
de multe ori depinde de gruparea
arbitrar a datelor (de exemplu, pentru
datele din Tabelul 1.2 am fi obinut un
alt mod dac datele ar fi fost altfel
grupate). De asemenea, nu rareori se
100
ntlnesc distribuii bimodale, n care
exist dou valori diferite ale variabilei
care apar cu o aceeai "cea mai mare"
frecven. Grafic, o distribuie
0
8

10

12

Numar de ani de scoala

14

16

18

20

22

Mediana este acea valoare a unei variabile care mparte seria ordonat de date n
dou pri egale, astfel nct 50% din observaii se vor situa deasupra valorii
mediane iar 50% dedesubtul ei.
S lum de exemplu notele pe care 7 studeni le primesc la examenul de statistic (dup
ce le-am ordonat n prealabil de la minim la maxim): 5, 5, 6, 8, 9, 9, 10. Mediana acestei
serii de date este 8, deoarece ea divide seria de date n dou pari egale: 3 dintre studeni
(observaii) au note mai mici dect 8 i trei dintre ei au note mai mari. Nota 8 este exact
la "mijlocul" seriei de date (dup ordonare). Este important de reinut c ceea ce conteaza
pentru stabilirea medianei este numrul de observaii pe care se face analiza, i nu
numrul de valori ale variabilei.
Calculul medianei este relativ simplu atunci cnd avem de-a face cu un numr
mic i impar de observaii. Lucrurile se complic puin atunci cnd numrul de observaii
este par, sau dac numrul de observaii e foarte mare i e nevoie s apelm la tabele de
frecvene. Lucrurile se complic i mai mult dac datele de care dispunem sunt date
grupate n intervale, ca n Tabelul 1.2.
n cazul n care avem de-a face cu un numr par de observaii nu va mai exista o
singur valoare la mijlocul seriei de date, ci vom avea dou valori. n aceast situaie,
mediana se afl la mijlocul "distanei" dintre aceste valori, sau cu alte cuvinte, este media
lor. S presupunem c am dori sa calculm mediana pentru o serie de 8 studeni, deci un
numr par de observaii. Dup ordonare, datele arat astfel: 5, 5, 6, 7, 8, 9, 9, 10. La
mijlocul seriei se afl valorile 7 i 8. Mediana va fi deci 7,5.
Pentru situaiile n care suntem nevoii s calculm mediana pe baza datelor
oferite de un tabel de frecvene,
vom
utiliza
frecvenele Tabelul 1.3 Distribuia notelor pentru 80 de studeni
cumulate, i vom cuta acea
Nota Frecvene
Frecvene Frecvene relative
valoare a variabilei sub care se
absolute
relative (%) cumulate (%)
afl 50% din cazuri. Pentru
2
2,5
2,5
3
4
5
7,5
datele din Tabelul 1.3, 28,75%
4
7
8,75
16,25
5
din observaii iau valoarea 6
10
12,5
28,75
6
sau o valoare mai mic,
14
17,5
46,25
7
46,25% iau valoarea 7 sau mai
23
28,75
75
8
puin, iar 75% iau valoarea 8
14
17,5
92,5
9
sau o valoare mai mic.
6
7,5
100
10
Rezult de aici c nota Total
80
100
median nu poate fi 7 sau alt
not mai mic (deoarece numai 46,25% dintre studeni iau nota 7 sau mai puin).
Mediana va fi n consecin 8, deoarece, chiar dac avem un numr par de observaii,
ambele valori care se gsesc la mijlocul seriei de date sunt egale cu 8.
n cazul n care avem de-a face cu un tabel de frecvene care conine date grupate
n intervale de valori (aa cum este Tabelul 1.2), valoarea medianei poate fi calculat cu
ajutorul formulei:

N
nc
Me = l + 2
L
n
unde:
Me este mediana,
l este limita inferioar a intervalului care conine mediana
N este numrul total de observaii
nc este frecvena absolut cumulat a tuturor categoriilor care preced intervalul
care conine mediana (adic numrul de observaii care iau valori mai mici dect
l)
n este frecvena intervalului care conine mediana
L este lrgimea sau mrimea intervalului care conine mediana

Exemplu de calcul al medianei pe baza datelor din Tabelul 1.2:


Din tabel reiese ca mediana este coninut n intervalul 3001-4000 locuitori, deoarece
frecvenele relative cumulate ale categoriilor precedente sunt mai mici de 50%, iar
frecvena cumulat a intervalului 3001-4000 este aproximativ 63%. Limita inferioar a
acestui interval este deci l = 3001. Observaia creia i corespunde mediana (numit i
individ median) este observaia care se afl exact la mijlocul seriei ordonate de date, cu
alte cuvinte este observaia N/2, n cazul nostru observaia cu numrul 1343. Dac
scdem din acest numr numrul total de observaii care au valori mai mici dect 3001,
obinem 1343 - 1084 = 259, unde 1084 = 54 + 379 + 651 este valoarea lui nc din formula
medianei (obinut prin cumularea frecvenelor categoriilor precedente intervalului care
conine mediana). Cu alte cuvinte, observaia creia i corespunde mediana este cea de-a
259-a observaie din categoria "3001-4000 locuitori", categorie care apare cu frecvena n
= 602. Am putea acum s ne ntrebm: dac la 602 comune corespunde o cretere a
numrului de locuitori cu L=1000 (de la 3001 la 4000), atunci la 259 de comune ct va
corespunde? Rspunsul e dat de regula de trei simpl, coninut oarecum i n formula
259
medianei:
1000 = 430,2 . Cu alte cuvinte, mediana este egala cu 3001 + 430 = 3431
602
locuitori.
Mediana este un caz special de msur a localizrii. Msurile localizrii sunt de obicei
cunoscute sub numele de percentile sau quantile. Pentru cazul general, numim percentila
p acea valoare sub care se afl p% din cazuri i deasupra creia se afl (100-p)% din
cazuri. De exemplu, mediana este percentila 50. Cele mai cunoscute msuri ale localizrii
sunt quartilele, quintilele i decilele. Quartilele sunt acele valori ale seriei de date care o
mpart n patru pri egale, quintilele sunt valorile care o mpart n cinci pri egale, iar
decilele n 10. Sub quartila 1 se afl 25% din cazuri, iar deasupra ei 75%. Sub quartila 2
se afla 50% din cazuri, de unde reiese ca aceast quartil este chiar mediana. n sfrit,
sub quartila 3 se afl 75% din cazuri, iar deasupra ei se afl 25% din cazuri (observaii).
Din aceast scurt prezentare reiese c exist numai 3 quartile (Q1, Q2 i Q3), deoarece
pentru a mpri o serie de date n m pri egale sunt suficiente m-1 valori. n statistic
quartilele, decilele etc. se refer la valori ale variabilei. Totui, n tiinele sociale sunt
folosite destul de des expresii cum ar fi "decila 10 de venituri", "cea mai srac quintil",

"persoanele aparinnd primei decile" etc. Aceste expresii se refer ns la observaiile


care iau valori cuprinse ntre anumite percentile (quantile) i nu la valorile variabilei.

Media este probabil cea mai important i totodat cea mai popular msur a
tendinei centrale a unei distribuii. Ea se calculeaz ca sum a tuturor valorilor
observate ale seriei de date mprit la numrul de observaii:
N

x + x 2 + x3 + ....... + x N
X = 1
=
N

x
i =1

unde:
X este media
xi reprezint valoarea variabilei pe care o ia observaia i
N este numrul total de observaii
(sigma) este simbolul folosit pentru a indica o sum
De exemplu, pentru cei 7 studeni de mai sus, cu notele 5, 5, 6, 8, 9, 9, 10, suma notelor
este 52, numrul total de observaii este 7, iar media va fi 52 mprit la 7, adic 7,43.
n cazul n care media trebuie calculat pe baza unui tabel de frecvene, formula devine:
k

X =

f
j =1

xj

unde:
k este numrul de categorii (valori) ale variabilei
fj reprezint frecvena de apariie a categoriei j
xj este valoarea categoriei j
N este numrul total de observaii
De exemplu, pentru datele din Tabelul 1.3, media este:
X=

2 3 + 4 4 + 7 5 + 10 6 + 14 7 + 23 8 + 14 9 + 6 10
= 7,31
80

Pentru cazurile n care media trebuie calculat pentru date grupate n intervale, ca n
Tabelul 1.2, se aplic formula de mai sus, considerndu-se ca "valori ale variabilei"
centrele de interval. Exemplu: pentru categoria "1001-2000 locuitori", centrul de interval
este (1001 + 2000) / 2 = 1500,5. Bineneles c, pentru un astfel de exemplu, la finalul
calculelor media se va rotunji, deoarece atunci cnd vorbim despre populaia unei
comune nu o putem exprima dect n numere ntregi. Atunci cnd avem de-a face cu date

grupate n intervale, probleme pot aprea la calculul centrului de interval pentru prima i
respectiv ultima categorie: n Tabelul 1.2, categoriile "1000 sau mai puini locuitori",
respectiv "peste 8000 de locuitori". Dac se ntmpl ca valoarea minim i respectiv cea
maxim a seriei de date s fie cunoscute, atunci nu exist practic nici o problem. Dac
aceste valori nu sunt cunoscute, rmne la latitudinea cercettorului s decid ce valori
urmeaz s atribuie respectivelor centre de interval.
Cnd folosim una sau alta dintre msurile tendinei centrale?
Decizia de a utiliza una sau alta dintre msurile tendinei centrale este strns
legat n primul rnd de nivelul de msurare a variabilelor. Aa cum ne putem da seama,
modul poate fi utilizat pentru toate cele patru niveluri de msurare. Mediana ns nu
poate fi utilizat dect pentru nivelele care permit o ordonare prealabil a datelor, adic
numai pentru variabilele ordinale, de interval i de raport. n ceea ce privete media,
aceasta poate fi calculat numai pentru variabilele masurate la ultimele dou nivele,
adic cel de interval i respectiv cel de raport, deoarece n cazul celorlalte nivele
operaiile de adunare/scdere a valorilor variabilelor nu sunt permise.
Un alt element important pentru a decide ce msur a tendinei centrale merit
folosit este existena observaiilor care au valori extreme. De fapt acest aspect este n
strns legatur cu forma distribuiei.
S considerm de exemplu distribuia consumului per capita al gospodriilor, aa
cum este ea reprezentat n Graficul 1.4. Media acestei distribuii este 103087 lei iar
mediana este 87354 lei lei (valorile sunt exprimate n preuri 1995). n ceea ce privete
modul, valoarea exact a acestuia nu are sens s fie calculat deoarece exist relativ
puine situaii n care mai multe gospodrii au exact aceeai valoare a consumului per
capita. Putem ns vorbi despre un interval modal, care se afl undeva n jur de 72000 lei.
Graficul 1.4 Distributia consumului per capita al gospodriilor
1400000

1200000

1000000

800000

frecvente absolute

600000

400000

200000

0
49 00
50
47 333
8
45 67
16
44 00
50
42 33
83
40 67
16
39 00
50
37 33
83
35 67
16
34 00
50
32 333
8
30 67
16
29 00
50
27 33
83
25 67
16
24 00
50
22 33
83
20 67
16
19 000
5
17 33
83
15 67
16
14 00
50
12 33
83
10 7
66
91 0
00
75 3
33
58 67
6
41 0
00
25
33
83

consumul per capita al gospodariilor (lei), in 1995

Dac dorim s aflm valoarea


"tipic" a consumului per capita
ntr-o gospodrie pentru o
distribuie ca cea din Graficul
1.4, este mai indicat s utilizm
mediana, deoarece modul de
calcul al acesteia este mai
apropiat n acest caz de ceea ce
nelegem noi n mod obinuit
prin "centrul distribuiei": 50%
dintre cazuri dedesubt i 50%
deasupra. Mediana are avantajul
de a nu fi influenat de valorile
"extreme" ale seriei de date.
Media seriei de date reprezentate
n Graficul 1.4 este mai mare
dect mediana tocmai datorit
existenei unui numr relativ mic

de gospodrii cu valori foarte mari ale consumului per capita, valori care "trag" media
spre dreapta (sau cu alte cuvinte conduc ctre o valoare mai ridicat a acesteia n raport
cu mediana).
n concluzie, putem afirma c modul nu e Graficul 1.5 Alungirea (oblicitatea)
o msur foarte adecvat a centrului unei distribuiilor
distribuii. El este util mai ales atunci cnd avem
de-a face cu variabile msurate la nivel nominal,
dar i n cazurile n care distribuiile studiate sunt
bi- sau multi-modale. Mediana este indicat mai
ales n cazurile n care dorim identificarea
"valorilor tipice" ale unor distribuii asimetrice
(vezi Graficul 1.5, b i c), care au valori extreme.
Media, pe de alt parte, prezint marele avantaj
de a lua n calcul toate valorile unei serii de date.
Aceasta este unul din motivele pentru care ea
continu s fie cea mai utilizat msur a (a) modul, mediana i media coincid (se
tendinei centrale. n plus ea mai are i alte suprapun)
proprieti utile, care vor fi discutate n capitolele
urmtoare.
Poziiile relative ale modului, medianei i mediei
Graficul 1.5(a) prezint o distribuie
simetric, n care modul, mediana i media
coincid, adic au practic aceeai valoare. Ce se
ntmpl n cazul distribuiilor asimetrice? De
exemplu, Graficul 1.5 (b) prezint o distribuie a
crei parte din dreapta este alungit. Pentru a
gsi mediana, va trebui s ne deplasm la dreapta
"vrfului" distribuiei, adic a modului, cu cteva
observaii. Mediana se va afla deci la dreapta
modului. Mai mult dect att, datorit influenei
exercitate de cazurile aflate la extrema dreapt a
distribuiei, valoarea medie va fi i mai mare
dect valoarea median, aa cum am vzut de
altfel i n exemplul distribuiei consumului
gospodriilor. Putem deci trage concluzia c fa
de mod, mediana se va gsi n direcia alungirii
distribuiei, iar media se va gsi n aceeai
direcie, chiar mai departe dect mediana.

(b) mediana se afl la dreapta modului iar


media se afl la dreapta medianei

(c) mediana se afl la stnga modului iar


media se afl la stnga medianei


2.2.2 Msuri ale variaiei
Msurile tendinei centrale sunt eseniale pentru descrierea unei caracteristici a
unui eantion sau a unei populaii, ns ele nu sunt suficiente. Pentru descrierea complet
a unei variabile este foarte important s tim deasemenea i ct de "mprtiate" sunt
valorile acesteia n jurul tendinei centrale sau, cu alte cuvinte, ct de omogen respectiv
eterogen este populaia (eantionul) studiat n raport cu o anumit caracteristic. S
lum ca exemplu performana la o anumit materie a unei grupe de 80 studeni, msurat
cu note de la 1 la 10 (datele sunt prezentate n Tabelul 1.3). Nota medie a respectivei
grupe este 7,31. Aceast informaie ns pare a fi insuficient pentru a ne putea pronuna
asupra performanei respectivei grupe. ntrebarea pe care ne-o punem n mod natural este:
ct de omogen este respectiva grup n ceea ce privete performana colar?

Un prim rspuns la aceast ntrebare l putem da prin simpla examinare a intervalului


n care sunt cuprinse notele respectivilor studeni, sau mai bine zis prin calcularea
amplitudinii variabilei. Amplitudinea unei variabile este diferena dintre valoarea
maxim i valoarea minim a acelei variabile. Pentru exemplul nostru, amplitudinea
este 10 - 3 = 7 puncte. Deci, cei 80 de studeni sunt distribuii de-a lungul unui
interval de apte puncte.
O msur a variaiei mai rafinat dect amplitudinea o reprezint abaterea
interquartil, care se calculeaz ca diferen ntre quartila 3 i quartila 1. Abaterea
interquartil msoar mprtierea celor 50% din observaii aflate la mijlocul
distribuiei. Ea are practic aceleai avantaje pe care le are i mediana ca msur a
tendinei centrale, i anume nu este influenat de existena cazurilor extreme.
De cele mai multe ori suntem ns interesai s folosim o msur a variaiei unei
variabile care s includ toate observaiile, nu numai dou dintre ele ca n cazul
amplitudinii i abaterii interquartile. n plus, suntem interesai s examinm variaia
n raport cu o msur a tendinei centrale. De obicei, msurile care satisfac aceste
dou cerine sunt bazate pe abaterile observaiilor de la medie. Abaterea de la medie
a unei observaii este diferena dintre valoarea pe care o ia respectiva observaie i
media variabilei ( xi X ).Una din proprietile mediei este ns aceea c suma
tuturor abaterilor individuale de la medie este egal cu 0:

(x
i =1

X ) = 0 (sau cu alte

cuvinte, abaterile pozitive se vor anula cu cele negative). n consecin, pentru a


obine o msur a variaiei la nivelul ntregului eantion sau a ntregii populaii
trebuie utilizat fie suma valorilor absolute ale abaterilor individuale de la medie, fie
suma ptratelor acestor abateri.
Abaterea medie absolut este definit ca medie aritmetic a abaterilor individuale
absolute (ignornd semnul acestora) de la media variabilei:
1
AMA = xi X
N

O alt msur, mult mai rspndit, este variana variabilei. Variana (sau dispersia)
se definete ca fiind media aritmetic a ptratelor abaterilor individuale de la medie:
1
Varianta = ( xi X ) 2
N

Din motive teoretice care nu vor fi expuse n acest manual, pentru calcularea varianei
la nivel de eantion se folosete formula:
1
s2 =
( xi X ) 2 ,
N 1
iar pentru date grupate n tabele de frecvene (ca n Tabelul 1.3):
1
s2 =
(x j X )2 f j
N 1
unde:
xj este valoarea variabilei pe care o ia grupa j
fj este frecvena absolut de apariie a lui xj

Deoarece variana, datorit ridicrii la ptrat, este destul de dificil de interpretat, cea
mai utilizat msur a variaiei unei variabile, pentru scopuri descriptive, este
abaterea standard, definit ca radical de ordinul doi (rdcin ptrat) din varian:
s = s2

Din formula abaterii standard reiese clar c abaterea standard va fi cu att mai
mare cu ct valorile pe care le iau observaiile se abat mai mult de la medie. S
considerm de exemplu notele la o materie a dou grupe mici de elevi, ambele serii de
date avnd media 6 i amplitudinea 8:
Grupa 1:
Grupa 2:

2, 4, 6, 6, 8, 10
2, 2, 5, 7, 10, 10

ntrebarea pe care ne-o putem pune este: ct de omogene sunt cele dou grupe?
Calculul abaterilor standard arat c n prima grup s1 = 2,8, iar n a doua s2 = 3,6. Este
clar deci c prima grup e mai omogen dect a doua, n care variabilitatea performanei
e mai mare.
n exemplul de mai sus am comparat dou grupe de subieci din punct de vedere
al omogenitii pentru o aceeai caracteristic. ns atunci cnd trebuie analizm
omogenitatea unei singure populaii sau a unui eantion apar ntrebari al cror rspuns e
mai dificil de dat: "cum interpretm magnitudinea abaterii standard?", "cnd putem spune
c avem o abatere standard mic sau una mare?", "cum putem compara omogenitatea
unei populaii pentru dou variabile diferite?". Practic, rspunsul la prima ntrebare
depinde n mare msur i de alte caracteristici ale distribuiei. Pentru un anumit tip de
distribuii interpretarea magnitudinii abaterii standard este mai uoar, i acest lucru va fi
tratat n Capitolul 2 al acestui manual. n cazul celorlalte dou ntrebri un rspuns
satisfctor poate fi dat cu ajutorul unei alte msuri, numite coeficient de variaie,
calculat ca raport ntre abaterea standard i media unei varibile:

CV =

s
X

Prin modul de calcul, coeficientul de variaie are avantajul de a fi o msur


adimensional (fr unitate de msur), deoarece unitatea de msur a abaterii standard
este aceeai cu cea a mediei. n consecin, el este foarte util n compararea variaiei a
dou variabile msurate pe aceai populaie/eantion. Putem astfel trage concluzii de
tipul: "populaia A este mai eterogen n privina caracteristicii X dect n privina
caracteristicii Y", concluzii imposibil de formulat numai cu ajutorul abaterii standard
deoarece abaterea standard este o msur dimensional i deci nu putem compara "mere
cu pere" (de exemplu abaterea standard a performanei colare cu abaterea standard a
veniturilor familiei). Prin modul su de calcul coeficientul de variaie indic practic ct la
sut din medie corespunde unei abateri standard, ceea ce face mai uor de evaluat gradul
de omogenitate a populaiei studiate. O populaie cu o abatere standard egal sau mai
mare dect media poate fi considerat n cele mai multe cazuri o populaie eterogen, n
timp ce o populaie a crei abatere standard reprezint 0,3 (30%) din medie poate fi
considerat o populaie relativ omogen. Este important ns de reinut faptul c acest
coeficient nu poate fi calculat dect n cazul variabilelor msurate la nivel de raport,
deoarece n cazul variabilelor nominale i ordinale abaterea standard nu poate fi
calculat, iar n cazul variabilelor msurate la nivel de interval media este una
convenional, ceea ce face posibil transformarea variabilei prin adunarea unei constante
la valorile acesteia, fr ca semnificaia valorilor variabilei s se modifice O astfel de
transformare ar lsa nemodificat abaterea standard (lucru care poate fi demonstrat
matematic) ns ar modifica media variabilei. Ori aceasta nseamn c pentru aceeai
caracteristic am putea calcula coeficieni de variaie diferii ca valoare.
2.3 Transformarea unei variabile cu ajutorul scorului z
n practica analizei de date se ntmpl de multe ori s dorim s comparm dou
observaii ntre ele, pentru o aceeai variabil, din punct de vedere al distanei lor fa de
medie. Dar acest tip de informaie asupra poziiei relative a unor observaii nu ofer
ntotdeauna o informaie mulumitoare. Cercettorul poate fi interesat s evalueze
magnitudinea distanei dintre valoarea pe care o ia o observaie i medie n raport cu
distana medie n eantion. Cu alte cuvinte, el se poate ntreba: ct de mare este abaterea
de la medie a unei (unor) observaii n raport cu abaterea medie observat n populaie?
De asemenea, se poate ntmpla s dorim s comparm poziia relativ a aceleiai
observaii fa de mediile a dou variabile. n acest caz ns, unitile de msur i
magnitudinea valorilor variabilelor ne pot mpiedica s facem o comparaie cu sens. O
soluie a acestor probleme este
transformarea sau standardizarea
Tabelul 1.4
Total judee
Judeul
variabilelor cu ajutorul scorului z.
Brila
Medie
Abatere
S presupunem c ne
standard
intereseaz s aflm ce s-a
Rata n omajului 1995 10.8 9.705
3.384
ntmplat cu rata omajului n
Rata omajului n 1997 13.5 9.088
2.960
judeul Brila n perioada 1995 1997. n Tabelul 1.4 sunt prezentate

valorile ratei omajului n judeul Brila pentru anii 1995 i 1997, precum i mediile i
abaterile standard ale ratelor omajului pe judee n anii menionai. Dac ne vom uita la
evoluia omajului numai pentru judeul analizat, vom sesiza o cretere considerabil a
ratei omajului, fr s putem spune nimic ns despre evoluia acesteia n raport cu
evoluia celorlate judee. Standardizarea celor doua variabile (rata omajului n 1995,
respectiv rata omajului n 1997) ar putea s ne ofere informaii n plus. Standardizarea
valorilor unei variabile X se face dup formula:
zi =

xi X
s

unde:
zi este valoarea pe care o ia observaia i dup transformarea variabilei
xi este valoarea pe care o ia observaia i pentru variabila X
X este media variabilei X
s este abaterea standard a variabilei X
Rezultatul acestei transformri va fi o nou variabil Z care va avea ntotdeauna media
egala cu 0 i abaterea standard egal cu 1, datorita formulei de calcul. Practic, putem
spune c unitatea de msur a noii variabile Z este chiar abaterea standard a variabilei X.
Scorurile z ne vor informa asupra distanei la care se gasete o observaie fa de media
seriei de date, distan msurat n abateri standard ale variabilei originale X. Este
important de reinut faptul c aceast transformare nu modific n nici un caz forma
distribuiei variabilei. Dac aplicm formula de mai sus pe datele din exemplul nostru
vom obine valorile standardizate ale ratelor omajului n 1995 i 1997 din judeul Brila:
zs95B = 0,32 i respectiv zs97B = 1,49
De aici rezult c n 1995 judeul Brla se gsea la numai 0,32 abateri standard fa de
media omajului pe judee, iar n 1997 omajul n respectivul jude era cu 1,49 abateri
standard mai mare dect media, ceea ce poate fi interpretat ca o nrutaire semnificativ
a poziiei relative a acestui jude n privina ocuprii forei de munc.
2.4 Variabile dihotomice
n ultima seciune a acestui capitol ne vom ocupa de un tip mai special de
variabile, i anume variabilele dihotomice sau binare, adic variabile care au dou valori
posibile. Exemple de astfel de variabile sunt intenia de a fi prezent la vot (da/nu),
succesul sau eecul unui program de dezvoltare etc. Acest tip de variabile sunt deosebit
de utile n practica analizelor statistice deoarece, la limit, ele pot fi considerate ca fiind
msurate la nivel de raport. Dac vom codifica valorile unei astfel de variabile cu 0
respectiv 1 vom obine o variabil care practic msoar prezena sau absena
caracteristicii studiate (intenia de a se prezenta la vot, succesul programului de
dezvoltare etc.). Ele vor avea deci un 0 absolut (absena caracteristicii) i o unitate de
msur (prezena caracteristicii). n aceste condiii ne putem ntreba cum se calculeaz
media i respectiv abaterea standard ale acestor variabile.

Dac lum ca punct de plecare formula de calcul a mediei pentru date grupate
prezentat n seciunea 2.2, atunci vom avea:
k

X =

f
j =1

xj
=

f 0 0 + f1 1 f 1
=
= p,
N
N

unde f0 este frecvena absolut de apariie a lui 0, iar f1 este frecvena absolut de apariie
a lui 1. Cu alte cuvinte, media unei variabile dihotomice este chiar frecvena relativ de
apariie a valorii 1 (numrul de observaii care iau valoarea 1 mprit la numrul total de
observaii ale seriei de date), adic frecvena relativ (notat aici cu p) a cazurilor n care
caracteristica studiat este prezent. Dac analiza este efectuat pe o populaie i nu pe un
eantion, atunci vom spune c media unei variabile dihotomice este chiar probabilitatea
de apariie a caracteristicii studiate (aceasta ns numai n cazul n care respectiva
variabil este codificat 0/1).
Similar cu demonstraia n cazul mediei, se poate arta ca formula abaterii
standard pentru o variabil dihotomic este:
s=

p (1 p ) ,

unde p este frecvena relativ a prezenei caracteristicii studiate.


Exerciii i probleme
1. Veniturile gospodriilor locuitorilor rii Alfa, care cuprinde 87 de milioane de
gospodrii, sunt distribuite n jurul unei valori medii de 27000 Alfa-lei i o median de
22000 Alfa-lei.
a. Ce se poate spune despre simetria distribuiei veniturilor?
b. Care este venitul ntregii ri (toate cele 87 de milioane de gospodrii)?
Pentru urmtoarele ntrebri, s se ncercuiasc varianta corect /variantele corecte:
2.

Decila 5 este o masura a:

1.
2.
3.
4.

tendintei centrale
variatiei
formei distributiei
nici una dintre acestea

3.

Valoarea sub care se afla 50% dintre cazurile seriei


de date ordonate de la minim la maxim este:

1.
2.
3.
4.
5.

media
quartila 2
modul
abaterea standard
nici una dintre acestea

4.

Valorile variabilei ocupatie, intr-un grup de 5


persoane, sunt: 1, 3, 3, 4, 5. Tendinta centrala in
acest grup, pentru variabila ocupatie, poate fi
descrisa prin:

1.
2.
3.
4.
5.

media egala cu 3,2


mod egal cu 3
mod egal cu 2
mediana egala cu 3
nici una dintre acestea

Capitolul 2
Distribuii de probabilitate

2.1 Probabilitate: noiuni introductive


Cel mai simplu i mai des ntlnit exemplu pentru o definire intuitiv a noiunii de
probabilitate este aruncarea zarului, care st de altfel la baza teoriei probabilitilor, cel
puin din punct de vedere istoric. Ce s-ar ntmpla dac am arunca un zar (ne-trucat) de
50 de ori? Dar daca l-am arunca de numai 10 ori? Dar dac l-am arunca de cteva
milioane de ori? Cum ar arta distribuia frecvenelor relative pentru fiecare din cele trei
cazuri de mai sus? Deoarece zarul nu este trucat, ne ateptm ca fiecare din cele 6 fee ale
sale s aib aceeai "probabilitate" de a cdea n sus la fiecare aruncare. Cu alte cuvinte,
"ntmplarea" va hotr care fa va iei "ctigtoare". n acest caz, am putea simula
aruncarea zarului cu ajutorul unui tabel cu numere aleatoare, lund n considerare numai
numerele de la 1 la 6. S vedem cum arat frecvenele relative (de data aceasta nu le vom
mai exprima n procente, ci le vom calcula simplu ca f/n, adica frecvena absolut (de
apariie a unei fee a zarului) mparit la numrul total de aruncri. n acest caz putem
privi fiecare aruncare ca pe o observaie, iar numrul total de aruncri ca pe mrimea
eantionului.
Tabelul 2.1 Distribuia frecvenelor relative ale valorilor unui zar, pentru eantioane de mrime diferit
(numr de aruncri)
Frecvene relative f/n, unde n este numrul de aruncri cu zarul
Numr de puncte
n = 10
n = 50
n=
1
0,10
0,22
1/6 = 0,167
2
0
0,12
1/6 = 0,167
3
0,10
0,14
1/6 = 0,167
4
0,20
0,14
1/6 = 0,167
5
0,30
0,14
1/6 = 0,167
6
0,30
0,24
1/6 = 0,167
1,00
1,00
1,00

n tabelul de mai sus observm un un fenomen la care de altfel ne ateptam: cu ct


crete numrul de aruncri, cu att frecvenele relative se apropie de egalitate - i aceasta
deoarece, aa cum am mai spus, dac un zar e "cinstit" atunci fiecare fa a sa are aceeai
"ans" de apariie. Dac numrul de aruncri este mic, frecvenele relative fluctueaz
puternic. Pe msur ns ce numrul de aruncri (sau altfel spus mrimea eantionului)
crete ele vor tinde ctre o valoare pe care o numim probabilitate. Desigur, dac zarul ar
fi fost trucat, nu am mai fi putut "ghici" c probabilitatea de apariie a unei fee este 1/6,
ci ar fi trebuit s estimm probabilitatea printr-un numr de aruncri care s tind catre
infinit.
Putem considera aruncarea cu zarul din exemplul de mai sus ca pe un experiment
cu 6 rezultate (cele 6 fee ale zarului). De obicei ns, un "experiment" are un set de

rezultate mult mai complex. S considerm de exemplu un experiment care const din
aruncarea repetat de trei ori a unei fise colorate cu albastru pe o parte i cu galben pe
cealalt. Un rezultat posibil al acestui experiment ar fi AGA, adica albastru, galben,
albastru (culoarea feei cu care fisa cade n sus). Care este probabilitatea acestui rezultat?
Teoretic, ar trebui s repetm acest experiment de milioane i milioane de ori i s
calculm frecvena relativ de apariie a respectivului rezultat. Mai simplu ar fi ns s
recurgem la un experiment mental. Care sunt rezultatele posibile ale acestui experiment?
Iat o listare a lor: AAA, AAG, AGA, AGG, GAA, GAG, GGA i GGG, adic 8
rezultate. S presupunem c fiecare fa a fisei are aceeai probabilitate de apariie;
aceasta nseamn c fiecare din rezultatele menionate va avea aceeai probabilitate, adic
1/8. Deci, probabilitatea rezultatului AGA este 1/8. Putem fi ns interesai de un subset
al setului complet de rezultate, sau cu alte cuvinte de un anumit eveniment, cum ar fi "cel
puin de doua ori galben". Acest eveniment este format din subsetul de 4 rezultate {AGG,
GAG, GGA, GGG}. Care este probabilitatea acestui eveniment? Rspunsul intuitiv i
corect este 4/8. Cu alte cuvinte, probabilitatea unui eveniment este suma probabilitilor
rezultatelor incluse n acel eveniment.

Evenimente combinate
S presupunem acum c ne intereseaz probabilitatea de apariie a urmtoarei
combinaii: "mai puin de dou ori galben sau toate de aceeai culoare". S notm cu J
evenimentul "mai puin de dou ori galben" i cu H evenimentul "toate de aceeai
culoare". Evenimentul J include rezultatele {AAA, AAG, AGA, GAA}, iar evenimentul
H include rezultatele {GGG, AAA}. Evenimentul "J sau H", care ne intereseaza pe noi va
include deci rezultatele {AAA, AAG, AGA, GAA, GGG} i va avea probabilitatea 5/8,
deoarece avem 5 rezultate din 8, iar rezultatele n exemplul nostru au probabiliti egale
(1/8). Putem deci defini evenimentul "J sau H" ca fiind acel subset de rezultate care sunt
incluse fie n J, fie n H, fie n amndou. Similar, vom defini evenimentul "J i H" ca
fiind acel subset de rezultate care se gsesc att n J ct i n H (n cazul nostru e vorba
de {AAA}, deci probabilitatea lui "J i H" este 1/8). Conform exemplului de mai sus, am
putea scrie:
Pr(J sau H) = Pr(J) + Pr(H) - Pr(J i H),
deoarece n exemplul de mai sus nu am numrat de dou ori rezultatul {AAA}, ci numai
o dat. Cu alte cuvinte, scderea probabilitii lui "J i H" a fost facut tocmai pentru a
elimina dubla numrare a unor rezultate. n cazul n care avem de-a face cu dou
evenimente, s zicem I i K, mutual exclusive, adic Pr(I i K) = 0, atunci
Pr(I sau K) = Pr(I) + Pr(K)

Probabiliti condiionate
S presupunem acum c n timpul celor 3 aruncri (deci pe parcursul
experimentului) se tie c a aprut evenimentul J (mai puin de dou apariii ale feei
galbene pe parcursul celor trei aruncri ale fisei). Care este probabilitatea ca H s se
ntmple? - adic la toate aruncrile s apar aceeai culoare. Cu alte cuvinte, dac ar fi s
ne imaginm foarte multe repetiii ale experimentului i s luam n considerare numai

acele cazuri n care apare J, ct de des va aprea H? n termeni de probabiliti, aceasta


nseamn c dorim s aflm probabilitatea lui H condiionat de J, notat cu Pr(H|J).
S presupunem c repetm experimentul de 100 de milioane de ori. Cum
probabilitatea de apariie a lui J este de 4/8, aceasta nseamn ca J apare de 50 de
milioane de ori. Pe de alt parte, din cele patru rezultate incluse n J, numai unul este
inclus i n H, i anume {AAA}, care are probabilitatea 1/8, deci apare de 12,5 milioane
de ori. Deducem de aici c H apare de 12,5 milioane de ori din 50 de milioane, sau altfel
spus Pr(H|J) = 12,5/50 = 1/4 = 0,25. S ncercm acum s scriem forma general a unei
probabiliti condiionate:
Pr( H J ) =

Pr( J si H )
Pr( J )

a) Pr (S) = 0,078 + 0,072 = 0,15, sau cu alte cuvinte, rata omajului n respectivul ora
este de 15%. La acelai rezultat am fi ajuns i dac am fi calculat probabilitatea de a fi
omer mprind numrul total de omeri (15600 + 14400) la totalul populaiei de
vrst activ (200000).
Pr( S si F ) 0,078
b) Pr( S F ) =
=
= 0,15
Pr( F )
0,52
Deoarece probabilitatea calculat la punctul a) este egal cu probabilitatea calculat la
punctul b), putem spune ca probabilitatea de a fi omer (S) nu este afectat de faptul c o
persoan este femeie (F). Acest tip de independen, definit n termeni de probabiliti,
se numete independen statistic. Putem acum s dm definiia exact a independenei:
L se numete independent statistic de M dac Pr(L|M) = Pr(L).

De aici putem deduce c:


Pr(J i H) = Pr(J)Pr(H|J)

Consecina acestei definiii este foarte important: de aici rezult c dac avem doua
evenimente independente J i H, atunci:
Pr(J i H) = Pr(J)Pr(H|J) = Pr(J)Pr(H).

Independen

n statistic independena este un concept foarte precis, care se definete cu


ajutorul probabilitilor. Vom ilustra aceasta cu ajutorul unui exemplu. ntr-un ora
situaia ocuprii populaiei de vrst activ (200.000 de persoane) arat ca n tabelele
prezentate n Exemplul 2.1. Primul tabel (a)
reprezint numrul de indivizi omeri, Exemplul 2.1 Este omajul dependent de
sexul indivizilor?
respectiv ocupai, n funcie de sex. Cel de-al
doilea tabel (b) reprezint probabilitile de (a) Frecvene absolute
apariie pentru fiecare din cele 4 situaii
omeri
ocupai
15600
88400
posibile: a fi femeie i a fi omer - Pr (F i S), femei
14400
81600
a fi brbat i a fi omer - Pr(B i S) etc. Suma brbai
probabilitilor din cele 4 celule ale tabelului
(b) Probabiliti
este egal cu 1 (orice probabilitate variaz
omeri
ocupai
ntre 0 i 1). Probabilitile din fiecare celul femei
0.078
0.442
au fost calculate dupa formula fi/n, unde fi este brbai
0.072
0.408
frecvena absolut a unei celule (de exemplu
numrul de femei omere) iar n este totalul
populaiei de vrst activ (n exemplul nostru 200.000). S ncercm acum s rspundem
la ntrebarile:
a) Care este probabilitatea ca o persoan extras la ntmplare din populaia de
vrst activ s fie omer - Pr(S)?
b) Care este probabilitatea ca o persoan s fie omer, atunci cnd este femeie Pr(S|F)?
Iat i soluiile:

Mai mult dect att, dac H este independent de J, atunci i J trebuie s fie
independent de H.
2.2 Variabile aleatoare

Cazul variabilelor discrete


S ne imaginm acum c dorim s analizm populaia familiilor cu trei copii, i
suntem interesai de numrul de fete pe care o astfel de familie l-ar putea avea. Putem s
considerm o familie cu trei copii ca pe un experiment oarecum similar cu cel din
seciunea precedent: ntr-o familie care i planific s aib trei copii, rezultatele posibile
sunt: biat, biat, biat (BBB), biat, biat, fat (BBF) etc. ntr-o astfel de familie
numrul de fete poate fi 0, 1, 2 sau 3. Dac Tabelul 2.2
probabilitatea de a se nate o fat este egal cu
r
Pr(r)
probabilitatea de a se nate un biat, atunci
BBB
0,166
fiecare din rezultatele posibile are aceeai
BBF
0,136
BFB
0,136
probabilitate 1/8. S complicm puin lucrurile i
BFF
0,111
s presupunem c probabilitatea de a se nate o
FBB
0,136
fat este de 0,45, iar probabilitatea de a se nate
FBF
0,111
un biat este 0,55. Aceasta nseamn ca
FFB
0,111
probabilitatea ca primul copil s fie o fat este de
FFF
0,091
0,45, iar probabilitatea ca al doilea copil s fie o Not: totalul nu este exact egal cu 1 datorit
fat este 0,45. De unde deducem ca probabilitatea rotunjirilor
ca primii doi copii s fie fete este egal cu 0,45
din 0,45, adic 0,45 x 0,45 = 0,202. Tot astfel putem calcula i probabilitatea ca toi trei
copiii s fie fete, adic Pr(FFF) = 0,45 x 0,45 x 0,45 = 0,091. n Tabelul 2.2 sunt
prezentate probabilitile de apariie ale rezultatelor acestui experiment. Revenind la

problema de la nceputul seciunii - numrul de fete pe care o familie cu trei copii l poate
avea - trebuie s obinem distribuia de
probabiliti a variabilei aleatoare "numr de Tabelul 2.3 Distribuia variabilei
aleatoare X = numr de fete
fete" (notat cu X). Tabelul 2.3 prezint aceast
x
p(x)
distribuie. Probabilitatea ca o familie s nu aib
0
0,166
nici o fat este Pr(BBB) = 0,166; probabilitatea
1
0,408
2
0,334
ca o familie s aib o singur fat este Pr(BBF) +
3
0,091
Pr(BFB) + Pr(FBB) = 0,136*3 = 0,408 .a.m.d.
totalul nu este exact egal cu 1 datorit
O variabil discret aleatoare este deci acea Not:
rotunjirilor
variabil X care ia diferite valori x cu
probabiliti specificate de distribuia sa de
probabilitate p(x).
Cazul variabilelor continue
Pentru o variabil continu exist un continuum
de valori posibile. n capitolul 1, Graficul 1.1,
am reprezentat histograma distanelor de la
centrul comunei pn la cel mai apropiat ora
cu peste 30de mii de locuitori, folosindu-ne de
intervale de valori. S ne imaginm acum c
lum o variabil continu aleatoare i o
reprezentm ca n Figura 3.1(a), astfel nct
suma ariilor tuturor barelor histogramei s fie
egal cu 1 (100%). Un astfel de grafic se
numete densitate a frecvenelor relative. Dac
numrul de observii este foarte mare,
frecvenele relative vor tinde ctre probabilitate
i, n acelai timp, vom putea utiliza intervale
din ce n ce mai mici, adic bare din ce n ce
mai nguste. n Figura 3.1(c) se poate vedea
cum
densitatea
frecvenelor
relative
aproximeaz o curb, cea a lui p(x), pe care o
vom numi de acum nainte distribuie de
probabilitate. Ariile de sub curb reprezint
probabiliti, iar aria total este egal cu 1
(deoarece probabilitatea variaz ntre 0 i 1, iar
suma tuturor probabilitilor este egal cu 1).
Distribuia n populaie a unei variabile nu este
nimic altceva dect distribuia de probabilitate
a valorilor pe care o observae extras la
ntmplare din acea populaie le poate lua
pentru respectiva variabil. De exemplu, dac
ntr-o populaie frecvena relativ a persoanelor
cu o nalime de 1,7 metri este 20%, atunci
probabilitatea ca un individ extras la ntmplare

Figura 3.1 De la frecvene relative la


densitatea de probabilitate

din respectiva populaie s aib 1,7 m este de 0,2.


ncepnd cu aceast seciune vom face o distincie clar ntre statisticile calculate la
nivel de eantion i parametrii, adic valorile din populaie. Astfel, vom vorbi depre
probabilitate (notat cu ) numai atunci cnd ne referim la populaii, i despre frecvene
relative (notate cu p sau fr) atunci cnd ne refeim la eantioane.
Este important de reinut faptul c ntotdeauna notm statisticile la nivel de eantion
cu litere latine ( x , s, p etc.) iar parametrii (valorile n populaie)cu litere greceti (, ,
etc.)
Orice distribuie de probabilitate (sau distribuie n populaie) poate fi caracterizat cu
ajutorul ctorva parametrii cum ar fi cei care descriu media acelei distribuii - notat cu
i abaterea ei standard - notat cu . n studiul statisticii pot fi ntlnite multe tipuri sau
familii de distribuii de probabilitate ale cror formule matematice sunt folosite pentru a
calcula probabiliti. Multe dintre aceste familii de distribuii sunt deosebit de utile
deoarece ele ofer aproximri bune ale unor distribuii des ntlnite n lumea real. Altele
sunt deosebit de utile pentru statistica inferenial. n seciunea urmtoare ne vom ocupa
de un astfel de tip de distribuie.

(a)

(b)

(c)

Distribuia normal
n cazul multor variabile aleatorii distribuia de probabilitate are o form specific,
simetric, n form de clopot, i cu anumite proprieti particulare, care vor fi prezentate
mai jos. Acest tip de distribuie se numete distribuie normal i este reprezentat n
Figura 3.2 (mpreun cu formula matematic, care este ns fr importan pentru
obiectivele acestui curs). De fapt este vorba despre o familie de distribuii, caracterizat
de parametrii i (medie i abatere standard). Principala proprietate a acestei familii de
distribuii este aceea c pentru orice numr constant z, probabilitatea concentrat la
dreapta lui + z este aceeai
Figura 3.2 Distribuia normal a unei variabile
pentru
toate
distribuiile
normale. Datorit faptului ca
distribuia
este
simetric,
probabilitatea concentrat la
dreapta lui + z este egal cu
probabilitatea concentrat la
stnga lui - z. Cu alte cuvinte
aria de sub curb aflat la
dreapta lui + z este egal cu
aria aflat la stnga lui - z.
Cnd
z
=
1,96
(adic
aproximativ 2), aria cuprins
ntre - z i + z este egal cu 0,95. Cnd z = 1 (ca n Figura 3.2) aria cuprins ntre
- z i + z este egal cu aproximativ 0,68. Mai mult, n cazul distribuiei normale
aproape toat aria de sub curb este cuprins ntre ntre - 3 i + 3 (z=3). Acest gen
de informaie este foarte util: s presupunem c scorurile unor elevi ai unei clase, notai
pe o scal de la 0 la 100, sunt normal distribuite n jurul mediei 60, cu o abatere standard

de 5 puncte. Aceasta nseamn c 68% dintre elevi au note ntre 55 i 65, iar 95% dintre
ei au note ntre aproximativ 50 i aproximativ 70. Sau, mai corect spus, probabilitatea ca
un elev extras la ntmplare din respectiva grup s aib un scor ntre 50 i 70 este de
0,95. Dac notele elevilor nu a fi avut o distribuie normal, ci ar fi avut, s zicem, o
distribuie alungit spe stnga, probabilitatea ca un elev s aib un scor cuprins ntre
anumite limite ar fi fost extrem de dificil de calculat (practic ar fi trebuit calculat aria de
sub curb dac respectiva distribuie nu ar fi putut fi aproximat de nici o form
funcional cunoscut).
Aa cum am mai artat, n realitate exist o familie de distribuii normale, fiecare
caracterizat de o medie i o abatere standard . De exemplu, greutile locuitorilor
unui ora ipotetic se distribuie normal cu media 56 kg i abaterea standard 18 kg;
nlimile copiilor dintr-o coal se distribuie normal cu media 1,5 m i abaterea standard
10 cm etc.. Proprietile distribuiei normale ne permit ca pentru fiecare din aceste
variabile s gsim exact probabilitatea ca un anumit individ s aib o greutate mai mare
de, s zicem, 64 de kg sau o nlime cuprins ntre 1,45 m i 1,57 m. Acest lucru se poate
face cu ajutorul unor tabele care conin ariile dintre i + z pentru diferite valori ale
lui z1. Deoarece proprietile distribuiei normale sunt aceleai indiferent de valoarea
mediei i abaterii standard, se apeleaz la un caz special al distribuiei normale, i anume
la distribuia normal normat sau standard. Aceasta este o distribuie normal cu media
0 i abaterea standard 1. n Anexa 1 a acestui manual este prezentat un tabel cu ajutorul
cruia pot fi calculate ariile dintre i + z pentru Figura 3.3 Aria dintre 0 i z
diferite valori ale lui z, n cazul distribuiei normale
normate. Deoarece n acest caz = 0 iar = 1, tabelul
conine practic aria cuprins ntre 0 i z (vezi Figura 3.3).
Aceast arie este practic aceeai cu aria cuprins ntre i
+ z n cazul oricrei distribuii normale (cazul general).
n continuare este ilustrat modalitatea de folosire a
tabelului (Anexa 1), pe care l vom numi de acum ncolo
pentru convenien "tabel z":
S ne ntoarcem la exemplul de mai sus i s calculm probabilitatea ca un elev s
obin un scor mai mare dect 70. Pentru aceasta este nevoie s calculm aria aflat la
dreapta valorii 70. Tabelul nostru ofer ns valoarea ariei aflate ntre valorile i + z.
Cum distribuia normal este simetric, aceasta nseamn ca aria aflat la dreapta mediei
este egal cu jumtate din aria totala aflat sub curb, adic cu 0,5 (deoarece aria total a
unei distribuii de probabilitate este ntotdeauna 1). Pentru a afla aria aflat la dreapta lui
70, va trebui s cutam n tabel aria cuprins ntre medie (60) i 70, i apoi s scdem
aceast arie din 0,5 (adic din toat aria aflat la dreapta mediei). Pentru a afla aria
cuprins ntre 60 (adic ) i 70 ( + z) adic , va trebui s aflm valoarea lui z:
+ z = 70, de unde z =

70 70 60
=
=2

Dac ne uitm atent la expresia utilizat mai sus pentru calcularea lui z vom vedea c
este practic aceeai cu formula scorului z prezentat n Capitolul 1 (ceea ce difer sunt
1

Unele manuale prezint tabele aria din dreapta lui + z, ns algoritmul de calcul al probabilitilor este
este acelai.

doar notaiile folosite pentru medie i abatere standard). Deci, ceea ce am fcut nu este
practic nimic altceva dect standardizarea cu scorul z a valorii 70. Nu ne mai rmne
acum dect s cautm n tabel aria cuprins ntre 0 i z. Tabelul este organizat n felul
urmtor: la capetele de rnd (n stnga) se gsesc valorile care corespund unitilor i
primei zecimale ale lui z; la capetele de coloan (sus) se gsesc valorile care corespund
celei de-a doua zecimale ale lui z. De exemplu, dac vom cuta valoarea 1,96, va trebui
s cutm rndul cu valoarea 1,9 i coloana cu valoarea 0,06 (adunate, aceste dou valori
dau exact 1,96). La intersecia rndului "1,9" cu coloana "0,06" vom gsi valoarea
0,4750, care este exact aria cuprins ntre 0 i z = 1,96, sau altfel spus probabilitatea ca o
observaie s ia o valoare cuprins ntre i + 1,96 (adic ntre medie i 1,96 abateri
standard).
S ne ntoarcem acum la exemplul nostru i s calculm aria cuprins ntre 0 i z = 2.
n tabel, la intersecia rndului 2,0 i a coloanei 0,00 se gasete valoarea 0,4772. Aceasta
este probabilitatea ca un elev ales la ntmplare s obin un scor ntre 60 i 70. Pe noi
ns ne intereseaz care este probabilitatea ca
Figura 3.4 Probabilitatea ca un elev ales la
un elev s obin un scor mai mare de 70,
ntmplare s obin un scor mai mare de 70
adic aria din dreapta lui z = 2. Pentru a o
obine va trebui s efectum scderea 0,5 0,4772, ceea ce are ca rezultat 0,0228. Dac
am fi interesai s aflm i probabilitatea ca un
elev s obin un scor mai mic dect 50 (adic
60 - 10) nu am avea nevoie de nici un calcul
suplimentar, deoarece datorit simetriei
distribuiei aria aflat la stnga lui z = -2 este
(a) distribuia normal, cazul general
egal cu aria aflat la dreapta lui z = 2.
S ncercm acum s recapitulm cu
ajutorul unui alt exemplu algoritmul de calcul
al unei probabiliti cu ajutorul tabelului z.
Exemplul 2.1
S presupunem c nlimile copiilor dintro coal se distribuie normal cu media 1,5 m
i abaterea standard 10 cm. Care este
probabilitatea ca copil extras la ntmplare s
(b) distribuia normal normat
aib o nime cuprins ntre 1,3 m i 1,4 m?
Pentru a rspunde, s convertim mai nti cele dou valori (1,3 m i respectiv1,4 m) n
scoruri z, pentru a msura distana lor fa de medie n abateri standard. Practic, aceast
convertire nseamn o transformare a distribuiei normale iniiale (cu media = 150 cm i
abaterea standard = 10 cm) ntr-o distribuie normal normat (cu media 0 i abaterea
standard 1).
z130 = ( 130 - 150)/10 = -2
z140 = (140 - 150)/10 = -1
(calculele de mai sus au fost fcute in cm)
Trebuie deci s gsim aria de sub curba distribuiei normale normate cuprins ntre -2
i -1. Aria cuprins ntre -2 i 0 este egal cu aria cuprins ntre 0 i 2, i conform
tabelului z are valoarea 0,4772. n acelai mod gsim i aria dintre -1 i 0, care este egal
cu 0,3413. Cum pe noi ne intereseaz aria dintre -2 i -1, vom efectua scderea 0,4772 -

0,3413= 0,1359. Deci, probabilitatea ca un elev selectat la ntmplare s aib ntre 1,3 i
1,4 metri nlime este de aproximativ 0,14.
Dac notm nalimea cu X, atunci afirmaia de mai sus se scrie:
Pr(1,3<X<1,4) = 0,1359
nainte de a ncheia acest capitol este necesar s atragem atenia asupra faptului c,
deoarece probabilitile pe care le putem calcula cu ajutorul distribuiei normale
reprezint de fapt arii, este practic lipsit de sens s ncercm s calculm Pr(X), pur i
simplu - de exemplu Pr(1,3) - deoarece aceasta ar nsemna s ncercm s calculm aria
unei drepte.
Exerciii i probleme
1. S presupunem c A i B sunt dou evenimente independente, cu Pr(A) = 0,6 i Pr(B)
= 0,2. Care este:
a. Pr (A|B)?
b. Pr ( A i B)?
c. Pr (A sau B)?
2. O anchet naional asupra cuplurilor arat c 30% din neveste urmreau un anumit
program de televiziune i la fel 50% dintre brbai. Mai mult, dac nevestele se uitau la
televizor probabilitatea ca i brbaii s urmreasc programul cretea cu 60%. Pentru un
cuplu aleator ales care este probabilitatea ca:
a.
b.
c.
d.

Ambii s se uite la televizor?


Cel puin unul s se uite la televizor?
Nici unul s nu se uite la televizor?
Dac soul se uit la televizor, s se uite i soia?

3. Dac X are valori normal distribuite n jurul unei medii de 16 i cu o abatere standard
de 5 s se calculeze:
a. Pr (X>20)
b. Pr (20<X<25)
c. Pr (X<10)
d. Pr (12<X<24)
4. Timpul necesar completrii unui test colar s-a dovedit a fi distribuit normal, n jurul
unei medii de 110 minute i avnd o abatere standard de 20 de minute.
a. Care este proporia studenilor care termin testul n dou ore (120 de minute)?
b. Cnd ar trebui terminat testul pentru a permite exact unui procent de 90% dintre
studeni s termine testul?

Capitolul 3
Eantionarea. Distribuia de eantionare. Intervale de ncredere
3.1 Cercetri selective: de la populaie la eantion
Cine va ctiga alegerile prezideniale sau parlamentare? Sunt femeile o
minoritate defavorizat n societile moderne? O politic public sau o decizie
administrativ produce modificri ale comportamentelor indivizilor vizai de acea politic
public sau de acea decizie? Cine este pentru i cine este mpotriva introducerii unor noi
msuri fiscale? Ct de popular este msura luat de autoritile dintr-o anumit unitate
administrativ de a construi o nou zon industrial? Toate aceste ntrebri au n comun o
caracteristic important i anume: se refer la populaii att de largi nct este practic
imposibil de obinut informaii cu privire la toate elementele care le compun. Cu situaii
asemantoare - imposibilitatea cuprinderii tuturor elementelor care compun un ntreg - se
confrunt i medicul care face analize de snge i care nu poate extrage tot sngele aflat
n organismul unui pacient pentru a l supune unei investigaii n laborator, cei care fac
analize ale unor elemente din mediul natural pentru a stabili nivelul de poluare, sau
cercettorul din tiintele naturale care taie un exemplar dintr-o specie de plante n scopul
efecturii unor analize n laborator.
Att n aceste situaii, ct i n multe altele de acest fel, problema care se pune este
aceea de a culege informaiile necesare pentru a analiza temele avute n vedere doar de la
o parte din indivizii care compun o populaie i nu de la ntreaga populaie. Din punct de
vedere tehnic, grupul sau mulimea de indivizi care constituie obiectul de studiu sau de
interes al cercettorului la un moment dat este denumit populaie, iar grupul mai mic de
indivizi de la care sunt culese informaiile necesare cercetrii este denumit eantion.
Setul de operaii cu ajutorul crora, din ansamblul populaiei vizate de cercetare, se
extrage o parte, numit eantion, parte ce va fi supus nemijlocit investigaiei2 este
desemnat ca fiind operaia de eantionare.
Decizia de a culege datele necesare unei cercetri de la un eantion sau de la o
populaie depinde de o serie de aspecte practice. Astfel, n unele situaii, dac timpul,
resursele financiare i umane nu constituie o problem sau dac populaia int nu este
foarte numeroas, atunci este multe mai avantajoas culegerea datelor de la toi indivizii
care compun o populaie vizat; n felul acesta se obine o imagine exact a problematicii
investigate. n alte situaii exist o serie de constrngeri care l impiedic pe cercettor s
ajung la toi indivizii care compun o populaie, aceste constrngeri se refer n primul
rnd la timp, resursele financiare i umane aflate la dispoziie, dispersarea georgrafic a
populaiei care urmeaz a fi cercetat, iar soluia cea mai la ndemn pentru a culege
informaiile necesare const selectarea unui eantion i investigarea indivizilor care l
compun. Din acest punct de vedere am putea spune ca eantionarea este un compromis
datorat insuficienei resurselor. Nu ntotdeauna este ns vorba numai de imposibilitatea
fizic de a culege informaii de la toi membrii unei populaii neajuns care n unele
situaii poate fi depit ci i de o lips de eficien practic spre exemplu, n cazul
cercettorului din tiinele naturale, care, dac ar tia toate exemplarele unei specii de
2

Traian Rotariu, Petre Ilu, Ancheta sociologic i sondajul de opinie, Ed. Polirom, Iai, 1997, p.122.

plante pentru a le analiza n laborator ar determina dispariia speciei respective. Pe de alt


parte, concentrnd resursele existente doar pentru analiza unei pri dintr-un ntreg se pot
obine rezultate mai bune dect analiznd ntregul, mai ales atunci cnd acest ntreg este
format din muli indivizi a cror investigare implic utilizarea unui personal auxiliar
numeros care datorit lipsei de specializare poate genera erori mai grave dect dac ar fi
analizat o parte din acel ntreg utiliznd un personal specializat.
3.2 Valori msurate pe populaie i pe eantion. Distribuia de eantionare
Vom ncepe discuia despre eantioane cu cel mai simplu tip de eantionare, i
anume cu eantionarea simpl aleatoare. Metoda sau metodele de a realiza practic un
astfel de eantion vor fi discutate pe larg ntr-o seciune ulterioar a acestui capitol. Ceea
ce ne intereseaz n acest moment este numai principiul de selecie a indivizilor, specific
acestui tip de eantionare. S ne imaginm c fiecarui individ care aparine populaiei de
interes (fie ea o populaie de persoane, organizaii etc.) i atribuim convenional un
identificator, adic un cod unic. S presupunem acum c notm fiecare identificator pe o
bil i introducem ntr-o urn uria toate bilele corespunztoare indivizilor care
alctuiesc repectiva populaie. Bilele au toate aceleai dimensiuni. Pentru a extrage un
eantion de indivizi nu avem nimic altceva de fcut dect s extragem un numr de bile la
ntmplare, egal cu mrimea dorit a eantionului. Probabililitatea de a extrage un individ
este egal cu 1/N, unde N este numrul total de bile din urn. Ceea ce este important este
ca dup fiecare extragere s introducem bila napoi n urn, astfel nct probabilitatea de
extragere a fiecrui individ s fie aceeai. De exemplu, dac nu vom introduce prima bil
extras napoi n urn, probabilitatea celei de-a doua bile de a fi extras nu va fi 1/N ci
1/(N-1). Cu alte cuvinte, extragerile nu vor fi independente (vezi Capitolul 2). Un
eantion simplu aleator este deci un eantion ale crui n observaii sunt independente.
S presupunem c am extras un eantion simplu aleator de mrime n dintr-o
populaie de mrime N. ntrebarea care se ridic n mod firesc este: ct ncredere putem
avea n rezultatele obinute dat fiind c eantionul extras la un moment dat este doar unul
din multele eantioane care pot fi extrase dintr-o populaie? Spre exemplu, s
presupunem c extragem aleator un eantion format din 25 de elevi dintr-o coal crora
le aplicm un test de inteligen. S mai presupunem c media coeficientului de
inteligen al tuturor elevilor din coal este = 132 i abaterea standard = 12. Care
este probabilitatea ca eantionul extras de noi s nu aproximeze bine situaia real?
Eantionul de 25 de elevi este evident doar unul din eantioanele care ar fi putut fi extrase
i prin urmare i media obinut la nivel de eantion este doar una din mediile posibile.
Ne putem gndi la mediile tuturor eantioanelor posibile ca la o variabil. Mai clar spus,
media eantionului nostru este doar una dintre valorile posibile ale distribuiei de medii
care ar putea fi obinut extrgnd multe eantioane formate din cte 25 de elevi ai colii
respective. Problema este: ct de mare e probabilitatea ca media calculat n eantionul
extras de noi s nu aproximeze bine media din populaie?
Pentru a rspunde la aceast ntrebare trebuie s facem mai nti o distincie clar
ntre trei tipuri de distribuii: distribuia unei variabile ntr-un eantion de mrime n,
distribuia aceleiai variabile n populaie i distribuia mediilor tuturor eantioanelor
posibile de mrime n, numit i distribuia de eantionare a mediei.

Pentru a exemplifica, s luam cazul unei unei caracteristici X ale unei populaii de
mrime N = 100.000. n populaie, caracteristica X va avea media , abaterea standard ,
i o anumit form a distribuiei. S presupunem acum c extragem un eantion de
marime n = 10 din respectiva populaie. n acest eantion, caracteristica va avea media
X 1 , abaterea standard s1 i, de asemenea, o anumit form a distribuiei, foarte probabil
diferit de cea din populaie. Dac vom mai extrage un eantion de mrime n = 10, vom
obine o alt medie, X 2 , o alt abatere standard, s2, i probabil i o alt form a
distribuiei. Dac vom extrage toate eantioanele posibile de marime n = 10 din populaia
de mrime N = 100.000, vom obine tot attea medii de eantion cte eantioane am
extras. Distribuia acestor medii se numete distribuie
Figura 3.1 Distribuii ale mediilor unor
de eantionare a mediei i dac mrimea eantionului eantioane aleatorii de mrime n = 30
este suficient de mare, atunci distribuia de
eantionare este ntotdeauna normal, chiar dac
valorile caracteristicii iniiale sunt sau nu normal
distribuite n populatia vizat. Mai trebuie precizat c
un eantion de marime n = 20 este de obicei suficient
de mare pentru ca cele afirmate mai sus s fie
adevrate. n Figura 3.1 sunt reprezentate distribuiile
de frecvene ale mediilor unor eantioane aleatorii de (a) 3 eantioane
mrime n = 30, extrase din aceeai populaie, pentru o
caracteristic oarecare. n situaia (a), avem mediile
primelor trei eantioane extrase, cte o medie pentru
fiecare eantion (observm 3 bare de aceeai nlime,
ceea ce nseamn c cele trei eantioane au medii
diferite). n situaia (b) observm c distribuia
frecvenelor relative ale celor 120 de medii de
eantion ncepe s se apropie uor de o distribuie
normal, iar n situaia (c), n care am extras 1100 de (b) 120 de eantioane
eantioane, histograma frecvenelor relative ale
mediilor aproximeaz foarte bine o distribuie
normal. Dac am fi continuat experimentul i am fi
extras toate eantioanele posibile de mrime n = 30
din respectiva populaie am fi obinut o distribuie de
probabilitate - i anume distribuia de eantionare a
mediei, cu toate proprietile unei distribuii normale.
S ne ntoarcem ns la problema noastr cu
media coeficientului de inteligen al elevilor: care e (c ) 1100 de eantioane
probabilitatea ca eantionul extras de noi s aib o
medie mult diferit de media n populaie? i ca s lum un exemplu concret, ne putem
ntreba: care e probabilitatea ca eantionul nostru s aib o medie egal cu 127 sau chir
mai mic dect att?
Pentru a rezolva aceast problem trebuie s apelm la o teorem, numit
Teorema limit central, care afirm c distribuia de eantionare a mediei, n cazul
eantioanelor simple aleatorii, este o distribuie normal a crei medie este chiar media

din populaie, , i a crei abatere standard, numit eroare standard, este egal cu

(unde este abaterea standard din populaie iar n este mrimea eantionului).
n
S ncercm acum o mic sintez a celor prezentate mai sus: mediile unei
caracteristici msurate pe multe eantioane pot fi privite ca formnd o nou variabil
pentru care vom putea calcula evident o medie
Figura 3.2 Distribuia de eantionare a mediei
i o abatere standard. n cazul n care
eantioanele extrase sunt simple aleatorii, cu
reintroducerea elementului extras n populaie
(acordnd deci o ans egal fiecrui element
de a fi extras), aceast nou variabil este
normal distribuit. Mai mult, valoarea medie a
noii variabile (media mediilor msurate pe
eantioanele extrase din populaia vizat) este
egal cu media din populaie a caracteristicii
vizate, iar abaterea standard a acestei noi
variabile este egal cu valoarea din populatie a
X1
X2
abaterii standard a variabilei urmrite,
mprit la rdcina ptrat din mrimea
eantionului. Abaterea standard a noii variabile este denumit eroare standard (e):
e=

Dac aa stau lucrurile, nseamn c datele problemei noastre arat acum astfel:
avem o distribuie de eantionare a mediei, care este normal, cu media = 132 i
abaterea standard (numit eroare standard)
=12/5 = 2,4. Deci rspunsul la
n
problema noastr se reduce la a calcula aria care se afl la stnga lui 127 de sub o curb
normal caracterizat de i e, calcule cu care suntem deja familiarizai din Capitolul 2:
Calculm mai nti scorul z pentru 127. S vedem ns mai nti cum arat
formula pentru zi n condiiile n care acum observaiile sunt medii de eantion, media
distribuiei este media caracteristicii n populaie, iar abaterea standard a distribuiei este
eroarea standard:
zi =

Xi Xi
=
e
n

n cazul nostru deci, z127 = (127 - 132)/2,4 = -5/2,4 = -2,08.


S calculm acum probabilitatea de apariie a unei valori egale sau mai mici dect
-2,08, cu ajutorului tabelului z. Aceasta se reduce la a calcula probabilitatea de apariie a
unei valori mai mari dect 2,08, de unde Pr( X <120) = Pr(z<-2,08) = 0,019. Deci, ansa

s obinem un eantion cu o medie de 127, dintr-o populaie cu media 132 i abaterea


standard 12 este de aproximativ 2%.

Cazul proporiilor

Aa cum am amintit deja n Capitolul 1 cnd am discutat cazul variabilelor


dihotomice, proporiile (sau frecvenele relative) calculate pentru o variabil binar nu
sunt nimic altceva dect media acelei variabile. Proporia calculat ntr-un eantion (pe
care o vom nota cu P) nu este nimic altceva dect o estimare a proporiei din populaie
(notat cu ). Ca i n cazul mediei ( X ), i P fluctueaz de la eantion la eantion, iar
distribuia proporiilor calculate pentru toate eantioanele posibile de mrime n este de
asemenea una normal. Prin analogie cu distribuia de eantionare a mediei, vom spune
c proporiile calculate n eantion fluctueaz n jurul proporiei din populaie , cu o
eroare standard e = (1 ) / n (deoarece abaterea standard pentru proporii este
egal cu (1 ) ).
Pentru a ilustra cazul proporiilor, s presupunem c n Romnia 60% din
electorat voteaz cu partide de stnga i 40% voteaz cu partide de dreapta. Care e
probabilitatea ca un eantion simplu aleator de mrime n = 100 s conin o minoritate de
votani cu stnga? Cu alte cuvinte, care e probabilitatea s obinem un eantion de o sut
de persoane care ne-ar conduce ctre o concluzie greit n ce privete orientarea politic
a electoratului?
S trecem la rezolvarea problemei: Mai nti, vom asuma c o minoritate de
votani cu stnga nseamn c mai puin de 50% din persoanele cuprinse n eantion
voteaz cu stnga. Apoi, trebuie s calculm eroarea standard, e.
e=

(1 ) / n = 0,6 0,4 / 100 0,05

Avnd n vedere faptul c suntem interesai de votanii cu stnga, = 0,6


z50% = z0,50 = (P - )/e = (0,5 - 0,6)/0,05 = -2,00
Deci, Pr(P<0,50) = Pr(z<-2,00) = 0,023
Cu ale cuvinte, probabilitatea de a trage concluzii greite pe baza eantionului este
de aproximativ 2%.
3.3 Intervale de ncredere
n seciunea anterioar am rspuns la ntrebarea: care e probabilitatea ca un
eantion simplu aleator s ofere rezultate deprtate de valorile observate n populaie. n
practic ns, de cele mai multe ori, situaiile cu care avem de-a face i ntrebrile la care
trebuie s raspundem sunt de alt natur: de obicei, cercettorul sau analistul nu cunoate
valoarea real, din populaie, a parametrului, ci ncearc s o estimeze. Pentru a ilustra o
astfel de situaie s lum un exemplu similar cu cel din seciunea precedent S

presupunem c un cercettor dorete s estimeze nivelul de inteligen al elevilor unei


coli. Pentru aceasta el extrage aleator un eantion format din 25 de elevi crora le aplic
un test de inteligen i obine o valoare medie a coeficientului de inteligen de 131.
Bazndu-se pe acest rezultat, ce poate el spune despre nivelul de inteligen al elevilor
colii respective? Eantionul de 25 de elevi este evident doar unul din eantioanele care ar
fi putut fi extrase, i prin urmare i media de 131 obinut la nivel de eantion este doar
una din mediile posibile. Mai clar spus, 131 este doar una dintre mediile din distribuia de
medii care ar putea fi obinut extrgnd multe eantioane formate din 25 de elevi ai
colii respective. Se pune deci urmtoarea problem: care este valoarea medie a
coeficientului de inteligen pentru ntreaga populaie de elevi vizat? - valoare evident
necunoscut pentru cercettor, altfel ce rost ar mai fi avut s fac cercetarea!
Este destul de evident c dac
dorim s facem o inferen despre pe Figura 3.3 Aria de sub curba distribuiei de eantionare
baza lui X , i dac vrem s putem avea
ncredere c aceast inferen este corect,
nu putem pretinde c = X . Pare mult
mai rezonabil s acceptm c exist o
oarecare eroare de eantionare cu ajutorul
creia sa construim o estimare de interval,
sau, mai bine zis, un interval de ncredere:
= X o eroare de eantionare
Ct de mare ar trebui s fie ns aceast
eroare? Rspunsul depinde bineneles de
distribuia de eantionare a lui X , sau mai
bine zis de msura n care acesta fluctueaz n jurul mediei din populaie (Figura 3.3).
S ne aducem puin aminte de prezentarea distribuiei normale fcut n Capitolul
2: acolo am afirmat c pentru orice distribuie normal aria de sub curb aflat ntre 1,96 i + 1,96 este ntotdeauna 0,95 (vezi i tabelul z). n cazul distribuiei de
eantionare, care este de asemenea o distribuie normal, vom spune deci c aria de sub
curb cuprins ntre - 1,96e i + 1,96e (unde e este eroarea standard) este egal de
asemenea cu 0,95, de vreme ce eroarea standard este abaterea standard a distribuiei de
eantionare. Altfel spus, expresia
Pr( - 1,96e < X < + 1,96e) = 0,95
este adevrat pentru orice distribuie de eantionare. n cuvinte, probabilitatea ca media
unui eantion simplu aleator de mrime n s se gseasc ntre valorile - 1,96e i +
1,96e, este egal cu 0,95 (Figura 3.3). Inegalitile din paranteza expresiei de mai sus pot
fi rezolvate pentru , obinndu-se astfel expresia echivalent:
Pr( X - 1,96e < < X + 1,96e) = 0,95

Aceasta nu nseamn c nu mai e o constant - parametrul cutat de noi n


populaie. Expresia de mai sus nu este nimic altceva dect o "propoziie" probabilist
despre variabila aleatoare X . Media n populaie nu variaz. ntorcndu-ne la exemplul
nostru pivitor la estimarea coeficientului de inteligen, s presupunem c n paralel cu
cercetarea prin eantion a fost efectuat i o testare pe toat populaia de elevi din coala
respectiv. Rezultatul a fost o medie a coeficientului de inteligen de 132, i o abatere
standard de 12. Cercettorului nostru nu i s-a comunicat ns dect abaterea standard, aa
c el a fost n continuare nevoit s estimeze media n populaie pe baza valorii obinute n
eantion. n consecin, el va lua expresia de mai sus, i, dup calcularea erorii standard
(e=2,4) va scrie:
Pr(131- 1,96 x 2,4 < < 131 + 1,96 x 2,4) = 0,95, adic
Pr(126,3 < < 135,7) = 0,95
n final deci, cercettorul va afirma "cu un nivel de ncredere" de 95% c media n
populaie, , se gsete n intervalul 126 - 136. Acest interval se numete interval de
ncredere.
S presupunem acum c, aa cum e i firesc de altfel, cercettorul nu e foarte
mulumit de precizia estimrii sale. El ar dori s fac o afirmaie mai "exact" n sensul
unui interval mai restrns. Cum poate el s fac acest lucru? S ne mai uitm o dat la
propoziia probabilist prezentat anterior, ns de data aceasta o vom scrie n forma sa
general:
Pr( X - zp/2e < < X + zp/2e) = n.i.
unde n.i. este nivelul de ncredere iar zp/2 este valoarea din tabelul z corespunztoare
respectivului nivel de ncredere.
n condiiile n care cercettorul dorete s obin un interval de ncredere mai mic
(mai restrns), el nu poate face acest lucru dect printr-un compromis, i anume reducnd
valoarea absolut a lui z, sau altfel spus, reducnd nivelul de ncredere. Deoarece
cercettorul nu poate modifica nici X nici eroarea standard dect prin efectuarea unei
alte cercetri, lui nu i rmne dect s i aleag un nivel de ncredere mai mic dect
95%, ceea ce va duce la o micorare a intervalului. De exemplu, dac cercettorul se
mulumete cu un nivel de ncredere de 68% - cruia i corespunde z0,34 = 1 (vezi tabelul z
din Anexa 1), atunci el va putea spune c, pentru un nivel de ncredere de 68%, va fi
cuprins ntre 131 - 2,4 i 131 + 2,4, adic ntre 128,6 i 133,4.
Concluzia acestui scurt exerciiu este c estimarea constituie ntotdeauna un
compromis ntre "exactitatea" i "sigurana" afirmaiei pe care dorim s o facem despre
parametrul n cauz. Mai riguros spus, dac vom ncerca s cretem nivelul de ncredere
al estimrii, mrind astfel "sigurana", va trebui s cretem i intervalul de ncredere,
pierznd astfel din "exactitate". i invers, dac dorim s micorm intervalul de
ncredere, vom fi nevoii s reducem i nivelul de ncredere al estimrii.
Este totui legitim s ne ntrebm cum putem obine estimri ct mai "sigure" i
ct mai "exacte"? Rspunsul nu este foarte greu de dat: prin mrirea volumului
eantionului. Acest rspuns decurge firesc din formula erorii standard:

e=

S actualizm acum formulele i expresiile utilizate n estimare, nlocuind pe cu s i


respectiv pe z cu t:
e' =

s
n

; unde e' este eroarea standard estimat.

de unde reiese clar c cu ct vom avea un eantion mai mare cu att vom avea o eroare
standard mai mic, i deci intervale de ncredere mai mici, pentru acelai nivel de
ncredere.

Pr( X - t(1-p)/2e' < < X + t(1-p)/2e' = n.i.

3.4 Cazul eantioanelor mici. De la z la t

ceea ce este totuna cu a spune c = X t(1-p)/2e'), pentru un anumit n.i.

n ultimul exemplu din seciunea anterioar am presupus, destul de nerealist, c


cercettorul nostru, care nu avea cum s msoare abaterea standard n populaie, ,
reuete s obin valoarea acesteia datorit unei coincidene fericite. n lumea real astfel
de coincidene sunt practic absente, iar cercettorul, dac dorete ntr-adevr s obin o
estimare a lui , va trebui s calculeze eroarea standard i deci va fi obligat s nlocuiasc
cu o estimare a ei. Dup cum e i foarte intuitiv, cea mai bun estimare pentru este s,
adic abaterea standard n eantion. Dar utilizarea lui s introduce o surs adiional de
posibile distorsiuni sau erori, mai ales dac eantionul este mic (sub 120 de cazuri).
Pentru a nu risca distorsiuni n ceea ce privete nivelul de ncredere, va trebui s
recurgem la o lrgire a intervalului. Aceasta se face prin nlocuirea valorii z utilizate n
seciunea anterioar cu o valoare mai mare, t, care provine dintr-o distribuie similar cu
z, numit distribuia t a lui Student, sau Student (t). Practic, marea diferen dintre
distribuia z i distribuia t este faptul c aceasta din urm ia n calcul i ceea ce se
cheam "grade de libertate". Acestea, foarte intuitiv spus, reprezint numrul de elemente
de informaie independente, necesare pentru definirea unui sistem. In cazul discutat de
noi acum, aceste elemente sunt indivizii din care se compune eantionul. Deoarece ntre
observaiile din eantion exist o relaie de dependen, care este media, numrul de
grade de libertate va fi n-1. S revenim la diferenele dintre z i t: acestea sunt practic
sesizabile numai n cazul eantioanelor mici (mai mici de 120), adic pentru un numr
mic de grade de libertate. Pentru peste 120 de grade de libertate, distribuia t este foarte
similar cu z. Pentru sub 120 de grade de libertate (notate de acum nainte g.l.), valorile t
sunt mai mari dect valorile z, pentru a compensa, aa cum artam mai sus, nlocuirea lui
cu s n formula erorii standard. Tabelul t este prezentat n Anexa 2. Deoarece citirea se
face n funcie de numrul de grade de libertate, care se gsesc la capetele rndurilor (n
stnga), organizarea i modul de citire ale unui tabel t sunt complet diferite fa de cele
ale tabelului z. n tabelul t din Anexa 2 coloanele sunt definite de ariile de sub curb
aflate la dreapta valorii t, iar n celule, la intersecia dintre gradele de libertate i nivelele
de probabilitate (arii) se gsesc valorile lui t. Astfel, pentru un eantion de 10 persoane i
un nivel de ncredere de 95% va trebui s cutam valoarea lui t la intersecia dintre rndul
cu 9 grade de libertate i aria egala cu 0,025, deoarece 0,95 = 1 - 2 x 0,025 (sau, n
cuvinte, pentru a obine nivelul de 0,95 trebuie s eliminm 0,05 din ambele cozi ale
distribuiei, adic cte 0,025 din fiecare coad - i din stnga i din dreapta). Pe ultima
linie a tabelului se poate observa c atunci cnd numrul de grade de libertate tinde ctre
infinit, valorile t sunt egale cu valorile z pentru acelai numr de g.l.

3.5 Reprezentativitatea eantioanelor: a alege civa pentru a i reprezenta pe toi.


Un eantion bun este ntr-o oarecare msur o versiune n miniatur a unei
populaii, un model al unei populaii. Caracteristica cea mai important a unui eantion
bun este dat de reprezentativitatea acestuia. Un eantion este considerat reprezentativ
pentru populaia din care este extras dac caracteristici importante sunt distribuite
similar n amndou grupurile3 sau mai clar spus, un eantion trebuie s reproduc
caracteristici importante ale populaiei din care este extras. Aceste caracteristici
importante pot fi: vrsta, nivelul de educaie, mediul de reedin, sexul, venitul, etc. Aa
cum am vazut n seciunile anterioare, un eantion nu va reproduce niciodat cu exactitate
toate caracteristicile unei populaii, iar aceast lips de exactitate implic:

existena unei erori de eantionare numit i eroare limit de sondaj i care


este exact produsul dintre valoarea lui t i eroarea standard ( = te)
existena unui nivel de ncredere, notat mai sus cu n.i., care este dependent de
valoarea lui t.

Reprezentativitatea unui eantion este exprimat cantitativ de cele dou valori i


n.i, valori care sunt determinate una de cealalt. Un eantion este cu att mai
reprezentativ cu ct eroarea pe care o facem este mai mic iar nivelul de ncredere este
mai mare.
Orice eantion aleator reproduce mai mult sau mai puin caracteristici ale
populaiei din care este extras, motiv pentru care nu exist eantioane nereprezentative, ci
doar eantioane mai mult sau mai puin reprezentative pentru o populaie n funcie de
msura n care caracteristici ale populaiei respective sunt regsite i n aceste eantioane.
Mai mult, unele caracteristici pot fi mai bine reproduse de un eantion iar altele mai puin
bine, ceea ce nseamn ca reprezentativitatea unui eantion este diferit n funcie de
caracteristica care este avut n vedere. Cu alte cuvinte, un eantion nu este reprezentativ
n general, ci are o anumit reprezentativitate n raport cu o anumit caracteristic i o
alt reprezentativitate n raport cu o alt caracteristic.
Gradul de reprezentativitate a unui eantion depinde de trei factori importanti eterogenitatea sau omogenitatea caracteristicilor populaiei din care este extras, de
mrimea eantionului i de procedura de eantionare.
3

Arlene Fink, How to Sample in Surveys, Sage Publications, Thousands Oaks, London, New York, 1995, p.1.

Cum am spus deja, reprezentativitatea unui eantion este dat de capacitatea


acestuia de a reproduce o serie de caracterisitici existente n populaie. Dac o
caracteristic este mai omogen distribuit ntr-o populaie un acelai eantion va fi mai
reprezentativ pentru acea caracteristic dect pentru o alt caracteristic care este
distribuit mai eterogen n aceeai populaie. Sau altfel spus, pentru a obine o aceeai
reprezentativitate, pentru o caracteristic n raport cu care populaia este mai omogen
este nevoie de un eantion de mrime mai mic dect pentru o caracteristic n raport cu
care populaia este mai eterogen.
Mrimea eantionului se refer la numrul de elemente care l compun i care
trebuie investigate pentru a obine rezultate ct mai precise. Intuitiv, un eantion este cu
att mai reprezentativ cu ct cuprinde mai multe elemente din populaia vizat, n felul
acesta obinndu-se o reproducere mai bun a acesteia. Dar creterea nivelul de
reprezentativitate nu este direct proporional cu creterea numrului de elemente din
populaia vizat care sunt incluse n eantion, adic nu avem o relaie linear ntre cele
dou componente; dimpotriv aceast relaie poate fi reprezentat sub forma unei curbe
asemntoare celei din figura de mai jos (Figura 3.4). Astfel, dac modificm mrimea
eantionului cu o cantitate K de elemente, iar eantionul cuprinde iniial un numr mic de
elemente, modificarea gradului de reprezentativitate este mai mare dect dac modificm
mrimea eantionului cu aceeai cantitate K de elemente dar eantionul este compus
iniial dintr-un numr mare de elemente.
Figura 3.4 Relaia dintre reprezentativitate i mrimea eantionului.

n ceea ce privete procedura de eantionare, aceasta influeneaz att gradul de


reprezentativitate al unui eantion ct i posibilitatea exprimrii numerice a acesteia. Din
punct de vedere tehnic matematic, calcularea reprezentativitii unui eantion este
posibil numai n cazul eantioanelor probabiliste sau aleatoare. Un eantion probabilist
este acel eantion pentru care fiecare element din populaia vizat are o ans calculabil
i non-nul de a fi selectat n eantion. Posibilitatea calcularii probabilitii ca un element
din populaie s fie selectat n eantion permite calcularea unei marje de eroare () i a
unui nivel de ncredere (n.i.) prin care s fie exprimat cantitativ reprezentativitatea
eantionului. n cazul eantioanelor neprobabiliste, cele pentru care ansa unui element al
populaiei de a face parte din eantion nu este cunoscut, nu poate fi calculat gradul de
reprezentativitate i prin urmare nici nu se poate vorbi de reprezentativitatea lor.

O ultim provocare: ct de mare trebuie s fie un eantion?

n practic, aceasta este una din primele ntrebri pe care i le pune orice cercettor
sau analist nainte de a se lansa ntr-un sondaj. Aa cum am mai menionat, mrimea
eantionului nu este dependent de mrimea populaiei. Stabilirea mrimii unui eantion
se face de obicei n funcie de resursele avute la dispoziie (timp, bani, resurse umane
etc.) i de nivelul de reprezentativitate pe care cercettorul dorete s l ating. Deducem
de aici c mrimea eantionului se va stabili n funcie de nivelul de ncredere pe care
care dorim s l atingem i de marja de eroare sau nivelul erorii limit de sondaj pe care
suntem dispui s le acceptm. De obicei, aceste decizii se iau plecnd de la ipoteza unei
populaii cu grad maxim de eterogenitate pe cteva caracteristici. Ipoteza eterogenitii
maxime este o precauie pe care cercettorul trebuie s i-o ia; este un fel de a se atepta
"la ce e mai ru". n cazurile n care abaterile standard n populaie ale caracteristicilor de
interes sunt cunoscute, se poate pleca de la acestea. n aceast seciune, vom exemplifica
cu ajutorul unei caracteristici dihotomice, pentru simplitatea calculelor:
Eterogenitatea maxim pentru o caracteristic dihotomic este atins atunci cnd
distribuia respectivei caracteristici n populaie este omogen, adic 50% - 50%.
Mrimea eantionului poate fi extras din formula erorii standard:
e=

sau, n cazul variabilelor dihotomice,


Mrimea eantionului este indepedent de mrimea populaiei din care este
extras. Un eantion de o anumit mrime i constituit dup aceleai proceduri are aceelai
grad de reprezentativitate i atunci cnd este extras din populaia unei ri i atunci cnd
este extras din populaia unui ora. Consecina faptului c reprezentativitatea unui
eantion nu depinde de mrimea populaiei din care este extras este aceea c acesta are un
anumit grad de reprezentativitate pentru ntreaga populaie, dar subeantioanele n care se
mparte i care respect proporia diferitelor segmente ale populaiei nu mai au acelai
grad de reprezentativitate pentru aceste segmente ca i eantionul iniial (pe total
populaie).

e=

(1 ) / n

de unde,
n = (1 ) / e 2
dar = te, de unde rezult c e = /t
deci n = (1 ) t 2 / 2

S presupunem acum c dorim s facem acest calcul pentru o variabil de


eterogenitate maxim i c n final dorim s obinem o marj de eroare = 2% (adic de
0,02), pentru un nivel de ncredere de 95% (adic 0,95). Cu alte cuvinte, dorim s ne
asigurm acel volum al eantionului care s ne permit s spunem, pentru variabila
noastr (s zicem starea de srcie), c:
P - 2% < < P + 2% (sau = P 2%), pentru un nivel de ncredere de 95%
unde P este proporia (de sraci) msurat n eantion.
Dac nivelul de ncredere ales este de 95%, va trebui s ne uitm n tabel la valoarea lui t
corespunztoare acestui nivel. De fapt ne vom uita n tabelul z, deoarece am presupus c
lucrm cu abaterea standard n populaie, i oricum ar fi absurd s vorbim n aceast faz
despre numrul de grade de libertate, care e dependent de n (g.l. = n-1). Deci, vom folosi
valoarea t = 1,96.
Din cele de mai sus rezult c:
n = 0,5 x 0,5 x 1,96 x 1,96 / (0,02 x 0,02) = 2401 subieci.
Exerciii i probleme
1. O populaie de studeni ntr-un campus studenesc mare are o greutate medie de = 69
kilograme i o abatere standard = 3,22 kilograme. Dac se alege un eantion aleator de
n = 10 studeni, care este ansa ca media eantionului X s se plaseze n intervalul de
+/- 2 kilograme fa de medie a populaiei?
2. Un teleferic este astfel proiectat nct s poat suporta o greutate maxim de 10000 de
kilograme. n teleferic sunt ncrcate la un transport 50 de butoaie. S presupunem c
greutile tuturor butoaielor care trebuie transportate cu telefericul au o medie de 190
kilograme i o abatere standard de 25 de kilograme. Care este probabilitatea ca un
eantion aleator de 50 de butoaie s aib o greutate mai mare dect greutatea maxim
suportat de teleferic?
3. n 1998 aproximativ 50% dintre romni considerau c inflaia este cea mai important
problem a rii. Dac se aleg n mod aleator 1500 de romni din totalul populaiei care
este ansa ca proporia acestui eantion s reflecte n mod adecvat proporia populaiei,
considernd un interval de +/- 3 procente n jurul valorii din populaie?

Pentru urmtoarele ntrebri, s se ncercuiasc varianta corect /variantele corecte:


4. Eroarea limita de sondaj este 1. populatia este mai eterogena
cu atit mai mare cu cit:
2. esantionul este mai mic
3. abaterea standard a caracteristicii n eantion
este mai mica
4. media n eantion este mai mare
5. volumul esantionului este mai mare
6. nici una dintre acestea
5. Volumul eantionului trebuie 1. mrimea populaiei din care se extrage
s fie direct proporional cu
2. variaia caracteristicii de eantionare
3. eroarea limit de reprezentativitate admis
nivelul de ncredere pentru care se garanteaz
rezultatele

Capitolul 4
Proceduri de eantionare
Unul dintre primele aspecte care trebuie luate n considerare atunci cnd se pune
problema realizrii unor cercetri practice este aceea a delimitrii populaiei care urmaz
a fi studiat. n acest context, prin populaie sunt desemnate toate elementele care pot
sau trebuie s fie studiate. Elementele pot fi indivizi umani, dar n acelai timp pot fi
gospodrii, coli, spitale, intreprinderi economice, orae, organizaii sociale sau
profesionale, ziare, articole de pres, discursuri ale unor oameni politici, etc. Indiferent
ns de cine sau ce constituie elementele populaiei vizate, aceasta trebuie s fie atent
delimitat n funcie de obiectivele cercetrii, ntruct rezultatele finale vor depinde de
acest punct de referin stabilit iniial. Spre exemplu, s ne imaginm c ntr-un ora se
pune problema adoptrii unui nou sistem de transport n comun, iar ceea ce ne intereseaz
este acordul sau dezacordul cetenilor cu privire la modul practic de realizare a acestuia.
n acest caz, populaia vizat este compus doar din cei care locuiesc n oraul respectiv?
sau trebuie avut n vedere i populaia care nu locuiete n ora, dar care ntr-o msur
sau alta beneficiaz de transportul n comun din acel ora? care este vrsta minim i
maxim a celor care vor fi chestionai?, etc. Intrebri asemntoare acestora se ivesc de
fiecare dat cnd se pune problema definirii unei populaii care urmeaz a fi cercetate, iar
de rspunsurile date vor depinde n mod evident rezultatele finale. Un prim pas n
definirea unei populaii vizate este acela de a stabili o populaie ideal, adic toi cei care
ipotetic ar trebui s fie luai n considerare atunci cnd se cerceteaz o problematic
anume. Dup care n funcie de constrngerile practice identificate spre exemplu, n
cazul n care elementele populaiei sunt indivizi umani, astfel de constrngeri ar putea fi
date de imposibilitatea de a i investiga pe cei aflai n nchisori, uniti militare, spitale,
hoteluri, n strintate, etc populaia ideal poate fi restrns la o populaie vizat care
poate fi abordat n cadrul cercetrii. Avantajele lurii n considerare n faza iniial a
unei populaii ideale este acela c excluderea unor segmente din aceasta este explicit, iar
neajunsurile rezultate de aici pot fi luate n considerare.
O dat stabilit populaia vizat, poate fi pus i problema alegerii unui eantion.
Pentru aceasta, elementele populaiei vizate sunt traspuse ntr-o list numit cadru de
eantionare, list din care vor fi extrase ulterior potrivit unor proceduri clar definite acele
elemente care vor compune eantionul. Spre exemplu, dac se realizeaz o anchet
telefonic al crui scop este investigarea modului n care dotarea cu utiliti publice a
unei localiti acoper necesitile existente, populaia ideal este constituit din toate
gospodriile care au acces la utiliti publice, iar cadrul de eantionare este format din
toate gospodriile care au acces la utiliti publice i au telefon. Constrngerea n acest
caz este dat de existena unui post telefonic n gospodrie. Gospodriile care au acces la
utiliti dar care nu au telefon neputnd fi investigate, populaia vizat este format doar
din acele gospodrii care au acces la utiliti publice i au telefon (Figura 1.). n exemplul
de fa, astfel de liste care s se constituie n cadru de eantionare pot fi evidene ale
companiilor funizoare de utiliti publice i liste ale abonailor la servicii telefonice din
localitatea avut n vedere.

De la caz la caz, n funcie de problema investigat, pot constitui cadru de


eantionare: lista celor care sunt nscrii la un medic de familie sau la medicii de familie
care opereaz ntr-o anumit arie care urmeaz a fi acoperit de cercetare, lista celor
abonai la o firm furnizioare de servicii de televiziune prin cablu, lista celor abonai la o
anumit publicaie, lista celor care figureaz n registrul auto, lista celor care figureaz n
registrul de carte funciar, etc. Ideal toate aceste liste ar trebui s includ fiecare element
al populaiei vizate doar o singur dat. n realitate ns exist o serie de neajunsuri
printre care cele mai importante sunt:

lipsa unor elemente: fie lista este inadecvat n sensul n care iniial nu a fost
conceput pentru a include toate elementele care pot face la un moment dat obiectul
de interes al cercettorului, fie este incomplet, adic nu include din diferite motive
toate elementele care se presupune care c ar trebui s le includ;
referine la grupuri de elemente i nu la elemente individuale; spre exemplu, liste care
nu se refer la numrul de persoane ci la numrul de familii care locuiesc ntr-o
gospodrie, dar cercetarea vizeaz persoane i nu familii;
existena unor elemente straine, adic existena n list a unor elemente care din
diferite motive nu fac obiectul de studiu la un moment dat;
exitena unor duplicate: cnd unele elemente ale populaiei apar de mai multe ori pe o
list.

Remedierea tuturor acestor neajunsuri va duce n mod evident la obinerea unui


eantion mai bun. De la caz la caz prin remediere se nelege: identificarea elementelor
lips i introducerea lor n lista care constituie cadrul de eantionare, identificarea tuturor
elementelor care fac parte dintr-un grup, eliminarea unor elemente strine care nu au
legtur cu tematica cercetrii, eliminarea duplicatelor i pstrarea pe o list a unui
element doar o singura dat.
O modalitate de a depi aceste neajunsuri const n redefinirea problematicii
cercetate n aa fel nct elementele populaiei care nu pot fi identificate s nu fac
obiectul unei anumite cercetri. Acest lucru evident nu este posibil n toate situaiile i nu
este posibil mai ales n acele situaii n care elementele care nu pot fi identificate
constituie majoritatea elementelor unei populaii.
Atunci cnd nu exist liste care s cuprind elementele unei populaii vizate prin
cadru de eantionare poate fi desemnat orice alt procedur care s permit identificarea
elementelor unei populaii. Spre exemplu, o arie geografic poate juca rolul de cadru de
eantionare, situaie n care elementele populaiei vizate sunt asociate cu un anumit spaiu
natural. Astfel, aria geografic ocupat de o populaie vizat poate fi mprit n zone
mai mici din care sunt alese aleator cteva, care la rndul lor sunt divizate n arii mai mici
dintre care vor fi selectate aleator cteva i aa mai departe pn la utimul stadiu cnd din
anumite zone astfel selectate sunt investigate toate elementele.

Figura 4.1. Cadrul de eantionare pentru selectarea unui eantion n vederea investigrii
printr-o anchet telefonic a gradului de satisfacere de ctre utilitile publice a nevoilor populaiei
unei localiti (exemplu ipotetic).

anuleaz ansele altor elemente care sunt exluse a priori ntruct nu au ansa de a se afla
la locul sau pe traseul pe care se deplaseaz cel care face selecia.
Pentru a evita aceste situaii ar trebui s avem o situaie clar a tuturor elementelor
care compun o populaie i s le putem identifica fr echivoc.
Aa cum am artat deja n paragraful anterior, n cazul procedurilor de eantionare
probabiliste fiecare element care compune o populaie trebuie s aib o ans diferit de
zero i calculabil de a face parte din eantion. Acesta este criteriul de baz n stabilirea
dihotomiei: eantioane probabiliste - eantioane neprobabiliste
De-a lungul timpului au fost dezvoltate o larg varietate de tehnici de eantionare,
dintre acestea cele mai frecvent ntlnite sunt: eantionarea simpl aleatoare, eantionarea
aleatoare prin stratificare, eantionarea cluster, eantionarea multistadial, eantionarea
pe cote, eantionarea tip bulgre de zpad. n cele ce urmeaz vom prezenta o serie de
aspecte legate de modul de aplicare a fiecreia dintre aceste proceduri de eantionare.
4.1.1 Eantioane probabiliste

4.1 Tipuri de eantioane


Distincia clasic n ceea ce privete tipurile de eantioane este aceea ntre
eatioanele probabiliste sau aleatoare i cele neprobabiliste.
n primul caz n procesul de selectare a unui element din populaie pentru a face
parte din eantion se presupune c se face la ntmplare fr s intervin n vreun un fel
subiectivismul celui care aplic procedura de eantionare i nici vreun alt fenomen care
s afecteze ansa unuia sau unor indivizi de a fi selectai. Dat fiind aceast constrngere,
situaii cum ar fi alegerea la ntmplare a unui numr de oameni care intr ntr-o instituie
de la orele 8.00 pn la orele 10.00 ale unei zile, constituirea unui eantion de gospodrii
alese la ntmplare atunci cnd ne plimbm pe cteva strzi dintr-o localitate, sau
constituirea unui eantion format din localiti rurale ale unui jude, selectnd tot
ntmpltor localiti rurale care se afl pe oseau care leag dou orae ale judeului
respectiv, etc, nu vor duce la constituirea unor eantioane probabiliste. Motivul pentru
care nu vom obine n aceste cazuri eantioane aleatoare este acela c n alegerea pe care
o facem la ntmplare excludem fie intenionat, fie neintenionat o parte din elementele
populaiei vizate. Astfel n primul caz, dac vrem s alegem un eantion reprezentativ
pentru cei care frecventeaz o anumit instituie i vom selecta la ntmplare doar pe
cei care intr n acea instituie n intervalul orar amintit i vom exclude pe toi cei care la
momentul respectiv nu au ansa de a intra n acea instituie, similar vom exlude fr s
vrem gospodriile care nu au ansa de a se gsi pe strzile pe care ne plimbm sau
localitile rurale care nu au ansa de a se afla pe oseaua care leag cele dou orae ntre
care ne deplasm. Mai mult, nu putem calcula ansa pe care o are fiecare element din cele
trei cazuri prezentate mai sus persoane, gospodrii, localiti rurale de fi selectat n
eantion. n toate aceste cazuri este clar c ntmplarea favorizeaz anumite elemente i

Eantionarea simpl aleatoare


Eantionarea simpl aleatoare este probabil procedura cea mai important i cea
mai des utilizat n domeniul cercetrilor practice i este considerat procedura de
referin, ideal, atunci cnd se pune problema stabilirii unor tehnici de eantionare.
Asumpiile de baz ale acestei tehnici sunt acelea c: fiecare element al populaie vizate
are exact aceeai ans ca i oricare alt element al aceleiai populaii de a fi selectat n
eantion, iar selectarea unui element n eantion nu a influenat n nici un fel ansele altui
element de a fi selectat. Tehnica tipic sau modelul de realizare al acestui tip de
eantionare este reprezentat de metoda urnei, situaie n care fiecarui element dintr-o
populaie vizat i corespunde o bil; toate bilele corespunztoare unor membrii ai
populaiei vizate sunt introduse ntr-o urn dup care sunt amestecate i se extrage pe
rnd cte una pn se ajunge la un numr de bile egal cu numrul de elemente care vor
compune eantionul. Pentru a asigura probabiliti de extragere egale pentru toate
bilele, dup fiecare extragere bila este introdus napoi n urn. Totui, dac populaia
este foarte mare (numr foarte mare de bile) reintroducerea bilei n urn nu mai este
necesar deoarece probabilitatea de extragere a bilelor rmase nu este practic influenat
dect ntr-o masur extrem de mic, aproape insesizabil. Simplu de pus n practic din
punct de vedere teoretic, procedura astfel definit ntmpin o serie de dificulti mai ales
atunci cnd se lucreaz cu populaii mari, situaie n care este practic imposibil de
conceput o urn n care s poate fi introdus un numr de bile egal cu numrul de indivizi
care compun populaia unei ri spre exemplu.
O a doua metod de realizare a unei eantionri simple aleatoare sunt tabelele cu
numere aleatoare. Procedura const n generarea unor iruri de numere aleatoare i
introducerea lor ntr-un tabel. Fiecrui element din populaia vizat, care trebuie
identificat univoc, i se atribuie un numr de la 1 la N. Cel care realizeaz selecia, alege la
ntmplare un numr din irul de numere aleatoare i caut apoi n populaia vizat
elemetul cu numrul de ordine reprezentat de numrul aleator respectiv, element care va
face parte din eantion. Dup care din tabelul de numere aleatoare este ales numrul
urmtor i se identific din nou n populaia vizat elementul cu numrul de ordine
identic cu numrul aleator, element care este i el introdus n eantion. Procedura

continu n acest fel pn la completarea numrului de elemente necesare constituirii


eantionului. n cazul n care unui numr aleator nu i corespunde un numr atribuit unui
element din populaia vizat, acesta nu este utilizat i se trece la urmtorul.
O alt procedur de punere n practic a unei eantionri simple aletoare este
cunoscut sub denumirea de metoda pasului. n aceast situaie este necesar o list care
s cuprind toate elementele populaiei vizate, fiecrui element fiindu-i atribuit un numr
de la 1 la N. Dup care se stabilete un pas de eantionare, de obicei egal cu raportul
dintre mrimea populaiei (N) i mrime eantionului (n): N/n. Se alege la ntmplare un
numr din lista care cuprinde toate elementele populaiei vizate, elementul corespunztor
acelui numr fiind primul element al eantionului, dup care, ncepnd de la acel element,
este selectat n eantion tot al N/n lea element din populaie. Pasul de N/n se aplic de
cte ori este nevoie pentru a selecta numrul de elemente care trebuie s fac parte din
eantion. Procedura pasului mai este cunoscut i sub denumirea de eantionare simpl
sistematic sau cvasi-aleatoare.
Spre exemplificare, s presupunem c populaia vizat este format din 5000 de
gospodrii, i dorim s constituim un eantion format din 250 de gospodrii. Pasul de
eantionare n acest caz va fi 5000/250 = 20. Gospodriile sunt ordonate pe o list,
fiecreia atribuindu-i-se un numr de la 1 la 5000. Se alege la ntmplare o un numr de
pe list, s spunem c acest numr este 7; gospodria creia i-a fost atribuit acest numr
este primul element al eantionului nostru. Urmtoarele gospodrii care vor face parte din
eantion sunt cele crora le corespund numerele: 27, 47, 67, 87, 107, 127, 147 i aa mai
departe pn la selectarea a 250 de gospodrii.

Eantionarea prin stratificare


Eantionarea prin stratificare are la baz tot o procedur de alegere aleatoare.
Aceast metod este utilizat atunci cnd cel care face eantionarea are motive s cread
c populaia vizat este compus din mai multe subpopulaii sau subgrupuri distincte,
denumite tehnic straturi. Realizarea din punct de vedere practic a unui eantion prin
stratificare presupune urmtorii pai: populaia vizat este mparit n subpopulaii n
funcie de un anumit criteriu care este deja cunoscut, dup care este constituit un eantion
care la rndul lui va fi compus din attea subeantioane cte subpopulaii exist n
populaia vizat. n interiorul fiecrei subpopulaii elementele care vor fi introduse n
eantion sunt selectate aleator.
Spre exemplu, s presupunem c 30% din populaia unei regiuni locuiete n
localiti rurale, 20% locuiete n orae cu pn la 50.000 de locuitori, 15% locuiete n
orae care au de la 50.001 la 100.000 de locuitori, iar restul de 35% locuiete n oree de
peste 100.000 de locuitori. Un eantion stratificat format din 1000 de persoane va
cuprinde 300 de persoane din mediul rural, 200 de persoane care locuiesc n orae cu
pn la 50.000 de locuitori, 150 de persoane care locuiesc n orae care au ntre 51.001 i
100.000 de locuitori i 350 de persoane care locuiesc n orae de peste 100.000 de
locuitori.
Principiul de baz al acestui tip de eantionare este acela c, cu ct o populaie
este mai omogen cu att este mai uor s se extrag din aceasta un eantion
reprezentativ. De asemenea, cu ct o populaie este mai omogen n raport cu o
caracteristic, cu att mrimea eantionului necesar pentru a reproduce cu o anumit

acuratee acea caracteristic este mai mic n comparaie cu mrimea unui eantion extras
dintr-o populaie care este mai eterogen n raport cu aceeai caracteristic.
Mrimea subeantioanelor poate s pstreze proporia subpopulaiilor, situaie n
care vom vorbi de eantionare prin stratificare proporional. n felul acesta se asigur
pentru toate elementele populaiei vizate o ans egal de a fi selectate n eantion.
Exist ns i situaii n care este recomandat ca subeantioanele s nu pstreze
proporiile subpopulaiilor. Acest lucru se ntmpl mai ales atunci cnd unele
subpopulaii sunt reduse din punct de vedere numeric i n consecin, dac ar fi pstrate
proporiile, i subeantioanele ar fi formate dintr-un numr mic de elemente care nu ar
avea un nivel de reprezentativitate rezonabil. n aceast situaie se recurge la o stratificare
diproporionat a eantionului sau o stratificare ponderat, prin suprareprezentarea n
eantion a subpopulaiilor mai puin numeroase, urmnd ca la prelucrarea datelor aceste
abateri s fie corectate prin metode statistice. n aceast situaie ansele elementelor
aparinnd diferitelor subpopulaii de a intra n eantion sunt diferite: elementele care
provin din subpopulaiile mai puin numeroase avnd anse mai mari de fi selectai n
eantion dect elementele care provin din subpopulaiile mai numeroase.
Indiferent de modalitatea n care sunt constituite subeantioanele, pstrnd sau nu
proporiile, eantionarea prin stratificare presupune existena n momentul iniial al
punerii n practic a procedurii de eantionare a unei informaii suplimentare despre
populaia vizat n comparaie cu situaia n care este utilizat eantionarea simpl
aleatoare. Aceast informaie poate fi obinut cu ajutorul altor studii sau din alte surse de
informare cu privire la populaia vizat.
n ceea ce privete gradul de reprezentativitate al eantioanelor realizate prin
stratificare n comparaie cu gradul de reprezentativitte al eantioanelor simple aleatoare,
se admite n general c este mai bun. Mai clar spus, dintre dou eantioane de aceeai
mrime unul obinut prin eantionare prin stratificare iar altul prin eantionare simpl
aleatoare, se consider c primul are o reprezentativitate mai bun, n situaia n care
criteriile pe baza crora se face eantionarea au o legtur de tip statistic cu
caracteristicile care fac obiectul cercetrii.

Eantionarea cluster i eantionarea multistadial


Pn acum am prezentat situaii n care exist un anumit cadru de eantionare liste care s cuprind elementele unei populaii - i situaii n care pe lng faptul c
exist un anumit cadru de eantionare cercettorul mai are la ndemn i o serie de
criterii pe baza crora o populaie poate fi mprit n subpopulaii sau grupuri. n
aceast din urm situaie din fiecare grup este extras un subeantion care va face parte din
eantionul final.
Exist ns i situaii n care nu exist un cadru de eantionare i nici nu este
necesar creerea unuia ntruct nu toate elementele acelei populaii vor fi incluse n
eantion. Dac populaia poate fi considerat ca fiind format din grupuri, iar ntre aceste
grupuri exist o anumit asemnare, atunci are sens s nu fie selectai n eantion indivizi
din toate grupurile ci numai indivizi din anumite grupuri. n aceast situaie populaia
vizat este mparit n grupuri n funcie de un anumit criteriu, aceste grupuri la rndul
lor pot fi considerate ca fiind formate din alte grupuri i aa mai departe. Date fiind aceste

condiii, selectarea elementelor care vor compune eantionul poate ncepe prin selectarea
grupurilor din care fac parte aceste elemente. Astfel, ntr-o prim faz sunt selectate
aleator o parte din grupurile populaiei vizate, dup care din fiecare grup selectat n prima
faz vor fi selectate tot aleator alte grupuri mai mici i aa mai departe pn cnd se
ajunge la nivelul elementului de baz din care este compus populaia vizat. Spre
exemplu, dac dorim s alegem un eantion din populaia unui ora, ntr-o prim faz
putem selecta cartiere din acel ora, apoi strzi, blocuri, apartamente i n cele din urm
persoanele care ne intereseaz. Dac toate elementele care fac parte dintr-un grup la un
moment dat sunt incluse n eantion, procedura de eantionare astfel definit este
denumit eantionare cluster. Dac doar o parte din elementele unui grup sunt incluse n
eantion, procedura de eantionare este definit ca multistadial.
Avantajul unei astfel de proceduri de eantionare l constituie costurile reduse n
raport cu celelalte proceduri prezentate pn acum, n sensul n care efortul i timpul
necesar identificrii unui element care va fi inclus n eantion este mult mai redus.
n ceea ce privete reprezentativitatea unui astfel de eantion, se consider n
general c, la volum egal, este mai puin repezentativ n comparaie cu un eantion
obinut prin stratificare sau n comparaie cu un eantion obinut prin procedee simple
aleatoare. Reprezentativitatea mai sczut este rezultatul eliminrii la diferite nivele a
unor grupuri de elemente din populaia vizat. Cu ct aceste grupuri care sunt eliminate
sunt mai mari i cu ct sunt mai diferite n comparaie cu grupurile care nu au fost
eliminate cu att este mai mare riscul de a grei.
Multe cercetri utilizeaz o combinaie ntre eantionarea multistadial (care este
mai uor de efectuat i ale crei costuri sunt mai reduse) i eantionarea stratificat (a
crei acuratee este mai mare). Astfel, selecia n cadrul fiecrui stadiu nu este o selecie
simpl aleatoare ci mai degrab o selecie aleatoare constrns de un criteriu de
stratificare. De exemplu, pentru un eantion naional nu vom selecta n primul stadiu
localitile prin metoda simpl aleatoare, ci vom folosi i un criteriu de stratificare - s
zicem mprirea n rural i urban.
4.1.2 Eantioane neprobabiliste
Alturi de aceste proceduri de eantionare probabiliste n practica de cercetare
sunt utilizate i o serie de tehnici mai puin riguroase n ceea ce privete selectarea celor
care vor compune un eantion. Lipsa de rigurozitate se refer mai ales la neacordarea
unei atenii speciale calculrii sau egalizrii anselor fiecrui individ din populaia vizat
de a face parte din eantion. Eantioanele obinute n acest fel sunt denumite eantioane
neprobabiliste. Astfel de eantioane se constituie n urmtoarele situaii :
persoane care se ofer voluntar pentru a fi investigae;
persoane care i desfoara activitatea ntr-o instituie anume care prezint interes
pentru cel care efectueaz cercetarea;
persoane care rspund la chestionare publicate n ziare;
persoane care apeleaz telefonic un post de radio sau de televiziune pentru a rspunde
la ntrebrile care sunt formulate de moderatorii unor emisiuni sau de ali participani
la emisiunile respective;
persoane intervievate pe strad sau n anumite spaii publice;

n cadrul acestor tehnici de eantionare neprobabilist cele mai des utilizate sunt
eantionarea pe cote i eantionarea tip bulgre de zpad.

Eantionarea pe cote
Eantionarea pe cote este probabil cea mai des utilizat procedur de eantionare
neprobabilist utilizat atunci cnd se lucreaz cu populaii numeroase. Din punct de
vedere al realizrii practice aceast procedur este similar eantionrii prin stratificare
prin aceea c populaia vizat este stratificat dup o serie de criterii ns n interiorul
straturilor indivizii nu sunt selectai aleator, ci selecia acestora este lsat la latitudinea
operatorilor de anchet. Acestora le sunt indicate numai anumite cote care indic
frecvena cu care s fie selectai subiecii care au anumite caracteristici. Spre exemplu
dac n populaia vizat avem 49% brbai i 51% femei i 20% au studii superioare iar
restul de 80% nu au astfel de studii, iar eantionul este format 1000 de persoane, atunci n
cadrul acetuia vor fi cuprini 490 de barbai i 510 femei, 200 de persoane cu studii
superioare i 800 de persoane care nu au absolvit nvmntul superior. n aceast
situaie dac sunt utilizai 10 operatori de interviu fiecria i se cere s chestioneze 49 de
brbai i 51 de femei, 20 de absolveni de nvmnt superior i 80 de persoane care au
absolvit o form de nvmnt alta dect facultatea. Pentru a se limita subiectivitatea
operatorilor n selecatarea celor care vor fi inclui n eantion se recomand stabilirea a
ct mai multor criterii de stratificare a populaiei vizate.
Avantajul unui astfel de procedeu de selecie este acela c nu necesit existena
unui cadru de eantionare, lucru care n unele situaii este greu de realizat, iar munca
operatorilor este mult uurat prin aceea ce nu trebuie s caute o persoan anume ci au
libertatea de a alege pe cine vor cu condiia deinerii anumitor caracteristici vizate de
cercetare.

Eantionarea tip bulgre de zpad


Este o procedur de eantionare utilizat n situaia n care nu exist informaii
suficiente pentru a identifica toi indivizii care compun o anumit populaie, ci este
posibil doar identificare doar a ctorva astfel de indivizi. Date fiind aceste circumstane,
analiza unui populaii vizate ncepe cu investigarea indivizilor cunoscui dup care
acestora li se cere s precizeze, dac este posibil, i alte persoane despre care se
presupune c ntrunesc caracteristici vizate de cercetare. Procedeul se desfoar n acest
fel pn cnd sunt identificai atia indivizi ci sunt necesari constituirii unui eantion.
Se utilizeaz acest procedeu n cazul n care populaia vizat este format spre exemplu
din oameni care au aumite hobby-uri sau pasiuni, preocupri i despre care de obicei nu
se cunosc n faza iniial multe informaii i nu se tie nici cte astfel de persoane compun
populaia vizat.
4.2 Concluzie
Eantionarea este un procedeu des utilizat n practica de cercetare n diferite
domenii ale activitii umane. De la medicul care face analize de laborator prelevnd o
prob de snge de la un pacient i pn la cei care sunt interesai de aspecte ale opinei

publice n diferite domenii precum: preferinele electorale, acordul sau dezacordul cu


anumite politici publice sau decizii administrative, etc. n funcie de tematica avut n
vedere i de informaiile disponibile cu privire la populaia vizat procedurile de
eantionare respect mai mult sau mai puin anumite rigori n ceea ce privete selectarea
elementelor din populaie care vor constitui eantionul.
Indiferent de procedura de eantionare utilizat, cercettorul trebuie s in cont
de limitele existente n fiecare situaie particular i s fac explicite neajunsurile
existente. Una dintre cele mai frecvente erori ntlnite n practica de cercetare este aceea
de pune problema reprezentativitii statistice pentru eantioanelor neprobabiliste, n
cazul crora, aa cum artat, aceast reprezentativitate nu se poate calcula
n practic procedurile de eantionare prezentate pe parcursul acestui capitol
sufer o serie de abateri i de adaptri sau ajustri. De cele mai multe ori acestea const
n combinarea mai multor tehnici de eantionare n felul acesta sperndu-se obinerea
unor informaii ct mai corecte i mai precise despre populaia avut n vedere.
ntrebri:
1. Ct de multe elemente trebuie s cuprind un eantion extras dintr-o populaie perfect
omogen?
2. ntre un eantion simplu aleator i unul prin stratificare este mai reprezentativ: a) cel
simplu aleator, b) cel prin stratificare c) amndou eantioanele au acelai nivel de
reprezentativitate.
3. S presupunem c se realizeaz un eantion utiliznd metoda pasului. Mrimea
eantionului este de 200 de elemente iar cea a populaiei vizate este de 2800 de
elemente. Care este mrimea pasului utilizat? De la al ctelea element al populaiei
poate ncepe punerea n practic a pasului de eantionare?

Capitolul 5
Testarea ipotezelor statistice. Teste de semnificaie
O ipotez statistic este pur i simplu o afirmaie despre o populaie care poate fi
testat cu ajutorul unui eantion aleator. S ne amintim exemplul din seciunea 3.3
(Capitolul 3) n care un cercettor dorea s estimeze coeficientul mediu de inteligen
pentru elevii unei coli, pe baza unui eantion. S presupunem c respectivul cercettor
i-a demarat studiul cu ipoteza c n respectiva coal media coeficientului de inteligen
este de 125. Dup efectuarea studiului, respectivul cercettor a trecut la estimarea mediei
n populaia de elevi i a ajuns la concluzia c, pentru un nivel de ncredere de 95%,
media coeficientului de inteligen n coal este cuprins ntre 126 i 136. Deci, ipoteza
iniial, a unei medii n populaie de 125 nu este susinut de aceste rezultate, iar
cercattorul o va respinge. n general, orice ipotez care se afl n afara unui interval de
ncredere poate fi judecat ca fiind implauzibil i poate fi deci respins. Reiese de aici c
un interval de ncredere poate fi privit ca un set de ipoteze acceptabile. S ne ntoarcem
acum la cercettorul nostru i la modul n care a construit intervalul de ncredere. Aa
cum am reamintit deja, intervalul de ncredere a fost construit pentru un nivel de
ncredere de 95%. De aici putem deduce c exist o probabilitate de 5% ca cercettorul s
fi greit atunci cnd a respins ipoteza iniial, a mediei egale cu 125, sau, cu alte cuvinte,
c ipoteza a fost respins cu o probabilitate de eroare de 5% (0,05).

Nivel de semnificaie. Valoarea p


n paragraful anterior am vzut cum se poate testa o ipotez statistic cu ajutorul
intervalelor de confiden. n rndurile care urmeaz vom ptivi lucrurile dintr-o alt
perspectiv, aceea a ipotezei de nul, H0.
S lum un exemplu: ntr-o comuitate rural este implementat un program de
dezvoltare care printre alte obiective urmrete mbuntirea infrastructurii structurii
fizice, mai precis a drumurilor. Unul din rezultatele ateptate este o cretere a
bunstrii gospodriilor, datorit accesului mai uor ctre ieele marilor orae.
nainte de implementarea programului, venitul mediu per capita al gospodriilor din
comunitate era de 1200 mii lei, iar abaterea standard era de 300 mii lei. Dup trei ani
de la implementarea programului, o cercetare fcut pe un eantion de 100 de
gospodrii, arat c media venitului per capita n gospodriile din eantion este de
1265 mii lei. ntrebarea care se pune este: a crescut nivelul bunstrii n gospodriile
din comunitate? Pentru a afla acest lucru vom lansa o ipotez, pe care o vom numi
ipoteza de nul, i anume aceea c nivelul bunstrii nu s-a modificat. Formal, aceasta
se scrie:
H0: = 1200 sau, mai pe scurt, 0 = 1200
Afirmaia alternativ, susinut de finanatorii programului, i anume aceea c
bunstarea a crescut, va fi considerat ipoteza alternativ, Ha.
Formal aceasta se scrie Ha: > 1200, sau a = 1200

ntrebarea pe care o pune statisticianul este: ct de consistent este media de eantion


X =1265 cu ipoteza de nul? Sau cu alte cuvinte: dac ipoteza de nul ar fi adevrat,
care e probabilitatea s obinem o medie de eantion egal cu 1265?
Vom reolva aceast problem n acelai mod n care am rezolvat probleme
similare n Capitolul 3. Vom standardiza valoarea 1265 cu scorul z, vom calcula
eroarea standard, i apoi ne vom pune ntrebarea: care e probabilitatea ca o medie de
eantion egal sau mai mare dect 1265 s apar ntr-o populaie cu o medie de
1200? Rezultatul obinut este:
z = 2,17,
Pr( X 1265) = Pr(z 2,17)=0,015
Cu alte cuvinte, dac programul nu ar fi adus nici o mbuntaire n nivelul de
bunstare, ar fi existat o probabilitate de numai 1,5% s observm o medie de
eantion la fel de mare sau mai mare dect 1265. 1,5% este de aceea numit valoarea p
pentru H0, sau mai bine zis, nivelul de semnificaie al lui H0. Deoarece ipoteza
noastr a fost una n termeni de "mai mare" i deoarece pentru a gsi probabilitatea
ne-am uitat numai n partea dreapt a distribuiei, ipoteza noastr alternativ a fost
una unilateral. Dac am fi vrut s testm de exemplu nu o cretere a bunstrii ci
pur i simplu o modificare a ei (pozitiv sau negativ) la trei ani de la program,
ipoteza de alternativ ar fi fost scris:
Ha: 1200
Pentru a rezuma, vom spune c valoarea p este probabilitatea ca valoarea de eantion
s aib mrimea calculat, dac ipoteza de nul ar fi adevrat.

timp, dar numai 11% au aceeai opinie la un alt moment de timp. Problema care se pune
n aceast situaie este: ct de real sau de semnificativ este diferena ntre cele dou
grupuri cei chestionai la un moment de timp i cei chestionai la un moment de timp
ulterior? Este aceast diferen autentic sau sau este rezultatul fluctuaiilor fireti ale
eantionrii?
Adeseori observm diferene ntre rezultatele obinute atunci cnd se fac msurtori pe
dou eantioane diferite extrase din aceeai populaie. Intrebarea care se pune de aceasta
data este: exista distorsiuni in vreunul dintre esantioane? Cata incredere putem avea in
rezultatele unuia sau altuia dintre esantioane?
Toate aceste ntrebri sunt justificate ntruct, aa cum am artat n capitolul
dedicat eantionrii, eantioanele nu reproduc exact caracteristicile unei populaii, ci
exist o anumit diferen ntre valoarea unei caracteristici msurat pe un eantion i
valoarea aceleiai caracteristici msurat pe populaia din este extras eantionul. Cu toate
acestea de multe ori suntem pui n situaia de a trage concluzii cu privire la starea unei
populaii pornind de la msurtori efectuate la nivelul unui eantion, cu alte cuvinte se
pune problema de a face inferene de la eantion la populaie.

Testul Z

Este un test de semnificaie utilizat n cazul n care se compar valorile unor


caracteristici msurate pe eantioane mari (de ordinul a sute sau mii de indivizi). Cele
dou valori comparate pot fi msurate fie una pe o populaie i una pe un eantion, fie
amndou valorile sunt msurate pe eantioane diferite.
n prima situaie, fie a i b cele dou valori ale aceleiai caracteristici, dintre care
valoarea a este msurat pe o populaie iar valoarea b este msurat pe un eantion i fie
e eroarea standard a caracteristicii luate n considerare. Testul Z este definit dup
formula:

Regula pe care o putem generaliza dupa acest exemplu este :


H0 se respinge dac valoarea p este mai mic dect un anumit nivel acceptat , care
de obicei este ales 0,05 . Alegerea acestui nivel (numit i nivel de semnificaie
teoretic sau critic) este n mare msur arbitrar. El este practic complementul
nivelului de ncredere. Dac ne ntoarcem puin la exemplul de la nceputul acestui
capitol, cel cu media coeficientului de inteligen, ne vom da seama c o a doua
interpretare a lui este "probabilitatea de a grei respingnd ipoteza de nul". Din
acest motiv p se mai numete pe scurt i probabilitate de eroare. Valoarea de 0,05 este
o valoare foarte des folosit pentru testarea ipotezelor de nul n general.
5.1 Teste de semnificaie. Inferena statistic
Testele de semnificatie constituie elemente esentiale ale statisticii inferentiale. In
continuare sunt prezentate cateva exemple relevante de intrebari al caror raspuns este dat
cu ajutorul testelor de semnificatie.
Spre exemplu, 17% dintre cei chestionai n cadrul unei anchete sociale sunt de
acord cu o anumit decizie a administraie publice locale la un anumit moment dat de

Z=

ab
e

i exprim de fapt diferena dintre valorile a i b n erori standard (s ne aducem aminte


c n exemplul cu impactul programului de dezvoltare nu am fcut nimic altceva dect s
"comparm" valoarea obinut n eantion - notat aici cu a, cu o medie n populaie notat aici cu b). Dac valoarea testului Z este mai mare de 1.96 atunci diferena dintre
cele dou valori este semnificativ din punct de vedere statistic la un nivel de ncredere
de 0,95 (95%). Sau altfel spus, n termenii ipotezei de nul - vom respinge ipoteza de nul
cu o probabilitate de eroare de 5%.
Pentru a ilustra modul de aplicare a testului Z vom utiliza un exemplu. S
presupunem c n cadrul unui referendum 42% dintre cetenii unei localiti sunt de
acord cu introducerea unui nou sistem de impozite. Cu toate acestea ntr-un sondaj de
opinie realizat anterior referendumului pe un eantion de 900 de persoane indica c doar
37% dintre ceteni vor fi de acord cu noua gril de impozitare. Este diferena ntre cele
dou valori autentic sau nu? Provine procentul de 37% dintr-o populaie cu un procent
de 42%? Sau altfel spus, este diferena dintre valoarea n eantion i valoarea n populaie

semnificativ statistic?, ceea ce este totuna cu a ne ntreba: este eantionul reprezentativ


pentru caracteristica dat?
Pentru a pune n eviden acest lucru calculm:
2 = 0,37(1 0,37) = 0,2331
i

e=

0,48
900

= 0,016

i
sau

= 0,48
e = 1,6%

nlocuind n formula lui Z obinem: (42 - 37)/1,6 = 3,12


Cautnd n tabel pragurile de probabilitate ale lui Z n dreptul lui 3,1 i pe coloana
0,02 gsim 0,4991 i reprezint jumtate din nivelul de ncredere cautat. Deoarece
ipoteza alternativei este cea a diferenei, fiind deci bilateral, vom calcula probabilitatea
pentru ambele cozi ale distribuiei, adic pentru regiunile de respingere a ipotezei de nul,
care sunt complementare nivelului de ncredere. Vom gsi deci p=0,0018, ceea ce
conduce ctre respingerea ipotezei de nul i a acceptrii unei diferene semnificative
statistic ntre valorile comparate. n cazul n care cele dou valori ale unei caracteristici
sunt msurate pe dou eantioane distincte formula testului Z este aceeai cu precizarea
c eroarea standard se calculeaz dup formula
unde n1 i n2 sunt mrimile celor dou eantioane, iar 1 i 2 sunt
12 22 abaterile standard ale valorilor caracteristicii pentru fiecare dintre
e=
+
cele dou eantioane (sau sub-eantioane - de exemplu diferena de
n1
n2
vrst ntre votanii cu dreapta i votanii cu stnga dintr-un eantion).

Testul Student ( t )

Atunci cnd se pune problema de a compara valori ale unor caracterisitici dintre
care cel puin una este obinut prin msurtori efectuate pe eantioane de mrimi mici
(pna la 30 de indivizi) corespondetul testului Z este testul Student (t). Formula de calcul
a testului Student este identic cu aceea a testului Z:
t=

a b
e

sau

t=

estimat H 0
e

Deosebirea fa de testul Z const n modul de calcul al erorii standard (e) care se


face, datorit estimrii lui cu ajutorul lui s, dup formula:
dac una dintre valori este msurat pe un eantion de mrime n i una
2
xx
pe o populaie (de exemplu, cnd vrem s testm dac un eantion este
reprezentativ pe o caracteristic cantitativ, a crei valoare din populaie
n 1
e=
este cunoscut),
n

i dup formula:

(x

) + (x

dac cele dou valori sunt msurate pe dou


eantioane independente ale cror mrimi sunt
n1 respectiv n2 (cnd vrem s testm de
n1 + n 2 2
exemplu dac exist diferene semnificative
ntre mediile a dou grupe: diferena de salarii ntre brbaii i femeile care lucreaz ntr-o
firm).
e=

x1

x2

La fel ca i n cazul testului Z i pentru testul Student sunt calculate diferite nivele
de probabilitate care reclam ns i specificarea numrului de grade de libertate, care se
calculeaz dup formulele:
respectiv

= n 1

= n1 + n2 2

Testul 2 (chi ptrat) de concordan

Testele Z si Student sunt utilizate pentru a testa ipoteze care se refer la valori sau
parametrii (medii sau proporii), motiv pentru care sunt adeseori cunoscute i sub
denumirea mai larg de teste parametrice. Exist ns multe situaii n care ipotezele nu
pot fi testate utiliznd doar medii sau proporii. Acest lucru se ntmpla spre exemplu
atunci cnd datele cu care se lucreaz nu sunt de tip cantitativ. Exist apoi i alte condiii
care trebuiesc ndeplinite n cazul testelor parametrice - utilizarea unor eantioane mari
sau a unor eantioane extrase din populaii normal distribuite astfel nct i forma
distribuiei de eantionare s fie cunoscut - condiii care nu ntotdeauna pot fi
ndeplinite.
Pentru a depi acest tip de neajunsuri au fost construite i o serie de teste a cror
mod de operare nu presupune existen unor asumpii cu privire la populaia vizat sau cu
privire la datele pe care le avem la dispoziie despre aceasta. Acest tip de teste sunt
denumite teste non-parametrice. Unul dintre cele mai des utilizate teste de acest fel este
testul 2 (chi ptrat).
Scopul principal al acestui test este oarecum similar testelor Z i Student i anume
ncearc s ofere un rspuns ntrebrii: dat fiind o mulime de valori observate ale unei
caracteristici, modul de distribuire a acestor valori poate fi atribuit n ntregime
fluctuaiilor fireti ale eantionrii sau exist o serie de ali factori care influeneaz
aceast distribuire? n acest caz, pentru a rspunde la o astfel de ntrebare, punctul de
plecare este o ipotez nul care afirm c nu exist ali factori care s influeneze
distribuia valorilor observate ale unei variabile.
Pentru a ilustra modul de operare al testului 2 (chi ptrat) de concordan vom
utiliza exemplu urmtor. Fie urmtoarea situaie ipotetic: 100 de funcionari ai unei
instituii publice sunt ntrebai cu privire la ceea ce i nemulumete cel mai mult la locul
de munc, rspunsurile oferite avnd urmtoarele frecvene:

2 =

frecvena
24
10
27
11
28

modul de organizare al activitilor


modul n care sunt tratai de ef
existena unui program fix de lucru
lipsa unui spirit de echip
lipsa unor rezultate vizibile

2 = 15.50

ntrebarea care se pune n aceast situaie este: exist un motiv de nemulumire


care este mai acut dect altele?
Ipoteza nul n aceast situaie ar fi aceea c fiecare dintre motivele enumerate
mai sus nemultumete n egal msur pe functionarii acelei instituii, fiecare dintre cele
cinci rspunsuri avnd aceeai probabilitate de a fi indicat de ctre respondei. Din punct
de vedere statistic aceasta ar nsemna c frecvenele observate ale rspunsurilor primite
pot fi considerate egale cu frecvenele ateptate. Dac ipoteza nul este susinut atunci
rspunsurile ar trebui s fie distribuite aleator pe cele cinci categorii de rspunsuri luate n
considerare.
Pentru a testa aceast ipotez s utilizm testul 2 (chi ptrat) care este definit
dup formula:
n

2 =
i

4 2 10 2 7 2 9 2 8 2
+
+
+
+
20 20 20 20 20

(Oi Ai ) 2
Ai

Valoarea obinut pentru 2 (15.50) se compar cu valorile critice ale distibuiei


chi ptrat (Anexa 3) pentru diferite nivele de probabilitate, dintre care cel mai des utilizat
este i de aceast dat pragul de 0,05. Ca i n cazul testului Student compararea valorilor
critice ale unei distribuii observate cu ditribuia chi ptrat reclam specificarea
numrului de grade de libertate, numr care se calculeaz dup formula df = k 1, unde k
reprezint numrul de categorii ale caracteristicii analizate. n exemplul de mai sus k = 51 = 4 i cutnd n tabelul cu valori critice ale lui chi ptrat gsim c pentru nivelul de
semnificaie de 0,05 i 4 grade de libertate valoarea critic este 9,488. Cum 15.50 este
mai mare dect aceast valoare critic, vom spune c ipoteza nul se respinge cu o
probabilitate de eroare de 5% sau, cu alte cuvinte, rspunsurile date de funcionari nu se
distribuie omogen ci exist un anumit motiv de nemulunire care este mai acut dect
celelalte, iar acest rezultat nu este generat de fluctuaiile de eantionare.
Testul chi ptrat se folosete i n cazurile n care dorim s verificm dac un
eantion este reprezentativ pentru o caracteristic calitativ, cum ar fi ocupaiile
subiecilor, sau de exemplu reprezentativitatea unui eantion pe regiuni istorice. n acest
caz valorile ateptate vor fi valorile din populaie, care sunt cunoscute din surse de date
oficiale (distribuia pe ocupaii sau pe regiuni din date de recensminte de exemplu)
5.2 Teste parametrice sau non-parametrice?

unde Oi reprezint frecvenele observate, iar Ai reprezint frecvenele ateptate (adic


distribuia aleatoare a rspunsurilor pe cele cinci categorii ale caracteristicii analizate
motiv de nemulumire). Ridicarea la patrat din formula lui chi patrat este necesara
deoarece, prin definitie,
n

(O

Ai ) = 0

n cazul nostru cele dou frecvene sunt:


modul de organizare al activitilor
modul n care sunt tratai de ef
existena unui program fix de lucru
lipsa unui spirit de echip
lipsa unor rezultate vizibile

Oi
24
10
27
11
28

Ai
20
20
20
20
20

Oi - Ai
4
-10
7
-9
8

nlocuind n formula lui 2 (chi ptrat) obinem:

2 =

(24 20) 2 (10 20) 2 (27 20) 2 (11 20) 2 (28 20) 2
+
+
+
+
20
20
20
20
20

Cnd utilizm teste parametrice i cnd utilizm teste non-parametrice pentru a


analiza un set de date? Rspunsul la aceast ntrebare nu este ntotdeun foarte tranant.
Astfel, nu vom putea utiliza teste parametrice dac datele pe care le avem la
dispoziie sunt de tip calitativ, motivul este acel c testele parametrice opereaz de cele
mai multe ori cu valori medii, valori care evident nu pot fi calculate pentru date de tip
calitativ. n aceast situaie un test non-parametric este singura alternativ posibil. Pe de
alt parte testele parametrice sunt considerate a avea o putere statistic mai mare dect
testele non-parametrice i aceasta pentru c modul lor de operare ia n considerare mai
mult informaie despre caracteristica avut n vedere. Dar acest lucru se face cu anumite
asumpii, dintre care cea mai important este distribuia normal n populaie a valorilor
caracteristicii analizate.
Ct de puternice sunt testele paramentrice n raport cu cele non-parametrice?
Raspunsul trebuie i de aceast dat nuanat. Puterea statistic a unui test este de fapt
probabilitatea de a respinge ipoteza nul atunci cnd aceasta nu este adevrat. Dar i n
acest caz situaiile depind de modul de formulare a ipotezei nule i de mrimea
entionului extras. Dac una dintre aceste dou variabile sufer modificri i puterea
statistic a unui test este afectat.
Practica a demonstrat c amndou tipurile de teste pot fi utilizate cu acelai
succes cu condiia lurii n calcul a avantajelor i dezavantajelor fiecruia.

Capitolul 6
Asocierea variabilelor calitative
Exerciii i probleme
1. Tabelul de mai jos clasific accidentele de munc ntr-o ntreprindere pentru luna
precedent n patru perioade egale ale zilei. Considerndu-l ca un eantion aleator
a. identificai valoarea p pentru H0 (conform creia probabilitatea de producere a
accidentelor este egal n orice moment al zilei)?
b. Poate fi respins ipoteza H0 la un nivel eroare de 5%?
Perioada din zi
8-10 a.m.
10-12 a.m.
1-3 p.m.
3- 5 p.m.

Numrul de accidente
31
30
41
58

2. ntr-o universitate mare profesorii brbai i femei au fost eantionai independent, i sau obinut urmtoarele observaii cu privire la salariile lor lunare:
(n sute de mii)
Brbai
16
19
12
11
22

Femei
9
12
8
10
16

a. Calculai un interval de ncredere de 95% pentru media diferene de salarii ntre


brbai i femei
b. Ct de bine ilustreaz aceste date discriminarea practicat de universitate fa de
femei?

Cum putem testa daca intre doua variabile calitative exista o relatie? Sa ne
imaginam de exemplu ca suntem interesati sa vedem daca impactul saraciei este acelasi
pentru diferite grupuri
Figura 6.1 Relatia dintre saracie si statut ocupational
din populatie, definite
starea de saracie a gospodariei
fie pe criterii spatiale
ne-saraca saraca total
(regiuni), fie pe criterii
Salariat
8341
2536
10877
statutul
de apartenenta etnica,
ocupational patron
172
17
189
religioasa etc., fie pe
al capului de pe cont propriu 466
367
833
baza
statutului
lor
gospodarie agricultor
1553
1294
2847
ocupational etc.. Primul
somer
709
795
1504
lucru pe care il trebuie
pensionar
12959
2456
15415
alta
226
163
389
sa il facem in momentul
Total
24426
7628
32054
in care ne punem o
a) frecvente absolute
astfel de intrebare este
starea de saracie a gospodariei
construirea unui tabel
ne-saraca saraca total
cu dubla intrare, numit
Salariat
77
23
100
statutul
si tabel de contingenta,
ocupational patron
91
9
100
in care valorile uneia
al capului de pe cont propriu 56
44
100
dintre variabile apar pe
gospodarie agricultor
55
45
100
(%)
coloane si valorile celei
somer
47
53
100
pensionar
84
16
100
de-a doua variabile apar
alta
58
42
100
pe randuri. In celulele
Total
76
24
100
unui astfel de tabel
b) frecvente relative (procente) pe randuri
putem avea patru tipuri
starea de saracie a gospodariei (%)
de informatii:
ne-saraca saraca total
a) freceventele
Salariat
34
33
34
statutul
absolute (numarul de
ocupational patron
1
0
1
indivizi din fiecare
al capului de pe cont propriu 2
5
3
gospodarie agricultor
celula
precum
si
6
17
9
somer
3
10
5
numarul
total
de
pensionar
53
32
48
indivizi care apartin
alta
1
2
1
diverselor categorii ale
Total
100
100
100
variabilelor)
c) frecvente relative (procente) pe coloane
b) frecventele relative
%
starea de saracie a gospodariei
pe randuri (care ne
ne-saraca saraca total
indica ce procent din
Salariat
26
8
34
statutul
categoria care defineste
ocupational patron
1
0
1
un rand apartine si
al capului de pe cont propriu 1
1
3
gospodarie agricultor
5
4
9
categoriei care defineste
somer
2
2
5
coloana) - de exemplu
pensionar
40
alta
1
Total
76
d) frecvente relative (procente) din total

8
1
24

48
1
100

53% din gospodariile de someri sunt sarace


c) frecventele relative pe coloane (care ne indica ce procent din categoria care defineste
o coloana apartine si categoriei care defineste randul) - de exemplu 10% din
gospodariile sarace sunt gospodarii de someri
d) frecvente relative din total (care ne indica ce procent din totalul indivizilor analizati
apartin simultan si categoriei de pe rind si categoriei de pe coloana) - de exemplu
2% din totalul gospodariilor studiate sunt sarace si sunt gospodarii de someri (sau
altfel spus sunt gospodarii sarace de someri).
Un astfel de tabel ofera informatii despre doua tipuri de distributii: distributii marginale
si distributii conditionate. Distributiile marginale sunt practic distributiile de frecvente
ale variabilelor. Astfel, in Figura 6.1(a) si (d) la "marginile" tabelelor, pe coloanele de
"Total", se afla distributiile marginale ale frecventelor absolute, respectiv relative (%) ale
starii de saracie si respectiv statutului ocupational al capului de gospodarie. In Figura
6.1(b), care contine frecvente relative pe randuri, ultimul rand ("Total") nu este nimic
altceva decat distributia starii de saracie in totalul gospodariilor analizate. In acelasi tabel,
avem pentru fiecare categorie de ocupatie distributia de frecvente relative a saraciei,
adica distributia starii de saracie conditionata de statutul ocupational al capului de
gospodarie. Astfel, pe rindul "salariat" avem distributia starii de saracie conditionata de
statutul de salariat al capului de gospodarie. Similar, in Figura 6.1(d) pe coloane avem
distributiile statutului ocuational al capului de gospodarie conditionate de starea de
saracie (pe ultima coloana, cea de "Total" avem bineinteles distributia statutului
ocupational pentru toate gospodariile analizate, adica distributia marginala a statutului
ocupational). Prin compararea distributiilor conditionate cu distributia marginala ne
putem face o prima impresie despre relatia dintre cele doua variabile. Cand distributiile
conditionate difera mult de distributiile marginale, ne putem astepta ca intre cele doua
variabile sa existe o relatie de asociere. In sectiunea urmatoare vom vedea cum putem
testa existenta unei astfel de relatii.

aceast ntrebare trebuie s vedem cum ar trebui s arate distribuia n situaia n care nu
exist asociere, adica in situatia de independenta. Sa ne aducem aminte de notiunile de
probabilitati invatate in Capitolul 2. Am aratat acolo ca independenta se poate scrie in
urmatorul fel:
Pr(A si B) = Pr(A)Pr(B)
Sa vedem acum cum am putea aplica aceste cunostinte in cazul independentei intre doua
variabile. Sa consideram, in exemplul nostru, categoria celor de 25 de ani ca fiind
evenimentul T, iar categoria celor care sunt in favoarea unei schimbari a modului de
alocare a bugetului ca fiind evenimentul D. Care este probabilitatea ca evenimentele T si
D sa se intimple simultan? Daca cele doua evenimente ar fi independente, atunci
Pr(T si D) = Pr(T)Pr(D)
Dar cat sunt Pr(T) respectiv Pr(D)? Din datele noastre, din frecventele marginale, rezulta
ca
Pr(T) = 180/600, iar Pr(D) = 200/600
Deci, daca cele doua evenimente ar fi independente, atunci
Pr(T si D) = (180 x 200) / (600 x 600) = 1/10 = 10%
Cu alte cuvinte, numai 10% din cele 600 de persoane chestionate ar trebui sa se afle in
celula din stinga sus a tabelului (persoane care au sub 25 de ani si care sunt in favoarea
schimbarii). Sau mai exact spus, daca cele doua evenimente ar fi independente, frecventa
absoluta a acelei celule ar trebui sa fie de numai 60. Daca vom calcula in acest mod
frecventele pe care fiecare celula ar trebui sa le aiba in ipoteza independentei, am obtine
datele din tabelul de mai jos:
Frecvene ateptate in ipoteza independentei
cei cu vrsta sub 25
cei cu vrst ntre 26 i 45 de ani
cei cu varsta peste 45 de ani
Total

6.1 Testarea independentei dintre doua variabile: Testul 2 de independenta


Chi ptrat este utilizat i pentru a testa dac dou variabile sunt sau nu asociate. Fie, spre
exemplu, urmtoarea situaie ipotetic: 600 de locuitori ai unei localiti care sunt
ntrebai dac vor sprijini sau nu o schimbare a modului de alocare a veniturilor bugetare
ale localitii lor au rspuns dup cum urmeaz:
Tabelul 6.1 Relaia dintre dou variabile categoriale
Frecvene observate
Da
Nu
cei cu vrsta sub 25
110
40
cei cu vrst ntre 26 i 45 de ani 40
100
cei cu varsta peste 45 de ani
50
80
Total
200
220

Da
60
66,67
73,33
200

Nu
66
73,33
80,67
220

Nu tiu
54
60
66
180

Total
180
200
220
600

Calculndu-l pe chi ptrat dupa formula prezentata in Capitolul 5, obinem:


(Oi Ai ) 2
Ai
i
(unde n este numarul total de celule ale tabelului)
n

Nu tiu
30
60
90
180

Total
180
200
220
600

n aceast situaie se poate pune ntrebarea: exist sau nu o preferin a unei


anumite categorii de vrst pentru schimbarea modului de alocare a veniturilor? Cu alte
cuvinte exist o relaie ntre vrst i acordul cu aceast schimbare? Pentru a rspunde la

2 =

2 =

(110 60) 2 (40 66) 2


(40 66,7) 2 (100 73,33 2 )
(90 66) 2
+
+ ... +
+
+ ... +
60
66
66,7
73,33
66

2 = 99,11

Numrul gradelor de libertate n acest caz se calculeaz dup formula:


df = ( j 1)(k 1)

Aa cum am artat, n absena variabilei independente, numarul de erori e1 a fost 380.


S vedem acum cte erori am facut prezicnd variabila dependent pe baza valorilor
variabilei independente (pentru a uura urmarirea calculelor, am copiat nc o dat mai
jos datele Tabelului 6.1):
Tabelul 6.1 Relaia dintre dou variabile categoriale
Frecvene observate
Da
Nu
cei cu vrsta sub 25
110
40
cei cu vrst ntre 26 i 45 de ani 40
100
cei cu varsta peste 45 de ani
50
80
Total
200
220

unde j reprezint numrul de rnduri ale tabelului n care sunt dispuse frecvenele i k
reprezint numrul de coloane. In acest caz df = 4. n tabelul cu valori critice pentru 2
(Anexa 3) observm c unui nivel de probabilitate de 5% i 4 grade de libertate i
corespunde valoarea 9,488, valoare mai mic dect valoarea calculat a lui 2 . n aceast
situaie vom spune c ipoteza de nul a independentei dintre vrst i preferina pentru
schimbarea modului de alocare a veniturilor se respinge, cu o probabilitate de eroare de
0,05 (sau pentru un nivel de semnificatie de 5%).

6.2 Intensitatea relaiilor dintre variabilele calitative


n seciunea anterioar am vzut cum putem testa ipoteza existenei unei relaii
(de asociere) ntre dou variabile calitative. Testul 2 ne ofer ns informaii numai
despre existena/inexistena unei relaii de asociere ntre dou variabile, dar nu i despre
intensitatea respectivei relaii, atunci cnd ea exist. Pentru a rspunde la ntrebarea "Ct
de puternic e relaia de asociere dintre dou variabile?" avem nevoie de msuri
specifice. Dou dintre acestea vor fi prezentate n seciunea care urmeaz.

Total
180
200
220
600

pentru grupa de vrst sub 25 de ani, vom prezice corect pe baza frecvenei
modale n 110 cazuri, i vom face erori n 70 de cazuri.
pentru grupa de vrst 26 - 45 de ani, vom prezice corect pe baza frecvenei
modale n 100 cazuri, i vom face erori n alte 100 de cazuri.
pentru grupa de vrst peste 45 de ani, vom prezice corect pe baza frecvenei
modale n 90 cazuri, i vom face erori n 130 de cazuri.

Deci totalul erorilor fcute este e2 = 70 + 100 + 130 =200.


S l calculm acum pe lambda, dup o formul utilizat i pentru calculul altor msuri
ale asocierii i cunoscut sub numele de "reducere proporional a erorii":

Cazul variabilelor nominale - coeficientul (lambda)


S ne ntoarcem la datele din Tabelul 6.1 i s presupunem de aceast dat c nu
cunoatem dect distribuia marginal a atitudinii fa de schimbarea modului de alocare
a bugetului (cu alte cuvinte nu tim dect c 200 de indivizi sunt pentru, 220 sunt
mpotriv, iar 180 sunt nehotri). Dac vom ncerca s prezicem atitudinea unui individ
oarecare, vom spune firete c repsectivul individ va fi mpotriva schimbrii modului de
alocare a bugetului, deoarece cu o astfel de predicie avem cele mai reduse anse de a
grei. Cu alte cuvinte, ne-am bazat predicia pe frecvena modal (cea mai mare
frecven). n cazul n care am face o astfel de afirmaie pentru fiecare din cei 600 de
indivizi, predicia noastr ar fi corect pentru 220 dintre ei (37%), i fals pentru ceilali
380. S presupunem acum c la un moment dat primim o informaie n plus, i anume
distribuia atitudinilor fa de schimbarea modului de alocare a bugetului n funcie de
grupele de vrst de care aparin indivizii (adic exact informaia prezentat n Tabelul
6.1). S zicem c vom considera ca plauzibil ipoteza n care atitudinile fa de
modificarea modului de alocare a bugetului sunt dependente de grupa de vrst a
individului. n acest caz, variabila vrst se va numi variabil independent, iar atitudinea
fa de schimbarea modului de alocare a bugetului se va numi variabil dependent. S
zicem acum c vom repeta raionamentul de mai sus (predicia atitudinii unui individ pe
baza frecvenei modale) pentru fiecare grup de vrst n parte. Vom avea deci, din nou,
un numr de predicii corecte i un numr de predicii eronate. Coeficientul reprezint
tocmai proporia cu care se reduce numrul de erori prin introducerea variabilei
independente. S calculm acum pentru datele din Tabelul 6.1:

Nu tiu
30
60
90
180

e1 e2 380 200
=
= 0,47
380
e1

Coeficientul poate lua, prin modul de construcie numai valori ntre 0 i 1, 0


nsemnnd absena oricrei relaii ntre variabile, adic independen, iar 1 nsemnnd
intensitate maxim a asocierii (asociere puternic). El este o msur asimetric (avem o
variabil independent pe baza creia se fac predicii i o variabil dependent, ale crei
valori sunt prezise), ns exist formule de calcul i pentru varianta simetric a acestui
coeficient. Avantajul lui const n modul relativ uor i intuitiv de calcul. Principalul
dezavantaj al acestei msuri este faptul c n condiiile n care o categorie a unei variabile
conine un numr foarte mare de indivizi, poate fi egal cu 0 chiar dac cele dou
variabile nu sunt independente.

Cazul variabilelor ordinale

n cazul variabilelor ordinale, aa cum am vzut n introducerea acestui manual,


exist posibilitatea de ordonare a valorilor variabilelor, i n consecin exist
posibilitatea de a da ranguri indivizilor n funcie de valorile pe care acetia le au pentru
o variabil. Msurile Ca urmare, n analiza acestui tip de variabile vom putea vorbi de un
semn al asocierii (sau sensul asocierii). Msurile de asociere a variabilelor ordinale pot
lua valori cuprinse ntre -1 i 1. La modul general vorbind, o msur a asocierii dintre
dou variabile ordinale va fi pozitiv dac un individ cu un rang mare pentru variabila X

tinde s aib un rang mare i pentru variabila Y, iar indivizii cu ranguri mici pe variabila
X au de asemenea ranguri mici i pentru Y. asocierea negativ apare atunci cnd indivizii
cu rang mare pentru variabila X tind s aib ranguri mici pentru Y i invers. Dac o
msur a asocierii dintre dou variabile ordinale ia valoarea 0, atunci vom spune c cele
dou variabile sunt independente. Cu ct o relaie de asociere ntre dou variabile
ordinale va fi mai puternic, cu att msura asocierii va fi mai mare n valoare absolut
(mai aproape de 1). n cele ce urmeaz ne vom rezuma la a prezenta cteva noiuni de
baz care se refer la msurile de asociere ntre variabile ordinale i la a arta modul de
calcul pentru o astfel de msur.
O pereche de observaii se numete concordant dac individul care are un rang mai
nalt pe o variabil are un rang mai nalt i pe a doua variabil.
O pereche de observaii se numete discordant dac individul care are un rang mai
nalt pe o variabil are un rang mai cobort pe cealalt variabil.
S presupunem c avem 4 elevi, ierarhizai dup calificativele la dou materii:
Elevii
A
B
C
D

Materia X
Foarte bine
Bine
Satisfctor
Suficient

Materia Y
Bine
Foarte bine
Satisfctor
Suficient

S ncercm acum s numrm perechile concordante i perechile discordante, i


pentru aceasta s ncepm cu toate perechile de observaii pe care le putem forma cu
elevul A: Acestea sunt: perechea AB (discordant, deoarece A are un rang mai nalt
dect B pe variabila X, dar un rang mai cobort dect B pe variabila Y), perechea AC
(concordant) i perechea AD (concordant). S trecem acum la perechile lui B:
Acestea sunt BC (concordant) i BD (concordant). n fine, trecem acum la perechile
lui C, adic la CD (concordant). n total am avut 6 perechi, din care una discordant
iar 5 concordante. S calculm acum o msur simpl de asociere ntre cele dou
variabile (calificativele la materiile X i Y), numit coeficientul a al lui Kendall:

a =

nc nd
nt

unde
nt este numrul total de perechi
nc este numrul de perechi concordante
nd este numrul de perechi discordante
n concluzie, pentru exemplul nostru (care este unul pur didactic), a = 4/6 = 0,66.
Aceasta a fost practic cea mai simpl ilustrare de msur de asociere a dou
variabile ordinale. n practic ns, lucrurile stau puin mai complicat, pentru c
deseori apar ceea ce se numesc ranguri "legate" sau egale. Acest lucru complic
destul de mult calculele i formulele, ns principiul rmne acelai, al comparrii
numrului de perechi concordante cu numrul de perechi discordante.

Exerciii i probleme
1. ntr-un studiu asupra modului n care ocupaia se asociaz cu educaia, s-a realizat
urmtorul eantion aleator de 500 de brbai anagajai.
Educaia

Funcionari

4 sau mai muli ani de liceu


(incluznd i formarea vocaional)
Mai puin de patru ani de liceu

194

Ocupaia
Muncitori n
Angajai n
fabric
servicii
146
27

18

79

18

Agricultori
10
8

a. Explicitai n cuvinte ipoteza de nul H0


b. Calculai 2 i valoarea p pentru H0
2. Se da tabelul:
sex

femei
barbati
total

somaj
da
nu
30%
30%
30%

total
70%
70%
70%

100%
100%
100%

Care din propozitiile urmatoare sunt adevarate?


1. 30% dintre femei sunt somere
2. 30% dintre someri sunt barbati
3. 70% din totalul populatiei se afla in somaj
4. probabilitatea ca o persoana din populatie sa fie in somaj este de 0.3
nici una dintre acestea
3. Dac variabilele nominale x i y nu sunt independente statistic atunci este de ateptat
ca:
1. Distribuiile condiionate ale lui y funcie de x s fie diferite de distribuia marginal a
lui y
2. Distribuiile condiionate ale lui y , funcie de x s fie egale ntre ele
3. Corelaia Bravais-Pearson dintre x i y s fie semnificativ diferit de 0
4. Statistica test chi-patrat s difere semnficativ de 0
5. Rspunsurile 1,2,3,4 s fie incorecte

Capitolul 7
Studiul relaiilor ntre variabile cantitative
Pentru a oferi explicaii sau pentru a realiza predicii este nevoie, cel mai adesea, s fie analizate
relaii ntre dou sau mai multe variabile: ntre cea a crei variaie ncercm s o explicm, numit i
variabila dependent, i una sau mai multe variabile independente.
S lum ca exemplu cazul unui program de reducere a omajului care urmeaz a fi analizat la finalul
aplicrii sale n mai multe localiti. ntr-un astfel de studiu, pot fi considerate drept uniti de analiz
localitile n care a fost aplicat programul, variabila dependent este diferena dintre rata somajului nainte
de aplicarea programului i rata omajului dup terminarea programului (DIF), iar suma alocat n program
unei localiti mprit la numrul de locuitori (SUM) este una dintre variabilele independente posibile, cu
ajutorul creia puteam ncerca s explicm de ce omajul a sczut mai mult n unele localiti dect n
altele.
Cunoscnd valorile luate de cele dou variabile, notate DIF i SUM, putem ncerca s aflm mai
multe lucruri despre relaia care le caracterizeaz:
1. Dac exist o legtur ntre valorile variabilelor; altfel spus, dac reuim s anticipm rezultatul
programului ntr-o localitate, cunoscnd care a fost suma alocat din program, mai bine dect n absena
acestei informaii.
2. Care este forma relaiei, n cazul n care aceasta exist. Sunt mai multe moduri de a descrie forma
relaiilor dintre variabile: acestea pot s fie liniare, atunci cnd valorile unei variabile tind s se modifice cu
o constant n condiiile n care valorile celeilalte variabile se modific cu o constant; Relaiile liniare pot
s difere prin nclinaia dreptei prin care sunt reprezentate. Relaiile neliniare pot fi i ele monotone, adic
pozitive sau negative. n exemplul considerat, este de ateptat ca relaia s fie pozitiv, adic unei sume mai
mari s i corespund o reducere mai accentuat a omajului. ns n plus fa de semnul relaiei--pozitiv
ori negativ--, este important de tiut ct de rapid este variaia variabilei DIF atunci cnd variabila SUM
i schimb valorile. Un program este cu att mai eficient cu ct, n medie, unei aceleiai creteri a
variabilei SUM i corespunde o cretere mai mare a variabilei DIF.
3. Care este intensitatea relaiei. Ct de bine putem prezice valorile variabilei dependente atunci cnd le
cunoatem pe cele ale variabilei independente?
4. Dac este posibil generalizarea rezultatelor. Cnd datele disponibile provin de pe un eantion de
localiti, poate fi extins rezultatul obinut pe aceste date la ntreaga mulime de localiti cuprins n
studiu?
5. Ct de mult temei avem s afirmm c relaia este de tip cauzal. Ar fi posibil ca existena unei relaii
ntre SUM i DIF s se datoreze unei a treia variabile, care nu este cuprins n analiz, i care le determin
pe amndou. Cum putem stabili dac scderea ratei omajului s-a datorat programului analizat, sau dac
scderea se datoreaz exclusiv altor factori?
Tehnicile statistice prezentate n capitolele anterioare ne permit adesea s rspundem unora dintre
ntrebrile formulate mai sus. n exemplul considerat ns, cele dou variabile au, foarte probabil, un numr
ridicat de valori fiecare, fapt care face dificil studiul relaiei dintre ele cu ajutorul unui tabel de asociere. O
soluie este aceea a reducerii numrului de valori prin recodificare. Astfel, am putea s includem ntr-o
aceeai categorie, notat cu "1", toate localitile n care suma cheltuit ca parte a programului, mprit la
numrul de locuitori, este ntre 0 i 1000 lei; ntr-o categorie notat cu "2" ar fi incluse toate localitile
pentru care valorarea variabilei SUM este ntre 1001 i 2000 de lei, etc.; n mod similar se procedeaz i
pentru variabila DIF.
Avnd prin recodificare un numr suficient de mic de categorii, relaia dintre cele dou variabile
poate fi analizat printr-un tabel de asociere. Se pot obine n acest mod, aa cum s-a vzut i n Capitolul 6,
informaii despre existena unei relaii ntre variabile, despre forma relaiei, precum i despre posibilitatea
generalizrii de la eantion la ntreaga mulime de localiti.
Acest procedu are ns un inconvenient major: o parte a informaiei iniiale este ignorat, iar rezultatul
analizei este influenat de modul n care este fcut recodificarea. ntrebarea care se pune n mod justificat,
i care nu are un rspuns satisfctor, este "cum trebuie definite categoriile reduse ale variabilei iniiale?",

pentru c evident avem mai multe opiuni posibile: am putea, de exemplu, include n prima categorie toate
localitile pentru care SUM ia valori ntre 0 i 1500, ori cele ntre 0 i 1600.
Cazul urmtor ilustreaz faptul c recodificarea unor variabile cantitative cu multe categorii poate s
schimbe rezultatele analizei statistice.
Fie X i Y dou variabile de raport, avnd cte 10 valori. Fiecare dintre cele dou variabile este
transformat prin recodificri diferite n trei variabile: X1, X2, X3, respectiv Y1, Y2, Y3. Noile
variabile au cte 3 valori, iar relaiile dintre variabilele care provin din X cu fiecare dintre variabilele
care provin din Y sunt analizate cu ajutorul unui indicator care corespunde tabelelor de asociere,
Lambda. Valorile acestor indicatori sunt reprezentate n urmtorul tabel:

x1
x2
x3

Lambda
y1
0.00
0.27
0,10

Lambda
y2
0.18
0.23
0.61

Lambda
y3
0.45
0.31
0.67

Se observ n tabel cum recodificrile diferite ale variabilelor X i Y conduc la variaii importante de
intensitate a relaiei dintre noile variabile, obinute prin transformarea lui X i Y. Astfel, Lambda are
valoarea 0,00 pentru relaia dintre X1 i Y1, i valoarea 0,67 pentru relaia dintre X3 i Y3.
Concluzia care rezult de aici este c analiza relaiilor dintre variabile cantitative nu si gsete o rezolvare
satisfctoare prin aplicarea unor procedee specifice variabilelor calitative. Este nevoie s fie aplicate
tehnici statistice adaptate pentru variabilele cantitative, i care folosindu-se de informaia descris de aceste
variabile, mai bogat dect n cazul celor calitative, pot oferi un rspuns mai complet ntrebrilor formulate
mai sus: exist relaii, ce form au, ce intensitate, pot fi generalizate, sunt cauzale?
Procedeul cel mai des folosit n cazul n care variabilele sunt cantitative este cel al analizei de
regresie. n cazul bivariat, cnd este studiat relaia dintre o variabil dependent i o singur variabil
independent, regresia se numete regresie simpl. O alt denumire, echivalent, este cea de regresie
bivariat. Atunci cnd este studiat efectul simultan al mai multor variabile independente asupra variabilei
dependente, regresia se numete regresie multipl. Denumirile echivalente sunt de regresie multivariat,
sau regresie multiliniar.
n seciunea care urmeaz voi arta cum sunt definite modelele de regresie linear simpl, n ce fel
sunt interpetai coeficienii care descriu aceste modele, i n ce mod poate fi evaluat eficiena lor de
ansamblu n descrierea relaiilor dintre perechi de variabile.
Ultima seciune a acestui capitol va prezenta, ntr-o structur similar, modelele de regresie multipl.
7.1 Regresia linear simpl
Fiind cunoscute valorile a dou variabile cantitative pentru o mulime de uniti de analiz, este
posibil s reprezentm complet aceast informaie printr-un grafic. Variabilei dependente i corespunde axa
vertical, iar celei independente i corespunde axa orizontal. Fiecare unitate de analiz este reprezentat
printr-un punct care se afl la o distan de axa vertical proporional cu valoarea variabilei independente
luat de acea unitate, i la o distan de axa orizontal proporional cu valoarea variabilei dependente.
Astfel, n exemplul precizat anterior, dac variabila DIF are valorile exprimate n valori procentuale, iar
variabila SUM este exprimat n mii de lei, o localitate n care s-au cheltuit 5000 de lei pe cap de locuitor,
i n care omajul a sczut cu dou procente, se afl cu dou uniti deasupra axei orizontale i la cinci
uniti n dreapta axei verticale.
Foarte adesea, informaia cuprins ntr-un grafic de acest tip este prea bogat pentru a putea fi
analizat direct. La fel cum n cazul unei singure variabile este util s reducem informaia reprezentat de
distribuia sa la o singur valoare, cea a tendinei centrale, exprimat prin medie, median sau un alt
indicator, i n cazul considerrii simultane a dou variabile ar fi de folos s putem descrie ntr-un mod ct
mai succint relaia dintre acestea.
O soluie simpl este aceea de a nlocui norul de puncte de pe grafic printr-o singur dreapt care s i
aproximeze forma ct mai bine. n seciunea care urmeaz, 7.1.1., vom arta cum poate fi construit o astfel

de dreapt, numit dreapt de regresie. Vom prezenta apoi interpretarea coeficienilor prin care este
descris dreapta de regresie. n seciunea 7.1.2. vor fi definii indicatori prin care poate fi apreciat gradul de
acuratee prin care o dreapt de regresie descrie relaia dintre dou variabile. n ultima seciune a acestei
pri, 7.1.3., va fi discutate una dintre condiiile mai importante care trebuie ndeplinit pentru ca modelele
de regresie s poat fi aplicate.
7.1.1 Construcia dreptei de regresie
Fie un grafic pe care sunt reprezentai mai muli indivizi statistici, n funcie de valorile a dou variabile
cantitative, X i Y, i fie o dreapt dus la ntmplare pe acest grafic. Poziia fiecrui individ i este fixat de
valorile pe care iau cele dou variabile, notate cu xi i yi.
Poziia dreptei n raport cu cele dou axe ale graficului este complet precizat de urmtoarea relaie:
Y' = a + bX.
(1)
Relaia exprim faptul c orice punct k de pe dreapt, are coordonatele xk i y'k astfel nct y'k = a + bxk.
Mai mult, orice punct de pe grafic pentru care are loc relaia anterioar ntre coordonatele sale, se afl pe
dreapt.
De aici rezult faptul c orice dreapt este identificat complet prin doar dou valori, cea a constantei a, i
cea a constantei b. Dac ar fi posibil nlocuirea unui nor de n puncte, care ofer o reprezentare precis a n
perechi de valori, printr-o dreapt care s indice forma de ansamblu a mulimii de puncte, atunci ar fi
obinut o simplificare remarcabil a modului n care este descris relaia.
n Figura 7.1 sunt reprezentate localitile din exemplul discutat anterior, caracterizate de valorile variabilei
dependente DIF, respectiv a variabilei independente SUM. Pe grafic este trasat i o dreapt (d) precum i o
mulime de segmente verticale, fiecare fiind construit astfel nct s uneasc punctul care corespunde unei
localiti cu dreapta (d).
Figura 7.1. Reprezentarea grafic a variabilelor DIF i SUM, care iau valori pentru 25 de localiti.

Dac pentru dou variabile cantitative am putea construi o dreapt astfel nct toate punctele care
corespund unitilor de analiz s se afle pe dreapt, atunci dreapta ar oferi o descriere complet a formei
norului de puncte. ntr-un astfel de caz, fiecare dintre segmentele verticale dintre puncte i dreapt ar avea
lungimea zero.
Este clar c n exemplul considerat aici nu exist o astfel de dreapt, care s descrie perfect relaia dintre
cele dou variabile. Ar fi de dorit atunci, s fie determinat acea dreapt pentru care lungimile segmentelor
verticale dintre puncte i dreapt s fie ct mai apropiate de zero.
Prin definiie, dreapta cu proprietatea c ptratele lungimilor segmentelor dintre puncte i dreapt au
suma minim este numit dreapt de regresie.
Datorit modului n care este definit, se spune despre dreapta de regresie c satisface criteriul celor mai
mici ptrate.
Se poate demonstra matematic faptul c pentru dou variabile date exist o dreapt unic de regresie, iar
aceasta poate fi determinat. Cu alte cuvinte, oricare ar fi dou variabile X i Y, care iau valori pentru n
uniti de analiz, pot fi deteminate n mod unic constantele a i b astfel nct dreapta
Y' = a + bX,

(2)

s ofere o cea mai bun aproximare a relaiei dintre X i Y--din perspectiva criteriului celor mai mici
ptrate--, dintre toate dreptele posibile.
Y' este o variabil care se obine din intersecia segmentelor verticale care trec prin punctele (xi, yi) de
pe grafic i dreapta de regresie, iar punctele de intersecie sunt de forma (xi, y'i). Datorit modului n care
este construit variabila Y', valorile sale sunt identice cu ale lui Y atunci cnd punctele sunt pe o dreapt, i
sunt cu att mai diferite de cele ale lui Y cu ct punctele sunt mai dispersate n jurul dreptei de regresie.
Un alt mod de a scrie expresia (2) este urmtorul:
Y = a + bX + U,
unde U = Y - Y'.
U este o variabil care pentru fiecare unitate de analiz ia o valoare egal cu lungimea segmentului vertical
dintre punctul care i corespunde pe grafic i dreapta de regresie.
n exemplul anterior, a = -5,86, b = 0,67. Ecuaia dreptei de regresie este
DIF = - 5,86 + 0,67SUM.
7.1.2 Interpretarea coeficienilor dreptei de regresie
Coeficientul b este numit panta asociat variabilei X i, aa cum se poate vedea din expresia dreptei
de regresie, reprezint numrul de uniti cu care variaz Y' atunci cnd X crete cu o unitate:
dac avem dou puncte (x1, y'1) i (x2, y'2), x2 = x1 + 1, i ambele puncte sunt pe dreapta
Y' = a + bX,
atunci, nlocuind n formula dreptei se obine
y'2 = a + bx2 = a + b(x1 + 1) = a + bx1 + b = y'1 + b.
n exemplul discutat anterior, valoarea lui b indic faptul c o cretere a sumei cheltuite pe cap de
locuitor cu o mie de lei conduce n medie la o cretere a diferenei cu 0,67, adic la o scdere a ratei
omajului cu 0,67 de puncte procentuale.

Semnul plus al lui b indic faptul c ntre X i Y are loc o relaie pozitiv--adic valorilor mici ale lui
X tind s le corespund valori mici ale lui Y, iar valorilor mari ale lui X tind s le corespund valori mari
ale lui Y--, n timp semnul minus semnaleaz prezena unei relaii negative.
bi = 0 se obine atunci cnd forma norului de puncte nu poate fi aproximat printr-o dreapt. O
situaie de acest gen apare atunci cnd cele dou variabile estimeaz fenomene independente, fr legtur,
dar i n cazul n care variabilele sunt ntr-o relaie a crei form nu este liniar (de exemplu, atunci cnd
punctele sunt pe o curb n form de parabol). Cele dou cazuri sunt ilustrate n Figura 7.2., respectiv n
Figura 7.3.

Astfel, dac SUM din exemplul anterior ar fi exprimat n uniti monetare / numrul de locuitori, adic
ntr-o unitate de msur de o mie de ori mai mic dect cea din exemplu, b1 ar fi de 1000 de ori mai mic. n
general, se poate arta c,
dac n loc de X avem cX + d, atunci n loc de b avem b / c.
Din aceast proprietate rezult faptul c panta de regresie nu poate fi folosit drept un indicator al
intensitii relaiei dintre variabila dependent i variabila independent.
Constanta a din ecuaia dreptei de regresie indic valoarea y' pe care o ia un punct pentru care x = 0 i
care este aflat pe dreapt.

Figura 7.2. Exemplul a dou variabile cantitative ntre care nu are loc o relaie.
7.1.3 Indicatori ai intensitii relaiei dintre dou variabile cantitative: coeficientul de determinaie i
coeficientul de corelaie Pearson
Dreapta de regresie asociat relaiei dintre dou variabile cantitative ofer o imagine sintetic despre
forma acestei relaii, ns nu ofer informaii despre ct de asemntoare este aceast imaginea simplificat
cu cea real. Am ntlnit o situaie similar n cazul mediei: acest indicator descrie succint tendina central
a distribuiei unei variabile cantitative, ns nu cuprinde informaii despre ct de complet este aceast
reprezentare. n acest caz, exist un indicator care arat ct de dispersate sunt valorile luate de variabil n
jurul mediei: abaterea standard. Cu ct valorile sale sunt mai mici cu att media descrie mai precis
distribuia variabilei.
n Figura 7.4. i n Figura 7.5. sunt reprezentate relaiile dintre cte dou perechi de variabile
cantitative. n ambele cazuri ecuaia dreptei de regresie este aceeai:
Y = 2 - 2,5 X.
Se observ ns c unitile de analiz din Figura 7.5. sunt mai dispersate n raport cu dreapta de
regresie dect cele din Figura 7.4. Acest fapt arat c dintre cele dou drepte, cea din Figura 7.4. ofer
reprezentarea cea mai precis a relaiei dintre perechea de variabile crora le corespunde.
Figura 7.3. Exemplul a dou variabile ntre care exist o relaie (de forma Y' = X2) care nu poate fi
aproximat printr-o dreapt de regresie.

Figura 7.4. Distribuia a dou variabile cantitative i dreapta lor de regresie (A).
20

10

Y1

-10

-20
-3

-2

-1

X1

Coeficientul b are urmtoarea proprietate important: valoarea sa depinde de unitile de msur


ale celor dou variabile.

Figura 7.5. Distribuia a dou variabile cantitative i dreapta lor de regresie (B).

20

7.1.4 Problema distribuiilor non-normale


Pentru a putea studia relaia dintre dou variabile cu ajutorul analizei de regresie este necesar ca
acestea s fie de tip cantitativ, adic de interval sau de raport. n plus, exist o alt cerin care trebuie
respectat pentru ca rezultatele aplicrii regresiei s poat fi interpretate n mod corect: distribuia fiecreia
dintre cele dou variabile trebuie s fie de tip normal (gaussian), sau, cel puin, s nu se abat n mod
substanial de la aceast form.

10

Y2

-10

-20
-3

-2

-1

X2

Puterea explicativ a unui model de regresie simpl poate fi evaluat cu ajutorul mai multor
indicatori. Coeficientul R2, numit coeficient de determinaie, este definit de urmtoarea formul:

(Y 'Y )
(Y Y )

Voi ilustra printr-un exemplu care sunt problemele care apar atunci cnd aceast cerin nu este
respectat:
Presupunem c avem date despre proporia cetenilor care au o prere foarte bun despre calitatea
drumurilor din localitatea n care locuiesc i despre numrul de locuitori din acea localitate. Datele (fictive)
sunt reprezentate n Figura 7.6. Se observ c ambele variabile au distribuii asimitetrice iar unitile de
analiz sunt concentrate mai mult la exteme dect n jurul unor valori centrale. Acest fapt este cel mai clar
n ceea ce privete numrul de locuitori, unde exist o localitate cu o valoare mult diferit de a celorlalte.
Reprezentarea grafic a dreptei de regresie, precum i valorile lui r i ale lui R2 indic existena unei relaii
de semn pozitiv ntre cele dou variabile: r = 0,48, iar R2 = 0,23.

R2 =

Numrtorul expresiei reprezint variaia lui Y care este "explicat" de ecuaia de regresie, n timp ce
valoarea de la numitor este egal cu variaia total a lui Y. Deci, R2 indic proporia din variaia lui Y care
este "explicat" de variabila independent.
Din modul n care este definit rezult c R2 poate s ia valori ntre 0 i 1. R2 este egal cu 1 atunci cnd
distribuia punctelor se face dup o dreapt. Valoarea sa este zero n situaii cum sunt cele ilustrate n
Figura 7.2. i n Figura 7.3., adic atunci cnd distribuia punctelor nu poate fi aproximat printr-o dreapt.
n general, cu ct valorile lui R2 sunt mai apropiate de 1, cu att relaia dintre cele dou variabile este mai
intens iar reprezentarea sa grafic este mai apropiat de o dreapt.

Figura 7.6. Relaia dintre mrimea localitii i proporia locuitorilor care au o prere foarte bun despre
starea drumurilor din localitate.
.5

.4

n exemplul din seciunea anterioar R2 = 0,53.


R2 care corespunde relaiei reprezentate n Figura 7.4. are valoarea 0,95, n timp ce R2 din Figura 7.5. are
valoarea 0,58.

.3

Un alt indicator al intensitii relaiei dintre dou variabile cantitative este coeficientul de corelaie
Pearson, notat cu r i definit prin urmtoarea formul:

X i Y reprezint abaterea standard a variabilei X, respectiv abaterea standard a variabilei Y.


Coeficientul de corelaie are dou proprieti din care poate fi dedus i modul su de interpretare:
1. r2 = R2 --coeficientul de corelaie Pearson ridicat la ptrat este egal cu coeficientul de determinaie.
2. r are acelai semn cu b, deoarece cele dou abateri standard din definiia sa au ntotdeauna semn pozitiv.
Astfel, din proprietatea (1) rezult c r ia valori n intervalul [-1, 1], iar valorile extreme sunt luate n
acelai situaii n care R2 ia valoarea 1: atunci cnd relaia dintre cele dou variabile cantitative este de
intensitate maxim i punctele care reprezint grafic unitile de analiz sunt distribuite pe o dreapt. n
mod similar, r ia valoarea 0 atunci cnd R2 este nul, adic n situaiile n care distribuia unitilor de
analiz nu poate fi aproximat printr-o dreapt (Figurile 2. i 3. ilustreaz situaii n care r este 0).
Din proprietatea (2) rezult c r ia valori pozitive atunci cnd dreapta de regresie are o nclinaie
ascendent de la stnga spre dreapta, i valori negative atunci cnd inclinaia este descendent.

.2
proportia celor multumiti

r = b X / Y.

.1

0.0
0

100000

200000

300000

400000

numarul de locuitori

Privind ns graficul, se observ c dreapta de regresie nu aproximeaz corect distribuia localitilor


pe grafic, ntruct nu exist o tendin general ca localitile mai mari s aib proporii mai mari de
ceteni mulumii de starea drumurilor dect localitile mai mici. Panta ascendent a dreptei de regresie,
precum i valoarea pozitiv a lui r, sunt urmarea includerii n analiz a localitii care are o populaie mult

mai mare dect a celorlalte (310000 locuitori, n timp ce urmtoarea localitatea ca mrime are 47000). Dac
aceast localitate este exclus, se obin valori pentru b i R2 foarte aproape de zero: b = -0,051, R2 = 0,003.

1.5

1.0

7.2 Regresia linear multipl

S presupunem c n evaluarea unui program prin care s-a urmrit reducerea omajului se cunoate
variaia ratei omajului (DIF), suma cheltuit raportat la numrul de locuitori (SUM), i, n plus, fa de
exemplu similar descris n seciunea precedent, fiecare localitate este descris de un indicator global al
calitii administrrii programelor locale, altele dect cel evaluat aici. Acest din urm indicator, notat
CALIT, este de tip cantitativ, si are trei valori: 1 desemneaz un nivel sczut, 2 un nivel mediu, iar 3 un
nivel ridicat al calitii administrrii programelor.
n Figura 7.7 sunt reprezentate localitile cuprinse n studiu, n funcie de cele trei variabile. La fel ca
i n Figura 7.8 valorile lui DIF sunt pe axa vertical, iar cele ale lui SUM pe axa orizontal. Marcarea
localitilor pe grafic se face prin simboluri grafice diferite n funcie de valorile celei de a treia variabile.
Analiza legturii dintre DIF i SUM printr-o regresie simpl conduce la concluzia c relaia dintre
cele dou variabile este direct, i destul de intens (R2 = 0,53).
Dac, ns, relaia dintre cele dou variabile este studiat separat pe grupele de localiti desemnate
prin valorile celei de-a treia variabile, concluzia este diferit. n locul unui singur model, vom urmri
parametrii a trei modele de regresie simpl, cte unul pentru fiecare dintre valorile variablei CALIT.
Valorile lui R2 care se obin sunt 0,006 pentru CALIT = 1, 0,005 pentru CALIT = 2, i 0,004 pentru CALIT
= 3. Cele trei valori indic faptul c intensitatea relaiilor dintre DIF i SUM pentru fiecare dintre cele trei
categorii de localiti este foarte aproape de zero. Altfel spus, cnd sunt comparate localiti care sunt
asemntoare din punctul de vedere al performanei administrrii de programe, cheltuirea unei sume mari
pe cap de locuitor nu este asociat, n medie, unei scderi mai accentuate a ratei omajului dect n
localitile n care suma a fost mai mic. Acest rezultat indic, contrar celui obinut din analiza doar a
primelor dou variabile, c programul de reducere a omajului nu a fost eficient.
Figura 7.7. Relaia dintre variabilele DIF, SUM, i CALIT pentru 25 de localiti.

.5

0.0

rata somajului (2) - rata somajului (1)

Modelul de regresie simpl este folosit pentru a descrie relaia dintre dou variabile cantitative. n
cazul n care sunt disponibile date despre mai muli factori cu potenial explicativ, iar acetia sunt estimai
prin variabile cantitative, este de dorit ca analiza s cuprind simultan toate variabilele i nu doar dou
dintre acestea. Utilizarea regresiei simple ntr-un astfel de caz, prin ignorarea unora dintre variabilele
independente, ori prin aplicarea succesiv pentru fiecare dintre variabilele independente, poate s conduc
la rezultate eronate.
Exemplul urmtor ilustreaz o situaie de acest tip.

-.5

Calit. adm.

-1.0

3.00

-1.5

2.00
-2.0

1.00
Toate localit.

-2.5
6.0

6.5

7.0

7.5

8.0

8.5

9.0

9.5

10.0

suma cheltuita / nr. de locuitori

Problema general pe care ncercm s o rezolvm prin modelare statistic poate fi redus adesea la
urmtoarea exprimare:
B este un fenomen care trebuie explicat iar A1, A2, ... sunt factori explicativi poteniali; Care este efectul
independent al fiecrui Ai asupra lui B? Care este ierarhia importanei factorilor A1, A2, ... n explicarea
lui B?
Exemplul de mai sus arat faptul c numai prin modele care cuprind simultan toate variabilele
relevante pentru fenomenul studiat poate fi evaluat efectul independent al fiecreia. Modelele multivariate
cele mai simple i de aceea cel mai usor de interpretat sunt cele de regresie multipl. Vom arta modul n
care acestea sunt definite (7.2.1), felul n care pot fi interpretate relaiile dintre variabilele cuprinse n model
(7.2.2.) i cum poate fi evaluat eficiena de ansamblu a modelelor (7.2.3). n seciunea (7.2.4.) vor fi
discutate modalitaile de generalizare a rezultatelor obinute pe un eantion iar n sectiunea (7.2.5) va fi
descris problema multicoliniaritii. n seciunea (7.2.6) va fi prezentat o extindere a modelelor de
regresie pentru variabile nominale i ordinale.
7.2.1 Definirea modelelor de regresie multipl
Fie Y, X1, X2, ..., Xm, variabile cantitative. Y este variabila a crei variaie incercm s o explicm iar X1,
X2,..., Xm, sunt variabilele independente. Putem scrie urmtoarea relaie ntre variabile:
Y = a + b1X1 + b2X2 + ... + bmXm + U

(3)

unde a, b1, b2, ..., bm sunt numere iar U este o variabil.


Se observ c pentru orice combinaie de numere a, b1, b2, ..., bm, relaia (3) este asevrat, pentru c
acestea mpreun cu valorile lui Y, X1, X2, ..., Xm determin U.

Figura 7.8. Reprezentarea grafic n trei dimensiuni a unor cazuri caracterizate de trei variabile.

n care a, b1, b2, ..., bm sunt determinate n urma aplicrii principiului celor mai mici ptrate este un
model de regresie multipl.

Dac avem o singura variabil independent (m=1) ecuaia (5) descrie un model de regresie simpl.

(X11,X21,Y1)

n exemplul de mai sus, planul care aproximeaza cel mai bine - dup criteriul celor mai mici ptrate -,
distribuia punctelor din spaiu asociate celor 25 de uniti de analiz (localiti cuprinse n studiu) are
ecuaia

(X12,X22,Y2)
(X13,X23,Y3)

DIF = -2,61 + 0,05 SUM + 1,00 CALIT.

(X14,X24,Y4)
Y5
(X15,X25,Y5)
X15

7.2.2 Interpretarea modelelor de regresie multipl

X25

X1

X2

Dac m=2 relaia (3) poate fi descris grafic printr-un desen tridimensional. Fiecrui individ statistic
i corespunde un punct de coordonate (X1,X2,Y) (Figura 7.8.), iar a, b1 i b2 definesc un plan descris de
ecuaia
Y' = a + b1X1 + b2X2.
Variabila U este determinat de acest plan i de punctele de forma (X1,X2,Y) ntr-un mod analog
cazului cu dou dimensiuni:
valoarea Ui care i corespunde unui individ statistic care a luat valorile X1i, X2i,Yi, este egal cu lungimea
segmentului paralel cu axa OY care are la extremiti punctul care i corespunde n spaiu (X1i,X2i,Yi),
respectiv punctul de intersecie cu planul (si care are coordonatele (X1i,X2i,Y'i)).
Expresia (3) indic faptul c Y poate fi exprimat ca o combinaie liniar de X1, X2, ..., Xm, i o
variabil U numita variabil rezidual. Dac fixm a, b1, b2,..., bm atunci U poate fi exprimat n funcie de
aceste numere i Y, X1, X2,...Xm:
U = Y - (a + b1X1 + b2X2 + ... + bmXm)

(4)

Dac notm expresia din paranteza cu Y' atunci


U = Y - Y'.
Vom alege din mulimea (infinit) a expresiilor de forma (3) acea combinaie liniar pentru care U
(determinat din (4)) are valori minime. Pentru c U este o variabil, atunci cnd expresia (3) se aplic unui
numr de n indivizi statistici, U este un ir de n numere. Avem nevoie s definim un criteriu dup care
variabilele U s poat fi comparate astfel nct s putem alege un U avnd valorile cele mai mici. Principiul
folosit pentru modelele de regresie liniar multipl este, la fel ca i n cazul bivariat, cel al celor mai mici
ptrate:
Unei variabile U i corespunde un numr u obinut din aplicarea formulei
u = u12 + u22 + ... + un2, unde ui este valoarea luat de U pentru cazul statistic i;
este ales U pentru care u este cel mai mic. Din (3) rezult c problema este echivalent cu determinarea
valorilor a, b1, b2, ..., bm astfel nct u s fie minim. Este important de reinut c pentru orice numr de
variabile independente m, a, b1, b2, ..., bm sunt determinai n mod unic de condiia de a avea u minim.
Ecuaia
Y' = a + b1X1 + b2X2 + ... + bmXm,

(5)

Coeficientul bi, numit panta asociat variabilei Xi, reprezint numrul de uniti cu care variaz Y'
atunci cnd Xi crete cu o unitate iar celelalte variabile independente sunt meninute constante. Altfel spus,
bi arat cum se modific valoarea ateptat a variabilei dependente atunci cnd Xi variaz iar Xj sunt
constante, ji.
Deasemenea, n msura n care datele satisfac anumite proprieti (dintre care un principiu important este
cel al distribuiilor apropiate de cele normale, iar un alt principiu, al multicoliniaritii, va fi discutat n
seciunea 7.2.5.) este corect s afirmm c bi indic variaia n mediile valorilor lui Y care corespund
punctelor de forma (X1,...,Xi,...,Xm) respectiv (X1,...,Xi + 1,...,Xm). La fel, a arat care este media lui Y
atunci cnd X1 = X2 = ... = Xm = 0.
Semnul plus al lui bi indic faptul c ntre Xi i Y are loc o relaie pozitiv n condiii de control al
efectului celorlalte variabile, n timp ce semnul minus indic prezena unei relaii negative.
In exemplul anterior, b1 = 0,05 arat c dac vom compara dou localiti unde diferena dintre
sumele cheltuite n program / numrul de locuitori este 1000 lei, i care sunt identice din perspectiva
variabilei CALIT, ne ateptm ca, n medie, rata omajului s fi sczut cu 0,05 puncte procentuale n
localitatea n care s-a suma / locuitor a fost mai mare. b2 = 1,00 arat c pentru aceeai valoare a lui SUM,
localitile cu o evaluare a calitii administrrii programelor mai bun cu o unitate au, n medie, o scdere
mai mare cu o unitate procentual. Aceast interpretare este consistent cu rezultatul obinut dup aplicarea
de regresii simple pentru fiecare din subeantioanele definite de CALIT, dar aduce un plus de precizie n
exprimarea relaiilor dintre variabila dependent i cele dou variabile independente.
Din interpretarea coeficienilor bi se vede cum regresia multipl permite compararea de perechi de
grupe de indivizi statistici care sunt identici din perspectiva tuturor variabilelor independente cu excepia
unei singure variabile. Diferena observat n valorile variabilei dependente este atribuit variaiei n
variabila independent care ia valori diferite pentru grupe diferite.
Asemeni pantei pentru cazul bivariat, coeficienii modelului de regresie multipl depind de unitile
de msur ale variabilelor i este adevrat proprietatea
dac n loc de Xi avem cXi + d, atunci n loc de bi avem bi / c.

(6)

Aceast proprietate arat faptul c panta de regresie nu poate fi folosit drept un indicator al
intensitii relaiei dintre variabila dependent i variabila independent corespunztoare, i nici nu permite
ierarhizarea variabilelor independente n funcie de contribuia fiecreia la explicaia variaiei variabilei
dependente.
Pentru a descrie nu doar forma ci i intensitatea relaiilor liniare ntre variabilele independente i
variabila dependent sunt folosii coeficienii de regresie standardizai. Modul n care sunt definii este
intuitiv: variabilele Y, X1, X2, ..., Xm sunt standardizate folosind formula scorului z prezentat n Capitolul
1.

Noile variabile, obinute n urma aplicrii formulei, au media egal cu zero iar abaterea standard egal
cu unitatea. Coeficienii de regresie din modelul determinat de variabilele standardizate, se noteaz n mod
obisnuit cu 1, 2, ..., m. Aplicnd proprietatea (6) avem urmtoarea formul pentru coeficienii
standardizai:

i = bi

Xi
Y

n cazul bivariat (m = 1), 1 coincide cu coeficientul de corelaie Pearson. n cazul general, i arat cu
cte abateri standard variaz Y atunci cnd Xi crete cu o abatere standard. Din formul reiese i faptul c
i are acelai semn cu bi, iar i = 0 este echivalent cu bi = 0.
Atunci cnd m > 1 coeficienii de regresie standardizai au cteva proprieti diferite fa de cazul
bivariat:
1. i poate s ia valori i n afara intervalului [-1, 1]. i n valoare absolut este supraunitar atunci cnd
relaia dintre Xi i Y este foarte intens i n plus, exist o relaie liniar strns ntre Xi i cel puin una
dintre celelalte variabile independente.
2. n timp ce n cazul bivariat U = 0 implic faptul c 1 = +1, atunci cnd m > 1, condiia
U = 0 nu restrnge valorile posibile pentru i.
Coeficienii de regresie standardizai permit ierarhizarea variabilelor independente n funcie de
importana pe care o are fiecare n explicarea variaiei variabilei dependente printr-o relaie direct. Sunt
necesare dou precizri privind limitele n utilizarea acestor coeficieni:
1. Dac ntr-un model teoretic n care X1, X2, ..., Xm sunt variabile independente pentru Y, Xi este o
variabil explicativ i pentru unul sau mai multi Xj, ji, atunci modelul de regresie n care Y este variabila
dependent ne permite numai estimarea efectului direct pe care l are Xi asupra lui Y, nu i a celui mediat
de alte variabile din model. De exemplu, variabila care exprim proporia celor care au absolvit liceul din
populaia unei localiti poate avea un efect direct nul asupra numrului de infraciuni pe cap de locuitor
(bliceu =0), ns un efect indirect substanial, mediat de o alt variabil independent cuprins n modelul de
regresie multipl (de exemplu, venitul pe cap de locuitor).
2. Atunci cnd avem dou modele cu aceleai variabile, dar care descriu date diferite, coeficienii
standardizai nu sunt comparabili ntre modele dect dac variabilele care le corespund au dispersii
asemntoare. De aceea, este de preferat ca n comparaiile dintre populaii diferite s fie folosii
coeficienii nestandardizai, dup ce n prealabil datele au fost transformate astfel nct variabilele Xi s
aib aceeai unitate de msur n ambele modele.

R2 are proprietatea de a crete cu fiecare variabil care este introdus n model i de aceea valorile lui
R2 trebuie judecate i n raport cu numrul de variabile independente. La limit, este posibil s avem R2 = 1
dac avem un numr de variabile independente suficient de mare, chiar dac acestea sunt generate aleator.
Concluzia care se desprinde este c alegerea variabilelor care urmeaz s fie incluse n model nu
poate fi decis folosind exclusiv informaia de natur statistic (chiar dac exist procedee complexe prin
care putem mbogi aceast informaie). Numai prin luarea n considerare i a unor aspecte de natur
teoretic poate fi decis includerea sau eliminarea unor variabile n analiz.
S vedem ce semnificaie au valorile extreme pe care le poate lua R2, 0 i 1, pentru c interpretarea
valorilor intermediare este posibil prin raportarea la situaiile maximale.
R2 este egal cu 1 atunci cnd valorile lui Y sunt complet determinate de combinaiile liniare ale
valorilor variabilelor independente. n cazul bivariat, distribuia punctelor se face dup o dreapt, iar atunci
cnd sunt dou variabile independente, dup un plan.
La fel ca i n cazul bivariat, R2 = 0 nu indic n mod necesar absena unor relaii ntre variabilele
independente i variabila dependent:
1. Y poate s fie determinat complet de variabilele independente prin relaii neliniare iar R2 s fie egal cu
zero. De exemplu, dac

10 - X 2 1 - X 2 2 ) ,

Y =

se obine distribuia din Figura 7.9. n care toate punctele sunt pe o suprafata curb (cele mai multe sunt pe
o semisfer), iar R2 = 0.
2. Mai mult, este posibil s avem R2 = 0 chiar i atunci cnd ntre una dintre variabilele independente i Y
exista o relaie liniar, n condiii de control, ns forma (panta) acestei relaii nu este constant pe
categoriile celorlalte variabile.
Figura 7.9. Exemplul unei distribuii n spaiu pentru care variabila dependent este reprezentat pe axa
vertical i R2 = 0.

3,5
3,0
2,5

Y 2,0

7.2.3 Eficiena unui model de regresie multipl

1,5

La fel ca i n cazul bivariat, puterea explicativ a unui model multivariat poate fi evaluat cu ajutorul
unor indicatori. Coeficientul R2, numit coeficient de determinaie multipl, este definit la fel ca i atunci
cnd avem o singur variabil independent i are o interpretare similar:

R2 =

(Y * Y )
(Y Y )

1,0
4 3
2 1
0 -1
-2 -3
X1

-1 0
-3 -2
X2

Numrtorul expresiei reprezint variaia lui Y care este "explicat" de ecuaia de regresie, n timp ce
valoarea de la numitor este egal cu variaia total a lui Y. Deci, R2 indic proporia din variaia lui Y care
este "explicat" de toate variabilele independente din model. Din definiie rezult c R2 poate s ia valori
ntre 0 i 1.
n exemplul din aceast seciune avem R2 = 0,69.
Desigur, valorile ridicate ale lui R2 sunt de dorit n locul celor sczute pentru c implic faptul c
explicaia este n mai mare msur complet. Totui, aceast afirmaie necesit cteva precizri:

Figura 7.10. Exemplul unei distribuii n spaiu pentru care variabila dependent este reprezentat pe axa
vertical, au loc relaii bivariate cu variabila dependent de intensitate maxim i R2 = 0 pentru modelul
multivariat.

12
10

SUM
CALIT

Y1

Coeficienti
ne-standardizati
Eroare
standard
B
0,048
0,212
0,994
0,291

Coeficienti
standardizati
Beta
0,052
0,786

t
0,229
3,412

Nivel de
semnif.
stat.
0,820
0,002

Pentru a doua variabil independent din exemplu, CALIT, putem respinge ipoteza de nul (p =
0,002<0,05).

2
0
1,2 1,0

,8

,6

,4

X1

,2 0,0

10

12

Un model de regresie multipl poate fi folosit atit n explicaie cit i n predicie. Astfel, din modelul
anterior rezult c, n medie, localitile n care ar fi aplicat un program similar cu cel studiat iar suma
cheltuit ar fi de 8000 de lei / locuitor, i care ar fi evaluate prin scorul 3 pentru calitatea administrrii
programelor, vor avea n medie o scdere a ratei omajului cu o valoare dat de urmtoarea formul

X2

7.2.4 Generalizarea rezultatelor obinute pe eantion (inferena)


Atunci cnd avem la dispozitie date dintr-un eantion probabilistic i construim pe acestea un model
de regresie multipl ne punem problema de a generaliza rezultatele obinute pentru populaia din care
provine eantionul. S presupunem c am obinut bi > 0 i dorim s tim dac panta corespunztoare
variabilei Xi este pozitiv i la nivelul ntregii populaii. Pentru a afla acest lucru vom construi un interval
de ncredere n jurul valorii lui bi. Determinarea intervalului de ncredere presupune ndeplinirea de ctre
datele analizate a unor proprieti, aceleai cu condiiile specifice cazului bivariat, la care se adaug
condiia de absen a multicoliniaritii (pe care o vom defini i analiza n sectiunea 6). n continuare,
presupunem ndeplinite toate aceste proprieti. Pentru un nivel de incredere de 0,95 avem intervalul
(bi - tn - m - 1, 0,975bi, bi + tn - m - 1, 0,975bi),
unde n este numrul de cazuri n eantion, m este numrul de variabile independente, numrul tn - m, 0,975
poate fi gsit n tabelele pentru distributia t (pentru n - m - 1 = 60 ia valoarea 2,0, iar pentru un numr care
tinde la infinit ia valoarea 1,96) iar bi este eroarea standard a lui bi.
Dac intervalul de ncredere nu l conine pe zero atunci ipoteza de nul, adic afirmaia conform
creia ntre Xi i Y nu avem o relaie liniar direct, poate fi respins (un mod mai riguros de a exprima
ipoteza de nul n cazul regresiei este acela de a spune c parametrul - coeficientul de regresie din populaie
- este egal cu 0).
O alt modalitate prin care poate fi realizat generalizarea valorilor bi const n determinarea valorii
maxime a nivelului de semnificatie statistic pentru care 0 aparine intervalului de ncredere. Dac nivelul
de semnificaie observat este mai mic dect 0,05 atunci vom respinge ipoteza de nul, conform regulilor de
testare a ipotezelor statistice.
Deasemenea, putem calcula valoarea t asociat lui bi
t = bi / bi.
Putem gsi n tabelele statistice care este nivelul de ncredere ce corespunde valorii determinate n
acest fel.
Pentru exemplul din aceast seciune, tabelul urmtor conine coeficienii de regresie, coeficienii
standardizai, erorile standard, valorile t i nivelele de semnificatie statistic.

DIF0 = -2,61 + 0,05 * 8 + 1,00 * 3 = 0.79.


Mai mult, putem determina cu o probabilitate p intervalul cruia i apartine valoarea variabilei DIF pentru
care cunoatem valorile variabilelor SUM i CALIT. Acesta este
(DIF0 - tn - m - 1, 0,975DIF, DIF0 + tn - m - 1, 0,975DIF),
unde DIF0 este valoarea medie "prezis" de model, DIF este eroarea standard a valorii estimate DIF0.
n exemplul anterior, DIF este cu o probabilitate de 0,95 n intervalul de incredere
(0,79 - 2*0,59, 0,79 + 2*0,59) = (-1,57, 3,15).
7.2.5 Problema multicoliniaritii
Situaia n care o variabil independent poate fi exprimat ca o combinaie liniar perfect a celorlalte
variabile independente, este numit multicoliniaritate perfect:
De exemplu, dac variabilele independente sunt X1, X2, i X3, iar
X2 = 3X1 + 2X3, se spune c X2 este exprimat printr-o combinaie liniar a variabilelor X1 i X3, iar
variabilele X1, X2 i X3 sunt ntr-o relaie de multicoliniaritate perfect.
Atunci cnd variabilele independente sunt ntr-o situaie de multicoliniaritate perfect coeficienii de
regresie nu pot fi determinai, i analiza de regresie nu poate fi aplicat.
n practic, o situaie de acest tip este rar ntlnit i este uor de detectat. n schimb, sunt mai frecvente
cazurile de multicoliniaritate ridicat, n care o variabila independent poate fi exprimat aproape perfect
printr-o combinatie liniar a celorlalte variabile independente. Cnd se intimpl acest lucru, coeficienii pot
fi determinai n mod unic ns sunt instabili: valoarea pantei unui anumit coeficient difer foarte mult de la
un eantion la altul pentru o anumit populaie. Din acest motiv, att comparaiile ntre valorile
coeficienilor dintr-un model ct i comparaiile pentru aceeai coeficieni ai unor modele pe eantioane
diferite sunt nesigure.
Care este pragul peste care multicoliniaritatea este considerat a fi ridicat i poate s ridice probleme n
interpretarea modelului? O metod frecvent folosit const n realizarea de regresii n care, pe rnd, fiecare
dintre Xi este variabil dependent iar ceilali Xj sunt variabile independente. Valoarea cea mai ridicat
pentru un R2 obinut n acest fel este o msur a nivelui de multicoliniaritate din model, iar limita
convenional sub care se consider c multicoliniaritatea nu afecteaz interpretabilitatea modelului este
0,8.

Atunci cnd este ntlnit o situaie de multicoliniaritate ridicat sunt mai multe moduri prin care pot fi
atenuate efectele ei:
1. Este mrit volumul eantionului astfel nct ipoteza de nul s poat fi respins pentru o parte dintre
coeficieni.
2. Variabilele care sunt puternic corelate sunt combinate n indicatori unici. De exemplu, ntr-o analiz n
care seciile de vot sunt uniti statistice, rata de participare n primul tur de scrutin al alegerilor din 1996
este o variabil independent i rata de participare n al doilea tur de scrutin al alegerilor din 1996 este o
alt variabil independent, coeficientul de corelaie ntre cele dou variabile este r = 0,91. Un model
realizat pe un eantion ales dintre seciile de vot i n care cele dou variabile sunt independente va fi
afectat de o problem de multicoliniaritate ridicat. O soluie ar fi includerea n analiz a mediei n locul
celor dou variabile.
3. Sunt realizate mai multe modele fiecare avnd doar o parte dintre variabilele care produc
multicoliniaritate. Pentru exemplul anterior, ar nsemna considerarea a dou modele, unul cu rata de
participare pentru primul tur, al doilea cu rata de participare pentru al doilea tur.

b. Localitile n care sunt 20% locuitori care nu au absolvit 10 clase au, n medie, diferena ntre veniturile
anuale pe cap de locuitor (VENIT) cu 12 mii de lei mai mare dect localitile n care sunt 30% locuitori
care nu au absolvit 10 clase.
2. Presupunem c, n plus, avem i date despre proporia locuitorilor care au mai puin de 18 ani
(MINORI)-- estimat n procente. Ecuaia de regresie multipl care include variabilele SCOALA i
MINORI ca variabile independente este urmtoarea:
VENIT = 12 - 4 SCOALA - 0,2 MINORI.
SCOALA = -0,08, iar MINORI = -0,25.
Care dintre urmtoarele afirmaii este adevrat?
a. Variabila MINORI explic mai puin din variaia variabilei dependente dect variabila SCOALA.
b. Conform modelului de regresie, localitile n care SCOALA = 5, iar MINORI = 20, au avut n medie o
scdere a venitului pe cap de locuitor cu 12 mii de lei.

7.2.6 Variabile "dummy"

Pentru urmtoarea ntrebare, s se ncercuiasc varianta corect /variantele corecte:

Regula general conform creia analiza de regresie poate fi aplicat numai variabilelor de interval sau de
rapoarte are o excepie important: toate proprietile pe care le au valorile estimate ale unui model de
regresie se pstreaz i n cazul n care una sau mai multe dintre variabilele independente sunt dihotomice
(adic variabile care iau dou valori).
Consecinele acestei proprieti sunt importante deoarece permit nu doar estimarea efectelor unor
variabilele care n mod obisnuit sunt dihotomice (exemplu sexul, mediul de rezident -- urban / rural, etc.)
asupra variabilei dependente ci i includerea ntr-o analiz de regresie a unor variabile nominale sau
ordinale cu mai mult de dou categorii. Acest lucru este posibil n urma transformrii unei variabile cu n
categorii n n - 1 variabile dihotomice.
Ca o ilustrare, s presupunem c datele despre programul de reducere a omajului din exemplul discutat n
aceast seciune cuprind informaii despre nc o variabil independent: judeul n care se afl localitatea
(JUDET). Mai presupunem c localitile din studiu provin din trei judee, notate cu A, B, C. Variabila
JUDET este transformat n dou variabile dihotomice: JUDET1 i JUDET2.
JUDET1 este definit astfel: localitile care sunt n judeul A au valoarea 1, iar toate celelalte au valoarea
0.
JUDET2 este definit asemntor: localitile care sunt n judeul B au valoarea 1, iar toate celelalte au
valoarea 0.
Cunoscnd valorile celor dou variabile pentru o localitate, tim sigur n ce jude se afl aceasta, deci
informaia oferit de JUDET1 i JUDET2 este egal cu cea oferit de variabila iniial, JUDET.
Prin introducerea celor dou variabile dihotomice n analiz putem verifica dac scderea omajului a fost
influenat i de factori care s-au manifestat la nivel de jude, independeni de condiiile de nivel local.
Dac coeficientul b, respectiv beta, care corespunde uneia dintre aceste variabile este diferit de 0, atunci
rezult c variaia variabilei DIF poate fi explicat mai bine n urma includerii ei.

3. Se da ecuatia de regresie cu coeficienti nestandardizati (n parantez sunt prezentate erorile standard ale
coeficienilor de regresie:
Y = -40 + 0.72x1 + 1.29x2 0.15x3
ES
(0.13) (0.37) (0.16)
R=0.9

Exerciii i probleme
1. Presupunem cunoscute pentru mai multe localiti urmtoarele dou variabile: diferena ntre venitul pe
cap de locuitor n ultimul an i cel din anul anterior (VENIT)--msurat n mii lei--, i proporia celor din
localitate care au absolvit cel mult 10 clase (SCOALA)--estimat n procente.
O analiz de regresie prin care se ncearc explicarea efectului variabilei SCOALA asupra variabilei
VENIT conduce la urmtoarele rezultate:
r = -0,55, R2 = 0,30, iar ecuaia de regresie este
VENIT = -7,5 - 12 SCOALA.
Care dintre urmtoarele afirmaii este adevrat?
a. Localitile n care SCOALA are valori mici au, n medie, valori mai mici ale variabilei VENIT.

Care din coeficientii ecuatiei de regresie difera semnificativ de zero pentru un nivel de semnificatie
p=0.05?
1. cel al lui x1
2. cel al lui x2
3. cel al lui x3
4. niciunul

3,4
3,5
3,6
3,7
3,8
3,9

Anexa 1. Distribuia normal normat (standard)


Aria dintre 0 i z

0,00

0,01

0,02

0,03

0,04

0,05

0,06

0,07

0,08

0,09

0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9

0,0000
0,0398
0,0793
0,1179
0,1554
0,1915
0,2257
0,2580
0,2881
0,3159

0,0040
0,0438
0,0832
0,1217
0,1591
0,1950
0,2291
0,2612
0,2910
0,3186

0,0080
0,0478
0,0871
0,1255
0,1628
0,1985
0,2324
0,2642
0,2939
0,3212

0,0120
0,0517
0,0910
0,1293
0,1664
0,2019
0,2357
0,2673
0,2967
0,3238

0,0160
0,0557
0,0948
0,1331
0,1700
0,2054
0,2389
0,2704
0,2995
0,3264

0,0199
0,0596
0,0987
0,1368
0,1736
0,2088
0,2422
0,2734
0,3023
0,3289

0,0239
0,0636
0,1026
0,1406
0,1772
0,2123
0,2454
0,2764
0,3051
0,3315

0,0279
0,0675
0,1064
0,1443
0,1808
0,2157
0,2486
0,2794
0,3078
0,3340

0,0319
0,0714
0,1103
0,1480
0,1844
0,2190
0,2518
0,2823
0,3106
0,3365

0,0359
0,0753
0,1141
0,1517
0,1879
0,2224
0,2549
0,2852
0,3133
0,3389

1,0
1,1
1,2
1,3
1,4
1,5
1,6
1,7
1,8
1,9

0,3413
0,3643
0,3849
0,4032
0,4192
0,4332
0,4452
0,4554
0,4641
0,4713

0,3438
0,3665
0,3869
0,4049
0,4207
0,4345
0,4463
0,4564
0,4649
0,4719

0,3461
0,3686
0,3888
0,4066
0,4222
0,4357
0,4474
0,4573
0,4656
0,4726

0,3485
0,3708
0,3907
0,4082
0,4236
0,4370
0,4484
0,4582
0,4664
0,4732

0,3508
0,3729
0,3925
0,4099
0,4251
0,4382
0,4495
0,4591
0,4671
0,4738

0,3531
0,3749
0,3944
0,4115
0,4265
0,4394
0,4505
0,4599
0,4678
0,4744

0,3554
0,3770
0,3962
0,4131
0,4279
0,4406
0,4515
0,4608
0,4686
0,4750

0,3577
0,3790
0,3980
0,4147
0,4292
0,4418
0,4525
0,4616
0,4693
0,4756

0,3599
0,3810
0,3997
0,4162
0,4306
0,4429
0,4535
0,4625
0,4699
0,4761

0,3621
0,3830
0,4015
0,4177
0,4319
0,4441
0,4545
0,4633
0,4706
0,4767

2,0
2,1
2,2
2,3
2,4
2,5
2,6
2,7
2,8
2,9

0,4772
0,4821
0,4861
0,4893
0,4918
0,4938
0,4953
0,4965
0,4974
0,4981

0,4778
0,4826
0,4864
0,4896
0,4920
0,4940
0,4955
0,4966
0,4975
0,4982

0,4783
0,4830
0,4868
0,4898
0,4922
0,4941
0,4956
0,4967
0,4976
0,4982

0,4788
0,4834
0,4871
0,4901
0,4925
0,4943
0,4957
0,4968
0,4977
0,4983

0,4793
0,4838
0,4875
0,4904
0,4927
0,4945
0,4959
0,4969
0,4977
0,4984

0,4798
0,4842
0,4878
0,4906
0,4929
0,4946
0,4960
0,4970
0,4978
0,4984

0,4803
0,4846
0,4881
0,4909
0,4931
0,4948
0,4961
0,4971
0,4979
0,4985

0,4808
0,4850
0,4884
0,4911
0,4932
0,4949
0,4962
0,4972
0,4979
0,4985

0,4812
0,4854
0,4887
0,4913
0,4934
0,4951
0,4963
0,4973
0,4980
0,4986

0,4817
0,4857
0,4890
0,4916
0,4936
0,4952
0,4964
0,4974
0,4981
0,4986

3,0
3,1
3,2
3,3

0,49865
0,49903
0,49931
0,49952

0,49869
0,49906
0,49934
0,49953

0,49874
0,49910
0,49936
0,49955

0,49878
0,49913
0,49938
0,49957

0,49882 0,49886 0,49889 0,49893


0,49916 0,49918 0,49921 0,49924
0,49940 0,49942 0,49944 0,49946
0,49958 0,49960 0,49961 0,49962

0,49897
0,49926
0,49948
40,9964

0,49900
0,49929
0,49950
0,49965

0,49966
0,49977
0,49984
0,49989
0,49993
0,49995

0,49968
0,49978
0,49985
0,49990
0,49993
0,49995

0,49969
0,49978
0,49985
0,49990
0,49993
0,49996

0,49970
0,49979
0,49986
0,49990
0,49994
0,49996

0,49971 0,49972 0,49973 0,49974 0,49975 0,49976


0,49980 0,49981 0,49981 0,49982 0,49983 0,49983
0,49986 0,49987 0,49987 0,49988 0,49988 0,49989
0,49991 0,49991 0,49992 0,49992 0,49992 0,49992
0,49994 0,49994 0,49994 0,49995 0,49995 0,49995
0,49996 0,49996 0,49996 0,49996 0,49997 0,49997

g.l. - Numr de grade de libertate

Anexa 2. Valorile critice ale lui t pentru aria de sub curb aflat la dreapta
valorii.
g.l.\p
1
2
3
4
5

0.4
0.32492
0.288675
0.276671
0.270722
0.267181

0.25
1
0.816497
0.764892
0.740697
0.726687

0.1
3.077684
1.885618
1.637744
1.533206
1.475884

0.05
6.313752
2.919986
2.353363
2.131847
2.015048

0.025
12.7062
4.30265
3.18245
2.77645
2.57058

0.01
31.82052
6.96456
4.5407
3.74695
3.36493

0.005
63.65674
9.92484
5.84091
4.60409
4.03214

0.0005
636.6192
31.5991
12.924
8.6103
6.8688

6
7
8
9
10

0.264835
0.263167
0.261921
0.260955
0.260185

0.717558
0.711142
0.706387
0.702722
0.699812

1.439756
1.414924
1.396815
1.383029
1.372184

1.94318
1.894579
1.859548
1.833113
1.812461

2.44691
2.36462
2.306
2.26216
2.22814

3.14267
2.99795
2.89646
2.82144
2.76377

3.70743
3.49948
3.35539
3.24984
3.16927

5.9588
5.4079
5.0413
4.7809
4.5869

11
12
13
14
15

0.259556
0.259033
0.258591
0.258213
0.257885

0.697445
0.695483
0.693829
0.692417
0.691197

1.36343
1.356217
1.350171
1.34503
1.340606

1.795885
1.782288
1.770933
1.76131
1.75305

2.20099
2.17881
2.16037
2.14479
2.13145

2.71808
2.681
2.65031
2.62449
2.60248

3.10581
3.05454
3.01228
2.97684
2.94671

4.437
4.3178
4.2208
4.1405
4.0728

16
17
18
19
20

0.257599
0.257347
0.257123
0.256923
0.256743

0.690132
0.689195
0.688364
0.687621
0.686954

1.336757
1.333379
1.330391
1.327728
1.325341

1.745884
1.739607
1.734064
1.729133
1.724718

2.11991
2.10982
2.10092
2.09302
2.08596

2.58349
2.56693
2.55238
2.53948
2.52798

2.92078
2.89823
2.87844
2.86093
2.84534

4.015
3.9651
3.9216
3.8834
3.8495

21
22
23
24
25

0.25658
0.256432
0.256297
0.256173
0.25606

0.686352
0.685805
0.685306
0.68485
0.68443

1.323188
1.321237
1.31946
1.317836
1.316345

1.720743
1.717144
1.713872
1.710882
1.708141

2.07961
2.07387
2.06866
2.0639
2.05954

2.51765
2.50832
2.49987
2.49216
2.48511

2.83136
2.81876
2.80734
2.79694
2.78744

3.8193
3.7921
3.7676
3.7454
3.7251

26
27
28
29
30

0.255955
0.255858
0.255768
0.255684
0.255605

0.684043
0.683685
0.683353
0.683044
0.682756

1.314972
1.313703
1.312527
1.311434
1.310415

1.705618
1.703288
1.701131
1.699127
1.697261

2.05553
2.05183
2.04841
2.04523
2.04227

2.47863
2.47266
2.46714
2.46202
2.45726

2.77871
2.77068
2.76326
2.75639
2.75

3.7066
3.6896
3.6739
3.6594
3.646

infinit

0.253347

0.67449

1.281552

1.644854

1.95996

2.32635

2.57583 3.2905

Anexa 3. Valorile critice ale lui 2


Ariile din dreapta valorilor (
.)

g.l./a 0.995
0.99
0.975
0.95
0.9
ria
1
0.00004 0.00016 0.00098 0.00393 0.01579

0.75

0.5

0.25

0.1

0.05

0.025

0.01

0.005

0.10153

0.45494

1.3233

2.70554

3.84146

5.02389

6.6349 7.87944

0.57536

1.38629

2.77259

4.60517

5.99146

7.37776

9.21034 10.59663

7.81473

9.3484

11.34487 12.83816

9.48773

11.14329

0.01003

0.07172 0.11483

0.2158 0.35185 0.58437

1.21253

2.36597

4.10834

6.25139

0.20699 0.29711 0.48442 0.71072 1.06362

1.92256

3.35669

5.38527

7.77944

0.41174

2.6746

4.35146

6.62568

9.23636

11.0705

12.8325

0.67573 0.87209 1.23734 1.63538 2.20413

3.4546

5.34812

7.8408

10.64464

12.59159

14.44938

16.81189 18.54758

0.98926 1.23904 1.68987 2.16735 2.83311

4.25485

6.34581

9.03715

12.01704

14.06714

16.01276

18.47531 20.27774

1.34441

1.6465 2.17973 2.73264 3.48954

5.07064

7.34412

10.21885

13.36157

15.50731

17.53455

20.09024 21.95495

1.73493

2.0879 2.70039 3.32511 4.16816

5.89883

8.34283

11.38875

14.68366

16.91898

19.02277

21.66599 23.58935

10

2.15586 2.55821 3.24697

3.9403 4.86518

6.7372

9.34182

12.54886

15.98718

18.30704

20.48318

23.20925 25.18818

11

2.60322 3.05348 3.81575 4.57481 5.57778

7.58414

10.341

13.70069

17.27501

19.67514

21.92005

24.72497 26.75685

12

3.07382 3.57057 4.40379 5.22603

6.3038

8.43842

11.34032

14.8454

18.54935

21.02607

23.33666

26.21697 28.29952

13

3.56503 4.10692 5.00875 5.89186

7.0415

9.29907

12.33976

15.98391

19.81193

22.36203

24.7356

27.68825 29.81947

14

4.07467 4.66043 5.62873 6.57063 7.78953

10.16531

13.33927

17.11693

21.06414

23.68479

26.11895

29.14124 31.31935

15

4.60092 5.22935 6.26214 7.26094 8.54676

11.03654

14.33886

18.24509

22.30713

24.99579

27.48839

30.57791 32.80132

16

5.14221 5.81221 6.90766 7.96165 9.31224

11.91222

15.3385

19.36886

23.54183

26.29623

28.84535

31.99993 34.26719

17

5.69722 6.40776 7.56419 8.67176 10.0851


9
6.2648 7.01491 8.23075 9.39046 10.8649
4
6.84397 7.63273 8.90652 10.1170 11.6509
1
1
7.43384 8.2604 9.59078 10.8508 12.4426
1
1

12.79193

16.33818

20.48868

24.76904

27.58711

30.19101

33.40866 35.71847

13.67529

17.3379

21.60489

25.98942

28.8693

31.52638

34.80531 37.15645

14.562

18.33765

22.71781

27.20357

30.14353

32.85233

36.19087 38.58226

15.45177

19.33743

23.82769

28.41198

31.41043

34.16961

37.56623 39.99685

8.03365

13.2396

16.34438

20.33723

24.93478

29.61509

32.67057

35.47888

38.93217 41.40106

14.0414
9
14.8479
6
15.6586
8
16.4734
1

17.23962

21.33704

26.03927

30.81328

33.92444

36.78071

40.28936 42.79565

18
19
20

21
22

0.0201 0.05064 0.10259 0.21072

0.5543 0.83121 1.14548 1.61031

8.8972 10.2829 11.5913


1
12.3380
1
13.0905
1
13.8484
3
14.6114
1

8.64272 9.54249 10.9823


2
23 9.26042 10.1957 11.6885
2
5
24 9.88623 10.8563 12.4011
6
5
25 10.5196 11.5239 13.1197
5
8
2

26 11.1602 12.1981 13.8439 15.3791 17.2918


4
5
6
8
27 11.8075 12.8785 14.5733 16.1514 18.1139

28 12.4613 13.5647 15.3078 16.9278 18.9392


4
1
6
8
4
29 13.1211 14.2564 16.0470 17.7083 19.7677
5
5
7
7
4
30 13.7867 14.9534 16.7907 18.4926 20.5992
2
6
7
6
3

13.2767 14.86026
15.08627 16.7496

18.1373

22.33688

27.14134

32.0069

35.17246

38.07563

41.6384 44.18128

19.03725

23.33673

28.24115

33.19624

36.41503

39.36408

42.97982 45.55851

19.93934

24.33659

29.33885

34.38159

37.65248

40.64647

44.3141 46.92789

20.84343

25.33646

30.43457

35.56317

38.88514

41.92317

45.64168 48.28988

21.7494

26.33634

31.52841

36.74122

40.11327

43.19451

46.96294 49.64492

22.65716

27.33623

32.62049

37.91592

41.33714

44.46079

48.27824 50.99338

23.56659

28.33613

33.71091

39.08747

42.55697

45.72229

49.58788 52.33562

24.47761

29.33603

34.79974

40.25602

43.77297

46.97924

50.89218 53.67196

S-ar putea să vă placă și