Documente Academic
Documente Profesional
Documente Cultură
Facultatea de Filosofie
CUPRINS
STATISTIC
2001
const n faptul c n timp ce n cazul variabilelor continue ntre dou valori succesive ale
variabilei pot exista o infinitate de valori, n cazul variabilelor discrete acest lucru nu se
ntmpl. Un exemplu de variabil continu este nlimea cldirilor unui ora masurat
n metri, iar un exemplu de variabil discret l reprezint veniturile indivizilor dintr-o
populaie, msurate n lei. n cazul primei variabile, ntre doua valori succesive ale
acesteia (de exemplu 5 i 6 m) exist o infinitate de alte valori deoarece metrii se
subdivid n centimetri, apoi n milimetri etc., n cazul veniturilor acest lucru nu mai este
posibil, ntre 5 lei i 6 lei nemaiexistnd subdiviziuni.
Nivelul de msurare al variabilelor este un alt criteriu de clasificare a acestora,
de o mare importan pentru studiul statisticii. Putem distinge ntre patru niveluri de
msurare (nominal, ordinal, de interval i de raport), n funcie de trei criterii:
a) posibilitatea de a ordona valorile variabilei,
b) egalitatea intervalelor dintre valorile variabilei (sau altfel spus existena unei uniti
de msur),
c) existena unei "origini" a variabilei sau, cu alte cuvinte, a unui "zero absolut".
Tabelul I.1 - Niveluri de masurare a variabilelor
Nominal
Ordinal
De interval
De raport
a) ordonare
nu
da
da
da
b) unitate de masur
nu
nu
da
da
c) zero absolut
nu
nu
nu
da
3. Msurarea la nivel de interval, ofer n plus faa de nivel anterior (cel ordinal) i
informaie referitoare la distana dintre valorile scalei i este caracterizat de existena
unor intervale egale. Totui, la acest nivel de msurare nu exist un zero absolut, ci
mai degrab unul convenional. Exemple de astfel de scale de msurare sunt
temperatura masurat n grade Celsius (intervalele dintre valori sunt egale, dar
punctul 0 este convenional ales ca fiind temperatura la care apa inghea),
coeficientul de inteligen - IQ - (daca dou persoane au scoruri de 100 i respectiv
150, putem spune ca diferena dintre cei doi este de 50 de puncte, dar nu putem spune
c cel de-al doilea este cu 1/2 mai inteligent dect primul sau c scorul 0 semnific
absena inteligenei).
4. Msurarea la nivel de raport include toate caracteristicile nivelurilor anterioare
(ordonare i intervale egale), plus existena unei "origini" sau zero absolut. Acest
lucru permite formularea unor afirmaii n termeni de proporii (raporturi) ntre valori.
De exemplu, vitezele de raspuns a doi subieci la un acelai stimul pot fi comparate n
termeni de "timpul de rspuns a fost de dou ori mai mare" etc.. Exemple de variabile
masurate la acest nivel sunt vrsta, greutatea, nlimea, distana, numrul de copii din
gospodrie etc.
Corecta identificare a nivelului de msurare utilizat este foarte important n alegerea
procedurilor satistice de analiz. Dup cum se poate observa din descrierea de mai sus,
pentru fiecare nivel exista operaii matematice permise i operaii interzise. Astfel, la
primul nivel, cel nominal nu sunt permise nici ordonarea, nici adunarea/scderea i nici
nmulirea/mprirea. La nivelul ordinal este permis numai ordonarea, la cel de interval
sunt permise n plus i operaiile de adunare/scdere, iar la ultimul nivel, cel de raport
sunt permise toate operaiile.
n funcie de nivelul de msurare, vom vorbi despre variabile msurate la nivel
nominal, variabile msurate la nivel ordinal etc., sau, mai pe scurt, variabile nominale,
ordinale, de interval i de raport. Reducnd cele patru clase la dou, putem vorbi de
variabile calitative (nivelurile nominal i ordinal) i variabile cantitative (interval i
raport). Datorita caracterului "ierarhic" i cumulativ al nivelurilor de msurare (de la
multe restricii ctre nici o restricie n ceea ce privete operaiile permise, sau de la
"calitativ" la "cantitativ"), vom putea ntotdeauna trata o variabil aflat la un nivel
"superior" de msurare ca i cum ar fi fost msurat la un nivel "inferior". De exemplu,
vrsta masurata n ani de via va putea oricnd fi tratat ca o variabil ordinal, dac i
grupm valorile (sub 20, 21-30, 31-50, peste 50). Niciodat ns nu vom putea trata o
variabil aflat la un nivel "inferior" ca pe una aflat "mai sus" n ierarhie. (Cteodat,
cercettorii fac excepie de la aceast regul, tratnd variabilele ordinale ca i cum ar fi
msurate la nivel de interval. Totui, o dat cu dezvoltarea unor noi tehnici de analiz,
dedicate special nivelelor de msurare "calitativ", aceste practici devin din ce n ce mai
rare.)
nainte de a ncheia aceast scurt introducere, ar mai fi necesare cteva cuvinte
despre utilizarea calculatoarelor n analiza statistic. Aplicaiile sau programele pentru
computer care pot fi utilizate sunt foarte numeroase, ele variind n funcie de
complexitatea analizelor pe care le pot efectua i n funcie de uurina n utilizare (sau
altfel spus n funcie de ct sunt de "prietenoase" cu utilizatorul). Pentru utilizatorii de
Microsoft Office, unul dintre cele mai la ndemn instrumente este MS Excel, care
poate efectua o serie de analize statistice - mai ales descriptive, fiind ns mai puin
"dotat" la capitolul statistic inferenial (totui exist module care i pot mbunti
performana n aceast privin). Dintre programele "dedicate" analizelor statistice, cel
mai rspndit la noi n ar pare a fi SPSS, datorit interfeei foarte prietenoase i deci
uurinei n utilizare. O alt variant, mai puin rspndit dar care are avantajul de a fi
complet gratuit i prietenoas este VISTA ( http://www.visualstats.org ). Dezavantajul
acesteia const n viteza relativ redus de lucru cu baze de date voluminoase (mai mult de
o mie de cazuri).
Bibliografie recomandat:
Capitolul 1
Descrierea variabilelor
De obicei, dup colectarea datelor printr-o cercetare (fie ea de tip recensmnt adic prin investigarea ntregii populaii, fie de tip sondaj - adic prin investigarea unui
eantion), informaia este organizat ntr-o baz de date care de cele mai multe ori are
forma unui tabel n care pe rnduri sunt aezate observaiile (unitile de analiz sau
indivizii statistici), iar pe coloane variabilele (de obicei prima variabil fiind un
"identificator" al subiecilor):
Tabelul 1.1: Baza de date coninnd indicatori demografici n mediul rural, la nivel de comune, 1998
codul
localitii
1071
2130
2309
2381
2577
2988
3039
3397
3459
3761
3805
3958
4008
4106
.
.
.
denumirea localitii
populaia (numr
de locuitori)
CIUGUD
2463
ALBAC
2259
ALMASU MARE
1873
ARIESENI
1940
AVRAM IANCU
2083
BERGHIN
2048
BISTRA
5385
BLANDIANA
1160
BUCIUM
2009
CENADE
1048
CERGAU
1756
CETATEA DE BALTA
3468
CIURULEASA
1463
CALNIC
3078
.
.
.
.
.
.
numr
nateri
26
31
21
24
19
23
57
6
13
11
26
57
18
52
.
.
.
numr
decese
34
30
35
24
35
45
74
24
31
11
34
48
18
54
.
.
.
numar
sosii
65
4
13
3
18
44
33
22
23
4
22
4
10
75
.
.
.
numr
plecai
22
45
20
20
28
24
84
10
22
14
25
63
29
28
.
.
.
Numarul de
frecvena (absolut)
locuitori n comun
54
1000 sau mai puini
379
1001-2000
651
2001-3000
602
3001-4000
391
4001-5000
267
5001-6000
145
6001-7000
87
7001-8000
110
peste 8000
2686
Total
frecvena relativ
(%)
2,01
14,11
24,24
22,41
14,56
9,94
5,40
3,24
4,10
100
frecvena relativ
cumulat (%)
2,01
16,12
40,36
62,77
77,33
87,27
92,67
95,90
100
Frecvente absolute
Tabelul 1.2 Distribuia de frecvene a numrului de locuitori n comun, pentru comunele Romniei
orizontal sunt reprezentate valorile variabilei analizate. Totui, cele dou tipuri de
grafice sunt utilizate difereniat: histograma este recomandat numai n cazul variabilelor
msurate la nivel de interval sau de raport, n timp ce diagrama-bar se folosete de
preferin pentru variabile nominale i ordinale. Aceast diferen provine din modul lor
de construcie:
- n cazul histogramei, fiecare bar nu reprezint o singur valoare a variabilei ci un
interval
de
valori.
n
Graficul 1.1 Histograma distanelor de la centrul comunei pn la
consecin,
limea
barei
cel mai apropiat ora cu peste 30 de mii de locuitori
variaz odat cu mrimea
400
intervalului, aceasta din urm
fiind
stabilit
de
ctre
cercettor. Valorile de pe axa
300
orizontal
a
graficului
reprezint centrele acestor
intervale. Histograma este
200
recomandat
n
cazul
variabilelor
"cantitative"
tocmai pentru faptul c acest
100
tip de variabile fie sunt
continue, fie au un numr
foarte mare de valori chiar dac
0
sunt
discrete.
Stabilirea
0
10
20
30
40
50
60
70
80
90 100 110 120 130 140
5
15
25
35
45
55
65
75
85
95 105 115 125 135
mrimii intervalelor nu este o
sarcin uoar: intervale prea
Distanta (km) pina la cel mai apropiat oras cu peste 30000 de locuitori
mari (adic bare puine) pot
duce la pierderea de informaie, n timp ce intervale prea mici (adic un numr prea mare
de bare) poate ascunde regularitile distribuiei.
- n cazul diagramei-bar, fiecare bar corespunde unei singure valori (categorii) a
variabilei. n plus, pentru a
Graficul 1.2 Diagrama bar - distribuia strii civile a capului de
evidenia faptul c datele nu
gospodrie ntr-un eantion de 32200 de gospodrii
sunt continue, barele nu sunt
100
lipite ntre ele, ca n cazul
histogramei.
80
60
Frecvente relative
acestui tabel vom introduce dou noiuni noi, i anume acelea de frecvene relative
respectiv frecvene cumulate (respectiv distribuie cumulativ). Prima coloan a
tabelului conine valorile variabilei "numr de locuitori", grupate n categorii. Cea de-a
doua coloan conine frecvenele de apariie ale acestor valori, sau cu alte cuvinte
numrul de observaii (n cazul nostru comunele) aflate n fiecare categorie. Putem deci
observa ca n 1998 n Romnia existau 54 de comune cu 1000 sau mai puini locuitori,
379 de comune cu 1001-2000 locuitori .a.m.d.. Ce-a de-a treia coloan a tabelului
conine frecvenele relative, adic ponderea sau proporia observaiilor din fiecare
categorie n totalul observaiilor. Putem afirma pe baza acestei informaii ca n Romnia
comunele cu mai puin de o mie de locuitori reprezint 2,01% din totalul comunelor, n
timp ce ponderea comunelor cu 1001-2000 locuitori este de 14,11% .a.m.d..
40
20
0
casatorit(a)
divortat(a)
uniune consensuala
necasatorit(a)
vaduv(a)
frecvente absolute
Modul este definit ca fiind valoarea cu frecvena cea mai mare a unei distribuii.
Altfel spus, modul este acea valoare a variabilei care apare cel mai des ntr-un
eantion sau ntr-o populaie.
Termenul deriv din francezul "mode", adic mod. n cazul distribuiei variabilei "starea
civil a capului gospodriei" reprezentat n Graficul 1.2, modul este valoarea
"csatorit()" (cu frecvena relativ 80%). De cele mai multe ori, pentru a simplifica
lucrul cu datele, valorilor variabilelor nominale li se acord convenional coduri
numerice. De exemplu, pentru datele din Graficul 1.2, putem acorda codul 1 pentru
valoarea "csatorit()", codul 2 pentru valoarea "uniune consensual", codul 3 pentru
valoarea "divorat()" etc.. Chiar dac aceste coduri sunt numerice, ele trebuie privite ca
nite simple simboluri convenionale. Utilizarea lor nu nseamn c valorile pot fi
ordonate sau c intervalele dintre valori sunt egale. n cazul n care valorile variabilei
"stare civil" ar fi fost codificate ca mai sus, modul ar fi fost valoarea (codul) 1.
Pentru datele din Tabelul 1.2, care prezint date grupate n intervale, vom vorbi
despre un interval modal - i anume categoria "2001-3000 locuitori", deoarece aceasta
este "valoarea" (de fapt intervalul de valori) cu frecvena cea mai mare (651).
Grafic, modul este valoarea variabilei creia i corespunde "vrful" distribuiei.
Dei simplu de obinut, modul Graficul 1.3 Distribuie bimodal - histograma variabilei
nu este ntotdeauna cea mai bun "nivel de educaie", pentru angajaii unei bnci
msur a tendinei centrale, deoarece
200
de multe ori depinde de gruparea
arbitrar a datelor (de exemplu, pentru
datele din Tabelul 1.2 am fi obinut un
alt mod dac datele ar fi fost altfel
grupate). De asemenea, nu rareori se
100
ntlnesc distribuii bimodale, n care
exist dou valori diferite ale variabilei
care apar cu o aceeai "cea mai mare"
frecven. Grafic, o distribuie
0
8
10
12
14
16
18
20
22
Mediana este acea valoare a unei variabile care mparte seria ordonat de date n
dou pri egale, astfel nct 50% din observaii se vor situa deasupra valorii
mediane iar 50% dedesubtul ei.
S lum de exemplu notele pe care 7 studeni le primesc la examenul de statistic (dup
ce le-am ordonat n prealabil de la minim la maxim): 5, 5, 6, 8, 9, 9, 10. Mediana acestei
serii de date este 8, deoarece ea divide seria de date n dou pari egale: 3 dintre studeni
(observaii) au note mai mici dect 8 i trei dintre ei au note mai mari. Nota 8 este exact
la "mijlocul" seriei de date (dup ordonare). Este important de reinut c ceea ce conteaza
pentru stabilirea medianei este numrul de observaii pe care se face analiza, i nu
numrul de valori ale variabilei.
Calculul medianei este relativ simplu atunci cnd avem de-a face cu un numr
mic i impar de observaii. Lucrurile se complic puin atunci cnd numrul de observaii
este par, sau dac numrul de observaii e foarte mare i e nevoie s apelm la tabele de
frecvene. Lucrurile se complic i mai mult dac datele de care dispunem sunt date
grupate n intervale, ca n Tabelul 1.2.
n cazul n care avem de-a face cu un numr par de observaii nu va mai exista o
singur valoare la mijlocul seriei de date, ci vom avea dou valori. n aceast situaie,
mediana se afl la mijlocul "distanei" dintre aceste valori, sau cu alte cuvinte, este media
lor. S presupunem c am dori sa calculm mediana pentru o serie de 8 studeni, deci un
numr par de observaii. Dup ordonare, datele arat astfel: 5, 5, 6, 7, 8, 9, 9, 10. La
mijlocul seriei se afl valorile 7 i 8. Mediana va fi deci 7,5.
Pentru situaiile n care suntem nevoii s calculm mediana pe baza datelor
oferite de un tabel de frecvene,
vom
utiliza
frecvenele Tabelul 1.3 Distribuia notelor pentru 80 de studeni
cumulate, i vom cuta acea
Nota Frecvene
Frecvene Frecvene relative
valoare a variabilei sub care se
absolute
relative (%) cumulate (%)
afl 50% din cazuri. Pentru
2
2,5
2,5
3
4
5
7,5
datele din Tabelul 1.3, 28,75%
4
7
8,75
16,25
5
din observaii iau valoarea 6
10
12,5
28,75
6
sau o valoare mai mic,
14
17,5
46,25
7
46,25% iau valoarea 7 sau mai
23
28,75
75
8
puin, iar 75% iau valoarea 8
14
17,5
92,5
9
sau o valoare mai mic.
6
7,5
100
10
Rezult de aici c nota Total
80
100
median nu poate fi 7 sau alt
not mai mic (deoarece numai 46,25% dintre studeni iau nota 7 sau mai puin).
Mediana va fi n consecin 8, deoarece, chiar dac avem un numr par de observaii,
ambele valori care se gsesc la mijlocul seriei de date sunt egale cu 8.
n cazul n care avem de-a face cu un tabel de frecvene care conine date grupate
n intervale de valori (aa cum este Tabelul 1.2), valoarea medianei poate fi calculat cu
ajutorul formulei:
N
nc
Me = l + 2
L
n
unde:
Me este mediana,
l este limita inferioar a intervalului care conine mediana
N este numrul total de observaii
nc este frecvena absolut cumulat a tuturor categoriilor care preced intervalul
care conine mediana (adic numrul de observaii care iau valori mai mici dect
l)
n este frecvena intervalului care conine mediana
L este lrgimea sau mrimea intervalului care conine mediana
Media este probabil cea mai important i totodat cea mai popular msur a
tendinei centrale a unei distribuii. Ea se calculeaz ca sum a tuturor valorilor
observate ale seriei de date mprit la numrul de observaii:
N
x + x 2 + x3 + ....... + x N
X = 1
=
N
x
i =1
unde:
X este media
xi reprezint valoarea variabilei pe care o ia observaia i
N este numrul total de observaii
(sigma) este simbolul folosit pentru a indica o sum
De exemplu, pentru cei 7 studeni de mai sus, cu notele 5, 5, 6, 8, 9, 9, 10, suma notelor
este 52, numrul total de observaii este 7, iar media va fi 52 mprit la 7, adic 7,43.
n cazul n care media trebuie calculat pe baza unui tabel de frecvene, formula devine:
k
X =
f
j =1
xj
unde:
k este numrul de categorii (valori) ale variabilei
fj reprezint frecvena de apariie a categoriei j
xj este valoarea categoriei j
N este numrul total de observaii
De exemplu, pentru datele din Tabelul 1.3, media este:
X=
2 3 + 4 4 + 7 5 + 10 6 + 14 7 + 23 8 + 14 9 + 6 10
= 7,31
80
Pentru cazurile n care media trebuie calculat pentru date grupate n intervale, ca n
Tabelul 1.2, se aplic formula de mai sus, considerndu-se ca "valori ale variabilei"
centrele de interval. Exemplu: pentru categoria "1001-2000 locuitori", centrul de interval
este (1001 + 2000) / 2 = 1500,5. Bineneles c, pentru un astfel de exemplu, la finalul
calculelor media se va rotunji, deoarece atunci cnd vorbim despre populaia unei
comune nu o putem exprima dect n numere ntregi. Atunci cnd avem de-a face cu date
grupate n intervale, probleme pot aprea la calculul centrului de interval pentru prima i
respectiv ultima categorie: n Tabelul 1.2, categoriile "1000 sau mai puini locuitori",
respectiv "peste 8000 de locuitori". Dac se ntmpl ca valoarea minim i respectiv cea
maxim a seriei de date s fie cunoscute, atunci nu exist practic nici o problem. Dac
aceste valori nu sunt cunoscute, rmne la latitudinea cercettorului s decid ce valori
urmeaz s atribuie respectivelor centre de interval.
Cnd folosim una sau alta dintre msurile tendinei centrale?
Decizia de a utiliza una sau alta dintre msurile tendinei centrale este strns
legat n primul rnd de nivelul de msurare a variabilelor. Aa cum ne putem da seama,
modul poate fi utilizat pentru toate cele patru niveluri de msurare. Mediana ns nu
poate fi utilizat dect pentru nivelele care permit o ordonare prealabil a datelor, adic
numai pentru variabilele ordinale, de interval i de raport. n ceea ce privete media,
aceasta poate fi calculat numai pentru variabilele masurate la ultimele dou nivele,
adic cel de interval i respectiv cel de raport, deoarece n cazul celorlalte nivele
operaiile de adunare/scdere a valorilor variabilelor nu sunt permise.
Un alt element important pentru a decide ce msur a tendinei centrale merit
folosit este existena observaiilor care au valori extreme. De fapt acest aspect este n
strns legatur cu forma distribuiei.
S considerm de exemplu distribuia consumului per capita al gospodriilor, aa
cum este ea reprezentat n Graficul 1.4. Media acestei distribuii este 103087 lei iar
mediana este 87354 lei lei (valorile sunt exprimate n preuri 1995). n ceea ce privete
modul, valoarea exact a acestuia nu are sens s fie calculat deoarece exist relativ
puine situaii n care mai multe gospodrii au exact aceeai valoare a consumului per
capita. Putem ns vorbi despre un interval modal, care se afl undeva n jur de 72000 lei.
Graficul 1.4 Distributia consumului per capita al gospodriilor
1400000
1200000
1000000
800000
frecvente absolute
600000
400000
200000
0
49 00
50
47 333
8
45 67
16
44 00
50
42 33
83
40 67
16
39 00
50
37 33
83
35 67
16
34 00
50
32 333
8
30 67
16
29 00
50
27 33
83
25 67
16
24 00
50
22 33
83
20 67
16
19 000
5
17 33
83
15 67
16
14 00
50
12 33
83
10 7
66
91 0
00
75 3
33
58 67
6
41 0
00
25
33
83
de gospodrii cu valori foarte mari ale consumului per capita, valori care "trag" media
spre dreapta (sau cu alte cuvinte conduc ctre o valoare mai ridicat a acesteia n raport
cu mediana).
n concluzie, putem afirma c modul nu e Graficul 1.5 Alungirea (oblicitatea)
o msur foarte adecvat a centrului unei distribuiilor
distribuii. El este util mai ales atunci cnd avem
de-a face cu variabile msurate la nivel nominal,
dar i n cazurile n care distribuiile studiate sunt
bi- sau multi-modale. Mediana este indicat mai
ales n cazurile n care dorim identificarea
"valorilor tipice" ale unor distribuii asimetrice
(vezi Graficul 1.5, b i c), care au valori extreme.
Media, pe de alt parte, prezint marele avantaj
de a lua n calcul toate valorile unei serii de date.
Aceasta este unul din motivele pentru care ea
continu s fie cea mai utilizat msur a (a) modul, mediana i media coincid (se
tendinei centrale. n plus ea mai are i alte suprapun)
proprieti utile, care vor fi discutate n capitolele
urmtoare.
Poziiile relative ale modului, medianei i mediei
Graficul 1.5(a) prezint o distribuie
simetric, n care modul, mediana i media
coincid, adic au practic aceeai valoare. Ce se
ntmpl n cazul distribuiilor asimetrice? De
exemplu, Graficul 1.5 (b) prezint o distribuie a
crei parte din dreapta este alungit. Pentru a
gsi mediana, va trebui s ne deplasm la dreapta
"vrfului" distribuiei, adic a modului, cu cteva
observaii. Mediana se va afla deci la dreapta
modului. Mai mult dect att, datorit influenei
exercitate de cazurile aflate la extrema dreapt a
distribuiei, valoarea medie va fi i mai mare
dect valoarea median, aa cum am vzut de
altfel i n exemplul distribuiei consumului
gospodriilor. Putem deci trage concluzia c fa
de mod, mediana se va gsi n direcia alungirii
distribuiei, iar media se va gsi n aceeai
direcie, chiar mai departe dect mediana.
2.2.2 Msuri ale variaiei
Msurile tendinei centrale sunt eseniale pentru descrierea unei caracteristici a
unui eantion sau a unei populaii, ns ele nu sunt suficiente. Pentru descrierea complet
a unei variabile este foarte important s tim deasemenea i ct de "mprtiate" sunt
valorile acesteia n jurul tendinei centrale sau, cu alte cuvinte, ct de omogen respectiv
eterogen este populaia (eantionul) studiat n raport cu o anumit caracteristic. S
lum ca exemplu performana la o anumit materie a unei grupe de 80 studeni, msurat
cu note de la 1 la 10 (datele sunt prezentate n Tabelul 1.3). Nota medie a respectivei
grupe este 7,31. Aceast informaie ns pare a fi insuficient pentru a ne putea pronuna
asupra performanei respectivei grupe. ntrebarea pe care ne-o punem n mod natural este:
ct de omogen este respectiva grup n ceea ce privete performana colar?
(x
i =1
X ) = 0 (sau cu alte
O alt msur, mult mai rspndit, este variana variabilei. Variana (sau dispersia)
se definete ca fiind media aritmetic a ptratelor abaterilor individuale de la medie:
1
Varianta = ( xi X ) 2
N
Din motive teoretice care nu vor fi expuse n acest manual, pentru calcularea varianei
la nivel de eantion se folosete formula:
1
s2 =
( xi X ) 2 ,
N 1
iar pentru date grupate n tabele de frecvene (ca n Tabelul 1.3):
1
s2 =
(x j X )2 f j
N 1
unde:
xj este valoarea variabilei pe care o ia grupa j
fj este frecvena absolut de apariie a lui xj
Deoarece variana, datorit ridicrii la ptrat, este destul de dificil de interpretat, cea
mai utilizat msur a variaiei unei variabile, pentru scopuri descriptive, este
abaterea standard, definit ca radical de ordinul doi (rdcin ptrat) din varian:
s = s2
Din formula abaterii standard reiese clar c abaterea standard va fi cu att mai
mare cu ct valorile pe care le iau observaiile se abat mai mult de la medie. S
considerm de exemplu notele la o materie a dou grupe mici de elevi, ambele serii de
date avnd media 6 i amplitudinea 8:
Grupa 1:
Grupa 2:
2, 4, 6, 6, 8, 10
2, 2, 5, 7, 10, 10
ntrebarea pe care ne-o putem pune este: ct de omogene sunt cele dou grupe?
Calculul abaterilor standard arat c n prima grup s1 = 2,8, iar n a doua s2 = 3,6. Este
clar deci c prima grup e mai omogen dect a doua, n care variabilitatea performanei
e mai mare.
n exemplul de mai sus am comparat dou grupe de subieci din punct de vedere
al omogenitii pentru o aceeai caracteristic. ns atunci cnd trebuie analizm
omogenitatea unei singure populaii sau a unui eantion apar ntrebari al cror rspuns e
mai dificil de dat: "cum interpretm magnitudinea abaterii standard?", "cnd putem spune
c avem o abatere standard mic sau una mare?", "cum putem compara omogenitatea
unei populaii pentru dou variabile diferite?". Practic, rspunsul la prima ntrebare
depinde n mare msur i de alte caracteristici ale distribuiei. Pentru un anumit tip de
distribuii interpretarea magnitudinii abaterii standard este mai uoar, i acest lucru va fi
tratat n Capitolul 2 al acestui manual. n cazul celorlalte dou ntrebri un rspuns
satisfctor poate fi dat cu ajutorul unei alte msuri, numite coeficient de variaie,
calculat ca raport ntre abaterea standard i media unei varibile:
CV =
s
X
valorile ratei omajului n judeul Brila pentru anii 1995 i 1997, precum i mediile i
abaterile standard ale ratelor omajului pe judee n anii menionai. Dac ne vom uita la
evoluia omajului numai pentru judeul analizat, vom sesiza o cretere considerabil a
ratei omajului, fr s putem spune nimic ns despre evoluia acesteia n raport cu
evoluia celorlate judee. Standardizarea celor doua variabile (rata omajului n 1995,
respectiv rata omajului n 1997) ar putea s ne ofere informaii n plus. Standardizarea
valorilor unei variabile X se face dup formula:
zi =
xi X
s
unde:
zi este valoarea pe care o ia observaia i dup transformarea variabilei
xi este valoarea pe care o ia observaia i pentru variabila X
X este media variabilei X
s este abaterea standard a variabilei X
Rezultatul acestei transformri va fi o nou variabil Z care va avea ntotdeauna media
egala cu 0 i abaterea standard egal cu 1, datorita formulei de calcul. Practic, putem
spune c unitatea de msur a noii variabile Z este chiar abaterea standard a variabilei X.
Scorurile z ne vor informa asupra distanei la care se gasete o observaie fa de media
seriei de date, distan msurat n abateri standard ale variabilei originale X. Este
important de reinut faptul c aceast transformare nu modific n nici un caz forma
distribuiei variabilei. Dac aplicm formula de mai sus pe datele din exemplul nostru
vom obine valorile standardizate ale ratelor omajului n 1995 i 1997 din judeul Brila:
zs95B = 0,32 i respectiv zs97B = 1,49
De aici rezult c n 1995 judeul Brla se gsea la numai 0,32 abateri standard fa de
media omajului pe judee, iar n 1997 omajul n respectivul jude era cu 1,49 abateri
standard mai mare dect media, ceea ce poate fi interpretat ca o nrutaire semnificativ
a poziiei relative a acestui jude n privina ocuprii forei de munc.
2.4 Variabile dihotomice
n ultima seciune a acestui capitol ne vom ocupa de un tip mai special de
variabile, i anume variabilele dihotomice sau binare, adic variabile care au dou valori
posibile. Exemple de astfel de variabile sunt intenia de a fi prezent la vot (da/nu),
succesul sau eecul unui program de dezvoltare etc. Acest tip de variabile sunt deosebit
de utile n practica analizelor statistice deoarece, la limit, ele pot fi considerate ca fiind
msurate la nivel de raport. Dac vom codifica valorile unei astfel de variabile cu 0
respectiv 1 vom obine o variabil care practic msoar prezena sau absena
caracteristicii studiate (intenia de a se prezenta la vot, succesul programului de
dezvoltare etc.). Ele vor avea deci un 0 absolut (absena caracteristicii) i o unitate de
msur (prezena caracteristicii). n aceste condiii ne putem ntreba cum se calculeaz
media i respectiv abaterea standard ale acestor variabile.
Dac lum ca punct de plecare formula de calcul a mediei pentru date grupate
prezentat n seciunea 2.2, atunci vom avea:
k
X =
f
j =1
xj
=
f 0 0 + f1 1 f 1
=
= p,
N
N
unde f0 este frecvena absolut de apariie a lui 0, iar f1 este frecvena absolut de apariie
a lui 1. Cu alte cuvinte, media unei variabile dihotomice este chiar frecvena relativ de
apariie a valorii 1 (numrul de observaii care iau valoarea 1 mprit la numrul total de
observaii ale seriei de date), adic frecvena relativ (notat aici cu p) a cazurilor n care
caracteristica studiat este prezent. Dac analiza este efectuat pe o populaie i nu pe un
eantion, atunci vom spune c media unei variabile dihotomice este chiar probabilitatea
de apariie a caracteristicii studiate (aceasta ns numai n cazul n care respectiva
variabil este codificat 0/1).
Similar cu demonstraia n cazul mediei, se poate arta ca formula abaterii
standard pentru o variabil dihotomic este:
s=
p (1 p ) ,
1.
2.
3.
4.
tendintei centrale
variatiei
formei distributiei
nici una dintre acestea
3.
1.
2.
3.
4.
5.
media
quartila 2
modul
abaterea standard
nici una dintre acestea
4.
1.
2.
3.
4.
5.
Capitolul 2
Distribuii de probabilitate
rezultate mult mai complex. S considerm de exemplu un experiment care const din
aruncarea repetat de trei ori a unei fise colorate cu albastru pe o parte i cu galben pe
cealalt. Un rezultat posibil al acestui experiment ar fi AGA, adica albastru, galben,
albastru (culoarea feei cu care fisa cade n sus). Care este probabilitatea acestui rezultat?
Teoretic, ar trebui s repetm acest experiment de milioane i milioane de ori i s
calculm frecvena relativ de apariie a respectivului rezultat. Mai simplu ar fi ns s
recurgem la un experiment mental. Care sunt rezultatele posibile ale acestui experiment?
Iat o listare a lor: AAA, AAG, AGA, AGG, GAA, GAG, GGA i GGG, adic 8
rezultate. S presupunem c fiecare fa a fisei are aceeai probabilitate de apariie;
aceasta nseamn c fiecare din rezultatele menionate va avea aceeai probabilitate, adic
1/8. Deci, probabilitatea rezultatului AGA este 1/8. Putem fi ns interesai de un subset
al setului complet de rezultate, sau cu alte cuvinte de un anumit eveniment, cum ar fi "cel
puin de doua ori galben". Acest eveniment este format din subsetul de 4 rezultate {AGG,
GAG, GGA, GGG}. Care este probabilitatea acestui eveniment? Rspunsul intuitiv i
corect este 4/8. Cu alte cuvinte, probabilitatea unui eveniment este suma probabilitilor
rezultatelor incluse n acel eveniment.
Evenimente combinate
S presupunem acum c ne intereseaz probabilitatea de apariie a urmtoarei
combinaii: "mai puin de dou ori galben sau toate de aceeai culoare". S notm cu J
evenimentul "mai puin de dou ori galben" i cu H evenimentul "toate de aceeai
culoare". Evenimentul J include rezultatele {AAA, AAG, AGA, GAA}, iar evenimentul
H include rezultatele {GGG, AAA}. Evenimentul "J sau H", care ne intereseaza pe noi va
include deci rezultatele {AAA, AAG, AGA, GAA, GGG} i va avea probabilitatea 5/8,
deoarece avem 5 rezultate din 8, iar rezultatele n exemplul nostru au probabiliti egale
(1/8). Putem deci defini evenimentul "J sau H" ca fiind acel subset de rezultate care sunt
incluse fie n J, fie n H, fie n amndou. Similar, vom defini evenimentul "J i H" ca
fiind acel subset de rezultate care se gsesc att n J ct i n H (n cazul nostru e vorba
de {AAA}, deci probabilitatea lui "J i H" este 1/8). Conform exemplului de mai sus, am
putea scrie:
Pr(J sau H) = Pr(J) + Pr(H) - Pr(J i H),
deoarece n exemplul de mai sus nu am numrat de dou ori rezultatul {AAA}, ci numai
o dat. Cu alte cuvinte, scderea probabilitii lui "J i H" a fost facut tocmai pentru a
elimina dubla numrare a unor rezultate. n cazul n care avem de-a face cu dou
evenimente, s zicem I i K, mutual exclusive, adic Pr(I i K) = 0, atunci
Pr(I sau K) = Pr(I) + Pr(K)
Probabiliti condiionate
S presupunem acum c n timpul celor 3 aruncri (deci pe parcursul
experimentului) se tie c a aprut evenimentul J (mai puin de dou apariii ale feei
galbene pe parcursul celor trei aruncri ale fisei). Care este probabilitatea ca H s se
ntmple? - adic la toate aruncrile s apar aceeai culoare. Cu alte cuvinte, dac ar fi s
ne imaginm foarte multe repetiii ale experimentului i s luam n considerare numai
Pr( J si H )
Pr( J )
a) Pr (S) = 0,078 + 0,072 = 0,15, sau cu alte cuvinte, rata omajului n respectivul ora
este de 15%. La acelai rezultat am fi ajuns i dac am fi calculat probabilitatea de a fi
omer mprind numrul total de omeri (15600 + 14400) la totalul populaiei de
vrst activ (200000).
Pr( S si F ) 0,078
b) Pr( S F ) =
=
= 0,15
Pr( F )
0,52
Deoarece probabilitatea calculat la punctul a) este egal cu probabilitatea calculat la
punctul b), putem spune ca probabilitatea de a fi omer (S) nu este afectat de faptul c o
persoan este femeie (F). Acest tip de independen, definit n termeni de probabiliti,
se numete independen statistic. Putem acum s dm definiia exact a independenei:
L se numete independent statistic de M dac Pr(L|M) = Pr(L).
Consecina acestei definiii este foarte important: de aici rezult c dac avem doua
evenimente independente J i H, atunci:
Pr(J i H) = Pr(J)Pr(H|J) = Pr(J)Pr(H).
Independen
Mai mult dect att, dac H este independent de J, atunci i J trebuie s fie
independent de H.
2.2 Variabile aleatoare
problema de la nceputul seciunii - numrul de fete pe care o familie cu trei copii l poate
avea - trebuie s obinem distribuia de
probabiliti a variabilei aleatoare "numr de Tabelul 2.3 Distribuia variabilei
aleatoare X = numr de fete
fete" (notat cu X). Tabelul 2.3 prezint aceast
x
p(x)
distribuie. Probabilitatea ca o familie s nu aib
0
0,166
nici o fat este Pr(BBB) = 0,166; probabilitatea
1
0,408
2
0,334
ca o familie s aib o singur fat este Pr(BBF) +
3
0,091
Pr(BFB) + Pr(FBB) = 0,136*3 = 0,408 .a.m.d.
totalul nu este exact egal cu 1 datorit
O variabil discret aleatoare este deci acea Not:
rotunjirilor
variabil X care ia diferite valori x cu
probabiliti specificate de distribuia sa de
probabilitate p(x).
Cazul variabilelor continue
Pentru o variabil continu exist un continuum
de valori posibile. n capitolul 1, Graficul 1.1,
am reprezentat histograma distanelor de la
centrul comunei pn la cel mai apropiat ora
cu peste 30de mii de locuitori, folosindu-ne de
intervale de valori. S ne imaginm acum c
lum o variabil continu aleatoare i o
reprezentm ca n Figura 3.1(a), astfel nct
suma ariilor tuturor barelor histogramei s fie
egal cu 1 (100%). Un astfel de grafic se
numete densitate a frecvenelor relative. Dac
numrul de observii este foarte mare,
frecvenele relative vor tinde ctre probabilitate
i, n acelai timp, vom putea utiliza intervale
din ce n ce mai mici, adic bare din ce n ce
mai nguste. n Figura 3.1(c) se poate vedea
cum
densitatea
frecvenelor
relative
aproximeaz o curb, cea a lui p(x), pe care o
vom numi de acum nainte distribuie de
probabilitate. Ariile de sub curb reprezint
probabiliti, iar aria total este egal cu 1
(deoarece probabilitatea variaz ntre 0 i 1, iar
suma tuturor probabilitilor este egal cu 1).
Distribuia n populaie a unei variabile nu este
nimic altceva dect distribuia de probabilitate
a valorilor pe care o observae extras la
ntmplare din acea populaie le poate lua
pentru respectiva variabil. De exemplu, dac
ntr-o populaie frecvena relativ a persoanelor
cu o nalime de 1,7 metri este 20%, atunci
probabilitatea ca un individ extras la ntmplare
(a)
(b)
(c)
Distribuia normal
n cazul multor variabile aleatorii distribuia de probabilitate are o form specific,
simetric, n form de clopot, i cu anumite proprieti particulare, care vor fi prezentate
mai jos. Acest tip de distribuie se numete distribuie normal i este reprezentat n
Figura 3.2 (mpreun cu formula matematic, care este ns fr importan pentru
obiectivele acestui curs). De fapt este vorba despre o familie de distribuii, caracterizat
de parametrii i (medie i abatere standard). Principala proprietate a acestei familii de
distribuii este aceea c pentru orice numr constant z, probabilitatea concentrat la
dreapta lui + z este aceeai
Figura 3.2 Distribuia normal a unei variabile
pentru
toate
distribuiile
normale. Datorit faptului ca
distribuia
este
simetric,
probabilitatea concentrat la
dreapta lui + z este egal cu
probabilitatea concentrat la
stnga lui - z. Cu alte cuvinte
aria de sub curb aflat la
dreapta lui + z este egal cu
aria aflat la stnga lui - z.
Cnd
z
=
1,96
(adic
aproximativ 2), aria cuprins
ntre - z i + z este egal cu 0,95. Cnd z = 1 (ca n Figura 3.2) aria cuprins ntre
- z i + z este egal cu aproximativ 0,68. Mai mult, n cazul distribuiei normale
aproape toat aria de sub curb este cuprins ntre ntre - 3 i + 3 (z=3). Acest gen
de informaie este foarte util: s presupunem c scorurile unor elevi ai unei clase, notai
pe o scal de la 0 la 100, sunt normal distribuite n jurul mediei 60, cu o abatere standard
de 5 puncte. Aceasta nseamn c 68% dintre elevi au note ntre 55 i 65, iar 95% dintre
ei au note ntre aproximativ 50 i aproximativ 70. Sau, mai corect spus, probabilitatea ca
un elev extras la ntmplare din respectiva grup s aib un scor ntre 50 i 70 este de
0,95. Dac notele elevilor nu a fi avut o distribuie normal, ci ar fi avut, s zicem, o
distribuie alungit spe stnga, probabilitatea ca un elev s aib un scor cuprins ntre
anumite limite ar fi fost extrem de dificil de calculat (practic ar fi trebuit calculat aria de
sub curb dac respectiva distribuie nu ar fi putut fi aproximat de nici o form
funcional cunoscut).
Aa cum am mai artat, n realitate exist o familie de distribuii normale, fiecare
caracterizat de o medie i o abatere standard . De exemplu, greutile locuitorilor
unui ora ipotetic se distribuie normal cu media 56 kg i abaterea standard 18 kg;
nlimile copiilor dintr-o coal se distribuie normal cu media 1,5 m i abaterea standard
10 cm etc.. Proprietile distribuiei normale ne permit ca pentru fiecare din aceste
variabile s gsim exact probabilitatea ca un anumit individ s aib o greutate mai mare
de, s zicem, 64 de kg sau o nlime cuprins ntre 1,45 m i 1,57 m. Acest lucru se poate
face cu ajutorul unor tabele care conin ariile dintre i + z pentru diferite valori ale
lui z1. Deoarece proprietile distribuiei normale sunt aceleai indiferent de valoarea
mediei i abaterii standard, se apeleaz la un caz special al distribuiei normale, i anume
la distribuia normal normat sau standard. Aceasta este o distribuie normal cu media
0 i abaterea standard 1. n Anexa 1 a acestui manual este prezentat un tabel cu ajutorul
cruia pot fi calculate ariile dintre i + z pentru Figura 3.3 Aria dintre 0 i z
diferite valori ale lui z, n cazul distribuiei normale
normate. Deoarece n acest caz = 0 iar = 1, tabelul
conine practic aria cuprins ntre 0 i z (vezi Figura 3.3).
Aceast arie este practic aceeai cu aria cuprins ntre i
+ z n cazul oricrei distribuii normale (cazul general).
n continuare este ilustrat modalitatea de folosire a
tabelului (Anexa 1), pe care l vom numi de acum ncolo
pentru convenien "tabel z":
S ne ntoarcem la exemplul de mai sus i s calculm probabilitatea ca un elev s
obin un scor mai mare dect 70. Pentru aceasta este nevoie s calculm aria aflat la
dreapta valorii 70. Tabelul nostru ofer ns valoarea ariei aflate ntre valorile i + z.
Cum distribuia normal este simetric, aceasta nseamn ca aria aflat la dreapta mediei
este egal cu jumtate din aria totala aflat sub curb, adic cu 0,5 (deoarece aria total a
unei distribuii de probabilitate este ntotdeauna 1). Pentru a afla aria aflat la dreapta lui
70, va trebui s cutam n tabel aria cuprins ntre medie (60) i 70, i apoi s scdem
aceast arie din 0,5 (adic din toat aria aflat la dreapta mediei). Pentru a afla aria
cuprins ntre 60 (adic ) i 70 ( + z) adic , va trebui s aflm valoarea lui z:
+ z = 70, de unde z =
70 70 60
=
=2
Dac ne uitm atent la expresia utilizat mai sus pentru calcularea lui z vom vedea c
este practic aceeai cu formula scorului z prezentat n Capitolul 1 (ceea ce difer sunt
1
Unele manuale prezint tabele aria din dreapta lui + z, ns algoritmul de calcul al probabilitilor este
este acelai.
doar notaiile folosite pentru medie i abatere standard). Deci, ceea ce am fcut nu este
practic nimic altceva dect standardizarea cu scorul z a valorii 70. Nu ne mai rmne
acum dect s cautm n tabel aria cuprins ntre 0 i z. Tabelul este organizat n felul
urmtor: la capetele de rnd (n stnga) se gsesc valorile care corespund unitilor i
primei zecimale ale lui z; la capetele de coloan (sus) se gsesc valorile care corespund
celei de-a doua zecimale ale lui z. De exemplu, dac vom cuta valoarea 1,96, va trebui
s cutm rndul cu valoarea 1,9 i coloana cu valoarea 0,06 (adunate, aceste dou valori
dau exact 1,96). La intersecia rndului "1,9" cu coloana "0,06" vom gsi valoarea
0,4750, care este exact aria cuprins ntre 0 i z = 1,96, sau altfel spus probabilitatea ca o
observaie s ia o valoare cuprins ntre i + 1,96 (adic ntre medie i 1,96 abateri
standard).
S ne ntoarcem acum la exemplul nostru i s calculm aria cuprins ntre 0 i z = 2.
n tabel, la intersecia rndului 2,0 i a coloanei 0,00 se gasete valoarea 0,4772. Aceasta
este probabilitatea ca un elev ales la ntmplare s obin un scor ntre 60 i 70. Pe noi
ns ne intereseaz care este probabilitatea ca
Figura 3.4 Probabilitatea ca un elev ales la
un elev s obin un scor mai mare de 70,
ntmplare s obin un scor mai mare de 70
adic aria din dreapta lui z = 2. Pentru a o
obine va trebui s efectum scderea 0,5 0,4772, ceea ce are ca rezultat 0,0228. Dac
am fi interesai s aflm i probabilitatea ca un
elev s obin un scor mai mic dect 50 (adic
60 - 10) nu am avea nevoie de nici un calcul
suplimentar, deoarece datorit simetriei
distribuiei aria aflat la stnga lui z = -2 este
(a) distribuia normal, cazul general
egal cu aria aflat la dreapta lui z = 2.
S ncercm acum s recapitulm cu
ajutorul unui alt exemplu algoritmul de calcul
al unei probabiliti cu ajutorul tabelului z.
Exemplul 2.1
S presupunem c nlimile copiilor dintro coal se distribuie normal cu media 1,5 m
i abaterea standard 10 cm. Care este
probabilitatea ca copil extras la ntmplare s
(b) distribuia normal normat
aib o nime cuprins ntre 1,3 m i 1,4 m?
Pentru a rspunde, s convertim mai nti cele dou valori (1,3 m i respectiv1,4 m) n
scoruri z, pentru a msura distana lor fa de medie n abateri standard. Practic, aceast
convertire nseamn o transformare a distribuiei normale iniiale (cu media = 150 cm i
abaterea standard = 10 cm) ntr-o distribuie normal normat (cu media 0 i abaterea
standard 1).
z130 = ( 130 - 150)/10 = -2
z140 = (140 - 150)/10 = -1
(calculele de mai sus au fost fcute in cm)
Trebuie deci s gsim aria de sub curba distribuiei normale normate cuprins ntre -2
i -1. Aria cuprins ntre -2 i 0 este egal cu aria cuprins ntre 0 i 2, i conform
tabelului z are valoarea 0,4772. n acelai mod gsim i aria dintre -1 i 0, care este egal
cu 0,3413. Cum pe noi ne intereseaz aria dintre -2 i -1, vom efectua scderea 0,4772 -
0,3413= 0,1359. Deci, probabilitatea ca un elev selectat la ntmplare s aib ntre 1,3 i
1,4 metri nlime este de aproximativ 0,14.
Dac notm nalimea cu X, atunci afirmaia de mai sus se scrie:
Pr(1,3<X<1,4) = 0,1359
nainte de a ncheia acest capitol este necesar s atragem atenia asupra faptului c,
deoarece probabilitile pe care le putem calcula cu ajutorul distribuiei normale
reprezint de fapt arii, este practic lipsit de sens s ncercm s calculm Pr(X), pur i
simplu - de exemplu Pr(1,3) - deoarece aceasta ar nsemna s ncercm s calculm aria
unei drepte.
Exerciii i probleme
1. S presupunem c A i B sunt dou evenimente independente, cu Pr(A) = 0,6 i Pr(B)
= 0,2. Care este:
a. Pr (A|B)?
b. Pr ( A i B)?
c. Pr (A sau B)?
2. O anchet naional asupra cuplurilor arat c 30% din neveste urmreau un anumit
program de televiziune i la fel 50% dintre brbai. Mai mult, dac nevestele se uitau la
televizor probabilitatea ca i brbaii s urmreasc programul cretea cu 60%. Pentru un
cuplu aleator ales care este probabilitatea ca:
a.
b.
c.
d.
3. Dac X are valori normal distribuite n jurul unei medii de 16 i cu o abatere standard
de 5 s se calculeze:
a. Pr (X>20)
b. Pr (20<X<25)
c. Pr (X<10)
d. Pr (12<X<24)
4. Timpul necesar completrii unui test colar s-a dovedit a fi distribuit normal, n jurul
unei medii de 110 minute i avnd o abatere standard de 20 de minute.
a. Care este proporia studenilor care termin testul n dou ore (120 de minute)?
b. Cnd ar trebui terminat testul pentru a permite exact unui procent de 90% dintre
studeni s termine testul?
Capitolul 3
Eantionarea. Distribuia de eantionare. Intervale de ncredere
3.1 Cercetri selective: de la populaie la eantion
Cine va ctiga alegerile prezideniale sau parlamentare? Sunt femeile o
minoritate defavorizat n societile moderne? O politic public sau o decizie
administrativ produce modificri ale comportamentelor indivizilor vizai de acea politic
public sau de acea decizie? Cine este pentru i cine este mpotriva introducerii unor noi
msuri fiscale? Ct de popular este msura luat de autoritile dintr-o anumit unitate
administrativ de a construi o nou zon industrial? Toate aceste ntrebri au n comun o
caracteristic important i anume: se refer la populaii att de largi nct este practic
imposibil de obinut informaii cu privire la toate elementele care le compun. Cu situaii
asemantoare - imposibilitatea cuprinderii tuturor elementelor care compun un ntreg - se
confrunt i medicul care face analize de snge i care nu poate extrage tot sngele aflat
n organismul unui pacient pentru a l supune unei investigaii n laborator, cei care fac
analize ale unor elemente din mediul natural pentru a stabili nivelul de poluare, sau
cercettorul din tiintele naturale care taie un exemplar dintr-o specie de plante n scopul
efecturii unor analize n laborator.
Att n aceste situaii, ct i n multe altele de acest fel, problema care se pune este
aceea de a culege informaiile necesare pentru a analiza temele avute n vedere doar de la
o parte din indivizii care compun o populaie i nu de la ntreaga populaie. Din punct de
vedere tehnic, grupul sau mulimea de indivizi care constituie obiectul de studiu sau de
interes al cercettorului la un moment dat este denumit populaie, iar grupul mai mic de
indivizi de la care sunt culese informaiile necesare cercetrii este denumit eantion.
Setul de operaii cu ajutorul crora, din ansamblul populaiei vizate de cercetare, se
extrage o parte, numit eantion, parte ce va fi supus nemijlocit investigaiei2 este
desemnat ca fiind operaia de eantionare.
Decizia de a culege datele necesare unei cercetri de la un eantion sau de la o
populaie depinde de o serie de aspecte practice. Astfel, n unele situaii, dac timpul,
resursele financiare i umane nu constituie o problem sau dac populaia int nu este
foarte numeroas, atunci este multe mai avantajoas culegerea datelor de la toi indivizii
care compun o populaie vizat; n felul acesta se obine o imagine exact a problematicii
investigate. n alte situaii exist o serie de constrngeri care l impiedic pe cercettor s
ajung la toi indivizii care compun o populaie, aceste constrngeri se refer n primul
rnd la timp, resursele financiare i umane aflate la dispoziie, dispersarea georgrafic a
populaiei care urmeaz a fi cercetat, iar soluia cea mai la ndemn pentru a culege
informaiile necesare const selectarea unui eantion i investigarea indivizilor care l
compun. Din acest punct de vedere am putea spune ca eantionarea este un compromis
datorat insuficienei resurselor. Nu ntotdeauna este ns vorba numai de imposibilitatea
fizic de a culege informaii de la toi membrii unei populaii neajuns care n unele
situaii poate fi depit ci i de o lips de eficien practic spre exemplu, n cazul
cercettorului din tiinele naturale, care, dac ar tia toate exemplarele unei specii de
2
Traian Rotariu, Petre Ilu, Ancheta sociologic i sondajul de opinie, Ed. Polirom, Iai, 1997, p.122.
Pentru a exemplifica, s luam cazul unei unei caracteristici X ale unei populaii de
mrime N = 100.000. n populaie, caracteristica X va avea media , abaterea standard ,
i o anumit form a distribuiei. S presupunem acum c extragem un eantion de
marime n = 10 din respectiva populaie. n acest eantion, caracteristica va avea media
X 1 , abaterea standard s1 i, de asemenea, o anumit form a distribuiei, foarte probabil
diferit de cea din populaie. Dac vom mai extrage un eantion de mrime n = 10, vom
obine o alt medie, X 2 , o alt abatere standard, s2, i probabil i o alt form a
distribuiei. Dac vom extrage toate eantioanele posibile de marime n = 10 din populaia
de mrime N = 100.000, vom obine tot attea medii de eantion cte eantioane am
extras. Distribuia acestor medii se numete distribuie
Figura 3.1 Distribuii ale mediilor unor
de eantionare a mediei i dac mrimea eantionului eantioane aleatorii de mrime n = 30
este suficient de mare, atunci distribuia de
eantionare este ntotdeauna normal, chiar dac
valorile caracteristicii iniiale sunt sau nu normal
distribuite n populatia vizat. Mai trebuie precizat c
un eantion de marime n = 20 este de obicei suficient
de mare pentru ca cele afirmate mai sus s fie
adevrate. n Figura 3.1 sunt reprezentate distribuiile
de frecvene ale mediilor unor eantioane aleatorii de (a) 3 eantioane
mrime n = 30, extrase din aceeai populaie, pentru o
caracteristic oarecare. n situaia (a), avem mediile
primelor trei eantioane extrase, cte o medie pentru
fiecare eantion (observm 3 bare de aceeai nlime,
ceea ce nseamn c cele trei eantioane au medii
diferite). n situaia (b) observm c distribuia
frecvenelor relative ale celor 120 de medii de
eantion ncepe s se apropie uor de o distribuie
normal, iar n situaia (c), n care am extras 1100 de (b) 120 de eantioane
eantioane, histograma frecvenelor relative ale
mediilor aproximeaz foarte bine o distribuie
normal. Dac am fi continuat experimentul i am fi
extras toate eantioanele posibile de mrime n = 30
din respectiva populaie am fi obinut o distribuie de
probabilitate - i anume distribuia de eantionare a
mediei, cu toate proprietile unei distribuii normale.
S ne ntoarcem ns la problema noastr cu
media coeficientului de inteligen al elevilor: care e (c ) 1100 de eantioane
probabilitatea ca eantionul extras de noi s aib o
medie mult diferit de media n populaie? i ca s lum un exemplu concret, ne putem
ntreba: care e probabilitatea ca eantionul nostru s aib o medie egal cu 127 sau chir
mai mic dect att?
Pentru a rezolva aceast problem trebuie s apelm la o teorem, numit
Teorema limit central, care afirm c distribuia de eantionare a mediei, n cazul
eantioanelor simple aleatorii, este o distribuie normal a crei medie este chiar media
din populaie, , i a crei abatere standard, numit eroare standard, este egal cu
(unde este abaterea standard din populaie iar n este mrimea eantionului).
n
S ncercm acum o mic sintez a celor prezentate mai sus: mediile unei
caracteristici msurate pe multe eantioane pot fi privite ca formnd o nou variabil
pentru care vom putea calcula evident o medie
Figura 3.2 Distribuia de eantionare a mediei
i o abatere standard. n cazul n care
eantioanele extrase sunt simple aleatorii, cu
reintroducerea elementului extras n populaie
(acordnd deci o ans egal fiecrui element
de a fi extras), aceast nou variabil este
normal distribuit. Mai mult, valoarea medie a
noii variabile (media mediilor msurate pe
eantioanele extrase din populaia vizat) este
egal cu media din populaie a caracteristicii
vizate, iar abaterea standard a acestei noi
variabile este egal cu valoarea din populatie a
X1
X2
abaterii standard a variabilei urmrite,
mprit la rdcina ptrat din mrimea
eantionului. Abaterea standard a noii variabile este denumit eroare standard (e):
e=
Dac aa stau lucrurile, nseamn c datele problemei noastre arat acum astfel:
avem o distribuie de eantionare a mediei, care este normal, cu media = 132 i
abaterea standard (numit eroare standard)
=12/5 = 2,4. Deci rspunsul la
n
problema noastr se reduce la a calcula aria care se afl la stnga lui 127 de sub o curb
normal caracterizat de i e, calcule cu care suntem deja familiarizai din Capitolul 2:
Calculm mai nti scorul z pentru 127. S vedem ns mai nti cum arat
formula pentru zi n condiiile n care acum observaiile sunt medii de eantion, media
distribuiei este media caracteristicii n populaie, iar abaterea standard a distribuiei este
eroarea standard:
zi =
Xi Xi
=
e
n
Cazul proporiilor
e=
s
n
de unde reiese clar c cu ct vom avea un eantion mai mare cu att vom avea o eroare
standard mai mic, i deci intervale de ncredere mai mici, pentru acelai nivel de
ncredere.
Arlene Fink, How to Sample in Surveys, Sage Publications, Thousands Oaks, London, New York, 1995, p.1.
n practic, aceasta este una din primele ntrebri pe care i le pune orice cercettor
sau analist nainte de a se lansa ntr-un sondaj. Aa cum am mai menionat, mrimea
eantionului nu este dependent de mrimea populaiei. Stabilirea mrimii unui eantion
se face de obicei n funcie de resursele avute la dispoziie (timp, bani, resurse umane
etc.) i de nivelul de reprezentativitate pe care cercettorul dorete s l ating. Deducem
de aici c mrimea eantionului se va stabili n funcie de nivelul de ncredere pe care
care dorim s l atingem i de marja de eroare sau nivelul erorii limit de sondaj pe care
suntem dispui s le acceptm. De obicei, aceste decizii se iau plecnd de la ipoteza unei
populaii cu grad maxim de eterogenitate pe cteva caracteristici. Ipoteza eterogenitii
maxime este o precauie pe care cercettorul trebuie s i-o ia; este un fel de a se atepta
"la ce e mai ru". n cazurile n care abaterile standard n populaie ale caracteristicilor de
interes sunt cunoscute, se poate pleca de la acestea. n aceast seciune, vom exemplifica
cu ajutorul unei caracteristici dihotomice, pentru simplitatea calculelor:
Eterogenitatea maxim pentru o caracteristic dihotomic este atins atunci cnd
distribuia respectivei caracteristici n populaie este omogen, adic 50% - 50%.
Mrimea eantionului poate fi extras din formula erorii standard:
e=
e=
(1 ) / n
de unde,
n = (1 ) / e 2
dar = te, de unde rezult c e = /t
deci n = (1 ) t 2 / 2
Capitolul 4
Proceduri de eantionare
Unul dintre primele aspecte care trebuie luate n considerare atunci cnd se pune
problema realizrii unor cercetri practice este aceea a delimitrii populaiei care urmaz
a fi studiat. n acest context, prin populaie sunt desemnate toate elementele care pot
sau trebuie s fie studiate. Elementele pot fi indivizi umani, dar n acelai timp pot fi
gospodrii, coli, spitale, intreprinderi economice, orae, organizaii sociale sau
profesionale, ziare, articole de pres, discursuri ale unor oameni politici, etc. Indiferent
ns de cine sau ce constituie elementele populaiei vizate, aceasta trebuie s fie atent
delimitat n funcie de obiectivele cercetrii, ntruct rezultatele finale vor depinde de
acest punct de referin stabilit iniial. Spre exemplu, s ne imaginm c ntr-un ora se
pune problema adoptrii unui nou sistem de transport n comun, iar ceea ce ne intereseaz
este acordul sau dezacordul cetenilor cu privire la modul practic de realizare a acestuia.
n acest caz, populaia vizat este compus doar din cei care locuiesc n oraul respectiv?
sau trebuie avut n vedere i populaia care nu locuiete n ora, dar care ntr-o msur
sau alta beneficiaz de transportul n comun din acel ora? care este vrsta minim i
maxim a celor care vor fi chestionai?, etc. Intrebri asemntoare acestora se ivesc de
fiecare dat cnd se pune problema definirii unei populaii care urmeaz a fi cercetate, iar
de rspunsurile date vor depinde n mod evident rezultatele finale. Un prim pas n
definirea unei populaii vizate este acela de a stabili o populaie ideal, adic toi cei care
ipotetic ar trebui s fie luai n considerare atunci cnd se cerceteaz o problematic
anume. Dup care n funcie de constrngerile practice identificate spre exemplu, n
cazul n care elementele populaiei sunt indivizi umani, astfel de constrngeri ar putea fi
date de imposibilitatea de a i investiga pe cei aflai n nchisori, uniti militare, spitale,
hoteluri, n strintate, etc populaia ideal poate fi restrns la o populaie vizat care
poate fi abordat n cadrul cercetrii. Avantajele lurii n considerare n faza iniial a
unei populaii ideale este acela c excluderea unor segmente din aceasta este explicit, iar
neajunsurile rezultate de aici pot fi luate n considerare.
O dat stabilit populaia vizat, poate fi pus i problema alegerii unui eantion.
Pentru aceasta, elementele populaiei vizate sunt traspuse ntr-o list numit cadru de
eantionare, list din care vor fi extrase ulterior potrivit unor proceduri clar definite acele
elemente care vor compune eantionul. Spre exemplu, dac se realizeaz o anchet
telefonic al crui scop este investigarea modului n care dotarea cu utiliti publice a
unei localiti acoper necesitile existente, populaia ideal este constituit din toate
gospodriile care au acces la utiliti publice, iar cadrul de eantionare este format din
toate gospodriile care au acces la utiliti publice i au telefon. Constrngerea n acest
caz este dat de existena unui post telefonic n gospodrie. Gospodriile care au acces la
utiliti dar care nu au telefon neputnd fi investigate, populaia vizat este format doar
din acele gospodrii care au acces la utiliti publice i au telefon (Figura 1.). n exemplul
de fa, astfel de liste care s se constituie n cadru de eantionare pot fi evidene ale
companiilor funizoare de utiliti publice i liste ale abonailor la servicii telefonice din
localitatea avut n vedere.
lipsa unor elemente: fie lista este inadecvat n sensul n care iniial nu a fost
conceput pentru a include toate elementele care pot face la un moment dat obiectul
de interes al cercettorului, fie este incomplet, adic nu include din diferite motive
toate elementele care se presupune care c ar trebui s le includ;
referine la grupuri de elemente i nu la elemente individuale; spre exemplu, liste care
nu se refer la numrul de persoane ci la numrul de familii care locuiesc ntr-o
gospodrie, dar cercetarea vizeaz persoane i nu familii;
existena unor elemente straine, adic existena n list a unor elemente care din
diferite motive nu fac obiectul de studiu la un moment dat;
exitena unor duplicate: cnd unele elemente ale populaiei apar de mai multe ori pe o
list.
Figura 4.1. Cadrul de eantionare pentru selectarea unui eantion n vederea investigrii
printr-o anchet telefonic a gradului de satisfacere de ctre utilitile publice a nevoilor populaiei
unei localiti (exemplu ipotetic).
anuleaz ansele altor elemente care sunt exluse a priori ntruct nu au ansa de a se afla
la locul sau pe traseul pe care se deplaseaz cel care face selecia.
Pentru a evita aceste situaii ar trebui s avem o situaie clar a tuturor elementelor
care compun o populaie i s le putem identifica fr echivoc.
Aa cum am artat deja n paragraful anterior, n cazul procedurilor de eantionare
probabiliste fiecare element care compune o populaie trebuie s aib o ans diferit de
zero i calculabil de a face parte din eantion. Acesta este criteriul de baz n stabilirea
dihotomiei: eantioane probabiliste - eantioane neprobabiliste
De-a lungul timpului au fost dezvoltate o larg varietate de tehnici de eantionare,
dintre acestea cele mai frecvent ntlnite sunt: eantionarea simpl aleatoare, eantionarea
aleatoare prin stratificare, eantionarea cluster, eantionarea multistadial, eantionarea
pe cote, eantionarea tip bulgre de zpad. n cele ce urmeaz vom prezenta o serie de
aspecte legate de modul de aplicare a fiecreia dintre aceste proceduri de eantionare.
4.1.1 Eantioane probabiliste
acuratee acea caracteristic este mai mic n comparaie cu mrimea unui eantion extras
dintr-o populaie care este mai eterogen n raport cu aceeai caracteristic.
Mrimea subeantioanelor poate s pstreze proporia subpopulaiilor, situaie n
care vom vorbi de eantionare prin stratificare proporional. n felul acesta se asigur
pentru toate elementele populaiei vizate o ans egal de a fi selectate n eantion.
Exist ns i situaii n care este recomandat ca subeantioanele s nu pstreze
proporiile subpopulaiilor. Acest lucru se ntmpl mai ales atunci cnd unele
subpopulaii sunt reduse din punct de vedere numeric i n consecin, dac ar fi pstrate
proporiile, i subeantioanele ar fi formate dintr-un numr mic de elemente care nu ar
avea un nivel de reprezentativitate rezonabil. n aceast situaie se recurge la o stratificare
diproporionat a eantionului sau o stratificare ponderat, prin suprareprezentarea n
eantion a subpopulaiilor mai puin numeroase, urmnd ca la prelucrarea datelor aceste
abateri s fie corectate prin metode statistice. n aceast situaie ansele elementelor
aparinnd diferitelor subpopulaii de a intra n eantion sunt diferite: elementele care
provin din subpopulaiile mai puin numeroase avnd anse mai mari de fi selectai n
eantion dect elementele care provin din subpopulaiile mai numeroase.
Indiferent de modalitatea n care sunt constituite subeantioanele, pstrnd sau nu
proporiile, eantionarea prin stratificare presupune existena n momentul iniial al
punerii n practic a procedurii de eantionare a unei informaii suplimentare despre
populaia vizat n comparaie cu situaia n care este utilizat eantionarea simpl
aleatoare. Aceast informaie poate fi obinut cu ajutorul altor studii sau din alte surse de
informare cu privire la populaia vizat.
n ceea ce privete gradul de reprezentativitate al eantioanelor realizate prin
stratificare n comparaie cu gradul de reprezentativitte al eantioanelor simple aleatoare,
se admite n general c este mai bun. Mai clar spus, dintre dou eantioane de aceeai
mrime unul obinut prin eantionare prin stratificare iar altul prin eantionare simpl
aleatoare, se consider c primul are o reprezentativitate mai bun, n situaia n care
criteriile pe baza crora se face eantionarea au o legtur de tip statistic cu
caracteristicile care fac obiectul cercetrii.
condiii, selectarea elementelor care vor compune eantionul poate ncepe prin selectarea
grupurilor din care fac parte aceste elemente. Astfel, ntr-o prim faz sunt selectate
aleator o parte din grupurile populaiei vizate, dup care din fiecare grup selectat n prima
faz vor fi selectate tot aleator alte grupuri mai mici i aa mai departe pn cnd se
ajunge la nivelul elementului de baz din care este compus populaia vizat. Spre
exemplu, dac dorim s alegem un eantion din populaia unui ora, ntr-o prim faz
putem selecta cartiere din acel ora, apoi strzi, blocuri, apartamente i n cele din urm
persoanele care ne intereseaz. Dac toate elementele care fac parte dintr-un grup la un
moment dat sunt incluse n eantion, procedura de eantionare astfel definit este
denumit eantionare cluster. Dac doar o parte din elementele unui grup sunt incluse n
eantion, procedura de eantionare este definit ca multistadial.
Avantajul unei astfel de proceduri de eantionare l constituie costurile reduse n
raport cu celelalte proceduri prezentate pn acum, n sensul n care efortul i timpul
necesar identificrii unui element care va fi inclus n eantion este mult mai redus.
n ceea ce privete reprezentativitatea unui astfel de eantion, se consider n
general c, la volum egal, este mai puin repezentativ n comparaie cu un eantion
obinut prin stratificare sau n comparaie cu un eantion obinut prin procedee simple
aleatoare. Reprezentativitatea mai sczut este rezultatul eliminrii la diferite nivele a
unor grupuri de elemente din populaia vizat. Cu ct aceste grupuri care sunt eliminate
sunt mai mari i cu ct sunt mai diferite n comparaie cu grupurile care nu au fost
eliminate cu att este mai mare riscul de a grei.
Multe cercetri utilizeaz o combinaie ntre eantionarea multistadial (care este
mai uor de efectuat i ale crei costuri sunt mai reduse) i eantionarea stratificat (a
crei acuratee este mai mare). Astfel, selecia n cadrul fiecrui stadiu nu este o selecie
simpl aleatoare ci mai degrab o selecie aleatoare constrns de un criteriu de
stratificare. De exemplu, pentru un eantion naional nu vom selecta n primul stadiu
localitile prin metoda simpl aleatoare, ci vom folosi i un criteriu de stratificare - s
zicem mprirea n rural i urban.
4.1.2 Eantioane neprobabiliste
Alturi de aceste proceduri de eantionare probabiliste n practica de cercetare
sunt utilizate i o serie de tehnici mai puin riguroase n ceea ce privete selectarea celor
care vor compune un eantion. Lipsa de rigurozitate se refer mai ales la neacordarea
unei atenii speciale calculrii sau egalizrii anselor fiecrui individ din populaia vizat
de a face parte din eantion. Eantioanele obinute n acest fel sunt denumite eantioane
neprobabiliste. Astfel de eantioane se constituie n urmtoarele situaii :
persoane care se ofer voluntar pentru a fi investigae;
persoane care i desfoara activitatea ntr-o instituie anume care prezint interes
pentru cel care efectueaz cercetarea;
persoane care rspund la chestionare publicate n ziare;
persoane care apeleaz telefonic un post de radio sau de televiziune pentru a rspunde
la ntrebrile care sunt formulate de moderatorii unor emisiuni sau de ali participani
la emisiunile respective;
persoane intervievate pe strad sau n anumite spaii publice;
n cadrul acestor tehnici de eantionare neprobabilist cele mai des utilizate sunt
eantionarea pe cote i eantionarea tip bulgre de zpad.
Eantionarea pe cote
Eantionarea pe cote este probabil cea mai des utilizat procedur de eantionare
neprobabilist utilizat atunci cnd se lucreaz cu populaii numeroase. Din punct de
vedere al realizrii practice aceast procedur este similar eantionrii prin stratificare
prin aceea c populaia vizat este stratificat dup o serie de criterii ns n interiorul
straturilor indivizii nu sunt selectai aleator, ci selecia acestora este lsat la latitudinea
operatorilor de anchet. Acestora le sunt indicate numai anumite cote care indic
frecvena cu care s fie selectai subiecii care au anumite caracteristici. Spre exemplu
dac n populaia vizat avem 49% brbai i 51% femei i 20% au studii superioare iar
restul de 80% nu au astfel de studii, iar eantionul este format 1000 de persoane, atunci n
cadrul acetuia vor fi cuprini 490 de barbai i 510 femei, 200 de persoane cu studii
superioare i 800 de persoane care nu au absolvit nvmntul superior. n aceast
situaie dac sunt utilizai 10 operatori de interviu fiecria i se cere s chestioneze 49 de
brbai i 51 de femei, 20 de absolveni de nvmnt superior i 80 de persoane care au
absolvit o form de nvmnt alta dect facultatea. Pentru a se limita subiectivitatea
operatorilor n selecatarea celor care vor fi inclui n eantion se recomand stabilirea a
ct mai multor criterii de stratificare a populaiei vizate.
Avantajul unui astfel de procedeu de selecie este acela c nu necesit existena
unui cadru de eantionare, lucru care n unele situaii este greu de realizat, iar munca
operatorilor este mult uurat prin aceea ce nu trebuie s caute o persoan anume ci au
libertatea de a alege pe cine vor cu condiia deinerii anumitor caracteristici vizate de
cercetare.
Capitolul 5
Testarea ipotezelor statistice. Teste de semnificaie
O ipotez statistic este pur i simplu o afirmaie despre o populaie care poate fi
testat cu ajutorul unui eantion aleator. S ne amintim exemplul din seciunea 3.3
(Capitolul 3) n care un cercettor dorea s estimeze coeficientul mediu de inteligen
pentru elevii unei coli, pe baza unui eantion. S presupunem c respectivul cercettor
i-a demarat studiul cu ipoteza c n respectiva coal media coeficientului de inteligen
este de 125. Dup efectuarea studiului, respectivul cercettor a trecut la estimarea mediei
n populaia de elevi i a ajuns la concluzia c, pentru un nivel de ncredere de 95%,
media coeficientului de inteligen n coal este cuprins ntre 126 i 136. Deci, ipoteza
iniial, a unei medii n populaie de 125 nu este susinut de aceste rezultate, iar
cercattorul o va respinge. n general, orice ipotez care se afl n afara unui interval de
ncredere poate fi judecat ca fiind implauzibil i poate fi deci respins. Reiese de aici c
un interval de ncredere poate fi privit ca un set de ipoteze acceptabile. S ne ntoarcem
acum la cercettorul nostru i la modul n care a construit intervalul de ncredere. Aa
cum am reamintit deja, intervalul de ncredere a fost construit pentru un nivel de
ncredere de 95%. De aici putem deduce c exist o probabilitate de 5% ca cercettorul s
fi greit atunci cnd a respins ipoteza iniial, a mediei egale cu 125, sau, cu alte cuvinte,
c ipoteza a fost respins cu o probabilitate de eroare de 5% (0,05).
timp, dar numai 11% au aceeai opinie la un alt moment de timp. Problema care se pune
n aceast situaie este: ct de real sau de semnificativ este diferena ntre cele dou
grupuri cei chestionai la un moment de timp i cei chestionai la un moment de timp
ulterior? Este aceast diferen autentic sau sau este rezultatul fluctuaiilor fireti ale
eantionrii?
Adeseori observm diferene ntre rezultatele obinute atunci cnd se fac msurtori pe
dou eantioane diferite extrase din aceeai populaie. Intrebarea care se pune de aceasta
data este: exista distorsiuni in vreunul dintre esantioane? Cata incredere putem avea in
rezultatele unuia sau altuia dintre esantioane?
Toate aceste ntrebri sunt justificate ntruct, aa cum am artat n capitolul
dedicat eantionrii, eantioanele nu reproduc exact caracteristicile unei populaii, ci
exist o anumit diferen ntre valoarea unei caracteristici msurat pe un eantion i
valoarea aceleiai caracteristici msurat pe populaia din este extras eantionul. Cu toate
acestea de multe ori suntem pui n situaia de a trage concluzii cu privire la starea unei
populaii pornind de la msurtori efectuate la nivelul unui eantion, cu alte cuvinte se
pune problema de a face inferene de la eantion la populaie.
Testul Z
Z=
ab
e
e=
0,48
900
= 0,016
i
sau
= 0,48
e = 1,6%
Testul Student ( t )
Atunci cnd se pune problema de a compara valori ale unor caracterisitici dintre
care cel puin una este obinut prin msurtori efectuate pe eantioane de mrimi mici
(pna la 30 de indivizi) corespondetul testului Z este testul Student (t). Formula de calcul
a testului Student este identic cu aceea a testului Z:
t=
a b
e
sau
t=
estimat H 0
e
i dup formula:
(x
) + (x
x1
x2
La fel ca i n cazul testului Z i pentru testul Student sunt calculate diferite nivele
de probabilitate care reclam ns i specificarea numrului de grade de libertate, care se
calculeaz dup formulele:
respectiv
= n 1
= n1 + n2 2
Testele Z si Student sunt utilizate pentru a testa ipoteze care se refer la valori sau
parametrii (medii sau proporii), motiv pentru care sunt adeseori cunoscute i sub
denumirea mai larg de teste parametrice. Exist ns multe situaii n care ipotezele nu
pot fi testate utiliznd doar medii sau proporii. Acest lucru se ntmpla spre exemplu
atunci cnd datele cu care se lucreaz nu sunt de tip cantitativ. Exist apoi i alte condiii
care trebuiesc ndeplinite n cazul testelor parametrice - utilizarea unor eantioane mari
sau a unor eantioane extrase din populaii normal distribuite astfel nct i forma
distribuiei de eantionare s fie cunoscut - condiii care nu ntotdeauna pot fi
ndeplinite.
Pentru a depi acest tip de neajunsuri au fost construite i o serie de teste a cror
mod de operare nu presupune existen unor asumpii cu privire la populaia vizat sau cu
privire la datele pe care le avem la dispoziie despre aceasta. Acest tip de teste sunt
denumite teste non-parametrice. Unul dintre cele mai des utilizate teste de acest fel este
testul 2 (chi ptrat).
Scopul principal al acestui test este oarecum similar testelor Z i Student i anume
ncearc s ofere un rspuns ntrebrii: dat fiind o mulime de valori observate ale unei
caracteristici, modul de distribuire a acestor valori poate fi atribuit n ntregime
fluctuaiilor fireti ale eantionrii sau exist o serie de ali factori care influeneaz
aceast distribuire? n acest caz, pentru a rspunde la o astfel de ntrebare, punctul de
plecare este o ipotez nul care afirm c nu exist ali factori care s influeneze
distribuia valorilor observate ale unei variabile.
Pentru a ilustra modul de operare al testului 2 (chi ptrat) de concordan vom
utiliza exemplu urmtor. Fie urmtoarea situaie ipotetic: 100 de funcionari ai unei
instituii publice sunt ntrebai cu privire la ceea ce i nemulumete cel mai mult la locul
de munc, rspunsurile oferite avnd urmtoarele frecvene:
2 =
frecvena
24
10
27
11
28
2 = 15.50
2 =
i
4 2 10 2 7 2 9 2 8 2
+
+
+
+
20 20 20 20 20
(Oi Ai ) 2
Ai
(O
Ai ) = 0
Oi
24
10
27
11
28
Ai
20
20
20
20
20
Oi - Ai
4
-10
7
-9
8
2 =
(24 20) 2 (10 20) 2 (27 20) 2 (11 20) 2 (28 20) 2
+
+
+
+
20
20
20
20
20
Capitolul 6
Asocierea variabilelor calitative
Exerciii i probleme
1. Tabelul de mai jos clasific accidentele de munc ntr-o ntreprindere pentru luna
precedent n patru perioade egale ale zilei. Considerndu-l ca un eantion aleator
a. identificai valoarea p pentru H0 (conform creia probabilitatea de producere a
accidentelor este egal n orice moment al zilei)?
b. Poate fi respins ipoteza H0 la un nivel eroare de 5%?
Perioada din zi
8-10 a.m.
10-12 a.m.
1-3 p.m.
3- 5 p.m.
Numrul de accidente
31
30
41
58
2. ntr-o universitate mare profesorii brbai i femei au fost eantionai independent, i sau obinut urmtoarele observaii cu privire la salariile lor lunare:
(n sute de mii)
Brbai
16
19
12
11
22
Femei
9
12
8
10
16
Cum putem testa daca intre doua variabile calitative exista o relatie? Sa ne
imaginam de exemplu ca suntem interesati sa vedem daca impactul saraciei este acelasi
pentru diferite grupuri
Figura 6.1 Relatia dintre saracie si statut ocupational
din populatie, definite
starea de saracie a gospodariei
fie pe criterii spatiale
ne-saraca saraca total
(regiuni), fie pe criterii
Salariat
8341
2536
10877
statutul
de apartenenta etnica,
ocupational patron
172
17
189
religioasa etc., fie pe
al capului de pe cont propriu 466
367
833
baza
statutului
lor
gospodarie agricultor
1553
1294
2847
ocupational etc.. Primul
somer
709
795
1504
lucru pe care il trebuie
pensionar
12959
2456
15415
alta
226
163
389
sa il facem in momentul
Total
24426
7628
32054
in care ne punem o
a) frecvente absolute
astfel de intrebare este
starea de saracie a gospodariei
construirea unui tabel
ne-saraca saraca total
cu dubla intrare, numit
Salariat
77
23
100
statutul
si tabel de contingenta,
ocupational patron
91
9
100
in care valorile uneia
al capului de pe cont propriu 56
44
100
dintre variabile apar pe
gospodarie agricultor
55
45
100
(%)
coloane si valorile celei
somer
47
53
100
pensionar
84
16
100
de-a doua variabile apar
alta
58
42
100
pe randuri. In celulele
Total
76
24
100
unui astfel de tabel
b) frecvente relative (procente) pe randuri
putem avea patru tipuri
starea de saracie a gospodariei (%)
de informatii:
ne-saraca saraca total
a) freceventele
Salariat
34
33
34
statutul
absolute (numarul de
ocupational patron
1
0
1
indivizi din fiecare
al capului de pe cont propriu 2
5
3
gospodarie agricultor
celula
precum
si
6
17
9
somer
3
10
5
numarul
total
de
pensionar
53
32
48
indivizi care apartin
alta
1
2
1
diverselor categorii ale
Total
100
100
100
variabilelor)
c) frecvente relative (procente) pe coloane
b) frecventele relative
%
starea de saracie a gospodariei
pe randuri (care ne
ne-saraca saraca total
indica ce procent din
Salariat
26
8
34
statutul
categoria care defineste
ocupational patron
1
0
1
un rand apartine si
al capului de pe cont propriu 1
1
3
gospodarie agricultor
5
4
9
categoriei care defineste
somer
2
2
5
coloana) - de exemplu
pensionar
40
alta
1
Total
76
d) frecvente relative (procente) din total
8
1
24
48
1
100
aceast ntrebare trebuie s vedem cum ar trebui s arate distribuia n situaia n care nu
exist asociere, adica in situatia de independenta. Sa ne aducem aminte de notiunile de
probabilitati invatate in Capitolul 2. Am aratat acolo ca independenta se poate scrie in
urmatorul fel:
Pr(A si B) = Pr(A)Pr(B)
Sa vedem acum cum am putea aplica aceste cunostinte in cazul independentei intre doua
variabile. Sa consideram, in exemplul nostru, categoria celor de 25 de ani ca fiind
evenimentul T, iar categoria celor care sunt in favoarea unei schimbari a modului de
alocare a bugetului ca fiind evenimentul D. Care este probabilitatea ca evenimentele T si
D sa se intimple simultan? Daca cele doua evenimente ar fi independente, atunci
Pr(T si D) = Pr(T)Pr(D)
Dar cat sunt Pr(T) respectiv Pr(D)? Din datele noastre, din frecventele marginale, rezulta
ca
Pr(T) = 180/600, iar Pr(D) = 200/600
Deci, daca cele doua evenimente ar fi independente, atunci
Pr(T si D) = (180 x 200) / (600 x 600) = 1/10 = 10%
Cu alte cuvinte, numai 10% din cele 600 de persoane chestionate ar trebui sa se afle in
celula din stinga sus a tabelului (persoane care au sub 25 de ani si care sunt in favoarea
schimbarii). Sau mai exact spus, daca cele doua evenimente ar fi independente, frecventa
absoluta a acelei celule ar trebui sa fie de numai 60. Daca vom calcula in acest mod
frecventele pe care fiecare celula ar trebui sa le aiba in ipoteza independentei, am obtine
datele din tabelul de mai jos:
Frecvene ateptate in ipoteza independentei
cei cu vrsta sub 25
cei cu vrst ntre 26 i 45 de ani
cei cu varsta peste 45 de ani
Total
Da
60
66,67
73,33
200
Nu
66
73,33
80,67
220
Nu tiu
54
60
66
180
Total
180
200
220
600
Nu tiu
30
60
90
180
Total
180
200
220
600
2 =
2 =
2 = 99,11
unde j reprezint numrul de rnduri ale tabelului n care sunt dispuse frecvenele i k
reprezint numrul de coloane. In acest caz df = 4. n tabelul cu valori critice pentru 2
(Anexa 3) observm c unui nivel de probabilitate de 5% i 4 grade de libertate i
corespunde valoarea 9,488, valoare mai mic dect valoarea calculat a lui 2 . n aceast
situaie vom spune c ipoteza de nul a independentei dintre vrst i preferina pentru
schimbarea modului de alocare a veniturilor se respinge, cu o probabilitate de eroare de
0,05 (sau pentru un nivel de semnificatie de 5%).
Total
180
200
220
600
pentru grupa de vrst sub 25 de ani, vom prezice corect pe baza frecvenei
modale n 110 cazuri, i vom face erori n 70 de cazuri.
pentru grupa de vrst 26 - 45 de ani, vom prezice corect pe baza frecvenei
modale n 100 cazuri, i vom face erori n alte 100 de cazuri.
pentru grupa de vrst peste 45 de ani, vom prezice corect pe baza frecvenei
modale n 90 cazuri, i vom face erori n 130 de cazuri.
Nu tiu
30
60
90
180
e1 e2 380 200
=
= 0,47
380
e1
tinde s aib un rang mare i pentru variabila Y, iar indivizii cu ranguri mici pe variabila
X au de asemenea ranguri mici i pentru Y. asocierea negativ apare atunci cnd indivizii
cu rang mare pentru variabila X tind s aib ranguri mici pentru Y i invers. Dac o
msur a asocierii dintre dou variabile ordinale ia valoarea 0, atunci vom spune c cele
dou variabile sunt independente. Cu ct o relaie de asociere ntre dou variabile
ordinale va fi mai puternic, cu att msura asocierii va fi mai mare n valoare absolut
(mai aproape de 1). n cele ce urmeaz ne vom rezuma la a prezenta cteva noiuni de
baz care se refer la msurile de asociere ntre variabile ordinale i la a arta modul de
calcul pentru o astfel de msur.
O pereche de observaii se numete concordant dac individul care are un rang mai
nalt pe o variabil are un rang mai nalt i pe a doua variabil.
O pereche de observaii se numete discordant dac individul care are un rang mai
nalt pe o variabil are un rang mai cobort pe cealalt variabil.
S presupunem c avem 4 elevi, ierarhizai dup calificativele la dou materii:
Elevii
A
B
C
D
Materia X
Foarte bine
Bine
Satisfctor
Suficient
Materia Y
Bine
Foarte bine
Satisfctor
Suficient
a =
nc nd
nt
unde
nt este numrul total de perechi
nc este numrul de perechi concordante
nd este numrul de perechi discordante
n concluzie, pentru exemplul nostru (care este unul pur didactic), a = 4/6 = 0,66.
Aceasta a fost practic cea mai simpl ilustrare de msur de asociere a dou
variabile ordinale. n practic ns, lucrurile stau puin mai complicat, pentru c
deseori apar ceea ce se numesc ranguri "legate" sau egale. Acest lucru complic
destul de mult calculele i formulele, ns principiul rmne acelai, al comparrii
numrului de perechi concordante cu numrul de perechi discordante.
Exerciii i probleme
1. ntr-un studiu asupra modului n care ocupaia se asociaz cu educaia, s-a realizat
urmtorul eantion aleator de 500 de brbai anagajai.
Educaia
Funcionari
194
Ocupaia
Muncitori n
Angajai n
fabric
servicii
146
27
18
79
18
Agricultori
10
8
femei
barbati
total
somaj
da
nu
30%
30%
30%
total
70%
70%
70%
100%
100%
100%
Capitolul 7
Studiul relaiilor ntre variabile cantitative
Pentru a oferi explicaii sau pentru a realiza predicii este nevoie, cel mai adesea, s fie analizate
relaii ntre dou sau mai multe variabile: ntre cea a crei variaie ncercm s o explicm, numit i
variabila dependent, i una sau mai multe variabile independente.
S lum ca exemplu cazul unui program de reducere a omajului care urmeaz a fi analizat la finalul
aplicrii sale n mai multe localiti. ntr-un astfel de studiu, pot fi considerate drept uniti de analiz
localitile n care a fost aplicat programul, variabila dependent este diferena dintre rata somajului nainte
de aplicarea programului i rata omajului dup terminarea programului (DIF), iar suma alocat n program
unei localiti mprit la numrul de locuitori (SUM) este una dintre variabilele independente posibile, cu
ajutorul creia puteam ncerca s explicm de ce omajul a sczut mai mult n unele localiti dect n
altele.
Cunoscnd valorile luate de cele dou variabile, notate DIF i SUM, putem ncerca s aflm mai
multe lucruri despre relaia care le caracterizeaz:
1. Dac exist o legtur ntre valorile variabilelor; altfel spus, dac reuim s anticipm rezultatul
programului ntr-o localitate, cunoscnd care a fost suma alocat din program, mai bine dect n absena
acestei informaii.
2. Care este forma relaiei, n cazul n care aceasta exist. Sunt mai multe moduri de a descrie forma
relaiilor dintre variabile: acestea pot s fie liniare, atunci cnd valorile unei variabile tind s se modifice cu
o constant n condiiile n care valorile celeilalte variabile se modific cu o constant; Relaiile liniare pot
s difere prin nclinaia dreptei prin care sunt reprezentate. Relaiile neliniare pot fi i ele monotone, adic
pozitive sau negative. n exemplul considerat, este de ateptat ca relaia s fie pozitiv, adic unei sume mai
mari s i corespund o reducere mai accentuat a omajului. ns n plus fa de semnul relaiei--pozitiv
ori negativ--, este important de tiut ct de rapid este variaia variabilei DIF atunci cnd variabila SUM
i schimb valorile. Un program este cu att mai eficient cu ct, n medie, unei aceleiai creteri a
variabilei SUM i corespunde o cretere mai mare a variabilei DIF.
3. Care este intensitatea relaiei. Ct de bine putem prezice valorile variabilei dependente atunci cnd le
cunoatem pe cele ale variabilei independente?
4. Dac este posibil generalizarea rezultatelor. Cnd datele disponibile provin de pe un eantion de
localiti, poate fi extins rezultatul obinut pe aceste date la ntreaga mulime de localiti cuprins n
studiu?
5. Ct de mult temei avem s afirmm c relaia este de tip cauzal. Ar fi posibil ca existena unei relaii
ntre SUM i DIF s se datoreze unei a treia variabile, care nu este cuprins n analiz, i care le determin
pe amndou. Cum putem stabili dac scderea ratei omajului s-a datorat programului analizat, sau dac
scderea se datoreaz exclusiv altor factori?
Tehnicile statistice prezentate n capitolele anterioare ne permit adesea s rspundem unora dintre
ntrebrile formulate mai sus. n exemplul considerat ns, cele dou variabile au, foarte probabil, un numr
ridicat de valori fiecare, fapt care face dificil studiul relaiei dintre ele cu ajutorul unui tabel de asociere. O
soluie este aceea a reducerii numrului de valori prin recodificare. Astfel, am putea s includem ntr-o
aceeai categorie, notat cu "1", toate localitile n care suma cheltuit ca parte a programului, mprit la
numrul de locuitori, este ntre 0 i 1000 lei; ntr-o categorie notat cu "2" ar fi incluse toate localitile
pentru care valorarea variabilei SUM este ntre 1001 i 2000 de lei, etc.; n mod similar se procedeaz i
pentru variabila DIF.
Avnd prin recodificare un numr suficient de mic de categorii, relaia dintre cele dou variabile
poate fi analizat printr-un tabel de asociere. Se pot obine n acest mod, aa cum s-a vzut i n Capitolul 6,
informaii despre existena unei relaii ntre variabile, despre forma relaiei, precum i despre posibilitatea
generalizrii de la eantion la ntreaga mulime de localiti.
Acest procedu are ns un inconvenient major: o parte a informaiei iniiale este ignorat, iar rezultatul
analizei este influenat de modul n care este fcut recodificarea. ntrebarea care se pune n mod justificat,
i care nu are un rspuns satisfctor, este "cum trebuie definite categoriile reduse ale variabilei iniiale?",
pentru c evident avem mai multe opiuni posibile: am putea, de exemplu, include n prima categorie toate
localitile pentru care SUM ia valori ntre 0 i 1500, ori cele ntre 0 i 1600.
Cazul urmtor ilustreaz faptul c recodificarea unor variabile cantitative cu multe categorii poate s
schimbe rezultatele analizei statistice.
Fie X i Y dou variabile de raport, avnd cte 10 valori. Fiecare dintre cele dou variabile este
transformat prin recodificri diferite n trei variabile: X1, X2, X3, respectiv Y1, Y2, Y3. Noile
variabile au cte 3 valori, iar relaiile dintre variabilele care provin din X cu fiecare dintre variabilele
care provin din Y sunt analizate cu ajutorul unui indicator care corespunde tabelelor de asociere,
Lambda. Valorile acestor indicatori sunt reprezentate n urmtorul tabel:
x1
x2
x3
Lambda
y1
0.00
0.27
0,10
Lambda
y2
0.18
0.23
0.61
Lambda
y3
0.45
0.31
0.67
Se observ n tabel cum recodificrile diferite ale variabilelor X i Y conduc la variaii importante de
intensitate a relaiei dintre noile variabile, obinute prin transformarea lui X i Y. Astfel, Lambda are
valoarea 0,00 pentru relaia dintre X1 i Y1, i valoarea 0,67 pentru relaia dintre X3 i Y3.
Concluzia care rezult de aici este c analiza relaiilor dintre variabile cantitative nu si gsete o rezolvare
satisfctoare prin aplicarea unor procedee specifice variabilelor calitative. Este nevoie s fie aplicate
tehnici statistice adaptate pentru variabilele cantitative, i care folosindu-se de informaia descris de aceste
variabile, mai bogat dect n cazul celor calitative, pot oferi un rspuns mai complet ntrebrilor formulate
mai sus: exist relaii, ce form au, ce intensitate, pot fi generalizate, sunt cauzale?
Procedeul cel mai des folosit n cazul n care variabilele sunt cantitative este cel al analizei de
regresie. n cazul bivariat, cnd este studiat relaia dintre o variabil dependent i o singur variabil
independent, regresia se numete regresie simpl. O alt denumire, echivalent, este cea de regresie
bivariat. Atunci cnd este studiat efectul simultan al mai multor variabile independente asupra variabilei
dependente, regresia se numete regresie multipl. Denumirile echivalente sunt de regresie multivariat,
sau regresie multiliniar.
n seciunea care urmeaz voi arta cum sunt definite modelele de regresie linear simpl, n ce fel
sunt interpetai coeficienii care descriu aceste modele, i n ce mod poate fi evaluat eficiena lor de
ansamblu n descrierea relaiilor dintre perechi de variabile.
Ultima seciune a acestui capitol va prezenta, ntr-o structur similar, modelele de regresie multipl.
7.1 Regresia linear simpl
Fiind cunoscute valorile a dou variabile cantitative pentru o mulime de uniti de analiz, este
posibil s reprezentm complet aceast informaie printr-un grafic. Variabilei dependente i corespunde axa
vertical, iar celei independente i corespunde axa orizontal. Fiecare unitate de analiz este reprezentat
printr-un punct care se afl la o distan de axa vertical proporional cu valoarea variabilei independente
luat de acea unitate, i la o distan de axa orizontal proporional cu valoarea variabilei dependente.
Astfel, n exemplul precizat anterior, dac variabila DIF are valorile exprimate n valori procentuale, iar
variabila SUM este exprimat n mii de lei, o localitate n care s-au cheltuit 5000 de lei pe cap de locuitor,
i n care omajul a sczut cu dou procente, se afl cu dou uniti deasupra axei orizontale i la cinci
uniti n dreapta axei verticale.
Foarte adesea, informaia cuprins ntr-un grafic de acest tip este prea bogat pentru a putea fi
analizat direct. La fel cum n cazul unei singure variabile este util s reducem informaia reprezentat de
distribuia sa la o singur valoare, cea a tendinei centrale, exprimat prin medie, median sau un alt
indicator, i n cazul considerrii simultane a dou variabile ar fi de folos s putem descrie ntr-un mod ct
mai succint relaia dintre acestea.
O soluie simpl este aceea de a nlocui norul de puncte de pe grafic printr-o singur dreapt care s i
aproximeze forma ct mai bine. n seciunea care urmeaz, 7.1.1., vom arta cum poate fi construit o astfel
de dreapt, numit dreapt de regresie. Vom prezenta apoi interpretarea coeficienilor prin care este
descris dreapta de regresie. n seciunea 7.1.2. vor fi definii indicatori prin care poate fi apreciat gradul de
acuratee prin care o dreapt de regresie descrie relaia dintre dou variabile. n ultima seciune a acestei
pri, 7.1.3., va fi discutate una dintre condiiile mai importante care trebuie ndeplinit pentru ca modelele
de regresie s poat fi aplicate.
7.1.1 Construcia dreptei de regresie
Fie un grafic pe care sunt reprezentai mai muli indivizi statistici, n funcie de valorile a dou variabile
cantitative, X i Y, i fie o dreapt dus la ntmplare pe acest grafic. Poziia fiecrui individ i este fixat de
valorile pe care iau cele dou variabile, notate cu xi i yi.
Poziia dreptei n raport cu cele dou axe ale graficului este complet precizat de urmtoarea relaie:
Y' = a + bX.
(1)
Relaia exprim faptul c orice punct k de pe dreapt, are coordonatele xk i y'k astfel nct y'k = a + bxk.
Mai mult, orice punct de pe grafic pentru care are loc relaia anterioar ntre coordonatele sale, se afl pe
dreapt.
De aici rezult faptul c orice dreapt este identificat complet prin doar dou valori, cea a constantei a, i
cea a constantei b. Dac ar fi posibil nlocuirea unui nor de n puncte, care ofer o reprezentare precis a n
perechi de valori, printr-o dreapt care s indice forma de ansamblu a mulimii de puncte, atunci ar fi
obinut o simplificare remarcabil a modului n care este descris relaia.
n Figura 7.1 sunt reprezentate localitile din exemplul discutat anterior, caracterizate de valorile variabilei
dependente DIF, respectiv a variabilei independente SUM. Pe grafic este trasat i o dreapt (d) precum i o
mulime de segmente verticale, fiecare fiind construit astfel nct s uneasc punctul care corespunde unei
localiti cu dreapta (d).
Figura 7.1. Reprezentarea grafic a variabilelor DIF i SUM, care iau valori pentru 25 de localiti.
Dac pentru dou variabile cantitative am putea construi o dreapt astfel nct toate punctele care
corespund unitilor de analiz s se afle pe dreapt, atunci dreapta ar oferi o descriere complet a formei
norului de puncte. ntr-un astfel de caz, fiecare dintre segmentele verticale dintre puncte i dreapt ar avea
lungimea zero.
Este clar c n exemplul considerat aici nu exist o astfel de dreapt, care s descrie perfect relaia dintre
cele dou variabile. Ar fi de dorit atunci, s fie determinat acea dreapt pentru care lungimile segmentelor
verticale dintre puncte i dreapt s fie ct mai apropiate de zero.
Prin definiie, dreapta cu proprietatea c ptratele lungimilor segmentelor dintre puncte i dreapt au
suma minim este numit dreapt de regresie.
Datorit modului n care este definit, se spune despre dreapta de regresie c satisface criteriul celor mai
mici ptrate.
Se poate demonstra matematic faptul c pentru dou variabile date exist o dreapt unic de regresie, iar
aceasta poate fi determinat. Cu alte cuvinte, oricare ar fi dou variabile X i Y, care iau valori pentru n
uniti de analiz, pot fi deteminate n mod unic constantele a i b astfel nct dreapta
Y' = a + bX,
(2)
s ofere o cea mai bun aproximare a relaiei dintre X i Y--din perspectiva criteriului celor mai mici
ptrate--, dintre toate dreptele posibile.
Y' este o variabil care se obine din intersecia segmentelor verticale care trec prin punctele (xi, yi) de
pe grafic i dreapta de regresie, iar punctele de intersecie sunt de forma (xi, y'i). Datorit modului n care
este construit variabila Y', valorile sale sunt identice cu ale lui Y atunci cnd punctele sunt pe o dreapt, i
sunt cu att mai diferite de cele ale lui Y cu ct punctele sunt mai dispersate n jurul dreptei de regresie.
Un alt mod de a scrie expresia (2) este urmtorul:
Y = a + bX + U,
unde U = Y - Y'.
U este o variabil care pentru fiecare unitate de analiz ia o valoare egal cu lungimea segmentului vertical
dintre punctul care i corespunde pe grafic i dreapta de regresie.
n exemplul anterior, a = -5,86, b = 0,67. Ecuaia dreptei de regresie este
DIF = - 5,86 + 0,67SUM.
7.1.2 Interpretarea coeficienilor dreptei de regresie
Coeficientul b este numit panta asociat variabilei X i, aa cum se poate vedea din expresia dreptei
de regresie, reprezint numrul de uniti cu care variaz Y' atunci cnd X crete cu o unitate:
dac avem dou puncte (x1, y'1) i (x2, y'2), x2 = x1 + 1, i ambele puncte sunt pe dreapta
Y' = a + bX,
atunci, nlocuind n formula dreptei se obine
y'2 = a + bx2 = a + b(x1 + 1) = a + bx1 + b = y'1 + b.
n exemplul discutat anterior, valoarea lui b indic faptul c o cretere a sumei cheltuite pe cap de
locuitor cu o mie de lei conduce n medie la o cretere a diferenei cu 0,67, adic la o scdere a ratei
omajului cu 0,67 de puncte procentuale.
Semnul plus al lui b indic faptul c ntre X i Y are loc o relaie pozitiv--adic valorilor mici ale lui
X tind s le corespund valori mici ale lui Y, iar valorilor mari ale lui X tind s le corespund valori mari
ale lui Y--, n timp semnul minus semnaleaz prezena unei relaii negative.
bi = 0 se obine atunci cnd forma norului de puncte nu poate fi aproximat printr-o dreapt. O
situaie de acest gen apare atunci cnd cele dou variabile estimeaz fenomene independente, fr legtur,
dar i n cazul n care variabilele sunt ntr-o relaie a crei form nu este liniar (de exemplu, atunci cnd
punctele sunt pe o curb n form de parabol). Cele dou cazuri sunt ilustrate n Figura 7.2., respectiv n
Figura 7.3.
Astfel, dac SUM din exemplul anterior ar fi exprimat n uniti monetare / numrul de locuitori, adic
ntr-o unitate de msur de o mie de ori mai mic dect cea din exemplu, b1 ar fi de 1000 de ori mai mic. n
general, se poate arta c,
dac n loc de X avem cX + d, atunci n loc de b avem b / c.
Din aceast proprietate rezult faptul c panta de regresie nu poate fi folosit drept un indicator al
intensitii relaiei dintre variabila dependent i variabila independent.
Constanta a din ecuaia dreptei de regresie indic valoarea y' pe care o ia un punct pentru care x = 0 i
care este aflat pe dreapt.
Figura 7.2. Exemplul a dou variabile cantitative ntre care nu are loc o relaie.
7.1.3 Indicatori ai intensitii relaiei dintre dou variabile cantitative: coeficientul de determinaie i
coeficientul de corelaie Pearson
Dreapta de regresie asociat relaiei dintre dou variabile cantitative ofer o imagine sintetic despre
forma acestei relaii, ns nu ofer informaii despre ct de asemntoare este aceast imaginea simplificat
cu cea real. Am ntlnit o situaie similar n cazul mediei: acest indicator descrie succint tendina central
a distribuiei unei variabile cantitative, ns nu cuprinde informaii despre ct de complet este aceast
reprezentare. n acest caz, exist un indicator care arat ct de dispersate sunt valorile luate de variabil n
jurul mediei: abaterea standard. Cu ct valorile sale sunt mai mici cu att media descrie mai precis
distribuia variabilei.
n Figura 7.4. i n Figura 7.5. sunt reprezentate relaiile dintre cte dou perechi de variabile
cantitative. n ambele cazuri ecuaia dreptei de regresie este aceeai:
Y = 2 - 2,5 X.
Se observ ns c unitile de analiz din Figura 7.5. sunt mai dispersate n raport cu dreapta de
regresie dect cele din Figura 7.4. Acest fapt arat c dintre cele dou drepte, cea din Figura 7.4. ofer
reprezentarea cea mai precis a relaiei dintre perechea de variabile crora le corespunde.
Figura 7.3. Exemplul a dou variabile ntre care exist o relaie (de forma Y' = X2) care nu poate fi
aproximat printr-o dreapt de regresie.
Figura 7.4. Distribuia a dou variabile cantitative i dreapta lor de regresie (A).
20
10
Y1
-10
-20
-3
-2
-1
X1
Figura 7.5. Distribuia a dou variabile cantitative i dreapta lor de regresie (B).
20
10
Y2
-10
-20
-3
-2
-1
X2
Puterea explicativ a unui model de regresie simpl poate fi evaluat cu ajutorul mai multor
indicatori. Coeficientul R2, numit coeficient de determinaie, este definit de urmtoarea formul:
(Y 'Y )
(Y Y )
Voi ilustra printr-un exemplu care sunt problemele care apar atunci cnd aceast cerin nu este
respectat:
Presupunem c avem date despre proporia cetenilor care au o prere foarte bun despre calitatea
drumurilor din localitatea n care locuiesc i despre numrul de locuitori din acea localitate. Datele (fictive)
sunt reprezentate n Figura 7.6. Se observ c ambele variabile au distribuii asimitetrice iar unitile de
analiz sunt concentrate mai mult la exteme dect n jurul unor valori centrale. Acest fapt este cel mai clar
n ceea ce privete numrul de locuitori, unde exist o localitate cu o valoare mult diferit de a celorlalte.
Reprezentarea grafic a dreptei de regresie, precum i valorile lui r i ale lui R2 indic existena unei relaii
de semn pozitiv ntre cele dou variabile: r = 0,48, iar R2 = 0,23.
R2 =
Numrtorul expresiei reprezint variaia lui Y care este "explicat" de ecuaia de regresie, n timp ce
valoarea de la numitor este egal cu variaia total a lui Y. Deci, R2 indic proporia din variaia lui Y care
este "explicat" de variabila independent.
Din modul n care este definit rezult c R2 poate s ia valori ntre 0 i 1. R2 este egal cu 1 atunci cnd
distribuia punctelor se face dup o dreapt. Valoarea sa este zero n situaii cum sunt cele ilustrate n
Figura 7.2. i n Figura 7.3., adic atunci cnd distribuia punctelor nu poate fi aproximat printr-o dreapt.
n general, cu ct valorile lui R2 sunt mai apropiate de 1, cu att relaia dintre cele dou variabile este mai
intens iar reprezentarea sa grafic este mai apropiat de o dreapt.
Figura 7.6. Relaia dintre mrimea localitii i proporia locuitorilor care au o prere foarte bun despre
starea drumurilor din localitate.
.5
.4
.3
Un alt indicator al intensitii relaiei dintre dou variabile cantitative este coeficientul de corelaie
Pearson, notat cu r i definit prin urmtoarea formul:
.2
proportia celor multumiti
r = b X / Y.
.1
0.0
0
100000
200000
300000
400000
numarul de locuitori
mai mare dect a celorlalte (310000 locuitori, n timp ce urmtoarea localitatea ca mrime are 47000). Dac
aceast localitate este exclus, se obin valori pentru b i R2 foarte aproape de zero: b = -0,051, R2 = 0,003.
1.5
1.0
S presupunem c n evaluarea unui program prin care s-a urmrit reducerea omajului se cunoate
variaia ratei omajului (DIF), suma cheltuit raportat la numrul de locuitori (SUM), i, n plus, fa de
exemplu similar descris n seciunea precedent, fiecare localitate este descris de un indicator global al
calitii administrrii programelor locale, altele dect cel evaluat aici. Acest din urm indicator, notat
CALIT, este de tip cantitativ, si are trei valori: 1 desemneaz un nivel sczut, 2 un nivel mediu, iar 3 un
nivel ridicat al calitii administrrii programelor.
n Figura 7.7 sunt reprezentate localitile cuprinse n studiu, n funcie de cele trei variabile. La fel ca
i n Figura 7.8 valorile lui DIF sunt pe axa vertical, iar cele ale lui SUM pe axa orizontal. Marcarea
localitilor pe grafic se face prin simboluri grafice diferite n funcie de valorile celei de a treia variabile.
Analiza legturii dintre DIF i SUM printr-o regresie simpl conduce la concluzia c relaia dintre
cele dou variabile este direct, i destul de intens (R2 = 0,53).
Dac, ns, relaia dintre cele dou variabile este studiat separat pe grupele de localiti desemnate
prin valorile celei de-a treia variabile, concluzia este diferit. n locul unui singur model, vom urmri
parametrii a trei modele de regresie simpl, cte unul pentru fiecare dintre valorile variablei CALIT.
Valorile lui R2 care se obin sunt 0,006 pentru CALIT = 1, 0,005 pentru CALIT = 2, i 0,004 pentru CALIT
= 3. Cele trei valori indic faptul c intensitatea relaiilor dintre DIF i SUM pentru fiecare dintre cele trei
categorii de localiti este foarte aproape de zero. Altfel spus, cnd sunt comparate localiti care sunt
asemntoare din punctul de vedere al performanei administrrii de programe, cheltuirea unei sume mari
pe cap de locuitor nu este asociat, n medie, unei scderi mai accentuate a ratei omajului dect n
localitile n care suma a fost mai mic. Acest rezultat indic, contrar celui obinut din analiza doar a
primelor dou variabile, c programul de reducere a omajului nu a fost eficient.
Figura 7.7. Relaia dintre variabilele DIF, SUM, i CALIT pentru 25 de localiti.
.5
0.0
Modelul de regresie simpl este folosit pentru a descrie relaia dintre dou variabile cantitative. n
cazul n care sunt disponibile date despre mai muli factori cu potenial explicativ, iar acetia sunt estimai
prin variabile cantitative, este de dorit ca analiza s cuprind simultan toate variabilele i nu doar dou
dintre acestea. Utilizarea regresiei simple ntr-un astfel de caz, prin ignorarea unora dintre variabilele
independente, ori prin aplicarea succesiv pentru fiecare dintre variabilele independente, poate s conduc
la rezultate eronate.
Exemplul urmtor ilustreaz o situaie de acest tip.
-.5
Calit. adm.
-1.0
3.00
-1.5
2.00
-2.0
1.00
Toate localit.
-2.5
6.0
6.5
7.0
7.5
8.0
8.5
9.0
9.5
10.0
Problema general pe care ncercm s o rezolvm prin modelare statistic poate fi redus adesea la
urmtoarea exprimare:
B este un fenomen care trebuie explicat iar A1, A2, ... sunt factori explicativi poteniali; Care este efectul
independent al fiecrui Ai asupra lui B? Care este ierarhia importanei factorilor A1, A2, ... n explicarea
lui B?
Exemplul de mai sus arat faptul c numai prin modele care cuprind simultan toate variabilele
relevante pentru fenomenul studiat poate fi evaluat efectul independent al fiecreia. Modelele multivariate
cele mai simple i de aceea cel mai usor de interpretat sunt cele de regresie multipl. Vom arta modul n
care acestea sunt definite (7.2.1), felul n care pot fi interpretate relaiile dintre variabilele cuprinse n model
(7.2.2.) i cum poate fi evaluat eficiena de ansamblu a modelelor (7.2.3). n seciunea (7.2.4.) vor fi
discutate modalitaile de generalizare a rezultatelor obinute pe un eantion iar n sectiunea (7.2.5) va fi
descris problema multicoliniaritii. n seciunea (7.2.6) va fi prezentat o extindere a modelelor de
regresie pentru variabile nominale i ordinale.
7.2.1 Definirea modelelor de regresie multipl
Fie Y, X1, X2, ..., Xm, variabile cantitative. Y este variabila a crei variaie incercm s o explicm iar X1,
X2,..., Xm, sunt variabilele independente. Putem scrie urmtoarea relaie ntre variabile:
Y = a + b1X1 + b2X2 + ... + bmXm + U
(3)
Figura 7.8. Reprezentarea grafic n trei dimensiuni a unor cazuri caracterizate de trei variabile.
n care a, b1, b2, ..., bm sunt determinate n urma aplicrii principiului celor mai mici ptrate este un
model de regresie multipl.
Dac avem o singura variabil independent (m=1) ecuaia (5) descrie un model de regresie simpl.
(X11,X21,Y1)
n exemplul de mai sus, planul care aproximeaza cel mai bine - dup criteriul celor mai mici ptrate -,
distribuia punctelor din spaiu asociate celor 25 de uniti de analiz (localiti cuprinse n studiu) are
ecuaia
(X12,X22,Y2)
(X13,X23,Y3)
(X14,X24,Y4)
Y5
(X15,X25,Y5)
X15
X25
X1
X2
Dac m=2 relaia (3) poate fi descris grafic printr-un desen tridimensional. Fiecrui individ statistic
i corespunde un punct de coordonate (X1,X2,Y) (Figura 7.8.), iar a, b1 i b2 definesc un plan descris de
ecuaia
Y' = a + b1X1 + b2X2.
Variabila U este determinat de acest plan i de punctele de forma (X1,X2,Y) ntr-un mod analog
cazului cu dou dimensiuni:
valoarea Ui care i corespunde unui individ statistic care a luat valorile X1i, X2i,Yi, este egal cu lungimea
segmentului paralel cu axa OY care are la extremiti punctul care i corespunde n spaiu (X1i,X2i,Yi),
respectiv punctul de intersecie cu planul (si care are coordonatele (X1i,X2i,Y'i)).
Expresia (3) indic faptul c Y poate fi exprimat ca o combinaie liniar de X1, X2, ..., Xm, i o
variabil U numita variabil rezidual. Dac fixm a, b1, b2,..., bm atunci U poate fi exprimat n funcie de
aceste numere i Y, X1, X2,...Xm:
U = Y - (a + b1X1 + b2X2 + ... + bmXm)
(4)
(5)
Coeficientul bi, numit panta asociat variabilei Xi, reprezint numrul de uniti cu care variaz Y'
atunci cnd Xi crete cu o unitate iar celelalte variabile independente sunt meninute constante. Altfel spus,
bi arat cum se modific valoarea ateptat a variabilei dependente atunci cnd Xi variaz iar Xj sunt
constante, ji.
Deasemenea, n msura n care datele satisfac anumite proprieti (dintre care un principiu important este
cel al distribuiilor apropiate de cele normale, iar un alt principiu, al multicoliniaritii, va fi discutat n
seciunea 7.2.5.) este corect s afirmm c bi indic variaia n mediile valorilor lui Y care corespund
punctelor de forma (X1,...,Xi,...,Xm) respectiv (X1,...,Xi + 1,...,Xm). La fel, a arat care este media lui Y
atunci cnd X1 = X2 = ... = Xm = 0.
Semnul plus al lui bi indic faptul c ntre Xi i Y are loc o relaie pozitiv n condiii de control al
efectului celorlalte variabile, n timp ce semnul minus indic prezena unei relaii negative.
In exemplul anterior, b1 = 0,05 arat c dac vom compara dou localiti unde diferena dintre
sumele cheltuite n program / numrul de locuitori este 1000 lei, i care sunt identice din perspectiva
variabilei CALIT, ne ateptm ca, n medie, rata omajului s fi sczut cu 0,05 puncte procentuale n
localitatea n care s-a suma / locuitor a fost mai mare. b2 = 1,00 arat c pentru aceeai valoare a lui SUM,
localitile cu o evaluare a calitii administrrii programelor mai bun cu o unitate au, n medie, o scdere
mai mare cu o unitate procentual. Aceast interpretare este consistent cu rezultatul obinut dup aplicarea
de regresii simple pentru fiecare din subeantioanele definite de CALIT, dar aduce un plus de precizie n
exprimarea relaiilor dintre variabila dependent i cele dou variabile independente.
Din interpretarea coeficienilor bi se vede cum regresia multipl permite compararea de perechi de
grupe de indivizi statistici care sunt identici din perspectiva tuturor variabilelor independente cu excepia
unei singure variabile. Diferena observat n valorile variabilei dependente este atribuit variaiei n
variabila independent care ia valori diferite pentru grupe diferite.
Asemeni pantei pentru cazul bivariat, coeficienii modelului de regresie multipl depind de unitile
de msur ale variabilelor i este adevrat proprietatea
dac n loc de Xi avem cXi + d, atunci n loc de bi avem bi / c.
(6)
Aceast proprietate arat faptul c panta de regresie nu poate fi folosit drept un indicator al
intensitii relaiei dintre variabila dependent i variabila independent corespunztoare, i nici nu permite
ierarhizarea variabilelor independente n funcie de contribuia fiecreia la explicaia variaiei variabilei
dependente.
Pentru a descrie nu doar forma ci i intensitatea relaiilor liniare ntre variabilele independente i
variabila dependent sunt folosii coeficienii de regresie standardizai. Modul n care sunt definii este
intuitiv: variabilele Y, X1, X2, ..., Xm sunt standardizate folosind formula scorului z prezentat n Capitolul
1.
Noile variabile, obinute n urma aplicrii formulei, au media egal cu zero iar abaterea standard egal
cu unitatea. Coeficienii de regresie din modelul determinat de variabilele standardizate, se noteaz n mod
obisnuit cu 1, 2, ..., m. Aplicnd proprietatea (6) avem urmtoarea formul pentru coeficienii
standardizai:
i = bi
Xi
Y
n cazul bivariat (m = 1), 1 coincide cu coeficientul de corelaie Pearson. n cazul general, i arat cu
cte abateri standard variaz Y atunci cnd Xi crete cu o abatere standard. Din formul reiese i faptul c
i are acelai semn cu bi, iar i = 0 este echivalent cu bi = 0.
Atunci cnd m > 1 coeficienii de regresie standardizai au cteva proprieti diferite fa de cazul
bivariat:
1. i poate s ia valori i n afara intervalului [-1, 1]. i n valoare absolut este supraunitar atunci cnd
relaia dintre Xi i Y este foarte intens i n plus, exist o relaie liniar strns ntre Xi i cel puin una
dintre celelalte variabile independente.
2. n timp ce n cazul bivariat U = 0 implic faptul c 1 = +1, atunci cnd m > 1, condiia
U = 0 nu restrnge valorile posibile pentru i.
Coeficienii de regresie standardizai permit ierarhizarea variabilelor independente n funcie de
importana pe care o are fiecare n explicarea variaiei variabilei dependente printr-o relaie direct. Sunt
necesare dou precizri privind limitele n utilizarea acestor coeficieni:
1. Dac ntr-un model teoretic n care X1, X2, ..., Xm sunt variabile independente pentru Y, Xi este o
variabil explicativ i pentru unul sau mai multi Xj, ji, atunci modelul de regresie n care Y este variabila
dependent ne permite numai estimarea efectului direct pe care l are Xi asupra lui Y, nu i a celui mediat
de alte variabile din model. De exemplu, variabila care exprim proporia celor care au absolvit liceul din
populaia unei localiti poate avea un efect direct nul asupra numrului de infraciuni pe cap de locuitor
(bliceu =0), ns un efect indirect substanial, mediat de o alt variabil independent cuprins n modelul de
regresie multipl (de exemplu, venitul pe cap de locuitor).
2. Atunci cnd avem dou modele cu aceleai variabile, dar care descriu date diferite, coeficienii
standardizai nu sunt comparabili ntre modele dect dac variabilele care le corespund au dispersii
asemntoare. De aceea, este de preferat ca n comparaiile dintre populaii diferite s fie folosii
coeficienii nestandardizai, dup ce n prealabil datele au fost transformate astfel nct variabilele Xi s
aib aceeai unitate de msur n ambele modele.
R2 are proprietatea de a crete cu fiecare variabil care este introdus n model i de aceea valorile lui
R2 trebuie judecate i n raport cu numrul de variabile independente. La limit, este posibil s avem R2 = 1
dac avem un numr de variabile independente suficient de mare, chiar dac acestea sunt generate aleator.
Concluzia care se desprinde este c alegerea variabilelor care urmeaz s fie incluse n model nu
poate fi decis folosind exclusiv informaia de natur statistic (chiar dac exist procedee complexe prin
care putem mbogi aceast informaie). Numai prin luarea n considerare i a unor aspecte de natur
teoretic poate fi decis includerea sau eliminarea unor variabile n analiz.
S vedem ce semnificaie au valorile extreme pe care le poate lua R2, 0 i 1, pentru c interpretarea
valorilor intermediare este posibil prin raportarea la situaiile maximale.
R2 este egal cu 1 atunci cnd valorile lui Y sunt complet determinate de combinaiile liniare ale
valorilor variabilelor independente. n cazul bivariat, distribuia punctelor se face dup o dreapt, iar atunci
cnd sunt dou variabile independente, dup un plan.
La fel ca i n cazul bivariat, R2 = 0 nu indic n mod necesar absena unor relaii ntre variabilele
independente i variabila dependent:
1. Y poate s fie determinat complet de variabilele independente prin relaii neliniare iar R2 s fie egal cu
zero. De exemplu, dac
10 - X 2 1 - X 2 2 ) ,
Y =
se obine distribuia din Figura 7.9. n care toate punctele sunt pe o suprafata curb (cele mai multe sunt pe
o semisfer), iar R2 = 0.
2. Mai mult, este posibil s avem R2 = 0 chiar i atunci cnd ntre una dintre variabilele independente i Y
exista o relaie liniar, n condiii de control, ns forma (panta) acestei relaii nu este constant pe
categoriile celorlalte variabile.
Figura 7.9. Exemplul unei distribuii n spaiu pentru care variabila dependent este reprezentat pe axa
vertical i R2 = 0.
3,5
3,0
2,5
Y 2,0
1,5
La fel ca i n cazul bivariat, puterea explicativ a unui model multivariat poate fi evaluat cu ajutorul
unor indicatori. Coeficientul R2, numit coeficient de determinaie multipl, este definit la fel ca i atunci
cnd avem o singur variabil independent i are o interpretare similar:
R2 =
(Y * Y )
(Y Y )
1,0
4 3
2 1
0 -1
-2 -3
X1
-1 0
-3 -2
X2
Numrtorul expresiei reprezint variaia lui Y care este "explicat" de ecuaia de regresie, n timp ce
valoarea de la numitor este egal cu variaia total a lui Y. Deci, R2 indic proporia din variaia lui Y care
este "explicat" de toate variabilele independente din model. Din definiie rezult c R2 poate s ia valori
ntre 0 i 1.
n exemplul din aceast seciune avem R2 = 0,69.
Desigur, valorile ridicate ale lui R2 sunt de dorit n locul celor sczute pentru c implic faptul c
explicaia este n mai mare msur complet. Totui, aceast afirmaie necesit cteva precizri:
Figura 7.10. Exemplul unei distribuii n spaiu pentru care variabila dependent este reprezentat pe axa
vertical, au loc relaii bivariate cu variabila dependent de intensitate maxim i R2 = 0 pentru modelul
multivariat.
12
10
SUM
CALIT
Y1
Coeficienti
ne-standardizati
Eroare
standard
B
0,048
0,212
0,994
0,291
Coeficienti
standardizati
Beta
0,052
0,786
t
0,229
3,412
Nivel de
semnif.
stat.
0,820
0,002
Pentru a doua variabil independent din exemplu, CALIT, putem respinge ipoteza de nul (p =
0,002<0,05).
2
0
1,2 1,0
,8
,6
,4
X1
,2 0,0
10
12
Un model de regresie multipl poate fi folosit atit n explicaie cit i n predicie. Astfel, din modelul
anterior rezult c, n medie, localitile n care ar fi aplicat un program similar cu cel studiat iar suma
cheltuit ar fi de 8000 de lei / locuitor, i care ar fi evaluate prin scorul 3 pentru calitatea administrrii
programelor, vor avea n medie o scdere a ratei omajului cu o valoare dat de urmtoarea formul
X2
Atunci cnd este ntlnit o situaie de multicoliniaritate ridicat sunt mai multe moduri prin care pot fi
atenuate efectele ei:
1. Este mrit volumul eantionului astfel nct ipoteza de nul s poat fi respins pentru o parte dintre
coeficieni.
2. Variabilele care sunt puternic corelate sunt combinate n indicatori unici. De exemplu, ntr-o analiz n
care seciile de vot sunt uniti statistice, rata de participare n primul tur de scrutin al alegerilor din 1996
este o variabil independent i rata de participare n al doilea tur de scrutin al alegerilor din 1996 este o
alt variabil independent, coeficientul de corelaie ntre cele dou variabile este r = 0,91. Un model
realizat pe un eantion ales dintre seciile de vot i n care cele dou variabile sunt independente va fi
afectat de o problem de multicoliniaritate ridicat. O soluie ar fi includerea n analiz a mediei n locul
celor dou variabile.
3. Sunt realizate mai multe modele fiecare avnd doar o parte dintre variabilele care produc
multicoliniaritate. Pentru exemplul anterior, ar nsemna considerarea a dou modele, unul cu rata de
participare pentru primul tur, al doilea cu rata de participare pentru al doilea tur.
b. Localitile n care sunt 20% locuitori care nu au absolvit 10 clase au, n medie, diferena ntre veniturile
anuale pe cap de locuitor (VENIT) cu 12 mii de lei mai mare dect localitile n care sunt 30% locuitori
care nu au absolvit 10 clase.
2. Presupunem c, n plus, avem i date despre proporia locuitorilor care au mai puin de 18 ani
(MINORI)-- estimat n procente. Ecuaia de regresie multipl care include variabilele SCOALA i
MINORI ca variabile independente este urmtoarea:
VENIT = 12 - 4 SCOALA - 0,2 MINORI.
SCOALA = -0,08, iar MINORI = -0,25.
Care dintre urmtoarele afirmaii este adevrat?
a. Variabila MINORI explic mai puin din variaia variabilei dependente dect variabila SCOALA.
b. Conform modelului de regresie, localitile n care SCOALA = 5, iar MINORI = 20, au avut n medie o
scdere a venitului pe cap de locuitor cu 12 mii de lei.
Regula general conform creia analiza de regresie poate fi aplicat numai variabilelor de interval sau de
rapoarte are o excepie important: toate proprietile pe care le au valorile estimate ale unui model de
regresie se pstreaz i n cazul n care una sau mai multe dintre variabilele independente sunt dihotomice
(adic variabile care iau dou valori).
Consecinele acestei proprieti sunt importante deoarece permit nu doar estimarea efectelor unor
variabilele care n mod obisnuit sunt dihotomice (exemplu sexul, mediul de rezident -- urban / rural, etc.)
asupra variabilei dependente ci i includerea ntr-o analiz de regresie a unor variabile nominale sau
ordinale cu mai mult de dou categorii. Acest lucru este posibil n urma transformrii unei variabile cu n
categorii n n - 1 variabile dihotomice.
Ca o ilustrare, s presupunem c datele despre programul de reducere a omajului din exemplul discutat n
aceast seciune cuprind informaii despre nc o variabil independent: judeul n care se afl localitatea
(JUDET). Mai presupunem c localitile din studiu provin din trei judee, notate cu A, B, C. Variabila
JUDET este transformat n dou variabile dihotomice: JUDET1 i JUDET2.
JUDET1 este definit astfel: localitile care sunt n judeul A au valoarea 1, iar toate celelalte au valoarea
0.
JUDET2 este definit asemntor: localitile care sunt n judeul B au valoarea 1, iar toate celelalte au
valoarea 0.
Cunoscnd valorile celor dou variabile pentru o localitate, tim sigur n ce jude se afl aceasta, deci
informaia oferit de JUDET1 i JUDET2 este egal cu cea oferit de variabila iniial, JUDET.
Prin introducerea celor dou variabile dihotomice n analiz putem verifica dac scderea omajului a fost
influenat i de factori care s-au manifestat la nivel de jude, independeni de condiiile de nivel local.
Dac coeficientul b, respectiv beta, care corespunde uneia dintre aceste variabile este diferit de 0, atunci
rezult c variaia variabilei DIF poate fi explicat mai bine n urma includerii ei.
3. Se da ecuatia de regresie cu coeficienti nestandardizati (n parantez sunt prezentate erorile standard ale
coeficienilor de regresie:
Y = -40 + 0.72x1 + 1.29x2 0.15x3
ES
(0.13) (0.37) (0.16)
R=0.9
Exerciii i probleme
1. Presupunem cunoscute pentru mai multe localiti urmtoarele dou variabile: diferena ntre venitul pe
cap de locuitor n ultimul an i cel din anul anterior (VENIT)--msurat n mii lei--, i proporia celor din
localitate care au absolvit cel mult 10 clase (SCOALA)--estimat n procente.
O analiz de regresie prin care se ncearc explicarea efectului variabilei SCOALA asupra variabilei
VENIT conduce la urmtoarele rezultate:
r = -0,55, R2 = 0,30, iar ecuaia de regresie este
VENIT = -7,5 - 12 SCOALA.
Care dintre urmtoarele afirmaii este adevrat?
a. Localitile n care SCOALA are valori mici au, n medie, valori mai mici ale variabilei VENIT.
Care din coeficientii ecuatiei de regresie difera semnificativ de zero pentru un nivel de semnificatie
p=0.05?
1. cel al lui x1
2. cel al lui x2
3. cel al lui x3
4. niciunul
3,4
3,5
3,6
3,7
3,8
3,9
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
0,0000
0,0398
0,0793
0,1179
0,1554
0,1915
0,2257
0,2580
0,2881
0,3159
0,0040
0,0438
0,0832
0,1217
0,1591
0,1950
0,2291
0,2612
0,2910
0,3186
0,0080
0,0478
0,0871
0,1255
0,1628
0,1985
0,2324
0,2642
0,2939
0,3212
0,0120
0,0517
0,0910
0,1293
0,1664
0,2019
0,2357
0,2673
0,2967
0,3238
0,0160
0,0557
0,0948
0,1331
0,1700
0,2054
0,2389
0,2704
0,2995
0,3264
0,0199
0,0596
0,0987
0,1368
0,1736
0,2088
0,2422
0,2734
0,3023
0,3289
0,0239
0,0636
0,1026
0,1406
0,1772
0,2123
0,2454
0,2764
0,3051
0,3315
0,0279
0,0675
0,1064
0,1443
0,1808
0,2157
0,2486
0,2794
0,3078
0,3340
0,0319
0,0714
0,1103
0,1480
0,1844
0,2190
0,2518
0,2823
0,3106
0,3365
0,0359
0,0753
0,1141
0,1517
0,1879
0,2224
0,2549
0,2852
0,3133
0,3389
1,0
1,1
1,2
1,3
1,4
1,5
1,6
1,7
1,8
1,9
0,3413
0,3643
0,3849
0,4032
0,4192
0,4332
0,4452
0,4554
0,4641
0,4713
0,3438
0,3665
0,3869
0,4049
0,4207
0,4345
0,4463
0,4564
0,4649
0,4719
0,3461
0,3686
0,3888
0,4066
0,4222
0,4357
0,4474
0,4573
0,4656
0,4726
0,3485
0,3708
0,3907
0,4082
0,4236
0,4370
0,4484
0,4582
0,4664
0,4732
0,3508
0,3729
0,3925
0,4099
0,4251
0,4382
0,4495
0,4591
0,4671
0,4738
0,3531
0,3749
0,3944
0,4115
0,4265
0,4394
0,4505
0,4599
0,4678
0,4744
0,3554
0,3770
0,3962
0,4131
0,4279
0,4406
0,4515
0,4608
0,4686
0,4750
0,3577
0,3790
0,3980
0,4147
0,4292
0,4418
0,4525
0,4616
0,4693
0,4756
0,3599
0,3810
0,3997
0,4162
0,4306
0,4429
0,4535
0,4625
0,4699
0,4761
0,3621
0,3830
0,4015
0,4177
0,4319
0,4441
0,4545
0,4633
0,4706
0,4767
2,0
2,1
2,2
2,3
2,4
2,5
2,6
2,7
2,8
2,9
0,4772
0,4821
0,4861
0,4893
0,4918
0,4938
0,4953
0,4965
0,4974
0,4981
0,4778
0,4826
0,4864
0,4896
0,4920
0,4940
0,4955
0,4966
0,4975
0,4982
0,4783
0,4830
0,4868
0,4898
0,4922
0,4941
0,4956
0,4967
0,4976
0,4982
0,4788
0,4834
0,4871
0,4901
0,4925
0,4943
0,4957
0,4968
0,4977
0,4983
0,4793
0,4838
0,4875
0,4904
0,4927
0,4945
0,4959
0,4969
0,4977
0,4984
0,4798
0,4842
0,4878
0,4906
0,4929
0,4946
0,4960
0,4970
0,4978
0,4984
0,4803
0,4846
0,4881
0,4909
0,4931
0,4948
0,4961
0,4971
0,4979
0,4985
0,4808
0,4850
0,4884
0,4911
0,4932
0,4949
0,4962
0,4972
0,4979
0,4985
0,4812
0,4854
0,4887
0,4913
0,4934
0,4951
0,4963
0,4973
0,4980
0,4986
0,4817
0,4857
0,4890
0,4916
0,4936
0,4952
0,4964
0,4974
0,4981
0,4986
3,0
3,1
3,2
3,3
0,49865
0,49903
0,49931
0,49952
0,49869
0,49906
0,49934
0,49953
0,49874
0,49910
0,49936
0,49955
0,49878
0,49913
0,49938
0,49957
0,49897
0,49926
0,49948
40,9964
0,49900
0,49929
0,49950
0,49965
0,49966
0,49977
0,49984
0,49989
0,49993
0,49995
0,49968
0,49978
0,49985
0,49990
0,49993
0,49995
0,49969
0,49978
0,49985
0,49990
0,49993
0,49996
0,49970
0,49979
0,49986
0,49990
0,49994
0,49996
Anexa 2. Valorile critice ale lui t pentru aria de sub curb aflat la dreapta
valorii.
g.l.\p
1
2
3
4
5
0.4
0.32492
0.288675
0.276671
0.270722
0.267181
0.25
1
0.816497
0.764892
0.740697
0.726687
0.1
3.077684
1.885618
1.637744
1.533206
1.475884
0.05
6.313752
2.919986
2.353363
2.131847
2.015048
0.025
12.7062
4.30265
3.18245
2.77645
2.57058
0.01
31.82052
6.96456
4.5407
3.74695
3.36493
0.005
63.65674
9.92484
5.84091
4.60409
4.03214
0.0005
636.6192
31.5991
12.924
8.6103
6.8688
6
7
8
9
10
0.264835
0.263167
0.261921
0.260955
0.260185
0.717558
0.711142
0.706387
0.702722
0.699812
1.439756
1.414924
1.396815
1.383029
1.372184
1.94318
1.894579
1.859548
1.833113
1.812461
2.44691
2.36462
2.306
2.26216
2.22814
3.14267
2.99795
2.89646
2.82144
2.76377
3.70743
3.49948
3.35539
3.24984
3.16927
5.9588
5.4079
5.0413
4.7809
4.5869
11
12
13
14
15
0.259556
0.259033
0.258591
0.258213
0.257885
0.697445
0.695483
0.693829
0.692417
0.691197
1.36343
1.356217
1.350171
1.34503
1.340606
1.795885
1.782288
1.770933
1.76131
1.75305
2.20099
2.17881
2.16037
2.14479
2.13145
2.71808
2.681
2.65031
2.62449
2.60248
3.10581
3.05454
3.01228
2.97684
2.94671
4.437
4.3178
4.2208
4.1405
4.0728
16
17
18
19
20
0.257599
0.257347
0.257123
0.256923
0.256743
0.690132
0.689195
0.688364
0.687621
0.686954
1.336757
1.333379
1.330391
1.327728
1.325341
1.745884
1.739607
1.734064
1.729133
1.724718
2.11991
2.10982
2.10092
2.09302
2.08596
2.58349
2.56693
2.55238
2.53948
2.52798
2.92078
2.89823
2.87844
2.86093
2.84534
4.015
3.9651
3.9216
3.8834
3.8495
21
22
23
24
25
0.25658
0.256432
0.256297
0.256173
0.25606
0.686352
0.685805
0.685306
0.68485
0.68443
1.323188
1.321237
1.31946
1.317836
1.316345
1.720743
1.717144
1.713872
1.710882
1.708141
2.07961
2.07387
2.06866
2.0639
2.05954
2.51765
2.50832
2.49987
2.49216
2.48511
2.83136
2.81876
2.80734
2.79694
2.78744
3.8193
3.7921
3.7676
3.7454
3.7251
26
27
28
29
30
0.255955
0.255858
0.255768
0.255684
0.255605
0.684043
0.683685
0.683353
0.683044
0.682756
1.314972
1.313703
1.312527
1.311434
1.310415
1.705618
1.703288
1.701131
1.699127
1.697261
2.05553
2.05183
2.04841
2.04523
2.04227
2.47863
2.47266
2.46714
2.46202
2.45726
2.77871
2.77068
2.76326
2.75639
2.75
3.7066
3.6896
3.6739
3.6594
3.646
infinit
0.253347
0.67449
1.281552
1.644854
1.95996
2.32635
2.57583 3.2905
g.l./a 0.995
0.99
0.975
0.95
0.9
ria
1
0.00004 0.00016 0.00098 0.00393 0.01579
0.75
0.5
0.25
0.1
0.05
0.025
0.01
0.005
0.10153
0.45494
1.3233
2.70554
3.84146
5.02389
6.6349 7.87944
0.57536
1.38629
2.77259
4.60517
5.99146
7.37776
9.21034 10.59663
7.81473
9.3484
11.34487 12.83816
9.48773
11.14329
0.01003
0.07172 0.11483
1.21253
2.36597
4.10834
6.25139
1.92256
3.35669
5.38527
7.77944
0.41174
2.6746
4.35146
6.62568
9.23636
11.0705
12.8325
3.4546
5.34812
7.8408
10.64464
12.59159
14.44938
16.81189 18.54758
4.25485
6.34581
9.03715
12.01704
14.06714
16.01276
18.47531 20.27774
1.34441
5.07064
7.34412
10.21885
13.36157
15.50731
17.53455
20.09024 21.95495
1.73493
5.89883
8.34283
11.38875
14.68366
16.91898
19.02277
21.66599 23.58935
10
3.9403 4.86518
6.7372
9.34182
12.54886
15.98718
18.30704
20.48318
23.20925 25.18818
11
7.58414
10.341
13.70069
17.27501
19.67514
21.92005
24.72497 26.75685
12
6.3038
8.43842
11.34032
14.8454
18.54935
21.02607
23.33666
26.21697 28.29952
13
7.0415
9.29907
12.33976
15.98391
19.81193
22.36203
24.7356
27.68825 29.81947
14
10.16531
13.33927
17.11693
21.06414
23.68479
26.11895
29.14124 31.31935
15
11.03654
14.33886
18.24509
22.30713
24.99579
27.48839
30.57791 32.80132
16
11.91222
15.3385
19.36886
23.54183
26.29623
28.84535
31.99993 34.26719
17
12.79193
16.33818
20.48868
24.76904
27.58711
30.19101
33.40866 35.71847
13.67529
17.3379
21.60489
25.98942
28.8693
31.52638
34.80531 37.15645
14.562
18.33765
22.71781
27.20357
30.14353
32.85233
36.19087 38.58226
15.45177
19.33743
23.82769
28.41198
31.41043
34.16961
37.56623 39.99685
8.03365
13.2396
16.34438
20.33723
24.93478
29.61509
32.67057
35.47888
38.93217 41.40106
14.0414
9
14.8479
6
15.6586
8
16.4734
1
17.23962
21.33704
26.03927
30.81328
33.92444
36.78071
40.28936 42.79565
18
19
20
21
22
13.2767 14.86026
15.08627 16.7496
18.1373
22.33688
27.14134
32.0069
35.17246
38.07563
41.6384 44.18128
19.03725
23.33673
28.24115
33.19624
36.41503
39.36408
42.97982 45.55851
19.93934
24.33659
29.33885
34.38159
37.65248
40.64647
44.3141 46.92789
20.84343
25.33646
30.43457
35.56317
38.88514
41.92317
45.64168 48.28988
21.7494
26.33634
31.52841
36.74122
40.11327
43.19451
46.96294 49.64492
22.65716
27.33623
32.62049
37.91592
41.33714
44.46079
48.27824 50.99338
23.56659
28.33613
33.71091
39.08747
42.55697
45.72229
49.58788 52.33562
24.47761
29.33603
34.79974
40.25602
43.77297
46.97924
50.89218 53.67196