Sunteți pe pagina 1din 203

1

Carte de Statistic
Reete ncercate

Robert D. Reisz

Cuprins

Cuvnt nainte
1. Introducere.
a. Ce este statistica?
b. Cum cunoate statistica?
c. Cauzalitate i statistica.
d. Foarte scurt istoric al statisticii.
2. Ingredientele statisticii. Tipuri de date.
a. Date nominale
b. Date ordinale
c. Date intervalice
d. Date raionale
3. Culegerea datelor statistice. Sondajul de opinie.
a. Statistici de lot si statistici de sondaj. Generalizarea statistic i limitele ei.
b. Cum facem un sondaj de opinie simplu i corect? Eantionare, chestionar,
aplicare.
4. Aperitive. Primii pai n descrierea datelor statistice
a. Imagini de ansamblu asupra datelor.
i. Frecvene simple.
ii. Reprezentri grafice
b. Indicatori agregai
i. Tendina central
ii. Distribuia datelor
2
5. Supe, ciorbe i teste statistice simple.
a. Distribuia normal
b. Teste statistice t pentru medii i Z pentru proporii.
c. Calculul erorii unui sondaj si interpretarea ei.
6. Feluri principale i garnituri sau relaia dintre mai multe variabile
a. Grafice pentru mai multe variabile.
b. Tabele de relaionare.
c. Analiza de varian. Testul ANOVA unifactorial.
d. Corelaia simpl i parial. Coeficienii de corelaie.
e. Regresia liniar simpl i multipl.
7. Pentru vegetarieni. Analiza datelor nenumerice.
a. Testul Chi
2

b. Testele Wilcoxon, Mann-Whitney i Kruskal Wallis
c. Regresia categorial.
8. Analiza seriilor de timp
a. Ce e o serie de timp? Identificarea de patternuri n serii de timp
b. Trend i sezonalitate
c. Regresii cu serii de timp
d. Analiza de supravieuire
9. Clasificarea datelor.
a. Clustere ierarhice
b. Clustering cu centre de clustere
10. Deserturi.


3
Cuvnt nainte


La primul curs de statistic pe care l-am inut la facultatea de tiine politice de la
Universitatea de Vest din Timioara o student mi-a spus pe un ton ct se poate de tranant:
habar nu are de matematic, nici nu vrea s nvee aa ceva i oricum a venit la facultatea de
tiine politice tocmai ca s scape de matematic i alte asemenea tiine exacte. Sunt convins
c aceast experien a mea e departe de a fi unic. Am ncercat pe parcursul celor dou
semestre s o conving pe ea i pe colegii ei, de obicei de aceiai prere cu ea, de utilitatea
statisticii i de simplitatea ei. Sunt convins c nu am reuit sau nu ntru totul, dar tiu de
asemenea c am reuit s i familiarizez cu conceptele de baz ale statisticii i modul cum
acestea funcioneaz n logica cercetrii sociale.

Cartea aceasta se adreseaz tocmai celor ce se tem de calculul matematic sau sunt doar
neexersai in el, precum i celor ce fac primii pai n lucrul cu metode tiinifice cantitative in
cunoaterea social. Cartea mea vrea s fie uor de citit, dar n primul rnd uor de nvat i
de aplicat. Voi prezenta n paginile ce urmeaz principalele metode folosite n statistic,
metode utilizate n cercetrile din tiinele sociale i nu numai; reetarul de baz pentru
lucrrile de cercetare din sociologie, psihologie, tiine politice, economice dar i medicin i
alte tiine ce se bazeaz pe cunoaterea empiric a realitii.

Voi insista pe interpretarea rezultatelor precum i pe ipotezele metodelor statistice, elemente
ale cunoaterii statistice ce stau la interfaa dintre teorie si metod i definesc n cele din urm
limitele cunoaterii prin statistic. n opinia mea, renumele uneori negativ pe care l are
statistica n mass-media romaneasc, i m refer aici la scepticismul foarte rspndit fa de
cercetrile bazate pe sondaje de opinie, se datoreaz pe lng existena real a unor cercetri
cel puin dubioase, i unei nenelegeri ale limitelor cunoaterii statistice. Desigur cunoaterea
statistic este prin felul ei imperfect, inexact, probabil i nu cert, dar puterea ei rezid
tocmai n posibilitatea de a delimita cu siguran uneori destul de mare intervalul n care se
afl realitatea. S fiu mai explicit, statistica nu va da niciodat rspunsuri simple i exacte.
Dar astfel de rspunsuri, n msura n care exist n cunoaterea lumii reale, nu ne sunt utile.
Rspunsurile care ne sunt utile fie nu sunt simple, fie nu sunt exacte, fie nu sunt nici simple,
nici exacte. Cu toate acestea, cunoaterea statistic este cunoatere, adevrul statistic chiar
dac nu este absolut este un adevr pragmatic att timp ct i nelegem limitele.
4

Mai exist un motiv pentru care scriu aceast carte. Cutarea mea a unui manual de statistic
introductiv publicat n limba roman a fost pn acum ncununat de eec. Dei exist multe
manuale de acest tip n spaiul anglofon i nu numai, la noi pn n prezent manualele de
statistic bune au inut s se prezinte la un nivel tiinific prea ridicat pentru nceptorii fr
interes i aplecare fa de cele matematice. Poate i de aceea statistica nu a devenit ca n alte
pri, un bun comun a celor ce cerceteaz lumea politic, social sau economic i putem
ntlni att de des prostii monumentale n presa romaneasc atunci cnd aa-zii analiti se
apropie de datele unor sondaje de opinie (e drept, nu numai atunci). Voi ncerca, de fapt, s
exemplific pe parcursul crii cteva din erorile cele mai uzuale ale comentatorilor politici dar
i ale politicienilor din ara noastr. Uneori nclin s cred c o mai bun nelegere a felului
cum cunoate statistica i a cum trebuie interpretate sondajele de opinie ar fi putut chiar salva
partide de la dispariie.

Nu voi merge prea departe cu ideea de a produce o carte de reete de statistic, totui ea este
ntr-un fel justificat. Toate metodele din carte sunt ntr-adevr ncercate, i vor s fie
exemple de metode ce se pot aplica cu succes n cercetare. De asemenea toate interpretrile
pot fi utilizate ca exemple de interpretare. Voi atrage de asemenea atenia asupra unor erori ce
apar adesea, voi ateniona fa de prea mult scepticism n egal msur ca i fa de un
optimism exagerat. Deci condimentai cu msur i, precum cei mai buni buctari, aplicai
reetele mele cu nelegere, n spiritul i nu numai n litera lor.




5
Capitolul 1. Introducere.

S ncepem uor, cu nceputul. n acest capitol a vrea s definesc conceptul de statistic i
felul cum poate statistica cunoate lumea. Voi vorbi despre raionamentul statistic, despre
eroare i greeal n statistic, precum i despre cauzalitate i statistic.


a. Ce este statistica?

Statistica se definete de obicei ca un subdomeniu al matematicii dedicat culegerii, analizrii,
interpretrii i prezentrii datelor. Definiia aceasta mi se pare ns ct se poate de
nesatisfctoare pentru c, pe de o parte nu spune nimic despre felul cum acioneaz statistica
lsnd prin urmare orice metod ca fiind acceptabil, i mai apoi folosete un concept mult
prea general si ambiguu, acela de dat. n acest concept este probabil ascuns chiar ceea ce
eu consider a fi genul proxim n cadrul cruia ar trebui definit statistica. Anume faptul c ea
este o metod de cunoatere. Statistica este o metod de cunoatere a unor obiecte sau
fenomene bazat pe interpretarea rezultatelor de msurare. Mie definiia aceasta mi place mai
mult, dei probabil sun nc destul de criptic. Anume, mut ambiguitatea de la conceptul de
dat la felul cum se obine aceasta, adic prin msurarea unor obiecte sau fenomene. Ei
bine, eu nclin s cred c msurarea n cauz se poate face chiar cu orice aparat de msur att
timp ct acesta este de ncredere, adic nu face erori sistematice. Totui, nite exemple ar fi
utile aici, nu-i aa?

Deci, aparate de msur sunt desigur cntarul i metrul croitorului sau ale constructorului, ca
i ublerul sau micrometrul, dar pn la urm orice funcie care face univoc legtura dintre un
obiect sau fenomen i o valoare fie ea numeric sau nu, este o msurare. Sper c nu am speriat
nc pe nimeni folosind termenul de funcie n sens matematic. O funcie este o relaie ntre
dou mulimi, n cazul nostru o mulime de obiecte sau fenomene de acelai tip pe care dorim
s o cunoatem mai bine i o mulime de valori statistice pe care le putem analiza. Punem de
fapt n relaie ceva ce nu putem folosi nemijlocit n calculele noastre cu ceva ce putem folosi.
Msurm de exemplu greutatea unor cini, poate pentru a analiza efectul unor alimentaii
specifice. Folosim un cntar, desigur, dar de fapt definim prin aceasta o funcie pe domeniul
cinilor studiai lund valori n domeniul numerelor reale. i de ce facem asta? Pentru c
dorim s interpretm, s calculm, s comparm i, n fine, s prezentm ct mai simplu i
6
coerent rezultatele cercetrii noastre. i nu tim s calculm cu cini, ns tim s facem asta
cu numere. Aceast problem este mereu prezent n cunoatere. Nu putem calcula cu
obiectele reale, fenomene aa cum sunt ele. Aa cum nu putem face calcule cu cini, nu putem
face nici cu opiniile politice i nici cu comportamentele economice ale unor oameni adevrai.
Trebuie s le transformm n lucruri cu care putem calcula, n valori numerice sau
nenumerice, oricum valori care sunt simple i n primul rnd complet definite prin ele nsele.
S m explic: este practic imposibil s definesc complet un obiect sau un fenomen real. Orice
definiie a cinelui meu ar fi incomplet, ar omite un fir de blan sau chiar o caracteristic
comportamental pe care poate nc nu o cunosc. Iar de ar fi, prin absurd, posibil o definiie
complet a lui Garu, aa l cheam (tiu, e aiurea, dar e o poveste mai lung), ar fi de o
complexitate ce ar face s fie absolut inutil pentru orice interpretare sau analiz. Pe de alt
parte rezultatul msurrii greutii lui este 30kg ceea ce este desigur un model ct se poate de
inexact pentru un cine dar este o valoare util i calculabil att timp ct tim exact ce
nseamn i nu i conferim o mai mare importan dect are, anume greutatea lui Garu.
Completnd aceast msurtoare cu altele, precum vrsta, rasa i genul, obinem un model, o
definiie incomplet i util, att incompletitudinea ct i utilitatea ei rezultnd pn la urm din
simplitatea ei.

La fel se ntmpl i n cazul opiniilor politice ale unei persoane, de exemplu ale colegului
meu Ionic. Opiniile lui Ionic sunt complexe, anumite teme l intereseaz i este informat
asupra lor avnd opinii nuanate. Alte teme nu l intereseaz i nu are opinii asupra lor sau are
opinii superficiale formate rapid. Mai mult, opiniile lui Ionic, precum a oricrei persoane
inteligente sunt schimbtoare, reacioneaz la schimbrile din mediu, la noi informaii i noi
evenimente. Nu avem cum efectua calcule cu opiniile lui Ionic, putem ns s msurm
elemente ale acestor opinii cu un chestionar la un anumit moment dat. De exemplu, l putem
ntreba ce prere are despre un anumit politician i i putem oferi 5 variante de rspuns. Avem
atunci o msurtoare, care este n acelai timp o simplificare i o datare. Acest rezultat de
msurare va fi legat de momentul la care am pus ntrebarea (i va rmne neschimbat, dei
opinia lui se poate schimba ulterior) i va ncerca s includ opinia lui Ionic ntr-o schem
simpl care nu l poate descrie evident ntru totul dar care l poate face comparabil cu ali
oameni care au rspuns la aceiai ntrebare.

i aici este chiar principala problem a statisticii. Statistica nu calculeaz cu cini, oameni sau
partide. Statistica calculeaz cu rezultatele unor msurtori ale acestora. Cunoaterea n
7
general nu poate opera cu obiectele ei, ci cu modele ale acestor obiecte. Statistica construiete
astfel de modele prin msurare. Cum msoar de obicei statistica? Ei bine, oricum. Sau mai
exact, depinde de tem. Statistica medical msoar cu aparate sofisticate dar a cror
exactitate ar trebui s nu depind de cel ce efectueaz cercetarea, statistica social sau politic
este ns de obicei nevoit s-i dezvolte propriile aparate de msur, chestionarele. Vom
reveni n capitolul al treilea la felul cum se scriu, i cum nu se scriu chestionare. Pn atunci
s continum ns s discutm cum metoda de msurare cu chestionarul influeneaz chiar
conceptual cunoaterea statistic.

Un aparat de msur trebuie s aib dou principale caracteristici pentru a fi util. Trebuie s
dea un rezultat i unul singur, i mai mult dect att, la repetarea msurrii s produc acelai
rezultat sau unul foarte apropiat. Presupunnd c reuim s-l urcm pe Garu (cinele meu, v
aducei aminte) pe un cntar, vom citi un rezultat oarecare. Pentru cine a uitat deja, era o
valoare apropiat de 30kg. Daca reuim acest efort de persuasiune i ndemnare n repetate
rnduri ntr-un scurt interval de timp, utiliznd mai multe cntare, acestea vor fi bune n msura
n care ne vor da aproximativ acelai rezultat. Pe de alt parte ns, greutatea lui Garu nu se va
schimba de pe urma faptului ca a fost msurat. Chiar daca Garu ar fi priceput ceva din cele
ce i s-au ntmplat tot nu i-ar fi schimbat greutatea ca urmare a acestui fapt. Acest mod de a
testa aparatele de msur pentru coerena lor nu ne este ns accesibil n cazul chestionarului.
Daca dorim s repetm chestionarea lui Ionic suficient de curnd pentru ca opinia lui s nu se
fi schimbat prea mult, el i va aduce desigur aminte de chestionar i va rspunde probabil la
fel mcar pentru a se arta consecvent, caracteristic pe care societatea noastr o valorizeaz
n sine. Exist chestionare special elaborate, n special n cercetri de psihologie care rezolv
aceast problem ntr-o oarecare msur prin punerea a foarte multe ntrebri i repetarea
unora dintre ele n forme mai mult sau mai puin modificate. Una peste alta problema rmne
ns deschis pentru majoritatea cercetrilor. Chestionarele nu se pot de obicei calibra att de
bine ca i cntarele. Soluia la aceast dilem nu este dect recunoaterea unei alte limitri a
cunoaterii prin statistic social. O cercetare care folosete o metod de msurare nu poate fi
comparat cu o alt cercetare ce folosete alt metod de msurare. Cntarele cercetrii
sociale nu sunt comparabile. Ca atare msurarea depinde nu numai de obiectul msurat ci i
de aparatul de msur. n cercetarea statistic social rezultatul este dependent i specific
aparatului i metodei de msurare. Deci, metodologia este parte din rezultat. Putem spune c
rezultatul msurrii are sens, este interpretabil, exist numai mpreun cu metoda de msurare.
Revenind la conceptul de model pe care l-am introdus mai sus, nu numai c statistica nu
8
calculeaz cu cini, sau oameni, sau fenomene, ea nu calculeaz de fapt nici cu greutatea,
opinia sau comportamentul ci cu rezultatul msurtorii acestora aa cum ne-o permit aparatele
de msur. Mai simplu, dac ntrebm un elev ct de des ridic mna n clas, nu vom prelucra
statistic elevul (bineneles, doamne ferete), dar nici mcar gradul lui de participare n clas
(ceea ce unii ar putea spera), ci o msur de moment a opiniei lui fa de gradul lui de
participare n clas. i aceast msur va depinde de felul cum e construit chestionarul, de
ntrebrile anterioare, dar i de evenimentele din ziua n care am efectuat chestionarea sau din
zilele precedente. Aceasta pentru c msurarea se face ntr-un moment anume i cu un aparat
anume. Mai mult, msurtoarea nu se aplic participrii n clas ci opiniei elevului asupra
acestei participri, opinie care depinde de prerea pe care o are despre coala lui, nvtorul
lui, despre sine nsui respectiv despre dezirabilitatea de a fi activ n clas. Toate acestea nu
fac msurarea inutil sau cunoaterea obinut de pe urma ei mai puin sigur, pur i simplu
sunt elemente ce trebuie luate n seam.

Dac aparatul de msur este parte din rezultatul msurat, de aici decurge imediat faptul c nu
este posibil vreo msurare fr o teorie ce st la baza ei. Aparatul de msur a fost desigur
dezvoltat pe baza unei teorii, fie c a fost un cntar fie c a fost un chestionar. Att timp ct
rezultatul msurrii nu depinde de metoda de msurare am putea la o adic s neglijm teoria
care a produs aparatul, aceasta ns nu e nici o dat cazul n cercetarea statistic. Chiar dac
msurarea a avut loc cu cntarul, ideea de a msura cu cntarul a avut la baz o decizie i
aceast decizie o teorie legat de rezultatele dorite de pe urma cercetrii. Cu att mai mult n
cazul n care aparatul de msur este parte integrant din rezultatul msurii. n unele nefericite
situaii e posibil ca nsui cel ce dezvolt chestionarul i proiecteaz cercetarea s nu fie pe
deplin contient de teoriile ce stau la baza metodelor aplicate de el. Ei bine, chiar i atunci
acestea influeneaz cercetarea precum o pot influena i prejudecile celor ce o proiecteaz.
Acestea sunt nc alte limite ale cunoaterii pe care un bun interpret al calculelor statistice
trebuie sa le aibe n faa ochilor. Nu este posibil msurare fr teorie i ca atare teoria ce st
la baza unei cercetri trebuie ct mai exact enunat i ct mai consecvent aplicat.

S ne ntoarcem deci la definiia noastr: spuneam c statistica se ocup cu interpretarea
rezultatelor unor msurtori. Am discutat puin despre msurtori n sine, s vedem acum ce
nelegem prin interpretri i care anume sunt metodele de interpretare pe care le numim
statistice. Rezultatele de msurare ne dau de obicei o multitudine de caracteristici, date
numerice sau nenumerice, ale unor obiecte, persoane sau fenomene. Acestea trebuie
9
prezentate ntr-un fel pentru a fi de vreun folos. Chiar i o dat prezentate, de exemplu sub
forma unei liste cu greutatea a 1000 de cini, ele cel mai adesea nu permit o utilizare, sau o
nelegere a ansamblului problematicii. Ce vrea i ce poate de fapt face statistica cu grmada
de date pe care le culege prin msurtori?


b. Cum cunoate statistica?

Exist dou probleme mari ale statisticii, descrierea unor date msurate si extragerea din date
msurate a unor concluzii ce se extind i asupra altor date, care nu au fost msurate din
motive ce in cel mai adesea de economie de timp i bani. Prima dintre acestea este problema
statisticii descriptive, cea de a doua cea a statisticii infereniale.

Statisticile descriptive se multumesc s spun ceva despre obiectele, indivizii sau
fenomenele care au fost msurate. ntr-un fel i statistica descriptiv generalizeaz, vrnd s
spun ceva despre obiecte pe care le cunoate doar prin rezultatele unor msurtori. Totui, de
obicei nu o considerm ca fiind generalizatoare. Primii pai n orice cercetare statistic snt
descriptivi. ncercm s prezentm ct mai clar i concis i, pe ct posibil, fr a pierde din
acuratee datele msurate. Reprezentrile grafice i tabelare, precum i valorile agregate pe
care le vom descrie n capitolul al patrulea al acestei cri sunt metodele cele mai obinuite ale
statisticii descriptive. Ele nu prelucreaz prea mult datele ns caut s ofere imagini mai uor
inteligibile dect o list lung de valori. Imaginile grafice pot fi n acelai timp i indicatori
buni pentru a recunoate trenduri, adic pentru a decide ce calcule se pot face n continuare,
cu ce statistici infereniale s se continue analiza datelor.

Valorile agregate calculate n contextul statisticilor descriptive au un grad de prelucrare puin
mai avansat. De obicei se includ aici formule de calcul ce ncearc s gseasc o tendina
central sau medie a datelor i formule ce ncearc s sintetizeze n ce msur datele sunt
dispersate n jurul acestei tendine centrale. Desigur nu ntotdeuna aceste valori sunt
interesante i nu ntotdeauna merit calculate. Snt ns cazuri n care ele ne dau o imagine
bun despre un fenomen. S lum calculul mediei, de exemplu. Media greutii unor cini de
aceiai vrst, gen i ras poate reprezenta o bun baz de comparaie ntre rase sau genuri sau
vrste. Ne poate deci spune ceva att timp ct este utilizat ceteris paribus. Conceptul de
ceteris paribus nseamn, pstrnd toate celelalte caracteristici egale i adesea nu este uor
10
de pus n practic. Totui este esenial atunci cnd vrem s efectum comparaii i s
determinm legturi dintre caracteristici, cum ar fi, de exemplu greutatea i genul cinilor.
Desigur media greutii tutoror cinilor de la o expoziie chinologic poate fi n ansamblu prea
puin relevant. Poate nsemna totui ceva pentru cei care trebuie sa fac curenie a doua zi!
De aici, nc o concluzie important: de tema de cercetare depinde metoda cea mai adecvata i
nu de repertoarul de metode. Nu stiu de unde provine zicala daca singura scula pe care o ai
este un ciocan totul ncepe s semene a cui dar n cazul statisticii sociale se confirm din
pcate foarte des. Dac tot ce tii e s calculezi medii, o s calculezi medii indiferent ce tem
de cercetare i ce date ai!

Cum i ct de mult sunt distribuite datele n jurul tendinei centrale este o alt tem esenial n
statistica descriptiv. Ai auzit cu toii butada cu individul care st cu un picior ntr-un lighean
cu ap rece ca gheaa i cu unul ntr-un lighean cu ap clocotit i zice c n medie i este bine.
Exist multe feluri de a calcula ct de distribuite sunt datele. n exemplul dat probabil ar fi de
ajuns s calculm diferena de temperatur dintre cele dou lighene, n marea majoritate a
cazurilor avem ns de a face cu un fel de miriapod care are fiecare din mia lui de picioare n
ligheane cu ape de temperaturi diferite!

Statisticile infereniale sau inductive sunt tehnici complexe, bazate cel mai adesea pe teorii
matematice despre cum sunt datele i au ca principal scop testarea unor ipoteze despre
populaii de individizi sau obiecte. Inferena statistic este de fapt formarea unor preri
justificate despre o ntreag populaie bazndu-ne pe msurarea unei pri a acesteia. Exemplul
care ne este cel mai familiar este cel al sondajului de opinie politic. Institute de sondare a
opiniei publice pun ntrebri unui eantion de vreo mie de persoane i vor s ne conving pe
noi, i binenneles i pe nite clieni pltitori de asemenea, cum c pot spune ceva despre
opinia a peste 21 de milioane de persoane. La baza acestui tupeu se afl inferena statistic
adic posibilitatea de a generaliza statistic de la msurarea unui eantion la descrierea unei
ntregi populaii. Exist teorii matematice care justific aceasta. i dac cercetarea e fcut ct
mai aproape de presupunerile acelor teorii atunci rezultatele pot fi foarte aproape de realitate.
Bineneles i n acest caz pentru interpretarea lor trebuie sa ne punem ct mai clar ntrebrile:
ce am msurat, pe cine am msurat i cu ce acuratee.

Principiul fundamental al statisticii este coninut ntr-o teorem matematic numit adesea i
teorema fundamental a statisticii. Ea ne asigur de faptul c rezultatele msurtorilor ce se
11
fac pe un eantion se pot, n anumite condiii generaliza la nivelul ntregii populaii. Vom
reveni n cel de-al treilea capitol al crii la aceast teorem fr ns a face o prezentare a ei
pe placul matematicienilor. O nelegere a consecinelor acestei teoreme pentru ntreaga
metod statistic este ns necesar pentru a evalua la adevrata lor importan mai micile sau
mai marile devieri de la idealul matematic pe care le ntlnim vrnd nevrnd n cercetrile
empirice. nelegerea fundamentelor matematice ale statisticii ne vor permite apoi s
nelegem de ce este necesar o alegere foarte bine gndit a persoanelor pe care le
intervievm pe parcursul unui sondaj de opinie i de asemenea de ce este necesar o
construcie bun a chestionarului pe care dorim s-l aplicm.

Testarea statistic nbogete cunoaterea ntr-un mod foarte apropiat principiului respingerii
ipotezelor. Pe ct de scurt este, aceast propoziie necesit o explicaie destul de detaliat. La
baza ei se afl concepia despre cunoatere tiinific a lui Karl Popper (). n logica
raionalismului critic, cum i-a numit Popper nsui teoria, principiul cunoaterii tiinifice s-
ar putea exprima simplu n felul urmtor: cunoaterea uman nu se bazeaz pe certitudini i
demostraii ale unor adevruri; ea nu progreseaz pe baza coroborrilor ipotezelor ci pe baza
contraexemplelor. Cunoaterea tiinific dezvolt ipoteze. Acestea snt acceptate dac nu se
pot respinge. Dar ele nu snt prin aceasta propriu-zis adevrate. Doar c ele nc nu au putut
fi respinse. Deci regula cunoaterii nu este demonstraia ci respingerea. Nu putem de obicei
tii dac ceva este adevrat, putem ns recunoate cu oarecare probabilitate dac ceva este
fals.

O teorie este tiinific n msura n care se poate imagina un experiment practic ce are
puterea s o contrazic. Dac acest experiment nu reuete respingerea teoriei, aceasta este
pentru moment acceptat. Ea nu este adevrat ci acceptabil conjunctural att timp ct nu a
fost respins. tiina are deci ca i scop construirea i punerea n practic a unor experimente
care ncearc s resping teorii, sau mai exact ipoteze. n statistic ca i n teoria Popperian a
raionalismului critic, spre deosebire de multe domenii ale matematicii, prin termenul ipotez
nelegem o propoziie care se supune analizei. n logica clasic o ipotez este o propoziie din
care decurge o concluzie. Acolo nu se studiaz, de regul, valoarea de adevr a ipotezei, ci
felul cum decurge din ea o concluzie. n statistic ns, tocmai ipoteza este presupunerea
supus testrii.

12
O ipotez o dat respins duce la o nou interpretare a realitii i ca atare la noi ipoteze.
Exist aici o asimetrie ntre verificarea i respingerea teoriilor care este esenial i pentru
felul cum cunoate statistica. Statistica folosete principiul contraexemplului ntr-un sens
probabilist. S explic. Statistica poate msura o valoare, de exemplu media greutii cinilor
de la o expoziie chinologic i o poate compara cu o valoare teoretic ipotetic, de exemplu o
ipotetic medie a greutii tuturor cinilor din lume. Pe baza acestor valori, i a unor foarte
importante presupuneri despre cum sunt n general distribuite datele i cum au fost ele
msurate practic, statistica poate calcula care este ansa ca ipoteza s fie corect n lumina
datelor msurate.

Statistica va pune deci ntrebarea n felul urmtor. Fie urmtoarea ipotez: media greutii
tuturor cinilor din lume este de 50kg. Daca media greutii cinilor din expoziie este de 20kg
poate fi oare media greutii tuturor cinilor din lume fi 50kg? Dac aceast ans este foarte,
foarte mic exist un bun motiv de a respinge ipoteza. Vom spune atunci c, dac cinii din
expoziie reprezint un bun eantion al cinilor din ntreaga lume, iar printre acetia greutatea
este distribuita normal, ipoteza cum c media de greutate a cinilor din ntreaga lume este de
50kg este aproape sigur greit. Statistica nu ne spune ct ar fi adevrata valoare a greutii
medii a cinilor din lume, ne poate ns spune ct nu este i prin consecin ne poate da o
imagine despre cam ct ar putea fi aceasta.

Deci statistica lucreaz oarecum dup principiul popperian. Nu poate demonstra, poate ns
respinge ipoteze. O bun cercetare statistic, ca i o cercetare tiinific n sensul lui Popper
este o cercetare care construiete ipoteze ce pot fi respinse i experimente care au puterea de a
respinge aceste ipoteze.

Orice cercetare statistic bine construit pornete de la o serie de ipoteze mai mult sau mai
puin explicite pe care le supune testrii statistice. Evident, cel mai bine este atunci cnd aceste
ipoteze sunt explicite i tiinifice, adic refutabile. Deorece ns, aa cum am vzut deja, nu
este posibil msurare fr a accepta n prealabil anumite teorii, ntotdeuna vor exista i
presupoziii teoretice care nu se supun testrii. Acestea reprezint cadrul teoretic al cercetrii
i tot ce putem face este s le contientizm i s ni le asumm cci ele determin ce i cum
cunoatem. nsi acceptarea metodei statistice ca i cale de cunoatere este o astfel de
premis teoretic, nu neaprat acceptat de ctre toat lumea.

13
c. Cauzalitate i statistica.

O mare parte din cercetarea statistic ncearc s pun n relaie mai multe rezultate de
msurare care reprezint caracteristici diferite ale unor individizi, obiecte sau fenomene.
Astfel, ca s revenim la cinii notrii, un cercettor ingenios poate msura greutatea i genul
cinilor i conchide de exemplu, cum c, pstrndu-ne n cadrul oricrei rase i grupe de vrst,
pe msur ce un cine are greutate mai mare el are anse mai mari de a fi mascul. Un astfel de
raionament este statistic absolut corect i ne arat ct se poate de clar faptul c conceptul de
cauzalitate este un concept teoretic i nu unul statistic.

Una din greelile de interpretare cel mai curent ntlnite n citirea datelor statistice este
presupunerea de cauzalitate. Foarte adesea ne este convenabil s citim rezultatul unui calcul
statistic ca o dovad de cauzalitate. Aceasta este fals chiar din dou motive. Pe de o parte, aa
cum am spus-o mai sus, statistica nu dovedete nimic ci eventual nu respinge o ipotez, iar
mai apoi, nici un model statistic nu poate conclude asupra vreunei cauzaliti. Este ns ct se
poate de adevrat c exist modele statistice ce presupun cauzalitate, cum sunt regresiile. n
acest caz cauzalitatea este inclus n model, face parte din teoria ce a stat la baza construirii
modelului i desigur, ca n orice form de cunoatere statistic, ea ar putea fi eventual
respins. Caz n care am avea un bun motiv s excludem o relaie cauzal. Dac ns nu putem
respinge cauzalitatea nu avem un motiv mult mai puternic de a o presupune dect am avut n
momentul n care teoria ne-a permis s o considerm pentru a fi modelat.

Deci cauzalitatea este n teorie, n ipotez i nu n calcul. De aceea exemplul de interpretare
de mai nainte ni s-a prut imediat greit. Face parte din simul comun faptul c genul unui
cine este neschimbat toat viaa lui, pe cnd greutatea poate varia. De aici teoria noastr
despre cini nu accept cauzalitatea dintre greutate i gen ci pe cea invers. Deci, ipoteza pe
care nu o putem respinge este: cinii masculi sunt mai grei i nu cinii mai grei sunt
masculi. Din pcate nu este ntotdeauna aa simplu. S lum un exemplu clasic, relaia dintre
nivelul de educaie al unei naiuni i bunstarea ei. Se tie foarte bine c exist o legtur
puternic ntre aceste dou caracteristici aproape indiferent cum le-am msura (de ex: procent
din populaie cu studii superioare i produs intern brut pe cap de locuitor), exist ns teorii
convingtoare pentru ambele direcii de cauzalitate i testele statistice nu au reuit s resping
nici una dintre ele. Decizia asupra direciei de cauzalitate este deci un apanaj al teoriei.

14
i totui, statistica poate construi anumite raionamente cauzale. Acestea se bazeaz pe o
observaie ct se poate de simpl: efectul nu poate s precead cauza. Aceasta se poate numi
asimetria temporal a cauzalitii. Raionamentul logic e foarte simplu: dac evenimentul A
a avut loc dup evenimentul B, atunci evenimentul A nu poate fi cauza lui B. Simplu, dar
relativ puin util pentru c foarte rar datele noastre statistice se refer la evenimente singulare,
clar databile temporar. Cnd avem de a face cu informaii databile, adic n cazul seriilor de
timp, urmrim de regul dezvoltarea unor fenomene n timp. Atunci punem fa n fa
dezvoltarea unor serii de timp. Varianta cea mai simpl este s legm dezvoltarea unei
variabile, de ex. nivelul de bunstare ntr-o ar, de o alta, de ex. ateptarea de via n
respectiva ar. Pn i informaii absolut nesistematice ne pot convinge c ntre acestea exist
o relaie.

Cum ar funciona ns raionamentul asimetriei temporale? Pentru a nelege aceasta ar trebui
sa putem separa mecanismul individual care st la baza statisticii; s desfacem datele rezultate
din agregare n fenomene individuale. n cazul de fa, raionamentul ar fi urmtorul: dac o
persoan are un nivel de bunstare ridicat, va putea investi mai mult n sntatea sa, prin
adresare la medic, alimentaie i igien, i va tri n consecin mai mult. Exist ns i
raionamente alternative. De exemplu, se poate presupune c nivelul de bunstare nu mai
conteaz dac un anumit prag al srciei extreme e depit. Oamenii nu fac economii la
adresarea la medic, la alimentaie i igien. Sau c, dei bunstarea are un anumit efect, de
fapt acesta e doar colateral. Ceea ce conteaz este nivelul de educaie i cultur care are efect
asupra obiceiurilor alimentare, igienice i de adresare la medic. Cele trei variante acopera
situaiile unei cauzaliti relativ directe, ale lipsei cauzalitii i a unui lan cauzal complex
fr relaie direct ntre variabilele studiate.

Cum raionm statistic? Orice cauzalitate trebuie s se regseasc la nivel individual. Deci,
dac n forma agregat bunstarea medie crete sau scade aceasta s-a ntmplat prin creterea
sau scderea bunstrii individuale a unor persoane. Pentru simplitate putem presupune c o
cretere a agregatului este reflectarea unei creterii la nivelul indivizilor. Desigur n realitate
situaia poate fi mai complex, o parte din indivizi putnd cunoate creteri i o alt parte
scderi. La nivelul fiecrui individ a crui bunstare crete, condiiile de via pot produce o
via mai lung. De aici deducem urmtoarele: dac creterea bunstrii e mai mare atunci
creterea ateptrii de via va fi mai mare. Adic, cauzalitatea se reflect mai bine n relaia
dintre creteri dect n relaia dintre valori. Creterile se calculeaz simplu ca diferene de la
15
un punct temporar (de ex. un an) la altul. A doua observaie imediat este c trebuie s lsm
timp fenomenului s se dezvolte (asimetria temporal), adic va trebui s relaionm valori ale
creterii bunstrii de la un anumit moment cu valori ale ateptrii de via ulterioare. Ct e
bine s fie aceast ntrziere depinde de situaia modelat. Termenul statistic pentru aceast
ntrziere vine din englez i se numete lag. n fine, a treia observaie este c o valoarea
unic, o cretere a bunstrii ntr-un singur an, eventual ca efect al unui venit mare accidental
care dispare foarte repede, nu trebuie neaprat s aib consecine eseniale asupra ateptrii de
via. Deci ar trebui s nu lucrm cu o singur valoare ci s lum n considerare fenomene
stabile de cretere, respectiv scdere. Acest raionament st la baza unei serii ntregi de
metode de testare a cauzalitii dintre care cele mai convingtoare sunt, dup prerea mea
metodele dezvoltate de Clive Granger. Acesta a primit n 2003 i un premiu Nobel pentru
economie pentru ele. Raionamentul care definete cauzalitatea la Granger este ns complex.
Ca atare muli l consider restrictiv i susin c nu acoper toate situaiile pe care simul
comun le consider ca fiind cauzale. De aceea se folosete pentru definiia aceasta termenul
de cauzalitate Granger n loc de cel general de cauzalitate. n capitolul dedicat seriilor de timp
voi reveni asupra unor metode de testare a cauzalitii. Aceastea pot lua desigur numai forma
unor respingeri de ipoteze, ns exist metode care permit respingerea unor ipoteze de non-
cauzalitate.

Un alt caz interesant care apare n statistic uneori este cel al falsei cauzaliti, sau ntr-o
form atenuat, a falsei corelaii. Variabile par a fi legate i nu ar trebui s fie. Vreau s atrag
aici atenie asupra necesarei precauii n a defini o legtur ca fiind o fals relaie dintre
variabile. Eu pn n momentul de fa nu am ntlnit false relaii ci doar relaii cu explicaii
teoretice complexe sau neimediate. Sunt aceste explicaii corecte? Nu ntotdeuna, dar nu pot fi
imediat respinse i sunt ca atare mai fertile dect presupunerea unei false cauzaliti.

Exemplul clasic este cel al foarte bunei corelaii empirice dintre numrul de berze i indicele
conjunctural al fertilitii, calculat ca numr de copii nscui unei femei pe parcursul vieii
fertile, calculate pe regiune. Rezultatul, des verificat n practic ar putea fi o dovad cum c
berzele aduc copiii. Cei ce au citit cumini pn aici vor observa c nu este aa. Pe de alt
parte s-ar putea s fie de acord cu faptul c, experimentul n cauz nu poate respinge o
legtur dintre numrul de berze i natalitate. S oferim ns o teorie alternativ. O teorie ct
se poate de acceptabil chiar de ctre simul comun spune c numrul de berze, dar i numrul
de nateri ale unei femei pe parcursul vieii fertile este mai mare n zona rural dect n cea
16
urban. Gradul de urbanizare (sau industrializare) al regiunii studiate ar reprezenta deci o
variabil care le influeneaz pe amndou variabilele din studiul nostru. i mai mult, le
influeneaz n acelai sens creind astfel o relaie pozitiv ntre ele. Nu era deci vorba despre o
cauzalitate direct, dar nici despre o eroare. Pur i simplu, relaia cauzal trebuia explicat
teoretic acceptabil. Adic, testul statistic nu poate alege care din cele dou teorii alternative,
barza aduce copiii respectiv urbanizarea reduce numrul de berze i numrul de nateri a
unei femei este mai bun. Adecvarea cu ansamblul de teorii i ipoteze ale cercetrii are ns
aceast sarcin.

nchei aici, repetnd: testele statistice pot da indicaii despre relaii dintre variabile dar numai
teoria poate construi n termenii unor relaii cauzale i tot teoria trebuie s fie atent la
posibilele determinri cauzale complexe, ce implic nu numai variabilele msurate explicit ci
eventual i altele, poate uneori chiar nemsurabile.

d. Foarte scurt istoric al statisticii.

Probabil c au existat rapoarte statistice nc din vremurile imperiilor antice legate de
impozite i preuri, fapt este c termenul actual de statistic provine din latina nou folosit n
administraia german i italian a secolului al 18-lea, i mai exact din termenul statisticum
collegium, ce avea sensul de colegiu de stat, colegiu director. Mai mult, n Italia vremii,
statista chiar nsemna om de stat, politician. Se pare c primul care a folosit cuvntul statistic
a fost Gottfried Achenwall n 1749, i anume n limba german, sub forma de Statistik i cu
sensul de analiz a datelor despre stat sau chiar de tiin despre stat. Achenwall (1719-
1772) a fost unul din creatorii statisticii, pe parcursul carierei sale fiind att universitar la
Marburg i Gttingen, ct i consilier de curte al principilor electori de Braunschweig-
Lneburg.

Termenul de statistic a fost preluat n alte limbi i, n fine generalizat, cu un sens apropiat
celui pe care l dm astzi acestei metode, pe parcursul secolului al 19-lea.

Practica de a culege i analiza date despre stat exista ns deja n Anglia i era acolo numit
aritmetic politic. Termenul avea o vechime de cel puin un secol cnd Achenwall a inventat
noul nume i pare a i se fi datorat lui William Petty (1623 - 1687) fiind chiar titlul unei cri
ce i s-a publicat postum. William Petty nu a fost statistician n sensul metodelor pe care le
17
nelegem astzi ca fiind statistice. A fost ns statistician prin multe dintre temele ce l-au
interesat. Petty a fost i politician, economist, inventator, antreprenor i multe altele i a
folosit tot felul de tehnici ingenioase, chiar dac nu ntotdeuna corecte, pentru a estima, de
exemplu, populaia Londrei.

Pentru ca statistica s fie cea de acum a trebuit ns s se lege mai nti de teoria
probabilitilor. Acest domeniu al matematicii, iniial legat mai mult de jocuri de noroc i
divertismente matematice, i are originile tot n secolul al 17-lea, dei primele scrieri despre
jocuri de noroc se gsesc ntr-o oper postum a lui Girolamo Cardano (1501-1576), Liber de
ludo aleae. Cartea a fost ns publicat abia n 1663, n anii n care apreau i lucrrile unor
Pierre de Fermat (1601-1665) sau Blaise Pascal (1623-1662). Acetia din urm sunt creditai
c au moit de fapt teoria probabilitilor prin corespondena pe care au purtat-o asupra
celebrei probleme a Cavalerului de Mr. Problema era: cum trebuie s mpart doi juctori
miza total a unui joc de noroc dac nu vor s joace pn la capt, dar vor ca aceast imprire
s fie proporional cu ansa fiecruia de a ctiga jocul. Pe Pascal se pare c la convins n aa
msur metoda probabilist gsit nct a folosit-o i pentru a argumenta existena lui
Dumnezeu, cu un succes mai de grab incert.

Destul de repede s-a observat c, dei un joc de noroc este determinat de situaii aleatoare,
repetarea unui astfel de eveniment aleator poate duce la o anumite regularitate i aceast
repetare este de fapt baza a ceea ce acum numim observaie statistic. Ideea de observaie
repetat apare deja n prima carte de teorie a probabilitilor publicat de Christiaan Huygens
(1629-1695) n 1657. Ca tiin matematic urmtorii pai au fost fcui de doi celebri
matematicieni Jakob Bernoulli (1654-1705) tot ntr-o lucrare postum, intitulat Ars
Conjectandi i Abraham de Moivre (1667-1754) n Doctrines of Chance (publicat n
Anglia). Aceast din urm carte pune i bazele statisticii n sensul modern al tiinei. n a doua
ediie a crii (1738) apare pentru prima oar o form a distribuiei normale de probabilitate
despre care vom vorbi pe larg i n cartea de fa, dar i un caz particular al teoremei limit
central, o clas de teoreme foarte important pentru statistic, pe care va trebui s o tratm i
noi mcar un pic pentru a nelege diferite fenomene legate de erorile statistice.

i teoria erorilor de observaie se gsete deja n scrieri de la nceputul secolului al 18-lea, i
anume n cteva note postume ale lui Roger Cotes (1682-1716), dar cel ce a legat probabil
18
statistica, cu sensul de observaie asupra statului de teoria probabilitilor a fost Pierre-Simon
Laplace (1749-1827).

Laplace a fost un om de tiin deosebit de prolific, ceea ce ne intereseaz ns acum este
dezvoltarea de ctre el a unei aa-zise teorii analitice a probabilitilor. ntr-o lucrare din 1812
Laplace descrie mai exact distribuia normal, i, pe lng multe altele, demonstreaz i o
form a metodei celor mai mici ptrate, nc metoda noastr de preferin pentru calculul
ecuaiilor de regresie, precum vom vedea n capitolul al aselea.

Probabil cellalt mare creator al tiinei statisticii a fost Carl Friedrich Gauss (1777-1855).
Considerat uneori cel mai mare matematician al tuturor timpurilor, dei mie personal nu mi
este cunoscut nlimea lui fizic i nu cred c cea intelectual se poate cu adevrat msura,
Gauss a contribuit la aproape toate domeniile matematicii. i el a contribuit la descrierea
distribuiei normale, de aici i numele de curb a lui Gauss ce se d de obicei graficului
distribuiei normale. Tot Gauss a clarificat i ipotezele metodei celor mai mici ptrate. n acest
caz exist ns o anumite disput de primordialitate cu Adrien-Marie Legendre (1752-1833)
care a publicat aceleai rezultate, se pare independent de Gauss. Legendre le-a publicat de fapt
naintea lui Gauss, acesta ns susinea c le tie de mult.

Deja pe parcursul primei pri a secolului al 19-lea rezultatele tiinifice legate de metoda de
cercetare statistic s-au nmulit considerabil. Multe metode au fost dezvoltate, principalele
tehnici puse la punct. Dezvoltarea mare a domeniului a venit ns spre sfritul secolului al 19-
lea i apoi n secolul al 20-lea o dat cu interesul crescut pentru studiul societii, apariia
tiinelor economice moderne i a sociologiei. Atunci apar marile coli statistice crora le
datorm arsenalul actual de metode. Pe de o parte este vorba despre coala englez. Principalii
ei exponeni au fost: Karl Pearson (1857-1936) care a contribuit esenial la teoria corelaiei i
a regresiei i a dezvoltat coeficientul de corelaie r dar i coeficientul Chi
2
, i Ronald Fischer
(1890-1962) iniiator de fapt al ntregului domeniu al testelor non-parametrice, creator al
distribuiei i testului F i a unei serii ntregi de rezultate eseniale pentru statistica de astzi,
dar i Charles Spearman (1863-1945) care a dezvoltat principalele metode de analiz
factorial dar i coeficientul de corelaie (rho) pentru valori ordinale, numit i coeficient
Spearman, William Sealey Gosset (1876-1937) cunoscut sub pseudonimul Student, care a
dezvoltat metode de verificare a ipotezelor, distribuia Student i testul t, i alii.

19
Dac coala englez de statistic a fost la originea multora dintre metodele statisticii aplicate,
la cellalt capt al continentului, n Rusia, au aprut lucrri eseniale pentru justificarea
tiinific, matematic a calculului statistic. Principalele teoreme ce stau la baza statisticii au
fost demonstrate de matematicienii rui Pafnuty Chebyshev (1821-1894) cu inegalitatea ce i
poart numele i ca o consecin a acesteia, teorema slab a numerelor mari, Andrey Markov
(1856-1922) creatorul lanurilor Markov i n general unul dintre creatorii teoriei proceselor
stochastice, Aleksandr Lyapunov (1857-1918) care a demonstrat o form general a teoremei
limit central, Andrey Kolmogorov (1903-1987) unul din principalii contribuitori la
demonstrarea teoremei tari a numerelor mari i autorul unui criteriu suficient ce i poart
numele, i alii.

Dezvoltarea statisticii a continuat pe parcursul secolului trecut i ca tiin. Mai impresionant
poate ns, statistica a ptruns n contiina public o dat cu utilizarea ei pe scar larg n
cercetrile sociale i cvasi-generalizarea sondajului de opinie ca metod de culegere de
informaii despre societate, ca metod de msurare a societii. Primul sondaj de opinie a fost
efectuat n Statele Unite de revista Literary Digest n 1916 pentru a prevede rezultatul
alegerilor prezideniale. Fr vreo baz teoretic statistic, revista a cerut cititorilor s
returneze redaciei o carte postal - chestionar. Pentru patru alegeri prezideniale la rnd,
metoda a dat rezultate corecte.

Un pas important spre fundamentarea tiinific a sondajului de opinie l-a fcut George H.
Gallup (1901-1984) care n teza lui de doctorat din 1928 a dezvoltat metoda ce st la baza
sondajului de opinie statistic. Primul mare succes al lui Gallup a fost n 1936 cnd a reuit s
prevad corect victoria lui F.D. Roosevelt n alegerile prezideniale, spre deosebire de Digest
care a greit folosind un eantion incomparabil mai mare. Celebru att pentru ncrederea mare
pe care a produs-o de la nceput ct i pentru cteva eecuri memorabile, lui Gallup trebuie s-i
recunoatem meritul de a fi creatorul instituiei sondajului de opinie statistic.

20
Capitolul 2. Tipuri de date

Voi prezenta aici principalele tipuri de date, sau nivele de msurare, cum se mai numete
aceast clasificare. Dei criticat pentru diverse motive aceasta mprire a datelor permite o
nelegere simpl a felului cum se apropie statistica de fenomene.

n 1946, psihologul american Stanley Smith Stevens a propus ntr-un articol mult citat, ludat
i criticat apoi, o teorie a nivelelor de msurare care avea s fie apoi repetat n aproape toate
manualele introductive de statistic (Stevens, 1946). Nu am vrut s m abat de la regul.
Prima dat s vedem totui la ce bun i cum adic?

Este absolut evident c msuratorile pe care se bazeaz statistica nu sunt toate la fel. Din
exemplele mai mult ntmpltoare din capitolul capitolul precedent (greutatea i genul unui
animal, opinia despre un politician) este evident c aparate diferite de msur dau rezultate
care fac parte din categorii ct de poate de diferite de cunoatere. Dac greutatea se exprim n
valori numerice cu care se pot face calcule aritmetice, genul e un fel de etichet, nu nume dat
unei categorii, iar opinia despre politician poate fi exprimat n mai lungi sau mai scurte
propoziii, eventual chiar n grade de genul, mai bun mai puin bun dar nu n valori
numerice concrete. Deci, Stevens a intuit ct se poate de corect, e necesar o clarificare i o
categorisire a acestor nivele de msurare. Tehnic o astfel de categorisire ajut la a stabili ce
metode anume se potrivesc a fi folosite cu ce fel de variabile. Poate prea inutil, dar un
exemplu sper s ajute aici. Am vorbit despre opiniile despre politicieni. Destul de des acestea
sunt exprimate n note. Fie ntrebarea de chestionar chiar cere notarea, ca la coala, a
activitii unui politician, sau a unui guvern sau minister n ntregul lui, fie rspunsurile snt
transformate n note de ctre cercettor ntr-o activitate pe care o numim de regula codare a
rspunsurilor. Rspunsurile la ntrebrile de opinie n final ajung s nu se disting de
rezultatele, eventual rotunjite, ale cntririi unui cine. i totui diferenele acestea sunt
eseniale i nu trebuie uitate
1
.

Prezentarea nivelelor de msurare n crile introductive de statistic mai are un avantaj.
Permite o exemplificare structurat a datelor cu care lucreaz statistica i o prezentare
coerent a principalelor proprieti ce sunt necesare pentru a putea lucra cu ele.

1
Confuzia dintre date de aceste tipuri e pe larg analizat n foarte reuita carte a lui Darrel Huff How to Lie
with Statistics (1954) care a aprut ntre timp n peste 30 de ediii.
21

a. Date nominale

Datele nominale, numite uneori i categoriale, sunt nume date unor proprieti ale obiectelor,
indivizilor sau fenomenelor studiate care nu pot fi reprezentate prin cantiti i nici nu au o
ordine implicit. Din exemplele de pn acum, genul este o dat nominal. Indiferent ct de
complex cultural, biologic, comportamental i aa mai departe ar fi categorisirea pe genuri,
dezvoltarea caracteristicilor de gen sau alte probleme despre care sunt alii chemai s scrie, ca
tip de dat genul nu e altceva dect un cuvnt desemnnd o categorie. Nu putem face nici
socoteli aritmetice cu genuri, nici comparaii. Masculin nu e mai mare dect feminim, i nici
sume sau medii nu putem face. Chiar daca am codifica la o adic genurile, la modul feminin =
2 i masculin = 1, ca la codurile numerice personale din Romania, o declaraie de forma:
genul mediu ar participanilor la sondaj a fost 1,56 este ilar.

Totui i datele nominale trebuie sa se supun unor reguli, e drept puine i simple, pentru a
putea fi folosite ca date statistice. Acestea sunt:

Excluderea mutual: Categoriile unei date nominale trebuie s se exclud reciproc.
Un cine msurat de noi nu poate fi n acelai timp i mascul i femel, un cetean
interogat ntr-un sondaj de opinie nu poate fi n acelai timp i cstorit i
necstorit.
Completitudinea: Orice individ msurat n cadrul cercetrii trebuie s gseasc o
categorie ce i se potrivete n lista de valori posibile. Eventual se include varianta
altceva, altfel dar lista de valori trebuie s poate acomoda orice situaie.

Condiiile de mai sus nu sunt ntotdeuna uor de pus n practic. Dei cred c par a fi de bun
sim, sunt situaii n care ntrebrile i listele de rspunsuri trebuie formulate cu grij pentru a
nu ntmpina probleme n analiza ulterioar a datelor. De multe ori cercettorii chiar prefer s
pun ntrebrile astfel nct s par ct mai naturale celor ce trebuie s rspund la ele i s
codifice apoi ei nii datele n aa fel nct s corespund cerinelor prelucrrii statistice.

Exemple tipice de date nominale sunt genul, starea civil, naionalitatea, apartenena
religioas. Toate acestea au n comun faptul c pe lng caracterul lor nenumeric nu au nici o
22
ordine acceptat a valorilor. Asta chiar dac unii pot fi de prere c romnii sunt mai
superiori dect bulgarii!

Cu toate c datele nominale pot prea srace din punctul de vedere al posibilitilor
calculatorii ele sunt importante n multe fenomene sociale, economice, etc. i au fost
dezvoltate multe metode statistice care s permit analiza lor sau, mai adesea, s permit
analiza altor date n relaia lor cu categorii nominale. Voi discuta pe larg astfel de metode n
special n capitolul al aptelea al crii.

b. Date ordinale

O a doua grup de date sunt cele care, dei nu sunt numerice, au o ordine bine definit a
valorilor. Sensul de bine definit al unei ordini nu este nicidecum trivial. Matematicienii
neleg printr-o ordine bine definit o ordine care poate fi recunoscut pentru orice dou
valori i mai mult, este i tranzitiv.

Pentru simplificare voi folosi expresia mai mare pentru a descrie ordinea. Atunci o ordine
este bine definit dac ntre oricare dintre valorile de rspuns este clar care este mai mare.
Tranzitivitatea nseamn c daca o valoare este mai mare dect alta, iar aceasta mai mare
dect o a treia, prima valoare va fi n consecin mai mare dect cea de a treia.

n plus fa de condiia de ordine, datele ordinale trebuie s se supun i condiiilor pe care le-
am specificat n cazul datelor nominale, s permit deci numai valori mutual exclusive i lista
acestor valori s fie complet.

Diferena esenial dintre datele ordinale i valorile numerice este aceea c nu are sens
calculul distanei dintre dou valori, respectiv distanele dintre valori consecutive nu se pot
presupune a fi egale. Un exemplu va face mai clar aceast distincie. O ntrebare tipic
pentru un rspuns ordinal este cea legat de ncrederea ntr-un politician. S presupunem c
rspunsurile posibile sunt: foarte puin, puin, nici puin, nici mult, mult, foarte
mult. Se vede imediat c lista de valori este ordonat bine, ntre orice dou valori ordinea e
evident i tot evident este i proprietatea de tranzitivitate. Tot att de clar este c fiecare
intervievat va trebui sa decid de fapt care e opinia lui, foarte probabil fiind c pn n
momentul interogrii el s nu-i fi pus problema ncrederii n termenii ntrebrii. Aceast
23
nevoie de a decide difereniaz pe cei chestionai de cei ce nu sunt chestionai i pune
probleme n generalizarea rezultatelor la nivelul populaiei adic i asupra celor ce nu au fost
de fapt chestionai i nu au trebuit s se decid n contact cu ntrebarea pus n forma dat. Un
mod de a contientiza aceasta este de a nu conferi valorilor de rspuns un sens absolut
matematic, ci de a le considera interpretri personale ale celor ce au rspuns. Asta nseamn
c pentru doi intervievai diferii sensul unei valori de rspuns poate fi oarecum diferit, de
exemplu, pragul de la foarte puin la puin ncredere s fie diferit, distana dintre dou
categorii s fie diferit. Intervievatul care alege un rspuns nu face altceva dect s i
poziioneze opinia ntr-o ordine i numai caracterul de ordine al valorilor de rspuns poate fi
presupus n analiz. n ansamblu nu se poate deci presupune c exist distane ntre valori
ntr-un sens matematic. Dei se face des, traducerea valorilor de rspuns n cifre, de exemplu
de la 1 la 5 n cazul nostru, este riscant i duce la greeli importante. Calculul unor medii
aritmetice a rspunsurilor este una din greelile cele mai uzuale pe care le fac cercettorii n
tiine sociale, de multe ori chiar contieni de abuzul implicat. Scuza uzual pentru aceast
greeal este aceea c nsumnd opinii ale unui numr mare de persoane, distanele dintre
variantele de rspuns, ntr-adevr diferite de la o persoan la alta, se nsumeaz i dau o medie
statistic egal. Din pcate ns nu este aa. Exist devieri sistematice de la aceast distan
presupus egal ntre variantele de rspuns. i anume, valorile extreme, de tipul foarte puin
ncredere sau foarte mult ncredere snt adesea mai ndeprtate de valorile proxime
puin ncredere, respectiv mult ncredere dect snt acestea de valoarea median, neutr.
Mai grav nc, n cazul n care o anumit ntrebare este receptat ca fiind legat de o presiune
social, distanele din scal se defazeaz n sensul acestei presiuni.

Ca i n exemplul anterior, majoritatea ntrebrilor care produc rspunsuri ordinale se bazeaz
pe aa zise scalograme, adic liste standardizate de rspunsuri. Cele mai obiuite, mai des
folosite, sunt scalele Likert, dezvoltate deja n 1932. Scala Likert este o scal a nivelului de
acord cu o propoziie. Un exemplu simplu ar fi urmtorul:

Suntei de acord cu faptul c Traian Bsescu este un politician dedicat binelui rii noastre?
a. Nu sunt deloc de acord
c. Nu sunt de acord
d. Nici de acord, nici nu
e. Sunt de acord
f. Sunt absolut de acord.
24

Formulrile pot diferi, de regul ns este vorba despre o scal ordinal cu un numr impar de
valori. Cel mai adesea sunt 5 valori, unii cercettori din domeniul psihologiei n special,
prefer totui scale cu 7 valori. Valoarea median, adic cea din mijlocul scalei este
ntotdeuna o valoare neutr. Acordul sau dezacordul sunt exprimate verbal n forme ct mai
clare i simple de grade diferite de radicalitate. Uneori se alege contient eliminarea valorii
mediane. n acest caz se vorbete de o scal Likert cu opiune forat. Intervievaii sunt atunci
obligai s adopte o poziie chiar daca ar prefera neutralitatea.

Un alt tip important de scalograme, sunt cele de tip Guttman sau cumulative, dezvoltate iniial
de sociologul i psihologul Louis Guttman ntr-un articol din 1944. Guttman pune cteva
condiii simple pentru ceea ce este o scal Guttman perfect, i anume:

O scal Guttman este o list ordonat de propoziii cu care intervievatul poate fi de
acord sau nu.
S presupunem c avem 10 astfel de ntrebri. Dac intervievatul este de acord cu
propoziia 7, dar nu i cu propoziia 8, logica scalei presupune c el este de acord cu
toate propoziiile 1-7 i nu cu propoziiile 8-10. n aceste condiii scorul lui va fi 7.

Modelul lui Guttman este desigur ideal prin caracterul lui determinist. O variant mai
permisiv i mai apropiat de realitate este modelul lui Rasch care presupune o scal de tip
Guttman probabilist, adic n care relaiile dintre rspunsuri au un caracter probabilist.

Un exemplu celebru de scal de tip Guttman este des folosit n analiza relaiilor dintre grupuri
etnice, religioase, naionale, etc. Aceasta este scala Bogardus (dup sociologul american care
a dezvoltat-o), numit i scal a distanei sociale, care se bazeaz pe o lista de ntrebri de
urmtoarea form:

Ai fi de acord ca un .......... (aici se completeaz categoria fa de care se estimeaz distana
social, de exemplu maghiar, rrom, baptist, homosexual):
S v devin rud prin alian (rspunsul da valoare 1).
S v fie prieten apropiat (2)
S locuiasc pe aceiai strada (3)
S v fie coleg de servici (4)
25
S fie cetean al rii noastre (5)
S fie doar turist n ara noastr (6)
S fie expulzat din ara noastr (7)

Valori ordinale se pot ns obine i n alte situaii. De fapt cazul cel mai cunoscut de valoare
ordinal este cel al notelor i calificativelor date elevilor i studenilor. i este i cel mai
cunoscut abuz de utilizare a unor valori ordinale. Dei probabil o mare parte a profesorilor ar
fi de acord, cel puin eu a fi, c distana dintre un 4 i un 5 nu este aceiai cu distana dintre
un 7 i un 8, sau dintre un 9 i un 10, medii aritmetice ale notelor se calculeaz n mod uzual
i se mai i folosesc pentru a lua decizii importante pentru viaa celor notai. Problema
utilizrii mediei aritmetice pentru date ordinale este ns o problem care a produs multe
controverse. Dup prerea mea principalul motiv este prezena att de rspndit a datelor
ordinale, probabil cele mai des ntlnite n cercetrile sociale, i frustrarea de a renuna la o
form de prezentare att de simpl de calculat i neles cum este media aritmetic. Trebuie
ns menionat c exist o serie ntreag de metode puternice care lucreaz cu date ordinale i
nu fac presupuneri suplimentare despre distanele dintre valori.

Alte exemple de date ordinale snt: nivelul de educaie (dac formularea rspunsurilor este
bine ordonat), respectiv topurile de preferine (nu i cele de vnzri, la care se poate calcula o
diferen ntre poziii clar exprimat n uniti vndute).

c. Date intervalice

Ultimele dou categorii ale clasificrii lui Stevens se refer la date numerice i diferenierea
pe care a impus-o ntre datele intervalice i cele raionale este i una dintre cele mai
controversate ale teoriei nivelelor de msurare. Cu toate acestea, s vedem despre ce e vorba.

n definiia iniial, datele intervalice sunt date numerice care au punct zero convenional. Mai
simplu spus, zero-ul intervalic nu nseamn o lips a caracteristicii ci este o valoare ca
oricare alta. Un cine care are greutatea zero nu este un cine, cel puin dup prerea mea. Ca
atare greutatea nu este o valoare intervalic. Dac ns cineva s-a nscut la ora zero, nu
nseamn c nu s-a nscut de loc. Ora zero este convenional i nu nseamn absena
indicaiei de timp. Deci datele calendaristice, sau de or sunt date intervalice. Ele evident sunt
altfel dect celelalte date numerice de msurare.
26

Datele intervalice au toate caracteristicile datelor ordinale, sunt mutual exclusive, complete i
bine ordonate. Chiar i caracterul convenional al notrii numerice este prezent. Diferena este
ns distana calculabil ntre dou valori intervalice. ntre dou momente n timp se poate
calcula o distan, fie ea n minute, secunde sau alte uniti de msur i o distan de o
anumit mrime, de exemplu 5 minute, este aceiai indiferent pentru ce valori de timp a fost
calculat. Pstrnd toate celelalte condiii egale, dac un ou fierbe n 5 minute la ora 14, el va
ajunge la fel de tare dup 5 minute de fierbere i la ora 7. Atenie ns, chiar dac momentele
ora 14 i ora 7 snt indicaii intervalice, nu astfel este i durata de 5 minute. Aceasta
este o dat numeric raional, cum vom vedea c se numesc acestea. Adic, un ou care fierbe
zero minute chiar nu fierbe de loc!

Alte date intervalice sunt gradul de longitudine i latitudine geografic, fusul orar, temperatura
precum i alte date convenionale.

Deoarece datele intervalice au distane corect calculabile ntre ele, pot fi folosite n aproape
orice calcule matematice. Problematic rmne utilizarea lor n mpriri i nmuliri, deorece
ele nu au sensul de cantitate pe care il acordm de obicei datelor numerice. Astfel un cine de
40kg cntrete ntr-adevr ct doi cini de cte 20kg. Pe de alt parte, ora 14 nu este ct dou
ore 7 din nici un punct de vedere. De asemenea, de 4 ori cate o halb de bere sunt 2 litri de
bere, ns de patru ori deteptarea la ora 3 dimineaa nu face ct o trezire la ora 12.

d. Date raionale

Din prezentarea de pn acum nu am avut cum exclude referiri la datele raionale. Acestea
sunt datele numerice, cantitative, obinuite. Ele apar des n cercetarea social sau economic,
i cu att mai mult n ecologie sau medicin i sunt cele pentru care s-au dezvoltat cele mai
multe dintre tehnicile i testele statistice. Absolut orice calcule matematice se pot face cu
aceste valori.

Greutatea cinilor, banii din portofel, valoarea produsului intern brut, numrul de locuitori ai
unui ora sau de restane al unui student sunt toate valori raionale. Ele sunt rezultate ale unor
msurtori cantitative, sau adesea al unor numrtori. Valoarea zero nu este o convenie, un
student cu zero restane este chiar un student cu o vacan lung i relaxant.
27

De obicei caracterul discret sau continuu al valorilor unor date raionale nu se tematizeaz la
nivelul statisticii aplicate introductive. Dei unele metode presupun date continue, cum este
cazul metodelor de regresie, se face cel mai adesea abstracie de la aceast presupoziie.
Exist rezultate matematice suficient de bine fundamentate care permit o atare abordare fr
pericolul de a grei semnificativ. i apoi continuitatea datelor nu nseamn statistic mai mult
dect c valoarea msurat poate fi orict i nu numai anumite valori, de exemplu numere
ntregi. O asemenea condiie nu este de fel restrictiv.

28
Capitolul 3. Culegerea datelor statistice. Sondajul de opinie

Datele statistice pot proveni din surse oficiale, cum sunt institutele naionale de statistic sau
organizaiile internaionale, i atunci se refer de obicei la un ansamblu complet de obiecte,
indivizi sau fenomene sau pot proveni din aa-zise sondaje statistice. n primul caz, dei
culegerea datelor este de obicei laborioas, tiinific justificarea utilizrii lor nu pune
probleme deosebite pentru statistician. Pe de alt parte, tehnica sondajului este una mult mai
pretenioas i matematic mai complicat. Cu att mai mult cu ct unii care fac sondaje i
majoritatea celor ce le citesc uit de principalele probleme implicate n validitatea lor.

1. Statistici de recensmnt si statistici de sondaj. Generalizarea statistic i limitele ei.

Cum am mai scris i mai sus, metoda specific de culegere a datelor n statistic este sondajul.
Acesta se bazeaz pe o serie de teoreme matematice care permit, n condiii foarte bine
specificate, care n realitate nu snt niciodat perfect ndeplinite, generalizarea rezultatelor de
la nivelul eantionului, adic a mulimii celor chestionai la nivelul populaiei, adic a
mulimii care reprezint inta cercetrii.

Prima definiie necesar pentru a continua este cea a populaiei. n orice cercetare statistic
populaia este ansamblul tuturor indivizilor (sau a obiectelor) care sunt subiecte ale cercetrii,
asupra crora se refer ipotezele i teoriile ei. Dac de exemplu, vrem s facem o cercetare
legat de consumul de ap mineral n Romnia, populaia studiului va fi ntreaga populaie a
rii, de vrea 21 de milioane, ct e ea. Dac ns cercetarea are caracter politic, probabil a
dori s restrng populaia la persoanele cu drept de vot, electoratul romn, adic numai vreo
17,5 milioane. De la caz la caz, populaia unei cercetri poate fi mulimea locuitorilor unui
ora, mulimea juctorilor de fotbal sau a studenilor unei faculti, dar exist i cercetri cu
alte nivele de agregare la care populaia poate fi mulimea intreprinderilor mici i mijlocii
dintr-o regiune, mulimea judeelor Romaniei sau chiar a rilor europene. Stabilirea
populaiei cercetate este un prim pas n orice studiu statistic. Este de fapt rspunsul la
ntrebarea: despre cine am dori s putem spune ceva? i de aici decurge alegerea celor care
vor fi msurai (adic vor rspunde la ntrebri) dar i felul cum se fac msuratorile (adic se
pun ntrebrile) i interpretarea rezultatelor. Alegerea populaiei este o decizie ce ine de
substratul teoretic al studiului dar n acelai timp determin teoriile ce vor fi folosite n
continuare pe parcursul proiectrii cercetrii.
29

Nu toate cercetrile statistice sunt bazate pe date culese prin sondaj. O mare parte dintre
metodele folosite att pentru descrierea datelor ct i pentru testarea unor teorii se aplic, cu la
fel de mult succes, i pe alte tipuri de date. Este vorba despre ceea ce numim date de
recensmnt. Suntem obinuii cu acest termen ca desemnnd o chestionare periodic, dar
totui rar, a ntregii populaii a rii pe teme legate mai mult de statutul social-economic.
Conceptul are ns o definiie ceva mai larg. Un recensmnt este o cercetare care presupune
intervievarea (sau mai general, msurarea) tuturor membrilor populaiei studiate. Deci tehnic
un studiu care trateaz statele europene folosind date culese din toate aceste state este un
recensmnt la fel cum tot recensmnt este un studiu care intervieveaz toi studenii unei
anumite faculti att timp ct rezultatele nu se doresc a fi generalizate pentru alte grupuri de
studeni. Dei n cazul recensmntului inducia statistic nu are rolul pe care i l-am pomenit
n introducere, exist aa cum am mai spus i aici un anumit nivel de generalizare. Anume,
prin faptul c folosim modele mai mult sau mai puin simple pentru indivizii studiai i
ncercm totui s tragem concluzii despre comportamentul lor sau despre opiniile lor.

Tot ce am putea tii, de exemplu, despre studenii facultii de tiine politice din Timioara
sunt rspunsurile pe care acetia le dau la un chestionar. Am putea totui s ncercm s
verificm dac pentru acetia se poate susine faptul c cei ce lucreaz n perioada studeniei
sunt mai puin interesai de problemele legate de organizarea academic. Este posibil o astfel
de cercetare? Desigur. Este sigur c se poate rspunde la ntrebare? Evident, nu. ntrebarea
este o ipotez de lucru, s-ar putea s poat fi respins, s-ar putea ns s nu se poat face acest
lucru. Indiferent ns de aceasta, rezultatele se vor referi numai la studenii chestionai i nu se
vor putea generaliza, dup regulile statisticii cel puin, la ali studeni, din alte faculti sau
alte orae.

n unele cazuri, probabil pentru a evita confuzia curent cu recensmintele naionale
menionate, statisticile de acest tip se mai numesc statistici de lot. Prin lot nelegndu-se de
fapt populaia care este n acelai timp i eantion al cercetrii.

n general un eantion este mulimea aleas prin vreo metod oarecare, a celor ce vor fi
chestionai (sau msurai) n cadrul unei cercetri. Dac de exemplu, la o fabric de ciorapi
trebuie fcut un studiu statistic al egalitii lungimii ciorapului stng cu ciorapul drept,
probabil c s-ar decide c este suficient msurarea unui eantion i nu al ntregii populaii
30
ciorpeti. S-ar putea alege, i ar fi chiar cea mai bun metod, de pe banda de producie tot a
o mia pereche de ciorapi pn cnd se ajunge la un numr dorit, de exemplu tot o mie de
perechi. Perechile de ciorapi msurai vor forma eantionul, producia ce are loc n perioada n
care se aleg perechile de ciorapi e populaia cercetat. Exist multe metode de a alege un
eantion, unele mai bune, altele mai puin, unele mai simple, altele mai puin. Vom reveni la
acestea n partea a dou a acestui capitol.

Pentru moment s ncerc s explic de ce putem face asta. De ce e suficient s msurm o mie
de ciorapi ca s spunem ceva despre cteva sute de mii, sau de ce un institut de sondare a
opiniei publice e suficient s ntrebe nu mult mai mult de o mie de oameni pentru a prevedea
suficient de bine rezultatul unor alegeri prezideniale? Explicaia st n cteva teoreme
matematice. Ele snt n general cunoscute ca fiind legile numerelor mari, teorema
fundamental a statisticii i teorema limit central. Nu cred c a fi de prea mare folos
cititorilor acestei cri dac le-a enuna matematic corect. Voi ncerca deci numai s le
povestesc.

Legile numerelor mari snt o serie ntreg de teoreme, probabil prima fiind enunat de
Bernoulli n 1713. Toate aceste teoreme spun lucruri asemntoare. Ele de fapt vorbesc despre
repetarea unor experimente, de exemplu aruncarea unui zar. Esenial este ca repetarea aceast
s se fac n aa fel nct fiecare aruncare de zar (sau ce experiment ar fi) s fie independent
de celelalte. Dac e aa i notm rezultatele, pe msur ce numrul de experimente crete felul
cum se distribuie rezultatele observate se apropie din ce n ce mai mult de felul cum sunt
distribuie toate rezultatele posibile. n cazul unui zar bine echilibrat, pe msur ce repetm
aruncarea cu zarul ne apropiem din ce n ce mai mult de o distribuie n care fiecare faet
apare de un numr egal de ori. Traducerea n statistic e simpl. Fie o informaie oarecare de
interes pentru cercetarea noastr, o dat statistic cum i-am spus pn acum, sau o variabil
cum i se mai spune. Ea este cumva distribuit n populaie (de exemplu genul e distribuit cam
jumtate jumtate, perechile de ciorapi inegali sunt cam 5% din producie, etc.). Ei bine
legile numerelor mari ne asigur de faptul c dac alegem s chestionm (msurm) un numr
de indivizi (perechi de ciorapi) atunci att timp ct alegerea unui individ este independent de
celelalte alegeri, pe msur ce numrul celor alei crete, distribuia rezultatelor de msurare
se aproprie de distribuia valorilor n ntreaga populaie. Simplu spus asta nseamn c un
eantion mai mare e mai bun dect unul mai mic. Dar mai spune dou lucruri eseniale. O
dat, faptul c adugnd la eantion n mod corect nu ne ndeprtm de la distribuia pe care
31
dorim s o aflm ci ne tot apropiem de ea i n al doilea rnd, mai important, ne spune cum
trebuie s alegem eantionul. Anume astfel nct fiecare alegere s fie independent. Din
pcate, aa cum vom vedea asta nu este chiar aa uor n statistic ca la aruncarea cu zaruri.

O form a legii numerelor mari, cunoscut i ca teorema Glivenko-Cantelli a fost adesea
numit teorema fundamental a statisticii. Ea ne asigur inc mai bine de apropierea aceasta a
distribuiei valorilor observate de cele existente n populaie, apropiere ce n matematic se
numete convergen. Teorema Glivenko-Cantelli ne spune c aceast convergen este
uniform pe msur ce crete volumul eantionului. Bun, deci, din cele de pn acum tim c
msurnd un eantion din ce n ce mai mare ne apropiem din ce n ce mai mult i uniform de
felul cum variabilele ce ne intereseaz sunt distribuite n populaie, atta timp ct fiecare
element din eantion l-am ales independent de celelalte (vom spune n general c eantionul e
ales aleator, la nimereal). Pare de bun sim, cred. ntrebarea mare ce se pune acum este, ct
de mare trebuie s fie eantionul astfel nct apropierea s fie suficient de bun? Altfel,
desigur, dac pentru o populaie de 21 de milioane, distribuia din eantion se apropie de
distribuia din populaie pe msur ce se adun milioanele de chestionare nu am rezolvat prea
mare lucru.

Aici intervine teorema limit central. i ea face parte dintr-un grup de teoreme numit n
general teoreme limit central. Pentru a deosebi teorema cea mai important dintre acestea, o
teorema enunat i demonstrat de Lyapunov la nceputul secolului 20, ea se scrie adesea cu
litere mari (Teorema Limit Central!). Ea ne spune c n anumite condiii, importante pentru
matematicieni, o sum de variabile aleatoare necunoscute, dar independente tinde la o
distribuie normal cnd numrul acestor variabile tinde la infinit. Condiiile pomenite nu sunt
de fapt foarte restrictive, ele spun c variabilele nsumate trebuie chiar s fie oricum, la
nimereala i faptul c trebuie s aib aceiai medie i dispersie. Aceasta, a doua condiie nu
este de fapt chiar att de restrictiv, dei poate prea. De fapt ea nu este restrictiv pentru c
orice variabil aleatoare poate fi mpins spre stnga sau dreapta graficului ei prin simpla
adunare sau scdere a unei valori numerice. Nu se schimb cu nimic caracteristicile variabilei,
pur i simplu graficul se mpinge ncoace sau ncolo. Deci orice variabil poate fi adus la
aceiai valoare medie fr a schimba mare lucru. Cu dispersia e ceva mai complicat, dar nu
mult, aa c nu o mai comentm aici. Bun, deci, le insumm i iese ceva numit distribuie
normal, o distribuie despre care vom mai vorbi. Precum vedem ea este foarte important n
statistic. Nu e foarte simpl matematic, dar pentru majoritatea utilizatorilor de statistic e
32
suficient s cunoasc cteva din principalele ei proprietti. i pe moment cel mai important
este c e cunoscut. E foarte important. S relum de fapt ideea. Avem un numr de tot felul
de variabile despre care nu tim mai nimic i dac le adunm toate iese ceva cunoscut. Asta e
foarte confortabil pentru c la urma urmei n orice cercetare ce presupune studierea
comportamentului unor oameni putem s fim destul de siguri c sunt o gramad de variabile
pe care nu le-am putut msura i nc i mai multe la care nu ne-am putut nici mcar gndi. Ei
bine, astea toate nsumate n efectele lor produc ceva cunoscut. Deci, grija mare c sunt attea
i attea care nu pot fi luate n seam nu e chiar aa de justificat.

Aceast grmad de variabile sunt de fapt eroarea care trebuie luat n seam cnd ncercm s
estimm o valoare. Prin faptul c se poate estima corect forma sumei variabilelor care nu le
lum n seam n mod explicit se obine i formula care permite estimarea erorii. Cum am
vzut din teoremele numerelor mari aceast eroare este legat de volumul eantionului. Deci
aici putem estima volumul unei eantion pentru a obine cu probabilitate mare o anumit
precizie a cercetrii statistice.

33
2. Cum facem un sondaj de opinie simplu i corect?

1. Eantionarea aleatoare

Din considerentele (aproape) matematice din seciunea precedent putem s extragem o
concluzie esenial pentru tehnica sondajului de opinie. Anume, garania matematic pentru
posibilitatea unei estimri statistice corecte este ca alegerea eantionului studiat s fie pur
aleatoare, adic s nu depind chiar de nimic.

Modelul pe care matematicienii il prefera pentru alegerea aleatoare este modelul urnei.
Premisele sunt urmtoarele. Avem o urn din care se pot extrage bile i n care se gsesc un
numr de bile de diverse categorii. De exemplu, bile albe i negre. Extragem din urn cte o
bil, notm culoarea ei i o introducem la loc. Legea numerelor mari ne asigur c repetnd
operaia asta de multe ori vom obine o bun estimare a distribuiei bilelor n urn. Modelul
acesta se numete schema bilei rentoarse i introducerea bilei la loc n urn este esenial
pentru c astfel ansa de a alege o bil de o anumit culoare rmne cea de la nceput pentru
fiecare extragere. Dac ne-am imagina o urn cu un numr foarte mare de bile din care
extragem un numr relativ mic, am putea presupune c distribuia rmne aproape
neschimbat chiar dac bila nu se introduce la loc, adic dac aceiai bil nu mai poate fi
extras de mai multe ori. Aceasta este situaia unui sondaj real.

Ideal ar fi deci s avem un recipient mare de tot n care stau cumini toi membrii populaiei
pe care dorim s o studiem i s extragem de acolo rnd pe rnd cte unul, s-l interogm i s-
l punem la loc. Aceasta este ns posibil numai parial. S vedem ce corecturi sunt necesare
pentru a putea s ne apropiem ct mai mult de acest modelul teoretic.

n primul rnd, n oala noastr nu va sta chiar toat populaia pe care vrem s o cercetm. (i
spun oal, pentru c urn mi se pare prea morbid, i recipient prea pretenios.) Exist dou
feluri de aborda problema asta. Pe de o parte, e normal s ncercm s lum o oal ct mai
cuprinztoare, pe de alt parte e la fel de normal s redefinim populaia n funcie de oala
aleas. Hai s dau cteva exemple.

S zicem c dorim s aflm ceva despre populaia oraului Timioara. S alegem recipientul
din care extragem subiecii cercetrii. De exemplu, Piaa Operei. Punem operatori de sondaj
34
n pia i i nvm s abordeze ceteni n mod aleator. Indiferent cte ore ar sta operatorii
notrii n pia i indiferent n ce zile ar sta acolo, recipientul acesta nu va conine toat
populaia Timiorii n nici un caz. Mai mult, cei ce trec prin pia vor fi probabil persoane
care au anumite caracteristici diferite de cei ce nu trec. E probabil, de exemplu, s fie n
special persoane care nu sunt angajate n munc: studeni, elevi, pensionari, amatori de fotbal,
actori i statisticieni. Pur i simplu, faptul de a trece n Timioara prin Piaa Operei e deja un
anumit mod de comportament i ar putea influena i alte comportamente i opiuni ale celor
alei s rspund la chestionar. Un astfel de eantion nu va fi reprezentativ pentru ntreaga
populaie a oraului. Oala e pur i simplu prea mic. Pe de alt parte, nu tiu dac clientul
cuiva ar fi mulumit cu aseriuni de genul: o treime din cei ce trec prin Piaa Operei ziua n
amiaza mare ar cumpra detergentul ....

Bun, e preferabil deci s alegem alt oal. O opiune care se ofer este cartea de telefon. Fie
deci, cartea de telefon, oala din care se aleg la nimereal numere de telefon. Intervievarea prin
telefon are i avantajul de a fi rapid i confortabil. Este ns oala asta destul de mare?
Depinde. Practic punnd astfel problema redefinim populaia de la populaia oraului
Timioara la populaia oraului Timioara abonat la Romtelecom. Aceast populaie
poate fi o mai bun sau mai proast aproximare a populaiei iniiale dar nu va fi n nici un caz
o aproximare statistic pentru c apartenena la cea de a doua populaie nu este una aleatoare
fa de prima populaie. Mai simplu, populaia celor care au telefon n Timioara nu a fost
aleas n mod ntmpltor din toat populaia oraului, persoanele cu pricina au avut de fcut
pai administrativi clari care au presupus un interes pentru a avea telefon, un anumit venit
minim, poate chiar un efort logistic. Deci putem linistit presupune c cei ce au telefon sunt
altfel dect cei ce nu au. Deci, cele dou populaii nu sunt interanjabile. Posesorii de telefon
vor avea probabil n medie un venit mai mare, vor fi localizai n anumite cartiere, etc. Totui,
clientul nostru s-ar putea s fie mulumit de rezultate obinute pe populaia restrns att timp
ct volumul ei este suficient de apropiat de volumul populaiei iniial considerate. La nceputul
anilor 1990 a fi fost clar mpotriva intervievrii telefonice. Pe vremea respectiv foarte multe
familii nu aveau telefon dei ar fi dorit s aib, iar cei ce aveau telefon aveau n mod clar
caracteristici particulare, de obicei de natur profesional. Dei aceasta poate s fie teoretic
adevrat n continuare, deoarece numrul de abonamente telefonice n mediul urban se
apropie foarte mult de numrul total de gospodrii, redefinirea populaiei nu este una care s
deranjeze prea mult. Discrepana dintre mediul urban i cel rural rmne ns att de mare nct
35
un sondaj pe o populaie ce include i mediul rural, ca de exemplu, populaia unui jude, nu se
poate n nici un caz efectua telefonic.

O alternativ similar cu cartea de telefon dar, cel puin teoretic mai bun este folosirea
listelor de alegtori. Din pcate, aa cum s-a vzut la alegeri, migraia populaiei intern i
internaional a fcut ca listele electorale s fie destul de greu practicabile, adresele de pe liste
nepotrivindu-se adesea situaiei din realitate. Apoi, obinerea listelor electorale pentru o
cercetare oarecare nu este ceva chiar aa de uor. Important de notat c listele cu toat
populaia, cum sunt listele electorale sau crile de telefon, se numesc cadre de eantionare
i au marele avantaj de a uura alegerea. Alegerea aleatoare, chiar matematic vorbind, dintr-
un cadru de eantionare este posibil.

S revenim ns la alegerea recipientului. Daca nici cadre de eantionare bune nu sunt ce se
poate face? Se poate, de fapt, defini oala astfel nct s cuprind chiar pe toat lumea?
Probabil nu. Aproximaia cea mai bun este de a considera oraul, judeul sau ara n
distribuia ei teritorial ca fiind chiar oala i a alegere de aici pe baza adreselor gospodriilor.
Alegerea unei adrese va fi de fapt o metaforic extragere din urn. Evident, nici aa nu avem
chiar urna teoretic n care se afl toate bilele. Lipsesc cei ce nu se afl la domiciliul stabil sau
nu au un domiciliu stabil, fie ei nomazi prin modul lor de via, plecai n concedii sau la
munc n strintate. Aa cum tim, n cazul Romaniei de astzi numrul acestora este
important i redefinirea populaiei este esenial n acest caz, dar de obicei ea este ntru totul
acceptabil. Oala geografic va nsemna parcurgerea oraului pe baza unui itinerariu.
Operatorul va parcurge strzile - locuinele i va alege - extrage dintre ele. Bineneles, din
motive practice va trebui ales un punct de unde pornete operatorul n itinerariul lui. Pentru c
se lucreaz cu mai muli operatori i pentru c exist prejudecata cum c o distribuie
geografic uniform ar nbunti relevana sondajului, se aleg de obicei puncte de pornire pe
cartiere. Ideal ar fi ca aceste puncte s fie alese chiar aleator, de exemplu aruncnd cu un dart
pe un plan al oraului. Pe de alt parte, distribuia uniform a punctelor de pornire, dei nu
este justificat matematic elimina riscul ca doi operatori s ajung la aceiai familie!

Am vzut problemele legate de metaforica noastr urn, s vedem cum arat alegerea din
urn, extragerea aleatoare. n forma teoretic atunci cnd experimentatorul bag mna n urn
el nu simte nici o diferen ntre bile. Toate sunt la fel, alegerea nu are loc pe baza unei
caracteristici, tocmai prin aceasta este aleatoare. Bilele negre nu sunt mai calde dect cele
36
albe. Regula esenial a alegerii aleatoare, se poate exprima astfel: fiecare membru al
populaiei trebuie s aib aceiai ans s fie ales n eantion. Pare simplu, nu e. Numai
dac avem un cadru de eantionare aceasta se poate face (aproape) perfect. Atunci un
generator de numere aleatoare pe calculator ne poate alege un eantion ct de mare vrem.
Aceasta ar fi o eantionare aleatoare perfect. Mai exist o variant la fel de bun, dar mai
puin laborioas. Dat fiind construcia listelor, fie electorale, fie telefonice, care se face
alfabetic, poziia unei persoane n list nu e legat de anumite caracteristici. De aceea se poate
folosi o metod mai simpl, aa-zisa alegere pseudo-aleatoare. Se alege aleator atunci un prim
nume. Apoi se aplic un pas de eantionare. Acesta se calculeaz ca raport dintre volumul
populaiei i volumul eantionului. De exemplu, n Timioara sunt aproximativ 140.000 de
abonamente telefonice. Daca dorim un eantion de 1000 de persoane, pasul de eantionare va
fi de 140. Punem n eantion, de exemplu, primul numr telefonic din carte, apoi numrul al
141-lea, apoi al 281-lea, i aa mai departe. ansa unui numr de a fi ales depinde de alegerea
primului numr, aceste se alege din valori ntre 1 i 140. Oricum toate numerele de telefon au
aceiai ans de a fi alese independent cui aparin, i n mod evident, ceea ce e cel mai
important, nu conteaz nici un fel de caracteristici social-economice, etnice sau
comportamentale ale celor alei.

S ne gndim la varianta pe care am considerat-o cea mai bun pentru alegerea urnei, anume
parcurgerea geografic a localitii. n acest caz avantajul de a lucra cu situaia real a
adreselor este i motivul principalului dezavantaj. Anume, nu exist un cadru de eantionare
ceea ce face alegerea simpl aleatoare sau pseudo-aleatoare imposibil. Cum alegem
locuinele ca s dm tuturor aceiai ans, i o dat aleas o locuin cum dm tuturor
locatarilor aceiai ans? Esenial este desigur ca alegerea s nu fie influenat de caliti ale
locuirii i persoanelor. Adic, casele mai drgue s nu fie favorizate fa de cele mai
nentreinute, persoanele mai primitoare fa de cele mai puin primitoare, eventual chiar
unele etnii fa de altele! Metoda care se folosete este construirea unui itinerariu-algoritm. E
ca i cum am face o alegere pseudo-aleatoare n care pasul de eantionare nu mai e un numr
de rnduri pe o foaie de carte de telefon ci un numr de case pe o strad sau un numr de
locuine ntr-un bloc. Ce conteaz este ca metoda s includ toate cazurile posibile astfel nct
argumente care in ntr-adevr de condiiile de locuire s nu conteze. Cel mai ru este ca
operatorul s aleag dup argumente de genul: s-a terminat strada, acum pot s o iau la stnga
sau la dreapta, dar la stnga e noroi!. Poate prea nesemnificativ, dar prin repetare, dac
astfel de alegeri sunt posibile ele pot duce la un caracter nealeatoriu al eantionului i la
37
situaia n care apartenena la o categorie social-economic dezavantajat s scad
probabilitatea de a face parte din eantion.

Apoi mai exist o situaie asemntoare de defazare a eantionului care e foarte periculoas.
Aceasta este cunoscut ca autoselecie. Evident, dac numai cei ce se autopropun, rspund la
un chestionar, cum e de exemplu, cazul chestionarelor ce apar n reviste, eantionul nu are
nici o relevan statistic. Am vzut c aa au dat gre sondajele din revista americana
Literary Digest puse fa n fa cu metoda lui Gallup care presupune alegerea aleatoare.
Exist ns o situaie pervers n care o aproape similar, chiar dac ceva mai benign,
autoselecie apare ca efect pervers al unei eantionri i selecii ct se poate de corecte. Astfel,
dac numrul celor ce refuz s rspund la chestionar e foarte mare, cei ce accept pot fi
considerai a fi (aproape) autoselectai. E clar c aici rolul operatorului este esenial, el/ea
trebuie s fie potrivit de politicos-insistent astfel nct cel intervievat s trebuiasc s ia
evident o decizie pentru a refuza i varianta implicit, lipsit de efortul de a decide, s fie
aceea de a rspunde. Din pcate nu avem o metod mai bun de a reduce ponderea refuzului
de a rspunde la chestionare. n anii de imediat dup 1990 ponderea celor care refuzau
interviurile operatorilor de sondaj era foarte mic. Aceast pondere a crescut destul de mult
devenind n multe cazuri semnificativ. Cteva reguli simple reduc totui puin ponderea non-
rspunsurilor. Operatorul de interviu trebuie s nceap prin a se prezenta ct mai clar i
trebuie s se refere fie la institutul care efectueaz sondajul, fie la clientul sondajului. Esenial
este ca potenialul intervievat s priceap ct de repede despre ce e vorba, adic s nu cread
c operatorul vrea s-i vnd sau s-i cear ceva. Apoi el trebuie s se simt valorizat pentru
faptul c prerea lui conteaz, respectiv c a fost ales s-i spun prerea.

2. Eantionarea stratificat

Stratificarea este o variant de nbuntire a eantionrii lund n seam caracteristici ale
populaiei care sunt de tip categorial. Matematic nu se poate calcula cu ct e mai bun o astfel
de eantionare fa de una simpl aleatoare, i nici mcar dac e mai bun. Ea are totui
avantajul de a ne asigura posibilitatea unor teste statistice care pot fi importante n cercetare.
Aici ns trebuie s expun nti metoda pentru a fi mai explicit.

Orice populaie se poate mpri n categorii diferite. Genuri, religii, zone de reziden, tipuri
de locuire, etc. Unele dintre acestea sunt cunoscute la nivelul populaiei din date statistice
38
oficiale. De exemplu, dac avem de fcut un sondaj ntr-un anume jude putem afla din
anuarul statistic ci locuitori snt n mediul urban i ci n mediul rural, ci n oraul reedin
de jude, ci n alte orae. Mai mult, unele din aceste categorii se pot cunoate chiar nainte de
intervievare, se pot lua n seam n eantionare i selecie. Astfel prin simple proporii se pot
calcula eantioane stratificat.

Un exemplu simplu pentru judeul Timi ar fi urmtorul. n tabel am trecut populaia total
urban i rural din 2006 conform Institutului National de Statistic. Am calculat apoi
procentele fa de totalul populaional al judeului i, n fine cte chestionare dintr-un total de
1000 ar trebui aplicate n mediul rural i cte n mediul urban pentru a pstra volumele
straturilor.

Numr locuitori Procent Numr chestionare
Urban 414.680 62,9% 629
Rural 244.619 37,1/ 371
Total 659.299 100% 1000

Aceast metod este folosit cel mai adesea pentru a crea eantioane pentru o populaie mare
i distribuit, cum ar fi populaia unei ri, de obicei eantionarea nu este doar stratificat ci i
multistadial. Aceasta presupune mai muli pai de stratificare i alegere aleatoare. Cel mai
simplu ar fi s vedem cum se face aceasta pentru o populaie cum ar fi cea a Romaniei.

Primul pas, sau primul stadiu, este mprirea dup tehnica stratificrii pe care am vzut-o mai
nainte a eantionului n funcii de regiuni de dezvoltare. Romania este mprit, mai mult sau
mai puin administrativ n opt astfel de regiuni de dezvoltare. Ele nu sunt propriu-zis uniti
administrativ-teritoriale cum sunt judeele, dar sunt suficient de bine particularizate socio-
economic. n mare, cele opt regiuni se potrivesc pe regiuni istorice ale Romaniei, dei sunt
criticate tocmai pentru c nu se potrivesc i mai bine cu acestea. Oricum, ceea ce conteaz
pentru statistician este faptul c regiunile de dezvoltare sunt folosite de Institutul National de
Statistic ca uniti de raportare. Adic, toate datele statistice teritoriale sunt disponibile i la
nivel de regiune. n plus, evident cele opt regiuni sunt mai potrivite ca straturi dect foarte
multele judee ale rii. Romania are 41 de judee. Dat fiind un eantion obinuit, care aa cum
tim depete cu puin 1000 de chestionare, numrul de chestionare care s-ar aplica ntr-un
jude ar fi ilar de mic i de greu de distribuit n consecin. Hai s fiu puin mai explicit.
39
mprind chestionarele pe judee rezult n medie vreo 25 de chestionare pe fiecare jude.
Dac lum n seam numai costurile de transport care apar mprite pe fiecare chestionar e
clar c merita cutat o metod mai bun.

S vedem cum arat tabelul cu distribuia chestionarelor dup primul stadiu.

Numr locuitori Procent Numr chestionare
Nord-Est 3.781.932 16,3% 163
Sud-Est 2.980.559 12,8% 128
Sud Muntenia 3.619.796 15,6% 156
Sud-Vest Oltenia 2.461.463 10,6% 106
Vest 2.198.504 9,5% 95
Nord-Vest 2.983.614 12,9% 129
Centru 2.860.490 12,3% 123
Bucureti Ilfov 2.325.037 10,0% 100
Total 23.211.395 100% 1000

Al doilea stadiu este, de obicei, distribuirea pe medii de reedin. Aceasta se poate face pe o
simpl mprire rural urban, cum am vzut deja n exemplul precedent, sau pe o ceva mai
complex mprire n trei zone, rural localiti urbane mici (sub 100.000 de locuitori)
localiti urbane mare. Aceasta este mprirea pe care o folosesc majoritatea institutelor de
sondare a opiniei publice de pe la noi. mprirea aceasta duce n fine la o distribuie a
chestionarelor prin care se afl cte chestionare trebuie fcute pe fiecare regiune i fiecare tip
de localitate. Atunci apare primul pas de selecie aleatoare, dintr-o list de localiti pe regiuni
i tipuri de localiti se aleg, n mod teoretic aleator, localiti care le vor reprezenta pe toate
celelalte din aceiai regiune i acelai tip. Deci, ar trebui alese mcar o localitate urban mare,
una mic i o localitate rural pentru fiecare regiune. n realitate se aleg de obicei mai multe
localiti din cte o categorie, aa cum vom vedea i din exemplul urmtor.

S dezvoltm o regiune oarecare, de exemplu regiunea Nord-Est n forma mai simpl a
distribuiei rural - urban.

Numr locuitori Procent Numr chestionare
Rural 2.105.562 56,4% 92
40
Urban 1.629.384 43,6% 71
Total 3.734.946 100% 163

Deci vor trebui aplicate 71 de chestionare n orae din regiunea Nord-Est i 92 chestionare n
sate i comune din regiune. Cel mai probabil se vor alege din listele de localiti dou orae i
trei sau patru comune pentru intervievare, dar numrul localitilor alese este de fapt la
latitudinea celui care organizeaz sondajul i are cel mai adesea motivaii legate de costuri.
Desigur pentru a fi statistic n regul alegerea localitilor trebuie s fie aleatoare, sau mcar
independent de consideraii legate de caracteristici socio-economice ale localitilor.

De obicei aici se oprete stadializare unei astfel de eantionri. Numai dac numrul de
chestionare este mai mare se mai poate merge un pas mai departe i se mai pot mpri n
continuare localitile n categorii, de exemplu localiti de es vs. de deal, etc.

La finalul metodei stratificate, fie ea multistadial sau nu, rmne tot o alegere aleatoare a
celor ce vor fi intervievai, fie cu ajutorul crii de telefon, a listelor electorale sau a
itinerariului pe teren. De fapt, privind puin n urm alegerea punctelor de pornire a unei
eantionri pseudo-aleatoare cu itinerariu este tot un fel de eantionare multistadial. Dac
numrul de chestionare pentru fiecare din aceste puncte se stabilete lund n seam volumul
populaional al cartierului n cauz eantionarea este chiar stratificat.

Am spus pe undeva la nceputul acestei seciuni c, matematic vorbind eantionarea
stratificat nu este mai bun dect cea simpl aleatoare. Ea se folosete mai des ns pentru c
are alte avantaje. Anume, un sondaj de opinie se face cel mai adesea pentru a testa ipoteze i a
descrie comportamente populaionale. Ipotezele statistice de obicei compar comportamente
i opiuni ntre subgrupuri din populaie. Eantionarea stratificat ne asigur c o parte din
categorisile populaiei se vor regsi cu necesitate n eantion. Astfel, suntem n acest caz
siguri c vom putea compara regiunile ntre ele, zonele de reedin, etc. Din motive similare
de multe ori la selecia partenerilor de interviu se verific (statistic se spune c se controleaz)
i distribuia pe genuri. De obicei se face prin alternan simpl. Operatorului i se indic s
intervieveze alternativ o femeie un brbat. Desigur, teoremele matematice pe care se
bazeaz statistica ne promit c aceste distribuii vor iei bine i prin alegerea simpl aleatoare.
ns n condiiile n care numrul chestionarelor nu este foarte mare, un control asupra
anumitor variabile populaionale ne poate asigura n faa unor eventuale probleme.
41

O alt problem care trebuie menionat pe undeva i care ine n cele din urm de eantionare
este alegerea unei ore ct mai potrivite pentru interviuri. Aici necazul este c o fereastr de
timp prea mic, de exemplu ntre orele 18 20, dei ar putea surprinde pe majoritatea celor
alei pentru a fi intervievai disponibili, duce la prelungirea timpului afectat operrii
sondajului i ca atare i la creterea costurilor. Una peste alta, n cazul intervievrii la
domiciliu se alege de obicei un interval orar ntre orele 16 i 21. Vara se poate profita un pic
mai mult deoarece pe lumin ansa ca operatorul s fie refuzat este ceva mai mic! Important
pentru alegerea intervalului orar al chestionrii este ns s nu faci gafe prea mari. Dac de
exemplu pornim prin sat duminic nainte de mas vom nimeri pe mult lume la biseric, iar
cei pe care i vom gsi acas vor avea un alt profil comportamental i valoric dect cei pe care
nu i gsim acas. Aa putem da peste cap o eantionare altfel onorabil.

3. Eantionri ne-aleatoare

Exist i metode de alegere a celor intervievai care nu au nimic de a face cu statistica. Ca
atare, astfel de metode nu au o relevan matematic pe care s o putem calcula i nu se
bazeaz n vreun fel pe regulile statisticii. Totui se folosesc pentru c sunt simple, ieftine,
pentru c uneori sunt inevitabile i pentru c de multe ori aa-zise sondaje nu sunt neaprat
fcute de specialiti sau comandate de clieni bine informai.

Cea mai des folosit metod de eantionare ne-aleatoare este metoda de eantionare pe cote.
Aceasta seamn cu metoda stratificat. Dac ns la eantionarea stratificat se determin un
numr relativ mic de straturile n aa fel nct s lase loc i unei alegeri aleatoare, cotele se
construiesc mai exact. Straturile de obicei se fac n aa fel nct s nu includ caracteristici ale
persoanelor intervievate. Cotele conin tocmai astfel de caracteristici. De exemplu, din date
statistice oficiale se deduce ponderea din populaie pe grupe de vrst i genuri i se
calculeaz, ntocmai ca la eantionarea stratificat, numrul de persoane de fiecare categorie
care trebuie intervievat.
Fiecare operator primete atunci un numr din chestionare i o matrice de genul:

Femei Brbai
18 35 ani 4 chestionare 5 chestionare
35 50 ani 5 chestionare 6 chestionare
42
50 65 ani 5 chestionare 4 chestionare
Peste 65 ani 4 chestionare 3 chestionare

De multe ori numrul de caracteristici cotate e chiar mai mare i poate include ntrebri filtru
de genul consumai bere? sau locuii n aceast localitate?. Bineneles folosind
eantionarea pe cote nu se mai pot alege cei intervievai aleator, fie din cartea de telefon, lista
electoral sau cu itinerariu, pentru c n nici care din aceste liste i pseudo-liste persoanele nu
apar cu specificarea unor caracteristici ale lor. Operatorul alege partenerii de interviu conform
cotelor prin orice metod dorete, pe strad, dintre vecini, i aa mai departe. Astfel nu se mai
exclude nici auto-selecia, nici subiectivitatea alegerii operatorului.

O alt metod de eantionare ne-aleatoare este inevitabil n cazul populaiilor rare. Ea se
numete metoda bulgrelui de zpad. Imaginai-v c populaia cercetat ar fi populaia
amatorilor de jazz sau a cetenilor italieni stabilii n Banat. Astfel de populaii nu apar n
listele electorale, nu sunt de discernut din cartea de telefon, iar folosirea itinerariului ar duce
la att de multe eecuri nct ar dura i costa enorm de mult. Nu poi bate din u n u n
cutarea iubitorilor de bonsai pn aduni suficiente interviuri! Dac nu poi asimila un astfel
de grup rar cu o asociaie formal tot ce poi face este s recunoti faptul c persoane din
astfel de grupuri sunt de obicei legate ntre ele n reele sociale. Persoanele din grupuri rare se
cunosc ntre ele. Aa funcioneaz metoda bulgrelui de zpad. Se pornete de la un numr
de persoane care aparin populaiei i care au fost identificate n vreun mod oarecare. Apoi
fiecare dintre acestea este rugat s specifice alte persoane din aceiai populaie pe care le
cunosc. Din aproape n aproape se poate ajunge la un numr rezonabil de mare de interviuri.
Desigur relevana matematic-statistic a aceastei metode nu poate fi calculat.

n fine, unele posturi de televiziune sau ziare folosesc termenul de sondaj de opinie pentru un
numr oarecare de interviuri scurte efectuate cel mai adesea pe strad. Aceasta nu este o
eantionare ne-aleatoare, pur i simplu nu e nici un fel de eantionare i rspunsurile nu pot i
nu trebuie s fie considerate a fi vreun sondaj de vreun fel.

4. Chestionarul

Ei, am ajuns fa n fa cu cel pe care dorim s-l intervievm. Acum, ce? Acum chestionarul!
43
Spuneam c statistic vorbind fiecare din membrii populaiei trebuie s aib aceiai ans s
fac parte din eantion. Tot att de important, metoda de msurare chestionarul trebuie
s aib un efect ct mai mic asupra opiniilor msurate. Dac eu vreau s cntresc
ciobneti mioritici, i aleg prin cea mai bun metod posibil un eantion, iar apoi nainte de
a-i cntri, i tund pe ceii din eantion ca s fie mai drgui, nu prea am gndit bine. Toi
membrii eantionului vor avea o greutate mai mic prin pierderea de blan ce le-am cauzat-o.
Greutatea lor nu va mai putea fi generalizat la nivelul populaiei din care au fost alei.
Exemplul pare extrem, dar n realitate interviul n sine i felul cum este construit chestionarul
nu au cum s nu i diferenieze pe cei intervievai de cei ce nu snt intervievai. Dac dorim s
putem generaliza rezultatele trebuie s ne strduim s scriem chestionare care s influeneze
ct mai puin rspunsurile celor chestionai.

Aceast carte nu are scopul de aprofunda nici teoretic, nici aplicativ scrierea de chestionare.
i totui, este ct se poate de important s nu se neglijeze partea aceasta a designului unei
cercetri. Degeaba am folosi cele mai moderne metode de cercetare i am proceda cu maxim
precauie la interpretarea rezultatelor, daca chestionarul e prost conceput, prost va fi i
rezultatul. Exist multe capcane n scrierea unui chestionar, unele pot fi folosite chiar i
intenionat. Avantajul de a scrie o carte este c te poi erija n nelept i da sfaturi. Avantajul
de a o citi este c poi sri pasajele de genul acesta. Deci, atenie, urmeaz sfaturi bine
intenionate!

1. Cele mai grave denaturri ale rezultatelor se obin prin ceea ce n englez se numesc
leading questions. Sunt ntrebri care foreaz un anumit rspuns sau mcar favorizeaz
un anumit rspuns. ntrebri de acest gen leag de obicei unul dintre rspunsurile posibile
de un concept foarte indezirabil sau, mai puin eficient, de unul foarte dezirabil. Pentru a
construi astfel de ntrebri se folosesc construcii discursive puternic ncrcate valoric
negativ sau pozitiv. O ntrebare pus pare-se ntr-un sondaj efectuat n oraul Cluj suna
astfel Sntei de acord cu renfiinarea n oraul nostru a universitii de limb maghiar
care a existat in perioada Horthist?. n ntrebare se face legtura dintre universitatea de
limb maghiar i fascismul maghiar forndu-se astfel un rspuns negativ. Se creaz chiar
senzaia c a susine renfiinarea universitii de limb maghiar ar fi o form de a susine
sau chiar a readuce Horthismul. Sigur astfel de ntrebri nu prea se pun din greeal. Se
poate ns ntmpla i aa ceva. De exemplu, se poate ntreba cu mai mult sau mai puin
candoare: Considerai c ar trebui pedepsite crimele comunismului?. n formularea
44
aceasta apare perechea de cuvinte crim i pedeaps. Un rspuns negativ dat acestei
asocieri devine aproape imposibil, astfel nct din ntrebare nu aflm cu adevrat mai
nimic despre opinia celui ntrebat fa de crimele comunismului. O alt form de cretere
a probabilitii unui anumit rspuns se poate obine prin adugarea unei propoziii
explicative naintea ntrebrii, propoziie care s favorizeze anumite interpretri.
2. Uneori, ce e drept destul de rar, se ntlnesc i ntrebri la care lista de rspunsuri permite
numai anumite aprecieri, sau scade posibilitatea unor opinii prin trecerea lor implicit la
categoria altele. Iat un frumos exemplu cules de mine de curnd:
Ce prere aveti despre MBA-ul AMERICAN al UNIVERSITATII DESALES
2
?
1. Excelent !
2. Foarte bine - dar e prea scump
3. Bun - pcat c e doar n limba englez
4. E un lucru bun dar nu m intereseaz acum
5. Nu m intereseaz subiectul

Evident scala nu este numai incomplet ci i tendenioas. Nu exist nici o variant de
rspuns negativ! Dac cumva te intereseaz subiectul prerea pe care o poi avea poate fi
numai de la bine n sus.
3. O alt form de denaturare a rspunsurilor se poate obine prin formularea prea
pretenioas a ntrebrii sau a posibilelor rspunsuri. Aceasta are efectele cele mai
devastatoare n cazul n care completarea chestionarului se face prin interviu cu un
operator. n caz de autoadministrare ansele ca cel ce completeaz chestionarul s sar
peste ntrebrile pe care nu le nelege sau la care nu tie s rspund sunt mai mari. Dac
ns este ntrebat de ctre un operator, cel chestionat tinde s prefere s dea un rspuns
oarecare dect s-i recunoasc lacuna de nelegere. n special brbaii se simt obligai s
rspund ceva. Exist i un nume pentru treaba asta, se numete sindromul rspunsului
masculin (male answer syndrom) i termenul se pare c a fost folosit prima dat n 1986
de ctre Sam Hunt ntr-o caricatur. Fapt este c att eu ct i muli alii ne-am lovit de
aceast problem i de preponderena masculin a celor care rspund fr s neleag
ntrebarea. Problema poate s apar la formularea ntrebrii, ca de exemplu: n ce msur
v afecteaz personal implementarea aquis-ului comunitar?. Pot aprea ns astfel de
probleme i la coninutul ntrebrii. Am vzut un chestionar, de exemplu, care fusese
aplicat unui eantion al populaiei unui jude ntreg i coninea ntrebarea: Ce tip de balet

2
Majusculele i semnele de punctuaie apar astfel n original.
45
preferai? 1. clasic, 2. modern, 3. contemporan, etc.. Cred c este ct se poate de evident
c ponderea celor care au ntr-adevr preferine formate la acest nivel este neglijabil de
mic, majoritatea celor chestionai neavnd nu numai preferine dar nici mcar o imagine
foarte clar a acestor diferene. Bineneles rspunsuri se gsesc, ce nseamn ns ele nu
prea se poate spune. Probabil interpretarea cea mai rezonabil este c s-a obinut un fel de
preferin general a conceptelor de clasic, modern i contemporan, independent de felul
cum arat baletul cu pricina.
4. Problemele din punctele precedente par a fi destul de uor de evitat. Exist ns i situaii
mai complicate. Una dintre acestea este efectul de serie ce se creaz cnd apar una dup
alta mai multe ntrebri de acelai tip, cu aceleai posibiliti de rspuns. O serie de acest
tip ar putea avea forma: ce prere avei despre? (foarte bun, bun, nici bun nici proast,
proast, foarte proast) urmat de o list lung de politicieni sau instituii. Dac
intervievatul nu are o opinie foarte bine conturat el va tinde s repete acelai rspuns, cel
puin de la un moment ncolo. Aici efectul e mai prezent la autoadministrare i se poate
evita ct de ct la interviul cu operator recitind ntreaga ntrebare ce prere avei despre
A? ce prere avei despre B? i aa mai departe.
5. O alt problem, tot legat ntr-un fel de liste, apare cnd o ntrebare are un numr mare de
rspunsuri posibile. Parcurgerea sau audierea acestora poate fi greoaie, astfel primele
rspunsuri din list fiind alese preferenial. La intervievare oral este de preferat s nu se
citeasc de loc lista de rspunsuri i operatorul s aleag ulterior din list pe baza
rspunsului spontan al celui intervievat.
6. Listele de rspunsuri care se citesc mai pun o problem. Ele trebuie s fie complete, adic
s poat acomoda toate opiniile posibile. Soluia confortabil de a aduga ntotdeuna i un
caz altceva sau altfel pe ct este de necesar pe att este uneori de insuficient.
Alternative care ar aduna un numr considerabil de opiuni vor fi menionate mult mai rar
dac rmn n categoria altceva. Problema listelor de rspunsuri este deci una de
echilibrare. Prea puine variante de rspuns nu recunosc bine opiniile, prea multe de
asemenea, iar lipsa lor total poate face ca rspunsurile s fie de a dreptul incomensurabile
i foarte greu analizabile.
7. n fine, mai vreau s atrag atenia asupra problemei estimrilor. Foarte des n chestionare i
se cere celui intervievat s estimeze cantiti de consum sau valori. ct cheltuii lunar
pentru produse nealimentare?, cte ore pe sptmn v uitai la televizor la un anumit
program?, etc. Unele din aceste ntrebri pot prea acceptabile, la altele nimeni nu poate
estima rspunsul n mod ct de ct corect. Cei ce construiesc astfel de ntrebri, fie nu i
46
dau seama de imposibilitatea estimrilor de acest gen, fie mizeaz pe o echilibrarea a
rspunsurilor prin efectul de mas. Ei gndesc cam n genul urmtor, sigur e greu s te
apropii mult de valoarea real, dar unii spun mai mult, alii mai puin i iese cam ce
trebuie. Ei bine, nu exist nici un motiv statistic s ias cam ce trebuie. Mai mult, este
foarte posibil, dar de nedovedit, c tocmai anumite categorii, de exemplu cei cu venituri
mai mari, s-i exagereze estimrile iar alii s subestimeze valorile. Un test statistic care
nimerete peste caracteristici cu efect asupra direciei de denaturare a estimrii va fi n
acest caz total eronat i nu avem nici un mod de recunoate aceasta. Cel mai bine este s
acceptm faptul c punem ntrebri la care intervievaii chiar pot rspunde corect n
msura propriei lor contiine.
8. Exist i alte capcane ale chestionarelor. Regula cea mai bun este pn la urm
verificarea chestionarului prin administrarea explorativ pe un numr de persoane, rude,
prieteni, studeni. i nu uitai, punei ntrebri la care voi niv ai fi n stare s
rspundei.

Din toate cte le-am enumerat mai sus cred c s-a putut deduce c un chestionar care nu
influeneaz de loc intervievatul nu e posibil. Tot ce rmne de fcut este s scriem
chestionare care impun ct mai puin intervievailor i las prerile acestora s transpar. Asta
bineneles dac dorim cu adevrat s aflm ceva despre opiniile celor chestionai.

n fine, nc un sfat legat de scrierea de chestionare. Ordinea ntrebrilor din chestionar
trebuie de asemenea gndit. Principalul argument ine aici de oboseala intervievatului. De
obicei la primele ntrebri se rspunde cu ceva mai mare atenie, pe msur ce trece timpul
rspunsurile devin din ce n ce mai automate. De aceea e de obicei preferabil s se nceap cu
ntrebrile mai grele, care necesit o atenie mai mare la formulare. La sfrit se las
ntrebrile care culeg aa-zisele variabile independente. Acestea sunt informaii care in de
obicei de statutul socio-economic al celor intervievai (se i numesc adesea variabile SES,
dup prescurtarea de la englezescul Socio-Economical Status) i includ vrsta, ocupaia,
statutul marital i alte ntrebri la care chiar rspunsuri date neatent sunt de regul corecte.

5. Aplicarea chestionarului

Am vzut din sfaturile de mai sus i faptul c alegerea unui anumit mod de aplicare a
chestionarului are repercursiuni asupra completrii lui, asupra rspunsurilor pe care le primim.
47
nsi cercetarea sociologic are repercursiuni. Comportamentul diferit al subiectului
cercetrii ca urmare al activitii de cercetare la care e supus a fost numit efect Hawthorne.
Efectul i are numele de la legendarele studii Hawthorne conduse de sociologul i psihologul
american Elton Mayo (1880 - 1949) la fabrica Hawthorne a Western Electric Company,
undeva pe lng Chicago, n anii dintre 1924 i 1932. Mayo care s-a ocupat n special de
cercetri industriale a vrut s studieze efectul schimbrilor de la locul de munc asupra
productivitii muncii. De exemplu, a schimbrilor legate de iluminat. Printre altele, a
observat cu aceast ocazie o nbuntire iniial a productivitii muncii independent ce
schimbare se fcea. Dup o vreme productivitatea scdea din nou la valoarea de baz. Mayo a
ajuns la concluzia c anumite modificri comportamentale tranzitorii au loc pur i simplu din
cauza experimentului i nu a condiiilor modificate. Astfel productivitatea a crescut att cnd a
crescut iluminatul din hal ct i cnd a sczut iluminatul, i aa mai departe. Oamenii tind s
se comporte altfel dac sunt observai. Aceast observaie poate destul de banal este de o
importan foarte mare n tehnica sondajului de opinie. Aa cum am mai spus, pune sub
semnul ntrebrii nsi logica generalizrii statistice pentru c cei ce au fost alei pentru a
face parte din eantion se vor comporta diferit, vor da poate rspunsuri diferite tocmai pentru
c fac parte din eantion. E chiar posibil ca opinia lor s fie sincer i remanent modificat prin
chestionare i rspunsurile corecte i sincere pe care le d s nu mai fie astfel generalizabile.
Este ns posibil ca din motive legate de felul cum cel intervievat percepe dezirabilitatea
social s-i schimbe rspunsurile. Adic s considere c dei el personal ar avea o prere mai
degrab proast despre o anumit persoan mult ludat (tiu eu, de exemplu Corneliu
Coposu sau Papa Ioan Paul al II-lea, sau cine tie cine) s prefere un rspuns neutru sau chiar
moderat pozitiv pentru a fi n ton cu discursul public.

Efectul aplicrii chestionarului poate fi mai mare sau mai mic, dar nu poate fi exclus cu totul.
S ncepem cu diferena esenial. Chestionrile pot fi auto-aplicate sau realizate prin interviu
cu operator. Cum am vzut cea de a doua variant are o serie de avantaje legate de designul
chestionarului. De asemenea, garanteaz un numr mai mic de chestionare nereturnate sau
necompletate i poate ajuta n condiii ideale i la o mai bun nelegere a chestionarului. Pe
de alt parte efectele legate de aplicarea chestionarului sunt mai mari n cazul prezenei unui
operator dect n cazul auto-aplicrii.

S vedem totui cum pot fi ele atenuate. n primul rnd mediul n care are loc chestionarea
este bine s fie ct mai familiar celui chestionat. Ideal este deci s fie intervievat sau s
48
completeze chestionarul acas. Cel mai ru este dac e intervievat sau pus s completeze
chestionarul undeva unde nu se simte la locul lui, unde se consider n inferioritate i este ca
atare tentat s se adapteze situaiei, de exemplu, ntr-o instituie public, ntr-un spital, etc. n
cazul interviurilor cu operator este important i relaia spontan ce se creaz cu acesta. Exist
adesea, n special la persoane n vrst confruntate cu operatori tineri, o tendin de simpatie.
Combinnd aceasta cu lipsa unor opinii ferme pe anumite teme se poate uor ajunge la
rspunsuri de complezen, care au n substrat dorina de a fi n acord cu operatorul sau de
face o impresie pozitiv. Efecte similare apar i atunci cnd cel intervievat se simte n
inferioritate evident fa de operator din punct de vedere al educaiei sau veniturilor. n
special femeile sunt tentate s caute rspunsuri adecvate opiniilor pe care le proiecteaz
asupra celor ce le intervieveaz. Apoi mai apare uneori i o dorin de a iei bine, de a da
rspunsul corect sau adecvat.

Operatorul ideal este deci un fel de roboel, nici prea antipatic ca s nu fie refuzat, nici prea
simpatic ca s nu denatureze rspunsurile, i n plus total lipsit de prere proprie n felul cum
citete ntrebrile, d din cap sau zmbete la rspunsuri. Unii prefer operatorii empatici, care
aprob opiniile celui intervievat, alii operatori ineri. Fapt este c operatorii empatici pot crea
o anumit dezinhibare care faciliteaz sinceritatea intervievatului.

Capitolul acesta rmne dator cu o important parte calculatorie. Aa cum am pomenit de mai
multe ori pentru sondajele efectuate cu eantionare statistic aleatoare se poate calcula o aa-
zis marj de eroare, adic o eroare acceptabil a estimrilor statistice. Pentru a putea prezenta
modul de calcul al acestei marje de eroare este ns necesar o prezentare mai amnunit a
distribuiei normale. n fine, nsi calculul marjei de eroare este legat de testul t pe care l
vom prezenta n prima parte a capitolului 5 al acestei cri mpreun cu distribuia normal.
Am decis s grupez elementele mai matematizate separat de cele discursive pentru a facilita o
parcurgere gradual a materialului i reduce riscul abandonului lecturii de ctre cei care resimt
un disconfort la prima ntlnire a unei formule matematice. Sper s fi reuit mcar n parte.
49
Capitolul 4. Aperitive. Primii pai n descrierea datelor statistice

n precedentele dou capitole am vzut ce tipuri de date folosete statistica i cum le adun. n
acest capitol voi prezenta cele mai simple i des folosite metode de reprezentare a datelor.
Indiferent cit de departe s-ar merge cu analiza datelor i ct de sofisticate ar fi metodele
folosite n cele din urm, o analiz exploratorie a datelor se face ntotdeuna. n acest capitol
vom vedea cum punem prima dat mna pe un set de date, cum ne apropiem de el, cum l
facem inteligibil.

Seturile de date culese prin sondaj sau referendum fie c le-am produs noi nine, le-am
preluat de la instituii oficiale sau de la ali cercettori se pot nelege i uneori chiar vizualiza
sub forma unor tabele. Fiecare linie corespunde de obicei unui individ i fiecare coloan unei
variabile. Uneori chiar se culeg datele pe teren folosind astfel de tabele numite fie de
rspuns. Pe de alt parte, toate programele pe calculator care lucreaz cu date statistice le
reprezint sub aceast form, fie c e vorba de Excel, folosit uneori i pentru prelucrri
statistice primare, fie c e vorba de soft-uri specializate ca SPSS, Stata, Statistica, Gauss sau
altele. n imaginea de mai jos se vede un fragment al unui set de date n Stata.

50



O astfel de tabel are n mod curent peste 1000 de linii i zeci sau chiar sute de coloane.
Afiarea n sine a tabelei nu permite ca atare o citire prea facil i nu prea poate duce la vreun
fel de consideraii inteligente. E pur i simplu prea mare, plin de cifre i lipsit de sensuri.
Deci, ce facem?

a. Imagini de ansamblu asupra datelor. Frecvene i reprezentri grafice.

Prima idee este de a prezenta n vreun mod simplu i concis cte o variabil, adic o coloan a
tabelei de date.

S presupunem c respectiva coloan conine rspunsuri legate de frecvena gtitului n
familiile din Baia Mare
3
. 1051 de intervievai au rspuns la ntrebarea: Ct de des se gtete
la dumneavoastr n familie?. Rspunsurile posibile au fost zilnic, de mai multe ori pe

3
Valorile sunt reale i provin dintr-un sondaj efectuat n 2003. Populaia a fost populaia oraului Baia Mare,
eantionarea a fost multistadial aleatoare cu itinerariu cu luarea n considerare a cartierului de reedin,
densitatea de locuire a acestuia si a genului intervievatului. Interviurile s-au efectuat la domiciliul subiecilor
ntre orele 16 i 21 asigurndu-se prezena majoritii celor angajai n cmpul muncii.
51
sptmn, sptmnal i mai rar. Tabelul cu rezultate ar avea 1051 de linii i nu da o
imagine prea clar asupra distribuiei datelor. Modul de a reprezenta inteligibil i scurt
valorile ar fi s numr apariiile fiecrei valori i s le prezint sintetic aa cum apar n tabelul
de mai jos. Numrul de apariii ale unei anumite valori se numete frecven. De aceia un
astfel de tabel se numete de obicei tabel de frecvene sau uneori tabel de frecvene simple
pentru c se refer la o singur variabil.


Valoare Frecven Procent Procent cumulat
Zilnic 547 52,0% 52,0%
de mai multe ori pe sptmn 476 45,3% 97,3%
Sptmnal 26 2,5% 99,8%
mai rar 2 0,2% 100,0%
Total 1051 100%

Cum interpretm, sau mai exact cum citim o astfel de tabel? S observm nti c variabila n
cauz este ordinal, chiar dac forma ei are un caracter total nenumeric exist o ordine bine
definit. Prima coloan de valori numerice, sub titlul de frecven prezint numrul de
persoane intervievate care au ales acest rspuns, a doua coloan ne d ponderea procentual a
rspunsului iar a treia cumuleaz acest procentaj cu procentajele din categoriile cu valoare
mai mic. Frecvena i procentajul simplu se pot calcula pentru orice tip de variabil, ele nu
fac calcule cu variabila n sine ci cu frecvena ei de apariie. Procentajul cumulat are sens
numai la variabile care au o ordine definit, astfel un procentaj cumulat pentru variabile
nominale, dei poate fi calculat, are mai puin sens.

Ce aflm din tabela de mai sus? n primul rnd faptul c rspunsurile s-au grupat n zona cu
gtit frecvent. Peste jumtate din cei ntrebai susin c la ei n familie se gtete zilnic.
Numrul celor care susin c la ei se gtete mai rar dect sptmnal este foarte foarte mic,
numai dou persoane din eantion au rspuns astfel. Observm de asemenea c peste 97%
dintre intervievai declar c la ei n familie se gtete de mai multe ori pe sptmn.

Paragraful de mai sus este o simpl transcriere a principalelor rezultate ale tabelei de
frecvene. Strategia ei este simpl i se folosete des. Ea ncepe cu prezentarea valorii cel mai
des ntlnite. n cazul nostru este valoarea zilnic, apoi se trece la valoarea cea mai rar. La
52
variabile ordinale se obinuiete eventual o prezentare a capetelor scalei. n cazul de mai sus
este vorba despre aceleai valori. Apoi se prezint rezultate cumulative, dac au sens. O
precuaie mare trebuie avut la menionarea valorilor numerice. Aici se poate induce n eroare
destul de mult. Un obicei bun este de a nu se specifica valorile procentuale de dup virgul.
Dup dorin se poate trunchia sau rotunji. Statistica este o estimare cu o anumit eroare.
Prezentarea unor valori cu tot cu zecimale produce impresia unei exactiti pe care nu o putem
promite cu contiina curat.
O a dou regul legat de prezentarea procentajelor se refer la valorile rare. n cazul unor
categorii cu numr mic de cazuri valorile procentuale pot induce n eroare. Aceasta se
ntmpl n special atunci cnd procentajele se calculeaz pe volumuri populaionale care
oricum sunt mici. Deci, spunei numrul de cazuri i nu procentajul aferent unei valori cand
acest numr e mic. Ce nseamn mic depinde de decizia fiecruia dar este de bun sim s
considerm o opiune rar una care nu are mai mult de 10-15 cazuri. Pe de alt parte n
general statistic se consider un lot mic, un lot cu mai puin de 30 de cazuri. Cum spuneam,
contiina fiecruia i particularitile cercetrii trebuie s decid n cele din urm.

Tabelele de frecvene sunt adesea nsoite de grafice. O prezentare grafic este pentru muli
cititori mai confortabil, permite de obicei o nelegere mai rapid a unor trenduri sau
distribuii. Exist ns multe feluri de prezentri grafice i nu toate se potrivesc pentru orice
situaie.

Graficele cele mai simple i generale, valabile n aproape toate situaiile sunt graficele cu
bare. Ele pot fi folosite i n cazul variabilelor nominale i nici nu depind prea mult de
numrul de valori pe care variabila le poate lua. Iata mai jos un exemplu pentru variabila
prezentat deja.


53
zilnic de mai multe ori pe
saptamana
saptamanal mai rar
27. Cat de des se gateste la dvs. in familie?
0,0%
10,0%
20,0%
30,0%
40,0%
50,0%
60,0%
P
r
o
c
e
n
t
52,05%
45,29%
2,47%
0,19%



Dimensiunea barelor trebuie s fie proporional cu valoarea variabilei. Iat un frumos
exemplu din pres cum nu se face un grafic simplu:


n exemplu, valorile de pe bare nu au nici o legtur cu dimensiunea barelor. Exemplul cel
mai flagrant este la graficul din mijloc: bara cu valoarea dat de 82 este mai mare dect cea cu
valoarea 98, la rndul ei mai mare dect cea de 108. Una peste alta trendul cresctor este
anulat, chiar inversat. Mai mult, bara cu salariul mediu din 1990, valoarea 153 USD este mult
mai mare dect bara cu salariul mediu din 2005, valoare 257 USD. Exceptnd c datele nu
prea au legtur cu cele oficiale, dimensiunea greit a barelor creaz impresia unui nivel
salarial din 1990 neatins n prezent. Prea simplu de fcut un grafic cu bare. Uite c se poate
da n bar i aici.

n graficele cu bare pot aprea valorile pe baza cruia a fost construit fie procentual fie ca i
frecvene. Dimensiunea barelor va fi desigur aceiai fie c s-a ales reprezentarea pe baza
54
valorilor absolute sau procentuale. Tot ce se schimb este scala axei verticale. Forma i
culoarea barelor pot fi desigur diverse. Clar este c vizualizarea ofer un acces mai direct la
informaie i permite aceasta i unor cititori care prefer s nu aib de a face cu valori
numerice dac nu este neaprat necesar.

Pe lng graficele cu bare mai sunt i alte variante care ns se potrivesc mai degrab unor
situaii particulare. De exemplu, graficul de tip plcint (sau tort, cum preferai) prezint
valorile ca i felii dintr-o arie de disc. Un asemenea grafic este deosebit de potrivit pentru
reprezentarea procentajelor pentru c transmite bine faptul c valorile mpart un tot, o
populaie, n categorii.


52,05%
45,29%
2,47%
27. Cat de des se
gateste la dvs. in
familie?
zilnic
de mai multe ori pe
saptamana
saptamanal
mai rar


Graficul plcint de mai sus ntr-adevr ne d o imagine mai clar ct de puin reprezint din
ansamblu procentajul de 0,2% i chiar cel de 2,5%. Un alt avantaj al graficului plcint este
posibilitatea de evideniere a unei felii considerate importante. De exemplu:

55
52,05%
45,29%
2,47%
0,19%
27. Cat de des se
gateste la dvs. in
familie?
zilnic
de mai multe ori pe
saptamana
saptamanal
mai rar


Pe de alt parte dac variabila ar fi avut un numr mare de valori folosirea unei diagrame
plcit ar fi fost mai degrab menit s induc n eroare. Iat un exemplu comparativ cu un
grafic cu bare i unul plcint pentru o alt ntrebare din acelai sondaj.

56

p
ia
ta
a
g
r
o
-
a
lim
e
n
ta
r
a
s
u
p
e
r
m
a
r
k
e
t
b
u
tic
C
e
n
te
r
c
h
io
s
c
m
a
g
a
z
in
s
p
e
c
ia
liz
a
t
c
e
n
tr
u
c
o
m
e
r
c
ia
l
d
e
p
o
z
it e
n
-
g
r
o
s
M
e
tr
o
H
o
ffe
r
P
r
o
fi
n
u
a
m
lo
c
p
r
e
fe
r
a
t
M
o
l
m
o
ld
o
v
a
2. De unde va place cel mai mult sa va faceti
cumparaturile?
0,0%
10,0%
20,0%
30,0%
P
r
o
c
e
n
t


2. De unde va place
cel mai mult sa va
faceti
cumparaturile?

piata agro-
alimentara
supermarket
butic
Center
chiosc
magazin
specializat
centru comercial
depozit en-gros
Metro
Hoffer
Profi
nu am loc preferat
Mol
moldova



Graficul plcit transmite poate o imagine de ansamblu interesant dar nu prea poate fi citit
atunci cnd sntem interesai i de opiunile mai rare.

O alt problem a graficului plcint este c se preteaz n special variabilelor nominale. Dac
n graficul cu bare, precum i n alte forme de grafice o ordine a valorilor este vizibil la un
grafic plcint o astfel de ordine nu se percepe. Evident, n cazul variabilelor nominale nici nu
ne dorim o asemenea ordine.

Al treilea tip de grafic foarte rspndit este graficul linie. Acesta seamn cel mai mult cu
graficele de funcii matematice aa cum se nva la coal. Creaz deci senzaia unei ordini a
valorilor i chiar unei continuiti. Ca atare nu merge la variabile nominale n nici un caz, dar
nu e de dorit nici la variabile ordinale. Este ns ideal pentru valori numerice fie ele
intervalice, fie raionale i n special cnd numrul valorilor e mare. Ca n exemplul de mai
jos.

57
71
7
1
9
2
1
2
3
2
5
2
7
2
9
3
1
3
3
3
5
3
7
3
9
4
1
4
3
4
5
4
7
4
9
5
1
5
3
5
5
5
7
5
9
6
1
6
3
6
5
6
7
6
9
7
1
7
3
7
5
7
7
8
0
8
3
59. Cati ani aveti?
0
10
20
30
40
v
a
l
o
r
i

a
b
s
o
l
u
t
e


Graficul reprezint distribuia pe vrste a eantionului din cercetarea din care am tot dat
exemple n acest capitol. Pe axa orizontal se gsesc vrstele celor ce au rspuns la ntrebri,
pe vertical e numrul persoanelor de o anumit vrst.

Pe scurt deci: graficele cu bare merg n aproape orice situaie, plcintele sunt perfecte pentru
variabile nominale i n special dac au un numr mic de valori, graficele linie se potrivesc la
variabile raionale i intervalice i n special dac au un numr mare de valori.

Pe lng aceste trei tipuri, care sunt ntr-adevr cele mai rspndite, exist o serie de alte
variante, grafice suprafa, diagrame de puncte, histograme, precum i o serie ntreag de
grafice care sunt legate de anumite prelucrri statistice cum ar fi graficele de regresie, de
cluster, i altele. Unele le vom pomeni la momentul oportun, altele nu.

nc un comentariu. Nu am pomenit de felul cum se pot analiza graficele, pur i simplu pentru
c prerea mea este c nu trebuie analizate graficele, ci datele care se afl n spatele lor. Un
grafic este o prezentare vizual, desigur confortabil i deosebit de util, dar nu conine mai
mult dect tabelul pe baza cruia a fost creat. Poate ns induce n eroare mult mai mult. Lund
prea de bune ce vedem pe grafic putem s supraevalum, de exemplu, tendine care statistic
nu sunt relevante. Un grafic simplu, precum cele din exemplele de mai sus nu spune cu nimic
mai mult dect un tabel de frecvene. Totui privind graficul exist o tentaie de a spune, de a
vedea mai mult. Aceasta este desigur benefic dac ne ajut s alegem testele de care avem
nevoie n continuare, dar total malefic dac ne duce la concluzii fr s mai calculm nici un
58
fel de teste, cum de altfel se mai ntmpl. Deci, precauie i sfatul meu este, prezentai
graficele dar analizai rezultatele de calcul.

Toate graficele din exemplele din aceast seciune s-au referit la prezentarea unei singure
variabile. Exist desigur diferite moduri de a prezenta mai multe variabile pe acelai grafic. n
capitolul 6. al acestei cri voi ncerca s dau ceva amnunte despre cum se lucreaz statistic
cu relaia dintre mai multe variabile. Voi ncepe cu tabelele de relaionare care ntr-un fel sunt
similare tabelelor de frecvene pentru cazul a dou (sau arareori trei) variabile. Atunci voi
prezenta i graficele aferente acestor tabele, aa cum acum am pus unele lng altele tabele de
frecvene i graficele simple n acest capitol.

b. Indicatori agregai

Indicatorii statistici agregai sunt valori calculate pe baza uneia sau mai multor variabile i
care ne ofer informaii despre ansamblul valorilor variabilei sau despre valorile variabilei
privite ca un grup de date. De obicei se identific, mai mult sau mai puin forat, ntreg
domeniul statisticii descriptive cu indicatorii statistici.

Care snt ns aceti indicatori? Vrnd, nevrnd fiecare dintre noi ne-am lovit de mediile
aritmetice dac nu i de ali indicatori. n seciunea aceasta o s prezint indicatorii principali
pentru analiza tendinei centrale i distribuirii datelor, apoi n capitolul 6. voi reveni la civa
indicatori care ne ajut s analizm relaia dintre mai multe variabile.

I. Tendina central.

Sub numele acesta un pic pretenios se ascund diferite feluri de a calcula media unor variabile.
Ca atare s-ar putea s fie aparent uor de neles ce este tendina central a unei variabile, aa
cum desigur este uor de neles i de ce este ea att de criticat ca i mod de a descrie un grup
de date. De aceea, cred c pot s scap fr s mai dau i o definiie.

Principalul indicator pentru tendina central este media aritmetic simpl. Pe lng faptul c
destul de rar calculul unei medii d informaii relevante despre o variabil trebuie s
menionm i faptul c uneori calculul mediei este chiar greit conceptual. Pentru
corectitudine s prezentm ns un exemplu i, bineneles, prima formul din aceast carte.
59

S presupunem c am cules numrul de la pantofi a studentelor din seminarul nostru de
statistic. Rezultatul ar putea fi sintetizat ntr-o tabel n felul urmtor.

Nume Numr
Ana 37
Ioana 36
Oana 38
Simona 38
Olivia 39
Angela 39
Carla 37
Nadina 39
Media 37,88


Media = ( Numr
Ana
+ Numr
Ioana
+ Numr
Oana

+ Numr
Simona
+ Numr
Olivia
+
Numr
Angela
+ Numr
Carla
+
Numr
Nadina
) / 8

60
Media a fost calculat astfel: s-au adunat toate valorile din coloana Numr aferente numerelor
de pantofi i apoi suma s-a mprit la numrul fetelor, adic la 8. Valoarea final, care apare
i pe ultima linie a tabelei este media aritmetic a numerelor la pantofi a fetelor din grupa de
seminar. i aceast medie este 37,88. Ne spune asta ceva? Sigur. Anume c media numerelor
la pantofi ale fetelor din aceast grup de seminar este 37,88. Ne poate spune mai mult dect
att? Nu, n nici un caz. Ne poate fi de vreun folos? Depinde.

n general media unei variabile x se noteaz cu x, (x),
x
sau cu E(x), unde E provine din
englez de la expectancy. De altfel, media se mai numete i n limba roman uneori,
ateptare statistic. Originea acestei denumire vine de la media msurtorilor repetate ale
aceluiai reper. Media msurtorilor reprezint, statistic vorbind, apropierea cea mai bun de
valoarea real care se msoar, de aceea media este valoarea ateptat a msurtorii.

Calculul simplu al mediilor este arareori util n sine. Poate, de exemplu, dac se face design-ul
unui ascensor, o informaie despre greutatea medie a unei persoane dintr-o anumit populaie
poate fi important pentru c ar sta la baza specificrii numrului maxim de persoane care pot
cltorii de o dat cu ascensorul. Pe de alt parte, media poate fi un bun indicator comparativ.
De exemplu, dac greutatea medie a unui student de la facultatea de litere e mai mic dect
greutatea medie a unui student de la facultatea de mecanica (ceea ce este desigur adevrat!)
aceast informaie poate avea o anumit valoare n contextul unei cercetri. Aa cum vom
vedea exist teste statistice care compar medii ale unor variabile pe eantioane diferite pentru
a avea indicii dac populaiile din care s-au ales aceste eantioane difer din prisma
variabilelor studiate. Deci, media aritmetic poate fi o apropiere facil, dei superficial
pentru a vedea dac dou, sau mai multe populaii difer. S lum de exemplu ipoteza
urmtoare: nu exist diferene ntre studenii de la mecanic i cei de la litere. Un test poate
respinge aceast ipotez dovedind c exist o diferen de greutate medie relevant ntre
aceste dou populaii. Deci ceva diferene trebuie s existe ntre cele dou populaii. Pentru
cei ce nc nu s-au prins, diferena de greutate vine din faptul c ponderea fetelor este
incomparabil mai mare la facultatea de litere dect la facultatea de mecanic i fetele snt, n
medie mai uoare dect bieii.

Sigur, butada cu omul care st cu un picior ntr-un lighean cu ap clocotit i cu unul ntr-un
lighean cu ap cu ghea dar n medie ar trebui s-i fie bine, este strict matematic corect.
61
Totui, media este un indicator comparativ valoros tocmai pentru ca este simplu i induce n
eroare doar atunci cnd i conferim un coninut informaional mai mare dect are.

Cea mai mare problem legat de medii este calculul acestora atunci cnd variabilele nu
permit aceasta. Principial matematic este corect s calculm medii att pentru variabile
raionale ct i pentru variabile intervalice. Astfel media greutii sau a nlimii (care sunt
variabile raionale) sunt conceptual la fel de corecte ca i media temperaturilor sau a orelor de
deteptare (care sunt variabile intervalice). n toate aceste cazuri media are sens pentru c
calculul diferenelor este consistent. Adic, dac din 5 kg de orez vindem 3 kg ne rmne la fel
de mult ca atunci cnd vindem dintr-un stoc de 60 kg, 58 kg. i de asemenea dac am dormit
de la ora 5 dimineaa pn la ora 12 nainte de mas am dormit tot attea ore ca i de la 10
seara pn la 5 dimineaa, atta doar c poate snt mai mahmur n primul caz. Deci sumele i
diferenele precum i mprirea la scalar (adic la numere i nu la variabile aleatoare) este
consistent att pentru variabile raionale ct i pentru variabile intervalice.

Pe de alt parte nimeni nu cred c intenioneaz s calculeze media unor variabile nominale,
chiar dac ele au reprezentare numeric, cum sunt de exemplu numerele de pe tricourile unor
jucatori de fotbal. Astfel de valori, dei sunt formal numere, sunt esenial nume date unor
indivizi i media lor nu are nici un sens.

Greeala care se face ns adesea este calculul mediilor unor variabile ordinale. Este o
greeal care este foarte adesea acceptat pentru c extinde de fapt calculul mediilor colare la
cercetarea social. Nici notele de la coal nu sunt mai mult dect variabile ordinale. Cum am
mai spus, muli profesori ar accepta faptul c diferena dintre o not de 7 i una de 8 este mai
mic dect diferena dintre un 4 i un 5. Totui, suntem nvai cu mediile colare i nu ne
punem problema unei posibile incorectitudini rezultate din procedura de mediere n sine.
Mediile oricror variabile ordinale sunt desigur similare ca i relevan cu acest caz. Atunci,
de ce s nu acceptm astfel de calcule? Ei bine, departe de mine gndul cum c o decizie
asupra vieii unui elev e mai puin important dect o cercetare tiinific. Este ns un fapt c
medierea notelor este un fapt acceptat cu tot cu defectele pe care le are ca indicator pentru
nivelul de pregtire a unui elev pe o durat mai mare de timp sau chiar pentru un grup de
domenii ale cunoaterii. Media colar greete desigur atunci cnd aduce la egalitate o medie
de 7 rezultat dintr-un 10 i un 4 cu o medie care s-a obinut dintr-un 8 i un 6. Probabil mai
greete i atunci cnd face media dintre note date de cadre didactice diferite. tim cu toii c
62
anumii profesori nclin s dea note mai mici dect alii. Astfel, pentru un 7 la un anumit
profesor s-ar putea s fie necesare cunotiine mai multe dect pentru aceiai not la un alt
profesor. Toate aceste consideraii sunt cunoscute i fac parte din bunul sim comun pentru
oricine a trecut prin nvmnt. Nu este ns aa n cazul unei cercetri sociale. Variabilele
care se mediaz acolo nu sunt att de discutate ca i notele noastre de la coal, ca s nu
pomenesc de notele copiilor notrii! Ca atare relaiile care se mascheaz prin calcul nu sunt
att de evidente ca cele pe care le mascheaz media colar. Mai mult dect att, relaiile s-ar
putea s nici nu fie cunoscute. Aceasta e suficient pentru ca n cazul mediilor variabilelor
ordinale dintr-o cercetare statistic s fim cu adevrat indui n eroare.

Ali indicatori ale tendinei centrale sunt modul i mediana.

Modul unei variabile statistice este pur i simplu valoarea care apare cel mai des printre datele
culese. De exemplu, n exemplul de mai sus, numrul la pantof 39 apare de 3 ori, mai des
dect oricare alt valoare. 39 va fi deci modul sau, cum se mai spune modul distribuiei.
Determinarea modului nu presupune nici un calcul, ba mai mult nici mcar o ordine a
valorilor. Se poate deci stabili care e modul religiei sau ceteniei ntr-un grup de persoane,
dei aceste variabile sunt nominale. Nu exist nici o restricie pentru folosirea modului. Pe de
alt parte spunnd c modul distribuiei religiei n populaia Timiorii este cretin-ortodox
nu spunem dect c n Timioara sunt mai muli cretin-ortodoxi dect membrii ai oricrei alte
religii. Binenteles folosind termenul de mod, propoziia este mai greu de neles i sun mai
tiinific. Dei eu a sftui mpotriva unei exprimri criptice inutile, sunt situaii n care poate
fi de folos n contactul cu clieni mai snobi!

Dezavantajul esenial al modului este c ne spune chiar mai puin dect media. Practic aflnd
care e valoarea care apare cel mai des n eantion eliminm din informaia transmis o mare
parte a datelor culese. Dac media se calcula totui din toate datele culese, modul nu reflecta
dect o parte a datelor culese. Ca atare determinarea i raportarea modului au sens numai la
variabile nominale, unde altceva nu se poate folosi.

Mediana este un indicator al tendinei centrale care este gndit esenialmente pentru variabile
ordinale. Mediana necesit existena unei ordini ntre valorile culese dar nu i efectuerea unor
calcule. S revenim deci la picioarele fetelor. Pentru a determina mediana valorile culese se
ordoneaz, aa cum se vede din tabelul de mai jos:
63

Nume Numr
Ioana 36
Ana 37
Carla 37
Oana 38
Simona 38
Olivia 39
Angela 39
Nadina 39
Mediana 38

Mediana este valoarea care apare la mijlocul listei. n cazul nostru este 38, valoarea de pe
poziia a 4-a i a 5-a dintr-o list de 8 cazuri. Dac am fi cules 1001 de valori, valoarea de pe
poziia 501 ar fi fost mediana. Precum se vede, mediana poate avea i dou valori diferite n
cazul n care lista are un numr par de elemente. Vorbim atunci de valorile mediane. Uneori
se calculeaz o medie artimetic ntre cele dou valori mediane, aceasta ns este desigur un
fel de prostie pentru ca decizia de a folosi mediana se ia tocmai acolo unde nu este indicat
calcularea unei medii aritmetice.

II. Distribuia datelor

Aa cum am vzut i din exemplele precedente, media este adesea desconsiderat pentru c
obtureaz distribuirea datelor. O medie de 7 poate rezulta dintr-un 4 i un 10 la fel ca i dintr-
un 8 i un 6. O temperatura medie de 25
0
C poate rezulta dintr-o maxim diurna de 30
0
C i o
minim noctura de 20
0
C sau dintr-o maxim diurn de 50
0
C i o minim nocturn de 0
0
C.
De aceea atunci cnd se descrie statistic o variabil, media se dubleaz ntotdeuna de un
indicator care s ne transmit ct de departe sunt distribuite datele n jurul mediei.

Exist mai multe metode de calcul ale distribuirii datelor. Am ales s le parcurg n ordinea
complexitii calculului. Prima data ns o consideraie. Distribuia datelor implic un sens al
distanei fa de medie. Spunem c datele sunt mai ndeprtate sau mai apropiate de medie.
Aceasta presupune desigur o ordine i nu se poate aplica unor variabile nominale. Ca atare
64
distribuia datelor se poate msur numai n cazul variabilelor care sunt mcar ordinale.
Precum vom vedea majoritatea indicatorilor necesit chiar variabile intervalice sau raionale.

Variantele cele mai simple sunt desigur cele gndite pentru variabile ordinale. Toate acestea se
bazeaz pe ordonarea valorilor din list i aplicare unei metode care se bazeaz pe conceptul
de interval. Hai s revedem lista cu numerele de pantofi.

Nume Numr
Ioana 36
Ana 37
Carla 37
Oana 38
Simona 38
Olivia 39
Angela 39
Nadina 39
Mediana 38

Intervalul este format ntotdeuna din dou valori. Intervalul simplu este perechea format din
valoarea cea mai mic i cea mai mare care au fost culese. n cazul nostru intervalul datelor
este (36, 39).

Am vazut c mediana mparte lista n dou. O astfel de mprire se poate face n continuare i
n cele dou jumti astfel lista ntreag se mparte n patru pri numite cvartile. Se obin
dou valori noi care sunt de fapt medianele jumtilor de list. Perechea lor este intervalul
intercvartilic, n cazul nostru (37, 39).

Se prefer uneori intervalul intercvartilic intervalului simplu al tuturor datelor deorece astfel
se elimin valorile extreme. Se poate ntmpla ca ntr-un eantion c apar cazuri extreme,
rare care s denatureze rezultatele. Evident astfel de cazuri vor fi ns puine. La urma urmei,
dac nu ar fi puine nu ar mai denatura rezultatul, ci ar fi chiar parte esenial a acestuia!
Utiliznd intervalul intercvartilic avem un termen de comparatie care nu ia n seam cazurile
rare, extreme, cazurile outlier (periferice).

65
Reprezentarea de mai jos sper sa clarifice i mai bine sensul intervalului intercvartilic.

Ioana Ana Carla Oana Simona Olivia Angela Nadina
36 37 37 38 38 39 39 39
Prima cvartil A doua cvartil A treia cvartil A patra cvartil
C
0
C
1
C
2
C
3
C
4

Mediana

Valoarea care separ a doua de a treia cvartil, valoarea C
2
, este Mediana. Intervalul (C
0
, C
4
)
este intervalul datelor, iar (C
1
, C
3
) este intervalul intercvartilic. Uneori se numete chiar
valoarea C
1
prima cvartil sau cvartila inferioar, C
2
a doua cvartil i C
3
a treia cvartil sau
cvartila superioar.

Metoda pe care am prezentat-o mai sus poate desigur fi extins la un numr mai mare de
astfel de grupri. n general asemenea mpriri ale datelor ordonate se numesc cvantile sau q-
cvantile unde q este numrul de intervale. mprirea cea mai uzual rmne cea n patru
grupuri, adic n cvartile (4-cvantilele), dar se mai gsesc prin literatur i conceptele de
cvintile (mprirea n 5 intervale de valori), decile (mprirea n 10 intervale), percentile
(mprirea n 100 de intervale) i altele ale cror nume sunt construite analog.

Prezentarea intervalelor ca perechi de valori nu necesit nici un fel de calcule matematice.
Uneori intervalele se raporteaz ns ca diferene ale valorilor extreme, adic ca lungime a
intervalului. Aceasta poate fi puin problematic n cazul variabilelor ordinale nu ridic ns
desigur nici un fel de probleme pentru variabile intervalice sau raionale.

Folosind notaiile de mai sus intervalul datelor (n englez se folosete range) se calculeaz
astfel:

range = C
4
C
0


adic diferena dintre cea mai mare i cea mai mic valoare culeas. Unele definiii vorbesc n
acest context despre lungimea celui mai mic interval care conine toate datele.

Intervalul intercvartilic, notat de multe ori IQR, este:
66

IQR = C
3
C
1

O alt denumire utilizat uneori pentru intervalul intercvartilic este aceea de jumtate median
a datelor.

Cu aceste calcule am fcut deja un pas n direcia indicatorilor distribuirii datelor intervalice i
raionale. n cazul acestor date posibilitile de calcul fiind mult mai mare s-au cutat metode
mai compexe care s permit o descrierea ct mai complet a datelor ntr-o singur valoare.
Asta nseamn c i formulele vor fi puin mai complicate. Exist muli astfel de indicatori dar
am decis s m concentrez numai pe cei ce se folosesc n mod uzual, anume abaterea standard
(numit n analogie cu termenul englezesc i deviaie standard) i dispersia (numit din acelai
motiv i varian).

Dispersia se calculeaz dup urmtoarea formul:

2
=
1
/
N

i=1,n
(x
i
- x)
2

Merit s comentez un pic formula de mai sus. Nucleul, miezul ei este o diferen, o abatere,
de aici i numele indicatorului. Se scade din valoarea x
i
, adic valoarea variabilei x pentru
individul i media valorilor x, adic x. Adic, pentru nceput se calculeaz cu ct se abate
fiecare valoare culeas de la medie. Este i normal s procedm aa, la urma urmei cutm o
valoare care s exprime ct de distribuite sunt datele, adic ct de tare se abat ele de la medie.
Dorim ns o singur valoare pentru ntreg setul de date. O idee ar fi s adunm toate aceste
abateri. Ce s-ar ntmpla daca am face aa. Ei bine, unele abateri sunt pozitive, altele sunt
negative pentru c unele valori sunt sub medie, altele evident peste medie. Dac am aduna
toate abaterile, valorile pozitive s-ar atenua cu cele negative i nu am mai afla ct de
distribuite sunt datele cu adevrat. De fapt, e chiar mai grav dect att. Suma tuturor abaterilor
va fi ntotdeuna 0, i asta din motive pur i simplu matematice de calcul al mediei aritmetice.

De aceea ridicm la ptrat diferena, abaterea. Astfel se obine o valoare care este ntotdeuna
pozitiv i abaterile pozitive nu se mai anuleaz cu abaterile negative. Aa se ajunge la
formula (x
i
-x)
2
. Apoi adunm toate aceste abateri pentru ca s obinem o singur valoare care
s spun ceva despre abaterea total. Aa ajungem la
i=1,n
(x
i
-x)
2
. Spune oare aceast sum
67
cu adevrat ceva? Ei bine, da i nu. Da, pentru c este ntr-adevr o sum de abateri. Totui
nu, pentru c un numr mare de valori chiar destul de apropiate pot da aceiai sum total ca
i un numr mic de valori care sunt mult mai ndeprtate de medie. Deci trebuie s mprim
acest rezultat la numrul datelor culese, la volumul populaiei studiate. De aceea mprim
suma la N.

Rezult formula pe care am prezentat-o i anume:

2
=
1
/
N

i=1,n
(x
i
-x)
2

Unele lucrri de statistic prefer n locul dispersiei rdcina ei ptrat , numit i abatere
standard sau deviaie standard. Ideea este c, deoarece abaterea s-a calculat cu ridicare la
ptrat, pentru a obine un indicator care s exprime mai corect cu ct se abat cu adevrat
valorile de la medie ar trebui extras radical din valoarea rezultat din calcul. Aceasta se mai
numete i abatere medie ptratic, o denumire care exprim foarte bine modul de calcul.
ntr-adevr n calcule se face o medie, adic o sum mprit la numrul de valori adunate, a
abaterii ridicate la ptrat. Avantajul abaterii standard este deci acela c valoarea ei poate fi
foarte bine comparat cu media.

n viaa real avem ns problema de a nu putea culege toate datele unei variabile aleatoare, de
aceea i abaterea standard sau dispersia pe care o calculm va trebui tratat ca o estimare
bazat pe un eantion a abaterii reale, adic a celei care exist la nivelul ntregii populaii.
Atunci ceea ce vom face pentru a ne asigura c reducem riscul de a grei, este s
supraestimm puin abaterea fa de valoarea calculat prin formul. Modul de calcul obinuit
este nlocuirea valorii N, a volumului populaiei cu N-1. O alt diferen, de ast dat pur
convenional este notarea. Dac de regul dispersia calculat la nivel de populaie ne noteaz
cu
2
, dispersia estimat pe baza unui eantion se noteaz mai de grab cu s
2
. Formula este
deci:

s
2
=
1
/
(N-1)

i=1,n
(x
i
-x)
2


Analog se obine i abaterea standard estimat pe baza unui eantion, s.

68
Am prezentat n acest capitol indicatorii statistici de baz pentru descrierea unei singure
variabile. Exist desigur n statistic i ali indicatori, cum ar fi de exemplu cei de kurtosis sau
nclinare (n englez, skewness), indicatori care se pot nelege ca descriptivi pentru forma
distribuiei unei variabile, adic chiar pentru felul cum arat graficul variabilei. Aceti
indicatori snt ns destul de rar utilizai n practica cercetrilor empirice, fie ele sociale sau
chiar din tiinele exacte. De asemenea exist o serie de indicatori care descriu relaia dintre
dou sau mai multe variabile. La acetie ne vom referi pe larg n capitolul 6.

Cum s-ar zice am terminat aperitivele, reci i calde, grafice, frecvene simple i indicatori
descriptivi. Vom trece acum, n capitolul care vine la temelia analizei statistice, supele i
ciorbele statistice, esenele, cum s-ar zice, adic testele statistice.

69
Capitolul 5. Supe, ciorbe i teste statistice simple.

Testele statistice ar trebui s fie pri obligatorii ale oricrei cercetri bazate pe statistic. Ele
snt metodele de cunoatere cele mai puternice n statistic. n capitolul introductiv al acestei
cri am discutat un pic despre felul cum cunoate statistica i am prezentat conceptual i cam
general ideea care st n spatele testrii statistice, ideea respingerii ipotezelor. n capitolul de
fa vom vedea cum se poate face aceasta din punct de vedere tehnic, care sunt paii,
algoritmul pentru o testare statistic.

Pentru a nelege ns felul cum se calculeaz i se analizeaz testele statistice e nevoie, pe
lng acea introducere teoretic ce ine oarecum de filosofia metodei tiinifice, i de cteva
cunotiine de matematic. Nu e mare lucru i voi ncerca s le formulez ct mai simplu.

a. Distribuia normal

Cea mai mare parte a testelor statistice se bazeaz pe faptul c datele snt distribuite normal.
Aa cum am mai pomenit n capitolul introductiv, o atare presupunere este justificat prin
teorema limit central. Am lsat ns complet n obscuritate ce nseamn de fapt aceast
normalitate a distribuiei datelor. Conceptul pe care l vom discuta pe larg nu e chiar att de
ndeprtat de ceea ce nelegem prin normal n bunul sim comun. Anume cum e ceva ce e
distribuit normal? Pentru asta s ne aducem aminte ce este distribuia: sunt toate valorile pe
care le ia o variabil, aa cum apar ele, de exemplu, ntr-o tabel de frecvene. S zicem c
punem acolo greutile msurate pentru cinii de aceiai ras de la o expoziie canin. Cum e
normal s fie greutile? E normal ca ele s aib o medie specific rasei i majoritatea s aib
greutatea apropiat mediei. Mai mult, e normal ca numrul cinilor de o anumit greutate s
fie cu att mai mic cu ct greutatea e mai departe de medie. Media de greutate pentru un
mascul de Golden Retriever este pe undeva pe la 35 kg. Sigur vor fi cini cu greutate mai
mare sau mai mic, dar normal este ca acetia s aib totui greuti apropiate i numai puini
s fie cu adevrat departe de medie. Mai mult, aa cum am mai spus, s fie cu att mai puini
de o anumit greutate cu ct aceasta e mai departe de medie, adic mai mare sau mai mic.

n continuare o s v rog s avei puin rbdare. Urmeaz o parte de matematic destul de
uoar care ns poate produce unora indigestie, urticarie sau alte efecte secundare. Totui ar
fi bine s ncercai, eventual n doze mai mici
70
Ceea ce am reprezentat de fapt pn acum ntr-o tabel de frecvene este o distribuie
aleatoare sau probabilist, adic o funcie care leag valorile unei variabile de probabilitatea
(sau frecvena, adic o aproximare a probabilitii) cu care pot aprea aceste valori. Corect
matematic aceast funcie se numete densitate de probabilitate. Pentru fiecare valoare pe care
o poate lua o variabil, densitatea de probabilitate ne spune care e probabilitatea ca aceast
valoare s fie cu adevrat ntlnit. Fie de exemplu, aruncarea cu banul. Avem atunci dou
valori, cap i stem i fiecare are probabilitatea de a aprea de ori. Adic ori e cap, ori e
stem. i att. Densitatea de probabilitate va fi deci o funcie care nu are dect dou argumente
posibile. Matematic definiia asta se scrie cam aa:

densitate : {cap, stem} (0, 1)

Funcia densitate ia valori ntotdeuna n intervalul (0, 1) pentru c valorile pe care le ia sunt
probabiliti i probabilitile sunt ntotdeuna ntre 0 i 1. Probabilitate 0 nseamn de fapt c
evenimentul n cauz este imposibil, 1 nseamn c este sigur. Valorile funiei densitate din
exemplul nostru vor fi:

densitate (cap) =
densitate (stem) =

Desigur densitile de probabilitate pot fi mult mai complicate dect att dac valorile care le
poate lua o variabil devin mai multe. Rmn ns cteva reguli clare:
1. densitatea ia ntotdeuna valori ntre 0 i 1.
2. suma tuturor valorilor pe care le ia densitatea, adic pentru toate
valorile posibile ale variabilei, este 1.

Distribuia normal, numit i Gaussian
4
este de fapt o familie de mai multe distribuii cel
mai bine caracterizabile prin funciile lor de densitatea care se pot descrie cu o singur
formul dependent de doi parametrii. Graficul acestor funcii, numit i Gaussian, curba lui
Gauss sau clopotul lui Gauss este foarte cunoscut chiar dac nu ntotdeuna bine neles.


4
Atribuirea distribuiei normale lui Gauss nu este ntru totul corect. Dei Gauss a avut un rol important n
analiza distribuiei normale nu el a fost cel ce a definit-o ci de Moivre n 1734, deci muli ani nainte de lucrrile
lui Gauss pe aceast tem, publicate n 1809. De asemenea nu el a fost cel ce a denumit curba clopot. Aceasta i
se datoreaz lui Jouffret i a avut loc mai trziu, n 1872.
71
S aruncm o privire la un astfel de clopot al lui Gauss nainte de a merge mai departe.





Ca pe orice grafic de funcie pe desenul de sus avem reprezentate puncte care corespund unor
valori de pe dou axe. Axa x a unei funcii densitate de probabilitate reprezint ntotdeuna
valorile pe care le poate lua variabila descris. Aa cum la variabila aruncarea cu banul
acestea erau cap i stema, la o distribuie normal valorile snt toate numerele reale.

Distribuia din grafic se mai numete i distribuia normal standard, dar vom mai reveni la
acest fapt. S vedem prima dat ce ne mai poate spune graficul de mai sus. n primul rnd,
distribuia normal este o distribuie continu. Adic funcia de densitate are valori de
probabilitate pentru toate punctele de pe axa x, nu doar pentru anumite puncte. Mai simplu
spus, densitatea de probabilitate e o curb continu, fr ntreruperi, orice valoare de pe axa x
are un corespondent pe curb.

Mai mult, dei din grafic nu rezult foarte clar, va trebui s m credei pe cuvnt c distribuia
normal este i nemrginit. Adic orice valoare poate fi atins, doar c unele se ating cu
probabilitate foarte, foarte mic.

Pe grafic, forma de clopot a curbei rezult din faptul c valorile pe care le poate atinge
variabila se adun n jurul unui punct anume. n varianta standard, cea din desenul de mai sus,
72
acest punct este valoarea 0. Faptul c aici curba se ridic la punctul ei cel mai nalt nseamn
de fapt c aceast valoare e atins n culegerea variabilei cu probabilitatea cea mai mare, de
aproape 0,4 sau 40%. Pe msur ce ne ndeprtm de acest punct central probabilitatea scade
continuu, astfel nct valori mai mici dect -4 sau mai mari dect +4 se ating cu probabiliti
aproape nule, fiind aproape imposibil de ntlnit practic. S nu uitm ns de ceii notrii.
Deci, cum ziceam, normal e s fie muli cu greutate medie i apropiat de medie, iar cu ct
valoarea greutate e mai departe de medie, cu att probabilitatea de a gsi cei cu greutatea
aceasta e mai mic. Dac am reprezenta asta grafic, ar iei ceva cam ca in imagine. Desigur
media nu ar fi zero i poate c forma graficului ar fi mai ascuit sau mai aplatizat dar ar
semna mult cu graficul de mai sus, i asta pentru c dei distribuia ar fi normal nu ar fi
normala standard.

Deci, dac culegem date ale unei variabile distribuite normal standard avem cele mai multe
anse s le gsim n apropierea punctului 0 i mai mult dect att, o valoare va avea anse de
apariie cu att mai mici cu ct e mai departe de 0.

Clopotul este n plus simetric fa de punctul central 0. Probabilitatea aferent unei valori a
este aceai ca i pentru a. Aceast simetrie este un motiv suficient pentru a observa c
valoarea central, punctul 0 n cazul desenului de mai sus, este mediana distribuiei, dar n
acelai timp i media i modul distribuiei normale.

Spuneam c distribuiile normale formeaz o familie. Exist dou caracteristici care determin
distribuia normal: media i abaterea standard (sau dispersia, e totuna de fapt). Dac revenim
la grafic, o modificare a mediei va mpinge pur i simplu ntregul grafic mai la stnga sau mai
la dreapta (de la 0 la 35 n cazul greutii pomenite). Pe de alt parte, o modificarea a abaterii
va face ca datele s fie distribuite mai larg. Adic, pe msur ce crete abaterea standard curba
devine mai plat, probabilitatea unor valori mai ndeprtate de medie crescnd i bineneles
aducnd dup sine scderea probabilitii aferente mediei. Aceasta are loc pentru c, aa cum
am mai scris, suma tuturor probabilitilor posibile ale unei densiti de probabilitate trebuie
s rmn 1. Dac abaterea standard e mai mic, probabilitatea unor valori ndeprtate de
medie e desigur i ea mai mic i curba se ascute crescnd probabilitatea valorilor apropiate
mediei. Forma standard din graficul de mai sus se obine pentru o medie 0 i o abatere
standard 1.

73



n graficul de mai sus sunt reprezentate 4 distribuii normale diferite, pe lng cea standard
avem o distribuie cu media schimbat la o valoare mai mic, -2 i dispersia micorat la 0,5.
Avem pe grafic i trei distribuii cu media egal cu 0. Una este distribuia standard, iar alte
dou au dispersii schimbate, una cu o dispersie mai mare, de 5 i una cu o dispersie mai mic,
de 0,2. Se vede cum distribuia cu dispersie mare, adic cu valorile distribuite mai larg e mult
aplatizat, iar distribuia cu dispersie mic e mai ascuit dect varianta standard.

Am ocolit pn acum formula funciei de densitate reprezentate aici. Formula este destul de
complex, dar pot liniti pe oricine, o cunoatere a ei nu este necesar pentru aplicarea, citirea
i analiza corect a unor teste statistice i nici mcar pentru alte procedee statistice chiar mai
avansate.

Densitate
normal
=


n formula de mai sus, s-a notat, ca de obicei, cu media i cu abaterea standard. Distribuia
normal de medie i abatere standard , adica dispersie
2
se noteaz n general N(,
2
).
Aa cum am vzut mai sus distribuia normal standard este deci N(0, 1).

74
nainte de a vedea cteva proprieti importante ale distribuiei normale, s mai lum o pauza
de la partea prea tehnic ca s povestim despre frecvena de apariie a distribuiei normale.
Cum am mai pomenit n capitolul introductiv, distribuia normal este esenial n statistic
din cauza teoremei limit central. S rememorm puin ce zice aceasta.

Dac avem un numr mare de variabile aleatoare, despre care tim foarte puine, anume
numai c au aceiai medie i dispersie, suma lor tinde la o distribuie normal cnd numrul
lor tinde la infinit. Mai mult dac aceste variabile aleatoare au media i abaterea standard
atunci normala la care tinde suma lor este N(n,
2
n). Redefinind variabilele din sum printr-
un procedeu numit standardizare acest normal poate fi nlocuit cu distribuia normal
standard N(0, 1). Acum sa vedem ce nseamn toate acestea. Dac avem un bun motiv s
credem c evenimentele pe care le studiem sunt determinate de o gramad de variabile care se
nsumeaz n efectele lor atunci e de bun sim s considerm tot ce nu am luat n seam n
cercetarea noastr, adic acei factori de eroare ca fiind distribui normal. Pe o atare
presupunere se bazeaz aproape ntreaga teorie a testelor statistice. Exist deci o multitudine
de situaii n care putem fi linitii c aa se ntmpl. Putem fi siguri c comportamentul uman
sau instituional depinde de foarte muli factori pe care nu i cunoatem. Toi aceti factori vor
influena relaiile dintre variabilele pe care le studiem ca un fel de distorsiuni, ca nite erori
permanent prezente, inevitabile. Pe de alt parte aceste erori vor fi predictibile n forma lor.
Fiind normale ele vor arta ca o curba clopot standardizat. Adic probabilitatea ca ele s fie 0
va fi mai mare dect oricare alt valoare pe care o pot lua. Mai mult probabilitatea ca eroarea
s aib o valoare anume e cu att mai mic cu ct aceast valoare e mai departe de 0. Deci
zgomotul care deranjeaz interpretarea datelor e destul de cuminte, pe msur ce e mai mare
n valoare (adic mai deprtat de 0), deci ar influena mai mult rezultatul, ansa ca el s se
produc e mai mic.

Exist totui i situaii n care distribuia normal a factorilor neluai n seam n cercetare nu
are loc. n primul i n primul rnd se ntmpl aa dac nu am luat n seam un factor esenial
pentru cele cercetate. Exist factori cauzali care sunt att de importani n efectul lor asupra
variabilelor cercetate nct nu pot fi luai la grmad. Hai s lum un exemplu pentru a
clarifica lucrurile. S presupunem c dorim s cercetm relaia dintre veniturile angajailor din
armata roman i anii de coal pe care i-au absolvit. Ipoteza de bun sim este c pe msur ce
o persoan are mai multe studii va avea i venituri mai mari. Necazul este c nu e aa. De ce
oare? Ei bine tocmai pentru c o variabil important, cu efect mare nu a fost luat n seam.
75
i anume vechimea. Am luat exemplul cu armata tocmai pentru c acolo poate fi cel mai
evident. Pe msur ce o persoan mbtrnete n oaste are venituri din ce n ce mai mari. i
cum expansiunea nvmntului superior este la noi un fenomen relativ recent, cei mai n
vrst au n general (ca s nu vorbim de grade mai mici) mai puini ani de coal. Deci, cu
vechime mai mare presupune de regul mai puin colit dar mai bine pltit. Dac lum ns n
calcul vechimea, o controlm cum se spune n jargonul statistic, relaia dintre venit i educaie
devine cea bnuit, pozitiv. La aceiai vechime, cei mai bine colii sunt mai bine pltii.

Ei bine, ce am nvat? Dac exist variabile care au un efect esenial asupra variabilelor pe
care le studiem, este bine s le gsim. Lsndu-le n factorii de eroare nu mai putem miza pe o
sum de multe variabile cu efect individual mic. Aa cum se spune nimic nu e mai practic
dect o bun teorie. Trebuie deci s putem identifica teoretic toate variabilele cu efect mare i
s lsm n suma factorilor de eroare numai variabile care au efecte mici oarecum egale ca
importan.

Un alt caz interesant este cnd efectele variabilelor neluate n seam nu este aditiv ci
multiplicativ. Asta ar nsemna c efectele nu se adun pur i simplu ci se poteneaz reciproc,
se nmulesc. Nu e uor de gsit exemple pentru aa ceva, evident situaiile fiind de fapt destul
de rare. Totui, dup mai multe cutri i adnc chibzuial, iat un caz: s presupunem c
avem de fcut un studiu statistic al unui mediu ecologic. Analizm de exemplu efectul
festivalurilor de jazz i rock asupra crapilor comparnd numrul de crapi pescuii an de an n
timpul festivalului de la Grna n relaie cu programul muzical. Evident sunt o grmad de
variabile ecologice care au efect (probabil incomparabil mai mare dect cine cnt la festival)
asupra populaiei de crapi din lac. Aici intr desigur volumul populaiilor altor peti, plante,
psri, insecte, i aa mai departe. Ei bine, petii i plantele depinznd unele de altele n lanul
dezvoltrii lor nu se pot considera ca efecte aditive. Ele sunt multiplicative
5
. i ca atare pentru
modelarea lor nu se poate recurge la teorema limit central n forma ei clasic.

n acest situaie teorema limit central se schimb puin dar nu esenial din punctul nostru
de vedere. Se folosete o aa zis teorem limit central multiplicativ. Diferena care apare
este c distribuia limit la care tinde combinaia variabilelor aleatoare nu este o distribuie

5
Sincer, faptul c relaiile dintre soiuri ntr-un mediu natural snt mai degraba multiplicative dect aditive e un
exemplu clasic din literatura statistic pentru distribuia log-normal. Alte cazuri clasice sunt concentrrile de
poluani, sensibilitatea indiviziilor la substane chimice i medicamente, timpul de supravieuire dup tratament
mpotriva cancerului, i altele.
76
normal ci una aa-zis log-normal. Ecuaia funciei de densitate log-normale difer puin de
funcia de densitate normal:



Nu e cazul s ne batem capul prea mult cu aceast situaie. S inem doar minte c exist
soluii pentru aa ceva dar e nevoie de alte teste. n fine, problema care este cea mai
important este c identificarea cazului n care efectele variabilelor neluate n seam se
nmulesc n loc s se adune este departe de a fi facil.

Bun. Hai s revenim la consideraiile eseniale pentru testarea statistic. Am descoperit deci
c factorul de eroare ntr-o relaie statistic poate fi adesea considerat ca fiind distribuit
normal i n plus standardizat cu media 0 i dispersia 1.

Pentru c distribuia aceasta, N(0, 1) este complet cunoscut putem s observm urmtoarele:



ntr-un interval de o dispersie de la medie, adic de fapt ntr-un interval de la -1 la +1 se
gsesc 68,26% din toate cazurile unei distribuii normale. Adic lund la nimereal o valoare,
dac o variabil este distribuit normal, ansa ca valoarea aceasta s se afle n intervalul -1, +1
este de 68,26%. Aa este i cu factorii de eroare care se adaug la estimrile noastre, pentru c
77
acolo avem o distribuie normal i chiar nu tim exact ce valoare e ntr-un caz anume. tim
ns c sunt 68,26% anse s fie ntre -1 i 1 a distribuiei standardizate.

n intervalul de dou dispersii, deci de la -2 la +2 sunt 95,44% dintre cazuri.

n intervalul de trei dispersii, de la -3 la +3 sunt 99,74% dintre cazuri!

Care e atunci logica unui test. Pi s presupunem c dorim s verificm dac media numrului
la pantof al femeilor din Romania este 36. n parantez fie spus, faptul c numerele de la
pantofi sunt distribuite normal n cadrul unui gen este cu adevrat dovedit empiric. Alegem
deci un eantion reprezentativ, le msurm pe toate la picioare i calculm media. Iese ceva,
s zicem 39. Acum trebuie s standardizm aceast valoare, pentru c evident distribuia
numerelor de la pantof ct o fi ea de natural nu are cum avea media 0 i dispersia 1. n urma
standardizrii 36-ul devine evident 0, iar 39-le devine de exemplu 2. Atunci ne uitm pe grafic
i vedem c ansa ca eroare statistic s adauge 2 la media standardizat este de 2,27%! Adic
exist o probabilitate de 2,27% ca totul s fie corect, mediile n regul, media populaiei s fie
ntr-adevr 36 i aa mai departe, dar din motive absolut normale ale erorii aleatoare nou s
ne fi ieit 39.

Hai s relum un pic ideea. Deci avem o distribuie normal pe care o lum de bun pentru
nceput, distribuia numerelor de la pantofi cu o medie de 36 i o dispersie
2
i o valoare
gsit empiric, media eantionului de 39. Acum ne punem problema: cam care e ansa ca totul
s fie n regul, adic diferena dintre cele dou medii, cea teoretic (36) i cea empiric (39)
s fie cauzat de eroarea acceptabil a unui sondaj. Pentru aceasta standardizm distribuia. n
exemplul nostru gsim c exist o ans de 2,27% s fie aa. Asta nseamn c exist o ans
de 97,73% s nu fie aa! Adic, dac avem deplin ncredere n sondajul efectuat de ctre noi,
putem s spunem c exist o probabilitate de 97,8% ca media numrului la pantof al femeilor
din Romania s nu fie 36.

Dup aceast gustric s vedem acum de-a amnuntul cum se face.

b. Teste statistice pentru medii i proporii.

78
Testarea statistic se descrie de obicei ca un algoritm, adic o serie de pai care se ntreprind
pentru a lua o decizie. Totul pornete de la construirea unei ipoteze i se termin cu
respingerea sau nerespingerea acesteia. Aa cum am vzut i mai de vreme, cunoaterea
statistic este una negativ. Nu poate confirma nimic, dar poate infirma. Adic, aa cum am
vzut din exemplu, dac rezultatul empiric e suficient de aproape de cel teoretic nu avem
nimic de spus, dect eventual c nu putem respinge ipoteza. Dac ns este improbabil de
ndeprtat atunci putem spune: asta chiar nu se poate! Ipoteza se poate respinge pentru c dat
fiind ce am cules noi din sondaj probabilitatea ca ceea ce am presupus la nceput s fie
adevrat este infim.

S vedem paii. n primul rnd se definete o ipotez. n cercetarea empiric acesteia i se
spune de obicei ipotez nul sau iniial i se noteaz cel mai adesea cu H
0
. Aceasta este
ipoteza pe care vom dori s o putem respinge. Construirea unei ipoteze necesit de obicei o
munc important de abstractizare i modelare. Testele statistice pot respinge numai ipoteze
foarte simple. Deci ceva de genul: este via pe Marte ct o fi ea de ipotez nu prea poate fi
testat statistic n aceast formulare. Ipotezele de cercetare care au baz teoretic i
importan n cunoatere trebuie traduse n relaii matematice simple de genul media
numrului la pantof al femeilor din Romnia este 36 sau veniturile brbailor i ale femeilor
sunt egale adic lucruri care cu adevrat se pot respinge. n general ipotezele statistice sunt
relaii de egalitate sau de inegalitate care implic valorile unor variabile i valori prestabilite.
Verificm deci relaii ntre grupuri sau populaii i relaii dintre populaii i valori teoretice.
Trebuie s putem traduce teoriile noastre n astfel de relaii pentru ca statistica s ne fie de
vreun folos.

O dat stabilit ipoteza nul, n unele cercetri se propun i una sau mai multe ipoteze
alternative, notate de obicei cu H
a
. Aceste ipoteze se consider ca ipoteze de urmat n
cercetarea viitoare n caz c se respinge ipoteza nul. Ele nu sunt ipoteze confirmate nici
mcar dac au fost construite ca negaii logice ale ipotezei nule. n acest caz sunt pur i
simplu ipoteze care nu au fost respinse. Adic pot fi considerate, n tradiia popperian despre
care am vorbit n introducere ca fiind pe moment acceptabile.

Dup stabilirea ipotezelor trebuie stabilit valoarea testat, numit uneori dup obiceiul
englezesc i statistic. Aceasta este o valoare agregat culeas din date i care intervine n test.
n exemplul cu pantofii este media numrului la pantof. Ar putea fi o medie, o proporie, sau
79
diferena unor medii sau proporii. Valoarea testat nu este altceva dect un rezultat al
operaionalizrii, adic al traducerii n formul matematic a ipotezei.

Dup aceasta, n funcie de valoarea pe care dorim s o testm se determin distribuia
statistic a acesteia. n esen e vorba de a stabili dac se poate presupune c valoarea testat
este distribuit normal, iar dac nu, dac putem stabili cum o fi distribuit (de exemplu log-
normal) i ce test avem pentru aa ceva. De exemplu, dac distribuia este una normal se
poate aplica o metod de standardizare, se aduce distribuia la forma N(0, 1) i se poziioneaz
valoarea testat pe aceast distribuie. Aa putem spune ce anse are o asemenea valoare s fie
atins (sau una mai mare sau mai mic, dac ipoteza este o inegalitate).

O dat stabilit distribuia statistic, se aplic un test statistic, adic o formul de calcul
valorii testate. Se obine un fel de indicator, numit adesea dup numele testului sau mai
general valoare de test. Vom vedea n cele ce urmeaz valoarea t, valoarea Z, i aa mai
departe. Fiecare astfel de test nu este de fapt dect o formul.

Apoi se determin zonele critice. Zonele critice, uneori numite i zone de respingere sau
rejecie sunt intervalele n care trebuie s se gseasc valoarea calculat prin testul statistic
pentru ca ipoteza s fie respins. Aceste intervale ar trebui stabilite dinainte. Exist de fapt
dou moduri de lucru. Varianta obinuit este de a calcula valoarea de test i apoi a vedea
dac se afl n afara intervalului de probabilitate de 95% sau de 99%. Limitele acestor
intervale sunt cele care se numesc valori critice i intervalele complementare intervalelor de
probabilitate de 95% respectiv 99% sunt chiar zonele critice. Dac valoarea calculat este n
aceste zone critice, probabilitatea ca aceast valoare s fie atins n condiiile validitii
ipotezei este mai mic de 5% sau chiar de 1%. Dac, de exemplu valoarea calculat este mai
mare dect valoarea de test pentru 95%, deci se afl n afara intervalului de probabilitate de
95%, atunci probabilitatea ca ipoteza s fie corect este de cel mult 5%, ceea ce este foarte
puin i ipoteza poate fi respins.

Multe din programele pe calculator care efectueaz teste statistice calculeaz o aa-zis
significan a testului. Aceasta e chiar probabilitatea ca valoarea calculat s fie atins n
condiiile ipotezei. Nu mai este atunci nevoie s comparm cu valoarea critic. Putem spune,
chiar ct este probabilitatea ca ipoteza s fie adevrat. i bineneles putem decide pe baza
acestei probabiliti dac ipoteza se poate respinge sau nu.
80

n literatura de statistic aplicat se definesc n general dou tipuri de erori care se pot
ntmpla n testarea statistic:

Eroarea de tip I, numit i eroare sau fals pozitiv are loc dac se respinge o ipotez
nul care e de fapt adevrat. Probabilitatea de face o astfel de eroare este de fapt acea
significan a testului statistic.
Eroarea de tip II, numit i eroare sau fals negativ are loc dac nu se respinge o
ipotez fals.

Exist i alte clasificri ale erorilor de decizie, dar aceasta este cea mai rspndit. n
experiena mea trebuie s recunosc c nu am gsit nici o dat vreun uz practic al faptului de a
fi tiut care este diferena dintre cele dou tipuri de erori. Este ns important s fim contieni
de faptul c erorile, fie ele de tip I sau tip II nu pot fi cu totul eliminate. Dac se aplic corect
o metodologie statistic se poate ns determina probabilitatea ca ele s apar. n fapt,
probabilitatea care determin zona critic aa cum am vzut mai sus este chiar probabilitatea
unei erori de tip I.

Dac pn acum am vorbit de teste la un mod cam general i ceea ce am spus era n principiu
valabil pentru orice test statistic s trecem acum la lucruri practice. Cum se face de fapt, ce se
calculeaz i cu ce se compar valoarea de fapt?

Testul t pentru media unei variabile aleatoare

Testul t (numit i Student dup pseudonimul autorului su, statisticianul englez W.S. Gossett)
este un test care verific ipoteze n condiii de normalitate a distribuiei datelor i cunoatere a
dispersiei datelor. Gossett a fost, n vremea n care a dezvoltat testul, statistician la fabricile
Guiness din Dublin, Irlanda i l-a dezvoltat pentru a verifica ct mai simplu calitatea berii.
Ideea era de a calcula ct ncredere se poate acorda unor analize biochimice ale berii fcute
pe eantioane relativ mici. Dei am citit pe undeva c Gossett a folosit din modestie un
pseudonim, se pare c motivul adevrat pentru care Gossett i-a publicat metoda n 1908 sub
pseudonim a fost faptul c vroia s ocoleasc contractul care l lega de fabrica Guiness.
Testul se folosete i acum pe scar larg, chiar i acolo unde avem eantioane mici. Cu
diversele forme ale testului t se pot analiza ipoteze legate de media unei variabile aleatore,
81
comparaii ntre mediile unor variabile aleatoare pe dou populaii, precum i ponderea unor
subgrupuri n populaii i comparaii ntre ponderea unor subgrupuri n dou populaii. S le
lum ns pe ndelete.

n forma cea mai cunoscut testul t verific o ipotez exact ca n exemplul nostru. Adic
verific ipoteza dac media unei variabile la nivelul populaiei este egal cu media aceleiai
variabile pe un eantion. Sau altfel exprimat, este suficient de mare diferena ntre media
msurat pe eantion i media presupus ipotetic pe populaie pentru a respinge presupunerea.
n exemplul nostru media presupus pentru numrul la pantof al femeilor din Romania era 36
i media gsit pe eantion era 39. Testul t este cel ce ne spune dac putem respinge ipoteza
nul sau nu.

Testul t poate fi folosit dac snt ndeplinite cteva precondiii. n primul rnd trebuie s
cunoatem media i dispersia la nivelul populaiei, apoi variabila trebuie s fie distribuit
normal i eantionul trebuie s fie aleator. n realitate situaia e cam aa: media o presupunem
teoretic pentru c la urma urmei pe asta dorim s o testm. Distribuia normal este o
problem relativ mic, dac avem un eantion mare i nu este un caz special n care distribuia
este evident nenormal presupunem de obicei normalitatea fr s ne batem prea mult capul.
Cum am tot povestit teorema limit central ne d aici o mn serioas de ajutor. Evident,
faptul c eantionul trebuie s fie aleator nu poate fi ns ocolit. Oricare dintre metodele
statistice necesit aceasta. Nu nseamn c nu se pot face testri i n alte condiii dar atunci
nu mai e vorba despre a verifica relaia dintre media unei populaie i a unui eantion, ca n
cazul clasic al testului t, ci ntre mediile a dou loturi. Problema care este cea mai mare n
cazul testului t este ns faptul c de obicei nu avem cum s cunoatem dispersia real a
variabilei n populaie. Aceasta se rezolv de regul prin introducerea unei presupuneri
suplimentare. i anume aceea c dispersia la nivelul populaiei este aproximativ egal cu
dispersia la nivelul eantionului.

S vedem deci ce valori avem:
media pe populaie, pe care o presupunem i o punem n ipotez
s abaterea standard pe eantion care se poate calcula i nlocuiete de fapt , abaterea
standard la nivelul populaiei pe care nu o putem calcula.
x media pe eantion care e uor de calculat
n volumul eantionului.
82

Ipoteza va suna deci cam aa media variabilei este . n exemplu era: media numerelor la
pantofi este 36.

Calculm acum testul t astfel:

t = (x ) / (s/n

)

Aceasta nu este altceva dect transformarea din N(, s
2
) n N(0, 1), adic standardizarea
distribuiei normale. Valoarea t se va raporta la curba normal standard aa cum se raporteaz
valoarea x la curba normal iniial.

S presupunem c valoarea de 39 la picior a fost obinut pe un eantion de 1000 de femei i
abaterea standard la nivelul eantionului a fost 2. S vedem ce iese:

t = (39 36) / (2/10) = 15

S ne aducem aminte de felul cum arat distribuia normal standard i cam unde s-ar afla
valoare 15 pe axa x a acesteia.



Precum se vede din grafic, probabilitatea ca ntr-o distribuie normal standard valoarea s fie
mai mare de 3 este de 0,1%. 15 fiind mult mai mare dect 3, probabilitatea ca ipoteza s fie
adevrat este mult mai mic dect 0,1%. Avem deci 99,9% motive s respingem ipoteza.

Am ocolit ns zonele critice folosite n mod obinuit. S vedem care sunt acestea:

83
Intervalul de probabilitate de 95% este (-1,96, 1,96). Aceast nseamn c ntr-o distribuie
normal standard 95% dintre cazuri se gsesc n intervalul (-1,96, 1,96). Deci dac avem o
valoare aflat n afara intervalului acesta, ansa ca valoarea s fie atins n condiiile validitii
ipotezei este mai mic dect 5%. Se mai spune i c -1,96 i 1,96 sunt valorile critice de
significan (sau probabilitate) de 95%.

n aceiai logic se definete i intervalul de probabilitate de 99%. Acesta este (-2,57, 2,57).
Exist de asemenea tabele ale valorilor t care dau exact probabilitatea ca o anumit valoare
calculat s fie atins. S sistematizm pentru o mai uoar privire de ansamblu:

Ipoteze de forma media = valoare se pot respinge:
cu probabilitate de 95% dac valoarea t < -1,96 sau t > 1,96.
cu probabilitate de 99% dac valoarea t < -2,57 sau t > 2,57.

Deoarece 15 este n afara intervalului de probabilitate de 99%, de fapt cum am vzut chiar n
afara intervalului de 99,9% ipoteza se poate respinge cu o probabilitate mai mare dect 99%
(sau, de fapt 99,9%). La modul de analiz al rezultatelor nu am luat n seam faptul c
rezultatul testului ne spune vrnd nevrnd i pe ce parte a intervalului se afl rezultatul
aceasta nseamn c de fapt putem s nbuntim un pic significana sesiznd faptul c de o
parte a distribuiei normale avem de fapt o significan de 50% i doar pe partea cealalt
adugm la aceasta jumtate din significana datorat zonei critice. Deci dac suntem n
varianta cu 95% putem de fapt considera c respingem ipoteza cu 97,5% iar n varianta cu
99% cu 99,5%.

Testul t pentru dou medii

Adesea ipoteza care se pune nu conine o valoare explicit, cum era n exemplul precedent.
Multe probleme statistice urmresc de fapt s compare grupuri sau pri ale unor eantioane.
Ipoteza este n asemenea cazuri ceva de genul femeile de la ar au n medie acelai numr la
picior ca i femeile de la ora sau fotbalitii romani dau n medie la fel de multe goluri ca i
fotbalitii germani i alte asemenea probleme cutremurtoare. Un fel de a pune ntrebarea
care prezint o gam larg de probleme este urmtorul. Este oare posibil ca cele dou
eantioane s fie extrase din aceiai populaie. Dac ar fi aa mediile calculate pe cele dou
eantioane ar trebui s fie suficient de apropiate. Dac ns aceste medii difer mult (n sensul
84
testului t) ipoteza c eantioanele snt extrase din aceiai populaie se poate chiar respinge.
Aa se poate stabili principial c dou grupurie populaionale difer esenial din punctul de
vedere al unei anumite variabile. Aa se poate de exemplu stabili c femeile i brbaii au
venituri diferite n Romania. Se iau dou eantioane aleatoare de valori salariale i se testeaz
dac acestea ar fi putut fi culese dintr-o singur populaie. Multe probleme interesante pot fi
reduse la ipoteze de acest tip.

Avem n asemenea cazuri dou grupuri de msurtori, putem s le spunem eantioane dar nu
sunt din punctul de vedere al testului. i anume nu sunt eantioane din punctul de vedere al
testului pentru c nu se urmrete relaia dintre aceste date i o populaie mai general ci
relaia dintre cele dou grupuri de msurtori. Ca i n cazul precent, este necesar s avem o
distribuie normal a variabilei testate. n plus cele dou eantioane trebuie s fie
independente ceea ce n cazul unei eantionri corecte aleatoare ar trebui s fie cazul, i
trebuie s cunoatem urmtoarele:

s
1
abaterea standard pe primul eantion.
x
1
media pe primul eantion
n
1
volumul primului eantionului.
s
2
abaterea standard pe al doilea eantion.
x
2
media pe al doilea eantion
n
2
volumul celui de-al doilea eantionului.

Formula de test care se calculeaz este:



Analiza rezultatului se face la fel ca i n cazul precedent. Valorile critice snt aceleai,
interpretarea se face la fel. S lum deci un exemplu i s-l calculm.

Voi folosi date dintr-un sondaj de opinie efectuat pe populaia IMM-urilor din mediul rural
din Romnia n 2005. Ipoteza de testat este vrsta medie a patronilor de IMM-uri din mediul
rural nu difer n funcie de gen. Avem deci dou eantioane, unul cu femei, un altul cu
brbai. Volumul eantionului total a fost de 1122 persoane, dintre acestea 1100 au rspuns la
85
ntrebarea de vrst (genul a fost completat de operator). n calcule am putut lua 631 de
brbai i 479 de femei. Vrsta medie a brbailor a fost 45,6 ani, iar a femeilor 42,4. Abaterile
standard snt 10,4 la vrsta brbailor i 9,1 la vrsta femeilor. Este oare diferena dintre cele
dou medii relevant? Snt femeile care patroneaz IMM-uri din zona rural ntr-adevr mai
tinere dect brbaii? Pentru aceasta trebuie s aplicm testul t pentru medii. Informaiile pe
care le-am inclus n text snt suficiente pentru a lua o decizie.

Programele de statistic fac prima dat un test de egalitate a dispersiilor, sau de
homoschedasticitate. Pentru aceasta se folosete testul F al lui Fischer. Testul va mai fi
discutat n relaie cu metoda ANOVA. Testul F e de fapt un raport de dispersii (sau variane).
Ipoteza acestui test este: dispersia pe primul eantion e egal cu dispersia pe al doilea
eantion. Cu ct valoare F e mai departe de 1, cu att significana e mai bun. i dac
significana testului e bun, adic ct mai apropiat de 0, atunci ipoteza aceasta se poate
respinge. n funcie de rezultatul testului, pentru dispersii care nu pot fi considerate egale se
folosete formula pe care am dat-o. Pentru dispersii egale se putea folosi o formul
simplificat i oarecum nbuntit prin faptul c se putea calcula dispersia pe ntreg
eantionului, ceea ce se presupune a fi o estimare mai bun a dispersiei la nivel populaional.

n cazul din exemplu, valoarea testului F este 6,682 i significana este 0,01. Pentru
interpretarea testului F se folosesc de regul tabele, ns aa cum am spus i mai sus
significana este informaia suficient pentru analiz. n cazul significanei de mai sus, care e
foarte bun, ipoteza de dispersii egale poate fi respins.

Se calculeaz atunci varianta de test t pentru dispersii diferite, adic exact formula de mai sus.
Rezultatul este:

t = 5,39 cu Sig = 0,000

Deci ipoteza de egalitate a mediilor se poate respinge cu o probabilitate de 99,9%. E aproape
sigur: femeile care patroneaz IMM-uri n mediul rural snt mai tinere dect brbaii cu poziii
similare. Pentru o explicaie a presupune de exemplu c printre persoanele de vrst mai
naintat femeile snt mai puin nclinate spre poziii patronale dect printre persoanele mai
tinere. Astfel distribuia pe sexe e mai echilibrat la vrste mai mici i media de vrsta a
86
femeilor patron rezult ca fiind mai mic dect a brbailor patron. Desigur interpretarea
aceasta trebuie coroborat cu alte rezultate statistice.

Ipotezele discutate pn aici s-au referit ntotdeuna la egaliti. Testele au ncercat s resping
fie faptul c o medie are o anumit valoare exact, fie faptul c dou medii sunt egale.
Aceasta a fcut ca zonele critice s fie simetrice. La urma urmei se poate respinge ipoteza de
egalitate i atunci cnd valoarea empiric e mult mai mare i atunci cnd e mult mai mic dect
valoarea din ipotez. Am menionat deja c faptul c valoarea empiric e mai mare sau mai
mic ne apare ca un rezultat suplimentar i poate nbunti significana.

Exist ns situaii n care ipoteza este chiar construit ca o inegalitate. Astfel de ipoteze cer s
fie analizate doar prin prisma unei singure zone critice. S m explic. Dac ipoteza era de
forma media = valoare atunci zonele critice de significan 99% sunt intervalele (-, 2,58)
respectiv (2,58, ), adic tot de se afl n afara intervalului de probabilitate de 99% care este
(-2,58, 2,58). Dac ns ipoteza este de forma media > valoare atunci ea respinge numai
dac ceea ce ne d testul e mult mai mic dect 0, deci numai un capt de distribuie normal
respinge ipoteza. Acest capt e evident totdeuna cel opus semnului din ipotez. Adic testm
o inegalitate cu semnul > (mai mare) captul care respinge va fi cel negativ (mai mic dect
media standard 0), dac testm o inegalitate cu < (mai mic) atunci se poate respinge ipoteza
cu intervalul critic pozitiv. Mai avem ns ceva, valorile critice devin mai mici la testele cu
inegalitate deoarece intervalul de 95% sau 99% va fi nelimitat pe un capt. Deci:

Ipoteze de forma media > valoare se pot respinge:
cu probabilitate de 95% dac valoarea t < 1,81.
cu probabilitate de 99% dac valoarea t < 2,23.

Ipoteze de forma media < valoare se pot respinge:
cu probabilitate de 95% dac valoarea t > 1,81
cu probabilitate de 99% dac valoarea t > 2,23.

87



Testul Z pentru proporii

n mare parte dintre cercetrile empirice nu ne intereseaz ns testarea unor ipoteze legate de
medii. De fapt dac ne gndim la sondajele de opinie politice sau sociale pe care le mai vedem
din cnd n cnd n pres greu ne vine n minte o situaie n care s ne fi interesat media unei
variabile. Cel mai adesea ceea ce ne intereseaz mai mult este s testm ipoteze legate de
proporii. Astfel de ipoteze ar fi de exemplu Partidul Vieii Romaneti va trece pragul
electoral sau cetenii romni de religie ortodox prefer manelele n mai mare msur dect
cei de religie catolic. Hai s vedem cum se traduc aceste ipoteze astfel nct s fie testabile.

n prima ipotez menionat Partidul Vieii Romaneti va trece pragul electoral, ceea ce
vrem s aflm este de fapt dac ponderea din electorat a celor care voteaz cu partidul n
cauz e mai mare dect 5%. Bineneles la aceast ntrebare se poate rspunde corect ntr-un
exit-poll, adic un sondaj fcut chiar la ieirea de la urne. n sondaje preelectorale se poate
ns face o previziune destul de bun la astfel de ntrebri. Indiferent cum ar fi, n chestionar
va aprea o ntrebare de genul cu ce partid ai votat? sau cu ce partid vei vota?. Dac m
intervievai dintr-un eantion total de volum n, rspund c vor vota cu PVR atunci avem de
verificat de fapt dac m/n este cu adevrat mai mare dect 5%. Ipoteza se va scrie m/n >
5/100

n a doua ipotez va trebui s dezvoltm un chestionar care, pe lng alte ntrebri, se
intereseaz i de gusturile muzicale ale celor intervievai. Desigur ntrebarea se poate pune n
multe feluri, n final ns vom determina c un anumit numr de persoane prefer manelele.
Acestea vor fi probabil de religii diverse. S presupunem c dintre acetia m
o
vor fi ortodoci,
iar m
c
catolici. S notam numrul total al ortodocilor chestionai n
o
, iar al catolicilor n
c
.
Atunci putem spune c dintre ortodoxi m
o
/n
o
prefer manelele, iar dintre catolici m
c
/n
c
. Pentru
88
a testa dac prima pondere e n mod relevant mai mare dect cea de a doua, ipoteza va avea
forma m
o
/n
o
> m
c
/n
c
.

Perechea de ipoteze din exemplele de mai sus este analoag celor dou metode de testare pe
care le-am prezentat deja. Adic primul exemplu testeaz relaia dintre o proporie stabilit
empiric i o valoare teoretic, iar a doua ipotez relaia dintre dou proporii, ambele stabilite
empiric, adic msurate.

Pentru verificarea ipotezelor legate de proporii se folosete de regul testul Z. Logica lui este
ns aceiai ca a testului t discutat pn acum.

S vedem prima dat formula pentru teste privitoare la o proporie. Pentru a calcula valoarea
de test avem nevoie de p ponderea empiric (adic de exemplu ponderea celor ce au rspuns
c vor vota cu PVR), ^p ponderea teoretic (adic de exemplu ponderea celor care ar fi
trebuit s rspund pentru ca ponderea s fie exact 5%) i n volumul eantionului. Cu
acestea se calculeaz Z.



Dac avem dou ponderi de comparat ca n exemplul al doilea, formula va avea forma
urmtoare:



Aici n
1
este numrul de intervievai din primul eantion (n exemplu, numrul total de
ortodoci din eantionul total), iar n
2
este numrul de intervievai din al doilea eantion (n
exemplu numrul total de catolici din eantionul total). p
1
i p
2
sunt ponderile persoanelor care
intr n categoriile ce se compar (adic p
1
= m
o
/n
o
ponderea celor care prefer manelele
dintre ortodoci, respectiv p
2
= m
c
/n
c
dintre catolici).

n ambele cazuri rezultatul testului, Z se compar cu zonele critice definite ca i pn acum.
Aceasta pentru c i acest test face de fapt o transformare a valorilor pe o distribuie normal
89
standard i logica respingerii unei ipoteze rmne aceiai, a deprtrii fa de valoarea 0,
media distribuiei normale standard.

Iat regulile de decizie simplificate pentru cazul, mai general, al ipotezelor cu dou proporii
empirice

Ipoteze de forma p
1
= p
2
se pot respinge:
cu probabilitate de 95% dac valoarea Z < -1,96 sau Z > 1,96.
cu probabilitate de 99% dac valoarea Z < -2,57 sau Z > 2,57.

Ipoteze de forma p
1
> p
2
se pot respinge:
cu probabilitate de 95% dac Z < 1,81.
cu probabilitate de 99% dac Z < 2,23.

Ipoteze de forma p
1
< p
2
se pot respinge:
cu probabilitate de 95% dac Z > 1,81.
cu probabilitate de 99% dac Z > 2,23.

Sumarul acesta de reguli se poate aplica uor n practic. Tot ce trebuie fcut este s se
formuleze simplu ipoteza, apoi se calculeaz valoare t (sau Z), se aplic regula de decizie i
gata: am fcut o cercetare empiric corect statistic.

c. Calculul erorii unui sondaj si interpretarea ei.

Calculul erorii unui sondaj de opinie este de fapt o aplicaie a testelor statistice simple. De
aceea am preferat s amn discutarea acestei probleme pn acum. Vom vedea deci ce
nseamn acele erori pe care le raporteaz institutele de sondare a opiniei publice i de
asemenea cum se stabilete volumul unui eantion.

n mod curent eroarea care se raporteaz la un sondaj de opinie este eroarea cea mai mare cu
care se poate estima o pondere cu o probabilitate de 95%. Am vzut pn acum c estimarea
unei ponderi se poate face doar cu o anumit probabilitate. Nu exist o stabilire prin sondaj a
unei valori exacte. Probabilitatea cu care se estimeaz ponderea dicteaz de fapt care e zona
90
critic. De aici rezult respingerea unei ipoteze. La sondajele de opinie se folosete de regul
intervalul de probabilitate de 95%.

Este vorba despre estimarea unei proporii, folosim deci testul Z pentru o proporie. Formula,
pe care am dat-o i mai sus este:



Pe noi ne intereseaz n acest caz ns eroarea, adic cu ct difer estimarea noastr de
valoarea adevrat, ntr-un sondaj aceasta se interpreteaz ca fiind diferena dintre ponderea
gsit n eantion i ponderea din populaie, adic ponderea real. Ca atare extragem din
formula de mai sus diferena dintre valoarea empiric i valoarea din populaie.

^p p = Z * sqrt (p*(1-p)/n)

n aceast formul trebuie nlocuit Z cu o valoare critic, astfel nct s se stabileasc cu ce
probabilitate dorim s ne ncadrm n eroarea calculat. Astfel dac dorim ca eroarea ^p p s
nu fie depit cu o probabilitate de 95% vom lua Z = 1,96. Aceasta este varianta cea mai
obinuit. Dac dorim o precizie de 99% va trebui ns s calculm folosind Z = 2,57.
Observm c acestea sunt tocmai valorile critice, adic valorile de 95%, respectiv 99% din
distribuia normal standard.

Exist mai multe feluri de a folosi aceast formul. Putem cu ajutorul ei s calculm eroarea
pentru estimarea unei anumite proporii n cazul unui sondaj de opinie cunoscut. Atunci
cunoatem valorile p i n i stabilim cu o probabilitate de 95% n ce interval se poate afla ^p.

Putem de asemenea stabili care este cea mai mare eroare pe care o poate lua estimarea de
proporii n cadrul unui anumit sondaj (ceea ce se numete de obicei marj de eroare). Atunci
efectum acelai calcul dar n aa fel nct s maximizm eroarea pentru orice pondere
posibil.

Putem s stabilim cu ajutorul aceleiai formule i care e volumul eantionului necesar pentru a
nu depi o anumit marj de eroare. Atunci considerm diferena ^p p cunoscut. Aceasta
91
este marja de eroare pe care suntem de acord s o acceptm, i alegem p astfel ncit eroarea s
fie maxim posibil n cazul dat i l calculm pe n, volumul eantionului.

Estimarea marjei de eroare a unui sondaj de opinie

ncepem cu aceast aplicaie a formulei pentru c ea este probabil cea mai important. Ai
vzut sau auzit desigur la (aproape) orice prezentare a unui sondaj de opinie specificari de
genul marja de eroare a sondajului este 3% cu o probabilitate de 95%. Ce nseamn
aceasta?

Marja de eroare este abaterea cea mai mare de la valoarea real, adic valoarea pe populaie
pe care o poate avea valoarea calculat pe eantion n cazul unui sondaj anume. n formula de
mai jos, notm marja de eroare cu E. De fapt E = max (^p p), adic nlocuind n formula de
mai sus:

E = max (Z * sqrt (p*(1-p)/n))

n aceast formul Z este dat de precizia pe care o dorim, adic pentru precizia de 95% va fi
1,96. n este volumul eantionului, deci o valoare cunoscut, din moment ce sondajul a avut
loc. Singura valoare care se poate alege astfel nct s se maximizeze formula este p. Pentru
aceasta observm c trebuie de fapt s alegem p astfel nct produsul p*(1-p) s fie maxim.
Valoarea p este o pondere adic o valoare subunitar. Maximul produsul se atinge ca atare
pentru p = 0,5. Cine nu crede poate calcula matematic. Iese. De aici rezult, c pentru o
precizie de 95% avem

E = 1,96

Deci marja de eroare a unui sondaj depinde numai i numai de volumul eantionului. Graficul
de mai jos ne arat cum arat forma distribuiei normale centrate n jurul ponderii de 0,5
pentru diferite volume de eantioane.

92



Dac, de exemplu avem un eantion de 1000 de persoane, un volum uzual, marja de eroare a
acestui eantion va fi:

E = 0,98 / sqrt (1000) = 0,03099

Ceea ce se mai poate scrie ca fiind 3,1%.

Calcul de mai sus are desigur i nite premise matematice. Principala premis este aceea c
eantionul este aleator. tim deja c aceasta nu este chiar ntotdeuna perfect ndeplinit, dar
un sondaj de opinie bine efectuat se apropie ct se poate de mult de acest deziderat tocmai
pentru a putea garanta marja de eroare promis.

S vedem acum, cum se citete de fapt un rezultat statistic prin prisma marjei de eroare. Fie de
exemplu un sondaj cu 1000 de interviuri, la care 500 de persoane, adic o pondere de 0,5 (sau
50%) au rspuns c ar vota Partidul Vieii Romaneti. Atunci statisticianul responsabil poate
spune cam aa: Exist o probabilitate de 95% ca din ansamblul populaiei studiate cei care ar
vota PVR s reprezinte un procentaj ntre 46,9% i 53,1%. Dac ponderea pe care trebuie s
93
o estimeze este mai mic sau mai mare dect 0,5 tim c eroarea poate fi calculat mai exact i
va fi ceva mai mic. La urma urmei marja de eroare este eroarea cea mai mare la estimarea de
proporii i formula general a erorii depinde de valoarea p.

Calculul volumul eantionului pe baza marjei de eroare

De multe ori problema se pune invers. Avem de efectuat un sondaj de opinie i clientul nostru
i dorete o anumit marj de eroare, de exemplu 2%, numai aa ca s aib el sondajul cel
mai tare din jude. Atunci vom folosi aceiai formul:

E = 0,98 / sqrt (n)

Dar vom cunoate pe E, marja de eroare dorit i va trebui s-l calculm pe n, volumul
eantionului. Dac extragem pe n din formul, iese:

n = 0,98 / E
2


nlocuind n formul E = 0,02 obinem n = 2400, pentru E = 0,03, n = 1067. Tabelul de mai
jos conine i alte perechi de marje de eroare i volume de eantioane:

Marja de eroare Volumul eantionului
1% 9605
2% 2400
3% 1067
4% 600
5% 384
10% 96

Pe internet exist pagini care ofer interfee simple pentru calculul diferitelor valori statistice.
Astfel, de exemplu, universitatea Vassar din Statele Unite are o pagin unde se poate calcula
uor marja de eroare, dar i alte valori statistice. Pagina se gsete la adresa
http://faculty.vassar.edu/lowry/VassarStats.html. Trebuie desigur specificate volumul
eantionului, media i dispersia valorii estimate. Pentru marja de eroare a sondajului,
specificm valorile pentru distribuia normal standard: media 0 i dispersia 1.
94

Calculul erorii pe estimare a unei anumite proporii

S continum cu aplicaia cea mai simpl a formulei i una din greelile cele mai des ntlnite
n interpretarea sondajelor de opinie. Cum am vzut, marja de eroare este de fapt eroarea
maxim care se face la o estimare cu precizie de 95%. Aceasta e atins atunci cnd se
estimeaz valori apropiate de 0,5, adic de 50%. Cu toate acestea nu o dat citim interpretri
n care valoarea marjei de eroare este folosit pentru a da intervale de estimare pentru
procentaje mult mai mici.

De exemplu, iat un fragment de declaraie a lui Alin Teodorescu, deputat PSD i, pe
deasupra, sociolog: 16% n sondaje nseamn 19 sau 13. Marja de eroare e de 3%.
6
Are sau
nu dreptate politicianul-sociolog. Bineneles nu, pentru c pentru estimarea unui procentaj de
16% eroarea este mai mic dect marja de eroare, care este atins atunci cnd se estimeaz
50%. Cu ct este ns mai mic?

Articolul de ziar nu ne d cu exactitate volumul eantionului, dar dnul Teodorescu ne d un
indiciu foarte bun cnd declar c marja de eroare a sondajului a fost 3%. Deci, volumul
eantionului trebuie s fi fost cam 1067 de persoane. S nlocuim n formul i s calculm:

eroarea = 1,96 * sqrt (p*(1-p)/n) = 1,96 * sqrt ((0,16 * 0,84)/1067) = 0,02199

Exprimat tot n procente eroarea la estimarea unui procentaj de 16% este 2,2%. Corect am
putea spune, valoarea procentual de 16% din eantion se traduce astfel procentajul n
ansamblul populaiei studiate este aflat cu o probabilitate de 95% ntre 13,8% i 18,2%.

Iat o exprimare de o candoare deosebit, legat de aceiai problem: Strict sociologic, ce-i
sub marja de eroare practic nu se ia in calcul.
7
Evident nu este aa. Mai mult, valorile mici,
adic cele pe care ziaristul le numete sub marja de eroare se estimeaz mai exact dect
valorile n jur de 50%. S calculm puin. Un procentaj de 3% se va estima ntr-un sondaj cu
marja de eroare de 3% cu o eroare de:

eroarea = 1,96 * sqrt ((0,03 * 0,97)/1067) = 0,010.

6
Alin Teodorescu: PSD s-a comprimat din cauza integrarii in UE, interviu n Cotidianul, 1.02.2007.
7
Pavel Lucescu Chinurile lui Felix, editorial n Cotidianul, 26.02.2007.
95

Deci, dac s-a msurat un procentaj de 3% pe eantion, putem spune cu o probabilitate de
95% c ponderea n ansamblul populaiei este ntre 2% i 4%.

Factor de corecie pentru populaii finite

Iat un fragment de articol din ziarul Tricolorul: Dar, iat, scorurile sondajului real efectuat
de IMAS, aa cum le-am aflat chiar din interiorul PSD. Eantion: 1.257 de persoane. Marj de
eroare: 1,8%.
8


Este aa ceva posibil de fapt? Am vzut c marja de eroare i volumul eantionului sunt legate
printr-o formul ct se poate de simpl i se poate uor calcula: pentru 1257 de persoane se
obine o marj de eroare de 2,7%. Pentru 1,8% ar fi nevoie de un numr de 2963 de interviuri.

i totui ceea ce scrie ziarul nu este ntru totul imposibil pentru c n toate exemplele i
discuiile de pn acum am considerat c populaia este foarte mare fa de volumul
eantionului. Practic am presupus c avem o populaie infinit. Sau mai exact nu am fcut nici
un fel de presupunere despre volumul populaiei. Este ns de bun sim s ne gndim c dac
populaia pe care o cercetm e mic, de exemplu, de 1000 de oameni, cum ar fi la un studiu
despre elevii unei coli, marja de eroare nu poate fi 4% la un eantion de 600, adic
cuprinznd bine peste jumtate dintre toi elevii. Trebuie s existe un factor de corecie care
nbuntete marja de eroare n cazul n care populaia studiat este mic. Acest factor de
corecie este numit factor de corecie pentru populaii finite. El se folosete numai atunci cnd
volumul eantionului este suficient de mare fa de volumul populaiei. Teoretic ns s-ar
putea calcula oricnd, doar c valoarea lui este de obicei foarte aproape de 1. Formula
factorului de corecie este.



n formul N este volumul populaiei i n volumul eantionului. Factorul calculat astfel se
nmulete cu marja de eroare pentru a da marja de eroare corectat.

8
Presedintii PRM si PSD vor semna un protocol de colaborare!, editorial nesemnat, Tricolorul, Anul III, Nr.
643 - 06.05.2006

96

S vedem prima dat dac ar merita calculat factorul pentru eantioanele obinuite, de 1067
de persoane, avnd ca populaie, de exemplu, electoratul Romniei, de aprox 18 milioane de
persoane.

F = sqrt (18000000 1067 / 18000000 1) = 0,9999

Ei bine, acest factor de corecie ar trebui nmulit cu marja de eroare, dar valoarea e att de
apropiat de 1 nct este evident de ce nu se obinuiete aa ceva.

n exemplul dat, raionamentul este ns altul. Dac la un eantion de 1257 de persoane s-a
obinut o marj de eroare de 1,8% nseamn c s-a folosit un factor de corecie i acest factor
a cobort marja de la valoarea de 2,7% care s-ar fi obinut pentru o populaie ct Romnia la
valoarea de 1,8%. Acest factor de corecie este de fapt uor calculabil:

1,8 = F * 2,7
F = 1,8 / 2,7 = 0,67

nlocuind n formula lui F aceast valoare precum i n = 1257, rezult:

0,67 = sqrt (N 1257 / N 1)

De aici rezult:

N = (1257 0,67
2
) / (1 0,67
2
) = 2285.

n concluzie articolul din ziar poate avea dreptate doar n msura n care populaia din care s-a
ales eantionul avea un volum de 2285 de persoane.

97
Capitolul 6. Feluri principale i garnituri sau relaia dintre mai
multe variabile

Voi ncerca i de ast dat s m apropii de tema relaiilor dintre variabile ncepnd cu ce e
mai simplu, reprezentrile grafice, i continund apoi cu tabele de frecvene, indicatori de
relaionare i n fine voi ncheia capitolul acesta cu o tehnic ceva mai avansat, regresia
liniar.

Pn acum n aceast carte m-am ocupat de o singur variabil o dat. Am vzut cum se
reprezint o variabil, grafic sau tabelar, prin frecvenele ei, am calculat indicatori care
descriu o variabil i am testat ipoteze referitoare la o variabil. n cercetarea statistic
problemele care ni se pun se refer ns adesea la relaia dintre dou sau chiar mai multe
variabile. Multe ipoteze care se pun, se refer la efectul unor variabile asupra altora. Ne
intereseaz cum influeneaz vrsta opiunile electorale, ce efect are educaia asupra alegerii
unei anumite mrci de bere. Ne intereseaz ce categorii sociale ascult anumite emisiuni de
radio, pentru a tii ce tip de publicitate ar fi de interes pentru acetia. Vrem s aflm care
dintre studeni vor cu adevrat s emigreze i care vor s-i continue studiile n strintate.
Toate aceste ntrebri necesit studierea unor relaii dintre variabile. De multe ori, dar nu
ntotdeuna, teoria pe care ne bazm ca s construim ipotezele noastre separ variabilele n
cauze i efecte. n statistic efectele le numim variabile dependente, iar cauzele variabile
independente.

Nu este ntotdeuna simplu, exist ns i variabile care snt aproape mereu tratate ca
independente. Aa snt genul, vrsta, zona de reedin (urban sau rural), statutul marital i
altele care n puine ipoteze sunt considerate efecte ale altor variabile. n general aceste
variabile se suprapun peste aa-zisele variabile SES (socio-economic status). Genul sau vrsta
celui intervievat, de exemplu, nu se prea pot considera efecte ale unor alte variabile. Pe de alt
parte, selecia aleatoare poate evidenia faptul c populaia studiat are o distribuie a
genurilor sau vrstelor particular. Aa este de exemplu dac populaia noastr e format din
cei ce i fac cumprturile ntr-un anumit magazin. n acest sens i genul poate fi privit ca un
efect al opiunii de a face aprovizionarea pentru familie. Alte variabile SES, ca de exemplu
venitul snt chiar mai des variabile dependente.

98
Oricum ar fi, cel mai adesea, ntr-o cercetare statistic relaionm variabile numite generic
independente cu variabilele int ale cercetrii, numite de regul variabile dependente.

a. Grafice pentru mai multe variabile.

Reprezentrile grafice pentru mai multe variabile au o palet mai restrns de opiuni la
dispoziie. O parte din reprezentrile uzuale n cazul unei singure variabile nu sunt potrivite n
cadrul graficelor cu mai multe variabile. Astfel, graficele plcint nu se adapteaz prea bine la
mai multe variabile. Nici graficele de linii nu se preteaz la prezentarea relaiilor dintre
variabile. Ele se pot ns folosi pentru a prezenta mai multe variabile una alturi de cealalt.
Reprezentrile folosite cel mai des sunt graficele de bare, care permit chiar vizualizarea
relaiilor.

Cel mai simplu mod de grafic pentru mai multe variabile prezint dezvoltarea paralel a unor
variabile. n exemplul de mai jos avem o reprezentare liniar a dou variabile. Acestea snt
numrul de studeni la 10.000 de locuitori pe ansamblul Europei de Est i de Vest n perioada
1950 2000 (dintr-o cercetare proprie, Reisz, Stock, 2007).



Graficul se preteaz la compararea celor dou trenduri dar nu vizualizeaz cu adevrat relaia
dintre cele dou variabile. Le pune doar una lng cealalt. Dar e frumos oricum, nu?
99

Exist grafice similare i cu bare. S lum i aici un exemplu.

dumineca sambata
ziua
0,00
1,00
2,00
3,00
4,00
M
i
t
t
e
l
w
e
r
t
1. Cate beri ati
baut?
7. Cat de des v-ar
place sa fie
Festivalul Berii?


n graficul de mai sus se prezint un rezultat de la o cercetare efectuat la festivalul berii
Timisoara n anul 2003. Barele albastre reprezint media de beri bute, iar barele verzi un
indicator al frecvenei medii dorite de ctre intervievai pentru festivalul berii. ntrebarea se
punea la ieirea din arealul festivalului. Cele dou medii sunt prezentate difereniat pentru
cele dou zile ale festivalului. Totui graficul nu ne spune nimic despre felul cum au rspuns
la ntrebarea a doua cei ce au but mai multe beri fa de cei ce au but mai puine beri. Pentru
asta e nevoie de o alt abordare a relaiei reprezentate pe grafic.

Graficele care prezint cu adevrat relaii sunt grafice de bare, n care una dintre variabile este
o variabil categorial, sau tratat ca i variabil categorial. Aceast variabil are rolul de
variabil independent. Ea se trece pe axa x, iar variabila sau variabilele dependente apar pe
axa y. De fapt chiar i graficul de mai sus prezenta o relaie. Variabila independent era ziua
de festival. Dar s revenim la problema enunat mai sus, cum e relaia dintre consumul de
bere i frecvena dorit a festivalului

100
Nici o bere 1 - 2 beri 3 - 4 beri 5 beri si mai mult
Bautori
0,00
1,00
2,00
3,00
4,00
7
.

C
a
t

d
e

d
e
s

v
-
a
r

p
l
a
c
e

s
a

f
i
e

F
e
s
t
i
v
a
l
u
l

B
e
r
i
i
?


n grafic sunt prezentate medii ale frecvenei dorite ale festivalului n funcie de numrul de
beri consumate, numr care a fost recodat pe categorii de ctre mine (ntrebarea nu era pe
categorii, ci deschis). S-ar fi putut folosi i alte valori n loc de medie, cum ar fi dispersia,
suma, procentajul peste o anumit valoare, etc. De asemenea valoarea exact se poate
reprezenta sau nu pe grafic, dependent de forma ei, numeric sau nu.

Pe lng faptul c frecvena dorit a festivalurilor berii crete cu numrul de beri bute se mai
observ dou lucruri care in de reprezentrile grafice n general . Anume, c numrul de
categorii de pe axa x este relativ mic i c acestea se citesc ntr-o form ordonat pur i simplu
din obiceiul nostru de a parcurge de la stnga la dreapta orice text i de a impune mental o
ordine chiar i acolo unde aceasta nu exist.

Prima dintre aceste dou observaii este doar parial restrictiv. Acolo unde numrul de valori
este foarte mare ntr-adevr citirea graficului devine anevoioas dar totui numrul de
categorii poate fi crescut destul de mult. Aceasta totui nu prea se face pentru c graficul
construiete de regul barele fr s raporteze numrul de cazuri folosite i ca atare anumite
bare pot fi calculate pe un numr foarte mic de cazuri i pot induce n eroare cititorul. Acest
risc exist desigur i la un numr mai mic de categorii dar este mult diminuat. S vedem un
exemplu de grafic de relaionare cu bare cu un numr mare de categorii:

101
1
3
,
0
0
1
5
,
0
0
1
7
,
0
0
1
9
,
0
0
2
1
,
0
0
2
3
,
0
0
2
5
,
0
0
2
7
,
0
0
2
9
,
0
0
3
1
,
0
0
3
3
,
0
0
3
5
,
0
0
3
7
,
0
0
3
9
,
0
0
4
1
,
0
0
4
3
,
0
0
4
5
,
0
0
4
7
,
0
0
4
9
,
0
0
5
1
,
0
0
5
3
,
0
0
5
5
,
0
0
5
7
,
0
0
5
9
,
0
0
6
1
,
0
0
6
3
,
0
0
7
0
,
0
0
7
3
,
0
0
7
6
,
0
0
7
8
,
0
0
8. Varsta:
0,00
1,00
2,00
3,00
4,00
5,00
1
.

C
a
t
e

b
e
r
i

a
t
i

b
a
u
t
?
1
2
2
0
4
3
2
2
1
3
4
3
2
3
3
2
2
1
2
1
2
1
4
2
1
2
1
2
3
2
3
2
3
2
2
4
3
2
0
2
2
3
2
1
2
1
1 1
3
4
1 1


Graficul conine media de beri bute pe vrste. Informaia prea detaliat i incertitudinea
numrului de cazuri pe categorii fac graficul foarte greu de citit. Recodarea vrstei pe categorii
mai mari duce la urmtorul rezultat, mult mai citibil:

pana la 20 21 - 35 36 - 50 51 - 65 peste 65
Varsta pe categorii
0,00
0,50
1,00
1,50
2,00
2,50
1
.

C
a
t
e

b
e
r
i

a
t
i

b
a
u
t
?


102
Relaia existent dintre vrst i consumul de bere la festival devine astfel mult mai clar i
poate produce o ipotez statistic care merit verificat. Evident graficul nu trebuie ns
considerat ca fiind suficient pentru a trage concluzia la festivalul berii, cu ct un vizitator e
mai btrn bea mai puin bere. Aceast ipotez merit ns testat. Pentru o declaraie de
genul tinerii beau mai mult bere dect btrnii nu exist oricum nici o baz. Nu trebuie nici
o clip uitat c studiul s-a ocupat de festivalul berii, ntr-un an dat, n condiii meteo aa cum
au fost, cu muzica aa cum a fost, i aa mai departe. Toate aceste condiii de mediu fac total
imposibil generalizarea la un consum de bere sau chiar alcool n condiii nespecificate. Ca s
nu mai spunem c de fapt ce am aflat mai exact este nu este c cei tineri au but mai mult
bere ci c vizitatorii mai tineri declar c au but mai mult bere.

Cea de a doua observaie, cea legat de ordinea implicit sau explicit a categoriilor
reprezentate necesit de asemenea o anumit atenie. Bineneles, dac variabila de pe axa x,
cea considerat categorial, este o variabil ordinal sau chiar intervalic sau raional, trebuie
s fim ateni ca ordinea reprezentat a categoriilor s corespund ordinii matematice a
acestora. Dac ns variabila categorial nu are o anume ordine, este o variabil nominal
reprezentarea devine problematic atunci cnd numrul de categorii e mare. La un numr mic
de categorii tentaia de a le privi ca o serie e mult mai mic. n fine, tot ce putem i trebuie s
facem n asemenea cazuri este s atenionm cititorul rezultatelor noastre, respectiv s nu ne
lsm noi nine prini n capcana automatismelor de gndire.

S lsm acum berea i s trecem i la un alt tip de grafic de relaionare cu bare. Cu ajutorul
graficelor cu bare se poate reprezenta i mai bine relaia dintre dou variabile, e drept poate
ceva mai dificil citibil. M refer la grafice care suprapun bare cu dimensiuni proporionale cu
categoriile unor variabile definite de o alt variabil. S vedem ns cum arat aa un grafic
pentru a l putea descrie mai bine.

103
a
g
r
ic
u
lt
u
r
a
a
u
t
o
c
o
n
s
t
r
u
c
t
ii
c
o
n
t
a
b
ilit
a
t
e
in
d
u
s
t
r
ie
in
v
a
t
a
m
a
n
t
s
e
r
v
ic
ii
s
ilv
ic
u
lt
u
r
a
t
r
ic
o
t
a
je
1. In ce domeniu ati lucrat inainte de a intra in
somaj?
0
50
100
150
200
250
29
0
83
0
16 17
11
40
0
29
26
19
50
34
48
31
1
0
0
0
0
58
17
0
19
25.1. Grupe de
varsta
Intre 20 - 29
Intre 30 si 39
Intre 40 si 49
Intre 50 si 59
Peste 60


Graficul face parte dintr-o cercetare care a inclus un sondaj de opinie efectuat pe omeri din
mediul rural din Romania n 2005. n imagine avem relaionarea dintre domeniul n care
persoana a lucrat nainte de a intra n omaj i grupa de vrst. Valorile trecute pe grafic sunt
valori absolute, adic exact numrul de persoane din fiecare categorie. Se vede nu numai ct
de mare este o categorie a axei x, dar i cum se distribuie ea pe grupele de vrst. Un astfel de
graf se numete stacked bar graph, adic grafic de bare stivuite.

O alt form a barelor stivuite reprezint distribuia procentual, extinznd fiecare categorie a
axei x la 100% i prezentnd subcategoriile definite de cea de a doua variabil n procentaje.
Graficul, care ar putea fi mai uor de citit, obtureaz bineneles dimensiunea categoriilor.
Totui aceasta poate fi intuit, prin afiarea procentajelor subcategoriilor din ansamblul
eantionului aa cum se vede n exemplul de mai jos.

104
a
g
r
i
c
u
l
t
u
r
a
a
u
t
o
c
o
n
s
t
r
u
c
t
i
i
c
o
n
t
a
b
i
l
i
t
a
t
e
i
n
d
u
s
t
r
i
e
i
n
v
a
t
a
m
a
n
t
s
e
r
v
i
c
i
i
s
i
l
v
i
c
u
l
t
u
r
a
t
r
i
c
o
t
a
j
e
1. In ce domeniu ati lucrat inainte de a intra in
somaj?
0,0
0,2
0,4
0,6
0,8
1,0
5,18%
0,0%
14,82%
0,0%
2,86%
3,04%
1,96%
7,14%
0,0%
5,18%
4,64%
3,39%
0,0%
0,54%
8,93%
2,14%
6,07%
2,86%
8,57%
5,54%
0,18%
0,0% 0,0% 0,0% 0,0%
10,36%
3,04%
0,0%
3,39%
0,0%
25.1. Grupe de
varsta
Intre 20 - 29
Intre 30 si 39
Intre 40 si 49
Intre 50 si 59
Peste 60


Am prezentat graficele de relaionare cele mai uzuale, nu exist ns restricii, orice grafice
corecte matematic se pot la o adic folosi. Vreau sa repet ns un comentariu pe care l-am
fcut legat de graficele referitoare la o singur variabil. Se zice c o imagine spune mai mult
dect 1000 de cuvinte. Tot ce se poate, dar o imagine este i mult mai puin exact dect cele
1000 de cuvinte, ca atare: prezentai grafice, dar analizai valorile care stau la baza acestora.

b. Tabele de relaionare, Teste de relaionare

Tabelele de relaionare sunt de fapt tabelele care stau la baza graficelor stivuite. Astfel de
tabele au fost gndite iniial pentru variabile categoriale, i snt practice ntr-adevr numai
pentru variabile cu un numr relativ mic de valori, de indiferent ce tip de variabil.
Iat n tabela de mai jos tocmai datele care stau la baza graficelor stivuite prezentate mai
nainte.

105
1. In ce domeniu ati lucrat inainte de a intra in somaj? * 25.1. Grupe de varsta

Valori absolute

25.1. Grupe de varsta
Total
Intre 20 -
29
Intre 30 si
39
Intre 40 si
49
Intre 50 si
59
Peste
60
1. In ce domeniu ati lucrat inainte de a
intra in somaj?
agricultura 29 29 34 0 0 92
auto 0 0 16 0 0 16
constructii 83 26 48 58 19 234
functionar 0 0 1 17 0 18
Industrie 16 19 31 0 0 66
invatamant 17 0 0 0 0 17
servicii 11 3 1 0 0 15
silvicultura 40 50 0 0 0 90
tricotaje 0 12 0 0 0 12
Total 196 139 131 75 19 560


Tabela conine numrul de cazuri care corespund fiecrei corespondene a celor dou
variabile. Aa cum se vede, o celul e definit de categoriile pe rnduri i coloane. Un
exemplu va clarifica cel mai bine aceasta. Dac dorim de exemplu s aflm ci din eantion
care au lucrat n construcii nainte de a intra n omaj sunt din categoria de vrst ntre 20 i
29 de ani, vom cuta coloana aferent acestei categorii de vrst apoi o vom parcurge pentru a
gsi linia care conine valorile celor ce au lucrat n construcii. Valoarea din celula cu pricina
este 83. Deci 83 de persoane din aceast subcategorie au fost intervievate n cadrul cercetrii.

Linia i coloana de total sunt i mai uor de citit. Astfel ultima linie, cea marcat Total
conine numrul de intervievai pe categoriile specificate n capetele de coloan. De exemplu,
196 de persoane pentru categoria ntre 20 i 29 ani, 139 n categoria ntre 30 i 39 ani i
aa mai departe. Ultima coloan, marcat de asemenea Total conine valorile aferente
categoriilor definite n capetele de linii. De exemplu, pentru construcii valoarea este 234.
Volumul total al eantionului se va gsi n colul din dreapta jos al tabelului, la intersecia
liniei i coloanei de total. n cazul cercetrii din care am extras tabelul de mai sus s-au
efectuat 560 de interviuri.

O astfel de tabel ne permite s comparm uor categoriile i subcategoriile. Urmrind numai
coloana i linia de total putem spune astfel c cei mai muli omeri au lucrat n domeniul
construciilor i cei mai muli omeri sunt ntre 20 i 29 de ani. De asemenea putem spune
c numrul omerilor scade pe msur ce categoria de vrst e mai mare. Dac comparm
106
diferitele coloane sau linii ntre ele mai putem face i observaii de forma ntre 20 i 39 de
ani numrul omerilor provenii din silvicultur l depete pe cel al celor ce provin din orice
alt domeniu cu excepia construciilor
9
sau n categoria de vrst ntre 50 si 59 de ani exist
omeri provenii din functionari, probabil din foste CAP-uri i SMA-uri, o categorie care nu
apare la alte grupe de vrst. De asemenea putem stabili cea mai mare categorie, numit i
categorie modal, dup indicatorul de tendin central pentru variabile nominale modul
care e valoarea care apare cel mai des ntr-o distribuie. n exemplul nostru este tocmai cea a
omerilor care au lucrat n construcii i au ntre 20 i 29 de ani.

Toate observaiile de mai sus le-am bazat pe valorile absolute din tabel. Pentru a putea avea
ns o baz de comparaie cel mai adesea tabelele de relaionare conin procentaje pe rnduri i
coloane. Mai jos se afl tabela recalculat coninnd aceste procentaje.

1. In ce domeniu ati lucrat inainte de a intra in somaj? * 25.1. Grupe de varsta





25.1. Grupe de varsta Total
Intre 20 -
29
Intre 30 si
39
Intre 40 si
49
Intre 50 si
59
Peste
60
1. In ce domeniu ati lucrat
inainte de a intra in somaj?





















agricultura Nr. 29 29 34 0 0 92
% linie 31,5% 31,5% 37,0% ,0% ,0% 100,0%
% coloan 14,8% 20,9% 26,0% ,0% ,0% 16,4%
auto Nr. 0 0 16 0 0 16
% linie ,0% ,0% 100,0% ,0% ,0% 100,0%
% coloan ,0% ,0% 12,2% ,0% ,0% 2,9%
constructii Nr. 83 26 48 58 19 234
% linie 35,5% 11,1% 20,5% 24,8% 8,1% 100,0%
% coloan 42,3% 18,7% 36,6% 77,3% 100,0% 41,8%
functionar Nr. 0 0 1 17 0 18
% linie ,0% ,0% 5,6% 94,4% ,0% 100,0%
% coloan ,0% ,0% ,8% 22,7% ,0% 3,2%
industrie Nr. 16 19 31 0 0 66
% linie 24,2% 28,8% 47,0% ,0% ,0% 100,0%
% coloan 8,2% 13,7% 23,7% ,0% ,0% 11,8%
invatamant Nr. 17 0 0 0 0 17
% linie 100,0% ,0% ,0% ,0% ,0% 100,0%
% coloan 8,7% ,0% ,0% ,0% ,0% 3,0%
servicii Nr. 11 3 1 0 0 15
% linie 73,3% 20,0% 6,7% ,0% ,0% 100,0%
% coloan 5,6% 2,2% ,8% ,0% ,0% 2,7%
silvicultura Nr. 40 50 0 0 0 90
% linie 44,4% 55,6% ,0% ,0% ,0% 100,0%

9
Populaia studiului a fost cea a omerilor din mediul rural din Romania.
107





% coloan 20,4% 36,0% ,0% ,0% ,0% 16,1%
tricotaje Nr. 0 12 0 0 0 12
% linie ,0% 100,0% ,0% ,0% ,0% 100,0%
% coloan
,0% 8,6% ,0% ,0% ,0% 2,1%
Total Nr. 196 139 131 75 19 560
% linie 35,0% 24,8% 23,4% 13,4% 3,4% 100,0%
% coloan 100,0% 100,0% 100,0% 100,0% 100,0% 100,0%

S vedem cum se citesc asemenea tabele. Primele indicii snt poziiile celulelor de 100% de
pe ultima linie i ultima coloan. S cutm aceiai celul ca i n exemplul cu valori absolute,
omeri provenii din domeniul construciilor cu vrste ntre 20 i 29 de ani. Gsim
urmtoarea configuraie de celule:

Nr. 83
% linie 35,5%
% coloan 42,3%


Valoarea Nr. este desigur cea pe care am tiut-o deja. Cele dou procentaje de citesc astfel:
35,5% dintre omerii care au lucrat n construcii au ntre 20 i 29 de ani.
42,3% dintre omerii cu vrste ntre 20 i 29 de ani au lucrat n construcii.

Acest citire este cel mai uor de reinut n relaie cu poziia valorii de 100%. Dac aceast
valoare este pe linie, cum e n cazul % linie, evident procentajul e o parte din categoria ce
apare pe linie. i anume partea care e definit de ctre coloana n care apare valoarea.
Valoarea de pe linie este construcii. Deci e vorba de 35,5% dintre cei care au lucrat n
construcii. Ei bine, ce e cu ei? Ei fac parte din categoria care e definit pe coloan, adic au
ntre 20 i 29 de ani.

Procentaje fac categoriile comparabile. Abia prin compararea procentajelor se poate spune ce
e mult i ce e puin n rezultatele statistice ale unui sondaj. Pe de alt parte, procentajele pot
induce n eroare dac sunt calculate pentru categorii foarte mici. S privim i un alt tabel de
relaionare. Tabelul provine dintr-o cercetare efectuat pe populaia intreprinderilor mici i
mijlocii din mediul rural din Romania n 2005. n tabel gsim relaia dintre nivelul de
pregtire i genul patronilor de IMM-uri din mediul rural.

Care este nivelul cel mai inalt de pregatire pe care l-ati absolvit? * Genul
108


Genul
Total masculin feminin
Care este nivelul cel mai inalt de pregatire pe care l-ati
absolvit?
Fara pregatire scolara Nr. 4 0 4
% linie 100,0% ,0% 100,0%
%
coloana
,6% ,0% ,4%
Scoala primara Nr. 7 0 7
% linie 100,0% ,0% 100,0%
%
coloana
1,1% ,0% ,6%
Scoala generala Nr. 16 9 25
% linie 64,0% 36,0% 100,0%
%
coloana
2,6% 1,9% 2,3%
Scoala profesionala /
Liceu
Nr. 298 194 492
% linie 60,6% 39,4% 100,0%
%
coloana
48,0% 41,1% 45,0%
Colegiu / Universitate Nr. 251 208 459
% linie 54,7% 45,3% 100,0%
%
coloana
40,4% 44,1% 42,0%
Studii post-universitare Nr. 45 61 106
% linie 42,5% 57,5% 100,0%
%
coloana
7,2% 12,9% 9,7%
Total Nr. 621 472 1093
% linie 56,8% 43,2% 100,0%
%
coloana
100,0% 100,0% 100,0%


Un exemplu de citire al tabelului ar fi cam aa:

Majoritatea patronilor de IMM-uri din mediul rural snt brbai, acetia reprezentnd 56,8%
din total. Exist totui o categorie educaional, a celor cu studii post-universitare, unde
femeile sunt preponderente, reprezentnd 57,5%.

S vedem cum am gsit valorile din fragmentul de interpretare al tabelului. Am prezentat linia
de total, apoi am gsit c una singur dintre categorii prezint o alt distribuie a genurilor
dect aceasta. Am ales deci pentru raportare % linie pentru categorie Studii post-
universitare i am prezentat n text una dintre valori, cealalt e bineneles complementar
fa de 100% fiimd vorba de distribuia genurilor. Tot aceiai relaie linie / coloan se putea
citi i astfel: Din ansamblul patronilor de IMM-uri intervievai 9,7% au studii post-
109
universitare, categoria aceasta este ns suprareprezentat printre femeile patroni, unde
reprezint 12,9% fa de numai 7,2% dintre brbaii patroni. Pentru aceast prezentare am
folosit procentajele de pe coloane pentru total, femei i brbai aferente categoriei Studii
post-universitare. Mai jos, fragmentul de tabel cu datele:

Nr. 45 61 106
% linie 42,5% 57,5% 100,0%
% coloana 7,2% 12,9% 9,7%

Pentru cine e curios cum de se poate aa ceva, i ce caut oricum aa muli patroni cu studii
post-universitare, iat pe scurt explicaia. n mediul rural snt puine firme, ca atare dintre
acestea cabinetele medicale i farmaciile au o pondere relativ mare. Medicii i farmacitii au
adesea studii post-universitare, rezideniate, specializri, i alte cursuri. De asemenea aceste
profesii includ un numr mare de femei, chiar o preponderen a femeilor, n special la nivelul
mediciilor de familie.

Ca o regul simpl dar nu obligatorie, analiza unui tabel se face n urmtorii pai:
Primele informaii pe care le dm de obicei despre un tabel se refer la linia i/sau
coloana de total.
Apoi dm valorile modale, celulele care conin cele mai multe cazuri.
Urmeaz categoriile distribuite altfel dect cele de total. Acestea se prezint
comparativ cu coloana sau linia de total.
n fine, dac dorim, putem face comparaii ntre linii sau coloane alese.

Aa cum am fcut i n exemplu, cnd prezentm distribuia pe o anumit linie sau coloan
trebuie s o comparm cu distribuia pe linia, respectiv coloana de total. Altfel pim ca acela
care aflnd c 80% dintre cei rnii n accidente de circulaie nu au cartea de identitate la ei, a
hotrt s i ia ntotdeuna cartea de identitate cu el. A socotit el c are de 4 ori mai puine
anse s fie rnit ntr-un accident! Ce a greit individul de fapt? Pi nu a luat n seam c avea
de a face cu dou variabile: rnit n accident sau nu, cu cartea de identitate la el sau nu. Numai
dac am tii ci dintre toi participanii la trafic au cartea de identitate la ei, adic distribuia
de total, am putea trage o concluzie, comparnd cu datele din categoria accidentat. Am
putea atunci descoperi prin comparaie dac persoanele care nu au acte de identitate la ei au
un profil care i predispune la a deveni victimele unul accidente. i bineneles nici atunci
decizia de nu lua actele la el nu i folosete la nimic i asta pentru c posesia actului de
110
identitate i accidentarea snt evenimente totui independente. Modificnd unul dintre ele de
fapt nu l influenm pe cellalt. S-ar putea ns amndou s fie efecte ale unor caracteristici
comportamentale comune. S-ar putea s fie. Sau nu.

nc dou reguli, de ast dat aproape obligatorii, dac nu vrei s fii acuzai de ageamie
statistic. Nici o dat nu raportai ntr-un sondaj procentaje cu mai mult dect o zecimal. i
aa valorile sunt supuse unor erori, prezentnd mai multe zecimale dai impresia c avei nite
informaii mai exacte sau nu nelegei sensul statistic al rezultatelor. De fapt, mai bine ar fi s
nu se raporteze nici o zecimal. Totui cutuma de a raporta o zecimal exist pentru c
rotunjirea sau trunchierea poate obtura o valoare de 0,5 ceea ce e deja destul de mult.

A doua regul: nu prezentai procentaje acolo unde numrul cazurilor e mic. De exemplu, n
cercetarea din care provine tabelul de mai sus s-au nimerit doar patru patroni de IMM-uri care
au declarat c nu au nici o pregtire colar. Faptul c toi acetia snt brbai nu este relevant
i nu e cazul s ascundem numrul mic scriind ceva de genul 100% dintre patronii de IMM
fr pregtire colar snt brbai.

Toate observaiile pe care le-am fcut pe baza tabelelor au un caracter de ipoteze. Ele nu sunt
confirmate n relevana lor statistic. Aceasta ns se poate face. Exist o serie de teste de
relaionare care sunt specifice diferitelor tipuri de variabile i care verific n general ipoteze
de dependen. Astfel de ipoteze au forma general valorile variabilei 1 snt independente de
valorile variabilei 2. Dac reuim s respingem aceast ipotez avem bune motive s
considerm variabilele ca fiind relaionate, dependente una de alta. De obicei putem face chiar
mai mult. Putem, pe baza rezultatelor de test s spunem cam ct de tare este aceast relaie.

Pentru a ajunge ns acolo cred c ar merita s vorbesc puin despre conceptul de
independen statistic. Am pomenit de cteva ori pe parcursul acestei cri despre
independen. Am vorbit despre independen n special cnd am vorbit despre eantionare,
dar a trebuit s menionm conceptul i cnd am comentat istoria statisticii i principalele legi
statistice. De asemenea, vreau s elimin o confuzie din capul locului, conceptul de variabil
independent n relaia cu o variabil dependent se refer la o relaie unde nu exist
independen ntre variabile. Variabilele se influeneaz ntre ele, i care este cea pe care o
considerm independent i care dependent ine de construcia modelului, adic de partea ne-
111
statistic din teorie. Denumirile de independen snt ntmpltor aceleai, conceptele nu au
nici o legtur.

Ce e deci independena evenimentelor aleatoare? Fie prima dat o definiie simpl din teoria
probabilitilor apoi o voi comenta. Un eveniment este independent de un altul dac
probabilitatea ca evenimentul s aib loc nu se schimb dac are loc sau nu cel de-al doilea
eveniment.

S ncepem comentariul iar cu prietenul nostru care umbl fr acte la el. Dup ce a aflat c
probabilitatea ca pe avion s fie o bomb este de 1 la 10.000 iar probabilitatea ca pe avion s
fie dou bombe e 1 la 100.000.000 a hotrt s plece el cu o bomb n concediu.

n exemplul de mai sus avem un eveniment repetat: o bomb pe avion. Probabilitatea de a
avea dou bombe se calculeaz atunci aa:

p
2
= p
1
* p
1

unde p
1
este probabilitatea de a avea o bomb pe avion, deci

p
2
= 1/10.000 * 1/10.000 = 1/100.000.000

Aceast regul de nmulire este regula de compunere a probabilitii evenimentelor
independente. Adic dac existena unei bombe este independent de existena celei de a doua
bombe, deci nici unul din teroriti nu tie de cellalt atunci probabilitatea de a avea dou
bombe pe avion e produsul probabilitilor celor dou evenimente luate separat. Dac tot am
nceput, ce a greit din nou amicul nostru? Pi dac a luat cu el o bomb probabilitatea ca
aceasta s fie pe avion este 1, evident dac trece prin verificare, dar dac e gsit, oricum nici
omul nu ajunge pe avion ci n alt parte. Atunci ns probabilitatea de a avea dou bombe
devine aceiai cu probabilitatea de a avea o bomb pe avion.

p

2
= p
1
* 1 = p
1

112
Regula de nmulire a probabilitilor este valabil la compunerea unor evenimente
independente. Regula general e puin mai complicat. Fie dou evenimente A i B, atunci
probabilitatea ca ele s aib loc de o dat este:

P(A i B) = P(A) * P(B | A)

Unde P(B | A) este probabilitatea evenimentului B condiionat de A, adic probabilitatea s
aib loc B dac are loc i A. Evident, dac A i B snt independente, adic nu se influeneaz
reciproc atunci P(B | A) = P(B) adic probabilitatea c s aib loc B nu se schimb dac are,
sau nu are, loc A.

Conceptul pe care l-am descris mai sus este cel de independen a evenimentelor probabiliste.
n testele statistice lucrurile nu stau ns aa de simplu i aa de transparent. Variabilele
statistice culese empiric nu prezint nici o dat o independen att de perfect ca variabilele
teoretice din probabiliti. Datele pe care le culegem snt ntotdeuna dependente de o grmad
de factori care mai de care mai greu de prevzut. n fine, rezultatul este c orice este legat de
orice n mai mare sau mai mic msur. Testul trebuie s determine dac legtura poate fi
considerat ntmpltoare, un zgomot sau factor de eroare, sau este esenial i necesit
explicaii teoretice.

Principiul de baz al acestei verificri este n majoritatea cazurilor unul care se poate nelege
cel mai bine prin conceptul de tabel de relaionare. Faptul c dou variabile snt
independente nseamn de fapt c modificarea uneia nu afecteaz modificarea celei de a doua.
Asta nseamn c n tabela care le relaioneaz faptul c o variabil se distribuie ntr-un fel nu
poate avea efect pe felul cum se distribuie cealalt variabil. i de aici decurge faptul c
rndurile, respectiv coloanele aferente diferitelor categorii ale uneia din variabile sunt
proporionale, sau pentru c trebuie s gndim statistic, nu se abat prea mult de la
proporionalitate. Deci independena statistic a dou variabile se testeaz de fapt tot prin
testarea egalitii ntre nite proporii, anume proporiile determinate de apartenena la
categoriile unei variabile pe distribuia celeilalte variabile. O s dau un exemplu teoretic
pentru c mi se pare mai simplu: Fie variabila x cu categoriile x
1
i x
2
i variabila y cu
categoriile y
1
i y
2
. O tabel de relaionare ar arta cam aa:

x
113
x1 x2 total
y y1 C11 C12 C1t
y2 C21 C22 C2t
total Ct1 Ct2 Ctt

n tabel C
11
este numrul de indivizi care au valoarea x
1
la variabila x i valoarea y
1
la
variabila y. C
1t
este numrul total de indivizi care au valoarea 1 la variabila y i orice valoare
la variabila x i aa mai departe. Faptul c x i y snt independente ar nsemna, cum am spus
c distribuia lui x nu o influeneaz pe cea a lui y, deci ipoteza de independen se traduce
astfel:

C
11
/ C
12
= C
21
/ C
22
= C
t1
/ C
t2


sau

C
11
/ C
21
= C
12
/ C
22
= C
1t
/ C
2t

Testele care au fost dezvoltate pentru aceste ipoteze depind de tipul variabilelor. Aa cum am
formulat ipoteza mai sus ea e posibil pentru orice tip de variabil, dar metodele calculatorii
permit o mai mare complexitate i rezultate mai difereniate pe msur ce tipul de variabil
este mai numeric (iertat-mi fie folosirea abuziv a comparativului, dar sper c se nelege ce
vreau s spun).

Principalele teste care verific significana relaionrii dintre dou variabile depind de tipul
acestora:

Pentru variabile nominale: Testele Phi i Cramer, coeficientul de contingen
Pentru variabile ordinale: Testele Gamma i Kendall, Coeficienii de corelaie (rho)
al lui Spearman i (tau) al lui Kendall.
Pentru variabile intervalice i raionale: Testele Eta, Coeficientul de corelaie r al lui
Pearson, dar i al lui Spearman i al lui Kendall.
Pentru orice tip de variabil: Coeficientul
2
(Chi
2
) al lui Pearson.

114
Cei mai importani dintre cei de mai sus snt coeficienii de corelaie i coeficientul
2
.
Urmtoarea seciune ne vom preocupa de coeficienii de corelaie, iar apoi n capitolul viitor
vom discuta mai pe larg coeficientul
2
.

Ct despre celelalte teste, urmtoarea regul simpl faciliteaz citirea rezultatelor acestora.
Orice program de statistic care calculeaz astfel de teste le raporteaz mpreun cu un
rezultat de significan care este o valoare cu att mai bun cu ct e mai aproape de 0. Practic
trebuie s citim acest rezultat care este de obicei notat Sig sau S sau chiar significance sau
ceva similar. Acest rezultat este probabilitatea de a face o eroare de tip I, adic s respingem
ipoteza de independen n condiiile n care aceasta este adevrat. Mai simplu spus cu ct
significana testului e mai aproape de 0, ipoteza de independen se poate respinge mai sigur.
Exist aici o problem care nu trebuie ns neglijat. Testele de relaionare pot fi influenate
disproporioat de mult de diferene pe anumite categorii. Aceasta se ntmpl n special cnd
eantionul e suficient de mare dar variabilele testate au un numr mare de categorii. n acest
caz o diferen pe o anumit categorie poate duce la respingerea unei ipoteze care este
adevrat. E o situaie n care o relaie dintre cele dou variabile face ca rapoartele din ipotez
s fie aproape egale cu excepia unuia care ns se abate mult de la celelalte. Rmne n
asemenea cazuri de obicei s continum testarea i prelucrarea eventual separnd una dintre
cele dou variabile n dou astfel nct valoarea care se abate de la regul s fie modelat de
ctre o variabil de sine stttoare, numit de regul variabil filtru.

c. Analiza de varian. Testul ANOVA unifactorial.

n capitolul precendent am prezentat teste care verificau ipoteze de egalitate sau inegalitate a
unor medii sau proporii. ntrebarea de baz era de regul aceiai: sunt dou grupe de
msurtori egale? Putem presupune c diferenele ce apar ntre ele sunt ntmpltoare? Ct de
mare trebuie s fie o diferen dintre medii pentru ca s putem spune cu o oarecare siguran
c o valoare e mai mare dect alta n mod semnificativ? La nceputul capitolului precedent am
prezentat ceva mai pe larg i distribuia normal. Am vzut atunci c ea este caracterizat de
dou valori: media i dispersia (numit i varian). Ca atare, dou grupuri de msurtori care
dau aceiai medie nu sunt neaprat egale. Ele ar putea avea dispersii diferite. De aici pornete
principiul analizei de varian (pe scurt ANOVA de la ANalysis Of VAriance). Cum mai
spuneam, cuvntul varian e un sinonim al cuvntului dispersie rezultat din barbarizarea
termenului din englez, variance.
115
Similar testelor t sau Z, analiza de varian testeaz dac dou sau mai multe grupuri de date
se pot considera c fiind eantioane extrase din aceiai populaie. Puterea metodei vine i de la
faptul c poate verifica egalitatea de varian pentru mai multe grupe. La testele t sau Z am
putut verifica dac sunt egale anumite caracteristici pentru dou grupe de date. Apare ns
suficient de des problema de a verifica dac sunt egale valori pentru mai multe grupuri. O
ntrebare de cercetare care se preteaz pentru analiza de varian trebuie atunci s se refere la
o variabil caracteristic i la un mod de a mpri datele n grupuri, adic o a doua variabil,
care este de obicei nominal sau are oricum un numr mic de valori diferite. De ex: primesc
studenii universitii noastre la fel de muli bani de la prini independent de facultatea la care
studiaz? Sau independent de anul de studiu? Sunt alegtorii diferitelor partide din Romania
egali din perspectiva nivelului de studii sau a veniturilor realizate? Avem aici de fapt patru
ntrebri. S lum ultimul exemplu. Aici caracteristica de verificat este venitul realizat (n
Romnia se calculeaz de regul lunar), iar grupurile care se compar ntre ele sunt
determinate de opiunea de vot. Analiza de varian poate fi considerat ca atare i ca o
metod de a testa relaia dintre dou variabile, una cantitativ i una nominal (sau ordinal,
ca n exemplul cu anii de studiu). Ea are sens, n general cnd variabila nominal are mai mult
de dou valori. Altfel se suprapune n mare msur peste testul t (de fapt valoarea de test a
ANOVA, numit F este n acest caz egal cu t
2
).

Ca de obicei, exist premise necesare pentru a putea aplica analiza de varian. Metoda nu
poate fi folosit chiar oricum. Principial orice form de ANOVA se refer la o variabil
distribut normal. Verificarea normalitii se poate face, de exemplu, cu testul Shapiro-Wilk.
A doua condiie este cea de homoschedasticitate pe grupuri, care va fi explicat mai pe larg la
pag. 128. Dac aceste condiii nu sunt ndeplinite este mai bine s folosim metode non-
parametrice, cum ar fi testele Wilcoxon sau Mann-Whitney dac vrem s comparm dou
grupuri de variabile sau testul Kruskal-Wallis pentru mai multe grupuri de variabile. Aceste
teste vor fi prezentate pe larg n capitolul 7. Trebuie ns spus c ANOVA este o metod
foarte robust, adic nu depinde foarte mult de distribuie att timp ct aceasta nu se abate
prea tare de la normalitate. ANOVA d rezultate bune chiar dac normalitatea este nclcat
n oare care msur. Pe de alt parte absena homoschedasticitii este mai grav i trebuie
tratat cu grij, aa cum se face i la testul t.

116
n cele ce urmeaz o s discutm varianta cea mai obinuit i simpl: ANOVA unifactorial.
Aici variabila care determin grupurile se mai numete i factor, fr prea mare legtur cu
folosirea cuvntului n alte metode statistice, cum ar fi analiza factorial, de exemplu.
Principiul calculatoriu este urmtorul: se calculeaz media variabilei pentru fiecare grup
determinat de ctre variabila factor, adic venitul mediu pentru fiecare grup de alegtori, de
exemplu. Apoi se calculeaz dou metode de estimare a varianei totale, una numit extern i
una numit intern. Valorile obinute se folosesc pentru a calcula testul F (testul lui Fischer),
raportul dintre ele. Am mai pomenit testul F la testarea homoschedasticitii pentru testul t.

Dac grupurile pot fi considerate eantioane independente extrase din aceiai populaie
variana extern (a mediei ntre grupuri) trebuie s fie mai mic dect variana intern a
mediei n grupuri. Aceasta este o consecin a teoremei limit central pe care am mai
pomenit-o n aceast carte. Un exemplu simplu va face metoda mai inteligibil.

Fie trei grupuri de studeni la ciclul de licen mprite dup factorul an de studii. Pentru
fiecare considerm banii de buzunar primii de la familie n sute de lei. Rezult urmtoarea
tabel de date:

An 1. An 2. An 3.
6 5 3
5 10 2
6 6 4
8 8 8
9 3 5

1. Prima dat calculm media pentru fiecare grup. Obinem:
M
1
= 6.8
M
2
= 6.4
M
3
= 4.4
2. Calculm apoi media general:
M = 5.87
3. Calculm suma ptratelor extern, care e de fapt o form de varian a mediilor pe
grupuri nmulit cu numrul de cazuri. Formula este:
SS
B
= n
1
(M
1
M)
2
+ n
2
(M
2
M)
2
+ n
3
(M
3
M)
2
= 16,53
117
unde notaia SS
B
vine din englez de la Sum of Squares Between, iar valorile n
1
, n
2
i n
3
sunt
numrul de cazuri din fiecare grup. Calculm i numrul de grade de libertate df (tot din
englez, degrees of freedom) care e numrul de grupuri minus unul. Aici df
B
= 3 1 = 2.
4. Calculm suma ptratelor intern, care este suma tuturor abaterilor de la medie
calculate pe grupuri. Daca variabila noastra o notm cu An
1
, An
2
i An
3
rezult:
SS
W
=
i
(An
1i
M
1
)
2
+
i
(An
2i
M
2
)
2
+
i
(An
3i
M
3
)
2
= 61,2
SS
W
vine de la Sum of Squares Within. Calculm i un nou numr de grade de libertate df
W

care este numrul de grupuri ori numrul de cazuri pe grup minus unul. df
W
= 3 (5 - 1) = 12
5. mprim fiecare sum de ptrate cu gradele de libertate aferente.
SS
B
/ df
B
= 16,53 / 2 = 8,265
SS
W
/ df
W
= 61,2 / 12 = 5,1
6. Valoarea de test F (Fischer) este raportul acestor dou valori F = 8,265 / 5,1 = 1,621.
Ca regul general, e bine de repetat, valorea testului F are significan cu att mai bun cu
ct e mai ndeprtat de valoarea 1. Valoarea critic de significan 0,05 este 3,68 iar cea de
significan 0,01 este 9,27. Deci, dac F e mai mare dect 9,27 se poate respinge ipoteza de
egalitate cu significan de 0,01 dac valoarea F e mai mare dect 3,68 cu o significan de
0,05. n cazul nostru nu se poate respinge ipoteza nul.

Am introdus datele de mai sus i ntr-un software statistic. Tabela de rezultate reproduce exact
valorile calculate mai sus. Ea arat astfel:

ONEWAY ANOVA
VAR00001

Suma ptratelor df Media ptratelor F Significanta
ntre grupuri 16,533 2 8,267 1,621 ,238
n cadrul grupurilor 61,200 12 5,100

Total 77,733 14


Observm c apar sumele de ptrate, apoi gradele de libertate, rezultatele mpririi sumelor
de ptrate la gradele de libertate i valoarea testului F. Soft-ul ne ajut oferind imediat i
significana exact. Aceasta este 0,238 o valoare insuficient pentru a respinge ipoteza. Care e
deci concluzia? Nu putem respinge ipoteza de egalitate a grupurilor din perspectiva variabilei
testate. n cazul nostru: datele pe care le avem nu sunt suficiente ca s putem stabili c
studenii din ani diferii de studii primesc sume de bani diferite de la familiile lor.

118
Cum am vzut ANOVA e n practic uor de folosit i robust. Soft-ul d toate valorile
necesare, se citete valorea de significan i se poate stabili dac grupurile pot sau nu pot fi
considerate ca fiind eantioane independente obinute din aceiai populaie. Adic dac
variabila testat difer esenial n funcie de variabila factor. Putem consider testul i ca o
metod de verificare a relaiei dintre dou variabile, una normal distribuit, alta nominal.

d. Corelaia simpl i parial

Corelaia Pearson

Corelaia Pearson este o metod de testare a relaiei dintre dou variabile raionale sau
intervalice. Din pcate se folosete uneori n mod abuziv i la variabile ordinale.

Coeficientul de corelaie este o valoare numeric care indic gradul de dependen i direcia
dependenei ntre dou variabile statistice. Dei n general identificat cu matematicianul
britanic Karl Pearson care a analizat i descris metoda pe larg, coeficientul a fost prima dat
introdus de ctre Francis Galton, un statistician (i nu numai) britanic dintr-o generaie
anterioar.

Dat fiind dou variabile x i y, valorile pe care le iau acestea pentru un individ i, x
i
i y
i
,
coeficientul de corelaie r
xy
al lui Pearson se calculeaz astfel:



Formula nu e foarte simpl, exist ns bineneles tot felul de programe pe calculator care tiu
s o calculeze astfel nct btaia noastr de cap nu este s nmulim i s ridicm la ptrat ci s
interpretm rezultatele.

Exist ns i cteva precondiii ale utilizrii coeficientului de corelaie care snt foarte
importante:
Cele dou variabile care se relaioneaz trebuie s fie raionale i distribuite normal,
dac aceasta nu e cazul trebuie folosit un alt indicator de relaionare, de ex. Chi
2

119
Cele dou variabile aleatoare trebuie s aib dispersii finite i nenule. Aceast condiie
e relativ slab fiind considerat practic ndeplinit ntotdeuna.
Coeficientul de corelaie verific numai relaii liniare ntre variabile. Dou variabile
aflate ntr-o relaie neliniar, de exemplu x = sin y, dei se determin complet una pe
alta, vor iei ca fiind necorelate.

S vedem ns ce valori d coeficientul de corelaie i cum se interpreteaz acestea:

Intervalul de valori al coeficientului de corelaie este (-1, +1).

r
xy
= -1 determinare complet negativ. Atunci cnd x crete, y scade.
r
xy
ntre -1 i -0,7 corelaie negativ puternic.
r
xy
ntre -0,7 i -0,3 corelaie negativ medie
r
xy
ntre -0,3 i 0 corelaie negativ slab
r
xy
= 0 nseamn c cele dou variabile nu sunt relaionate
r
xy
ntre 0 i 0,3 corelaie pozitiv slab
r
xy
ntre 0,3 i 0,7 corelaie pozitiv medie

r
xy
ntre 0,7 i 1 corelaie pozitiv puternic
r
xy
= 1 determinare complet pozitiv

Criteriile din tabelul de mai sus snt cele care se folosesc de regul n sociologie. n psihologie
se prefer adesea intervale mai apropiate de origine, o corelaie fiind considerat puternic
chiar de la un coeficient de 0,5 n sus. Oricum trebuie observat c intervalele snt n mare
msur arbitrare i trebuie privite mai mult ca nite indicaii dect ca regul. n practica de
cercetare e mai bine s se analizeze corelaiile comparativ cu ansamblul valorilor de corelare
din cadrul cercetrii. Aceasta este adevrat i referitor la indicatorii de regresie care au o
semnificaie nrudit cu coeficienii de corelaie.

Un exemplu de interpretare cred c este oricum necesar. n tabelul de mai jos se gsete
corelaia dintre vrst patronilor de IMM-uri din Transilvania i cifra de afaceri a firmei,
conform unei alte cercetri efectuate n 2006:


120

12. Care a fost cifra de afaceri a firmei
in 2005?
48. Ce varsta
aveti?
12. Care a fost cifra de afaceri a firmei
in 2005?
Corelaia Pearson 1 ,096(*)
Significan
(bilateral)
,028
N 539 530
48. Ce varsta aveti? Corelaia Pearson ,096(*) 1
Significan
(bilateral)
,028
N 530 980
* Corelatia este significant cu nivelul de 0,05 (bilateral).

Tabelul prezint valorile coeficientului de corelaie, significana acestuia i numrul de valori
utilizate pentru calcul. Prima observaie ce trebuie fcut n cazul acestui tabel e discrepana
mare n numr de rspunsuri la ntrebri. Astfel, se vede c la ntrebarea 12. Care a fost cifra
de afaceri a firmei in 2005? au rspuns 539 persoane, iar la ntrebarea 48. Ce vrst avei?
au rspuns 980 de persoane. Pentru corelaie s-au putut folosi 530 de cazuri, cei ce au rspuns
la ambele ntrebri. De altfel, eantionul final a avut exact 1000 de persoane.

Faptul c puin peste jumtate au rspuns numai la ntrebarea 12. poate duce la bnuiala unei
selecii defazate. Adic, cei ce au rspuns la ntrebare au ceva aparte, o caracteristic
difereniatoare fa de cei care nu au rspuns. Chiar i aa, putem testa dac pentru ei exist o
legtur cu ntre vrst i cifra de afaceri a firmei. Valoarea coeficientului de corelaie este
0,096 deci o valoare foarte mic. Aceasta nseamn c putem linitii considera c cifra de
afaceri a firmei i vrsta patronului nu au o legtur statistic. Bine, bine, dar ce ne facem cu
significana? Am spus doar c aceasta este probabilitatea de a face o eroare de tip I. Adic de
a respinge o ipotez de independen adevrat. i n cazul de mai sus significana este sub
0,05 deci ansa ca s respingem o ipotez adevrat e foarte mic. Ca s nelegem corect cele
dou valori trebuie s separm dou concepte: Ct de tare snt relaionate cele dou variabile?
respectiv Ct de siguri putem fi de aceast relaionare?

Coeficientul de corelaie ne rspunde la prima dintre aceste ntrebri, significana lui la cea de
a doua. S mai lum un exemplu din aceiai cercetare, relaia dintre cifra de afaceri i profitul
net al firmei:

121

12. Care a fost cifra de afaceri a
firmei in 2005?
13. Care a fost profitul net al
firmei in 2005?
12. Care a fost cifra de afaceri a
firmei in 2005?
Corelaia Pearson 1 ,045
Significan
(bilateral)
,394
N 539 368
13. Care a fost profitul net al
firmei in 2005?
Corelaia Pearson 0,045 1
Significan
(bilateral)
0,394
N 368 399

Din tabela de sus se vede c nici ntre cifra de afaceri i profitul net al IMM-urilor nu exist o
corelaie, dar c nici significana nu e prea grozav. Deci ansa de a face o eroare de tip I,
adic de a respinge o ipotez adevrat este mare, de vreo 40%. Asta nseamn c n primul
caz putem spune c exist o corelaie foarte slab ntre cele dou variabile, pe cnd n acest al
doilea caz nu putem respinge ipoteza de independen a variabilelor. Exist n practic vreo
diferen ntre aceste dou interpretri? Da i nu. Ambele ne ncurajeaz s considerm
variabilele ca fiind n mare msur independente. Dac ns significana e bun, adic
apropiat de 0, avem o mai mare ncredere n rezultat, rezultatul e mai sigur.

Ali coeficieni de corelaie

Am vzut mai nainte c coeficientul de corelaie al lui Pearson presupune variabile raionale
sau intervalice. Exist ns i coeficieni care permit relaionarea de variabile ordinale. Cei
mai uzuali snt coeficientul (rho) al lui Spearman i coeficienii (tau) ai lui Kendall, din
care exist trei variante a, b i c. Aceti coeficieni nu fac presupuneri asupra distribuiei
datelor, aa c pot fi folosii nu numai atunci cnd datele nu snt intervalice sau raionale ci i
atunci cnd, dei snt intervalice sau raionale, ele nu snt distribuite normal sau relaia dintre
ele nu este liniar.

Ne vom ocupa acum numai de coeficientul al lui Spearman, numit i coeficientul de ordine
de rang (rank-order), care are avantajul de a avea o form i ca atare i o interpretare foarte
asemntoare cu coeficientul r al lui Pearson.

S vedem formula prima dat, dei i n acest caz este foarte puin probabil s o calculm de
mn:
122



n formul n este numrul de perechi pentru care se calculeaz corelaia. d este diferena
dintre rangul lui x i rangul lui y pentru cte o pereche. Rangul este poziia pe care o are o
valoare x sau y n lista ordonat a tuturor valorilor culese. De fapt, coeficientul lui Spearman
este exact coeficientul lui Pearson la care valorile variabilei snt nlocuite cu rangurile lor. Aa
se elimin problema caracterului lor nenumeric i se folosete numai faptul c snt ordonate.
Rangurile elimin problema diferenei inegale ntre valorile ordonate consecutiv ale
variabilelor ordinale.

Deoarece am vzut c metoda de calcul poate fi interpretat ca un coeficient de tip Pearson al
rangurilor i interpretarea valorilor rezultate din calcul se face la fel. S vedem deci un
exemplu. n tabelul de mai jos avem corelaia dintre viteza de acomodare cu locul de munc
i gradul de satisfacie cu acesta la un grup de absolveni ai seciei de informatic a
Universitii de Vest din Timioara. Ambele variabile snt ordinale. Dei numrul de cazuri e
mic se observ o corelaie cu o significan foarte bun. Ipoteza de independen dintre cele
dou variabile se poate respinge cu o certitudine mai mare de 99%. Nivelul de corelaie nu
este ns foarte puternic, valoarea coeficientului fiind 0,509. Ct de mare este de fapt aceast
valoare ar trebui determinat prin comparaie cu ali coeficieni de corelaie din acelai studiu.




Ct de repede
s-a acomodat
cu jobul
(1,,5)
Este
satisfacut de
jobul actual?
Spearman-Rho Ct de repede s-a
acomodat cu jobul
(1,,5)
Coeficient 1,000 ,509(**)
Sig. (bilateral) . ,000
N 54 54
Este satisfacut de
jobul actual?
Coeficient ,509(**) 1,000
Sig. (bilateral) ,000 .
N 54 54
** Corelatia este significanta cu nivelul de 0,01 (bilateral).

Corelaia parial

123
O problem important a coeficienilor de corelaie aa cum i-am prezentat pn acum este
influena pe care o pot avea alte variabile asupra relaiei studiate. Din cele vzute pn acum
nu am putut aplica principiul ceteris paribus. Adic nu am putut studia efectul unei variabile
asupra alteia pstrnd factorii de mediu constani.

Corelaia parial este o metod de a studia relaia dintre dou variabile controlnd efectul unei
de a treia. Ca de obicei, devine mai uor de neles cu un exemplu. M voi folosi de un sondaj
de opinie fcut n judeul Arad, att n mediul rural ct i urban, pentru a studia consumul
cultural. n urmtorul tabel apare corelaia (Pearson) dintre numrul de cri cumprate anual
i vrst:



I2. vrsta:
Q15. n
medie, cte
carti
cumparati
pe an?
Corelaie Pearson I2. vrsta: Coeficient 1,000 -,212(**)
Sig. (bilateral) . ,000
N 594 594
Q15. n medie, cte
carti cumparati pe
an?
Coeficient -,212(**) 1,000
Sig. (bilateral) ,000 .
N 594 595
** Corelatia este significanta cu nivelul de 0,01 (bilateral).

Corelaia d un rezultat ct se poate de clar: cu ct vrsta e mai mic numrul de cri
cumprate anual e mai mare. Analiznd valorile din tabel gsim o corelaie negativ, de
putere mic, dar significan foarte bun. ntrebarea pe care putem s ne-o punem n acest caz
este ns dac efectul e dat chiar de vrst sau exist variabile mediatoare n acest lan cauzal.
Fiind vorba de o tem de consum cultural este normal s studiem care e de fapt influena
nivelului de pregtire, variabila care are de regul efectul cel mai mare asupra consumului
cultural.

Variabile de control

I2. vrsta:
Q15. n
medie, cte
carti
cumparati
pe an?
I4. nivel de pregatire: I2. vrsta: Corelatie 1,000 -,087
Sig. (bilateral) . ,034
124
Grade de libertate 0 591
Q15. n medie, cte
carti cumparati pe an?
Corelatie -,087 1,000
Sig. (bilateral) ,034 .
Grade de libertate 591 0

ntr-adevr controlnd efectul nivelului de pregtire, efectul vrstei se diminueaz de la o
corelaie de peste -0,2 se ajunge la un nivel de sub -0,1. Deci efectul sesizat al vrstei nu este
independent de nivelul de pregtire. Faptul c significana a rmas bun ne asigur importana
rezultatului. Tinerii avnd n general mai mult educaie dect vrstnicii, efect al expansiunii
nvmntului n ultimele dou decenii, ajung s i cumpere mai multe cri. Pe de alt parte
discrepana dintre rezultate nu este att de mare nct s nu putem totui spune c tinereea are
un efect, foarte mic dar semnificativ, asupra cumpratului de cri chiar n condiiile
controlrii nivelului de pregtire.

Am analizat corelaiile pariale dup aceiai metodologie pe care o folosim i pentru
corelaiile simple, fie ele Pearson sau Spearman. i e corect aa. Corelaiile pariale snt
corelaii de tip Pearson, aceasta nseamn c ele verific de regul relaii liniare ntre variabile
intervalice sau raionale (n general variabile cantitative) distribuite normal. De aici provine o
premis important, corelaia parial trebuie analizat n relaie cu corelaia Pearson i nu cu
alte forme de corelaii.

Ca atare, n exemplu am forat un pic metoda. i anume, am folosit o variabil de control
ordinal. Celelalte dou variabile n cauz snt raionale i se pot presupune a fi distribuite mai
mult sau mai puin normal. Verificarea normalitii se poate face de fapt cu un test, testul
Kolmogorow-Smirnow, dar de regul nu este necesar pentru a accepta rezultatele unei
analize corelaionale. Variabila de control are ns un cu totul alt rol n felul n care se
calculeaz corelaia parial. Corelaia parial nu este o corelaie de trei variabile.
Utilizarea variabilelor ordinale pe post de variabile de control, dei nu ntru totul corect este
foarte des fcut i de fapt acceptabil.

e. Regresia liniar simpl i multipl

Analiza de regresie este o metod statistic considerat n general a fi ceva mai avansat. i
aceasta, n special pentru c presupune o serie de condiii ce se impun datelor. n sine metoda
este destul de uor de aplicat i de analizat fiind practic un pas mai departe n ordinea
lucrurilor pornind de la corelaia Pearson. Regresia liniar analizeaz de asemenea relaii
125
liniare ntre variabile cantitative distribuite normal, dar pe lng puterea relaiei ncearc s
traseze de fapt chiar forma acesteia. Modelul regresiei liniare presupune existena unei relaii
de cauzalitate ntre o variabil aa-zis dependent i una, sau mai multe, variabile
independente care o influeneaz pe cea dependent. Metoda ncearc s gseasc ct de mult
determin modificarea unei variabile modificarea celeilalte i ct din modificarea unei
variabile e explicabil prin modificarea celeilalte.

Pentru a ne apropia ct mai corect de problema ce i-o pune analiza de regresie, cel mai bine
ar fi s lum un set de date i s urmm pas cu pas construirea regresiei liniare. Vom
exemplifica bineneles pentru nceput ntregul demers pentru regresia liniar simpl, adic cu
o singur variabil independent. Vom folosi o relaie ct se poate de clar, cea dintre numrul
de studeni la 10.000 de locuitori i produsul intern brut pe cap de locuitor. Datele provin din
diferii ani (de fapt anii 1950 - 2000) din aproape toate rile europene (25 de ri) i au fost
colectate pentru un studiu bazat tocmai pe diverse tipuri de ecuaii de regresie (Reisz, Stock,
2006).

Primul pas ntr-o analiz de regresie, numit uneori excesiv de pretenios i metoda grafic
este reprezentarea relaiei dintre cele dou variabile ca un nor de puncte i ncercarea de a
construi ipoteze pe baza efectului pur vizual. Graficul de mai jos este acest nor de puncte
pentru cazul nostru.

126
0 5000 10000 15000 20000 25000 30000
GDP
0,00
100,00
200,00
300,00
400,00
500,00
600,00
s
t
u
d
p
e
r
1
0
0
0
0

Ce putem observa este c valori mai mari ale numrului de studeni la 10.000 locuitori par a
se asocia cu valori mai mari ale produsului intern pe cap de locuitor. Asocierea se poate
presupune a fi oarecum liniar. Graficul e dominat de un grup compact de puncte care se
grupeaz asemntor cu o linie. Pe lng acest grup exist ns i multe puncte care se prezint
oarecum disparat de rest. Rolul modelului de regresie este s descrie matematic linia
principal i s determine cam ct din relaie dintre cele dou variabile se regsete n aceasta
i ct e de fapt cuprins n cazurile excepionale. Altfel, metoda ncearc s determine ct e
regularitate liniar n relaia dintre cele dou variabile.

Ideea e de a trasa o dreapta pe graficul de puncte de mai sus astfel nct ea s fie ct mai
apropiat de toate punctele reprezentate. Aceast apropiere de toate punctele e tocmai
problema major pe care o ridic regresia.


127
5000 10000 15000 20000 25000
GDP
0,00
100,00
200,00
300,00
400,00
500,00
s
t
u
d
p
e
r
1
0
0
0
0




n graficul de mai sus apare acelai nor de puncte, de ast dat cu o linie trasat pe poziia
dreptei de regresie. Ca orice dreapt i aceasta are o ecuaie de forma urmtoare:

S = b
0
+ b
1
* GDP

GDP e desigur valoarea x a dreptei, iar S este valoarea de pe axa y pentru dreapt. Valoarea S
se dorete s fie un fel de aproximare a valorii studper10000. Este o aproximare pentru ca aa
cum spuneam, S se determin astfel ncit s fie ct mai aproape de punctele norului.

Desigur punctele de pe dreapt aferente valorilor variabilei GDP nu au cum sa fie egale cu
punctele potrivite cu valorile Studper10000. Dac ar fi egale, ar iei tocmai norul de puncte i
nu o dreapt. Fiecare din punctele din nor difer de punctele de pe dreapt printr-o abatere.
Deci

Studper10000 S = abatere, adic, nlocuind formula dreptei care determin S avem

Studper10000 (b
0
+ b
1
* GDP) = abatere
128

Studper10000 = b
0
+ b
1
* GDP + abatere

Dat fiind c ecuaia de mai sus trebuie s fie satisfcut pentru toate valorile msurate ea se
traduce de fapt ntr-un numr att de mare de ecuaii cte perechi de msurtori exist. Dac
notm cu indici i aceste perechi rezult formula:

Studper10000
i
= b
0
+ b
1
* GDP
i
+ abatere
i


Aceast ultim form este ceea ce n general numim ecuaia de regresie. n aceast ecuaie
Studper10000, GDP i abatere snt variabile aleatoare, iar b
0
i b
1
pur i simplu numere, adic
aa-numite valori scalare. Studper10000 se numete de obicei variabil int sau variabil
dependent, GDP este pe poziia numit regresor, variabil explicativ sau independent.
Modelul presupune de fapt c variabila independent se repercuteaz cauzal asupra variabilei
dependente i felul cum ea o cauzeaz pe aceasta este unul modelabil liniar, adic n practic,
apropiat de o linie. Abaterea se mai numete uneori i reziduu sau eroare.

n cazul unei cercetri, valorile variabilelor, att cea dependent ct i cea independent snt
cunoscute. Ele rezult din msurtori, indiferent de ce tip ar fi acestea. Ceea ce trebuie
calculat snt coeficienii ecuaiei, adic coeficienii dreptei de regresie, valorile b
0
i b
1
.
Coeficienii acetia trebuie gsii n aa fel nct abaterea s fie ct mai mic.

Abaterea care se minimizeaz trebuie s se refere la toate punctele. De aceea prima idee ar fi
s minimizm suma tuturor abaterilor. tim deja c asta nu e o idee bun, de cnd am calculat
dispersia. i anume, nu e o idee bun pentru c abateri pozitive i negative se atentueaz i
ceea ce dorim noi este ca abaterile s fie ct mai mici n valoare absolut. De aceea cel mai
bine este s ncercm s minimizm suma ptratelor abaterilor. Metoda care se bazeaz pe
acest principiu este una dintre cele mai importante n statistic i se numete de regul
metoda celor mai mici ptrate. n englez se zice ordinary least squares i de aceea cel mai
adesea se prescurteaz cu OLS. Metoda e surpinztor de veche, fiind publicat la nceputul
secolului al nousprezecelea n mod independent de ctre americanul Robert Adrain (1808),
Gauss (1809) i Legendre (1805). Gauss a fost ns cel care a enunat teorema care ne asigur
de faptul c estimarea dat de metoda celor mai mici ptrate este cea mai bun estimare
liniar nebiasat a dreptei de regresie. O asemenea estimare se mai numete BLUE (best liniar
129
unbiased estimate). Deoarece teorema a fost demonstrat mai trziu de ctre statisticianul rus
Andrei Markov, ea poart n general numele de teorema Gauss-Markov.

Metoda OLS este ns destul de pretenioas din punct de vedere al condiiilor necesare pentru
ca ea s fie aplicabil i eficient. Condiiile, care se numesc de regul condiiile Gauss-
Markov snt urmtoarele:

Variabilele aleatoare abatere
i
au media 0.
Variabilele aleatoare abatere
i
au o dispersie finit egal pentru toi indicii i. Aceasta se
numete homoschedasticitate (sau omogenitate a dispersiei).
Variabilele aleatoare abatere
i
snt necorelate ntre ele. Condiia se mai numete absena
autocorelaiei.

Prima dintre condiii este nesemnificativ. La urma urmei dac media variabilelor abatere
i
are
fi nenul s-ar putea aduga aceast valoare la termenul liber al ecuaiei i abaterile s-ar aduce
astfel la media nul. Celelalte dou condiii pot fi uneori greu de ndeplinit n cercetri cu date
reale. Cu toate acestea, metod OLS se folosete chiar i n cazurile n care condiiile Gauss-
Markov nu snt perfect ndeplinite.

Condiia de homoschedasticitate se poate testa cu testul Breusch-Pagan. Dac se aplic OLS
n condiii de heteroschedasticitate de obicei coeficientul de corelaie r al lui Pearson (i
coeficientul de determinare R
2
despre care vom vorbi n curnd) pot fi subestimai. Aceasta e
mai puin grav dect supraestimarea. n practic s-ar putea s nu recunoatem nite relaii
existente dar e puin probabil s gsim ceva acolo unde nu e nimic. Altfel spus ipoteza de
independen ntre variabilele din ecuaia de regresie este mai greu de respins n condiii de
heteroschedasticitate dect ar trebui s fie.

Condiia de absen a autocorelaiei se testeaz cu testul Durbin-Watson
10
. Problema
autocorelaiei abaterilor este cel mai adesea prezent n cercetrile cu serii de timp, adic cu
valori ale unor variabile care snt msurtori ale aceluiai fenomen n diferite momente de
timp. Abaterile care rezult din ecuaii cu valori pentru aceiai indivizi n diverse momente de

10
Ca i n cazul Breusch-Pagan i pentru testul Durbin-Watson, consider c modul de calcul i interpretare a
acestor teste depete cadrul unui manual introductiv de statistic. Important este cunoaterea numelui testului
pentru ca la nevoie s fie posibil documentarea. Iar ca regul general, citirea valorii de significan a testului
pe care o dau aproape toate soft-urile statistice poate da o indicaie bun de interpretare.
130
timp au toate ansele s prezinte autocorelaii. Autocorelaia duce de obicei la supraevaluarea
significanei testelor, de exemplu al testului t. Exist o serie ntreag de variante de rezolvare
ale acestei probleme. Fiecare dintre ele are ns dezavantaje. Cercetri recente au ajuns la
concluzia c folosirea metodei OLS rmne de preferat multor variante mai complicate de
definire sau/i rezolvare a regresiei liniare. Pentru a avea ncredere n rezultatele date de
metoda OLS n condiii de autocorelaie a abaterilor, se impun o serie de alte condiii asupra
variabilelor.

S vedem deci care snt rezulatatele regresiei liniare i cum se citesc ele. Fie deci ecuaia de
regresie pe care am prezentat-o mai sus. S vedem rezultatele metodei OLS i apoi s le
explic pas cu pas.


Model R R-Patrat Eroarea standard a estimatorului
1 ,728(a) ,530 78,75713

Coeficienti
Model
Coeficienti nestandardizati Coeficieni standardizati
T Significanta B Eroarea standard Beta
1 (Constanta) -7,664 5,143 -1,490 ,136
GDP ,016 ,000 ,728 35,052 ,000
a Variabila dependenta: studper10000

Tabelele de mai sus snt o parte a rezultatelor metodei OLS. De obicei se mai raporteaz i
valori intermediare cum ar fi chiar sumele de ptrate calculate i altele.

Prima tabel ne precizeaz ct de puternic este legtura dintre cele dou variabile din ecuaie.
Coeficientul R este chiar coeficientul de corelaie al lui Pearson. Valoarea este n cazul nostru
o valoare care desemneaz o corelaie destul de puternic, 0,728. Acest coeficient se ridic la
ptrat i se obine R
2
= 0,530, coeficientul de determinare. Coeficientul acesta reprezint
procentul din modificarea variabilei int care se poate explica prin modificare variabilei
regresor. n cazul nostru am citi cam aa: 53% din variaia numrului de studeni la 10,000 de
131
locuitori se explic prin variaia produsului intern brut pe cap de locuitor
11
. Deci, cu ct R
2
e
mai mare, regresorii au un efect mai mare asupra variabilei dependente. Ca efect al
intervalelor de evaluare a coeficientului de corelaie, o regresie este puternic dac R
2
e mai
mare dect 0,5 (corespunztor unui R mai mare de 0,7 ridicat la ptrat). De fapt, valorile
trebuie i de aceast dat privite n contextul cercetrii practice. Dac n general n teme de
natur psihologic chiar i un R
2
de 0,3 e considerat bun, n econometrie, unde relaiile dintre
indicatori se supun unor reguli mai simple, valori mari, de peste 0,9 nu snt chiar o raritate.

Al doilea tabel conine coeficienii de regresie, numii adesea b sau B. Coeficienii b snt cei
din ecuaia de regresie propriu-zis. Deci pe baza tabelei putem spune c:

Studper10000
i
= -7,664 + 0,012 GDP
i
+ abatere
i

sau, c

S
i
= -7,664 + 0,012 GDP
i


este ecuaia dreptei de regresie. Pentru fiecare dintre aceti coeficieni se propune i o ipotez
de forma: coeficientul b este nul ceea ce echivaleaz cu a spune regresorul nu are nici un
efect asupra variabilei int. Pentru aceast ipotez se efectueaz testul t i se d n tabel
valoarea testului i significana lui. Vedem c significana coeficientului lui GDP este foarte
bun (testul t d peste 35), ns significana coeficientului termenului liber nu e aa grozav (t
= -1,49). Deci acest coeficient al termenului liber este ceva mai nesigur.

Coeficientul lui GDP se poate citi astfel. Dac valoarea GDP crete cu o unitate, numrul
studenilor la 10000 de locuitori crete cu 0,012 uniti. Desigur exprimarea aceasta sun
foarte mecanicist i nu trebuie neleas altfel dect ca o modelare, sau poate chiar mai vag, ca
o metafor a relaiei dintre variabile. Totui vom vedea c interpretarea coeficienilor de
regresie, precum i a coeficientului de determinare, ne poate da indicaii despre puterea cu
care influeneaz diferite variabile independente variabila dependent a unei cercetri.


11
n cercetrile mele pe aceast tem, rezultatul a fost pn la urm mai nuanat, varianta de mai sus nelund n
seam eterogeniti locale existente n felul cum variabilele educaionale i economice se influeneaz reciproc.
Am ales s prezint aici ns forma cea mai simpl, scopul fiind la urma urmei unul educaional. Deci, nu m
citai cu rezultatul din exemplu, legtura dintre numrul de studeni i produsul intern brut e mai complicat dect
pare aici!
132
Coeficientul Beta din tabel este o valoare standardizat care ia n seam valoarea medie i
dispersia variabilei independente. Aceasta va fi interesant, cum vom vedea, n special la
regresia multipl pentru c va permite compararea efectelor mai multor variabile
independente care evident au medii diferite.

Regresia multipl extinde metoda prezentat mai sus la un numr mai mare de variabile
independente care se repercuteaz asupra aceleiai variabile int. Voi descrie n continuare i
aceasta pentru ca apoi s vedem n continuare cum se pot analiza acestea.

Pentru a exemplifica regresia multipl o s folosesc o extindere a aceleiai probleme. Regresia
multipl difer de cea simpl prin numrul regresorilor. Deci, dac n exemplul precedent am
avut un singur regresor al crei efect asupra variabilei int ne interesa, n cazul unei regresii
multiple numrul regresorilor va fi mai mare. Pentru a pstra lucrurile ct mai simple posibil
s lum doi regresori. n exemplul simplu, inta era numrul de studeni la 10.000 de locuitori
i regresorul era produsul intern brut pe cap de locuitor. S lum acum un al doilea regresor,
numrul de organizaii neguvernamentale internaionale active n anul studiat n ara cu
pricina.

Motivaia acestei extinderi a modelului este urmtoarea: teoriile globalizrii ale colii neo-
instituionaliste de la Stanford (John Meyer, Francesco Ramirez, i alii) gsesc c
expansiunea nvmntului are loc peste tot n lume indiferent de nivelul de dezvoltare
economic. Mai mult, ei gsesc c n a doua jumtate a secolului 20, expansiunea
educaional a avut loc peste tot n lume, indiferent dac economia era n cretere sau n
descretere. De aici ei ajung la concluzia c dezvoltarea nvmntului nu are legtur cu
dezvoltarea economic. Ipoteza lor este ns aceea c dezvoltarea nvmntului este un
epifenomen al globalizrii i ca atare ar trebui s depind de un indicator care msoar nivelul
de globalizare al unei ri. Tot ei propun numrul de organizaii non-guvernamentale
internaionale active la un moment dat ntr-o ar ca un astfel de indicator. Acest indicator este
notat de regul cu ingo (de la international non-governmental organizations).

Am avea atunci o ecuaie de regresie n care avem doi regresori, unul indicnd dezvoltarea
economic i un altul gradul de globalizare. Ecuaia este urmtoarea:

Studper10000
i
= b
0
+ b
1
* GDP
i
+ b
2
* ingo
i
+ abatere
i

133

Observm c logica formulei rmne aceiai, apare un termen n plus, cu coeficientul de
regresie b
2
i variabila de regresie ingo
i
. Statistic vorbind, pn acum efectul pe care l avea
ingo asupra variabilei int nu era evideniat separat, deci fcea parte din ansamblul de efecte
care se adun n abatare pentru a forma o variabil aleatoare. Desigur, aa cum vom vedea o
parte a efectului variabilei ingo era de asemenea inclus implicit n efectul produsului intern
brut pe cap de locuitor. Deci abaterea din noua ecuaie de regresie nu mai conine aceiai
lucru ca i abaterea din ecuaia simpl, ea este curat de efectul pe care l-ar putea avea
ingo. Ct de mare este acest efect ne poate spune o comparaie ntre ecuaia de regresie simpl
i cea multipl.

Pn acolo, cteva remarci. Condiiile pe care le-am specificat pentru ca metoda celor mai mici
ptrate s fie funcional rmn aceleai. Apare ns un fel de condiie suplimentar. Aceasta
nu influeneaz eficiena metodei dar schimb modul cum se citesc rezultatele. Ea se refer la
coliniaritatea regresorilor, adic independena lor. n esen este de preferat ca regresorii s fie
independeni. Dac snt independeni efectele lor asupra variabilei int snt pur i simplu
nsumate. Dac ns nu este aa, i de obicei n lumea real nu este aa, atunci efectul sumei
regresorilor este cu att mai mic fa de suma efectelor regresorilor cu ct regresorii snt mai
corelai ntre ei. Poate sun puin neclar, ce vreau eu s zic de fapt. Fiecare regresor ar putea
aprea ntr-o regresie simpl, de exemplu, una cu produsul intern brut, ca i n exemplu, i una
cu organizaiile non-guvernamentale internaionale. Fiecare dintre acestea dou ar da un
anume nivel de explicare a variaiei numrului de studeni, o valoare specific a R
2
. n
exemplul nostru, aceast valoare este ceva peste 50% pentru ambii regresori (vezi Reisz,
Stock, 2006). Dac cei doi regresori ar fi independeni, sau aproape independeni, regresia
multipl ar trebuie s dea o valoare R
2
de 100%!. Este ns de bun sim s observm c o ar
este cu att mai ncadrat n societatea global cu ct este mai dezvoltat economic. Deci cei
doi indicatori trebuie s fie corelai destul de puternic. De fapt, coeficientul de corelaie este
de 0,83 i relevant cu o significan de 0,000. Fiind o corelaie att de mare e de bnuit c
adugnd la regresia simpl ce verific efectul produsului intern brut i efectul globalizrii
rii nu se schimb mare lucru. O astfel de situaie se numete multicoliniaritate sau, dac
corelaia e aproape perfect, redundan.

S vedem rezultatele ecuaiei noastre de regresie multipl:


134
Model R R-Patrat Eroarea standard a estimatorului
1 ,753 ,566 76,00829

Coeficienti
Model
Coeficienti nestandardizati Coeficienti standardizati
T Significanta B Standardfehler Beta
1 (constanta) -4,468 5,123 -,872 ,383
GDP ,009 ,001 ,413 11,559 ,000
ingo ,059 ,006 ,376 10,528 ,000
a Variabila dependenta: studper10000

S analizm acum rezultatele. Prima tabel ne d indicatorii de corelaie (R) i determinare
(R
2
) dintre variabila int i grupul de regresori luat n ansamblu. Important este aici citirea
coeficientului de determinare. Exact ca i n cazul regresiei simple coeficientul de determinare
ne spune ce procent din modificarea variabilei int se explic prin modificarea variabilelor de
regresie. n cazul nostru observm c R
2
-ul regresiei simple era de 0,530, iar cel al regresiei
multiple cu adugarea indicatorului de globalizare este de 0,566. Diferen, numit uneori i
R
2
c
sau modificare a coeficientului de determinare (c vine de la change, modificare sau
schimbare) este foarte mic, de 0,036. Pentru a analiza aceast modificare este ns
obligatorie analiza corelaiei regresorilor. n cazul nostru, cum am mai spus, regresorii snt
puternic corelai. Dac regresorii ar fi fost independeni, valoarea R
2
c
ar fi fost interpretabil
ca efect al indicatorului de globalizare. Dat fiind corelaia existent valoarea R
2
c
este ctigul
de informaie pe care l adaug regresorul suplimentar.

S mergem mai departe i s studiem mai de aproape tabela a doua, cea cu coeficienii de
regresie. Din ea rezult c ecuaia de regresie are forma:

Studper10000
i
= -4,468 + 0,009 GDP
i
+ 0,059 * ingo
i
+ abatere
i

Valoarea coeficientului GDP nu difer radical de valoarea pe care acest coeficient o avea n
cazul regresiei simple, aceasta fiind explicabil tot prin corelaia mare dintre regresori. Din
ecuaia de mai sus putem extrage urmtoarele dou declaraii:

135
Dac produsul intern brut pe cap de locuitor crete cu un dolar, numrul studenilor la
10.000 de locuitori crete cu 0,009.
Dac numrul organizaiilor non-guvernamentale internaionale active ntr-o ar
crete cu una, numrul studenilor la 10.000 de locuitori crete cu 0,059.

Desigur, cum am mai scris i mai sus, exprimate aa relaiile par imposibil de simple i
directe. i desigur o citire att de naiv ar fi greit. Totui pn la urm, considernd
cauzaliti complexe i reele de influen evident indirecte i complicate rezultatul acesta
este. Un produs intern brut pe cap de locuitor mai mare cu un dolar e legat de un numr de
studeni la 10,000 de locuitori mai mare cu 0,009.

Ne-am dori s comparm coeficienii de regresie ntre ei. Este ntr-adevr 0.059 mai mare
dect 0,009? Care dintre cele dou variabile de regresie are efectul mai mare n realitate?

Pentru aceasta se poate folosi un indicator numit puterea unui regresor care se calculeaz
foarte simplu ca produs la coeficientului de regresie cu media variabilei regresor. La urma
urmei, ne intereseaz care e valoarea medie numeric ce se repercuteaz asupra variabilei
int. n exemplu avem:

Media Coeficientul Puterea
GDP 9740,97 0,009 87,66
Ingo 1139,7700 0,059 67,24

Observm c citirea pur i simplu a coeficienilor de regresie b ne-ar fi dus puin n eroare.
Coeficientul indicatorului de globalizare era de vreo 6 ori mai mare dect coeficientul
indicatorului economic. Aceasta ar fi putut s ne duc cu gndul la un efect mult mai mare al
acestuia. Pentru a putea ns compara cu adevrat efectele nu trebuie uitat valoarea n sine a
indicatorilor. i ntr-adevr media indicatorului economic este de aproape 9 ori mai mare
dect media indicatorului de globalizare. nmulind, rezult puterile relative i rezult c
numrul de studeni este determinat n mai mare msur de creterea economic dect de
globalizare. Trebuie s observm i faptul c cele dou puteri snt totui destul de apropiate.
Ele au acelai ordin de mrime. Diferena dintre ele se poate da, de exemplu, procentual.
Astfel putem spune c efectul creterii economice este cu aproape 30% mai mare dect efectul
globalizrii n modelul de regresie liniar de mai sus sau invers, puterea efectului globalizrii
136
asupra expansiunii nvmntului superior este aproximativ trei-sferturi din puterea efectului
creterii economice. Evident, modelul n sine, explic, aa cum am vzut, numai jumtate din
variaia variabilei int.

Tabelele ecuaiei de regresie ne ofer i ele un indicator comparativ apropiat de puterea unei
variabile independente, valorile Beta. Aceste valori reprezint coeficieni standardizai pentru
variabilele aleatoare, coeficieni care iau n considerare valoarea medie a variabilelor
independente, dar i dispersia lor. n exemplul nostru valorile Beta au fost: 0,412 pentru GDP
i 0,376 pentru ingo reproducnd destul de ndeaproape calculele noastre de mai sus. Desigur
o decizie rapid asupra importanei regresorilor ntr-o ecuaie de regresie multipl este mai
uor de luat folosind ceea ce raporteaz softul statistic. Pe de alt parte puterea regresorului
aa cum am calculat-o mai sus este un concept mai simplu i poate duce ca atare la mai puine
confuzii.

S rezumm acum avantajele i dezavantajele regresiei multiple. Regresia multipl are ca
principal avantaj posibilitatea comparrii efectelor unor variabile (definite n model ca
regresori) asupra variabilei int. Pentru asta lum n seam gradul lor de corelare reciproc,
s calculm modificarea coeficientului de determinare i puterile regresorilor.

Al doilea mare avantaj este c regresia multipl poate cura abaterile de efecte care nu pot
fi considerate pur i simplu aleatoare. Dac avem un singur regresor tot ce mai are efect
asupra variabilei int este mpins n factorul abatere (sau eroare). Aceasta poate duce la
nendeplinirea condiiilor Gauss-Markov, cele cu lipsa autocorelrii i a heteroschedasticitii.

Deci o regresie multipl poate avea efecte benefice asupra modelului. l poate face mai exact,
prin creterea coeficientului de determinare, i l poate face i mai uor rezolvabil matematic.
Atunci ar trebui s tot adugm regresori pn ajungem s descriem toat variaia variabilei
int i gata: am descris complet problema! Din pcate aa ceva n lumea real nu se prea
poate i n plus regresia multipl are i anumite dezavantaje care ne determin s o folosim cu
oarecare msur.

Necazul cel mai mare cu regresia multipl este supraspecificarea modelului. Nu e chiar tragic
dar poate duce la anumite incurcturi dac nu este interpretat cu grij. Supraspecificarea
nseamn de fapt includerea unui numr prea mare de regresori. n astfel de situaii analiza
137
relaiilor dintre regresori nu se mai poate face att de simplu ca n cazul exemplului nostru n
care dei exista multicoliniaritate, erau numai doi regresori.

Un efect al supraspecificrii este desigur creterea anselor de multicoliniaritate. Pe de o
parte, avnd muli regresori exist anse mai mari ca unii dintre ei s fie puternic corelai cu
alii. Pe de alt parte, mai apare i posibilitatea ca un regresor s fie foarte apropiat de o
combinaie liniar a altor regresori. Ce se ntmpl n astfel de cazuri este c acelai obiect sau
fenomen apare n ecuaia de regresie de mai multe ori prin mai multe msurtori diferite ntre
ele. Pericolul supraspecificrii nu apare deci, atunci cnd fenomene diferite, bine-definite
teoretic (ca n exemplu, creterea economic i globalizarea) snt n mod dovedit corelate, ci
atunci cnd folosim mai multe variabile care msoar acelai fenomen. De ce? Ei bine, pentru
c estimarea efectului fenomenului n sine devine problematic. Utiliznd mai multe
msurtori pentru fiecare din fenomenele studiate, compararea efectelor acestor fenomene
devine incert. Fiecare dintre msurtorile fenomenului vor avea un impact subestimat prin
prezena celorlalte msurtori. Suma impactelor variabilelor care aparin aceluiai complex
teoretic trebuie de asemenea tratat cu grij pentru c poate fi influenat de relaii diferite cu
celelalte variabile ale modelului. Desigur, aa cum am mai spus, multicoliniaritatea nu este o
problem care s fac modelul inutil sau metoda inexact. Multicoliniaritatea cu un numr
mare de regresori complic ns semnificativ analiza modelului.

A doua problem a supraspecificrii este legat de alegerea variabilelor. Incluznd n model
un numr mare de variabile, multe dintre acestea vor avea un impact redus asupra variabilei
int. Astfel de efecte, care ajung s fie de a dreptul neglijabile nu fac dect s complice
modelul i s acorde unor variabile o nemeritat atenie. Variabile care au fost incluse n
model i au un efect foarte mic au probabil acelai impact cu o gramad de alte variabile care
nu au fost incluse n model. Prezena lor acolo face ns ca ele s fie interpretate, discutate i
s li se atribuie, chiar fr a supraevalua valorile, o importan mai mare dect altor variabile.

S discutm n ncheierea acestui capitol puin despre felul cum ar fi bine s se fac
specificarea modelului de regresie liniar. n general se consider modelul de regresie ideal,
un model cu un numr minim de variabile, ct mai puin dependente ntre ele i cu un impact
individual ct mai mare. Nu ntotdeuna exist aa ceva, i chiar dac exist, n majoritatea
cercetrilor nu avem cum s gsim un asemenea model. Mai mult dect att, gsind variabile
de impact maxim asupra variabilei int s-ar putea s nu gsim altceva dect o msur a
138
aceluiai fenomen. Oricum, dezideratul fiind gsirea unui numr mic de variabile
independente de impact mare, cercettorul trebuie s i dea silina s determine variabilele
care au efectul cel mai mare asupra variabilei int. Pentru asta bineneles trebuie s-i
foloseasc ct de mult posibil bunul sim tiinific i cultura de specialitate. Trebuie s
modelez creterea numrului de studeni, ce regresori iau? Trebuie s pornesc de la un soi de
repertoar al fenomenelor pe care teoria le-a pus n legtur cu fenomenul int al modelrii.
Apoi trebuie s verific prin regresii simple efectul acestor regresori asupra variabilei int i
prin analiz de corelaie gradul de multicoliniaritate dintre regresori.

De obicei n finalul acestui demers se dezvolt mai multe modele concurente la explicarea
fenomenului int. Acestea se calculeaz, iar rezultatele se compar ntre ele.

139
Capitolul 7. Pentru vegetarieni. Analiza datelor nenumerice.

n acest capitol m voi referi la modurile cum statistica se poate apropia de date care nu au
caracter numeric, cantitativ. Datele acestea, numite de regul calitative nu permit utilizarea
oricror metode statistice. Ele snt mai pretenioase, se pot face mai multe greeli la
prepararea lor. Pe de alt parte, datele calitative ne pot oferi o ptrundere n subiect la un
nivel mult mai amnunit. Ele permit trecerea dincolo de mult criticata superficialitate a
cantitativului.

Aa cum am vzut deja astfel de date snt prezente foarte des n cercetrile sociale,
economice, i nu numai. Din experiena mea aceste variabile snt chiar majoritare n
cercetrile de acest tip. Arareori avem nevoie de valori simple cantitative n studii legate de
comportamentul oamenilor, fie el social, economic sau politic. Cu excepia vrstei, aproape c
nu avem date raionale n studiile de pia, de exemplu. Nici mcar informaiile legate de
venituri nu snt cu adevrat raionale, pentru c nu avem la dispoziie statele de plat ale celor
intervievai, ci o auto-estimare a venitului lunar, de obicei pe categorii. Ce s mai spun,
greutatea sau nlimea persoanelor intervievate intereseaz prea puini clieni ai marketing
research-ului. Chiar dac acestea ar avea vreo legtur, de exemplu, cu consumul de bere al
celui intervievat, atta timp ct nu au relevan din punct de vedere al planificrii i designului
publicitii sau distribuiei, interprinderile productoare snt prea puin interesate de ele. Deci,
majoritatea ntrebrilor de interes pentru cercetrile statisticii sociale se dovedesc a fi
categoriale, uneori chiar nominale, dar cel mai adesea ordinale. A nu se nelege de aici c
datele cantitative snt chiar irelevant de rare. Ele apar adesea n cercetri medicale, geografice,
economice, uneori n studii politice comparative internaional, n sociologie organizaional i
ecologie.

n capitolele precedente am trecut n revist o serie ntreag de metode care nu erau gndite a
fi utilizate pentru variabile fr caracter cantitativ. Cu toate acestea, o parte dintre ele i
pstreaz validitatea i atunci cnd snt aplicate unor date calitative. Problema esenial legat
de alegerea metodei este simpl: cu date calitative nu se fac calcule. Aceasta ns nu nseamn
c nu se pot calcula frecvenele de apariie a lor. Deci, de exemplu, nu se poate face o
corelaie simpl Pearson cu date cu care nu se poate calcula. Am vzut ns c se poate face o
corelaie Spearman, pentru c acolo calculele nu se fac cu valorile variabilelor n sine ci cu
poziiile lor ntr-o list ordonat de ranguri. Un alt exemplu. Desigur nu se pot efectua teste
140
legate de media unor variabile calitative (chiar dac ele snt reprezentate prin valori
numerice), pe de alt parte se pot foarte bine efectua teste cu frecvenele de apariie a unor
astfel de variabile. Hai s fiu mai clar, fie o ntrebare de opinie, de genul: Suntei de acord cu
...? i rspunsurile snt 1. Da; 2. Nu. Calculul mediei rspunsurilor este total lipsit de sens
pentru c presupune adunarea de valori 1 i 2 adic adunarea de Da i Nu i mprirea la
numrul lor. Pe de alt parte testarea faptului c frecvena de apariie a unui Da este relevant
diferit de 50% este absolut corect. E vorba despre un test similar la urma urmei, diferena
este c n primul caz se fac calcule cu valorile variabilei iar n al doilea caz cu frecvenele de
apariie a acestor valori.

Tot ce am discutat pn acum legat de prezentri tabelare, grafice, indicatori, teste, etc. are
valabilitate i n cazul variabilelor calitative att timp ct metoda nu presupune calcule cu
valorile variabilelor.

n cele ce urmeaz o s adaug la reaterul nostru de metode cteva care au fost gndite special
pentru variabile calitative. Cel mai adesea ele se evideniaz printr-un numr mai mic de
restricii sau presupuneri legate de variabile. De aceea ele se folosesc adesea i n cazul unor
variabile raionale sau intervalice despre care avem mai puine informaii. De exemplu,
variabile despre care nu putem presupune c ar fi distribuite normal. Astfel de metode snt
adesea numite i metode non-parametrice sau cu distribuie liber. Denumirea de non-
parametric poate s induc n eroare de-a binelea. i eu am fost mult vreme convins c aa se
numesc metode care pur i simplu nu au parametrii. Ei bine, nu e aa. Metodele non-
parametrice snt metode la care nu se fac presupuneri a-priori despre parametrii. E mult mai
simplu s le numim metode fr distribuii presupuse a-priori, sau metode libere de
distribuie. Din pcate e bine s inem minte i denumirea inductoare n eroare pentru c ea e
folosit n diverse programe statistice (de ex. n SPSS) i n multe cri de statistic. Cea mai
util i rspndit metod non-parametric este testul Chi
2
.

a. Testul Chi
2


De fapt exist o ntreag familie de teste numite Chi
2
. Ele efectueaz testarea folosindu-se de
o familie de distribuii de probabilitate numit Chi
2
. Familia aceasta este mai larg dect
familia de distribuii normale i o include pe aceasta din urm ca o limit a ei.

141
Cel mai important dintre testele Chi
2
este testul Chi
2
al lui Pearson. Simplu, puternic, fr
presupuneri greu de ndeplinit, testul se poate folosi cu ncredere aproape peste tot. E aproape
un panaceu universal. De obicei se folosete la variabile calitative pentru c nu presupune
efectuarea de calcule cu variabilele testate. Cu toate acestea se poate folosi linitit i n cazul
variabilelor raionale sau intervalice i este chiar indicat n cazul n care acestea nu au o
distribuie normal sau log-normal. Singura condiie practic este ca numrul de valori pe
care le ia variabila s nu fie prea mare. S vedem ns ce testm.

Ipoteza pe care o testeaz testul Chi
2
al lui Pearson este c distribuia unei variabile nu difer
semnificativ de o distribuie teoretic dat. Adic frecvenele de apariie a valorilor unei
variabile corespund unei reguli, unei distribuii cunoscute. De exemplu, aceast distribuie ar
putea fi uniform, adic fiecare valoare s apar de un numr egal de ori, sau ar putea fi orice
alt distribuie fie c are vreo relevan teoretic sau e pur i simplu propus de cercettor.

Hai s lum un exemplu pentru a clarifica felul cum se pune o ipotez pentru testul Chi
2
. S
lum de exemplu o cercetare pe care am mai folosit-o pe parcursul acestei cri. E vorba
despre un studiu de pia efectuat n Baia Mare n 2003. n tabelul de mai jos apare distribuia
pe frecvene a unei ntrebri simple cu rspunsurile organizate sub forma unei scale ordonate.
Evident, variabila rspuns este o variabil ordinal:

10. Cat de des se fac cumparaturile la dvs. in familie?

Frecven Procent
zilnic 446 42,4
de mai multe ori pe saptamana 370 35,2
saptamanal 168 16,0
mai rar 67 6,4
Total 1051 100,0


Ipoteza tipic pentru un test Chi
2
va compara distribuia valorilor cu o distribuie uniform.
Distribuia de mai sus este de fapt lista de frecvene ce apare pe a doua coloan a tabelului:
446 - 370 - 168 - 67. Distribuia uniform ar fi atins dac toate valorile ar fi la fel de
probabile, adic am avea o list care se obtine mprind volumul populaiei (aici 1051) la
numrul valorilor posibile (aici patru), deci: 263 263 263 263. Testul verific dac cele
dou liste difer semnificativ una de alta. Poate nu pare foarte interesant. Hai s lum ns
142
puin altfel problema. S considerm un subgrup din populaia noastr. De exemplu, cei care
au studii superioare. Pentru ei frecvena cumprturilor arat astfel:

10. Cat de des se fac cumparaturile la dvs. in familie?

Frecven Procent
Zilnic 102 36,6
de mai multe ori pe saptamana
118 42,3
Saptamanal 55 19,7
mai rar 4 1,4
Total 279 100,0

Lista de frecvene este de 102 118 55 4. Difer oare cu adevrat aceast list de
distribuia celor care nu au studii superioare, vizibil n tabela de mai jos:

10. Cat de des se fac cumparaturile la dvs. in familie?

Frecven Procent
Zilnic 344 44,6
de mai multe ori pe saptamana 252 32,6
Saptamanal 113 14,6
mai rar 63 8,2
Total 772 100,0

Ipoteza de egalitate ar suna atunci cam aa: fie c au sau nu studii superioare, locuitorii din
Baia Mare fac cumprturile la fel de des. Asta e mult mai interesant pentru o firm de
marketing. De o asemenea observaie sau observaii de acest gen poate depinde modul cum se
organizeaz o campanie de publicitate sau de promovare a unui produs. Observm c este o
ipotez de acelai tip ca i n primul caz. Avem dou liste de frecvene: 102 118 55 4 i
344 252 113 63. La ochi ele difer. Valorile procentuale pentru primele dou categorii
par a se inversa, iar a patra categorie care e nesemnificativ pentru prima list e considerabil
mai mare n cea de a doua. Totui snt oare aceste diferene suficiente ca s respingem
ipoteza, adic s spunem c ntre cele dou grupuri existe diferene semnificative n frecvena
cu care i fac cumprturile.

S vedem deci cum se calculeaz. Valoarea de test Chi
2
se obine astfel:

143


n formul O
i
snt frecvenele observate ale valorilor variabilei, E
i
frecvenele ateptate, sau
teoretice. i ia valori de la 1 la 4, adic are attea valori cte valori poate lua variabila noastr.
Avem de comparat doua liste de frecvene de lungime i, unele vor lua locul valorilor O
i
,
celelalte vor sta la baza calcului valorilor E
i
. O sa lum acum valorile pentru intervievaii cu
studii superioare ca fiind valorile O
i
. Valorile E
i
vor fi valorile care s-ar gsi n grupul celor
cu studii superioare dac distribuia ar fi aceiai ca i n grupul celor fr studii superioare.

Pentru a gsi valorile E
i
trebuie s proiectm procentajele aa cum apar n tabela de referin
la numrul total de cazuri din tabela testat. Mai clar, dac distribuia ar fi aceiai atunci
procentele aa cum apar la cei fr studii superioare ar trebui s apar i la cei cu studii
superioare. Atunci 44,6% ar trebui s fie n categoria zilnic. Adic numrul ateptat de
cazuri este pentru aceast categorie 44,6% din volumul eantionului de test, adic 279.

Calculul e deci foarte simplu, o regul de trei simpl aplicat volumului total, sumei de valori
O
i
pentru procentajul fiecrei frecvene din cel de-al doilea grup:

E
1
= 279 * 44,6 / 100 = 124,4.

Valoarea 124,4 difer fa de 102, cte cazuri snt de fapt n eantion. Calculnd i celelalte
procente rezult o list de frecvene astfel: 124,4 91,0 40,7 22,9. Valorile nu snt ntregi
pentru c se obin aplicnd procentajele aa cum am explicat. S exemplificm acum calculul
valorii Chi
2
:

Chi
2
= (102 124,4)
2
/124,4 + (118 91)
2
/91 + (55 40,7)
2
/40,7 + (4 22,9)
2
/ 22,9

Valoarea calculat este Chi
2
= 32,66. Programele statistice ne-ar da i o significan. n cazul
de fa ar fi 0,000, deci foarte bun. Dac ns nu am folosi un soft statistic ar trebui s
folosim o tabel de valori. Astfel de tabele pentru valorile Chi
2
se gsesc de obicei la captul
crilor de statistic (inclusiv n aceast carte), dar exist i pe internet, de exemplu la adresa
http://www.statsoft.com/textbook/sttable.html unde se gsesc tabele de valori i pentru alte
teste foarte des utilizate, testele t, Z i F (tabelele pentru t i Z se gsesc i n cartea de fa).
144

S studiem puin tabela de la pagina ***. Pentru a citi aceast tabel de valori Chi
2
avem
nevoie de nc un termen numit grad de libertate, prescurtat df, din englez, de la degrees of
freedom. n cazul testelor Chi
2
acest grad de libertate nu este altceva dect numrul valorilor
pe care le-a luat variabila testat minus 1. Adic, n exemplul nostru unde aveam patru valori
posibile, 4 1 = 3 grade de libertate.

Cutm n tabel pe linia potrivit numrului de grade de libertate pn dm de prima valoare
care e mai mare dect valoarea Chi
2
obinut prin calcul. Significana, adic probabilitatea de
a face o eroare de tip I, va fi atunci valoarea din capul de tabel a coloanei precedente.
Observm c pe msur ce crete valoarea Chi
2
, se nbuntete, adic scade ca valoare
significana. n exemplul nostru valoarea calculat e mai mare dect oricare din valorile de pe
linia pentru 3 grade de libertate. Deci significana e mai bun dect cea mai bun significan
din tabel. Deci ansa de a respinge o ipotez corect, cci aceasta era eroarea de tip I, este
foarte, foarte mic, de fapt mai mic dect 0,001. Putem ca atare respinge linitit ipoteza.

n concluzie, testul Chi
2
din exemplu permite respingerea ipotezei de egalitate ntre cele dou
distribuii. Adic datele noastre snt suficiente pentru a putea spune c cei cu studii superioare
au o distribuie a frecvenei de a face cumprturi semnificativ diferit de cei ce nu au
asemenea studii.

Exact la fel ca i n exemplu se pot compara orice dou liste de valori de frecvene. Fie c una
este empiric i una teoretic, fie c ambele snt empirice.

b. Testele Wilcoxon, Mann-Whitney i Kruskal Wallis

Vom continua cu alte teste non-parametrice. Testul Wilcoxon este o alternativ non-
parametric la testul t al lui Student pentru dou medii, pe care l-am descris n capitolul 5.
Dei testul Wilcoxon a fost propus pentru un nivel de msurare a datelor cel puin intervalic,
nu se fac nici un fel de presupuneri despre distribuia datelor. Ca atare testul este potrivit de
cte ori nu snt satisfcute condiiile testului t, care presupune normalitate.

S rememorm scurt ipoteza testului t pentru dou medii. Testul t pentru dou medii verifica o
ipotez de egalitate sau inegalitate a dou valori care se obineau ca medii ale unei variabile
145
aleatoare. Mediile se calculeaz pentru dou eantioane. Cele dou eantioane trebuie s
prezinte o distribuie normal de aceiai dispersie a variabilei a crei medie se testeaz i pot
fi independente sau dependente. Ipoteza de normalitate cu dispersie egal este destul de tare,
n multe situaii o asemenea presupunere restricionnd mult posibilitatea de folosire a testului.
Aici intervine testul Wilcoxon.

Pe de alt parte, trebuie s observm c testul t presupune ntotdeuna un calcul de medie, deci
testul se poate referi numai la variabile cantitative. i aici e nevoie de o generalizare care s
fac metoda folositoare i n alte cazuri. Testul Wilcoxon face o asemenea generalizare
folosind n locul valorilor poziiile ntr-o ierarhie de frecvene. De fapt, testul Wilcoxon
transform testul t ntr-un mod analog cu felul cu corelaia Spearman transform corelaia
Pearson. Ca atare, variabilele testate prin testul Wilcoxon trebuie s fie ordinale, dar nu
neaprat intervalice sau raionale. Dei se efectueaz nite diferene ntre valori n cazul
Wilcoxon scopul acestora este doar de a stabili care valori snt mai ndeprtate sau mai
apropiate de o cvasi-medie. Testul se folosete frecvent pentru ntrebri de opinie. S vedem
ns ce i cum calculeaz.

Ipoteza testului de definete astfel. Fie dou eantioane, care pot fi total independente, dar cel
mai adesea snt rezultate din reinterogarea aceluiai eantion. Pe cele dou eantioane se
identific o aceiai variabil. Ipoteza este c distribuia acestei variabile este egal n cele
dou eantioane. Un exemplu simplu: s presupunem c am efectuat un tratament oarecare i
dorim s vedem dac se repercuteaz asupra unei variabile. tiu eu, am tuns un preedinte i
vrem s vedem dac aceasta a dus la creterea sau scderea popularitii lui. Variabila de
popularitate va fi atunci culeas o dat nainte de tundere, o dat dup. Deoarece aceast
variabil nu este de fapt cantitativ nu se poate stabili cu un test t dac diferena medie
sesizat este relevant statistic sau nu. Se pot folosi evident teste Z pentru a stabili dac a
crescut relevant procentul simpatizanilor sau nu, testul Wilcoxon ne ofer ns o singur
testare de ansamblu a diferenei distribuiei. Pentru aceast se acioneaz astfel:

1. S notm cele dou valori ale variabilei, simpatia nainte de tuns x, i simpatia dup
tuns y. Pentru fiecare individ i chestionat vom avea dou valori x
i
i y
i
.
2. Calculm modulul diferenei z
i
= | x
i
y
i
|
3. Ordonm valorile z
i
, eliminm valorile nule i acordm fiecrei valori o valoare rang
n funcie de poziia pe care o ocup n lista ordonat. Dac dou sau mai multe valori
146
z snt egale punem rangul mediu. De exemplu dac valorile de pe poziia 5 i poziia 6
snt egale, ambele primesc rangul 5,5.
4. Calculm acum suma rangurilor care corespund abaterilor pozitive i suma rangurilor
care corespund abaterilor negative
12
. Valoarea cea mai mic dintre acestea dou este
valoarea de test.

Valoarea de test se numete uneori T, alteori S sau chiar W. Valorile critice pentru testul
Wilcoxon se gsesc de asemenea n tabele organizate n funcie de significan i numrul de
cazuri. O regul simpl este: cu ct valoare e mai mare cu att significana e mai bun, dar
evident trebuie verificat tabela pentru a decide ntr-un caz particular. Soft-urile statistice care
efectueaz testul Wilcoxon raporteaz desigur i significana rezultatului care se citete cum
ne-am obinuit deja, ca probabilitate de a efectua o eroare de tip I. Deci cu ct valoarea
significanei e mai mic cu att putem respinge ipoteza de nemodificare a variabilei cu un risc
de eroare mai mic. O significan bun este, de regul, una cu valoare sub 0,05.

O dezvoltare interesant a testului Wilcoxon este testul U, numit i Mann-Whitney, Mann-
Whitney-Wilcoxon sau Wilcoxon-Mann-Whitney. Am vzut c testul Wilcoxon se putea
folosi acolo unde aveam un design de tip nainte-dup, adic valori nperecheate. Trebuia s
avem dou eantioane n care s construim perechi. Aceasta este o situaie care apare desigur
la anumite tipuri de cercetri dar testul de tip rang merit extins i la alte situaii. De aici ideea
testului U. Idee pe care de altfel tot Frank Wilcoxon a propus-o i nc n acelai articol din
1945 cnd a definit i testul numit de obicei testul Wilcoxon, cel pe care l-am prezentat
anterior. i asta cu toate c era chimist i nu statistician.

Ipoteza testului U este c dou eantioane provin din aceiai populaie, adic au o distribuie
egal a variabilei testate. O asemenea ipotez poate fi de folos n multe ntrebri de cercetare.
S vedem nite exemple.

Situaia de cercetare pe care am folosit-o pentru a prezenta testul Chi
2
se preteaz i pentru
utilizarea testului U. Verificarea faptului c frecvenele de a face cumprturi ale celor cu sau
fr studii superioare snt sau nu diferite se poate traduce i n limbajul ipotezei testului U.
Avem n acest caz o populaie de ansamblu cu anumite obiceiuri legate de frecvena de a face
cumprturi. Dac am alege aleator dou eantioane din aceast populaie ele ar putea diferi

12
De fapt ajunge dac calculm una dintre aceste sume.Cealalt rezult uor pentru c suma tuturor rangurilor
este oricum n(n+1)/2 unde n este numrul de valori.
147
doar ntmpltor din punctul de vedere al variabilei frecven de cumprare. S presupunem
ns c alegerea se face pe baza unei caracteristici, cum ar fi prezena studiilor superioare.
Atunci, dac aceast caracterististic nu are nici o relevan asupra variabilei frecven a
cumprturilor cele dou eantioane rmn din perspectiva acestei variabile ca eantioane
aleatoare provenite din aceiai populaie. Dac ns testul ne permite s respingem aceast
ipotez nseamn c variabila de selecie, prezena studiilor superioare, are un efect
semnificativ asupra variabilei testate, frecvena cumprturilor. Deci cele dou eantioane nu
se pot considera ca aparinnd aceleiai populaii.

n mod similar orice situaie n care o variabil categorial binar se repercuteaz pe o
variabil ordinal se poate testa cu testul U. Regula de ansamblu este urmtoarea. Variabila
categorial care mparte eantionul nostru n dou definete de fapt dou eantioane. Testul
verific faptul c cele dou eantioane nu difer din punctul de vedere al distribuiei unei
variabile ordinale. Hai s mai lum un exemplu tipic. S presupunem c cele dou eantioane
snt determinate de gen. Avem deci un eantion de brbai i unul de femei i o variabil de
test care este rspunsul la ntrebarea: Care este venitul lunar al familiei dumneavoastr?
Evident rspunsul la o astfel de ntrebare este o estimare a venitului lunar familial. Dac am
obine o diferen semnificativ am putea deduce c cele dou genuri estimeaz diferit
veniturile lor familiale. De exemplu, nu m-a mira dac brbaii ar avea o tentaie de a
supraevalua venitul i femeile de a-l subevalua. Dac ambele grupuri evalueaz corect, sau se
abat n aceiai direcie, ar trebui s nu avem nici o diferen statistic semnificativ. Deci, am
putea conclude c nu se poate respinge ipoteza cum c estimrile fcute de brbai i femei
fac parte din aceiai distribuie, snt eantioane ce provin din aceiai populaie.

De altfel, aplicnd testul U pentru ntrebarea de mai sus, folosind date din sondajul la care m-
am mai referit, cel din Baia Mare, din 2003. obinem urmtorul rezultat:

Rang

61. Genul N Rang mediu
Suma
rangurilor
66. Venitul lunar
familiar?
feminin 553 504,28 278865,00
masculin 474 525,34 249013,00
Total 1027

Statistica de test

148

66. Venitul
lunar
familiar?
Mann-Whitney-U 125684,000
Significan (dou
capete)
,229
a Variabila de grupare: 61. Genul

Cel mai uor putem s analizm acest rezultat citind significana. Dup cum se vede ea nu e
suficient de bun pentru a respinge ipoteza. Deci, nu putem spune c femeile i brbaii
estimeaz n mod diferit veniturile lor familiale.

Metoda de calcul a testului U este foarte simpl.

1. Se ordoneaz toate valorile variabilei testate (venitul lunar familial), indiferent dac
fac parte din grupul 1 (la noi, femeile), sau grupul 2 (brbaii).
2. Fiecrei valori i se asociaz rangul ei n lista ordonat. Ca i n cazul testului
Wilcoxon, valori egale vor primi un rang mediu.
3. Se calculeaz suma rangurilor pentru grupul 1 (R
1
) i suma rangurilor pentru grupul 2
(R
2
).
4. Valoarea de test U este valoarea mai mic dintre U
1
i U
2
unde acestea se calculeaz
asfel: U
1
= R
1
(n
1
* (n
1
+1))/2 i U
2
= R
2
(n
2
* (n
2
+1))/2.

Exist desigur tabele care dau valorile critice pentru testul U. n aceste tabele valorile snt
specificate n relaie cu volumele celor dou eantioane, n
1
i n
2
.

Un pas mai departe pe acelai fir logic l face testul Kruskal-Wallis. Anume, dac n testul
Mann-Whitney comparaie se face ntre dou grupuri, testul Kruskal-Wallis permite
comparaii ntre mai multe grupuri, sau mai multe eantioane ca s folosim chiar limbajul
testului.

Ipoteza testului Kruskal-Wallis este analog ipotezei Mann-Whitney: Un numr oarecare de
eantioane au fost extrase din aceiai populaie. Ca i n cazul Mann-Whitney de fapt
eantioanele le definim printr-o variabil de categorisire, cel mai adesea o variabil nominal,
i testarea o facem pe o variabil care este cel puin ordinal. Ca i n cazul precedentelor teste
149
non-parametrice nu exist presupuneri de normalitate a distribuiilor sau alte restricii
similare. Aceasta permite utilizarea i acestui test cu o varietate foarte mare de date.

De fapt putem nelege testul Kruskal-Walis ca un test de relaionare ntre dou variabile, una
categorial, posibil chiar nominal i una cel puin ordinal. Testul verific dac prima
variabil are repercursiuni asupra distribuiei celei de a doua.

Metoda de calcul se bazeaz pe aceiai idee ca i n cazul precedentelor dou teste. Toate
valorile, independent de grupul din care fac parte se ordoneaz i fiecrei valori i se asigneaz
rangul ei. Apoi se efectueaz urmtorul calcul:



Unde:
g este numrul grupurilor.
N este suma volumurilor eantioanelor, adic N = n
1
+ n
2
+ ... n
g

n
i
este volumul eantionului i, adic corespunztor categoriei i a variabilei de selecie
r
ij
este rangul observaiei j din grupul i

, adic media tuturor rangurilor din grupul i
, adic media tuturor rangurilor.

Uneori valoarea calculat la testul Kruskal-Wallis se noteaz H, alteori K. Cu toate c formula
poate prea ceva mai complicat ea nu este dect o extindere logic a formulei U pentru un
numr mai mare de grupuri. Merit de observat c toate calculele care se fac se fac cu ranguri
i nu cu valorile propriu-zise ale variabilelor. Aa se elimin de fapt presupunerile asupra
distribuiei variabilei testate. Tot ce ne trebuie este s existe o ordine a valorilor pentru a putea
atribui ranguri.

Exist o metod mai confortabil de a analiza testul Kruskal-Wallis care simplific i mai
mult lucrurile. Varianta pe care o prefer i eu i v-o propun i vou reduce testul la un test
Chi
2
n urmtorul fel. Se calculeaz pentru fiecare grup de valori, sau eantion rangul mediu i
150
apoi se aplic pur i simplu un Chi
2
pentru ipoteza de egalitate a tuturor rangurilor medii.
Adic, dac eantioanele snt provenite din aceiai populaie, deci aproximeaz aceiai
distribuie a datelor, diferenele dintre rangurile medii trebuie s fie pur aleatoare,
ntmpltoare. Atunci ns ele nu vor fi n mod relevant diferite de o distribuie uniform.
Astfel am tradus ipoteza testului Kruskal-Wallis la o ipotez de tip Chi
2
cu distribuie
uniform. Majoritatea soft-urilor statistice pe care le cunosc abordeaz testul Kruskal-Wallis
n acest fel.

S vedem un exemplu de aplicaie, de ast dat folosind un alt set de date. Populaia cercetrii
este populaia intreprinderilor mici i mijlocii din mediul rural din Transilvania. Am testat
dac numrul de proprietari ai intreprinderii depinde de domeniul principal de activitate.
Domeniul de activitate este evident o variabil nominal. Nu exist o ordine ntre
agricultur i transporturi! Pe de alt parte domeniul de activitate definete pe populaia
firmelor subgrupuri care pot fi nelese ca eantioane diferite. Variabila numr de proprietari
este raional, dar probabil nu este distribuit normal, nici mcar cu aproximaie.

Rang


5. Care este domeniul
principal de activitate? N Rang mediu
3. Care este numarul de
proprietari ai firmei?
Agricultura 16 423,50
Comert - en detail 454 488,43
Comert - en gros 45 497,28
Productie 76 495,32
Servicii - profesiuni 147 381,39
Servicii - turism 107 417,61
Servicii - consultanta 39 381,00
Servicii - agricole 5 313,00
Constructii 33 599,50
Total 922

Statistica pentru Testul(a,b)


3. Care este
numarul de
proprietari ai
firmei?
Chi-patrat 55,822
Df 8
Significanta asimptotica ,000
151
a Kruskal-Wallis-Test
b variabila de grupare: 5. Care este domeniul principal de activitate?

Valoarea Chi
2
i significana testului snt ct se poate de concludente. Ipoteza c firmele din
grupurile definite de domeniul principal de activitate au la fel de muli proprietari poate fi
respins cu o probabilitate de a grei de 0.000.

S nchei acest capitol n care am trecut n revist cteva teste printr-o nelepciune simpl dar
util. n esen, tot ce e variabil raional sau intervalic trebuie s se poat testa cu t sau Z
(ceea ce e cam acelai lucru), iar tot ce e variabil ordinal sau nominal se poate testa ntr-un
fel sau altul folosind Chi
2
. Exist desigur i variante mai complicate i multe, multe alte teste
gndite pentru diferite ipoteze, dar pentru multe din lucrrile mai mult sau mai puin tiinifice
i utilizarea acestor teste simple ar fi deja un ctig extraordinar pentru cunoatere.

c. Regresia categorial.

n capitolul precedent am prezentat analiza de regresie liniar att n forma ei simpl ct i
multipl. n toate aceste variante datele implicate n ecuaiile de regresie erau date numerice
cu care se efectuau calcule. Aceast restricie limita desigur utilizarea metodei regresiei la un
anume tip de cercetri. Exist ns i tipuri de regresie care au fost gndite s analizeze relaii
ntre variabile care pot avea diferite forme, chiar i variabile nominale. Aceste modele de
regresie nu snt utile numai pentru luarea n considerare a unor variabile nominale, ci i n
cazul unor variabile care pur i simplu nu se supun preteniilor metodelor de rezolvare ale
regresiei liniare.

Regresia categorial nu este un singur tip de regresie. Mai mult, putem s o considerm ca o
clas de modele care n forma general a ecuaiei de regresie, aceiai ca i n capitolul
precedent includ variabile care nu se supun regulilor obinuite. Principalele modele care
implic variabile nenumerice n ecuaii de regresie snt:

Regresia liniar cu utilizarea variabilelor dummy, care permite modelarea efectelor
variabilelor nominale.
Regresia logistic binar sau multinomial (ambele pot avea formele logit i probit),
care permite definirea unor variabile nominale ca variabile int a regresiei.
Regresia logit sau probit ordonat, care permite utilizarea variabilelor inte ordinale.
152

Unele soft-uri de statistic ofer i o aa-zis regresia categorial cu scalare optimal care
permite definirea scalei pentru fiecare variabil din ecuaia de regresie n parte. Aceasta este o
alternativ general la care utilizatorul nu trebuie s-i bat prea tare capul cu modelul folosit
i primete rezultatele sub o form interpretabil uor, la fel ca la o regresie liniar obinuit.

n aceast seciunea nu doresc mai mult dect s clarific primul dintre modelele enumerate
mai sus, modelarea variabilelor nominale cu ajutorul variabilelor dummy.

Variabilele dummy snt variabile care au dou valori, de obicei codate 0 i 1. De fapt, modul
de codificare nici nu prea are vreo importan, sensul acestuia fiind mai mult unul logic dect
numeric. Adic 0 nseamn fals sau absent, 1 nseamn adevrat sau prezent. n mod
tradiional variabilele dummy au aprut n cercetrile economice pentru a modela
sezonalitatea. E foarte simplu. S considerm o ecuaie de regresie liniar cu dou variabile
regresor din care una dummy:

y
i
= a + b
1
x
i
+ b
2
d
i
+ e
i


unde y
i
este variabila int, x
i
variabila regresor, d
i
variabila dummy i e
i
eroarea pentru
fiecare caz i la care s-au cules date. S zicem, de exemplu c dorim s modelm relaia dintre
consumul de bere (y) i consumul de alune (x). S zicem c am cules date de la buticuri,
reprezentnd vnzri zilnice. Observaiile ne-au dus ns la gndul c aceast relaie depinde
cumva de anotimp. Faptul c iarna se bea mai puin bere dect vara nu ar trebui neaprat s
modifice relaia dintre cantitile de bere i cele de alune. Dar observaiile ne duc cu gndul c
iarna se mnnc mai multe alune la aceiai cantitate de bere. Deci s-ar putea dependena s
fie cumva diferit. Pentru a putea lua aceasta n considerare am putea s modelm relaia cu
dou ecuaii una pentru var i una pentru iarn. Sau am putea folosi o variabil dummy, o
variabil cu dou valori. n modelul din exemplu aceasta este variabila d. Lum ca atare d = 1
pentru acei i pentru care valorile x (alune) i y (bere) au fost culese vara i d = 0 pentru acei i
pentru care valorile au fost culese n alte anotimpuri. De fapt am mprit eantionul i avem:

pentru d = 1:

y
i
= a + b
1
x
i
+ b
2
+ e
i
= (a + b
2
) + b
1
x
i
+ e
i

153

iar pentru d = 0:

y
i
= a + b
1
x
i
+ e
i


Cele dou ecuaii difer prin termenul liber, n primul caz acesta este a + b
2
, iar n al doilea
caz a. Deci, dac am reprezenta grafic cele dou drepte ele ar fi paralele. Altfel spus, efectul
sezonalitii modelat cu variabile dummy presupune c relaia dintre consumul de alune i
consumul de bere nu difer prin cantitatea de bere care se consum la o cretere a consumului
de alune de o alun ci pur i simplu consider c sezoanele pornesc de la un nivel diferit al
relaiei dintre consumul de bere i cel de alune. Faptul c efectul sezonalitii este dat la aceste
modele de o valoare scalar, valoarea b
2
i nu de o variabil aleatoare face ca astfel de modele
s se mai numeasc modele cu efecte fixe.

Cu o asfel de extindere a modelului regresiei liniare putem lua n calcul nu numai efecte de
sezonalitate ci i orice efecte care snt modelabile cu variabile cu dou valori. Pe parcursul
crii am mai avut ca exemple de astfel de variabile, genul sau prezena studiilor superioare.

Interesant este c o foarte simpl generalizare ne permite s includem n ecuaii de regresie
variabile nominale cu oricte valori.

S lum o variabil nominal cu mai multe valori, de exemplu, religia. Mai jos este o tabel
de frecvene care reprezint religiile locuitorilor judeului Arad conform unui sondaj de
opinie:

I8. religie:

Frecventa Procent
adventist 5 ,8
baptist 30 5,0
catolic 76 12,8
evanghelic 1 ,2
fara religie 5 ,8
grecocatolic 2 ,3
martor al lui iehova 1 ,2
neoprotestant 4 ,7
154
ortodox 437 73,4
penticostal 28 4,7
reformat 6 1,0
Total 595 100,0


Datele culese prezint 11 categorii, pentru o modelare corect probabil diversele rituri
neoprotestante ar trebui reunite, ca i cele protestante, obinndu-se astfel un numr mai mic
de categorii: ortodox, catolic, greco-catolic, protestant i neoprotestant i fr religie.
Modelarea cu variabile dummy presupune construirea cte unei variabile pentru fiecare dintre
aceste valori. Deci n locul variabilei religie cu valorile din list vom avea o variabil
ortodox cu valorile da i nu, o variabil catolic cu valorile da i nu i aa mai
departe. n total modelarea cu variabile dummy presupune nlocuirea unei variabile nominale
cu attea variabile dummy cte valori poate lua variabila nominal. S considerm relaia de
regresie care modeleaz dependena dintre numrul de cri cumprate anual i vrst.

Carte
i
= a + b
1
Virsta
i
+ e
i


Modelul rezolvat cu metoda celor mai mici ptrate d:

Carte
i
= 2,146 0,026 Virsta
i
+ e
i


Relaia este deci negativ, cei cu vrsta mai mic cumpr mai multe cri. Significanele
coeficienilor snt bune, dar coeficientul de determinare este mic (0,098) deci vrsta explic n
mic msur cumprarea de carte. S vedem dac nu cumva religia, care este la urma urmei o
caracteristic cultural, are i ea un efect asupra obiceiului de a cumpra cri. Pentru aceasta
redefinim religia sub forma unor variabile dummy. Considerm deci 6 variabile i rezult
modelul urmtor:

Carte
i
= a + b
1
Virsta
i
+ b
2
Ortodox
i
+ b
3
Catolic
i
+ b
4
Greco-Catolic
i
+ b
5
Protestant
i
+ b
6

Neoprotestant
i
+ b
7
FaraReligie
i
+ e
i

Rezolvarea cu metoda celor mai mici ptrate ne d urmtorul rezultat prezentat ca i tabel:


155
Model Coeficienti T Significanta
B Eroare standard
1 (constanta) 1,899 ,604 3,142 ,002
I2. vrsta: -,025 ,003 -7,891 ,000
ortodox ,252 ,579 ,436 ,663
catolic ,187 ,593 ,315 ,753
grecocatolic -,120 1,074 -,112 ,911
protestant -,051 ,778 -,065 ,948
neoprotestant ,255 ,596 ,427 ,669
a Variabil dependent: Q15. Cate carti cumparati pe an?

n tabela de mai sus snt coeficienii ecuaiei de regresie, mpreun cu rezultatele unor teste de
significan. Testele verific ipoteza c variabila regresor nu are efect asupra variabilei int.
Altfel spus verific ipoteza c coeficientul variabilei este semnificativ diferit de 0.

Tabela arat c dei significana efectului vrstei rmne bun i coeficientul vrstei este stabil
fa de regresia simpl, significana variabilelor dummy aferente diferitelor grupuri religioase
este foarte proast. Practic nu putem respinge ipoteza general: apartenena religioas nu are
efect asupra numrului de cri cumprate anual. n acest context o discuie a semnelor
coeficienilor diferitelor variabile dummy este lipsit de sens, ar reprezenta chiar o greeal
grav, dei acesta ar fi fost urmtorul pas dac significanele ar fi fost bune. Am fi observat
atunci c anumite religii au efect pozitiv, adic coeficieni pozitivi, altele efect negativ asupra
numrului de cri cumprate.

S alegem acum o alt variabil calitativ, nivelul de pregtire. Am recodat nivelul de
pregtire pe patru categorii: coal general sau mai puin, studii liceale, studii postliceale,
studii superioare. Pentru fiecare am construit o variabil dummy exact ca n exerciiul
precedent i am calculat ecuaia de regresie. Rezultatul tabelar este mai jos:


Model Coeficienti T Significanta
B Standardfehler
1 (constanta) 1,747 ,466 3,746 ,000
I2. vrsta: -,016 ,003 -4,759 ,000
generala -,580 ,461 -1,260 ,208
156
liceu -,109 ,454 -,239 ,811
postliceala ,851 ,489 1,738 ,083
superioare ,906 ,468 1,936 ,053
a Variabila dependenta: Q15. Cate carti cumparati pe an?

Efectul variabilei nivel de pregtire este mult mai clar. Pentru a analiza tabela ne uitm la
semnul i valoarea coeficienilor precum i la significana lor. Se observ c efectul este mai
significant pentru treptele de pregtire mai nalte. Astfel efectul studiilor superioare este
singurul clar semnificativ. Ipoteza de independen a numrului de cri cumprate anual de
nivelul de pregtire poate fi respins cu o probabilitate de 95% pentru cei cu studii superioare.
De asemenea efectul este evident pozitiv. O influen pozitiv ceva mai mic i mai puin
semnificativ au i studiile postliceale. Pe de alt parte efectul studiilor liceale sau generale
este negativ asupra numrului de cri cumprat, dar n acelai timp mai puin significativ. n
special n cazul celor care au numai studii liceale este greu s vedem vreun efect asupra
numrului de cri cumprate. O citire corect ar fi de fapt: cei cu studii liceale par a cumpra
mai puine cri, dar acest rezultat este insuficient de sigur.

Interesant este i faptul c coeficientul de determinare al ecuaiei de regresie care era de sub
10% crete la 23% prin introducerea variabilei nivel de pregtire.

Am putea lua n seam variabila ordinal nivel de pregtire i altfel. Am putea s o recodm
numeric, de genul coal general este 1, studii liceale este 2, etc. i s o considerm ca
variabil numeric. O asemenea abordare ar fi ns mult mai brutal, n esena ei incorect i
mult mai puin nuanat pentru c nu ar putea determina efecte individuale ale diferitelor
nivele de pregtire. Pe de alt parte abordarea efectelor individuale ale nivelelor de pregtire
este o utilizare nominal a variabilei i omite faptul c aceste nivele au de fapt o ordine bine
definit.



157
Capitolul 8. Analiza seriilor de timp

Foarte des analiza statistic caut s afle cate ceva despre derularea unor evenimente n timp
sau dezvoltarea n timp a unor caracteristici. nsi modul nostru de a cunoate conine adesea
intrinsec o raportare la timp. Vorbim despre o var calduroas implicit comparand-o cu alte
veri; observm o relaie ntre evenimente i o identificm ca pe o cauzalitate, asumand evident
o relaie de consecutivitate temporal; spunem c, de exemplu, preurile astea cresc mereu
sau c e din ce in ce mai greu s gseti un meter zilele astea! considerand existena unor
trenduri temporale. Tocmai astfel de declaraii necesit o verificare critic statistic. Ct e de
fapt de greu s gseti un meter, sau mai exact ce ar putea nsemna aceasta, sau chiar cresc
preurile mereu. S lum acest al doilea exemplu, e mai simplu. S presupunem c alegem o
serie de produse, cum se face cnd se consider acel co standard folosit pentru calculul
inflaiei. Apoi verificm sptmnal preurile i descoperim c uneori cresc, alteori scad cte
puin sau mai mult. Cum stabilim ce e ntmplare i ce e deja un proces de dezvoltare, un
trend? Iata in graficul de mai jos dezvoltarea indicelui preurilor de consum din 1971 pn n
2009. Fiecare valoare reprezint o cretere a preurilor de consum fa de anul precedent. Ce
observm? ntr-adevr indicele a tot sczut an de an ncepnd cu 1997, dar nici o dat nu a
fost sub 100% adic sub valoarea anului precedent. Deci, e corect: preurile au crescut mereu,
dac socotim anualizat. Adic, calculnd an dup an, pentru coul de produse utilizat de
Institutul Naional de Statistic, nu a existat vreun an ncepnd din 1971 n care preurile s fie
mai mici dect n anul precedent.
158

Grafic. Indicele preurilor de consum 1971 2009

Sursa: reprezentare proprie pe baza datelor de la Institutul Naional de Statistic,
http://www.insse.ro/cms/rw/pages/ipc.ro.do;jsessionid=0a02458c30d5be9a701c852c431abc6
58ac44e50bd88.e38QbxeSahyTbi0LaN4Ne0

Dac analizm graficul mai n amnunt mai observm ins i faptul c ritmul de cretere a
fost foarte diferit de la un an la altul. Astfel, putem identifica perioada de inflaie mare dintre
1990 i 1998, apoi scderea lent a inflaiei pn n anul 2009. De asemenea putem observa
pe grafic i nenatural de lunga perioad de stabilitate a preurilor din 1971 pn n 1990 care
denot o economie neliber.

a. Ce e o serie de timp? Identificarea de patternuri n serii de timp

Primul pas care trebuie fcut n orice modelare cu serii de timp este definirea acestora. Exist
aici o condiie esenial, foarte simpl dar nu totdeuna uor de ndeplinit.
Seriile de timp sunt iruri de valori ale unei i aceleiai variabile culese la momente diferite. O
serie de timp trebuie deci s conin valori ale unei variabile n momente bine definite i de
preferin echidistante de timp. Pentru aceasta se definete pe lng variabila serie de timp o
variabil companion timp coninnd momentele de culegere a datelor i avnd o unitate de
msur temporal adecvat problemei modelate: ani, luni, zile, secunde, etc.
159
Deci, spre deosebire de forma uzual a unei variabile care este un ir de valori culese de la
diferite persoane, obiecte, fenomene, la o serie de timp avem un ir de valori pentru un singur
obiect sau o singur persoan, dar la diferite momente de timp. Dac avem valori culese att
la diferite momente de timp ct i pentru diferite obiecte spunem c avem un panel. Seriei de
timp i se adaug atunci nc o variabil companion, un identificator al obiectului la care se
refer informaia. Tabela de mai jos exemplific o serie de timp cu valori ale produsului intern
brut al Romaniei pe ani selectati:

An PIB per capita (in USD cu metoda GK PPP)
1990 3525
1995 3083
2000 2797

Urmtoarea tabel prezint un panel de date, produsele interne brute ale unor ri din estul
Europei n aceiai ani:

An ar PIB per capita (in USD cu metoda GK PPP)
1990 Romania 3525
1995 Romania 3083
2000 Romania 2797
1990 Ungaria 6471
1995 Ungaria 5778
2000 Ungaria 6780
1990 Bulgaria 5552
1995 Bulgaria 5197
2000 Bulgaria 4726
1990 Cehia 8464
1995 Cehia 7831
2000 Cehia 8386

n exemplul de panel de mai sus numrul de ani este aproape egal cu numrul de ri. Situaia
uzual este ns de regul alta. Avem dou tipuri de astfel de date:

160
Panelurile sunt de regul intervierri repetate ale unui eantion reprezentativ la
diferite momente de timp. Rezult un set de date cu un numr mare de intervievai, de
obicei peste o mie, dar cu un numr mic de puncte temporale, cte reintervievri au
avut loc (uzual 3 4 intervievri). Astfel de intervievri se fac, de exemplu cu
generaii de absolveni ai unei faculti pentru a trasa carierele lor n timp sau cu
pacieni pentru a studia efectul unor tratamente.
Seturile de date CSTS (cross-sectional time series) conin de regul un numr mai
mare de puncte temporale dar pentru un numr mult mai mic de cazuri: de exemplu:
valorile PIB pentru toate rile din estul Europei n anii 1950 2000 sau temperatura
si tensiunea pacienilor dintr-o secie de reanimare din or n or timp de cteva zile.

Seturile de date din prima categorie se trateaz ca nite eantioane uzuale folosind n plus
metodele de tip nainte dup, n special testul Wilcoxon pe care l-am prezentat deja. Seturile
de date CSTS se prelucreaz ca i serii de timp genuine i le vom discuta spre sfritul
capitolului de fa.

Am vzut cum se definete seria de timp, am vzut ce nseamn ea. Primul pas n analiza unei
serii de timp este ct se poate de simplu i predictibil. ncepem ntotdeuna cu o reprezentare
grafic. De exemplu mai jos este graficul cu numrul de studeni la 10.000 de locuitori
calculat pe Europa de est i Europa de vest.

161


Graficul permite deja anumite analize i comentarii care ns nu au un caracter propriu-zis
statistic. Se vede faptul c numrul de studeni din vestul Europei a crescut aproape constant
pe cnd cel din estul Europei a cunoscut i perioade de stagnare, ba chiar de recesiune.
n cazul graficelor cu serii de timp se fac ntotdeuna grafice de tip linie, avnd pe axa
orizontal punctele temporale astfel nct distanele dintre ele s corespund distanelor n
timp. Dac de exemplu avem valori pentru anii 1990, 1995, 1997, 2000 va trebuie sa fim
ateni ca distanele din grafic s nu fie egale ci proporionale distanelor temporale. De
asemenea, punctele graficului nu vor corespunde unor frecvene sau procentaje ca n cazul
graficelor prezentate n capitolele precedente ci chiar valorilor variabilei serie de timp.
Principalul scop al graficelor este definirea informat a unor ipoteze. Acestea pot apoi fi
testate prin metode statistice. Desigur facem grafice i pentru a prezenta i a face datele mai
accesibile. Principalele patternuri care pot fi identificate grafic i testate apoi sunt trendul
(respectiv absena lui, staionaritatea) i sezonalitatea.

162
b. Trend i sezonalitate

Cuvntul englezesc trend care s-a ncetenit i n limba romn nseamn tendin. Vorbim
adesea de un trend ascendent sau descendent i ne referim la o dezvoltare cresctoare sau
descresctoare a unui ir de date, sau sesizm o schimbare de trend atunci cnd de exemplu
creterea economic se termin i ncepe o perioad de recesiune. n graficele precedente, de
exemplu, se observa un trend cresctor al numrului de studeni la 10.000 de locuitori n
vestul Europei sau un trend descresctor al Indicelui anual al Preurilor de Consum n
Romnia dup 1997.

Statistica se apropie de problematica trendurilor n serii de timp prin testarea staionaritii i
apoi a staionaritii de trend.

n sens matematic, un proces stochastic este staionar dac distribuia lui de probabilitate nu
se schimb n timp, adic dac lipsete un trend. Aceasta face ca media i dispersia
procesului, acolo unde se pot defini, s rmn stabile n timp. Definiia aceasta este ns
destul de criptic, pornind de la conceptul de proces stochastic pe care nu l-am discutat pn
acum i continund cu cel de distribuie de probabilitate care poate nu este suficient de
explicit. Am s incerc s povestesc pe ct se poate de nematematic i de simplu despre ce e
vorba. Nu v facei ns griji, muli dintre sociologii i politologii care analizeaz n mod
competent trenduri statistice nu tiu exact cum funcioneaz testele de staionaritate pe care le
aplic.

Totui o scurt prezentare a conceptului de proces stochastic nu e complicat i poate da o
privire mai flexibil i informat asupra ansamblului metodelor statistice pentru serii de timp.
Procesul stochastic este matematic vorbind o funcie care leag momente de timp de
distribuii ale datelor. Adic, un ir de distribuii organizate n timp. Am mai vorbit n aceast
carte despre distribuii. Le-am pomenit cnd am vorbit despre distribuia unei variabile ntr-o
populaie, cand am spus c scopul sondajului de opinie este a aproxima aceste distribuii la
nivelul populaiei cu distribuii la nivelul eantionului. Atunci o distribuie a fost definit ca
fiind un grup de perechi (valoare, probabilitate) sau pentru cazul particular al eantionului
(valoare, frecven). Hai sa lum de exemplu o variabil oarecare. S zicem, opiunea de vot
la alegerile prezideniale. Distribuia la nivel de populaie ar fi dependent de opiunea
fiecrui membru al populaiei. Am putea scrie aceast distribuie sub forma:
163
Candidat A 20%
Candidat B 30%
Candidat C 30%
Nehotari 10%

Desigur pentru a determina distribuia nu vom avea cum ntreba toat populaia rii. De aceea
se fac sondaje. Dar adesea cnd se vorbete despre sondajele pre-electorale se mai discut i
de factorul temporal. Distribuia aceasta nu este neschimbat n timp. Ea e de fapt un proces
stochastic. Adic pentru fiecare moment n timp difer un pic. Diverse evenimente, campania
electoral, opinii i poziii ale candidailor dar i ale jurnalitilor sau ale altor persoane
influeneaz alegerea indivizilor i duc la modificarea distribuiei. Dac simplificm un pic
lucrurile matematice, staionaritatea nseamn c distribuia rmne n esen neschimbat. Nu
nseamn n mod necesar c nu se schimb nimic, ci nseamn c schimbrile nu modific
esenial situaia. Hai s mai lum un alt exemplu. S zicem c adunm distribuia greutii
persoanelor dintr-o localitate. Pe msur ce trece timpul, unii slbesc, alii se ngra, unii se
nasc, alii mor. Cu toate acestea, e posibil ca n fiecare moment distribuia greutilor s nu
difere prea mult. Fiind vorba despre date raionale aceasta se poate traduce, aa cum am
prefigurat deja, prin pstrarea mediei i a dispersiei. Dac se ntmpl astfel, procesul se
numete staionar. Dac ns media crete sau scade pentru o anumite perioad de timp
vorbim despre existana unui trend ascendent sau descendent.

Problema practic nu se poate ns de regul att de complex pentru c o serie de timp cel mai
adesea nu o avem sub forma complet a unui proces stochastic, adic a unui ir de distribuii
ci sub forma unui ir de valori singulare pe care le considerm de fapt instane ale acestor
distribuii. Este ca i cum am avea pentru fiecare moment un experiment de tipul aruncrii cu
zarul, dar nu cu distribuia clasic, adic distribuia uniform cu 6 valori, ci cu distribuia
specific cazului modelat. Avem atunci culese pentru fiecare moment rezultatele
experimentului aleator, a aruncatului cu acest zar inegal i multifaetat. Bun, atunci ce mai e
staionaritatea?

Ipoteza de staionaritate sun n consecin cam aa: dac avem acest ir de valori consecutive
n timp, este posibil ca ele s fi rezultat din alegerea aleatoare conform unei distribuii
neschimbate. Dac se respinge aceast ipotez nseamn c distribuia a fost schimbtoare,
164
seria de timp nu e staionar. Exist diferite teste de staionatitate. Cel mai popular la ora
actual este probabil testul KPSS (Kwiatkowski, Phillips, Schmidt, Shin 1992).
KPSS testeaz o serie de ipoteze de staionaritate de nivele consecutive, adic pe lng
staionaritatea seriei de timp propriu-zise verific i staionaritatea seriilor de timp
considernd o ntrziere de o unitate de timp (lag 1), dou uniti de timp (lag 2) i aa mai
departe pn la lag 9. Mai jos este rezultatul unui test KPSS aa cum apare la unul din
pachetele de soft statistic, Stata. Am verificat staionaritatea seriei de timp a Indicelor
Preurilor de Consum (IPC) aa cum apare n primul grafic din acest capitol.

. kpss IPC

KPSS test for IPC

Maxlag = 9 chosen by Schwert criterion
Autocovariances weighted by Bartlett kernel

Critical values for H0: IPC is trend stationary

10%: 0.119 5% : 0.146 2.5%: 0.176 1% : 0.216

Lag order Test statistic
0 .338
1 .199
2 .154
3 .135
4 .128
5 .126
6 .127
7 .129
8 .133
9 .137

S vedem cum se analizeaz rezultatul de mai sus. n primul rnd s observm c ipoteza H0
este faptul c IPC este de trend-staionar (soft-ul ne spune H0: IPC is trend stationary).
Apoi ne sunt date valorile critice ale testului i n fine valorile testului pentru forma simpl i
apoi pentru un numr din ce n ce mai mare de valori n urm (lag-uri), pn la 9 valori. Prima
valoare de test, deci fr lag, este 0.338. Observm c este mai mare dect valoarea critic
pentru 1%. Deci ipoteza H0 se poate respinge cu o probabilitate de a grei mai mic dect 1%.
Adic putem linitit considera c seria este nestaionar. Ca de obicei, ceea ce cutm este
deci o significan ct mai mic. Aici ea nu este raportat direct ci prin valorile de test. Cu ct
sunt acestea mai mari cu att e significana mai bun. Ca s aflm ct de bun trebuie s
stabilim unde se potrivete valoarea de test printre valorile critice. S mai ncercm o dat
pentru al doilea rnd: valoarea de test pentru lag 1 este 0.199. E mai mic dect valoarea
critic pentru o significan de 1%, care e 0.216 dar e mai mare dect valoarea pentru o
significan de 2.5%, adic 0.176. Deci se poate respinge ipoteza nul pentru lag 1: IPC este
165
staionar fa de o valoare cu un an ntrziere cu o probabilitate de a grei de 2.5%. Ceea ce e
de asemenea bine. Ar fi de fapt o significan de 0.025 dac s-ar folosi un alt mod de
raportare. Ce a rmas neclar este sensul acestei staionariti cu ntrziere.

Pentru aceasta trebuie s clarificm inc un barbarism englezesc. Lag nseamn ntrziere.
Dac considerm o serie de timp precum cea a IPC, pentru orice valoare curent, s zicem
valoarea din 2009 valoarea cu un lag (o ntrziere) este cea anterioar, deci din 2008. Acesta
ar fi sensul cuvntului. n cazul staionaritii ns conceptul de lag trebuie legat de cel de
staionaritate de trend. Adic, nu se verific doar staionaritatea seriei propriu-zise ci i a
seriei de trend. Adic, nu ne intereseaz numai staionaritatea seriei ci i staionaritatea
trendului. Adic, nu numai creterea sau scderea ci i viteza de cretere sau scdere. Dac
calculm diferenele de la un moment la altul al seriei de timp obinem o serie a creterilor sau
scderilor. Scznd valoarea precedent, calculm de fapt o serie nou, cea de lag 1, adic o
serie a creterilor. n termeni matematici aceast serie se numete seria primelor diferene sau
a diferenelor de ordinul nti, ntr-o analogie fizic ar fi seria vitezelor. Aplicnd pe aceast
serie nc o dat aceiai metod obinem statistic vorbind seria de lag 2, matematic sunt
diferenele de ordinul doi, n analogia fizic: acceleraiile. S ne imaginm o main a crei
poziie se noteaz din or n or. Dac seria rezultat din aceast culegere de date este
staionar de lag 0 (adic pur i simplu staionar) atunci maina de fapt st pe loc, dac e
staionar de lag 1, atunci are vitez constant, dac e staionar de lag 2, are acceleraie
constant, adic e probabil n cdere liber. Analogia aceasta este desigur simpl i destul de
explicit, ns nu este statistic, ea se refer la un caz determinist cunoscut complet. n
cercetarea statistic avem de a face cu o main care aproape c st pe loc sau care are
viteza aproape constant.

Conceptul de sezonalitate este mult mai simplu i se refer la faptul c adesea seriile de timp
se comport dup legi diferite pe perioade diferite. Cu mai mare sau mai mic regularitate ele
trec de la un mod de comportament la altul, cunosc sezoane. Denumirea vine desigur de la
anotimpuri i ntr-adevr cele mai clare exemple se leag de anotimpuri. Astfel, recunoatem
sezonalitate la consumul de bere lunar, la costurile de nclzire sau consumul de ap cald
menajer. Aceste sezonaliti sunt foarte simplu de vzut grafic i de explicat dar nu mai puin
importante. Identificarea sezonalitii se face cel mai adesea grafic fr a mai recurge la alte
metode statistice. Graficele liniare ale seriei de timp pot ajuta aici, dar mai bine se vede din
grafice suprapuse ale fragmentelor sezonale ale seriei de timp. Astfel se pot suprapune de
166
exemplu linii reprezentnd ani, pentru seriile de timp cu date cu frecven lunar. Exist ns
i alte metode. De menionat ar fi corelaia de fragmente de serii de timp pentru intervalele de
sezonalitate. Astfel se construiete un set de date care pune unele lng altele valorile pentru
aceleai luni ale unui an (sau aceleai ore ale unei zile, etc.) i se calculeaz corelaia.
Mai jos, un grafic cu sezonalitate reprezentnd temperaturile culese din or n or de ctre
staia de monitorizare a energiei solare a Universitii de Vest din Timioara. Datele sunt
pentru toate zilele lunii mai a anului 2010.

Pe urmtorul grafic vom suprapune zilele, fiecare linie corespunde unei singure zile. Orele
corespunztoare apar la aceiai valoare de pe axa abscisei. Pe acest al doilea grafic
sezonalitatea este poate chiar mai uor de vzut.

167


S mai dau un exemplu simplu din care s rezulte i scopul identificrii sezonalitii. tim
astfel c exist sezonalitate n activitatea n construcii i agricultur ceea ce face ca veniturile
populaiei cu angajare sezonier s creasc, chiar cu o cretere a unui anumit produs intern
nedeclarat. Aceasta face ca pentru o serie ntreg de indicatori economici i nu numai, o lun
de var s nu poat fi comparat cu o lun de iarn. Culegerea unor informaii cu scopul
comparrii lor va trebui s in cont de efectele de sezonalitate chiar i cnd ele se refer la
obiceiurile de consum cultural, la cumprturi sau opinii. De regul modelarea datelor cu
sezonalitate se face simplu prin separare sau prin introducerea n model a unor variabile
dummy (adic avnd valorile 0 i 1) care s indice sezon i extrasezon. Aceasta se poate
de exemplu face la modele de regresie de orice tip. Exist i modele mai complexe care
trateaz conceptul de sezonalitate. Nu ne vom ocupa de ele aici. Pentru cei interesai sunt de
cutat modele ciclostaionare sau sinusoidale. De asemenea exist studii legate de estimarea
densitii spectrale care pot ajuta la modelarea seriilor de timp cu sezonalitate.

c. Cointegrare
168

Un alt concept important n analiza seriilor de timp este cel de cointegrare. Relativ uor de
explicat dup cel de staionaritate, cointegrarea spune ceva despre relaia mai multor serii de
timp. Anume spunem c mai multe serii de timp sunt cointegrate dac exist o combinaie
linear a lor care este staionar. De regul cointegrarea se calculeaz pentru dou serii de
timp. Dac modelul se aplic la mai multe serii vorbim despre multicointegrare. De asemenea
exist i un sens mai general al termenului de cointegrare care se leag de integrarea seriilor
de timp de nivel k, o teorie pe care nu o voi mai descrie aici. Integrarea de ordin k este de fapt
aproape acelai lucru ca i staionaritatea de lag k. Atunci dou serii de timp sunt cointegrate
dac exist o combinaie liniar care are un ordin de integrare mai mic dect ordinele de
integrare ale celor dou serii de timp. Sun puin complicat, dei conceptual e simplu, sau e
simplu mcar n varianta mai puin general. Fie deci, t si s dou variabile serie de timp, o
combinaie liniar este atunci orice variabil care se poate calcula dup o formul de forma: at
+ bs, unde a i b sunt pur i simplu numere oarecare (n matematic le-am zice scalari pentru
c nu sunt variabile statistice, aleatoare). Dac variabila care rezult din calcul e staionar
cele dou variabile iniiale sunt cointegrate. Dou ntrebri se pun atunci. Una e: de unde s
tim asta? A doua: i ce dac?

Pentru prima ntrebare rspunsul e destul de simplu. Exist teste de cointegrare. Cele mai
cunoscute sunt testul Engle-Granger si testul Johansen, cu varianta Johansen-Juselius. Testul
lui Johansen este mai general si mai simplu. Testul Engle-Granger necesit egalitate a
ordinelor de integrare a celor dou variabile testate. Testul Johansen sau Johansen-Juselius nu
ne mai cere s problematizm aceasta. Ipoteza lui este pur i simplu c seriile de timp sunt
cointegrate. Testul de regul raporteaz valorile critice i valoarea de test. Dac valoarea de
test e mai mare dect valoarea critic se poate respinge ipoteza, adic se poate decide c cele
dou serii de timp nu sunt cointegrate.

Pentru a doua ntrebare trebuie s revenim la o tem pe care am tratat-o deja, cea a corelaiei
sau regresiei false. Poate i mai aduce cineva aminte de exemplul cu berzele care aduc
copii. Problema este i mai serioas i mai complex n cazul seriilor de timp: pe de o parte
pentru c decurgerea temporal este singurul mod de a ne apropia statistic de cauzalitate, iar
apoi pentru c seriile de timp sunt mult mai adesea supuse problemei autocorelaiei dect alte
seturi de date (despre aceasta ns n seciunea urmtoare a acestui capitol). Pe paginile 14-15
ale acestei cri am dezvoltat puin conceptul de asimetrie temporal a cauzalitii. S ne
169
aducem pe scurt aminte despre ce era vorba: este pur i simplu transcrierea faptului c o cauz
trebuie s precead efectul ei. Cum statistica formuleaz adesea cam ciudat, de fapt definiia
corect ar fi: dac un eveniment A are loc dup un eveniment B, A nu poate fi cauza lui B.
Observm c aceast transcriere de fapt formuleaz idea in mod negativ. Adic spune cnd un
eveniment nu poate fi cauza altuia. Respinge deci o ipotez, aceea c A cauzeaz B. Tot in
paginile menionate, am discutat i despre cum acest principiu duce la o analiz a primelor
diferene ale seriilor de timp. Atunci nc nu le-am spus astfel, dar ntre timp am introdus
conceptul i ne putem referi la el astfel. Principiul este legat de relaia de cauzalitate dintre
variabile i nu dintre evenimente punctuale. Rar ne intereseaz relaia dintre evenimente, mult
mai des cea dintre caracteristici populaionale. n exemplul de pe pagina 14 am povestit
despre relaia dintre bunstare i ateptarea de via. Relaia este statistic valid n multe
populaii, dar felul cum are loc cauzalitatea poate avea diferite explicaii. Modelarea statistic
poate s mai elimine dintre acestea respingndu-le.

Hai s lum un alt exemplu pentru a-l discuta acum dup ce avem mai multe cunotiine
despre seriile de timp. n primul rnd doresc s tematizez relaia dintre cauzalitate i
cointegrare. Fie atunci urmtoarele dou serii de timp: numrul celor care vor s studieze la
facultate ingineria i numrul absolvenilor de inginerie care sunt omeri. Ar putea s existe o
relaie ntre aceste dou serii de timp aa cum s-ar putea s nu fie nici o legtur intre ele. S
vedem prima dat cum ambele direcii cauzale au sens. Numrul de ingineri omeri ar putea
s depind de numrul de absolveni de inginerie care la rndul lui ar putea s depind de
numrul studenilor n inginerie, care la rndul lui ar putea depinde de numrul celor ce vor s
studieze tiinele inginereti. Nici care din aceste trei relaii cauzale nu este o dependen
total, dei ar putea prea. Numrul de ingineri omeri nu trebuie neaprat s depind de
numrul de absolveni. Astfel, absolventul de inginerie ar putea fi mai bine echipat pentru
piaa muncii dect ali absolveni (de litere sau filosofie, i oricum dect cei fr studii
13
) i ca
atare numrul de absolveni de inginerie s se rsfrng pozitiv pe piaa muncii, independent
de conjunctura economic. Tot aa numrul celor care vor s studieze inginerie nu a avut nici
o influen asupra numrului de studeni n inginerie n toi anii comunismului, deoarece
numrul de locuri era fixat birocratic i oricum mai mic dect numrul celor care vroiau s
studieze. n fine, nici numrul de absolveni nu trebuie neaprat s fie o funcie direct a
numrului de studeni. Totui nici care dintre cele trei relaii din acest lan cauzal nu poate fi

13
Dei poate surprinde, ponderea omerilor este mai mic pentru absolvenii oricror studii academice dect
pentru cei fr studii. Acest rezultat se regsete n toate cercetrile, indiferent de ar i ani.
170
una de independen. Ca atare o cauzalitate statistic este probabil. Trebuie ns gsit o cale
pentru a vedea ct de puternic este aceast relaie.

Mai interesant este probabil relaia n sens invers. Are vreo legtur numrul celor care vor
s studieze inginerie cu numrul de ingineri omeri? Pentru a decide plauzibilitatea teoretic a
acestei cauzaliti trebuie s gndim puin la nivelul deciziei individuale de studiu. Elevul,
absolvent de liceu, familia lui, prieteni, rude, vecini, toi sunt intr-un fel sau altul implicai,
explicit sau implicit n luarea deciziei. Ce s studieze copilul? Motive i motivaii sunt
diverse, de la oportuniti i costuri, la distane i tentaii. Existe argumente legate de o
potenial carier i argumente legate de o anumit activitate vzut ca tentant. Exist (rar)
curioziti tiinifice i tradiii familiale. Oare conteaz i numrul de omeri? Poate pentru
unii conteaz i pentru alii nu. Este ns disponibil o astfel de informaie? tiai cnd v-ai
nceput studiile ci sociologi sau politologi omeri sunt n Romnia? tii acum? i totui,
poate pentru ingineri e altfel. Sau, mai plauzibil, se poate rspndi o opinie, chiar i inexact,
prin mass-media. O astfel de opinie de genul vai de noi, e plin ara de ingineri omeri ar
putea inhiba alegerea unei anumite discipline de studiu. Pe astfel de lanuri cauzale numrul
de omeri real (i reprezentarea lui n media) ar putea avea efect asupra numrului celor care
vor s studieze. Deci motivaiile teoretice exist pentru ambele direcii. Dac numrul celor
care vor s studieze ar avea efect pe numrul de omeri, o schimbare radical s-ar repercuta
dup mai muli ani. S presupunem c numrul celor ce vor/pot s studieze crete foarte tare,
cum a fost n anul 1990, de exemplu, pn ca aceasta s se repercuteze asupra numrului de
omeri vor trece cel puin vreo 5 ani (durata normal a studiilor din anii aceia). Deci ar trebui
sa relaionm numrul celor care ncep studiile n 1990 cu numrul de omeri n 1995 sau
chiar 1996. Invers relaia e mai imediat, numrul omerilor din 1995, de exemplu, ar avea
efect asupra numrului celor ce i-ar ncepe studiile n toamna din acelai an. Deoarece
ambele direcii cauzale sunt plauzibile ceea ce se produce este un sistem circular de cauzaliti
cu diverse nivele de ntrziere, de lag, n termeni statistici. Fiind vorba despre puterea cu care
o variabil o determin pe alta, aici cel mai potrivit ar fi un model de regresie, aa cum am
discutat deja i cum vom discuta n urmtoarea seciune. Unii i aduc desigur aminte de
coeficientul de determinare R
2
care putea s spun tocmai ct de puternic este o relaie de
dependen modelat cu o regresie. Dar de unde am putea tii c ceea ce modelm nu este o
relaie fals, aparent. Un rspuns simplu este: pentru c avem un bun motiv teoretic. Un
rspuns mai puin simplu, dar pentru unii mai convingtor este urmtorul: dac cele dou serii
de timp sunt staionare sau cointegrate relaia identificat ntre ele nu este un fals. Pentru a
171
stabili puterea relaiei se poate folosi atunci un alt model, de regul o regresie. Formulat puin
altfel: s presupunem c am identificat o corelaie (sau regresie) ntre dou variabile serii de
timp. Dac cele dou serii de timp sunt staionare relaia este sigur genuin, dac nu sunt
ambele staionare, ns sunt cointegrate relaia este de asemenea genuin. Dac nu sunt nici
staionare nici cointegrate nu putem tii dac relaia identificat nu este cumva fals. Nu m
pot ns abine s nu repet: dup prerea mea relaiile false sunt foarte rare, poate chiar
inexistente i mascheaz doar lanuri cauzale mai complexe sau lenea de a identifica lanul
cauzal.

d. Regresii cu serii de timp

Nu exist motive generale teoretice pentru ca regresiile cu serii de timp s nu poat fi
calculate ca orice alte regresii. Problema ce apare este ns faptul c premisele Gauss-Markov
necesare aplicrii metodei celor mai mici ptrate sunt mult mai adesea nendeplinite n cazul
seriilor de timp dect n cazul altor date statistice i pentru aceasta exist bune motive.
S ne reamintim prima dat, care sunt condiiile acestea:

Variabilele aleatoare abatere
i
au media 0.
Variabilele aleatoare abatere
i
au o dispersie finit egal pentru toi indicii i. Aceasta se
numete homoschedasticitate (sau omogenitate a dispersiei).
Variabilele aleatoare abatere
i
snt necorelate ntre ele. Condiia se mai numete absena
autocorelaiei.

Tipic pentru seriile de timp este prezena autorcorelaiei. Motivul este urmtorul: ntr-un set
de date uzual fiecare linie reprezint informaii despre un membru al populaiei: un om, o
intreprindere, o pisic, etc. Putem de regul s considerm linitit c informaiile sunt mai
mult sau mai puin independente. Greutatea unei pisici nu trebuie s aib vreo legtur cu a
alteia, opinia politic a unui intervievat poate fi mai mult sau mai puin independent de cea a
altuia, obiectul de activitate al unei intreprinderi nu are legtur cu cel al altei intreprinderi din
eantion. n cazul seriei de timp liniile setului de date sunt valori consecutive ale unei
variabile pentru acelai subiect al cercetrii. Numrul de studeni dintr-un an depinde puternic
de numrul din anul precedent. Rata de schimb dintr-o zi depinde puternic de rata din ziua
precedent i aa mai departe. De aici rezult autocorelaia.

172
Ca atare, regresia linear simpl merit ncercat i cu serii de timp, dar ntotdeuna trebuie
efectuate testele de homoschedasticiate (Breusch-Pagan) i autocorelaie (Durbin-Watson).
Am prezentat pe scurt aceste teste n capitolul dedicat regresiei lineare. n cazul n care aceste
condiii nu sunt ndeplinite trebuie sa cutm soluii alternative de analiz a datelor.
Varianta cea mai simpl este regresia primelor diferene. Se mai folosesc ns i alte metode,
cum ar fi modelele AR, ARMA, ARIMA i VAR.

Regresia primelor diferene construiete logic pe principiul asimetriei cauzale i, n loc s
analizeze relaia dintre variabile, analizeaz relaia dintre creterile variabilelor, adic
diferenele fa de momentul precedent al seriei de timp. Daca regresia simpl ar fi pentru
fiecare punct de date:

y
t
= a + b x
t
+ e
t


regresia primelor diferene se scrie:

y
t
y
t-1
= a + b (x
t


x
t-1
)+ e
t


Observm c variabilele au fost nlocuite cu diferenele fa de valorile precedente. Matematic
aceasta se scrie i astfel:

y = a + b x

+ e
t


Semnul este litera greceasc delta i nseamn diferen. Regresia primelor diferene este n
general considerat un mai bun indicator al unei relaii cauzale i, n plus reuete de regul s
elimine problema autocorelaiei. Dac aceasta nu s-a ntmplat trebuie cutat un alt model.
Problema mai spinoas a regresiei primelor diferene este ns faptul c este un model foarte
restrictiv. Adic foarte multe relaii care par puternice pentru regresia simpl i sunt i teoretic
plauzibile sunt respinse de ctre regresia primelor diferene. n aceste cazuri consider c cel
mai corect este s continum s incercm i alte modele, cel mai la ndemn fiind modelul
VAR. n fine, dac aceasta nu este posibil sau rezultatele rmn neconcludente, rezultatul bun
al regresiei simple necorelat ns de un rezultat al regresiei primelor diferene se citete de
regul ca fiind un paralelism nesusinut de o relaie cauzal direct dar care nu e neaprat o
fals relaie. Este de exemplu posibil existena unui lan cauzal complex, sau mai plauzibil a
173
unui arbore cauzal n care cele dou variabile au cauze comune. Aici devin utile pentru o
analiz mai amnunit testele de staionaritate i cointegrare, precum desigur i o serioas
considerare a caracterului teoretic al datelor. ntotdeuna trebuie s ne punem problema ce am
msurat de fapt i ce nsemntate au variabilele pentru ceea ce dorim s aflm.

Modelele de regresie avansate cu serii de timp (AR, VAR, ARMA i ARIMA) se mai
numesc uneori i modele Box-Jenkins i extind n mare conceptul de diferen din mai
simplul model prezentat anterior. Modele AR, ARMA i ARIMA analizeaz dezvoltare unei
serii de timp. Aceasta are loc prin inluderea n model a unei componente AR. Observai
literele n toate denumirile de mai sus. AR desemneaz un proces autoregresiv, adic ia n
seam exact principala problem a regresiei seriilor de timp. Variantele mai complexe
consider modele vector-autoregresive, adic analiznd mai multe variabile (VAR), cu medie
glisant (autoregressive moving average - ARMA) sau cu medie glisanta integrat
(autoregressive integrated moving average - ARIMA). Modelele se gsesc implementate n
practic toate pachetele de soft-ware statistic i se analizeaz aproape ca i regresiile obinuite.

Definirea modelului necesit ns cteva consideraii suplimentare:
Componenta AR: trebuie specificat cte valori anterioare (lag-uri) dorim s lum n
seam. Dac am fcut n prealabil o analiz de staionaritate de trend se alege numrul
de lag-urile astfel nct s se elimine trend-ul. Astfel dac seria de timp era staionar
nici nu e nevoie de component AR se alege valoarea 0, dac seria era trend staionar
de lag 1, lum AR = 1 i aa mai departe. Alegerea se face astfel pentru ca s ne
asigurm c eliminm autocorelaia. Dac nu am efectuat testul de staionaritate lum
de regul AR = 1. Modelele care au numai componenta AR au urmtoarea form:

Valoarea n este numrul de lag-uri ales.
Componenta MA: se consider c exist o perioad de echilibrare a mecanismului de
dezvoltare a variabilei, ca atare se face media de o perioad de civa ani i se
analizeaz aceast medie care gliseaz. Un exemplu: dac analizm sistemul colar
merit s considerm seria de timp ca medie glisant de durata colarizrii. Problema
teoretic este ns cea care trebuie s dicteze aici alegerea modelului i a numrului de
ani care intervin n media glisant. Modelele care au numai componenta MA au
forma:
174


Modelele ARMA reunesc cele dou componente de mai sus:

Modelele ARIMA includ n plus i componenta I care permite descrierea unor modele
cu trend cunoscut. Pe lng specificarea valorilor pentru AR i MA, aici se mai adaug
aa-zisa valoare pentru I care poate fi 0 pentru absena de trend (staionaritate), 1
pentru un trend linear i 2 pentru un trend ptratic. De regul modelele ARIMA se
specific printr-un triplet (p, d, q) unde p reprezint partea AR, d partea I i q partea
MA. Astfel avem i urmtoarele echivalene ARIMA (1, 0, 0) = AR (1) sau ARIMA
(0, 0, 4) = MA (4).
Modelele VAR permit folosirea tehnicii AR pentru a analiza mai multe serii de timp
una lng alta creind astfel posibilitatea analizei relaiilor dintre ele. Modelarea VAR
este adesea urmat de analiza cauzalitii Granger. Testul de cauzalitate a lui Granger,
menionat deja, se bazeaz n calcul pe rezultatele modelului VAR i este cea mai
puternic metod pe care o avem pn acum la dispoziie pentru a verifica relaii de
cauzalitate ntre serii de timp.

Pentru o introducere n analiza seriilor de timp cred c am povestit destule, desigur pentru
utilizarea lor ar mai fi loc de ceva informare. Exist cri foarte bune de statistica seriilor de
timp, din pcate ns nu tiu s se fi publicat careva n traducere romn. Pn cnd s apar
ceva i la noi gsii la bibliografie cteva propuneri n limba englez.

175
e. Analiza de supravieuire

Analiza de supravieuire este desigur rezultat din cercetarea statistic medical n special i
biologic n general, dar n ultimii ani a fost folosit n multe studii din domeniul ecologiei, a
economiei, a sociologiei, etc.

Cred c cel mai uor a putea explica analiza de supravieuire chiar pornind de la problema
medical pentru care a fost dezvoltat. Avem deci un lot de persoane care ia un anumit
tratament i un lot, aa zis martor, care nu ia respectivul tratament. ntrebarea care se pune
este dac a folosit la ceva tratamentul, adic a schimbat ansele de supravieuire. Culegem
date n serie de timp despre pacieni i notm momentul n care are loc decesul (sau revenirea
bolii). Metoda trebuie s ne poat spune dac tratamentul a crescut ansa de supravieuire sau
nu, i pe ct posibil i cu ct a crescut ansele. De la aceast construcie de baz a problemei
se pot face apoi diverse variante fr a schimba metoda. De exemplu: poate s nu fie un
tratament ci pur i simplu o caracteristic care separ cele dou grupuri: adic putem compara
riscurile de deces pentru femei i brbai, sau pentru fumtori i nefumtori, sau blonzi i
brunei, i aa mai departe. Sau putem s nu urmrim decesul pacienilor ci orice alt
eveniment care se poate fixa pe axa timpului, astfel am putea analiza riscul de a cstori a
celor cu ochi albatrii fa de cei cu ochi cprui, sau riscul de a cumpra o carte a celor cu
studii medii fa de cei cu studii superioare. n fine, cu o dezvoltare ceva mai complex a
metodologiei putem s facem chiar mai mult dect s comparm dou grupe. Anume, s
vedem cum este influenat riscul de nbolnvire (sau de a se cstori, totuna) de ctre o
variabil numeric, de exemplu vrsta sau venitul sau numrul de la pantofi.
Tot aa metoda va putea analiza nu numai situaii legate de persoane, ci i populaii de
ntreprinderi sau asociaii sau chiar de animale sau echipe de fotbal.

S vedem prima dat cum trebuie s arate datele de care avem nevoie. n primul rnd avem
nevoie de un eantion sau un lot. n cercetarea medical n special nu avem dect foarte rar
posibilitatea de a construi eantioane statistic relevante. Culegem datele de la pacienii care
vin cu o anumit boal ntr-o anumit secie, ei se reprezint pe sine i nu sunt n vreun fel
reprezentativi pentru o populaie mai mare. Dac acesta e cazul vorbim despre un lot. Nu are
prea mare relevan ct de mare e lotul, rezultatele oricum nu se extrapoleaz. Astfel, ca s ne
exprimm corect, va trebui s formulm ceva de genul: n lotul studiat tratamentul cu X scade
riscul de reapariie a bolii cu 5%. Totui nu putem s nu implicm n oarecare msur
176
generalizarea i pentru aceasta este de dorit ca mcar s nu avem o culegere biasat a datelor,
adic s lum toate cazurile care apar i s nu ocolim cele care nu ne plac, indiferent de
motive. Pentru fiecare dintre pacieni vom culege apoi datele la momente regulate de timp: de
exemplu, din lun n lun, sau din an n an. Intervalul de culegere al datelor depinde desigur
de punerea problemei. Definim o variabil special pe care o numim de exemplu DECES sau
RELAPS sau cum o fi cazul, NUNTA de exemplu. Aceast variabil va avea mereu valoarea
0 cu excepia culegerii de date la care se constat apariia evenimentului. Atunci punem
valoarea 1. Vom avea desigur i o variabil care descrie timpul i o variabil care identific
subiectul, pacientul. Astfel datele vor avea o structur asemntoare datelor de tip panel.
Diferena esenial este faptul c nu avem un panel complet, o matrice complet. Date pot
lipsi fie pentru c a intervenit evenimentul fie pentru c anumii pacieni au disprut din
urmrire. Aceste situaii se numesc n analiza de supravieuire cazuri cenzurate.

n esen pentru analiza de supravieuire folosim trei tehnici: tabele de supravieuire, numite i
tabele de timp de via (life-time tables), teste de comparaie ntre loturi (cel mai des testele
Cox sau generalizri ale deja cunoscutului test Wilcoxon) i regresia Cox care estimeaz
modificarea riscului n funcie de valori ale unor variabile.

Tabele de timp de via

Majoritatea soft-urilor statistice ofer aceast posibilitate sub numele de life-time tables.
Pentru calcul se specific lotul cu variabila timp, variabila care definete subiecii i variabila
binar care definete evenimentul. Rezultatul, de ast dat din Stata, arat astfel:

. ltable year failure if control_recoded == "Private non profit", survival

Beg. Std.
Interval Total Deaths Lost Survival Error [95% Conf. Int.]
-------------------------------------------------------------------------------
1980 1981 36908 0 1409 1.0000 0.0000 . .
1984 1985 35499 11 1639 0.9997 0.0001 0.9994 0.9998
1985 1986 33849 89 1496 0.9970 0.0003 0.9963 0.9975
1986 1987 32264 19 1235 0.9964 0.0003 0.9957 0.9970
1987 1988 31010 39 1523 0.9951 0.0004 0.9943 0.9958
1988 1989 29448 36 1714 0.9939 0.0004 0.9929 0.9947
1989 1990 27698 35 1731 0.9926 0.0005 0.9915 0.9935
1990 1991 25932 29 1818 0.9914 0.0005 0.9903 0.9924
1991 1992 24085 26 1859 0.9903 0.0006 0.9891 0.9914
1992 1993 22200 59 1937 0.9875 0.0007 0.9861 0.9888
1993 1994 20204 33 1984 0.9859 0.0007 0.9843 0.9872
1994 1995 18187 46 1969 0.9832 0.0008 0.9815 0.9848
1995 1996 16172 47 2057 0.9802 0.0009 0.9782 0.9819
1996 1997 14068 40 2114 0.9771 0.0011 0.9750 0.9791
1997 1998 11914 29 2030 0.9745 0.0012 0.9722 0.9767
2000 2001 9855 286 3985 0.9391 0.0023 0.9343 0.9435
2002 2003 5584 86 1804 0.9219 0.0029 0.9159 0.9274
2003 2004 3694 0 1867 0.9219 0.0029 0.9159 0.9274
2004 2005 1827 0 1827 0.9219 0.0029 0.9159 0.9274

177

Datele din tabel se refer la supravieuirea universitilor private din Statele Unite n
intervalul de timp 1980 2005. S vedem ce e de citit din tabel. Primele dou coloane dau
intervalele de timp n care au loc evenimente, apoi urmeaz numrul total de date (adic nu
numrul de subieci, ci subieci ori ani de via). Numrul de decese ce au loc n fiecare an
apar n coloana Deaths, apoi ne mai intereseaz coloana Survival care ne d rata cumulat de
supravieuire. Tabela este de obicei acompaniat de o reprezentare grafic.

.
9
2
.
9
4
.
9
6
.
9
8
1
P
r
o
p
o
r
t
i
o
n

S
u
r
v
i
v
i
n
g
1980 1985 1990 1995 2000 2005
year


Graficul reprezint tocmai modificarea n timp a valorii Survival din tabel. Aceasta d riscul
de deces cumulat de la nceputul perioadei pn la momentul specificat. Astfel valoarea
0,9802 pentru anul 1996 nseamn c ansa ca o universitate privat american care exista n
1980 s mai existe i n 1996 era de 0,9802. Pentru toat perioada studiat, deci de la 1980 la
2005 ansa unei universiti private americane s supravieuiasc este de 0,9219. Tabela i
graficul nu spun poate mare lucru. Se observ doar o catastrof pentru anul 2000, cnd au
disprut mult mai multe universiti private (286) dect n ali ani. Aceasta ar trebui studiat
mai n amnunt pentru c ar putea avea motive administrativ birocratice. De exemplu
organizaiile cu pricina s-ar putea s dispar numai din statisticile oficiale i s nu se nchid
cu adevrat. Tabela (i desigur graficul aferent) devin interesante cnd sunt folosite
comparativ. De exemplu dac lng datele pentru universitile private punem datele pentru
178
universitile de stat. Atunci rata de supravieuire devine o informaie interesant. ntra-
adevr, tiind c rata de supravieuire pentru universitile de stat americane pentru exact
aceiai perioad de timp este de 0,9810, rata de supravieuire a celor private pare deja foarte
mic.

. ltable year failure if control_recoded == "Public", survival

Beg. Std.
Interval Total Deaths Lost Survival Error [95% Conf. Int.]
-------------------------------------------------------------------------------
1980 1981 13522 0 639 1.0000 0.0000 . .
1984 1985 12883 2 716 0.9998 0.0001 0.9994 1.0000
1985 1986 12165 62 615 0.9946 0.0007 0.9931 0.9958
1986 1987 11488 4 470 0.9943 0.0007 0.9927 0.9955
1987 1988 11014 9 635 0.9934 0.0007 0.9918 0.9947
1988 1989 10370 7 616 0.9927 0.0008 0.9910 0.9941
1989 1990 9747 3 602 0.9924 0.0008 0.9906 0.9939
1990 1991 9142 2 655 0.9922 0.0008 0.9904 0.9937
1991 1992 8485 2 655 0.9919 0.0008 0.9901 0.9934
1992 1993 7828 0 663 0.9919 0.0008 0.9901 0.9934
1993 1994 7165 2 657 0.9917 0.0009 0.9898 0.9932
1994 1995 6506 3 655 0.9912 0.0009 0.9892 0.9928
1995 1996 5848 0 666 0.9912 0.0009 0.9892 0.9928
1996 1997 5182 4 692 0.9904 0.0010 0.9882 0.9921
1997 1998 4486 8 698 0.9884 0.0012 0.9858 0.9906
2000 2001 3780 8 1388 0.9859 0.0015 0.9826 0.9885
2002 2003 2384 10 736 0.9810 0.0021 0.9763 0.9848
2003 2004 1638 0 845 0.9810 0.0021 0.9763 0.9848
2004 2005 793 0 793 0.9810 0.0021 0.9763 0.9848

Mai mult putem contribui cu informaii relevante legate de comparaia universitilor private
i de stat din Statele Unite. Se dovedete c universitile de stat sunt mai solide, mai
rezistente, mai puin supuse riscului de a se nchide. Putem chiar spune c nu este adevrat c
universitile private sunt mai adecvate condiiilor pieei educaiei superioare din Statele Unite
dect cele de stat, ceea ce respinge o ipotez destul de des vehiculat. Care sunt motivele
pentru acest fapt este desigur de discutat: probabil conteaz faptul c universitile private
sunt foarte diverse, de caliti foarte diferite, dar i faptul c cele de stat sunt sprijinite chiar
dac sunt mai mici, sau au doar o relevan local.

Teste de comparaie a ratei de supravieuire

Comparaia fcut mai sus este ns una care nu ia n considerare vreun calcul de relevan
statistic pentru a putea calcula mai corect ce diferen de rat de supravieuire este cu
adevrat semnificativ ar trebui s folosim un test statistic. Testele cele mai uzuale sunt testul
Wilcoxon (Breslow) care este o adaptare a lui Brelow la testul deja prezentat al lui Wilcoxon,
precum i testul Cox, bazat pe analiza regresiei Cox despre care vom vorbi puin mai ncolo.
Ambele teste au ipoteze similare i dau rezultate similare. Ipoteza H
0
este ntotdeuna:
grupurile care se compar au aceiai rat de supravieuire. Pentru aceasta se iau n seam:
numrul de decese pentru fiecare grup i se compar cu o metod tip Chi
2
cu valorile care se
179
prezic dac ratele de supravieuire ar fi egale i nu ar conta diferenele dintre grupuri. Ca de
obicei testul ne d o significan. Cu ct e aceasta mai mic cu att mai sigur putem s
respingem ipoteza nul. Iat de exemplu rezultatele pentru ambele teste pentru datele despre
universiti americane:

Wilcoxon (Breslow) test for equality of survivor functions

| Events Events Sum of
Control | observed expected ranks
-------------------+--------------------------------------
Private for profit | 163 138.45 61080
Private non profit | 786 696.03 269765
Public | 107 221.52 -330845
-------------------+--------------------------------------
Total | 1056 1056.00 0

chi2(2) = 65.29
Pr>chi2 = 0.0000


Cox regression-based test for equality of survival curves

| Events Events Relative
Control | observed expected hazard
-------------------+--------------------------------------
Private for profit | 163 138.45 1.2392
Private non profit | 786 696.03 1.1886
Public | 107 221.52 0.5081
-------------------+--------------------------------------
Total | 1056 1056.00 1.0000

LR chi2(2) = 88.66
Pr>chi2 = 0.0000

Se observ faptul c testele seamn extrem de mult. Valorile prezise sunt aceleai pentru
ambele teste. De exemplu: dac ansele de supravieuire ar fi egale pentru toi ar fi trebuit s
se nchid 221 de universiti de stat, n realitate s-au nchis numai 107, i aa mai departe.
Diferenele dintre teste apar numai la ultima coloan a tabelei de rezultate: la Wilcoxon, care
e test non-parametric, se calculeaz o transformare n ranguri a funciei de supravieuire
pentru subieci i se adun rangurile pentru fiecare grup n parte similar cu metoda Wilcoxon
general despre care am discutat n capitolul 7. Metoda este deci adecvat pentru orice
distribuii, aa cum era i testul Wilcoxon n general. La testul Cox se calculeaz riscurile
relative care sunt de fapt mai uor de neles. Dac la egalitate de anse trebuiau s se nchid
221,52 universiti de stat i de fapt s-au nchis 107, riscul relativ este de 107 mprit la
221,52 i normalizat, adic transformat astfel nct suma tuturor riscurilor s dea 1. Deci
riscul relativ este numrul de evenimente ntlnite mprit la numrul de evenimente prezise
i apoi transformat n probabilitate.

Una peste alta, metoda Wilcoxon se poate aplica oricnd, dar d o valoare de Chi
2
mai mic,
aa nct unele situaii care pot fi significant diferite conform testului Cox s nu ias
significante la testul Wilcoxon. Metoda Cox este deci mai puternic dar nu poate fi folosit n
180
orice condiii. Din listarea de mai sus, fie ea a testului Wilcoxon, fie a testului Cox citim
valoarea significanei, adic valoare care e specificat cu Pr>chi2. n exemplul de mai sus ea
este foarte bun att la unul ct i la cellalt dintre teste (valorile sunt ambele 0,0000). Deci
ratele de supravieuire pentru universiti publice, private non-profit i private profit sunt
statistic significant diferite. Ipoteza c ratele ar fi nesemnificativ diferite se poate respinge cu
o probabilitate de a grei de mai puin de 0,0000!

Cum se schimb riscul de deces sub impactul unei variabile numerice

Uneori nu dorim doar s comparm dou sau mai multe grupuri, cum aprea n cazul testelor
de mai sus. Un pas mai departe este s vedem cum influeneaz ansele de supravieuire o
caracteristic care are caracter numeric. Continund cu exemple din aceiai cercetare, nu doar
s comparm universiti private cu universiti publice, ci s vedem cum influeneaz
supravieuirea variabile cum ar fi vrsta unei universiti, numrul de studeni i de cadre
didactice sau veniturile universitii. Ca s dau i un exemplu medical: uneori nu ajunge s
comparm riscurile de deces la fumtori i nefumtori ci dorim s analizm modificarea
riscului n funcie de numrul de igri fumate pe zi. Pentru astfel de calcule se folosete o
variant a regresiei, numit regresie Cox. Regresia Cox analizeaz cum se schimb o funcie
h, numit i funcie hazard (sau risc) la schimbri ale unor variabile. Formula este:

Formala n sine nu e prea important de reinut dar are totui dou caracteristici eseniale: n
primul rnd s observm c se bazeaz pe riscul relativ calculat fa de o funcie h
0
. Aceasta
se numete i baseline hazard, sau funcie hazard de baz i teoretic se consider cunoscut.
n realitate nu trebuie sa ne batem prea tare capul cu ea. Funcia de baz se calculeaz pentru
supravieuirea indivizilor fr a lua n seama caracteristica studiat. Aceasta intervine apoi n
forma exponenial din a doua parte a formulei. Caracteristica studiat (de ex: numrul de
igri pe zi, sau vrsta) este valoarea z
i
iar coeficientul ei este . Att z ct i pot fi
multidimensionali, dac vrem s analizm impactul mai multor variabile asupra supravieuirii.
S vedem ns partea cea mai important: cum se citesc rezultatele. Mai jos am introdus un
fragment din listingul rezultat dintr-o regresie Cox pentru supravieuirea universitilor
particulare din Statele Unite n funcie de vrsta lor:

Cox regression -- Breslow method for ties

No. of subjects = 2644 Number of obs = 32879
No. of failures = 786
181
Time at risk = 4692312.979
LR chi2(1) = 1068.44
Log likelihood = -5467.6987 Prob > chi2 = 0.0000

------------------------------------------------------------------------------
_t | Haz. Ratio Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
age | .9438219 .0035411 -15.41 0.000 .9369069 .9507879
------------------------------------------------------------------------------

Am colorat galben fondul valorilor care ne intereseaz pentru interpretarea testului. Ca i n
exemplele precedente cutm prima dat significana modelului. Ea apare sub forma Prob >
chi2 = 0.0000, deci o valoare deosebit de bun. Adic putem respinge cu un grad foarte mare
de siguran faptul c supravieuirea este independent de vrst. Cu ct contribuie ns vrsta
la modificarea riscului? Pentru a stabili aceasta cutm valoarea hazard ratio, care apare Haz.
Ratio i este egal cu .9438219.

Valoarea se citete astfel: valoarea baseline este ntotdeuna socotit ca fiind 1. Orice rat de
hazard mai mare dect 1 nseamn c valori mai mari ale variabilei studiate duc la un risc
crescut, o rat mai mic dect 1 nseamn c valori mai mari ale variabilei studiate duc la un
risc mai mic. n exemplul nostru rata de hazard este 0,94, o valoare mai mic dect 1. Aceasta
nseamn c vrsta mai mare a universitii reduce riscul de nchidere al ei. Este un rezultat
ateptat, de altfel, tim c orice organizaie e mai fragil pn este mai nou. Apoi se
stabilizeaz i gsete mai uor resurse de supravieuire. Este ns important i cu ct poate
contribui vrsta la reducerea riscului de nchidere. Pentru aceasta calculm diferena dintre
valoarea standard 1 i riscul calculat 0,94. Rezult 0,06 sau altfel spus 6%. Nu pare mult, dar
nici nu este att de important n sine ct este comparativ cu alte valori din aceiai cercetare.
Astfel putem decide care factori de risc sunt mai importani sau putem compara efectele unor
tratamente. Desigur n situaia unor cercetri medicale concrete deciziile nu se iau cu uurin,
se folosesc eantioane extraordinar de mari i se efectueaz cercetri de mare durat cu
multiple culegeri de date. Metodele nu sunt ns altele. Ceea ce difer este n primul rnd
calitatea datelor i nu metodele de prelucrare a lor.
182
Capitolul 9. Clasificarea datelor

De obicei, clasificarea datelor nu este considerat ca fiind o sarcin a statisticii. Suntem
obinuii s grupm obiecte n categorii pe criterii mai mult sau mai puin explicite i
transparente, dar de regul pentru a face aceasta nu punem la lucru metode de calcul. De altfel
ns, gruparea informaiilor sau obiectelor de orice fel n clase, tipuri, soiuri sau categorii este
poate cea mai important cale de a simplifica realitatea. tiina natural tradiional a fost prin
excelen clasificatorie. Fie c era vorba despre rase de cini, de oameni sau de soiuri de
pomi, secole de-a rndul principala preocupare a tiinei era de a identifica clasa din care fac
parte.

Altfel spus, atunci cnd suntem confruntai cu complexitate, cnd nu tim cum s abordm o
tem, clasificm. Cutm adic s grupm informaia. Vedem un obiect, l identificm cu o
clas de obiecte, un om, cu o categorie social. O facem nu numai atunci cnd dorim s
abordm o problem n mod tiinific, o facem tot timpul, fie c suntem contieni sau nu, fie
c identificm variabilele pe care le folosim ca s clasificm, fie nu. Stm de vorb cu un om,
poate chiar fr a fi contieni i msurm anumite variabile i clasificm: dupa accent,
vocabular, mbrcminte, tunsoare, etc. Apoi cndva, pe baza observaiilor, decidem: brbat,
romn, vrst medie, posibil inginer, bine situat, conservator sau ceva similar. i gata, o dat
interlocutorul nostru clasificat, comportamentul nostru e mai simplu, ne putem baza pe
prejudeci. Scade imprevizibilitatea, nu mai trebuie sa fim foarte ateni la ceea ce spunem,
costurile de acomodare comportamental au sczut semnificativ. Sigur, ansele de a grei sunt
considerabile, dar i efortul clasificator este de obicei mai mult sau mai puin proporional cu
importana consecinelor unei greeli. Unul este efortul pe care l depunem studiind oamenii
cu care stm la coad la ieirea de la super-market, altul efortul pentru interlocutorul de la un
interviu de job.

Diferena dintre acest tip de clasificare spontan i clasificarea tiinific rezid cel mai mult
n contientizarea variabilelor folosite. Clasificarea tiinific este contient, sau trebuie
mcar s fie. Argumentele clasificatorii sunt explicite i eseniale pentru a determina categoria
din care face parte un lucru. Un cine este dog german pentru c are caracteristicile rasei, o
organizaie este un ntreprindere economic pentru c este nscris la registrul comerului, i
aa mai departe. Clasificarea este pn la urm un fel de verificare de definiie, se stabilete
un gen proxim, adic un ansamblu cuprinztor care conine toate clasele nrudite: cini,
183
organizaii sociale, etc. i o diferen specific, adic o caracteristic sau mai multe care
mpart genul n categorii. O clasificare bine fcut trebuie s se supun unor reguli similare cu
cele ale variabilelor statistice nominale (poate cineva i mai aduce aminte). Adic: orice lucru
bine definit trebuie s poate fi incadrat ntr-o clas (completitudine) i ntr-una singur
(disjunctivitate). De regul condiiile acestea sunt suficient de simplu de ndeplinit, dar nu
ntotdeuna i atunci intervine statistica! S lum un exemplu: e uor s mpari organizaiile n
organizaii formale i informale, apoi pe cele formale n ntreprinderi i organizaii non-profit.
n fine i ntreprinderile se pot apoi subclasifica dup diferite criterii simple.

Ce ne facem ns dac criteriile pe care vrem s le urmrim nu sunt tocmai simple? Fie avem
mai multe criterii, fie variabila criteriu are foarte multe valori. Dac vrem s clasificm
intreprinderile dup personal, de exemplu, am avea mii de categorii: intreprinderi cu un
angajat, cu doi, cu trei, i tot aa pn la zeci de mii. Desigur variabila ar trebui recodat,
astfel nct s avem un grup de ntreprinderi cu mai puin de 10 angajai, un grup cu ntre 11 i
100 de angajai i aa mai departe. Dar unde punem punctele de separaie? Cum decidem s
facem grupurile? Ei bine, aici poate interveni statistica. Tot statistica poate interveni cnd
dorim s folosim mai multe criterii, de exemplu: numr de angajai, cifr de afaceri i profit.
Pare de-a dreptul caraghios sa adunm valorile celor trei variabile cu sau fr a pune
coeficieni, dar aa ceva fac de exemplu topurile de universiti.

Statistica poate rezolva luarea n considerare a mai multor criterii de clasificare fr a fi
nevoie s le adune n vreun fel, folosind metode multidimensionale. Matematic acestea nu
sunt foarte simple, dar att aplicarea lor ct i interpretarea rezultatelor este deosebit de
uoar. n fine, al treilea i ultimul motiv pentru a folosi clasificarea statistic este acela c
permite construirea unor categorii n situaii de apartenen imperfect. Ce nseamn asta? S
folosim exemplul precedent. Avem ntreprinderi i vrem s construim cinci categorii:
microntreprinderi, ntreprinderi mici, mijlocii, mari i foarte mari. Clasificarea se va baza pe
mai multe criterii: personal, cifr de afaceri i profit, de exemplu. Am putea mpri fiecare
scal a unei variabile n intervale. De aici pn aici e intreprindere mic, de aici pn aici
mijlocie, i aa mai departe. Problema este c vor fi suficient de multe intreprinderi care dup
un criteriu vor fi mari, dup un altul mici sau mijlocii. Clasificarea nu ar fi univoc. Statistica
permite gsirea categoriei celei mai apropiate sau celei mai potrivite. De asemenea
statistica permite o mai corect alegere a categoriilor gsind felul cum intreprinderile se
grupeaz n funcie de cele trei variabile. Poate nu cele cinci clase menionate descriu cel mai
184
bine populaia intreprinderilor, ci altele. De exemplu: intreprinderi mici neprofitabile,
intreprinderi mici profitabile, intreprinderi mari neprofitabile i intreprinderi mari profitabile.
Prima clasificare presupunea o corelaie ntre numrul de angajai, cifra de afaceri i profit,
cea de a doua clasificare nu.

a. Clustere ierarhice

Principala metod de clasificare a datelor statistice poart denumirea de clustering sau analiz
cluster. Analiza cluster include mai multe tehnici care au toate ca scop gruparea unor obiecte
de studiu pe baza unor variabile. Metoda considerat o metod de cercetare exploratorie e
folosit pe larg n special n data mining, adic acea area de cercetare care leag informatica i
n special bazele de date cu statistica. E vorba despre cantiti mare de date care trebuie
simplificate prin clasificare. Datele pot fi ns din orice domeniu, de la economie i sociologie
la medicin i biologie.

Principiul de baz al aproape oricrei metode de clustering este acela de definire al unei
distane pe baza variabilelor care sunt criteriile de clasificare, i apoi gruparea obiectelor
apropiate conform acestei distane. n matematic conceptul de distan este unul bine
definit i destul de simplu. n principiu ne putem imagina c este vorba despre o distan
geometric. Nu e doar o metafor. Dac avem o singur variabil i aceea este, n plus, i
numeric, putem reprezenta obiectele ca puncte pe o dreapt. Mai jos avem reprezentarea
grafic a patru ntreprinderi, A, B, C i D pe axa numrului de angajai

10 18 40 50
+-----------------+-------------+-----------------------------+------------------+------------------>
0 A B C D

Distana care se poate defini pe aceast ax este atunci diferena de poziie, adic diferena de
numr de angajai: ntre A i B este o distan de 8, ntre B i C de 22. Dac avem dou
variabile ne putem nc destul de uor imagina o reprezentare n plan, cu dou axe, apoi un
calcul geometric al distanei ntre punctele definite de valorile pe cele dou axe, adic pentru
cele dou variabile. La trei variabile folosite pentru clasificare analogia ar fi cu distanele din
spaiul tridimensional. Matematicienii nu au nici un fel de reineri n a gndi mai departe la
spaii cu oricte dimensiuni i a defini distane i pentru aceste spaii. Regulile pentru o
185
distan sunt destul de simple. Dac avem trei puncte A, B i C, distana se poate calcula ntre
dou puncte d(A, B) i ea este un numr real pozitiv care are proprietile:
d(A, B) = 0 dac i numai dac A = B.
d(A, B) = d(B, A) (simetria)
d(A, B) d(A, C) + d(C, A) (inegalitatea triunghiului)
Cele trei proprieti sunt foarte simple i de bun sim. Prima spune ca dintr-un loc pn n
acelai loc distana e zero. A doua c distana e aceiai indiferent n ce direcie parcurgem
drumul, iar a treia c distana cea mai mic dintre dou puncte e linia dreapt. Esenial este nu
faptul c acestea sunt proprieti ale distanei. Asta e simplu. Esenial este c nu e nevoie de
nimic n plus pentru ca o funcie s fie e o distan, cci exist multe distane i nu una
singur.

Revenind deci la clusterele noastre. Avem nite date referitoare la anumite obiecte. Fiecare
astfel de obiect l modelm cu un numr de variabile numite criterii de clasificare (numr de
angajai, cifr de afaceri, profit). Obinem nite puncte tridimensionale i ntre ele se pot
calcula distane. De exemplu, dac ntreprinderea A are 100 de angajai, cifr de afaceri de
1000 de milioane de lei i profit de 1 milion de lei reprezentarea ei se va putea scrie astfel:
(100, 1000, 1). Pentru ntreprinderea B cu 2000 angajai, 230 milioane cifra de afaceri i 20
milioane profit iese: (2000, 230, 20). Ca o regul general vom putea nota pentru A valorile
(A
1
, A
2
, A
3
), iar pentru B (B
1
, B
2
, B
3
). Dac numrul de criterii e mai mare avem pentru A
(A
i
)i=1,n i pentru B (B
i
)i=1,n unde n este numrul de criterii.

Metodele de clustering folosesc diferite distane. Voi enumera mai jos formulele pentru cele
mai obinuite dintre acestea:

Distana euclidian d(A, B) = (
i
(A
i
- B
i
)
2
)
1/2

Ptratul distanei euclidiene d(A, B) =
i
(A
i
- B
i
)
2

Distana Manhattan d(A, B) =
i
| A
i
- B
i
|
Distana Chebyshev d(A, B) = max

| A
i
- B
i
|
Distana putere d(A, B) = (
i
(A
i
- B
i
)
p
)
1/r

Discordana procentual d(A, B) = (numrul de perechi A
i
B
i
) / i

Fiecare dintre distane este potrivit pentru diferite situaii. Cele mai importante sunt probabil
prima i ultima. Prima, distana euclidian, este tocmai sensul comun al termenului distan i
186
o putem folosi cu succes de cte ori avem de a face cu clasificarea pe baza unor valori
cantitative, raionale. Apoi e important i ultima din list, discordana procentual pentru c
nu presupune nici un fel de calcule cu valorile variabilelor i ca atare se poate folosi pentru
clustering cu variabile nominale sau ordinale.

Pe lng diferitele distane care pot fi folosite, exist i diferite metode de clustering.
Principial toate metodele de cluster ierarhic pornesc de la situaia n care fiecare obiect este un
grup, apoi reunesc obiectele n grupuri din ce n ce mai mari folosind diferite metode de
includere n grup. Voi enumera doar pe cele mai simple i obinuite. Ideea este de a decide,
date fiind distanele dintre obiecte, ce obiecte intr n aceiai categorie. Metodele acestea se
numesc de obicei metode de linkage, adic metode de formare a legturilor dintre obiecte.
Soft-urile statistice ne permit alegerea metodei de linkage. SPSS ofer de exemplu 7 astfel de
metode la alegere. Dou dintre acestea sunt cele mai obinuite.

Cel mai apropiat vecin: Se grupeaz ntotdeuna elementele aflate cel mai aproape unul
de altul.
Linkage n interiorul grupurilor: se include cte un element n grup astfel nct distana
medie dintre elementele unui grup s fie minim.

n toate celelalte variante gruparea se face astfel nct distana dintre clustere s fie maxim.
Se folosesc atunci diferite metode de calcul a distanei dintre clustere.

Cel mai ndeprtat vecin: se ia distana dintre cele mai ndeprtate puncte ale celor
dou grupuri.
Linkage ntre grupuri: se ia distana medie dintre un punct dintr-un grup i unul din
cellalt grup.
Clustering centroid: se ia distana dintre mediile pe grup pentru fiecare criteriu.
Clustering median: se ia distana dintre medianele pe grup pentru fiecare criteriu.
Aceasta variant e util dac se folosesc criterii ordinale, nenumerice.
Metoda lui Ward: se calculeaz mediile pe criterii n interiorul fiecrui grup. Apoi se
calculeaz distanele de la fiecare element din grup pn la medie cu ptratul distanei
euclidiene. Distanele acestea se nsumeaz pe grupuri. Se alege astfel extinderea
grupului nct suma total s fie minim.

187
Dup ce metoda de clustering ierarhic formeaz grupurile, le reprezint grafic sub forma unui
arbore orizontal numit i dendrogram, ca n exemplul urmtor.

* * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * * * * *

Dendrogram using Average Linkage (Between Groups)

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+

H 559 -+-+
PL 865 -+ +---------------------------------------------+
BG 151 -+-+ |
R 916 -+ |
P 814 -+ |
SP 1069 -+-----------+ |
GR 508 -+ | |
BE 100 -+ | |
F 457 -+ | |
NL 763 -+ +---------+ |
BRD 202 -+ | | |
IT 661 -+-+ | | |
S 967 -+ | | | |
UK 1171 -+ | | | |
A 49 -+ +---------+ +-------------------------+
SF 1018 -+ | |
IR 610 -+ | |
CH 253 -+ | |
DK 406 -+-+ |
N 712 -+ |
US 1222 -----------------------+

n exemplu s-a calculat clustering-ul ierarhic pentru o serie de ri, folosind date din 1998.
Criteriile de clasificare au fost produsul intern brut pe cap de locuitor, un indicator al
sistemului politic i un indicator al nivelului de globalizare
14
. Urmrind de la stnga la dreapta
graficul vedem ce ri se aseamn cel mai mult. Primul nivel de asemnare leag Ungaria de
Polonia, Bulgaria de Romnia, Portugalia de Spania i Grecia, Elveia de Danemarca i
Norvegia i aa mai departe. Apoi la un nivel urmtor se grupeaz rile est-europene i cele
vestice, ns fr grupul Portugalia, Spania, Grecia. Acestea se grupeaz tot cu cele vestice
dar la un nivel de asemnare mai mic. Statele Unite sunt cele mai diferite de restul rilor
occidentale, totui mai asemntoare cu acestea dect cu grupul estic. Practic graficul de mai
sus ne permite s decidem n mai bun cunotiin de cauz asupra felului cum vrem s
clasificm rile. Decizia trebuie s rmn desigur una susinut teoretic. Metoda de
clustering ierarhic nu construiete grupele per se, dar ne ofer o unealt analitic chiar mai
important prin reprezentarea distanelor.

14
Pentru a indica sistemul politic am folosit indicatorul Polity IV dezvoltat la Universitatea Maryland din Statele
Unite, pentru nivelul de globalizare am folosit numrul de organizaii non-guvernamentale internaionale active
n respectiva ar.
188

b. Clustering cu centre de clustere

Metoda se mai numete i k-means clustering, sau clustering cu k-centre.
Metoda de clustering cu centre de clustere ne ofer tocmai ceea ce clustering-ul ierarhic nu
fcea: stabilete apartenena elementelor pe care le dorim clasificate la grupuri bine definite.
Dup ce am stabilit n cte grupe dorim s facem clasificarea, metoda calculeaz nite
centre, face mprirea specificnd pentru fiecare element de care centru aparine i
calculeaz i distanele dintre elemente i centrele aferente.

Logica metodei este destul de simpl, chiar dac destul de diferit de clustering-ul ierarhic.
Metoda de calcul este una iterativ, asemntoare metodelor de analiz numeric. Se pornete
cu centre alese mai mult sau mai puin aleator. Apoi se calculeaz pentru fiecare element
distana pn la fiecare cluster i se asigneaz elementul centrului cel mai apropiat. Acest pas
se tot repet dup mutri ale centrelor astfel nct distanele din interiorul grupului s fie ct
mai mici i distanele dintre grupuri ct mai mari. Altfel spus se caut ca grupurile s adune
elemente ct mai asemntoare, iar grupurile s fie ct mai diferite ntre ele.

Metoda va fi cu att mai bun cu ct va alege mai bine centrele iniiale i va tii s mute apoi
aceste centre astfel nct s reduc numrul de iteraii. Centrele iniiale se pot fixa pe
considerente teoretice sau putem lsa metoda s le calculeze. Una peste alta partea
matematic implicat aici e destul de complex i depete cadrul acestei cri pe care o
intenionam ct mai puin matematic.

Analiza rezultatelor va trebui desigur s nceap printr-o analiz a semnificaiei teoretice a
centrelor stabilite. Are sens s imprim astfel sau nu? Nu orice clasificare e rezonabil.
Metoda ne gsete cele k grupuri cel mai similare n interiorul grupului i diferite ntre
grupuri. Asta ns nu garanteaz c rezultatul are semnificaie teoretic. O dat stabilit faptul
c are sens clasificarea, se verific puterea de separaie a clusterelor, adic diferena de
distane din interiorul clusterelor i distanele dintre clustere. Pentru clustere cu dou criterii
se pot realiza grafice destul de sugestive. Iat un exemplu bazat pe aceiai statistic a rilor,
clasificate de aceast dat numai pe baza produsului intern brut pe cap de locuitor, notat n
grafic GDP, i a nivelului de globalizare, notat n grafic ingo (indicatorul politic oricum ddea
valori asemntoare pentru toate rile):
189



Am decis s clasific n patru grupe, am folosit pe grafic puncte diferite pentru a identifica mai
uor clusterele i le-am i ncercuit. Observm c sunt grupate rile est-europene, notate cu
stelue (Bulgaria, Polonia, Romnia, Ungaria), apoi cele sud-europene romburi (Grecia,
Portugalia i Spania). Un grup aparte e format din Statele Unite ale Americii i Norvegia
(notate cu ptrate). Restul rilor clasificate fac parte toate din acelai grup. Este desigur
plcut faptul c metoda statistic a clasificat rile conform ateptrilor noastre. Nu ntotdeuna
se ntmpl ca grupurile care ni se propun s aib i un sens teoretic. Avantajul reprezentrii
grafice este acela c pe lng grupare se observ i poziionarea elementelor care au fost
clasificate. Se vede, de exemplu, cum Irlanda dei a fost inclus n grupul vest-european i
avea n 1998 o valoare de PIB perfect compatibil cu celelalte ri din grup, avea un nivel de
incadrare n societatea global mult inferior restului grupului. Se vede de asemenea cum
Spania, dei era ca valoare de PIB clar asemntoare mai de grab cu Portugalia sau Grecia
dect cu Germania sau Frana, ca incluziune global prezenta valori mult superioare celorlalte
ri din grup (cel mai probabil din cauza poziiei pe care o are ntre rile hispanice). Oricum,
190
exist pn la urm o singur alegere oarecum neateptat. Din cauza caracterului excepional
al Statelor Unite s-a creat un centru de cluster pentru ele, i Norvegia s-a dovedit mai
apropiat de acest centru dect de cel al grupului vest-european. Graficul arat c aceast
clasificare nu este neaprat evident. Dac s-ar fi folosit alt algoritm de calcul al grupurilor
poate s-ar fi ajuns la alt rezultat. Aceast dependen de metod este de fapt prezent mai
mereu, ca atare e bine s o contientizm. Alegerea pe care o face metoda este evident un
rezultat al metodei, i nu o clasificare natural a obiectelor, care decurge adic strict din
natura lor.

Pentru trei criterii graficele sunt ceva mai greu de citit, pentru patru sau mai multe nu se pot
face oricum.

A ncheia acest capitol spunnd c metode de clustering exist mai multe, am ales doar dou
dintre ele. Acestea rspund printre altele unei cerine importante, anume evaluarea i gruparea
unor obiecte pe baza unui numr mai mare de criterii, fr a trebui s decidem care criteriu
este mai important i fr s depindem de calculul unui singur punctaj sau a unei singure note.
191
Capitolul 10. Deserturi i cum putem s le stricm sau cum se
poate grei n statistic

Dup ce Darrel Huff a publicat celebra i deja pomenita lui carte Cum s mini cu statistici,
multe cri de statistic introductiv au inclus capitole de genul cele mai frecvente 10 erori
sau greeli care se fac n statistic. Nu vreau s m sustrag de la aceast plcut sarcin dei
pn acum am pomenit multe dintre greelile tipice i pe ici pe colo am dat i exemple de cum
se fac ele, dac cineva ar dori s se inspire. Oricum n acest capitol de final o s reiau cu noi
exemple o parte din ele, cele care mi se par cele mai frecvente i cele mai duntoare.

Aa cum observa i Huff, argoul statistic, precum i al altor tiine, presupune nu numai un
scriitor atent i precaut, dar i un cititor avizat. Declaraiile bazate pe statistici induc n eroare
cel mai adesea prin omisiuni. Iar cititorul neavizat este tocmai acela care nu sesizeaz ce
lipsete n informaia publicat.

Omisiunile fatale

Anumite ingrediente nu au voie s lipseasc din meniul pe care statistica l pune pe masa
cititorului, fie el avizat, fie nu. Pentru ca o informaie de natur statistic s aib sens i
valoare de cunoatere, o serie de informaii colaterale snt necesare. De exemplu, la un sondaj
trebuie s tim populaia, volumul eantionului, metoda de eantionare, i aa mai departe.
Majoritatea mass mediei, precum i a cercettorilor au aflat aceasta i ne raporteaz cu
sinceritate i volumul eantionului i marja de eroare. Ceea ce e desigur foarte bine. Mai
exist i excepii memorabile, n care omisiunile snt att de multe, nct nu mai tim de fapt de
ce ni s-a comunicat ceva. Iata tire din ziarul Libertatea, Nr. 3392, smbt 22 septembrie
2001 pe care o reproduc n ntregime (!).

Potrivit rezultatelor unui sondaj de opinie, 53% din cetatenii rusi nu cred in existenta
unei a doua vieti. In cadrul aceluiasi sondaj, 36% dintre subiecti au declarat ca sunt
convinsi in existenta vietii dupa moarte. 11% dintre participantii la sondaj au declarat
ca nu pot raspunde la aceasta intrebare.

Aici nu tim volumul eantionului, i bineneles nici marja de eroare. Aici trebuie s recunosc
c Libertatea este n general consecvent n a omite asemenea informaii. Ce e mai interesant e
192
felul cum par a fi formulate rspunsurile la ntrebare. Dac adunm procentajele iese exact
100%. De unde rezult c scala de opiuni nu a permis cetenilor rui din sondaj nici un fel
de dileme. Fie nu cred, fie snt convini. E nc bine c s-a acceptat c unii chiar nu pot
rspunde. Cam puini dup experiena mea. Oricum, astfel de informaii cu tent statistic
chiar nu au nici o valoare de informare.

S trecem ns la treburi mai serioare. Mai rar dect neprezentarea volumului eantionului se
evit o alt omisiune. Cnd ni se prezint o valoare procentual trebuie s tim pe cte cazuri
s-a obinut acel procentaj. Aceasta este obligatoriu dac numrul de cazuri este deosebit de
mic. Nu este de regul nici o problem la procentaje care se calculeaz din ansamblul
eantionului, pentru c volumul acestuia este cel mai adesea cunoscut. Necazul apare cnd, de
exemplu ntr-o tabel de relaionare, apar procentaje ale unor categorii subordonate. n
asemenea cazuri procentajul nu se mai refer la ntreg eantionul. E vorba de cazuri de genul
25% dintre brbaii de sub 25 de ani snt de prere c .... La astfel de propoziii precizarea
volumulului e esenial. O opinie mprtit de ctre un sfert dintr-o categorie populaional
este desigur important. Ceea ce totui nu e cazul dac n eantion ntreaga categorie e
reprezentat de 12 persoane, din care un sfert snt abia 4 oameni. tim c matematic vorbind,
ceea ce conteaz sunt la urma urmei numerele mari.

Cazul de mai jos nu e chiar o infraciune statistic pentru c informaia din articol este pn
la urm suficient dac dorim s refacem noi calculele. Dar pe cititorul neavizat tot l induce
n eroare, ceea ce putem linitit incadra la contravenii. Astfel de omisiuni apar cel mai
adesea n lucrri cu pretenii tiinifice. Exemplul de mai jos provine dintr-o tez de doctorat
n pedagogie de la Universitatea de Stat din Moldova
15
:

n funcie de gen, nregistrm recunoaterea unei palete mai largi de forme de
instruire la brbai: (3% dintre brbaii chestionai i-au exprimat opiune pentru lucrul
n bibliotec, fa de 0% la femei; 4% dintre brbai i-au exprimat opiunea pentru
mass-media).

Ce a vrut autorul s ne spun de fapt? Ei bine, a vrut s compare genurile din perspectiva
modurilor de instruire recunoscute i a conchis c brbaii menioneaz mai multe astfel de
forme. Pentru a susine aceasta ni se exemplific dou forme de instruire (folosesc termenul

15
Am decis s nu dau mai multe amnunte bibliografice.
193
autorului) menionate ntr-o chestionare de ctre brbai n mai mare msur dect de ctre
femei. Prima omisiune este cea a procentajului de femei care declar mass-media ca fiind o
form de instruire. Din tabelele din document se poate afla ns c acest procentaj este de 1%.
Problema cea mare este ns c nu se specific volumul asociat acestor procentaje. Nici n
tabelele care apar pe lng fragmentul citat mai sus nu apar frecvene, ci numai procentaje.
Cutnd un pic prin tez gsim pn la urm volumul eantionului. Aici surpiz maxim,
pentru mine, cel puin:

Populaia investigat: Subiecii studiului au fost 175 de aduli, participani la diferite
seminarii (...), dintre care 116 femei i 79 de brbai

Din cele de mai sus eantionul nu pare a fi aleator. Mai departe: Hai s nu fiu crcota i s nu
adun 116 cu 79. Observ ns c 3% dintre brbai snt probabil 2 persoane, iar 4% probabil 3.
persoane. 1% dintre femei este 1 persoan. Ei bine, nu numai c omisiunea este nepermis la
numere aa mici, dar concluzia din studiu este absolut hazardat.

O alt omisiune foarte des ntlnit se refer la formularea ntrebrii. De multe ori un concept
complex i chiar ambiguu este prezentat ca fiind rezultat direct dintr-un sondaj de opinie. Iat
un exemplu tipic din Evenimentul Zilei Nr. 4892, 31 Mai 2007. Prezentnd un sondaj de
opinie cu informaiile de rigoare (Sondajul a fost efectuat pe un esantion de 1.244 de
persoane si are o marja de eroare de 2,8%) se face n text remarca:

Sondajul IMAS constat modificari substantiale si la capitolul increderii in
personalitatile politice: Traian Basescu, 60%, inregistrand un plus de 11 procente:
Theodor Stolojan (32%), Gigi Becali (30%), Calin Popescu-Tariceanu (19%), Mircea
Geoana (16%).

Nu ni se spune desigur ce este acea ncredere i, ceea ce e i mai grav, nu ni se spune ce
reprezint procentajele raportate. Putem doar bnui rspunsul la prima ntrebare, dar la a doua
ntrebare nu avem nici un indiciu. ntrebarea pe care o pun de obicei sondajele de opinie la
acest subiect este ceva de genul Ct ncredere avei n urmtoarele personaliti politice?.
Rspunsurile posibile snt de obicei Foarte mult, Mult, Puin, Foarte puin
eventual cu o opiune la mijlocul scalei. Prima omisiune este absena specificrii rspunsurilor
care au fost incluse n procentajul de ncredere. E oare vorba despre suma categoriilor foarte
194
mult i mult ncredere? Probabil. Dar exista oare o categorie medie sau nu? i dac da,
cum a fost formulat? i unde intr ea, la ncredere sau la absena ncrederii? Apoi, problema
esenial: cum au interpretat intervievaii conceptul de ncredere? ncercai s rspundei la
ntrebare. Ct ncredere avei ntr-un anume politician? La ce v gndii cnd trebuie s
rspundei? V gndii la ncrederea c va face se spune, sau la ncrederea c va spune ce
crede, sau la ncrederea c ceea ce spune v va conveni. Poate c e vorba despre o senzaie
mai general de simpatie sau de familiaritate mai de grab dect de predictibilitate. Faptul c
conceptul de ncredere este un concept destul de larg face ca rspunsul s fie dependent de
contextul n care se pune ntrebarea. Contextul poate face ca ncrederea s fie interpretat ntr-
un anumit fel. Dac nainte de ntrebarea de ncredere se discut despre aciuni politice sau
anumite declaraii politice aceasta poate induce o anumit nelegere i poate duce la o
evaluare de un anumit fel. Bineneles un articol de ziar nu poate i nu trebuie s dea ntregul
chestionar, dar astfel de consideraii fac discutabil comparabilitatea rezultatelor la cote de
ncredere. Aa c aseriunea din articol, cum c Traian Bsesc nregistreaz un plus de 11
procente nu prea nseamn mare lucru.

Omisiunile pe care le-am menionat, volumul eantionului, volumul unei categorii, formularea
ntrebrilor i a rspunsurilor, nu au de obicei intenia de a induce n eroare. Totui n unele
cazuri ele o fac pentru c ncurajeaz implicit o citire mai general a rezultatelor dect ar fi
permis. Ele pot implica, n special pentru cititorul neavizat, generalizri sau comparaii care
snt nesusinute. O alt problem care este conex omisiunii formulrii ntrebrii este
confunzia legat de variabila msurat. Aa cum am vzut din ntrebarea despre ncredere nu
este ntotdeuna evident ce se msoar. O eroare grav este confuzia de variabil.

Ce msurm de fapt?

De multe ori cercetrile tiinifice, i n special cele din domeniul social i economic
conceptualizeaz la un nivel teoretic abstract. Apoi statisticianul este pus n situaia de a
operaionaliza teoria, adic de a gsi ceva suficient de msurabil i suficient de apropiat de
formularea teoretic astfel nct ipotezele de cercetare s poat fi testate. Atunci cnd un
concept teoretic este prea vag pentru a putea fi msurat direct, statisticianul trebuie s
gseasc o variabil care s in locul acestui concept n cercetarea empiric. Metoda se
numete de regul analiz cu variabile proxy dup cuvntul englezesc pentru nlocuitor. Ct de
bine se preteaz o variabil proxy pentru a ine locul unui concept nemsurabil este de obicei
195
nedecidabil. Totui o doz de bun sim tiinific exist n modul cum se pot face astfel de
definiii. O alt cale de abordare a aceleiai probleme este utilizarea analizei de cale (sau,
iari englezete, analiz path). n acest caz variabila nemsurabil este inclus ntr-o cale
logic deductiv, i nlocuit n cercetare printr-o variabil care i este precursor logic.
Desigur determinarea logic a variabilei care este oricum nemsurabil printr-o alt variabil
nu poate fi complet i oricum nu poate fi determinat prea clar. Sigur nlocuiri de acest tip se
pot face, dar nu trebuie nici o clip uitat c nlocuirea e valabil foarte limitat i doar la
nivelul conceptual al respingerii de ipoteze, al contraexemplului deci. Dup introducerea
aceasta puintel cam filosofic, ce e de spus, de fapt? O mare grij trebuie avut de cte ori n
cercetare sau n prezentarea unor rezultate apar concepte ce par a fi greu de msurat. Textul
nostru trebuie s spun exact ce am msurat de fapt i de ce. Hai s dau un exemplu autocritic.
ntr-o serie de cercetri am avut nevoie s msor ceva ce teoria numea gradul de globalizare
sau de includere n societatea global a unei ri ntr-un moment anume. Am mai dat
exemple din aceste cercetri aa c unii poate i amintesc c am folosit numrul de
organizaii non-guvernamentale active n ara respectiv pentru a msur globalizarea. Este
evident o variabil proxy. Ct e de bun? Nu pot spune dect c am decis dup o cumpnire
destul de serioas a alternativelor pe care le propune literatura din domeniu. Ce pot spune n
aprarea mea? Faptul c am prezentat n articolele tiinifice rezultate din aceste cercetri, ce
este de fapt variabila i nu am pretins c ar fi mai mult dect un indicator posibil al gradului de
globalizare.

Erorile cele mai frecvente legate de obiectul unei msurtori se fac n studii de marketing n
care adesea consumul este identificat cu estimarea consumului, cheltuieli cu estimarea
cheltuielilor. ntrebri de genul ct cheltuii lunar pe preparate din pete? pot cu greu fi
interpretate ca reprezentnd un indicator ct de ct fidel al consumului. in minte primul
sondaj pe care le-am condus n Romnia. Printre altele am ntrebat atunci locuitori ai
Timiorii cu ce partid au votat la alegerile precedente, de la care trecuse mai bine de un an.
Am regsit un rezultat care e descris i n literatura de statistic politic. Anume c oamenii
uit ce au ales i snt muli care identific partidul ctigtor al alegerilor cu opiunea lor, dei
n realitate au votat la vremea respectiv cu un alt partid. Sondajul meu avea rezultate bune de
test, adic eantionarea avea caracteristicile unei eantionri aleatoare. Totui proporiile
voturilor pe partide nu corespundeau de fel rezultatelor reale de la alegerile precedente.
Variabila culeas de mine nu era deci opiunea politic de la precedentele alegeri, ceea ce
de fapt mi doream s msor, ci impresia de la momentul chestionrii asupra opiniei politice
196
de la precedentele alegeri. Diferena e mare, pentru c ne mpiedic s avem un indicator al
schimbrilor de opiune.

Raportarea selectiv a rezultatelor

O alt eroare tipic pentru mass media, dar i pentru politicieni i universitari sau cercettori
care se transform n politicieni prin partizanat, este raportarea selectiv a rezultatelor.
Desigur un context restrictiv cum ar fi cel al unui articol de ziar sau al unei declaraii de pres
nu poate acomoda toate rezultatele unei cercetri, cu toate acestea uneori nu avem cum s nu
suspectm intenie n asemenea situaii.

Pe la nceputul anilor 1990 am auzit de la un cunoscut sociolog romn, nu spui cine, persoan
important, o declaraie televizat care m-a minunat puintel. ncerc s o reproduc ct de exact
pot: n Statele Unite, n anii 50 sectorul universitar privat includea jumtate dintre instituii,
dar s-a ajuns ca n 1990 numai 20% dintre studeni s studieze la universiti private.
Negreit ambele valori snt corecte, ceea ce se omite este c i n 1990 ponderea
universitilor private era tot de vreo 50% din ansamblul universitilor americane. Declaraia
pune fa n fa dou valori care nu snt direct comparabile, o pondere de instituii din 1950 i
o pondere a studenilor din 1990 creind astfel senzaia unui trend. Adevrul este c un astfel
de trend exist i ponderea studenilor din sistemul privat a sczut cu adevrat, deoarece
sistemul universitar american public a expandat mult mai mult dect cel privat. Cu toate
acestea, felul cum a fost fcut declaraia a fost evident manipulator. i aceasta i prin faptul
c a prezumat o scdere a sistemului privat ceea ce nu a avut de fapt loc. Ceea ce s-a ntmplat
a fost o cretere mai accentuat a sistemului public.

Prezentarea numai a acelor rezultate care convin din punctul de vedere al cercetrii, fie ea
tiinific sau mai puin, este o boal care nu prea are leac. n multe cercetri de natur
politic se pun, pe lng ntrebrile pe bune i anumite ntrebri special pentru a obine
rezultate publicabile sau care s susin decizii gata luate.

Se poate raporta selectiv i altfel, poate ceva mai puin manipulativ, dar totui. Iat un
fragment din ziarul Cotidianul, din 3 August 2007:

197
(...) 44% dintre romani considera ca premierul Triceanu nu trebuia s demisioneze
ca urmare a rezultatului referendumul pentru demiterea preedintelui Bsescu.

Nu ni se spune ce consider ceilali 56% dintre romni. C premierul trebuia s demisioneze?
Probabil c nu, sigur exist i foarte muli care nu au o opinie pe aceast tem. i totui ci
cred c trebuia s demisioneze? Felul cum e formulat propoziia ne face s presupunem c
procentul celor care consider c premierul trebuia s demisioneze a fost mai mic dect 44%.
i totui conteaz cu ct a fost mai mic. A fost 10% sau 40%? Sau poate nici nu a fost mai
mic? Matematic este ct se poate de posibil.

Uneori prezentarea selectiv a rezultatelor nu pare a avea nici un scop. Un text a fost scurtat i
a ieit ce a ieit. Iat un exemplu din Evenimentul Zilei, Nr. 4892, din 6 Iulie 2006. Restul
articolului l face s fie i mai criptic.

36% dintre romni i-ar dori sa lucreze acas, n timp ce doar 11% prefer s mearg
la birou, dei au posibilitatea de a lucra din incinta propriului cmin, potrivit unui
sondaj realizat de portalul de recrutare on-line bestjobs.neogen.ro.

Senzaional, dar ce au spus de fapt? Cine snt atia, ce vor ei, i ce au fost ntrebai, i ce au
rspuns, i ci i de ce scrie la ziar? Asta ca s nu spun c nu e clar dac cei 36% i cei 11%
provin din aceiai ntrebare sau nu, i ce prere au restul de nici nu tiu i nici nu pot ti ci.

Eantioane nealeatoare i biasate

O alt eroare frecvent este nnobilarea unei chestionri oarecare cu titlul de sondaj de
opinie. Am discutat deja c regulile unei eantionri au ca scop posibilitatea de generalizare
de la eantion la ansamblul populaiei. Deci, ca s putem spune, ca ntr-unul din exemplele de
mai sus romnii consider trebuie ca populaia studiului s fie romnii i eantionarea s
fie aleatoare sau o aproximare ct mai bun posibil a unei eantionri aleatoare. Regula de
baz pe care nu obosesc s o repet i studenilor mei e simpl: fiecare individ din populaia de
baz trebuie s aib aceiai ans s fie parte din eantion. Sigur acesta e un ideal nici o dat
atins. Exist nomazi, i exist oameni bolnavi i ncarcerai i alte diverse categorii care nu
prea au aceleai anse s fie parte din eantion ca i restul populaiei. Aceasta ns nu trebuie
198
s duc a renunarea la principiu ci la redefinirea populaiei. Adic nu toi romnii
consider, ci numai romnii cu domiciliul stabil, etc.

Un caz interesant este cel n care eantionul este n principiu aleator dar totui din cauza unei
greeli de proiectare a cercetrii sau a unei particulariti pe care cercettorul nu a luat-o n
seam eantionul difer printr-o anumit caracteristic fa de populaia dorit a fi studiat.
Asemenea eantioane se numesc biasate. Cuvntul bias nseamn n englez ceva gen
prejudecat, dar sensul lui statistic este de defazare, eroare sistematic. Dac se folosete
cuvntul n sensul de prejudecat, s-ar zice c o opinie este biasat dac ea este necondiionat
negativ sau pozitiv. n statistic un eantion este biasat dac valorile unei variabile snt
defazate ctre o valoare sau o parte a scalei de rspunsuri. Dac, de exemplu, pentru un studiu
de pia legat de consumul de detergeni se fac interogri la domiciliu nainte de mas,
eantionul va prinde o pondere anormal de mare de studeni, gospodine i pensionari.
Eantionul va fi defazat ctre anumite categorii ocupaionale. Vor fi subreprezentate tocmai
persoanele angajate n munc, eantionul altfel produs va putea fi de fapt aleator. Totui nu va
fi reprezentativ pentru ca va fi biasat. Am mai dat pe parcursul crii i exemplul chestionrii
duminic nainte de mas. Acolo biasarea e i mai clar pentru c cei ce nu vor fi interogai
snt cei ce merg la biseric adic persoane care evident au o caracteristic particular care le
poate influena opinia pe multe teme. n acest caz eantionul chiar va avea un fel de
prejudecat, adic va elimina din start anumite opinii.

Institutele serioase de sondare a opiniei publice nu fac greeli de acest tip. Eantionri
nealeatoare sau biasate se regsesc ns la aa-zise sondaje efectuate de organe de pres sau
site-uri de internet, dar adesea i n cercetri tiinifice din domenii n care o eantionare este
greu de ntreprins. S mai las puin n pace presa, hai s mai dau un exemplu dintr-o tez de
doctorat n psihologie, tot de la Universitatea de Stat din Moldova.

... trebuie s menionm c 75% dintre copiii cercetai proveneau din mediul rural,
fa de 25% - care erau din mediul urban. Acest procentaj este cu att mai semnificativ
cu ct este peste nivelul mediu de urbanizare pe ar a populaiei Republicii Moldova:
n mediul rural circa 60%, iar n mediul urban circa 40%. Aa c repartizarea (...)
denot o tendin de rspndire a (...), mai cu seam la populaia din mediul rural

199
Evident procentajele pe eantion nu snt peste, ci sub nivelul mediu de urbanizare din
Republica Moldova, dar aceasta e probabil o scpare neesenial, o eroare de exprimare. n
text se generalizeaz apoi de la distribuia pe eantion la rspndirea caractisticii investigate n
ansamblul populaional. Ceea ce se poate desigur face dac este reprezentativ. De fapt este
ns vorba despre 30 (treizeci!) de interviuri. Acum c aceti 30 erau dintribuii ntre mediile
rural i urban 75% - 25% fa de ansamblul populaiei care se distribuie 60% - 40% este
departe de a permite orice fel de concluzii. La urma urmei 25% din eantion snt 7-8 persoane,
iar dac ar fi fost 40% ar fi fost 12 persoane. n plus, eantionul nefiind oricum reprezentativ,
generalizarea la nivel populaional nu e acceptabil.

Tipice pentru astfel de situaii snt cercetri din medicin, tiine ale educaiei sau psihologie.
i aceasta deorece multe dintre aceste cercetri se ocup de populaii rare, populaii la care o
eantionare aleatoare este fie imposibil, fie foarte problematic. Bine atunci ce trebuie s
fac srmanii oameni? Ei bine, trebuie s nu pretind c rezultatele lor snt generalizabile
statistic la nivel populaional.

Corelaii i regresii prost interpretate

Interpretarea corelaiilor i a regresiilor este problematic n special atunci cnd se caut relaii
cauzale. Cum am mai spus calculele statistice pot respinge anumite cauzaliti nu pot ns
propune cauzaliti. Aceasta st numai n puterea unor teorii. Totui cnd sntem pui n faa
faptului c exist o relaie ntre dou variabile, sau c se poate respinge independena a dou
variabile, sntem i tentai i nevoii s propunem explicaii pentru acest fapt. Deci, nu numai
teoria nate testare statistic ci i invers. Cercetarea statistic produce ipoteze teoretice prin
interpretrile rezultatelor. Deci trebuie s avem grij cum interpretm ceea ce gsim pentru ca
paii pe care i intreprindem n continuarea cercetrilor noastre s nu o ia pe cmp prea departe
de potec.

Din pcate aici reguli nu prea exist. Interpretrile proaste nu snt neaprat interpretri greite.
Prostiile rezult cel mai adesea nu din citirea greit a rezultatelor de test ci din incultur sau
nerbdare tiinific. Nu este vorba despre neglijarea significanei i a valorii de test. Astfel de
situaii nu necesit prea multe comentarii. Se ntmpl ns ca citirea unei relaii ca i
cauzalitate direct s fie suficient de absurd ca cercettorul s abandoneze o cale care ar
putea fi fertil. Am menionat pe undeva ipoteza berzele aduc bebeluii. Tot aa
200
interpretarea corelaiei i regresiei ca i cauzalitate direct poate duce la abandonarea cutrii
unor relaii cauzale mai complexe dar posibil interesante de studiat, care ar putea fi ipoteze
pentru cercetri viitoare.

Uite o situaie similar cu povestea berzelor i a natalitii. Este cunoscut i testat de mai
multe ori relaia dintre nlime fizic i venit individual. Persoanele nalte au venituri mai
mari. Relaia, care a fost observat prima oar n Statele Unite (), s-a dovedit valabil aproape
n orice populaie. Dac privim corelaia ca pe o cauzalitate direct ea nu prea are sens. La
urma urmei condiiile salariale snt negociabile liber pentru destul de puine locuri de munc
i nu cred c la asemenea negocieri nlimea fizic are vreo importan. Mai mult, uneori
salariile se negociaz telefonic. Totui corelaia exist. Prima ipotez de cercetare este
includerea n lanul cauzal al variabilei gen. Genul are efect asupra nlimii i asupra
venitului mediu. Brbaii snt n medie mai nali i au n medie venituri mai mari. Aceste
dou determinri snt bine cunoscute. Dintre ele cel puin cea de a doua a fost mult cercetat.
Determinrile au ca efect o corelaie ntre nlime i venit. Explicaia aceasta e deja
acceptabil. Deci, n primul rnd, corelaia dintre nlime fizic i venit nu trebuie respins ca
fiind o fals corelaie (n englez le zice spurious correlations), pentru c exist o explicaie
bun. Explicaia aceasta este ns insuficient. Dac refacem calculele pe genuri obinem
urmtoarea surpiz. La femei corelaia nu exist, femeile mai nalte nu au venituri mai mari
dect cele mai puin nalte. La brbai ns corelaia rmne. Cu ct e un brbat mai nalt, are
un venit mai mare, statistic vorbind. Deci, trebuie spat n continuare. O explicaie care
funcioneaz este faptul c brbaii nali au o ans mai mare s dein funcii de conducere i
s beneficieze ca atare de sporuri la venit din acest motiv. nlimea e receptat ca prestan,
sau chiar e prestan (poate v-ai prins, eu snt mai de grab mic!) i duce la obinerea mai
uoar a unor poziii de decizie. Aceast caracteristic se regsete la toate palierele de
pregtire i este chiar mai important la nivele de pregtire mai reduse. Controlnd, pe lng
gen, i influena poziiei decizionale asupra corelaiei, aceasta se reduce i mai mult i devine
foarte slab. Asta a fost deci. Se pare, cel puin. E de observat c cele dou variabile pe care
le-am introdus n schem au poziii cauzale diferite. Genul se repercuteaz asupra nlimii i,
printr-un lan cauzal mai complex i controversat, determin i venitul. Poziia decizional
este ns interpus ntre nlime i venit. Poziia decizional determin direct venitul i este
determinat, iari probabil printr-un lan cauzal mai complex i printre multe alte
caracteristici, de ctre nlime.

201
Am dat un exemplu de corelaie care putea fi respins uor ca fiind o prostiem dei nu era. Hai
s dau i un exemplu n care interpretarea unei corelaii a fost ntr-adevr o prostie. ntr-un
articol dintr-o revist de altfel bun, un cercettor american (Kuh, 1999) construiete
urmtoarea corelaie: exist o relaie puternic negativ ntre beneficiile auto-declarate
obinute din nvmntul superior i ponderea disciplinelor ocupaionale n sistemul de
nvmnt superior. El extrage aceast concluzie dintr-o corelaie efectuat pe serii de timp
ntre 1960 i 1990. Adic, pe msur ce ponderea disciplinelor care pregtesc studeni pentru
meserii bine definite a crescut, a sczut beneficiul auto-declarat obinut de pe urma studiilor
universitare. i corelaia aa este. De aici autorul ajunge la concluzia c studiile cu caracter
ocupaional aduc de fapt mai puine beneficii absolvenilor. E vorba aici de discipline precum
medicina, ingineria, arhitectura, etc. care snt strict legate de meserii, fa de discipline
precum filosofia, fizica sau matematica care snt legate de domenii ale cunoaterii, de tiine.

Problema este c autorului i scap o variabil esenial, volumul total al absolvenilor, adic
gradul de cuprindere al nvmntului superior. Acesta a crescut foarte mult n Statele Unite
n anii studiai, deci ntre 1960 i 1990. Crescnd numrul de absolveni de nvmnt
superior are loc un soi de inflaie de diplome. Poziiile sociale nalte nu devin neaprat mai
multe, dar absolvenii de nvmnt superior se nmulesc foarte tare. Astfel o diplom
universitar nu mai garanteaz o poziie social i economic aa bun cum garanta n anii
1960. Deci expansiunea nvmntului superior e principala cauz pentru reducerea
beneficiilor obinute de pe urma studiilor. Pe de alt parte creterea ponderii disciplinelor cu
caracter ocupaional este, mcar parial, influenat tot de expansiune. Aici mecanismele snt
mai complexe i includ schimbarea rolului nvmntului superior de la cel de legitimare a
unei elite sociale la cel de pregtire profesional, precum i intrarea n nvmntul superior a
din ce n ce mai muli studeni provenii din medii sociale mai joase i cu interese mai de
grab profesionale dect academice. n concluzie, interpretarea cum c disciplinele
ocupaionale dau beneficii mai mici e o prostie. Corelaie e determinat de efectele pe care le-
a avut expansiunea nvmntului superior asupra celor dou variabile i nu de o relaie dintre
ele. Ar fi trebuit studiat mcar o corelaie parial controlnd efectul volumului total de
studeni sau de absolveni, fiind ns vorba despre serii de timp metodele de cercetare ar fi
trebuit s includ i alte calcule pe care nici nu le mai pomenesc aici.



202
n loc de ncheiere

- Statistica ne spune c astfel de crime snt comise de ctre rude.
- Dar v jur, nu am fost eu!
- Statistica nu minte. Criminalii ns da. (The District, serial TV, 2000)

Dialogul de mai sus este desigur memorabil de inept. i tot ce sper de la aceast carte este s
v fi fcut s nelegei de ce. Poliistul din fragmentul de dialog, a crui ncredere n statistic
ne bucur desigur, nu pare s priceap felul cum funcioneaz statistica. Pe parcursul acestei
cri am ncercat s art c statistic poate s nu mint i n acelai timp s nu spun adevrul,
sau n orice caz s nu spun un adevr care s fie valabil n justiie. Adevrul statisticii nu este
unul simplu, nu este univoc i exact. Dar cu toate acestea este un adevr dac tim cum s-l
citim. Am ncercat n paginile de pn acum s descriu ct mai bine am putut cum gndete
metoda statistic i cum trebuie noi s interpretm rezultatele ei.

Bine, bine, dar dac adevrul statistic nu e un adevr simplu, univoc i exact i n plus pentru
a l nelege trebuie s ne i batem capul sau, doamne ferete, s i calculm cte ceva, atunci
de ce mai folosim statistica? Ei bine, pentru c statistic este o metod de cunoatere care i
asum imperfeciunea ei i de obicei chiar ne permite s determinm aceast imperfeciune, s
o delimitm. Cu ajutorul statisticii nu putem spune exact care e adevrul. Putem s ne
apropiem de el i, ce e cel mai important, putem spune ceva de genul, nu e sta adevrul dar
exist o probabilitate destul de mare astfel ca adevrul s fie pe undeva pe aproape. Sun
foarte slab? Poate, dar e mai mult dect ne pot oferi multe alte metode de cunoatere.

Statistica nu ne ofer certitudini, dar ne ofer garanii suficiente pentru a lua decizii.
Certitudinile snt oricum supraevaluate. Puinele propoziii din tiin despre care putem
spune cu certitudine c snt adevrate sunt truisme. Ele nu ne intereseaz n cercetarea
tiinific real
16
. Statistica ne poate spune despre o propoziie, care nu este o certitudine, cam
care ar fi ansele s greim dac o declarm fals. i astfel statistica ne poate ajuta s decidem
att n tiin ct i n alte domenii ale activitii umane, n economie, n politic, i aa mai
departe.



16
Matematica s-ar putea s fie o excepie, dar nc nu snt sigur.
203
Anexe. Tabele pentru testele t, Z i Chi
2
(de adugat pentru publicare)

S-ar putea să vă placă și