Documente Academic
Documente Profesional
Documente Cultură
Carte de Statistica
Carte de Statistica
Reete ncercate
Cuprins
Cuvnt nainte
1. Introducere.
a. Ce este statistica?
b. Cum cunoate statistica?
c. Cauzalitate i statistica.
d. Foarte scurt istoric al statisticii.
2. Ingredientele statisticii. Tipuri de date.
a. Date nominale
b. Date ordinale
c. Date intervalice
d. Date raionale
3. Culegerea datelor statistice. Sondajul de opinie.
a. Statistici de lot si statistici de sondaj. Generalizarea statistic i limitele ei.
b. Cum facem un sondaj de opinie simplu i corect? Eantionare, chestionar,
aplicare.
4. Aperitive. Primii pai n descrierea datelor statistice
a. Imagini de ansamblu asupra datelor.
i. Frecvene simple.
ii. Reprezentri grafice
b. Indicatori agregai
i. Tendina central
ii. Distribuia datelor
1
Cuvnt nainte
ntlni att de des prostii monumentale n presa romaneasc atunci cnd aa-zii analiti se
apropie de datele unor sondaje de opinie (e drept, nu numai atunci). Voi ncerca, de fapt, s
exemplific pe parcursul crii cteva din erorile cele mai uzuale ale comentatorilor politici dar
i ale politicienilor din ara noastr. Uneori nclin s cred c o mai bun nelegere a felului
cum cunoate statistica i a cum trebuie interpretate sondajele de opinie ar fi putut chiar salva
partide de la dispariie.
Nu voi merge prea departe cu ideea de a produce o carte de reete de statistic, totui ea este
ntr-un fel justificat. Toate metodele din carte sunt ntr-adevr ncercate, i vor s fie
exemple de metode ce se pot aplica cu succes n cercetare. De asemenea toate interpretrile
pot fi utilizate ca exemple de interpretare. Voi atrage de asemenea atenia asupra unor erori ce
apar adesea, voi ateniona fa de prea mult scepticism n egal msur ca i fa de un
optimism exagerat. Deci condimentai cu msur i, precum cei mai buni buctari, aplicai
reetele mele cu nelegere, n spiritul i nu numai n litera lor.
Capitolul 1. Introducere.
S ncepem uor, cu nceputul. n acest capitol a vrea s definesc conceptul de statistic i
felul cum poate statistica cunoate lumea. Voi vorbi despre raionamentul statistic, despre
eroare i greeal n statistic, precum i despre cauzalitate i statistic.
a. Ce este statistica?
Statistica se definete de obicei ca un subdomeniu al matematicii dedicat culegerii, analizrii,
interpretrii i prezentrii datelor. Definiia aceasta mi se pare ns ct se poate de
nesatisfctoare pentru c, pe de o parte nu spune nimic despre felul cum acioneaz statistica
lsnd prin urmare orice metod ca fiind acceptabil, i mai apoi folosete un concept mult
prea general si ambiguu, acela de dat. n acest concept este probabil ascuns chiar ceea ce
eu consider a fi genul proxim n cadrul cruia ar trebui definit statistica. Anume faptul c ea
este o metod de cunoatere. Statistica este o metod de cunoatere a unor obiecte sau
fenomene bazat pe interpretarea rezultatelor de msurare. Mie definiia aceasta mi place mai
mult, dei probabil sun nc destul de criptic. Anume, mut ambiguitatea de la conceptul de
dat la felul cum se obine aceasta, adic prin msurarea unor obiecte sau fenomene. Ei
bine, eu nclin s cred c msurarea n cauz se poate face chiar cu orice aparat de msur att
timp ct acesta este de ncredere, adic nu face erori sistematice. Totui, nite exemple ar fi
utile aici, nu-i aa?
Deci, aparate de msur sunt desigur cntarul i metrul croitorului sau ale constructorului, ca
i ublerul sau micrometrul, dar pn la urm orice funcie care face univoc legtura dintre un
obiect sau fenomen i o valoare fie ea numeric sau nu, este o msurare. Sper c nu am speriat
nc pe nimeni folosind termenul de funcie n sens matematic. O funcie este o relaie ntre
dou mulimi, n cazul nostru o mulime de obiecte sau fenomene de acelai tip pe care dorim
s o cunoatem mai bine i o mulime de valori statistice pe care le putem analiza. Punem de
fapt n relaie ceva ce nu putem folosi nemijlocit n calculele noastre cu ceva ce putem folosi.
Msurm de exemplu greutatea unor cini, poate pentru a analiza efectul unor alimentaii
specifice. Folosim un cntar, desigur, dar de fapt definim prin aceasta o funcie pe domeniul
cinilor studiai lund valori n domeniul numerelor reale. i de ce facem asta? Pentru c
dorim s interpretm, s calculm, s comparm i, n fine, s prezentm ct mai simplu i
5
coerent rezultatele cercetrii noastre. i nu tim s calculm cu cini, ns tim s facem asta
cu numere. Aceast problem este mereu prezent n cunoatere. Nu putem calcula cu
obiectele reale, fenomene aa cum sunt ele. Aa cum nu putem face calcule cu cini, nu putem
face nici cu opiniile politice i nici cu comportamentele economice ale unor oameni adevrai.
Trebuie s le transformm n lucruri cu care putem calcula, n valori numerice sau
nenumerice, oricum valori care sunt simple i n primul rnd complet definite prin ele nsele.
S m explic: este practic imposibil s definesc complet un obiect sau un fenomen real. Orice
definiie a cinelui meu ar fi incomplet, ar omite un fir de blan sau chiar o caracteristic
comportamental pe care poate nc nu o cunosc. Iar de ar fi, prin absurd, posibil o definiie
complet a lui Garu, aa l cheam (tiu, e aiurea, dar e o poveste mai lung), ar fi de o
complexitate ce ar face s fie absolut inutil pentru orice interpretare sau analiz. Pe de alt
parte rezultatul msurrii greutii lui este 30kg ceea ce este desigur un model ct se poate de
inexact pentru un cine dar este o valoare util i calculabil att timp ct tim exact ce
nseamn i nu i conferim o mai mare importan dect are, anume greutatea lui Garu.
Completnd aceast msurtoare cu altele, precum vrsta, rasa i genul, obinem un model, o
definiie incomplet i util, att incompletitudinea ct i utilitatea ei rezultnd pn la urm din
simplitatea ei.
La fel se ntmpl i n cazul opiniilor politice ale unei persoane, de exemplu ale colegului
meu Ionic. Opiniile lui Ionic sunt complexe, anumite teme l intereseaz i este informat
asupra lor avnd opinii nuanate. Alte teme nu l intereseaz i nu are opinii asupra lor sau are
opinii superficiale formate rapid. Mai mult, opiniile lui Ionic, precum a oricrei persoane
inteligente sunt schimbtoare, reacioneaz la schimbrile din mediu, la noi informaii i noi
evenimente. Nu avem cum efectua calcule cu opiniile lui Ionic, putem ns s msurm
elemente ale acestor opinii cu un chestionar la un anumit moment dat. De exemplu, l putem
ntreba ce prere are despre un anumit politician i i putem oferi 5 variante de rspuns. Avem
atunci o msurtoare, care este n acelai timp o simplificare i o datare. Acest rezultat de
msurare va fi legat de momentul la care am pus ntrebarea (i va rmne neschimbat, dei
opinia lui se poate schimba ulterior) i va ncerca s includ opinia lui Ionic ntr-o schem
simpl care nu l poate descrie evident ntru totul dar care l poate face comparabil cu ali
oameni care au rspuns la aceiai ntrebare.
i aici este chiar principala problem a statisticii. Statistica nu calculeaz cu cini, oameni sau
partide. Statistica calculeaz cu rezultatele unor msurtori ale acestora. Cunoaterea n
6
general nu poate opera cu obiectele ei, ci cu modele ale acestor obiecte. Statistica construiete
astfel de modele prin msurare. Cum msoar de obicei statistica? Ei bine, oricum. Sau mai
exact, depinde de tem. Statistica medical msoar cu aparate sofisticate dar a cror
exactitate ar trebui s nu depind de cel ce efectueaz cercetarea, statistica social sau politic
este ns de obicei nevoit s-i dezvolte propriile aparate de msur, chestionarele. Vom
reveni n capitolul al treilea la felul cum se scriu, i cum nu se scriu chestionare. Pn atunci
s continum ns s discutm cum metoda de msurare cu chestionarul influeneaz chiar
conceptual cunoaterea statistic.
Un aparat de msur trebuie s aib dou principale caracteristici pentru a fi util. Trebuie s
dea un rezultat i unul singur, i mai mult dect att, la repetarea msurrii s produc acelai
rezultat sau unul foarte apropiat. Presupunnd c reuim s-l urcm pe Garu (cinele meu, v
aducei aminte) pe un cntar, vom citi un rezultat oarecare. Pentru cine a uitat deja, era o
valoare apropiat de 30kg. Daca reuim acest efort de persuasiune i ndemnare n repetate
rnduri ntr-un scurt interval de timp, utiliznd mai multe cntare, acestea vor fi bune n msura
n care ne vor da aproximativ acelai rezultat. Pe de alt parte ns, greutatea lui Garu nu se va
schimba de pe urma faptului ca a fost msurat. Chiar daca Garu ar fi priceput ceva din cele
ce i s-au ntmplat tot nu i-ar fi schimbat greutatea ca urmare a acestui fapt. Acest mod de a
testa aparatele de msur pentru coerena lor nu ne este ns accesibil n cazul chestionarului.
Daca dorim s repetm chestionarea lui Ionic suficient de curnd pentru ca opinia lui s nu se
fi schimbat prea mult, el i va aduce desigur aminte de chestionar i va rspunde probabil la
fel mcar pentru a se arta consecvent, caracteristic pe care societatea noastr o valorizeaz
n sine. Exist chestionare special elaborate, n special n cercetri de psihologie care rezolv
aceast problem ntr-o oarecare msur prin punerea a foarte multe ntrebri i repetarea
unora dintre ele n forme mai mult sau mai puin modificate. Una peste alta problema rmne
ns deschis pentru majoritatea cercetrilor. Chestionarele nu se pot de obicei calibra att de
bine ca i cntarele. Soluia la aceast dilem nu este dect recunoaterea unei alte limitri a
cunoaterii prin statistic social. O cercetare care folosete o metod de msurare nu poate fi
comparat cu o alt cercetare ce folosete alt metod de msurare. Cntarele cercetrii
sociale nu sunt comparabile. Ca atare msurarea depinde nu numai de obiectul msurat ci i
de aparatul de msur. n cercetarea statistic social rezultatul este dependent i specific
aparatului i metodei de msurare. Deci, metodologia este parte din rezultat. Putem spune c
rezultatul msurrii are sens, este interpretabil, exist numai mpreun cu metoda de msurare.
Revenind la conceptul de model pe care l-am introdus mai sus, nu numai c statistica nu
7
calculeaz cu cini, sau oameni, sau fenomene, ea nu calculeaz de fapt nici cu greutatea,
opinia sau comportamentul ci cu rezultatul msurtorii acestora aa cum ne-o permit aparatele
de msur. Mai simplu, dac ntrebm un elev ct de des ridic mna n clas, nu vom prelucra
statistic elevul (bineneles, doamne ferete), dar nici mcar gradul lui de participare n clas
(ceea ce unii ar putea spera), ci o msur de moment a opiniei lui fa de gradul lui de
participare n clas. i aceast msur va depinde de felul cum e construit chestionarul, de
ntrebrile anterioare, dar i de evenimentele din ziua n care am efectuat chestionarea sau din
zilele precedente. Aceasta pentru c msurarea se face ntr-un moment anume i cu un aparat
anume. Mai mult, msurtoarea nu se aplic participrii n clas ci opiniei elevului asupra
acestei participri, opinie care depinde de prerea pe care o are despre coala lui, nvtorul
lui, despre sine nsui respectiv despre dezirabilitatea de a fi activ n clas. Toate acestea nu
fac msurarea inutil sau cunoaterea obinut de pe urma ei mai puin sigur, pur i simplu
sunt elemente ce trebuie luate n seam.
Dac aparatul de msur este parte din rezultatul msurat, de aici decurge imediat faptul c nu
este posibil vreo msurare fr o teorie ce st la baza ei. Aparatul de msur a fost desigur
dezvoltat pe baza unei teorii, fie c a fost un cntar fie c a fost un chestionar. Att timp ct
rezultatul msurrii nu depinde de metoda de msurare am putea la o adic s neglijm teoria
care a produs aparatul, aceasta ns nu e nici o dat cazul n cercetarea statistic. Chiar dac
msurarea a avut loc cu cntarul, ideea de a msura cu cntarul a avut la baz o decizie i
aceast decizie o teorie legat de rezultatele dorite de pe urma cercetrii. Cu att mai mult n
cazul n care aparatul de msur este parte integrant din rezultatul msurii. n unele nefericite
situaii e posibil ca nsui cel ce dezvolt chestionarul i proiecteaz cercetarea s nu fie pe
deplin contient de teoriile ce stau la baza metodelor aplicate de el. Ei bine, chiar i atunci
acestea influeneaz cercetarea precum o pot influena i prejudecile celor ce o proiecteaz.
Acestea sunt nc alte limite ale cunoaterii pe care un bun interpret al calculelor statistice
trebuie sa le aibe n faa ochilor. Nu este posibil msurare fr teorie i ca atare teoria ce st
la baza unei cercetri trebuie ct mai exact enunat i ct mai consecvent aplicat.
S ne ntoarcem deci la definiia noastr: spuneam c statistica se ocup cu interpretarea
rezultatelor unor msurtori. Am discutat puin despre msurtori n sine, s vedem acum ce
nelegem prin interpretri i care anume sunt metodele de interpretare pe care le numim
statistice. Rezultatele de msurare ne dau de obicei o multitudine de caracteristici, date
numerice sau nenumerice, ale unor obiecte, persoane sau fenomene. Acestea trebuie
8
prezentate ntr-un fel pentru a fi de vreun folos. Chiar i o dat prezentate, de exemplu sub
forma unei liste cu greutatea a 1000 de cini, ele cel mai adesea nu permit o utilizare, sau o
nelegere a ansamblului problematicii. Ce vrea i ce poate de fapt face statistica cu grmada
de date pe care le culege prin msurtori?
de pus n practic. Totui este esenial atunci cnd vrem s efectum comparaii i s
determinm legturi dintre caracteristici, cum ar fi, de exemplu greutatea i genul cinilor.
Desigur media greutii tutoror cinilor de la o expoziie chinologic poate fi n ansamblu prea
puin relevant. Poate nsemna totui ceva pentru cei care trebuie sa fac curenie a doua zi!
De aici, nc o concluzie important: de tema de cercetare depinde metoda cea mai adecvata i
nu de repertoarul de metode. Nu stiu de unde provine zicala daca singura scula pe care o ai
este un ciocan totul ncepe s semene a cui dar n cazul statisticii sociale se confirm din
pcate foarte des. Dac tot ce tii e s calculezi medii, o s calculezi medii indiferent ce tem
de cercetare i ce date ai!
Cum i ct de mult sunt distribuite datele n jurul tendinei centrale este o alt tem esenial n
statistica descriptiv. Ai auzit cu toii butada cu individul care st cu un picior ntr-un lighean
cu ap rece ca gheaa i cu unul ntr-un lighean cu ap clocotit i zice c n medie i este bine.
Exist multe feluri de a calcula ct de distribuite sunt datele. n exemplul dat probabil ar fi de
ajuns s calculm diferena de temperatur dintre cele dou lighene, n marea majoritate a
cazurilor avem ns de a face cu un fel de miriapod care are fiecare din mia lui de picioare n
ligheane cu ape de temperaturi diferite!
Statisticile infereniale sau inductive sunt tehnici complexe, bazate cel mai adesea pe teorii
matematice despre cum sunt datele i au ca principal scop testarea unor ipoteze despre
populaii de individizi sau obiecte. Inferena statistic este de fapt formarea unor preri
justificate despre o ntreag populaie bazndu-ne pe msurarea unei pri a acesteia. Exemplul
care ne este cel mai familiar este cel al sondajului de opinie politic. Institute de sondare a
opiniei publice pun ntrebri unui eantion de vreo mie de persoane i vor s ne conving pe
noi, i binenneles i pe nite clieni pltitori de asemenea, cum c pot spune ceva despre
opinia a peste 21 de milioane de persoane. La baza acestui tupeu se afl inferena statistic
adic posibilitatea de a generaliza statistic de la msurarea unui eantion la descrierea unei
ntregi populaii. Exist teorii matematice care justific aceasta. i dac cercetarea e fcut ct
mai aproape de presupunerile acelor teorii atunci rezultatele pot fi foarte aproape de realitate.
Bineneles i n acest caz pentru interpretarea lor trebuie sa ne punem ct mai clar ntrebrile:
ce am msurat, pe cine am msurat i cu ce acuratee.
Principiul fundamental al statisticii este coninut ntr-o teorem matematic numit adesea i
teorema fundamental a statisticii. Ea ne asigur de faptul c rezultatele msurtorilor ce se
10
fac pe un eantion se pot, n anumite condiii generaliza la nivelul ntregii populaii. Vom
reveni n cel de-al treilea capitol al crii la aceast teorem fr ns a face o prezentare a ei
pe placul matematicienilor. O nelegere a consecinelor acestei teoreme pentru ntreaga
metod statistic este ns necesar pentru a evalua la adevrata lor importan mai micile sau
mai marile devieri de la idealul matematic pe care le ntlnim vrnd nevrnd n cercetrile
empirice. nelegerea fundamentelor matematice ale statisticii ne vor permite apoi s
nelegem de ce este necesar o alegere foarte bine gndit a persoanelor pe care le
intervievm pe parcursul unui sondaj de opinie i de asemenea de ce este necesar o
construcie bun a chestionarului pe care dorim s-l aplicm.
Testarea statistic nbogete cunoaterea ntr-un mod foarte apropiat principiului respingerii
ipotezelor. Pe ct de scurt este, aceast propoziie necesit o explicaie destul de detaliat. La
baza ei se afl concepia despre cunoatere tiinific a lui Karl Popper (). n logica
raionalismului critic, cum i-a numit Popper nsui teoria, principiul cunoaterii tiinifice sar putea exprima simplu n felul urmtor: cunoaterea uman nu se bazeaz pe certitudini i
demostraii ale unor adevruri; ea nu progreseaz pe baza coroborrilor ipotezelor ci pe baza
contraexemplelor. Cunoaterea tiinific dezvolt ipoteze. Acestea snt acceptate dac nu se
pot respinge. Dar ele nu snt prin aceasta propriu-zis adevrate. Doar c ele nc nu au putut
fi respinse. Deci regula cunoaterii nu este demonstraia ci respingerea. Nu putem de obicei
tii dac ceva este adevrat, putem ns recunoate cu oarecare probabilitate dac ceva este
fals.
O teorie este tiinific n msura n care se poate imagina un experiment practic ce are
puterea s o contrazic. Dac acest experiment nu reuete respingerea teoriei, aceasta este
pentru moment acceptat. Ea nu este adevrat ci acceptabil conjunctural att timp ct nu a
fost respins. tiina are deci ca i scop construirea i punerea n practic a unor experimente
care ncearc s resping teorii, sau mai exact ipoteze. n statistic ca i n teoria Popperian a
raionalismului critic, spre deosebire de multe domenii ale matematicii, prin termenul ipotez
nelegem o propoziie care se supune analizei. n logica clasic o ipotez este o propoziie din
care decurge o concluzie. Acolo nu se studiaz, de regul, valoarea de adevr a ipotezei, ci
felul cum decurge din ea o concluzie. n statistic ns, tocmai ipoteza este presupunerea
supus testrii.
11
O ipotez o dat respins duce la o nou interpretare a realitii i ca atare la noi ipoteze.
Exist aici o asimetrie ntre verificarea i respingerea teoriilor care este esenial i pentru
felul cum cunoate statistica. Statistica folosete principiul contraexemplului ntr-un sens
probabilist. S explic. Statistica poate msura o valoare, de exemplu media greutii cinilor
de la o expoziie chinologic i o poate compara cu o valoare teoretic ipotetic, de exemplu o
ipotetic medie a greutii tuturor cinilor din lume. Pe baza acestor valori, i a unor foarte
importante presupuneri despre cum sunt n general distribuite datele i cum au fost ele
msurate practic, statistica poate calcula care este ansa ca ipoteza s fie corect n lumina
datelor msurate.
Statistica va pune deci ntrebarea n felul urmtor. Fie urmtoarea ipotez: media greutii
tuturor cinilor din lume este de 50kg. Daca media greutii cinilor din expoziie este de 20kg
poate fi oare media greutii tuturor cinilor din lume fi 50kg? Dac aceast ans este foarte,
foarte mic exist un bun motiv de a respinge ipoteza. Vom spune atunci c, dac cinii din
expoziie reprezint un bun eantion al cinilor din ntreaga lume, iar printre acetia greutatea
este distribuita normal, ipoteza cum c media de greutate a cinilor din ntreaga lume este de
50kg este aproape sigur greit. Statistica nu ne spune ct ar fi adevrata valoare a greutii
medii a cinilor din lume, ne poate ns spune ct nu este i prin consecin ne poate da o
imagine despre cam ct ar putea fi aceasta.
Deci statistica lucreaz oarecum dup principiul popperian. Nu poate demonstra, poate ns
respinge ipoteze. O bun cercetare statistic, ca i o cercetare tiinific n sensul lui Popper
este o cercetare care construiete ipoteze ce pot fi respinse i experimente care au puterea de a
respinge aceste ipoteze.
Orice cercetare statistic bine construit pornete de la o serie de ipoteze mai mult sau mai
puin explicite pe care le supune testrii statistice. Evident, cel mai bine este atunci cnd aceste
ipoteze sunt explicite i tiinifice, adic refutabile. Deorece ns, aa cum am vzut deja, nu
este posibil msurare fr a accepta n prealabil anumite teorii, ntotdeuna vor exista i
presupoziii teoretice care nu se supun testrii. Acestea reprezint cadrul teoretic al cercetrii
i tot ce putem face este s le contientizm i s ni le asumm cci ele determin ce i cum
cunoatem. nsi acceptarea metodei statistice ca i cale de cunoatere este o astfel de
premis teoretic, nu neaprat acceptat de ctre toat lumea.
12
c. Cauzalitate i statistica.
O mare parte din cercetarea statistic ncearc s pun n relaie mai multe rezultate de
msurare care reprezint caracteristici diferite ale unor individizi, obiecte sau fenomene.
Astfel, ca s revenim la cinii notrii, un cercettor ingenios poate msura greutatea i genul
cinilor i conchide de exemplu, cum c, pstrndu-ne n cadrul oricrei rase i grupe de vrst,
pe msur ce un cine are greutate mai mare el are anse mai mari de a fi mascul. Un astfel de
raionament este statistic absolut corect i ne arat ct se poate de clar faptul c conceptul de
cauzalitate este un concept teoretic i nu unul statistic.
Una din greelile de interpretare cel mai curent ntlnite n citirea datelor statistice este
presupunerea de cauzalitate. Foarte adesea ne este convenabil s citim rezultatul unui calcul
statistic ca o dovad de cauzalitate. Aceasta este fals chiar din dou motive. Pe de o parte, aa
cum am spus-o mai sus, statistica nu dovedete nimic ci eventual nu respinge o ipotez, iar
mai apoi, nici un model statistic nu poate conclude asupra vreunei cauzaliti. Este ns ct se
poate de adevrat c exist modele statistice ce presupun cauzalitate, cum sunt regresiile. n
acest caz cauzalitatea este inclus n model, face parte din teoria ce a stat la baza construirii
modelului i desigur, ca n orice form de cunoatere statistic, ea ar putea fi eventual
respins. Caz n care am avea un bun motiv s excludem o relaie cauzal. Dac ns nu putem
respinge cauzalitatea nu avem un motiv mult mai puternic de a o presupune dect am avut n
momentul n care teoria ne-a permis s o considerm pentru a fi modelat.
Deci cauzalitatea este n teorie, n ipotez i nu n calcul. De aceea exemplul de interpretare
de mai nainte ni s-a prut imediat greit. Face parte din simul comun faptul c genul unui
cine este neschimbat toat viaa lui, pe cnd greutatea poate varia. De aici teoria noastr
despre cini nu accept cauzalitatea dintre greutate i gen ci pe cea invers. Deci, ipoteza pe
care nu o putem respinge este: cinii masculi sunt mai grei i nu cinii mai grei sunt
masculi. Din pcate nu este ntotdeauna aa simplu. S lum un exemplu clasic, relaia dintre
nivelul de educaie al unei naiuni i bunstarea ei. Se tie foarte bine c exist o legtur
puternic ntre aceste dou caracteristici aproape indiferent cum le-am msura (de ex: procent
din populaie cu studii superioare i produs intern brut pe cap de locuitor), exist ns teorii
convingtoare pentru ambele direcii de cauzalitate i testele statistice nu au reuit s resping
nici una dintre ele. Decizia asupra direciei de cauzalitate este deci un apanaj al teoriei.
13
Un alt caz interesant care apare n statistic uneori este cel al falsei cauzaliti, sau ntr-o
form atenuat, a falsei corelaii. Variabile par a fi legate i nu ar trebui s fie. Vreau s atrag
aici atenie asupra necesarei precauii n a defini o legtur ca fiind o fals relaie dintre
variabile. Eu pn n momentul de fa nu am ntlnit false relaii ci doar relaii cu explicaii
teoretice complexe sau neimediate. Sunt aceste explicaii corecte? Nu ntotdeuna, dar nu pot fi
imediat respinse i sunt ca atare mai fertile dect presupunerea unei false cauzaliti.
Exemplul clasic este cel al foarte bunei corelaii empirice dintre numrul de berze i indicele
conjunctural al fertilitii, calculat ca numr de copii nscui unei femei pe parcursul vieii
fertile, calculate pe regiune. Rezultatul, des verificat n practic ar putea fi o dovad cum c
berzele aduc copiii. Cei ce au citit cumini pn aici vor observa c nu este aa. Pe de alt
parte s-ar putea s fie de acord cu faptul c, experimentul n cauz nu poate respinge o
legtur dintre numrul de berze i natalitate. S oferim ns o teorie alternativ. O teorie ct
se poate de acceptabil chiar de ctre simul comun spune c numrul de berze, dar i numrul
de nateri ale unei femei pe parcursul vieii fertile este mai mare n zona rural dect n cea
urban. Gradul de urbanizare al regiunii studiate ar reprezenta deci o variabil care le
influeneaz pe amndou variabilele din studiul nostru. i mai mult, le influeneaz n acelai
sens creind astfel o relaie pozitiv ntre ele. Nu era deci vorba despre o cauzalitate direct,
dar nici despre o eroare. Pur i simplu, relaia cauzal trebuia explicat teoretic acceptabil.
Adic, testul statistic nu poate alege care din cele dou teorii alternative, barza aduce copiii
respectiv urbanizarea reduce numrul de berze i numrul de nateri a unei femei este mai
bun. Adecvarea cu ansamblul de teorii i ipoteze ale cercetrii are ns aceast sarcin.
nchei aici, repetnd: testele statistice pot da indicaii despre relaii dintre variabile dar numai
teoria poate construi n termenii unor relaii cauzale i tot teoria trebuie s fie atent la
posibilele determinri cauzale complexe, ce implic nu numai variabilele msurate explicit ci
eventual i altele, poate uneori chiar nemsurabile.
d. Foarte scurt istoric al statisticii.
Probabil c au existat rapoarte statistice nc din vremurile imperiilor antice legate de
impozite i preuri, fapt este c termenul actual de statistic provine din latina nou folosit n
administraia german i italian a secolului al 18-lea, i mai exact din termenul statisticum
collegium, ce avea sensul de colegiu de stat, colegiu director. Mai mult, n Italia vremii,
14
statista chiar nsemna om de stat, politician. Se pare c primul care a folosit cuvntul statistic
a fost Gottfried Achenwall n 1749, i anume n limba german, sub forma de Statistik i cu
sensul de analiz a datelor despre stat sau chiar de tiin despre stat. Achenwall (17191772) a fost unul din creatorii statisticii, pe parcursul carierei sale fiind att universitar la
Marburg i Gttingen, ct i consilier de curte al principilor electori de BraunschweigLneburg.
Termenul de statistic a fost preluat n alte limbi i, n fine generalizat, cu un sens apropiat
celui pe care l dm astzi acestei metode, pe parcursul secolului al 19-lea.
Practica de a culege i analiza date despre stat exista ns deja n Anglia i era acolo numit
aritmetic politic. Termenul avea o vechime de cel puin un secol cnd Achenwall a inventat
noul nume i pare a i se fi datorat lui William Petty (1623 - 1687) fiind chiar titlul unei cri
ce i s-a publicat postum. William Petty nu a fost statistician n sensul metodelor pe care le
nelegem astzi ca fiind statistice. A fost ns statistician prin multe dintre temele ce l-au
interesat. Petty a fost i politician, economist, inventator, antreprenor i multe altele i a
folosit tot felul de tehnici ingenioase, chiar dac nu ntotdeuna corecte, pentru a estima, de
exemplu, populaia Londrei.
Pentru ca statistica s fie cea de acum a trebuit ns s se lege mai nti de teoria
probabilitilor. Acest domeniu al matematicii, iniial legat mai mult de jocuri de noroc i
divertismente matematice, i are originile tot n secolul al 17-lea, dei primele scrieri despre
jocuri de noroc se gsesc ntr-o oper postum a lui Girolamo Cardano (1501-1576), Liber de
ludo aleae. Cartea a fost ns publicat abia n 1663, n anii n care apreau i lucrrile unor
Pierre de Fermat (1601-1665) sau Blaise Pascal (1623-1662). Acetia din urm sunt creditai
c au moit de fapt teoria probabilitilor prin corespondena pe care au purtat-o asupra
celebrei probleme a Cavalerului de Mr. Problema era: cum trebuie s mpart doi juctori
miza total a unui joc de noroc dac nu vor s joace pn la capt, dar vor ca aceast imprire
s fie proporional cu ansa fiecruia de a ctiga jocul. Pe Pascal se pare c la convins n aa
msur metoda probabilist gsit nct a folosit-o i pentru a argumenta existena lui
Dumnezeu, cu un succes mai de grab incert.
Destul de repede s-a observat c, dei un joc de noroc este determinat de situaii aleatoare,
repetarea unui astfel de eveniment aleator poate duce la o anumite regularitate i aceast
15
repetare este de fapt baza a ceea ce acum numim observaie statistic. Ideea de observaie
repetat apare deja n prima carte de teorie a probabilitilor publicat de Christiaan Huygens
(1629-1695) n 1657. Ca tiin matematic urmtorii pai au fost fcui de doi celebri
matematicieni Jakob Bernoulli (1654-1705) tot ntr-o lucrare postum, intitulat Ars
Conjectandi i Abraham de Moivre (1667-1754) n Doctrines of Chance (publicat n
Anglia). Aceast din urm carte pune i bazele statisticii n sensul modern al tiinei. n a doua
ediie a crii (1738) apare pentru prima oar o form a distribuiei normale de probabilitate
despre care vom vorbi pe larg i n cartea de fa, dar i un caz particular al teoremei limit
central, o clas de teoreme foarte important pentru statistic, pe care va trebui s o tratm i
noi mcar un pic pentru a nelege diferite fenomene legate de erorile statistice.
i teoria erorilor de observaie se gsete deja n scrieri de la nceputul secolului al 18-lea, i
anume n cteva note postume ale lui Roger Cotes (1682-1716), dar cel ce a legat probabil
statistica, cu sensul de observaie asupra statului de teoria probabilitilor a fost Pierre-Simon
Laplace (1749-1827).
Laplace a fost un om de tiin deosebit de prolific, ceea ce ne intereseaz ns acum este
dezvoltarea de ctre el a unei aa-zise teorii analitice a probabilitilor. ntr-o lucrare din 1812
Laplace descrie mai exact distribuia normal, i, pe lng multe altele, demonstreaz i o
form a metodei celor mai mici ptrate, nc metoda noastr de preferin pentru calculul
ecuaiilor de regresie, precum vom vedea n capitolul al aselea.
Probabil cellalt mare creator al tiinei statisticii a fost Carl Friedrich Gauss (1777-1855).
Considerat uneori cel mai mare matematician al tuturor timpurilor, dei mie personal nu mi
este cunoscut nlimea lui fizic i nu cred c cea intelectual se poate cu adevrat msura,
Gauss a contribuit la aproape toate domeniile matematicii. i el a contribuit la descrierea
distribuiei normale, de aici i numele de curb a lui Gauss ce se d de obicei graficului
distribuiei normale. Tot Gauss a clarificat i ipotezele metodei celor mai mici ptrate. n acest
caz exist ns o anumite disput de primordialitate cu Adrien-Marie Legendre (1752-1833)
care a publicat aceleai rezultate, se pare independent de Gauss. Legendre le-a publicat de fapt
naintea lui Gauss, acesta ns susinea c le tie de mult.
Deja pe parcursul primei pri a secolului al 19-lea rezultatele tiinifice legate de metoda de
cercetare statistic s-au nmulit considerabil. Multe metode au fost dezvoltate, principalele
16
tehnici puse la punct. Dezvoltarea mare a domeniului a venit ns spre sfritul secolului al 19lea i apoi n secolul al 20-lea o dat cu interesul crescut pentru studiul societii, apariia
tiinelor economice moderne i a sociologiei. Atunci apar marile coli statistice crora le
datorm arsenalul actual de metode. Pe de o parte este vorba despre coala englez. Principalii
ei exponeni au fost: Karl Pearson (1857-1936) care a contribuit esenial la teoria corelaiei i
a regresiei i a dezvoltat coeficientul de corelaie r dar i coeficientul Chi2, i Ronald Fischer
(1890-1962) iniiator de fapt al ntregului domeniu al testelor non-parametrice, creator al
distribuiei i testului F i a unei serii ntregi de rezultate eseniale pentru statistica de astzi,
dar i Charles Spearman (1863-1945) care a dezvoltat principalele metode de analiz
factorial dar i coeficientul de corelaie (rho) pentru valori ordinale, numit i coeficient
Spearman, William Sealey Gosset (1876-1937) cunoscut sub pseudonimul Student, care a
dezvoltat metode de verificare a ipotezelor, distribuia Student i testul t, i alii.
Dac coala englez de statistic a fost la originea multora dintre metodele statisticii aplicate,
la cellalt capt al continentului, n Rusia, au aprut lucrri eseniale pentru justificarea
tiinific, matematic a calculului statistic. Principalele teoreme ce stau la baza statisticii au
fost demonstrate de matematicienii rui Pafnuty Chebyshev (1821-1894) cu inegalitatea ce i
poart numele i ca o consecin a acesteia, teorema slab a numerelor mari, Andrey Markov
(1856-1922) creatorul lanurilor Markov i n general unul dintre creatorii teoriei proceselor
stochastice, Aleksandr Lyapunov (1857-1918) care a demonstrat o form general a teoremei
limit central, Andrey Kolmogorov (1903-1987) unul din principalii contribuitori la
demonstrarea teoremei tari a numerelor mari i autorul unui criteriu suficient ce i poart
numele, i alii.
Dezvoltarea statisticii a continuat pe parcursul secolului trecut i ca tiin. Mai impresionant
poate ns, statistica a ptruns n contiina public o dat cu utilizarea ei pe scar larg n
cercetrile sociale i cvasi-generalizarea sondajului de opinie ca metod de culegere de
informaii despre societate, ca metod de msurare a societii. Primul sondaj de opinie a fost
efectuat n Statele Unite de revista Literary Digest n 1916 pentru a prevede rezultatul
alegerilor prezideniale. Fr vreo baz teoretic statistic, revista a cerut cititorilor s
returneze redaciei o carte postal - chestionar. Pentru patru alegeri prezideniale la rnd,
metoda a dat rezultate corecte.
17
Un pas important spre fundamentarea tiinific a sondajului de opinie l-a fcut George H.
Gallup (1901-1984) care n teza lui de doctorat din 1928 a dezvoltat metoda ce st la baza
sondajului de opinie statistic. Primul mare succes al lui Gallup a fost n 1936 cnd a reuit s
prevad corect victoria lui F.D. Roosevelt n alegerile prezideniale, spre deosebire de Digest
care a greit folosind un eantion incomparabil mai mare. Celebru att pentru ncrederea mare
pe care a produs-o de la nceput ct i pentru cteva eecuri memorabile, lui Gallup trebuie s-i
recunoatem meritul de a fi creatorul instituiei sondajului de opinie statistic.
18
19
a. Date nominale
Datele nominale, numite uneori i categoriale, sunt nume date unor proprieti ale obiectelor,
indivizilor sau fenomenelor studiate care nu pot fi reprezentate prin cantiti i nici nu au o
ordine implicit. Din exemplele de pn acum, genul este o dat nominal. Indiferent ct de
complex cultural, biologic, comportamental i aa mai departe ar fi categorisirea pe genuri,
dezvoltarea caracteristicilor de gen sau alte probleme despre care sunt alii chemai s scrie, ca
tip de dat genul nu e altceva dect un cuvnt desemnnd o categorie. Nu putem face nici
socoteli aritmetice cu genuri, nici comparaii. Masculin nu e mai mare dect feminim, i nici
sume sau medii nu putem face. Chiar daca am codifica la o adic genurile, la modul feminin =
2 i masculin = 1, ca la codurile numerice personale din Romania, o declaraie de forma:
genul mediu ar participanilor la sondaj a fost 1,56 este ilar.
Totui i datele nominale trebuie sa se supun unor reguli, e drept puine i simple, pentru a
putea fi folosite ca date statistice. Acestea sunt:
Condiiile de mai sus nu sunt ntotdeuna uor de pus n practic. Dei cred c par a fi de bun
sim, sunt situaii n care ntrebrile i listele de rspunsuri trebuie formulate cu grij pentru a
nu ntmpina probleme n analiza ulterioar a datelor. De multe ori cercettorii chiar prefer s
pun ntrebrile astfel nct s par ct mai naturale celor ce trebuie s rspund la ele i s
codifice apoi ei nii datele n aa fel nct s corespund cerinelor prelucrrii statistice.
Exemple tipice de date nominale sunt genul, starea civil, naionalitatea, apartenena
religioas. Toate acestea au n comun faptul c pe lng caracterul lor nenumeric nu au nici o
20
ordine acceptat a valorilor. Asta chiar dac unii pot fi de prere c romnii sunt mai
superiori dect bulgarii!
Cu toate c datele nominale pot prea srace din punctul de vedere al posibilitilor
calculatorii ele sunt importante n multe fenomene sociale, economice, etc. i au fost
dezvoltate multe metode statistice care s permit analiza lor sau, mai adesea, s permit
analiza altor date n relaia lor cu categorii nominale. Voi discuta pe larg astfel de metode n
special n capitolul al aptelea al crii.
b. Date ordinale
O a doua grup de date sunt cele care, dei nu sunt numerice, au o ordine bine definit a
valorilor. Sensul de bine definit al unei ordini nu este nicidecum trivial. Matematicienii
neleg printr-o ordine bine definit o ordine care poate fi recunoscut pentru orice dou
valori i mai mult, este i tranzitiv.
Pentru simplificare voi folosi expresia mai mare pentru a descrie ordinea. Atunci o ordine
este bine definit dac ntre oricare dintre valorile de rspuns este clar care este mai mare.
Tranzitivitatea nseamn c daca o valoare este mai mare dect alta, iar aceasta mai mare
dect o a treia, prima valoare va fi n consecin mai mare dect cea de a treia.
n plus fa de condiia de ordine, datele ordinale trebuie s se supun i condiiilor pe care leam specificat n cazul datelor nominale, s permit deci numai valori mutual exclusive i lista
acestor valori s fie complet.
Diferena esenial dintre datele ordinale i valorile numerice este aceea c nu are sens
calculul distanei dintre dou valori, respectiv distanele dintre valori consecutive nu se pot
presupune a fi egale. Un exemplu va face mai clar aceast distincie. O ntrebare tipic
pentru un rspuns ordinal este cea legat de ncrederea ntr-un politician. S presupunem c
rspunsurile posibile sunt: foarte puin, puin, nici puin, nici mult, mult, foarte
mult. Se vede imediat c lista de valori este ordonat bine, ntre orice dou valori ordinea e
evident i tot evident este i proprietatea de tranzitivitate. Tot att de clar este c fiecare
intervievat va trebui sa decid de fapt care e opinia lui, foarte probabil fiind c pn n
momentul interogrii el s nu-i fi pus problema ncrederii n termenii ntrebrii. Aceast
21
Formulrile pot diferi, de regul ns este vorba despre o scal ordinal cu un numr impar de
valori. Cel mai adesea sunt 5 valori, unii cercettori din domeniul psihologiei n special,
prefer totui scale cu 7 valori. Valoarea median, adic cea din mijlocul scalei este
ntotdeuna o valoare neutr. Acordul sau dezacordul sunt exprimate verbal n forme ct mai
clare i simple de grade diferite de radicalitate. Uneori se alege contient eliminarea valorii
mediane. n acest caz se vorbete de o scal Likert cu opiune forat. Intervievaii sunt atunci
obligai s adopte o poziie chiar daca ar prefera neutralitatea.
Un alt tip important de scalograme, sunt cele de tip Guttman sau cumulative, dezvoltate iniial
de sociologul i psihologul Louis Guttman ntr-un articol din 1944. Guttman pune cteva
condiii simple pentru ceea ce este o scal Guttman perfect, i anume:
Modelul lui Guttman este desigur ideal prin caracterul lui determinist. O variant mai
permisiv i mai apropiat de realitate este modelul lui Rasch care presupune o scal de tip
Guttman probabilist, adic n care relaiile dintre rspunsuri au un caracter probabilist.
Un exemplu celebru de scal de tip Guttman este des folosit n analiza relaiilor dintre grupuri
etnice, religioase, naionale, etc. Aceasta este scala Bogardus (dup sociologul american care
a dezvoltat-o), numit i scal a distanei sociale, care se bazeaz pe o lista de ntrebri de
urmtoarea form:
Ai fi de acord ca un .......... (aici se completeaz categoria fa de care se estimeaz distana
social, de exemplu maghiar, rrom, baptist, homosexual):
Valori ordinale se pot ns obine i n alte situaii. De fapt cazul cel mai cunoscut de valoare
ordinal este cel al notelor i calificativelor date elevilor i studenilor. i este i cel mai
cunoscut abuz de utilizare a unor valori ordinale. Dei probabil o mare parte a profesorilor ar
fi de acord, cel puin eu a fi, c distana dintre un 4 i un 5 nu este aceiai cu distana dintre
un 7 i un 8, sau dintre un 9 i un 10, medii aritmetice ale notelor se calculeaz n mod uzual
i se mai i folosesc pentru a lua decizii importante pentru viaa celor notai. Problema
utilizrii mediei aritmetice pentru date ordinale este ns o problem care a produs multe
controverse. Dup prerea mea principalul motiv este prezena att de rspndit a datelor
ordinale, probabil cele mai des ntlnite n cercetrile sociale, i frustrarea de a renuna la o
form de prezentare att de simpl de calculat i neles cum este media aritmetic. Trebuie
ns menionat c exist o serie ntreag de metode puternice care lucreaz cu date ordinale i
nu fac presupuneri suplimentare despre distanele dintre valori.
Alte exemple de date ordinale snt: nivelul de educaie (dac formularea rspunsurilor este
bine ordonat), respectiv topurile de preferine (nu i cele de vnzri, la care se poate calcula o
diferen ntre poziii clar exprimat n uniti vndute).
c. Date intervalice
Ultimele dou categorii ale clasificrii lui Stevens se refer la date numerice i diferenierea
pe care a impus-o ntre datele intervalice i cele raionale este i una dintre cele mai
controversate ale teoriei nivelelor de msurare. Cu toate acestea, s vedem despre ce e vorba.
n definiia iniial, datele intervalice sunt date numerice care au punct zero convenional. Mai
simplu spus, zero-ul intervalic nu nseamn o lips a caracteristicii ci este o valoare ca
oricare alta. Un cine care are greutatea zero nu este un cine, cel puin dup prerea mea. Ca
atare greutatea nu este o valoare intervalic. Dac ns cineva s-a nscut la ora zero, nu
nseamn c nu s-a nscut de loc. Ora zero este convenional i nu nseamn absena
indicaiei de timp. Deci datele calendaristice, sau de or sunt date intervalice. Ele evident sunt
altfel dect celelalte date numerice de msurare.
24
Datele intervalice au toate caracteristicile datelor ordinale, sunt mutual exclusive, complete i
bine ordonate. Chiar i caracterul convenional al notrii numerice este prezent. Diferena este
ns distana calculabil ntre dou valori intervalice. ntre dou momente n timp se poate
calcula o distan, fie ea n minute, secunde sau alte uniti de msur i o distan de o
anumit mrime, de exemplu 5 minute, este aceiai indiferent pentru ce valori de timp a fost
calculat. Pstrnd toate celelalte condiii egale, dac un ou fierbe n 5 minute la ora 14, el va
ajunge la fel de tare dup 5 minute de fierbere i la ora 7. Atenie ns, chiar dac momentele
ora 14 i ora 7 snt indicaii intervalice, nu astfel este i durata de 5 minute. Aceasta
este o dat numeric raional, cum vom vedea c se numesc acestea. Adic, un ou care fierbe
zero minute chiar nu fierbe de loc!
Alte date intervalice sunt gradul de longitudine i latitudine geografic, fusul orar, temperatura
precum i alte date convenionale.
Deoarece datele intervalice au distane corect calculabile ntre ele, pot fi folosite n aproape
orice calcule matematice. Problematic rmne utilizarea lor n mpriri i nmuliri, deorece
ele nu au sensul de cantitate pe care il acordm de obicei datelor numerice. Astfel un cine de
40kg cntrete ntr-adevr ct doi cini de cte 20kg. Pe de alt parte, ora 14 nu este ct dou
ore 7 din nici un punct de vedere. De asemenea, de 4 ori cate o halb de bere sunt 2 litri de
bere, ns de patru ori deteptarea la ora 3 dimineaa nu face ct o trezire la ora 12.
d. Date raionale
Din prezentarea de pn acum nu am avut cum exclude referiri la datele raionale. Acestea
sunt datele numerice, cantitative, obinuite. Ele apar des n cercetarea social sau economic,
i cu att mai mult n ecologie sau medicin i sunt cele pentru care s-au dezvoltat cele mai
multe dintre tehnicile i testele statistice. Absolut orice calcule matematice se pot face cu
aceste valori.
Greutatea cinilor, banii din portofel, valoarea produsului intern brut, numrul de locuitori ai
unui ora sau de restane al unui student sunt toate valori raionale. Ele sunt rezultate ale unor
msurtori cantitative, sau adesea al unor numrtori. Valoarea zero nu este o convenie, un
student cu zero restane este chiar un student cu o vacan lung i relaxant.
25
De obicei caracterul discret sau continuu al valorilor unor date raionale nu se tematizeaz la
nivelul statisticii aplicate introductive. Dei unele metode presupun date continue, cum este
cazul metodelor de regresie, se face cel mai adesea abstracie de la aceast presupoziie.
Exist rezultate matematice suficient de bine fundamentate care permit o atare abordare fr
pericolul de a grei semnificativ. i apoi continuitatea datelor nu nseamn statistic mai mult
dect c valoarea msurat poate fi orict i nu numai anumite valori, de exemplu numere
ntregi. O asemenea condiie nu este de fel restrictiv.
26
Nu toate cercetrile statistice sunt bazate pe date culese prin sondaj. O mare parte dintre
metodele folosite att pentru descrierea datelor ct i pentru testarea unor teorii se aplic, cu la
fel de mult succes, i pe alte tipuri de date. Este vorba despre ceea ce numim date de
recensmnt. Suntem obinuii cu acest termen ca desemnnd o chestionare periodic, dar
totui rar, a ntregii populaii a rii pe teme legate mai mult de statutul social-economic.
Conceptul are ns o definiie ceva mai larg. Un recensmnt este o cercetare care presupune
intervievarea (sau mai general, msurarea) tuturor membrilor populaiei studiate. Deci tehnic
un studiu care trateaz statele europene folosind date culese din toate aceste state este un
recensmnt la fel cum tot recensmnt este un studiu care intervieveaz toi studenii unei
anumite faculti att timp ct rezultatele nu se doresc a fi generalizate pentru alte grupuri de
studeni. Dei n cazul recensmntului inducia statistic nu are rolul pe care i l-am pomenit
n introducere, exist aa cum am mai spus i aici un anumit nivel de generalizare. Anume,
prin faptul c folosim modele mai mult sau mai puin simple pentru indivizii studiai i
ncercm totui s tragem concluzii despre comportamentul lor sau despre opiniile lor.
Tot ce am putea tii, de exemplu, despre studenii facultii de tiine politice din Timioara
sunt rspunsurile pe care acetia le dau la un chestionar. Am putea totui s ncercm s
verificm dac pentru acetia se poate susine faptul c cei ce lucreaz n perioada studeniei
sunt mai puin interesai de problemele legate de organizarea academic. Este posibil o astfel
de cercetare? Desigur. Este sigur c se poate rspunde la ntrebare? Evident, nu. ntrebarea
este o ipotez de lucru, s-ar putea s poat fi respins, s-ar putea ns s nu se poat face acest
lucru. Indiferent ns de aceasta, rezultatele se vor referi numai la studenii chestionai i nu se
vor putea generaliza, dup regulile statisticii cel puin, la ali studeni, din alte faculti sau
alte orae.
n unele cazuri, probabil pentru a evita confuzia curent cu recensmintele naionale
menionate, statisticile de acest tip se mai numesc statistici de lot. Prin lot nelegndu-se de
fapt populaia care este n acelai timp i eantion al cercetrii.
n general un eantion este mulimea aleas prin vreo metod oarecare, a celor ce vor fi
chestionai (sau msurai) n cadrul unei cercetri. Dac de exemplu, la o fabric de ciorapi
trebuie fcut un studiu statistic al egalitii lungimii ciorapului stng cu ciorapul drept,
probabil c s-ar decide c este suficient msurarea unui eantion i nu al ntregii populaii
28
ciorpeti. S-ar putea alege, i ar fi chiar cea mai bun metod, de pe banda de producie tot a
o mia pereche de ciorapi pn cnd se ajunge la un numr dorit, de exemplu tot o mie de
perechi. Perechile de ciorapi msurai vor forma eantionul, producia ce are loc n perioada n
care se aleg perechile de ciorapi e populaia cercetat. Exist multe metode de a alege un
eantion, unele mai bune, altele mai puin, unele mai simple, altele mai puin. Vom reveni la
acestea n partea a dou a acestui capitol.
Pentru moment s ncerc s explic de ce putem face asta. De ce e suficient s msurm o mie
de ciorapi ca s spunem ceva despre cteva sute de mii, sau de ce un institut de sondare a
opiniei publice e suficient s ntrebe nu mult mai mult de o mie de oameni pentru a prevedea
suficient de bine rezultatul unor alegeri prezideniale? Explicaia st n cteva teoreme
matematice. Ele snt n general cunoscute ca fiind legile numerelor mari, teorema
fundamental a statisticii i teorema limit central. Nu cred c a fi de prea mare folos
cititorilor acestei cri dac le-a enuna matematic corect. Voi ncerca deci numai s le
povestesc.
Legile numerelor mari snt o serie ntreg de teoreme, probabil prima fiind enunat de
Bernoulli n 1713. Toate aceste teoreme spun lucruri asemntoare. Ele de fapt vorbesc despre
repetarea unor experimente, de exemplu aruncarea unui zar. Esenial este ca repetarea aceast
s se fac n aa fel nct fiecare aruncare de zar (sau ce experiment ar fi) s fie independent
de celelalte. Dac e aa i notm rezultatele, pe msur ce numrul de experimente crete felul
cum se distribuie rezultatele observate se apropie din ce n ce mai mult de felul cum sunt
distribuie toate rezultatele posibile. n cazul unui zar bine echilibrat, pe msur ce repetm
aruncarea cu zarul ne apropiem din ce n ce mai mult de o distribuie n care fiecare faet
apare de un numr egal de ori. Traducerea n statistic e simpl. Fie o informaie oarecare de
interes pentru cercetarea noastr, o dat statistic cum i-am spus pn acum, sau o variabil
cum i se mai spune. Ea este cumva distribuit n populaie (de exemplu genul e distribuit cam
jumtate jumtate, perechile de ciorapi inegali sunt cam 5% din producie, etc.). Ei bine
legile numerelor mari ne asigur de faptul c dac alegem s chestionm (msurm) un numr
de indivizi (perechi de ciorapi) atunci att timp ct alegerea unui individ este independent de
celelalte alegeri, pe msur ce numrul celor alei crete, distribuia rezultatelor de msurare
se aproprie de distribuia valorilor n ntreaga populaie. Simplu spus asta nseamn c un
eantion mai mare e mai bun dect unul mai mic. Dar mai spune dou lucruri eseniale. O
dat, faptul c adugnd la eantion n mod corect nu ne ndeprtm de la distribuia pe care
29
dorim s o aflm ci ne tot apropiem de ea i n al doilea rnd, mai important, ne spune cum
trebuie s alegem eantionul. Anume astfel nct fiecare alegere s fie independent. Din
pcate, aa cum vom vedea asta nu este chiar aa uor n statistic ca la aruncarea cu zaruri.
O form a legii numerelor mari, cunoscut i ca teorema Glivenko-Cantelli a fost adesea
numit teorema fundamental a statisticii. Ea ne asigur inc mai bine de apropierea aceasta a
distribuiei valorilor observate de cele existente n populaie, apropiere ce n matematic se
numete convergen. Teorema Glivenko-Cantelli ne spune c aceast convergen este
uniform pe msur ce crete volumul eantionului. Bun, deci, din cele de pn acum tim c
msurnd un eantion din ce n ce mai mare ne apropiem din ce n ce mai mult i uniform de
felul cum variabilele ce ne intereseaz sunt distribuite n populaie, atta timp ct fiecare
element din eantion l-am ales independent de celelalte (vom spune n general c eantionul e
ales aleator, la nimereal). Pare de bun sim, cred. ntrebarea mare ce se pune acum este, ct
de mare trebuie s fie eantionul astfel nct apropierea s fie suficient de bun? Altfel,
desigur, dac pentru o populaie de 21 de milioane, distribuia din eantion se apropie de
distribuia din populaie pe msur ce se adun milioanele de chestionare nu am rezolvat prea
mare lucru.
Aici intervine teorema limit central. i ea face parte dintr-un grup de teoreme numit n
general teoreme limit central. Pentru a deosebi teorema cea mai important dintre acestea, o
teorema enunat i demonstrat de Lyapunov la nceputul secolului 20, ea se scrie adesea cu
litere mari (Teorema Limit Central!). Ea ne spune c n anumite condiii, importante pentru
matematicieni, o sum de variabile aleatoare necunoscute, dar independente tinde la o
distribuie normal cnd numrul acestor variabile tinde la infinit. Condiiile pomenite nu sunt
de fapt foarte restrictive, ele spun c variabilele nsumate trebuie chiar s fie oricum, la
nimereala i faptul c trebuie s aib aceiai medie i dispersie. Aceasta, a doua condiie nu
este de fapt chiar att de restrictiv, dei poate prea. De fapt ea nu este restrictiv pentru c
orice variabil aleatoare poate fi mpins spre stnga sau dreapta graficului ei prin simpla
adunare sau scdere a unei valori numerice. Nu se schimb cu nimic caracteristicile variabilei,
pur i simplu graficul se mpinge ncoace sau ncolo. Deci orice variabil poate fi adus la
aceiai valoare medie fr a schimba mare lucru. Cu dispersia e ceva mai complicat, dar nu
mult, aa c nu o mai comentm aici. Bun, deci, le insumm i iese ceva numit distribuie
normal, o distribuie despre care vom mai vorbi. Precum vedem ea este foarte important n
statistic. Nu e foarte simpl matematic, dar pentru majoritatea utilizatorilor de statistic e
30
suficient s cunoasc cteva din principalele ei proprietti. i pe moment cel mai important
este c e cunoscut. E foarte important. S relum de fapt ideea. Avem un numr de tot felul
de variabile despre care nu tim mai nimic i dac le adunm toate iese ceva cunoscut. Asta e
foarte confortabil pentru c la urma urmei n orice cercetare ce presupune studierea
comportamentului unor oameni putem s fim destul de siguri c sunt o gramad de variabile
pe care nu le-am putut msura i nc i mai multe la care nu ne-am putut nici mcar gndi. Ei
bine, astea toate nsumate n efectele lor produc ceva cunoscut. Deci, grija mare c sunt attea
i attea care nu pot fi luate n seam nu e chiar aa de justificat.
Aceast grmad de variabile sunt de fapt eroarea care trebuie luat n seam cnd ncercm s
estimm o valoare. Prin faptul c se poate estima corect forma sumei variabilelor care nu le
lum n seam n mod explicit se obine i formula care permite estimarea erorii. Cum am
vzut din teoremele numerelor mari aceast eroare este legat de volumul eantionului. Deci
aici putem estima volumul unei eantion pentru a obine cu probabilitate mare o anumit
precizie a cercetrii statistice.
31
n pia i i nvm s abordeze ceteni n mod aleator. Indiferent cte ore ar sta operatorii
notrii n pia i indiferent n ce zile ar sta acolo, recipientul acesta nu va conine toat
populaia Timiorii n nici un caz. Mai mult, cei ce trec prin pia vor fi probabil persoane
care au anumite caracteristici diferite de cei ce nu trec. E probabil, de exemplu, s fie n
special persoane care nu sunt angajate n munc: studeni, elevi, pensionari, amatori de fotbal,
actori i statisticieni. Pur i simplu, faptul de a trece n Timioara prin Piaa Operei e deja un
anumit mod de comportament i ar putea influena i alte comportamente i opiuni ale celor
alei s rspund la chestionar. Un astfel de eantion nu va fi reprezentativ pentru ntreaga
populaie a oraului. Oala e pur i simplu prea mic. Pe de alt parte, nu tiu dac clientul
cuiva ar fi mulumit cu aseriuni de genul: o treime din cei ce trec prin Piaa Operei ziua n
amiaza mare ar cumpra detergentul ....
Bun, e preferabil deci s alegem alt oal. O opiune care se ofer este cartea de telefon. Fie
deci, cartea de telefon, oala din care se aleg la nimereal numere de telefon. Intervievarea prin
telefon are i avantajul de a fi rapid i confortabil. Este ns oala asta destul de mare?
Depinde. Practic punnd astfel problema redefinim populaia de la populaia oraului
Timioara la populaia oraului Timioara abonat la Romtelecom. Aceast populaie
poate fi o mai bun sau mai proast aproximare a populaiei iniiale dar nu va fi n nici un caz
o aproximare statistic pentru c apartenena la cea de a doua populaie nu este una aleatoare
fa de prima populaie. Mai simplu, populaia celor care au telefon n Timioara nu a fost
aleas n mod ntmpltor din toat populaia oraului, persoanele cu pricina au avut de fcut
pai administrativi clari care au presupus un interes pentru a avea telefon, un anumit venit
minim, poate chiar un efort logistic. Deci putem linistit presupune c cei ce au telefon sunt
altfel dect cei ce nu au. Deci, cele dou populaii nu sunt interanjabile. Posesorii de telefon
vor avea probabil n medie un venit mai mare, vor fi localizai n anumite cartiere, etc. Totui,
clientul nostru s-ar putea s fie mulumit de rezultate obinute pe populaia restrns att timp
ct volumul ei este suficient de apropiat de volumul populaiei iniial considerate. La nceputul
anilor 1990 a fi fost clar mpotriva intervievrii telefonice. Pe vremea respectiv foarte multe
familii nu aveau telefon dei ar fi dorit s aib, iar cei ce aveau telefon aveau n mod clar
caracteristici particulare, de obicei de natur profesional. Dei aceasta poate s fie teoretic
adevrat n continuare, deoarece numrul de abonamente telefonice n mediul urban se
apropie foarte mult de numrul total de gospodrii, redefinirea populaiei nu este una care s
deranjeze prea mult. Discrepana dintre mediul urban i cel rural rmne ns att de mare nct
33
albe. Regula esenial a alegerii aleatoare, se poate exprima astfel: fiecare membru al
populaiei trebuie s aib aceiai ans s fie ales n eantion. Pare simplu, nu e. Numai
dac avem un cadru de eantionare aceasta se poate face (aproape) perfect. Atunci un
generator de numere aleatoare pe calculator ne poate alege un eantion ct de mare vrem.
Aceasta ar fi o eantionare aleatoare perfect. Mai exist o variant la fel de bun, dar mai
puin laborioas. Dat fiind construcia listelor, fie electorale, fie telefonice, care se face
alfabetic, poziia unei persoane n list nu e legat de anumite caracteristici. De aceea se poate
folosi o metod mai simpl, aa-zisa alegere pseudo-aleatoare. Se alege aleator atunci un prim
nume. Apoi se aplic un pas de eantionare. Acesta se calculeaz ca raport dintre volumul
populaiei i volumul eantionului. De exemplu, n Timioara sunt aproximativ 140.000 de
abonamente telefonice. Daca dorim un eantion de 1000 de persoane, pasul de eantionare va
fi de 140. Punem n eantion, de exemplu, primul numr telefonic din carte, apoi numrul al
141-lea, apoi al 281-lea, i aa mai departe. ansa unui numr de a fi ales depinde de alegerea
primului numr, aceste se alege din valori ntre 1 i 140. Oricum toate numerele de telefon au
aceiai ans de a fi alese independent cui aparin, i n mod evident, ceea ce e cel mai
important, nu conteaz nici un fel de caracteristici social-economice, etnice sau
comportamentale ale celor alei.
S ne gndim la varianta pe care am considerat-o cea mai bun pentru alegerea urnei, anume
parcurgerea geografic a localitii. n acest caz avantajul de a lucra cu situaia real a
adreselor este i motivul principalului dezavantaj. Anume, nu exist un cadru de eantionare
ceea ce face alegerea simpl aleatoare sau pseudo-aleatoare imposibil. Cum alegem
locuinele ca s dm tuturor aceiai ans, i o dat aleas o locuin cum dm tuturor
locatarilor aceiai ans? Esenial este desigur ca alegerea s nu fie influenat de caliti ale
locuirii i persoanelor. Adic, casele mai drgue s nu fie favorizate fa de cele mai
nentreinute, persoanele mai primitoare fa de cele mai puin primitoare, eventual chiar
unele etnii fa de altele! Metoda care se folosete este construirea unui itinerariu-algoritm. E
ca i cum am face o alegere pseudo-aleatoare n care pasul de eantionare nu mai e un numr
de rnduri pe o foaie de carte de telefon ci un numr de case pe o strad sau un numr de
locuine ntr-un bloc. Ce conteaz este ca metoda s includ toate cazurile posibile astfel nct
argumente care in ntr-adevr de condiiile de locuire s nu conteze. Cel mai ru este ca
operatorul s aleag dup argumente de genul: s-a terminat strada, acum pot s o iau la stnga
sau la dreapta, dar la stnga e noroi!. Poate prea nesemnificativ, dar prin repetare, dac
astfel de alegeri sunt posibile ele pot duce la un caracter nealeatoriu al eantionului i la
35
oficiale. De exemplu, dac avem de fcut un sondaj ntr-un anume jude putem afla din
anuarul statistic ci locuitori snt n mediul urban i ci n mediul rural, ci n oraul reedin
de jude, ci n alte orae. Mai mult, unele din aceste categorii se pot cunoate chiar nainte de
intervievare, se pot lua n seam n eantionare i selecie. Astfel prin simple proporii se pot
calcula eantioane stratificat.
Un exemplu simplu pentru judeul Timi ar fi urmtorul. n tabel am trecut populaia total
urban i rural din 2006 conform Institutului National de Statistic. Am calculat apoi
procentele fa de totalul populaional al judeului i, n fine cte chestionare dintr-un total de
1000 ar trebui aplicate n mediul rural i cte n mediul urban pentru a pstra volumele
straturilor.
Numr locuitori
Procent
Numr chestionare
Urban
414.680
62,9%
629
Rural
244.619
37,1/
371
Total
659.299
100%
1000
Aceast metod este folosit cel mai adesea pentru a crea eantioane pentru o populaie mare
i distribuit, cum ar fi populaia unei ri, de obicei eantionarea nu este doar stratificat ci i
multistadial. Aceasta presupune mai muli pai de stratificare i alegere aleatoare. Cel mai
simplu ar fi s vedem cum se face aceasta pentru o populaie cum ar fi cea a Romaniei.
Primul pas, sau primul stadiu, este mprirea dup tehnica stratificrii pe care am vzut-o mai
nainte a eantionului n funcii de regiuni de dezvoltare. Romania este mprit, mai mult sau
mai puin administrativ n opt astfel de regiuni de dezvoltare. Ele nu sunt propriu-zis uniti
administrativ-teritoriale cum sunt judeele, dar sunt suficient de bine particularizate socioeconomic. n mare, cele opt regiuni se potrivesc pe regiuni istorice ale Romaniei, dei sunt
criticate tocmai pentru c nu se potrivesc i mai bine cu acestea. Oricum, ceea ce conteaz
pentru statistician este faptul c regiunile de dezvoltare sunt folosite de Institutul National de
Statistic ca uniti de raportare. Adic, toate datele statistice teritoriale sunt disponibile i la
nivel de regiune. n plus, evident cele opt regiuni sunt mai potrivite ca straturi dect foarte
multele judee ale rii. Romania are 41 de judee. Dat fiind un eantion obinuit, care aa cum
tim depete cu puin 1000 de chestionare, numrul de chestionare care s-ar aplica ntr-un
jude ar fi ilar de mic i de greu de distribuit n consecin. Hai s fiu puin mai explicit.
37
Procent
Numr chestionare
Nord-Est
3.781.932
16,3%
163
Sud-Est
2.980.559
12,8%
128
Sud Muntenia
3.619.796
15,6%
156
Sud-Vest Oltenia
2.461.463
10,6%
106
Vest
2.198.504
9,5%
95
Nord-Vest
2.983.614
12,9%
129
Centru
2.860.490
12,3%
123
Bucureti Ilfov
2.325.037
10,0%
100
Total
23.211.395
100%
1000
Al doilea stadiu este, de obicei, distribuirea pe medii de reedin. Aceasta se poate face pe o
simpl mprire rural urban, cum am vzut deja n exemplul precedent, sau pe o ceva mai
complex mprire n trei zone, rural localiti urbane mici (sub 100.000 de locuitori)
localiti urbane mare. Aceasta este mprirea pe care o folosesc majoritatea institutelor de
sondare a opiniei publice de pe la noi. mprirea aceasta duce n fine la o distribuie a
chestionarelor prin care se afl cte chestionare trebuie fcute pe fiecare regiune i fiecare tip
de localitate. Atunci apare primul pas de selecie aleatoare, dintr-o list de localiti pe regiuni
i tipuri de localiti se aleg, n mod teoretic aleator, localiti care le vor reprezenta pe toate
celelalte din aceiai regiune i acelai tip. Deci, ar trebui alese mcar o localitate urban mare,
una mic i o localitate rural pentru fiecare regiune. n realitate se aleg de obicei mai multe
localiti din cte o categorie, aa cum vom vedea i din exemplul urmtor.
S dezvoltm o regiune oarecare, de exemplu regiunea Nord-Est n forma mai simpl a
distribuiei rural - urban.
Rural
Numr locuitori
Procent
Numr chestionare
2.105.562
56,4%
92
38
Urban
1.629.384
43,6%
71
Total
3.734.946
100%
163
Deci vor trebui aplicate 71 de chestionare n orae din regiunea Nord-Est i 92 chestionare n
sate i comune din regiune. Cel mai probabil se vor alege din listele de localiti dou orae i
trei sau patru comune pentru intervievare, dar numrul localitilor alese este de fapt la
latitudinea celui care organizeaz sondajul i are cel mai adesea motivaii legate de costuri.
Desigur pentru a fi statistic n regul alegerea localitilor trebuie s fie aleatoare, sau mcar
independent de consideraii legate de caracteristici socio-economice ale localitilor.
De obicei aici se oprete stadializare unei astfel de eantionri. Numai dac numrul de
chestionare este mai mare se mai poate merge un pas mai departe i se mai pot mpri n
continuare localitile n categorii, de exemplu localiti de es vs. de deal, etc.
La finalul metodei stratificate, fie ea multistadial sau nu, rmne tot o alegere aleatoare a
celor ce vor fi intervievai, fie cu ajutorul crii de telefon, a listelor electorale sau a
itinerariului pe teren. De fapt, privind puin n urm alegerea punctelor de pornire a unei
eantionri pseudo-aleatoare cu itinerariu este tot un fel de eantionare multistadial. Dac
numrul de chestionare pentru fiecare din aceste puncte se stabilete lund n seam volumul
populaional al cartierului n cauz eantionarea este chiar stratificat.
Am spus pe undeva la nceputul acestei seciuni c, matematic vorbind eantionarea
stratificat nu este mai bun dect cea simpl aleatoare. Ea se folosete mai des ns pentru c
are alte avantaje. Anume, un sondaj de opinie se face cel mai adesea pentru a testa ipoteze i a
descrie comportamente populaionale. Ipotezele statistice de obicei compar comportamente
i opiuni ntre subgrupuri din populaie. Eantionarea stratificat ne asigur c o parte din
categorisile populaiei se vor regsi cu necesitate n eantion. Astfel, suntem n acest caz
siguri c vom putea compara regiunile ntre ele, zonele de reedin, etc. Din motive similare
de multe ori la selecia partenerilor de interviu se verific (statistic se spune c se controleaz)
i distribuia pe genuri. De obicei se face prin alternan simpl. Operatorului i se indic s
intervieveze alternativ o femeie un brbat. Desigur, teoremele matematice pe care se
bazeaz statistica ne promit c aceste distribuii vor iei bine i prin alegerea simpl aleatoare.
ns n condiiile n care numrul chestionarelor nu este foarte mare, un control asupra
anumitor variabile populaionale ne poate asigura n faa unor eventuale probleme.
39
O alt problem care trebuie menionat pe undeva i care ine n cele din urm de eantionare
este alegerea unei ore ct mai potrivite pentru interviuri. Aici necazul este c o fereastr de
timp prea mic, de exemplu ntre orele 18 20, dei ar putea surprinde pe majoritatea celor
alei pentru a fi intervievai disponibili, duce la prelungirea timpului afectat operrii
sondajului i ca atare i la creterea costurilor. Una peste alta, n cazul intervievrii la
domiciliu se alege de obicei un interval orar ntre orele 16 i 21. Vara se poate profita un pic
mai mult deoarece pe lumin ansa ca operatorul s fie refuzat este ceva mai mic! Important
pentru alegerea intervalului orar al chestionrii este ns s nu faci gafe prea mari. Dac de
exemplu pornim prin sat duminic nainte de mas vom nimeri pe mult lume la biseric, iar
cei pe care i vom gsi acas vor avea un alt profil comportamental i valoric dect cei pe care
nu i gsim acas. Aa putem da peste cap o eantionare altfel onorabil.
3. Eantionri ne-aleatoare
Exist i metode de alegere a celor intervievai care nu au nimic de a face cu statistica. Ca
atare, astfel de metode nu au o relevan matematic pe care s o putem calcula i nu se
bazeaz n vreun fel pe regulile statisticii. Totui se folosesc pentru c sunt simple, ieftine,
pentru c uneori sunt inevitabile i pentru c de multe ori aa-zise sondaje nu sunt neaprat
fcute de specialiti sau comandate de clieni bine informai.
Cea mai des folosit metod de eantionare ne-aleatoare este metoda de eantionare pe cote.
Aceasta seamn cu metoda stratificat. Dac ns la eantionarea stratificat se determin un
numr relativ mic de straturile n aa fel nct s lase loc i unei alegeri aleatoare, cotele se
construiesc mai exact. Straturile de obicei se fac n aa fel nct s nu includ caracteristici ale
persoanelor intervievate. Cotele conin tocmai astfel de caracteristici. De exemplu, din date
statistice oficiale se deduce ponderea din populaie pe grupe de vrst i genuri i se
calculeaz, ntocmai ca la eantionarea stratificat, numrul de persoane de fiecare categorie
care trebuie intervievat.
Fiecare operator primete atunci un numr din chestionare i o matrice de genul:
Femei
Brbai
18 35 ani
4 chestionare
5 chestionare
35 50 ani
5 chestionare
6 chestionare
40
50 65 ani
5 chestionare
4 chestionare
Peste 65 ani
4 chestionare
3 chestionare
De multe ori numrul de caracteristici cotate e chiar mai mare i poate include ntrebri filtru
de genul consumai bere? sau locuii n aceast localitate?. Bineneles folosind
eantionarea pe cote nu se mai pot alege cei intervievai aleator, fie din cartea de telefon, lista
electoral sau cu itinerariu, pentru c n nici care din aceste liste i pseudo-liste persoanele nu
apar cu specificarea unor caracteristici ale lor. Operatorul alege partenerii de interviu conform
cotelor prin orice metod dorete, pe strad, dintre vecini, i aa mai departe. Astfel nu se mai
exclude nici auto-selecia, nici subiectivitatea alegerii operatorului.
O alt metod de eantionare ne-aleatoare este inevitabil n cazul populaiilor rare. Ea se
numete metoda bulgrelui de zpad. Imaginai-v c populaia cercetat ar fi populaia
amatorilor de jazz sau a cetenilor italieni stabilii n Banat. Astfel de populaii nu apar n
listele electorale, nu sunt de discernut din cartea de telefon, iar folosirea itinerariului ar duce
la att de multe eecuri nct ar dura i costa enorm de mult. Nu poi bate din u n u n
cutarea iubitorilor de bonsai pn aduni suficiente interviuri! Dac nu poi asimila un astfel
de grup rar cu o asociaie formal tot ce poi face este s recunoti faptul c persoane din
astfel de grupuri sunt de obicei legate ntre ele n reele sociale. Persoanele din grupuri rare se
cunosc ntre ele. Aa funcioneaz metoda bulgrelui de zpad. Se pornete de la un numr
de persoane care aparin populaiei i care au fost identificate n vreun mod oarecare. Apoi
fiecare dintre acestea este rugat s specifice alte persoane din aceiai populaie pe care le
cunosc. Din aproape n aproape se poate ajunge la un numr rezonabil de mare de interviuri.
Desigur relevana matematic-statistic a aceastei metode nu poate fi calculat.
n fine, unele posturi de televiziune sau ziare folosesc termenul de sondaj de opinie pentru un
numr oarecare de interviuri scurte efectuate cel mai adesea pe strad. Aceasta nu este o
eantionare ne-aleatoare, pur i simplu nu e nici un fel de eantionare i rspunsurile nu pot i
nu trebuie s fie considerate a fi vreun sondaj de vreun fel.
4. Chestionarul
Ei, am ajuns fa n fa cu cel pe care dorim s-l intervievm. Acum, ce? Acum chestionarul!
41
Spuneam c statistic vorbind fiecare din membrii populaiei trebuie s aib aceiai ans s
fac parte din eantion. Tot att de important, metoda de msurare chestionarul trebuie
s aib un efect ct mai mic asupra opiniilor msurate. Dac eu vreau s cntresc
ciobneti mioritici, i aleg prin cea mai bun metod posibil un eantion, iar apoi nainte de
a-i cntri, i tund pe ceii din eantion ca s fie mai drgui, nu prea am gndit bine. Toi
membrii eantionului vor avea o greutate mai mic prin pierderea de blan ce le-am cauzat-o.
Greutatea lor nu va mai putea fi generalizat la nivelul populaiei din care au fost alei.
Exemplul pare extrem, dar n realitate interviul n sine i felul cum este construit chestionarul
nu au cum s nu i diferenieze pe cei intervievai de cei ce nu snt intervievai. Dac dorim s
putem generaliza rezultatele trebuie s ne strduim s scriem chestionare care s influeneze
ct mai puin rspunsurile celor chestionai.
Aceast carte nu are scopul de aprofunda nici teoretic, nici aplicativ scrierea de chestionare.
i totui, este ct se poate de important s nu se neglijeze partea aceasta a designului unei
cercetri. Degeaba am folosi cele mai moderne metode de cercetare i am proceda cu maxim
precauie la interpretarea rezultatelor, daca chestionarul e prost conceput, prost va fi i
rezultatul. Exist multe capcane n scrierea unui chestionar, unele pot fi folosite chiar i
intenionat. Avantajul de a scrie o carte este c te poi erija n nelept i da sfaturi. Avantajul
de a o citi este c poi sri pasajele de genul acesta. Deci, atenie, urmeaz sfaturi bine
intenionate!
1. Cele mai grave denaturri ale rezultatelor se obin prin ceea ce n englez se numesc
leading questions. Sunt ntrebri care foreaz un anumit rspuns sau mcar favorizeaz
un anumit rspuns. ntrebri de acest gen leag de obicei unul dintre rspunsurile posibile
de un concept foarte indezirabil sau, mai puin eficient, de unul foarte dezirabil. Pentru a
construi astfel de ntrebri se folosesc construcii discursive puternic ncrcate valoric
negativ sau pozitiv. O ntrebare pus pare-se ntr-un sondaj efectuat n oraul Cluj suna
astfel Sntei de acord cu renfiinarea n oraul nostru a universitii de limb maghiar
care a existat in perioada Horthist?. n ntrebare se face legtura dintre universitatea de
limb maghiar i fascismul maghiar forndu-se astfel un rspuns negativ. Se creaz chiar
senzaia c a susine renfiinarea universitii de limb maghiar ar fi o form de a susine
sau chiar a readuce Horthismul. Sigur astfel de ntrebri nu prea se pun din greeal. Se
poate ns ntmpla i aa ceva. De exemplu, se poate ntreba cu mai mult sau mai puin
candoare: Considerai c ar trebui pedepsite crimele comunismului?. n formularea
42
aceasta apare perechea de cuvinte crim i pedeaps. Un rspuns negativ dat acestei
asocieri devine aproape imposibil, astfel nct din ntrebare nu aflm cu adevrat mai
nimic despre opinia celui ntrebat fa de crimele comunismului. O alt form de cretere
a probabilitii unui anumit rspuns se poate obine prin adugarea unei propoziii
explicative naintea ntrebrii, propoziie care s favorizeze anumite interpretri.
2. Uneori, ce e drept destul de rar, se ntlnesc i ntrebri la care lista de rspunsuri permite
numai anumite aprecieri, sau scade posibilitatea unor opinii prin trecerea lor implicit la
categoria altele. Iat un frumos exemplu cules de mine de curnd:
Ce prere aveti despre MBA-ul AMERICAN al UNIVERSITATII DESALES2?
1. Excelent !
2. Foarte bine - dar e prea scump
3. Bun - pcat c e doar n limba englez
4. E un lucru bun dar nu m intereseaz acum
5. Nu m intereseaz subiectul
Evident scala nu este numai incomplet ci i tendenioas. Nu exist nici o variant de
rspuns negativ! Dac cumva te intereseaz subiectul prerea pe care o poi avea poate fi
numai de la bine n sus.
3. O alt form de denaturare a rspunsurilor se poate obine prin formularea prea
pretenioas a ntrebrii sau a posibilelor rspunsuri. Aceasta are efectele cele mai
devastatoare n cazul n care completarea chestionarului se face prin interviu cu un
operator. n caz de autoadministrare ansele ca cel ce completeaz chestionarul s sar
peste ntrebrile pe care nu le nelege sau la care nu tie s rspund sunt mai mari. Dac
ns este ntrebat de ctre un operator, cel chestionat tinde s prefere s dea un rspuns
oarecare dect s-i recunoasc lacuna de nelegere. n special brbaii se simt obligai s
rspund ceva. Exist i un nume pentru treaba asta, se numete sindromul rspunsului
masculin (male answer syndrom) i termenul se pare c a fost folosit prima dat n 1986
de ctre Sam Hunt ntr-o caricatur. Fapt este c att eu ct i muli alii ne-am lovit de
aceast problem i de preponderena masculin a celor care rspund fr s neleag
ntrebarea. Problema poate s apar la formularea ntrebrii, ca de exemplu: n ce msur
v afecteaz personal implementarea aquis-ului comunitar?. Pot aprea ns astfel de
probleme i la coninutul ntrebrii. Am vzut un chestionar, de exemplu, care fusese
aplicat unui eantion al populaiei unui jude ntreg i coninea ntrebarea: Ce tip de balet
2
43
completeze chestionarul acas. Cel mai ru este dac e intervievat sau pus s completeze
chestionarul undeva unde nu se simte la locul lui, unde se consider n inferioritate i este ca
atare tentat s se adapteze situaiei, de exemplu, ntr-o instituie public, ntr-un spital, etc. n
cazul interviurilor cu operator este important i relaia spontan ce se creaz cu acesta. Exist
adesea, n special la persoane n vrst confruntate cu operatori tineri, o tendin de simpatie.
Combinnd aceasta cu lipsa unor opinii ferme pe anumite teme se poate uor ajunge la
rspunsuri de complezen, care au n substrat dorina de a fi n acord cu operatorul sau de
face o impresie pozitiv. Efecte similare apar i atunci cnd cel intervievat se simte n
inferioritate evident fa de operator din punct de vedere al educaiei sau veniturilor. n
special femeile sunt tentate s caute rspunsuri adecvate opiniilor pe care le proiecteaz
asupra celor ce le intervieveaz. Apoi mai apare uneori i o dorin de a iei bine, de a da
rspunsul corect sau adecvat.
Operatorul ideal este deci un fel de roboel, nici prea antipatic ca s nu fie refuzat, nici prea
simpatic ca s nu denatureze rspunsurile, i n plus total lipsit de prere proprie n felul cum
citete ntrebrile, d din cap sau zmbete la rspunsuri. Unii prefer operatorii empatici, care
aprob opiniile celui intervievat, alii operatori ineri. Fapt este c operatorii empatici pot crea
o anumit dezinhibare care faciliteaz sinceritatea intervievatului.
Capitolul acesta rmne dator cu o important parte calculatorie. Aa cum am pomenit de mai
multe ori pentru sondajele efectuate cu eantionare statistic aleatoare se poate calcula o aazis marj de eroare, adic o eroare acceptabil a estimrilor statistice. Pentru a putea prezenta
modul de calcul al acestei marje de eroare este ns necesar o prezentare mai amnunit a
distribuiei normale. n fine, nsi calculul marjei de eroare este legat de testul t pe care l
vom prezenta n prima parte a capitolului 5 al acestei cri mpreun cu distribuia normal.
Am decis s grupez elementele mai matematizate separat de cele discursive pentru a facilita o
parcurgere gradual a materialului i reduce riscul abandonului lecturii de ctre cei care resimt
un disconfort la prima ntlnire a unei formule matematice. Sper s fi reuit mcar n parte.
47
48
O astfel de tabel are n mod curent peste 1000 de linii i zeci sau chiar sute de coloane.
Afiarea n sine a tabelei nu permite ca atare o citire prea facil i nu prea poate duce la vreun
fel de consideraii inteligente. E pur i simplu prea mare, plin de cifre i lipsit de sensuri.
Deci, ce facem?
a. Imagini de ansamblu asupra datelor. Frecvene i reprezentri grafice.
Prima idee este de a prezenta n vreun mod simplu i concis cte o variabil, adic o coloan a
tabelei de date.
S presupunem c respectiva coloan conine rspunsuri legate de frecvena gtitului n
familiile din Baia Mare3. 1051 de intervievai au rspuns la ntrebarea: Ct de des se gtete
la dumneavoastr n familie?. Rspunsurile posibile au fost zilnic, de mai multe ori pe
3
Valorile sunt reale i provin dintr-un sondaj efectuat n 2003. Populaia a fost populaia oraului Baia Mare,
eantionarea a fost multistadial aleatoare cu itinerariu cu luarea n considerare a cartierului de reedin,
densitatea de locuire a acestuia si a genului intervievatului. Interviurile s-au efectuat la domiciliul subiecilor
ntre orele 16 i 21 asigurndu-se prezena majoritii celor angajai n cmpul muncii.
49
Valoare
Frecven
Procent
Procent cumulat
Zilnic
547
52,0%
52,0%
476
45,3%
97,3%
Sptmnal
26
2,5%
99,8%
mai rar
0,2%
100,0%
Total
1051
100%
Cum interpretm, sau mai exact cum citim o astfel de tabel? S observm nti c variabila n
cauz este ordinal, chiar dac forma ei are un caracter total nenumeric exist o ordine bine
definit. Prima coloan de valori numerice, sub titlul de frecven prezint numrul de
persoane intervievate care au ales acest rspuns, a doua coloan ne d ponderea procentual a
rspunsului iar a treia cumuleaz acest procentaj cu procentajele din categoriile cu valoare
mai mic. Frecvena i procentajul simplu se pot calcula pentru orice tip de variabil, ele nu
fac calcule cu variabila n sine ci cu frecvena ei de apariie. Procentajul cumulat are sens
numai la variabile care au o ordine definit, astfel un procentaj cumulat pentru variabile
nominale, dei poate fi calculat, are mai puin sens.
Ce aflm din tabela de mai sus? n primul rnd faptul c rspunsurile s-au grupat n zona cu
gtit frecvent. Peste jumtate din cei ntrebai susin c la ei n familie se gtete zilnic.
Numrul celor care susin c la ei se gtete mai rar dect sptmnal este foarte foarte mic,
numai dou persoane din eantion au rspuns astfel. Observm de asemenea c peste 97%
dintre intervievai declar c la ei n familie se gtete de mai multe ori pe sptmn.
Paragraful de mai sus este o simpl transcriere a principalelor rezultate ale tabelei de
frecvene. Strategia ei este simpl i se folosete des. Ea ncepe cu prezentarea valorii cel mai
des ntlnite. n cazul nostru este valoarea zilnic, apoi se trece la valoarea cea mai rar. La
50
variabile ordinale se obinuiete eventual o prezentare a capetelor scalei. n cazul de mai sus
este vorba despre aceleai valori. Apoi se prezint rezultate cumulative, dac au sens. O
precuaie mare trebuie avut la menionarea valorilor numerice. Aici se poate induce n eroare
destul de mult. Un obicei bun este de a nu se specifica valorile procentuale de dup virgul.
Dup dorin se poate trunchia sau rotunji. Statistica este o estimare cu o anumit eroare.
Prezentarea unor valori cu tot cu zecimale produce impresia unei exactiti pe care nu o putem
promite cu contiina curat.
O a dou regul legat de prezentarea procentajelor se refer la valorile rare. n cazul unor
categorii cu numr mic de cazuri valorile procentuale pot induce n eroare. Aceasta se
ntmpl n special atunci cnd procentajele se calculeaz pe volumuri populaionale care
oricum sunt mici. Deci, spunei numrul de cazuri i nu procentajul aferent unei valori cand
acest numr e mic. Ce nseamn mic depinde de decizia fiecruia dar este de bun sim s
considerm o opiune rar una care nu are mai mult de 10-15 cazuri. Pe de alt parte n
general statistic se consider un lot mic, un lot cu mai puin de 30 de cazuri. Cum spuneam,
contiina fiecruia i particularitile cercetrii trebuie s decid n cele din urm.
Tabelele de frecvene sunt adesea nsoite de grafice. O prezentare grafic este pentru muli
cititori mai confortabil, permite de obicei o nelegere mai rapid a unor trenduri sau
distribuii. Exist ns multe feluri de prezentri grafice i nu toate se potrivesc pentru orice
situaie.
Graficele cele mai simple i generale, valabile n aproape toate situaiile sunt graficele cu
bare. Ele pot fi folosite i n cazul variabilelor nominale i nici nu depind prea mult de
numrul de valori pe care variabila le poate lua. Iata mai jos un exemplu pentru variabila
prezentat deja.
51
60,0%
50,0%
Procent
40,0%
30,0%
52,05%
45,29%
20,0%
10,0%
2,47%
0,0%
zilnic
saptamanal
0,19%
mai rar
valorilor absolute sau procentuale. Tot ce se schimb este scala axei verticale. Forma i
culoarea barelor pot fi desigur diverse. Clar este c vizualizarea ofer un acces mai direct la
informaie i permite aceasta i unor cititori care prefer s nu aib de a face cu valori
numerice dac nu este neaprat necesar.
Pe lng graficele cu bare mai sunt i alte variante care ns se potrivesc mai degrab unor
situaii particulare. De exemplu, graficul de tip plcint (sau tort, cum preferai) prezint
valorile ca i felii dintr-o arie de disc. Un asemenea grafic este deosebit de potrivit pentru
reprezentarea procentajelor pentru c transmite bine faptul c valorile mpart un tot, o
populaie, n categorii.
2,47%
saptamanal
mai rar
45,29%
52,05%
Graficul plcint de mai sus ntr-adevr ne d o imagine mai clar ct de puin reprezint din
ansamblu procentajul de 0,2% i chiar cel de 2,5%. Un alt avantaj al graficului plcint este
posibilitatea de evideniere a unei felii considerate importante. De exemplu:
53
2,47%
0,19%
45,29%
mai rar
52,05%
Pe de alt parte dac variabila ar fi avut un numr mare de valori folosirea unei diagrame
plcit ar fi fost mai degrab menit s induc n eroare. Iat un exemplu comparativ cu un
grafic cu bare i unul plcint pentru o alt ntrebare din acelai sondaj.
54
2. De unde va place
cel mai mult sa va
faceti
cumparaturile?
30,0%
piata agroalimentara
supermarket
Procent
butic
Center
20,0%
chiosc
magazin
specializat
centru comercial
depozit en-gros
Metro
10,0%
Hoffer
Profi
nu am loc preferat
Mol
moldova
0,0%
va
do
ol
at
m
er
ef
pr
ol
c
M
lo
am
nu
i
of
Pr
r
fe
of
H
os
ro -gr
et
M it en ial
z
rc
po me zat
de co iali
ru pec
nt
s
ce in
az
ag
m
sc
io
ch r
te
en
C
t
ra
tic rke nta
bu
a
e
rm alim
pe
su gro
a
a
at
pi
Graficul plcit transmite poate o imagine de ansamblu interesant dar nu prea poate fi citit
atunci cnd sntem interesai i de opiunile mai rare.
O alt problem a graficului plcint este c se preteaz n special variabilelor nominale. Dac
n graficul cu bare, precum i n alte forme de grafice o ordine a valorilor este vizibil la un
grafic plcint o astfel de ordine nu se percepe. Evident, n cazul variabilelor nominale nici nu
ne dorim o asemenea ordine.
Al treilea tip de grafic foarte rspndit este graficul linie. Acesta seamn cel mai mult cu
graficele de funcii matematice aa cum se nva la coal. Creaz deci senzaia unei ordini a
valorilor i chiar unei continuiti. Ca atare nu merge la variabile nominale n nici un caz, dar
nu e de dorit nici la variabile ordinale. Este ns ideal pentru valori numerice fie ele
intervalice, fie raionale i n special cnd numrul valorilor e mare. Ca n exemplul de mai
jos.
55
40
valori absolute
30
20
10
0
83
80
77
75
73
71
69
67
65
63
61
59
57
55
53
51
49
47
45
43
41
39
37
35
33
31
29
27
25
23
21
19
17
7
Graficul reprezint distribuia pe vrste a eantionului din cercetarea din care am tot dat
exemple n acest capitol. Pe axa orizontal se gsesc vrstele celor ce au rspuns la ntrebri,
pe vertical e numrul persoanelor de o anumit vrst.
Pe scurt deci: graficele cu bare merg n aproape orice situaie, plcintele sunt perfecte pentru
variabile nominale i n special dac au un numr mic de valori, graficele linie se potrivesc la
variabile raionale i intervalice i n special dac au un numr mare de valori.
Pe lng aceste trei tipuri, care sunt ntr-adevr cele mai rspndite, exist o serie de alte
variante, grafice suprafa, diagrame de puncte, histograme, precum i o serie ntreag de
grafice care sunt legate de anumite prelucrri statistice cum ar fi graficele de regresie, de
cluster, i altele. Unele le vom pomeni la momentul oportun, altele nu.
nc un comentariu. Nu am pomenit de felul cum se pot analiza graficele, pur i simplu pentru
c prerea mea este c nu trebuie analizate graficele, ci datele care se afl n spatele lor. Un
grafic este o prezentare vizual, desigur confortabil i deosebit de util, dar nu conine mai
mult dect tabelul pe baza cruia a fost creat. Poate ns induce n eroare mult mai mult. Lund
prea de bune ce vedem pe grafic putem s supraevalum, de exemplu, tendine care statistic
nu sunt relevante. Un grafic simplu, precum cele din exemplele de mai sus nu spune cu nimic
mai mult dect un tabel de frecvene. Totui privind graficul exist o tentaie de a spune, de a
vedea mai mult. Aceasta este desigur benefic dac ne ajut s alegem testele de care avem
nevoie n continuare, dar total malefic dac ne duce la concluzii fr s mai calculm nici un
56
fel de teste, cum de altfel se mai ntmpl. Deci, precauie i sfatul meu este, prezentai
graficele dar analizai rezultatele de calcul.
Toate graficele din exemplele din aceast seciune s-au referit la prezentarea unei singure
variabile. Exist desigur diferite moduri de a prezenta mai multe variabile pe acelai grafic. n
capitolul 6. al acestei cri voi ncerca s dau ceva amnunte despre cum se lucreaz statistic
cu relaia dintre mai multe variabile. Voi ncepe cu tabelele de relaionare care ntr-un fel sunt
similare tabelelor de frecvene pentru cazul a dou (sau arareori trei) variabile. Atunci voi
prezenta i graficele aferente acestor tabele, aa cum acum am pus unele lng altele tabele de
frecvene i graficele simple n acest capitol.
b. Indicatori agregai
Indicatorii statistici agregai sunt valori calculate pe baza uneia sau mai multor variabile i
care ne ofer informaii despre ansamblul valorilor variabilei sau despre valorile variabilei
privite ca un grup de date. De obicei se identific, mai mult sau mai puin forat, ntreg
domeniul statisticii descriptive cu indicatorii statistici.
Care snt ns aceti indicatori? Vrnd, nevrnd fiecare dintre noi ne-am lovit de mediile
aritmetice dac nu i de ali indicatori. n seciunea aceasta o s prezint indicatorii principali
pentru analiza tendinei centrale i distribuirii datelor, apoi n capitolul 6. voi reveni la civa
indicatori care ne ajut s analizm relaia dintre mai multe variabile.
I.
Tendina central.
Sub numele acesta un pic pretenios se ascund diferite feluri de a calcula media unor variabile.
Ca atare s-ar putea s fie aparent uor de neles ce este tendina central a unei variabile, aa
cum desigur este uor de neles i de ce este ea att de criticat ca i mod de a descrie un grup
de date. De aceea, cred c pot s scap fr s mai dau i o definiie.
Principalul indicator pentru tendina central este media aritmetic simpl. Pe lng faptul c
destul de rar calculul unei medii d informaii relevante despre o variabil trebuie s
menionm i faptul c uneori calculul mediei este chiar greit conceptual. Pentru
corectitudine s prezentm ns un exemplu i, bineneles, prima formul din aceast carte.
57
Nume
Numr
Ana
37
+ NumrSimona + NumrOlivia +
Ioana
36
NumrAngela + NumrCarla +
Oana
38
NumrNadina ) / 8
Simona 38
Olivia
39
Angela
39
Carla
37
Nadina
39
Media
37,88
58
Media a fost calculat astfel: s-au adunat toate valorile din coloana Numr aferente numerelor
de pantofi i apoi suma s-a mprit la numrul fetelor, adic la 8. Valoarea final, care apare
i pe ultima linie a tabelei este media aritmetic a numerelor la pantofi a fetelor din grupa de
seminar. i aceast medie este 37,88. Ne spune asta ceva? Sigur. Anume c media numerelor
la pantofi ale fetelor din aceast grup de seminar este 37,88. Ne poate spune mai mult dect
att? Nu, n nici un caz. Ne poate fi de vreun folos? Depinde.
n general media unei variabile x se noteaz cu x, (x), x sau cu E(x), unde E provine din
englez de la expectancy. De altfel, media se mai numete i n limba roman uneori,
ateptare statistic. Originea acestei denumire vine de la media msurtorilor repetate ale
aceluiai reper. Media msurtorilor reprezint, statistic vorbind, apropierea cea mai bun de
valoarea real care se msoar, de aceea media este valoarea ateptat a msurtorii.
Calculul simplu al mediilor este arareori util n sine. Poate, de exemplu, dac se face design-ul
unui ascensor, o informaie despre greutatea medie a unei persoane dintr-o anumit populaie
poate fi important pentru c ar sta la baza specificrii numrului maxim de persoane care pot
cltorii de o dat cu ascensorul. Pe de alt parte, media poate fi un bun indicator comparativ.
De exemplu, dac greutatea medie a unui student de la facultatea de litere e mai mic dect
greutatea medie a unui student de la facultatea de mecanica (ceea ce este desigur adevrat!)
aceast informaie poate avea o anumit valoare n contextul unei cercetri. Aa cum vom
vedea exist teste statistice care compar medii ale unor variabile pe eantioane diferite pentru
a avea indicii dac populaiile din care s-au ales aceste eantioane difer din prisma
variabilelor studiate. Deci, media aritmetic poate fi o apropiere facil, dei superficial
pentru a vedea dac dou, sau mai multe populaii difer. S lum de exemplu ipoteza
urmtoare: nu exist diferene ntre studenii de la mecanic i cei de la litere. Un test poate
respinge aceast ipotez dovedind c exist o diferen de greutate medie relevant ntre
aceste dou populaii. Deci ceva diferene trebuie s existe ntre cele dou populaii. Pentru
cei ce nc nu s-au prins, diferena de greutate vine din faptul c ponderea fetelor este
incomparabil mai mare la facultatea de litere dect la facultatea de mecanic i fetele snt, n
medie mai uoare dect bieii.
Sigur, butada cu omul care st cu un picior ntr-un lighean cu ap clocotit i cu unul ntr-un
lighean cu ap cu ghea dar n medie ar trebui s-i fie bine, este strict matematic corect.
59
Totui, media este un indicator comparativ valoros tocmai pentru ca este simplu i induce n
eroare doar atunci cnd i conferim un coninut informaional mai mare dect are.
Cea mai mare problem legat de medii este calculul acestora atunci cnd variabilele nu
permit aceasta. Principial matematic este corect s calculm medii att pentru variabile
raionale ct i pentru variabile intervalice. Astfel media greutii sau a nlimii (care sunt
variabile raionale) sunt conceptual la fel de corecte ca i media temperaturilor sau a orelor de
deteptare (care sunt variabile intervalice). n toate aceste cazuri media are sens pentru c
calculul diferenelor este consistent. Adic, dac din 5 kg de orez vindem 3 kg ne rmne la fel
de mult ca atunci cnd vindem dintr-un stoc de 60 kg, 58 kg. i de asemenea dac am dormit
de la ora 5 dimineaa pn la ora 12 nainte de mas am dormit tot attea ore ca i de la 10
seara pn la 5 dimineaa, atta doar c poate snt mai mahmur n primul caz. Deci sumele i
diferenele precum i mprirea la scalar (adic la numere i nu la variabile aleatoare) este
consistent att pentru variabile raionale ct i pentru variabile intervalice.
Pe de alt parte nimeni nu cred c intenioneaz s calculeze media unor variabile nominale,
chiar dac ele au reprezentare numeric, cum sunt de exemplu numerele de pe tricourile unor
jucatori de fotbal. Astfel de valori, dei sunt formal numere, sunt esenial nume date unor
indivizi i media lor nu are nici un sens.
Greeala care se face ns adesea este calculul mediilor unor variabile ordinale. Este o
greeal care este foarte adesea acceptat pentru c extinde de fapt calculul mediilor colare la
cercetarea social. Nici notele de la coal nu sunt mai mult dect variabile ordinale. Cum am
mai spus, muli profesori ar accepta faptul c diferena dintre o not de 7 i una de 8 este mai
mic dect diferena dintre un 4 i un 5. Totui, suntem nvai cu mediile colare i nu ne
punem problema unei posibile incorectitudini rezultate din procedura de mediere n sine.
Mediile oricror variabile ordinale sunt desigur similare ca i relevan cu acest caz. Atunci,
de ce s nu acceptm astfel de calcule? Ei bine, departe de mine gndul cum c o decizie
asupra vieii unui elev e mai puin important dect o cercetare tiinific. Este ns un fapt c
medierea notelor este un fapt acceptat cu tot cu defectele pe care le are ca indicator pentru
nivelul de pregtire a unui elev pe o durat mai mare de timp sau chiar pentru un grup de
domenii ale cunoaterii. Media colar greete desigur atunci cnd aduce la egalitate o medie
de 7 rezultat dintr-un 10 i un 4 cu o medie care s-a obinut dintr-un 8 i un 6. Probabil mai
greete i atunci cnd face media dintre note date de cadre didactice diferite. tim cu toii c
60
anumii profesori nclin s dea note mai mici dect alii. Astfel, pentru un 7 la un anumit
profesor s-ar putea s fie necesare cunotiine mai multe dect pentru aceiai not la un alt
profesor. Toate aceste consideraii sunt cunoscute i fac parte din bunul sim comun pentru
oricine a trecut prin nvmnt. Nu este ns aa n cazul unei cercetri sociale. Variabilele
care se mediaz acolo nu sunt att de discutate ca i notele noastre de la coal, ca s nu
pomenesc de notele copiilor notrii! Ca atare relaiile care se mascheaz prin calcul nu sunt
att de evidente ca cele pe care le mascheaz media colar. Mai mult dect att, relaiile s-ar
putea s nici nu fie cunoscute. Aceasta e suficient pentru ca n cazul mediilor variabilelor
ordinale dintr-o cercetare statistic s fim cu adevrat indui n eroare.
Ali indicatori ale tendinei centrale sunt modul i mediana.
Modul unei variabile statistice este pur i simplu valoarea care apare cel mai des printre datele
culese. De exemplu, n exemplul de mai sus, numrul la pantof 39 apare de 3 ori, mai des
dect oricare alt valoare. 39 va fi deci modul sau, cum se mai spune modul distribuiei.
Determinarea modului nu presupune nici un calcul, ba mai mult nici mcar o ordine a
valorilor. Se poate deci stabili care e modul religiei sau ceteniei ntr-un grup de persoane,
dei aceste variabile sunt nominale. Nu exist nici o restricie pentru folosirea modului. Pe de
alt parte spunnd c modul distribuiei religiei n populaia Timiorii este cretin-ortodox
nu spunem dect c n Timioara sunt mai muli cretin-ortodoxi dect membrii ai oricrei alte
religii. Binenteles folosind termenul de mod, propoziia este mai greu de neles i sun mai
tiinific. Dei eu a sftui mpotriva unei exprimri criptice inutile, sunt situaii n care poate
fi de folos n contactul cu clieni mai snobi!
Dezavantajul esenial al modului este c ne spune chiar mai puin dect media. Practic aflnd
care e valoarea care apare cel mai des n eantion eliminm din informaia transmis o mare
parte a datelor culese. Dac media se calcula totui din toate datele culese, modul nu reflecta
dect o parte a datelor culese. Ca atare determinarea i raportarea modului au sens numai la
variabile nominale, unde altceva nu se poate folosi.
Mediana este un indicator al tendinei centrale care este gndit esenialmente pentru variabile
ordinale. Mediana necesit existena unei ordini ntre valorile culese dar nu i efectuerea unor
calcule. S revenim deci la picioarele fetelor. Pentru a determina mediana valorile culese se
ordoneaz, aa cum se vede din tabelul de mai jos:
61
Nume
Numr
Ioana
36
Ana
37
Carla
37
Oana
38
Simona
38
Olivia
39
Angela
39
Nadina
39
Mediana 38
Mediana este valoarea care apare la mijlocul listei. n cazul nostru este 38, valoarea de pe
poziia a 4-a i a 5-a dintr-o list de 8 cazuri. Dac am fi cules 1001 de valori, valoarea de pe
poziia 501 ar fi fost mediana. Precum se vede, mediana poate avea i dou valori diferite n
cazul n care lista are un numr par de elemente. Vorbim atunci de valorile mediane. Uneori
se calculeaz o medie artimetic ntre cele dou valori mediane, aceasta ns este desigur un
fel de prostie pentru ca decizia de a folosi mediana se ia tocmai acolo unde nu este indicat
calcularea unei medii aritmetice.
II.
Distribuia datelor
Aa cum am vzut i din exemplele precedente, media este adesea desconsiderat pentru c
obtureaz distribuirea datelor. O medie de 7 poate rezulta dintr-un 4 i un 10 la fel ca i dintrun 8 i un 6. O temperatura medie de 250 C poate rezulta dintr-o maxim diurna de 300 C i o
minim noctura de 200 C sau dintr-o maxim diurn de 500 C i o minim nocturn de 00 C.
De aceea atunci cnd se descrie statistic o variabil, media se dubleaz ntotdeuna de un
indicator care s ne transmit ct de departe sunt distribuite datele n jurul mediei.
Exist mai multe metode de calcul ale distribuirii datelor. Am ales s le parcurg n ordinea
complexitii calculului. Prima data ns o consideraie. Distribuia datelor implic un sens al
distanei fa de medie. Spunem c datele sunt mai ndeprtate sau mai apropiate de medie.
Aceasta presupune desigur o ordine i nu se poate aplica unor variabile nominale. Ca atare
62
distribuia datelor se poate msur numai n cazul variabilelor care sunt mcar ordinale.
Precum vom vedea majoritatea indicatorilor necesit chiar variabile intervalice sau raionale.
Variantele cele mai simple sunt desigur cele gndite pentru variabile ordinale. Toate acestea se
bazeaz pe ordonarea valorilor din list i aplicare unei metode care se bazeaz pe conceptul
de interval. Hai s revedem lista cu numerele de pantofi.
Nume
Numr
Ioana
36
Ana
37
Carla
37
Oana
38
Simona
38
Olivia
39
Angela
39
Nadina
39
Mediana 38
Intervalul este format ntotdeuna din dou valori. Intervalul simplu este perechea format din
valoarea cea mai mic i cea mai mare care au fost culese. n cazul nostru intervalul datelor
este (36, 39).
Am vazut c mediana mparte lista n dou. O astfel de mprire se poate face n continuare i
n cele dou jumti astfel lista ntreag se mparte n patru pri numite cvartile. Se obin
dou valori noi care sunt de fapt medianele jumtilor de list. Perechea lor este intervalul
intercvartilic, n cazul nostru (37, 39).
Se prefer uneori intervalul intercvartilic intervalului simplu al tuturor datelor deorece astfel
se elimin valorile extreme. Se poate ntmpla ca ntr-un eantion c apar cazuri extreme,
rare care s denatureze rezultatele. Evident astfel de cazuri vor fi ns puine. La urma urmei,
dac nu ar fi puine nu ar mai denatura rezultatul, ci ar fi chiar parte esenial a acestuia!
Utiliznd intervalul intercvartilic avem un termen de comparatie care nu ia n seam cazurile
rare, extreme, cazurile outlier (periferice).
63
Reprezentarea de mai jos sper sa clarifice i mai bine sensul intervalului intercvartilic.
Ioana
Ana
Carla
Oana
Simona
Olivia
Angela
Nadina
36
37
37
38
38
39
39
39
Prima cvartil
C0
A doua cvartil
C1
A treia cvartil
C2
A patra cvartil
C3
C4
Mediana
Valoarea care separ a doua de a treia cvartil, valoarea C2, este Mediana. Intervalul (C0, C4)
este intervalul datelor, iar (C1, C3) este intervalul intercvartilic. Uneori se numete chiar
valoarea C1 prima cvartil sau cvartila inferioar, C2 a doua cvartil i C3 a treia cvartil sau
cvartila superioar.
Metoda pe care am prezentat-o mai sus poate desigur fi extins la un numr mai mare de
astfel de grupri. n general asemenea mpriri ale datelor ordonate se numesc cvantile sau qcvantile unde q este numrul de intervale. mprirea cea mai uzual rmne cea n patru
grupuri, adic n cvartile (4-cvantilele), dar se mai gsesc prin literatur i conceptele de
cvintile (mprirea n 5 intervale de valori), decile (mprirea n 10 intervale), percentile
(mprirea n 100 de intervale) i altele ale cror nume sunt construite analog.
Prezentarea intervalelor ca perechi de valori nu necesit nici un fel de calcule matematice.
Uneori intervalele se raporteaz ns ca diferene ale valorilor extreme, adic ca lungime a
intervalului. Aceasta poate fi puin problematic n cazul variabilelor ordinale nu ridic ns
desigur nici un fel de probleme pentru variabile intervalice sau raionale.
Folosind notaiile de mai sus intervalul datelor (n englez se folosete range) se calculeaz
astfel:
range = C4 C0
adic diferena dintre cea mai mare i cea mai mic valoare culeas. Unele definiii vorbesc n
acest context despre lungimea celui mai mic interval care conine toate datele.
Intervalul intercvartilic, notat de multe ori IQR, este:
64
IQR = C3 C1
O alt denumire utilizat uneori pentru intervalul intercvartilic este aceea de jumtate median
a datelor.
Cu aceste calcule am fcut deja un pas n direcia indicatorilor distribuirii datelor intervalice i
raionale. n cazul acestor date posibilitile de calcul fiind mult mai mare s-au cutat metode
mai compexe care s permit o descrierea ct mai complet a datelor ntr-o singur valoare.
Asta nseamn c i formulele vor fi puin mai complicate. Exist muli astfel de indicatori dar
am decis s m concentrez numai pe cei ce se folosesc n mod uzual, anume abaterea standard
(numit n analogie cu termenul englezesc i deviaie standard) i dispersia (numit din acelai
motiv i varian).
Dispersia se calculeaz dup urmtoarea formul:
2 = 1/N i=1,n (xi - x)2
Merit s comentez un pic formula de mai sus. Nucleul, miezul ei este o diferen, o abatere,
de aici i numele indicatorului. Se scade din valoarea xi , adic valoarea variabilei x pentru
individul i media valorilor x, adic x. Adic, pentru nceput se calculeaz cu ct se abate
fiecare valoare culeas de la medie. Este i normal s procedm aa, la urma urmei cutm o
valoare care s exprime ct de distribuite sunt datele, adic ct de tare se abat ele de la medie.
Dorim ns o singur valoare pentru ntreg setul de date. O idee ar fi s adunm toate aceste
abateri. Ce s-ar ntmpla daca am face aa. Ei bine, unele abateri sunt pozitive, altele sunt
negative pentru c unele valori sunt sub medie, altele evident peste medie. Dac am aduna
toate abaterile, valorile pozitive s-ar atenua cu cele negative i nu am mai afla ct de
distribuite sunt datele cu adevrat. De fapt, e chiar mai grav dect att. Suma tuturor abaterilor
va fi ntotdeuna 0, i asta din motive pur i simplu matematice de calcul al mediei aritmetice.
De aceea ridicm la ptrat diferena, abaterea. Astfel se obine o valoare care este ntotdeuna
pozitiv i abaterile pozitive nu se mai anuleaz cu abaterile negative. Aa se ajunge la
formula (xi -x)2. Apoi adunm toate aceste abateri pentru ca s obinem o singur valoare care
s spun ceva despre abaterea total. Aa ajungem la i=1,n (xi -x)2. Spune oare aceast sum
65
cu adevrat ceva? Ei bine, da i nu. Da, pentru c este ntr-adevr o sum de abateri. Totui
nu, pentru c un numr mare de valori chiar destul de apropiate pot da aceiai sum total ca
i un numr mic de valori care sunt mult mai ndeprtate de medie. Deci trebuie s mprim
acest rezultat la numrul datelor culese, la volumul populaiei studiate. De aceea mprim
suma la N.
Rezult formula pe care am prezentat-o i anume:
2 = 1/N i=1,n (xi -x)2
Unele lucrri de statistic prefer n locul dispersiei rdcina ei ptrat , numit i abatere
standard sau deviaie standard. Ideea este c, deoarece abaterea s-a calculat cu ridicare la
ptrat, pentru a obine un indicator care s exprime mai corect cu ct se abat cu adevrat
valorile de la medie ar trebui extras radical din valoarea rezultat din calcul. Aceasta se mai
numete i abatere medie ptratic, o denumire care exprim foarte bine modul de calcul.
ntr-adevr n calcule se face o medie, adic o sum mprit la numrul de valori adunate, a
abaterii ridicate la ptrat. Avantajul abaterii standard este deci acela c valoarea ei poate fi
foarte bine comparat cu media.
n viaa real avem ns problema de a nu putea culege toate datele unei variabile aleatoare, de
aceea i abaterea standard sau dispersia pe care o calculm va trebui tratat ca o estimare
bazat pe un eantion a abaterii reale, adic a celei care exist la nivelul ntregii populaii.
Atunci ceea ce vom face pentru a ne asigura c reducem riscul de a grei, este s
supraestimm puin abaterea fa de valoarea calculat prin formul. Modul de calcul obinuit
este nlocuirea valorii N, a volumului populaiei cu N-1. O alt diferen, de ast dat pur
convenional este notarea. Dac de regul dispersia calculat la nivel de populaie ne noteaz
cu 2, dispersia estimat pe baza unui eantion se noteaz mai de grab cu s2. Formula este
deci:
s2 = 1/(N-1) i=1,n (xi -x)2
Analog se obine i abaterea standard estimat pe baza unui eantion, s.
66
Am prezentat n acest capitol indicatorii statistici de baz pentru descrierea unei singure
variabile. Exist desigur n statistic i ali indicatori, cum ar fi de exemplu cei de kurtosis sau
nclinare (n englez, skewness), indicatori care se pot nelege ca descriptivi pentru forma
distribuiei unei variabile, adic chiar pentru felul cum arat graficul variabilei. Aceti
indicatori snt ns destul de rar utilizai n practica cercetrilor empirice, fie ele sociale sau
chiar din tiinele exacte. De asemenea exist o serie de indicatori care descriu relaia dintre
dou sau mai multe variabile. La acetie ne vom referi pe larg n capitolul 6.
Cum s-ar zice am terminat aperitivele, reci i calde, grafice, frecvene simple i indicatori
descriptivi. Vom trece acum, n capitolul care vine la temelia analizei statistice, supele i
ciorbele statistice, esenele, cum s-ar zice, adic testele statistice.
67
68
evenimentul n cauz este imposibil, 1 nseamn c este sigur. Valorile funiei densitate din
exemplul nostru vor fi:
densitate (cap) =
densitate (stem) =
Desigur densitile de probabilitate pot fi mult mai complicate dect att dac valorile care le
poate lua o variabil devin mai multe. Rmn ns cteva reguli clare:
1. densitatea ia ntotdeuna valori ntre 0 i 1.
2. suma tuturor valorilor pe care le ia densitatea, adic pentru toate
valorile posibile ale variabilei, este 1.
Distribuia normal, numit i Gaussian4 este de fapt o familie de mai multe distribuii cel
mai bine caracterizabile prin funciile lor de densitatea care se pot descrie cu o singur
formul dependent de doi parametrii. Graficul acestor funcii, numit i Gaussian, curba lui
Gauss sau clopotul lui Gauss este foarte cunoscut chiar dac nu ntotdeuna bine neles.
S aruncm o privire la un astfel de clopot al lui Gauss nainte de a merge mai departe.
Atribuirea distribuiei normale lui Gauss nu este ntru totul corect. Dei Gauss a avut un rol important n
analiza distribuiei normale nu el a fost cel ce a definit-o ci de Moivre n 1734, deci muli ani nainte de lucrrile
lui Gauss pe aceast tem, publicate n 1809. De asemenea nu el a fost cel ce a denumit curba clopot. Aceasta i
se datoreaz lui Jouffret i a avut loc mai trziu, n 1872.
69
Ca pe orice grafic de funcie pe desenul de sus avem reprezentate puncte care corespund unor
valori de pe dou axe. Axa x a unei funcii densitate de probabilitate reprezint ntotdeuna
valorile pe care le poate lua variabila descris. Aa cum la variabila aruncarea cu banul
acestea erau cap i stema, la o distribuie normal valorile snt toate numerele reale.
Distribuia din grafic se mai numete i distribuia normal standard, dar vom mai reveni la
acest fapt. S vedem prima dat ce ne mai poate spune graficul de mai sus. n primul rnd,
distribuia normal este o distribuie continu. Adic funcia de densitate are valori de
probabilitate pentru toate punctele de pe axa x, nu doar pentru anumite puncte. Mai simplu
spus, densitatea de probabilitate e o curb continu, fr ntreruperi, orice valoare de pe axa x
are un corespondent pe curb.
Mai mult, dei din grafic nu rezult foarte clar, va trebui s m credei pe cuvnt c distribuia
normal este i nemrginit. Adic orice valoare poate fi atins, doar c unele se ating cu
probabilitate foarte, foarte mic.
Pe grafic, forma de clopot a curbei rezult din faptul c valorile pe care le poate atinge
variabila se adun n jurul unui punct anume. n varianta standard, cea din desenul de mai sus,
acest punct este valoarea 0. Faptul c aici curba se ridic la punctul ei cel mai nalt nseamn
de fapt c aceast valoare e atins n culegerea variabilei cu probabilitatea cea mai mare, de
aproape 0,4 sau 40%. Pe msur ce ne ndeprtm de acest punct central probabilitatea scade
continuu, astfel nct valori mai mici dect -4 sau mai mari dect +4 se ating cu probabiliti
aproape nule, fiind aproape imposibil de ntlnit practic.
Deci, dac culegem date ale unei variabile distribuite normal standard avem cele mai multe
anse s le gsim n apropierea punctului 0 i mai mult dect att, o valoare va avea anse de
apariie cu att mai mici cu ct e mai departe de 0.
Clopotul este n plus simetric fa de punctul central 0. Probabilitatea aferent unei valori a
este aceai ca i pentru a. Aceast simetrie este un motiv suficient pentru a observa c
valoarea central, punctul 0 n cazul desenului de mai sus, este mediana distribuiei, dar n
acelai timp i media i modul distribuiei normale.
70
Spuneam c distribuiile normale formeaz o familie. Exist dou caracteristici care determin
distribuia normal: media i abaterea standard (sau dispersia, e totuna de fapt). Dac revenim
la grafic, o modificare a mediei va mpinge pur i simplu ntregul grafic mai la stnga sau mai
la dreapta. Pe de alt parte, o modificarea a abaterii va face ca datele s fie distribuite mai
larg. Adic, pe msur ce crete abaterea standard curba devine mai plat, probabilitatea unor
valori mai ndeprtate de medie crescnd i bineneles aducnd dup sine scderea
probabilitii aferente mediei. Aceasta are loc pentru c, aa cum am mai scris, suma tuturor
probabilitilor posibile ale unei densiti de probabilitate trebuie s rmn 1. Dac abaterea
standard e mai mic, probabilitatea unor valori ndeprtate de medie e desigur i ea mai mic
i curba se ascute crescnd probabilitatea valorilor apropiate mediei. Forma standard din
graficul de mai sus se obine pentru o medie 0 i o abatere standard 1.
n graficul de mai sus sunt reprezentate 4 distribuii normale diferite, pe lng cea standard
avem o distribuie cu media schimbat la o valoare mai mic, -2 i dispersia micorat la 0,5.
Avem pe grafic i trei distribuii cu media egal cu 0. Una este distribuia standard, iar alte
dou au dispersii schimbate, una cu o dispersie mai mare, de 5 i una cu o dispersie mai mic,
de 0,2. Se vede cum distribuia cu dispersie mare, adic cu valorile distribuite mai larg e mult
aplatizat, iar disribuia cu dispersie mic e mai ascuit dect varianta standard.
71
Am ocolit pn acum formula funciei de densitate reprezentate aici. Formula este destul de
complex, dar pot liniti pe oricine, o cunoatere a ei nu este necesar pentru aplicarea, citirea
i analiza corect a unor teste statistice i nici mcar pentru alte procedee statistice chiar mai
avansate.
Densitatenormal
n formula de mai sus, s-a notat, ca de obicei, cu media i cu abaterea standard. Distribuia
normal de medie i abatere standard , adica dispersie 2 se noteaz n general N(, 2).
Aa cum am vzut mai sus distribuia normal standard este deci N(0, 1).
nainte de a vedea cteva proprieti importante ale distribuiei normale, s mai lum o pauza
de la partea prea tehnic ca s povestim despre frecvena de apariie a distribuiei normale.
Cum am mai pomenit n capitolul introductiv, distribuia normal este esenial n statistic
din cauza teoremei limit central. S rememorm puin ce zice aceasta.
Dac avem un numr mare de variabile aleatoare, despre care tim foarte puine, anume
numai c au aceiai medie i dispersie, suma lor tinde la o distribuie normal cnd numrul
lor tinde la infinit. Mai mult dac aceste variabile aleatoare au media i abaterea standard
atunci normala la care tinde suma lor este N(n, 2n). Redefinind variabilele din sum printrun procedeu numit standardizare acest normal poate fi nlocuit cu distribuia normal
standard N(0, 1). Acum sa vedem ce nseamn toate acestea. Dac avem un bun motiv s
credem c evenimentele pe care le studiem sunt determinate de o gramad de variabile care se
nsumeaz n efectele lor atunci e de bun sim s considerm tot ce nu am luat n seam n
cercetarea noastr, adic acei factori de eroare ca fiind distribui normal. Pe o atare
presupunere se bazeaz aproape ntreaga teorie a testelor statistice. Exist deci o multitudine
de situaii n care putem fi linitii c aa se ntmpl. Putem fi siguri c comportamentul uman
sau instituional depinde de foarte muli factori pe care nu i cunoatem. Toi aceti factori vor
influena relaiile dintre variabilele pe care le studiem ca un fel de distorsiuni, ca nite erori
permanent prezente, inevitabile. Pe de alt parte aceste erori vor fi predictibile n forma lor.
Fiind normale ele vor arta ca o curba clopot standardizat. Adic probabilitatea ca ele s fie 0
va fi mai mare dect oricare alt valoare pe care o pot lua. Mai mult probabilitatea ca eroarea
72
s aib o valoare anume e cu att mai mic cu ct aceast valoare e mai departe de 0. Deci
zgomotul care deranjeaz interpretarea datelor e destul de cuminte, pe msur ce e mai mare
n valoare (adic mai deprtat de 0), deci ar influena mai mult rezultatul, ansa ca el s se
produc e mai mic.
Exist totui i situaii n care distribuia normal a factorilor neluai n seam n cercetare nu
are loc. n primul i n primul rnd se ntmpl aa dac nu am luat n seam un factor esenial
pentru cele cercetate. Exist factori cauzali care sunt att de importani n efectul lor asupra
variabilelor cercetate nct nu pot fi luai la grmad. Hai s lum un exemplu pentru a
clarifica lucrurile. S presupunem c dorim s cercetm relaia dintre veniturile angajailor din
armata roman i anii de coal pe care i-au absolvit. Ipoteza de bun sim este c pe msur ce
o persoan are mai multe studii va avea i venituri mai mari. Necazul este c nu e aa. De ce
oare? Ei bine tocmai pentru c o variabil important, cu efect mare nu a fost luat n seam.
i anume vechimea. Am luat exemplul cu armata tocmai pentru c acolo poate fi cel mai
evident. Pe msur ce o persoan mbtrnete n oaste are venituri din ce n ce mai mari. i
cum expansiunea nvmntului superior este la noi un fenomen relativ recent, cei mai n
vrst au n general (ca s nu vorbim de grade mai mici) mai puini ani de coal. Deci, cu
vechime mai mare presupune de regul mai puin colit dar mai bine pltit. Dac lum ns n
calcul vechimea, o controlm cum se spune n jargonul statistic, relaia dintre venit i educaie
devine cea bnuit, pozitiv. La aceiai vechime, cei mai bine colii sunt mai bine pltii.
Ei bine, ce am nvat? Dac exist variabile care au un efect esenial asupra variabilelor pe
care le studiem, este bine s le gsim. Lsndu-le n factorii de eroare nu mai putem miza pe o
sum de multe variabile cu efect individual mic. Aa cum se spune nimic nu e mai practic
dect o bun teorie. Trebuie deci s putem identifica teoretic toate variabilele cu efect mare i
s lsm n suma factorilor de eroare numai variabile care au efecte mici oarecum egale ca
importan.
Un alt caz interesant este cnd efectele variabilelor neluate n seam nu este aditiv ci
multiplicativ. Asta ar nsemna c efectele nu se adun pur i simplu ci se poteneaz reciproc,
se nmulesc. Nu e uor de gsit exemple pentru aa ceva, evident situaiile fiind de fapt destul
de rare. Totui, dup mai multe cutri i adnc chibzuial, iat un caz: s presupunem c
avem de fcut un studiu statistic al unui mediu ecologic. Analizm de exemplu efectul
festivalurilor de jazz i rock asupra crapilor comparnd numrul de crapi pescuii an de an n
73
Nu e cazul s ne batem capul prea mult cu aceast situaie. S inem doar minte c exist
soluii pentru aa ceva dar e nevoie de alte teste. n fine, problema care este cea mai
important este c identificarea cazului n care efectele variabilelor neluate n seam se
nmulesc n loc s se adune este departe de a fi facil.
Bun. Hai s revenim la consideraiile eseniale pentru testarea statistic. Am descoperit deci
c factorul de eroare ntr-o relaie statistic poate fi adesea considerat ca fiind distribuit
normal i n plus standardizat cu media 0 i dispersia 1.
Pentru c distribuia aceasta, N(0, 1) este complet cunoscut putem s observm urmtoarele:
Sincer, faptul c relaiile dintre soiuri ntr-un mediu natural snt mai degraba multiplicative dect aditive e un
exemplu clasic din literatura statistic pentru distribuia log-normal. Alte cazuri clasice sunt concentrrile de
poluani, sensibilitatea indiviziilor la substane chimice i medicamente, timpul de supravieuire dup tratament
mpotriva cancerului, i altele.
74
Hai s relum un pic ideea. Deci avem o distribuie normal pe care o lum de bun pentru
nceput, distribuia numerelor de la pantofi cu o medie de 36 i o dispersie 2 i o valoare
gsit empiric, media eantionului de 39. Acum ne punem problema: cam care e ansa ca totul
s fie n regul, adic diferena dintre cele dou medii, cea teoretic (36) i cea empiric (39)
s fie cauzat de eroarea acceptabil a unui sondaj. Pentru aceasta standardizm distribuia. n
exemplul nostru gsim c exist o ans de 2,27% s fie aa. Asta nseamn c exist o ans
de 97,73% s nu fie aa! Adic, dac avem deplin ncredere n sondajul efectuat de ctre noi,
putem s spunem c exist o probabilitate de 97,8% ca media numrului la pantof al femeilor
din Romania s nu fie 36.
Dup aceast gustric s vedem acum de-a amnuntul cum se face.
b. Teste statistice pentru medii i proporii.
Testarea statistic se descrie de obicei ca un algoritm, adic o serie de pai care se ntreprind
pentru a lua o decizie. Totul pornete de la construirea unei ipoteze i se termin cu
respingerea sau nerespingerea acesteia. Aa cum am vzut i mai de vreme, cunoaterea
statistic este una negativ. Nu poate confirma nimic, dar poate infirma. Adic, aa cum am
vzut din exemplu, dac rezultatul empiric e suficient de aproape de cel teoretic nu avem
nimic de spus, dect eventual c nu putem respinge ipoteza. Dac ns este improbabil de
ndeprtat atunci putem spune: asta chiar nu se poate! Ipoteza se poate respinge pentru c dat
fiind ce am cules noi din sondaj probabilitatea ca ceea ce am presupus la nceput s fie
adevrat este infim.
S vedem paii. n primul rnd se definete o ipotez. n cercetarea empiric acesteia i se
spune de obicei ipotez nul sau iniial i se noteaz cel mai adesea cu H0. Aceasta este
ipoteza pe care vom dori s o putem respinge. Construirea unei ipoteze necesit de obicei o
munc important de abstractizare i modelare. Testele statistice pot respinge numai ipoteze
foarte simple. Deci ceva de genul: este via pe Marte ct o fi ea de ipotez nu prea poate fi
testat statistic n aceast formulare. Ipotezele de cercetare care au baz teoretic i
importan n cunoatere trebuie traduse n relaii matematice simple de genul media
numrului la pantof al femeilor din Romnia este 36 sau veniturile brbailor i ale femeilor
sunt egale adic lucruri care cu adevrat se pot respinge. n general ipotezele statistice sunt
76
relaii de egalitate sau de inegalitate care implic valorile unor variabile i valori prestabilite.
Verificm deci relaii ntre grupuri sau populaii i relaii dintre populaii i valori teoretice.
Trebuie s putem traduce teoriile noastre n astfel de relaii pentru ca statistica s ne fie de
vreun folos.
O dat stabilit ipoteza nul, n unele cercetri se propun i una sau mai multe ipoteze
alternative, notate de obicei cu Ha. Aceste ipoteze se consider ca ipoteze de urmat n
cercetarea viitoare n caz c se respinge ipoteza nul. Ele nu sunt ipoteze confirmate nici
mcar dac au fost construite ca negaii logice ale ipotezei nule. n acest caz sunt pur i
simplu ipoteze care nu au fost respinse. Adic pot fi considerate, n tradiia popperian despre
care am vorbit n introducere ca fiind pe moment acceptabile.
Dup stabilirea ipotezelor trebuie stabilit valoarea testat, numit uneori dup obiceiul
englezesc i statistic. Aceasta este o valoare agregat culeas din date i care intervine n test.
n exemplul cu pantofii este media numrului la pantof. Ar putea fi o medie, o proporie, sau
diferena unor medii sau proporii. Valoarea testat nu este altceva dect un rezultat al
operaionalizrii, adic al traducerii n formul matematic a ipotezei.
Dup aceasta, n funcie de valoarea pe care dorim s o testm se determin distribuia
statistic a acesteia. n esen e vorba de a stabili dac se poate presupune c valoarea testat
este distribuit normal, iar dac nu, dac putem stabili cum o fi distribuit (de exemplu lognormal) i ce test avem pentru aa ceva. De exemplu, dac distribuia este una normal se
poate aplica o metod de standardizare, se aduce distribuia la forma N(0, 1) i se poziioneaz
valoarea testat pe aceast distribuie. Aa putem spune ce anse are o asemenea valoare s fie
atins (sau una mai mare sau mai mic, dac ipoteza este o inegalitate).
O dat stabilit distribuia statistic, se aplic un test statistic, adic o formul de calcul
valorii testate. Se obine un fel de indicator, numit adesea dup numele testului sau mai
general valoare de test. Vom vedea n cele ce urmeaz valoarea t, valoarea Z, i aa mai
departe. Fiecare astfel de test nu este de fapt dect o formul.
Apoi se determin zonele critice. Zonele critice, uneori numite i zone de respingere sau
rejecie sunt intervalele n care trebuie s se gseasc valoarea calculat prin testul statistic
pentru ca ipoteza s fie respins. Aceste intervale ar trebui stabilite dinainte. Exist de fapt
77
dou moduri de lucru. Varianta obinuit este de a calcula valoarea de test i apoi a vedea
dac se afl n afara intervalului de probabilitate de 95% sau de 99%. Limitele acestor
intervale sunt cele care se numesc valori critice i intervalele complementare intervalelor de
probabilitate de 95% respectiv 99% sunt chiar zonele critice. Dac valoarea calculat este n
aceste zone critice, probabilitatea ca aceast valoare s fie atins n condiiile validitii
ipotezei este mai mic de 5% sau chiar de 1%. Dac, de exemplu valoarea calculat este mai
mare dect valoarea de test pentru 95%, deci se afl n afara intervalului de probabilitate de
95%, atunci probabilitatea ca ipoteza s fie corect este de cel mult 5%, ceea ce este foarte
puin i ipoteza poate fi respins.
Multe din programele pe calculator care efectueaz teste statistice calculeaz o aa-zis
significan a testului. Aceasta e chiar probabilitatea ca valoarea calculat s fie atins n
condiiile ipotezei. Nu mai este atunci nevoie s comparm cu valoarea critic. Putem spune,
chiar ct este probabilitatea ca ipoteza s fie adevrat. i bineneles putem decide pe baza
acestei probabiliti dac ipoteza se poate respinge sau nu.
n literatura de statistic aplicat se definesc n general dou tipuri de erori care se pot
ntmpla n testarea statistic:
Eroarea de tip I, numit i eroare sau fals pozitiv are loc dac se respinge o ipotez
nul care e de fapt adevrat. Probabilitatea de face o astfel de eroare este de fapt acea
significan a testului statistic.
Eroarea de tip II, numit i eroare sau fals negativ are loc dac nu se respinge o
ipotez fals.
Exist i alte clasificri ale erorilor de decizie, dar aceasta este cea mai rspndit. n
experiena mea trebuie s recunosc c nu am gsit nici o dat vreun uz practic al faptului de a
fi tiut care este diferena dintre cele dou tipuri de erori. Este ns important s fim contieni
de faptul c erorile, fie ele de tip I sau tip II nu pot fi cu totul eliminate. Dac se aplic corect
o metodologie statistic se poate ns determina probabilitatea ca ele s apar. n fapt,
probabilitatea care determin zona critic aa cum am vzut mai sus este chiar probabilitatea
unei erori de tip I.
78
Dac pn acum am vorbit de teste la un mod cam general i ceea ce am spus era n principiu
valabil pentru orice test statistic s trecem acum la lucruri practice. Cum se face de fapt, ce se
calculeaz i cu ce se compar valoarea de fapt?
Testul t pentru media unei variabile aleatoare
Testul t (numit i Student dup pseudonimul autorului su, statisticianul englez W.S. Gossett)
este un test care verific ipoteze n condiii de normalitate a distribuiei datelor i cunoatere a
dispersiei datelor. Gossett a fost, n vremea n care a dezvoltat testul, statistician la fabricile
Guiness din Dublin, Irlanda i l-a dezvoltat pentru a verifica ct mai simplu calitatea berii.
Ideea era de a calcula ct ncredere se poate acorda unor analize biochimice ale berii fcute
pe eantioane relativ mici. Dei am citit pe undeva c Gossett a folosit din modestie un
pseudonim, se pare c motivul adevrat pentru care Gossett i-a publicat metoda n 1908 sub
pseudonim a fost faptul c vroia s ocoleasc contractul care l lega de fabrica Guiness.
Testul se folosete i acum pe scar larg, chiar i acolo unde avem eantioane mici. Cu
diversele forme ale testului t se pot analiza ipoteze legate de media unei variabile aleatore,
comparaii ntre mediile unor variabile aleatoare pe dou populaii, precum i ponderea unor
subgrupuri n populaii i comparaii ntre ponderea unor subgrupuri n dou populaii. S le
lum ns pe ndelete.
n forma cea mai cunoscut testul t verific o ipotez exact ca n exemplul nostru. Adic
verific ipoteza dac media unei variabile la nivelul populaiei este egal cu media aceleiai
variabile pe un eantion. Sau altfel exprimat, este suficient de mare diferena ntre media
msurat pe eantion i media presupus ipotetic pe populaie pentru a respinge presupunerea.
n exemplul nostru media presupus pentru numrul la pantof al femeilor din Romania era 36
i media gsit pe eantion era 39. Testul t este cel ce ne spune dac putem respinge ipoteza
nul sau nu.
Testul t poate fi folosit dac snt ndeplinite cteva precondiii. n primul rnd trebuie s
cunoatem media i dispersia la nivelul populaiei, apoi variabila trebuie s fie distribuit
normal i eantionul trebuie s fie aleator. n realitate situaia e cam aa: media o presupunem
teoretic pentru c la urma urmei pe asta dorim s o testm. Distribuia normal este o
problem relativ mic, dac avem un eantion mare i nu este un caz special n care distribuia
este evident nenormal presupunem de obicei normalitatea fr s ne batem prea mult capul.
79
Cum am tot povestit teorema limit central ne d aici o mn serioas de ajutor. Evident,
faptul c eantionul trebuie s fie aleator nu poate fi ns ocolit. Oricare dintre metodele
statistice necesit aceasta. Nu nseamn c nu se pot face testri i n alte condiii dar atunci
nu mai e vorba despre a verifica relaia dintre media unei populaie i a unui eantion, ca n
cazul clasic al testului t, ci ntre mediile a dou loturi. Problema care este cea mai mare n
cazul testului t este ns faptul c de obicei nu avem cum s cunoatem dispersia real a
variabilei n populaie. Aceasta se rezolv de regul prin introducerea unei presupuneri
suplimentare. i anume aceea c dispersia la nivelul populaiei este aproximativ egal cu
dispersia la nivelul eantionului.
S vedem deci ce valori avem:
n volumul eantionului.
Ipoteza va suna deci cam aa media variabilei este . n exemplu era: media numerelor la
pantofi este 36.
Calculm acum testul t astfel:
t = (x ) / (s/n )
Aceasta nu este altceva dect transformarea din N(, s2) n N(0, 1), adic standardizarea
distribuiei normale. Valoarea t se va raporta la curba normal standard aa cum se raporteaz
valoarea x la curba normal iniial.
S presupunem c valoarea de 39 la picior a fost obinut pe un eantion de 1000 de femei i
abaterea standard la nivelul eantionului a fost 2. S vedem ce iese:
t = (39 36) / (2/10) = 15
80
S ne aducem aminte de felul cum arat distribuia normal standard i cam unde s-ar afla
valoare 15 pe axa x a acesteia.
Precum se vede din grafic, probabilitatea ca ntr-o distribuie normal standard valoarea s fie
mai mare de 3 este de 0,1%. 15 fiind mult mai mare dect 3, probabilitatea ca ipoteza s fie
adevrat este mult mai mic dect 0,1%. Avem deci 99,9% motive s respingem ipoteza.
Am ocolit ns zonele critice folosite n mod obinuit. S vedem care sunt acestea:
Intervalul de probabilitate de 95% este (-1,96, 1,96). Aceast nseamn c ntr-o distribuie
normal standard 95% dintre cazuri se gsesc n intervalul (-1,96, 1,96). Deci dac avem o
valoare aflat n afara intervalului acesta, ansa ca valoarea s fie atins n condiiile validitii
ipotezei este mai mic dect 5%. Se mai spune i c -1,96 i 1,96 sunt valorile critice de
significan (sau probabilitate) de 95%.
n aceiai logic se definete i intervalul de probabilitate de 99%. Acesta este (-2,57, 2,57).
Exist de asemenea tabele ale valorilor t care dau exact probabilitatea ca o anumit valoare
calculat s fie atins. S sistematizm pentru o mai uoar privire de ansamblu:
Ipoteze de forma media = valoare se pot respinge:
Deoarece 15 este n afara intervalului de probabilitate de 99%, de fapt cum am vzut chiar n
afara intervalului de 99,9% ipoteza se poate respinge cu o probabilitate mai mare dect 99%
(sau, de fapt 99,9%). La modul de analiz al rezultatelor nu am luat n seam faptul c
81
Analiza rezultatului se face la fel ca i n cazul precedent. Valorile critice snt aceleai,
interpretarea se face la fel. S lum deci un exemplu i s-l calculm.
Voi folosi date dintr-un sondaj de opinie efectuat pe populaia IMM-urilor din mediul rural
din Romnia n 2005. Ipoteza de testat este vrsta medie a patronilor de IMM-uri din mediul
rural nu difer n funcie de gen. Avem deci dou eantioane, unul cu femei, un altul cu
brbai. Volumul eantionului total a fost de 1122 persoane, dintre acestea 1100 au rspuns la
ntrebarea de vrst (genul a fost completat de operator). n calcule am putut lua 631 de
brbai i 479 de femei. Vrsta medie a brbailor a fost 45,6 ani, iar a femeilor 42,4. Abaterile
standard snt 10,4 la vrsta brbailor i 9,1 la vrsta femeilor. Este oare diferena dintre cele
dou medii relevant? Snt femeile care patroneaz IMM-uri din zona rural ntr-adevr mai
tinere dect brbaii? Pentru aceasta trebuie s aplicm testul t pentru medii. Informaiile pe
care le-am inclus n text snt suficiente pentru a lua o decizie.
Programele de statistic fac prima dat un test de egalitate a dispersiilor. Pentru aceasta se
folosete testul F al lui Fisher. Nu l vom discuta n aceast carte. E bine de tiut totui la ce
folosete. Ipoteza acestui test este: dispersia pe primul eantion e egal cu dispersia pe al
doilea eantion. Dac significana testului e bun, adic ct mai apropiat de 0, atunci ipoteza
aceasta se poate respinge. n funcie de rezultatul testului, pentru dispersii care nu pot fi
considerate egale se folosete formula pe care am dat-o. Pentru dispersii egale se putea folosi
o formul simplificat i oarecum nbuntit prin faptul c se putea calcula dispersia pe
ntreg eantionului, ceea ce se presupune a fi o estimare mai bun a dispersiei la nivel
populaional.
83
n cazul din exemplu, valoarea testului F este 6,682 i significana este 0,01. Pentru
interpretarea testului F se folosesc de regul tabele, ns aa cum am spus i mai sus
significana este informaia suficient pentru analiz. n cazul significanei de mai sus, care e
foarte bun, ipoteza de dispersii egale poate fi respins.
Se calculeaz atunci varianta de test t pentru dispersii diferite, adic exact formula de mai sus.
Rezultatul este:
t = 5,39 cu Sig = 0,000
Deci ipoteza de egalitate a mediilor se poate respinge cu o probabilitate de 99,9%. E aproape
sigur: femeile care patroneaz IMM-uri n mediul rural snt mai tinere dect brbaii cu poziii
similare. Pentru o explicaie a presupune de exemplu c printre persoanele de vrst mai
naintat femeile snt mai puin nclinate spre poziii patronale dect printre persoanele mai
tinere. Astfel distribuia pe sexe e mai echilibrat la vrste mai mici i media de vrsta a
femeilor patron rezult ca fiind mai mic dect a brbailor patron. Desigur interpretarea
aceasta trebuie coroborat cu alte rezultate statistice.
Ipotezele discutate pn aici s-au referit ntotdeuna la egaliti. Testele au ncercat s resping
fie faptul c o medie are o anumit valoare exact, fie faptul c dou medii sunt egale.
Aceasta a fcut ca zonele critice s fie simetrice. La urma urmei se poate respinge ipoteza de
egalitate i atunci cnd valoarea empiric e mult mai mare i atunci cnd e mult mai mic dect
valoarea din ipotez. Am menionat deja c faptul c valoarea empiric e mai mare sau mai
mic ne apare ca un rezultat suplimentar i poate nbunti significana.
Exist ns situaii n care ipoteza este chiar construit ca o inegalitate. Astfel de ipoteze cer s
fie analizate doar prin prisma unei singure zone critice. S m explic. Dac ipoteza era de
forma media = valoare atunci zonele critice de significan 99% sunt intervalele (-, 2,58)
respectiv (2,58, ), adic tot de se afl n afara intervalului de probabilitate de 99% care este
(-2,58, 2,58). Dac ns ipoteza este de forma media > valoare atunci ea respinge numai
dac ceea ce ne d testul e mult mai mic dect 0, deci numai un capt de distribuie normal
respinge ipoteza. Acest capt e evident totdeuna cel opus semnului din ipotez. Adic testm
o inegalitate cu semnul > (mai mare) captul care respinge va fi cel negativ (mai mic dect
media standard 0), dac testm o inegalitate cu < (mai mic) atunci se poate respinge ipoteza
84
cu intervalul critic pozitiv. Mai avem ns ceva, valorile critice devin mai mici la testele cu
inegalitate deoarece intervalul de 95% sau 99% va fi nelimitat pe un capt. Deci:
Ipoteze de forma media > valoare se pot respinge:
va aprea o ntrebare de genul cu ce partid ai votat? sau cu ce partid vei vota?. Dac m
intervievai dintr-un eantion total de volum n, rspund c vor vota cu PVR atunci avem de
verificat de fapt dac m/n este cu adevrat mai mare dect 5%. Ipoteza se va scrie m/n >
5/100
n a doua ipotez va trebui s dezvoltm un chestionar care, pe lng alte ntrebri, se
intereseaz i de gusturile muzicale ale celor intervievai. Desigur ntrebarea se poate pune n
multe feluri, n final ns vom determina c un anumit numr de persoane prefer manelele.
Acestea vor fi probabil de religii diverse. S presupunem c dintre acetia mo vor fi ortodoci,
iar mc catolici. S notam numrul total al ortodocilor chestionai no, iar al catolicilor nc.
Atunci putem spune c dintre ortodoxi mo/no prefer manelele, iar dintre catolici mc/nc. Pentru
a testa dac prima pondere e n mod relevant mai mare dect cea de a doua, ipoteza va avea
forma mo/no > mc/nc.
Perechea de ipoteze din exemplele de mai sus este analoag celor dou metode de testare pe
care le-am prezentat deja. Adic primul exemplu testeaz relaia dintre o proporie stabilit
empiric i o valoare teoretic, iar a doua ipotez relaia dintre dou proporii, ambele stabilite
empiric, adic msurate.
Pentru verificarea ipotezelor legate de proporii se folosete de regul testul Z. Logica lui este
ns aceiai ca a testului t discutat pn acum.
S vedem prima dat formula pentru teste privitoare la o proporie. Pentru a calcula valoarea
de test avem nevoie de p ponderea empiric (adic de exemplu ponderea celor ce au rspuns
c vor vota cu PVR), ^p ponderea teoretic (adic de exemplu ponderea celor care ar fi
trebuit s rspund pentru ca ponderea s fie exact 5%) i n volumul eantionului. Cu
acestea se calculeaz Z.
Dac avem dou ponderi de comparat ca n exemplul al doilea, formula va avea forma
urmtoare:
86
Aici n1 este numrul de intervievai din primul eantion (n exemplu, numrul total de
ortodoci din eantionul total), iar n2 este numrul de intervievai din al doilea eantion (n
exemplu numrul total de catolici din eantionul total). p1 i p2 sunt ponderile persoanelor care
intr n categoriile ce se compar (adic p1 = mo/no ponderea celor care prefer manelele
dintre ortodoci, respectiv p2 = mc/nc dintre catolici).
n ambele cazuri rezultatul testului, Z se compar cu zonele critice definite ca i pn acum.
Aceasta pentru c i acest test face de fapt o transformare a valorilor pe o distribuie normal
standard i logica respingerii unei ipoteze rmne aceiai, a deprtrii fa de valoarea 0,
media distribuiei normale standard.
Iat regulile de decizie simplificate pentru cazul, mai general, al ipotezelor cu dou proporii
empirice
Ipoteze de forma p1 = p2 se pot respinge:
Sumarul acesta de reguli se poate aplica uor n practic. Tot ce trebuie fcut este s se
formuleze simplu ipoteza, apoi se calculeaz valoare t (sau Z), se aplic regula de decizie i
gata: am fcut o cercetare empiric corect statistic.
c. Calculul erorii unui sondaj si interpretarea ei.
87
Calculul erorii unui sondaj de opinie este de fapt o aplicaie a testelor statistice simple. De
aceea am preferat s amn discutarea acestei probleme pn acum. Vom vedea deci ce
nseamn acele erori pe care le raporteaz institutele de sondare a opiniei publice i de
asemenea cum se stabilete volumul unui eantion.
n mod curent eroarea care se raporteaz la un sondaj de opinie este eroarea cea mai mare cu
care se poate estima o pondere cu o probabilitate de 95%. Am vzut pn acum c estimarea
unei ponderi se poate face doar cu o anumit probabilitate. Nu exist o stabilire prin sondaj a
unei valori exacte. Probabilitatea cu care se estimeaz ponderea dicteaz de fapt care e zona
critic. De aici rezult respingerea unei ipoteze. La sondajele de opinie se folosete de regul
intervalul de probabilitate de 95%.
Este vorba despre estimarea unei proporii, folosim deci testul Z pentru o proporie. Formula,
pe care am dat-o i mai sus este:
88
Exist mai multe feluri de a folosi aceast formul. Putem cu ajutorul ei s calculm eroarea
pentru estimarea unei anumite proporii n cazul unui sondaj de opinie cunoscut. Atunci
cunoatem valorile p i n i stabilim cu o probabilitate de 95% n ce interval se poate afla ^p.
Putem de asemenea stabili care este cea mai mare eroare pe care o poate lua estimarea de
proporii n cadrul unui anumit sondaj (ceea ce se numete de obicei marj de eroare). Atunci
efectum acelai calcul dar n aa fel nct s maximizm eroarea pentru orice pondere
posibil.
Putem s stabilim cu ajutorul aceleiai formule i care e volumul eantionului necesar pentru a
nu depi o anumit marj de eroare. Atunci considerm diferena ^p p cunoscut. Aceasta
este marja de eroare pe care suntem de acord s o acceptm, i alegem p astfel ncit eroarea s
fie maxim posibil n cazul dat i l calculm pe n, volumul eantionului.
Estimarea marjei de eroare a unui sondaj de opinie
ncepem cu aceast aplicaie a formulei pentru c ea este probabil cea mai important. Ai
vzut sau auzit desigur la (aproape) orice prezentare a unui sondaj de opinie specificari de
genul marja de eroare a sondajului este 3% cu o probabilitate de 95%. Ce nseamn
aceasta?
Marja de eroare este abaterea cea mai mare de la valoarea real, adic valoarea pe populaie
pe care o poate avea valoarea calculat pe eantion n cazul unui sondaj anume. n formula de
mai jos, notm marja de eroare cu E. De fapt E = max (^p p), adic nlocuind n formula de
mai sus:
E = max (Z * sqrt (p*(1-p)/n))
n aceast formul Z este dat de precizia pe care o dorim, adic pentru precizia de 95% va fi
1,96. n este volumul eantionului, deci o valoare cunoscut, din moment ce sondajul a avut
loc. Singura valoare care se poate alege astfel nct s se maximizeze formula este p. Pentru
aceasta observm c trebuie de fapt s alegem p astfel nct produsul p*(1-p) s fie maxim.
Valoarea p este o pondere adic o valoare subunitar. Maximul produsul se atinge ca atare
89
pentru p = 0,5. Cine nu crede poate calcula matematic. Iese. De aici rezult, c pentru o
precizie de 95% avem
E = 1,96
Deci marja de eroare a unui sondaj depinde numai i numai de volumul eantionului. Graficul
de mai jos ne arat cum arat forma distribuiei normale centrate n jurul ponderii de 0,5
pentru diferite volume de eantioane.
Dac, de exemplu avem un eantion de 1000 de persoane, un volum uzual, marja de eroare a
acestui eantion va fi:
E = 0,98 / sqrt (1000) = 0,03099
Ceea ce se mai poate scrie ca fiind 3,1%.
90
Calcul de mai sus are desigur i nite premise matematice. Principala premis este aceea c
eantionul este aleator. tim deja c aceasta nu este chiar ntotdeuna perfect ndeplinit, dar
un sondaj de opinie bine efectuat se apropie ct se poate de mult de acest deziderat tocmai
pentru a putea garanta marja de eroare promis.
S vedem acum, cum se citete de fapt un rezultat statistic prin prisma marjei de eroare. Fie de
exemplu un sondaj cu 1000 de interviuri, la care 500 de persoane, adic o pondere de 0,5 (sau
50%) au rspuns c ar vota Partidul Vieii Romaneti. Atunci statisticianul responsabil poate
spune cam aa: Exist o probabilitate de 95% ca din ansamblul populaiei studiate cei care ar
vota PVR s reprezinte un procentaj ntre 46,9% i 53,1%. Dac ponderea pe care trebuie s
o estimeze este mai mic sau mai mare dect 0,5 tim c eroarea poate fi calculat mai exact i
va fi ceva mai mic. La urma urmei marja de eroare este eroarea cea mai mare la estimarea de
proporii i formula general a erorii depinde de valoarea p.
Calculul volumul eantionului pe baza marjei de eroare
De multe ori problema se pune invers. Avem de efectuat un sondaj de opinie i clientul nostru
i dorete o anumit marj de eroare, de exemplu 2%, numai aa ca s aib el sondajul cel
mai tare din jude. Atunci vom folosi aceiai formul:
E = 0,98 / sqrt (n)
Dar vom cunoate pe E, marja de eroare dorit i va trebui s-l calculm pe n, volumul
eantionului. Dac extragem pe n din formul, iese:
n = 0,98 / E2
nlocuind n formul E = 0,02 obinem n = 2400, pentru E = 0,03, n = 1067. Tabelul de mai
jos conine i alte perechi de marje de eroare i volume de eantioane:
Marja de eroare Volumul eantionului
1%
9605
2%
2400
3%
1067
91
4%
600
5%
384
10%
96
6
7
Alin Teodorescu: PSD s-a comprimat din cauza integrarii in UE, interviu n Cotidianul, 1.02.2007.
Pavel Lucescu Chinurile lui Felix, editorial n Cotidianul, 26.02.2007.
92
adic cele pe care ziaristul le numete sub marja de eroare se estimeaz mai exact dect
valorile n jur de 50%. S calculm puin. Un procentaj de 3% se va estima ntr-un sondaj cu
marja de eroare de 3% cu o eroare de:
eroarea = 1,96 * sqrt ((0,03 * 0,97)/1067) = 0,010.
Deci, dac s-a msurat un procentaj de 3% pe eantion, putem spune cu o probabilitate de
95% c ponderea n ansamblul populaiei este ntre 2% i 4%.
Factor de corecie pentru populaii finite
Iat un fragment de articol din ziarul Tricolorul: Dar, iat, scorurile sondajului real efectuat
de IMAS, aa cum le-am aflat chiar din interiorul PSD. Eantion: 1.257 de persoane. Marj de
eroare: 1,8%.8
Este aa ceva posibil de fapt? Am vzut c marja de eroare i volumul eantionului sunt legate
printr-o formul ct se poate de simpl i se poate uor calcula: pentru 1257 de persoane se
obine o marj de eroare de 2,7%. Pentru 1,8% ar fi nevoie de un numr de 2963 de interviuri.
i totui ceea ce scrie ziarul nu este ntru totul imposibil pentru c n toate exemplele i
discuiile de pn acum am considerat c populaia este foarte mare fa de volumul
eantionului. Practic am presupus c avem o populaie infinit. Sau mai exact nu am fcut nici
un fel de presupunere despre volumul populaiei. Este ns de bun sim s ne gndim c dac
populaia pe care o cercetm e mic, de exemplu, de 1000 de oameni, cum ar fi la un studiu
despre elevii unei coli, marja de eroare nu poate fi 4% la un eantion de 600, adic
cuprinznd bine peste jumtate dintre toi elevii. Trebuie s existe un factor de corecie care
nbuntete marja de eroare n cazul n care populaia studiat este mic. Acest factor de
corecie este numit factor de corecie pentru populaii finite. El se folosete numai atunci cnd
volumul eantionului este suficient de mare fa de volumul populaiei. Teoretic ns s-ar
putea calcula oricnd, doar c valoarea lui este de obicei foarte aproape de 1. Formula
factorului de corecie este.
Presedintii PRM si PSD vor semna un protocol de colaborare!, editorial nesemnat, Tricolorul, Anul III, Nr.
643 - 06.05.2006
93
94
95
Oricum ar fi, cel mai adesea, ntr-o cercetare statistic relaionm variabile numite generic
independente cu variabilele int ale cercetrii, numite de regul variabile dependente.
96
Graficul se preteaz la compararea celor dou trenduri dar nu vizualizeaz cu adevrat relaia
dintre cele dou variabile. Le pune doar una lng cealalt. Dar e frumos oricum, nu?
Exist grafice similare i cu bare. S lum i aici un exemplu.
4,00
Mittelwert
3,00
2,00
1,00
0,00
dumineca
sambata
ziua
97
4,00
3,00
2,00
1,00
0,00
Nici o bere
1 - 2 beri
3 - 4 beri
Bautori
n grafic sunt prezentate medii ale frecvenei dorite ale festivalului n funcie de numrul de
beri consumate, numr care a fost recodat pe categorii de ctre mine (ntrebarea nu era pe
categorii, ci deschis). S-ar fi putut folosi i alte valori n loc de medie, cum ar fi dispersia,
suma, procentajul peste o anumit valoare, etc. De asemenea valoarea exact se poate
reprezenta sau nu pe grafic, dependent de forma ei, numeric sau nu.
Pe lng faptul c frecvena dorit a festivalurilor berii crete cu numrul de beri bute se mai
observ dou lucruri care in de reprezentrile grafice n general . Anume, c numrul de
categorii de pe axa x este relativ mic i c acestea se citesc ntr-o form ordonat pur i simplu
din obiceiul nostru de a parcurge de la stnga la dreapta orice text i de a impune mental o
ordine chiar i acolo unde aceasta nu exist.
Prima dintre aceste dou observaii este doar parial restrictiv. Acolo unde numrul de valori
este foarte mare ntr-adevr citirea graficului devine anevoioas dar totui numrul de
categorii poate fi crescut destul de mult. Aceasta totui nu prea se face pentru c graficul
construiete de regul barele fr s raporteze numrul de cazuri folosite i ca atare anumite
bare pot fi calculate pe un numr foarte mic de cazuri i pot induce n eroare cititorul. Acest
risc exist desigur i la un numr mai mic de categorii dar este mult diminuat. S vedem un
exemplu de grafic de relaionare cu bare cu un numr mare de categorii:
98
5,00
4,00
3,00
2,00
4
4
3
1,00
2
2
3 3
2
4
3
2
2
1 1 1
2 2 2 2 2
2 2 2
2
1
1
1 1
1 1
1 1
0,00
78,00
76,00
73,00
70,00
63,00
61,00
59,00
57,00
55,00
53,00
51,00
49,00
47,00
45,00
43,00
41,00
39,00
37,00
35,00
33,00
31,00
29,00
27,00
25,00
23,00
21,00
19,00
17,00
15,00
13,00
8. Varsta:
Graficul conine media de beri bute pe vrste. Informaia prea detaliat i incertitudinea
numrului de cazuri pe categorii fac graficul foarte greu de citit. Recodarea vrstei pe categorii
mai mari duce la urmtorul rezultat, mult mai citibil:
2,50
2,00
1,50
1,00
0,50
0,00
pana la 20
21 - 35
36 - 50
51 - 65
Varsta pe categorii
99
peste 65
Relaia existent dintre vrst i consumul de bere la festival devine astfel mult mai clar i
poate produce o ipotez statistic care merit verificat. Evident graficul nu trebuie ns
considerat ca fiind suficient pentru a trage concluzia la festivalul berii, cu ct un vizitator e
mai btrn bea mai puin bere. Aceast ipotez merit ns testat. Pentru o declaraie de
genul tinerii beau mai mult bere dect btrnii nu exist oricum nici o baz. Nu trebuie nici
o clip uitat c studiul s-a ocupat de festivalul berii, ntr-un an dat, n condiii meteo aa cum
au fost, cu muzica aa cum a fost, i aa mai departe. Toate aceste condiii de mediu fac total
imposibil generalizarea la un consum de bere sau chiar alcool n condiii nespecificate.
Cea de a doua observaie, cea legat de ordinea implicit sau explicit a categoriilor
reprezentate necesit de asemenea o anumit atenie. Bineneles, dac variabila de pe axa x,
cea considerat categorial, este o variabil ordinal sau chiar intervalic sau raional, trebuie
s fim ateni ca ordinea reprezentat a categoriilor s corespund ordinii matematice a
acestora. Dac ns variabila categorial nu are o anume ordine, este o variabil nominal
reprezentarea devine problematic atunci cnd numrul de categorii e mare. La un numr mic
de categorii tentaia de a le privi ca o serie e mult mai mic. n fine, tot ce putem i trebuie s
facem n asemenea cazuri este s atenionm cititorul rezultatelor noastre, respectiv s nu ne
lsm noi nine prini n capcana automatismelor de gndire.
S lsm acum berea i s trecem i la un alt tip de grafic de relaionare cu bare. Cu ajutorul
graficelor cu bare se poate reprezenta i mai bine relaia dintre dou variabile, e drept poate
ceva mai dificil citibil. M refer la grafice care suprapun bare cu dimensiuni proporionale cu
categoriile unor variabile definite de o alt variabil. S vedem ns cum arat aa un grafic
pentru a l putea descrie mai bine.
100
25.1. Grupe de
varsta
250
Intre 20 - 29
19
Intre 30 si 39
Intre 40 si 49
200
Intre 50 si 59
Peste 60
58
150
48
100
26
34
0
50
50
31
29
83
19
0
29
17
0
16
17
1
11
40
0
0
ab
nt
tii
e
at
ilit
c
tru
ns
ra
tu
ul
je
ta
co
tri
ra
tu
ul
ic
lv
si
ii
ic
rv
t
se
an
m
ta
va
in
rie
st
du
in
co
co
to
au
ric
ag
Graficul face parte dintr-o cercetare care a inclus un sondaj de opinie efectuat pe omeri din
mediul rural din Romania n 2005. n imagine avem relaionarea dintre domeniul n care
persoana a lucrat nainte de a intra n omaj i grupa de vrst. Valorile trecute pe grafic sunt
valori absolute, adic exact numrul de persoane din fiecare categorie. Se vede nu numai ct
de mare este o categorie a axei x, dar i cum se distribuie ea pe grupele de vrst. Un astfel de
graf se numete stacked bar graph, adic grafic de bare stivuite.
O alt form a barelor stivuite reprezint distribuia procentual, extinznd fiecare categorie a
axei x la 100% i prezentnd subcategoriile definite de cea de a doua variabil n procentaje.
Graficul, care ar putea fi mai uor de citit, obtureaz bineneles dimensiunea categoriilor.
Totui aceasta poate fi intuit, prin afiarea procentajelor subcategoriilor din ansamblul
eantionului aa cum se vede n exemplul de mai jos.
101
1,0
0,0%
0,0%
0,0%
0,0%
0,0%
0,0%
0,0%
0,18%
3,39%
25.1. Grupe de
varsta
Intre 20 - 29
Intre 30 si 39
0,8
Intre 40 si 49
0,54%
6,07%
10,36%
Intre 50 si 59
5,54%
Peste 60
8,93%
0,6
8,57%
5,18%
3,04%
2,86%
4,64%
0,4
3,04%
3,39%
2,14%
1,96%
7,14%
0,2
14,82%
5,18%
2,86%
0,0
0,0%
0,0%
0,0%
je
ta
co
tri
ra
tu
ul
vic
sil
ii
ic
rv
t
se
an
m
ta
va
in
rie
st
du
e
in
at
ilit
ab
nt
co
ii
ct
tru
ns
co
to
au
ra
tu
ul
ric
ag
Am prezentat graficele de relaionare cele mai uzuale, nu exist ns restricii, orice grafice
corecte matematic se pot la o adic folosi. Vreau sa repet ns un comentariu pe care l-am
fcut legat de graficele referitoare la o singur variabil. Se zice c o imagine spune mai mult
dect 1000 de cuvinte. Tot ce se poate, dar o imagine este i mult mai puin exact dect cele
1000 de cuvinte, ca atare: prezentai grafice, dar analizai valorile care stau la baza acestora.
b. Tabele de relaionare, Teste de relaionare
Tabelele de relaionare sunt de fapt tabelele care stau la baza graficelor stivuite. Astfel de
tabele au fost gndite iniial pentru variabile categoriale, i snt practice ntr-adevr numai
pentru variabile cu un numr relativ mic de valori, de indiferent ce tip de variabil.
Iat n tabela de mai jos tocmai datele care stau la baza graficelor stivuite prezentate mai
nainte.
102
agricultura
intra in somaj?
auto
Intre 20 -
Intre 30 si
Intre 40 si
Intre 50 si
Peste
29
39
49
59
60
29
29
34
16
16
constructii
83
26
48
58
19
234
functionar
17
18
Industrie
16
19
31
66
invatamant
17
17
servicii
11
15
silvicultura
40
50
90
tricotaje
Total
Total
92
12
12
196
139
131
75
19
560
Tabela conine numrul de cazuri care corespund fiecrei corespondene a celor dou
variabile. Aa cum se vede, o celul e definit de categoriile pe rnduri i coloane. Un
exemplu va clarifica cel mai bine aceasta. Dac dorim de exemplu s aflm ci din eantion
care au lucrat n construcii nainte de a intra n omaj sunt din categoria de vrst ntre 20 i
29 de ani, vom cuta coloana aferent acestei categorii de vrst apoi o vom parcurge pentru a
gsi linia care conine valorile celor ce au lucrat n construcii. Valoarea din celula cu pricina
este 83. Deci 83 de persoane din aceast subcategorie au fost intervievate n cadrul cercetrii.
Linia i coloana de total sunt i mai uor de citit. Astfel ultima linie, cea marcat Total
conine numrul de intervievai pe categoriile specificate n capetele de coloan. De exemplu,
196 de persoane pentru categoria ntre 20 i 29 ani, 139 n categoria ntre 30 i 39 ani i
aa mai departe. Ultima coloan, marcat de asemenea Total conine valorile aferente
categoriilor definite n capetele de linii. De exemplu, pentru construcii valoarea este 234.
Volumul total al eantionului se va gsi n colul din dreapta jos al tabelului, la intersecia
liniei i coloanei de total. n cazul cercetrii din care am extras tabelul de mai sus s-au
efectuat 560 de interviuri.
O astfel de tabel ne permite s comparm uor categoriile i subcategoriile. Urmrind numai
coloana i linia de total putem spune astfel c cei mai muli omeri au lucrat n domeniul
construciilor i cei mai muli omeri sunt ntre 20 i 29 de ani. De asemenea putem spune
c numrul omerilor scade pe msur ce categoria de vrst e mai mare. Dac comparm
103
diferitele coloane sau linii ntre ele mai putem face i observaii de forma ntre 20 i 39 de
ani numrul omerilor provenii din silvicultur l depete pe cel al celor ce provin din orice
alt domeniu cu excepia construciilor9 sau n categoria de vrst ntre 50 si 59 de ani exist
omeri provenii din functionari, probabil din foste CAP-uri i SMA-uri, o categorie care nu
apare la alte grupe de vrst. De asemenea putem stabili cea mai mare categorie, numit i
categorie modal, dup indicatorul de tendin central pentru variabile nominale modul
care e valoarea care apare cel mai des ntr-o distribuie. n exemplul nostru este tocmai cea a
omerilor care au lucrat n construcii i au ntre 20 i 29 de ani.
Toate observaiile de mai sus le-am bazat pe valorile absolute din tabel. Pentru a putea avea
ns o baz de comparaie cel mai adesea tabelele de relaionare conin procentaje pe rnduri i
coloane. Mai jos se afl tabela recalculat coninnd aceste procentaje.
1. In ce domeniu ati lucrat inainte de a intra in somaj? * 25.1. Grupe de varsta
25.1. Grupe de varsta
agricultura
constructii
functionar
industrie
Nr.
Intre 50 si
Peste
49
59
60
29
34
92
31,5%
37,0%
,0%
,0%
100,0%
% coloan
14,8%
20,9%
26,0%
,0%
,0%
16,4%
16
16
% linie
,0%
,0%
100,0%
,0%
,0%
100,0%
% coloan
,0%
,0%
12,2%
,0%
,0%
2,9%
Nr.
Nr.
83
26
48
58
19
234
% linie
35,5%
11,1%
20,5%
24,8%
8,1%
100,0%
% coloan
42,3%
18,7%
36,6%
77,3%
100,0%
41,8%
17
18
% linie
,0%
,0%
5,6%
94,4%
,0%
100,0%
% coloan
,0%
,0%
,8%
22,7%
,0%
3,2%
16
19
31
66
24,2%
28,8%
47,0%
,0%
,0%
100,0%
8,2%
13,7%
23,7%
,0%
,0%
11,8%
Nr.
Nr.
Nr.
% coloan
Nr.
% linie
% coloan
Nr.
% linie
Intre 40 si
39
29
% linie
silvicultura
Intre 30 si
29
31,5%
% coloan
servicii
Intre 20 -
% linie
% linie
invatamant
Total
17
17
100,0%
,0%
,0%
,0%
,0%
100,0%
8,7%
,0%
,0%
,0%
,0%
3,0%
11
15
73,3%
20,0%
6,7%
,0%
,0%
100,0%
5,6%
2,2%
,8%
,0%
,0%
2,7%
40
50
90
44,4%
55,6%
,0%
,0%
,0%
100,0%
Populaia studiului a fost cea a omerilor din mediul rural din Romania.
104
% coloan
tricotaje
20,4%
36,0%
,0%
,0%
,0%
12
12
,0%
100,0%
,0%
,0%
,0%
100,0%
,0%
8,6%
,0%
,0%
,0%
2,1%
196
139
131
75
19
560
Nr.
% linie
16,1%
% coloan
Total
Nr.
% linie
% coloan
35,0%
24,8%
23,4%
13,4%
3,4%
100,0%
100,0%
100,0%
100,0%
100,0%
100,0%
100,0%
S vedem cum se citesc asemenea tabele. Primele indicii snt poziiile celulelor de 100% de
pe ultima linie i ultima coloan. S cutm aceiai celul ca i n exemplul cu valori absolute,
omeri provenii din domeniul construciilor cu vrste ntre 20 i 29 de ani. Gsim
urmtoarea configuraie de celule:
Nr.
83
% linie
35,5%
% coloan
42,3%
Valoarea Nr. este desigur cea pe care am tiut-o deja. Cele dou procentaje de citesc astfel:
Acest citire este cel mai uor de reinut n relaie cu poziia valorii de 100%. Dac aceast
valoare este pe linie, cum e n cazul % linie, evident procentajul e o parte din categoria ce
apare pe linie. i anume partea care e definit de ctre coloana n care apare valoarea.
Valoarea de pe linie este construcii. Deci e vorba de 35,5% dintre cei care au lucrat n
construcii. Ei bine, ce e cu ei? Ei fac parte din categoria care e definit pe coloan, adic au
ntre 20 i 29 de ani.
Procentaje fac categoriile comparabile. Abia prin compararea procentajelor se poate spune ce
e mult i ce e puin n rezultatele statistice ale unui sondaj. Pe de alt parte, procentajele pot
induce n eroare dac sunt calculate pentru categorii foarte mici. S privim i un alt tabel de
relaionare. Tabelul provine dintr-o cercetare efectuat pe populaia intreprinderilor mici i
mijlocii din mediul rural din Romania n 2005. n tabel gsim relaia dintre nivelul de
pregtire i genul patronilor de IMM-uri din mediul rural.
Care este nivelul cel mai inalt de pregatire pe care l-ati absolvit? * Genul
105
Genul
masculin
Care este nivelul cel mai inalt de pregatire pe care l-ati
absolvit?
Nr.
% linie
%
coloana
Scoala primara
Nr.
% linie
%
coloana
Scoala generala
Nr.
% linie
%
coloana
Scoala profesionala /
Nr.
Liceu
% linie
%
coloana
Colegiu / Universitate
Nr.
% linie
%
coloana
Studii post-universitare
Nr.
% linie
%
coloana
Total
Nr.
% linie
%
coloana
feminin
Total
100,0%
,0%
100,0%
,6%
,0%
,4%
100,0%
,0%
100,0%
1,1%
,0%
,6%
16
25
64,0%
36,0%
100,0%
2,6%
1,9%
2,3%
298
194
492
60,6%
39,4%
100,0%
48,0%
41,1%
45,0%
251
208
459
54,7%
45,3%
100,0%
40,4%
44,1%
42,0%
45
61
106
42,5%
57,5%
100,0%
7,2%
12,9%
9,7%
621
472
1093
56,8%
43,2%
100,0%
100,0%
100,0%
100,0%
45
61
106
42,5%
57,5%
100,0%
7,2%
12,9%
9,7%
Pentru cine e curios cum de se poate aa ceva, i ce caut oricum aa muli patroni cu studii
post-universitare, iat pe scurt explicaia. n mediul rural snt puine firme, ca atare dintre
acestea cabinetele medicale i farmaciile au o pondere relativ mare. Medicii i farmacitii au
adesea studii post-universitare, rezideniate, specializri, i alte cursuri. De asemenea aceste
profesii includ un numr mare de femei, chiar o preponderen a femeilor, n special la nivelul
mediciilor de familie.
Ca o regul simpl dar nu obligatorie, analiza unui tabel se face n urmtorii pai:
Apoi dm valorile modale, celulele care conin cele mai multe cazuri.
n fine, dac dorim, putem face comparaii ntre linii sau coloane alese.
Aa cum am fcut i n exemplu, cnd prezentm distribuia pe o anumit linie sau coloan
trebuie s o comparm cu distribuia pe linia, respectiv coloana de total. Altfel pim ca acela
care aflnd c 80% dintre cei rnii n accidente de circulaie nu au cartea de identitate la ei, a
hotrt s i ia ntotdeuna cartea de identitate cu el. A socotit el c are de 4 ori mai puine
anse s fie rnit ntr-un accident! Ce a greit individul de fapt? Pi nu a luat n seam c avea
de a face cu dou variabile: rnit n accident sau nu, cu cartea de identitate la el sau nu. Numai
dac am tii ci dintre toi participanii la trafic au cartea de identitate la ei, adic distribuia
de total, am putea trage o concluzie, comparnd cu datele din categoria accidentat. Am
putea atunci descoperi prin comparaie dac persoanele care nu au acte de identitate la ei au
un profil care i predispune la a deveni victimele unul accidente. i bineneles nici atunci
decizia de nu lua actele la el nu i folosete la nimic i asta pentru c posesia actului de
107
identitate i accidentarea snt evenimente totui independente. Modificnd unul dintre ele de
fapt nu l influenm pe cellalt. S-ar putea ns amndou s fie efecte ale unor caracteristici
comportamentale comune. S-ar putea s fie. Sau nu.
nc dou reguli, de ast dat aproape obligatorii, dac nu vrei s fii acuzai de ageamie
statistic. Nici o dat nu raportai ntr-un sondaj procentaje cu mai mult dect o zecimal. i
aa valorile sunt supuse unor erori, prezentnd mai multe zecimale dai impresia c avei nite
informaii mai exacte sau nu nelegei sensul statistic al rezultatelor. De fapt, mai bine ar fi s
nu se raporteze nici o zecimal. Totui cutuma de a raporta o zecimal exist pentru c
rotunjirea sau trunchierea poate obtura o valoare de 0,5 ceea ce e deja destul de mult.
A doua regul: nu prezentai procentaje acolo unde numrul cazurilor e mic. De exemplu, n
cercetarea din care provine tabelul de mai sus s-au nimerit doar patru patroni de IMM-uri care
au declarat c nu au nici o pregtire colar. Faptul c toi acetia snt brbai nu este relevant
i nu e cazul s ascundem numrul mic scriind ceva de genul 100% dintre patronii de IMM
fr pregtire colar snt brbai.
Toate observaiile pe care le-am fcut pe baza tabelelor au un caracter de ipoteze. Ele nu sunt
confirmate n relevana lor statistic. Aceasta ns se poate face. Exist o serie de teste de
relaionare care sunt specifice diferitelor tipuri de variabile i care verific n general ipoteze
de dependen. Astfel de ipoteze au forma general valorile variabilei 1 snt independente de
valorile variabilei 2. Dac reuim s respingem aceast ipotez avem bune motive s
considerm variabilele ca fiind relaionate, dependente una de alta. De obicei putem face chiar
mai mult. Putem, pe baza rezultatelor de test s spunem cam ct de tare este aceast relaie.
Pentru a ajunge ns acolo cred c ar merita s vorbesc puin despre conceptul de
independen statistic. Am pomenit de cteva ori pe parcursul acestei cri despre
independen. Am vorbit despre independen n special cnd am vorbit despre eantionare,
dar a trebuit s menionm conceptul i cnd am comentat istoria statisticii i principalele legi
statistice. De asemenea, vreau s elimin o confuzie din capul locului, conceptul de variabil
independent n relaia cu o variabil dependent se refer la o relaie unde nu exist
independen ntre variabile. Variabilele se influeneaz ntre ele, i care este cea pe care o
considerm independent i care dependent ine de construcia modelului, adic de partea ne-
108
109
110
x1
x2
total
y1
C11
C12
C1t
y2
C21
C22
C2t
Ct1
Ct2
Ctt
total
111
Cei mai importani dintre cei de mai sus snt coeficienii de corelaie i coeficientul 2.
Urmtoarea seciune ne vom preocupa de coeficienii de corelaie, iar apoi n capitolul viitor
vom discuta mai pe larg coeficientul 2.
Ct despre celelalte teste, urmtoarea regul simpl faciliteaz citirea rezultatelor acestora.
Orice program de statistic care calculeaz astfel de teste le raporteaz mpreun cu un
rezultat de significan care este o valoare cu att mai bun cu ct e mai aproape de 0. Practic
trebuie s citim acest rezultat care este de obicei notat Sig sau S sau chiar significance sau
ceva similar. Acest rezultat este probabilitatea de a face o eroare de tip I, adic s respingem
ipoteza de independen n condiiile n care aceasta este adevrat. Mai simplu spus cu ct
significana testului e mai aproape de 0, ipoteza de independen se poate respinge mai sigur.
Exist aici o problem care nu trebuie ns neglijat. Testele de relaionare pot fi influenate
disproporioat de mult de diferene pe anumite categorii. Aceasta se ntmpl n special cnd
eantionul e suficient de mare dar variabilele testate au un numr mare de categorii. n acest
caz o diferen pe o anumit categorie poate duce la respingerea unei ipoteze care este
adevrat. E o situaie n care o relaie dintre cele dou variabile face ca rapoartele din ipotez
s fie aproape egale cu excepia unuia care ns se abate mult de la celelalte. Rmne n
asemenea cazuri de obicei s continum testarea i prelucrarea eventual separnd una dintre
cele dou variabile n dou astfel nct valoarea care se abate de la regul s fie modelat de
ctre o variabil de sine stttoare, numit de regul variabil filtru.
c. Corelaia simpl i parial
Corelaia Pearson
Corelaia Pearson este o metod de testare a relaiei dintre dou variabile raionale sau
intervalice. Din pcate se folosete uneori n mod abuziv i la variabile ordinale.
Coeficientul de corelaie este o valoare numeric care indic gradul de dependen i direcia
dependenei ntre dou variabile statistice. Dei n general identificat cu matematicianul
britanic Karl Pearson care a analizat i descris metoda pe larg, coeficientul a fost prima dat
introdus de ctre Francis Galton, un statistician (i nu numai) britanic dintr-o generaie
anterioar.
112
Dat fiind dou variabile x i y, valorile pe care le iau acestea pentru un individ i, xi i yi,
coeficientul de corelaie rxy al lui Pearson se calculeaz astfel:
Formula nu e foarte simpl, exist ns bineneles tot felul de programe pe calculator care tiu
s o calculeze astfel nct btaia noastr de cap nu este s nmulim i s ridicm la ptrat ci s
interpretm rezultatele.
Exist ns i cteva precondiii ale utilizrii coeficientului de corelaie care snt foarte
importante:
Cele dou variabile care se relaioneaz trebuie s fie raionale i distribuite normal,
dac aceasta nu e cazul trebuie folosit un alt indicator de relaionare, de ex. Chi2
Cele dou variabile aleatoare trebuie s aib dispersii finite i nenule. Aceast condiie
e relativ slab fiind considerat practic ndeplinit ntotdeuna.
Coeficientul de corelaie verific numai relaii liniare ntre variabile. Dou variabile
aflate ntr-o relaie neliniar, de exemplu x = sin y, dei se determin complet una pe
alta, vor iei ca fiind necorelate.
rxy = 0
rxy = 1
Criteriile din tabelul de mai sus snt cele care se folosesc de regul n sociologie. n psihologie
se prefer adesea intervale mai apropiate de origine, o corelaie fiind considerat puternic
chiar de la un coeficient de 0,5 n sus. Oricum trebuie observat c intervalele snt n mare
msur arbitrare i trebuie privite mai mult ca nite indicaii dect ca regul. n practica de
cercetare e mai bine s se analizeze corelaiile comparativ cu ansamblul valorilor de corelare
din cadrul cercetrii. Aceasta este adevrat i referitor la indicatorii de regresie care au o
semnificaie nrudit cu coeficienii de corelaie.
Un exemplu de interpretare cred c este oricum necesar. n tabelul de mai jos se gsete
corelaia dintre vrst patronilor de IMM-uri din Transilvania i cifra de afaceri a firmei,
conform unei alte cercetri efectuate n 2006:
Corelaia Pearson
in 2005?
Significan
48. Ce varsta
in 2005?
aveti?
1
,096(*)
,028
(bilateral)
N
48. Ce varsta aveti?
Corelaia Pearson
Significan
539
530
,096(*)
,028
(bilateral)
N
530
980
0,096 deci o valoare foarte mic. Aceasta nseamn c putem linitii considera c cifra de
afaceri a firmei i vrsta patronului nu au o legtur statistic. Bine, bine, dar ce ne facem cu
significana? Am spus doar c aceasta este probabilitatea de a face o eroare de tip I. Adic de
a respinge o ipotez de independen adevrat. i n cazul de mai sus significana este sub
0,05 deci ansa ca s respingem o ipotez adevrat e foarte mic. Ca s nelegem corect cele
dou valori trebuie s separm dou concepte: Ct de tare snt relaionate cele dou variabile?
respectiv Ct de siguri putem fi de aceast relaionare?
Coeficientul de corelaie ne rspunde la prima dintre aceste ntrebri, significana lui la cea de
a doua. S mai lum un exemplu din aceiai cercetare, relaia dintre cifra de afaceri i profitul
net al firmei:
Corelaia Pearson
firmei in 2005?
Significan
firmei in 2005?
firmei in 2005?
1
,394
(bilateral)
N
13. Care a fost profitul net al
Corelaia Pearson
firmei in 2005?
Significan
,045
539
368
0,045
0,394
(bilateral)
N
368
399
Din tabela de sus se vede c nici ntre cifra de afaceri i profitul net al IMM-urilor nu exist o
corelaie, dar c nici significana nu e prea grozav. Deci ansa de a face o eroare de tip I,
adic de a respinge o ipotez adevrat este mare, de vreo 40%. Asta nseamn c n primul
caz putem spune c exist o corelaie foarte slab ntre cele dou variabile, pe cnd n acest al
doilea caz nu putem respinge ipoteza de independen a variabilelor. Exist n practic vreo
diferen ntre aceste dou interpretri? Da i nu. Ambele ne ncurajeaz s considerm
variabilele ca fiind n mare msur independente. Dac ns significana e bun, adic
apropiat de 0, avem o mai mare ncredere n rezultat, rezultatul e mai sigur.
Ali coeficieni de corelaie
Am vzut mai nainte c coeficientul de corelaie al lui Pearson presupune variabile raionale
sau intervalice. Exist ns i coeficieni care permit relaionarea de variabile ordinale. Cei
115
mai uzuali snt coeficientul (rho) al lui Spearman i coeficienii (tau) ai lui Kendall, din
care exist trei variante a, b i c. Aceti coeficieni nu fac presupuneri asupra distribuiei
datelor, aa c pot fi folosii nu numai atunci cnd datele nu snt intervalice sau raionale ci i
atunci cnd, dei snt intervalice sau raionale, ele nu snt distribuite normal sau relaia dintre
ele nu este liniar.
Ne vom ocupa acum numai de coeficientul al lui Spearman, numit i coeficientul de ordine
de rang (rank-order), care are avantajul de a avea o form i ca atare i o interpretare foarte
asemntoare cu coeficientul r al lui Pearson.
S vedem formula prima dat, dei i n acest caz este foarte puin probabil s o calculm de
mn:
n formul n este numrul de perechi pentru care se calculeaz corelaia. d este diferena
dintre rangul lui x i rangul lui y pentru cte o pereche. Rangul este poziia pe care o are o
valoare x sau y n lista ordonat a tuturor valorilor culese. De fapt, coeficientul lui Spearman
este exact coeficientul lui Pearson la care valorile variabilei snt nlocuite cu rangurile lor. Aa
se elimin problema caracterului lor nenumeric i se folosete numai faptul c snt ordonate.
Rangurile elimin problema diferenei inegale ntre valorile ordonate consecutiv ale
variabilelor ordinale.
Deoarece am vzut c metoda de calcul poate fi interpretat ca un coeficient de tip Pearson al
rangurilor i interpretarea valorilor rezultate din calcul se face la fel. S vedem deci un
exemplu. n tabelul de mai jos avem corelaia dintre viteza de acomodare cu locul de munc
i gradul de satisfacie cu acesta la un grup de absolveni ai seciei de informatic a
Universitii de Vest din Timioara. Ambele variabile snt ordinale. Dei numrul de cazuri e
mic se observ o corelaie cu o significan foarte bun. Ipoteza de independen dintre cele
dou variabile se poate respinge cu o certitudine mai mare de 99%. Nivelul de corelaie nu
este ns foarte puternic, valoarea coeficientului fiind 0,509. Ct de mare este de fapt aceast
valoare ar trebui determinat prin comparaie cu ali coeficieni de corelaie din acelai studiu.
116
Ct de repede
Spearman-Rho
Ct de repede s-a
Coeficient
acomodat cu jobul
Sig. (bilateral)
(1,,5)
Este satisfacut de
Coeficient
jobul actual?
Sig. (bilateral)
N
s-a acomodat
Este
cu jobul
satisfacut de
(1,,5)
jobul actual?
1,000
,509(**)
,000
54
54
,509(**)
1,000
,000
54
54
Corelaia parial
O problem important a coeficienilor de corelaie aa cum i-am prezentat pn acum este
influena pe care o pot avea alte variabile asupra relaiei studiate. Din cele vzute pn acum
nu am putut aplica principiul ceteris paribus. Adic nu am putut studia efectul unei variabile
asupra alteia pstrnd factorii de mediu constani.
Corelaia parial este o metod de a studia relaia dintre dou variabile controlnd efectul unei
de a treia. Ca de obicei, devine mai uor de neles cu un exemplu. M voi folosi de un sondaj
de opinie fcut n judeul Arad, att n mediul rural ct i urban, pentru a studia consumul
cultural. n urmtorul tabel apare corelaia (Pearson) dintre numrul de cri cumprate anual
i vrst:
Q15. n
medie, cte
carti
cumparati
I2. vrsta:
Corelaie Pearson
I2. vrsta:
Coeficient
Sig. (bilateral)
N
pe an?
1,000
-,212(**)
,000
594
594
-,212(**)
1,000
Coeficient
carti cumparati pe
Sig. (bilateral)
,000
an?
594
595
putere mic, dar significan foarte bun. ntrebarea pe care putem s ne-o punem n acest caz
este ns dac efectul e dat chiar de vrst sau exist variabile mediatoare n acest lan cauzal.
Fiind vorba de o tem de consum cultural este normal s studiem care e de fapt influena
nivelului de pregtire, variabila care are de regul efectul cel mai mare asupra consumului
cultural.
Q15. n
medie, cte
Variabile de control
carti
cumparati
I2. vrsta:
I2. vrsta:
Corelatie
Sig. (bilateral)
Grade de libertate
pe an?
1,000
-,087
,034
591
-,087
1,000
Corelatie
Sig. (bilateral)
,034
Grade de libertate
591
119
600,00
500,00
studper10000
400,00
300,00
200,00
100,00
0,00
0
5000
10000
15000
20000
25000
30000
GDP
Ce putem observa este c valori mai mari ale numrului de studeni la 10.000 locuitori par a
se asocia cu valori mai mari ale produsului intern pe cap de locuitor. Asocierea se poate
presupune a fi oarecum liniar. Graficul e dominat de un grup compact de puncte care se
grupeaz asemntor cu o linie. Pe lng acest grup exist ns i multe puncte care se prezint
oarecum disparat de rest. Rolul modelului de regresie este s descrie matematic linia
principal i s determine cam ct din relaie dintre cele dou variabile se regsete n aceasta
i ct e de fapt cuprins n cazurile excepionale. Altfel, metoda ncearc s determine ct e
regularitate liniar n relaia dintre cele dou variabile.
Ideea e de a trasa o dreapta pe graficul de puncte de mai sus astfel nct ea s fie ct mai
apropiat de toate punctele reprezentate. Aceast apropiere de toate punctele e tocmai
problema major pe care o ridic regresia.
120
studper10000
500,00
400,00
300,00
200,00
100,00
0,00
5000
10000
15000
20000
25000
GDP
n graficul de mai sus apare acelai nor de puncte, de ast dat cu o linie trasat pe poziia
dreptei de regresie. Ca orice dreapt i aceasta are o ecuaie de forma urmtoare:
S = b0 + b1 * GDP
GDP e desigur valoarea x a dreptei, iar S este valoarea de pe axa y pentru dreapt. Valoarea S
se dorete s fie un fel de aproximare a valorii studper10000. Este o aproximare pentru ca aa
cum spuneam, S se determin astfel ncit s fie ct mai aproape de punctele norului.
Desigur punctele de pe dreapt aferente valorilor variabilei GDP nu au cum sa fie egale cu
punctele potrivite cu valorile Studper10000. Dac ar fi egale, ar iei tocmai norul de puncte i
nu o dreapt. Fiecare din punctele din nor difer de punctele de pe dreapt printr-o abatere.
Deci
Studper10000 S = abatere, adic, nlocuind formula dreptei care determin S avem
Studper10000 (b0 + b1 * GDP) = abatere
121
unbiased estimate). Deoarece teorema a fost demonstrat mai trziu de ctre statisticianul rus
Andrei Markov, ea poart n general numele de teorema Gauss-Markov.
Metoda OLS este ns destul de pretenioas din punct de vedere al condiiilor necesare pentru
ca ea s fie aplicabil i eficient. Condiiile, care se numesc de regul condiiile GaussMarkov snt urmtoarele:
Variabilele aleatoare abaterei au o dispersie finit egal pentru toi indicii i. Aceasta se
numete homoschedasticitate (sau omogenitate a dispersiei).
Variabilele aleatoare abaterei snt necorelate ntre ele. Condiia se mai numete absena
autocorelaiei.
Prima dintre condiii este nesemnificativ. La urma urmei dac media variabilelor abaterei are
fi nenul s-ar putea aduga aceast valoare la termenul liber al ecuaiei i abaterile s-ar aduce
astfel la media nul. Celelalte dou condiii pot fi uneori greu de ndeplinit n cercetri cu date
reale. Cu toate acestea, metod OLS se folosete chiar i n cazurile n care condiiile GaussMarkov nu snt perfect ndeplinite.
Condiia de homoschedasticitate se poate testa cu testul Breusch-Pagan. Dac se aplic OLS
n condiii de heteroschedasticitate de obicei coeficientul de corelaie r al lui Pearson (i
coeficientul de determinare R2 despre care vom vorbi n curnd) pot fi subestimai. Aceasta e
mai puin grav dect supraestimarea. n practic s-ar putea s nu recunoatem nite relaii
existente dar e puin probabil s gsim ceva acolo unde nu e nimic. Altfel spus ipoteza de
independen ntre variabilele din ecuaia de regresie este mai greu de respins n condiii de
heteroschedasticitate dect ar trebui s fie.
Condiia de absen a autocorelaiei se testeaz cu testul Durbin-Watson10. Problema
autocorelaiei abaterilor este cel mai adesea prezent n cercetrile cu serii de timp, adic cu
valori ale unor variabile care snt msurtori ale aceluiai fenomen n diferite momente de
timp. Abaterile care rezult din ecuaii cu valori pentru aceiai indivizi n diverse momente de
10
123
Model
,728(a)
R-Patrat
,530
78,75713
Coeficienti
Coeficienti nestandardizati
Model
1
B
(Constanta)
GDP
Coeficieni standardizati
Eroarea standard
-7,664
5,143
,016
,000
Beta
,728
Significanta
-1,490
,136
35,052
,000
Tabelele de mai sus snt o parte a rezultatelor metodei OLS. De obicei se mai raporteaz i
valori intermediare cum ar fi chiar sumele de ptrate calculate i altele.
Prima tabel ne precizeaz ct de puternic este legtura dintre cele dou variabile din ecuaie.
Coeficientul R este chiar coeficientul de corelaie al lui Pearson. Valoarea este n cazul nostru
o valoare care desemneaz o corelaie destul de puternic, 0,728. Acest coeficient se ridic la
ptrat i se obine R2 = 0,530, coeficientul de determinare. Coeficientul acesta reprezint
procentul din modificarea variabilei int care se poate explica prin modificare variabilei
regresor. n cazul nostru am citi cam aa: 53% din variaia numrului de studeni la 10,000 de
124
locuitori se explic prin variaia produsului intern brut pe cap de locuitor11. Deci, cu ct R2 e
mai mare, regresorii au un efect mai mare asupra variabilei dependente. Ca efect al
intervalelor de evaluare a coeficientului de corelaie, o regresie este puternic dac R2 e mai
mare dect 0,5 (corespunztor unui R mai mare de 0,7 ridicat la ptrat). De fapt, valorile
trebuie i de aceast dat privite n contextul cercetrii practice. Dac n general n teme de
natur psihologic chiar i un R2 de 0,3 e considerat bun, n econometrie, unde relaiile dintre
indicatori se supun unor reguli mai simple, valori mari, de peste 0,9 nu snt chiar o raritate.
Al doilea tabel conine coeficienii de regresie, numii adesea b sau B. Coeficienii b snt cei
din ecuaia de regresie propriu-zis. Deci pe baza tabelei putem spune c:
Studper10000i = -7,664 + 0,012 GDPi + abaterei
sau, c
Si = -7,664 + 0,012 GDPi
este ecuaia dreptei de regresie. Pentru fiecare dintre aceti coeficieni se propune i o ipotez
de forma: coeficientul b este nul ceea ce echivaleaz cu a spune regresorul nu are nici un
efect asupra variabilei int. Pentru aceast ipotez se efectueaz testul t i se d n tabel
valoarea testului i significana lui. Vedem c significana coeficientului lui GDP este foarte
bun (testul t d peste 35), ns significana coeficientului termenului liber nu e aa grozav (t
= -1,49). Deci acest coeficient al termenului liber este ceva mai nesigur.
Coeficientul lui GDP se poate citi astfel. Dac valoarea GDP crete cu o unitate, numrul
studenilor la 10000 de locuitori crete cu 0,012 uniti. Desigur exprimarea aceasta sun
foarte mecanicist i nu trebuie neleas altfel dect ca o modelare, sau poate chiar mai vag, ca
o metafor a relaiei dintre variabile. Totui vom vedea c interpretarea coeficienilor de
regresie, precum i a coeficientului de determinare, ne poate da indicaii despre puterea cu
care influeneaz diferite variabile independente variabila dependent a unei cercetri.
11
n cercetrile mele pe aceast tem, rezultatul a fost pn la urm mai nuanat, varianta de mai sus nelund n
seam eterogeniti locale existente n felul cum variabilele educaionale i economice se influeneaz reciproc.
Am ales s prezint aici ns forma cea mai simpl, scopul fiind la urma urmei unul educaional. Deci, nu m
citai cu rezultatul din exemplu, legtura dintre numrul de studeni i produsul intern brut e mai complicat dect
pare aici!
125
Coeficientul Beta din tabel este o valoare standardizat care ia n seam valoarea medie i
dispersia variabilei independente. Aceasta va fi interesant, cum vom vedea, n special la
regresia multipl pentru c va permite compararea efectelor mai multor variabile
independente care evident au medii diferite.
Regresia multipl extinde metoda prezentat mai sus la un numr mai mare de variabile
independente care se repercuteaz asupra aceleiai variabile int. Voi descrie n continuare i
aceasta pentru ca apoi s vedem n continuare cum se pot analiza acestea.
Pentru a exemplifica regresia multipl o s folosesc o extindere a aceleiai probleme. Regresia
multipl difer de cea simpl prin numrul regresorilor. Deci, dac n exemplul precedent am
avut un singur regresor al crei efect asupra variabilei int ne interesa, n cazul unei regresii
multiple numrul regresorilor va fi mai mare. Pentru a pstra lucrurile ct mai simple posibil
s lum doi regresori. n exemplul simplu, inta era numrul de studeni la 10.000 de locuitori
i regresorul era produsul intern brut pe cap de locuitor. S lum acum un al doilea regresor,
numrul de organizaii neguvernamentale internaionale active n anul studiat n ara cu
pricina.
Motivaia acestei extinderi a modelului este urmtoarea: teoriile globalizrii ale colii neoinstituionaliste de la Stanford (John Meyer, Francesco Ramirez, i alii) gsesc c
expansiunea nvmntului are loc peste tot n lume indiferent de nivelul de dezvoltare
economic. Mai mult, ei gsesc c n a doua jumtate a secolului 20, expansiunea
educaional a avut loc peste tot n lume, indiferent dac economia era n cretere sau n
descretere. De aici ei ajung la concluzia c dezvoltarea nvmntului nu are legtur cu
dezvoltarea economic. Ipoteza lor este ns aceea c dezvoltarea nvmntului este un
epifenomen al globalizrii i ca atare ar trebui s depind de un indicator care msoar nivelul
de globalizare al unei ri. Tot ei propun numrul de organizaii non-guvernamentale
internaionale active la un moment dat ntr-o ar ca un astfel de indicator. Acest indicator este
notat de regul cu ingo (de la international non-governmental organizations).
Am avea atunci o ecuaie de regresie n care avem doi regresori, unul indicnd dezvoltarea
economic i un altul gradul de globalizare. Ecuaia este urmtoarea:
Studper10000i = b0 + b1 * GDPi + b2 * ingoi + abaterei
126
127
Model
1
R
,753
R-Patrat
,566
76,00829
Coeficienti
Coeficienti nestandardizati
Model
1
B
(constanta)
Coeficienti standardizati
Standardfehler
-4,468
5,123
GDP
,009
,001
ingo
,059
,006
Beta
Significanta
-,872
,383
,413
11,559
,000
,376
10,528
,000
128
Dac produsul intern brut pe cap de locuitor crete cu un dolar, numrul studenilor la
10.000 de locuitori crete cu 0,009.
Desigur, cum am mai scris i mai sus, exprimate aa relaiile par imposibil de simple i
directe. i desigur o citire att de naiv ar fi greit. Totui pn la urm, considernd
cauzaliti complexe i reele de influen evident indirecte i complicate rezultatul acesta
este. Un produs intern brut pe cap de locuitor mai mare cu un dolar e legat de un numr de
studeni la 10,000 de locuitori mai mare cu 0,009.
Ne-am dori s comparm coeficienii de regresie ntre ei. Este ntr-adevr 0.059 mai mare
dect 0,009? Care dintre cele dou variabile de regresie are efectul mai mare n realitate?
Pentru aceasta se poate folosi un indicator numit puterea unui regresor care se calculeaz
foarte simplu ca produs la coeficientului de regresie cu media variabilei regresor. La urma
urmei, ne intereseaz care e valoarea medie numeric ce se repercuteaz asupra variabilei
int. n exemplu avem:
Media
Coeficientul
Puterea
GDP
9740,97
0,009
87,66
Ingo
1139,7700
0,059
67,24
Observm c citirea pur i simplu a coeficienilor de regresie b ne-ar fi dus puin n eroare.
Coeficientul indicatorului de globalizare era de vreo 6 ori mai mare dect coeficientul
indicatorului economic. Aceasta ar fi putut s ne duc cu gndul la un efect mult mai mare al
acestuia. Pentru a putea ns compara cu adevrat efectele nu trebuie uitat valoarea n sine a
indicatorilor. i ntr-adevr media indicatorului economic este de aproape 9 ori mai mare
dect media indicatorului de globalizare. nmulind, rezult puterile relative i rezult c
numrul de studeni este determinat n mai mare msur de creterea economic dect de
globalizare. Trebuie s observm i faptul c cele dou puteri snt totui destul de apropiate.
Ele au acelai ordin de mrime. Diferena dintre ele se poate da, de exemplu, procentual.
Astfel putem spune c efectul creterii economice este cu aproape 30% mai mare dect efectul
globalizrii n modelul de regresie liniar de mai sus sau invers, puterea efectului globalizrii
129
asupra expansiunii nvmntului superior este aproximativ trei-sferturi din puterea efectului
creterii economice. Evident, modelul n sine, explic, aa cum am vzut, numai jumtate din
variaia variabilei int.
Tabelele ecuaiei de regresie ne ofer i ele un indicator comparativ apropiat de puterea unei
variabile independente, valorile Beta. Aceste valori reprezint coeficieni standardizai pentru
variabilele aleatoare, coeficieni care iau n considerare valoarea medie a variabilelor
independente, dar i dispersia lor. n exemplul nostru valorile Beta au fost: 0,412 pentru GDP
i 0,376 pentru ingo reproducnd destul de ndeaproape calculele noastre de mai sus. Desigur
o decizie rapid asupra importanei regresorilor ntr-o ecuaie de regresie multipl este mai
uor de luat folosind ceea ce raporteaz softul statistic. Pe de alt parte puterea regresorului
aa cum am calculat-o mai sus este un concept mai simplu i poate duce ca atare la mai puine
confuzii.
S rezumm acum avantajele i dezavantajele regresiei multiple. Regresia multipl are ca
principal avantaj posibilitatea comparrii efectelor unor variabile (definite n model ca
regresori) asupra variabilei int. Pentru asta lum n seam gradul lor de corelare reciproc,
s calculm modificarea coeficientului de determinare i puterile regresorilor.
Al doilea mare avantaj este c regresia multipl poate cura abaterile de efecte care nu pot
fi considerate pur i simplu aleatoare. Dac avem un singur regresor tot ce mai are efect
asupra variabilei int este mpins n factorul abatere (sau eroare). Aceasta poate duce la
nendeplinirea condiiilor Gauss-Markov, cele cu lipsa autocorelrii i a heteroschedasticitii.
Deci o regresie multipl poate avea efecte benefice asupra modelului. l poate face mai exact,
prin creterea coeficientului de determinare, i l poate face i mai uor rezolvabil matematic.
Atunci ar trebui s tot adugm regresori pn ajungem s descriem toat variaia variabilei
int i gata: am descris complet problema! Din pcate aa ceva n lumea real nu se prea
poate i n plus regresia multipl are i anumite dezavantaje care ne determin s o folosim cu
oarecare msur.
Necazul cel mai mare cu regresia multipl este supraspecificarea modelului. Nu e chiar tragic
dar poate duce la anumite incurcturi dac nu este interpretat cu grij. Supraspecificarea
nseamn de fapt includerea unui numr prea mare de regresori. n astfel de situaii analiza
130
relaiilor dintre regresori nu se mai poate face att de simplu ca n cazul exemplului nostru n
care dei exista multicoliniaritate, erau numai doi regresori.
Un efect al supraspecificrii este desigur creterea anselor de multicoliniaritate. Pe de o
parte, avnd muli regresori exist anse mai mari ca unii dintre ei s fie puternic corelai cu
alii. Pe de alt parte, mai apare i posibilitatea ca un regresor s fie foarte apropiat de o
combinaie liniar a altor regresori. Ce se ntmpl n astfel de cazuri este c acelai obiect sau
fenomen apare n ecuaia de regresie de mai multe ori prin mai multe msurtori diferite ntre
ele. Pericolul supraspecificrii nu apare deci, atunci cnd fenomene diferite, bine-definite
teoretic (ca n exemplu, creterea economic i globalizarea) snt n mod dovedit corelate, ci
atunci cnd folosim mai multe variabile care msoar acelai fenomen. De ce? Ei bine, pentru
c estimarea efectului fenomenului n sine devine problematic. Utiliznd mai multe
msurtori pentru fiecare din fenomenele studiate, compararea efectelor acestor fenomene
devine incert. Fiecare dintre msurtorile fenomenului vor avea un impact subestimat prin
prezena celorlalte msurtori. Suma impactelor variabilelor care aparin aceluiai complex
teoretic trebuie de asemenea tratat cu grij pentru c poate fi influenat de relaii diferite cu
celelalte variabile ale modelului. Desigur, aa cum am mai spus, multicoliniaritatea nu este o
problem care s fac modelul inutil sau metoda inexact. Multicoliniaritatea cu un numr
mare de regresori complic ns semnificativ analiza modelului.
A doua problem a supraspecificrii este legat de alegerea variabilelor. Incluznd n model
un numr mare de variabile, multe dintre acestea vor avea un impact redus asupra variabilei
int. Astfel de efecte, care ajung s fie de a dreptul neglijabile nu fac dect s complice
modelul i s acorde unor variabile o nemeritat atenie. Variabile care au fost incluse n
model i au un efect foarte mic au probabil acelai impact cu o gramad de alte variabile care
nu au fost incluse n model. Prezena lor acolo face ns ca ele s fie interpretate, discutate i
s li se atribuie, chiar fr a supraevalua valorile, o importan mai mare dect altor variabile.
S discutm n ncheierea acestui capitol puin despre felul cum ar fi bine s se fac
specificarea modelului de regresie liniar. n general se consider modelul de regresie ideal,
un model cu un numr minim de variabile, ct mai puin dependente ntre ele i cu un impact
individual ct mai mare. Nu ntotdeuna exist aa ceva, i chiar dac exist, n majoritatea
cercetrilor nu avem cum s gsim un asemenea model. Mai mult dect att, gsind variabile
de impact maxim asupra variabilei int s-ar putea s nu gsim altceva dect o msur a
131
aceluiai fenomen. Oricum, dezideratul fiind gsirea unui numr mic de variabile
independente de impact mare, cercettorul trebuie s i dea silina s determine variabilele
care au efectul cel mai mare asupra variabilei int. Pentru asta bineneles trebuie s-i
foloseasc ct de mult posibil bunul sim tiinific i cultura de specialitate. Trebuie s
modelez creterea numrului de studeni, ce regresori iau? Trebuie s pornesc de la un soi de
repertoar al fenomenelor pe care teoria le-a pus n legtur cu fenomenul int al modelrii.
Apoi trebuie s verific prin regresii simple efectul acestor regresori asupra variabilei int i
prin analiz de corelaie gradul de multicoliniaritate dintre regresori.
De obicei n finalul acestui demers se dezvolt mai multe modele concurente la explicarea
fenomenului int. Acestea se calculeaz, iar rezultatele se compar ntre ele.
132
legate de media unor variabile calitative (chiar dac ele snt reprezentate prin valori
numerice), pe de alt parte se pot foarte bine efectua teste cu frecvenele de apariie a unor
astfel de variabile. Hai s fiu mai clar, fie o ntrebare de opinie, de genul: Suntei de acord cu
...? i rspunsurile snt 1. Da; 2. Nu. Calculul mediei rspunsurilor este total lipsit de sens
pentru c presupune adunarea de valori 1 i 2 adic adunarea de Da i Nu i mprirea la
numrul lor. Pe de alt parte testarea faptului c frecvena de apariie a unui Da este relevant
diferit de 50% este absolut corect. E vorba despre un test similar la urma urmei, diferena
este c n primul caz se fac calcule cu valorile variabilei iar n al doilea caz cu frecvenele de
apariie a acestor valori.
Tot ce am discutat pn acum legat de prezentri tabelare, grafice, indicatori, teste, etc. are
valabilitate i n cazul variabilelor calitative att timp ct metoda nu presupune calcule cu
valorile variabilelor.
n cele ce urmeaz o s adaug la reaterul nostru de metode cteva care au fost gndite special
pentru variabile calitative. Cel mai adesea ele se evideniaz printr-un numr mai mic de
restricii sau presupuneri legate de variabile. De aceea ele se folosesc adesea i n cazul unor
variabile raionale sau intervalice despre care avem mai puine informaii. De exemplu,
variabile despre care nu putem presupune c ar fi distribuite normal. Astfel de metode snt
adesea numite i metode non-parametrice sau cu distribuie liber. Denumirea de nonparametric poate s induc n eroare de-a binelea. i eu am fost mult vreme convins c aa se
numesc metode care pur i simplu nu au parametrii. Ei bine, nu e aa. Metodele nonparametrice snt metode la care nu se fac presupuneri a-priori despre parametrii. E mult mai
simplu s le numim metode fr distribuii presupuse a-priori, sau metode libere de
distribuie. Din pcate e bine s inem minte i denumirea inductoare n eroare pentru c ea e
folosit n diverse programe statistice (de ex. n SPSS) i n multe cri de statistic. Cea mai
util i rspndit metod non-parametric este testul Chi2.
a. Testul Chi2
De fapt exist o ntreag familie de teste numite Chi2. Ele efectueaz testarea folosindu-se de
o familie de distribuii de probabilitate numit Chi2. Familia aceasta este mai larg dect
familia de distribuii normale i o include pe aceasta din urm ca o limit a ei.
134
Cel mai important dintre testele Chi2 este testul Chi2 al lui Pearson. Simplu, puternic, fr
presupuneri greu de ndeplinit, testul se poate folosi cu ncredere aproape peste tot. E aproape
un panaceu universal. De obicei se folosete la variabile calitative pentru c nu presupune
efectuarea de calcule cu variabilele testate. Cu toate acestea se poate folosi linitit i n cazul
variabilelor raionale sau intervalice i este chiar indicat n cazul n care acestea nu au o
distribuie normal sau log-normal. Singura condiie practic este ca numrul de valori pe
care le ia variabila s nu fie prea mare. S vedem ns ce testm.
Ipoteza pe care o testeaz testul Chi2 al lui Pearson este c distribuia unei variabile nu difer
semnificativ de o distribuie teoretic dat. Adic frecvenele de apariie a valorilor unei
variabile corespund unei reguli, unei distribuii cunoscute. De exemplu, aceast distribuie ar
putea fi uniform, adic fiecare valoare s apar de un numr egal de ori, sau ar putea fi orice
alt distribuie fie c are vreo relevan teoretic sau e pur i simplu propus de cercettor.
Hai s lum un exemplu pentru a clarifica felul cum se pune o ipotez pentru testul Chi2. S
lum de exemplu o cercetare pe care am mai folosit-o pe parcursul acestei cri. E vorba
despre un studiu de pia efectuat n Baia Mare n 2003. n tabelul de mai jos apare distribuia
pe frecvene a unei ntrebri simple cu rspunsurile organizate sub forma unei scale ordonate.
Evident, variabila rspuns este o variabil ordinal:
10. Cat de des se fac cumparaturile la dvs. in familie?
Frecven
Procent
zilnic
446
42,4
370
35,2
saptamanal
168
16,0
67
6,4
1051
100,0
mai rar
Total
Ipoteza tipic pentru un test Chi2 va compara distribuia valorilor cu o distribuie uniform.
Distribuia de mai sus este de fapt lista de frecvene ce apare pe a doua coloan a tabelului:
446 - 370 - 168 - 67. Distribuia uniform ar fi atins dac toate valorile ar fi la fel de
probabile, adic am avea o list care se obtine mprind volumul populaiei (aici 1051) la
numrul valorilor posibile (aici patru), deci: 263 263 263 263. Testul verific dac cele
dou liste difer semnificativ una de alta. Poate nu pare foarte interesant. Hai s lum ns
135
puin altfel problema. S considerm un subgrup din populaia noastr. De exemplu, cei care
au studii superioare. Pentru ei frecvena cumprturilor arat astfel:
10. Cat de des se fac cumparaturile la dvs. in familie?
Frecven
Procent
Zilnic
102
36,6
118
42,3
Saptamanal
55
19,7
mai rar
1,4
279
100,0
Total
Lista de frecvene este de 102 118 55 4. Difer oare cu adevrat aceast list de
distribuia celor care nu au studii superioare, vizibil n tabela de mai jos:
10. Cat de des se fac cumparaturile la dvs. in familie?
Frecven
Procent
Zilnic
344
44,6
252
32,6
Saptamanal
113
14,6
mai rar
63
8,2
Total
772
100,0
Ipoteza de egalitate ar suna atunci cam aa: fie c au sau nu studii superioare, locuitorii din
Baia Mare fac cumprturile la fel de des. Asta e mult mai interesant pentru o firm de
marketing. De o asemenea observaie sau observaii de acest gen poate depinde modul cum se
organizeaz o campanie de publicitate sau de promovare a unui produs. Observm c este o
ipotez de acelai tip ca i n primul caz. Avem dou liste de frecvene: 102 118 55 4 i
344 252 113 63. La ochi ele difer. Valorile procentuale pentru primele dou categorii
par a se inversa, iar a patra categorie care e nesemnificativ pentru prima list e considerabil
mai mare n cea de a doua. Totui snt oare aceste diferene suficiente ca s respingem
ipoteza, adic s spunem c ntre cele dou grupuri existe diferene semnificative n frecvena
cu care i fac cumprturile.
S vedem deci cum se calculeaz. Valoarea de test Chi2 se obine astfel:
136
n formul Oi snt frecvenele observate ale valorilor variabilei, Ei frecvenele ateptate, sau
teoretice. i ia valori de la 1 la 4, adic are attea valori cte valori poate lua variabila noastr.
Avem de comparat doua liste de frecvene de lungime i, unele vor lua locul valorilor Oi,
celelalte vor sta la baza calcului valorilor Ei. O sa lum acum valorile pentru intervievaii cu
studii superioare ca fiind valorile Oi. Valorile Ei vor fi valorile care s-ar gsi n grupul celor
cu studii superioare dac distribuia ar fi aceiai ca i n grupul celor fr studii superioare.
Pentru a gsi valorile Ei trebuie s proiectm procentajele aa cum apar n tabela de referin
la numrul total de cazuri din tabela testat. Mai clar, dac distribuia ar fi aceiai atunci
procentele aa cum apar la cei fr studii superioare ar trebui s apar i la cei cu studii
superioare. Atunci 44,6% ar trebui s fie n categoria zilnic. Adic numrul ateptat de
cazuri este pentru aceast categorie 44,6% din volumul eantionului de test, adic 279.
Calculul e deci foarte simplu, o regul de trei simpl aplicat volumului total, sumei de valori
Oi pentru procentajul fiecrei frecvene din cel de-al doilea grup:
E1 = 279 * 44,6 / 100 = 124,4.
Valoarea 124,4 difer fa de 102, cte cazuri snt de fapt n eantion. Calculnd i celelalte
procente rezult o list de frecvene astfel: 124,4 91,0 40,7 22,9. Valorile nu snt ntregi
pentru c se obin aplicnd procentajele aa cum am explicat. S exemplificm acum calculul
valorii Chi2:
Chi2 = (102 124,4)2/124,4 + (118 91)2/91 + (55 40,7)2/40,7 + (4 22,9)2/ 22,9
Valoarea calculat este Chi2 = 32,66. Programele statistice ne-ar da i o significan. n cazul
de fa ar fi 0,000, deci foarte bun. Dac ns nu am folosi un soft statistic ar trebui s
folosim o tabel de valori. Astfel de tabele pentru valorile Chi2 se gsesc de obicei la captul
crilor de statistic (inclusiv n aceast carte), dar exist i pe internet, de exemplu la adresa
http://www.statsoft.com/textbook/sttable.html unde se gsesc tabele de valori i pentru alte
teste foarte des utilizate, testele t, Z i F (tabelele pentru t i Z se gsesc i n cartea de fa).
137
S studiem puin tabela de la pagina ***. Pentru a citi aceast tabel de valori Chi2 avem
nevoie de nc un termen numit grad de libertate, prescurtat df, din englez, de la degrees of
freedom. n cazul testelor Chi2 acest grad de libertate nu este altceva dect numrul valorilor
pe care le-a luat variabila testat minus 1. Adic, n exemplul nostru unde aveam patru valori
posibile, 4 1 = 3 grade de libertate.
Cutm n tabel pe linia potrivit numrului de grade de libertate pn dm de prima valoare
care e mai mare dect valoarea Chi2 obinut prin calcul. Significana, adic probabilitatea de
a face o eroare de tip I, va fi atunci valoarea din capul de tabel a coloanei precedente.
Observm c pe msur ce crete valoarea Chi2, se nbuntete, adic scade ca valoare
significana. n exemplul nostru valoarea calculat e mai mare dect oricare din valorile de pe
linia pentru 3 grade de libertate. Deci significana e mai bun dect cea mai bun significan
din tabel. Deci ansa de a respinge o ipotez corect, cci aceasta era eroarea de tip I, este
foarte, foarte mic, de fapt mai mic dect 0,001. Putem ca atare respinge linitit ipoteza.
n concluzie, testul Chi2 din exemplu permite respingerea ipotezei de egalitate ntre cele dou
distribuii. Adic datele noastre snt suficiente pentru a putea spune c cei cu studii superioare
au o distribuie a frecvenei de a face cumprturi semnificativ diferit de cei ce nu au
asemenea studii.
Exact la fel ca i n exemplu se pot compara orice dou liste de valori de frecvene. Fie c una
este empiric i una teoretic, fie c ambele snt empirice.
b. Testele Wilcoxon, Mann-Whitney i Kruskal Wallis
Vom continua cu alte teste non-parametrice. Testul Wilcoxon este o alternativ nonparametric la testul t al lui Student pentru dou medii, pe care l-am descris n capitolul 5.
Dei testul Wilcoxon a fost propus pentru un nivel de msurare a datelor cel puin intervalic,
nu se fac nici un fel de presupuneri despre distribuia datelor. Ca atare testul este potrivit de
cte ori nu snt satisfcute condiiile testului t, care presupune normalitate.
S rememorm scurt ipoteza testului t pentru dou medii. Testul t pentru dou medii verifica o
ipotez de egalitate sau inegalitate a dou valori care se obineau ca medii ale unei variabile
138
aleatoare. Mediile se calculeaz pentru dou eantioane. Cele dou eantioane trebuie s
prezinte o distribuie normal de aceiai dispersie a variabilei a crei medie se testeaz i pot
fi independente sau dependente. Ipoteza de normalitate cu dispersie egal este destul de tare,
n multe situaii o asemenea presupunere restricionnd mult posibilitatea de folosire a testului.
Aici intervine testul Wilcoxon.
Pe de alt parte, trebuie s observm c testul t presupune ntotdeuna un calcul de medie, deci
testul se poate referi numai la variabile cantitative. i aici e nevoie de o generalizare care s
fac metoda folositoare i n alte cazuri. Testul Wilcoxon face o asemenea generalizare
folosind n locul valorilor poziiile ntr-o ierarhie de frecvene. De fapt, testul Wilcoxon
transform testul t ntr-un mod analog cu felul cu corelaia Spearman transform corelaia
Pearson. Ca atare, variabilele testate prin testul Wilcoxon trebuie s fie ordinale, dar nu
neaprat intervalice sau raionale. Dei se efectueaz nite diferene ntre valori n cazul
Wilcoxon scopul acestora este doar de a stabili care valori snt mai ndeprtate sau mai
apropiate de o cvasi-medie. Testul se folosete frecvent pentru ntrebri de opinie. S vedem
ns ce i cum calculeaz.
Ipoteza testului de definete astfel. Fie dou eantioane, care pot fi total independente, dar cel
mai adesea snt rezultate din reinterogarea aceluiai eantion. Pe cele dou eantioane se
identific o aceiai variabil. Ipoteza este c distribuia acestei variabile este egal n cele
dou eantioane. Un exemplu simplu: s presupunem c am efectuat un tratament oarecare i
dorim s vedem dac se repercuteaz asupra unei variabile. tiu eu, am tuns un preedinte i
vrem s vedem dac aceasta a dus la creterea sau scderea popularitii lui. Variabila de
popularitate va fi atunci culeas o dat nainte de tundere, o dat dup. Deoarece aceast
variabil nu este de fapt cantitativ nu se poate stabili cu un test t dac diferena medie
sesizat este relevant statistic sau nu. Se pot folosi evident teste Z pentru a stabili dac a
crescut relevant procentul simpatizanilor sau nu, testul Wilcoxon ne ofer ns o singur
testare de ansamblu a diferenei distribuiei. Pentru aceast se acioneaz astfel:
1. S notm cele dou valori ale variabilei, simpatia nainte de tuns x, i simpatia dup
tuns y. Pentru fiecare individ i chestionat vom avea dou valori xi i yi.
2. Calculm modulul diferenei zi = | xi yi |
3. Ordonm valorile zi, eliminm valorile nule i acordm fiecrei valori o valoare rang
n funcie de poziia pe care o ocup n lista ordonat. Dac dou sau mai multe valori
139
z snt egale punem rangul mediu. De exemplu dac valorile de pe poziia 5 i poziia 6
snt egale, ambele primesc rangul 5,5.
4. Calculm acum suma rangurilor care corespund abaterilor pozitive i suma rangurilor
care corespund abaterilor negative12. Valoarea cea mai mic dintre acestea dou este
valoarea de test.
Valoarea de test se numete uneori T, alteori S sau chiar W. Valorile critice pentru testul
Wilcoxon se gsesc de asemenea n tabele organizate n funcie de significan i numrul de
cazuri. O regul simpl este: cu ct valoare e mai mare cu att significana e mai bun, dar
evident trebuie verificat tabela pentru a decide ntr-un caz particular. Soft-urile statistice care
efectueaz testul Wilcoxon raporteaz desigur i significana rezultatului care se citete cum
ne-am obinuit deja, ca probabilitate de a efectua o eroare de tip I. Deci cu ct valoarea
significanei e mai mic cu att putem respinge ipoteza de nemodificare a variabilei cu un risc
de eroare mai mic. O significan bun este, de regul, una cu valoare sub 0,05.
O dezvoltare interesant a testului Wilcoxon este testul U, numit i Mann-Whitney, MannWhitney-Wilcoxon sau Wilcoxon-Mann-Whitney. Am vzut c testul Wilcoxon se putea
folosi acolo unde aveam un design de tip nainte-dup, adic valori nperecheate. Trebuia s
avem dou eantioane n care s construim perechi. Aceasta este o situaie care apare desigur
la anumite tipuri de cercetri dar testul de tip rang merit extins i la alte situaii. De aici ideea
testului U. Idee pe care de altfel tot Frank Wilcoxon a propus-o i nc n acelai articol din
1945 cnd a definit i testul numit de obicei testul Wilcoxon, cel pe care l-am prezentat
anterior. i asta cu toate c era chimist i nu statistician.
Ipoteza testului U este c dou eantioane provin din aceiai populaie, adic au o distribuie
egal a variabilei testate. O asemenea ipotez poate fi de folos n multe ntrebri de cercetare.
S vedem nite exemple.
Situaia de cercetare pe care am folosit-o pentru a prezenta testul Chi2 se preteaz i pentru
utilizarea testului U. Verificarea faptului c frecvenele de a face cumprturi ale celor cu sau
fr studii superioare snt sau nu diferite se poate traduce i n limbajul ipotezei testului U.
Avem n acest caz o populaie de ansamblu cu anumite obiceiuri legate de frecvena de a face
cumprturi. Dac am alege aleator dou eantioane din aceast populaie ele ar putea diferi
12
De fapt ajunge dac calculm una dintre aceste sume.Cealalt rezult uor pentru c suma tuturor rangurilor
este oricum n(n+1)/2 unde n este numrul de valori.
140
Suma
61. Genul
Rang mediu
rangurilor
feminin
553
504,28
278865,00
familiar?
masculin
474
525,34
249013,00
Total
1027
Statistica de test
141
66. Venitul
lunar
familiar?
Mann-Whitney-U
125684,000
Significan (dou
capete)
,229
Cel mai uor putem s analizm acest rezultat citind significana. Dup cum se vede ea nu e
suficient de bun pentru a respinge ipoteza. Deci, nu putem spune c femeile i brbaii
estimeaz n mod diferit veniturile lor familiale.
Metoda de calcul a testului U este foarte simpl.
1. Se ordoneaz toate valorile variabilei testate (venitul lunar familial), indiferent dac
fac parte din grupul 1 (la noi, femeile), sau grupul 2 (brbaii).
2. Fiecrei valori i se asociaz rangul ei n lista ordonat. Ca i n cazul testului
Wilcoxon, valori egale vor primi un rang mediu.
3. Se calculeaz suma rangurilor pentru grupul 1 (R1) i suma rangurilor pentru grupul 2
(R2).
4. Valoarea de test U este valoarea mai mic dintre U1 i U2 unde acestea se calculeaz
asfel: U1 = R1 (n1* (n1+1))/2 i U2 = R2 (n2* (n2+1))/2.
Exist desigur tabele care dau valorile critice pentru testul U. n aceste tabele valorile snt
specificate n relaie cu volumele celor dou eantioane, n1 i n2.
Un pas mai departe pe acelai fir logic l face testul Kruskal-Wallis. Anume, dac n testul
Mann-Whitney comparaie se face ntre dou grupuri, testul Kruskal-Wallis permite
comparaii ntre mai multe grupuri, sau mai multe eantioane ca s folosim chiar limbajul
testului.
Ipoteza testului Kruskal-Wallis este analog ipotezei Mann-Whitney: Un numr oarecare de
eantioane au fost extrase din aceiai populaie. Ca i n cazul Mann-Whitney de fapt
eantioanele le definim printr-o variabil de categorisire, cel mai adesea o variabil nominal,
i testarea o facem pe o variabil care este cel puin ordinal. Ca i n cazul precedentelor teste
142
Unde:
apoi se aplic pur i simplu un Chi2 pentru ipoteza de egalitate a tuturor rangurilor medii.
Adic, dac eantioanele snt provenite din aceiai populaie, deci aproximeaz aceiai
distribuie a datelor, diferenele dintre rangurile medii trebuie s fie pur aleatoare,
ntmpltoare. Atunci ns ele nu vor fi n mod relevant diferite de o distribuie uniform.
Astfel am tradus ipoteza testului Kruskal-Wallis la o ipotez de tip Chi2 cu distribuie
uniform. Majoritatea soft-urilor statistice pe care le cunosc abordeaz testul Kruskal-Wallis
n acest fel.
S vedem un exemplu de aplicaie, de ast dat folosind un alt set de date. Populaia cercetrii
este populaia intreprinderilor mici i mijlocii din mediul rural din Transilvania. Am testat
dac numrul de proprietari ai intreprinderii depinde de domeniul principal de activitate.
Domeniul de activitate este evident o variabil nominal. Nu exist o ordine ntre
agricultur i transporturi! Pe de alt parte domeniul de activitate definete pe populaia
firmelor subgrupuri care pot fi nelese ca eantioane diferite. Variabila numr de proprietari
este raional, dar probabil nu este distribuit normal, nici mcar cu aproximaie.
Rang
principal de activitate?
3. Care este numarul de
Agricultura
proprietari ai firmei?
Rang mediu
16
423,50
Comert - en detail
454
488,43
Comert - en gros
45
497,28
Productie
76
495,32
Servicii - profesiuni
147
381,39
Servicii - turism
107
417,61
39
381,00
313,00
33
599,50
Servicii - consultanta
Servicii - agricole
Constructii
Total
922
3. Care este
numarul de
proprietari ai
firmei?
Chi-patrat
55,822
Df
Significanta asimptotica
144
,000
a Kruskal-Wallis-Test
b variabila de grupare: 5. Care este domeniul principal de activitate?
Valoarea Chi2 i significana testului snt ct se poate de concludente. Ipoteza c firmele din
grupurile definite de domeniul principal de activitate au la fel de muli proprietari poate fi
respins cu o probabilitate de a grei de 0.000.
S nchei acest capitol n care am trecut n revist cteva teste printr-o nelepciune simpl dar
util. n esen, tot ce e variabil raional sau intervalic trebuie s se poat testa cu t sau Z
(ceea ce e cam acelai lucru), iar tot ce e variabil ordinal sau nominal se poate testa ntr-un
fel sau altul folosind Chi2. Exist desigur i variante mai complicate i multe, multe alte teste
gndite pentru diferite ipoteze, dar pentru multe din lucrrile mai mult sau mai puin tiinifice
i utilizarea acestor teste simple ar fi deja un ctig extraordinar pentru cunoatere.
c. Regresia categorial.
n capitolul precedent am prezentat analiza de regresie liniar att n forma ei simpl ct i
multipl. n toate aceste variante datele implicate n ecuaiile de regresie erau date numerice
cu care se efectuau calcule. Aceast restricie limita desigur utilizarea metodei regresiei la un
anume tip de cercetri. Exist ns i tipuri de regresie care au fost gndite s analizeze relaii
ntre variabile care pot avea diferite forme, chiar i variabile nominale. Aceste modele de
regresie nu snt utile numai pentru luarea n considerare a unor variabile nominale, ci i n
cazul unor variabile care pur i simplu nu se supun preteniilor metodelor de rezolvare ale
regresiei liniare.
Regresia categorial nu este un singur tip de regresie. Mai mult, putem s o considerm ca o
clas de modele care n forma general a ecuaiei de regresie, aceiai ca i n capitolul
precedent includ variabile care nu se supun regulilor obinuite. Principalele modele care
implic variabile nenumerice n ecuaii de regresie snt:
Regresia logistic binar sau multinomial (ambele pot avea formele logit i probit),
care permite definirea unor variabile nominale ca variabile int a regresiei.
Regresia logit sau probit ordonat, care permite utilizarea variabilelor inte ordinale.
145
Unele soft-uri de statistic ofer i o aa-zis regresia categorial cu scalare optimal care
permite definirea scalei pentru fiecare variabil din ecuaia de regresie n parte. Aceasta este o
alternativ general la care utilizatorul nu trebuie s-i bat prea tare capul cu modelul folosit
i primete rezultatele sub o form interpretabil uor, la fel ca la o regresie liniar obinuit.
n aceast seciunea nu doresc mai mult dect s clarific primul dintre modelele enumerate
mai sus, modelarea variabilelor nominale cu ajutorul variabilelor dummy.
Variabilele dummy snt variabile care au dou valori, de obicei codate 0 i 1. De fapt, modul
de codificare nici nu prea are vreo importan, sensul acestuia fiind mai mult unul logic dect
numeric. Adic 0 nseamn fals sau absent, 1 nseamn adevrat sau prezent. n mod
tradiional variabilele dummy au aprut n cercetrile economice pentru a modela
sezonalitatea. E foarte simplu. S considerm o ecuaie de regresie liniar cu dou variabile
regresor din care una dummy:
yi = a + b1 xi + b2 di + ei
unde yi este variabila int, xi variabila regresor, di variabila dummy i ei eroarea pentru
fiecare caz i la care s-au cules date. S zicem, de exemplu c dorim s modelm relaia dintre
consumul de bere (y) i consumul de alune (x). S zicem c am cules date de la buticuri,
reprezentnd vnzri zilnice. Observaiile ne-au dus ns la gndul c aceast relaie depinde
cumva de anotimp. Faptul c iarna se bea mai puin bere dect vara nu ar trebui neaprat s
modifice relaia dintre cantitile de bere i cele de alune. Dar observaiile ne duc cu gndul c
iarna se mnnc mai multe alune la aceiai cantitate de bere. Deci s-ar putea dependena s
fie cumva diferit. Pentru a putea lua aceasta n considerare am putea s modelm relaia cu
dou ecuaii una pentru var i una pentru iarn. Sau am putea folosi o variabil dummy, o
variabil cu dou valori. n modelul din exemplu aceasta este variabila d. Lum ca atare d = 1
pentru acei i pentru care valorile x (alune) i y (bere) au fost culese vara i d = 0 pentru acei i
pentru care valorile au fost culese n alte anotimpuri. De fapt am mprit eantionul i avem:
pentru d = 1:
yi = a + b1 xi + b2 + ei = (a + b2) + b1 xi + ei
146
iar pentru d = 0:
yi = a + b1 xi + ei
Cele dou ecuaii difer prin termenul liber, n primul caz acesta este a + b2, iar n al doilea
caz a. Deci, dac am reprezenta grafic cele dou drepte ele ar fi paralele. Altfel spus, efectul
sezonalitii modelat cu variabile dummy presupune c relaia dintre consumul de alune i
consumul de bere nu difer prin cantitatea de bere care se consum la o cretere a consumului
de alune de o alun ci pur i simplu consider c sezoanele pornesc de la un nivel diferit al
relaiei dintre consumul de bere i cel de alune. Faptul c efectul sezonalitii este dat la aceste
modele de o valoare scalar, valoarea b2 i nu de o variabil aleatoare face ca astfel de modele
s se mai numeasc modele cu efecte fixe.
Cu o asfel de extindere a modelului regresiei liniare putem lua n calcul nu numai efecte de
sezonalitate ci i orice efecte care snt modelabile cu variabile cu dou valori. Pe parcursul
crii am mai avut ca exemple de astfel de variabile, genul sau prezena studiilor superioare.
Interesant este c o foarte simpl generalizare ne permite s includem n ecuaii de regresie
variabile nominale cu oricte valori.
S lum o variabil nominal cu mai multe valori, de exemplu, religia. Mai jos este o tabel
de frecvene care reprezint religiile locuitorilor judeului Arad conform unui sondaj de
opinie:
I8. religie:
Frecventa
adventist
Procent
,8
baptist
30
5,0
catolic
76
12,8
evanghelic
,2
fara religie
,8
grecocatolic
,3
,2
neoprotestant
,7
147
ortodox
437
73,4
28
4,7
1,0
595
100,0
penticostal
reformat
Total
Datele culese prezint 11 categorii, pentru o modelare corect probabil diversele rituri
neoprotestante ar trebui reunite, ca i cele protestante, obinndu-se astfel un numr mai mic
de categorii: ortodox, catolic, greco-catolic, protestant i neoprotestant i fr religie.
Modelarea cu variabile dummy presupune construirea cte unei variabile pentru fiecare dintre
aceste valori. Deci n locul variabilei religie cu valorile din list vom avea o variabil
ortodox cu valorile da i nu, o variabil catolic cu valorile da i nu i aa mai
departe. n total modelarea cu variabile dummy presupune nlocuirea unei variabile nominale
cu attea variabile dummy cte valori poate lua variabila nominal. S considerm relaia de
regresie care modeleaz dependena dintre numrul de cri cumprate anual i vrst.
Cartei = a + b1 Virstai + ei
Modelul rezolvat cu metoda celor mai mici ptrate d:
Cartei = 2,146 0,026 Virstai + ei
Relaia este deci negativ, cei cu vrsta mai mic cumpr mai multe cri. Significanele
coeficienilor snt bune, dar coeficientul de determinare este mic (0,098) deci vrsta explic n
mic msur cumprarea de carte. S vedem dac nu cumva religia, care este la urma urmei o
caracteristic cultural, are i ea un efect asupra obiceiului de a cumpra cri. Pentru aceasta
redefinim religia sub forma unor variabile dummy. Considerm deci 6 variabile i rezult
modelul urmtor:
Cartei = a + b1 Virstai + b2 Ortodoxi + b3 Catolici + b4 Greco-Catolici + b5 Protestanti + b6
Neoprotestanti + b7 FaraReligiei + ei
Rezolvarea cu metoda celor mai mici ptrate ne d urmtorul rezultat prezentat ca i tabel:
148
Model
B
1
Coeficienti
Significanta
Eroare standard
(constanta)
1,899
,604
3,142
,002
I2. vrsta:
-,025
,003
-7,891
,000
,252
,579
,436
,663
ortodox
catolic
,187
,593
,315
,753
grecocatolic
-,120
1,074
-,112
,911
protestant
-,051
,778
-,065
,948
,255
,596
,427
,669
neoprotestant
n tabela de mai sus snt coeficienii ecuaiei de regresie, mpreun cu rezultatele unor teste de
significan. Testele verific ipoteza c variabila regresor nu are efect asupra variabilei int.
Altfel spus verific ipoteza c coeficientul variabilei este semnificativ diferit de 0.
Tabela arat c dei significana efectului vrstei rmne bun i coeficientul vrstei este stabil
fa de regresia simpl, significana variabilelor dummy aferente diferitelor grupuri religioase
este foarte proast. Practic nu putem respinge ipoteza general: apartenena religioas nu are
efect asupra numrului de cri cumprate anual. n acest context o discuie a semnelor
coeficienilor diferitelor variabile dummy este lipsit de sens, ar reprezenta chiar o greeal
grav, dei acesta ar fi fost urmtorul pas dac significanele ar fi fost bune. Am fi observat
atunci c anumite religii au efect pozitiv, adic coeficieni pozitivi, altele efect negativ asupra
numrului de cri cumprate.
S alegem acum o alt variabil calitativ, nivelul de pregtire. Am recodat nivelul de
pregtire pe patru categorii: coal general sau mai puin, studii liceale, studii postliceale,
studii superioare. Pentru fiecare am construit o variabil dummy exact ca n exerciiul
precedent i am calculat ecuaia de regresie. Rezultatul tabelar este mai jos:
Model
B
1
Coeficienti
Significanta
Standardfehler
(constanta)
1,747
,466
3,746
,000
I2. vrsta:
-,016
,003
-4,759
,000
generala
-,580
,461
-1,260
,208
149
liceu
-,109
,454
-,239
,811
postliceala
,851
,489
1,738
,083
superioare
,906
,468
1,936
,053
Efectul variabilei nivel de pregtire este mult mai clar. Pentru a analiza tabela ne uitm la
semnul i valoarea coeficienilor precum i la significana lor. Se observ c efectul este mai
significant pentru treptele de pregtire mai nalte. Astfel efectul studiilor superioare este
singurul clar semnificativ. Ipoteza de independen a numrului de cri cumprate anual de
nivelul de pregtire poate fi respins cu o probabilitate de 95% pentru cei cu studii superioare.
De asemenea efectul este evident pozitiv. O influen pozitiv ceva mai mic i mai puin
semnificativ au i studiile postliceale. Pe de alt parte efectul studiilor liceale sau generale
este negativ asupra numrului de cri cumprat, dar n acelai timp mai puin significativ. n
special n cazul celor care au numai studii liceale este greu s vedem vreun efect asupra
numrului de cri cumprate. O citire corect ar fi de fapt: cei cu studii liceale par a cumpra
mai puine cri, dar acest rezultat este insuficient de sigur.
Interesant este i faptul c coeficientul de determinare al ecuaiei de regresie care era de sub
10% crete la 23% prin introducerea variabilei nivel de pregtire.
Am putea lua n seam variabila ordinal nivel de pregtire i altfel. Am putea s o recodm
numeric, de genul coal general este 1, studii liceale este 2, etc. i s o considerm ca
variabil numeric. O asemenea abordare ar fi ns mult mai brutal, n esena ei incorect i
mult mai puin nuanat pentru c nu ar putea determina efecte individuale ale diferitelor
nivele de pregtire. Pe de alt parte abordarea efectelor individuale ale nivelelor de pregtire
este o utilizare nominal a variabilei i omite faptul c aceste nivele au de fapt o ordine bine
definit.
150
151
felul cum par a fi formulate rspunsurile la ntrebare. Dac adunm procentajele iese exact
100%. De unde rezult c scala de opiuni nu a permis cetenilor rui din sondaj nici un fel
de dileme. Fie nu cred, fie snt convini. E nc bine c s-a acceptat c unii chiar nu pot
rspunde. Cam puini dup experiena mea. Oricum, astfel de informaii cu tent statistic
chiar nu au nici o valoare de informare.
S trecem ns la treburi mai serioare. Mai rar dect neprezentarea volumului eantionului se
evit o alt omisiune. Cnd ni se prezint o valoare procentual trebuie s tim pe cte cazuri
s-a obinut acel procentaj. Aceasta este obligatoriu dac numrul de cazuri este deosebit de
mic. Nu este de regul nici o problem la procentaje care se calculeaz din ansamblul
eantionului, pentru c volumul acestuia este cel mai adesea cunoscut. Necazul apare cnd, de
exemplu ntr-o tabel de relaionare, apar procentaje ale unor categorii subordonate. n
asemenea cazuri procentajul nu se mai refer la ntreg eantionul. E vorba de cazuri de genul
25% dintre brbaii de sub 25 de ani snt de prere c .... La astfel de propoziii precizarea
volumul e esenial. O opinie mprtit de ctre un sfert dintr-o categorie populaional este
desigur important. Ceea ce totui nu e cazul dac n eantion ntreaga categorie e
reprezentat de 12 persoane, din care un sfert snt abia 4 oameni. tim c matematic vorbind,
ceea ce conteaz snt la urma urmei numerele mari.
Cazul de mai jos nu e chiar o infraciune statistic pentru c informaia din articol este pn
la urm suficient dac dorim s refacem noi calculele. Dar pe cititorul neavizat tot l induce
n eroare, ceea ce putem linitit incadra la contravenii. Astfel de omisiuni apar cel mai
adesea n lucrri cu pretenii tiinifice. Exemplul de mai jos provine dintr-o tez de doctorat
n pedagogie de la Universitatea de Stat din Moldova13:
n funcie de gen, nregistrm recunoaterea unei palete mai largi de forme de
instruire la brbai: (3% dintre brbaii chestionai i-au exprimat opiune pentru lucrul
n bibliotec, fa de 0% la femei; 4% dintre brbai i-au exprimat opiunea pentru
mass-media).
Ce a vrut autorul s ne spun de fapt? Ei bine, a vrut s compare genurile din perspectiva
modurilor de instruire recunoscute i a conchis c brbaii menioneaz mai multe astfel de
forme. Pentru a susine aceasta ni se exemplific dou forme de instruire (folosesc termenul
13
153
autorului) menionate ntr-o chestionare de ctre brbai n mai mare msur dect de ctre
femei. Prima omisiune este cea a procentajului de femei care declar mass-media ca fiind o
form de instruire. Din tabelele din document se poate afla ns c acest procentaj este de 1%.
Problema cea mare este ns c nu se specific volumul asociat acestor procentaje. Nici n
tabelele care apar pe lng fragmentul citat mai sus nu apar frecvene, ci numai procentaje.
Cutnd un pic prin tez gsim pn la urm volumul eantionului. Aici surpiz maxim,
pentru mine, cel puin:
Populaia investigat: Subiecii studiului au fost 175 de aduli, participani la diferite
seminarii (...), dintre care 116 femei i 79 de brbai
Din cele de mai sus eantionul nu pare a fi aleator. Mai departe: Hai s nu fiu crcota i s nu
adun 116 cu 79. Observ ns c 3% dintre brbai snt probabil 4 persoane, iar 4% snt 5
persoane. 1% dintre femei este 1 persoan. Ei bine, nu numai c omisiunea este nepermis la
numere aa mici, dar concluzia din studiu este absolut hazardat.
O alt omisiune foarte des ntlnit se refer la formularea ntrebrii. De multe ori un concept
complex i chiar ambiguu este prezentat ca fiind rezultat direct dintr-un sondaj de opinie. Iat
un exemplu tipic din Evenimentul Zilei Nr. 4892, 31 Mai 2007. Prezentnd un sondaj de
opinie cu informaiile de rigoare (Sondajul a fost efectuat pe un esantion de 1.244 de
persoane si are o marja de eroare de 2,8%) se face n text remarca:
Sondajul IMAS constata modificari substantiale si la capitolul increderii in
personalitatile politice: Traian Basescu, 60%, inregistrand un plus de 11 procente:
Theodor Stolojan (32%), Gigi Becali (30%), Calin Popescu-Tariceanu (19%), Mircea
Geoana (16%).
Nu ni se spune desigur ce este acea ncredere i, ceea ce e i mai grav, nu ni se spune ce
reprezint procentajele raportate. Putem doar bnui rspunsul la prima ntrebare, dar la a doua
ntrebare nu avem nici un indiciu. ntrebarea pe care o pun de obicei sondajele de opinie la
acest subiect este ceva de genul Ct ncredere avei n urmtoarele personaliti politice?.
Rspunsurile posibile snt de obicei Foarte mult, Mult, Puin, Foarte puin
eventual cu o opiune la mijlocul scalei. Prima omisiune este absena specificrii rspunsurilor
care au fost incluse n procentajul de ncredere. E oare vorba despre suma categoriilor foarte
154
mult i mult ncredere? Probabil. Dar exista oare o categorie medie sau nu? i dac da,
cum a fost formulat? i unde intr ea, la ncredere sau la absena ncrederii? Apoi, problema
esenial: cum au interpretat intervievaii conceptul de ncredere? ncercai s rspundei la
ntrebare. Ct ncredere avei ntr-un anume politician? La ce v gndii cnd trebuie s
rspundei? V gndii la ncrederea c va face se spune, sau la ncrederea c va spune ce
crede, sau la ncrederea c ceea ce spune v va conveni. Poate c e vorba despre o senzaie
mai general de simpatie sau de familiaritate mai de grab dect de predictibilitate. Faptul c
conceptul de ncredere este un concept destul de larg face ca rspunsul s fie dependent de
contextul n care se pune ntrebarea. Contextul poate face ca ncrederea s fie interpretat ntrun anumit fel. Dac nainte de ntrebarea de ncredere se discut despre aciuni politice sau
anumite declaraii politice aceasta poate induce o anumit nelegere i poate duce la o
evaluare de un anumit fel. Bineneles un articol de ziar nu poate i nu trebuie s dea ntregul
chestionar, dar astfel de consideraii fac discutabil comparabilitatea rezultatelor la cote de
ncredere. Aa c aseriunea din articol, cum c Traian Bsesc nregistreaz un plus de 11
procente nu prea nseamn mare lucru.
Omisiunile pe care le-am menionat, volumul eantionului, volumul unei categorii, formularea
ntrebrilor i a rspunsurilor, nu au de obicei intenia de a induce n eroare. Totui n unele
cazuri ele o fac pentru c ncurajeaz implicit o citire mai general a rezultatelor dect ar fi
permis. Ele pot implica, n special pentru cititorul neavizat, generalizri sau comparaii care
snt nesusinute. O alt problem care este conex omisiunii formulrii ntrebrii este
confunzia legat de variabila msurat. Aa cum am vzut din ntrebarea despre ncredere nu
este ntotdeuna evident ce se msoar. O eroare grav este confuzia de variabil.
Ce msurm de fapt?
De multe ori cercetrile tiinifice, i n special cele din domeniul social i economic
conceptualizeaz la un nivel teoretic abstract. Apoi statisticianul este pus n situaia de a
operaionaliza teoria, adic de a gsi ceva suficient de msurabil i suficient de apropiat de
formularea teoretic astfel nct ipotezele de cercetare s poat fi testate. Atunci cnd un
concept teoretic este prea vag pentru a putea fi msurat direct, statisticianul trebuie s
gseasc o variabil care s in locul acestui concept n cercetarea empiric. Metoda se
numete de regul analiz cu variabile proxy dup cuvntul englezesc pentru nlocuitor. Ct de
bine se preteaz o variabil proxy pentru a ine locul unui concept nemsurabil este de obicei
155
nedecidabil. Totui o doz de bun sim tiinific exist n modul cum se pot face astfel de
definiii. O alt cale de abordare a aceleiai probleme este utilizarea analizei de cale (sau,
iari englezete, analiz path). n acest caz variabila nemsurabil este inclus ntr-o cale
logic deductiv, i nlocuit n cercetare printr-o variabil care i este precursor logic.
Desigur determinarea logic a variabilei care este oricum nemsurabil printr-o alt variabil
nu poate fi complet i oricum nu poate fi determinat prea clar. Sigur nlocuiri de acest tip se
pot face, dar nu trebuie nici o clip uitat c nlocuirea e valabil foarte limitat i doar la
nivelul conceptual al respingerii de ipoteze, al contraexemplului deci. Dup introducerea
aceasta puintel cam filosofic, ce e de spus, de fapt? O mare grij trebuie avut de cte ori n
cercetare sau n prezentarea unor rezultate apar concepte ce par a fi greu de msurat. Textul
nostru trebuie s spun exact ce am msurat de fapt i de ce. Hai s dau un exemplu autocritic.
ntr-o serie de cercetri am avut nevoie s msor ceva ce teoria numea gradul de globalizare
sau de includere n societatea global a unei ri ntr-un moment anume. Am mai dat
exemple din aceste cercetri aa c unii poate i amintesc c am folosit numrul de
organizaii non-guvernamentale active n ara respectiv pentru a msur globalizarea. Este
evident o variabil proxy. Ct e de bun? Nu pot spune dect c am decis dup o cumpnire
destul de serioas a alternativelor pe care le propune literatura din domeniu. Ce pot spune n
aprarea mea? Faptul c am prezentat n articolele tiinifice rezultate din aceste cercetri, ce
este de fapt variabila i nu am pretins c ar fi mai mult dect un indicator posibil al gradului de
globalizare.
Erorile cele mai frecvente legate de obiectul unei msurtori se fac n studii de marketing n
care adesea consumul este identificat cu estimarea consumului, cheltuieli cu estimarea
cheltuielilor. ntrebri de genul ct cheltuii lunar pe preparate din pete? pot cu greu fi
interpretate ca reprezentnd un indicator ct de ct fidel al consumului. in minte primul
sondaj pe care le-am condus n Romnia. Printre altele am ntrebat atunci locuitori ai
Timiorii cu ce partid au votat la alegerile precedente, de la care trecuse mai bine de un an.
Am regsit un rezultat care e descris i n literatura de statistic politic. Anume c oamenii
uit ce au ales i snt muli care identific partidul ctigtor al alegerilor cu opiunea lor, dei
n realitate au votat la vremea respectiv cu un alt partid. Sondajul meu avea rezultate bune de
test, adic eantionarea avea caracteristicile unei eantionri aleatoare. Totui proporiile
voturilor pe partide nu corespundeau de fel rezultatelor reale de la alegerile precedente.
Variabila culeas de mine cu era deci opiunea politic de la precedentele alegeri, ceea ce
de fapt mi doream s msor, ci impresia de la momentul chestionrii asupra opiniei politice
156
157
158
159
Evident procentajele pe eantion nu snt peste, ci sub nivelul mediu de urbanizare din
Republica Moldova, dar aceasta e probabil o scpare neesenial, o eroare de exprimare. n
text se generalizeaz apoi de la distribuia pe eantion la rspndirea caractisticii investigate n
ansamblul populaional. Ceea ce se poate desigur face dac este reprezentativ. De fapt este
ns vorba despre 30 (treizeci!) de interviuri. Acum c aceti 30 erau dintribuii ntre mediile
rural i urban 75% - 25% fa de ansamblul populaiei care se distribuie 60% - 40% este
departe de a permite orice fel de concluzii. La urma urmei 25% din eantion snt 7-8 persoane,
iar dac ar fi fost 40% ar fi fost 12 persoane. n plus, eantionul nefiind oricum reprezentativ,
generalizarea la nivel populaional nu e acceptabil.
Tipice pentru astfel de situaii snt cercetri din medicin, tiine ale educaiei sau psihologie.
i aceasta deorece multe dintre aceste cercetri se ocup de populaii rare, populaii la care o
eantionare aleatoare este fie imposibil, fie foarte problematic. Bine atunci ce trebuie s
fac srmanii oameni? Ei bine, trebuie s nu pretind c rezultatele lor snt generalizabile
statistic la nivel populaional.
Corelaii i regresii prost interpretate
Interpretarea corelaiilor i a regresiilor este problematic n special atunci cnd se caut relaii
cauzale. Cum am mai spus calculele statistice pot respinge anumite cauzaliti nu pot ns
propune cauzaliti. Aceasta st numai n puterea unor teorii. Totui cnd sntem pui n faa
faptului c exist o relaie ntre dou variabile, sau c se poate respinge independena a dou
variabile, sntem i tentai i nevoii s propunem explicaii pentru acest fapt. Deci, nu numai
teoria nate testare statistic ci i invers. Cercetarea statistic produce ipoteze teoretice prin
interpretrile rezultatelor. Deci trebuie s avem grij cum interpretm ceea ce gsim pentru ca
paii pe care i intreprindem n continuarea cercetrilor noastre s nu o ia pe cmp prea departe
de potec.
Din pcate aici reguli nu prea exist. Interpretrile proaste nu snt neaprat interpretri greite.
Prostiile rezult cel mai adesea nu din citirea greit a rezultatelor de test ci din incultur sau
nerbdare tiinific. Nu este vorba despre neglijarea significanei i a valorii de test. Astfel de
situaii nu necesit prea multe comentarii. Se ntmpl ns ca citirea unei relaii ca i
cauzalitate direct s fie suficient de absurd ca cercettorul s abandoneze o cale care ar
putea fi fertil. Am menionat pe undeva ipoteza berzele aduc bebeluii. Tot aa
160
Am dat un exemplu de corelaie care putea fi respins uor ca fiind o prostie. Hai s dau i un
exemplu n care interpretarea unei corelaii a fost ntr-adevr o prostie. ntr-un articol dintr-o
revist de altfel bun, un cercettor american (Kuh, 1999) construiete urmtoarea corelaie:
exist o relaie puternic negativ ntre beneficiile auto-declarate obinute din nvmntul
superior i ponderea disciplinelor ocupaionale n sistemul de nvmnt superior. El extrage
aceast concluzie dintr-o corelaie efectuat pe serii de timp ntre 1960 i 1990. Adic, pe
msur ce ponderea disciplinelor care pregtesc studeni pentru meserii bine definite a
crescut, a sczut beneficiul auto-declarat obinut de pe urma studiilor universitare. i corelaia
aa este. De aici autorul ajunge la concluzia c studiile cu caracter ocupaional aduc de fapt
mai puine beneficii absolvenilor. E vorba aici de discipline precum medicina, ingineria,
arhitectura, etc. care snt strict legate de meserii, fa de discipline precum filosofia, fizica sau
matematica care snt legate de domenii ale cunoaterii, de tiine.
Problema este c autorului i scap o variabil esenial, volumul total al absolvenilor, adic
gradul de cuprindere al nvmntului superior. Acesta a crescut foarte mult n Statele Unite
n anii studiai, deci ntre 1960 i 1990. Crescnd numrul de absolveni de nvmnt
superior are loc un soi de inflaie de diplome. Poziiile sociale nalte nu devin neaprat mai
multe, dar absolvenii de nvmnt superior se nmulesc foarte tare. Astfel o diplom
universitar nu mai garanteaz o poziie social i economic aa bun cum garanta n anii
1960. Deci expansiunea nvmntului superior e principala cauz pentru reducerea
beneficiilor obinute de pe urma studiilor. Pe de alt parte creterea ponderii disciplinelor cu
caracter ocupaional este, mcar parial, influenat tot de expansiune. Aici mecanismele snt
mai complexe i includ schimbarea rolului nvmntului superior de la cel de legitimare a
unei elite sociale la cel de pregtire profesional, precum i intrarea n nvmntul superior a
din ce n ce mai muli studeni provenii din medii sociale mai joase i cu interese mai de
grab profesionale dect academice. n concluzie, interpretarea cum c disciplinele
ocupaionale dau beneficii mai mici e o prostie. Corelaie e determinat de efectele pe care lea avut expansiunea nvmntului superior asupra celor dou variabile i nu de o relaie dintre
ele. Ar fi trebuit studiat mcar o corelaie parial controlnd efectul volumului total de
studeni sau de absolveni, fiind ns vorba despre serii de timp metodele de cercetare ar fi
trebuit s includ i alte calcule pe care nici nu le mai pomenesc aici.
162
163
n loc de ncheiere
- Statistica ne spune c astfel de crime snt comise de ctre rude.
- Dar v jur, nu am fost eu!
- Statistica nu minte. Criminalii ns da. (The District, serial TV, 2000)
Dialogul de mai sus este desigur memorabil de inept. i tot ce sper de la aceast carte este s
v fi fcut s nelegei de ce. Poliistul din fragmentul de dialog, a crui ncredere n statistic
ne bucur desigur, nu pare s priceap felul cum funcioneaz statistica. Pe parcursul acestei
cri am ncercat s art c statistic poate s nu mint i n acelai timp s nu spun adevrul,
sau n orice caz s nu spun un adevr care s fie valabil n justiie. Adevrul statisticii nu este
unul simplu, nu este univoc i exact. Dar cu toate acestea este un adevr dac tim cum s-l
citim. Am ncercat n paginile de pn acum s descriu ct mai bine am putut cum gndete
metoda statistic i cum trebuie noi s interpretm rezultatele ei.
Bine, bine, dar dac adevrul statistic nu e un adevr simplu, univoc i exact i n plus pentru
a l nelege trebuie s ne i batem capul sau, doamne ferete, s i calculm cte ceva, atunci
de ce mai folosim statistica? Ei bine, pentru c statistic este o metod de cunoatere care i
asum imperfeciunea ei i de obicei chiar ne permit s determinm aceast imperfeciune, s
o delimitm. Cu ajutorul statisticii nu putem spune exact care e adevrul. Putem s ne
apropiem de el i, ce e cel mai important, putem spune ceva de genul, nu e sta adevrul dar
exist o probabilitate destul de mare astfel ca adevrul s fie pe undeva pe aproape. Sun
foarte slab? Poate, dar e mai mult dect ne pot oferi multe alte metode de cunoatere.
Statistica nu ne ofer certitudini, dar ne ofer garanii suficiente pentru a lua decizii.
Certitudinile snt oricum supraevaluate. Puinele propoziii din tiin despre care putem
spune cu certitudine c snt adevrate sunt truisme. Ele nu ne intereseaz n cercetarea
tiinific real14. Statistica ne poate spune despre o propoziie, care nu este o certitudine, cam
care ar fi ansele s greim dac o declarm fals. i astfel statistica ne poate ajuta s decidem
att n tiin ct i n alte domenii ale activitii umane, n economie, n politic, i aa mai
departe.
14
164
165
166