Sunteți pe pagina 1din 166

Carte de Statistică

Reţete încercate

Cuprins

Cuvînt înainte
1. Introducere.
a. Ce este statistica?
b. Cum cunoaşte statistica?
c. Cauzalitate şi statistica.
d. Foarte scurt istoric al statisticii.
2. Ingredientele statisticii. Tipuri de date.
a. Date nominale
b. Date ordinale
c. Date intervalice
d. Date raţionale
3. Culegerea datelor statistice. Sondajul de opinie.
a. Statistici de lot si statistici de sondaj. Generalizarea statistică şi limitele ei.
b. Cum facem un sondaj de opinie simplu şi corect? Eşantionare, chestionar,
aplicare.
4. Aperitive. Primii paşi în descrierea datelor statistice
a. Imagini de ansamblu asupra datelor.
i. Frecvenţe simple.
ii. Reprezentări grafice
b. Indicatori agregaţi
i. Tendinţa centrală
ii. Distribuţia datelor

1
5. Supe, ciorbe şi teste statistice simple.
a. Distribuţia normală
b. Teste statistice t pentru medii şi Z pentru proporţii.
c. Calculul erorii unui sondaj si interpretarea ei.
6. Feluri principale şi garnituri sau relaţia dintre mai multe variabile
a. Grafice pentru mai multe variabile.
b. Tabele de relaţionare.
c. Corelaţia simplă şi parţială. Coeficienţii de corelaţie.
d. Regresia liniară simplă şi multiplă.
7. Pentru vegetarieni. Analiza datelor nenumerice.
a. Testul Chi2
b. Testele Wilcoxon, Mann-Whitney şi Kruskal Wallis
c. Regresia categorială.
8. Analiza seriilor de timp
a. Ce e o serie de timp? Identificarea de patternuri în serii de timp
b. Trend şi sezonalitate
c. Regresii cu serii de timp
d. Analiza de supravieţuire
9. Deserturi.

Cuvînt înainte

La primul curs de statistică pe care l-am ţinut la facultatea de ştiinţe politice de la


Universitatea de Vest din Timişoara o studentă mi-a spus pe un ton cît se poate de tranşant:
habar nu are de matematică, nici nu vrea să înveţe aşa ceva şi oricum a venit la facultatea de
ştiinţe politice tocmai ca să scape de matematică şi alte asemenea ştiinţe exacte. Sunt convins

2
că această experienţă a mea e departe de a fi unică. Am încercat pe parcursul celor două
semestre să o conving pe ea şi pe colegii ei, de obicei de aceiaşi părere cu ea, de utilitatea
statisticii şi de simplitatea ei. Sunt convins că nu am reuşit sau nu întru totul, dar ştiu de
asemenea că am reuşit să îi familiarizez cu conceptele de bază ale statisticii şi modul cum
acestea funcţionează în logica cercetării sociale.

Cartea aceasta se adresează tocmai celor ce se tem de calculul matematic sau sunt doar
neexersaţi in el, precum şi celor ce fac primii paşi în lucrul cu metode ştiinţifice cantitative in
cunoaşterea socială. Cartea mea vrea să fie uşor de citit, dar în primul rînd uşor de învăţat şi
de aplicat. Voi prezenta în paginile ce urmează principalele metode folosite în statistică,
metode utilizate în cercetările din ştiinţele sociale şi nu numai; reţetarul de bază pentru
lucrările de cercetare din sociologie, psihologie, ştiinţe politice, economice dar şi medicină şi
alte ştiinţe ce se bazează pe cunoaşterea empirică a realităţii.

Voi insista pe interpretarea rezultatelor precum şi pe ipotezele metodelor statistice, elemente


ale cunoaşterii statistice ce stau la interfaţa dintre teorie si metodă şi definesc în cele din urmă
limitele cunoaşterii prin statistică. În opinia mea, renumele uneori negativ pe care îl are
statistica în mass-media romanească, şi mă refer aici la scepticismul foarte răspîndit faţă de
cercetările bazate pe sondaje de opinie, se datorează pe lîngă existenţa reală a unor cercetări
cel puţin dubioase, şi unei neînţelegeri ale limitelor cunoaşterii statistice. Desigur cunoaşterea
statistică este prin felul ei imperfectă, inexactă, probabilă şi nu certă, dar puterea ei rezidă
tocmai în posibilitatea de a delimita cu siguranţă uneori destul de mare intervalul în care se
află realitatea. Să fiu mai explicit, statistica nu va da niciodată răspunsuri simple şi exacte.
Dar astfel de răspunsuri, în măsura în care există în cunoaşterea lumii reale, nu ne sunt utile.
Răspunsurile care ne sunt utile fie nu sunt simple, fie nu sunt exacte, fie nu sunt nici simple,
nici exacte. Cu toate acestea, cunoaşterea statistică este cunoaştere, adevărul statistic chiar
dacă nu este absolut este un adevăr pragmatic atît timp cît îi înţelegem limitele.

Mai există un motiv pentru care scriu această carte. Căutarea mea a unui manual de statistică
introductiv publicat în limba romană a fost pînă acum încununată de eşec. Deşi există multe
manuale de acest tip în spaţiul anglofon şi nu numai, la noi pînă în prezent manualele de
statistică bune au ţinut să se prezinte la un nivel ştiinţific prea ridicat pentru începătorii fără
interes şi aplecare faţă de cele matematice. Poate şi de aceea statistica nu a devenit ca în alte
părţi, un bun comun a celor ce cercetează lumea politică, socială sau economică şi putem

3
întîlni atît de des prostii monumentale în presa romanească atunci cînd aşa-zişi analişti se
apropie de datele unor sondaje de opinie (e drept, nu numai atunci). Voi încerca, de fapt, să
exemplific pe parcursul cărţii cîteva din erorile cele mai uzuale ale comentatorilor politici dar
şi ale politicienilor din ţara noastră. Uneori înclin să cred că o mai bună înţelegere a felului
cum cunoaşte statistica şi a cum trebuie interpretate sondajele de opinie ar fi putut chiar salva
partide de la dispariţie.

Nu voi merge prea departe cu ideea de a produce o carte de reţete de statistică, totuşi ea este
într-un fel justificată. Toate metodele din carte sunt într-adevăr încercate, şi vor să fie
exemple de metode ce se pot aplica cu succes în cercetare. De asemenea toate interpretările
pot fi utilizate ca exemple de interpretare. Voi atrage de asemenea atenţia asupra unor erori ce
apar adesea, voi atenţiona faţă de prea mult scepticism în egală măsură ca şi faţă de un
optimism exagerat. Deci condimentaţi cu măsură şi, precum cei mai buni bucătari, aplicaţi
reţetele mele cu înţelegere, în spiritul şi nu numai în litera lor.

4
Capitolul 1. Introducere.

Să începem uşor, cu începutul. În acest capitol aş vrea să definesc conceptul de statistică şi


felul cum poate statistica cunoaşte lumea. Voi vorbi despre raţionamentul statistic, despre
eroare şi greşeală în statistică, precum şi despre cauzalitate şi statistică.

a. Ce este statistica?

Statistica se defineşte de obicei ca un subdomeniu al matematicii dedicat culegerii, analizării,


interpretării şi prezentării datelor. Definiţia aceasta mi se pare însă cît se poate de
nesatisfăcătoare pentru că, pe de o parte nu spune nimic despre felul cum acţionează statistica
lăsînd prin urmare orice metodă ca fiind acceptabilă, şi mai apoi foloseşte un concept mult
prea general si ambiguu, acela de “dată”. În acest concept este probabil ascuns chiar ceea ce
eu consider a fi genul proxim în cadrul căruia ar trebui definită statistica. Anume faptul că ea
este o metodă de cunoaştere. Statistica este o metodă de cunoaştere a unor obiecte sau
fenomene bazată pe interpretarea rezultatelor de măsurare. Mie definiţia aceasta îmi place mai
mult, deşi probabil sună încă destul de criptic. Anume, mută ambiguitatea de la conceptul de
“dată” la felul cum se obţine aceasta, adică prin măsurarea unor obiecte sau fenomene. Ei
bine, eu înclin să cred că măsurarea în cauză se poate face chiar cu orice aparat de măsură atît
timp cît acesta este de încredere, adică nu face erori sistematice. Totuşi, nişte exemple ar fi
utile aici, nu-i aşa?

Deci, aparate de măsură sunt desigur cîntarul şi metrul croitorului sau ale constructorului, ca
şi şublerul sau micrometrul, dar pînă la urmă orice funcţie care face univoc legătura dintre un
obiect sau fenomen şi o valoare fie ea numerică sau nu, este o măsurare. Sper că nu am speriat
încă pe nimeni folosind termenul de funcţie în sens matematic. O funcţie este o relaţie între
două mulţimi, în cazul nostru o mulţime de obiecte sau fenomene de acelaşi tip pe care dorim
să o cunoaştem mai bine şi o mulţime de valori statistice pe care le putem analiza. Punem de
fapt în relaţie ceva ce nu putem folosi nemijlocit în calculele noastre cu ceva ce putem folosi.
Măsurăm de exemplu greutatea unor cîini, poate pentru a analiza efectul unor alimentaţii
specifice. Folosim un cîntar, desigur, dar de fapt definim prin aceasta o funcţie pe domeniul
cîinilor studiaţi luînd valori în domeniul numerelor reale. Şi de ce facem asta? Pentru că
dorim să interpretăm, să calculăm, să comparăm şi, în fine, să prezentăm cît mai simplu şi

5
coerent rezultatele cercetării noastre. Şi nu ştim să calculăm cu cîini, însă ştim să facem asta
cu numere. Această problemă este mereu prezentă în cunoaştere. Nu putem “calcula” cu
obiectele reale, fenomene aşa cum sunt ele. Aşa cum nu putem face calcule cu cîini, nu putem
face nici cu opiniile politice şi nici cu comportamentele economice ale unor oameni adevăraţi.
Trebuie să le transformăm în lucruri cu care putem calcula, în valori numerice sau
nenumerice, oricum valori care sunt simple şi în primul rînd complet definite prin ele însele.
Să mă explic: este practic imposibil să definesc complet un obiect sau un fenomen real. Orice
definiţie a cîinelui meu ar fi incompletă, ar omite un fir de blană sau chiar o caracteristică
comportamentală pe care poate încă nu o cunosc. Iar de ar fi, prin absurd, posibilă o definiţie
completă a lui Garu, aşa îl cheamă (ştiu, e aiurea, dar e o poveste mai lungă), ar fi de o
complexitate ce ar face să fie absolut inutilă pentru orice interpretare sau analiză. Pe de altă
parte rezultatul măsurării greutăţii lui este 30kg ceea ce este desigur un model cît se poate de
inexact pentru un cîine dar este o valoare utilă şi calculabilă atît timp cît ştim exact ce
înseamnă şi nu îi conferim o mai mare importanţă decît are, anume greutatea lui Garu.
Completînd această măsurătoare cu altele, precum vîrsta, rasa şi genul, obţinem un model, o
definiţie incompletă şi utilă, atît incompletitudinea cît şi utilitatea ei rezultînd pînă la urmă din
simplitatea ei.

La fel se întîmplă şi în cazul opiniilor politice ale unei persoane, de exemplu ale colegului
meu Ionică. Opiniile lui Ionică sunt complexe, anumite teme îl interesează şi este informat
asupra lor avînd opinii nuanţate. Alte teme nu îl interesează şi nu are opinii asupra lor sau are
opinii superficiale formate rapid. Mai mult, opiniile lui Ionică, precum a oricărei persoane
inteligente sunt schimbătoare, reacţionează la schimbările din mediu, la noi informaţii şi noi
evenimente. Nu avem cum efectua calcule cu opiniile lui Ionică, putem însă să măsurăm
elemente ale acestor opinii cu un chestionar la un anumit moment dat. De exemplu, îl putem
întreba ce părere are despre un anumit politician şi îi putem oferi 5 variante de răspuns. Avem
atunci o măsurătoare, care este în acelaşi timp o simplificare şi o datare. Acest rezultat de
măsurare va fi legat de momentul la care am pus întrebarea (şi va rămîne neschimbat, deşi
opinia lui se poate schimba ulterior) şi va încerca să includă opinia lui Ionică într-o schemă
simplă care nu îl poate descrie evident întru totul dar care îl poate face comparabil cu alţi
oameni care au răspuns la aceiaşi întrebare.

Şi aici este chiar principala problemă a statisticii. Statistica nu calculează cu cîini, oameni sau
partide. Statistica calculează cu rezultatele unor măsurători ale acestora. Cunoaşterea în

6
general nu poate opera cu obiectele ei, ci cu modele ale acestor obiecte. Statistica construieşte
astfel de modele prin măsurare. Cum măsoară de obicei statistica? Ei bine, oricum. Sau mai
exact, depinde de temă. Statistica medicală măsoară cu aparate sofisticate dar a căror
exactitate ar trebui să nu depindă de cel ce efectuează cercetarea, statistica socială sau politică
este însă de obicei nevoită să-şi dezvolte propriile aparate de măsură, chestionarele. Vom
reveni în capitolul al treilea la felul cum se scriu, şi cum nu se scriu chestionare. Pînă atunci
să continuăm însă să discutăm cum metoda de măsurare cu chestionarul influenţează chiar
conceptual cunoaşterea statistică.

Un aparat de măsură trebuie să aibă două principale caracteristici pentru a fi util. Trebuie să
dea un rezultat şi unul singur, şi mai mult decît atît, la repetarea măsurării să producă acelaşi
rezultat sau unul foarte apropiat. Presupunînd că reuşim să-l urcăm pe Garu (cîinele meu, vă
aduceţi aminte) pe un cîntar, vom citi un rezultat oarecare. Pentru cine a uitat deja, era o
valoare apropiată de 30kg. Daca reuşim acest efort de persuasiune şi îndemînare în repetate
rînduri într-un scurt interval de timp, utilizînd mai multe cîntare, acestea vor fi bune în măsura
în care ne vor da aproximativ acelaşi rezultat. Pe de altă parte însă, greutatea lui Garu nu se va
schimba de pe urma faptului ca a fost măsurată. Chiar daca Garu ar fi priceput ceva din cele
ce i s-au întîmplat tot nu şi-ar fi schimbat greutatea ca urmare a acestui fapt. Acest mod de a
testa aparatele de măsură pentru coerenţa lor nu ne este însă accesibil în cazul chestionarului.
Daca dorim să repetăm chestionarea lui Ionică suficient de curînd pentru ca opinia lui să nu se
fi schimbat prea mult, el îşi va aduce desigur aminte de chestionar şi va răspunde probabil la
fel măcar pentru a se arăta consecvent, caracteristică pe care societatea noastră o valorizează
în sine. Există chestionare special elaborate, în special în cercetări de psihologie care rezolvă
această problemă într-o oarecare măsură prin punerea a foarte multe întrebări şi repetarea
unora dintre ele în forme mai mult sau mai puţin modificate. Una peste alta problema rămîne
însă deschisă pentru majoritatea cercetărilor. Chestionarele nu se pot de obicei calibra atît de
bine ca şi cîntarele. Soluţia la această dilemă nu este decît recunoaşterea unei alte limitări a
cunoaşterii prin statistică socială. O cercetare care foloseşte o metodă de măsurare nu poate fi
comparată cu o altă cercetare ce foloseşte altă metodă de măsurare. “Cîntarele” cercetării
sociale nu sunt comparabile. Ca atare măsurarea depinde nu numai de obiectul măsurat ci şi
de aparatul de măsură. În cercetarea statistică socială rezultatul este dependent şi specific
aparatului şi metodei de măsurare. Deci, metodologia este parte din rezultat. Putem spune că
rezultatul măsurării are sens, este interpretabil, există numai împreună cu metoda de măsurare.
Revenind la conceptul de model pe care l-am introdus mai sus, nu numai că statistica nu

7
calculează cu cîini, sau oameni, sau fenomene, ea nu calculează de fapt nici cu greutatea,
opinia sau comportamentul ci cu rezultatul măsurătorii acestora aşa cum ne-o permit aparatele
de măsură. Mai simplu, dacă întrebăm un elev cît de des ridică mîna în clasă, nu vom prelucra
statistic elevul (bineînţeles, doamne fereşte), dar nici măcar gradul lui de participare în clasă
(ceea ce unii ar putea spera), ci o măsură de moment a opiniei lui faţă de gradul lui de
participare în clasă. Şi această măsură va depinde de felul cum e construit chestionarul, de
întrebările anterioare, dar şi de evenimentele din ziua în care am efectuat chestionarea sau din
zilele precedente. Aceasta pentru că măsurarea se face într-un moment anume şi cu un aparat
anume. Mai mult, măsurătoarea nu se aplică participării în clasă ci opiniei elevului asupra
acestei participări, opinie care depinde de părerea pe care o are despre şcoala lui, învăţătorul
lui, despre sine însuşi respectiv despre dezirabilitatea de a fi activ în clasă. Toate acestea nu
fac măsurarea inutilă sau cunoaşterea obţinută de pe urma ei mai puţin sigură, pur şi simplu
sunt elemente ce trebuie luate în seamă.

Dacă aparatul de măsură este parte din rezultatul măsurat, de aici decurge imediat faptul că nu
este posibilă vreo măsurare fără o teorie ce stă la baza ei. Aparatul de măsură a fost desigur
dezvoltat pe baza unei teorii, fie că a fost un cîntar fie că a fost un chestionar. Atît timp cît
rezultatul măsurării nu depinde de metoda de măsurare am putea la o adică să neglijăm teoria
care a produs aparatul, aceasta însă nu e nici o dată cazul în cercetarea statistică. Chiar dacă
măsurarea a avut loc cu cîntarul, ideea de a măsura cu cîntarul a avut la bază o decizie şi
această decizie o teorie legată de rezultatele dorite de pe urma cercetării. Cu atît mai mult în
cazul în care aparatul de măsură este parte integrantă din rezultatul măsurii. În unele nefericite
situaţii e posibil ca însuşi cel ce dezvoltă chestionarul şi proiectează cercetarea să nu fie pe
deplin conştient de teoriile ce stau la baza metodelor aplicate de el. Ei bine, chiar şi atunci
acestea influenţează cercetarea precum o pot influenţa şi prejudecăţile celor ce o proiectează.
Acestea sunt încă alte limite ale cunoaşterii pe care un bun interpret al calculelor statistice
trebuie sa le aibe în faţa ochilor. Nu este posibilă măsurare fără teorie şi ca atare teoria ce stă
la baza unei cercetări trebuie cît mai exact enunţată şi cît mai consecvent aplicată.

Să ne întoarcem deci la definiţia noastră: spuneam că statistica se ocupă cu interpretarea


rezultatelor unor măsurători. Am discutat puţin despre măsurători în sine, să vedem acum ce
înţelegem prin interpretări şi care anume sunt metodele de interpretare pe care le numim
statistice. Rezultatele de măsurare ne dau de obicei o multitudine de caracteristici, date
numerice sau nenumerice, ale unor obiecte, persoane sau fenomene. Acestea trebuie

8
prezentate într-un fel pentru a fi de vreun folos. Chiar şi o dată prezentate, de exemplu sub
forma unei liste cu greutatea a 1000 de cîini, ele cel mai adesea nu permit o utilizare, sau o
înţelegere a ansamblului problematicii. Ce vrea şi ce poate de fapt face statistica cu grămada
de date pe care le culege prin măsurători?

b. Cum cunoaşte statistica?

Există două probleme mari ale statisticii, descrierea unor date măsurate si extragerea din date
măsurate a unor concluzii ce se extind şi asupra altor date, care nu au fost măsurate din
motive ce ţin cel mai adesea de economie de timp şi bani. Prima dintre acestea este problema
statisticii descriptive, cea de a doua cea a statisticii inferenţiale.

Statisticile descriptive se multumesc să spună ceva despre obiectele, indivizii sau


fenomenele care au fost măsurate. Într-un fel şi statistica descriptivă generalizează, vrînd să
spună ceva despre obiecte pe care le cunoaşte doar prin rezultatele unor măsurători. Totuşi, de
obicei nu o considerăm ca fiind generalizatoare. Primii paşi în orice cercetare statistică sînt
descriptivi. Încercăm să prezentăm cît mai clar şi concis şi, pe cît posibil, fără a pierde din
acurateţe datele măsurate. Reprezentările grafice şi tabelare, precum şi valorile agregate pe
care le vom descrie în capitolul al patrulea al acestei cărţi sunt metodele cele mai obişnuite ale
statisticii descriptive. Ele nu prelucrează prea mult datele însă caută să ofere imagini mai uşor
inteligibile decît o listă lungă de valori. Imaginile grafice pot fi în acelaşi timp şi indicatori
buni pentru a recunoaşte trenduri, adică pentru a decide ce calcule se pot face în continuare,
cu ce statistici inferenţiale să se continue analiza datelor.

Valorile agregate calculate în contextul statisticilor descriptive au un grad de prelucrare puţin


mai avansat. De obicei se includ aici formule de calcul ce încearcă să găsească o tendinţa
centrală sau medie a datelor şi formule ce încearcă să sintetizeze în ce măsură datele sunt
dispersate în jurul acestei tendinţe centrale. Desigur nu întotdeuna aceste valori sunt
interesante şi nu întotdeauna merită calculate. Sînt însă cazuri în care ele ne dau o imagine
bună despre un fenomen. Să luăm calculul mediei, de exemplu. Media greutăţii unor cîini de
aceiaşi vîrstă, gen şi rasă poate reprezenta o bună bază de comparaţie între rase sau genuri sau
vîrste. Ne poate deci spune ceva atît timp cît este utilizată ceteris paribus. Conceptul de
ceteris paribus înseamnă, “păstrînd toate celelalte caracteristici egale” şi adesea nu este uşor

9
de pus în practică. Totuşi este esenţial atunci cînd vrem să efectuăm comparaţii şi să
determinăm legături dintre caracteristici, cum ar fi, de exemplu greutatea şi genul cîinilor.
Desigur media greutăţii tutoror cîinilor de la o expoziţie chinologică poate fi în ansamblu prea
puţin relevantă. Poate însemna totuşi ceva pentru cei care trebuie sa facă curăţenie a doua zi!
De aici, încă o concluzie importantă: de tema de cercetare depinde metoda cea mai adecvata şi
nu de repertoarul de metode. Nu stiu de unde provine zicala “daca singura scula pe care o ai
este un ciocan totul începe să semene a cui” dar în cazul statisticii sociale se confirmă din
păcate foarte des. Dacă tot ce ştii e să calculezi medii, o să calculezi medii indiferent ce temă
de cercetare şi ce date ai!

Cum şi cît de mult sunt distribuite datele în jurul tendinţei centrale este o altă temă esenţială în
statistica descriptivă. Aţi auzit cu toţii butada cu individul care stă cu un picior într-un lighean
cu apă rece ca gheaţa şi cu unul într-un lighean cu apă clocotită şi zice că în medie îi este bine.
Există multe feluri de a calcula cît de distribuite sunt datele. În exemplul dat probabil ar fi de
ajuns să calculăm diferenţa de temperatură dintre cele două lighene, în marea majoritate a
cazurilor avem însă de a face cu un fel de miriapod care are fiecare din mia lui de picioare în
ligheane cu ape de temperaturi diferite!

Statisticile inferenţiale sau inductive sunt tehnici complexe, bazate cel mai adesea pe teorii
matematice despre cum sunt datele şi au ca principal scop testarea unor ipoteze despre
populaţii de individizi sau obiecte. Inferenţa statistică este de fapt formarea unor păreri
justificate despre o întreagă populaţie bazîndu-ne pe măsurarea unei părţi a acesteia. Exemplul
care ne este cel mai familiar este cel al sondajului de opinie politic. Institute de sondare a
opiniei publice pun întrebări unui eşantion de vreo mie de persoane şi vor să ne convingă pe
noi, şi binenînţeles şi pe nişte clienţi plătitori de asemenea, cum că pot spune ceva despre
opinia a peste 21 de milioane de persoane. La baza acestui tupeu se află inferenţa statistică
adică posibilitatea de a generaliza statistic de la măsurarea unui eşantion la descrierea unei
întregi populaţii. Există teorii matematice care justifică aceasta. Şi dacă cercetarea e făcută cît
mai aproape de presupunerile acelor teorii atunci rezultatele pot fi foarte aproape de realitate.
Bineînţeles şi în acest caz pentru interpretarea lor trebuie sa ne punem cît mai clar întrebările:
ce am măsurat, pe cine am măsurat şi cu ce acurateţe.

Principiul fundamental al statisticii este conţinut într-o teoremă matematică numită adesea şi
“teorema fundamentală a statisticii”. Ea ne asigură de faptul că rezultatele măsurătorilor ce se

10
fac pe un eşantion se pot, în anumite condiţii generaliza la nivelul întregii populaţii. Vom
reveni în cel de-al treilea capitol al cărţii la această teoremă fără însă a face o prezentare a ei
pe placul matematicienilor. O înţelegere a consecinţelor acestei teoreme pentru întreaga
metodă statistică este însă necesară pentru a evalua la adevărata lor importanţă mai micile sau
mai marile devieri de la idealul matematic pe care le întîlnim vrînd nevrînd în cercetările
empirice. Înţelegerea fundamentelor matematice ale statisticii ne vor permite apoi să
înţelegem de ce este necesară o alegere foarte bine gîndită a persoanelor pe care le
intervievăm pe parcursul unui sondaj de opinie şi de asemenea de ce este necesară o
construcţie bună a chestionarului pe care dorim să-l aplicăm.

Testarea statistică înbogăţeşte cunoaşterea într-un mod foarte apropiat principiului respingerii
ipotezelor. Pe cît de scurtă este, această propoziţie necesită o explicaţie destul de detaliată. La
baza ei se află concepţia despre cunoaştere ştiinţifică a lui Karl Popper (). În logica
raţionalismului critic, cum şi-a numit Popper însuşi teoria, principiul cunoaşterii ştiinţifice s-
ar putea exprima simplu în felul următor: cunoaşterea umană nu se bazează pe certitudini şi
demostraţii ale unor adevăruri; ea nu progresează pe baza coroborărilor ipotezelor ci pe baza
contraexemplelor. Cunoaşterea ştiinţifică dezvoltă ipoteze. Acestea sînt acceptate dacă nu se
pot respinge. Dar ele nu sînt prin aceasta propriu-zis “adevărate”. Doar că ele încă nu au putut
fi respinse. Deci regula cunoaşterii nu este demonstraţia ci respingerea. Nu putem de obicei
ştii dacă ceva este adevărat, putem însă recunoaşte cu oarecare probabilitate dacă ceva este
fals.

O teorie este ştiinţifică în măsura în care se poate imagina un experiment practic ce are
puterea să o contrazică. Dacă acest experiment nu reuşeşte respingerea teoriei, aceasta este
pentru moment acceptată. Ea nu este “adevărată” ci acceptabilă conjunctural atît timp cît nu a
fost respinsă. Ştiinţa are deci ca şi scop construirea şi punerea în practică a unor experimente
care încearcă să respingă teorii, sau mai exact ipoteze. În statistică ca şi în teoria Popperiană a
raţionalismului critic, spre deosebire de multe domenii ale matematicii, prin termenul ipoteză
înţelegem o propoziţie care se supune analizei. În logica clasică o ipoteză este o propoziţie din
care decurge o concluzie. Acolo nu se studiază, de regulă, valoarea de adevăr a ipotezei, ci
felul cum decurge din ea o concluzie. În statistică însă, tocmai ipoteza este presupunerea
supusă testării.

11
O ipoteză o dată respinsă duce la o nouă interpretare a realităţii şi ca atare la noi ipoteze.
Există aici o asimetrie între verificarea şi respingerea teoriilor care este esenţială şi pentru
felul cum cunoaşte statistica. Statistica foloseşte principiul contraexemplului într-un sens
probabilist. Să explic. Statistica poate măsura o valoare, de exemplu media greutăţii cîinilor
de la o expoziţie chinologică şi o poate compara cu o valoare teoretică ipotetică, de exemplu o
ipotetică medie a greutăţii tuturor cîinilor din lume. Pe baza acestor valori, şi a unor foarte
importante presupuneri despre cum sunt în general distribuite datele şi cum au fost ele
măsurate practic, statistica poate calcula care este şansa ca ipoteza să fie corectă în lumina
datelor măsurate.

Statistica va pune deci întrebarea în felul următor. Fie următoarea ipoteză: media greutăţii
tuturor cîinilor din lume este de 50kg. Daca media greutăţii cîinilor din expoziţie este de 20kg
poate fi oare media greutăţii tuturor cîinilor din lume fi 50kg? Dacă această şansă este foarte,
foarte mică există un bun motiv de a respinge ipoteza. Vom spune atunci că, dacă cîinii din
expoziţie reprezintă un bun eşantion al cîinilor din întreaga lume, iar printre aceştia greutatea
este distribuita normal, ipoteza cum că media de greutate a cîinilor din întreaga lume este de
50kg este aproape sigur greşită. Statistica nu ne spune cît ar fi adevărata valoare a greutăţii
medii a cîinilor din lume, ne poate însă spune cît nu este şi prin consecinţă ne poate da o
imagine despre cam cît ar putea fi aceasta.

Deci statistica lucrează oarecum după principiul popperian. Nu poate demonstra, poate însă
respinge ipoteze. O bună cercetare statistică, ca şi o cercetare ştiinţifică în sensul lui Popper
este o cercetare care construieşte ipoteze ce pot fi respinse şi experimente care au puterea de a
respinge aceste ipoteze.

Orice cercetare statistică bine construită porneşte de la o serie de ipoteze mai mult sau mai
puţin explicite pe care le supune testării statistice. Evident, cel mai bine este atunci cînd aceste
ipoteze sunt explicite şi ştiinţifice, adică refutabile. Deorece însă, aşa cum am văzut deja, nu
este posibilă măsurare fără a accepta în prealabil anumite teorii, întotdeuna vor exista şi
presupoziţii teoretice care nu se supun testării. Acestea reprezintă cadrul teoretic al cercetării
şi tot ce putem face este să le conştientizăm şi să ni le asumăm căci ele determină ce şi cum
cunoaştem. Însăşi acceptarea metodei statistice ca şi cale de cunoaştere este o astfel de
premisă teoretică, nu neapărat acceptată de către toată lumea.

12
c. Cauzalitate şi statistica.

O mare parte din cercetarea statistică încearcă să pună în relaţie mai multe rezultate de
măsurare care reprezintă caracteristici diferite ale unor individizi, obiecte sau fenomene.
Astfel, ca să revenim la cîinii noştrii, un cercetător ingenios poate măsura greutatea şi genul
cîinilor şi conchide de exemplu, cum că, păstrîndu-ne în cadrul oricărei rase şi grupe de vîrstă,
pe măsură ce un cîine are greutate mai mare el are şanse mai mari de a fi mascul. Un astfel de
raţionament este statistic absolut corect şi ne arată cît se poate de clar faptul că conceptul de
cauzalitate este un concept teoretic şi nu unul statistic.

Una din greşelile de interpretare cel mai curent întîlnite în citirea datelor statistice este
presupunerea de cauzalitate. Foarte adesea ne este convenabil să citim rezultatul unui calcul
statistic ca o dovadă de cauzalitate. Aceasta este fals chiar din două motive. Pe de o parte, aşa
cum am spus-o mai sus, statistica nu dovedeşte nimic ci eventual nu respinge o ipoteză, iar
mai apoi, nici un model statistic nu poate conclude asupra vreunei cauzalităţi. Este însă cît se
poate de adevărat că există modele statistice ce presupun cauzalitate, cum sunt regresiile. În
acest caz cauzalitatea este inclusă în model, face parte din teoria ce a stat la baza construirii
modelului şi desigur, ca în orice formă de cunoaştere statistică, ea ar putea fi eventual
respinsă. Caz în care am avea un bun motiv să excludem o relaţie cauzală. Dacă însă nu putem
respinge cauzalitatea nu avem un motiv mult mai puternic de a o presupune decît am avut în
momentul în care teoria ne-a permis să o considerăm pentru a fi modelată.

Deci cauzalitatea este în teorie, în ipoteză şi nu în calcul. De aceea exemplul de interpretare


de mai înainte ni s-a părut imediat greşit. Face parte din simţul comun faptul că genul unui
cîine este neschimbat toată viaţa lui, pe cînd greutatea poate varia. De aici “teoria” noastră
despre cîini nu acceptă cauzalitatea dintre greutate şi gen ci pe cea inversă. Deci, ipoteza pe
care nu o putem respinge este: “cîinii masculi sunt mai grei” şi nu “cîinii mai grei sunt
masculi”. Din păcate nu este întotdeauna aşa simplu. Să luăm un exemplu clasic, relaţia dintre
nivelul de educaţie al unei naţiuni şi bunăstarea ei. Se ştie foarte bine că există o legătură
puternică între aceste două caracteristici aproape indiferent cum le-am măsura (de ex: procent
din populaţie cu studii superioare şi produs intern brut pe cap de locuitor), există însă teorii
convingătoare pentru ambele direcţii de cauzalitate şi testele statistice nu au reuşit să respingă
nici una dintre ele. Decizia asupra direcţiei de cauzalitate este deci un apanaj al teoriei.

13
Un alt caz interesant care apare în statistică uneori este cel al falsei cauzalităţi, sau într-o
formă atenuată, a falsei corelaţii. Variabile par a fi legate şi nu ar trebui să fie. Vreau să atrag
aici atenţie asupra necesarei precauţii în a defini o legătură ca fiind o falsă relaţie dintre
variabile. Eu pînă în momentul de faţă nu am întîlnit false relaţii ci doar relaţii cu explicaţii
teoretice complexe sau neimediate. Sunt aceste explicaţii corecte? Nu întotdeuna, dar nu pot fi
imediat respinse şi sunt ca atare mai fertile decît presupunerea unei false cauzalităţi.

Exemplul clasic este cel al foarte bunei corelaţii empirice dintre numărul de berze şi indicele
conjunctural al fertilităţii, calculat ca număr de copii născuţi unei femei pe parcursul vieţii
fertile, calculate pe regiune. Rezultatul, des verificat în practică ar putea fi o dovadă cum că
“berzele aduc copiii”. Cei ce au citit cuminţi pînă aici vor observa că nu este aşa. Pe de altă
parte s-ar putea să fie de acord cu faptul că, experimentul în cauză nu poate respinge o
legătură dintre numărul de berze şi natalitate. Să oferim însă o teorie alternativă. O teorie cît
se poate de acceptabilă chiar de către simţul comun spune că numărul de berze, dar şi numărul
de naşteri ale unei femei pe parcursul vieţii fertile este mai mare în zona rurală decît în cea
urbană. Gradul de urbanizare al regiunii studiate ar reprezenta deci o variabilă care le
influenţează pe amîndouă variabilele din studiul nostru. Şi mai mult, le influenţează în acelaşi
sens creind astfel o relaţie pozitivă între ele. Nu era deci vorba despre o cauzalitate directă,
dar nici despre o eroare. Pur şi simplu, relaţia cauzală trebuia explicată teoretic acceptabil.
Adică, testul statistic nu poate alege care din cele două teorii alternative, “barza aduce copiii”
respectiv “urbanizarea reduce numărul de berze şi numărul de naşteri a unei femei” este mai
bună. Adecvarea cu ansamblul de teorii şi ipoteze ale cercetării are însă această sarcină.

Închei aici, repetînd: testele statistice pot da indicaţii despre relaţii dintre variabile dar numai
teoria poate construi în termenii unor relaţii cauzale şi tot teoria trebuie să fie atentă la
posibilele determinări cauzale complexe, ce implică nu numai variabilele măsurate explicit ci
eventual şi altele, poate uneori chiar nemăsurabile.

d. Foarte scurt istoric al statisticii.

Probabil că au existat rapoarte “statistice” încă din vremurile imperiilor antice legate de
impozite şi preţuri, fapt este că termenul actual de statistică provine din latina nouă folosită în
administraţia germană şi italiană a secolului al 18-lea, şi mai exact din termenul statisticum
collegium, ce avea sensul de colegiu de stat, colegiu director. Mai mult, în Italia vremii,

14
statista chiar însemna om de stat, politician. Se pare că primul care a folosit cuvîntul statistică
a fost Gottfried Achenwall în 1749, şi anume în limba germană, sub forma de Statistik şi cu
sensul de analiză a datelor despre stat sau chiar de “ştiinţă despre stat”. Achenwall (1719-
1772) a fost unul din creatorii statisticii, pe parcursul carierei sale fiind atît universitar la
Marburg şi Göttingen, cît şi consilier de curte al principilor electori de Braunschweig-
Lüneburg.

Termenul de statistică a fost preluat în alte limbi şi, în fine generalizat, cu un sens apropiat
celui pe care îl dăm astăzi acestei metode, pe parcursul secolului al 19-lea.

Practica de a culege şi analiza date despre stat exista însă deja în Anglia şi era acolo numită
aritmetică politică. Termenul avea o vechime de cel puţin un secol cînd Achenwall a inventat
noul nume şi pare a i se fi datorat lui William Petty (1623 - 1687) fiind chiar titlul unei cărţi
ce i s-a publicat postum. William Petty nu a fost statistician în sensul metodelor pe care le
înţelegem astăzi ca fiind statistice. A fost însă statistician prin multe dintre temele ce l-au
interesat. Petty a fost şi politician, economist, inventator, antreprenor şi multe altele şi a
folosit tot felul de tehnici ingenioase, chiar dacă nu întotdeuna corecte, pentru a estima, de
exemplu, populaţia Londrei.

Pentru ca statistica să fie cea de acum a trebuit însă să se lege mai întîi de teoria
probabilităţilor. Acest domeniu al matematicii, iniţial legat mai mult de jocuri de noroc şi
divertismente matematice, îşi are originile tot în secolul al 17-lea, deşi primele scrieri despre
jocuri de noroc se găsesc într-o operă postumă a lui Girolamo Cardano (1501-1576), Liber de
ludo aleae. Cartea a fost însă publicată abia în 1663, în anii în care apăreau şi lucrările unor
Pierre de Fermat (1601-1665) sau Blaise Pascal (1623-1662). Aceştia din urmă sunt creditaţi
că au moşit de fapt teoria probabilităţilor prin corespondenţa pe care au purtat-o asupra
celebrei probleme a Cavalerului de Méré. Problema era: cum trebuie să împartă doi jucători
miza totală a unui joc de noroc dacă nu vor să joace pînă la capăt, dar vor ca această impărţire
să fie proporţională cu şansa fiecăruia de a cîştiga jocul. Pe Pascal se pare că la convins în aşa
măsură metoda probabilistă găsită încît a folosit-o şi pentru a argumenta existenţa lui
Dumnezeu, cu un succes mai de grabă incert.

Destul de repede s-a observat că, deşi un joc de noroc este determinat de situaţii aleatoare,
repetarea unui astfel de eveniment aleator poate duce la o anumite regularitate şi această

15
repetare este de fapt baza a ceea ce acum numim observaţie statistică. Ideea de observaţie
repetată apare deja în prima carte de teorie a probabilităţilor publicată de Christiaan Huygens
(1629-1695) în 1657. Ca ştiinţă matematică următorii paşi au fost făcuţi de doi celebri
matematicieni Jakob Bernoulli (1654-1705) tot într-o lucrare postumă, intitulată Ars
Conjectandi şi Abraham de Moivre (1667-1754) în Doctrines of Chance (publicată în
Anglia). Această din urmă carte pune şi bazele statisticii în sensul modern al ştiinţei. În a doua
ediţie a cărţii (1738) apare pentru prima oară o formă a distribuţiei normale de probabilitate
despre care vom vorbi pe larg şi în cartea de faţă, dar şi un caz particular al teoremei limită
centrală, o clasă de teoreme foarte importantă pentru statistică, pe care va trebui să o tratăm şi
noi măcar un pic pentru a înţelege diferite fenomene legate de erorile statistice.

Şi teoria erorilor de observaţie se găseşte deja în scrieri de la începutul secolului al 18-lea, şi


anume în cîteva note postume ale lui Roger Cotes (1682-1716), dar cel ce a legat probabil
statistica, cu sensul de observaţie asupra statului de teoria probabilităţilor a fost Pierre-Simon
Laplace (1749-1827).

Laplace a fost un om de ştiinţă deosebit de prolific, ceea ce ne interesează însă acum este
dezvoltarea de către el a unei aşa-zise teorii analitice a probabilităţilor. Într-o lucrare din 1812
Laplace descrie mai exact distribuţia normală, şi, pe lîngă multe altele, demonstrează şi o
formă a metodei celor mai mici pătrate, încă metoda noastră de preferinţă pentru calculul
ecuaţiilor de regresie, precum vom vedea în capitolul al şaselea.

Probabil celălalt mare creator al ştiinţei statisticii a fost Carl Friedrich Gauss (1777-1855).
Considerat uneori cel mai mare matematician al tuturor timpurilor, deşi mie personal nu îmi
este cunoscută înălţimea lui fizică şi nu cred că cea intelectuală se poate cu adevărat măsura,
Gauss a contribuit la aproape toate domeniile matematicii. Şi el a contribuit la descrierea
distribuţiei normale, de aici şi numele de curbă a lui Gauss ce se dă de obicei graficului
distribuţiei normale. Tot Gauss a clarificat şi ipotezele metodei celor mai mici pătrate. În acest
caz există însă o anumite dispută de primordialitate cu Adrien-Marie Legendre (1752-1833)
care a publicat aceleaşi rezultate, se pare independent de Gauss. Legendre le-a publicat de fapt
înaintea lui Gauss, acesta însă susţinea că le ştie de mult.

Deja pe parcursul primei părţi a secolului al 19-lea rezultatele ştiinţifice legate de metoda de
cercetare statistică s-au înmulţit considerabil. Multe metode au fost dezvoltate, principalele

16
tehnici puse la punct. Dezvoltarea mare a domeniului a venit însă spre sfîrşitul secolului al 19-
lea şi apoi în secolul al 20-lea o dată cu interesul crescut pentru studiul societăţii, apariţia
ştiinţelor economice moderne şi a sociologiei. Atunci apar marile şcoli statistice cărora le
datorăm arsenalul actual de metode. Pe de o parte este vorba despre şcoala engleză. Principalii
ei exponenţi au fost: Karl Pearson (1857-1936) care a contribuit esenţial la teoria corelaţiei şi
a regresiei şi a dezvoltat coeficientul de corelaţie r dar şi coeficientul Chi2, şi Ronald Fischer
(1890-1962) iniţiator de fapt al întregului domeniu al testelor non-parametrice, creator al
distribuţiei şi testului F şi a unei serii întregi de rezultate esenţiale pentru statistica de astăzi,
dar şi Charles Spearman (1863-1945) care a dezvoltat principalele metode de analiză
factorială dar şi coeficientul de corelaţie ρ (rho) pentru valori ordinale, numit şi coeficient
Spearman, William Sealey Gosset (1876-1937) cunoscut sub pseudonimul Student, care a
dezvoltat metode de verificare a ipotezelor, distribuţia Student şi testul t, şi alţii.

Dacă şcoala engleză de statistică a fost la originea multora dintre metodele statisticii aplicate,
la celălalt capăt al continentului, în Rusia, au apărut lucrări esenţiale pentru justificarea
ştiinţifică, matematică a calculului statistic. Principalele teoreme ce stau la baza statisticii au
fost demonstrate de matematicienii ruşi Pafnuty Chebyshev (1821-1894) cu inegalitatea ce îi
poartă numele şi ca o consecinţă a acesteia, teorema slabă a numerelor mari, Andrey Markov
(1856-1922) creatorul lanţurilor Markov şi în general unul dintre creatorii teoriei proceselor
stochastice, Aleksandr Lyapunov (1857-1918) care a demonstrat o formă generală a teoremei
limită centrală, Andrey Kolmogorov (1903-1987) unul din principalii contribuitori la
demonstrarea teoremei tari a numerelor mari şi autorul unui criteriu suficient ce îi poartă
numele, şi alţii.

Dezvoltarea statisticii a continuat pe parcursul secolului trecut şi ca ştiinţă. Mai impresionant


poate însă, statistica a pătruns în conştiinţa publică o dată cu utilizarea ei pe scară largă în
cercetările sociale şi cvasi-generalizarea sondajului de opinie ca metodă de culegere de
informaţii despre societate, ca metodă de măsurare a societăţii. Primul sondaj de opinie a fost
efectuat în Statele Unite de revista Literary Digest în 1916 pentru a prevede rezultatul
alegerilor prezidenţiale. Fără vreo bază teoretică statistică, revista a cerut cititorilor să
returneze redacţiei o carte postală - chestionar. Pentru patru alegeri prezidenţiale la rînd,
metoda a dat rezultate corecte.

17
Un pas important spre fundamentarea ştiinţifică a sondajului de opinie l-a făcut George H.
Gallup (1901-1984) care în teza lui de doctorat din 1928 a dezvoltat metoda ce stă la baza
sondajului de opinie statistic. Primul mare succes al lui Gallup a fost în 1936 cînd a reuşit să
prevadă corect victoria lui F.D. Roosevelt în alegerile prezidenţiale, spre deosebire de Digest
care a greşit folosind un eşantion incomparabil mai mare. Celebru atît pentru încrederea mare
pe care a produs-o de la început cît şi pentru cîteva eşecuri memorabile, lui Gallup trebuie să-i
recunoaştem meritul de a fi creatorul instituţiei sondajului de opinie statistic.

18
Capitolul 2. Tipuri de date

Voi prezenta aici principalele tipuri de date, sau nivele de măsurare, cum se mai numeşte
această clasificare. Deşi criticată pentru diverse motive aceasta împărţire a datelor permite o
înţelegere simplă a felului cum se apropie statistica de fenomene.

În 1946, psihologul american Stanley Smith Stevens a propus într-un articol mult citat, lăudat
şi criticat apoi, o teorie a nivelelor de măsurare care avea să fie apoi repetată în aproape toate
manualele introductive de statistică (Stevens, 1946). Nu am vrut să mă abat de la regulă.
Prima dată să vedem totuşi la ce bun şi cum adică?

Este absolut evident că măsuratorile pe care se bazează statistica nu sunt toate la fel. Din
exemplele mai mult întîmplătoare din capitolul capitolul precedent (greutatea şi genul unui
animal, opinia despre un politician) este evident că aparate diferite de măsură dau rezultate
care fac parte din categorii cît de poate de diferite de cunoaştere. Dacă greutatea se exprimă în
valori numerice cu care se pot face calcule aritmetice, genul e un fel de etichetă, nu nume dat
unei categorii, iar opinia despre politician poate fi exprimată în mai lungi sau mai scurte
propoziţii, eventual chiar în grade de genul, mai bună – mai puţin bună dar nu în valori
numerice concrete. Deci, Stevens a intuit cît se poate de corect, e necesară o clarificare şi o
categorisire a acestor “nivele de măsurare”. Tehnic o astfel de categorisire ajută la a stabili ce
metode anume se potrivesc a fi folosite cu ce fel de variabile. Poate părea inutil, dar un
exemplu sper să ajute aici. Am vorbit despre opiniile despre politicieni. Destul de des acestea
sunt exprimate în note. Fie întrebarea de chestionar chiar cere notarea, ca la şcoala, a
activităţii unui politician, sau a unui guvern sau minister în întregul lui, fie răspunsurile sînt
transformate în note de către cercetător într-o activitate pe care o numim de regula codare a
răspunsurilor. Răspunsurile la întrebările de opinie în final ajung să nu se distingă de
rezultatele, eventual rotunjite, ale cîntăririi unui cîine. Şi totuşi diferenţele acestea sunt
esenţiale şi nu trebuie uitate1.

Prezentarea nivelelor de măsurare în cărţile introductive de statistică mai are un avantaj.


Permite o exemplificare structurată a datelor cu care lucrează statistica şi o prezentare
coerentă a principalelor proprietăţi ce sunt necesare pentru a putea lucra cu ele.

1
Confuzia dintre date de aceste tipuri e pe larg analizată în foarte reuşita carte a lui Darrel Huff “How to Lie
with Statistics” (1954) care a apărut între timp în peste 30 de ediţii.

19
a. Date nominale

Datele nominale, numite uneori şi categoriale, sunt nume date unor proprietăţi ale obiectelor,
indivizilor sau fenomenelor studiate care nu pot fi reprezentate prin cantităţi şi nici nu au o
ordine implicită. Din exemplele de pînă acum, genul este o dată nominală. Indiferent cît de
complexă cultural, biologic, comportamental şi aşa mai departe ar fi categorisirea pe genuri,
dezvoltarea caracteristicilor de gen sau alte probleme despre care sunt alţii chemaţi să scrie, ca
tip de dată genul nu e altceva decît un cuvînt desemnînd o categorie. Nu putem face nici
socoteli aritmetice cu genuri, nici comparaţii. Masculin nu e mai mare decît feminim, şi nici
sume sau medii nu putem face. Chiar daca am codifica la o adică genurile, la modul feminin =
2 şi masculin = 1, ca la codurile numerice personale din Romania, o declaraţie de forma:
genul mediu ar participanţilor la sondaj a fost 1,56 este ilară.

Totuşi şi datele nominale trebuie sa se supună unor reguli, e drept puţine şi simple, pentru a
putea fi folosite ca date statistice. Acestea sunt:

• Excluderea mutuală: Categoriile unei date nominale trebuie să se excludă reciproc.


Un cîine măsurat de noi nu poate fi în acelaşi timp şi mascul şi femelă, un cetăţean
interogat într-un sondaj de opinie nu poate fi în acelaşi timp şi căsătorit şi
necăsătorit.
• Completitudinea: Orice individ măsurat în cadrul cercetării trebuie să găsească o
categorie ce i se potriveşte în lista de valori posibile. Eventual se include varianta
“altceva”, “altfel” dar lista de valori trebuie să poate acomoda orice situaţie.

Condiţiile de mai sus nu sunt întotdeuna uşor de pus în practică. Deşi cred că par a fi de bun
simţ, sunt situaţii în care întrebările şi listele de răspunsuri trebuie formulate cu grijă pentru a
nu întîmpina probleme în analiza ulterioară a datelor. De multe ori cercetătorii chiar preferă să
pună întrebările astfel încît să pară cît mai naturale celor ce trebuie să răspundă la ele şi să
codifice apoi ei înşişi datele în aşa fel încît să corespundă cerinţelor prelucrării statistice.

Exemple tipice de date nominale sunt genul, starea civilă, naţionalitatea, apartenenţa
religioasă. Toate acestea au în comun faptul că pe lîngă caracterul lor nenumeric nu au nici o

20
ordine acceptată a valorilor. Asta chiar dacă unii pot fi de părere că “românii sunt mai
superiori decît bulgarii”!

Cu toate că datele nominale pot părea sărace din punctul de vedere al posibilităţilor
calculatorii ele sunt importante în multe fenomene sociale, economice, etc. şi au fost
dezvoltate multe metode statistice care să permită analiza lor sau, mai adesea, să permită
analiza altor date în relaţia lor cu categorii nominale. Voi discuta pe larg astfel de metode în
special în capitolul al şaptelea al cărţii.

b. Date ordinale

O a doua grupă de date sunt cele care, deşi nu sunt numerice, au o ordine bine definită a
valorilor. Sensul de “bine definit” al unei ordini nu este nicidecum trivial. Matematicienii
înţeleg printr-o ordine bine definită o ordine care poate fi recunoscută pentru orice două
valori şi mai mult, este şi tranzitivă.

Pentru simplificare voi folosi expresia “mai mare” pentru a descrie ordinea. Atunci o ordine
este bine definită dacă între oricare dintre valorile de răspuns este clar care este “mai mare”.
Tranzitivitatea înseamnă că daca o valoare este “mai mare” decît alta, iar aceasta “mai mare”
decît o a treia, prima valoare va fi în consecinţă “mai mare” decît cea de a treia.

În plus faţă de condiţia de ordine, datele ordinale trebuie să se supună şi condiţiilor pe care le-
am specificat în cazul datelor nominale, să permită deci numai valori mutual exclusive şi lista
acestor valori să fie completă.

Diferenţa esenţială dintre datele ordinale şi valorile numerice este aceea că nu are sens
calculul distanţei dintre două valori, respectiv distanţele dintre valori consecutive nu se pot
presupune a fi egale. Un exemplu va face mai clară această distincţie. O întrebare tipică
pentru un răspuns ordinal este cea legată de încrederea într-un politician. Să presupunem că
răspunsurile posibile sunt: “foarte puţină”, “puţină”, “nici puţină, nici multă”, “multă”, “foarte
multă”. Se vede imediat că lista de valori este ordonată bine, între orice două valori ordinea e
evidentă şi tot evidentă este şi proprietatea de tranzitivitate. Tot atît de clar este că fiecare
intervievat va trebui sa decidă de fapt care e opinia lui, foarte probabil fiind că pînă în
momentul interogării el să nu-şi fi pus problema încrederii în termenii întrebării. Această

21
nevoie de a decide îî diferenţiază pe cei chestionaţi de cei ce nu sunt chestionaţi şi pune
probleme în generalizarea rezultatelor la nivelul populaţiei adică şi asupra celor ce nu au fost
de fapt chestionaţi şi nu au trebuit să se decidă în contact cu întrebarea pusă în forma dată. Un
mod de a conştientiza aceasta este de a nu conferi valorilor de răspuns un sens absolut
matematic, ci de a le considera interpretări personale ale celor ce au răspuns. Asta înseamnă
că pentru doi intervievaţi diferiţi sensul unei valori de răspuns poate fi oarecum diferit, de
exemplu, pragul de la “foarte puţină” la “puţină” încredere să fie diferit, distanţa dintre două
categorii să fie diferită. Intervievatul care alege un răspuns nu face altceva decît să îşi
poziţioneze opinia într-o ordine şi numai caracterul de ordine al valorilor de răspuns poate fi
presupus în analiză. În ansamblu nu se poate deci presupune că există distanţe între valori
într-un sens matematic. Deşi se face des, traducerea valorilor de răspuns în cifre, de exemplu
de la 1 la 5 în cazul nostru, este riscantă şi duce la greşeli importante. Calculul unor medii
aritmetice a răspunsurilor este una din greşelile cele mai uzuale pe care le fac cercetătorii în
ştiinţe sociale, de multe ori chiar conştienţi de abuzul implicat. Scuza uzuală pentru această
greşeală este aceea că însumînd opinii ale unui număr mare de persoane, distanţele dintre
variantele de răspuns, într-adevăr diferite de la o persoană la alta, se însumează şi dau o medie
statistică egală. Din păcate însă nu este aşa. Există devieri sistematice de la această distanţă
presupusă egală între variantele de răspuns. Şi anume, valorile extreme, de tipul “foarte puţină
încredere” sau “foarte multă încredere” sînt adesea mai “îndepărtate” de valorile proxime
“puţină încredere”, respectiv “multă încredere” decît sînt acestea de valoarea mediană, neutră.
Mai grav încă, în cazul în care o anumită întrebare este receptată ca fiind legată de o presiune
socială, distanţele din scală se defazează în sensul acestei presiuni.

Ca şi în exemplul anterior, majoritatea întrebărilor care produc răspunsuri ordinale se bazează


pe aşa zise scalograme, adică liste standardizate de răspunsuri. Cele mai obişuite, mai des
folosite, sunt scalele Likert, dezvoltate deja în 1932. Scala Likert este o scală a nivelului de
acord cu o propoziţie. Un exemplu simplu ar fi următorul:

Sunteţi de acord cu faptul că Traian Băsescu este un politician dedicat binelui ţării noastre?
a. Nu sunt deloc de acord
c. Nu sunt de acord
d. Nici de acord, nici nu
e. Sunt de acord
f. Sunt absolut de acord.

22
Formulările pot diferi, de regulă însă este vorba despre o scală ordinală cu un număr impar de
valori. Cel mai adesea sunt 5 valori, unii cercetători din domeniul psihologiei în special,
preferă totuşi scale cu 7 valori. Valoarea mediană, adică cea din mijlocul scalei este
întotdeuna o valoare neutră. Acordul sau dezacordul sunt exprimate verbal în forme cît mai
clare şi simple de grade diferite de radicalitate. Uneori se alege conştient eliminarea valorii
mediane. În acest caz se vorbeşte de o scală Likert cu opţiune forţată. Intervievaţii sunt atunci
obligaţi să adopte o poziţie chiar daca ar prefera neutralitatea.

Un alt tip important de scalograme, sunt cele de tip Guttman sau cumulative, dezvoltate iniţial
de sociologul şi psihologul Louis Guttman într-un articol din 1944. Guttman pune cîteva
condiţii simple pentru ceea ce este o scală Guttman perfectă, şi anume:

• O scală Guttman este o listă ordonată de propoziţii cu care intervievatul poate fi de


acord sau nu.
• Să presupunem că avem 10 astfel de întrebări. Dacă intervievatul este de acord cu
propoziţia 7, dar nu şi cu propoziţia 8, logica scalei presupune că el este de acord cu
toate propoziţiile 1-7 şi nu cu propoziţiile 8-10. În aceste condiţii “scorul” lui va fi 7.

Modelul lui Guttman este desigur ideal prin caracterul lui determinist. O variantă mai
permisivă şi mai apropiată de realitate este modelul lui Rasch care presupune o scală de tip
Guttman probabilistă, adică în care relaţiile dintre răspunsuri au un caracter probabilist.

Un exemplu celebru de scală de tip Guttman este des folosit în analiza relaţiilor dintre grupuri
etnice, religioase, naţionale, etc. Aceasta este scala Bogardus (după sociologul american care
a dezvoltat-o), numită şi scală a distanţei sociale, care se bazează pe o lista de întrebări de
următoarea formă:

Aţi fi de acord ca un .......... (aici se completează categoria faţă de care se estimează distanţa
socială, de exemplu “maghiar”, “rrom”, “baptist”, “homosexual”):
• Să vă devină rudă prin alianţă (răspunsul “da” – valoare 1).
• Să vă fie prieten apropiat (2)
• Să locuiască pe aceiaşi strada (3)
• Să vă fie coleg de servici (4)

23
• Să fie cetăţean al ţării noastre (5)
• Să fie doar turist în ţara noastră (6)
• Să fie expulzat din ţara noastră (7)

Valori ordinale se pot însă obţine şi în alte situaţii. De fapt cazul cel mai cunoscut de valoare
ordinală este cel al notelor şi calificativelor date elevilor şi studenţilor. Şi este şi cel mai
cunoscut abuz de utilizare a unor valori ordinale. Deşi probabil o mare parte a profesorilor ar
fi de acord, cel puţin eu aş fi, că “distanţa” dintre un 4 şi un 5 nu este aceiaşi cu distanţa dintre
un 7 şi un 8, sau dintre un 9 şi un 10, medii aritmetice ale notelor se calculează în mod uzual
şi se mai şi folosesc pentru a lua decizii importante pentru viaţa celor notaţi. Problema
utilizării mediei aritmetice pentru date ordinale este însă o problemă care a produs multe
controverse. După părerea mea principalul motiv este prezenţa atît de răspîndită a datelor
ordinale, probabil cele mai des întîlnite în cercetările sociale, şi frustrarea de a renunţa la o
formă de prezentare atît de simplă de calculat şi înţeles cum este media aritmetică. Trebuie
însă menţionat că există o serie întreagă de metode puternice care lucrează cu date ordinale şi
nu fac presupuneri suplimentare despre distanţele dintre valori.

Alte exemple de date ordinale sînt: nivelul de educaţie (dacă formularea răspunsurilor este
bine ordonată), respectiv topurile de preferinţe (nu şi cele de vînzări, la care se poate calcula o
diferenţă între poziţii clar exprimată în unităţi vîndute).

c. Date intervalice

Ultimele două categorii ale clasificării lui Stevens se referă la date numerice şi diferenţierea
pe care a impus-o între datele intervalice şi cele raţionale este şi una dintre cele mai
controversate ale teoriei nivelelor de măsurare. Cu toate acestea, să vedem despre ce e vorba.

În definiţia iniţială, datele intervalice sunt date numerice care au punct zero convenţional. Mai
simplu spus, zero-ul intervalic nu înseamnă o “lipsă” a caracteristicii ci este o valoare ca
oricare alta. Un cîine care are greutatea zero nu este un cîine, cel puţin după părerea mea. Ca
atare greutatea nu este o valoare intervalică. Dacă însă cineva s-a născut la ora zero, nu
înseamnă că nu s-a născut de loc. Ora zero este convenţională şi nu înseamnă absenţa
indicaţiei de timp. Deci datele calendaristice, sau de oră sunt date intervalice. Ele evident sunt
altfel decît celelalte date numerice de măsurare.

24
Datele intervalice au toate caracteristicile datelor ordinale, sunt mutual exclusive, complete şi
bine ordonate. Chiar şi caracterul convenţional al notării numerice este prezent. Diferenţa este
însă distanţa calculabilă între două valori intervalice. Între două momente în timp se poate
calcula o distanţă, fie ea în minute, secunde sau alte unităţi de măsură şi o distanţă de o
anumită mărime, de exemplu 5 minute, este aceiaşi indiferent pentru ce valori de timp a fost
calculată. Păstrînd toate celelalte condiţii egale, dacă un ou fierbe în 5 minute la ora 14, el va
ajunge la fel de tare după 5 minute de fierbere şi la ora 7. Atenţie însă, chiar dacă momentele
“ora 14” şi “ora 7” sînt indicaţii intervalice, nu astfel este şi durata de “5 minute”. Aceasta
este o dată numerică raţională, cum vom vedea că se numesc acestea. Adică, un ou care fierbe
zero minute chiar nu fierbe de loc!

Alte date intervalice sunt gradul de longitudine şi latitudine geografic, fusul orar, temperatura
precum şi alte date convenţionale.

Deoarece datele intervalice au distanţe corect calculabile între ele, pot fi folosite în aproape
orice calcule matematice. Problematică rămîne utilizarea lor în împărţiri şi înmulţiri, deorece
ele nu au sensul de cantitate pe care il acordăm de obicei datelor numerice. Astfel un cîine de
40kg cîntăreşte într-adevăr cît doi cîini de cîte 20kg. Pe de altă parte, ora 14 nu este cît două
ore 7 din nici un punct de vedere. De asemenea, de 4 ori cate o halbă de bere sunt 2 litri de
bere, însă de patru ori deşteptarea la ora 3 dimineaţa nu face cît o trezire la ora 12.

d. Date raţionale

Din prezentarea de pînă acum nu am avut cum exclude referiri la datele raţionale. Acestea
sunt datele numerice, cantitative, obişnuite. Ele apar des în cercetarea socială sau economică,
şi cu atît mai mult în ecologie sau medicină şi sunt cele pentru care s-au dezvoltat cele mai
multe dintre tehnicile şi testele statistice. Absolut orice calcule matematice se pot face cu
aceste valori.

Greutatea cîinilor, banii din portofel, valoarea produsului intern brut, numărul de locuitori ai
unui oraş sau de restanţe al unui student sunt toate valori raţionale. Ele sunt rezultate ale unor
măsurători cantitative, sau adesea al unor numărători. Valoarea zero nu este o convenţie, un
student cu zero restanţe este chiar un student cu o vacanţă lungă şi relaxantă.

25
De obicei caracterul discret sau continuu al valorilor unor date raţionale nu se tematizează la
nivelul statisticii aplicate introductive. Deşi unele metode presupun date continue, cum este
cazul metodelor de regresie, se face cel mai adesea abstracţie de la această presupoziţie.
Există rezultate matematice suficient de bine fundamentate care permit o atare abordare fără
pericolul de a greşi semnificativ. Şi apoi continuitatea datelor nu înseamnă statistic mai mult
decît că valoarea măsurată poate fi oricît şi nu numai anumite valori, de exemplu numere
întregi. O asemenea condiţie nu este de fel restrictivă.

26
Capitolul 3. Culegerea datelor statistice. Sondajul de opinie

Datele statistice pot proveni din surse oficiale, cum sunt institutele naţionale de statistică sau
organizaţiile internaţionale, şi atunci se referă de obicei la un ansamblu complet de obiecte,
indivizi sau fenomene sau pot proveni din aşa-zise sondaje statistice. În primul caz, deşi
culegerea datelor este de obicei laborioasă, ştiinţific justificarea utilizării lor nu pune
probleme deosebite pentru statistician. Pe de altă parte, tehnica sondajului este una mult mai
pretenţioasă şi matematic mai complicată. Cu atît mai mult cu cît unii care fac sondaje şi
majoritatea celor ce le citesc uită de principalele probleme implicate în validitatea lor.

1. Statistici de recensămînt si statistici de sondaj. Generalizarea statistică şi limitele ei.

Cum am mai scris şi mai sus, metoda specifică de culegere a datelor în statistică este sondajul.
Acesta se bazează pe o serie de teoreme matematice care permit, în condiţii foarte bine
specificate, care în realitate nu sînt niciodată perfect îndeplinite, generalizarea rezultatelor de
la nivelul eşantionului, adică a mulţimii celor chestionaţi la nivelul populaţiei, adică a
mulţimii care reprezintă ţinta cercetării.

Prima definiţie necesară pentru a continua este cea a populaţiei. În orice cercetare statistică
populaţia este ansamblul tuturor indivizilor (sau a obiectelor) care sunt subiecte ale cercetării,
asupra cărora se referă ipotezele şi teoriile ei. Dacă de exemplu, vrem să facem o cercetare
legată de consumul de apă minerală în România, populaţia studiului va fi întreaga populaţie a
ţării, de vrea 21 de milioane, cîtă e ea. Dacă însă cercetarea are caracter politic, probabil aş
dori să restrîng populaţia la persoanele cu drept de vot, electoratul român, adică numai vreo
17,5 milioane. De la caz la caz, populaţia unei cercetări poate fi mulţimea locuitorilor unui
oraş, mulţimea jucătorilor de fotbal sau a studenţilor unei facultăţi, dar există şi cercetări cu
alte nivele de agregare la care populaţia poate fi mulţimea intreprinderilor mici şi mijlocii
dintr-o regiune, mulţimea judeţelor Romaniei sau chiar a ţărilor europene. Stabilirea
populaţiei cercetate este un prim pas în orice studiu statistic. Este de fapt răspunsul la
întrebarea: despre cine am dori să putem spune ceva? Şi de aici decurge alegerea celor care
vor fi măsuraţi (adică vor răspunde la întrebări) dar şi felul cum se fac măsuratorile (adică se
pun întrebările) şi interpretarea rezultatelor. Alegerea populaţiei este o decizie ce ţine de
substratul teoretic al studiului dar în acelaşi timp determină teoriile ce vor fi folosite în
continuare pe parcursul proiectării cercetării.

27
Nu toate cercetările statistice sunt bazate pe date culese prin sondaj. O mare parte dintre
metodele folosite atît pentru descrierea datelor cît şi pentru testarea unor teorii se aplică, cu la
fel de mult succes, şi pe alte tipuri de date. Este vorba despre ceea ce numim date de
recensămînt. Suntem obişnuiţi cu acest termen ca desemnînd o chestionare periodică, dar
totuşi rară, a întregii populaţii a ţării pe teme legate mai mult de statutul social-economic.
Conceptul are însă o definiţie ceva mai largă. Un recensămînt este o cercetare care presupune
intervievarea (sau mai general, măsurarea) tuturor membrilor populaţiei studiate. Deci tehnic
un studiu care tratează statele europene folosind date culese din toate aceste state este un
recensămînt la fel cum tot recensămînt este un studiu care intervievează toţi studenţii unei
anumite facultăţi atît timp cît rezultatele nu se doresc a fi generalizate pentru alte grupuri de
studenţi. Deşi în cazul recensămîntului inducţia statistică nu are rolul pe care i l-am pomenit
în introducere, există aşa cum am mai spus şi aici un anumit nivel de generalizare. Anume,
prin faptul că folosim modele mai mult sau mai puţin simple pentru indivizii studiaţi şi
încercăm totuşi să tragem concluzii despre comportamentul lor sau despre opiniile lor.

Tot ce am putea ştii, de exemplu, despre studenţii facultăţii de ştiinţe politice din Timişoara
sunt răspunsurile pe care aceştia le dau la un chestionar. Am putea totuşi să încercăm să
verificăm dacă pentru aceştia se poate susţine faptul că cei ce lucrează în perioada studenţiei
sunt mai puţin interesaţi de problemele legate de organizarea academică. Este posibilă o astfel
de cercetare? Desigur. Este sigur că se poate răspunde la întrebare? Evident, nu. Întrebarea
este o ipoteză de lucru, s-ar putea să poată fi respinsă, s-ar putea însă să nu se poată face acest
lucru. Indiferent însă de aceasta, rezultatele se vor referi numai la studenţii chestionaţi şi nu se
vor putea generaliza, după regulile statisticii cel puţin, la alţi studenţi, din alte facultăţi sau
alte oraşe.

În unele cazuri, probabil pentru a evita confuzia curentă cu recensămintele naţionale


menţionate, statisticile de acest tip se mai numesc statistici de lot. Prin lot înţelegîndu-se de
fapt populaţia care este în acelaşi timp şi “eşantion” al cercetării.

În general un eşantion este mulţimea aleasă prin vreo metodă oarecare, a celor ce vor fi
chestionaţi (sau măsuraţi) în cadrul unei cercetări. Dacă de exemplu, la o fabrică de ciorapi
trebuie făcut un studiu statistic al egalităţii lungimii ciorapului stîng cu ciorapul drept,
probabil că s-ar decide că este suficientă măsurarea unui eşantion şi nu al întregii populaţii

28
ciorăpeşti. S-ar putea alege, şi ar fi chiar cea mai bună metodă, de pe banda de producţie tot a
o mia pereche de ciorapi pînă cînd se ajunge la un număr dorit, de exemplu tot o mie de
perechi. Perechile de ciorapi măsuraţi vor forma eşantionul, producţia ce are loc în perioada în
care se aleg perechile de ciorapi e populaţia cercetată. Există multe metode de a alege un
eşantion, unele mai bune, altele mai puţin, unele mai simple, altele mai puţin. Vom reveni la
acestea în partea a două a acestui capitol.

Pentru moment să încerc să explic de ce putem face asta. De ce e suficient să măsurăm o mie
de ciorapi ca să spunem ceva despre cîteva sute de mii, sau de ce un institut de sondare a
opiniei publice e suficient să întrebe nu mult mai mult de o mie de oameni pentru a prevedea
suficient de bine rezultatul unor alegeri prezidenţiale? Explicaţia stă în cîteva teoreme
matematice. Ele sînt în general cunoscute ca fiind “legile numerelor mari”, “teorema
fundamentală a statisticii” şi “teorema limită centrală”. Nu cred că aş fi de prea mare folos
cititorilor acestei cărţi dacă le-aş enunţa matematic corect. Voi încerca deci numai să le
povestesc.

Legile numerelor mari sînt o serie întregă de teoreme, probabil prima fiind enunţată de
Bernoulli în 1713. Toate aceste teoreme spun lucruri asemănătoare. Ele de fapt vorbesc despre
repetarea unor experimente, de exemplu aruncarea unui zar. Esenţial este ca repetarea această
să se facă în aşa fel încît fiecare aruncare de zar (sau ce experiment ar fi) să fie independentă
de celelalte. Dacă e aşa şi notăm rezultatele, pe măsură ce numărul de experimente creşte felul
cum se distribuie rezultatele observate se apropie din ce în ce mai mult de felul cum sunt
distribuie toate rezultatele posibile. În cazul unui zar bine echilibrat, pe măsură ce repetăm
aruncarea cu zarul ne apropiem din ce în ce mai mult de o distribuţie în care fiecare faţetă
apare de un număr egal de ori. Traducerea în statistică e simplă. Fie o informaţie oarecare de
interes pentru cercetarea noastră, o dată statistică cum i-am spus pînă acum, sau o variabilă
cum i se mai spune. Ea este cumva distribuită în populaţie (de exemplu genul e distribuit cam
jumătate – jumătate, perechile de ciorapi inegali sunt cam 5% din producţie, etc.). Ei bine
legile numerelor mari ne asigură de faptul că dacă alegem să chestionăm (măsurăm) un număr
de indivizi (perechi de ciorapi) atunci atît timp cît alegerea unui individ este independentă de
celelalte alegeri, pe măsură ce numărul celor aleşi creşte, distribuţia rezultatelor de măsurare
se aproprie de distribuţia valorilor în întreaga populaţie. Simplu spus asta înseamnă că un
eşantion mai mare e mai bun decît unul mai mic. Dar mai spune două lucruri esenţiale. O
dată, faptul că adăugînd la eşantion în mod corect nu ne îndepărtăm de la distribuţia pe care

29
dorim să o aflăm ci ne tot apropiem de ea şi în al doilea rînd, mai important, ne spune cum
trebuie să alegem eşantionul. Anume astfel încît fiecare alegere să fie independentă. Din
păcate, aşa cum vom vedea asta nu este chiar aşa uşor în statistică ca la aruncarea cu zaruri.

O formă a legii numerelor mari, cunoscută şi ca teorema Glivenko-Cantelli a fost adesea


numită teorema fundamentală a statisticii. Ea ne asigură incă mai bine de apropierea aceasta a
distribuţiei valorilor observate de cele existente în populaţie, apropiere ce în matematică se
numeşte convergenţă. Teorema Glivenko-Cantelli ne spune că această convergenţă este
uniformă pe măsură ce creşte volumul eşantionului. Bun, deci, din cele de pînă acum ştim că
măsurînd un eşantion din ce în ce mai mare ne apropiem din ce în ce mai mult şi uniform de
felul cum variabilele ce ne interesează sunt distribuite în populaţie, atîta timp cît fiecare
element din eşantion l-am ales independent de celelalte (vom spune în general că eşantionul e
ales aleator, la nimereală). Pare de bun simţ, cred. Întrebarea mare ce se pune acum este, cît
de mare trebuie să fie eşantionul astfel încît apropierea să fie suficient de bună? Altfel,
desigur, dacă pentru o populaţie de 21 de milioane, distribuţia din eşantion se apropie de
distribuţia din populaţie pe măsură ce se adună milioanele de chestionare nu am rezolvat prea
mare lucru.

Aici intervine teorema limită centrală. Şi ea face parte dintr-un grup de teoreme numită în
general teoreme limită centrală. Pentru a deosebi teorema cea mai importantă dintre acestea, o
teorema enunţată şi demonstrată de Lyapunov la începutul secolului 20, ea se scrie adesea cu
litere mari (Teorema Limită Centrală!). Ea ne spune că în anumite condiţii, importante pentru
matematicieni, o sumă de variabile aleatoare necunoscute, dar independente tinde la o
distribuţie normală cînd numărul acestor variabile tinde la infinit. Condiţiile pomenite nu sunt
de fapt foarte restrictive, ele spun că variabilele însumate trebuie chiar să fie “oricum”, “la
nimereala” şi faptul că trebuie să aibă aceiaşi medie şi dispersie. Aceasta, a doua condiţie nu
este de fapt chiar atît de restrictivă, deşi poate părea. De fapt ea nu este restrictivă pentru că
orice variabilă aleatoare poate fi “împinsă” spre stînga sau dreapta graficului ei prin simpla
adunare sau scădere a unei valori numerice. Nu se schimbă cu nimic caracteristicile variabilei,
pur şi simplu graficul se împinge încoace sau încolo. Deci orice variabilă poate fi adusă la
aceiaşi valoare medie fără a schimba mare lucru. Cu dispersia e ceva mai complicat, dar nu
mult, aşa că nu o mai comentăm aici. Bun, deci, le insumăm şi iese ceva numit distribuţie
normală, o distribuţie despre care vom mai vorbi. Precum vedem ea este foarte importantă în
statistică. Nu e foarte simplă matematic, dar pentru majoritatea utilizatorilor de statistică e

30
suficient să cunoască cîteva din principalele ei proprietăti. Şi pe moment cel mai important
este că e cunoscută. E foarte important. Să reluăm de fapt ideea. Avem un număr de tot felul
de variabile despre care nu ştim mai nimic şi dacă le adunăm toate iese ceva cunoscut. Asta e
foarte confortabil pentru că la urma urmei în orice cercetare ce presupune studierea
comportamentului unor oameni putem să fim destul de siguri că sunt o gramadă de variabile
pe care nu le-am putut măsura şi încă şi mai multe la care nu ne-am putut nici măcar gîndi. Ei
bine, astea toate însumate în efectele lor produc ceva cunoscut. Deci, grija mare că sunt atîtea
şi atîtea care nu pot fi luate în seamă nu e chiar aşa de justificată.

Această grămadă de variabile sunt de fapt eroarea care trebuie luată în seamă cînd încercăm să
estimăm o valoare. Prin faptul că se poate estima corect forma sumei variabilelor care nu le
luăm în seamă în mod explicit se obţine şi formula care permite estimarea erorii. Cum am
văzut din teoremele numerelor mari această eroare este legată de volumul eşantionului. Deci
aici putem estima volumul unei eşantion pentru a obţine cu probabilitate mare o anumită
precizie a cercetării statistice.

31
2. Cum facem un sondaj de opinie simplu şi corect?

1. Eşantionarea aleatoare

Din considerentele (aproape) matematice din secţiunea precedentă putem să extragem o


concluzie esenţială pentru tehnica sondajului de opinie. Anume, garanţia matematică pentru
posibilitatea unei estimări statistice corecte este ca alegerea eşantionului studiat să fie pur
aleatoare, adică să nu depindă chiar de nimic.

Modelul pe care matematicienii il prefera pentru alegerea aleatoare este modelul urnei.
Premisele sunt următoarele. Avem o urnă din care se pot extrage bile şi în care se găsesc un
număr de bile de diverse categorii. De exemplu, bile albe şi negre. Extragem din urnă cîte o
bilă, notăm culoarea ei şi o introducem la loc. Legea numerelor mari ne asigură că repetînd
operaţia asta de multe ori vom obţine o bună estimare a distribuţiei bilelor în urnă. Modelul
acesta se numeşte “schema bilei reîntoarse” şi introducerea bilei la loc în urnă este esenţială
pentru că astfel şansa de a alege o bilă de o anumită culoare rămîne cea de la început pentru
fiecare extragere. Dacă ne-am imagina o urnă cu un număr foarte mare de bile din care
extragem un număr relativ mic, am putea presupune că distribuţia rămîne aproape
neschimbată chiar dacă bila nu se introduce la loc, adică dacă aceiaşi bilă nu mai poate fi
extrasă de mai multe ori. Aceasta este situaţia unui sondaj real.

Ideal ar fi deci să avem un recipient mare de tot în care stau cuminţi toţi membrii populaţiei
pe care dorim să o studiem şi să extragem de acolo rînd pe rînd cîte unul, să-l interogăm şi să-
l punem la loc. Aceasta este însă posibil numai parţial. Să vedem ce corecturi sunt necesare
pentru a putea să ne apropiem cît mai mult de acest modelul teoretic.

În primul rînd, în oala noastră nu va sta chiar toată populaţia pe care vrem să o cercetăm. (Îi
spun oală, pentru că urnă mi se pare prea morbid, şi recipient prea pretenţios.) Există două
feluri de aborda problema asta. Pe de o parte, e normal să încercăm să luăm o oală cît mai
cuprinzătoare, pe de altă parte e la fel de normal să redefinim populaţia în funcţie de oala
aleasă. Hai să dau cîteva exemple.

Să zicem că dorim să aflăm ceva despre populaţia oraşului Timişoara. Să alegem recipientul
din care “extragem” subiecţii cercetării. De exemplu, Piaţa Operei. Punem operatori de sondaj

32
în piaţă şi îi învăţăm să abordeze cetăţeni în mod aleator. Indiferent cîte ore ar sta operatorii
noştrii în piaţă şi indiferent în ce zile ar sta acolo, recipientul acesta nu va conţine toată
populaţia Timişorii în nici un caz. Mai mult, cei ce trec prin piaţă vor fi probabil persoane
care au anumite caracteristici diferite de cei ce nu trec. E probabil, de exemplu, să fie în
special persoane care nu sunt angajate în muncă: studenţi, elevi, pensionari, amatori de fotbal,
actori şi statisticieni. Pur şi simplu, faptul de a trece în Timişoara prin Piaţa Operei e deja un
anumit mod de comportament şi ar putea influenţa şi alte comportamente şi opţiuni ale celor
aleşi să răspundă la chestionar. Un astfel de eşantion nu va fi reprezentativ pentru întreaga
populaţie a oraşului. Oala e pur şi simplu prea mică. Pe de altă parte, nu ştiu dacă clientul
cuiva ar fi mulţumit cu aserţiuni de genul: “o treime din cei ce trec prin Piaţa Operei ziua în
amiaza mare ar cumpăra detergentul ...”.

Bun, e preferabil deci să alegem altă oală. O opţiune care se oferă este cartea de telefon. Fie
deci, cartea de telefon, oala din care se aleg la nimereală numere de telefon. Intervievarea prin
telefon are şi avantajul de a fi rapidă şi confortabilă. Este însă oala asta destul de mare?
Depinde. Practic punînd astfel problema redefinim populaţia de la “populaţia oraşului
Timişoara” la “populaţia oraşului Timişoara abonată la Romtelecom”. Această populaţie
poate fi o mai bună sau mai proastă aproximare a populaţiei iniţiale dar nu va fi în nici un caz
o aproximare statistică pentru că apartenenţa la cea de a doua populaţie nu este una aleatoare
faţă de prima populaţie. Mai simplu, populaţia celor care au telefon în Timişoara nu a fost
aleasă în mod întîmplător din toată populaţia oraşului, persoanele cu pricina au avut de făcut
paşi administrativi clari care au presupus un interes pentru a avea telefon, un anumit venit
minim, poate chiar un efort logistic. Deci putem linistit presupune că cei ce au telefon sunt
altfel decît cei ce nu au. Deci, cele două populaţii nu sunt interşanjabile. Posesorii de telefon
vor avea probabil în medie un venit mai mare, vor fi localizaţi în anumite cartiere, etc. Totuşi,
clientul nostru s-ar putea să fie mulţumit de rezultate obţinute pe populaţia restrînsă atît timp
cît volumul ei este suficient de apropiat de volumul populaţiei iniţial considerate. La începutul
anilor 1990 aş fi fost clar împotriva intervievării telefonice. Pe vremea respectivă foarte multe
familii nu aveau telefon deşi ar fi dorit să aibă, iar cei ce aveau telefon aveau în mod clar
caracteristici particulare, de obicei de natură profesională. Deşi aceasta poate să fie teoretic
adevărat în continuare, deoarece numărul de abonamente telefonice în mediul urban se
apropie foarte mult de numărul total de gospodării, redefinirea populaţiei nu este una care să
deranjeze prea mult. Discrepanţa dintre mediul urban şi cel rural rămîne însă atît de mare încît

33
un sondaj pe o populaţie ce include şi mediul rural, ca de exemplu, populaţia unui judeţ, nu se
poate în nici un caz efectua telefonic.

O alternativă similară cu cartea de telefon dar, cel puţin teoretic mai bună este folosirea
listelor de alegători. Din păcate, aşa cum s-a văzut la alegeri, migraţia populaţiei intern şi
internaţional a făcut ca listele electorale să fie destul de greu practicabile, adresele de pe liste
nepotrivindu-se adesea situaţiei din realitate. Apoi, obţinerea listelor electorale pentru o
cercetare oarecare nu este ceva chiar aşa de uşor. Important de notat că listele cu toată
populaţia, cum sunt listele electorale sau cărţile de telefon, se numesc cadre de eşantionare
şi au marele avantaj de a uşura alegerea. Alegerea aleatoare, chiar matematic vorbind, dintr-
un cadru de eşantionare este posibilă.

Să revenim însă la alegerea recipientului. Daca nici cadre de eşantionare bune nu sunt ce se
poate face? Se poate, de fapt, defini oala astfel încît să cuprindă chiar pe toată lumea?
Probabil nu. Aproximaţia cea mai bună este de a considera oraşul, judeţul sau ţara în
distribuţia ei teritorială ca fiind chiar oala şi a alegere de aici pe baza adreselor gospodăriilor.
Alegerea unei adrese va fi de fapt o metaforică extragere din urnă. Evident, nici aşa nu avem
chiar urna teoretică în care se află toate bilele. Lipsesc cei ce nu se află la domiciliul stabil sau
nu au un domiciliu stabil, fie ei nomazi prin modul lor de viaţă, plecaţi în concedii sau la
muncă în străinătate. Aşa cum ştim, în cazul Romaniei de astăzi numărul acestora este
important şi redefinirea populaţiei este esenţială în acest caz, dar de obicei ea este întru totul
acceptabilă. “Oala” geografică va însemna parcurgerea oraşului pe baza unui itinerariu.
Operatorul va parcurge străzile - locuinţele şi va alege - extrage dintre ele. Bineînţeles, din
motive practice va trebui ales un punct de unde porneşte operatorul în itinerariul lui. Pentru că
se lucrează cu mai mulţi operatori şi pentru că există prejudecata cum că o distribuţie
geografică uniformă ar înbunătăţi relevanţa sondajului, se aleg de obicei puncte de pornire pe
cartiere. Ideal ar fi ca aceste puncte să fie alese chiar aleator, de exemplu aruncînd cu un dart
pe un plan al oraşului. Pe de altă parte, distribuţia uniformă a punctelor de pornire, deşi nu
este justificată matematic elimina riscul ca doi operatori să ajungă la aceiaşi familie!

Am văzut problemele legate de metaforica noastră urnă, să vedem cum arată alegerea din
urnă, extragerea aleatoare. În forma teoretică atunci cînd experimentatorul bagă mîna în urnă
el nu simte nici o diferenţă între bile. Toate sunt la fel, alegerea nu are loc pe baza unei
caracteristici, tocmai prin aceasta este aleatoare. Bilele negre nu sunt mai calde decît cele

34
albe. Regula esenţială a alegerii aleatoare, se poate exprima astfel: fiecare membru al
populaţiei trebuie să aibă aceiaşi şansă să fie ales în eşantion. Pare simplu, nu e. Numai
dacă avem un cadru de eşantionare aceasta se poate face (aproape) perfect. Atunci un
generator de numere aleatoare pe calculator ne poate alege un eşantion cît de mare vrem.
Aceasta ar fi o eşantionare aleatoare perfectă. Mai există o variantă la fel de bună, dar mai
puţin laborioasă. Dat fiind construcţia listelor, fie electorale, fie telefonice, care se face
alfabetic, poziţia unei persoane în listă nu e legată de anumite caracteristici. De aceea se poate
folosi o metodă mai simplă, aşa-zisa alegere pseudo-aleatoare. Se alege aleator atunci un prim
nume. Apoi se aplică un pas de eşantionare. Acesta se calculează ca raport dintre volumul
populaţiei şi volumul eşantionului. De exemplu, în Timişoara sunt aproximativ 140.000 de
abonamente telefonice. Daca dorim un eşantion de 1000 de persoane, pasul de eşantionare va
fi de 140. Punem în eşantion, de exemplu, primul număr telefonic din carte, apoi numărul al
141-lea, apoi al 281-lea, şi aşa mai departe. Şansa unui număr de a fi ales depinde de alegerea
primului număr, aceste se alege din valori între 1 şi 140. Oricum toate numerele de telefon au
aceiaşi şansă de a fi alese independent cui aparţin, şi în mod evident, ceea ce e cel mai
important, nu contează nici un fel de caracteristici social-economice, etnice sau
comportamentale ale celor aleşi.

Să ne gîndim la varianta pe care am considerat-o cea mai bună pentru alegerea “urnei”, anume
parcurgerea geografică a localităţii. În acest caz avantajul de a lucra cu situaţia reală a
adreselor este şi motivul principalului dezavantaj. Anume, nu există un cadru de eşantionare
ceea ce face alegerea simplă aleatoare sau pseudo-aleatoare imposibilă. Cum alegem
locuinţele ca să dăm tuturor aceiaşi şansă, şi o dată aleasă o locuinţă cum dăm tuturor
locatarilor aceiaşi şansă? Esenţial este desigur ca alegerea să nu fie influenţată de calităţi ale
locuirii şi persoanelor. Adică, casele mai drăguţe să nu fie favorizate faţă de cele mai
neîntreţinute, persoanele mai primitoare faţă de cele mai puţin primitoare, eventual chiar
unele etnii faţă de altele! Metoda care se foloseşte este construirea unui itinerariu-algoritm. E
ca şi cum am face o alegere pseudo-aleatoare în care pasul de eşantionare nu mai e un număr
de rînduri pe o foaie de carte de telefon ci un număr de case pe o stradă sau un număr de
locuinţe într-un bloc. Ce contează este ca metoda să includă toate cazurile posibile astfel încît
argumente care ţin într-adevăr de condiţiile de locuire să nu conteze. Cel mai rău este ca
operatorul să aleagă după argumente de genul: “s-a terminat strada, acum pot să o iau la stînga
sau la dreapta, dar la stînga e noroi!”. Poate părea nesemnificativ, dar prin repetare, dacă
astfel de alegeri sunt posibile ele pot duce la un caracter nealeatoriu al eşantionului şi la

35
situaţia în care apartenenţa la o categorie social-economică dezavantajată să scadă
probabilitatea de a face parte din eşantion.

Apoi mai există o situaţie asemănătoare de defazare a eşantionului care e foarte periculoasă.
Aceasta este cunoscută ca autoselecţie. Evident, dacă numai cei ce se autopropun, răspund la
un chestionar, cum e de exemplu, cazul chestionarelor ce apar în reviste, eşantionul nu are
nici o relevanţă statistică. Am văzut că aşa au dat greş sondajele din revista americana
“Literary Digest” puse faţă în faţă cu metoda lui Gallup care presupune alegerea aleatoare.
Există însă o situaţie perversă în care o aproape similară, chiar dacă ceva mai benignă,
autoselecţie apare ca efect pervers al unei eşantionări şi selecţii cît se poate de corecte. Astfel,
dacă numărul celor ce refuză să răspundă la chestionar e foarte mare, cei ce acceptă pot fi
consideraţi a fi (aproape) autoselectaţi. E clar că aici rolul operatorului este esenţial, el/ea
trebuie să fie potrivit de politicos-insistent astfel încît cel intervievat să trebuiască să ia
evident o decizie pentru a refuza şi varianta implicită, lipsită de efortul de a decide, să fie
aceea de a răspunde. Din păcate nu avem o metodă mai bună de a reduce ponderea refuzului
de a răspunde la chestionare. În anii de imediat după 1990 ponderea celor care refuzau
interviurile operatorilor de sondaj era foarte mică. Această pondere a crescut destul de mult
devenind în multe cazuri semnificativă. Cîteva reguli simple reduc totuşi puţin ponderea non-
răspunsurilor. Operatorul de interviu trebuie să înceapă prin a se prezenta cît mai clar şi
trebuie să se refere fie la institutul care efectuează sondajul, fie la clientul sondajului. Esenţial
este ca potenţialul intervievat să priceapă cît de repede despre ce e vorba, adică să nu creadă
că operatorul vrea să-i vîndă sau să-i ceară ceva. Apoi el trebuie să se simtă valorizat pentru
faptul că părerea lui contează, respectiv că a fost ales să-şi spună părerea.

2. Eşantionarea stratificată

Stratificarea este o variantă de înbunătăţire a eşantionării luînd în seamă caracteristici ale


populaţiei care sunt de tip categorial. Matematic nu se poate calcula cu cît e mai bună o astfel
de eşantionare faţă de una simplă aleatoare, şi nici măcar dacă e mai bună. Ea are totuşi
avantajul de a ne asigura posibilitatea unor teste statistice care pot fi importante în cercetare.
Aici însă trebuie să expun întîi metoda pentru a fi mai explicit.

Orice populaţie se poate împărţi în categorii diferite. Genuri, religii, zone de rezidenţă, tipuri
de locuire, etc. Unele dintre acestea sunt cunoscute la nivelul populaţiei din date statistice

36
oficiale. De exemplu, dacă avem de făcut un sondaj într-un anume judeţ putem afla din
anuarul statistic cîţi locuitori sînt în mediul urban şi cîţi în mediul rural, cîţi în oraşul reşedinţă
de judeţ, cîţi în alte oraşe. Mai mult, unele din aceste categorii se pot cunoaşte chiar înainte de
intervievare, se pot lua în seamă în eşantionare şi selecţie. Astfel prin simple proporţii se pot
calcula eşantioane stratificat.

Un exemplu simplu pentru judeţul Timiş ar fi următorul. În tabel am trecut populaţia totală
urbană şi rurală din 2006 conform Institutului National de Statistică. Am calculat apoi
procentele faţă de totalul populaţional al judeţului şi, în fine cîte chestionare dintr-un total de
1000 ar trebui aplicate în mediul rural şi cîte în mediul urban pentru a păstra volumele
straturilor.

Număr locuitori Procent Număr chestionare


Urban 414.680 62,9% 629
Rural 244.619 37,1/ 371
Total 659.299 100% 1000

Această metodă este folosită cel mai adesea pentru a crea eşantioane pentru o populaţie mare
şi distribuită, cum ar fi populaţia unei ţări, de obicei eşantionarea nu este doar stratificată ci şi
multistadială. Aceasta presupune mai mulţi paşi de stratificare şi alegere aleatoare. Cel mai
simplu ar fi să vedem cum se face aceasta pentru o populaţie cum ar fi cea a Romaniei.

Primul pas, sau primul stadiu, este împărţirea după tehnica stratificării pe care am văzut-o mai
înainte a eşantionului în funcţii de regiuni de dezvoltare. Romania este împărţită, mai mult sau
mai puţin administrativ în opt astfel de regiuni de dezvoltare. Ele nu sunt propriu-zis unităţi
administrativ-teritoriale cum sunt judeţele, dar sunt suficient de bine particularizate socio-
economic. În mare, cele opt regiuni se potrivesc pe regiuni istorice ale Romaniei, deşi sunt
criticate tocmai pentru că nu se potrivesc şi mai bine cu acestea. Oricum, ceea ce contează
pentru statistician este faptul că regiunile de dezvoltare sunt folosite de Institutul National de
Statistică ca unităţi de raportare. Adică, toate datele statistice teritoriale sunt disponibile şi la
nivel de regiune. În plus, evident cele opt regiuni sunt mai potrivite ca straturi decît foarte
multele judeţe ale ţării. Romania are 41 de judeţe. Dat fiind un eşantion obişnuit, care aşa cum
ştim depăşeşte cu puţin 1000 de chestionare, numărul de chestionare care s-ar aplica într-un
judeţ ar fi ilar de mic şi de greu de distribuit în consecinţă. Hai să fiu puţin mai explicit.

37
Împărţind chestionarele pe judeţe rezultă în medie vreo 25 de chestionare pe fiecare judeţ.
Dacă luăm în seamă numai costurile de transport care apar împărţite pe fiecare chestionar e
clar că merita căutată o metodă mai bună.

Să vedem cum arată tabelul cu distribuţia chestionarelor după primul stadiu.

Număr locuitori Procent Număr chestionare


Nord-Est 3.781.932 16,3% 163
Sud-Est 2.980.559 12,8% 128
Sud Muntenia 3.619.796 15,6% 156
Sud-Vest Oltenia 2.461.463 10,6% 106
Vest 2.198.504 9,5% 95
Nord-Vest 2.983.614 12,9% 129
Centru 2.860.490 12,3% 123
Bucureşti Ilfov 2.325.037 10,0% 100
Total 23.211.395 100% 1000

Al doilea stadiu este, de obicei, distribuirea pe medii de reşedinţă. Aceasta se poate face pe o
simplă împărţire rural – urban, cum am văzut deja în exemplul precedent, sau pe o ceva mai
complexă împărţire în trei zone, rural – localităţi urbane mici (sub 100.000 de locuitori) –
localităţi urbane mare. Aceasta este împărţirea pe care o folosesc majoritatea institutelor de
sondare a opiniei publice de pe la noi. Împărţirea aceasta duce în fine la o distribuţie a
chestionarelor prin care se află cîte chestionare trebuie făcute pe fiecare regiune şi fiecare tip
de localitate. Atunci apare primul pas de selecţie aleatoare, dintr-o listă de localităţi pe regiuni
şi tipuri de localităţi se aleg, în mod teoretic aleator, localităţi care le vor reprezenta pe toate
celelalte din aceiaşi regiune şi acelaşi tip. Deci, ar trebui alese măcar o localitate urbană mare,
una mică şi o localitate rurală pentru fiecare regiune. În realitate se aleg de obicei mai multe
localităţi din cîte o categorie, aşa cum vom vedea şi din exemplul următor.

Să dezvoltăm o regiune oarecare, de exemplu regiunea Nord-Est în forma mai simplă a


distribuţiei rural - urban.

Număr locuitori Procent Număr chestionare


Rural 2.105.562 56,4% 92

38
Urban 1.629.384 43,6% 71
Total 3.734.946 100% 163

Deci vor trebui aplicate 71 de chestionare în oraşe din regiunea Nord-Est şi 92 chestionare în
sate şi comune din regiune. Cel mai probabil se vor alege din listele de localităţi două oraşe şi
trei sau patru comune pentru intervievare, dar numărul localităţilor alese este de fapt la
latitudinea celui care organizează sondajul şi are cel mai adesea motivaţii legate de costuri.
Desigur pentru a fi statistic în regulă alegerea localităţilor trebuie să fie aleatoare, sau măcar
independentă de consideraţii legate de caracteristici socio-economice ale localităţilor.

De obicei aici se opreşte stadializare unei astfel de eşantionări. Numai dacă numărul de
chestionare este mai mare se mai poate merge un pas mai departe şi se mai pot împărţi în
continuare localităţile în categorii, de exemplu localităţi de şes vs. de deal, etc.

La finalul metodei stratificate, fie ea multistadială sau nu, rămîne tot o alegere aleatoare a
celor ce vor fi intervievaţi, fie cu ajutorul cărţii de telefon, a listelor electorale sau a
itinerariului pe teren. De fapt, privind puţin în urmă alegerea punctelor de pornire a unei
eşantionări pseudo-aleatoare cu itinerariu este tot un fel de eşantionare multistadială. Dacă
numărul de chestionare pentru fiecare din aceste puncte se stabileşte luînd în seamă volumul
populaţional al cartierului în cauză eşantionarea este chiar stratificată.

Am spus pe undeva la începutul acestei secţiuni că, matematic vorbind eşantionarea


stratificată nu este mai bună decît cea simplă aleatoare. Ea se foloseşte mai des însă pentru că
are alte avantaje. Anume, un sondaj de opinie se face cel mai adesea pentru a testa ipoteze şi a
descrie comportamente populaţionale. Ipotezele statistice de obicei compară comportamente
şi opţiuni între subgrupuri din populaţie. Eşantionarea stratificată ne asigură că o parte din
categorisile populaţiei se vor regăsi cu necesitate în eşantion. Astfel, suntem în acest caz
siguri că vom putea compara regiunile între ele, zonele de reşedinţă, etc. Din motive similare
de multe ori la selecţia partenerilor de interviu se verifică (statistic se spune că se controlează)
şi distribuţia pe genuri. De obicei se face prin alternanţă simplă. Operatorului i se indică să
intervieveze alternativ o femeie – un bărbat. Desigur, teoremele matematice pe care se
bazează statistica ne promit că aceste distribuţii vor ieşi bine şi prin alegerea simplă aleatoare.
Însă în condiţiile în care numărul chestionarelor nu este foarte mare, un control asupra
anumitor variabile populaţionale ne poate asigura în faţa unor eventuale probleme.

39
O altă problemă care trebuie menţionată pe undeva şi care ţine în cele din urmă de eşantionare
este alegerea unei ore cît mai potrivite pentru interviuri. Aici necazul este că o fereastră de
timp prea mică, de exemplu între orele 18 – 20, deşi ar putea surprinde pe majoritatea celor
aleşi pentru a fi intervievaţi disponibili, duce la prelungirea timpului afectat operării
sondajului şi ca atare şi la creşterea costurilor. Una peste alta, în cazul intervievării la
domiciliu se alege de obicei un interval orar între orele 16 şi 21. Vara se poate profita un pic
mai mult deoarece pe lumină şansa ca operatorul să fie refuzat este ceva mai mică! Important
pentru alegerea intervalului orar al chestionării este însă să nu faci gafe prea mari. Dacă de
exemplu pornim prin sat duminică înainte de masă vom nimeri pe multă lume la biserică, iar
cei pe care îi vom găsi acasă vor avea un alt profil comportamental şi valoric decît cei pe care
nu îi găsim acasă. Aşa putem da peste cap o eşantionare altfel onorabilă.

3. Eşantionări ne-aleatoare

Există şi metode de alegere a celor intervievaţi care nu au nimic de a face cu statistica. Ca


atare, astfel de metode nu au o relevanţă matematică pe care să o putem calcula şi nu se
bazează în vreun fel pe regulile statisticii. Totuşi se folosesc pentru că sunt simple, ieftine,
pentru că uneori sunt inevitabile şi pentru că de multe ori aşa-zise sondaje nu sunt neapărat
făcute de specialişti sau comandate de clienţi bine informaţi.

Cea mai des folosită metodă de eşantionare ne-aleatoare este metoda de eşantionare pe cote.
Aceasta seamănă cu metoda stratificată. Dacă însă la eşantionarea stratificată se determină un
număr relativ mic de straturile în aşa fel încît să lase loc şi unei alegeri aleatoare, cotele se
construiesc mai exact. Straturile de obicei se fac în aşa fel încît să nu includă caracteristici ale
persoanelor intervievate. Cotele conţin tocmai astfel de caracteristici. De exemplu, din date
statistice oficiale se deduce ponderea din populaţie pe grupe de vîrstă şi genuri şi se
calculează, întocmai ca la eşantionarea stratificată, numărul de persoane de fiecare categorie
care trebuie intervievat.
Fiecare operator primeşte atunci un număr din chestionare şi o matrice de genul:

Femei Bărbaţi
18 – 35 ani 4 chestionare 5 chestionare
35 – 50 ani 5 chestionare 6 chestionare

40
50 – 65 ani 5 chestionare 4 chestionare
Peste 65 ani 4 chestionare 3 chestionare

De multe ori numărul de caracteristici cotate e chiar mai mare şi poate include întrebări filtru
de genul “consumaţi bere?” sau “locuiţi în această localitate?”. Bineînţeles folosind
eşantionarea pe cote nu se mai pot alege cei intervievaţi aleator, fie din cartea de telefon, lista
electorală sau cu itinerariu, pentru că în nici care din aceste liste şi pseudo-liste persoanele nu
apar cu specificarea unor caracteristici ale lor. Operatorul alege partenerii de interviu conform
cotelor prin orice metodă doreşte, pe stradă, dintre vecini, şi aşa mai departe. Astfel nu se mai
exclude nici auto-selecţia, nici subiectivitatea alegerii operatorului.

O altă metodă de eşantionare ne-aleatoare este inevitabilă în cazul populaţiilor rare. Ea se


numeşte metoda bulgărelui de zăpadă. Imaginaţi-vă că populaţia cercetată ar fi populaţia
amatorilor de jazz sau a cetăţenilor italieni stabiliţi în Banat. Astfel de populaţii nu apar în
listele electorale, nu sunt de discernut din cartea de telefon, iar folosirea itinerariului ar duce
la atît de multe eşecuri încît ar dura şi costa enorm de mult. Nu poţi bate din uşă în uşă în
căutarea iubitorilor de bonsai pînă aduni suficiente interviuri! Dacă nu poţi asimila un astfel
de grup rar cu o asociaţie formală tot ce poţi face este să recunoşti faptul că persoane din
astfel de grupuri sunt de obicei legate între ele în reţele sociale. Persoanele din grupuri rare se
cunosc între ele. Aşa funcţionează metoda bulgărelui de zăpadă. Se porneşte de la un număr
de persoane care aparţin populaţiei şi care au fost identificate în vreun mod oarecare. Apoi
fiecare dintre acestea este rugată să specifice alte persoane din aceiaşi populaţie pe care le
cunosc. Din aproape în aproape se poate ajunge la un număr rezonabil de mare de interviuri.
Desigur relevanţa matematic-statistică a aceastei metode nu poate fi calculată.

În fine, unele posturi de televiziune sau ziare folosesc termenul de sondaj de opinie pentru un
număr oarecare de interviuri scurte efectuate cel mai adesea pe stradă. Aceasta nu este o
eşantionare ne-aleatoare, pur şi simplu nu e nici un fel de eşantionare şi răspunsurile nu pot şi
nu trebuie să fie considerate a fi vreun sondaj de vreun fel.

4. Chestionarul

Ei, am ajuns faţă în faţă cu cel pe care dorim să-l intervievăm. Acum, ce? Acum chestionarul!

41
Spuneam că statistic vorbind fiecare din membrii populaţiei trebuie să aibă aceiaşi şansă să
facă parte din eşantion. Tot atît de important, metoda de măsurare – chestionarul – trebuie
să aibă un efect cît mai mic asupra opiniilor măsurate. Dacă eu vreau să cîntăresc
ciobăneşti mioritici, şi aleg prin cea mai bună metodă posibilă un eşantion, iar apoi înainte de
a-i cîntări, îi tund pe căţeii din eşantion ca să fie mai drăguţi, nu prea am gîndit bine. Toţi
membrii eşantionului vor avea o greutate mai mică prin pierderea de blană ce le-am cauzat-o.
Greutatea lor nu va mai putea fi generalizată la nivelul populaţiei din care au fost aleşi.
Exemplul pare extrem, dar în realitate interviul în sine şi felul cum este construit chestionarul
nu au cum să nu îi diferenţieze pe cei intervievaţi de cei ce nu sînt intervievaţi. Dacă dorim să
putem generaliza rezultatele trebuie să ne străduim să scriem chestionare care să influenţeze
cît mai puţin răspunsurile celor chestionaţi.

Această carte nu are scopul de aprofunda nici teoretic, nici aplicativ scrierea de chestionare.
Şi totuşi, este cît se poate de important să nu se neglijeze partea aceasta a designului unei
cercetări. Degeaba am folosi cele mai moderne metode de cercetare şi am proceda cu maximă
precauţie la interpretarea rezultatelor, daca chestionarul e prost conceput, prost va fi şi
rezultatul. Există multe capcane în scrierea unui chestionar, unele pot fi folosite chiar şi
intenţionat. Avantajul de a scrie o carte este că te poţi erija în înţelept şi da sfaturi. Avantajul
de a o citi este că poţi sări pasajele de genul acesta. Deci, atenţie, urmează sfaturi bine
intenţionate!

1. Cele mai grave denaturări ale rezultatelor se obţin prin ceea ce în engleză se numesc
“leading questions”. Sunt întrebări care forţează un anumit răspuns sau măcar favorizează
un anumit răspuns. Întrebări de acest gen leagă de obicei unul dintre răspunsurile posibile
de un concept foarte indezirabil sau, mai puţin eficient, de unul foarte dezirabil. Pentru a
construi astfel de întrebări se folosesc construcţii discursive puternic încărcate valoric
negativ sau pozitiv. O întrebare pusă pare-se într-un sondaj efectuat în oraşul Cluj suna
astfel “Sînteţi de acord cu reînfiinţarea în oraşul nostru a universităţii de limbă maghiară
care a existat in perioada Horthistă?”. În întrebare se face legătura dintre universitatea de
limbă maghiară şi fascismul maghiar forţîndu-se astfel un răspuns negativ. Se crează chiar
senzaţia că a susţine reînfiinţarea universităţii de limbă maghiară ar fi o formă de a susţine
sau chiar a readuce Horthismul. Sigur astfel de întrebări nu prea se pun din greşeală. Se
poate însă întîmpla şi aşa ceva. De exemplu, se poate întreba cu mai mult sau mai puţină
candoare: “Consideraţi că ar trebui pedepsite crimele comunismului?”. În formularea

42
aceasta apare perechea de cuvinte “crimă” şi “pedeapsă”. Un răspuns negativ dat acestei
asocieri devine aproape imposibil, astfel încît din întrebare nu aflăm cu adevărat mai
nimic despre opinia celui întrebat faţă de crimele comunismului. O altă formă de creştere
a probabilităţii unui anumit răspuns se poate obţine prin adăugarea unei propoziţii
explicative înaintea întrebării, propoziţie care să favorizeze anumite interpretări.
2. Uneori, ce e drept destul de rar, se întîlnesc şi întrebări la care lista de răspunsuri permite
numai anumite aprecieri, sau scade posibilitatea unor opinii prin trecerea lor implicită la
categoria altele. Iată un frumos exemplu cules de mine de curînd:
“Ce părere aveti despre MBA-ul AMERICAN al UNIVERSITATII DESALES2?
1. Excelentă !
2. Foarte bine - dar e prea scump
3. Bună - păcat că e doar în limba engleză
4. E un lucru bun dar nu mă interesează acum
5. Nu mă interesează subiectul”

Evident scala nu este numai incompletă ci şi tendenţioasă. Nu există nici o variantă de


răspuns negativă! Dacă cumva te interesează subiectul părerea pe care o poţi avea poate fi
numai de la bine în sus.
3. O altă formă de denaturare a răspunsurilor se poate obţine prin formularea prea
pretenţioasă a întrebării sau a posibilelor răspunsuri. Aceasta are efectele cele mai
devastatoare în cazul în care completarea chestionarului se face prin interviu cu un
operator. În caz de autoadministrare şansele ca cel ce completează chestionarul să sară
peste întrebările pe care nu le înţelege sau la care nu ştie să răspundă sunt mai mari. Dacă
însă este întrebat de către un operator, cel chestionat tinde să prefere să dea un răspuns
oarecare decît să-şi recunoască lacuna de înţelegere. În special bărbaţii se simt obligaţi să
răspundă ceva. Există şi un nume pentru treaba asta, se numeşte “sindromul răspunsului
masculin” (male answer syndrom) şi termenul se pare că a fost folosit prima dată în 1986
de către Sam Hunt într-o caricatură. Fapt este că atît eu cît şi mulţi alţii ne-am lovit de
această problemă şi de preponderenţa masculină a celor care răspund fără să înţeleagă
întrebarea. Problema poate să apară la formularea întrebării, ca de exemplu: “în ce măsură
vă afectează personal implementarea aquis-ului comunitar?”. Pot apărea însă astfel de
probleme şi la conţinutul întrebării. Am văzut un chestionar, de exemplu, care fusese
aplicat unui eşantion al populaţiei unui judeţ întreg şi conţinea întrebarea: “Ce tip de balet

2
Majusculele şi semnele de punctuaţie apar astfel în original.

43
preferaţi? 1. clasic, 2. modern, 3. contemporan, etc.”. Cred că este cît se poate de evident
că ponderea celor care au într-adevăr preferinţe formate la acest nivel este neglijabil de
mică, majoritatea celor chestionaţi neavînd nu numai preferinţe dar nici măcar o imagine
foarte clară a acestor diferenţe. Bineînţeles răspunsuri se găsesc, ce înseamnă însă ele nu
prea se poate spune. Probabil interpretarea cea mai rezonabilă este că s-a obţinut un fel de
preferinţă generală a conceptelor de clasic, modern şi contemporan, independent de felul
cum arată baletul cu pricina.
4. Problemele din punctele precedente par a fi destul de uşor de evitat. Există însă şi situaţii
mai complicate. Una dintre acestea este efectul de serie ce se crează cînd apar una după
alta mai multe întrebări de acelaşi tip, cu aceleaşi posibilităţi de răspuns. O serie de acest
tip ar putea avea forma: “ce părere aveţi despre? (foarte bună, bună, nici bună nici proastă,
proastă, foarte proastă)” urmată de o listă lungă de politicieni sau instituţii. Dacă
intervievatul nu are o opinie foarte bine conturată el va tinde să repete acelaşi răspuns, cel
puţin de la un moment încolo. Aici efectul e mai prezent la autoadministrare şi se poate
evita cît de cît la interviul cu operator recitind întreaga întrebare “ce părere aveţi despre
A?” “ce părere aveţi despre B?” şi aşa mai departe.
5. O altă problemă, tot legată într-un fel de liste, apare cînd o întrebare are un număr mare de
răspunsuri posibile. Parcurgerea sau audierea acestora poate fi greoaie, astfel primele
răspunsuri din listă fiind alese preferenţial. La intervievare orală este de preferat să nu se
citească de loc lista de răspunsuri şi operatorul să aleagă ulterior din listă pe baza
răspunsului spontan al celui intervievat.
6. Listele de răspunsuri care se citesc mai pun o problemă. Ele trebuie să fie complete, adică
să poată acomoda toate opiniile posibile. Soluţia confortabilă de a adăuga întotdeuna şi un
caz “altceva” sau “altfel” pe cît este de necesară pe atît este uneori de insuficientă.
Alternative care ar aduna un număr considerabil de opţiuni vor fi menţionate mult mai rar
dacă rămîn în categoria “altceva”. Problema listelor de răspunsuri este deci una de
echilibrare. Prea puţine variante de răspuns nu recunosc bine opiniile, prea multe de
asemenea, iar lipsa lor totală poate face ca răspunsurile să fie de a dreptul incomensurabile
şi foarte greu analizabile.
7. În fine, mai vreau să atrag atenţia asupra problemei estimărilor. Foarte des în chestionare i
se cere celui intervievat să estimeze cantităţi de consum sau valori. “cît cheltuiţi lunar
pentru produse nealimentare?”, “cîte ore pe săptămînă vă uitaţi la televizor la un anumit
program?”, etc. Unele din aceste întrebări pot părea acceptabile, la altele nimeni nu poate
estima răspunsul în mod cît de cît corect. Cei ce construiesc astfel de întrebări, fie nu îşi

44
dau seama de imposibilitatea estimărilor de acest gen, fie mizează pe o echilibrarea a
răspunsurilor prin efectul de masă. Ei gîndesc cam în genul următor, sigur e greu să te
apropii mult de valoarea reală, dar unii spun mai mult, alţii mai puţin şi iese cam ce
trebuie. Ei bine, nu există nici un motiv statistic să iasă cam ce trebuie. Mai mult, este
foarte posibil, dar de nedovedit, că tocmai anumite categorii, de exemplu cei cu venituri
mai mari, să-şi exagereze estimările iar alţii să subestimeze valorile. Un test statistic care
nimereşte peste caracteristici cu efect asupra direcţiei de denaturare a estimării va fi în
acest caz total eronat şi nu avem nici un mod de recunoaşte aceasta. Cel mai bine este să
acceptăm faptul că punem întrebări la care intervievaţii chiar pot răspunde corect în
măsura propriei lor conştiinţe.
8. Există şi alte capcane ale chestionarelor. Regula cea mai bună este pînă la urmă
verificarea chestionarului prin administrarea explorativă pe un număr de persoane, rude,
prieteni, studenţi. Şi nu uitaţi, puneţi întrebări la care voi înşivă aţi fi în stare să
răspundeţi.

Din toate cîte le-am enumerat mai sus cred că s-a putut deduce că un chestionar care nu
influenţează de loc intervievatul nu e posibil. Tot ce rămîne de făcut este să scriem
chestionare care impun cît mai puţin intervievaţilor şi lasă părerile acestora să transpară. Asta
bineînţeles dacă dorim cu adevărat să aflăm ceva despre opiniile celor chestionaţi.

În fine, încă un sfat legat de scrierea de chestionare. Ordinea întrebărilor din chestionar
trebuie de asemenea gîndită. Principalul argument ţine aici de oboseala intervievatului. De
obicei la primele întrebări se răspunde cu ceva mai mare atenţie, pe măsură ce trece timpul
răspunsurile devin din ce în ce mai automate. De aceea e de obicei preferabil să se înceapă cu
întrebările mai grele, care necesită o atenţie mai mare la formulare. La sfîrşit se lasă
întrebările care culeg aşa-zisele variabile independente. Acestea sunt informaţii care ţin de
obicei de statutul socio-economic al celor intervievaţi (se şi numesc adesea variabile SES,
după prescurtarea de la englezescul Socio-Economical Status) şi includ vîrsta, ocupaţia,
statutul marital şi alte întrebări la care chiar răspunsuri date neatent sunt de regulă corecte.

5. Aplicarea chestionarului

Am văzut din sfaturile de mai sus şi faptul că alegerea unui anumit mod de aplicare a
chestionarului are repercursiuni asupra completării lui, asupra răspunsurilor pe care le primim.

45
Însăşi cercetarea sociologică are repercursiuni. Comportamentul diferit al subiectului
cercetării ca urmare al activităţii de cercetare la care e supus a fost numit efect Hawthorne.
Efectul îşi are numele de la legendarele studii Hawthorne conduse de sociologul şi psihologul
american Elton Mayo (1880 - 1949) la fabrica Hawthorne a Western Electric Company,
undeva pe lîngă Chicago, în anii dintre 1924 şi 1932. Mayo care s-a ocupat în special de
cercetări industriale a vrut să studieze efectul schimbărilor de la locul de muncă asupra
productivităţii muncii. De exemplu, a schimbărilor legate de iluminat. Printre altele, a
observat cu această ocazie o înbunătăţire iniţială a productivităţii muncii independent ce
schimbare se făcea. După o vreme productivitatea scădea din nou la valoarea de bază. Mayo a
ajuns la concluzia că anumite modificări comportamentale tranzitorii au loc pur şi simplu din
cauza experimentului şi nu a condiţiilor modificate. Astfel productivitatea a crescut atît cînd a
crescut iluminatul din hală cît şi cînd a scăzut iluminatul, şi aşa mai departe. Oamenii tind să
se comporte altfel dacă sunt observaţi. Această observaţie poate destul de banală este de o
importanţă foarte mare în tehnica sondajului de opinie. Aşa cum am mai spus, pune sub
semnul întrebării însăşi logica generalizării statistice pentru că cei ce au fost aleşi pentru a
face parte din eşantion se vor comporta diferit, vor da poate răspunsuri diferite tocmai pentru
că fac parte din eşantion. E chiar posibil ca opinia lor să fie sincer şi remanent modificată prin
chestionare şi răspunsurile corecte şi sincere pe care le dă să nu mai fie astfel generalizabile.
Este însă posibil ca din motive legate de felul cum cel intervievat percepe dezirabilitatea
socială să-şi schimbe răspunsurile. Adică să considere că deşi el personal ar avea o părere mai
degrabă proastă despre o anumită persoană mult lăudată (ştiu eu, de exemplu Corneliu
Coposu sau Papa Ioan Paul al II-lea, sau cine ştie cine) să prefere un răspuns neutru sau chiar
moderat pozitiv pentru a fi în ton cu discursul public.

Efectul aplicării chestionarului poate fi mai mare sau mai mic, dar nu poate fi exclus cu totul.
Să începem cu diferenţa esenţială. Chestionările pot fi auto-aplicate sau realizate prin interviu
cu operator. Cum am văzut cea de a doua variantă are o serie de avantaje legate de designul
chestionarului. De asemenea, garantează un număr mai mic de chestionare nereturnate sau
necompletate şi poate ajuta în condiţii ideale şi la o mai bună înţelegere a chestionarului. Pe
de altă parte efectele legate de aplicarea chestionarului sunt mai mari în cazul prezenţei unui
operator decît în cazul auto-aplicării.

Să vedem totuşi cum pot fi ele atenuate. În primul rînd mediul în care are loc chestionarea
este bine să fie cît mai familiar celui chestionat. Ideal este deci să fie intervievat sau să

46
completeze chestionarul acasă. Cel mai rău este dacă e intervievat sau pus să completeze
chestionarul undeva unde nu se simte la locul lui, unde se consideră în inferioritate şi este ca
atare tentat să se adapteze situaţiei, de exemplu, într-o instituţie publică, într-un spital, etc. în
cazul interviurilor cu operator este importantă şi relaţia spontană ce se crează cu acesta. Există
adesea, în special la persoane în vîrstă confruntate cu operatori tineri, o tendinţă de simpatie.
Combinînd aceasta cu lipsa unor opinii ferme pe anumite teme se poate uşor ajunge la
răspunsuri de complezenţă, care au în substrat dorinţa de a fi în acord cu operatorul sau de
face o impresie pozitivă. Efecte similare apar şi atunci cînd cel intervievat se simte în
inferioritate evidentă faţă de operator din punct de vedere al educaţiei sau veniturilor. În
special femeile sunt tentate să caute răspunsuri adecvate opiniilor pe care le proiectează
asupra celor ce le intervievează. Apoi mai apare uneori şi o dorinţă de “a ieşi bine”, de a da
răspunsul corect sau adecvat.

Operatorul ideal este deci un fel de roboţel, nici prea antipatic ca să nu fie refuzat, nici prea
simpatic ca să nu denatureze răspunsurile, şi în plus total lipsit de părere proprie în felul cum
citeşte întrebările, dă din cap sau zîmbeşte la răspunsuri. Unii preferă operatorii empatici, care
aprobă opiniile celui intervievat, alţii operatori inerţi. Fapt este că operatorii empatici pot crea
o anumită dezinhibare care facilitează sinceritatea intervievatului.

Capitolul acesta rămîne dator cu o importantă parte calculatorie. Aşa cum am pomenit de mai
multe ori pentru sondajele efectuate cu eşantionare statistică aleatoare se poate calcula o aşa-
zisă marjă de eroare, adică o eroare acceptabilă a estimărilor statistice. Pentru a putea prezenta
modul de calcul al acestei marje de eroare este însă necesară o prezentare mai amănunţită a
distribuţiei normale. În fine, însăşi calculul marjei de eroare este legat de testul t pe care îl
vom prezenta în prima parte a capitolului 5 al acestei cărţi împreună cu distribuţia normală.
Am decis să grupez elementele mai matematizate separat de cele discursive pentru a facilita o
parcurgere graduală a materialului şi reduce riscul abandonului lecturii de către cei care resimt
un disconfort la prima întîlnire a unei formule matematice. Sper să fi reuşit măcar în parte.

47
Capitolul 4. Aperitive. Primii paşi în descrierea datelor statistice

În precedentele două capitole am văzut ce tipuri de date foloseşte statistica şi cum le adună. În
acest capitol voi prezenta cele mai simple şi des folosite metode de reprezentare a datelor.
Indiferent cit de departe s-ar merge cu analiza datelor şi cît de sofisticate ar fi metodele
folosite în cele din urmă, o analiză exploratorie a datelor se face întotdeuna. În acest capitol
vom vedea cum punem prima dată mîna pe un set de date, cum ne apropiem de el, cum îl
facem inteligibil.

Seturile de date culese prin sondaj sau referendum fie că le-am produs noi înşine, le-am
preluat de la instituţii oficiale sau de la alţi cercetători se pot înţelege şi uneori chiar vizualiza
sub forma unor tabele. Fiecare linie corespunde de obicei unui individ şi fiecare coloană unei
variabile. Uneori chiar se culeg datele pe teren folosind astfel de tabele numite fişe de
răspuns. Pe de altă parte, toate programele pe calculator care lucrează cu date statistice le
reprezintă sub această formă, fie că e vorba de Excel, folosit uneori şi pentru prelucrări
statistice primare, fie că e vorba de soft-uri specializate ca SPSS, Stata, Statistica, Gauss sau
altele. În imaginea de mai jos se vede un fragment al unui set de date în Stata.

48
O astfel de tabelă are în mod curent peste 1000 de linii şi zeci sau chiar sute de coloane.
Afişarea în sine a tabelei nu permite ca atare o citire prea facilă şi nu prea poate duce la vreun
fel de consideraţii inteligente. E pur şi simplu prea mare, plină de cifre şi lipsită de sensuri.
Deci, ce facem?

a. Imagini de ansamblu asupra datelor. Frecvenţe şi reprezentări grafice.

Prima idee este de a prezenta în vreun mod simplu şi concis cîte o variabilă, adică o coloană a
tabelei de date.

Să presupunem că respectiva coloană conţine răspunsuri legate de frecvenţa gătitului în


familiile din Baia Mare3. 1051 de intervievaţi au răspuns la întrebarea: “Cît de des se găteşte
la dumneavoastră în familie?”. Răspunsurile posibile au fost “zilnic”, “de mai multe ori pe

3
Valorile sunt reale şi provin dintr-un sondaj efectuat în 2003. Populaţia a fost populaţia oraşului Baia Mare,
eşantionarea a fost multistadială aleatoare cu itinerariu cu luarea în considerare a cartierului de reşedinţă,
densitatea de locuire a acestuia si a genului intervievatului. Interviurile s-au efectuat la domiciliul subiecţilor
între orele 16 şi 21 asigurîndu-se prezenţa majorităţii celor angajaţi în cîmpul muncii.

49
săptămînă”, “săptămînal” şi “mai rar”. Tabelul cu rezultate ar avea 1051 de linii şi nu da o
imagine prea clară asupra distribuţiei datelor. Modul de a reprezenta inteligibil şi scurt
valorile ar fi să număr apariţiile fiecărei valori şi să le prezint sintetic aşa cum apar în tabelul
de mai jos. Numărul de apariţii ale unei anumite valori se numeşte frecvenţă. De aceia un
astfel de tabel se numeşte de obicei tabel de frecvenţe sau uneori tabel de frecvenţe simple
pentru că se referă la o singură variabilă.

Valoare Frecvenţă Procent Procent cumulat


Zilnic 547 52,0% 52,0%
de mai multe ori pe săptămînă 476 45,3% 97,3%
Săptămînal 26 2,5% 99,8%
mai rar 2 0,2% 100,0%
Total 1051 100%

Cum interpretăm, sau mai exact cum citim o astfel de tabelă? Să observăm întîi că variabila în
cauză este ordinală, chiar dacă forma ei are un caracter total nenumeric există o ordine bine
definită. Prima coloană de valori numerice, sub titlul de frecvenţă prezintă numărul de
persoane intervievate care au ales acest răspuns, a doua coloană ne dă ponderea procentuală a
răspunsului iar a treia cumulează acest procentaj cu procentajele din categoriile cu valoare
mai mică. Frecvenţa şi procentajul simplu se pot calcula pentru orice tip de variabilă, ele nu
fac calcule cu variabila în sine ci cu frecvenţa ei de apariţie. Procentajul cumulat are sens
numai la variabile care au o ordine definită, astfel un procentaj cumulat pentru variabile
nominale, deşi poate fi calculat, are mai puţin sens.

Ce aflăm din tabela de mai sus? În primul rînd faptul că răspunsurile s-au grupat în zona “cu
gătit frecvent”. Peste jumătate din cei întrebaţi susţin că la ei în familie se găteşte zilnic.
Numărul celor care susţin că la ei se găteşte mai rar decît săptămînal este foarte foarte mic,
numai două persoane din eşantion au răspuns astfel. Observăm de asemenea că peste 97%
dintre intervievaţi declară că la ei în familie se găteşte de mai multe ori pe săptămînă.

Paragraful de mai sus este o simplă transcriere a principalelor rezultate ale tabelei de
frecvenţe. Strategia ei este simplă şi se foloseşte des. Ea începe cu prezentarea valorii cel mai
des întîlnite. În cazul nostru este valoarea “zilnic”, apoi se trece la valoarea cea mai rară. La

50
variabile ordinale se obişnuieşte eventual o prezentare a capetelor scalei. În cazul de mai sus
este vorba despre aceleaşi valori. Apoi se prezintă rezultate cumulative, dacă au sens. O
precuaţie mare trebuie avută la menţionarea valorilor numerice. Aici se poate induce în eroare
destul de mult. Un obicei bun este de a nu se specifica valorile procentuale de după virgulă.
După dorinţă se poate trunchia sau rotunji. Statistica este o estimare cu o anumită eroare.
Prezentarea unor valori cu tot cu zecimale produce impresia unei exactităţi pe care nu o putem
promite cu conştiinţa curată.
O a două regulă legată de prezentarea procentajelor se referă la valorile rare. În cazul unor
categorii cu număr mic de cazuri valorile procentuale pot induce în eroare. Aceasta se
întîmplă în special atunci cînd procentajele se calculează pe volumuri populaţionale care
oricum sunt mici. Deci, spuneţi numărul de cazuri şi nu procentajul aferent unei valori cand
acest număr e mic. Ce înseamnă mic depinde de decizia fiecăruia dar este de bun simţ să
considerăm o opţiune rară una care nu are mai mult de 10-15 cazuri. Pe de altă parte în
general statistic se consideră un lot mic, un lot cu mai puţin de 30 de cazuri. Cum spuneam,
conştiinţa fiecăruia şi particularităţile cercetării trebuie să decidă în cele din urmă.

Tabelele de frecvenţe sunt adesea însoţite de grafice. O prezentare grafică este pentru mulţi
cititori mai confortabilă, permite de obicei o înţelegere mai rapidă a unor trenduri sau
distribuţii. Există însă multe feluri de prezentări grafice şi nu toate se potrivesc pentru orice
situaţie.

Graficele cele mai simple şi generale, valabile în aproape toate situaţiile sunt graficele cu
bare. Ele pot fi folosite şi în cazul variabilelor nominale şi nici nu depind prea mult de
numărul de valori pe care variabila le poate lua. Iata mai jos un exemplu pentru variabila
prezentată deja.

51
60,0%

50,0%

40,0%

Procent 30,0%

52,05%

45,29%
20,0%

10,0%

2,47%
0,0% 0,19%
zilnic de mai multe ori pe saptamanal mai rar
saptamana
27. Cat de des se gateste la dvs. in familie?

Dimensiunea barelor trebuie să fie proporţională cu valoarea variabilei. Iată un frumos


exemplu din presă cum nu se face un grafic simplu:

În exemplu, valorile de pe bare nu au nici o legătură cu dimensiunea barelor. Exemplul cel


mai flagrant este la graficul din mijloc: bara cu valoarea dată de 82 este mai mare decît cea cu
valoarea 98, la rîndul ei mai mare decît cea de 108. Una peste alta trendul crescător este
anulat, chiar inversat. Mai mult, bara cu salariul mediu din 1990, valoarea 153 USD este mult
mai mare decît bara cu salariul mediu din 2005, valoare 257 USD. Exceptînd că datele nu
prea au legătură cu cele oficiale, dimensiunea greşită a barelor crează impresia unui nivel
salarial din 1990 neatins în prezent. Părea simplu de făcut un grafic cu bare. Uite că se poate
da în bară şi aici.

În graficele cu bare pot apărea valorile pe baza căruia a fost construit fie procentual fie ca şi
frecvenţe. Dimensiunea barelor va fi desigur aceiaşi fie că s-a ales reprezentarea pe baza

52
valorilor absolute sau procentuale. Tot ce se schimbă este scala axei verticale. Forma şi
culoarea barelor pot fi desigur diverse. Clar este că vizualizarea oferă un acces mai direct la
informaţie şi permite aceasta şi unor cititori care preferă să nu aibă de a face cu valori
numerice dacă nu este neapărat necesar.

Pe lîngă graficele cu bare mai sunt şi alte variante care însă se potrivesc mai degrabă unor
situaţii particulare. De exemplu, graficul de tip plăcintă (sau tort, cum preferaţi) prezintă
valorile ca şi felii dintr-o arie de disc. Un asemenea grafic este deosebit de potrivit pentru
reprezentarea procentajelor pentru că transmite bine faptul că valorile împart un tot, o
populaţie, în categorii.

27. Cat de des se


gateste la dvs. in
familie?
zilnic
2,47% de mai multe ori pe
saptamana
saptamanal
mai rar

45,29% 52,05%

Graficul plăcintă de mai sus într-adevăr ne dă o imagine mai clară cît de puţin reprezintă din
ansamblu procentajul de 0,2% şi chiar cel de 2,5%. Un alt avantaj al graficului plăcintă este
posibilitatea de evidenţiere a unei felii considerate importante. De exemplu:

53
27. Cat de des se
gateste la dvs. in
familie?
zilnic
2,47%
de mai multe ori pe
saptamana
saptamanal
0,19% mai rar

45,29% 52,05%

Pe de altă parte dacă variabila ar fi avut un număr mare de valori folosirea unei diagrame
plăcită ar fi fost mai degrabă menită să inducă în eroare. Iată un exemplu comparativ cu un
grafic cu bare şi unul plăcintă pentru o altă întrebare din acelaşi sondaj.

54
2. De unde va place
cel mai mult sa va
faceti
cumparaturile?
30,0%

piata agro-
alimentara
supermarket
butic
Center
Procent

20,0%
chiosc
magazin
specializat
centru comercial
depozit en-gros
Metro
10,0%
Hoffer
Profi
nu am loc preferat
Mol
moldova

0,0%
su gro

de co iali
pi

bu

ch r

ce in

M it en ial

nu

m
H

Pr
en

of
at

ag

et

ol

ol
pe

of
io

nt

po me zat
tic rke nta

am
fe
a

do
ro -gr
te

sc

ru pec

i
az
rm alim

r
a

va
lo
a

c
s
-

pr
t

rc

ef
os

er
e

at
ra

2. De unde va place cel mai mult sa va faceti


cumparaturile?

Graficul plăcită transmite poate o imagine de ansamblu interesantă dar nu prea poate fi citit
atunci cînd sîntem interesaţi şi de opţiunile mai rare.

O altă problemă a graficului plăcintă este că se pretează în special variabilelor nominale. Dacă
în graficul cu bare, precum şi în alte forme de grafice o ordine a valorilor este vizibilă la un
grafic plăcintă o astfel de ordine nu se percepe. Evident, în cazul variabilelor nominale nici nu
ne dorim o asemenea ordine.

Al treilea tip de grafic foarte răspîndit este graficul linie. Acesta seamănă cel mai mult cu
graficele de funcţii matematice aşa cum se învaţă la şcoală. Crează deci senzaţia unei ordini a
valorilor şi chiar unei continuităţi. Ca atare nu merge la variabile nominale în nici un caz, dar
nu e de dorit nici la variabile ordinale. Este însă ideal pentru valori numerice fie ele
intervalice, fie raţionale şi în special cînd numărul valorilor e mare. Ca în exemplul de mai
jos.

55
40

30

valori absolute
20

10

41
43
45
47
49
7

21
23
25
27
29
31
33
35
37
39

51
53
55
57
59
61
63
65
67
69
71
73
75
77
80
83
17
19

59. Cati ani aveti?

Graficul reprezintă distribuţia pe vîrste a eşantionului din cercetarea din care am tot dat
exemple în acest capitol. Pe axa orizontală se găsesc vîrstele celor ce au răspuns la întrebări,
pe verticală e numărul persoanelor de o anumită vîrstă.

Pe scurt deci: graficele cu bare merg în aproape orice situaţie, plăcintele sunt perfecte pentru
variabile nominale şi în special dacă au un număr mic de valori, graficele linie se potrivesc la
variabile raţionale şi intervalice şi în special dacă au un număr mare de valori.

Pe lîngă aceste trei tipuri, care sunt într-adevăr cele mai răspîndite, există o serie de alte
variante, grafice suprafaţă, diagrame de puncte, histograme, precum şi o serie întreagă de
grafice care sunt legate de anumite prelucrări statistice cum ar fi graficele de regresie, de
cluster, şi altele. Unele le vom pomeni la momentul oportun, altele nu.

Încă un comentariu. Nu am pomenit de felul cum se pot analiza graficele, pur şi simplu pentru
că părerea mea este că nu trebuie analizate graficele, ci datele care se află în spatele lor. Un
grafic este o prezentare vizuală, desigur confortabilă şi deosebit de utilă, dar nu conţine mai
mult decît tabelul pe baza căruia a fost creat. Poate însă induce în eroare mult mai mult. Luînd
prea de bune ce vedem pe grafic putem să supraevaluăm, de exemplu, tendinţe care statistic
nu sunt relevante. Un grafic simplu, precum cele din exemplele de mai sus nu spune cu nimic
mai mult decît un tabel de frecvenţe. Totuşi privind graficul există o tentaţie de a spune, de a
vedea mai mult. Aceasta este desigur benefică dacă ne ajută să alegem testele de care avem
nevoie în continuare, dar total malefică dacă ne duce la concluzii fără să mai calculăm nici un

56
fel de teste, cum de altfel se mai întîmplă. Deci, precauţie şi sfatul meu este, prezentaţi
graficele dar analizaţi rezultatele de calcul.

Toate graficele din exemplele din această secţiune s-au referit la prezentarea unei singure
variabile. Există desigur diferite moduri de a prezenta mai multe variabile pe acelaşi grafic. În
capitolul 6. al acestei cărţi voi încerca să dau ceva amănunte despre cum se lucrează statistic
cu relaţia dintre mai multe variabile. Voi începe cu tabelele de relaţionare care într-un fel sunt
similare tabelelor de frecvenţe pentru cazul a două (sau arareori trei) variabile. Atunci voi
prezenta şi graficele aferente acestor tabele, aşa cum acum am pus unele lîngă altele tabele de
frecvenţe şi graficele simple în acest capitol.

b. Indicatori agregaţi

Indicatorii statistici agregaţi sunt valori calculate pe baza uneia sau mai multor variabile şi
care ne oferă informaţii despre ansamblul valorilor variabilei sau despre valorile variabilei
privite ca un grup de date. De obicei se identifică, mai mult sau mai puţin forţat, întreg
domeniul statisticii descriptive cu indicatorii statistici.

Care sînt însă aceşti indicatori? Vrînd, nevrînd fiecare dintre noi ne-am lovit de mediile
aritmetice dacă nu şi de alţi indicatori. În secţiunea aceasta o să prezint indicatorii principali
pentru analiza tendinţei centrale şi distribuirii datelor, apoi în capitolul 6. voi reveni la cîţiva
indicatori care ne ajută să analizăm relaţia dintre mai multe variabile.

I. Tendinţa centrală.

Sub numele acesta un pic pretenţios se ascund diferite feluri de a calcula media unor variabile.
Ca atare s-ar putea să fie aparent uşor de înţeles ce este tendinţa centrală a unei variabile, aşa
cum desigur este uşor de înţeles şi de ce este ea atît de criticată ca şi mod de a descrie un grup
de date. De aceea, cred că pot să scap fără să mai dau şi o definiţie.

Principalul indicator pentru tendinţa centrală este media aritmetică simplă. Pe lîngă faptul că
destul de rar calculul unei medii dă informaţii relevante despre o variabilă trebuie să
menţionăm şi faptul că uneori calculul mediei este chiar greşit conceptual. Pentru
corectitudine să prezentăm însă un exemplu şi, bineînţeles, prima formulă din această carte.

57
Să presupunem că am cules numărul de la pantofi a studentelor din seminarul nostru de
statistică. Rezultatul ar putea fi sintetizat într-o tabelă în felul următor.

Nume Număr Media = ( NumărAna + NumărIoana + NumărOana


Ana 37 + NumărSimona + NumărOlivia +
Ioana 36 NumărAngela + NumărCarla +
Oana 38 NumărNadina ) / 8
Simona 38
Olivia 39
Angela 39
Carla 37
Nadina 39
Media 37,88

58
Media a fost calculată astfel: s-au adunat toate valorile din coloana Număr aferente numerelor
de pantofi şi apoi suma s-a împărţit la numărul fetelor, adică la 8. Valoarea finală, care apare
şi pe ultima linie a tabelei este media aritmetică a numerelor la pantofi a fetelor din grupa de
seminar. Şi această medie este 37,88. Ne spune asta ceva? Sigur. Anume că media numerelor
la pantofi ale fetelor din această grupă de seminar este 37,88. Ne poate spune mai mult decît
atît? Nu, în nici un caz. Ne poate fi de vreun folos? Depinde.

În general media unei variabile x se notează cu x¯, µ(x), µx sau cu E(x), unde E provine din
engleză de la expectancy. De altfel, media se mai numeşte şi în limba romană uneori,
aşteptare statistică. Originea acestei denumire vine de la media măsurătorilor repetate ale
aceluiaşi reper. Media măsurătorilor reprezintă, statistic vorbind, apropierea cea mai bună de
valoarea reală care se măsoară, de aceea media este valoarea “aşteptată” a măsurătorii.

Calculul simplu al mediilor este arareori util în sine. Poate, de exemplu, dacă se face design-ul
unui ascensor, o informaţie despre greutatea medie a unei persoane dintr-o anumită populaţie
poate fi importantă pentru că ar sta la baza specificării numărului maxim de persoane care pot
călătorii de o dată cu ascensorul. Pe de altă parte, media poate fi un bun indicator comparativ.
De exemplu, dacă greutatea medie a unui student de la facultatea de litere e mai mică decît
greutatea medie a unui student de la facultatea de mecanica (ceea ce este desigur adevărat!)
această informaţie poate avea o anumită valoare în contextul unei cercetări. Aşa cum vom
vedea există teste statistice care compară medii ale unor variabile pe eşantioane diferite pentru
a avea indicii dacă populaţiile din care s-au ales aceste eşantioane diferă din prisma
variabilelor studiate. Deci, media aritmetică poate fi o apropiere facilă, deşi superficială
pentru a vedea dacă două, sau mai multe populaţii diferă. Să luăm de exemplu ipoteza
următoare: “nu există diferenţe între studenţii de la mecanică şi cei de la litere.” Un test poate
respinge această ipoteză dovedind că există o diferenţă de greutate medie relevantă între
aceste două populaţii. Deci ceva diferenţe trebuie să existe între cele două populaţii. Pentru
cei ce încă nu s-au prins, diferenţa de greutate vine din faptul că ponderea fetelor este
incomparabil mai mare la facultatea de litere decît la facultatea de mecanică şi fetele sînt, în
medie mai uşoare decît băieţii.

Sigur, butada cu omul care stă cu un picior într-un lighean cu apă clocotită şi cu unul într-un
lighean cu apă cu gheaţă dar în medie ar trebui să-i fie bine, este strict matematic corectă.

59
Totuşi, media este un indicator comparativ valoros tocmai pentru ca este simplu şi induce în
eroare doar atunci cînd îi conferim un conţinut informaţional mai mare decît are.

Cea mai mare problemă legată de medii este calculul acestora atunci cînd variabilele nu
permit aceasta. Principial matematic este corect să calculăm medii atît pentru variabile
raţionale cît şi pentru variabile intervalice. Astfel media greutăţii sau a înălţimii (care sunt
variabile raţionale) sunt conceptual la fel de corecte ca şi media temperaturilor sau a orelor de
deşteptare (care sunt variabile intervalice). În toate aceste cazuri media are sens pentru că
calculul diferenţelor este consistent. Adică, dacă din 5 kg de orez vindem 3 kg ne rămîne la fel
de mult ca atunci cînd vindem dintr-un stoc de 60 kg, 58 kg. Şi de asemenea dacă am dormit
de la ora 5 dimineaţa pînă la ora 12 înainte de masă am dormit tot atîtea ore ca şi de la 10
seara pînă la 5 dimineaţa, atîta doar că poate sînt mai mahmur în primul caz. Deci sumele şi
diferenţele precum şi împărţirea la scalar (adică la numere şi nu la variabile aleatoare) este
consistentă atît pentru variabile raţionale cît şi pentru variabile intervalice.

Pe de altă parte nimeni nu cred că intenţionează să calculeze media unor variabile nominale,
chiar dacă ele au reprezentare numerică, cum sunt de exemplu numerele de pe tricourile unor
jucatori de fotbal. Astfel de valori, deşi sunt formal numere, sunt esenţial nume date unor
indivizi şi media lor nu are nici un sens.

Greşeala care se face însă adesea este calculul mediilor unor variabile ordinale. Este o
greşeală care este foarte adesea acceptată pentru că extinde de fapt calculul mediilor şcolare la
cercetarea socială. Nici notele de la şcoală nu sunt mai mult decît variabile ordinale. Cum am
mai spus, mulţi profesori ar accepta faptul că diferenţa dintre o notă de 7 şi una de 8 este mai
mică decît diferenţa dintre un 4 şi un 5. Totuşi, suntem învăţaţi cu mediile şcolare şi nu ne
punem problema unei posibile incorectitudini rezultate din procedura de mediere în sine.
Mediile oricăror variabile ordinale sunt desigur similare ca şi relevanţă cu acest caz. Atunci,
de ce să nu acceptăm astfel de calcule? Ei bine, departe de mine gîndul cum că o decizie
asupra vieţii unui elev e mai puţin importantă decît o cercetare ştiinţifică. Este însă un fapt că
medierea notelor este un fapt acceptat cu tot cu defectele pe care le are ca indicator pentru
nivelul de pregătire a unui elev pe o durată mai mare de timp sau chiar pentru un grup de
domenii ale cunoaşterii. Media şcolară greşeşte desigur atunci cînd aduce la egalitate o medie
de 7 rezultată dintr-un 10 şi un 4 cu o medie care s-a obţinut dintr-un 8 şi un 6. Probabil mai
greşeşte şi atunci cînd face media dintre note date de cadre didactice diferite. Ştim cu toţii că

60
anumiţi profesori înclină să dea note mai mici decît alţii. Astfel, pentru un 7 la un anumit
profesor s-ar putea să fie necesare cunoştiinţe mai multe decît pentru aceiaşi notă la un alt
profesor. Toate aceste consideraţii sunt cunoscute şi fac parte din bunul simţ comun pentru
oricine a trecut prin învăţămînt. Nu este însă aşa în cazul unei cercetări sociale. Variabilele
care se mediază acolo nu sunt atît de discutate ca şi notele noastre de la şcoală, ca să nu
pomenesc de notele copiilor noştrii! Ca atare relaţiile care se maschează prin calcul nu sunt
atît de evidente ca cele pe care le maschează media şcolară. Mai mult decît atît, relaţiile s-ar
putea să nici nu fie cunoscute. Aceasta e suficient pentru ca în cazul mediilor variabilelor
ordinale dintr-o cercetare statistică să fim cu adevărat induşi în eroare.

Alţi indicatori ale tendinţei centrale sunt modul şi mediana.

Modul unei variabile statistice este pur şi simplu valoarea care apare cel mai des printre datele
culese. De exemplu, în exemplul de mai sus, numărul la pantof 39 apare de 3 ori, mai des
decît oricare altă valoare. 39 va fi deci modul sau, cum se mai spune “modul distribuţiei”.
Determinarea modului nu presupune nici un calcul, ba mai mult nici măcar o ordine a
valorilor. Se poate deci stabili care e modul religiei sau cetăţeniei într-un grup de persoane,
deşi aceste variabile sunt nominale. Nu există nici o restricţie pentru folosirea modului. Pe de
altă parte spunînd că modul distribuţiei religiei în populaţia Timişorii este “creştin-ortodox”
nu spunem decît că în Timişoara sunt mai mulţi creştin-ortodoxi decît membrii ai oricărei alte
religii. Bineînteles folosind termenul de mod, propoziţia este mai greu de înţeles şi sună mai
ştiinţific. Deşi eu aş sfătui împotriva unei exprimări criptice inutile, sunt situaţii în care poate
fi de folos în contactul cu clienţi mai snobi!

Dezavantajul esenţial al modului este că ne spune chiar mai puţin decît media. Practic aflînd
care e valoarea care apare cel mai des în eşantion eliminăm din informaţia transmisă o mare
parte a datelor culese. Dacă media se calcula totuşi din toate datele culese, modul nu reflecta
decît o parte a datelor culese. Ca atare determinarea şi raportarea modului au sens numai la
variabile nominale, unde altceva nu se poate folosi.

Mediana este un indicator al tendinţei centrale care este gîndit esenţialmente pentru variabile
ordinale. Mediana necesită existenţa unei ordini între valorile culese dar nu şi efectuerea unor
calcule. Să revenim deci la picioarele fetelor. Pentru a determina mediana valorile culese se
ordonează, aşa cum se vede din tabelul de mai jos:

61
Nume Număr
Ioana 36
Ana 37
Carla 37
Oana 38
Simona 38
Olivia 39
Angela 39
Nadina 39
Mediana 38

Mediana este valoarea care apare la mijlocul listei. În cazul nostru este 38, valoarea de pe
poziţia a 4-a şi a 5-a dintr-o listă de 8 cazuri. Dacă am fi cules 1001 de valori, valoarea de pe
poziţia 501 ar fi fost mediana. Precum se vede, mediana poate avea şi două valori diferite în
cazul în care lista are un număr par de elemente. Vorbim atunci de valorile mediane. Uneori
se calculează o medie artimetică între cele două valori mediane, aceasta însă este desigur un
fel de prostie pentru ca decizia de a folosi mediana se ia tocmai acolo unde nu este indicată
calcularea unei medii aritmetice.

II. Distribuţia datelor

Aşa cum am văzut şi din exemplele precedente, media este adesea desconsiderată pentru că
obturează distribuirea datelor. O medie de 7 poate rezulta dintr-un 4 şi un 10 la fel ca şi dintr-
un 8 şi un 6. O temperatura medie de 250 C poate rezulta dintr-o maximă diurna de 300 C şi o
minimă noctura de 200 C sau dintr-o maximă diurnă de 500 C şi o minimă nocturnă de 00 C.
De aceea atunci cînd se descrie statistic o variabilă, media se dublează întotdeuna de un
indicator care să ne transmită cît de departe sunt distribuite datele în jurul mediei.

Există mai multe metode de calcul ale distribuirii datelor. Am ales să le parcurg în ordinea
complexităţii calculului. Prima data însă o consideraţie. Distribuţia datelor implică un sens al
distanţei faţă de medie. Spunem că datele sunt mai îndepărtate sau mai apropiate de medie.
Aceasta presupune desigur o ordine şi nu se poate aplica unor variabile nominale. Ca atare

62
distribuţia datelor se poate măsură numai în cazul variabilelor care sunt măcar ordinale.
Precum vom vedea majoritatea indicatorilor necesită chiar variabile intervalice sau raţionale.

Variantele cele mai simple sunt desigur cele gîndite pentru variabile ordinale. Toate acestea se
bazează pe ordonarea valorilor din listă şi aplicare unei metode care se bazează pe conceptul
de interval. Hai să revedem lista cu numerele de pantofi.

Nume Număr
Ioana 36
Ana 37
Carla 37
Oana 38
Simona 38
Olivia 39
Angela 39
Nadina 39
Mediana 38

Intervalul este format întotdeuna din două valori. Intervalul simplu este perechea formată din
valoarea cea mai mică şi cea mai mare care au fost culese. În cazul nostru intervalul datelor
este (36, 39).

Am vazut că mediana împarte lista în două. O astfel de împărţire se poate face în continuare şi
în cele două jumătăţi astfel lista întreagă se împarte în patru părţi numite cvartile. Se obţin
două valori noi care sunt de fapt medianele jumătăţilor de listă. Perechea lor este intervalul
intercvartilic, în cazul nostru (37, 39).

Se preferă uneori intervalul intercvartilic intervalului simplu al tuturor datelor deorece astfel
se elimină valorile extreme. Se poate întîmpla ca într-un eşantion că apară cazuri extreme,
rare care să denatureze rezultatele. Evident astfel de cazuri vor fi însă puţine. La urma urmei,
dacă nu ar fi puţine nu ar mai denatura rezultatul, ci ar fi chiar parte esenţială a acestuia!
Utilizînd intervalul intercvartilic avem un termen de comparatie care nu ia în seamă cazurile
rare, extreme, cazurile outlier (periferice).

63
Reprezentarea de mai jos sper sa clarifice şi mai bine sensul intervalului intercvartilic.

Ioana Ana Carla Oana Simona Olivia Angela Nadina


36 37 37 38 38 39 39 39
Prima cvartilă A doua cvartilă A treia cvartilă A patra cvartilă
C0 C1 C2 C3 C4
Mediana

Valoarea care separă a doua de a treia cvartilă, valoarea C2, este Mediana. Intervalul (C0, C4)
este intervalul datelor, iar (C1, C3) este intervalul intercvartilic. Uneori se numeşte chiar
valoarea C1 prima cvartilă sau cvartila inferioară, C2 a doua cvartilă şi C3 a treia cvartilă sau
cvartila superioară.

Metoda pe care am prezentat-o mai sus poate desigur fi extinsă la un număr mai mare de
astfel de grupări. În general asemenea împărţiri ale datelor ordonate se numesc cvantile sau q-
cvantile unde q este numărul de intervale. Împărţirea cea mai uzuală rămîne cea în patru
grupuri, adică în cvartile (4-cvantilele), dar se mai găsesc prin literatură şi conceptele de
cvintile (împărţirea în 5 intervale de valori), decile (împărţirea în 10 intervale), percentile
(împărţirea în 100 de intervale) şi altele ale căror nume sunt construite analog.

Prezentarea intervalelor ca perechi de valori nu necesită nici un fel de calcule matematice.


Uneori intervalele se raportează însă ca diferenţe ale valorilor extreme, adică ca lungime a
intervalului. Aceasta poate fi puţin problematic în cazul variabilelor ordinale nu ridică însă
desigur nici un fel de probleme pentru variabile intervalice sau raţionale.

Folosind notaţiile de mai sus intervalul datelor (în engleză se foloseşte range) se calculează
astfel:

range = C4 – C0

adică diferenţa dintre cea mai mare şi cea mai mică valoare culeasă. Unele definiţii vorbesc în
acest context despre lungimea celui mai mic interval care conţine toate datele.

Intervalul intercvartilic, notat de multe ori IQR, este:

64
IQR = C3 – C1

O altă denumire utilizată uneori pentru intervalul intercvartilic este aceea de jumătate mediană
a datelor.

Cu aceste calcule am făcut deja un pas în direcţia indicatorilor distribuirii datelor intervalice şi
raţionale. În cazul acestor date posibilităţile de calcul fiind mult mai mare s-au căutat metode
mai compexe care să permită o descrierea cît mai completă a datelor într-o singură valoare.
Asta înseamnă că şi formulele vor fi puţin mai complicate. Există mulţi astfel de indicatori dar
am decis să mă concentrez numai pe cei ce se folosesc în mod uzual, anume abaterea standard
(numită în analogie cu termenul englezesc şi deviaţie standard) şi dispersia (numită din acelaşi
motiv şi varianţă).

Dispersia se calculează după următoarea formulă:

σ2 = 1/N ∑i=1,n (xi - x¯)2

Merită să comentez un pic formula de mai sus. Nucleul, miezul ei este o diferenţă, o abatere,
de aici şi numele indicatorului. Se scade din valoarea xi , adică valoarea variabilei x pentru
individul i media valorilor x, adică x¯. Adică, pentru început se calculează cu cît se abate
fiecare valoare culeasă de la medie. Este şi normal să procedăm aşa, la urma urmei căutăm o
valoare care să exprime cît de distribuite sunt datele, adică cît de tare se abat ele de la medie.
Dorim însă o singură valoare pentru întreg setul de date. O idee ar fi să adunăm toate aceste
abateri. Ce s-ar întîmpla daca am face aşa. Ei bine, unele abateri sunt pozitive, altele sunt
negative pentru că unele valori sunt sub medie, altele evident peste medie. Dacă am aduna
toate abaterile, valorile pozitive s-ar atenua cu cele negative şi nu am mai afla cît de
distribuite sunt datele cu adevărat. De fapt, e chiar mai grav decît atît. Suma tuturor abaterilor
va fi întotdeuna 0, şi asta din motive pur şi simplu matematice de calcul al mediei aritmetice.

De aceea ridicăm la pătrat diferenţa, abaterea. Astfel se obţine o valoare care este întotdeuna
pozitivă şi abaterile pozitive nu se mai anulează cu abaterile negative. Aşa se ajunge la
formula (xi -x)2. Apoi adunăm toate aceste abateri pentru ca să obţinem o singură valoare care
să spună ceva despre abaterea totală. Aşa ajungem la ∑i=1,n (xi -x)2. Spune oare această sumă

65
cu adevărat ceva? Ei bine, da şi nu. Da, pentru că este într-adevăr o sumă de abateri. Totuşi
nu, pentru că un număr mare de valori chiar destul de apropiate pot da aceiaşi sumă totală ca
şi un număr mic de valori care sunt mult mai îndepărtate de medie. Deci trebuie să împărţim
acest rezultat la numărul datelor culese, la volumul populaţiei studiate. De aceea împărţim
suma la N.

Rezultă formula pe care am prezentat-o şi anume:

σ2 = 1/N ∑i=1,n (xi -x)2

Unele lucrări de statistică preferă în locul dispersiei rădăcina ei pătrată σ, numită şi abatere
standard sau deviaţie standard. Ideea este că, deoarece abaterea s-a calculat cu ridicare la
pătrat, pentru a obţine un indicator care să exprime mai corect cu cît se abat cu adevărat
valorile de la medie ar trebui extras radical din valoarea rezultată din calcul. Aceasta se mai
numeşte şi abatere medie pătratică, o denumire care exprimă foarte bine modul de calcul.
Într-adevăr în calcule se face o medie, adică o sumă împărţită la numărul de valori adunate, a
abaterii ridicate la pătrat. Avantajul abaterii standard este deci acela că valoarea ei poate fi
foarte bine comparată cu media.

În viaţa reală avem însă problema de a nu putea culege toate datele unei variabile aleatoare, de
aceea şi abaterea standard sau dispersia pe care o calculăm va trebui tratată ca o estimare
bazată pe un eşantion a abaterii reale, adică a celei care există la nivelul întregii populaţii.
Atunci ceea ce vom face pentru a ne asigura că reducem riscul de a greşi, este să
supraestimăm puţin abaterea faţă de valoarea calculată prin formulă. Modul de calcul obişnuit
este înlocuirea valorii N, a volumului populaţiei cu N-1. O altă diferenţă, de astă dată pur
convenţională este notarea. Dacă de regulă dispersia calculată la nivel de populaţie ne notează
cu σ2, dispersia estimată pe baza unui eşantion se notează mai de grabă cu s2. Formula este
deci:

s2 = 1/(N-1) ∑i=1,n (xi -x)2

Analog se obţine şi abaterea standard estimată pe baza unui eşantion, s.

66
Am prezentat în acest capitol indicatorii statistici de bază pentru descrierea unei singure
variabile. Există desigur în statistică şi alţi indicatori, cum ar fi de exemplu cei de kurtosis sau
înclinare (în engleză, skewness), indicatori care se pot înţelege ca descriptivi pentru forma
distribuţiei unei variabile, adică chiar pentru felul cum arată graficul variabilei. Aceşti
indicatori sînt însă destul de rar utilizaţi în practica cercetărilor empirice, fie ele sociale sau
chiar din ştiinţele exacte. De asemenea există o serie de indicatori care descriu relaţia dintre
două sau mai multe variabile. La aceştie ne vom referi pe larg în capitolul 6.

Cum s-ar zice am terminat aperitivele, reci şi calde, grafice, frecvenţe simple şi indicatori
descriptivi. Vom trece acum, în capitolul care vine la temelia analizei statistice, supele şi
ciorbele statistice, esenţele, cum s-ar zice, adică testele statistice.

67
Capitolul 5. Supe, ciorbe şi teste statistice simple.

Testele statistice ar trebui să fie părţi obligatorii ale oricărei cercetări bazate pe statistică. Ele
sînt metodele de cunoaştere cele mai puternice în statistică. În capitolul introductiv al acestei
cărţi am discutat un pic despre felul cum cunoaşte statistica şi am prezentat conceptual şi cam
general ideea care stă în spatele testării statistice, ideea respingerii ipotezelor. În capitolul de
faţă vom vedea cum se poate face aceasta din punct de vedere tehnic, care sunt paşii,
algoritmul pentru o testare statistică.

Pentru a înţelege însă felul cum se calculează şi se analizează testele statistice e nevoie, pe
lîngă acea introducere teoretică ce ţine oarecum de filosofia metodei ştiinţifice, şi de cîteva
cunoştiinţe de matematică. Nu e mare lucru şi voi încerca să le formulez cît mai simplu.

a. Distribuţia normală

Cea mai mare parte a testelor statistice se bazează pe faptul că datele sînt distribuite “normal”.
Aşa cum am mai pomenit în capitolul introductiv, o atare presupunere este justificată prin
teorema limită centrală. Am lăsat însă complet în obscuritate ce înseamnă de fapt această
“normalitate” a distribuţiei datelor.

Să încep cu începutul. O distribuţie aleatoare sau probabilistă este o funcţie care leagă valorile
unei variabile de probabilitatea cu care pot apărea aceste valori. Corect matematic această
funcţie se numeşte densitate de probabilitate. Pentru fiecare valoare pe care o poate lua o
variabilă, densitatea de probabilitate ne spune care e probabilitatea ca această valoare să fie cu
adevărat întîlnită. Fie de exemplu, aruncarea cu banul. Avem atunci două valori, cap şi stemă
şi fiecare are probabilitatea de a apărea de ½ ori. Adică ori e cap, ori e stemă. Şi atît.
Densitatea de probabilitate va fi deci o funcţie care nu are decît două argumente posibile.
Matematic definiţia asta se scrie cam aşa:

densitate : {cap, stemă} → (0, 1)

Funcţia densitate ia valori întotdeuna în intervalul (0, 1) pentru că valorile pe care le ia sunt
probabilităţi şi probabilităţile sunt întotdeuna între 0 şi 1. Probabilitate 0 înseamnă de fapt că

68
evenimentul în cauză este imposibil, 1 înseamnă că este sigur. Valorile funţiei densitate din
exemplul nostru vor fi:

densitate (cap) = ½
densitate (stemă) = ½

Desigur densităţile de probabilitate pot fi mult mai complicate decît atît dacă valorile care le
poate lua o variabilă devin mai multe. Rămîn însă cîteva reguli clare:
1. densitatea ia întotdeuna valori între 0 şi 1.
2. suma tuturor valorilor pe care le ia densitatea, adică pentru toate
valorile posibile ale variabilei, este 1.

Distribuţia normală, numită şi Gaussiană4 este de fapt o familie de mai multe distribuţii cel
mai bine caracterizabile prin funcţiile lor de densitatea care se pot descrie cu o singură
formulă dependentă de doi parametrii. Graficul acestor funcţii, numit şi Gaussiană, curba lui
Gauss sau clopotul lui Gauss este foarte cunoscut chiar dacă nu întotdeuna bine înţeles.

Să aruncăm o privire la un astfel de clopot al lui Gauss înainte de a merge mai departe.

4
Atribuirea distribuţiei normale lui Gauss nu este întru totul corectă. Deşi Gauss a avut un rol important în
analiza distribuţiei normale nu el a fost cel ce a definit-o ci de Moivre în 1734, deci mulţi ani înainte de lucrările
lui Gauss pe această temă, publicate în 1809. De asemenea nu el a fost cel ce a denumit curba clopot. Aceasta i
se datorează lui Jouffret şi a avut loc mai tîrziu, în 1872.

69
Ca pe orice grafic de funcţie pe desenul de sus avem reprezentate puncte care corespund unor
valori de pe două axe. Axa x a unei funcţii densitate de probabilitate reprezintă întotdeuna
valorile pe care le poate lua variabila descrisă. Aşa cum la variabila “aruncarea cu banul”
acestea erau “cap” şi “stema”, la o distribuţie normală valorile sînt toate numerele reale.

Distribuţia din grafic se mai numeşte şi distribuţia normală standard, dar vom mai reveni la
acest fapt. Să vedem prima dată ce ne mai poate spune graficul de mai sus. În primul rînd,
distribuţia normală este o distribuţie continuă. Adică funcţia de densitate are valori de
probabilitate pentru toate punctele de pe axa x, nu doar pentru anumite puncte. Mai simplu
spus, densitatea de probabilitate e o curbă continuă, fără întreruperi, orice valoare de pe axa x
are un corespondent pe curbă.

Mai mult, deşi din grafic nu rezultă foarte clar, va trebui să mă credeţi pe cuvînt că distribuţia
normală este şi nemărginită. Adică orice valoare poate fi atinsă, doar că unele se ating cu
probabilitate foarte, foarte mică.

Pe grafic, forma de clopot a curbei rezultă din faptul că valorile pe care le poate atinge
variabila se adună în jurul unui punct anume. În varianta standard, cea din desenul de mai sus,
acest punct este valoarea 0. Faptul că aici curba se ridică la punctul ei cel mai înalt înseamnă
de fapt că această valoare e atinsă în culegerea variabilei cu probabilitatea cea mai mare, de
aproape 0,4 sau 40%. Pe măsură ce ne îndepărtăm de acest punct central probabilitatea scade
continuu, astfel încît valori mai mici decît -4 sau mai mari decît +4 se ating cu probabilităţi
aproape nule, fiind aproape imposibil de întîlnit practic.

Deci, dacă culegem date ale unei variabile distribuite normal standard avem cele mai multe
şanse să le găsim în apropierea punctului 0 şi mai mult decît atît, o valoare va avea şanse de
apariţie cu atît mai mici cu cît e mai departe de 0.

Clopotul este în plus simetric faţă de punctul central 0. Probabilitatea aferentă unei valori a
este aceaşi ca şi pentru –a. Această simetrie este un motiv suficient pentru a observa că
valoarea centrală, punctul 0 în cazul desenului de mai sus, este mediana distribuţiei, dar în
acelaşi timp şi media şi modul distribuţiei normale.

70
Spuneam că distribuţiile normale formează o familie. Există două caracteristici care determină
distribuţia normală: media şi abaterea standard (sau dispersia, e totuna de fapt). Dacă revenim
la grafic, o modificare a mediei va împinge pur şi simplu întregul grafic mai la stînga sau mai
la dreapta. Pe de altă parte, o modificarea a abaterii va face ca datele să fie distribuite mai
larg. Adică, pe măsură ce creşte abaterea standard curba devine mai plată, probabilitatea unor
valori mai îndepărtate de medie crescînd şi bineînţeles aducînd după sine scăderea
probabilităţii aferente mediei. Aceasta are loc pentru că, aşa cum am mai scris, suma tuturor
probabilităţilor posibile ale unei densităţi de probabilitate trebuie să rămînă 1. Dacă abaterea
standard e mai mică, probabilitatea unor valori îndepărtate de medie e desigur şi ea mai mică
şi curba se ascute crescînd probabilitatea valorilor apropiate mediei. Forma standard din
graficul de mai sus se obţine pentru o medie 0 şi o abatere standard 1.

În graficul de mai sus sunt reprezentate 4 distribuţii normale diferite, pe lîngă cea standard
avem o distribuţie cu media schimbată la o valoare mai mică, -2 şi dispersia micşorată la 0,5.
Avem pe grafic şi trei distribuţii cu media egală cu 0. Una este distribuţia standard, iar alte
două au dispersii schimbate, una cu o dispersie mai mare, de 5 şi una cu o dispersie mai mică,
de 0,2. Se vede cum distribuţia cu dispersie mare, adică cu valorile distribuite mai larg e mult
aplatizată, iar disribuţia cu dispersie mică e mai ascuţită decît varianta standard.

71
Am ocolit pînă acum formula funcţiei de densitate reprezentate aici. Formula este destul de
complexă, dar pot linişti pe oricine, o cunoaştere a ei nu este necesară pentru aplicarea, citirea
şi analiza corectă a unor teste statistice şi nici măcar pentru alte procedee statistice chiar mai
avansate.

Densitatenormală =

În formula de mai sus, s-a notat, ca de obicei, cu µ media şi cu σ abaterea standard. Distribuţia
normală de medie µ şi abatere standard σ, adica dispersie σ2 se notează în general N(µ, σ2).
Aşa cum am văzut mai sus distribuţia normală standard este deci N(0, 1).

Înainte de a vedea cîteva proprietăţi importante ale distribuţiei normale, să mai luăm o pauza
de la partea prea tehnică ca să povestim despre frecvenţa de apariţie a distribuţiei normale.
Cum am mai pomenit în capitolul introductiv, distribuţia normală este esenţială în statistică
din cauza teoremei limită centrală. Să rememorăm puţin ce zice aceasta.

Dacă avem un număr mare de variabile aleatoare, despre care ştim foarte puţine, anume
numai că au aceiaşi medie şi dispersie, suma lor tinde la o distribuţie normală cînd numărul
lor tinde la infinit. Mai mult dacă aceste variabile aleatoare au media µ şi abaterea standard σ
atunci normala la care tinde suma lor este N(nµ, σ2n). Redefinind variabilele din sumă printr-
un procedeu numit standardizare acestă normală poate fi înlocuită cu distribuţia normală
standard N(0, 1). Acum sa vedem ce înseamnă toate acestea. Dacă avem un bun motiv să
credem că evenimentele pe care le studiem sunt determinate de o gramadă de variabile care se
însumează în efectele lor atunci e de bun simţ să considerăm tot ce nu am luat în seamă în
cercetarea noastră, adică acei factori de eroare ca fiind distribuţi normal. Pe o atare
presupunere se bazează aproape întreaga teorie a testelor statistice. Există deci o multitudine
de situaţii în care putem fi liniştiţi că aşa se întîmplă. Putem fi siguri că comportamentul uman
sau instituţional depinde de foarte mulţi factori pe care nu îi cunoaştem. Toţi aceşti factori vor
influenţa relaţiile dintre variabilele pe care le studiem ca un fel de distorsiuni, ca nişte erori
permanent prezente, inevitabile. Pe de altă parte aceste erori vor fi predictibile în forma lor.
Fiind normale ele vor arăta ca o curba clopot standardizată. Adică probabilitatea ca ele să fie 0
va fi mai mare decît oricare altă valoare pe care o pot lua. Mai mult probabilitatea ca eroarea

72
să aibă o valoare anume e cu atît mai mică cu cît această valoare e mai departe de 0. Deci
zgomotul care deranjează interpretarea datelor e destul de cuminte, pe măsură ce e mai mare
în valoare (adică mai depărtat de 0), deci ar influenţa mai mult rezultatul, şansa ca el să se
producă e mai mică.

Există totuşi şi situaţii în care distribuţia normală a factorilor neluaţi în seamă în cercetare nu
are loc. În primul şi în primul rînd se întîmplă aşa dacă nu am luat în seamă un factor esenţial
pentru cele cercetate. Există factori cauzali care sunt atît de importanţi în efectul lor asupra
variabilelor cercetate încît nu pot fi luaţi la grămadă. Hai să luăm un exemplu pentru a
clarifica lucrurile. Să presupunem că dorim să cercetăm relaţia dintre veniturile angajaţilor din
armata romană şi anii de şcoală pe care i-au absolvit. Ipoteza de bun simţ este că pe măsură ce
o persoană are mai multe studii va avea şi venituri mai mari. Necazul este că nu e aşa. De ce
oare? Ei bine tocmai pentru că o variabilă importantă, cu efect mare nu a fost luată în seamă.
Şi anume vechimea. Am luat exemplul cu armata tocmai pentru că acolo poate fi cel mai
evident. Pe măsură ce o persoană îmbătrîneşte în oaste are venituri din ce în ce mai mari. Şi
cum expansiunea învăţămîntului superior este la noi un fenomen relativ recent, cei mai în
vîrstă au în general (ca să nu vorbim de grade mai mici) mai puţini ani de şcoală. Deci, cu
vechime mai mare presupune de regulă mai puţin şcolit dar mai bine plătit. Dacă luăm însă în
calcul vechimea, o controlăm cum se spune în jargonul statistic, relaţia dintre venit şi educaţie
devine cea bănuită, pozitivă. La aceiaşi vechime, cei mai bine şcoliţi sunt mai bine plătiţi.

Ei bine, ce am învăţat? Dacă există variabile care au un efect esenţial asupra variabilelor pe
care le studiem, este bine să le găsim. Lăsîndu-le în factorii de eroare nu mai putem miza pe o
sumă de multe variabile cu efect individual mic. Aşa cum se spune nimic nu e mai practic
decît o bună teorie. Trebuie deci să putem identifica teoretic toate variabilele cu efect mare şi
să lăsăm în suma factorilor de eroare numai variabile care au efecte mici oarecum egale ca
importanţă.

Un alt caz interesant este cînd efectele variabilelor neluate în seamă nu este aditiv ci
multiplicativ. Asta ar însemna că efectele nu se adună pur şi simplu ci se potenţează reciproc,
se înmulţesc. Nu e uşor de găsit exemple pentru aşa ceva, evident situaţiile fiind de fapt destul
de rare. Totuşi, după mai multe căutări şi adîncă chibzuială, iată un caz: să presupunem că
avem de făcut un studiu statistic al unui mediu ecologic. Analizăm de exemplu efectul
festivalurilor de jazz şi rock asupra crapilor comparînd numărul de crapi pescuiţi an de an în

73
timpul festivalului de la Gărîna în relaţie cu programul muzical. Evident sunt o grămadă de
variabile ecologice care au efect (probabil incomparabil mai mare decît cine cîntă la festival)
asupra populaţiei de crapi din lac. Aici intră desigur volumul populaţiilor altor peşti, plante,
păsări, insecte, şi aşa mai departe. Ei bine, peştii şi plantele depinzînd unii de alţii în lanţul
dezvoltării lor nu se pot considera ca efecte aditive. Ele sunt multiplicative5. Şi ca atare pentru
modelarea lor nu se poate recurge la teorema limită centrală în forma ei clasică.

În acestă situaţie teorema limită centrală se schimbă puţin dar nu esenţial din punctul nostru
de vedere. Se foloseşte o aşa zisă teoremă limită centrală multiplicativă. Diferenţa care apare
este că distribuţia limită la care tinde combinaţia variabilelor aleatoare nu este o distribuţie
normală ci una aşa-zis log-normală. Ecuaţia funcţiei de densitate log-normale diferă puţin de
funcţia de densitate normală:

Nu e cazul să ne batem capul prea mult cu această situaţie. Să ţinem doar minte că există
soluţii pentru aşa ceva dar e nevoie de alte teste. În fine, problema care este cea mai
importantă este că identificarea cazului în care efectele variabilelor neluate în seamă se
înmulţesc în loc să se adune este departe de a fi facilă.

Bun. Hai să revenim la consideraţiile esenţiale pentru testarea statistică. Am descoperit deci
că factorul de eroare într-o relaţie statistică poate fi adesea considerat ca fiind distribuit
normal şi în plus standardizat cu media 0 şi dispersia 1.

Pentru că distribuţia aceasta, N(0, 1) este complet cunoscută putem să observăm următoarele:

5
Sincer, faptul că relaţiile dintre soiuri într-un mediu natural sînt mai degraba multiplicative decît aditive e un
exemplu clasic din literatura statistică pentru distribuţia log-normală. Alte cazuri clasice sunt concentrările de
poluanţi, sensibilitatea indiviziilor la substanţe chimice şi medicamente, timpul de supravieţuire după tratament
împotriva cancerului, şi altele.

74
Într-un interval de o dispersie de la medie, adică de fapt într-un interval de la -1 la +1 se
găsesc 68,26% din toate cazurile unei distribuţii normale. Adică luînd la nimereală o valoare,
dacă o variabilă este distribuită normal, şansa ca valoarea aceasta să se afle în intervalul -1, +1
este de 68,26%. Aşa este şi cu factorii de eroare care se adaugă la estimările noastre, pentru că
acolo avem o distribuţie normală şi chiar nu ştim exact ce valoare e într-un caz anume. Ştim
însă că sunt 68,26% şanse să fie între -1 şi 1 a distribuţiei standardizate.

În intervalul de două dispersii, deci de la -2 la +2 sunt 95,44% dintre cazuri.

În intervalul de trei dispersii, de la -3 la +3 sunt 99,74% dintre cazuri!

Care e atunci logica unui test. Păi să presupunem că dorim să verificăm dacă media numărului
la pantof al femeilor din Romania este 36. În paranteză fie spus, faptul că numerele de la
pantofi sunt distribuite normal în cadrul unui gen este cu adevărat dovedit empiric. Alegem
deci un eşantion reprezentativ le măsurăm pe toate la picioare şi calculăm media. Iese ceva, să
zicem 39. Acum trebuie să standardizăm această valoare, pentru că evident distribuţia
numerelor de la pantof cît o fi ea de naturală nu are cum avea media 0 şi dispersia 1. În urma
standardizării 36-ul devine evident 0, iar 39-le devine de exemplu 2. Atunci ne uităm pe grafic
şi vedem că şansa ca eroare statistică să adauge 2 la media standardizată este de 2,27%! Adică
există o probabilitate de 2,27% ca totul să fie corect, mediile în regulă, media populaţiei să fie
într-adevăr 36 şi aşa mai departe, dar din motive absolut normale ale erorii aleatoare nouă să
ne fi ieşit 39.

75
Hai să reluăm un pic ideea. Deci avem o distribuţie normală pe care o luăm de bună pentru
început, distribuţia numerelor de la pantofi cu o medie de 36 şi o dispersie σ2 şi o valoare
găsită empiric, media eşantionului de 39. Acum ne punem problema: cam care e şansa ca totul
să fie în regulă, adică diferenţa dintre cele două medii, cea teoretică (36) şi cea empirică (39)
să fie cauzată de eroarea acceptabilă a unui sondaj. Pentru aceasta standardizăm distribuţia. În
exemplul nostru găsim că există o şansă de 2,27% să fie aşa. Asta înseamnă că există o şansă
de 97,73% să nu fie aşa! Adică, dacă avem deplină încredere în sondajul efectuat de către noi,
putem să spunem că există o probabilitate de 97,8% ca media numărului la pantof al femeilor
din Romania să nu fie 36.

După această gustărică să vedem acum de-a amănuntul cum se face.

b. Teste statistice pentru medii şi proporţii.

Testarea statistică se descrie de obicei ca un algoritm, adică o serie de paşi care se întreprind
pentru a lua o decizie. Totul porneşte de la construirea unei ipoteze şi se termină cu
respingerea sau nerespingerea acesteia. Aşa cum am văzut şi mai de vreme, cunoaşterea
statistică este una negativă. Nu poate confirma nimic, dar poate infirma. Adică, aşa cum am
văzut din exemplu, dacă rezultatul empiric e suficient de aproape de cel teoretic nu avem
nimic de spus, decît eventual că nu putem respinge ipoteza. Dacă însă este improbabil de
îndepărtat atunci putem spune: asta chiar nu se poate! Ipoteza se poate respinge pentru că dat
fiind ce am cules noi din sondaj probabilitatea ca ceea ce am presupus la început să fie
adevărat este infimă.

Să vedem paşii. În primul rînd se defineşte o ipoteză. În cercetarea empirică acesteia i se


spune de obicei ipoteză nulă sau iniţială şi se notează cel mai adesea cu H0. Aceasta este
ipoteza pe care vom dori să o putem respinge. Construirea unei ipoteze necesită de obicei o
muncă importantă de abstractizare şi modelare. Testele statistice pot respinge numai ipoteze
foarte simple. Deci ceva de genul: “este viaţă pe Marte” cît o fi ea de ipoteză nu prea poate fi
testată statistic în această formulare. Ipotezele de cercetare care au bază teoretică şi
importanţă în cunoaştere trebuie traduse în relaţii matematice simple de genul “media
numărului la pantof al femeilor din Romănia este 36” sau “veniturile bărbaţilor şi ale femeilor
sunt egale” adică lucruri care cu adevărat se pot respinge. În general ipotezele statistice sunt

76
relaţii de egalitate sau de inegalitate care implică valorile unor variabile şi valori prestabilite.
Verificăm deci relaţii între grupuri sau populaţii şi relaţii dintre populaţii şi valori teoretice.
Trebuie să putem traduce teoriile noastre în astfel de relaţii pentru ca statistica să ne fie de
vreun folos.

O dată stabilită ipoteza nulă, în unele cercetări se propun şi una sau mai multe ipoteze
alternative, notate de obicei cu Ha. Aceste ipoteze se consideră ca ipoteze de urmat în
cercetarea viitoare în caz că se respinge ipoteza nulă. Ele nu sunt ipoteze confirmate nici
măcar dacă au fost construite ca negaţii logice ale ipotezei nule. În acest caz sunt pur şi
simplu ipoteze care nu au fost respinse. Adică pot fi considerate, în tradiţia popperiană despre
care am vorbit în introducere ca fiind “pe moment acceptabile”.

După stabilirea ipotezelor trebuie stabilită valoarea testată, numită uneori după obiceiul
englezesc şi statistică. Aceasta este o valoare agregată culeasă din date şi care intervine în test.
În exemplul cu pantofii este media numărului la pantof. Ar putea fi o medie, o proporţie, sau
diferenţa unor medii sau proporţii. Valoarea testată nu este altceva decît un rezultat al
operaţionalizării, adică al traducerii în formulă matematică a ipotezei.

După aceasta, în funcţie de valoarea pe care dorim să o testăm se determină distribuţia


statistică a acesteia. În esenţă e vorba de a stabili dacă se poate presupune că valoarea testată
este distribuită normal, iar dacă nu, dacă putem stabili cum o fi distribuită (de exemplu log-
normal) şi ce test avem pentru aşa ceva. De exemplu, dacă distribuţia este una normală se
poate aplica o metodă de standardizare, se aduce distribuţia la forma N(0, 1) şi se poziţionează
valoarea testată pe această distribuţie. Aşa putem spune ce şanse are o asemenea valoare să fie
atinsă (sau una mai mare sau mai mică, dacă ipoteza este o inegalitate).

O dată stabilită distribuţia statistică, se aplică un test statistic, adică o formulă de calcul
valorii testate. Se obţine un fel de indicator, numit adesea după numele testului sau mai
general valoare de test. Vom vedea în cele ce urmează valoarea t, valoarea Z, şi aşa mai
departe. Fiecare astfel de test nu este de fapt decît o formulă.

Apoi se determină zonele critice. Zonele critice, uneori numite şi zone de respingere sau
rejecţie sunt intervalele în care trebuie să se găsească valoarea calculată prin testul statistic
pentru ca ipoteza să fie respinsă. Aceste intervale ar trebui stabilite dinainte. Există de fapt

77
două moduri de lucru. Varianta obişnuită este de a calcula valoarea de test şi apoi a vedea
dacă se află în afara intervalului de probabilitate de 95% sau de 99%. Limitele acestor
intervale sunt cele care se numesc valori critice şi intervalele complementare intervalelor de
probabilitate de 95% respectiv 99% sunt chiar zonele critice. Dacă valoarea calculată este în
aceste zone critice, probabilitatea ca această valoare să fie atinsă în condiţiile validităţii
ipotezei este mai mică de 5% sau chiar de 1%. Dacă, de exemplu valoarea calculată este mai
mare decît valoarea de test pentru 95%, deci se află în afara intervalului de probabilitate de
95%, atunci probabilitatea ca ipoteza să fie corectă este de cel mult 5%, ceea ce este foarte
puţin şi ipoteza poate fi respinsă.

Multe din programele pe calculator care efectuează teste statistice calculează o aşa-zisă
significanţă a testului. Aceasta e chiar probabilitatea ca valoarea calculată să fie atinsă în
condiţiile ipotezei. Nu mai este atunci nevoie să comparăm cu valoarea critică. Putem spune,
chiar cît este probabilitatea ca ipoteza să fie adevărată. Şi bineînţeles putem decide pe baza
acestei probabilităţi dacă ipoteza se poate respinge sau nu.

În literatura de statistică aplicată se definesc în general două tipuri de erori care se pot
întîmpla în testarea statistică:

• Eroarea de tip I, numită şi eroare α sau “fals pozitiv” are loc dacă se respinge o ipoteză
nulă care e de fapt adevărată. Probabilitatea de face o astfel de eroare este de fapt acea
significanţă a testului statistic.
• Eroarea de tip II, numită şi eroare β sau “fals negativ” are loc dacă nu se respinge o
ipoteză falsă.

Există şi alte clasificări ale erorilor de decizie, dar aceasta este cea mai răspîndită. În
experienţa mea trebuie să recunosc că nu am găsit nici o dată vreun uz practic al faptului de a
fi ştiut care este diferenţa dintre cele două tipuri de erori. Este însă important să fim conştienţi
de faptul că erorile, fie ele de tip I sau tip II nu pot fi cu totul eliminate. Dacă se aplică corect
o metodologie statistică se poate însă determina probabilitatea ca ele să apară. În fapt,
probabilitatea care determină zona critică aşa cum am văzut mai sus este chiar probabilitatea
unei erori de tip I.

78
Dacă pînă acum am vorbit de teste la un mod cam general şi ceea ce am spus era în principiu
valabil pentru orice test statistic să trecem acum la lucruri practice. Cum se face de fapt, ce se
calculează şi cu ce se compară valoarea de fapt?

Testul t pentru media unei variabile aleatoare

Testul t (numit şi Student după pseudonimul autorului său, statisticianul englez W.S. Gossett)
este un test care verifică ipoteze în condiţii de normalitate a distribuţiei datelor şi cunoaştere a
dispersiei datelor. Gossett a fost, în vremea în care a dezvoltat testul, statistician la fabricile
Guiness din Dublin, Irlanda şi l-a dezvoltat pentru a verifica cît mai simplu calitatea berii.
Ideea era de a calcula cîtă încredere se poate acorda unor analize biochimice ale berii făcute
pe eşantioane relativ mici. Deşi am citit pe undeva că Gossett a folosit din modestie un
pseudonim, se pare că motivul adevărat pentru care Gossett şi-a publicat metoda în 1908 sub
pseudonim a fost faptul că vroia să ocolească contractul care îl lega de fabrica Guiness.
Testul se foloseşte şi acum pe scară largă, chiar şi acolo unde avem eşantioane mici. Cu
diversele forme ale testului t se pot analiza ipoteze legate de media unei variabile aleatore,
comparaţii între mediile unor variabile aleatoare pe două populaţii, precum şi ponderea unor
subgrupuri în populaţii şi comparaţii între ponderea unor subgrupuri în două populaţii. Să le
luăm însă pe îndelete.

În forma cea mai cunoscută testul t verifică o ipoteză exact ca în exemplul nostru. Adică
verifică ipoteza dacă media unei variabile la nivelul populaţiei este egală cu media aceleiaşi
variabile pe un eşantion. Sau altfel exprimat, este suficient de mare diferenţa între media
măsurată pe eşantion şi media presupusă ipotetic pe populaţie pentru a respinge presupunerea.
În exemplul nostru media presupusă pentru numărul la pantof al femeilor din Romania era 36
şi media găsită pe eşantion era 39. Testul t este cel ce ne spune dacă putem respinge ipoteza
nulă sau nu.

Testul t poate fi folosit dacă sînt îndeplinite cîteva precondiţii. În primul rînd trebuie să
cunoaştem media şi dispersia la nivelul populaţiei, apoi variabila trebuie să fie distribuită
normal şi eşantionul trebuie să fie aleator. În realitate situaţia e cam aşa: media o presupunem
teoretic pentru că la urma urmei pe asta dorim să o testăm. Distribuţia normală este o
problemă relativ mică, dacă avem un eşantion mare şi nu este un caz special în care distribuţia
este evident nenormală presupunem de obicei normalitatea fără să ne batem prea mult capul.

79
Cum am tot povestit teorema limită centrală ne dă aici o mînă serioasă de ajutor. Evident,
faptul că eşantionul trebuie să fie aleator nu poate fi însă ocolit. Oricare dintre metodele
statistice necesită aceasta. Nu înseamnă că nu se pot face testări şi în alte condiţii dar atunci
nu mai e vorba despre a verifica relaţia dintre media unei populaţie şi a unui eşantion, ca în
cazul clasic al testului t, ci între mediile a două loturi. Problema care este cea mai mare în
cazul testului t este însă faptul că de obicei nu avem cum să cunoaştem dispersia reală a
variabilei în populaţie. Aceasta se rezolvă de regulă prin introducerea unei presupuneri
suplimentare. Şi anume aceea că dispersia la nivelul populaţiei este aproximativ egală cu
dispersia la nivelul eşantionului.

Să vedem deci ce valori avem:


• µ – media pe populaţie, pe care o presupunem şi o punem în ipoteză
• s – abaterea standard pe eşantion care se poate calcula şi înlocuieşte de fapt σ, abaterea
standard la nivelul populaţiei pe care nu o putem calcula.
• x – media pe eşantion care e uşor de calculat
• n – volumul eşantionului.

Ipoteza va suna deci cam aşa “media variabilei este µ”. În exemplu era: media numerelor la
pantofi este 36.

Calculăm acum testul t astfel:

t = (x – µ) / (s/n½ )

Aceasta nu este altceva decît transformarea din N(µ, s2) în N(0, 1), adică standardizarea
distribuţiei normale. Valoarea t se va raporta la curba normală standard aşa cum se raportează
valoarea x la curba normală iniţială.

Să presupunem că valoarea de 39 la picior a fost obţinută pe un eşantion de 1000 de femei şi


abaterea standard la nivelul eşantionului a fost 2. Să vedem ce iese:

t = (39 – 36) / (2/10) = 15

80
Să ne aducem aminte de felul cum arată distribuţia normală standard şi cam unde s-ar afla
valoare 15 pe axa x a acesteia.

Precum se vede din grafic, probabilitatea ca într-o distribuţie normală standard valoarea să fie
mai mare de 3 este de 0,1%. 15 fiind mult mai mare decît 3, probabilitatea ca ipoteza să fie
adevărată este mult mai mică decît 0,1%. Avem deci 99,9% motive să respingem ipoteza.

Am ocolit însă zonele critice folosite în mod obişnuit. Să vedem care sunt acestea:

Intervalul de probabilitate de 95% este (-1,96, 1,96). Această înseamnă că într-o distribuţie
normală standard 95% dintre cazuri se găsesc în intervalul (-1,96, 1,96). Deci dacă avem o
valoare aflată în afara intervalului acesta, şansa ca valoarea să fie atinsă în condiţiile validităţii
ipotezei este mai mică decît 5%. Se mai spune şi că -1,96 şi 1,96 sunt valorile critice de
significanţă (sau probabilitate) de 95%.

În aceiaşi logică se defineşte şi intervalul de probabilitate de 99%. Acesta este (-2,57, 2,57).
Există de asemenea tabele ale valorilor t care dau exact probabilitatea ca o anumită valoare
calculată să fie atinsă. Să sistematizăm pentru o mai uşoară privire de ansamblu:

Ipoteze de forma “media = valoare” se pot respinge:


• cu probabilitate de 95% dacă valoarea t < -1,96 sau t > 1,96.
• cu probabilitate de 99% dacă valoarea t < -2,57 sau t > 2,57.

Deoarece 15 este în afara intervalului de probabilitate de 99%, de fapt cum am văzut chiar în
afara intervalului de 99,9% ipoteza se poate respinge cu o probabilitate mai mare decît 99%
(sau, de fapt 99,9%). La modul de analiză al rezultatelor nu am luat în seamă faptul că

81
rezultatul testului ne spune vrînd – nevrînd şi pe ce parte a intervalului se află rezultatul
aceasta înseamnă că de fapt putem să înbunătăţim un pic significanţa sesizînd faptul că de o
parte a distribuţiei normale avem de fapt o significanţă de 50% şi doar pe partea cealaltă
adăugăm la aceasta jumătate din significanţa datorată zonei critice. Deci dacă suntem în
varianta cu 95% putem de fapt considera că respingem ipoteza cu 97,5% iar în varianta cu
99% cu 99,5%.

Testul t pentru două medii

Adesea ipoteza care se pune nu conţine o valoare explicită, cum era în exemplul precedent.
Multe probleme statistice urmăresc de fapt să compare grupuri sau părţi ale unor eşantioane.
Ipoteza este în asemenea cazuri ceva de genul “femeile de la ţară au în medie acelaşi număr la
picior ca şi femeile de la oraş” sau “fotbaliştii romani dau în medie la fel de multe goluri ca şi
fotbaliştii germani” şi alte asemenea probleme cutremurătoare. Un fel de a pune întrebarea
care prezintă o gamă largă de probleme este următorul. Este oare posibil ca cele două
eşantioane să fie extrase din aceiaşi populaţie. Dacă ar fi aşa mediile calculate pe cele două
eşantioane ar trebui să fie suficient de apropiate. Dacă însă aceste medii diferă mult (în sensul
testului t) ipoteza că eşantioanele sînt extrase din aceiaşi populaţie se poate chiar respinge.
Aşa se poate stabili principial că două grupurie populaţionale diferă esenţial din punctul de
vedere al unei anumite variabile. Aşa se poate de exemplu stabili că femeile şi bărbaţii au
venituri diferite în Romania. Se iau două eşantioane aleatoare de valori salariale şi se testează
dacă acestea ar fi putut fi culese dintr-o singură populaţie. Multe probleme interesante pot fi
reduse la ipoteze de acest tip.

Avem în asemenea cazuri două grupuri de măsurători, putem să le spunem eşantioane dar nu
sunt din punctul de vedere al testului. Şi anume nu sunt eşantioane din punctul de vedere al
testului pentru că nu se urmăreşte relaţia dintre aceste date şi o populaţie mai generală ci
relaţia dintre cele două grupuri de măsurători. Ca şi în cazul precent, este necesar să avem o
distribuţie normală a variabilei testate. În plus cele două eşantioane trebuie să fie
independente ceea ce în cazul unei eşantionări corecte aleatoare ar trebui să fie cazul, şi
trebuie să cunoaştem următoarele:

• s1 – abaterea standard pe primul eşantion.


• x1 – media pe primul eşantion

82
• n1 – volumul primului eşantionului.
• s2 – abaterea standard pe al doilea eşantion.
• x2 – media pe al doilea eşantion
• n2 – volumul celui de-al doilea eşantionului.

Formula de test care se calculează este:

Analiza rezultatului se face la fel ca şi în cazul precedent. Valorile critice sînt aceleaşi,
interpretarea se face la fel. Să luăm deci un exemplu şi să-l calculăm.

Voi folosi date dintr-un sondaj de opinie efectuat pe populaţia IMM-urilor din mediul rural
din România în 2005. Ipoteza de testat este “vîrsta medie a patronilor de IMM-uri din mediul
rural nu diferă în funcţie de gen”. Avem deci două eşantioane, unul cu femei, un altul cu
bărbaţi. Volumul eşantionului total a fost de 1122 persoane, dintre acestea 1100 au răspuns la
întrebarea de vîrstă (genul a fost completat de operator). În calcule am putut lua 631 de
bărbaţi şi 479 de femei. Vîrsta medie a bărbaţilor a fost 45,6 ani, iar a femeilor 42,4. Abaterile
standard sînt 10,4 la vîrsta bărbaţilor şi 9,1 la vîrsta femeilor. Este oare diferenţa dintre cele
două medii relevantă? Sînt femeile care patronează IMM-uri din zona rurală într-adevăr mai
tinere decît bărbaţii? Pentru aceasta trebuie să aplicăm testul t pentru medii. Informaţiile pe
care le-am inclus în text sînt suficiente pentru a lua o decizie.

Programele de statistică fac prima dată un test de egalitate a dispersiilor. Pentru aceasta se
foloseşte testul F al lui Fisher. Nu îl vom discuta în această carte. E bine de ştiut totuşi la ce
foloseşte. Ipoteza acestui test este: “dispersia pe primul eşantion e egală cu dispersia pe al
doilea eşantion”. Dacă significanţa testului e bună, adică cît mai apropiată de 0, atunci ipoteza
aceasta se poate respinge. În funcţie de rezultatul testului, pentru dispersii care nu pot fi
considerate egale se foloseşte formula pe care am dat-o. Pentru dispersii egale se putea folosi
o formulă simplificată şi oarecum înbunătăţită prin faptul că se putea calcula dispersia pe
întreg eşantionului, ceea ce se presupune a fi o estimare mai bună a dispersiei la nivel
populaţional.

83
În cazul din exemplu, valoarea testului F este 6,682 şi significanţa este 0,01. Pentru
interpretarea testului F se folosesc de regulă tabele, însă aşa cum am spus şi mai sus
significanţa este informaţia suficientă pentru analiză. În cazul significanţei de mai sus, care e
foarte bună, ipoteza de dispersii egale poate fi respinsă.

Se calculează atunci varianta de test t pentru dispersii diferite, adică exact formula de mai sus.
Rezultatul este:

t = 5,39 cu Sig = 0,000

Deci ipoteza de egalitate a mediilor se poate respinge cu o probabilitate de 99,9%. E aproape


sigur: femeile care patronează IMM-uri în mediul rural sînt mai tinere decît bărbaţii cu poziţii
similare. Pentru o explicaţie aş presupune de exemplu că printre persoanele de vîrstă mai
înaintată femeile sînt mai puţin înclinate spre poziţii patronale decît printre persoanele mai
tinere. Astfel distribuţia pe sexe e mai echilibrată la vîrste mai mici şi media de vîrsta a
femeilor patron rezultă ca fiind mai mică decît a bărbaţilor patron. Desigur interpretarea
aceasta trebuie coroborată cu alte rezultate statistice.

Ipotezele discutate pînă aici s-au referit întotdeuna la egalităţi. Testele au încercat să respingă
fie faptul că o medie are o anumită valoare exactă, fie faptul că două medii sunt egale.
Aceasta a făcut ca zonele critice să fie simetrice. La urma urmei se poate respinge ipoteza de
egalitate şi atunci cînd valoarea empirică e mult mai mare şi atunci cînd e mult mai mică decît
valoarea din ipoteză. Am menţionat deja că faptul că valoarea empirică e mai mare sau mai
mică ne apare ca un rezultat suplimentar şi poate înbunătăţi significanţa.

Există însă situaţii în care ipoteza este chiar construită ca o inegalitate. Astfel de ipoteze cer să
fie analizate doar prin prisma unei singure zone critice. Să mă explic. Dacă ipoteza era de
forma “media = valoare” atunci zonele critice de significanţă 99% sunt intervalele (-∞, 2,58)
respectiv (2,58, ∞), adică tot de se află în afara intervalului de probabilitate de 99% care este
(-2,58, 2,58). Dacă însă ipoteza este de forma “media > valoare” atunci ea respinge numai
dacă ceea ce ne dă testul e mult mai mic decît 0, deci numai un capăt de distribuţie normală
respinge ipoteza. Acest capăt e evident totdeuna cel opus semnului din ipoteză. Adică testăm
o inegalitate cu semnul > (mai mare) capătul care respinge va fi cel negativ (mai mic decît
media standard 0), dacă testăm o inegalitate cu < (mai mic) atunci se poate respinge ipoteza

84
cu intervalul critic pozitiv. Mai avem însă ceva, valorile critice devin mai mici la testele cu
inegalitate deoarece intervalul de 95% sau 99% va fi nelimitat pe un capăt. Deci:

Ipoteze de forma “media > valoare” se pot respinge:


• cu probabilitate de 95% dacă valoarea t < 1,81.
• cu probabilitate de 99% dacă valoarea t < 2,23.

Ipoteze de forma “media < valoare” se pot respinge:


• cu probabilitate de 95% dacă valoarea t > 1,81
• cu probabilitate de 99% dacă valoarea t > 2,23.

Testul Z pentru proporţii

În mare parte dintre cercetările empirice nu ne interesează însă testarea unor ipoteze legate de
medii. De fapt dacă ne gîndim la sondajele de opinie politice sau sociale pe care le mai vedem
din cînd în cînd în presă greu ne vine în minte o situaţie în care să ne fi interesat media unei
variabile. Cel mai adesea ceea ce ne interesează mai mult este să testăm ipoteze legate de
proporţii. Astfel de ipoteze ar fi de exemplu “Partidul Vieţii Romaneşti va trece pragul
electoral” sau “cetăţenii români de religie ortodoxă preferă manelele în mai mare măsură decît
cei de religie catolică”. Hai să vedem cum se traduc aceste ipoteze astfel încît să fie testabile.

În prima ipoteză menţionată “Partidul Vieţii Romaneşti va trece pragul electoral”, ceea ce
vrem să aflăm este de fapt dacă ponderea din electorat a celor care votează cu partidul în
cauză e mai mare decît 5%. Bineînţeles la această întrebare se poate răspunde corect într-un
exit-poll, adică un sondaj făcut chiar la ieşirea de la urne. În sondaje preelectorale se poate
însă face o previziune destul de bună la astfel de întrebări. Indiferent cum ar fi, în chestionar

85
va apărea o întrebare de genul “cu ce partid aţi votat?” sau “cu ce partid veţi vota?”. Dacă m
intervievaţi dintr-un eşantion total de volum n, răspund că vor vota cu PVR atunci avem de
verificat de fapt dacă m/n este cu adevărat mai mare decît 5%. Ipoteza se va scrie “m/n >
5/100”

În a doua ipoteză va trebui să dezvoltăm un chestionar care, pe lîngă alte întrebări, se


interesează şi de gusturile muzicale ale celor intervievaţi. Desigur întrebarea se poate pune în
multe feluri, în final însă vom determina că un anumit număr de persoane preferă manelele.
Acestea vor fi probabil de religii diverse. Să presupunem că dintre aceştia mo vor fi ortodocşi,
iar mc catolici. Să notam numărul total al ortodocşilor chestionaţi no, iar al catolicilor nc.
Atunci putem spune că dintre ortodoxi mo/no preferă manelele, iar dintre catolici mc/nc. Pentru
a testa dacă prima pondere e în mod relevant mai mare decît cea de a doua, ipoteza va avea
forma “mo/no > mc/nc”.

Perechea de ipoteze din exemplele de mai sus este analoagă celor două metode de testare pe
care le-am prezentat deja. Adică primul exemplu testează relaţia dintre o proporţie stabilită
empiric şi o valoare teoretică, iar a doua ipoteză relaţia dintre două proporţii, ambele stabilite
empiric, adică măsurate.

Pentru verificarea ipotezelor legate de proporţii se foloseşte de regulă testul Z. Logica lui este
însă aceiaşi ca a testului t discutat pînă acum.

Să vedem prima dată formula pentru teste privitoare la o proporţie. Pentru a calcula valoarea
de test avem nevoie de p – ponderea empirică (adică de exemplu ponderea celor ce au răspuns
că vor vota cu PVR), ^p – ponderea teoretică (adică de exemplu ponderea celor care ar fi
trebuit să răspundă pentru ca ponderea să fie exact 5%) şi n – volumul eşantionului. Cu
acestea se calculează Z.

Dacă avem două ponderi de comparat ca în exemplul al doilea, formula va avea forma
următoare:

86
Aici n1 este numărul de intervievaţi din primul eşantion (în exemplu, numărul total de
ortodocşi din eşantionul total), iar n2 este numărul de intervievaţi din al doilea eşantion (în
exemplu numărul total de catolici din eşantionul total). p1 şi p2 sunt ponderile persoanelor care
intră în categoriile ce se compară (adică p1 = mo/no ponderea celor care preferă manelele
dintre ortodocşi, respectiv p2 = mc/nc dintre catolici).

În ambele cazuri rezultatul testului, Z se compară cu zonele critice definite ca şi pînă acum.
Aceasta pentru că şi acest test face de fapt o transformare a valorilor pe o distribuţie normală
standard şi logica respingerii unei ipoteze rămîne aceiaşi, a depărtării faţă de valoarea 0,
media distribuţiei normale standard.

Iată regulile de decizie simplificate pentru cazul, mai general, al ipotezelor cu două proporţii
empirice

Ipoteze de forma “p1 = p2” se pot respinge:


• cu probabilitate de 95% dacă valoarea Z < -1,96 sau Z > 1,96.
• cu probabilitate de 99% dacă valoarea Z < -2,57 sau Z > 2,57.

Ipoteze de forma “p1 > p2” se pot respinge:


• cu probabilitate de 95% dacă Z < 1,81.
• cu probabilitate de 99% dacă Z < 2,23.

Ipoteze de forma “p1 < p2” se pot respinge:


• cu probabilitate de 95% dacă Z > 1,81.
• cu probabilitate de 99% dacă Z > 2,23.

Sumarul acesta de reguli se poate aplica uşor în practică. Tot ce trebuie făcut este să se
formuleze simplu ipoteza, apoi se calculează valoare t (sau Z), se aplică regula de decizie şi
gata: am făcut o cercetare empirică corectă statistic.

c. Calculul erorii unui sondaj si interpretarea ei.

87
Calculul erorii unui sondaj de opinie este de fapt o aplicaţie a testelor statistice simple. De
aceea am preferat să amîn discutarea acestei probleme pînă acum. Vom vedea deci ce
înseamnă acele erori pe care le raportează institutele de sondare a opiniei publice şi de
asemenea cum se stabileşte volumul unui eşantion.

În mod curent eroarea care se raportează la un sondaj de opinie este eroarea cea mai mare cu
care se poate estima o pondere cu o probabilitate de 95%. Am văzut pînă acum că estimarea
unei ponderi se poate face doar cu o anumită probabilitate. Nu există o stabilire prin sondaj a
unei valori exacte. Probabilitatea cu care se estimează ponderea dictează de fapt care e zona
critică. De aici rezultă respingerea unei ipoteze. La sondajele de opinie se foloseşte de regulă
intervalul de probabilitate de 95%.

Este vorba despre estimarea unei proporţii, folosim deci testul Z pentru o proporţie. Formula,
pe care am dat-o şi mai sus este:

Pe noi ne interesează în acest caz însă eroarea, adică cu cît diferă estimarea noastră de
valoarea adevărată, într-un sondaj aceasta se interpretează ca fiind diferenţa dintre ponderea
găsită în eşantion şi ponderea din populaţie, adică ponderea „reală“. Ca atare extragem din
formula de mai sus diferenţa dintre valoarea empirică şi valoarea din populaţie.

^p – p = Z * sqrt (p*(1-p)/n)

În această formulă trebuie înlocuit Z cu o valoare critică, astfel încît să se stabilească cu ce


probabilitate dorim să ne încadrăm în eroarea calculată. Astfel dacă dorim ca eroarea ^p – p să
nu fie depăşită cu o probabilitate de 95% vom lua Z = 1,96. Aceasta este varianta cea mai
obişnuită. Dacă dorim o precizie de 99% va trebui însă să calculăm folosind Z = 2,57.
Observăm că acestea sunt tocmai valorile critice, adică valorile de 95%, respectiv 99% din
distribuţia normală standard.

88
Există mai multe feluri de a folosi această formulă. Putem cu ajutorul ei să calculăm eroarea
pentru estimarea unei anumite proporţii în cazul unui sondaj de opinie cunoscut. Atunci
cunoaştem valorile p şi n şi stabilim cu o probabilitate de 95% în ce interval se poate afla ^p.

Putem de asemenea stabili care este cea mai mare eroare pe care o poate lua estimarea de
proporţii în cadrul unui anumit sondaj (ceea ce se numeşte de obicei marjă de eroare). Atunci
efectuăm acelaşi calcul dar în aşa fel încît să maximizăm eroarea pentru orice pondere
posibilă.

Putem să stabilim cu ajutorul aceleiaşi formule şi care e volumul eşantionului necesar pentru a
nu depăşi o anumită marjă de eroare. Atunci considerăm diferenţa ^p – p cunoscută. Aceasta
este marja de eroare pe care suntem de acord să o acceptăm, şi alegem p astfel încit eroarea să
fie maxim posibilă în cazul dat şi îl calculăm pe n, volumul eşantionului.

Estimarea marjei de eroare a unui sondaj de opinie

Începem cu această aplicaţie a formulei pentru că ea este probabil cea mai importantă. Aţi
văzut sau auzit desigur la (aproape) orice prezentare a unui sondaj de opinie specificari de
genul “marja de eroare a sondajului este 3% cu o probabilitate de 95%”. Ce înseamnă
aceasta?

Marja de eroare este abaterea cea mai mare de la valoarea “reală”, adică valoarea pe populaţie
pe care o poate avea valoarea calculată pe eşantion în cazul unui sondaj anume. În formula de
mai jos, notăm marja de eroare cu E. De fapt E = max (^p – p), adică înlocuind în formula de
mai sus:

E = max (Z * sqrt (p*(1-p)/n))

În această formulă Z este dat de precizia pe care o dorim, adică pentru precizia de 95% va fi
1,96. n este volumul eşantionului, deci o valoare cunoscută, din moment ce sondajul a avut
loc. Singura valoare care se poate alege astfel încît să se maximizeze formula este p. Pentru
aceasta observăm că trebuie de fapt să alegem p astfel încît produsul p*(1-p) să fie maxim.
Valoarea p este o pondere adică o valoare subunitară. Maximul produsul se atinge ca atare

89
pentru p = 0,5. Cine nu crede poate calcula matematic. Iese. De aici rezultă, că pentru o
precizie de 95% avem

E = 1,96

Deci marja de eroare a unui sondaj depinde numai şi numai de volumul eşantionului. Graficul
de mai jos ne arată cum arată forma distribuţiei normale centrate în jurul ponderii de 0,5
pentru diferite volume de eşantioane.

Dacă, de exemplu avem un eşantion de 1000 de persoane, un volum uzual, marja de eroare a
acestui eşantion va fi:

E = 0,98 / sqrt (1000) = 0,03099

Ceea ce se mai poate scrie ca fiind 3,1%.

90
Calcul de mai sus are desigur şi nişte premise matematice. Principala premisă este aceea că
eşantionul este aleator. Ştim deja că aceasta nu este chiar întotdeuna perfect îndeplinită, dar
un sondaj de opinie bine efectuat se apropie cît se poate de mult de acest deziderat tocmai
pentru a putea garanta marja de eroare promisă.

Să vedem acum, cum se citeşte de fapt un rezultat statistic prin prisma marjei de eroare. Fie de
exemplu un sondaj cu 1000 de interviuri, la care 500 de persoane, adică o pondere de 0,5 (sau
50%) au răspuns că ar vota Partidul Vieţii Romaneşti. Atunci statisticianul responsabil poate
spune cam aşa: “Există o probabilitate de 95% ca din ansamblul populaţiei studiate cei care ar
vota PVR să reprezinte un procentaj între 46,9% şi 53,1%.” Dacă ponderea pe care trebuie să
o estimeze este mai mică sau mai mare decît 0,5 ştim că eroarea poate fi calculată mai exact şi
va fi ceva mai mică. La urma urmei marja de eroare este eroarea cea mai mare la estimarea de
proporţii şi formula generală a erorii depinde de valoarea p.

Calculul volumul eşantionului pe baza marjei de eroare

De multe ori problema se pune invers. Avem de efectuat un sondaj de opinie şi clientul nostru
îşi doreşte o anumită marjă de eroare, de exemplu 2%, numai aşa ca să aibă el sondajul cel
mai tare din judeţ. Atunci vom folosi aceiaşi formulă:

E = 0,98 / sqrt (n)

Dar vom cunoaşte pe E, marja de eroare dorită şi va trebui să-l calculăm pe n, volumul
eşantionului. Dacă extragem pe n din formulă, iese:

n = 0,98 / E2

Înlocuind în formulă E = 0,02 obţinem n = 2400, pentru E = 0,03, n = 1067. Tabelul de mai
jos conţine şi alte perechi de marje de eroare şi volume de eşantioane:

Marja de eroare Volumul eşantionului


1% 9605
2% 2400
3% 1067

91
4% 600
5% 384
10% 96

Calculul erorii pe estimare a unei anumite proporţii

Să continuăm cu aplicaţia cea mai simplă a formulei şi una din greşelile cele mai des întîlnite
în interpretarea sondajelor de opinie. Cum am văzut, marja de eroare este de fapt eroarea
maximă care se face la o estimare cu precizie de 95%. Aceasta e atinsă atunci cînd se
estimează valori apropiate de 0,5, adică de 50%. Cu toate acestea nu o dată citim interpretări
în care valoarea marjei de eroare este folosită pentru a da intervale de estimare pentru
procentaje mult mai mici.

De exemplu, iată un fragment de declaraţie a lui Alin Teodorescu, deputat PSD şi, pe
deasupra, sociolog: “16% în sondaje înseamnă 19 sau 13. Marja de eroare e de 3%.”6 Are sau
nu dreptate politicianul-sociolog. Bineînţeles nu, pentru că pentru estimarea unui procentaj de
16% eroarea este mai mică decît marja de eroare, care este atinsă atunci cînd se estimează
50%. Cu cît este însă mai mică?

Articolul de ziar nu ne dă cu exactitate volumul eşantionului, dar dnul Teodorescu ne dă un


indiciu foarte bun cînd declară că marja de eroare a sondajului a fost 3%. Deci, volumul
eşantionului trebuie să fi fost cam 1067 de persoane. Să înlocuim în formulă şi să calculăm:

eroarea = 1,96 * sqrt (p*(1-p)/n) = 1,96 * sqrt ((0,16 * 0,84)/1067) = 0,02199

Exprimată tot în procente eroarea la estimarea unui procentaj de 16% este 2,2%. Corect am
putea spune, valoarea procentuală de 16% din eşantion se traduce astfel “procentajul în
ansamblul populaţiei studiate este aflat cu o probabilitate de 95% între 13,8% şi 18,2%”.

Iată o exprimare de o candoare deosebită, legată de aceiaşi problemă: “Strict sociologic, ce-i
sub marja de eroare practic nu se ia in calcul.”7 Evident nu este aşa. Mai mult, valorile mici,

6
“Alin Teodorescu: PSD s-a comprimat din cauza integrarii in UE”, interviu în Cotidianul, 1.02.2007.
7
Pavel Lucescu “Chinurile lui Felix”, editorial în Cotidianul, 26.02.2007.

92
adică cele pe care ziaristul le numeşte “sub marja de eroare” se estimează mai exact decît
valorile în jur de 50%. Să calculăm puţin. Un procentaj de 3% se va estima într-un sondaj cu
marja de eroare de 3% cu o eroare de:

eroarea = 1,96 * sqrt ((0,03 * 0,97)/1067) = 0,010.

Deci, dacă s-a măsurat un procentaj de 3% pe eşantion, putem spune cu o probabilitate de


95% că ponderea în ansamblul populaţiei este între 2% şi 4%.

Factor de corecţie pentru populaţii finite

Iată un fragment de articol din ziarul Tricolorul: “Dar, iată, scorurile sondajului real efectuat
de IMAS, aşa cum le-am aflat chiar din interiorul PSD. Eşantion: 1.257 de persoane. Marjă de
eroare: ± 1,8%.”8

Este aşa ceva posibil de fapt? Am văzut că marja de eroare şi volumul eşantionului sunt legate
printr-o formulă cît se poate de simplă şi se poate uşor calcula: pentru 1257 de persoane se
obţine o marjă de eroare de 2,7%. Pentru 1,8% ar fi nevoie de un număr de 2963 de interviuri.

Şi totuşi ceea ce scrie ziarul nu este întru totul imposibil pentru că în toate exemplele şi
discuţiile de pînă acum am considerat că populaţia este foarte mare faţă de volumul
eşantionului. Practic am presupus că avem o populaţie infinită. Sau mai exact nu am făcut nici
un fel de presupunere despre volumul populaţiei. Este însă de bun simţ să ne gîndim că dacă
populaţia pe care o cercetăm e mică, de exemplu, de 1000 de oameni, cum ar fi la un studiu
despre elevii unei şcoli, marja de eroare nu poate fi 4% la un eşantion de 600, adică
cuprinzînd bine peste jumătate dintre toţi elevii. Trebuie să existe un factor de corecţie care
înbunătăţeşte marja de eroare în cazul în care populaţia studiată este mică. Acest factor de
corecţie este numit factor de corecţie pentru populaţii finite. El se foloseşte numai atunci cînd
volumul eşantionului este suficient de mare faţă de volumul populaţiei. Teoretic însă s-ar
putea calcula oricînd, doar că valoarea lui este de obicei foarte aproape de 1. Formula
factorului de corecţie este.

8
“Presedintii PRM si PSD vor semna un protocol de colaborare!”, editorial nesemnat, Tricolorul, Anul III, Nr.
643 - 06.05.2006

93
În formulă N este volumul populaţiei şi n volumul eşantionului. Factorul calculat astfel se
înmulţeşte cu marja de eroare pentru a da marja de eroare corectată.

Să vedem prima dată dacă ar merita calculat factorul pentru eşantioanele obişnuite, de 1067
de persoane, avînd ca populaţie, de exemplu, electoratul României, de aprox 18 milioane de
persoane.

F = sqrt (18000000 – 1067 / 18000000 – 1) = 0,9999

Ei bine, acest factor de corecţie ar trebui înmulţit cu marja de eroare, dar valoarea e atît de
apropiată de 1 încît este evident de ce nu se obişnuieşte aşa ceva.

În exemplul dat, raţionamentul este însă altul. Dacă la un eşantion de 1257 de persoane s-a
obţinut o marjă de eroare de 1,8% înseamnă că s-a folosit un factor de corecţie şi acest factor
a coborît marja de la valoarea de 2,7% care s-ar fi obţinut pentru o populaţie cît România la
valoarea de 1,8%. Acest factor de corecţie este de fapt uşor calculabil:

1,8 = F * 2,7
F = 1,8 / 2,7 = 0,67

Înlocuind în formula lui F această valoare precum şi n = 1257, rezultă:

0,67 = sqrt (N – 1257 / N – 1)

De aici rezultă:

N = (1257 – 0,672) / (1 – 0,672) = 2285.

În concluzie articolul din ziar poate avea dreptate doar în măsura în care populaţia din care s-a
ales eşantionul avea un volum de 2285 de persoane.

94
Capitolul 6. Feluri principale şi garnituri sau relaţia dintre mai
multe variabile

Voi încerca şi de astă dată să mă apropii de tema relaţiilor dintre variabile începînd cu ce e
mai simplu, reprezentările grafice, şi continuînd apoi cu tabele de frecvenţe, indicatori de
relaţionare şi în fine voi încheia capitolul acesta cu o tehnică ceva mai avansată, regresia
liniară.

Pînă acum în această carte m-am ocupat de o singură variabilă o dată. Am văzut cum se
reprezintă o variabilă, grafic sau tabelar, prin frecvenţele ei, am calculat indicatori care
descriu o variabilă şi am testat ipoteze referitoare la o variabilă. În cercetarea statistică
problemele care ni se pun se referă însă adesea la relaţia dintre două sau chiar mai multe
variabile. Multe ipoteze care se pun, se referă la efectul unor variabile asupra altora. Ne
interesează cum influenţează vîrsta opţiunile electorale, ce efect are educaţia asupra alegerii
unei anumite mărci de bere. Ne interesează ce categorii sociale ascultă anumite emisiuni de
radio, pentru a ştii ce tip de publicitate ar fi de interes pentru aceştia. Vrem să aflăm care
dintre studenţi vor cu adevărat să emigreze şi care vor să-şi continue studiile în străinătate.
Toate aceste întrebări necesită studierea unor relaţii dintre variabile. De multe ori, dar nu
întotdeuna, teoria pe care ne bazăm ca să construim ipotezele noastre separă variabilele în
cauze şi efecte. În statistică efectele le numim variabile dependente, iar cauzele variabile
independente.

Nu este întotdeuna simplu, există însă şi variabile care sînt aproape mereu tratate ca
independente. Aşa sînt genul, vîrsta, zona de reşedinţă (urban sau rural), statutul marital şi
altele care în puţine ipoteze sunt considerate efecte ale altor variabile. În general aceste
variabile se suprapun peste aşa-zisele variabile SES (socio-economic status). Genul sau vîrsta
celui intervievat, de exemplu, nu se prea pot considera efecte ale unor alte variabile. Pe de altă
parte, selecţia aleatoare poate evidenţia faptul că populaţia studiată are o distribuţie a
genurilor sau vîrstelor particulară. Aşa este de exemplu dacă populaţia noastră e formată din
cei ce îşi fac cumpărăturile într-un anumit magazin. În acest sens şi genul poate fi privit ca un
efect al opţiunii de a face aprovizionarea pentru familie. Alte variabile SES, ca de exemplu
venitul sînt chiar mai des variabile dependente.

95
Oricum ar fi, cel mai adesea, într-o cercetare statistică relaţionăm variabile numite generic
independente cu variabilele ţintă ale cercetării, numite de regulă variabile dependente.

a. Grafice pentru mai multe variabile.

Reprezentările grafice pentru mai multe variabile au o paletă mai restrînsă de opţiuni la
dispoziţie. O parte din reprezentările uzuale în cazul unei singure variabile nu sunt potrivite în
cadrul graficelor cu mai multe variabile. Astfel, graficele plăcintă nu se adaptează prea bine la
mai multe variabile. Nici graficele de linii nu se pretează la prezentarea relaţiilor dintre
variabile. Ele se pot însă folosi pentru a prezenta mai multe variabile una alături de cealaltă.
Reprezentările folosite cel mai des sunt graficele de bare, care permit chiar vizualizarea
relaţiilor.

Cel mai simplu mod de grafic pentru mai multe variabile prezintă dezvoltarea paralelă a unor
variabile. În exemplul de mai jos avem o reprezentare liniară a două variabile. Acestea sînt
numărul de studenţi la 10.000 de locuitori pe ansamblul Europei de Est şi de Vest în perioada
1950 – 2000 (dintr-o cercetare proprie, Reisz, Stock, 2007).

96
Graficul se pretează la compararea celor două trenduri dar nu vizualizează cu adevărat relaţia
dintre cele două variabile. Le pune doar una lîngă cealaltă. Dar e frumos oricum, nu?

Există grafice similare şi cu bare. Să luăm şi aici un exemplu.

1. Cate beri ati


4,00 baut?
7. Cat de des v-ar
place sa fie
Festivalul Berii?

3,00
Mittelwert

2,00

1,00

0,00
dumineca sambata
ziua

În graficul de mai sus se prezintă un rezultat de la o cercetare efectuată la festivalul berii


Timisoara în anul 2003. Barele albastre reprezintă media de beri băute, iar barele verzi un
indicator al frecvenţei medii dorite de către intervievaţi pentru festivalul berii. Întrebarea se
punea la ieşirea din arealul festivalului. Cele două medii sunt prezentate diferenţiat pentru
cele două zile ale festivalului. Totuşi graficul nu ne spune nimic despre felul cum au răspuns
la întrebarea a doua cei ce au băut mai multe beri faţă de cei ce au băut mai puţine beri. Pentru
asta e nevoie de o altă abordare a relaţiei reprezentate pe grafic.

Graficele care prezintă cu adevărat relaţii sunt grafice de bare, în care una dintre variabile este
o variabilă categorială, sau tratată ca şi variabilă categorială. Această variabilă are rolul de
variabilă independentă. Ea se trece pe axa x, iar variabila sau variabilele dependente apar pe
axa y. De fapt chiar şi graficul de mai sus prezenta o relaţie. Variabila independentă era ziua
de festival. Dar să revenim la problema enunţată mai sus, cum e relaţia dintre consumul de
bere şi frecvenţa dorită a festivalului

97
4,00

7. Cat de des v-ar place sa fie Festivalul Berii?


3,00

2,00

1,00

0,00
Nici o bere 1 - 2 beri 3 - 4 beri 5 beri si mai mult
Bautori

În grafic sunt prezentate medii ale frecvenţei dorite ale festivalului în funcţie de numărul de
beri consumate, număr care a fost recodat pe categorii de către mine (întrebarea nu era pe
categorii, ci deschisă). S-ar fi putut folosi şi alte valori în loc de medie, cum ar fi dispersia,
suma, procentajul peste o anumită valoare, etc. De asemenea valoarea exactă se poate
reprezenta sau nu pe grafic, dependent de forma ei, numerică sau nu.

Pe lîngă faptul că frecvenţa dorită a festivalurilor berii creşte cu numărul de beri băute se mai
observă două lucruri care ţin de reprezentările grafice în general . Anume, că numărul de
categorii de pe axa x este relativ mic şi că acestea se citesc într-o formă ordonată pur şi simplu
din obiceiul nostru de a parcurge de la stînga la dreapta orice text şi de a impune mental o
ordine chiar şi acolo unde aceasta nu există.

Prima dintre aceste două observaţii este doar parţial restrictivă. Acolo unde numărul de valori
este foarte mare într-adevăr citirea graficului devine anevoioasă dar totuşi numărul de
categorii poate fi crescut destul de mult. Aceasta totuşi nu prea se face pentru că graficul
construieşte de regulă barele fără să raporteze numărul de cazuri folosite şi ca atare anumite
bare pot fi calculate pe un număr foarte mic de cazuri şi pot induce în eroare cititorul. Acest
risc există desigur şi la un număr mai mic de categorii dar este mult diminuat. Să vedem un
exemplu de grafic de relaţionare cu bare cu un număr mare de categorii:

98
5,00

4,00

1. Cate beri ati baut?


3,00

2,00
4 4
4 3 4
3
3 3 3 3
3 3 3
3 3
2 2
2 2 2
1,00 2 2 2 2 2 2
2
2 2 2 2 2 2 2 2
2
1 1 1 1 1 1
1 1 1 1 1 1 1

0
0
0,00

41,00
43,00
45,00
47,00
49,00
21,00
23,00
25,00
27,00
29,00

51,00
53,00
55,00
57,00
59,00
61,00
63,00
31,00
33,00
35,00
37,00
39,00

70,00
73,00
76,00
78,00
13,00
15,00
17,00
19,00

8. Varsta:

Graficul conţine media de beri băute pe vîrste. Informaţia prea detaliată şi incertitudinea
numărului de cazuri pe categorii fac graficul foarte greu de citit. Recodarea vîrstei pe categorii
mai mari duce la următorul rezultat, mult mai citibil:

2,50

2,00
1. Cate beri ati baut?

1,50

1,00

0,50

0,00
pana la 20 21 - 35 36 - 50 51 - 65 peste 65
Varsta pe categorii

99
Relaţia existentă dintre vîrstă şi consumul de bere la festival devine astfel mult mai clară şi
poate produce o ipoteză statistică care merită verificată. Evident graficul nu trebuie însă
considerat ca fiind suficient pentru a trage concluzia “la festivalul berii, cu cît un vizitator e
mai bătrîn bea mai puţină bere”. Această ipoteză merită însă testată. Pentru o declaraţie de
genul “tinerii beau mai multă bere decît bătrînii” nu există oricum nici o bază. Nu trebuie nici
o clipă uitat că studiul s-a ocupat de festivalul berii, într-un an dat, în condiţii meteo aşa cum
au fost, cu muzica aşa cum a fost, şi aşa mai departe. Toate aceste condiţii de mediu fac total
imposibilă generalizarea la un consum de bere sau chiar alcool în condiţii nespecificate.

Cea de a doua observaţie, cea legată de ordinea implicită sau explicită a categoriilor
reprezentate necesită de asemenea o anumită atenţie. Bineînţeles, dacă variabila de pe axa x,
cea considerată categorială, este o variabilă ordinală sau chiar intervalică sau raţională, trebuie
să fim atenţi ca ordinea reprezentată a categoriilor să corespundă ordinii matematice a
acestora. Dacă însă variabila categorială nu are o anume ordine, este o variabilă nominală
reprezentarea devine problematică atunci cînd numărul de categorii e mare. La un număr mic
de categorii tentaţia de a le privi ca o serie e mult mai mică. În fine, tot ce putem şi trebuie să
facem în asemenea cazuri este să atenţionăm cititorul rezultatelor noastre, respectiv să nu ne
lăsăm noi înşine prinşi în capcana automatismelor de gîndire.

Să lăsăm acum berea şi să trecem şi la un alt tip de grafic de relaţionare cu bare. Cu ajutorul
graficelor cu bare se poate reprezenta şi mai bine relaţia dintre două variabile, e drept poate
ceva mai dificil citibil. Mă refer la grafice care suprapun bare cu dimensiuni proporţionale cu
categoriile unor variabile definite de o altă variabilă. Să vedem însă cum arată aşa un grafic
pentru a îl putea descrie mai bine.

100
25.1. Grupe de
250
varsta
Intre 20 - 29
19
Intre 30 si 39
Intre 40 si 49
200 Intre 50 si 59
58 Peste 60

150

48

100
26
0 0

34
0 50

50 31
29 83

19
40
29 0 1
17 0
16 17 11
0 0 0 0

tri
ag

au

co

co

se

si
in

in

lv
du

va

co
rv
ns

nt
ric

to

ic
ta
ab

ic

ta
st
tru

ul
ul

ii
rie

je
tu
tu

ilit
c

an
ra

ra
tii

at

t
e

1. In ce domeniu ati lucrat inainte de a intra in


somaj?

Graficul face parte dintr-o cercetare care a inclus un sondaj de opinie efectuat pe şomeri din
mediul rural din Romania în 2005. În imagine avem relaţionarea dintre domeniul în care
persoana a lucrat înainte de a intra în şomaj şi grupa de vîrstă. Valorile trecute pe grafic sunt
valori absolute, adică exact numărul de persoane din fiecare categorie. Se vede nu numai cît
de mare este o categorie a axei x, dar şi cum se distribuie ea pe grupele de vîrstă. Un astfel de
graf se numeşte “stacked bar graph”, adică grafic de bare stivuite.

O altă formă a barelor stivuite reprezintă distribuţia procentual, extinzînd fiecare categorie a
axei x la 100% şi prezentînd subcategoriile definite de cea de a doua variabilă în procentaje.
Graficul, care ar putea fi mai uşor de citit, obturează bineînţeles dimensiunea categoriilor.
Totuşi aceasta poate fi intuită, prin afişarea procentajelor subcategoriilor din ansamblul
eşantionului aşa cum se vede în exemplul de mai jos.

101
25.1. Grupe de
1,0 0,0% 0,0% 0,0% 0,0% 0,0% 0,0% 0,0%
3,39% 0,18% varsta
Intre 20 - 29
Intre 30 si 39
0,54% Intre 40 si 49
6,07%
0,8 10,36% Intre 50 si 59
5,54%
Peste 60
8,93%

0,6
8,57%
3,04%
2,86% 3,04% 2,14%
5,18%

0,4 4,64%
3,39%
1,96%

7,14%
0,2
14,82%
5,18%
2,86%

0,0 0,0% 0,0% 0,0%

tri
ag

au

co

co

se

sil
in

in
du

va

co
vic
ns

nt

rv
ric

to

ta

ta
ab

ic
st
tru
ul

ul
ii
rie

je
tu

tu
ilit
ct

an

ra
ra

at
ii

t
e

1. In ce domeniu ati lucrat inainte de a intra in


somaj?

Am prezentat graficele de relaţionare cele mai uzuale, nu există însă restricţii, orice grafice
corecte matematic se pot la o adică folosi. Vreau sa repet însă un comentariu pe care l-am
făcut legat de graficele referitoare la o singură variabilă. Se zice că o imagine spune mai mult
decît 1000 de cuvinte. Tot ce se poate, dar o imagine este şi mult mai puţin exactă decît cele
1000 de cuvinte, ca atare: prezentaţi grafice, dar analizaţi valorile care stau la baza acestora.

b. Tabele de relaţionare, Teste de relaţionare

Tabelele de relaţionare sunt de fapt tabelele care stau la baza graficelor stivuite. Astfel de
tabele au fost gîndite iniţial pentru variabile categoriale, şi sînt practice într-adevăr numai
pentru variabile cu un număr relativ mic de valori, de indiferent ce tip de variabilă.
Iată în tabela de mai jos tocmai datele care stau la baza graficelor stivuite prezentate mai
înainte.

102
1. In ce domeniu ati lucrat inainte de a intra in somaj? * 25.1. Grupe de varsta

Valori absolute
25.1. Grupe de varsta
Intre 20 - Intre 30 si Intre 40 si Intre 50 si Peste
29 39 49 59 60 Total

1. In ce domeniu ati lucrat inainte de a agricultura 29 29 34 0 0 92


intra in somaj? auto 0 0 16 0 0 16
constructii 83 26 48 58 19 234
functionar 0 0 1 17 0 18
Industrie 16 19 31 0 0 66
invatamant 17 0 0 0 0 17
servicii 11 3 1 0 0 15
silvicultura 40 50 0 0 0 90
tricotaje 0 12 0 0 0 12
Total 196 139 131 75 19 560

Tabela conţine numărul de cazuri care corespund fiecărei corespondenţe a celor două
variabile. Aşa cum se vede, o celulă e definită de categoriile pe rînduri şi coloane. Un
exemplu va clarifica cel mai bine aceasta. Dacă dorim de exemplu să aflăm cîţi din eşantion
care au lucrat în construcţii înainte de a intra în şomaj sunt din categoria de vîrstă între 20 şi
29 de ani, vom căuta coloana aferentă acestei categorii de vîrstă apoi o vom parcurge pentru a
găsi linia care conţine valorile celor ce au lucrat în construcţii. Valoarea din celula cu pricina
este 83. Deci 83 de persoane din această subcategorie au fost intervievate în cadrul cercetării.

Linia şi coloana de total sunt şi mai uşor de citit. Astfel ultima linie, cea marcată “Total”
conţine numărul de intervievaţi pe categoriile specificate în capetele de coloană. De exemplu,
196 de persoane pentru categoria “între 20 şi 29 ani”, 139 în categoria “între 30 şi 39 ani” şi
aşa mai departe. Ultima coloană, marcată de asemenea “Total” conţine valorile aferente
categoriilor definite în capetele de linii. De exemplu, pentru “construcţii” valoarea este 234.
Volumul total al eşantionului se va găsi în colţul din dreapta jos al tabelului, la intersecţia
liniei şi coloanei de total. În cazul cercetării din care am extras tabelul de mai sus s-au
efectuat 560 de interviuri.

O astfel de tabelă ne permite să comparăm uşor categoriile şi subcategoriile. Urmărind numai


coloana şi linia de total putem spune astfel că “cei mai mulţi şomeri au lucrat în domeniul
construcţiilor” şi “cei mai mulţi şomeri sunt între 20 şi 29 de ani”. De asemenea putem spune
că “numărul şomerilor scade pe măsură ce categoria de vîrstă e mai mare”. Dacă comparăm

103
diferitele coloane sau linii între ele mai putem face şi observaţii de forma “între 20 şi 39 de
ani numărul şomerilor proveniţi din silvicultură îl depăşeşte pe cel al celor ce provin din orice
alt domeniu cu excepţia construcţiilor”9 sau “în categoria de vîrstă între 50 si 59 de ani există
şomeri proveniţi din functionari, probabil din foste CAP-uri şi SMA-uri, o categorie care nu
apare la alte grupe de vîrstă”. De asemenea putem stabili cea mai mare categorie, numită şi
categorie modală, după indicatorul de tendinţă centrală pentru variabile nominale – modul
care e valoarea care apare cel mai des într-o distribuţie. În exemplul nostru este tocmai cea a
“şomerilor care au lucrat în construcţii şi au între 20 şi 29 de ani”.

Toate observaţiile de mai sus le-am bazat pe valorile absolute din tabel. Pentru a putea avea
însă o bază de comparaţie cel mai adesea tabelele de relaţionare conţin procentaje pe rînduri şi
coloane. Mai jos se află tabela recalculată conţinînd aceste procentaje.

1. In ce domeniu ati lucrat inainte de a intra in somaj? * 25.1. Grupe de varsta

25.1. Grupe de varsta Total

Intre 20 - Intre 30 si Intre 40 si Intre 50 si Peste


29 39 49 59 60
1. In ce domeniu ati lucrat agricultura Nr. 29 29 34 0 0 92
inainte de a intra in somaj? % linie 31,5% 31,5% 37,0% ,0% ,0% 100,0%
% coloană 14,8% 20,9% 26,0% ,0% ,0% 16,4%
auto Nr. 0 0 16 0 0 16
% linie ,0% ,0% 100,0% ,0% ,0% 100,0%
% coloană ,0% ,0% 12,2% ,0% ,0% 2,9%
constructii Nr. 83 26 48 58 19 234
% linie 35,5% 11,1% 20,5% 24,8% 8,1% 100,0%
% coloană 42,3% 18,7% 36,6% 77,3% 100,0% 41,8%
functionar Nr. 0 0 1 17 0 18
% linie ,0% ,0% 5,6% 94,4% ,0% 100,0%
% coloană ,0% ,0% ,8% 22,7% ,0% 3,2%
industrie Nr. 16 19 31 0 0 66
% linie 24,2% 28,8% 47,0% ,0% ,0% 100,0%
% coloană 8,2% 13,7% 23,7% ,0% ,0% 11,8%
invatamant Nr. 17 0 0 0 0 17
% linie 100,0% ,0% ,0% ,0% ,0% 100,0%
% coloană 8,7% ,0% ,0% ,0% ,0% 3,0%
servicii Nr. 11 3 1 0 0 15
% linie 73,3% 20,0% 6,7% ,0% ,0% 100,0%
% coloană 5,6% 2,2% ,8% ,0% ,0% 2,7%
silvicultura Nr. 40 50 0 0 0 90
% linie 44,4% 55,6% ,0% ,0% ,0% 100,0%

9
Populaţia studiului a fost cea a şomerilor din mediul rural din Romania.

104
% coloană 20,4% 36,0% ,0% ,0% ,0% 16,1%
tricotaje Nr. 0 12 0 0 0 12
% linie ,0% 100,0% ,0% ,0% ,0% 100,0%
% coloană
,0% 8,6% ,0% ,0% ,0% 2,1%

Total Nr. 196 139 131 75 19 560


% linie 35,0% 24,8% 23,4% 13,4% 3,4% 100,0%
% coloană 100,0% 100,0% 100,0% 100,0% 100,0% 100,0%

Să vedem cum se citesc asemenea tabele. Primele indicii sînt poziţiile celulelor de 100% de
pe ultima linie şi ultima coloană. Să căutăm aceiaşi celulă ca şi în exemplul cu valori absolute,
“şomeri proveniţi din domeniul construcţiilor cu vîrste între 20 şi 29 de ani”. Găsim
următoarea configuraţie de celule:

Nr. 83
% linie 35,5%
% coloană 42,3%

Valoarea Nr. este desigur cea pe care am ştiut-o deja. Cele două procentaje de citesc astfel:
• 35,5% dintre şomerii care au lucrat în construcţii au între 20 şi 29 de ani.
• 42,3% dintre şomerii cu vîrste între 20 şi 29 de ani au lucrat în construcţii.

Acestă citire este cel mai uşor de reţinut în relaţie cu poziţia valorii de 100%. Dacă această
valoare este pe linie, cum e în cazul “% linie”, evident procentajul e o parte din categoria ce
apare pe linie. Şi anume partea care e definită de către coloana în care apare valoarea.
Valoarea de pe linie este “construcţii”. Deci e vorba de 35,5% dintre cei care au lucrat în
construcţii. Ei bine, ce e cu ei? Ei fac parte din categoria care e definită pe coloană, adică au
între 20 şi 29 de ani.

Procentaje fac categoriile comparabile. Abia prin compararea procentajelor se poate spune ce
e mult şi ce e puţin în rezultatele statistice ale unui sondaj. Pe de altă parte, procentajele pot
induce în eroare dacă sunt calculate pentru categorii foarte mici. Să privim şi un alt tabel de
relaţionare. Tabelul provine dintr-o cercetare efectuată pe populaţia intreprinderilor mici şi
mijlocii din mediul rural din Romania în 2005. În tabel găsim relaţia dintre nivelul de
pregătire şi genul patronilor de IMM-uri din mediul rural.

Care este nivelul cel mai inalt de pregatire pe care l-ati absolvit? * Genul

105
Genul
masculin feminin Total

Care este nivelul cel mai inalt de pregatire pe care l-ati Fara pregatire scolara Nr. 4 0 4
absolvit? % linie 100,0% ,0% 100,0%
%
,6% ,0% ,4%
coloana
Scoala primara Nr. 7 0 7
% linie 100,0% ,0% 100,0%
%
1,1% ,0% ,6%
coloana
Scoala generala Nr. 16 9 25
% linie 64,0% 36,0% 100,0%
%
2,6% 1,9% 2,3%
coloana
Scoala profesionala / Nr. 298 194 492
Liceu % linie 60,6% 39,4% 100,0%
%
48,0% 41,1% 45,0%
coloana
Colegiu / Universitate Nr. 251 208 459
% linie 54,7% 45,3% 100,0%
%
40,4% 44,1% 42,0%
coloana
Studii post-universitare Nr. 45 61 106
% linie 42,5% 57,5% 100,0%
%
7,2% 12,9% 9,7%
coloana
Total Nr. 621 472 1093
% linie 56,8% 43,2% 100,0%
%
100,0% 100,0% 100,0%
coloana

Un exemplu de citire al tabelului ar fi cam aşa:

“Majoritatea patronilor de IMM-uri din mediul rural sînt bărbaţi, aceştia reprezentînd 56,8%
din total. Există totuşi o categorie educaţională, a celor cu studii post-universitare, unde
femeile sunt preponderente, reprezentînd 57,5%”.

Să vedem cum am găsit valorile din fragmentul de interpretare al tabelului. Am prezentat linia
de total, apoi am găsit că una singură dintre categorii prezintă o altă distribuţie a genurilor
decît aceasta. Am ales deci pentru raportare “% linie” pentru categorie “Studii post-
universitare” şi am prezentat în text una dintre valori, cealaltă e bineînţeles complementară
faţă de 100% fiimd vorba de distribuţia genurilor. Tot aceiaşi relaţie linie / coloană se putea
citi şi astfel: “Din ansamblul patronilor de IMM-uri intervievaţi 9,7% au studii post-
106
universitare, categoria aceasta este însă suprareprezentată printre femeile patroni, unde
reprezintă 12,9% faţă de numai 7,2% dintre bărbaţii patroni.” Pentru această prezentare am
folosit procentajele de pe coloane pentru total, femei şi bărbaţi aferente categoriei “Studii
post-universitare”. Mai jos, fragmentul de tabelă cu datele:

Nr. 45 61 106
% linie 42,5% 57,5% 100,0%
% coloana 7,2% 12,9% 9,7%

Pentru cine e curios cum de se poate aşa ceva, şi ce caută oricum aşa mulţi patroni cu studii
post-universitare, iată pe scurt explicaţia. În mediul rural sînt puţine firme, ca atare dintre
acestea cabinetele medicale şi farmaciile au o pondere relativ mare. Medicii şi farmaciştii au
adesea studii post-universitare, rezidenţiate, specializări, şi alte cursuri. De asemenea aceste
profesii includ un număr mare de femei, chiar o preponderenţă a femeilor, în special la nivelul
mediciilor de familie.

Ca o regulă simplă dar nu obligatorie, analiza unui tabel se face în următorii paşi:
• Primele informaţii pe care le dăm de obicei despre un tabel se referă la linia şi/sau
coloana de total.
• Apoi dăm valorile modale, celulele care conţin cele mai multe cazuri.
• Urmează categoriile distribuite altfel decît cele de total. Acestea se prezintă
comparativ cu coloana sau linia de total.
• În fine, dacă dorim, putem face comparaţii între linii sau coloane alese.

Aşa cum am făcut şi în exemplu, cînd prezentăm distribuţia pe o anumită linie sau coloană
trebuie să o comparăm cu distribuţia pe linia, respectiv coloana de total. Altfel păţim ca acela
care aflînd că 80% dintre cei răniţi în accidente de circulaţie nu au cartea de identitate la ei, a
hotărît să îşi ia întotdeuna cartea de identitate cu el. A socotit el că are de 4 ori mai puţine
şanse să fie rănit într-un accident! Ce a greşit individul de fapt? Păi nu a luat în seamă că avea
de a face cu două variabile: rănit în accident sau nu, cu cartea de identitate la el sau nu. Numai
dacă am ştii cîţi dintre toţi participanţii la trafic au cartea de identitate la ei, adică distribuţia
de total, am putea trage o concluzie, comparînd cu datele din categoria “accidentat”. Am
putea atunci descoperi prin comparaţie dacă persoanele care nu au acte de identitate la ei au
un profil care îi predispune la a deveni victimele unul accidente. Şi bineînţeles nici atunci
decizia de nu lua actele la el nu îi foloseşte la nimic şi asta pentru că posesia actului de

107
identitate şi accidentarea sînt evenimente totuşi independente. Modificînd unul dintre ele de
fapt nu îl influenţăm pe celălalt. S-ar putea însă amîndouă să fie efecte ale unor caracteristici
comportamentale comune. S-ar putea să fie. Sau nu.

Încă două reguli, de astă dată aproape obligatorii, dacă nu vreţi să fiţi acuzaţi de ageamie
statistică. Nici o dată nu raportaţi într-un sondaj procentaje cu mai mult decît o zecimală. Şi
aşa valorile sunt supuse unor erori, prezentînd mai multe zecimale daţi impresia că aveţi nişte
informaţii mai exacte sau nu înţelegeţi sensul statistic al rezultatelor. De fapt, mai bine ar fi să
nu se raporteze nici o zecimală. Totuşi cutuma de a raporta o zecimală există pentru că
rotunjirea sau trunchierea poate obtura o valoare de 0,5 ceea ce e deja destul de mult.

A doua regulă: nu prezentaţi procentaje acolo unde numărul cazurilor e mic. De exemplu, în
cercetarea din care provine tabelul de mai sus s-au nimerit doar patru patroni de IMM-uri care
au declarat că nu au nici o pregătire şcolară. Faptul că toţi aceştia sînt bărbaţi nu este relevant
şi nu e cazul să ascundem numărul mic scriind ceva de genul “100% dintre patronii de IMM
fără pregătire şcolară sînt bărbaţi”.

Toate observaţiile pe care le-am făcut pe baza tabelelor au un caracter de ipoteze. Ele nu sunt
confirmate în relevanţa lor statistică. Aceasta însă se poate face. Există o serie de teste de
relaţionare care sunt specifice diferitelor tipuri de variabile şi care verifică în general ipoteze
de dependenţă. Astfel de ipoteze au forma generală “valorile variabilei 1 sînt independente de
valorile variabilei 2”. Dacă reuşim să respingem această ipoteză avem bune motive să
considerăm variabilele ca fiind relaţionate, dependente una de alta. De obicei putem face chiar
mai mult. Putem, pe baza rezultatelor de test să spunem cam cît de “tare” este această relaţie.

Pentru a ajunge însă acolo cred că ar merita să vorbesc puţin despre conceptul de
“independenţă” statistică. Am pomenit de cîteva ori pe parcursul acestei cărţi despre
independenţă. Am vorbit despre independenţă în special cînd am vorbit despre eşantionare,
dar a trebuit să menţionăm conceptul şi cînd am comentat istoria statisticii şi principalele legi
statistice. De asemenea, vreau să elimin o confuzie din capul locului, conceptul de variabilă
independentă în relaţia cu o variabilă dependentă se referă la o relaţie unde nu există
“independenţă” între variabile. Variabilele se influenţează între ele, şi care este cea pe care o
considerăm independentă şi care dependentă ţine de construcţia modelului, adică de partea ne-

108
statistică din teorie. Denumirile de “independenţă” sînt întîmplător aceleaşi, conceptele nu au
nici o legătură.

Ce e deci “independenţa” evenimentelor aleatoare? Fie prima dată o definiţie simplă din teoria
probabilităţilor apoi o voi comenta. Un eveniment este independent de un altul dacă
probabilitatea ca evenimentul să aibă loc nu se schimbă dacă are loc sau nu cel de-al doilea
eveniment.

Să începem comentariul iar cu prietenul nostru care umblă fără acte la el. După ce a aflat că
probabilitatea ca pe avion să fie o bombă este de 1 la 10.000 iar probabilitatea ca pe avion să
fie două bombe e 1 la 100.000.000 a hotărît să plece el cu o bombă în concediu.

În exemplul de mai sus avem un eveniment repetat: o bombă pe avion. Probabilitatea de a


avea două bombe se calculează atunci aşa:

p2 = p1 * p1

unde p1 este probabilitatea de a avea o bombă pe avion, deci

p2 = 1/10.000 * 1/10.000 = 1/100.000.000

Această regulă de înmulţire este regula de compunere a probabilităţii evenimentelor


independente. Adică dacă existenţa unei bombe este independentă de existenţa celei de a doua
bombe, deci nici unul din terorişti nu ştie de celălalt atunci probabilitatea de a avea două
bombe pe avion e produsul probabilităţilor celor două evenimente luate separat. Dacă tot am
început, ce a greşit din nou amicul nostru? Păi dacă a luat cu el o bombă probabilitatea ca
aceasta să fie pe avion este 1, evident dacă trece prin verificare, dar dacă e găsită, oricum nici
omul nu ajunge pe avion ci în altă parte. Atunci însă probabilitatea de a avea două bombe
devine aceiaşi cu probabilitatea de a avea o bombă pe avion.

p’2 = p1 * 1 = p1

109
Regula de înmulţire a probabilităţilor este valabilă la compunerea unor evenimente
independente. Regula generală e puţin mai complicată. Fie două evenimente A şi B, atunci
probabilitatea ca ele să aibă loc de o dată este:

P(A şi B) = P(A) * P(B | A)

Unde P(B | A) este probabilitatea evenimentului B condiţionat de A, adică probabilitatea să


aibă loc B dacă are loc şi A. Evident, dacă A şi B sînt independente, adică nu se influenţează
reciproc atunci P(B | A) = P(B) adică probabilitatea că să aibă loc B nu se schimbă dacă are,
sau nu are, loc A.

Conceptul pe care l-am descris mai sus este cel de independenţă a evenimentelor probabiliste.
În testele statistice lucrurile nu stau însă aşa de simplu şi aşa de transparent. Variabilele
statistice culese empiric nu prezintă nici o dată o independenţă atît de perfectă ca variabilele
teoretice din probabilităţi. Datele pe care le culegem sînt întotdeuna dependente de o grămadă
de factori care mai de care mai greu de prevăzut. În fine, rezultatul este că orice este legat de
orice în mai mare sau mai mică măsură. Testul trebuie să determine dacă legătura poate fi
considerată întîmplătoare, un zgomot sau factor de eroare, sau este esenţială şi necesită
explicaţii teoretice.

Principiul de bază al acestei verificări este în majoritatea cazurilor unul care se poate înţelege
cel mai bine prin conceptul de tabelă de relaţionare. Faptul că două variabile sînt
independente înseamnă de fapt că modificarea uneia nu afectează modificarea celei de a doua.
Asta înseamnă că în tabela care le relaţionează faptul că o variabilă se distribuie într-un fel nu
poate avea efect pe felul cum se distribuie cealaltă variabilă. Şi de aici decurge faptul că
rîndurile, respectiv coloanele aferente diferitelor categorii ale uneia din variabile sunt
proporţionale, sau pentru că trebuie să gîndim statistic, nu se abat prea mult de la
proporţionalitate. Deci independenţa statistică a două variabile se testează de fapt tot prin
testarea egalităţii între nişte proporţii, anume proporţiile determinate de apartenenţa la
categoriile unei variabile pe distribuţia celeilalte variabile. O să dau un exemplu teoretic
pentru că mi se pare mai simplu: Fie variabila x cu categoriile x1 şi x2 şi variabila y cu
categoriile y1 şi y2. O tabelă de relaţionare ar arăta cam aşa:

110
x1 x2 total
y y1 C11 C12 C1t
y2 C21 C22 C2t
total Ct1 Ct2 Ctt

În tabel C11 este numărul de indivizi care au valoarea x1 la variabila x şi valoarea y1 la


variabila y. C1t este numărul total de indivizi care au valoarea 1 la variabila y şi orice valoare
la variabila x şi aşa mai departe. Faptul că x şi y sînt independente ar însemna, cum am spus
că distribuţia lui x nu o influenţează pe cea a lui y, deci ipoteza de independenţă se traduce
astfel:

C11 / C12 = C21 / C22 = Ct1 / Ct2

sau

C11 / C21 = C12 / C22 = C1t / C2t

Testele care au fost dezvoltate pentru aceste ipoteze depind de tipul variabilelor. Aşa cum am
formulat ipoteza mai sus ea e posibilă pentru orice tip de variabilă, dar metodele calculatorii
permit o mai mare complexitate şi rezultate mai diferenţiate pe măsură ce tipul de variabilă
este mai numeric (iertată-mi fie folosirea abuzivă a comparativului, dar sper că se înţelege ce
vreau să spun).

Principalele teste care verifică significanţa relaţionării dintre două variabile depind de tipul
acestora:

• Pentru variabile nominale: Testele Phi şi Cramer, coeficientul de contingenţă


• Pentru variabile ordinale: Testele Gamma şi Kendall, Coeficienţii de corelaţie ρ (rho)
al lui Spearman şi τ (tau) al lui Kendall.
• Pentru variabile intervalice şi raţionale: Testele Eta, Coeficientul de corelaţie r al lui
Pearson, dar şi ρ al lui Spearman şi τ al lui Kendall.
• Pentru orice tip de variabilă: Coeficientul χ2 (Chi2) al lui Pearson.

111
Cei mai importanţi dintre cei de mai sus sînt coeficienţii de corelaţie şi coeficientul χ 2.
Următoarea secţiune ne vom preocupa de coeficienţii de corelaţie, iar apoi în capitolul viitor
vom discuta mai pe larg coeficientul χ 2.

Cît despre celelalte teste, următoarea regulă simplă facilitează citirea rezultatelor acestora.
Orice program de statistică care calculează astfel de teste le raportează împreună cu un
rezultat de significanţă care este o valoare cu atît mai bună cu cît e mai aproape de 0. Practic
trebuie să citim acest rezultat care este de obicei notat Sig sau S sau chiar “significance” sau
ceva similar. Acest rezultat este probabilitatea de a face o eroare de tip I, adică să respingem
ipoteza de independenţă în condiţiile în care aceasta este adevărată. Mai simplu spus cu cît
significanţa testului e mai aproape de 0, ipoteza de independenţă se poate respinge mai sigur.
Există aici o problemă care nu trebuie însă neglijată. Testele de relaţionare pot fi influenţate
disproporţioat de mult de diferenţe pe anumite categorii. Aceasta se întîmplă în special cînd
eşantionul e suficient de mare dar variabilele testate au un număr mare de categorii. În acest
caz o diferenţă pe o anumită categorie poate duce la respingerea unei ipoteze care este
adevărată. E o situaţie în care o relaţie dintre cele două variabile face ca rapoartele din ipoteză
să fie aproape egale cu excepţia unuia care însă se abate mult de la celelalte. Rămîne în
asemenea cazuri de obicei să continuăm testarea şi prelucrarea eventual separînd una dintre
cele două variabile în două astfel încît valoarea care se abate de la regulă să fie modelată de
către o variabilă de sine stătătoare, numită de regulă variabilă filtru.

c. Corelaţia simplă şi parţială

Corelaţia Pearson

Corelaţia Pearson este o metodă de testare a relaţiei dintre două variabile raţionale sau
intervalice. Din păcate se foloseşte uneori în mod abuziv şi la variabile ordinale.

Coeficientul de corelaţie este o valoare numerică care indică gradul de dependenţă şi direcţia
dependenţei între două variabile statistice. Deşi în general identificată cu matematicianul
britanic Karl Pearson care a analizat şi descris metoda pe larg, coeficientul a fost prima dată
introdus de către Francis Galton, un statistician (şi nu numai) britanic dintr-o generaţie
anterioară.

112
Dat fiind două variabile x şi y, valorile pe care le iau acestea pentru un individ i, xi şi yi,
coeficientul de corelaţie rxy “al lui Pearson” se calculează astfel:

Formula nu e foarte simplă, există însă bineînţeles tot felul de programe pe calculator care ştiu
să o calculeze astfel încît bătaia noastră de cap nu este să înmulţim şi să ridicăm la pătrat ci să
interpretăm rezultatele.

Există însă şi cîteva precondiţii ale utilizării coeficientului de corelaţie care sînt foarte
importante:
• Cele două variabile care se relaţionează trebuie să fie raţionale şi distribuite normal,
dacă aceasta nu e cazul trebuie folosit un alt indicator de relaţionare, de ex. Chi2
• Cele două variabile aleatoare trebuie să aibă dispersii finite şi nenule. Această condiţie
e relativ slabă fiind considerată practic îndeplinită întotdeuna.
• Coeficientul de corelaţie verifică numai relaţii liniare între variabile. Două variabile
aflate într-o relaţie neliniară, de exemplu x = sin y, deşi se determină complet una pe
alta, vor ieşi ca fiind necorelate.

Să vedem însă ce valori dă coeficientul de corelaţie şi cum se interpretează acestea:

Intervalul de valori al coeficientului de corelaţie este (-1, +1).

rxy = -1 determinare complet negativă. Atunci cînd x creşte, y scade.


rxy între -1 şi -0,7 corelaţie negativă puternică.
rxy între -0,7 şi -0,3 corelaţie negativă medie
rxy între -0,3 şi 0 corelaţie negativă slabă
rxy = 0 înseamnă că cele două variabile nu sunt relaţionate
rxy între 0 şi 0,3 corelaţie pozitivă slabă
rxy între 0,3 şi 0,7 corelaţie pozitivă medie
rxy între 0,7 şi 1 corelaţie pozitivă puternică
rxy = 1 determinare completă pozitivă

113
Criteriile din tabelul de mai sus sînt cele care se folosesc de regulă în sociologie. În psihologie
se preferă adesea intervale mai apropiate de origine, o corelaţie fiind considerată puternică
chiar de la un coeficient de 0,5 în sus. Oricum trebuie observat că intervalele sînt în mare
măsură arbitrare şi trebuie privite mai mult ca nişte indicaţii decît ca regulă. În practica de
cercetare e mai bine să se analizeze corelaţiile comparativ cu ansamblul valorilor de corelare
din cadrul cercetării. Aceasta este adevărat şi referitor la indicatorii de regresie care au o
semnificaţie înrudită cu coeficienţii de corelaţie.

Un exemplu de interpretare cred că este oricum necesar. În tabelul de mai jos se găseşte
corelaţia dintre vîrstă patronilor de IMM-uri din Transilvania şi cifra de afaceri a firmei,
conform unei alte cercetări efectuate în 2006:

12. Care a fost cifra de afaceri a firmei 48. Ce varsta


in 2005? aveti?
12. Care a fost cifra de afaceri a firmei Corelaţia Pearson 1 ,096(*)
in 2005? Significanţă
,028
(bilaterală)
N 539 530
48. Ce varsta aveti? Corelaţia Pearson ,096(*) 1
Significanţă
,028
(bilaterală)
N 530 980

* Corelatia este significantă cu nivelul de 0,05 (bilateral).

Tabelul prezintă valorile coeficientului de corelaţie, significanţa acestuia şi numărul de valori


utilizate pentru calcul. Prima observaţie ce trebuie făcută în cazul acestui tabel e discrepanţa
mare în număr de răspunsuri la întrebări. Astfel, se vede că la întrebarea “12. Care a fost cifra
de afaceri a firmei in 2005?” au răspuns 539 persoane, iar la întrebarea “48. Ce vîrstă aveţi?”
au răspuns 980 de persoane. Pentru corelaţie s-au putut folosi 530 de cazuri, cei ce au răspuns
la ambele întrebări. De altfel, eşantionul final a avut exact 1000 de persoane.

Faptul că puţin peste jumătate au răspuns numai la întrebarea 12. poate duce la bănuiala unei
selecţii defazate. Adică, cei ce au răspuns la întrebare au ceva aparte, o caracteristică
diferenţiatoare faţă de cei care nu au răspuns. Chiar şi aşa, putem testa dacă pentru ei există o
legătură cu între vîrstă şi cifra de afaceri a firmei. Valoarea coeficientului de corelaţie este

114
0,096 deci o valoare foarte mică. Aceasta înseamnă că putem liniştiţi considera că cifra de
afaceri a firmei şi vîrsta patronului nu au o legătură statistică. Bine, bine, dar ce ne facem cu
significanţa? Am spus doar că aceasta este probabilitatea de a face o eroare de tip I. Adică de
a respinge o ipoteză de independenţă adevărată. Şi în cazul de mai sus significanţa este sub
0,05 deci şansa ca să respingem o ipoteză adevărată e foarte mică. Ca să înţelegem corect cele
două valori trebuie să separăm două concepte: Cît de tare sînt relaţionate cele două variabile?
respectiv Cît de siguri putem fi de această relaţionare?

Coeficientul de corelaţie ne răspunde la prima dintre aceste întrebări, significanţa lui la cea de
a doua. Să mai luăm un exemplu din aceiaşi cercetare, relaţia dintre cifra de afaceri şi profitul
net al firmei:

12. Care a fost cifra de afaceri a 13. Care a fost profitul net al
firmei in 2005? firmei in 2005?
12. Care a fost cifra de afaceri a Corelaţia Pearson 1 ,045
firmei in 2005? Significanţă
,394
(bilaterală)
N 539 368
13. Care a fost profitul net al Corelaţia Pearson 0,045 1
firmei in 2005? Significanţă
0,394
(bilaterală)
N 368 399

Din tabela de sus se vede că nici între cifra de afaceri şi profitul net al IMM-urilor nu există o
corelaţie, dar că nici significanţa nu e prea grozavă. Deci şansa de a face o eroare de tip I,
adică de a respinge o ipoteză adevărată este mare, de vreo 40%. Asta înseamnă că în primul
caz putem spune că există o corelaţie foarte slabă între cele două variabile, pe cînd în acest al
doilea caz nu putem respinge ipoteza de independenţă a variabilelor. Există în practică vreo
diferenţă între aceste două interpretări? Da şi nu. Ambele ne încurajează să considerăm
variabilele ca fiind în mare măsură independente. Dacă însă significanţa e bună, adică
apropiată de 0, avem o mai mare încredere în rezultat, rezultatul e mai sigur.

Alţi coeficienţi de corelaţie

Am văzut mai înainte că coeficientul de corelaţie al lui Pearson presupune variabile raţionale
sau intervalice. Există însă şi coeficienţi care permit relaţionarea de variabile ordinale. Cei

115
mai uzuali sînt coeficientul ρ (rho) al lui Spearman şi coeficienţii τ (tau) ai lui Kendall, din
care există trei variante a, b şi c. Aceşti coeficienţi nu fac presupuneri asupra distribuţiei
datelor, aşa că pot fi folosiţi nu numai atunci cînd datele nu sînt intervalice sau raţionale ci şi
atunci cînd, deşi sînt intervalice sau raţionale, ele nu sînt distribuite normal sau relaţia dintre
ele nu este liniară.

Ne vom ocupa acum numai de coeficientul ρ al lui Spearman, numit şi coeficientul de ordine
de rang (rank-order), care are avantajul de a avea o formă şi ca atare şi o interpretare foarte
asemănătoare cu coeficientul r al lui Pearson.

Să vedem formula prima dată, deşi şi în acest caz este foarte puţin probabil să o calculăm de
mînă:

În formulă n este numărul de perechi pentru care se calculează corelaţia. d este diferenţa
dintre rangul lui x şi rangul lui y pentru cîte o pereche. Rangul este poziţia pe care o are o
valoare x sau y în lista ordonată a tuturor valorilor culese. De fapt, coeficientul lui Spearman
este exact coeficientul lui Pearson la care valorile variabilei sînt înlocuite cu rangurile lor. Aşa
se elimină problema caracterului lor nenumeric şi se foloseşte numai faptul că sînt ordonate.
Rangurile elimină problema diferenţei inegale între valorile ordonate consecutiv ale
variabilelor ordinale.

Deoarece am văzut că metoda de calcul poate fi interpretată ca un coeficient de tip Pearson al


rangurilor şi interpretarea valorilor rezultate din calcul se face la fel. Să vedem deci un
exemplu. În tabelul de mai jos avem corelaţia dintre “viteza” de acomodare cu locul de muncă
şi gradul de satisfacţie cu acesta la un grup de absolvenţi ai secţiei de informatică a
Universităţii de Vest din Timişoara. Ambele variabile sînt ordinale. Deşi numărul de cazuri e
mic se observă o corelaţie cu o significanţă foarte bună. Ipoteza de independenţă dintre cele
două variabile se poate respinge cu o certitudine mai mare de 99%. Nivelul de corelaţie nu
este însă foarte puternic, valoarea coeficientului fiind 0,509. Cît de mare este de fapt această
valoare ar trebui determinat prin comparaţie cu alţi coeficienţi de corelaţie din acelaşi studiu.

116
Cât de repede
s-a acomodat Este
cu jobul satisfacut de
(1,…,5) jobul actual?
Spearman-Rho Cât de repede s-a Coeficient 1,000 ,509(**)
acomodat cu jobul Sig. (bilateral) . ,000
(1,…,5) N 54 54
Este satisfacut de Coeficient ,509(**) 1,000
jobul actual? Sig. (bilateral) ,000 .
N 54 54
** Corelatia este significanta cu nivelul de 0,01 (bilateral).

Corelaţia parţială

O problemă importantă a coeficienţilor de corelaţie aşa cum i-am prezentat pînă acum este
influenţa pe care o pot avea alte variabile asupra relaţiei studiate. Din cele văzute pînă acum
nu am putut aplica principiul ceteris paribus. Adică nu am putut studia efectul unei variabile
asupra alteia păstrînd factorii de mediu constanţi.

Corelaţia parţială este o metodă de a studia relaţia dintre două variabile controlînd efectul unei
de a treia. Ca de obicei, devine mai uşor de înţeles cu un exemplu. Mă voi folosi de un sondaj
de opinie făcut în judeţul Arad, atît în mediul rural cît şi urban, pentru a studia consumul
cultural. În următorul tabel apare corelaţia (Pearson) dintre numărul de cărţi cumpărate anual
şi vîrstă:

Q15. În
medie, câte
carti
cumparati
I2. vârsta: pe an?
Corelaţie Pearson I2. vârsta: Coeficient 1,000 -,212(**)
Sig. (bilateral) . ,000
N 594 594
Q15. În medie, câte Coeficient -,212(**) 1,000
carti cumparati pe Sig. (bilateral) ,000 .
an? N 594 595
** Corelatia este significanta cu nivelul de 0,01 (bilateral).

Corelaţia dă un rezultat cît se poate de clar: cu cît vîrsta e mai mică numărul de cărţi
cumpărate anual e mai mare. Analizînd valorile din tabelă găsim o corelaţie negativă, de

117
putere mică, dar significanţă foarte bună. Întrebarea pe care putem să ne-o punem în acest caz
este însă dacă efectul e dat chiar de vîrstă sau există variabile mediatoare în acest lanţ cauzal.
Fiind vorba de o temă de consum cultural este normal să studiem care e de fapt influenţa
nivelului de pregătire, variabila care are de regulă efectul cel mai mare asupra consumului
cultural.

Q15. În
medie, câte
Variabile de control carti
cumparati
I2. vârsta: pe an?
I4. nivel de pregatire: I2. vârsta: Corelatie 1,000 -,087
Sig. (bilateral) . ,034
Grade de libertate 0 591
Q15. În medie, câte Corelatie -,087 1,000
carti cumparati pe an? Sig. (bilateral) ,034 .
Grade de libertate 591 0

Într-adevăr controlînd efectul nivelului de pregătire, efectul vîrstei se diminuează de la o


corelaţie de peste -0,2 se ajunge la un nivel de sub -0,1. Deci efectul sesizat al vîrstei nu este
independent de nivelul de pregătire. Faptul că significanţa a rămas bună ne asigură importanţa
rezultatului. Tinerii avînd în general mai multă educaţie decît vîrstnicii, efect al expansiunii
învăţămîntului în ultimele două decenii, ajung să şi cumpere mai multe cărţi. Pe de altă parte
discrepanţa dintre rezultate nu este atît de mare încît să nu putem totuşi spune că tinereţea are
un efect, foarte mic dar semnificativ, asupra cumpăratului de cărţi chiar în condiţiile
controlării nivelului de pregătire.

Am analizat corelaţiile parţiale după aceiaşi metodologie pe care o folosim şi pentru


corelaţiile simple, fie ele Pearson sau Spearman. Şi e corect aşa. Corelaţiile parţiale sînt
corelaţii de tip Pearson, aceasta înseamnă că ele verifică de regulă relaţii liniare între variabile
intervalice sau raţionale (în general variabile cantitative) distribuite normal. De aici provine o
premisă importantă, corelaţia parţială trebuie analizată în relaţie cu corelaţia Pearson şi nu cu
alte forme de corelaţii.

Ca atare, în exemplu am forţat un pic metoda. Şi anume, am folosit o variabilă de control


ordinală. Celelalte două variabile în cauză sînt raţionale şi se pot presupune a fi distribuite mai
mult sau mai puţin normal. Verificarea normalităţii se poate face de fapt cu un test, testul

118
Kolmogorow-Smirnow, dar de regulă nu este necesară pentru a accepta rezultatele unei
analize corelaţionale. Variabila de control are însă un cu totul alt rol în felul în care se
calculează corelaţia parţială. Corelaţia parţială nu este o “corelaţie de trei variabile”.
Utilizarea variabilelor ordinale pe post de variabile de control, deşi nu întru totul corectă este
foarte des făcută şi de fapt acceptabilă.

d. Regresia liniară simplă şi multiplă

Analiza de regresie este o metodă statistică considerată în general a fi ceva mai avansată. Şi
aceasta, în special pentru că presupune o serie de condiţii ce se impun datelor. În sine metoda
este destul de uşor de aplicat şi de analizat fiind practic un pas mai departe în ordinea
lucrurilor pornind de la corelaţia Pearson. Regresia liniară analizează de asemenea relaţii
liniare între variabile cantitative distribuite normal, dar pe lîngă puterea relaţiei încearcă să
traseze de fapt chiar forma acesteia. Modelul regresiei liniare presupune existenţa unei relaţii
de cauzalitate între o variabilă aşa-zis dependentă şi una, sau mai multe, variabile
independente care o influenţează pe cea dependentă. Metoda încearcă să găsească cît de mult
determină modificarea unei variabile modificarea celeilalte şi cît din modificarea unei
variabile e explicabilă prin modificarea celeilalte.

Pentru a ne apropia cît mai corect de problema ce şi-o pune analiza de regresie, cel mai bine
ar fi să luăm un set de date şi să urmăm pas cu pas construirea regresiei liniare. Vom
exemplifica bineînţeles pentru început întregul demers pentru regresia liniară simplă, adică cu
o singură variabilă independentă. Vom folosi o relaţie cît se poate de clară, cea dintre numărul
de studenţi la 10.000 de locuitori şi produsul intern brut pe cap de locuitor. Datele provin din
diferiţi ani (de fapt anii 1950 - 2000) din aproape toate ţările europene (25 de ţări) şi au fost
colectate pentru un studiu bazat tocmai pe diverse tipuri de ecuaţii de regresie (Reisz, Stock,
2006).

Primul pas într-o analiză de regresie, numit uneori excesiv de pretenţios şi “metoda grafică”
este reprezentarea relaţiei dintre cele două variabile ca un nor de puncte şi încercarea de a
construi ipoteze pe baza efectului pur vizual. Graficul de mai jos este acest “nor de puncte”
pentru cazul nostru.

119
600,00

500,00

400,00

studper10000

300,00

200,00

100,00

0,00

0 5000 10000 15000 20000 25000 30000


GDP

Ce putem observa este că valori mai mari ale numărului de studenţi la 10.000 locuitori par a
se asocia cu valori mai mari ale produsului intern pe cap de locuitor. Asocierea se poate
presupune a fi oarecum liniară. Graficul e dominat de un grup compact de puncte care se
grupează asemănător cu o linie. Pe lîngă acest grup există însă şi multe puncte care se prezintă
oarecum disparat de rest. Rolul modelului de regresie este să descrie matematic linia
principală şi să determine cam cît din relaţie dintre cele două variabile se regăseşte în aceasta
şi cît e de fapt cuprins în cazurile “excepţionale”. Altfel, metoda încearcă să determine cît e
regularitate liniară în relaţia dintre cele două variabile.

Ideea e de a trasa o dreapta pe graficul de puncte de mai sus astfel încît ea să fie cît mai
apropiată de toate punctele reprezentate. Această apropiere de “toate” punctele e tocmai
problema majoră pe care o ridică regresia.

120
 
  
 
  
    
  
500,00 


 
 
    
  
400,00     
studper10000

  
 
     
   
      

 
   
  
   
 
         

300,00  
    
 
     
      
      
        
    

      
 

    
 


  
 


 


 
200,00  

 
  
   
  
   
 
       


 
  
  
 
   
 
         
 
 
     
            

   
  
   

          
100,00      
     

   
     

  

     
 


  
       
    

   
 


     
    
    



 


    

 
  
          
   
    
0,00
5000 10000 15000 20000 25000

GDP

În graficul de mai sus apare acelaşi nor de puncte, de astă dată cu o linie trasată pe poziţia
dreptei de regresie. Ca orice dreaptă şi aceasta are o ecuaţie de forma următoare:

S = b0 + b1 * GDP

GDP e desigur valoarea x a dreptei, iar S este valoarea de pe axa y pentru dreaptă. Valoarea S
se doreşte să fie un fel de aproximare a valorii studper10000. Este o aproximare pentru ca aşa
cum spuneam, S se determină astfel încit să fie cît mai aproape de punctele norului.

Desigur punctele de pe dreaptă aferente valorilor variabilei GDP nu au cum sa fie egale cu
punctele potrivite cu valorile Studper10000. Dacă ar fi egale, ar ieşi tocmai norul de puncte şi
nu o dreaptă. Fiecare din punctele din nor diferă de punctele de pe dreaptă printr-o abatere.
Deci

Studper10000 – S = abatere, adică, înlocuind formula dreptei care determină S avem

Studper10000 – (b0 + b1 * GDP) = abatere

121
Studper10000 = b0 + b1 * GDP + abatere

Dat fiind că ecuaţia de mai sus trebuie să fie satisfăcută pentru toate valorile măsurate ea se
traduce de fapt într-un număr atît de mare de ecuaţii cîte perechi de măsurători există. Dacă
notăm cu indici i aceste perechi rezultă formula:

Studper10000i = b0 + b1 * GDPi + abaterei

Această ultimă formă este ceea ce în general numim ecuaţia de regresie. În această ecuaţie
Studper10000, GDP şi abatere sînt variabile aleatoare, iar b0 şi b1 pur şi simplu numere, adică
aşa-numite valori scalare. Studper10000 se numeşte de obicei variabilă ţintă sau variabilă
dependentă, GDP este pe poziţia numită regresor, variabilă explicativă sau independentă.
Modelul presupune de fapt că variabila independentă se repercutează cauzal asupra variabilei
dependente şi felul cum ea o cauzează pe aceasta este unul modelabil liniar, adică în practică,
apropiat de o linie. Abaterea se mai numeşte uneori şi reziduu sau eroare.

În cazul unei cercetări, valorile variabilelor, atît cea dependentă cît şi cea independentă sînt
cunoscute. Ele rezultă din măsurători, indiferent de ce tip ar fi acestea. Ceea ce trebuie
calculat sînt coeficienţii ecuaţiei, adică coeficienţii dreptei de regresie, valorile b0 şi b1.
Coeficienţii aceştia trebuie găsiţi în aşa fel încît abaterea să fie cît mai mică.

Abaterea care se minimizează trebuie să se refere la toate punctele. De aceea prima idee ar fi
să minimizăm suma tuturor abaterilor. Ştim deja că asta nu e o idee bună, de cînd am calculat
dispersia. Şi anume, nu e o idee bună pentru că abateri pozitive şi negative se atentuează şi
ceea ce dorim noi este ca abaterile să fie cît mai mici în valoare absolută. De aceea cel mai
bine este să încercăm să minimizăm suma pătratelor abaterilor. Metoda care se bazează pe
acest principiu este una dintre cele mai importante în statistică şi se numeşte de regulă
metoda celor mai mici pătrate. În engleză se zice ordinary least squares şi de aceea cel mai
adesea se prescurtează cu OLS. Metoda e surpinzător de veche, fiind publicată la începutul
secolului al nouăsprezecelea în mod independent de către americanul Robert Adrain (1808),
Gauss (1809) şi Legendre (1805). Gauss a fost însă cel care a enunţat teorema care ne asigură
de faptul că estimarea dată de metoda celor mai mici pătrate este cea mai bună estimare
liniară nebiasată a dreptei de regresie. O asemenea estimare se mai numeşte BLUE (best liniar

122
unbiased estimate). Deoarece teorema a fost demonstrată mai tîrziu de către statisticianul rus
Andrei Markov, ea poartă în general numele de teorema Gauss-Markov.

Metoda OLS este însă destul de pretenţioasă din punct de vedere al condiţiilor necesare pentru
ca ea să fie aplicabilă şi eficientă. Condiţiile, care se numesc de regulă condiţiile Gauss-
Markov sînt următoarele:

• Variabilele aleatoare abaterei au media 0.


• Variabilele aleatoare abaterei au o dispersie finită egală pentru toţi indicii i. Aceasta se
numeşte homoschedasticitate (sau omogenitate a dispersiei).
• Variabilele aleatoare abaterei sînt necorelate între ele. Condiţia se mai numeşte absenţa
autocorelaţiei.

Prima dintre condiţii este nesemnificativă. La urma urmei dacă media variabilelor abaterei are
fi nenulă s-ar putea adăuga această valoare la termenul liber al ecuaţiei şi abaterile s-ar aduce
astfel la media nulă. Celelalte două condiţii pot fi uneori greu de îndeplinit în cercetări cu date
reale. Cu toate acestea, metodă OLS se foloseşte chiar şi în cazurile în care condiţiile Gauss-
Markov nu sînt perfect îndeplinite.

Condiţia de homoschedasticitate se poate testa cu testul Breusch-Pagan. Dacă se aplică OLS


în condiţii de heteroschedasticitate de obicei coeficientul de corelaţie r al lui Pearson (şi
coeficientul de determinare R2 despre care vom vorbi în curînd) pot fi subestimaţi. Aceasta e
mai puţin grav decît supraestimarea. În practică s-ar putea să nu recunoaştem nişte relaţii
existente dar e puţin probabil să găsim ceva acolo unde nu e nimic. Altfel spus ipoteza de
independenţă între variabilele din ecuaţia de regresie este mai greu de respins în condiţii de
heteroschedasticitate decît ar trebui să fie.

Condiţia de absenţă a autocorelaţiei se testează cu testul Durbin-Watson10. Problema


autocorelaţiei abaterilor este cel mai adesea prezentă în cercetările cu serii de timp, adică cu
valori ale unor variabile care sînt măsurători ale aceluiaşi fenomen în diferite momente de
timp. Abaterile care rezultă din ecuaţii cu valori pentru aceiaşi indivizi în diverse momente de

10
Ca şi în cazul Breusch-Pagan şi pentru testul Durbin-Watson, consider că modul de calcul şi interpretare a
acestor teste depăşeşte cadrul unui manual introductiv de statistică. Importantă este cunoaşterea numelui testului
pentru ca la nevoie să fie posibilă documentarea. Iar ca regulă generală, citirea valorii de significanţă a testului
pe care o dau aproape toate soft-urile statistice poate da o indicaţie bună de interpretare.

123
timp au toate şansele să prezinte autocorelaţii. Autocorelaţia duce de obicei la supraevaluarea
significanţei testelor, de exemplu al testului t. Există o serie întreagă de variante de rezolvare
ale acestei probleme. Fiecare dintre ele are însă dezavantaje. Cercetări recente au ajuns la
concluzia că folosirea metodei OLS rămîne de preferat multor variante mai complicate de
definire sau/şi rezolvare a regresiei liniare. Pentru a avea încredere în rezultatele date de
metoda OLS în condiţii de autocorelaţie a abaterilor, se impun o serie de alte condiţii asupra
variabilelor.

Să vedem deci care sînt rezulatatele regresiei liniare şi cum se citesc ele. Fie deci ecuaţia de
regresie pe care am prezentat-o mai sus. Să vedem rezultatele metodei OLS şi apoi să le
explic pas cu pas.

Model R R-Patrat Eroarea standard a estimatorului


1 ,728(a) ,530 78,75713

Coeficienti

Coeficienti nestandardizati Coeficienţi standardizati

Model B Eroarea standard Beta T Significanta

1 (Constanta) -7,664 5,143 -1,490 ,136


GDP ,016 ,000 ,728 35,052 ,000
a Variabila dependenta: studper10000

Tabelele de mai sus sînt o parte a rezultatelor metodei OLS. De obicei se mai raportează şi
valori intermediare cum ar fi chiar sumele de pătrate calculate şi altele.

Prima tabelă ne precizează cît de puternică este legătura dintre cele două variabile din ecuaţie.
Coeficientul R este chiar coeficientul de corelaţie al lui Pearson. Valoarea este în cazul nostru
o valoare care desemnează o corelaţie destul de puternică, 0,728. Acest coeficient se ridică la
pătrat şi se obţine R2 = 0,530, coeficientul de determinare. Coeficientul acesta reprezintă
procentul din modificarea variabilei ţintă care se poate explica prin modificare variabilei
regresor. În cazul nostru am citi cam aşa: 53% din variaţia numărului de studenţi la 10,000 de

124
locuitori se explică prin variaţia produsului intern brut pe cap de locuitor11. Deci, cu cît R2 e
mai mare, regresorii au un efect mai mare asupra variabilei dependente. Ca efect al
intervalelor de evaluare a coeficientului de corelaţie, o regresie este puternică dacă R2 e mai
mare decît 0,5 (corespunzător unui R mai mare de 0,7 ridicat la pătrat). De fapt, valorile
trebuie şi de această dată privite în contextul cercetării practice. Dacă în general în teme de
natură psihologică chiar şi un R2 de 0,3 e considerat bun, în econometrie, unde relaţiile dintre
indicatori se supun unor reguli mai simple, valori mari, de peste 0,9 nu sînt chiar o raritate.

Al doilea tabel conţine coeficienţii de regresie, numiţi adesea b sau B. Coeficienţii b sînt cei
din ecuaţia de regresie propriu-zisă. Deci pe baza tabelei putem spune că:

Studper10000i = -7,664 + 0,012 GDPi + abaterei

sau, că

Si = -7,664 + 0,012 GDPi

este ecuaţia dreptei de regresie. Pentru fiecare dintre aceşti coeficienţi se propune şi o ipoteză
de forma: “coeficientul b este nul” ceea ce echivalează cu a spune “regresorul nu are nici un
efect asupra variabilei ţintă”. Pentru această ipoteză se efectuează testul t şi se dă în tabel
valoarea testului şi significanţa lui. Vedem că significanţa coeficientului lui GDP este foarte
bună (testul t dă peste 35), însă significanţa coeficientului termenului liber nu e aşa grozavă (t
= -1,49). Deci acest coeficient al termenului liber este ceva mai nesigur.

Coeficientul lui GDP se poate citi astfel. Dacă valoarea GDP creşte cu o unitate, numărul
studenţilor la 10000 de locuitori creşte cu 0,012 unităţi. Desigur exprimarea aceasta sună
foarte mecanicist şi nu trebuie înţeleasă altfel decît ca o modelare, sau poate chiar mai vag, ca
o metaforă a relaţiei dintre variabile. Totuşi vom vedea că interpretarea coeficienţilor de
regresie, precum şi a coeficientului de determinare, ne poate da indicaţii despre puterea cu
care influenţează diferite variabile independente variabila dependentă a unei cercetări.

11
În cercetările mele pe această temă, rezultatul a fost pînă la urmă mai nuanţat, varianta de mai sus neluînd în
seamă eterogenităţi locale existente în felul cum variabilele educaţionale şi economice se influenţează reciproc.
Am ales să prezint aici însă forma cea mai simplă, scopul fiind la urma urmei unul educaţional. Deci, nu mă
citaţi cu rezultatul din exemplu, legătura dintre numărul de studenţi şi produsul intern brut e mai complicată decît
pare aici!

125
Coeficientul Beta din tabel este o valoare standardizată care ia în seamă valoarea medie şi
dispersia variabilei independente. Aceasta va fi interesant, cum vom vedea, în special la
regresia multiplă pentru că va permite compararea efectelor mai multor variabile
independente care evident au medii diferite.

Regresia multiplă extinde metoda prezentată mai sus la un număr mai mare de variabile
independente care se repercutează asupra aceleiaşi variabile ţintă. Voi descrie în continuare şi
aceasta pentru ca apoi să vedem în continuare cum se pot analiza acestea.

Pentru a exemplifica regresia multiplă o să folosesc o extindere a aceleiaşi probleme. Regresia


multiplă diferă de cea simplă prin numărul regresorilor. Deci, dacă în exemplul precedent am
avut un singur regresor al cărei efect asupra variabilei ţintă ne interesa, în cazul unei regresii
multiple numărul regresorilor va fi mai mare. Pentru a păstra lucrurile cît mai simple posibil
să luăm doi regresori. În exemplul simplu, ţinta era numărul de studenţi la 10.000 de locuitori
şi regresorul era produsul intern brut pe cap de locuitor. Să luăm acum un al doilea regresor,
numărul de organizaţii neguvernamentale internaţionale active în anul studiat în ţara cu
pricina.

Motivaţia acestei extinderi a modelului este următoarea: teoriile globalizării ale şcolii neo-
instituţionaliste de la Stanford (John Meyer, Francesco Ramirez, şi alţii) găsesc că
expansiunea învăţămîntului are loc peste tot în lume indiferent de nivelul de dezvoltare
economică. Mai mult, ei găsesc că în a doua jumătate a secolului 20, expansiunea
educaţională a avut loc peste tot în lume, indiferent dacă economia era în creştere sau în
descreştere. De aici ei ajung la concluzia că dezvoltarea învăţămîntului nu are legătură cu
dezvoltarea economică. Ipoteza lor este însă aceea că dezvoltarea învăţămîntului este un
epifenomen al globalizării şi ca atare ar trebui să depindă de un indicator care măsoară nivelul
de globalizare al unei ţări. Tot ei propun numărul de organizaţii non-guvernamentale
internaţionale active la un moment dat într-o ţară ca un astfel de indicator. Acest indicator este
notat de regulă cu ingo (de la international non-governmental organizations).

Am avea atunci o ecuaţie de regresie în care avem doi regresori, unul indicînd dezvoltarea
economică şi un altul gradul de globalizare. Ecuaţia este următoarea:

Studper10000i = b0 + b1 * GDPi + b2 * ingoi + abaterei

126
Observăm că logica formulei rămîne aceiaşi, apare un termen în plus, cu coeficientul de
regresie b2 şi variabila de regresie ingoi. Statistic vorbind, pînă acum efectul pe care îl avea
ingo asupra variabilei ţintă nu era evidenţiat separat, deci făcea parte din ansamblul de efecte
care se adună în abatare pentru a forma o variabilă aleatoare. Desigur, aşa cum vom vedea o
parte a efectului variabilei ingo era de asemenea inclus implicit în efectul produsului intern
brut pe cap de locuitor. Deci abaterea din noua ecuaţie de regresie nu mai conţine aceiaşi
lucru ca şi abaterea din ecuaţia simplă, ea este “curăţată” de efectul pe care l-ar putea avea
ingo. Cît de mare este acest efect ne poate spune o comparaţie între ecuaţia de regresie simplă
şi cea multiplă.

Pînă acolo, cîteva remarci. Condiţiile pe care le-am specificat pentru ca metoda celor mai mici
pătrate să fie funcţională rămîn aceleaşi. Apare însă un fel de condiţie suplimentară. Aceasta
nu influenţează eficienţa metodei dar schimbă modul cum se citesc rezultatele. Ea se referă la
coliniaritatea regresorilor, adică independenţa lor. În esenţă este de preferat ca regresorii să fie
independenţi. Dacă sînt independenţi efectele lor asupra variabilei ţintă sînt pur şi simplu
însumate. Dacă însă nu este aşa, şi de obicei în lumea reală nu este aşa, atunci efectul sumei
regresorilor este cu atît mai mic faţă de suma efectelor regresorilor cu cît regresorii sînt mai
corelaţi între ei. Poate sună puţin neclar, ce vreau eu să zic de fapt. Fiecare regresor ar putea
apărea într-o regresie simplă, de exemplu, una cu produsul intern brut, ca şi în exemplu, şi una
cu organizaţiile non-guvernamentale internaţionale. Fiecare dintre acestea două ar da un
anume nivel de explicare a variaţiei numărului de studenţi, o valoare specifică a R2. În
exemplul nostru, această valoare este ceva peste 50% pentru ambii regresori (vezi Reisz,
Stock, 2006). Dacă cei doi regresori ar fi independenţi, sau aproape independenţi, regresia
multiplă ar trebuie să dea o valoare R2 de 100%!. Este însă de bun simţ să observăm că o ţară
este cu atît mai încadrată în societatea globală cu cît este mai dezvoltată economic. Deci cei
doi indicatori trebuie să fie corelaţi destul de puternic. De fapt, coeficientul de corelaţie este
de 0,83 şi relevant cu o significanţă de 0,000. Fiind o corelaţie atît de mare e de bănuit că
adăugînd la regresia simplă ce verifică efectul produsului intern brut şi efectul globalizării
ţării nu se schimbă mare lucru. O astfel de situaţie se numeşte multicoliniaritate sau, dacă
corelaţia e aproape perfectă, redundanţă.

Să vedem rezultatele ecuaţiei noastre de regresie multiplă:

127
Model R R-Patrat Eroarea standard a estimatorului
1 ,753 ,566 76,00829

Coeficienti

Coeficienti nestandardizati Coeficienti standardizati

Model B Standardfehler Beta T Significanta

1 (constanta) -4,468 5,123 -,872 ,383


GDP ,009 ,001 ,413 11,559 ,000
ingo ,059 ,006 ,376 10,528 ,000
a Variabila dependenta: studper10000

Să analizăm acum rezultatele. Prima tabelă ne dă indicatorii de corelaţie (R) şi determinare


(R2) dintre variabila ţintă şi grupul de regresori luat în ansamblu. Importantă este aici citirea
coeficientului de determinare. Exact ca şi în cazul regresiei simple coeficientul de determinare
ne spune ce procent din modificarea variabilei ţintă se explică prin modificarea variabilelor de
regresie. În cazul nostru observăm că R2-ul regresiei simple era de 0,530, iar cel al regresiei
multiple cu adăugarea indicatorului de globalizare este de 0,566. Diferenţă, numită uneori şi
R2c sau modificare a coeficientului de determinare (c vine de la change, modificare sau
schimbare) este foarte mică, de 0,036. Pentru a analiza această modificare este însă
obligatorie analiza corelaţiei regresorilor. În cazul nostru, cum am mai spus, regresorii sînt
puternic corelaţi. Dacă regresorii ar fi fost independenţi, valoarea R2c ar fi fost interpretabilă
ca efect al indicatorului de globalizare. Dat fiind corelaţia existentă valoarea R2c este cîştigul
de informaţie pe care îl adaugă regresorul suplimentar.

Să mergem mai departe şi să studiem mai de aproape tabela a doua, cea cu coeficienţii de
regresie. Din ea rezultă că ecuaţia de regresie are forma:

Studper10000i = -4,468 + 0,009 GDPi + 0,059 * ingoi + abaterei

Valoarea coeficientului GDP nu diferă radical de valoarea pe care acest coeficient o avea în
cazul regresiei simple, aceasta fiind explicabil tot prin corelaţia mare dintre regresori. Din
ecuaţia de mai sus putem extrage următoarele două declaraţii:

128
• Dacă produsul intern brut pe cap de locuitor creşte cu un dolar, numărul studenţilor la
10.000 de locuitori creşte cu 0,009.
• Dacă numărul organizaţiilor non-guvernamentale internaţionale active într-o ţară
creşte cu una, numărul studenţilor la 10.000 de locuitori creşte cu 0,059.

Desigur, cum am mai scris şi mai sus, exprimate aşa relaţiile par imposibil de simple şi
directe. Şi desigur o citire atît de naivă ar fi greşită. Totuşi pînă la urmă, considerînd
cauzalităţi complexe şi reţele de influenţă evident indirecte şi complicate rezultatul acesta
este. Un produs intern brut pe cap de locuitor mai mare cu un dolar e legat de un număr de
studenţi la 10,000 de locuitori mai mare cu 0,009.

Ne-am dori să comparăm coeficienţii de regresie între ei. Este într-adevăr 0.059 mai mare
decît 0,009? Care dintre cele două variabile de regresie are efectul mai mare în realitate?

Pentru aceasta se poate folosi un indicator numit puterea unui regresor care se calculează
foarte simplu ca produs la coeficientului de regresie cu media variabilei regresor. La urma
urmei, ne interesează care e valoarea medie numerică ce se repercutează asupra variabilei
ţintă. În exemplu avem:

Media Coeficientul Puterea


GDP 9740,97 0,009 87,66
Ingo 1139,7700 0,059 67,24

Observăm că citirea pur şi simplu a coeficienţilor de regresie b ne-ar fi dus puţin în eroare.
Coeficientul indicatorului de globalizare era de vreo 6 ori mai mare decît coeficientul
indicatorului economic. Aceasta ar fi putut să ne ducă cu gîndul la un efect mult mai mare al
acestuia. Pentru a putea însă compara cu adevărat efectele nu trebuie uitată valoarea în sine a
indicatorilor. Şi într-adevăr media indicatorului economic este de aproape 9 ori mai mare
decît media indicatorului de globalizare. Înmulţind, rezultă puterile relative şi rezultă că
numărul de studenţi este determinat în mai mare măsură de creşterea economică decît de
globalizare. Trebuie să observăm şi faptul că cele două puteri sînt totuşi destul de apropiate.
Ele au acelaşi ordin de mărime. Diferenţa dintre ele se poate da, de exemplu, procentual.
Astfel putem spune că efectul creşterii economice este cu aproape 30% mai mare decît efectul
globalizării în modelul de regresie liniară de mai sus sau invers, puterea efectului globalizării

129
asupra expansiunii învăţămîntului superior este aproximativ trei-sferturi din puterea efectului
creşterii economice. Evident, modelul în sine, explică, aşa cum am văzut, numai jumătate din
variaţia variabilei ţintă.

Tabelele ecuaţiei de regresie ne oferă şi ele un indicator comparativ apropiat de puterea unei
variabile independente, valorile Beta. Aceste valori reprezintă coeficienţi standardizaţi pentru
variabilele aleatoare, coeficienţi care iau în considerare valoarea medie a variabilelor
independente, dar şi dispersia lor. În exemplul nostru valorile Beta au fost: 0,412 pentru GDP
şi 0,376 pentru ingo reproducînd destul de îndeaproape calculele noastre de mai sus. Desigur
o decizie rapidă asupra importanţei regresorilor într-o ecuaţie de regresie multiplă este mai
uşor de luat folosind ceea ce raportează softul statistic. Pe de altă parte “puterea regresorului”
aşa cum am calculat-o mai sus este un concept mai simplu şi poate duce ca atare la mai puţine
confuzii.

Să rezumăm acum avantajele şi dezavantajele regresiei multiple. Regresia multiplă are ca


principal avantaj posibilitatea comparării efectelor unor variabile (definite în model ca
regresori) asupra variabilei ţintă. Pentru asta luăm în seamă gradul lor de corelare reciprocă,
să calculăm modificarea coeficientului de determinare şi puterile regresorilor.

Al doilea mare avantaj este că regresia multiplă poate “curăţa” abaterile de efecte care nu pot
fi considerate pur şi simplu aleatoare. Dacă avem un singur regresor tot ce mai are efect
asupra variabilei ţintă este împins în factorul abatere (sau eroare). Aceasta poate duce la
neîndeplinirea condiţiilor Gauss-Markov, cele cu lipsa autocorelării şi a heteroschedasticităţii.

Deci o regresie multiplă poate avea efecte benefice asupra modelului. Îl poate face mai exact,
prin creşterea coeficientului de determinare, şi îl poate face şi mai uşor rezolvabil matematic.
Atunci ar trebui să tot adăugăm regresori pînă ajungem să descriem toată variaţia variabilei
ţintă şi gata: am descris complet problema! Din păcate aşa ceva în lumea reală nu se prea
poate şi în plus regresia multiplă are şi anumite dezavantaje care ne determină să o folosim cu
oarecare măsură.

Necazul cel mai mare cu regresia multiplă este supraspecificarea modelului. Nu e chiar tragic
dar poate duce la anumite incurcături dacă nu este interpretată cu grijă. Supraspecificarea
înseamnă de fapt includerea unui număr prea mare de regresori. În astfel de situaţii analiza

130
relaţiilor dintre regresori nu se mai poate face atît de simplu ca în cazul exemplului nostru în
care deşi exista multicoliniaritate, erau numai doi regresori.

Un efect al supraspecificării este desigur creşterea şanselor de multicoliniaritate. Pe de o


parte, avînd mulţi regresori există şanse mai mari ca unii dintre ei să fie puternic corelaţi cu
alţii. Pe de altă parte, mai apare şi posibilitatea ca un regresor să fie foarte apropiat de o
combinaţie liniară a altor regresori. Ce se întîmplă în astfel de cazuri este că acelaşi obiect sau
fenomen apare în ecuaţia de regresie de mai multe ori prin mai multe măsurători diferite între
ele. Pericolul supraspecificării nu apare deci, atunci cînd fenomene diferite, bine-definite
teoretic (ca în exemplu, creşterea economică şi globalizarea) sînt în mod dovedit corelate, ci
atunci cînd folosim mai multe variabile care măsoară acelaşi fenomen. De ce? Ei bine, pentru
că estimarea efectului fenomenului în sine devine problematică. Utilizînd mai multe
măsurători pentru fiecare din fenomenele studiate, compararea efectelor acestor fenomene
devine incertă. Fiecare dintre măsurătorile fenomenului vor avea un impact subestimat prin
prezenţa celorlalte măsurători. Suma impactelor variabilelor care aparţin aceluiaşi complex
teoretic trebuie de asemenea tratată cu grijă pentru că poate fi influenţată de relaţii diferite cu
celelalte variabile ale modelului. Desigur, aşa cum am mai spus, multicoliniaritatea nu este o
problemă care să facă modelul inutil sau metoda inexactă. Multicoliniaritatea cu un număr
mare de regresori complică însă semnificativ analiza modelului.

A doua problemă a supraspecificării este legată de alegerea variabilelor. Incluzînd în model


un număr mare de variabile, multe dintre acestea vor avea un impact redus asupra variabilei
ţintă. Astfel de efecte, care ajung să fie de a dreptul neglijabile nu fac decît să complice
modelul şi să acorde unor variabile o nemeritată atenţie. Variabile care au fost incluse în
model şi au un efect foarte mic au probabil acelaşi impact cu o gramadă de alte variabile care
nu au fost incluse în model. Prezenţa lor acolo face însă ca ele să fie interpretate, discutate şi
să li se atribuie, chiar fără a supraevalua valorile, o importanţă mai mare decît altor variabile.

Să discutăm în încheierea acestui capitol puţin despre felul cum ar fi bine să se facă
specificarea modelului de regresie liniară. În general se consideră modelul de regresie ideal,
un model cu un număr minim de variabile, cît mai puţin dependente între ele şi cu un impact
individual cît mai mare. Nu întotdeuna există aşa ceva, şi chiar dacă există, în majoritatea
cercetărilor nu avem cum să găsim un asemenea model. Mai mult decît atît, găsind variabile
de impact maxim asupra variabilei ţintă s-ar putea să nu găsim altceva decît o măsură a

131
aceluiaşi fenomen. Oricum, dezideratul fiind găsirea unui număr mic de variabile
independente de impact mare, cercetătorul trebuie să îşi dea silinţa să determine variabilele
care au efectul cel mai mare asupra variabilei ţintă. Pentru asta bineînţeles trebuie să-şi
folosească cît de mult posibil bunul simţ ştiinţific şi cultura de specialitate. Trebuie să
modelez creşterea numărului de studenţi, ce regresori iau? Trebuie să pornesc de la un soi de
repertoar al fenomenelor pe care teoria le-a pus în legătură cu fenomenul ţintă al modelării.
Apoi trebuie să verific prin regresii simple efectul acestor regresori asupra variabilei ţintă şi
prin analiză de corelaţie gradul de multicoliniaritate dintre regresori.

De obicei în finalul acestui demers se dezvoltă mai multe modele concurente la explicarea
fenomenului ţintă. Acestea se calculează, iar rezultatele se compară între ele.

132
Capitolul 7. Pentru vegetarieni. Analiza datelor nenumerice.

În acest capitol mă voi referi la modurile cum statistica se poate apropia de date care nu au
caracter numeric, cantitativ. Datele acestea, numite de regulă calitative nu permit utilizarea
oricăror metode statistice. Ele sînt mai pretenţioase, se pot face mai multe greşeli la
“prepararea” lor. Pe de altă parte, datele calitative ne pot oferi o pătrundere în subiect la un
nivel mult mai amănunţit. Ele permit trecerea dincolo de mult criticata superficialitate a
cantitativului.

Aşa cum am văzut deja astfel de date sînt prezente foarte des în cercetările sociale,
economice, şi nu numai. Din experienţa mea aceste variabile sînt chiar majoritare în
cercetările de acest tip. Arareori avem nevoie de valori simple cantitative în studii legate de
comportamentul oamenilor, fie el social, economic sau politic. Cu excepţia vîrstei, aproape că
nu avem date raţionale în studiile de piaţă, de exemplu. Nici măcar informaţiile legate de
venituri nu sînt cu adevărat raţionale, pentru că nu avem la dispoziţie statele de plată ale celor
intervievaţi, ci o auto-estimare a venitului lunar, de obicei pe categorii. Ce să mai spun,
greutatea sau înălţimea persoanelor intervievate interesează prea puţini clienţi ai marketing
research-ului. Chiar dacă acestea ar avea vreo legătură, de exemplu, cu consumul de bere al
celui intervievat, atîta timp cît nu au relevanţă din punct de vedere al planificării şi designului
publicităţii sau distribuţiei, interprinderile producătoare sînt prea puţin interesate de ele. Deci,
majoritatea întrebărilor de interes pentru cercetările statisticii sociale se dovedesc a fi
categoriale, uneori chiar nominale, dar cel mai adesea ordinale. A nu se înţelege de aici că
datele cantitative sînt chiar irelevant de rare. Ele apar adesea în cercetări medicale, geografice,
economice, uneori în studii politice comparative internaţional, în sociologie organizaţională şi
ecologie.

În capitolele precedente am trecut în revistă o serie întreagă de metode care nu erau gîndite a
fi utilizate pentru variabile fără caracter cantitativ. Cu toate acestea, o parte dintre ele îşi
păstrează validitatea şi atunci cînd sînt aplicate unor date calitative. Problema esenţială legată
de alegerea metodei este simplă: cu date calitative nu se fac calcule. Aceasta însă nu înseamnă
că nu se pot calcula frecvenţele de apariţie a lor. Deci, de exemplu, nu se poate face o
corelaţie simplă Pearson cu date cu care nu se poate calcula. Am văzut însă că se poate face o
corelaţie Spearman, pentru că acolo calculele nu se fac cu valorile variabilelor în sine ci cu
poziţiile lor într-o listă ordonată de ranguri. Un alt exemplu. Desigur nu se pot efectua teste

133
legate de media unor variabile calitative (chiar dacă ele sînt reprezentate prin valori
numerice), pe de altă parte se pot foarte bine efectua teste cu frecvenţele de apariţie a unor
astfel de variabile. Hai să fiu mai clar, fie o întrebare de opinie, de genul: “Sunteţi de acord cu
...?” şi răspunsurile sînt “1. Da; 2. Nu”. Calculul mediei răspunsurilor este total lipsit de sens
pentru că presupune adunarea de valori 1 şi 2 adică adunarea de Da şi Nu şi împărţirea la
numărul lor. Pe de altă parte testarea faptului că frecvenţa de apariţie a unui Da este relevant
diferită de 50% este absolut corectă. E vorba despre un test similar la urma urmei, diferenţa
este că în primul caz se fac calcule cu valorile variabilei iar în al doilea caz cu frecvenţele de
apariţie a acestor valori.

Tot ce am discutat pănă acum legat de prezentări tabelare, grafice, indicatori, teste, etc. are
valabilitate şi în cazul variabilelor calitative atît timp cît metoda nu presupune calcule cu
valorile variabilelor.

În cele ce urmează o să adaug la reţaterul nostru de metode cîteva care au fost gîndite special
pentru variabile calitative. Cel mai adesea ele se evidenţiază printr-un număr mai mic de
restricţii sau presupuneri legate de variabile. De aceea ele se folosesc adesea şi în cazul unor
variabile raţionale sau intervalice despre care avem mai puţine informaţii. De exemplu,
variabile despre care nu putem presupune că ar fi distribuite normal. Astfel de metode sînt
adesea numite şi metode non-parametrice sau cu distribuţie liberă. Denumirea de non-
parametric poate să inducă în eroare de-a binelea. Şi eu am fost multă vreme convins că aşa se
numesc metode care pur şi simplu nu au parametrii. Ei bine, nu e aşa. Metodele non-
parametrice sînt metode la care nu se fac presupuneri a-priori despre parametrii. E mult mai
simplu să le numim metode fără distribuţii presupuse a-priori, sau metode libere de
distribuţie. Din păcate e bine să ţinem minte şi denumirea inducătoare în eroare pentru că ea e
folosită în diverse programe statistice (de ex. în SPSS) şi în multe cărţi de statistică. Cea mai
utilă şi răspîndită metodă non-parametrică este testul Chi2.

a. Testul Chi2

De fapt există o întreagă familie de teste numite Chi2. Ele efectuează testarea folosindu-se de
o familie de distribuţii de probabilitate numită Chi2. Familia aceasta este mai largă decît
familia de distribuţii normale şi o include pe aceasta din urmă ca o limită a ei.

134
Cel mai important dintre testele Chi2 este testul Chi2 al lui Pearson. Simplu, puternic, fără
presupuneri greu de îndeplinit, testul se poate folosi cu încredere aproape peste tot. E aproape
un panaceu universal. De obicei se foloseşte la variabile calitative pentru că nu presupune
efectuarea de calcule cu variabilele testate. Cu toate acestea se poate folosi liniştit şi în cazul
variabilelor raţionale sau intervalice şi este chiar indicat în cazul în care acestea nu au o
distribuţie normală sau log-normală. Singura condiţie practică este ca numărul de valori pe
care le ia variabila să nu fie prea mare. Să vedem însă ce testăm.

Ipoteza pe care o testează testul Chi2 al lui Pearson este că distribuţia unei variabile nu diferă
semnificativ de o distribuţie teoretică dată. Adică frecvenţele de apariţie a valorilor unei
variabile corespund unei reguli, unei distribuţii cunoscute. De exemplu, această distribuţie ar
putea fi uniformă, adică fiecare valoare să apară de un număr egal de ori, sau ar putea fi orice
altă distribuţie fie că are vreo relevanţă teoretică sau e pur şi simplu propusă de cercetător.

Hai să luăm un exemplu pentru a clarifica felul cum se pune o ipoteză pentru testul Chi2. Să
luăm de exemplu o cercetare pe care am mai folosit-o pe parcursul acestei cărţi. E vorba
despre un studiu de piaţă efectuat în Baia Mare în 2003. În tabelul de mai jos apare distribuţia
pe frecvenţe a unei întrebări simple cu răspunsurile organizate sub forma unei scale ordonate.
Evident, variabila răspuns este o variabilă ordinală:

10. Cat de des se fac cumparaturile la dvs. in familie?

Frecvenţă Procent
zilnic 446 42,4
de mai multe ori pe saptamana 370 35,2
saptamanal 168 16,0
mai rar 67 6,4
Total 1051 100,0

Ipoteza tipică pentru un test Chi2 va compara distribuţia valorilor cu o distribuţie uniformă.
Distribuţia de mai sus este de fapt lista de frecvenţe ce apare pe a doua coloană a tabelului:
446 - 370 - 168 - 67. Distribuţia uniformă ar fi atinsă dacă toate valorile ar fi la fel de
probabile, adică am avea o listă care se obtine împărţind volumul populaţiei (aici 1051) la
numărul valorilor posibile (aici patru), deci: 263 – 263 – 263 – 263. Testul verifică dacă cele
două liste diferă semnificativ una de alta. Poate nu pare foarte interesant. Hai să luăm însă

135
puţin altfel problema. Să considerăm un subgrup din populaţia noastră. De exemplu, cei care
au studii superioare. Pentru ei frecvenţa cumpărăturilor arată astfel:

10. Cat de des se fac cumparaturile la dvs. in familie?

Frecvenţă Procent
Zilnic 102 36,6
de mai multe ori pe saptamana 118 42,3
Saptamanal 55 19,7
mai rar 4 1,4
Total 279 100,0

Lista de frecvenţe este de 102 – 118 – 55 – 4. Diferă oare cu adevărat această listă de
distribuţia celor care nu au studii superioare, vizibilă în tabela de mai jos:

10. Cat de des se fac cumparaturile la dvs. in familie?

Frecvenţă Procent
Zilnic 344 44,6
de mai multe ori pe saptamana 252 32,6
Saptamanal 113 14,6
mai rar 63 8,2
Total 772 100,0

Ipoteza de egalitate ar suna atunci cam aşa: “fie că au sau nu studii superioare, locuitorii din
Baia Mare fac cumpărăturile la fel de des“. Asta e mult mai interesant pentru o firmă de
marketing. De o asemenea observaţie sau observaţii de acest gen poate depinde modul cum se
organizează o campanie de publicitate sau de promovare a unui produs. Observăm că este o
ipoteză de acelaşi tip ca şi în primul caz. Avem două liste de frecvenţe: 102 – 118 – 55 – 4 şi
344 – 252 – 113 – 63. “La ochi” ele diferă. Valorile procentuale pentru primele două categorii
par a se inversa, iar a patra categorie care e nesemnificativă pentru prima listă e considerabil
mai mare în cea de a doua. Totuşi sînt oare aceste diferenţe suficiente ca să respingem
ipoteza, adică să spunem că între cele două grupuri existe diferenţe semnificative în frecvenţa
cu care îşi fac cumpărăturile.

Să vedem deci cum se calculează. Valoarea de test Chi2 se obţine astfel:

136
În formulă Oi sînt frecvenţele observate ale valorilor variabilei, Ei frecvenţele aşteptate, sau
teoretice. i ia valori de la 1 la 4, adică are atîtea valori cîte valori poate lua variabila noastră.
Avem de comparat doua liste de frecvenţe de lungime i, unele vor lua locul valorilor Oi,
celelalte vor sta la baza calcului valorilor Ei. O sa luăm acum valorile pentru intervievaţii cu
studii superioare ca fiind valorile Oi. Valorile Ei vor fi valorile care s-ar găsi în grupul celor
cu studii superioare dacă distribuţia ar fi aceiaşi ca şi în grupul celor fără studii superioare.

Pentru a găsi valorile Ei trebuie să proiectăm procentajele aşa cum apar în tabela de referinţă
la numărul total de cazuri din tabela testată. Mai clar, dacă distribuţia ar fi aceiaşi atunci
procentele aşa cum apar la cei fără studii superioare ar trebui să apară şi la cei cu studii
superioare. Atunci 44,6% ar trebui să fie în categoria “zilnic”. Adică numărul aşteptat de
cazuri este pentru această categorie 44,6% din volumul eşantionului de test, adică 279.

Calculul e deci foarte simplu, o regulă de trei simplă aplicată volumului total, sumei de valori
Oi pentru procentajul fiecărei frecvenţe din cel de-al doilea grup:

E1 = 279 * 44,6 / 100 = 124,4.

Valoarea 124,4 diferă faţă de 102, cîte cazuri sînt de fapt în eşantion. Calculînd şi celelalte
procente rezultă o listă de frecvenţe astfel: 124,4 – 91,0 – 40,7 – 22,9. Valorile nu sînt întregi
pentru că se obţin aplicînd procentajele aşa cum am explicat. Să exemplificăm acum calculul
valorii Chi2:

Chi2 = (102 – 124,4)2/124,4 + (118 – 91)2/91 + (55 – 40,7)2/40,7 + (4 – 22,9)2/ 22,9

Valoarea calculată este Chi2 = 32,66. Programele statistice ne-ar da şi o significanţă. În cazul
de faţă ar fi 0,000, deci foarte bună. Dacă însă nu am folosi un soft statistic ar trebui să
folosim o tabelă de valori. Astfel de tabele pentru valorile Chi2 se găsesc de obicei la capătul
cărţilor de statistică (inclusiv în această carte), dar există şi pe internet, de exemplu la adresa
http://www.statsoft.com/textbook/sttable.html unde se găsesc tabele de valori şi pentru alte
teste foarte des utilizate, testele t, Z şi F (tabelele pentru t şi Z se găsesc şi în cartea de faţă).

137
Să studiem puţin tabela de la pagina ***. Pentru a citi această tabelă de valori Chi2 avem
nevoie de încă un termen numit grad de libertate, prescurtat df, din engleză, de la “degrees of
freedom”. În cazul testelor Chi2 acest grad de libertate nu este altceva decît numărul valorilor
pe care le-a luat variabila testată minus 1. Adică, în exemplul nostru unde aveam patru valori
posibile, 4 – 1 = 3 grade de libertate.

Căutăm în tabel pe linia potrivită numărului de grade de libertate pînă dăm de prima valoare
care e mai mare decît valoarea Chi2 obţinută prin calcul. Significanţa, adică probabilitatea de
a face o eroare de tip I, va fi atunci valoarea din capul de tabel a coloanei precedente.
Observăm că pe măsură ce creşte valoarea Chi2, se înbunătăţeşte, adică scade ca valoare
significanţa. În exemplul nostru valoarea calculată e mai mare decît oricare din valorile de pe
linia pentru 3 grade de libertate. Deci significanţa e mai bună decît cea mai bună significanţă
din tabel. Deci şansa de a respinge o ipoteză corectă, căci aceasta era eroarea de tip I, este
foarte, foarte mică, de fapt mai mică decît 0,001. Putem ca atare respinge liniştit ipoteza.

În concluzie, testul Chi2 din exemplu permite respingerea ipotezei de egalitate între cele două
distribuţii. Adică datele noastre sînt suficiente pentru a putea spune că cei cu studii superioare
au o distribuţie a frecvenţei de a face cumpărături semnificativ diferită de cei ce nu au
asemenea studii.

Exact la fel ca şi în exemplu se pot compara orice două liste de valori de frecvenţe. Fie că una
este empirică şi una teoretică, fie că ambele sînt empirice.

b. Testele Wilcoxon, Mann-Whitney şi Kruskal Wallis

Vom continua cu alte teste non-parametrice. Testul Wilcoxon este o alternativă non-
parametrică la testul t al lui Student pentru două medii, pe care l-am descris în capitolul 5.
Deşi testul Wilcoxon a fost propus pentru un nivel de măsurare a datelor cel puţin intervalic,
nu se fac nici un fel de presupuneri despre distribuţia datelor. Ca atare testul este potrivit de
cîte ori nu sînt satisfăcute condiţiile testului t, care presupune normalitate.

Să rememorăm scurt ipoteza testului t pentru două medii. Testul t pentru două medii verifica o
ipoteză de egalitate sau inegalitate a două valori care se obţineau ca medii ale unei variabile

138
aleatoare. Mediile se calculează pentru două eşantioane. Cele două eşantioane trebuie să
prezinte o distribuţie normală de aceiaşi dispersie a variabilei a cărei medie se testează şi pot
fi independente sau dependente. Ipoteza de normalitate cu dispersie egală este destul de tare,
în multe situaţii o asemenea presupunere restricţionînd mult posibilitatea de folosire a testului.
Aici intervine testul Wilcoxon.

Pe de altă parte, trebuie să observăm că testul t presupune întotdeuna un calcul de medie, deci
testul se poate referi numai la variabile cantitative. Şi aici e nevoie de o generalizare care să
facă metoda folositoare şi în alte cazuri. Testul Wilcoxon face o asemenea generalizare
folosind în locul valorilor poziţiile într-o ierarhie de frecvenţe. De fapt, testul Wilcoxon
transformă testul t într-un mod analog cu felul cu corelaţia Spearman transformă corelaţia
Pearson. Ca atare, variabilele testate prin testul Wilcoxon trebuie să fie ordinale, dar nu
neapărat intervalice sau raţionale. Deşi se efectuează nişte diferenţe între valori în cazul
Wilcoxon scopul acestora este doar de a stabili care valori sînt mai îndepărtate sau mai
apropiate de o cvasi-medie. Testul se foloseşte frecvent pentru întrebări de opinie. Să vedem
însă ce şi cum calculează.

Ipoteza testului de defineşte astfel. Fie două eşantioane, care pot fi total independente, dar cel
mai adesea sînt rezultate din reinterogarea aceluiaşi eşantion. Pe cele două eşantioane se
identifică o aceiaşi variabilă. Ipoteza este că distribuţia acestei variabile este egală în cele
două eşantioane. Un exemplu simplu: să presupunem că am efectuat un tratament oarecare şi
dorim să vedem dacă se repercutează asupra unei variabile. Ştiu eu, am tuns un preşedinte şi
vrem să vedem dacă aceasta a dus la creşterea sau scăderea popularităţii lui. Variabila de
popularitate va fi atunci culeasă o dată înainte de tundere, o dată după. Deoarece această
variabilă nu este de fapt cantitativă nu se poate stabili cu un test t dacă diferenţa medie
sesizată este relevantă statistic sau nu. Se pot folosi evident teste Z pentru a stabili dacă a
crescut relevant procentul simpatizanţilor sau nu, testul Wilcoxon ne oferă însă o singură
testare de ansamblu a diferenţei distribuţiei. Pentru această se acţionează astfel:

1. Să notăm cele două valori ale variabilei, simpatia înainte de tuns – x, şi simpatia după
tuns – y. Pentru fiecare individ i chestionat vom avea două valori xi şi yi.
2. Calculăm modulul diferenţei zi = | xi –yi |
3. Ordonăm valorile zi, eliminăm valorile nule şi acordăm fiecărei valori o valoare rang
în funcţie de poziţia pe care o ocupă în lista ordonată. Dacă două sau mai multe valori

139
z sînt egale punem rangul mediu. De exemplu dacă valorile de pe poziţia 5 şi poziţia 6
sînt egale, ambele primesc rangul 5,5.
4. Calculăm acum suma rangurilor care corespund abaterilor pozitive şi suma rangurilor
care corespund abaterilor negative12. Valoarea cea mai mică dintre acestea două este
valoarea de test.

Valoarea de test se numeşte uneori T, alteori S sau chiar W. Valorile critice pentru testul
Wilcoxon se găsesc de asemenea în tabele organizate în funcţie de significanţă şi numărul de
cazuri. O regulă simplă este: cu cît valoare e mai mare cu atît significanţa e mai bună, dar
evident trebuie verificată tabela pentru a decide într-un caz particular. Soft-urile statistice care
efectuează testul Wilcoxon raportează desigur şi significanţa rezultatului care se citeşte cum
ne-am obişnuit deja, ca probabilitate de a efectua o eroare de tip I. Deci cu cît valoarea
significanţei e mai mică cu atît putem respinge ipoteza de nemodificare a variabilei cu un risc
de eroare mai mic. O significanţă bună este, de regulă, una cu valoare sub 0,05.

O dezvoltare interesantă a testului Wilcoxon este testul U, numit şi Mann-Whitney, Mann-


Whitney-Wilcoxon sau Wilcoxon-Mann-Whitney. Am văzut că testul Wilcoxon se putea
folosi acolo unde aveam un design de tip înainte-după, adică valori înperecheate. Trebuia să
avem două eşantioane în care să construim perechi. Aceasta este o situaţie care apare desigur
la anumite tipuri de cercetări dar testul de tip rang merită extins şi la alte situaţii. De aici ideea
testului U. Idee pe care de altfel tot Frank Wilcoxon a propus-o şi încă în acelaşi articol din
1945 cînd a definit şi testul numit de obicei testul Wilcoxon, cel pe care l-am prezentat
anterior. Şi asta cu toate că era chimist şi nu statistician.

Ipoteza testului U este că două eşantioane provin din aceiaşi populaţie, adică au o distribuţie
egală a variabilei testate. O asemenea ipoteză poate fi de folos în multe întrebări de cercetare.
Să vedem nişte exemple.

Situaţia de cercetare pe care am folosit-o pentru a prezenta testul Chi2 se pretează şi pentru
utilizarea testului U. Verificarea faptului că frecvenţele de a face cumpărături ale celor cu sau
fără studii superioare sînt sau nu diferite se poate traduce şi în limbajul ipotezei testului U.
Avem în acest caz o populaţie de ansamblu cu anumite obiceiuri legate de frecvenţa de a face
cumpărături. Dacă am alege aleator două eşantioane din această populaţie ele ar putea diferi
12
De fapt ajunge dacă calculăm una dintre aceste sume.Cealaltă rezultă uşor pentru că suma tuturor rangurilor
este oricum n(n+1)/2 unde n este numărul de valori.

140
doar întîmplător din punctul de vedere al variabilei frecvenţă de cumpărare. Să presupunem
însă că alegerea se face pe baza unei caracteristici, cum ar fi prezenţa studiilor superioare.
Atunci, dacă această caracterististică nu are nici o relevanţă asupra variabilei “frecvenţă a
cumpărăturilor” cele două eşantioane rămîn din perspectiva acestei variabile ca eşantioane
aleatoare provenite din aceiaşi populaţie. Dacă însă testul ne permite să respingem această
ipoteză înseamnă că variabila de selecţie, prezenţa studiilor superioare, are un efect
semnificativ asupra variabilei testate, frecvenţa cumpărăturilor. Deci cele două eşantioane nu
se pot considera ca aparţinînd aceleiaşi populaţii.

În mod similar orice situaţie în care o variabilă categorială binară se repercutează pe o


variabilă ordinală se poate testa cu testul U. Regula de ansamblu este următoarea. Variabila
categorială care împarte eşantionul nostru în două defineşte de fapt două eşantioane. Testul
verifică faptul că cele două eşantioane nu diferă din punctul de vedere al distribuţiei unei
variabile ordinale. Hai să mai luăm un exemplu tipic. Să presupunem că cele două eşantioane
sînt determinate de gen. Avem deci un eşantion de bărbaţi şi unul de femei şi o variabilă de
test care este răspunsul la întrebarea: Care este venitul lunar al familiei dumneavoastră?
Evident răspunsul la o astfel de întrebare este o estimare a venitului lunar familial. Dacă am
obţine o diferenţă semnificativă am putea deduce că cele două genuri estimează diferit
veniturile lor familiale. De exemplu, nu m-aş mira dacă bărbaţii ar avea o tentaţie de a
supraevalua venitul şi femeile de a-l subevalua. Dacă ambele grupuri evaluează corect, sau se
abat în aceiaşi direcţie, ar trebui să nu avem nici o diferenţă statistic semnificativă. Deci, am
putea conclude că nu se poate respinge ipoteza cum că estimările făcute de bărbaţi şi femei
fac parte din aceiaşi distribuţie, sînt eşantioane ce provin din aceiaşi populaţie.

De altfel, aplicînd testul U pentru întrebarea de mai sus, folosind date din sondajul la care m-
am mai referit, cel din Baia Mare, din 2003. obţinem următorul rezultat:

Rang

Suma
61. Genul N Rang mediu rangurilor
66. Venitul lunar feminin 553 504,28 278865,00
familiar? masculin 474 525,34 249013,00
Total 1027

Statistica de test

141
66. Venitul
lunar
familiar?
Mann-Whitney-U 125684,000
Significanţă (două
,229
capete)
a Variabila de grupare: 61. Genul

Cel mai uşor putem să analizăm acest rezultat citind significanţa. După cum se vede ea nu e
suficient de bună pentru a respinge ipoteza. Deci, nu putem spune că femeile şi bărbaţii
estimează în mod diferit veniturile lor familiale.

Metoda de calcul a testului U este foarte simplă.

1. Se ordonează toate valorile variabilei testate (venitul lunar familial), indiferent dacă
fac parte din grupul 1 (la noi, femeile), sau grupul 2 (bărbaţii).
2. Fiecărei valori i se asociază rangul ei în lista ordonată. Ca şi în cazul testului
Wilcoxon, valori egale vor primi un rang mediu.
3. Se calculează suma rangurilor pentru grupul 1 (R1) şi suma rangurilor pentru grupul 2
(R2).
4. Valoarea de test U este valoarea mai mică dintre U1 şi U2 unde acestea se calculează
asfel: U1 = R1 – (n1* (n1+1))/2 şi U2 = R2 – (n2* (n2+1))/2.

Există desigur tabele care dau valorile critice pentru testul U. În aceste tabele valorile sînt
specificate în relaţie cu volumele celor două eşantioane, n1 şi n2.

Un pas mai departe pe acelaşi fir logic îl face testul Kruskal-Wallis. Anume, dacă în testul
Mann-Whitney comparaţie se face între două grupuri, testul Kruskal-Wallis permite
comparaţii între mai multe grupuri, sau mai multe eşantioane ca să folosim chiar limbajul
testului.

Ipoteza testului Kruskal-Wallis este analogă ipotezei Mann-Whitney: Un număr oarecare de


eşantioane au fost extrase din aceiaşi populaţie. Ca şi în cazul Mann-Whitney de fapt
eşantioanele le definim printr-o variabilă de categorisire, cel mai adesea o variabilă nominală,
şi testarea o facem pe o variabilă care este cel puţin ordinală. Ca şi în cazul precedentelor teste

142
non-parametrice nu există presupuneri de normalitate a distribuţiilor sau alte restricţii
similare. Aceasta permite utilizarea şi acestui test cu o varietate foarte mare de date.

De fapt putem înţelege testul Kruskal-Walis ca un test de relaţionare între două variabile, una
categorială, posibil chiar nominală şi una cel puţin ordinală. Testul verifică dacă prima
variabilă are repercursiuni asupra distribuţiei celei de a doua.

Metoda de calcul se bazează pe aceiaşi idee ca şi în cazul precedentelor două teste. Toate
valorile, independent de grupul din care fac parte se ordonează şi fiecărei valori i se asignează
rangul ei. Apoi se efectuează următorul calcul:

Unde:
• g este numărul grupurilor.
• N este suma volumurilor eşantioanelor, adică N = n1 + n2 + ... ng
• ni este volumul eşantionului i, adică corespunzător categoriei i a variabilei de selecţie
• rij este rangul observaţiei j din grupul i

• , adică media tuturor rangurilor din grupul i

• , adică media tuturor rangurilor.

Uneori valoarea calculată la testul Kruskal-Wallis se notează H, alteori K. Cu toate că formula


poate părea ceva mai complicată ea nu este decît o extindere logică a formulei U pentru un
număr mai mare de grupuri. Merită de observat că toate calculele care se fac se fac cu ranguri
şi nu cu valorile propriu-zise ale variabilelor. Aşa se elimină de fapt presupunerile asupra
distribuţiei variabilei testate. Tot ce ne trebuie este să existe o ordine a valorilor pentru a putea
atribui ranguri.

Există o metodă mai confortabilă de a analiza testul Kruskal-Wallis care simplifică şi mai
mult lucrurile. Varianta pe care o prefer şi eu şi v-o propun şi vouă reduce testul la un test
Chi2 în următorul fel. Se calculează pentru fiecare grup de valori, sau eşantion rangul mediu şi

143
apoi se aplică pur şi simplu un Chi2 pentru ipoteza de egalitate a tuturor rangurilor medii.
Adică, dacă eşantioanele sînt provenite din aceiaşi populaţie, deci aproximează aceiaşi
distribuţie a datelor, diferenţele dintre rangurile medii trebuie să fie pur aleatoare,
întîmplătoare. Atunci însă ele nu vor fi în mod relevant diferite de o distribuţie uniformă.
Astfel am tradus ipoteza testului Kruskal-Wallis la o ipoteză de tip Chi2 cu distribuţie
uniformă. Majoritatea soft-urilor statistice pe care le cunosc abordează testul Kruskal-Wallis
în acest fel.

Să vedem un exemplu de aplicaţie, de astă dată folosind un alt set de date. Populaţia cercetării
este populaţia intreprinderilor mici şi mijlocii din mediul rural din Transilvania. Am testat
dacă numărul de proprietari ai intreprinderii depinde de domeniul principal de activitate.
Domeniul de activitate este evident o variabilă nominală. Nu există o ordine între
“agricultură” şi “transporturi”! Pe de altă parte domeniul de activitate defineşte pe populaţia
firmelor subgrupuri care pot fi înţelese ca eşantioane diferite. Variabila “număr de proprietari”
este raţională, dar probabil nu este distribuită normal, nici măcar cu aproximaţie.

Rang

5. Care este domeniul


principal de activitate? N Rang mediu
3. Care este numarul de Agricultura 16 423,50
proprietari ai firmei? Comert - en detail 454 488,43
Comert - en gros 45 497,28
Productie 76 495,32
Servicii - profesiuni 147 381,39
Servicii - turism 107 417,61
Servicii - consultanta 39 381,00
Servicii - agricole 5 313,00
Constructii 33 599,50
Total 922

Statistica pentru Testul(a,b)

3. Care este
numarul de
proprietari ai
firmei?
Chi-patrat 55,822
Df 8
Significanta asimptotica ,000

144
a Kruskal-Wallis-Test
b variabila de grupare: 5. Care este domeniul principal de activitate?

Valoarea Chi2 şi significanţa testului sînt cît se poate de concludente. Ipoteza că firmele din
grupurile definite de domeniul principal de activitate au la fel de mulţi proprietari poate fi
respinsă cu o probabilitate de a greşi de 0.000.

Să închei acest capitol în care am trecut în revistă cîteva teste printr-o înţelepciune simplă dar
utilă. În esenţă, tot ce e variabilă raţională sau intervalică trebuie să se poată testa cu t sau Z
(ceea ce e cam acelaşi lucru), iar tot ce e variabilă ordinală sau nominală se poate testa într-un
fel sau altul folosind Chi2. Există desigur şi variante mai complicate şi multe, multe alte teste
gîndite pentru diferite ipoteze, dar pentru multe din lucrările mai mult sau mai puţin ştiinţifice
şi utilizarea acestor teste simple ar fi deja un cîştig extraordinar pentru cunoaştere.

c. Regresia categorială.

În capitolul precedent am prezentat analiza de regresie liniară atît în forma ei simplă cît şi
multiplă. În toate aceste variante datele implicate în ecuaţiile de regresie erau date numerice
cu care se efectuau calcule. Această restricţie limita desigur utilizarea metodei regresiei la un
anume tip de cercetări. Există însă şi tipuri de regresie care au fost gîndite să analizeze relaţii
între variabile care pot avea diferite forme, chiar şi variabile nominale. Aceste modele de
regresie nu sînt utile numai pentru luarea în considerare a unor variabile nominale, ci şi în
cazul unor variabile care pur şi simplu nu se supun pretenţiilor metodelor de rezolvare ale
regresiei liniare.

Regresia categorială nu este un singur tip de regresie. Mai mult, putem să o considerăm ca o
clasă de modele care în forma generală a ecuaţiei de regresie, aceiaşi ca şi în capitolul
precedent includ variabile care nu se supun regulilor obişnuite. Principalele modele care
implică variabile nenumerice în ecuaţii de regresie sînt:

• Regresia liniară cu utilizarea variabilelor dummy, care permite modelarea efectelor


variabilelor nominale.
• Regresia logistică binară sau multinomială (ambele pot avea formele logit şi probit),
care permite definirea unor variabile nominale ca variabile ţintă a regresiei.
• Regresia logit sau probit ordonată, care permite utilizarea variabilelor ţinte ordinale.

145
Unele soft-uri de statistică oferă şi o aşa-zisă regresia categorială cu scalare optimală care
permite definirea scalei pentru fiecare variabilă din ecuaţia de regresie în parte. Aceasta este o
alternativă generală la care utilizatorul nu trebuie să-şi bată prea tare capul cu modelul folosit
şi primeşte rezultatele sub o formă interpretabilă uşor, la fel ca la o regresie liniară obişnuită.

În această secţiunea nu doresc mai mult decît să clarific primul dintre modelele enumerate
mai sus, modelarea variabilelor nominale cu ajutorul variabilelor dummy.

Variabilele dummy sînt variabile care au două valori, de obicei codate 0 şi 1. De fapt, modul
de codificare nici nu prea are vreo importanţă, sensul acestuia fiind mai mult unul logic decît
numeric. Adică 0 înseamnă fals sau absent, 1 înseamnă adevărat sau prezent. În mod
tradiţional variabilele dummy au apărut în cercetările economice pentru a modela
sezonalitatea. E foarte simplu. Să considerăm o ecuaţie de regresie liniară cu două variabile
regresor din care una dummy:

yi = a + b1 xi + b2 di + ei

unde yi este variabila ţintă, xi variabila regresor, di variabila dummy şi ei eroarea pentru
fiecare caz i la care s-au cules date. Să zicem, de exemplu că dorim să modelăm relaţia dintre
consumul de bere (y) şi consumul de alune (x). Să zicem că am cules date de la buticuri,
reprezentînd vînzări zilnice. Observaţiile ne-au dus însă la gîndul că această relaţie depinde
cumva de anotimp. Faptul că iarna se bea mai puţină bere decît vara nu ar trebui neapărat să
modifice relaţia dintre cantităţile de bere şi cele de alune. Dar observaţiile ne duc cu gîndul că
iarna se mănîncă mai multe alune la aceiaşi cantitate de bere. Deci s-ar putea dependenţa să
fie cumva diferită. Pentru a putea lua aceasta în considerare am putea să modelăm relaţia cu
două ecuaţii una pentru vară şi una pentru iarnă. Sau am putea folosi o variabilă dummy, o
variabilă cu două valori. În modelul din exemplu aceasta este variabila d. Luăm ca atare d = 1
pentru acei i pentru care valorile x (alune) şi y (bere) au fost culese vara şi d = 0 pentru acei i
pentru care valorile au fost culese în alte anotimpuri. De fapt am împărţit eşantionul şi avem:

pentru d = 1:

yi = a + b1 xi + b2 + ei = (a + b2) + b1 xi + ei

146
iar pentru d = 0:

yi = a + b1 xi + ei

Cele două ecuaţii diferă prin termenul liber, în primul caz acesta este a + b2, iar în al doilea
caz a. Deci, dacă am reprezenta grafic cele două drepte ele ar fi paralele. Altfel spus, efectul
sezonalităţii modelat cu variabile dummy presupune că relaţia dintre consumul de alune şi
consumul de bere nu diferă prin cantitatea de bere care se consumă la o creştere a consumului
de alune de o alună ci pur şi simplu consideră că sezoanele pornesc de la un nivel diferit al
relaţiei dintre consumul de bere şi cel de alune. Faptul că efectul sezonalităţii este dat la aceste
modele de o valoare scalară, valoarea b2 şi nu de o variabilă aleatoare face ca astfel de modele
să se mai numească modele cu efecte fixe.

Cu o asfel de extindere a modelului regresiei liniare putem lua în calcul nu numai efecte de
sezonalitate ci şi orice efecte care sînt modelabile cu variabile cu două valori. Pe parcursul
cărţii am mai avut ca exemple de astfel de variabile, genul sau prezenţa studiilor superioare.

Interesant este că o foarte simplă generalizare ne permite să includem în ecuaţii de regresie


variabile nominale cu oricîte valori.

Să luăm o variabilă nominală cu mai multe valori, de exemplu, religia. Mai jos este o tabelă
de frecvenţe care reprezintă religiile locuitorilor judeţului Arad conform unui sondaj de
opinie:

I8. religie:

Frecventa Procent
adventist 5 ,8
baptist 30 5,0
catolic 76 12,8
evanghelic 1 ,2
fara religie 5 ,8
grecocatolic 2 ,3
martor al lui iehova 1 ,2
neoprotestant 4 ,7

147
ortodox 437 73,4
penticostal 28 4,7
reformat 6 1,0
Total 595 100,0

Datele culese prezintă 11 categorii, pentru o modelare corectă probabil diversele rituri
neoprotestante ar trebui reunite, ca şi cele protestante, obţinîndu-se astfel un număr mai mic
de categorii: ortodox, catolic, greco-catolic, protestant şi neoprotestant şi fără religie.
Modelarea cu variabile dummy presupune construirea cîte unei variabile pentru fiecare dintre
aceste valori. Deci în locul variabilei “religie” cu valorile din listă vom avea o variabilă
“ortodox” cu valorile “da” şi “nu”, o variabilă “catolic” cu valorile “da” şi “nu” şi aşa mai
departe. În total modelarea cu variabile dummy presupune înlocuirea unei variabile nominale
cu atîtea variabile dummy cîte valori poate lua variabila nominală. Să considerăm relaţia de
regresie care modelează dependenţa dintre numărul de cărţi cumpărate anual şi vîrstă.

Cartei = a + b1 Virstai + ei

Modelul rezolvat cu metoda celor mai mici pătrate dă:

Cartei = 2,146 – 0,026 Virstai + ei

Relaţia este deci negativă, cei cu vîrsta mai mică cumpără mai multe cărţi. Significanţele
coeficienţilor sînt bune, dar coeficientul de determinare este mic (0,098) deci vîrsta explică în
mică măsură cumpărarea de carte. Să vedem dacă nu cumva religia, care este la urma urmei o
caracteristică culturală, are şi ea un efect asupra obiceiului de a cumpăra cărţi. Pentru aceasta
redefinim religia sub forma unor variabile dummy. Considerăm deci 6 variabile şi rezultă
modelul următor:

Cartei = a + b1 Virstai + b2 Ortodoxi + b3 Catolici + b4 Greco-Catolici + b5 Protestanti + b6


Neoprotestanti + b7 FaraReligiei + ei

Rezolvarea cu metoda celor mai mici pătrate ne dă următorul rezultat prezentat ca şi tabelă:

148
Model Coeficienti T Significanta

B Eroare standard
1 (constanta) 1,899 ,604 3,142 ,002
I2. vârsta: -,025 ,003 -7,891 ,000
ortodox ,252 ,579 ,436 ,663
catolic ,187 ,593 ,315 ,753
grecocatolic -,120 1,074 -,112 ,911
protestant -,051 ,778 -,065 ,948
neoprotestant ,255 ,596 ,427 ,669
a Variabilă dependentă: Q15. Cate carti cumparati pe an?

În tabela de mai sus sînt coeficienţii ecuaţiei de regresie, împreună cu rezultatele unor teste de
significanţă. Testele verifică ipoteza că variabila regresor nu are efect asupra variabilei ţintă.
Altfel spus verifică ipoteza că coeficientul variabilei este semnificativ diferit de 0.

Tabela arată că deşi significanţa efectului vîrstei rămîne bună şi coeficientul vîrstei este stabil
faţă de regresia simplă, significanţa variabilelor dummy aferente diferitelor grupuri religioase
este foarte proastă. Practic nu putem respinge ipoteza generală: “apartenenţa religioasă nu are
efect asupra numărului de cărţi cumpărate anual”. În acest context o discuţie a semnelor
coeficienţilor diferitelor variabile dummy este lipsită de sens, ar reprezenta chiar o greşeală
gravă, deşi acesta ar fi fost următorul pas dacă significanţele ar fi fost bune. Am fi observat
atunci că anumite religii au efect pozitiv, adică coeficienţi pozitivi, altele efect negativ asupra
numărului de cărţi cumpărate.

Să alegem acum o altă variabilă calitativă, nivelul de pregătire. Am recodat nivelul de


pregătire pe patru categorii: şcoală generală sau mai puţin, studii liceale, studii postliceale,
studii superioare. Pentru fiecare am construit o variabilă dummy exact ca în exerciţiul
precedent şi am calculat ecuaţia de regresie. Rezultatul tabelar este mai jos:

Model Coeficienti T Significanta

B Standardfehler
1 (constanta) 1,747 ,466 3,746 ,000
I2. vârsta: -,016 ,003 -4,759 ,000
generala -,580 ,461 -1,260 ,208

149
liceu -,109 ,454 -,239 ,811
postliceala ,851 ,489 1,738 ,083
superioare ,906 ,468 1,936 ,053
a Variabila dependenta: Q15. Cate carti cumparati pe an?

Efectul variabilei “nivel de pregătire” este mult mai clar. Pentru a analiza tabela ne uităm la
semnul şi valoarea coeficienţilor precum şi la significanţa lor. Se observă că efectul este mai
significant pentru treptele de pregătire mai înalte. Astfel efectul studiilor superioare este
singurul clar semnificativ. Ipoteza de independenţă a numărului de cărţi cumpărate anual de
nivelul de pregătire poate fi respinsă cu o probabilitate de 95% pentru cei cu studii superioare.
De asemenea efectul este evident pozitiv. O influenţă pozitivă ceva mai mică şi mai puţin
semnificativă au şi studiile postliceale. Pe de altă parte efectul studiilor liceale sau generale
este negativ asupra numărului de cărţi cumpărat, dar în acelaşi timp mai puţin significativ. În
special în cazul celor care au numai studii liceale este greu să vedem vreun efect asupra
numărului de cărţi cumpărate. O citire corectă ar fi de fapt: cei cu studii liceale par a cumpăra
mai puţine cărţi, dar acest rezultat este insuficient de sigur.

Interesant este şi faptul că coeficientul de determinare al ecuaţiei de regresie care era de sub
10% creşte la 23% prin introducerea variabilei “nivel de pregătire”.

Am putea lua în seamă variabila ordinală “nivel de pregătire” şi altfel. Am putea să o recodăm
numeric, de genul “şcoală generală” este 1, “studii liceale” este 2, etc. şi să o considerăm ca
variabilă numerică. O asemenea abordare ar fi însă mult mai brutală, în esenţa ei incorectă şi
mult mai puţin nuanţată pentru că nu ar putea determina efecte individuale ale diferitelor
nivele de pregătire. Pe de altă parte abordarea efectelor individuale ale nivelelor de pregătire
este o utilizare nominală a variabilei şi omite faptul că aceste nivele au de fapt o ordine bine
definită.

150
Capitolul 8. Analiza seriilor de timp

Foarte des analiza statistică caută să afle cate ceva despre derularea unor evenimente în timp
sau dezvoltarea în timp a unor caracteristici. Însăşi modul nostru de a cunoaşte conţine adesea
intrinsec o raportare la timp. Vorbim despre “o vară calduroasă” implicit comparand-o cu alte
veri; observăm o relaţie între evenimente şi o identificăm ca pe o cauzalitate, asumand evident
o relaţie de consecutivitate temporală; spunem că, de exemplu, “preţurile astea cresc mereu”
sau că “e din ce in ce mai greu să găseşti un meşter zilele astea!” considerand existenţa unor
trenduri temporale.

151
Capitolul 9. Deserturi şi cum putem să le stricăm sau cum se poate
greşi în statistică

După ce Darrel Huff a publicat celebra şi deja pomenita lui carte “Cum să minţi cu statistici”,
multe cărţi de statistică introductive au inclus capitole de genul “cele mai frecvente 10 erori”
sau greşeli care se fac în statistică. Nu vreau să mă sustrag de la această plăcută sarcină deşi
pînă acum am pomenit multe dintre greşelile tipice şi pe ici pe colo am dat şi exemple de cum
se fac ele, dacă cineva ar dori să se inspire. Oricum în acest capitol de final o să reiau cu noi
exemple o parte din ele, cele care mi se par cele mai frecvente şi cele mai dăunătoare.

Aşa cum observa şi Huff, argoul statistic, precum şi al altor ştiinţe, presupune nu numai un
scriitor atent şi precaut, dar şi un cititor avizat. Declaraţiile bazate pe statistici induc în eroare
cel mai adesea prin omisiuni. Iar cititorul neavizat este tocmai acela care nu sesizează ce
lipseşte în informaţia publicată.

Omisiunile fatale

Anumite ingrediente nu au voie să lipsească din meniul pe care statistica îl pune pe masa
cititorului, fie el avizat, fie nu. Pentru ca o informaţie de natură statistică să aibă sens şi
valoare de cunoaştere, o serie de informaţii colaterale sînt necesare. De exemplu, la un sondaj
trebuie să ştim volumul eşantionului, metoda de eşantionare, şi aşa mai departe. Majoritatea
mass mediei, precum şi a cercetătorilor au aflat aceasta şi ne raportează cu sinceritate şi
volumul eşantionului şi marja de eroare. Ceea ce e desigur foarte bine. Mai există şi excepţii
memorabile, în care omisiunile sînt atît de multe, încît nu mai ştim de fapt de ce ni s-a
comunicat ceva. Iata ştire din ziarul Libertatea, Nr. 3392, sâmbãtã 22 septembrie 2001 pe care
o reproduc în întregime (!).

“Potrivit rezultatelor unui sondaj de opinie, 53% din cetatenii rusi nu cred in existenta
unei a doua vieti. In cadrul aceluiasi sondaj, 36% dintre subiecti au declarat ca sunt
convinsi in existenta vietii dupa moarte. 11% dintre participantii la sondaj au declarat
ca nu pot raspunde la aceasta intrebare.”

Aici nu ştim volumul eşantionului, şi bineînţeles nici marja de eroare. Aici trebuie să recunosc
că Libertatea este în general consecvent în a omite asemenea informaţii. Ce e mai interesant e

152
felul cum par a fi formulate răspunsurile la întrebare. Dacă adunăm procentajele iese exact
100%. De unde rezultă că scala de opţiuni nu a permis “cetăţenilor ruşi” din sondaj nici un fel
de dileme. Fie “nu cred”, fie sînt “convinşi”. E încă bine că s-a acceptat că unii chiar nu pot
răspunde. Cam puţini după experienţa mea. Oricum, astfel de informaţii cu tentă statistică
chiar nu au nici o valoare de informare.

Să trecem însă la treburi mai serioare. Mai rar decît neprezentarea volumului eşantionului se
evită o altă omisiune. Cînd ni se prezintă o valoare procentuală trebuie să ştim pe cîte cazuri
s-a obţinut acel procentaj. Aceasta este obligatoriu dacă numărul de cazuri este deosebit de
mic. Nu este de regulă nici o problemă la procentaje care se calculează din ansamblul
eşantionului, pentru că volumul acestuia este cel mai adesea cunoscut. Necazul apare cînd, de
exemplu într-o tabelă de relaţionare, apar procentaje ale unor categorii subordonate. În
asemenea cazuri procentajul nu se mai referă la întreg eşantionul. E vorba de cazuri de genul
“25% dintre bărbaţii de sub 25 de ani sînt de părere că ...”. La astfel de propoziţii precizarea
volumul e esenţială. O opinie împărtăşită de către un sfert dintr-o categorie populaţională este
desigur importantă. Ceea ce totuşi nu e cazul dacă în eşantion întreaga categorie e
reprezentată de 12 persoane, din care un sfert sînt abia 4 oameni. Ştim că matematic vorbind,
ceea ce contează sînt la urma urmei numerele mari.

Cazul de mai jos nu e chiar o “infracţiune statistică” pentru că informaţia din articol este pînă
la urmă suficientă dacă dorim să refacem noi calculele. Dar pe cititorul neavizat tot îl induce
în eroare, ceea ce putem liniştit incadra la “contravenţii”. Astfel de omisiuni apar cel mai
adesea în lucrări cu pretenţii ştiinţifice. Exemplul de mai jos provine dintr-o teză de doctorat
în pedagogie de la Universitatea de Stat din Moldova13:

“În funcţie de gen, înregistrăm recunoaşterea unei palete mai largi de forme de
instruire la bărbaţi: (3% dintre bărbaţii chestionaţi şi-au exprimat opţiune pentru lucrul
în bibliotecă, faţă de 0% la femei; 4% dintre bărbaţi şi-au exprimat opţiunea pentru
mass-media).”

Ce a vrut autorul să ne spună de fapt? Ei bine, a vrut să compare genurile din perspectiva
modurilor de instruire recunoscute şi a conchis că bărbaţii menţionează mai multe astfel de
forme. Pentru a susţine aceasta ni se exemplifică două forme de instruire (folosesc termenul

13
Am decis să nu dau mai multe amănunte bibliografice.

153
autorului) menţionate într-o chestionare de către bărbaţi în mai mare măsură decît de către
femei. Prima omisiune este cea a procentajului de femei care declară mass-media ca fiind o
formă de instruire. Din tabelele din document se poate afla însă că acest procentaj este de 1%.
Problema cea mare este însă că nu se specifică volumul asociat acestor procentaje. Nici în
tabelele care apar pe lîngă fragmentul citat mai sus nu apar frecvenţe, ci numai procentaje.
Căutînd un pic prin teză găsim pînă la urmă volumul eşantionului. Aici surpiză maximă,
pentru mine, cel puţin:

“Populaţia investigată: Subiecţii studiului au fost 175 de adulţi, participanţi la diferite


seminarii (...), dintre care 116 femei şi 79 de bărbaţi”

Din cele de mai sus eşantionul nu pare a fi aleator. Mai departe: Hai să nu fiu cîrcotaş şi să nu
adun 116 cu 79. Observ însă că 3% dintre bărbaţi sînt probabil 4 persoane, iar 4% sînt 5
persoane. 1% dintre femei este 1 persoană. Ei bine, nu numai că omisiunea este nepermisă la
numere aşa mici, dar concluzia din studiu este absolut hazardată.

O altă omisiune foarte des întîlnită se referă la formularea întrebării. De multe ori un concept
complex şi chiar ambiguu este prezentat ca fiind rezultat direct dintr-un sondaj de opinie. Iată
un exemplu tipic din Evenimentul Zilei Nr. 4892, 31 Mai 2007. Prezentînd un sondaj de
opinie cu informaţiile de rigoare (“Sondajul a fost efectuat pe un esantion de 1.244 de
persoane si are o marja de eroare de 2,8%”) se face în text remarca:

“Sondajul IMAS constata modificari substantiale si la capitolul increderii in


personalitatile politice: Traian Basescu, 60%, inregistrand un plus de 11 procente:
Theodor Stolojan (32%), Gigi Becali (30%), Calin Popescu-Tariceanu (19%), Mircea
Geoana (16%).”

Nu ni se spune desigur ce este acea “încredere” şi, ceea ce e şi mai grav, nu ni se spune ce
reprezintă procentajele raportate. Putem doar bănui răspunsul la prima întrebare, dar la a doua
întrebare nu avem nici un indiciu. Întrebarea pe care o pun de obicei sondajele de opinie la
acest subiect este ceva de genul “Cîtă încredere aveţi în următoarele personalităţi politice?”.
Răspunsurile posibile sînt de obicei “Foarte multă”, “Multă”, “Puţină”, “Foarte puţină”
eventual cu o opţiune la mijlocul scalei. Prima omisiune este absenţa specificării răspunsurilor
care au fost incluse în procentajul de încredere. E oare vorba despre suma categoriilor “foarte

154
multă” şi “multă” încredere? Probabil. Dar exista oare o categorie medie sau nu? Şi dacă da,
cum a fost formulată? Şi unde intră ea, la încredere sau la absenţa încrederii? Apoi, problema
esenţială: cum au interpretat intervievaţii conceptul de încredere? Încercaţi să răspundeţi la
întrebare. Cîtă încredere aveţi într-un anume politician? La ce vă gîndiţi cînd trebuie să
răspundeţi? Vă gîndiţi la încrederea că va face se spune, sau la încrederea că va spune ce
crede, sau la încrederea că ceea ce spune vă va conveni. Poate că e vorba despre o senzaţie
mai generală de simpatie sau de familiaritate mai de grabă decît de predictibilitate. Faptul că
conceptul de încredere este un concept destul de larg face ca răspunsul să fie dependent de
contextul în care se pune întrebarea. Contextul poate face ca încrederea să fie interpretată într-
un anumit fel. Dacă înainte de întrebarea de încredere se discută despre acţiuni politice sau
anumite declaraţii politice aceasta poate induce o anumită înţelegere şi poate duce la o
evaluare de un anumit fel. Bineînţeles un articol de ziar nu poate şi nu trebuie să dea întregul
chestionar, dar astfel de consideraţii fac discutabilă comparabilitatea rezultatelor la “cote de
încredere”. Aşa că aserţiunea din articol, cum că Traian Băsesc înregistrează “un plus de 11
procente” nu prea înseamnă mare lucru.

Omisiunile pe care le-am menţionat, volumul eşantionului, volumul unei categorii, formularea
întrebărilor şi a răspunsurilor, nu au de obicei intenţia de a induce în eroare. Totuşi în unele
cazuri ele o fac pentru că încurajează implicit o citire mai generală a rezultatelor decît ar fi
permis. Ele pot implica, în special pentru cititorul neavizat, generalizări sau comparaţii care
sînt nesusţinute. O altă problemă care este conexă omisiunii formulării întrebării este
confunzia legată de variabila măsurată. Aşa cum am văzut din întrebarea despre încredere nu
este întotdeuna evident ce se măsoară. O eroare gravă este confuzia de variabilă.

Ce măsurăm de fapt?

De multe ori cercetările ştiinţifice, şi în special cele din domeniul social şi economic
conceptualizează la un nivel teoretic abstract. Apoi statisticianul este pus în situaţia de a
operaţionaliza teoria, adică de a găsi ceva suficient de măsurabil şi suficient de apropiat de
formularea teoretică astfel încît ipotezele de cercetare să poată fi testate. Atunci cînd un
concept teoretic este prea vag pentru a putea fi măsurat direct, statisticianul trebuie să
găsească o variabilă care să ţină locul acestui concept în cercetarea empirică. Metoda se
numeşte de regulă analiză cu variabile proxy după cuvîntul englezesc pentru înlocuitor. Cît de
bine se pretează o variabilă proxy pentru a ţine locul unui concept nemăsurabil este de obicei

155
nedecidabil. Totuşi o doză de bun simţ ştiinţific există în modul cum se pot face astfel de
definiţii. O altă cale de abordare a aceleiaşi probleme este utilizarea analizei de cale (sau,
iarăşi englezeşte, analiză path). În acest caz variabila nemăsurabilă este inclusă într-o cale
logică deductivă, şi înlocuită în cercetare printr-o variabilă care îi este precursor logic.
Desigur determinarea logică a variabilei care este oricum nemăsurabilă printr-o altă variabilă
nu poate fi completă şi oricum nu poate fi determinată prea clar. Sigur înlocuiri de acest tip se
pot face, dar nu trebuie nici o clipă uitat că înlocuirea e valabilă foarte limitat şi doar la
nivelul conceptual al respingerii de ipoteze, al contraexemplului deci. După introducerea
aceasta puţintel cam filosofică, ce e de spus, de fapt? O mare grijă trebuie avută de cîte ori în
cercetare sau în prezentarea unor rezultate apar concepte ce par a fi greu de măsurat. Textul
nostru trebuie să spună exact ce am măsurat de fapt şi de ce. Hai să dau un exemplu autocritic.
Într-o serie de cercetări am avut nevoie să măsor ceva ce teoria numea “gradul de globalizare”
sau de “includere în societatea globală” a unei ţări într-un moment anume. Am mai dat
exemple din aceste cercetări aşa că unii poate îşi amintesc că am folosit numărul de
organizaţii non-guvernamentale active în ţara respectivă pentru a măsură globalizarea. Este
evident o variabilă proxy. Cît e de bună? Nu pot spune decît că am decis după o cumpănire
destul de serioasă a alternativelor pe care le propune literatura din domeniu. Ce pot spune în
apărarea mea? Faptul că am prezentat în articolele ştiinţifice rezultate din aceste cercetări, ce
este de fapt variabila şi nu am pretins că ar fi mai mult decît un indicator posibil al gradului de
globalizare.

Erorile cele mai frecvente legate de obiectul unei măsurători se fac în studii de marketing în
care adesea consumul este identificat cu estimarea consumului, cheltuieli cu estimarea
cheltuielilor. Întrebări de genul “cît cheltuiţi lunar pe preparate din peşte?” pot cu greu fi
interpretate ca reprezentînd un indicator cît de cît fidel al consumului. Ţin minte primul
sondaj pe care le-am condus în România. Printre altele am întrebat atunci locuitori ai
Timişorii cu ce partid au votat la alegerile precedente, de la care trecuse mai bine de un an.
Am regăsit un rezultat care e descris şi în literatura de statistică politică. Anume că oamenii
uită ce au ales şi sînt mulţi care identifică partidul cîştigător al alegerilor cu opţiunea lor, deşi
în realitate au votat la vremea respectivă cu un alt partid. Sondajul meu avea rezultate bune de
test, adică eşantionarea avea caracteristicile unei eşantionări aleatoare. Totuşi proporţiile
voturilor pe partide nu corespundeau de fel rezultatelor reale de la alegerile precedente.
Variabila culeasă de mine cu era deci “opţiunea politică de la precedentele alegeri”, ceea ce
de fapt îmi doream să măsor, ci “impresia de la momentul chestionării asupra opiniei politice

156
de la precedentele alegeri”. Diferenţa e mare, pentru că ne împiedică să avem un indicator al
schimbărilor de opţiune.

Raportarea selectivă a rezultatelor

O altă eroare tipică pentru mass media, dar şi pentru politicieni şi universitari sau cercetători
care se transformă în politicieni prin partizanat, este raportarea selectivă a rezultatelor.
Desigur un context restrictiv cum ar fi cel al unui articol de ziar sau al unei declaraţii de presă
nu poate acomoda toate rezultatele unei cercetări, cu toate acestea uneori nu avem cum să nu
suspectăm intenţie în asemenea situaţii.

Pe la începutul anilor 1990 am auzit de la un cunoscut sociolog român, nu spui cine, persoană
importantă, o declaraţie televizată care m-a minunat puţintel. Încerc să o reproduc cît de exact
pot: “în Statele Unite, în anii 50 sectorul universitar privat includea jumătate dintre instituţii,
dar s-a ajuns ca în 1990 numai 20% dintre studenţi să studieze la universităţi private”.
Negreşit ambele valori sînt corecte, ceea ce se omite este că şi în 1990 ponderea
universităţilor private era tot de vreo 50% din ansamblul universităţilor americane. Declaraţia
pune faţă în faţă două valori care nu sînt direct comparabile, o pondere de instituţii din 1950 şi
o pondere a studenţilor din 1990 creind astfel senzaţia unui trend. Adevărul este că un astfel
de trend există şi ponderea studenţilor din sistemul privat a scăzut cu adevărat, deoarece
sistemul universitar american public a expandat mult mai mult decît cel privat. Cu toate
acestea, felul cum a fost făcută declaraţia a fost evident manipulator. Şi aceasta şi prin faptul
că a prezumat o scădere a sistemului privat ceea ce nu a avut de fapt loc. Ceea ce s-a întîmplat
a fost o creştere mai accentuată a sistemului public.

Prezentarea numai a acelor rezultate care convin din punctul de vedere al cercetării, fie ea
ştiinţifică sau mai puţin, este o boală care nu prea are leac. În multe cercetări de natură
politică se pun, pe lîngă întrebările “pe bune” şi anumite întrebări special pentru a obţine
rezultate publicabile sau care să susţină decizii gata luate.

Se poate raporta selectiv şi altfel, poate ceva mai puţin manipulativ, dar totuşi. Iată un
fragment din ziarul Cotidianul, din 3 August 2007:

157
“(...) 44% dintre romani considera ca premierul Tăriceanu nu trebuia să demisioneze
ca urmare a rezultatului referendumul pentru demiterea preşedintelui Băsescu.”

Nu ni se spune ce consideră ceilalţi 56% dintre români. Că premierul trebuia să demisioneze?


Probabil că nu, sigur există şi foarte mulţi care nu au o opinie pe această temă. Şi totuşi cîţi
cred că trebuia să demisioneze? Felul cum e formulată propoziţia ne face să presupunem că
procentul celor care consideră că premierul trebuia să demisioneze a fost mai mic decît 44%.
Şi totuşi contează cu cît a fost mai mic. A fost 10% sau 40%? Sau poate nici nu a fost mai
mic? Matematic este cît se poate de posibil.

Uneori prezentarea selectivă a rezultatelor nu pare a avea nici un scop. Un text a fost scurtat şi
a ieşit ce a ieşit. Iată un exemplu din Evenimentul Zilei, Nr. 4892, din 6 Iulie 2006. Restul
articolului îl face să fie şi mai criptic.

“36% dintre români şi-ar dori sa lucreze acasă, în timp ce doar 11% preferă să meargă
la birou, deşi au posibilitatea de a lucra din incinta propriului cămin, potrivit unui
sondaj realizat de portalul de recrutare on-line bestjobs.neogen.ro.”

Senzaţional, dar ce au spus de fapt? Cine sînt aştia, ce vor ei, şi ce au fost întrebaţi, şi ce au
răspuns, şi cîţi şi de ce scrie la ziar? Asta ca să nu spun că nu e clar dacă cei 36% şi cei 11%
provin din aceiaşi întrebare sau nu, şi ce părere au restul de nici nu ştiu şi nici nu pot şti cîţi.

Eşantioane nealeatoare şi biasate

O altă eroare frecventă este “înnobilarea” unei chestionări oarecare cu titlul de sondaj de
opinie. Am discutat deja că regulile unei eşantionări au ca scop posibilitatea de generalizare
de la eşantion la ansamblul populaţiei. Deci, ca să putem spune, ca într-unul din exemplele de
mai sus “românii consideră” trebuie ca populaţia studiului să fie “românii” şi eşantionarea să
fie aleatoare sau o aproximare cît bună posibil a unei eşantionări aleatoare. Regula de bază pe
care nu obosesc să o repet şi studenţilor mei e simplă: fiecare individ din populaţia de bază
trebuie să aibă aceiaşi şansă să fie parte din eşantion. Sigur acesta e un ideal nici o dată atins.
Există nomazi, şi există oameni bolnavi şi încarceraţi şi alte diverse categorii care nu prea au
aceleaşi şanse să fie parte din eşantion ca şi restul populaţiei. Aceasta însă nu trebuie să ducă

158
a renunţarea la principiu ci la redefinirea populaţiei. Adică nu toţi “românii consideră”, ci
numai românii cu domiciliul stabil, etc.

Un caz interesant în care eşantionul este în principiu aleator dar totuşi din cauza unei greşeli
de proeictare a cercetării sau a unei particularităţi pe care cercetătorul nu a luat-o în seamă
eşantionul diferă printr-o anumită caracteristică faţă de populaţia dorită a fi studiată.
Asemenea eşantioane se numesc biasate. Cuvîntul “bias” înseamnă în engleză ceva gen
prejudecată, dar sensul lui statistic este de defazare, eroare sistematică. Dacă se foloseşte
cuvîntul în sensul de prejudecată, s-ar zice că o opinie este biasată dacă ea este necondiţionat
negativă sau pozitivă. În statistică un eşantion este biasat dacă valorile unei variabile sînt
defazate către o valoare sau o parte a scalei de răspunsuri. Dacă, de exemplu, pentru un studiu
de piaţă legat de consumul de detergenţi se fac interogări la domiciliu înainte de masă,
eşantionul va prinde o pondere anormal de mare de studenţi, gospodine şi pensionari.
Eşantionul va fi defazat către anumite categorii ocupaţionale. Vor fi subreprezentate tocmai
persoanele angajate în muncă, eşantionul altfel produs va putea fi de fapt aleator. Totuşi nu va
fi reprezentativ pentru ca va fi biasat. Am mai dat pe parcursul cărţii şi exemplul chestionării
duminică înainte de masă. Acolo biasarea e şi mai clară pentru că cei ce nu vor fi interogaţi
sînt cei ce merg la biserică adică persoane care evident au o caracteristică particulară care le
poate influenţa opinia pe multe teme. În acest caz eşantionul chiar va avea un fel de
prejudecată, adică va elimina din start anumite opinii.

Institutele serioase de sondare a opiniei publice nu fac greşeli de acest tip. Eşantionări
nealeatoare sau biasate se regăsesc însă la aşa-zise sondaje efectuate de organe de presă sau
site-uri de internet, dar adesea şi în cercetări ştiinţifice din domenii în care o eşantionare este
greu de întreprins. Să mai las puţin în pace presa, hai să dau un exemplu din dintr-o teză de
doctorat în psihologie, tot de la Universitatea de Stat din Moldova.

“... trebuie să menţionăm că 75% dintre copiii cercetaţi proveneau din mediul rural,
faţă de 25% - care erau din mediul urban. Acest procentaj este cu atît mai semnificativ
cu cît este peste nivelul mediu de urbanizare pe ţară a populaţiei Republicii Moldova:
în mediul rural – circa 60%, iar în mediul urban – circa 40%. Aşa că repartizarea (...)
denotă o tendinţă de răspîndire a (...), mai cu seamă la populaţia din mediul rural”

159
Evident procentajele pe eşantion nu sînt peste, ci sub nivelul mediu de urbanizare din
Republica Moldova, dar aceasta e probabil o scăpare neesenţială, o eroare de exprimare. În
text se generalizează apoi de la distribuţia pe eşantion la răspîndirea caractisticii investigate în
ansamblul populaţional. Ceea ce se poate desigur face dacă este reprezentativ. De fapt este
însă vorba despre 30 (treizeci!) de interviuri. Acum că aceşti 30 erau dintribuiţi între mediile
rural şi urban 75% - 25% faţă de ansamblul populaţiei care se distribuie 60% - 40% este
departe de a permite orice fel de concluzii. La urma urmei 25% din eşantion sînt 7-8 persoane,
iar dacă ar fi fost 40% ar fi fost 12 persoane. În plus, eşantionul nefiind oricum reprezentativ,
generalizarea la nivel populaţional nu e acceptabilă.

Tipice pentru astfel de situaţii sînt cercetări din medicină, ştiinţe ale educaţiei sau psihologie.
Şi aceasta deorece multe dintre aceste cercetări se ocupă de populaţii rare, populaţii la care o
eşantionare aleatoare este fie imposibilă, fie foarte problematică. Bine atunci ce trebuie să
facă sărmanii oameni? Ei bine, trebuie să nu pretindă că rezultatele lor sînt generalizabile
statistic la nivel populaţional.

Corelaţii şi regresii prost interpretate

Interpretarea corelaţiilor şi a regresiilor este problematică în special atunci cînd se caută relaţii
cauzale. Cum am mai spus calculele statistice pot respinge anumite cauzalităţi nu pot însă
propune cauzalităţi. Aceasta stă numai în puterea unor teorii. Totuşi cînd sîntem puşi în faţa
faptului că există o relaţie între două variabile, sau că se poate respinge independenţa a două
variabile, sîntem şi tentaţi şi nevoiţi să propunem explicaţii pentru acest fapt. Deci, nu numai
teoria naşte testare statistică ci şi invers. Cercetarea statistică produce ipoteze teoretice prin
interpretările rezultatelor. Deci trebuie să avem grijă cum interpretăm ceea ce găsim pentru ca
paşii pe care îi intreprindem în continuarea cercetărilor noastre să nu o ia pe cîmp prea departe
de potecă.

Din păcate aici reguli nu prea există. Interpretările proaste nu sînt neapărat interpretări greşite.
Prostiile rezultă cel mai adesea nu din citirea greşită a rezultatelor de test ci din incultură sau
nerăbdare ştiinţifică. Nu este vorba despre neglijarea significanţei şi a valorii de test. Astfel de
situaţii nu necesită prea multe comentarii. Se întîmplă însă ca citirea unei relaţii ca şi
cauzalitate directă să fie suficient de absurdă ca cercetătorul să abandoneze o cale care ar
putea fi fertilă. Am menţionat pe undeva ipoteza “berzele aduc bebeluşii”. Tot aşa

160
interpretarea corelaţiei şi regresiei ca şi cauzalitate directă poate duce la abandonarea căutării
unor relaţii cauzale mai complexe dar posibil interesante de studiat, care ar putea fi ipoteze
pentru cercetări viitoare.

Uite o situaţie similară cu povestea berzelor şi a natalităţii. Este cunoscută şi testată de mai
multe ori relaţia dintre înălţime fizică şi venit individual. Persoanele înalte au venituri mai
mari. Relaţia, care a fost observată prima oară în Statele Unite (), s-a dovedit valabilă aproape
în orice populaţie. Dacă privim corelaţia ca pe o cauzalitate directă ea nu prea are sens. La
urma urmei condiţiile salariale sînt negociabile liber pentru destul de puţine locuri de muncă
şi nu cred că la asemenea negocieri înălţimea fizică are vreo importanţă. Mai mult, uneori
salariile se negociază telefonic. Totuşi corelaţia există. Prima ipoteză de cercetare este
includerea în lanţul cauzal al variabilei gen. Genul are efect asupra înălţimii şi asupra
venitului mediu. Bărbaţii sînt în medie mai înalţi şi au în medie venituri mai mari. Aceste
două determinări sînt bine cunoscute. Dintre ele cel puţin cea de a doua a fost mult cercetată.
Determinările au ca efect o corelaţie între înălţime şi venit. Explicaţia aceasta e deja
acceptabilă. Deci, în primul rînd, corelaţia dintre înălţime fizică şi venit nu trebuie respinsă ca
fiind o “falsă corelaţie” (în engleză le zice spurious correlations), pentru că există o explicaţie
bună. Explicaţia aceasta este însă insuficientă. Dacă refacem calculele pe genuri obţinem
următoarea surpiză. La femei corelaţia nu există, femeile mai înalte nu au venituri mai mare
decît cele mai puţin înalte. La bărbaţi însă corelaţia rămîne. Cu cît e un bărbat mai înalt, are
un venit mai mare, statistic vorbind. Deci, trebuie săpat în continuare. După ce se poate uşor
respinge ipoteza cum că bărbaţii mai înalţi au mai multă şcoală, rămîne să căutăm alte
explicaţii. O explicaţie care funcţionează este faptul că bărbaţii înalţi au o şansă mai mare să
deţină funcţii de conducere şi să beneficieze ca atare de sporuri la venit din acest motiv.
Înălţimea e receptată ca prestanţă, sau chiar e prestanţă (poate v-aţi prins, eu sînt mai de grabă
mic!) şi duce la obţinerea mai uşoară a unor poziţii de decizie. Această caracteristică se
regăseşte la toate palierele de pregătire şi este chiar mai importantă la nivele de pregătire mai
reduse. Controlînd, pe lîngă gen, şi influenţa poziţiei decizionale asupra corelaţiei, aceasta se
reduce şi mai mult şi devine foarte slabă. Asta a fost deci. Se pare, cel puţin. E de observat că
cele două variabile pe care le-am introdus în schemă au poziţii cauzale diferite. Genul se
repercutează asupra înălţimii şi, printr-un lanţ cauzal mai complex şi controversat, determină
şi venitul. Poziţia decizională este însă interpusă între înălţime şi venit. Poziţia decizională
determină direct venitul şi este determinată, iarăşi probabil printr-un lanţ cauzal mai complex
şi printre multe alte caracteristici, de către înălţime.

161
Am dat un exemplu de corelaţie care putea fi respinsă uşor ca fiind o prostie. Hai să dau şi un
exemplu în care interpretarea unei corelaţii a fost într-adevăr o prostie. Într-un articol dintr-o
revistă de altfel bună, un cercetător american (Kuh, 1999) construieşte următoarea corelaţie:
există o relaţie puternică negativă între beneficiile auto-declarate obţinute din învăţămîntul
superior şi ponderea disciplinelor ocupaţionale în sistemul de învăţămînt superior. El extrage
această concluzie dintr-o corelaţie efectuată pe serii de timp între 1960 şi 1990. Adică, pe
măsură ce ponderea disciplinelor care pregătesc studenţi pentru meserii bine definite a
crescut, a scăzut beneficiul auto-declarat obţinut de pe urma studiilor universitare. Şi corelaţia
aşa este. De aici autorul ajunge la concluzia că studiile cu caracter ocupaţional aduc de fapt
mai puţine beneficii absolvenţilor. E vorba aici de discipline precum medicina, ingineria,
arhitectura, etc. care sînt strict legate de meserii, faţă de discipline precum filosofia, fizica sau
matematica care sînt legate de domenii ale cunoaşterii, de ştiinţe.

Problema este că autorului îi scapă o variabilă esenţială, volumul total al absolvenţilor, adică
gradul de cuprindere al învăţămîntului superior. Acesta a crescut foarte mult în Statele Unite
în anii studiaţi, deci între 1960 şi 1990. Crescînd numărul de absolvenţi de învăţămînt
superior are loc un soi de “inflaţie” de diplome. Poziţiile sociale înalte nu devin neapărat mai
multe, dar absolvenţii de învăţămînt superior se înmulţesc foarte tare. Astfel o diplomă
universitară nu mai garantează o poziţie socială şi economică aşa bună cum garanta în anii
1960. Deci expansiunea învăţămîntului superior e principala cauză pentru reducerea
beneficiilor obţinute de pe urma studiilor. Pe de altă parte creşterea ponderii disciplinelor cu
caracter ocupaţional este, măcar parţial, influenţată tot de expansiune. Aici mecanismele sînt
mai complexe şi includ schimbarea rolului învăţămîntului superior de la cel de legitimare a
unei elite sociale la cel de pregătire profesională, precum şi intrarea în învăţămîntul superior a
din ce în ce mai mulţi studenţi proveniţi din medii sociale mai joase şi cu interese mai de
grabă profesionale decît academice. În concluzie, interpretarea cum că disciplinele
ocupaţionale dau beneficii mai mici e o prostie. Corelaţie e determinată de efectele pe care le-
a avut expansiunea învăţămîntului superior asupra celor două variabile şi nu de o relaţie dintre
ele. Ar fi trebuit studiată măcar o corelaţie parţială controlînd efectul volumului total de
studenţi sau de absolvenţi, fiind însă vorba despre serii de timp metodele de cercetare ar fi
trebuit să includă şi alte calcule pe care nici nu le mai pomenesc aici.

162
163
În loc de încheiere

“- Statistica ne spune că astfel de crime sînt comise de către rude.


- Dar vă jur, nu am fost eu!
- Statistica nu minte. Criminalii însă da.“ (The District, serial TV, 2000)

Dialogul de mai sus este desigur memorabil de inept. Şi tot ce sper de la această carte este să
vă fi făcut să înţelegeţi de ce. Poliţistul din fragmentul de dialog, a cărui încredere în statistică
ne bucură desigur, nu pare să priceapă felul cum funcţionează statistica. Pe parcursul acestei
cărţi am încercat să arăt că statistică poate să nu mintă şi în acelaşi timp să nu spună adevărul,
sau în orice caz să nu spună un adevăr care să fie valabil în justiţie. Adevărul statisticii nu este
unul simplu, nu este univoc şi exact. Dar cu toate acestea este un adevăr dacă ştim cum să-l
citim. Am încercat în paginile de pînă acum să descriu cît mai bine am putut cum “gîndeşte”
metoda statistică şi cum trebuie noi să interpretăm rezultatele ei.

Bine, bine, dar dacă adevărul statistic nu e un adevăr simplu, univoc şi exact şi în plus pentru
a îl înţelege trebuie să ne şi batem capul sau, doamne fereşte, să şi calculăm cîte ceva, atunci
de ce mai folosim statistica? Ei bine, pentru că statistică este o metodă de cunoaştere care îşi
asumă imperfecţiunea ei şi de obicei chiar ne permită să determinăm această imperfecţiune, să
o delimităm. Cu ajutorul statisticii nu putem spune exact care e adevărul. Putem să ne
apropiem de el şi, ce e cel mai important, putem spune ceva de genul, “nu e ăsta adevărul dar
există o probabilitate destul de mare astfel ca adevărul să fie pe undeva pe aproape”. Sună
foarte slab? Poate, dar e mai mult decît ne pot oferi multe alte metode de cunoaştere.

Statistica nu ne oferă certitudini, dar ne oferă garanţii suficiente pentru a lua decizii.
Certitudinile sînt oricum supraevaluate. Puţinele propoziţii din ştiinţă despre care putem
spune cu certitudine că sînt adevărate sunt truisme. Ele nu ne interesează în cercetarea
ştiinţifică reală14. Statistica ne poate spune despre o propoziţie, care nu este o certitudine, cam
care ar fi şansele să greşim dacă o declarăm falsă. Şi astfel statistica ne poate ajuta să decidem
atît în ştiinţă cît şi în alte domenii ale activităţii umane, în economie, în politică, şi aşa mai
departe.

14
Matematica s-ar putea să fie o excepţie, dar încă nu sînt sigur.

164
165
Anexe. Tabele pentru testele t, Z şi Chi2 (de adăugat pentru publicare)

166