Sunteți pe pagina 1din 21

Capitolul 4. Aperitive.

Primii paşi în descrierea datelor statistice

În precedentele două capitole am văzut ce tipuri de date foloseşte statistica şi cum le adună. În
acest capitol voi prezenta cele mai simple şi des folosite metode de reprezentare a datelor.
Indiferent cit de departe s-ar merge cu analiza datelor şi cît de sofisticate ar fi metodele
folosite în cele din urmă, o analiză exploratorie a datelor se face întotdeuna. În acest capitol
vom vedea cum punem prima dată mîna pe un set de date, cum ne apropiem de el, cum îl
facem inteligibil.

Seturile de date culese prin sondaj sau referendum fie că le-am produs noi înşine, le-am
preluat de la instituţii oficiale sau de la alţi cercetători se pot înţelege şi uneori chiar vizualiza
sub forma unor tabele. Fiecare linie corespunde de obicei unui individ şi fiecare coloană unei
variabile. Uneori chiar se culeg datele pe teren folosind astfel de tabele numite fişe de
răspuns. Pe de altă parte, toate programele pe calculator care lucrează cu date statistice le
reprezintă sub această formă, fie că e vorba de Excel, folosit uneori şi pentru prelucrări
statistice primare, fie că e vorba de soft-uri specializate ca SPSS, Stata, Statistica, Gauss sau
altele. În imaginea de mai jos se vede un fragment al unui set de date în Stata.

1
O astfel de tabelă are în mod curent peste 1000 de linii şi zeci sau chiar sute de coloane.
Afişarea în sine a tabelei nu permite ca atare o citire prea facilă şi nu prea poate duce la vreun
fel de consideraţii inteligente. E pur şi simplu prea mare, plină de cifre şi lipsită de sensuri.
Deci, ce facem?

a. Imagini de ansamblu asupra datelor. Frecvenţe şi reprezentări grafice.

Prima idee este de a prezenta în vreun mod simplu şi concis cîte o variabilă, adică o coloană a
tabelei de date.

Să presupunem că respectiva coloană conţine răspunsuri legate de frecvenţa gătitului în


familiile din Baia Mare3. 1051 de intervievaţi au răspuns la întrebarea: “Cît de des se găteşte
la dumneavoastră în familie?”. Răspunsurile posibile au fost “zilnic”, “de mai multe ori pe

3
Valorile sunt reale şi provin dintr-un sondaj efectuat în 2003. Populaţia a fost populaţia oraşului Baia Mare,
eşantionarea a fost multistadială aleatoare cu itinerariu cu luarea în considerare a cartierului de reşedinţă,
densitatea de locuire a acestuia si a genului intervievatului. Interviurile s-au efectuat la domiciliul subiecţilor
între orele 16 şi 21 asigurîndu-se prezenţa majorităţii celor angajaţi în cîmpul muncii.
săptămînă”, “săptămînal” şi “mai rar”. Tabelul cu rezultate ar avea 1051 de linii şi nu da o
imagine prea clară asupra distribuţiei datelor. Modul de a reprezenta inteligibil şi scurt
valorile ar fi să număr apariţiile fiecărei valori şi să le prezint sintetic aşa cum apar în tabelul
de mai jos. Numărul de apariţii ale unei anumite valori se numeşte frecvenţă. De aceia un
astfel de tabel se numeşte de obicei tabel de frecvenţe sau uneori tabel de frecvenţe simple
pentru că se referă la o singură variabilă.

Valoare Frecvenţă Procent Procent cumulat


Zilnic 547 52,0% 52,0%
de mai multe ori pe săptămînă 476 45,3% 97,3%
Săptămînal 26 2,5% 99,8%
mai rar 2 0,2% 100,0%
Total 1051 100%

Cum interpretăm, sau mai exact cum citim o astfel de tabelă? Să observăm întîi că variabila
în cauză este ordinală, chiar dacă forma ei are un caracter total nenumeric există o ordine
bine definită. Prima coloană de valori numerice, sub titlul de frecvenţă prezintă numărul de
persoane intervievate care au ales acest răspuns, a doua coloană ne dă ponderea procentuală a
răspunsului iar a treia cumulează acest procentaj cu procentajele din categoriile cu valoare
mai mică. Frecvenţa şi procentajul simplu se pot calcula pentru orice tip de variabilă, ele nu
fac calcule cu variabila în sine ci cu frecvenţa ei de apariţie. Procentajul cumulat are sens
numai la variabile care au o ordine definită, astfel un procentaj cumulat pentru variabile
nominale, deşi poate fi calculat, are mai puţin sens.

Ce aflăm din tabela de mai sus? În primul rînd faptul că răspunsurile s-au grupat în zona “cu
gătit frecvent”. Peste jumătate din cei întrebaţi susţin că la ei în familie se găteşte zilnic.
Numărul celor care susţin că la ei se găteşte mai rar decît săptămînal este foarte foarte mic,
numai două persoane din eşantion au răspuns astfel. Observăm de asemenea că peste 97%
dintre intervievaţi declară că la ei în familie se găteşte de mai multe ori pe săptămînă.

Paragraful de mai sus este o simplă transcriere a principalelor rezultate ale tabelei de
frecvenţe. Strategia ei este simplă şi se foloseşte des. Ea începe cu prezentarea valorii cel mai
des întîlnite. În cazul nostru este valoarea “zilnic”, apoi se trece la valoarea cea mai rară. La
variabile ordinale se obişnuieşte eventual o prezentare a capetelor scalei. În cazul de mai sus
este vorba despre aceleaşi valori. Apoi se prezintă rezultate cumulative, dacă au sens. O
precuaţie mare trebuie avută la menţionarea valorilor numerice. Aici se poate induce în eroare
destul de mult. Un obicei bun este de a nu se specifica valorile procentuale de după virgulă.
După dorinţă se poate trunchia sau rotunji. Statistica este o estimare cu o anumită eroare.
Prezentarea unor valori cu tot cu zecimale produce impresia unei exactităţi pe care nu o putem
promite cu conştiinţa curată.
O a două regulă legată de prezentarea procentajelor se referă la valorile rare. În cazul unor
categorii cu număr mic de cazuri valorile procentuale pot induce în eroare. Aceasta se
întîmplă în special atunci cînd procentajele se calculează pe volumuri populaţionale care
oricum sunt mici. Deci, spuneţi numărul de cazuri şi nu procentajul aferent unei valori cand
acest număr e mic. Ce înseamnă mic depinde de decizia fiecăruia dar este de bun simţ să
considerăm o opţiune rară una care nu are mai mult de 10-15 cazuri. Pe de altă parte în
general statistic se consideră un lot mic, un lot cu mai puţin de 30 de cazuri. Cum spuneam,
conştiinţa fiecăruia şi particularităţile cercetării trebuie să decidă în cele din urmă.

Tabelele de frecvenţe sunt adesea însoţite de grafice. O prezentare grafică este pentru mulţi
cititori mai confortabilă, permite de obicei o înţelegere mai rapidă a unor trenduri sau
distribuţii. Există însă multe feluri de prezentări grafice şi nu toate se potrivesc pentru orice
situaţie.

Graficele cele mai simple şi generale, valabile în aproape toate situaţiile sunt graficele cu
bare. Ele pot fi folosite şi în cazul variabilelor nominale şi nici nu depind prea mult de
numărul de valori pe care variabila le poate lua. Iata mai jos un exemplu pentru variabila
prezentată deja.
60,0%

50,0%

40,0%

Procent

30,0%

52,05%

45,29%
20,0%

10,0%

2,47%
0,0% 0 19%
mai rar
zilnic de mai multe ori pesaptamanal saptamana

27. Cat de des se gateste la dvs. in familie?

Dimensiunea barelor trebuie să fie proporţională cu valoarea variabilei. Iată un frumos


exemplu din presă cum nu se face un grafic simplu:

În exemplu, valorile de pe bare nu au nici o legătură cu dimensiunea barelor. Exemplul cel


mai flagrant este la graficul din mijloc: bara cu valoarea dată de 82 este mai mare decît cea cu
valoarea 98, la rîndul ei mai mare decît cea de 108. Una peste alta trendul crescător este
anulat, chiar inversat. Mai mult, bara cu salariul mediu din 1990, valoarea 153 USD este mult
mai mare decît bara cu salariul mediu din 2005, valoare 257 USD. Exceptînd că datele nu
prea au legătură cu cele oficiale, dimensiunea greşită a barelor crează impresia unui nivel
salarial din 1990 neatins în prezent. Părea simplu de făcut un grafic cu bare. Uite că se poate
da în bară şi aici.

În graficele cu bare pot apărea valorile pe baza căruia a fost construit fie procentual fie ca şi
frecvenţe. Dimensiunea barelor va fi desigur aceiaşi fie că s-a ales reprezentarea pe baza
valorilor absolute sau procentuale. Tot ce se schimbă este scala axei verticale. Forma şi
culoarea barelor pot fi desigur diverse. Clar este că vizualizarea oferă un acces mai direct la
informaţie şi permite aceasta şi unor cititori care preferă să nu aibă de a face cu valori
numerice dacă nu este neapărat necesar.

Pe lîngă graficele cu bare mai sunt şi alte variante care însă se potrivesc mai degrabă unor
situaţii particulare. De exemplu, graficul de tip plăcintă (sau tort, cum preferaţi) prezintă
valorile ca şi felii dintr-o arie de disc. Un asemenea grafic este deosebit de potrivit pentru
reprezentarea procentajelor pentru că transmite bine faptul că valorile împart un tot, o
populaţie, în categorii.

27. Cat de des se gateste la dvs. in


familie?
zilnic
de mai multe ori pe saptamana
saptamanal mai rar
2,47%

45,29% 52,05%

Graficul plăcintă de mai sus într-adevăr ne dă o imagine mai clară cît de puţin reprezintă
din ansamblu procentajul de 0,2% şi chiar cel de 2,5%. Un alt avantaj al graficului plăcintă
este posibilitatea de evidenţiere a unei felii considerate importante. De exemplu:
27. Cat de des se gateste la dvs. in
familie?
zilnic
de mai multe ori pe saptamana
saptamanal mai rar
2,47%

0,19%

45,29% 52,05%

Pe de altă parte dacă variabila ar fi avut un număr mare de valori folosirea unei diagrame
plăcită ar fi fost mai degrabă menită să inducă în eroare. Iată un exemplu comparativ cu un
grafic cu bare şi unul plăcintă pentru o altă întrebare din acelaşi sondaj.
2. De unde va place cel mai mult sa va
faceti cumparaturile?

piata agro- alimentara


supermarket butic
Center chiosc
magazin specializat
30,0% centru comercial depozit en-gros Metro
Hoffer Profi
Procent

nu am loc preferat Mol


moldova

20,0%

10,0%

Graficul plăcită transmite poate o imagine de ansamblu interesantă dar nu prea poate fi citit
atunci cînd sîntem interesaţi şi de opţiunile mai rare.

0,0%

O altă problemă a graficului plăcintă este că se pretează în special variabilelor nominale. Dacă
în graficul cu bare, precum şi în alte forme de grafice o ordine a valorilor este vizibilă la un
grafic plăcintă o astfel de ordine nu se percepe. Evident, în cazul variabilelor nominale nici nu
ne dorim o asemenea ordine.
2. De unde va place cel mai mult sa va faceti cumparaturile?

Al treilea tip de grafic foarte răspîndit este graficul linie. Acesta seamănă cel mai mult cu
graficele de funcţii matematice aşa cum se învaţă la şcoală. Crează deci senzaţia unei ordini a
valorilor şi chiar unei continuităţi. Ca atare nu merge la variabile nominale în nici un caz, dar
nu e de dorit nici la variabile ordinale. Este însă ideal pentru valori numerice fie ele
intervalice, fie raţionale şi în special cînd numărul valorilor e mare. Ca în exemplul de mai
jos.
40

valori absolute
30

83 20
80

Graficul reprezintă distribuţia pe vîrste a eşantionului din cercetarea din care am tot dat
exemple în acest capitol. Pe axa orizontală se găsesc vîrstele celor ce au răspuns la întrebări,
10

pe verticală e numărul persoanelor de o anumită vîrstă.

Pe scurt deci: graficele cu bare merg în aproape orice situaţie, plăcintele sunt perfecte pentru
variabile nominale şi în special dacă au un număr mic de valori, graficele linie se potrivesc
0

la variabile raţionale şi intervalice şi în special dacă au un număr mare de valori.

Pe lîngă aceste trei tipuri, care sunt într-adevăr cele


59. Cati ani mai răspîndite, există o serie de alte
aveti?

variante, grafice suprafaţă, diagrame de puncte, histograme, precum şi o serie întreagă de


grafice care sunt legate de anumite prelucrări statistice cum ar fi graficele de regresie, de
cluster, şi altele. Unele le vom pomeni la momentul oportun, altele nu.

Încă un comentariu. Nu am pomenit de felul cum se pot analiza graficele, pur şi simplu pentru
că părerea mea este că nu trebuie analizate graficele, ci datele care se află în spatele lor. Un
grafic este o prezentare vizuală, desigur confortabilă şi deosebit de utilă, dar nu conţine mai
mult decît tabelul pe baza căruia a fost creat. Poate însă induce în eroare mult mai mult.
Luînd prea de bune ce vedem pe grafic putem să supraevaluăm, de exemplu, tendinţe care
statistic nu sunt relevante. Un grafic simplu, precum cele din exemplele de mai sus nu spune
cu nimic mai mult decît un tabel de frecvenţe. Totuşi privind graficul există o tentaţie de a
spune, de a vedea mai mult. Aceasta este desigur benefică dacă ne ajută să alegem testele de
care avem nevoie în continuare, dar total malefică dacă ne duce la concluzii fără să mai
calculăm nici un
fel de teste, cum de altfel se mai întîmplă. Deci, precauţie şi sfatul meu este, prezentaţi
graficele dar analizaţi rezultatele de calcul.

Toate graficele din exemplele din această secţiune s-au referit la prezentarea unei singure
variabile. Există desigur diferite moduri de a prezenta mai multe variabile pe acelaşi grafic. În
capitolul 6. al acestei cărţi voi încerca să dau ceva amănunte despre cum se lucrează statistic
cu relaţia dintre mai multe variabile. Voi începe cu tabelele de relaţionare care într-un fel sunt
similare tabelelor de frecvenţe pentru cazul a două (sau arareori trei) variabile. Atunci voi
prezenta şi graficele aferente acestor tabele, aşa cum acum am pus unele lîngă altele tabele de
frecvenţe şi graficele simple în acest capitol.

b. Indicatori agregaţi

Indicatorii statistici agregaţi sunt valori calculate pe baza uneia sau mai multor variabile şi
care ne oferă informaţii despre ansamblul valorilor variabilei sau despre valorile variabilei
privite ca un grup de date. De obicei se identifică, mai mult sau mai puţin forţat, întreg
domeniul statisticii descriptive cu indicatorii statistici.

Care sînt însă aceşti indicatori? Vrînd, nevrînd fiecare dintre noi ne-am lovit de mediile
aritmetice dacă nu şi de alţi indicatori. În secţiunea aceasta o să prezint indicatorii principali
pentru analiza tendinţei centrale şi distribuirii datelor, apoi în capitolul 6. voi reveni la cîţiva
indicatori care ne ajută să analizăm relaţia dintre mai multe variabile.

I. Tendinţa centrală.

Sub numele acesta un pic pretenţios se ascund diferite feluri de a calcula media unor variabile.
Ca atare s-ar putea să fie aparent uşor de înţeles ce este tendinţa centrală a unei variabile, aşa
cum desigur este uşor de înţeles şi de ce este ea atît de criticată ca şi mod de a descrie un grup
de date. De aceea, cred că pot să scap fără să mai dau şi o definiţie.

Principalul indicator pentru tendinţa centrală este media aritmetică simplă. Pe lîngă faptul că
destul de rar calculul unei medii dă informaţii relevante despre o variabilă trebuie să
menţionăm şi faptul că uneori calculul mediei este chiar greşit conceptual. Pentru
corectitudine să prezentăm însă un exemplu şi, bineînţeles, prima formulă din această carte.
Să presupunem că am cules numărul de la pantofi a studentelor din seminarul nostru de
statistică. Rezultatul ar putea fi sintetizat într-o tabelă în felul următor.

Media = ( NumărNume
Ana + Număr Ioana + NumărOana
Număr
+ NumărSimona + Număr + NumărAngela + NumărCarla + NumărNadina ) / 8
Ana Olivia37
Ioana 36
Oana 38
Simona 38
Olivia 39
Angela 39
Carla 37
Nadina 39
Media 37,88
Media a fost calculată astfel: s-au adunat toate valorile din coloana Număr aferente numerelor
de pantofi şi apoi suma s-a împărţit la numărul fetelor, adică la 8. Valoarea finală, care apare
şi pe ultima linie a tabelei este media aritmetică a numerelor la pantofi a fetelor din grupa de
seminar. Şi această medie este 37,88. Ne spune asta ceva? Sigur. Anume că media numerelor
la pantofi ale fetelor din această grupă de seminar este 37,88. Ne poate spune mai mult decît
atît? Nu, în nici un caz. Ne poate fi de vreun folos? Depinde.

În general media unei variabile x se notează cu xˉ, μ(x), μx sau cu E(x), unde E provine din
engleză de la expectancy. De altfel, media se mai numeşte şi în limba romană uneori,
aşteptare statistică. Originea acestei denumire vine de la media măsurătorilor repetate ale
aceluiaşi reper. Media măsurătorilor reprezintă, statistic vorbind, apropierea cea mai bună de
valoarea reală care se măsoară, de aceea media este valoarea “aşteptată” a măsurătorii.

Calculul simplu al mediilor este arareori util în sine. Poate, de exemplu, dacă se face design-ul
unui ascensor, o informaţie despre greutatea medie a unei persoane dintr-o anumită populaţie
poate fi importantă pentru că ar sta la baza specificării numărului maxim de persoane care pot
călătorii de o dată cu ascensorul. Pe de altă parte, media poate fi un bun indicator comparativ.
De exemplu, dacă greutatea medie a unui student de la facultatea de litere e mai mică decît
greutatea medie a unui student de la facultatea de mecanica (ceea ce este desigur adevărat!)
această informaţie poate avea o anumită valoare în contextul unei cercetări. Aşa cum vom
vedea există teste statistice care compară medii ale unor variabile pe eşantioane diferite pentru
a avea indicii dacă populaţiile din care s-au ales aceste eşantioane diferă din prisma
variabilelor studiate. Deci, media aritmetică poate fi o apropiere facilă, deşi superficială
pentru a vedea dacă două, sau mai multe populaţii diferă. Să luăm de exemplu ipoteza
următoare: “nu există diferenţe între studenţii de la mecanică şi cei de la litere.” Un test poate
respinge această ipoteză dovedind că există o diferenţă de greutate medie relevantă între
aceste două populaţii. Deci ceva diferenţe trebuie să existe între cele două populaţii. Pentru
cei ce încă nu s-au prins, diferenţa de greutate vine din faptul că ponderea fetelor este
incomparabil mai mare la facultatea de litere decît la facultatea de mecanică şi fetele sînt, în
medie mai uşoare decît băieţii.

Sigur, butada cu omul care stă cu un picior într-un lighean cu apă clocotită şi cu unul într-un
lighean cu apă cu gheaţă dar în medie ar trebui să-i fie bine, este strict matematic corectă.
Totuşi, media este un indicator comparativ valoros tocmai pentru ca este simplu şi induce în
eroare doar atunci cînd îi conferim un conţinut informaţional mai mare decît are.

Cea mai mare problemă legată de medii este calculul acestora atunci cînd variabilele nu
permit aceasta. Principial matematic este corect să calculăm medii atît pentru variabile
raţionale cît şi pentru variabile intervalice. Astfel media greutăţii sau a înălţimii (care sunt
variabile raţionale) sunt conceptual la fel de corecte ca şi media temperaturilor sau a orelor de
deşteptare (care sunt variabile intervalice). În toate aceste cazuri media are sens pentru că
calculul diferenţelor este consistent. Adică, dacă din 5 kg de orez vindem 3 kg ne rămîne la
fel de mult ca atunci cînd vindem dintr-un stoc de 60 kg, 58 kg. Şi de asemenea dacă am
dormit de la ora 5 dimineaţa pînă la ora 12 înainte de masă am dormit tot atîtea ore ca şi de la
10 seara pînă la 5 dimineaţa, atîta doar că poate sînt mai mahmur în primul caz. Deci sumele
şi diferenţele precum şi împărţirea la scalar (adică la numere şi nu la variabile aleatoare) este
consistentă atît pentru variabile raţionale cît şi pentru variabile intervalice.

Pe de altă parte nimeni nu cred că intenţionează să calculeze media unor variabile nominale,
chiar dacă ele au reprezentare numerică, cum sunt de exemplu numerele de pe tricourile unor
jucatori de fotbal. Astfel de valori, deşi sunt formal numere, sunt esenţial nume date unor
indivizi şi media lor nu are nici un sens.

Greşeala care se face însă adesea este calculul mediilor unor variabile ordinale. Este o
greşeală care este foarte adesea acceptată pentru că extinde de fapt calculul mediilor şcolare
la cercetarea socială. Nici notele de la şcoală nu sunt mai mult decît variabile ordinale. Cum
am mai spus, mulţi profesori ar accepta faptul că diferenţa dintre o notă de 7 şi una de 8 este
mai mică decît diferenţa dintre un 4 şi un 5. Totuşi, suntem învăţaţi cu mediile şcolare şi nu
ne punem problema unei posibile incorectitudini rezultate din procedura de mediere în sine.
Mediile oricăror variabile ordinale sunt desigur similare ca şi relevanţă cu acest caz. Atunci,
de ce să nu acceptăm astfel de calcule? Ei bine, departe de mine gîndul cum că o decizie
asupra vieţii unui elev e mai puţin importantă decît o cercetare ştiinţifică. Este însă un fapt că
medierea notelor este un fapt acceptat cu tot cu defectele pe care le are ca indicator pentru
nivelul de pregătire a unui elev pe o durată mai mare de timp sau chiar pentru un grup de
domenii ale cunoaşterii. Media şcolară greşeşte desigur atunci cînd aduce la egalitate o medie
de 7 rezultată dintr-un 10 şi un 4 cu o medie care s-a obţinut dintr-un 8 şi un 6. Probabil mai
greşeşte şi atunci cînd face media dintre note date de cadre didactice diferite. Ştim cu toţii că
anumiţi profesori înclină să dea note mai mici decît alţii. Astfel, pentru un 7 la un anumit
profesor s-ar putea să fie necesare cunoştiinţe mai multe decît pentru aceiaşi notă la un alt
profesor. Toate aceste consideraţii sunt cunoscute şi fac parte din bunul simţ comun pentru
oricine a trecut prin învăţămînt. Nu este însă aşa în cazul unei cercetări sociale. Variabilele
care se mediază acolo nu sunt atît de discutate ca şi notele noastre de la şcoală, ca să nu
pomenesc de notele copiilor noştrii! Ca atare relaţiile care se maschează prin calcul nu sunt
atît de evidente ca cele pe care le maschează media şcolară. Mai mult decît atît, relaţiile s-ar
putea să nici nu fie cunoscute. Aceasta e suficient pentru ca în cazul mediilor variabilelor
ordinale dintr-o cercetare statistică să fim cu adevărat induşi în eroare.

Alţi indicatori ale tendinţei centrale sunt modul şi mediana.

Modul unei variabile statistice este pur şi simplu valoarea care apare cel mai des printre
datele culese. De exemplu, în exemplul de mai sus, numărul la pantof 39 apare de 3 ori, mai
des decît oricare altă valoare. 39 va fi deci modul sau, cum se mai spune “modul distribuţiei”.
Determinarea modului nu presupune nici un calcul, ba mai mult nici măcar o ordine a
valorilor. Se poate deci stabili care e modul religiei sau cetăţeniei într-un grup de persoane,
deşi aceste variabile sunt nominale. Nu există nici o restricţie pentru folosirea modului. Pe de
altă parte spunînd că modul distribuţiei religiei în populaţia Timişorii este “creştin-ortodox”
nu spunem decît că în Timişoara sunt mai mulţi creştin-ortodoxi decît membrii ai oricărei alte
religii. Bineînteles folosind termenul de mod, propoziţia este mai greu de înţeles şi sună mai
ştiinţific. Deşi eu aş sfătui împotriva unei exprimări criptice inutile, sunt situaţii în care poate
fi de folos în contactul cu clienţi mai snobi!

Dezavantajul esenţial al modului este că ne spune chiar mai puţin decît media. Practic aflînd
care e valoarea care apare cel mai des în eşantion eliminăm din informaţia transmisă o mare
parte a datelor culese. Dacă media se calcula totuşi din toate datele culese, modul nu reflecta
decît o parte a datelor culese. Ca atare determinarea şi raportarea modului au sens numai la
variabile nominale, unde altceva nu se poate folosi.

Mediana este un indicator al tendinţei centrale care este gîndit esenţialmente pentru variabile
ordinale. Mediana necesită existenţa unei ordini între valorile culese dar nu şi efectuerea unor
calcule. Să revenim deci la picioarele fetelor. Pentru a determina mediana valorile culese se
ordonează, aşa cum se vede din tabelul de mai jos:
Nume Număr
Ioana 36
Ana 37
Carla 37
Oana 38
Simona 38
Olivia 39
Angela 39
Nadina 39
Mediana 38

Mediana este valoarea care apare la mijlocul listei. În cazul nostru este 38, valoarea de pe
poziţia a 4-a şi a 5-a dintr-o listă de 8 cazuri. Dacă am fi cules 1001 de valori, valoarea de pe
poziţia 501 ar fi fost mediana. Precum se vede, mediana poate avea şi două valori diferite în
cazul în care lista are un număr par de elemente. Vorbim atunci de valorile mediane. Uneori
se calculează o medie artimetică între cele două valori mediane, aceasta însă este desigur un
fel de prostie pentru ca decizia de a folosi mediana se ia tocmai acolo unde nu este indicată
calcularea unei medii aritmetice.

II. Distribuţia datelor

Aşa cum am văzut şi din exemplele precedente, media este adesea desconsiderată pentru că
obturează distribuirea datelor. O medie de 7 poate rezulta dintr-un 4 şi un 10 la fel ca şi dintr-
un 8 şi un 6. O temperatura medie de 250 C poate rezulta dintr-o maximă diurna de 300 C şi o
minimă noctura de 200 C sau dintr-o maximă diurnă de 500 C şi o minimă nocturnă de 00 C.
De aceea atunci cînd se descrie statistic o variabilă, media se dublează întotdeuna de un
indicator care să ne transmită cît de departe sunt distribuite datele în jurul mediei.

Există mai multe metode de calcul ale distribuirii datelor. Am ales să le parcurg în ordinea
complexităţii calculului. Prima data însă o consideraţie. Distribuţia datelor implică un sens al
distanţei faţă de medie. Spunem că datele sunt mai îndepărtate sau mai apropiate de medie.
Aceasta presupune desigur o ordine şi nu se poate aplica unor variabile nominale. Ca atare
distribuţia datelor se poate măsură numai în cazul variabilelor care sunt măcar ordinale.
Precum vom vedea majoritatea indicatorilor necesită chiar variabile intervalice sau raţionale.

Variantele cele mai simple sunt desigur cele gîndite pentru variabile ordinale. Toate acestea se
bazează pe ordonarea valorilor din listă şi aplicare unei metode care se bazează pe conceptul
de interval. Hai să revedem lista cu numerele de pantofi.

Nume Număr
Ioana 36
Ana 37
Carla 37
Oana 38
Simona 38
Olivia 39
Angela 39
Nadina 39
Mediana 38

Intervalul este format întotdeuna din două valori. Intervalul simplu este perechea formată din
valoarea cea mai mică şi cea mai mare care au fost culese. În cazul nostru intervalul datelor
este (36, 39).

Am vazut că mediana împarte lista în două. O astfel de împărţire se poate face în continuare şi
în cele două jumătăţi astfel lista întreagă se împarte în patru părţi numite cvartile. Se obţin
două valori noi care sunt de fapt medianele jumătăţilor de listă. Perechea lor este intervalul
intercvartilic, în cazul nostru (37, 39).

Se preferă uneori intervalul intercvartilic intervalului simplu al tuturor datelor deorece astfel
se elimină valorile extreme. Se poate întîmpla ca într-un eşantion că apară cazuri extreme,
rare care să denatureze rezultatele. Evident astfel de cazuri vor fi însă puţine. La urma urmei,
dacă nu ar fi puţine nu ar mai denatura rezultatul, ci ar fi chiar parte esenţială a acestuia!
Utilizînd intervalul intercvartilic avem un termen de comparatie care nu ia în seamă cazurile
rare, extreme, cazurile outlier (periferice).
Reprezentarea de mai jos sper sa clarifice şi mai bine sensul intervalului intercvartilic.

Ioana Ana Carla Oana Simona Olivia Angela Nadina


36 37 37 38 38 39 39 39
Prima cvartilă A doua cvartilă A treia cvartilă A patra cvartilă
C0 C1 C2 C3 C4
Mediana

Valoarea care separă a doua de a treia cvartilă, valoarea C2, este Mediana. Intervalul (C0, C4)
este intervalul datelor, iar (C1, C3) este intervalul intercvartilic. Uneori se numeşte chiar
valoarea C1 prima cvartilă sau cvartila inferioară, C2 a doua cvartilă şi C3 a treia cvartilă sau
cvartila superioară.

Metoda pe care am prezentat-o mai sus poate desigur fi extinsă la un număr mai mare de
astfel de grupări. În general asemenea împărţiri ale datelor ordonate se numesc cvantile sau q-
cvantile unde q este numărul de intervale. Împărţirea cea mai uzuală rămîne cea în patru
grupuri, adică în cvartile (4-cvantilele), dar se mai găsesc prin literatură şi conceptele de
cvintile (împărţirea în 5 intervale de valori), decile (împărţirea în 10 intervale), percentile
(împărţirea în 100 de intervale) şi altele ale căror nume sunt construite analog.

Prezentarea intervalelor ca perechi de valori nu necesită nici un fel de calcule matematice.


Uneori intervalele se raportează însă ca diferenţe ale valorilor extreme, adică ca lungime a
intervalului. Aceasta poate fi puţin problematic în cazul variabilelor ordinale nu ridică
însă desigur nici un fel de probleme pentru variabile intervalice sau raţionale.

Folosind notaţiile de mai sus intervalul datelor (în engleză se foloseşte range) se calculează
astfel:

range = C4 – C0

adică diferenţa dintre cea mai mare şi cea mai mică valoare culeasă. Unele definiţii vorbesc în
acest context despre lungimea celui mai mic interval care conţine toate datele.

Intervalul intercvartilic, notat de multe ori IQR, este:


IQR = C3 – C1

O altă denumire utilizată uneori pentru intervalul intercvartilic este aceea de jumătate mediană
a datelor.

Cu aceste calcule am făcut deja un pas în direcţia indicatorilor distribuirii datelor intervalice şi
raţionale. În cazul acestor date posibilităţile de calcul fiind mult mai mare s-au căutat metode
mai compexe care să permită o descrierea cît mai completă a datelor într-o singură valoare.
Asta înseamnă că şi formulele vor fi puţin mai complicate. Există mulţi astfel de indicatori dar
am decis să mă concentrez numai pe cei ce se folosesc în mod uzual, anume abaterea standard
(numită în analogie cu termenul englezesc şi deviaţie standard) şi dispersia (numită din
acelaşi motiv şi varianţă).

Dispersia se calculează după următoarea formulă:

2 1 2
σ = /N ∑i=1,n (xi - xˉ)

Merită să comentez un pic formula de mai sus. Nucleul, miezul ei este o diferenţă, o abatere,
de aici şi numele indicatorului. Se scade din valoarea xi , adică valoarea variabilei x pentru
individul i media valorilor x, adică xˉ. Adică, pentru început se calculează cu cît se abate
fiecare valoare culeasă de la medie. Este şi normal să procedăm aşa, la urma urmei căutăm o
valoare care să exprime cît de distribuite sunt datele, adică cît de tare se abat ele de la medie.
Dorim însă o singură valoare pentru întreg setul de date. O idee ar fi să adunăm toate aceste
abateri. Ce s-ar întîmpla daca am face aşa. Ei bine, unele abateri sunt pozitive, altele sunt
negative pentru că unele valori sunt sub medie, altele evident peste medie. Dacă am aduna
toate abaterile, valorile pozitive s-ar atenua cu cele negative şi nu am mai afla cît de
distribuite sunt datele cu adevărat. De fapt, e chiar mai grav decît atît. Suma tuturor abaterilor
va fi întotdeuna 0, şi asta din motive pur şi simplu matematice de calcul al mediei aritmetice.

De aceea ridicăm la pătrat diferenţa, abaterea. Astfel se obţine o valoare care este întotdeuna
pozitivă şi abaterile pozitive nu se mai anulează cu abaterile negative. Aşa se ajunge la
formula (xi -x)2. Apoi adunăm toate aceste abateri pentru ca să obţinem o singură valoare care
să spună ceva despre abaterea totală. Aşa ajungem la ∑i=1,n (xi -x)2. Spune oare această sumă
cu adevărat ceva? Ei bine, da şi nu. Da, pentru că este într-adevăr o sumă de abateri. Totuşi
nu, pentru că un număr mare de valori chiar destul de apropiate pot da aceiaşi sumă totală ca
şi un număr mic de valori care sunt mult mai îndepărtate de medie. Deci trebuie să împărţim
acest rezultat la numărul datelor culese, la volumul populaţiei studiate. De aceea împărţim
suma la N.

Rezultă formula pe care am prezentat-o şi anume:

σ2 = 1/N ∑i=1,n (xi -x)2

Unele lucrări de statistică preferă în locul dispersiei rădăcina ei pătrată σ, numită şi abatere
standard sau deviaţie standard. Ideea este că, deoarece abaterea s-a calculat cu ridicare la
pătrat, pentru a obţine un indicator care să exprime mai corect cu cît se abat cu adevărat
valorile de la medie ar trebui extras radical din valoarea rezultată din calcul. Aceasta se mai
numeşte şi abatere medie pătratică, o denumire care exprimă foarte bine modul de calcul.
Într-adevăr în calcule se face o medie, adică o sumă împărţită la numărul de valori adunate, a
abaterii ridicate la pătrat. Avantajul abaterii standard este deci acela că valoarea ei poate fi
foarte bine comparată cu media.

În viaţa reală avem însă problema de a nu putea culege toate datele unei variabile aleatoare, de
aceea şi abaterea standard sau dispersia pe care o calculăm va trebui tratată ca o estimare
bazată pe un eşantion a abaterii reale, adică a celei care există la nivelul întregii populaţii.
Atunci ceea ce vom face pentru a ne asigura că reducem riscul de a greşi, este să
supraestimăm puţin abaterea faţă de valoarea calculată prin formulă. Modul de calcul obişnuit
este înlocuirea valorii N, a volumului populaţiei cu N-1. O altă diferenţă, de astă dată pur
convenţională este notarea. Dacă de regulă dispersia calculată la nivel de populaţie ne notează
cu σ2, dispersia estimată pe baza unui eşantion se notează mai de grabă cu s2. Formula este
deci:

2 1 2
s = /(N-1) ∑i=1,n (xi -x)

Analog se obţine şi abaterea standard estimată pe baza unui eşantion, s.


Am prezentat în acest capitol indicatorii statistici de bază pentru descrierea unei singure
variabile. Există desigur în statistică şi alţi indicatori, cum ar fi de exemplu cei de kurtosis sau
înclinare (în engleză, skewness), indicatori care se pot înţelege ca descriptivi pentru forma
distribuţiei unei variabile, adică chiar pentru felul cum arată graficul variabilei. Aceşti
indicatori sînt însă destul de rar utilizaţi în practica cercetărilor empirice, fie ele sociale sau
chiar din ştiinţele exacte. De asemenea există o serie de indicatori care descriu relaţia dintre
două sau mai multe variabile. La aceştie ne vom referi pe larg în capitolul 6.

Cum s-ar zice am terminat aperitivele, reci şi calde, grafice, frecvenţe simple şi
indicatori descriptivi. Vom trece acum, în capitolul care vine la temelia analizei
statistice, supele şi ciorbele statistice, esenţele, cum s-ar zice, adică testele statistice.

S-ar putea să vă placă și