Sunteți pe pagina 1din 5

2.

STATISTICI DESCRIPTIVE

Parcurgerea acestei unităţi, va permite studenţilor:


 să utilizeze tehnicile numerice de analiză globală a variabilelor statistice (analiza de
frecvenţe);
 să utilizeze tehnicile grafice de analiză a variabilelor statistice (histograma, graficul de tip
bară, graficul circular, reprezentarea stem-and-leaf);
 să calculeze indicatorii tendinţei centrale (modul, mediana, media)
 să calculeze indicatorii împrăştierii (amplitudinea, abaterea quartilă, abaterea medie, abaterea
standard, coeficientul de variaţie);
 să utilizeze indicatorii formei distribuţiei (simetrie şi boltire):
 să analizeze valorile extreme ale distribuţiilor statistice.

Statistica descriptivă are drept obiective organizarea, sintetizarea şi descrierea datelor.


Rezultatul măsurării se traduce în obţinerea unei colecţii de date. Să presupunem că am aplicat un
examen unui grup de 25 de studenţi şi am obţinut următoarea distribuţie de valori pentru variabila
„răspunsuri corecte”:
8, 6, 10, 9, 6, 6, 8, 7, 4, 9, 6, 2, 8, 6, 10, 4, 5, 6, 8, 4, 7, 8, 4, 7, 6
Datele de mai sus reprezintă valorile variabilei statistice „răspunsuri corecte” (denumite şi
„serie statistică” sau „distribuţie statistică”), care este compusă din 25 de „valori” sau „scoruri”.
Fiind rezultatul primar al măsurării, aceste valori se mai numesc şi valori „primare” sau „brute”.
Valorile acestei variabile sunt exprimate pe o scală cantitativă de tip raport.
Privite sub forma în care se prezintă mai sus, datele respective ne spun puţine lucruri. Iar
dacă ar fi şi mai multe, de ordinul sutelor sau miilor, atunci ar fi practic imposibil de făcut vreo
apreciere, în această formă de prezentare . De aceea, pentru a ne face o imagine mai coerentă asupra
unei serii de valori, acestea trebuie supuse unor operaţii care să scoată în evidenţă caracteristicile
distribuţiei.
Definiţie: Tehnicile şi procedurile destinate organizării şi prezentării sumative a datelor,
constituie ceea ce se numeşte statistica descriptivă.
Principalele componente ale statisticii descriptive sunt:
 Tehnici de organizare şi prezentare a datelor, care pot fi, la rândul lor:
 numerice (distribuţia de frecvenţe simple sau grupate);
 grafice (histograme; grafice de tip bară, linie, circular, histograma stem-and-
leaf).
 Indicatori numerici sumativi, care sunt la rândul lor de trei tipuri:
 indicatori ai tendinţei centrale (mod, medie, mediană);
 indicatori ai împrăştierii (amplitudine, abatere quartilă, abatere standard);
 indicatori ai formei distribuţiei (simetrie şi boltire).
Dincolo de scopul în sine al acestor proceduri, acela de a oferi o imagine sintetică asupra
datelor analizate, trebuie să înţelegem statistica descriptivă şi ca pe o etapă pregătitoare în
fundamentarea procedurilor statisticii inferenţiale (destinată verificării ipotezelor statistice) despre
care vom vorbi mai târziu.

11
2.1.Statistici descriptive globale
Tehnicile descriptive de tip global se referă la prezentarea şi analiza tuturor valorilor unei
distribuţii statistice. Aceste tehnici sunt, la rândul lor de două feluri: numerice (analiza de
frecvenţe) şi grafice.

2.1.1. Analiza de frecvenţe

2.1.1.1. Analiza de frecvenţe simple


Dacă ne întoarcem la seria de valori de mai sus, cel mai simplu lucru pe care putem să îl
facem, şi care ne poate da o anumită imagine asupra ei, este sortarea, punerea valorilor în ordine
crescătoare sau descrescătoare:
10, 10, 9, 9, 8, 8, 8, 8, 8, 7, 7, 7, 6, 6, 6, 6, 6, 6, 6, 5, 4, 4, 4, 4, 2
Privind datele aranjate ca mai sus putem observa cu uşurinţă câteva lucruri: valoarea cea mai
mare şi valoarea cea mai mică, valorile care se repetă. Dar, chiar şi acest mod de prezentare, nu ne-ar
fi de mare ajutor dacă valorile ar fi într-un număr mare. Pentru a elimina acest neajuns se foloseşte
tabelul frecvenţelor simple.
Frecvenţe simple

Valoare fa

10 2
9 2
8 5
7 3
6 7
5 1
4 4
3 0
2 1
Total

Dacă luăm în considerare seria de valori de mai sus, un tabel al frecvenţelor simple (absolute)
este compus din lista valorilor distincte, ordonate descrescător, la care se adaugă frecvenţa absolută
(fa) a fiecărei valori (de câte ori se întâlneşte în cadrul seriei). Se observă că astfel datele au un
caracter mai ordonat, iar coloana frecvenţelor absolute scoate în evidenţă anumite aspecte cum ar fi,
de exemplu, faptul că cea mai frecventă valoare este 6 (apare de 7 ori). Observăm că seria de valori
din tabel include toate valorile posibile între valoarea cea mai mare (10) şi cea mai mică (2),
incluzând şi valorile care nu se întâlnesc în mod real în cadrul seriei. În cazul nostru avem valoarea 3,
cu frecvenţa de apariţie 0. Suma frecvenţelor absolute (Σfa) indică totalul valorilor din cadrul seriei
(25). În practică, pe lângă frecvenţele absolute se iau în considerare şi alte tipuri de frecvenţe (vezi
tabelul 2):
 Frecvenţa cumulată (fc). Totalul valorilor care se cumulează începând de la valoarea cea
mai mare până la valoarea cea mai mică din tabel. De exemplu, în tabelul sintetic de mai jos,
avem 6 valori mai mici sau egale cu 5, 21 de valori mai mici sau egale cu 8 şi, evident, 25 de
valori mai mici sau egale cu 10.
 Frecvenţa relativă raportată la unitate fr(1). Este raportul dintre frecvenţa absolută şi
suma frecvenţelor absolute (fa/Σfa).
Exemple:
 pentru valoarea 10: fa/Σfa=2/25=0.08;
 pentru valoarea 6: fa/Σfa=7/25=0.13; ş.a.m.d.
 Frecvenţa relativă cumulată, raportată la unitate frc(1): Este similară frecvenţei cumulate
absolute, cu deosebirea că în acest caz se cumulează frecvenţele relative.
12
Exemple:
 Dacă privim întreaga serie ca întreg (egală cu 1 sau „unitate” ), atunci toate
valorile mai mici sau egale cu 5 au o frecvenţă cumulată egală cu 0.24
(adică, fr(1)=0.04+0+0.16+0.04=0.24)
 Pentru valoarea 7, frecvenţa relativă cumulată raportată la unitate este:
frc(1)=0.04+0+0.16+0.04+0.28+0.12=0.64
 Frecvenţa relativă cumulată pentru valoarea cea mai mare din serie este
întotdeauna 1.00 (corespunzătoare în cazul nostru valorii 10).
 Frecvenţa relativă procentuală fr(%): Exprimă procentul valorilor care se situează până la
o anumită valoare din cadrul distribuţiei. Se calculează fie prin înmulţirea fr(1) cu 100, fie
prin calcularea directă procentului pe care îl reprezintă o anumită valoare raportat la totalul
valorilor dintr-o distribuţie. Suma frecvenţelor relative procentuale este întotdeauna egală cu
100.
Exemple (tabelul 2):
 8% dintre studenţii evaluaţi au realizat 10 răspunsuri corecte
 28% dintre studenţii evaluaţi au realizat 6 răspunsuri corecte
 Frecvenţa relativă cumulată procentuală (frc%): Exprimă procentul valorilor dintr-o
distribuţie care se plasează până la o anumită valoare (inclusiv aceasta).
Exemple:
 52% dintre studenţi au obţinut o notă egală sau mai mică de 6
 92% au obţinut cel puţin nota 9
 Desigur, pentru valoarea maximă a unei distribuţii, frecvenţa cumulată
procentuală este întotdeauna 100%.
 Frecvenţa relativă procentuală cumulată se numeşte rang percentil. Astfel, despre
valoarea 6 din distribuţia de mai sus se poate spune că are rangul percentil 52, adică,
52% dintre valorile unei distribuţii sunt între cea mai mică valoare şi valoarea 6,
inclusiv.
 Prin convenţie, rangul percentil se defineşte ca procentajul datelor valorilor dintr-o
distribuţie care se află până la o anumită valoare inclusiv.
 În mod complementar, numim percentilă, valoarea dintr-o distribuţie care corespunde
unui anumit rang percentil. În exemplul de mai sus, rangului percentil 52 îi
corespunde valoarea 6, numită, de aceea, percentila 52.
 În practică, există anumite percentile care au o importanţă aparte. Acestea sunt
percentilele corespunzătoare rangurilor percentile cu valorile 10, 20, 30,..., 100.
Despre semnificaţia lor vom vorbi mai târziu în acest curs. De asemenea, se utilizează
termenul de quartile pentru percentilele care împart distribuţia în patru zone egale ca
număr de valori. Acestea sunt corespunzătoare rangurilor percentile de 25, 50 şi 75.
Cu alte cuvinte, valoarea dintr-o distribuţie până la care se află 25% din valori este
percentila 25, valoarea până la care se află 50% este percentila 50, iar valoarea până la
care se află 75% din valori este percentila 75.

Tabelul 2. Tabloul sintetic al frecvenţelor simple


Valoare fa fc fr (1) frc (1) fr (%) frc (%)

10 2 25 0,08 1,00 8% 100%


9 2 23 0,08 0,92 8% 92%
8 5 21 0,20 0,84 20% 84%
7 3 16 0,12 0,64 12% 64%
6 7 13 0,28 0,52 28% 52%
5 1 6 0,04 0,24 4% 24%
4 4 5 0,16 0,20 16% 20%
3 0 1 0 0,04 0% 4%
2 1 1 0,04 0,04 4% 4%
Total Σfa=25 Σfr=1 Σfr%=100

13
2.1.1.2. Analiza de frecvenţe grupate
Aranjarea unei distribuţii sub forma tabelului de frecvenţe simple este foarte utilă dar nu este
practică atunci când avem o distribuţie, cu un număr mare sau foarte mare de valori, care ar genera
un tabel cu prea multe linii pentru a fi inteligibil.
Să presupunem că valorile de mai jos reprezintă distribuţia variabilei „inteligenţă” măsurată
prin aplicarea unui test la un număr de 50 de subiecţi.
101 94 87 117 115 116 91 113 96 105
92 107 118 114 98 112 101 114 107 109
97 109 124 102 118 113 116 106 108 89
106 108 115 92 97 102 108 102 109 114
107 104 110 101 101 121 125 86 109 123
Datele din tabel sunt aranjate la întâmplare, analiza lor fiind dificilă. Presupunând că le-am
ordona şi am face tabelul frecvenţelor simple, am obţine un uşor progres, dar încă ar fi greu de
analizat deoarece vom obţine un tabel cu prea multe valori distincte.
Pentru a ne face o imagine sintetică a distribuţiei, ne propunem să realizăm un număr de
categorii (clase) cuprinse între anumite intervale de performanţă la test, urmând să stabilim apoi care
este frecvenţa de apariţie fiecărei clase în distribuţia noastră. Această tehnică de organizare a datelor
se numeşte „frecvenţa grupată”.
Pentru a realiza un tabel de frecvenţe grupate se procedează astfel:
1. Alegem numărul de intervale (clase, categorii), recomandabil, între 5 şi 15
(valori stabilite convenţional şi orientativ)
2. Definim mărimea intervalului de clasă, respectând următoarele reguli:
 toate intervalele trebuie să fie egale
 limitele intervalelor trebuie să cuprindă toate valorile (între limitele intervalelor
alăturate să nu existe „goluri” sau suprapuneri)

Pentru distribuţia de mai sus, paşii de realizare a analizei de frecvenţe grupate se


concretizează astfel:
 Se face diferenţa dintre valoarea cea mai mare şi valoarea cea mai mică: 125 – 86 = 39
 Se împarte valoarea obţinută la mărimea posibilă a intervalului de clasă (2, 3, 5 sau 10)
pentru a realiza numărul de clase al noii distribuţii:
39/2 = ~20 clase (prea multe)
39/3 = 13 clase (variantă posibilă)
39/5 = ~ 8 clase (variantă acceptabilă)
 Se selectează mărimea intervalului care conduce la un număr de clase cuprins între 5 şi 15.
Vom alege 5, pentru că produce o distribuţie cu 8 clase care este mai uşor de analizat
şi manipulat
 Se determină limita inferioară a primului interval (trebuie să fie un multiplu al mărimii
intervalului).
Alegem valoarea 85 ca limită inferioară
 Se determină limita superioară a primului interval.
Dacă mărimea intervalului este 5, limita superioară va fi 89 (85,86,87,88,89).
 Se construiesc intervalele de clasă pentru fiecare interval (vezi coloana „clase” din tabelul 3
 Se aplică analiza de frecvenţe ca în cazul frecvenţelor simple, aplicată la clase.

În fine, alegerea dimensiunii intervalului trebuie să ţină seama şi de caracteristicile


distribuţiei simple (discutată anterior). Intervalele trebuie astfel alese încât să se evite situaţia de a
avea clase care cuprind un număr excesiv de valori în timp ce altele sunt puţin reprezentate sau nu
conţin nici o valoare.
În exemplul dat, deşi valoarea maximă a variabilei este 125, intervalul maxim este 125-129,
deoarece intervalele declarate trebuie să fie egale. Ca urmare, tabelul frecvenţelor grupate va arăta
astfel:
14
Tabelul 3. Tabelul de frecvenţe grupate
Clase fa fr% frc%
125 – 129 1 2% 100%
120 – 124 3 6% 98%
115 – 119 7 14% 92%
110 – 114 7 14% 78%
105 – 109 13 26% 64%
100 – 104 8 16% 38%
95 – 99 4 8% 22%
90 – 94 4 8% 14%
85 – 89 3 6% 6%
Σfa=50 Σfr%=100

Este de la sine înţeles că clasele de intervale (grupele) vor putea fi analizate într-o manieră
similară frecvenţelor simple, utilizând valorile absolute (fa) sau valorile relative raportate la unitate
sau procentuale (fr(1), fr%). Analizând tabelul de mai sus, putem observa că cei mai mulţi subiecţi
au obţinut un scor la testul de inteligenţă cuprins între 105 şi 109 (fa=13), aceştia reprezentând 26%
din totalul subiecţilor evaluaţi. În fine, din coloana frecvenţelor relative procentuale cumulate putem
deduce că 64% dintre subiecţi obţin o performanţă de maxim 109 sau mai mică (sau, dacă dorim, 36
% dintre subiecţi obţin o performanţă de minim 105) etc.

Exerciţiul 1: Alegeţi varianta de răspuns aleasă sau scrieţi răspunsul în text, apoi verificaţi
răspunsurile corecte
1. Percentila 25 este acea valoare a unei distribuţii care:
a. are 75% din valori mai mari decât ea
b. se întâlneşte la 25% dintre subiecţi
c. împarte distribuţia în 25 de părţi egale
d. nici una din variantele de mai sus
2. Percentila 50 este o valoare identică cu:
a. quartila 3; b. quartila 1; c. mediana; d. abaterea standard
3. Ce procent de valori este reprezentat în caseta reprezentării box-plot:
a. 50%; b. 25%; c. 30%; d. 75%
4. Ce reprezintă frecvenţa relativă raportată la unitate?
5. Ce înseamnă faptul că pe coloana frecvenţei relative procentuale din dreptul unui anumite
valori este scris 7%?
6. Cum se stabileşte limita inferioară a primei clase, în cazul unei distribuţii de frecvenţe
grupate?
7. Care este numărul recomandabil de clase într-o distribuţie de frecvenţe grupate?
8. Cum se numesc valorile de pe coloana frecvenţelor relative procentuale cumulate?
9. Cum se numeşte valoarea variabilei care corespunde unui anumit rang percentil?

2.1.2. Reprezentarea grafică a datelor


Reprezentările graficele sunt forme intuitive de prezentare a distribuţiilor de frecvenţe („o
imagine face mai mult decât o mie de cuvinte”). Ele sunt foarte frecvent utilizate pentru analiza şi
prezentarea datelor deoarece facilitează înţelegerea semnificaţiei datelor numerice. În prezent,
programele computerizate oferă mijloace extrem de puternice şi de sofisticate pentru elaborarea
reprezentărilor grafice. Dar simpla utilizare a unui astfel de program nu garantează realizarea unui
grafic eficient. În esenţă, un grafic eficient este o combinaţie reuşită între formă şi conţinutul statistic
pe care îl reflectă. Realizarea acestei combinaţii depinde de respectarea câtorva principii esenţiale:
 focalizarea pe conţinutul şi nu pe forma graficului
 este esenţial să fie evitate distorsiunile induse de forma graficului

15

S-ar putea să vă placă și