Sunteți pe pagina 1din 8

1. Statistică descriptivă.

Tabele şi grafice

1.1. Organizarea datelor numerice


Dacă pentru un set de date compus doar din câteva observaţii nu este o problemă observarea
trăsăturilor majore, acest lucru devine tot mai dificil pe măsură ce numărul de observaţii devine mai mare.
De aceea este nevoie de organizarea informaţiilor. Pentru acest lucru sunt folosite două metode: şirul ordonat
şi dispunerea sub formă de „creangă şi frunze”.
Un şir ordonat reprezintă o secvenţă ordonată de informaţii, aranjate de la cea mai mică la cea mai
mare. De exemplu, să presupunem că durata de şedere, în zile, a unor pacienţi într-un centru de
dezalcoolizare este următoarea: 11, 37, 22, 6, 20, 9, 61, 16, 24, 16, 13, 4, 39, 13, 44, 19 şi 7. Şirul ordonat
va fi în acest caz: 4, 6, 7, 9, 11, 13, 13, 16, 18, 19, 20, 22, 24, 37, 39, 44, 61. Un astfel de şir face mai uşoară
observarea extremelor, a valorilor tipice şi a zonelor în care valorile se concentrează.
Dispunerea sub formă de „creangă şi frunze” este o unealtă utilă pentru organizarea unui set de date
şi pentru înţelegerea modului în care valorile sunt distribuite şi grupate. O astfel de dispunere separă în
cifra/cifrele de intrare („creanga”) şi celelalte cifre („frunzele”), fiecare în ordine crescătoare. Dacă ne
referim la exemplul anterior, atunci o distribuţie creangă şi frunze arată aşa:
Creanga Frunzele
0 4, 6, 7, 9
1 1, 3, 3, 6, 8, 9
2 0, 2, 4
3 7, 9
4 4
5
6 1

1.2. Tabele şi grafice pentru date numerice


Distribuţia frecvenţelor
Indiferent de modul în care sunt ordonate datele, fie în şir crescător, fie sub formă de „crengă şi
frunze”, atunci când numărul de cazuri creşte, informaţia trebuie să fie condensată şi mai mult pentru a putea
fi prezentată, analizată şi interpretată în mod corespunzător. Astfel, informaţiile pot fi grupate în categorii ale
căror limite sunt stabilite funcţie de împrăştierea observaţiilor. O astfel de aranjare a datelor sub formă de
tabel se numeşte distribuţia frecvenţelor.
Atunci când observaţiile sunt grupate într-o distribuţie de frecvenţe, procesul de analiză şi
interpretare a datelor devine mai uşor. Principalele caracteristici ale datelor pot fi aproximate, ceea ce
compensează faptul ca prin grupare informaţia iniţială, legată de fiecare observaţie individuală, este pierdută.
Atunci când se construieşte o distribuţie de frecvenţe sunt câteva etape care trebuie parcurse: punerea
datelor în ordine, stabilirea numărului de categorii, de clase, în care sunt grupate datele, stabilirea mărimii
fiecărei clase, stabilirea frontierelor fiecărei categorii şi, în final, punerea fiecărei observaţii în categoria
corespunzătoare.
Alegerea numărului de clase în care se va grupa informaţia depinde în primul rând de numărul de
observaţii. Un număr mai mare de obdervaţii permite un număr mai mare de categorii. În general, o
distribuţie de frecvenţe are între 5 şi 15 clase. Dacă sunt prea puţine clase nu se poate observa nici o
distribuţie iar dacă sunt prea multe clase, unele dintre ele nu vor avea nici o observaţie. Într-o distribuţie de
frecvenţe, lăţimile claselor trebuie să fie egale. Pentru a determina lăţimea unei clase se împarte
amplitudinea variaţiei observaţiilor (din cea mai mare valoare se scade cea mai mică) la numărul dorit de
clase. Frontierele fiecărei categorii categorii trebuie să fie foarte clare, astfel încât să nu rămână date
neacoperite sau suprapuneri.
Exemplu: trebuie construită o distribuţie a frecvenţelor pentru următoarele date obţinute la un test de
cunoştinţe: 16, 2, 16, 29, 15, 7, 25, 16, 5, 19, 1, 12, 22, 10, 29, 20.
1. Punerea datelor în ordine: 1, 2, 5, 7, 10, 12, 15, 16, 16, 16, 19, 20, 22, 25, 29, 29.
2. Stabilirea numărului de categorii: 3
3. Calcularea lăţimii fiecărei categorii: (29-1)/3 =9,333; se poate aproxima la 10.
4. Stabilirea frontierelor fiecărei categorii: 0 – 9; 10 – 19; 20 – 29.
5. Punerea fiecărei observaţii în categoria corespunzătoare:
Categoria Frecvenţa
0–9 4
10 – 19 7
20 – 29 5
Total 16
Principalul avantaj al unui astfel de tabel îl reprezintă faptul că principalele caracteristici ale
informaţiei devin clare foarte uşor: scorurile variază între 0 şi 29, dar cele mai multe sunt în categoria de
mijloc. Pe de altă parte, dezavantajul major al distribuţiei frecvenţelor este că, fără acces la datele originale,
nu se poate cunoaşte distribuţia valorilor în interiorul unei anumite clase.
Distribuţia frecvenţelor relative şi distribuţia procentuală
Pentru a îmbunătăţi analiza, se pot utiliza fie distribuţia frecvenţelor relative, fie distribuţia
procentuală. Distribuţia frecvenţelor relative este formată prin împărţirea frecvenţelor din fiecare clasă la
numărul total de observaţii. Distribuţia procentuală rezultă prin înmulţirea fiecărei frecvenţe relative cu
100.
Frecvenţa Frecvenţa Procentul
Categoria
relativă
0–9 4 0,25 25
10 – 19 7 0,4375 43,75
20 – 29 5 0,3125 31,25
Total 16 1 100
Utilizarea proporţiei sau a procentajului are mai mult sens decât utilizarea doar a frecvenţelor. De
fapt, utilizarea distribuţiei frecvenţelor relative şi a distribuţiei procentuale devine esenţială atunci când se
compară două seturi de date, şi mai ales când numărul observaţiilor din cele două seturi de date diferă.
Histograma
Plecând de la expresia foarte cunoscută în jurnalism că „o imagine face cât 1000 de cuvinte” şi
transferând-o în statistică, ajungem la tehnicile grafice. Acestea sunt deseori utilizate în locul tabelelor,
pentru a avea o descriere mai vie a seturilor de date. Unul dintrte graficele cele mai utilizate este histograma.
O histogramă este un grafic în care pe graniţele fiecărei clase sunt construite dreptunghiuri a căror înălţime
este proporţională cu frecvenţa, frecvenţa relativă sau procentajul.
Atunci când se construieşte o histogramă, variabila de interes se amplasează pe orizontală, iar pe
verticală se notează frecvenţa, proporţia sau procentajul observaţiilor din fiecare clasă.

Histograma

8
7
6
Frecventa

5
4
3
2
1
0
9 19 29
categoria

Poligonul frecvenţelor sau procentajelor


Punctul de mijloc al unei clase reprezintă punctul aflat la jumătatea distanţei dintre frontierele
fiecărei clase şi este reprezentativ pentru datele din acea clasă. Poligonul frecvenţelor sau procentajelor este
format prin unirea tuturor punctelor de mijloc ale claselor analizate. La fel ca şi la histogramă, variabila de
interes este amplastă pe orizontală.

1.3. Tabele şi grafice pentru variabile nominale


Tabelul rezumativ
Un tabel rezumativ pentru variabile nominale este similar, ca formă, cu un tabel pentru date
numerice. Următorul tabel prezintă rezultatele primului tur de scrutin al alegerilor prezidenţiale desfăşurate
pe 28 noiembrie 2004.
Candidatul Numărul de voturi Procentajul
Adrain Năstase 4278864 40,94
Traian Băsescu 3545236 33,92
Corneliu Vadim Tudor 1313714 12,57
Marko Bela 533446 5,10
Restul candidaţilor 780945 7,47

Graficul bară
Pentru a exprima informaţia prezentată într-un tabel ca cel anterior se utilizează graficul bară al
frecvenţelor, al frecvenţelor relative sau al procentajelor. Într-un astfel de grafic, fiecare categorie este
reprezentată de o bară a cărei lungime este proporţională cu frecvenţa sau procentajul observaţiilor din acea
categorie. În general, variabila de interes este amplastă pe axa verticală, iar valorile pe axa orizontală. În
cazul variabilelor nominale nu contează ordinea în care sunt amplasate categoriile. În plus, spre deosebire de
histograme, barele sunt separate între ele, tocmai pentru a sublinia faptul că variabila este nominală
(calitativă) şi nu interval (cantitativă).

Procentajul

Restul candidaţilor 7,47

Marko Bela 5,1

Corneliu Vadim Tudor 12,57 Procentajul

Traian Băsescu 33,92

Adrain Năstase 40,94

0 10 20 30 40 50
Graficul tort
Graficul tort se bazează pe faptul că un cerc are 360 de grade. Acesta este împărţit în felii a căror
mărime este proporţională cu fiecare categorie.

Procentajul

7,47
5,1

Adrain Năstase
12,57
40,94 Traian Băsescu
Corneliu Vadim Tudor
Marko Bela
Restul candidaţilor

33,92

Scopul unui grafic este să prezinte datele cu precizie. Unele cercetări asupra percepţiei umane au
ajuns la concluzia că graficele tort au performanţe mai slabe decât graficele bară. Aceasta deoarece s-a
observat că ochiul uman apreciază mai uşor o lungime în raport cu o scală, ca în cazul graficelor bară, şi mai
greu un unghi, ca în cazul graficelor tort. Astfel, un grafic bară permite o comparare mai uşoară a
categoriilor. Pe de altă parte, graficele tort arată cu claritate faptul că suma tuturor categoriilor este 100%. În
consecinţă, alegerea tipului de grafic este subiectivă şi depinde de scopurile utilizatorului: dacă este mai
importantă comparaţia, atunci este mai bine să se utilizeze un grafic bară; dacă este mai importantă
observarea unei porţiuni în raport cu întregul, atunci este mai bine să se utilizeze un grafic tort.

Exerciţii
1. Formaţi un şir ordonat din următorul eşantion de 10 note la un examen de statistică: 8,8; 7,8; 7,8; 7,3;
9,1; 7,8; 8,5; 6,4; 6,2; 7,5. Construiţi o dispunere „creangă şi frunze”.
2. Formaţi un şir ordonat din următorul eşantion de 10 salarii (în RON) din cadrul unei companii: 755, 490,
648, 832, 710, 590, 576, 627, 915, 839. Construiţi o dispunere „creangă şi frunze”.
3. Următoarele date reprezintă un eşantion de 23 de sume de bani extrase de la un bancomat: 260, 280, 200,
200, 210, 220, 250, 250, 180, 250, 150, 200, 180, 200, 250, 250, 220, 300, 300, 300, 150, 200, 290.
a. Puneţi datele întrt-un şir ordonat.
b. Puneţi datele sub formă „creangă şi frunze”.
c. Care dintre cele două forme de prezentare oferă mai multe informaţii?. Discutaţi.
d. În jurul cărei valori par să se concentreze sumele retrase? Explicaţi.
4. Următoarea distribuţie “creangă şi frunze” reprezintă cantitatea de motorină cumpărată (în litri),
de un eşantion de 25 de camioane de la o staţie de alimentare de la periferia Bucureştiului.
9 1,4,7
10 0,2,2,3,8
11 1,3,5,5,6,6,7,7,7,7
12 2,2,3,4,8,9
13 0,2
a. Puneţi datele întrt-un şir ordonat.
b. Care dintre cele două forme de prezentare oferă mai multe informaţii?. Discutaţi.
c. Care este cantitatea de motorină care are şansele cele mai mari de a fi cumpărată?
d. Există o concentraţie spre mijlocul distribuţiei a cantităţii de motorină cumpărată?
e. Credeţi că eşantionul de 25 este reprezentativ pentru o populaţie mai largă? Discutaţi.
5. Plecând de la aceeaşi distribuţie „creangă şi frunze” de la exerciţiul 3
a. Construiţi distribuţia de frecvenţe şi distribuţia procentajelor
b. Trasaţi histograma procentajelor
c. Trasaţi poligonul procentajelor
6. În anul 2004, numărul de credincioşi ai marilor religii ale lumii era următorul: creştini 2107
milioane, musulmani 1283 milioane, hinduşi 851 de milioane, budişti 375 milioane, iudaici 15
milioane.
a. Construiţi distribuţia frecvenţelor pentru aceste date.
b. Construiţi distribuţia frecvenţelor relative pentru aceste date.
c. Construiţi un grafic bară.
d. Se poate calcula media, mediana sau modul pentru aceste date? Interpretaţi.
7. Cele două şiruri ordonate din tabelul următor prezintă durata de viaţă, în ore, a două eşantioane
de câte 40 de becuri de 100W, eşantioane extrase din producţia a două fabrici.
Fabrica A Fabrica B
684 697 720 773 821 819 836 888 897 903
831 835 848 852 852 907 912 918 942 943
859 860 868 870 876 952 959 962 986 992
893 899 905 909 911 994 1004 1005 1007 1015
922 924 926 926 938 1016 1018 1020 1022 1034
939 943 946 954 971 1038 1072 1077 1077 1082
972 977 984 1005 1014 1096 1100 1113 1113 1116
1016 1041 1052 1080 1093 1153 1154 1174 1188 1230
a. Construiţi distribuţia frecvenţelor pentru cele două fabrici, utilizând clase de 100 de ore lăţime.
b. Construiţi alte distribuţii ale frecvenţelor, utilizând următoarea schemă:
• Fabrica A: de la 650 până la 750, de la 750 inclusiv la 850, şamd
• Fabrica B: de la 750 până la 850, de la 850 inclusiv la 950, şamd
c. Schimbaţi lăţimea intervalelor de la 100 la 50 (650 – 700, 700 – 750, etc). Comentaţi rezultatele
acestei modificări.
d. Construiţi distribuţia procentajelor din distribuţia frecvenţelor de la punctul b.
e. Trasaţi separat histogramele procentajelor.
f. Trasaţi poligoanele procentajelor.
g. Becurile cărei fabrici au o speranţă de viaţă mai lungă? Explicaţi.
8. O variabilă nominală are patru categorii, cu următoarele procentaje:
Categoria Procentajul
A 12
B 29
C 35
D 24
a. Construiţi un grafic bară
b. Construiţi un grafic tort

S-ar putea să vă placă și