Documente Academic
Documente Profesional
Documente Cultură
CURS 2
2.1. INTRODUCERE
Statistica reprezintă un corp de metode utilizate pentru a colecta, descrie și analiza date
numerice din observații sau investigații științifice și se bazează pe aplicarea metodelor
statistice.
Statistica poate fi folositoare în luarea deciziilor, în acceptarea sau respingerea unor soluții
posibile, aducând un plus de rigoare științifică.
Obiectul de studiu al statisticii îl constituie fenomenele și procesele care prezintă următoarele
particularități: se produc într-un număr mare de cazuri (sunt fenomene de masă); variază de la
un element la altul, de la un caz la altul; sunt forme individuale de manifestare în timp, în
spațiu și ca formă organizatorică.
Metodele statistice sunt formate din tehnicile utilizate în descrierea sub aspect cantitativ a
caracteristicilor unei ”colectivități sau populații statistice”.
Populația statistică, denumită și colectivitate statistică, reprezintă totalitatea elementelor de
aceeași natură, care au trăsături esențiale comune și care sunt supuse unui studiu statistic.
Eșantionul reprezintă un subset de elemente selectate dintr-o colectivitate statistică.
Statistica se împarte în două categorii majore:
A. Statistica descriptivă: este constituită din totalitatea metodelor utilizate în descrierea
caracteristicilor unei ”populații”.
B. Statistica inferențială: este reprezentată de totalitatea metodelor statistice utilizate pentru
extinderea/generalizarea observațiilor emise pe baza unui ”eșantion” asupra întregii populații.
Deopotrivă, statistica descriptivă, cât și cea inferențială, utilizează indicatori statistici
reprezentativi care caracterizează tendința datelor statistice de a se grupa în jurul valorii
centrale, medii sau mijlocii (indicatorii tendinței centrale) și de a identifica tendințele datelor
aflate la periferia distribuției statistice (indicatorii tendinței dispersionale). Scopul major al
statisticii inferențiale este de atrage concluzii asupra parametrilor colectivității generale,
folosind estimatorii calculați pentru eșantion.
Exemplu: Managerul unei firme este interesat în cunoașterea percepției angajaților asupra condițiilor de muncă.
Colectivitatea sau populația statistică, în acest caz, poate fi alcătuită din totalitatea angajaților firmei, în timp ce
eșantionul este alcătuit din acei angajați care sunt selectați să participe la anchetă. Scopul anchetei este de a
descrie diverse caracteristici ale colectivității generale de angajați (parametrii: venitul mediu etc.). Acest scop
poate fi atins folosind indicatorii statistici (estimatorii) obținuți pe baza eșantionului de angajați, pentru a estima
diferitele caracteristici ale angajaților.
1
Teoria probabilităților și statistică matematică/ Statistică economică
Deoarece aceeași valoare se poate întâlni ca rezultat al mai multor încercări este necesară
scrierea datelor în ordine crescătoare. În tabelul 2 s-a făcut această operație pentru datele
prezentate în tabelul 1.
Tabelul 2
Rezistența la rupere Nr. șarje Rezistența la rupere Nr. șarje
28,0 1 40,5 3
30,0 1 41,0 5
31,0 1 41,5 2
32,0 2 42,0 2
33,0 2 42,5 4
33,5 6 43,0 4
34,0 1 43,5 3
34,5 5 44,0 1
35,0 4 44,5 2
35,5 6 45,0 3
36,0 5 46,0 3
36,5 8 46,5 1
37,0 6 47,0 1
37,5 12 48,0 1
38,0 5 48,5 1
38,5 6 49,0 1
39,0 10 50,0 1
39,5 4 51,0 1
40,0 4 52,0 1
54,5 1
2
Teoria probabilităților și statistică matematică/ Statistică economică
3
Teoria probabilităților și statistică matematică/ Statistică economică
Tabelul 3
Mărimea intervalelor trebuie astfel stabilită încât domeniul de variație a observațiilor să fie
împărțit în aproximativ 10 intervale. Numărul intervalelor însă poate varia de la caz la caz în
funcție de condițiile concrete în care se desfășoară cercetarea, dar nu trebuie să fie mai mic de
5 și mai mare de 20. Mărimea intervalului trebuie să aibă în vedere numărul observațiilor.
Când numărul observațiilor este mai mic, caracterul distribuției nu poate fi scos în evidentă
decât dacă avem un număr mai mic de intervale, respectiv mărimea acestora este mai mare.
Cu cât numărul intervalelor este mai mare, respectiv mărimea acestora este mai mică, ies în
evidență oscilațiile întâmplătoare, iar cu cât mărimea intervalelor este mai mare, oscilațiile
întâmplătoare se anihilează și sunt puse în evidență trăsăturile fundamentale ale distribuției.
Numărul intervalelor se poate calcula cu una din următoarele relații:
1. Relația lui H. A. Sturges pentru n > 30 (nu se aplică în cazul distribuțiilor non-normale):
m = 2 n1/3 (2.2)
3. Relația lui H. B. Mann și A. Wald pentru n > 100:
1
1 5
m = 4 (n − 1 ) . (2.3)
4
4. Prin adoptarea numărului întreg dat de relația:
m= n . (2.4)
4
Teoria probabilităților și statistică matematică/ Statistică economică
S-a constatat că pentru n < 250 este suficientă gruparea în zece clase. Dacă u și v sunt limitele
intervalului de grupare intervalul se consideră întotdeauna semi-închis, fie (u,v], fie [u,v).
Mărimea intervalului se calculează astfel:
xmax − xmin
h= . (2.5)
m
Exemplul 2. Se scrie distribuția rezistenței la rupere a celor 130 de șarje. În tabelul 4 sunt date
frecvențele absolute, frecvențele absolute cumulate, frecvențele relative, și frecvențele relative
54,5 − 28
cumulate, m = 130 11 → 10 , h = = 2,65 → 3 kg / mm2 .
10
Tabelul 4
Rezistența la Centrul Frecv. abs. Frecv. abs. Frecv. rel. Frecv. rel.
rupere intervalelor cum. cum.
[27-30) 28,50 1 1 0,008 0,008
[30-33) 31,50 4 5 0,031 0,038
[33-36) 34,50 24 29 0,185 0,223
[36-39) 37,50 42 71 0,323 0,546
[39-42) 40,50 28 99 0,215 0,762
[42-45) 43,50 16 115 0,123 0,885
[45-48) 46,50 8 123 0,062 0,946
[48-51) 49,50 4 127 0,031 0,977
[51-54) 52,50 2 129 0,015 0,992
[54-57] 55,50 1 130 0,008 1,000
130 1,000
5
Teoria probabilităților și statistică matematică/ Statistică economică
respectiv absolute. Figura 3 prezintă poligonul frecvențelor relative constituit pe baza datelor
din tabelul 4. Proiecțiile extremităților segmentelor trebuie să coincidă cu centrul intervalelor.
Fig.2 Fig.3
Exemplul 4. Figura 4 prezintă poligonul
frecvențelor relative cumulate construit pe
baza datelor din tabelul 4.
Fig.4
6
Teoria probabilităților și statistică matematică/ Statistică economică
unde: Lim_inf_int = limita inferioară a intervalului care are cele mai multe valori;
1 = diferența dintre frecvența absolută corespunzătoare intervalului care are cele mai
multe valori și cea a intervalului anterior (atunci când seria este crescătoare);
2 = diferența dintre frecvența absolută corespunzătoare intervalului care are cele mai
multe valori și cea a intervalului următor;
h = mărimea intervalului de clasă.
Pentru datele din tabelul 1 grupate în tabelul 4 valoarea modulului este:
1
Mo = Lim_inf_int+ h =
1 + 2
(2.7)
42 − 24 18
= 36 + 3 = 36 + 3 = 36 + 1,68 = 37,68
( 42 − 24 ) + ( 42 − 28 ) 18 + 14
Mediana
Mediana este valoarea care împarte seria statistică ordonată (crescător sau descrescător) în
doua subserii de volume egale, volumele fiind măsurate în număr de unități statistice.
Dacă seria are un număr impar de valori, n = 2∙p + 1, atunci mediana este valoare de rang p + 1,
adică este valoarea care ocupă poziția centrală. Dacă seria are un număr par de valori, n = 2∙p,
atunci mediana este media aritmetică a valorilor de rang p și p + 1.
Pentru datele din tabelul 1 ordonate crescător în tabelul 2, fiind un număr par de valori
(130 = 2∙65), înseamnă că mediana va fi egală cu media aritmetică a valorilor de rang 65 (= 38)
și 66 (= 38,5):
38 + 38,5
Me = = 38,25 . (2.8)
2
Când valorile sunt grupate în intervale, există două metode pentru stabilirea medianei:
A. Mediana se consideră centrul intervalului care cuprinde valoarea de rang p + 1 dacă n este
impar, sau media valorilor centrelor intervalelor care cuprind valorile de rang p și p + 1 dacă n
este par. Pentru datele din tabelul 1 grupate în tabelul 4 valoarea medianei, deoarece valorile
corespunzătoare rangurilor 65 și 66 aparțin aceluiași interval [36,39) este:
37,5 + 37,5
Me = = 37,5 . (2.9)
2
7
Teoria probabilităților și statistică matematică/ Statistică economică
unde: Lim_inf_int = limita inferioară a intervalului real care conține elementul median;
CotaMe = cota calculată pentru elementul median;
fc = frecvența absolută cumulată a clasei anterioare celei care cuprinde
elementul median;
fi = frecvența absolută corespunzătoare clasei care cuprinde elementul median;
h = mărimea intervalului de clasă.
Pentru datele din tabelul 1 grupate în tabelul 4 valoarea medianei se calculează astfel:
N 130
CotaMe = = = 65 , (2.13)
2 2
CotaMe − fc 65 − 29
Me = Lim_inf_int + h = 36 + 3 = 36 + 2,57 = 38,57. (2.14)
fi 42
Quantile
Dacă examinăm definiția medianei, observăm că aceasta reprezintă valoarea variabilei căreia îi
corespunde frecvența absolută cumulată egală cu jumătate din numărul total al observațiilor
(valorilor), adică mediana este valoarea care împarte volumul colectivității în două părți egale.
Noțiunea de mediană poate fi extinsă. Astfel putem considera valorile variabilei care împart
volumul colectivității în patru părți egale. Există în acest caz trei valori care poartă numele de
quartile Q1, Q2, Q3 ale căror numere de ordine sunt:
n n n 2 n n n 3
, + = n, + + = n
4 4 4 4 4 4 4 4
8
Teoria probabilităților și statistică matematică/ Statistică economică
Fig.5
În general, valorile variabilei care împart volumul colectivității se numesc quantile.
Revenind la definiția medianei observăm că numărul valorilor mai mici sau cel mult egale cu
n
mediana este egal cu jumătatea volumului colectivității, adică . Rezultă atunci că frecvența
2
1
relativă cumulată corespunzătoare medianei este egală cu , sau că mediana este valoarea
2
1
căreia îi corespunde o frecvență relativă cumulată egală cu .
2
Generalizând această observație, quantilul se poate defini ca fiind valoarea variabilei căreia îi
corespunde o frecvență relativă cumulată dată. Astfel quantilul de 0,10 reprezintă valoarea
variabilei căreia îi corespunde o frecvență relativă cumulată egală cu 0,10.
Dacă frecvența relativă cumulată se exprimă în procente, atunci quantilul de 10% este acea
valoare a variabilei care nu este depășită de 10% din totalitatea valorilor.
Determinarea quantilelor se poate face cu ușurință pe cale grafică. Pentru aceasta se
construiește poligonul frecvențelor relative cumulate, iar quantilul corespunzător este abscisa
punctului a cărui ordonată este egală cu frecvența dată.
Fig.6
9
Teoria probabilităților și statistică matematică/ Statistică economică
Media aritmetică
Media aritmetică se definește ca suma valorilor variabilei empirice împărțită la numărul lor.
x ,x ,...,x i ,..., xk
Dacă 1 2 este distribuția empirică a caracteristicii X, atunci media aritmetică
n1 ,n2 ,...,ni ,..., nk
este:
n k k
xi xi ni x n i i k
x= i=1
= i=1
k
= i=1
= x i fi . (2.15)
n n
n i=1
i
i=1
Când valorile variabilei sunt grupate în intervale, xi reprezintă centrul fiecărui interval, iar ni
reprezintă frecvența absolută a fiecărui interval.
Pentru datele din tabelul 1 grupate în tabelul 2 valoarea mediei aritmetice este 39,008.
Pentru datele din tabelul 1 grupate în tabelul 4 valoarea mediei aritmetice este 39,369
(x − x ) (x − x )
2 2
i ni i ni k
= ( x i − x ) fi
2
=
2 i=1
k
= i=1
(2.16)
n
ni=1
i
i=1
( xi − x ) ni (x − x )
2 2
i ni
s =
2 i=1
= i=1
. (2.17)
k
n−1
n − 1
i=1
i
Când valorile variabilei sunt grupate în intervale, xi reprezintă centrul fiecărui interval, iar ni
reprezintă frecvența absolută a fiecărui interval.
10
Teoria probabilităților și statistică matematică/ Statistică economică
(x − x ) (x − x )
2 2
i ni i ni k
(x − x )
2
= i=1
k
= i=1
= i fi . (2.18)
n
n i=1
i
i=1
(x − x ) (x − x )
2 2
i ni i ni
s= i=1
= i =1
. (2.19)
k
n−1
n − 1
i=1
i
Coeficientul de variație
Prin definiție se numește coeficient de variație, raportul dintre abaterea medie pătratică de
selecție și media aritmetică, adică:
s
CV = . (2.21)
x
Prezintă mai intuitiv decât abaterea standard gradul de împrăștiere a rezultatelor în jurul
mediei deoarece este o expresie procentuală a împărțirii abaterii standard la medie. Cu cât
valoarea lui CV este mai aproape de zero cu atât variația este mai slabă, colectivitatea este mai
omogenă, media având un grad ridicat de reprezentativitate. Cu cât valoarea lui CV este mai
mare cu atât variația este mai intensă, colectivitatea este mai eterogenă, iar media are un nivel
de semnificație scăzut. Se poate afirma că acest indicator poate fi folosit ca un test în aplicarea
metodei grupării.
11
Teoria probabilităților și statistică matematică/ Statistică economică
Concluzie:
Un coeficient de variație mai mic de 0,15 indică un grad de împrăștiere redus, media
fiind un bun indicator al tendinței centrale;
Un coeficient de variație cuprins între 0,15 și 0,40 arată o împrăștiere moderată, caz în
care reprezentativitatea mediei este satisfăcătoare;
Un coeficient de variație de peste 0,40 arată o împrăștiere mare, media nemaifiind un
bun indicator pentru tendința centrală, datele trebuind a fi separate în serii de
componente, pe grupe, în funcție de variația unei alte caracteristici de grupare.
Observație: dacă media aritmetică este apropiată de zero, coeficientul de variație nu are
semnificație !!!
BIBLIOGRAFIE
12