Sunteți pe pagina 1din 12

Teoria probabilităților și statistică matematică/ Statistică economică

CURS 2

2. STATISTICĂ MATEMATICĂ. DISTRIBUȚII DE PROBABILITATE

2.1. INTRODUCERE

Statistica reprezintă un corp de metode utilizate pentru a colecta, descrie și analiza date
numerice din observații sau investigații științifice și se bazează pe aplicarea metodelor
statistice.
Statistica poate fi folositoare în luarea deciziilor, în acceptarea sau respingerea unor soluții
posibile, aducând un plus de rigoare științifică.
Obiectul de studiu al statisticii îl constituie fenomenele și procesele care prezintă următoarele
particularități: se produc într-un număr mare de cazuri (sunt fenomene de masă); variază de la
un element la altul, de la un caz la altul; sunt forme individuale de manifestare în timp, în
spațiu și ca formă organizatorică.
Metodele statistice sunt formate din tehnicile utilizate în descrierea sub aspect cantitativ a
caracteristicilor unei ”colectivități sau populații statistice”.
Populația statistică, denumită și colectivitate statistică, reprezintă totalitatea elementelor de
aceeași natură, care au trăsături esențiale comune și care sunt supuse unui studiu statistic.
Eșantionul reprezintă un subset de elemente selectate dintr-o colectivitate statistică.
Statistica se împarte în două categorii majore:
A. Statistica descriptivă: este constituită din totalitatea metodelor utilizate în descrierea
caracteristicilor unei ”populații”.
B. Statistica inferențială: este reprezentată de totalitatea metodelor statistice utilizate pentru
extinderea/generalizarea observațiilor emise pe baza unui ”eșantion” asupra întregii populații.
Deopotrivă, statistica descriptivă, cât și cea inferențială, utilizează indicatori statistici
reprezentativi care caracterizează tendința datelor statistice de a se grupa în jurul valorii
centrale, medii sau mijlocii (indicatorii tendinței centrale) și de a identifica tendințele datelor
aflate la periferia distribuției statistice (indicatorii tendinței dispersionale). Scopul major al
statisticii inferențiale este de atrage concluzii asupra parametrilor colectivității generale,
folosind estimatorii calculați pentru eșantion.
Exemplu: Managerul unei firme este interesat în cunoașterea percepției angajaților asupra condițiilor de muncă.
Colectivitatea sau populația statistică, în acest caz, poate fi alcătuită din totalitatea angajaților firmei, în timp ce
eșantionul este alcătuit din acei angajați care sunt selectați să participe la anchetă. Scopul anchetei este de a
descrie diverse caracteristici ale colectivității generale de angajați (parametrii: venitul mediu etc.). Acest scop
poate fi atins folosind indicatorii statistici (estimatorii) obținuți pe baza eșantionului de angajați, pentru a estima
diferitele caracteristici ale angajaților.

1
Teoria probabilităților și statistică matematică/ Statistică economică

2.2. DISTRIBUȚIA EMPIRICĂ

2.2.1. Fișa de observație, diagrame prin puncte și gruparea observațiilor


Rezultatele observărilor, încercărilor, determinărilor, se înregistrează, pe măsura obținerii, lor în
fișa de observare. Aceste date constituie ceea ce numim date inițiale.
Exemplul 1. În tabelul 1 sunt prezentate rezultatele observării rezistenței Ia rupere a 130 de
șarje de fontă maleabilă neagră.
Tabelul 1
2
Rezistența la rupere a 130 de șarje fontă maleabilă neagră (kgf/mm )
35,5 40,0 30,0 36,0 35,0 35,5 37,5 46,0 35,5
42,5 28,0 41,0 43,5 46,0 38,0 45,0 33,5 41,0
37,5 42,0 37,5 33,0 37,5 39,5 32,0 41,0 37,0
34,5 38,5 40,5 38,5 54,5 34,0 39,0 37,5 35,5
45,0 34,5 35,5 41,0 31,0 38,0 40,5 43,5 39,0
37,0 42,5 38,0 33,5 40,0 39,0 34,5 33,0 38,0
40,0 36,5 39,0 38,0 35,0 36,5 41,5 43,0 36,0
35,0 41,0 37,0 41,5 37,5 40,5 37,0 37,5 38,5
43,0 39,0 39,5 36,5 39,5 44,0 38,5 36,0 39,5
36,5 33,5 32,0 39,0 36,0 33,5 42,0 38,5 37,0
46,0 39,0 37,5 37,5 47,0 51,0 33,5 42,5
37,5 44,5 48,5 34,5 37,5 37,0 39,0 35,5
48,0 36,5 40,0 38,5 33,5 52,0 42,5 43,5
34,5 43,0 35,0 50,0 45,0 36,0 36,5 39,0
46,5 49,0 44,5 36,5 43,0 37,5 39,0 36,5

Deoarece aceeași valoare se poate întâlni ca rezultat al mai multor încercări este necesară
scrierea datelor în ordine crescătoare. În tabelul 2 s-a făcut această operație pentru datele
prezentate în tabelul 1.
Tabelul 2
Rezistența la rupere Nr. șarje Rezistența la rupere Nr. șarje
28,0 1 40,5 3
30,0 1 41,0 5
31,0 1 41,5 2
32,0 2 42,0 2
33,0 2 42,5 4
33,5 6 43,0 4
34,0 1 43,5 3
34,5 5 44,0 1
35,0 4 44,5 2
35,5 6 45,0 3
36,0 5 46,0 3
36,5 8 46,5 1
37,0 6 47,0 1
37,5 12 48,0 1
38,0 5 48,5 1
38,5 6 49,0 1
39,0 10 50,0 1
39,5 4 51,0 1
40,0 4 52,0 1
54,5 1

2
Teoria probabilităților și statistică matematică/ Statistică economică

Aceste rezultate pot fi prezentate și


sub formă grafică și anume, se ia un
sistem de axe ortogonale, pe abscisă
se reprezintă valorile observate, iar
pe ordonată numărul observațiilor.
Fiecare valoare este reprezentată
printr-un punct ca în figura 1; se
Fig.1
obține astfel diagrama prin puncte.
Tabelul 2 și figura 1 dau o descriere mai clară a distribuției rezistenței la rupere decât simpla
înșiruire neordonată a celor 130 de valori inițiale. Se vede astfel că există tendința de grupare a
valorilor în jurul unei valori, dar colectivitatea este mult prea fărâmițată și ca urmare tendința
este foarte slab scoasă în evidență. O descriere mai bună a distribuției se poate obține cu
ajutorul grupării observațiilor în clase.
Prin grupare sau clasificare se înțelege distribuirea celor n observații a1, a2,..., ai,..., în k
intervale numite intervale de grupare.
Dacă h1, h2,…, hk reprezintă mărimile intervalelor și x1, x2,…, xk centrele intervalelor, atunci
observația ai face parte din intervalul i dacă satisface inegalitățile:
hi h
xi −  ai  xi + i .
2 2
Se recomandă ca mărimile intervalelor hi să fie egale.
Totalitatea valorilor care aparțin unui interval dat se numește clasă.
Pentru fiecare interval se stabilesc următoarele mărimi (vezi tabelul 3):
✓ frecvența absolută ni, (i = 1, 2,..., n): numărul observațiilor care aparțin unui interval
oarecare i;
✓ frecvența absolută cumulată: numărul tuturor observațiilor cărora le corespund valori
h
mai mici sau cel mult egale cu limita superioară x i + i a intervalului i;
2
ni
✓ frecvența relativă : raportul dintre frecvența absolută și numărul total n al
n
observațiilor;
✓ frecvența relativă cumulată: suma frecvențelor relative corespunzătoare intervalului i și
intervalelor precedente, sau raportul dintre:
o numărul observațiilor cărora le corespund valori mai mici sau cel mult egale cu
h
limita superioară x i + i a intervalului i și;
2
o numărul tuturor observațiilor n.

3
Teoria probabilităților și statistică matematică/ Statistică economică

Tabelul 3

Mărimea intervalelor trebuie astfel stabilită încât domeniul de variație a observațiilor să fie
împărțit în aproximativ 10 intervale. Numărul intervalelor însă poate varia de la caz la caz în
funcție de condițiile concrete în care se desfășoară cercetarea, dar nu trebuie să fie mai mic de
5 și mai mare de 20. Mărimea intervalului trebuie să aibă în vedere numărul observațiilor.
Când numărul observațiilor este mai mic, caracterul distribuției nu poate fi scos în evidentă
decât dacă avem un număr mai mic de intervale, respectiv mărimea acestora este mai mare.
Cu cât numărul intervalelor este mai mare, respectiv mărimea acestora este mai mică, ies în
evidență oscilațiile întâmplătoare, iar cu cât mărimea intervalelor este mai mare, oscilațiile
întâmplătoare se anihilează și sunt puse în evidență trăsăturile fundamentale ale distribuției.
Numărul intervalelor se poate calcula cu una din următoarele relații:
1. Relația lui H. A. Sturges pentru n > 30 (nu se aplică în cazul distribuțiilor non-normale):

m = 1 + 3,322  log (n ) , (2.1)

unde n reprezintă numărul total al datelor observate;


2. Relația lui Rice (se aplică și în cazul distribuțiilor non-normale)

m = 2  n1/3 (2.2)
3. Relația lui H. B. Mann și A. Wald pentru n > 100:
1
1 5
m = 4    (n − 1 )  . (2.3)
4 
4. Prin adoptarea numărului întreg dat de relația:

m= n . (2.4)

4
Teoria probabilităților și statistică matematică/ Statistică economică

S-a constatat că pentru n < 250 este suficientă gruparea în zece clase. Dacă u și v sunt limitele
intervalului de grupare intervalul se consideră întotdeauna semi-închis, fie (u,v], fie [u,v).
Mărimea intervalului se calculează astfel:
xmax − xmin
h= . (2.5)
m
Exemplul 2. Se scrie distribuția rezistenței la rupere a celor 130 de șarje. În tabelul 4 sunt date
frecvențele absolute, frecvențele absolute cumulate, frecvențele relative, și frecvențele relative
54,5 − 28
cumulate, m = 130 11 → 10 , h = = 2,65 → 3 kg / mm2 .
10
Tabelul 4
Rezistența la Centrul Frecv. abs. Frecv. abs. Frecv. rel. Frecv. rel.
rupere intervalelor cum. cum.
[27-30) 28,50 1 1 0,008 0,008
[30-33) 31,50 4 5 0,031 0,038
[33-36) 34,50 24 29 0,185 0,223
[36-39) 37,50 42 71 0,323 0,546
[39-42) 40,50 28 99 0,215 0,762
[42-45) 43,50 16 115 0,123 0,885
[45-48) 46,50 8 123 0,062 0,946
[48-51) 49,50 4 127 0,031 0,977
[51-54) 52,50 2 129 0,015 0,992
[54-57] 55,50 1 130 0,008 1,000
130 1,000

2.2.2. Reprezentarea grafică a distribuțiilor empirice


Pentru a putea pune în evidență caracterul variației și trăsăturilor fundamentale ale unei
distribuții se face apel la reprezentările grafice și anume: histograma frecvențelor absolute și
relative, poligonul frecvențelor absolute și relative, precum și poligonul frecvențelor relative
și absolute cumulate.
În vederea reprezentării grafice se alege un sistem de axe și unitățile de măsură pe cele două
axe. Pe abscisă se fixează intervalul de variație, iar pe ordonată, care se trasează în vecinătatea
valorii celei mai mici a variabilei (limita inferioară a intervalului de variație), se stabilește scara
pentru frecvențele absolute, respectiv relative.
Histograma frecvențelor absolute, respectiv relative, se obține construind pentru fiecare
interval un dreptunghi cu baza egală cu mărimea intervalului, iar înălțimea egală sau
proporțională cu frecvența absolută, respectiv relativă, a intervalului.
Exemplul 3. Figura 2 prezintă histograma frecvențelor relative pe baza datelor tabelului 4.
Poligonul frecvențelor relative, respectiv absolute, se obține unind punctele care au ca abscise
centrele intervalelor, iar ca ordonată un număr egal sau proporțional cu frecvențele relative,

5
Teoria probabilităților și statistică matematică/ Statistică economică

respectiv absolute. Figura 3 prezintă poligonul frecvențelor relative constituit pe baza datelor
din tabelul 4. Proiecțiile extremităților segmentelor trebuie să coincidă cu centrul intervalelor.

Fig.2 Fig.3
Exemplul 4. Figura 4 prezintă poligonul
frecvențelor relative cumulate construit pe
baza datelor din tabelul 4.

Fig.4

2.2.3. Parametrii tendinței centrale sau ai centrului de grupare


După cum se poate vedea în figurile 2 și 3, valorile variabilei se grupează în jurul unei anumite
valori care poartă numele de centrul de grupare al colectivității cercetate. Centrul de grupare
poate fi caracterizat cu ajutorul următorilor parametri: modulul, mediana și media aritmetică.
Modulul
Prin definiție, modulul este valoarea cea mai probabilă a variabilei, adică valoarea variabilei
căreia îi corespunde frecvența absolută sau relativă cea mai mare. Potrivit definiției, modulul
corespunde punctului maxim al distribuției. Dacă distribuția are un singur maxim, se numește
unimodală. În general, distribuția unei colectivități omogene are un singur maxim (modul).
Dacă distribuția empirică are mai multe maxime (module), se va numi multimodală.
Pentru datele din tabelul 1 ordonate crescător în tabelul 2, modulul are valoarea 37,5.
Când valorile variabilei sunt grupate în intervale, există două metode pentru stabilirea
modulului:
A. Modulul se consideră centrul intervalului care conține cele mai multe valori
Pentru datele din tabelul 1 grupate în tabelul 4 valoarea modulului este egală cu centrul
intervalului [36-39), adică 37,5.

6
Teoria probabilităților și statistică matematică/ Statistică economică

B. Cu următoarea formulă de calcul:


1
Mo = Lim_inf_int + h , (2.6)
1 +  2

unde: Lim_inf_int = limita inferioară a intervalului care are cele mai multe valori;
 1 = diferența dintre frecvența absolută corespunzătoare intervalului care are cele mai
multe valori și cea a intervalului anterior (atunci când seria este crescătoare);
 2 = diferența dintre frecvența absolută corespunzătoare intervalului care are cele mai
multe valori și cea a intervalului următor;
h = mărimea intervalului de clasă.
Pentru datele din tabelul 1 grupate în tabelul 4 valoarea modulului este:
1
Mo = Lim_inf_int+ h =
1 +  2
(2.7)
42 − 24 18
= 36 +  3 = 36 +  3 = 36 + 1,68 = 37,68
( 42 − 24 ) + ( 42 − 28 ) 18 + 14

Mediana
Mediana este valoarea care împarte seria statistică ordonată (crescător sau descrescător) în
doua subserii de volume egale, volumele fiind măsurate în număr de unități statistice.
Dacă seria are un număr impar de valori, n = 2∙p + 1, atunci mediana este valoare de rang p + 1,
adică este valoarea care ocupă poziția centrală. Dacă seria are un număr par de valori, n = 2∙p,
atunci mediana este media aritmetică a valorilor de rang p și p + 1.
Pentru datele din tabelul 1 ordonate crescător în tabelul 2, fiind un număr par de valori
(130 = 2∙65), înseamnă că mediana va fi egală cu media aritmetică a valorilor de rang 65 (= 38)
și 66 (= 38,5):
38 + 38,5
Me = = 38,25 . (2.8)
2
Când valorile sunt grupate în intervale, există două metode pentru stabilirea medianei:
A. Mediana se consideră centrul intervalului care cuprinde valoarea de rang p + 1 dacă n este
impar, sau media valorilor centrelor intervalelor care cuprind valorile de rang p și p + 1 dacă n
este par. Pentru datele din tabelul 1 grupate în tabelul 4 valoarea medianei, deoarece valorile
corespunzătoare rangurilor 65 și 66 aparțin aceluiași interval [36,39) este:
37,5 + 37,5
Me = = 37,5 . (2.9)
2

7
Teoria probabilităților și statistică matematică/ Statistică economică

B. Calculul bazat pe două secvențe:


1. calculul cotei elementului median (poziția elementului median în cadrul șirului de valori):
a. Pentru un șir par de valori cota medianei se calculează conform formulei:
N
CotaMe = ; (2.10)
2
b. Pentru un șir impar de valori, cota medianei se calculează conform formulei:
N+1
CotaMe = . (2.11)
2
2. calculul valorii efective a medianei pe baza pe baza identificării cotei acesteia:
CotaMe − fc
Me = Lim_inf_int + h , (2.12)
fi

unde: Lim_inf_int = limita inferioară a intervalului real care conține elementul median;
CotaMe = cota calculată pentru elementul median;
fc = frecvența absolută cumulată a clasei anterioare celei care cuprinde
elementul median;
fi = frecvența absolută corespunzătoare clasei care cuprinde elementul median;
h = mărimea intervalului de clasă.
Pentru datele din tabelul 1 grupate în tabelul 4 valoarea medianei se calculează astfel:
N 130
CotaMe = = = 65 , (2.13)
2 2
CotaMe − fc 65 − 29
Me = Lim_inf_int +  h = 36 +  3 = 36 + 2,57 = 38,57. (2.14)
fi 42

Quantile
Dacă examinăm definiția medianei, observăm că aceasta reprezintă valoarea variabilei căreia îi
corespunde frecvența absolută cumulată egală cu jumătate din numărul total al observațiilor
(valorilor), adică mediana este valoarea care împarte volumul colectivității în două părți egale.
Noțiunea de mediană poate fi extinsă. Astfel putem considera valorile variabilei care împart
volumul colectivității în patru părți egale. Există în acest caz trei valori care poartă numele de
quartile Q1, Q2, Q3 ale căror numere de ordine sunt:
n n n 2 n n n 3
, + =  n, + + = n
4 4 4 4 4 4 4 4

8
Teoria probabilităților și statistică matematică/ Statistică economică

Fig.5
În general, valorile variabilei care împart volumul colectivității se numesc quantile.
Revenind la definiția medianei observăm că numărul valorilor mai mici sau cel mult egale cu
n
mediana este egal cu jumătatea volumului colectivității, adică . Rezultă atunci că frecvența
2
1
relativă cumulată corespunzătoare medianei este egală cu , sau că mediana este valoarea
2
1
căreia îi corespunde o frecvență relativă cumulată egală cu .
2
Generalizând această observație, quantilul se poate defini ca fiind valoarea variabilei căreia îi
corespunde o frecvență relativă cumulată dată. Astfel quantilul de 0,10 reprezintă valoarea
variabilei căreia îi corespunde o frecvență relativă cumulată egală cu 0,10.
Dacă frecvența relativă cumulată se exprimă în procente, atunci quantilul de 10% este acea
valoare a variabilei care nu este depășită de 10% din totalitatea valorilor.
Determinarea quantilelor se poate face cu ușurință pe cale grafică. Pentru aceasta se
construiește poligonul frecvențelor relative cumulate, iar quantilul corespunzător este abscisa
punctului a cărui ordonată este egală cu frecvența dată.

Fig.6

9
Teoria probabilităților și statistică matematică/ Statistică economică

Media aritmetică
Media aritmetică se definește ca suma valorilor variabilei empirice împărțită la numărul lor.

x ,x ,...,x i ,..., xk 
Dacă  1 2  este distribuția empirică a caracteristicii X, atunci media aritmetică
n1 ,n2 ,...,ni ,..., nk 
este:
n k k

 xi  xi  ni  x n i i k
x= i=1
= i=1
k
= i=1
=  x i  fi . (2.15)
n n
n i=1
i
i=1

Când valorile variabilei sunt grupate în intervale, xi reprezintă centrul fiecărui interval, iar ni
reprezintă frecvența absolută a fiecărui interval.
Pentru datele din tabelul 1 grupate în tabelul 2 valoarea mediei aritmetice este 39,008.
Pentru datele din tabelul 1 grupate în tabelul 4 valoarea mediei aritmetice este 39,369

2.2.4. Parametrii variației (împrăștierii)


Dispersia
Pe lângă cunoașterea centrului de grupare al variabilei întâmplătoare este necesar să se
calculeze un parametru care să arate cum se împrăștie valorile variabilei în jurul centrului de
grupare (parametrul împrăștierii sau concentrației).
Dacă centrul de grupare este caracterizat prin media aritmetică x , atunci drept parametru al
împrăștierii se consideră dispersia distribuției:
✓ în cazul în care dispunem de date asupra întregii populații (lotului) sau dispunem de o
selecție de mărime mare ( n  40 ) :
k k

(x − x ) (x − x )
2 2
i  ni i  ni k
=  ( x i − x )  fi
2
 =
2 i=1
k
= i=1
(2.16)
n
ni=1
i
i=1

✓ în cazul în care dispunem de o selecții de mărime mică ( n  40 ) , estimarea dispersiei


populației se face cu ajutorul dispersiei de selecție:
k k

 ( xi − x )  ni (x − x )
2 2
i  ni
s =
2 i=1
= i=1
. (2.17)
k
n−1
n − 1
i=1
i

Când valorile variabilei sunt grupate în intervale, xi reprezintă centrul fiecărui interval, iar ni
reprezintă frecvența absolută a fiecărui interval.

10
Teoria probabilităților și statistică matematică/ Statistică economică

Abaterea medie pătratică


Pentru a avea un parametru al împrăștierii cu aceeași dimensiune cu variabila empirică se
folosește rădăcina pătrată a dispersiei care se numește abatere medie pătratică (abatere
standard):
k k

(x − x ) (x − x )
2 2
i  ni i  ni k

(x − x )
2
= i=1
k
= i=1
= i  fi . (2.18)
n
n i=1
i
i=1

respectiv abaterea medie pătratică de selecție (abaterea standard de selecție):


k k

(x − x ) (x − x )
2 2
i  ni i  ni
s= i=1
= i =1
. (2.19)
k
n−1
n − 1
i=1
i

Abaterea medie pătratică este un parametru al împrăștierii, ea caracterizând modul cum se


împrăștie valorile în jurul valorii medii !!!
Amplitudinea împrăștierii
Un alt parametru al împrăștierii este amplitudinea împrăștierii care se notează cu R și analog
cu abaterea medie pătratică măsoară concentrația masei în jurul valorii medii.
Prin definiție, amplitudinea împrăștierii (R) este diferența dintre valoarea cea mai mare și
valoarea cea mai mică a variabilei, adică:
R = xmax − xmin . (2.20)

Coeficientul de variație
Prin definiție se numește coeficient de variație, raportul dintre abaterea medie pătratică de
selecție și media aritmetică, adică:
s
CV = . (2.21)
x
Prezintă mai intuitiv decât abaterea standard gradul de împrăștiere a rezultatelor în jurul
mediei deoarece este o expresie procentuală a împărțirii abaterii standard la medie. Cu cât
valoarea lui CV este mai aproape de zero cu atât variația este mai slabă, colectivitatea este mai
omogenă, media având un grad ridicat de reprezentativitate. Cu cât valoarea lui CV este mai
mare cu atât variația este mai intensă, colectivitatea este mai eterogenă, iar media are un nivel
de semnificație scăzut. Se poate afirma că acest indicator poate fi folosit ca un test în aplicarea
metodei grupării.

11
Teoria probabilităților și statistică matematică/ Statistică economică

Concluzie:
 Un coeficient de variație mai mic de 0,15 indică un grad de împrăștiere redus, media
fiind un bun indicator al tendinței centrale;
 Un coeficient de variație cuprins între 0,15 și 0,40 arată o împrăștiere moderată, caz în
care reprezentativitatea mediei este satisfăcătoare;
 Un coeficient de variație de peste 0,40 arată o împrăștiere mare, media nemaifiind un
bun indicator pentru tendința centrală, datele trebuind a fi separate în serii de
componente, pe grupe, în funcție de variația unei alte caracteristici de grupare.
Observație: dacă media aritmetică este apropiată de zero, coeficientul de variație nu are
semnificație !!!

BIBLIOGRAFIE

1. *** Probabilități și statistică, www.edumanager.ro


2. Bulgaru, M., Elemente de teoria probabilităților, www.cermi.utcluj.ro
3. Pop, M., ș.a., Probabilități și statistică-teorie și aplicații, Editura RISOPRINT, Cluj-Napoca,
2008
4. Rancu, N., Tovissi, L., Statistică matematică cu aplicații în producție, Editura Academiei
Române, 1963

12

S-ar putea să vă placă și