Sunteți pe pagina 1din 22

Statistică teoretică şi economică

CAPITOLUL 4.
ANALIZA STATISTICĂ A SERIILOR DE REPARTIŢIE
Cuvinte cheie:
- amplitudinea variaţiei
- abaterea medie liniară
- abaterea medie pătratică (standard)
- coeficientul de variatie
- coeficientul de concentrare GINI
- dispersia
- dispersia explicata
- dispersia reziduala
- seria de repartiţie
- variabila alternativă

Seria de repartiţie sau seria de distribuţie este rezultatul grupării elementelor


unei colectivităţi în funcţie de variantele sau intervalele de variaţie ale (unor)
caracteristici atributive, cantitative sau calitative.
Dacă se foloseşte o singură caracteristică de grupare, seria de repartiţie se numeşte
unicriterială sau unidimensională.
Dacă caracteristica de grupare este numerică, seria de repartiţie se numeşte şi
serie de variaţie.
O caracteristică de grupare calitativă (nenumerică) conduce la alcătuirea unei serii
de repartiţie numită serie de atribute sau serie nominativă.
Un caz particular al seriilor nenumerice îl reprezintă variabila alternativă: două
strări sau variante nenumerice care se elimină reciproc.
Dacă se foloseşte concomitent mai multe caractristici de grupare atributive rezultă
o serie de repatiţie multicriterială sau multidimensională.

4.1. Particularităţile seriilor de repartiţie.


• omogenitatea termenilor, toate variantele au o esenţă, o determinare comună,
cauzată de factori hotărâtori care generează însăşi colectivitate cercetată;
• independenţa termenilor seriei, în sensul că fiecare valoare este specifică unui
element al colectivităţii şi nu depinde de valoarea înregistrată la celelalte
elemente;
• variabilitatea termenilor seriei, cauzată de faptul că pe lângă factorii hotărâtori,
esenţiali acţionează şi factori întâmplători, accidentali care fac ca manifestarea
individuală să fie diversă;
• concentrarea sau dispersarea termenilor, seriei în funcţie de raportul de forţă
dintre factorii esenţiali, hotărâtori şi factorii întâmplători.

Reprezentarea grafică se face prin:


- histogramă
- poligon de frecvenţă
- diagramă de benzi
Statistică teoretică şi economică

- diagramă de structură
- curbă de concentrare
- curba frecvenţelor cumulate
- ogivă
- diagramă de corelaţii

4.2.Sistemul de indicatori pentru caracterizarea unei repartiţii unidimensionale.


Acest sistem de indicatori cuprinde două categorii:
a) indicatori ce caracterizează frecvenţele de apariţie ale unei unităţi de acelaşi
fel;
b) indicatori ce caracterizează valorile sau variantele caracteristicii cercetate.
Din primul set de indicatori amintim urmatorii:
-frecvenţele absolute (ni) = numărul de elemente cuprinse într-o grupă;
- frecvenţele relative (nix) = cota parte, greutatea specifică a unei variante sau
grup de variante;
- frecvenţele cumulate = în procesul analizei se cumulează treptat fie
frecvenţele absolute, fie cele relative în sensul crescător şi/sau în sensul descrescător al
valorilor caracteristicii cercetate. Această cumulare serveşte la exprimarea nivelului de
concentrare în cadrul colectivităţii şi la determinarea indicatorilor tendinţei centrale;
- densitatea de frecvenţă, = în analiza seriilor de repartiţie la organizarea pe
intervale neegale de grupare, se calculează reportul ni/ki sau nix/ki (ki = mărimea
intervalelor de grupare). Marjoritatea variabilelor economice tind această densitate să se
diminueze crescător sau descrescător simetric către capetele seriei.

Din cel de-al doilea set de indicatori din cadrul sistemului de indicatori care
caracterizeaza repartiţiile unidimensionale fac parte:

- indicatorii tendinţei centrale;


- indicatorii variaţiei şi ai asimetriei;
- indicatorii concentrării.

Indicatorii tendinţei centrale.


Aceşti indicatori au misiunea de a exprima printr-un număr ceea ce este comun,
esenţial pentru elementele colectivităţii cercetate şi pentru că realitatea este atât de
diversă nu ne oprim doar la medie, ci vom adăuga şi mediana şi modul, ca o modalitate
de a reda esenţa comună a elementelor unei colectivităţi.
Dacă seria de date statistice este organizată pe variante distincte atunci media,
mediana şi modul se află potrivit relaţiilor daje studiate. Majoritatea seriilor este însă
organizată pe intervale (egale sau nu) de variaţie ale unei caracteristici de grupare şi în
acest context determinarea mediei, medianei şi a modului îmbracă unele particularităţi pe
care le vom ilustra în exemplul următor:
Gruparea localităţilor României după numărul populaţiei la data de 7 ianuarie 1992 este
dată în tabelul următor:

Interv. de var. a Nr. loc. Centr. x i ⋅ ni Frecvenţe xi -x (xi - x )2⋅ni


nr. pop. (mii (ni) interaţ. xi cumulate
pers.)
sub 5 11 3,5 38,5 11 -38,975 16709,556
Statistică teoretică şi economică

5-10 53 7,5 397,5 64 -34,975 64832,281


10-20 87 15,0 1305 151 -27,475 65674,178
20-50 61 35,0 2135 212 -7,475 3408,413
50-100 23 75,0 1725 235 32,525 24331,138
100-200 13 150,0 1950 248 107,525 150301,12
200-300 4 250-0 1000 252 207,525 172266,5
300-400 7 350,0 2450 259 307,525 662001,37
TOTAL 259 - 11.001 - - 1159524,3

Obs.1. din datele prezentate lipseşte oraşul Bucureşti care având o populaţie de peste 5 ori mai mare
decât limita superioară a ultimului interval de grupare se constituie într-un element atipic
al colectivităţii localităţilor urbane din România;
Obs.2. intervalele de grupare folosite în statistica oficială a României pentru aceste date sunt neegale.
Pentru calculul mediei este necesară stabilirea centrelor intervalelor de grupare (xi), ca
medii aritmetice simple ale limitelor fiecărui interval de grupare. Primul interval se consideră închis
la limita inferioară de 200 pers.

11001
x= = 42,475 mii persoane
259
Media este varianta care împarte seria ordonată în două părţi egale.

n +1 259 + 1
Loc Me = ; Loc Me = 130 .
2 2
Într-o serie organizată pe intervale de grupare, după aflarea locului medianei se procedează
la identificarea intervalului ce conţine mediana. Adunând treptat frecvenţele ajungem la un număr
mai mare sau egal cu cel al locului meidanei, astfel rezultând intervalul în care se găseşte mediana.
Mediana se calculează după relaţia următoare:

0,5(n + 1) − ∑ np Me
Me = x 0 + k ⋅ , unde:
n Me

x0 = limita inferioară a intervalului ce conţine mediana (în cazul nostru 10)


k = mărimea intervalului median
0,5 (n +1) = locul medianei
ΣnpMe = suma frecvenţelor până la intervalul ce conţine mediana (în cazul nostru 11+53 =
64)
nMe = frecvenţa intervalului ce conţine mediana

130 − 64
Me = 10 + 10 ⋅ = 17,586 mii pers.
87
Mediala separă în două părţi egale suma produselor dintre valorile variabilei şi frecvenţele
corespunzătoare. Mediala se aplică la repartiţia valorilor globale ale variabilei analizate.

locMl − ∑ npMl
Ml = x 0 + k ⋅ .
n Ml

Modul sau dominantă, varianta cu frecvenţa cea mai mare.


Statistică teoretică şi economică

Într-o serie organizată pe intervale de grupare, valoarea modală se află tot prin interpolare
în interiorul cu frecvenţa cea mai mare. Intervalul modal din tabel este (10-20) (nu este obligatoriu să
coincidă cu cel al medianei).
Modul se calculează după relaţia:

∆1
Mo = x 0 + k ⋅ , unde:
∆2 + ∆3

x0 = limita inferioară a intervalului modal (10)


k = mărimea acestui interval (10)
∆1 = diferenţa dintre frecvenţa modală şi frecvenţa intervalului imediat anterior
(87-53 = 34).
∆2 = diferenţa dintre frecvenţa modală şi frecvenţa intervalului imediat următor
(87-61= 26).

34
Mo = 10 + 10 ⋅ = 15,667 mii pers.
34 + 26

Prin faptul că mediana şi modul sunt valori apropiate se confirmăpresupunerea că x nu


reprezintă o valoare tipică pentru colectivitatea celor 259 localităţi urbane.

Chiar dacă cele trei valori ale tendinţei centrale ar fi fost foarte apropiate în
preocuparea economistului trebuie să se afle nu numai valorile tipice (cu caracter de
generalitate cu mediile) ci şi variabilitatea în jurul mediei. Se pune problema de a
carcteriza mărimea, intensitatea şi forma variaţiei în jurul mediei.

Indicatorii variaţiei şi ai asimetriei


În funcţie de numărul de variante luate în calcul şi după rolul îndeplinit în analiza
variaţiei distingem:
• indicatori simpli ai variaţiei;
• indicatori sintetici ai variaţiei.
Indicatorii simpli ai variaţiei:
a) abaterea fiecărei variante sau fiecărui centru de interval de grupare de la
medie, exprimat în mărimi absolute sau relative:

d i = xi − x
d i % = (( x i − x ) ⋅ x ) ⋅ 100

Aceşti indicatori nu caracterizează variaţia în cadrul colectivităţii.


b) amplitudinea variaţiei exprimă mărimea câmpului de împrăştiere în jurul mediei.
Se exprimă în mărimi relative:

A = x max − x min în cazul nostru 400-2 = 398 mii pers.

x max − x min 398


A% = ⋅ 100 în cazul nostru ⋅ 100 = 937%
x 42,475
Statistică teoretică şi economică

În general se apreciază că o amplitudine a variaţiei care tinde la 100% este


specifică unor colectivităţi omogene şi pe măsură ce aceasta se îndepărtează de 100%,
colectivitatea este din ce în cea mai eterogenă.
Indicatorii sintetici ai variaţiei sunt indicatorii care iau în calcul toate centrele de
grupare xi şi în funcţie de gradul de abstractizare şi de relaţia de calcul distingem patru
categorii de indicatori sintetici:
1 - abaterea medie liniară ( d )
2 – dispersia (σ2)
3 – abaterea medie pătratică (standard)
4 – coeficientul de variatie (v).
1) abaterea medie liniara este media aritmetică a abaterilor variantelor sau a
centrelor de interval de grupare xi de la media colectivităţii. Pentru că abaterile se
compensează se iau în calcul valorile absolute ale acestor diferenţe:

d=
∑ (x i − x)
n

d=
∑ (d )n
i i
=
∑ ( x − x ) = 10257,375 = ±39,604 mii pers.
i

∑n i ∑n i 259

Interpretare: populaţia din cele 259 de localităţi este cu 39,604 mii pers. mai mică sau mai
mare decât media calculată ca fiind egală cu 42,475 mii pers.
2) Dispersia poate fi definită ca medie aritmetică a pătratelor abaterilor de la
media colectivităţii. Este o mărime abstractă, adimensională ce nu serveşte direct analizei
variaţiei.

σ2 =
∑ (x i − x)
n

σ2 =
∑ (x i − x ) 2 ⋅ ni
=
1159524,5
= 4476,9285
∑n i 259

σ 2
=
∑x ⋅n 2
i i
− (x) 2 =
1626791
− (42,475) 2 = 4476,9285
∑n i 259

3) abaterea medie pătratică

σ = σ2

Rezultatul este întotdeuna mai mare decât d

σ = 4476,929 = 66,91 mii pers.


Statistică teoretică şi economică

4) coeficientul de variaţie este indicatorul cel mai sintetic care exprimă într-o
formă abstractă intensitatea variaţiei. Se calculează astfel:

σ 66,91
v= ⋅ 100 = ⋅ 100 = 157,5%
x 42,475

Coeficientul de variaţie se defineşte în domeniul numerelor pozitive. Dacă v este


până în 35% se consideră că intensitatea variaţiei este redusă, colectivitatea este omogenă
şi în consecinţă media este reprezentativă. Cu cât depăşim 35% cu atât intensitatea
variaţiei creşte şi colectivitatea este eterogenă iar media tinde să fie o mărime
nereprezentativă.
Forma variaţiei în jurul mediei se exprimă statistic prin mai mulţi indicatori dintre
care diferenţa între medie şi mod care se numeşte asimetrie:

as = x − Mo ≤ 0

- dacă x = Mo atunci există simetrie perfectă


- dacă x > Mo atunci există asimetrie pozitivă sau de stânga
- dacă x < Mo atunci există asimetrie negativă sau de dreapta
Tot pentru măsurarea asimetriei se foloseşte şi un coeficient al lui PEARSON:

x − Mo 3 ⋅ ( x − Me)
C as = sau C as′
σ σ
C as ∈ [− 1,1] C as′ ∈ [− 3,+3]

În măsura în care coeficientul de asimetrie se încadrează în intervalul (0; 0,3)


spunem că avem de-a face cu o asimetrie moderată şi consecinţă indicatorii tendinţei
centrale caracterizează corect colectivitatea.
Dacă trecem de 0,3 asimetria este mai puternică iar indicatorii tendinţei centrale
tind să fie nesemnificativi.
În exmplul nostru:

26,808
C as = = +0,4007 rezultă că media nu este caracteristică pentru că are loc
66,91
o asimetrie mică.

4.3.Indicatorii variaţiei într-o colectivitate împăţită pe grupe


Exemplu. Din studiul efectuat în două staţii de aşteptare (benzinari) în rândul a 100 de
conducători auto a rezultat că timpul mediu de aşteptare a celor 100 conducători a fost de:
x 0 = 50 min . Dispersia generală a fost de σ o2 = 200 , abaterea medie pătratică: σo=14,1421 iar
coeficientul de variaţie a fost de v0 = 28,28%. Aceasta înseamnă că timpul real de aşteptare al celor
100 călători este cu 14,14 min. sau cu 28,28% mai mare sau mai mic decât media generală de 50 min.
Această intensitate a variaţiei face ca media x o = 50 să fie reprezentativă.
Datele rezultate în urma studiului efectuat sunt următoarele:
Statistică teoretică şi economică

Punct de observare Timp de aşteptare (min) Total ni


xi până la 40 (30) 40-60 (50) 60-80 (70)
j=1 j=2 j=3
Benzinaria Baneasa 15 20 5 40
Benzinaria Otopeni 10 30 20 60
Total 25 50 25 100

linii şi j coloane se notează cu nij


Σni = Σnj = ΣΣnij = 100
suma suma
Pentru a demonstra
ultimei ultimei în ce măsură influenţează punctul de aşteptare (observare) variaţia
coloane
timpilor de aşteptareliniise calculează pentru fiecare grupă tipică media de grupă x i şi se observă
deosebirile dintre acestea şi meida generală.

yi =
∑ y ⋅nj ij
y0 =
∑ y ⋅n j j

∑n ij ∑n j
j

5000
y0 = = 50 min
100

15 ⋅ 30 + 50 ⋅ 20 + 70 ⋅ 5
y1 = = 45 min
40

30 ⋅ 10 + 50 ⋅ 30 + 70 ⋅ 20 3200
y2 = = = 53,3 min
60 60

se observă că x 2 se apropie mai mult de media generală x o = 50


Calculăm dispersiile de grupă:

∑(y j
j − y i ) ⋅ nij
σ = 2

∑n
i
ij
i

(30 − 45) 2 ⋅ 15 + (50 − 45) 2 ⋅ 5 7000


σ =
2
1 = = 175
40 40

σ 2
=
∑(y j − y0 ) 2 n j
∑n
0
j

(30 − 53,3) 2 ⋅ 10 + (50 − 53,3) 2 ⋅ 30 + (70 − 53,3) 2 ⋅ 20 188,89


σ =2
2 = = 188,89
60 60
Statistică teoretică şi economică

Pe baza acestor indicatori se trece la determinarea în cadrul fiecărei grupe a abaterii medii
pătratice (σi) şi a coeficientului de variaţie (vi).
Pentru a rezuma aceste consideraţii sub forma unor indicatori statistici ce calculează
dispersia explicată de numărul de staţii de aşteptare (σ2) şi dispersia reziduală (σ2) ca părţi ale
dispersiei generale (σ2o).
Dispersia explicată σ2 se calculează ca dispersia de grupă faţă de media generală şi se
numeşte explicată pentru că mediile de grupă sunt determinate, condiţionate de numărul de staţii de
aşteptare:

σ 2
=
∑(y i − y 0 ) ⋅ ni
=
(45 − 50) 2 ⋅ 40 + (53,3 − 50) 2 ⋅ 60 1653,4
= = 16,6
∑n i 100 100
Disperisa reziduală σ arată influenţa factorilor reziduali (alţi factori decât numărul de
2

staţii). Se calculează ca o medie aritmetică ponderată a dispersiilor de grupă:

σ 2
=
∑σ ⋅ ni
2
i
=
175 ⋅ 40 + 188,89 ⋅ 60 18333,4
= = 183,4
∑n i 100 100

Între aceste dispersii există următoarea relaţie:


dispersia generală = dispersia explicată + dispersia reziduală, adică:
dispersia generală este egală cu dispersia mediilor de grupă şi media dispersiilor de grupă.

σ 02 = σ 2 + σ 2

în cazul nostru: 200 = 16,6 + 183,4


Pe baza acestor relaţii se pot calcula doi coeficienţi:
- coeficientul de determinare (R2) care exprimă cota parte a variaţiei explicate în totalul
variaţiei:

σ2 16,6
R2 = ⋅ 100 = = 8,3%
σ0
2
200

Deci, în proporţie de 8,3% variaţia timpilor de aşteptare poate fi explicată prin factorul
″numărul de staţii de aşteptare″.
- coeficientul de nedeterminaţie (k2) care este o valoare complementară faţă de R2.

σ2 183,4
k = 2 ⋅ 100 =
2
⋅ 100 = 91,7%
σ0 200

Deoarece coeficientul de determinaţie este mai mic de 50% este necesară testarea statistică a
semnificaţiei influenţei factorului de grupare asupra variabilei cercetate.
Această testare statistică se face cu ajutorul testului Fisher-Snedecor (F). Acest test verifică
consistenţa influenţei factorului suplimentar de grupare comparând cele două părţi ale dispersiei
generale. Mai precis, se iau în considerare numărătorii acestor dispersii (denumiţi varianţe sau
devianţe) corectaţi cu un număr corespunzător al gradelor de libertate de variaţie.

∆2 ⋅ x ∆2 ⋅ z
F= :
r −1 n − r
Statistică teoretică şi economică

∆x2 = deviaţia explicată = numărătorul dispersiei explicate

∆2x = ∑ ( y i − y 0 ) 2 ⋅ ni

∆z2 = variaţia reziduală = numărătorul dispersiei reziduale

∆2z = ∑ σ i2 ⋅ ni

n = numărul elementelor colectivităţii


r = numărul de grupe constituite
1653,4 18333,4
F= : = 8,84
2 − 1 100 − 2

pentru σ = 0,05 coloana r-1 = 1


linia n-r = 98, rezultă Ftabelat = 3,86934
Valoarea calculată a lui F se compară cu valoarea tabelată pentru (r-1) (n-r) grade de
libertate, tabelarea făcându-se separat pentru diverse praguri σ de semnificaţie a erorii. De exemplu
acceptăm o eroare de σ = 0,05 atunci vom găsi în coloana r-1 pe linia n-r valoarea critică a lui F
pentru care factorul de grupare mai are semnificaţia reală (Ftabelat este o valoare minimă).
Dacă Fcalculat ≥ Ftabelat înseamnă că factorul de grupare are o influenţă consistentă (e o cauză
reală) cu eroarea acceptată.

4.4.Media şi dispersia unei variabile alternative.


Variabila alternativă este un caz particular al unei caracteristici atributive sau
nominative care nu prezintă decât două stări care se elimină reciproc. În felul acesta
elementele colectivităţii se împart în două categorii distinctive de tipul Da/Nu,
Fem/Masc, Urban/Rural etc.
Exemplu. În anul universitar 1991/1992 au fost înmatriculaţi în învăţământul superior de
stat 215226 studenţi, din care 99032 (46%) de sex feminin şi 116194 (54%) de sex masculin. Cele
două stări nu sunt exprimate numeric. Totuşi pentru a putea calcula media şi dispersia unei
asemenea variabile se acceptă atribuirea valorii 1 pentru starea sau varianta care ne interesează în
procesul de analiză şi o valoare (zero) pentru starea cealaltă.

Varianta caracter. valoarea Frecvenţe


atribuită
absolute (ni) relative (nxi)
x1 = F 1 M M
N
=p
x2 = B 0 N–M N−M
= q =1− p
N
TOTAL - N p+q=1

pentru valaorea observată xi avem media

x=
∑x ⋅ni i
=
1⋅ M + 0 ⋅ (N − M ) M
= =p
∑n i N N

Din totalul de N elemente ale unei colectivităţi se notează cu M numărul de elemente care
posedă starea care ne interesează (în cazul nostru n1 = M iar n2 = N-M, rezultă n1 + n2 = N
Statistică teoretică şi economică

prin urmare media unei caracteristici alternative este egală cu cota parte a elementelor care posedă
varianta (starea) ce ne interesează în analiză.

99032
P= = 0,46
215226
Dacă se foloseşte frecvenţa relativă atunci:

x = ∑ x i ⋅ nix = 1 ⋅ p + 0 ⋅ q = p

Dispersia acestei caracteristici se calculează tot după formula clasică:

σ2 =
∑ (x − x)
i
2

=
(1 − p) 2 ⋅ p + (0 − p) 2 ⋅ q q 2 p + p 2 ⋅ q
= = pq = 0,2484
∑n i p+q p+q

Dispersia unei caracteristici alternative este produsul cotelor părţi ale celor două stări sau
vriante în colectivitatea generală.
Media şi dispersia caracteristicii alternative se folosesc în estimarea unor parametrii ai
colectivităţii generale atunci când cercetarea se bazează pe eşantioane reprezentative.

4.5. Indicatorii statistici ai unei serii de atribute.


În exemplul de mai jos elementele colectivităţii sunt grupate după o caracteristică
nenumerică (atributivă sau nominativă) şi în consecinţă nu mai putem folosi media,
mediana, modul indicatorii asimetriei şi ai variaţiei pentru a caracteriza această repartiţie.
Cel mult să identificăm care este starea sau forma cea mai frecventă (starea modală) în
colectivitate.
Exemplu: numărul mediu de slariaţi din România pe activităţi specifice ale economiei naţionale în
1991 este următoprul: (în mii pers.)

Nr. Activitatea economică Nr. mediu salariaţi % activ în total


salariaţi
1 agricultură 603,0 8,2
2 silvicultură şi expl. forestieră 98,8 1,3
3 piscicultură şi pescuit 7,9 0,,,1
4 industria extractivă 277,6 3,8
5 industria prelucrătoare 3188,1 43,,1
6 energie electrică , term., gaze, apă 152,3 2,1
7 construcţii 482,6 6,5
8 servicii 2579,2 34,9
TOTAL 7389,5 100,0

Pentru a caracteriza o asemenea serie de repartiţie pe atribute se pot folosi:


• mărimi relative de coordonare
• mărimi relative de structură
• coeficienţi de concentrare
Mărimile relative de coordonare rezultă din compararea stărilor sau atributelor
între ele. Însă nu se admite orice fel de comparaţie, între stările comparate trebuie să
existe o legătură logică.
Statistică teoretică şi economică

Mărimile relative de stuctură exprimă ponderea (cota parte) a diferitelor stări în


totalul colectivităţii (vezi ultima coloană a tabelului). Suma mărimilor de structură trebuie
să fie egală cu 1 sau 100.
Coeficienţii de concentrare sintetizează aceste mărimi relative de structură într-o
unică expresie numerică şi constituie principalul instrument de analiză pentru
caracterizarea globală a repartiţiilor de felul acesta.

Coeficienţi de concentrare
1. GINI (1922, fondat de şcoala statistică din Italia)
n xi
c = ∑ g i2 , gi = i ,
∑ ni ∑ xi
gi = cota parte neprocentuală a fiecărei stări în totalul colectivităţii.

1
≤c≤i
n

n = numărul de stări specifice colectivităţii (n = 8 în cazul exemplului nostru).


Interpretarea rezultatului este greoaie întrucât limita inferioară a intervalului
depinde de numărul stărilor. În consecinţă s-au căutat diverse formule de normalizare
prin care coeficientul de concentrare să se înscrie în intervalul (0,1) pentru oricâte stări.
2. GINI-STRUCK

n∑ g i2 − 1
c′ = , 0 < c′ < 1
n −1

Interpretarea devine foarte simplă. Cu cât C′ tinde către 1 cu atât elementele


colectivităţii se concentrează mai intens pe câteva stări ale colectivităţii (specifice ei).
Dacă C′ tinde către 0 elemente se repartizează echilibrat sau uniform pe toate
stările specifice.
În cazul exemplului nostru:

8 ⋅ 0,32 − 1
c′ = = 0,4728 , adică alternează la mijlocul intervalului de definire, însă nu
8 −1
se poate vorbi de o repartiţie echilibrată.

Probleme şi aplicaţii
4.1. Pentru a verifica reglarea unei maşini de debitat, din producţia realizată de-a lungul
unei zile (N = 600 piese) se prelevă un eşantion n = 65 piese, care măsoară în mm:
90,9 93,2 72,4 91,7 93,2 67,4 75,0 83,3 75,0 90,2 99,2 88,6 62,8
95,5 76,1 78,8 97,0 65,2 77,8 86,4 87,1 76,1 86,4 96,2 83,3 87,9
70,5 83,3 91,7 93,9 91,7 84,1 85,6 87,9 89,4 85,6 84,1 100,0 80,3
92,4 88,6 92,4 97,7 7,9 95,5 87,1 91,7 96,2 92,4 86,4 81,8 76,5
89,4 92,4 93,2 88,6 87,1 97,0 96,2 86,1 90,9 87,9 98,5 98,5 81,8
Statistică teoretică şi economică

Se cere descrierea acestui eşantion prin indicatori specifici seriilor de distribuţie de


frecvenţe.
Rezolvarea 1
Gruparea pieselor pe variante distincte de lungime reduce (comprimă) seria de
lungimi observate ale celor 65 piese la 34 de variante distincte, cu următoarele frecvenţe:

Varianta cu frecvenţa Varianta cu frecvenţa


62,8 1 87,1 3
65,2 1 87,9 4
67,4 1 88,6 3
70,5 1 89,4 2
72,4 1 90,2 1
75,0 2 90,9 2
76,1 2 91,7 4
76,5 1 92,4 4
77,8 1 93,2 3
78,8 1 93,9 1
80,3 1 95,5 2
81,8 2 96,2 3
83,3 3 97,0 2
84,1 2 97,7 1
85,6 2 98,5 2
86,1 1 99,2 1
86,4 3 100,0 1

Aceasta este o serie de distribuţie de frecvenţe pe variante ale caracteristicii


lungimea pieselor măsurate, seria putând fi caracterizată prin indicatori ai tendinţei
centrale, indicatori ai variaţiei şi asimetriei.
Indicatorii tendinţei centrale sunt:

Σxi ni 5659
• Media: x = = = 87,0615 ≈ 87,1 mm
Σn i 65

Σni + 1 65 + 1
• Locul medianei: locMe = = = 33;
2 2

Mediana este a 33-a variantă în seria ordonată crescător. Deci, Me = 87,9 mm.
• Pentru a afla modul se va observa că frecvenţa maximă înregistrată este 4,
întâlnită la trei variante. Deci, seria de variante distincte ale caracteristicii
observate este o serie trimodală (cu trei moduri):
Mo = 87,9 mm; Mo = 91,7 mm; Mo = 92,4 mm.
Indicatorii variaţiei:

• Amplitudinea absolută a variaţiei:

A = x max − x min = 100.0 − 62.8 = 37,2 mm


Statistică teoretică şi economică

• Amplitudinea relativă a variaţiei:

A 37,2
A% = ⋅ 100 = ⋅ 100 = 42,7%
x 87,1

• Dispersia caracteristicii în jurul mediei:


Σ( x i − x ) 2 ⋅ ni 4606,94
σ =2
= = 70,876
Σn i 65

• Abaterea medie pătratică (abaterea standard):

σ = σ 2 = 8,42 mm

Cele 65 piese măsurate sunt în medie cu 8,42 mm mai scurte sau mai lungi decât media
calculată (87,1 mm).
• Coeficientul de variaţie:

σ
v= ⋅ 100 = 9,67%
x

Intensitatea variaţiei în jurul mediei este de numai 9,6%


Observaţii: 1) În prima variantă de rezolvarea a problemei, rezultatele sunt determinări
exacte, pe baza variantelor distincte ale caracteristicii observate.
2) Cele 65 piese măsurate alcătuiesc o colectivitate omogenă, întrucât variaţia
în jurul mediei este de numai 9,67%, cu mult sub nivelul de 35%. Altfel spus, media este
reprezentativă pentru toată colectivitatea.
Rezolvarea 2.
Dacă variantele se grupează pe intervale egale de câte 5 mm, atunci toţi indicatorii
ce descriu seria sunt estimări ale determinărilor obţinute la Rezolvarea 1.

Număr piese în Centre ale intervalelor de


fiecare grupă grupare xi⋅ni
(ni) (xi)
Intervale
de variaţie a
lungimii piesei
(mm)
Până la 65 1 62,5 62,5
65,1 – 70,0 2 67,5 135,0
70,1 – 75,0 4 72,5 290,0
75,1 – 80,0 5 77,5 387,5
80,1 – 85,0 8 82,5 660,0
85,1 – 90,0 18 87,5 1575,0
90,1 – 95,0 15 92,5 1387,5
95,1 – 100,0 12 97,5 1170,0
Total 65 --- 5667,5
Statistică teoretică şi economică

Indicatorii tendinţei centrale:


• Media estimată pe baza centrelor intervalelor de grupare este:
Σx n 5667,5
x= i i = = 87,1923 ≈ 87,2 mm ∗
Σn i 65

• Locul medianei este tot 33, dar se va observa că această variantă este cuprinsă
în intervalul (85,1 – 90,0). Prin interpolarea în acest interval, rezultă mediana:

0,5(Σn + 1) − F 33 − 20
Me = x Me + k Me ⋅ i = 85,1 + 5 ⋅ = 88,7 mm
f Me 18

unde F este suma frecvenţelor până la intervalul care conţine mediana.


• Pentru estimarea modului, se va observa că intervalul (85,1 – 90,0) este cel
care are frecvenţa maximă (cuprinde cele mai multe elemente ale
colectivităţii). Prin interpolare rezultă modul:

∆ 10
Mo = x Mo + k Mo ⋅ 1 = 85,1 + 5 ⋅ = 88,9 mm
∆ +∆ 10 + 3
1 2

Se constată că cei trei indicatori ai tendinţei centrale au valori estimate apropiate,


dar x < Me < Mo , ceea ce înseamnă că seria prezintă o uşoară asimetrie de dreapta
(modul este mai mare decât media aritmetică a colectivităţii cercetate).
Indicatorii variaţiei:
• Amplitudinea absolută a variaţiei estimată pe baza centrelor intervalelor de
grupare:

A = 97,5 – 62,5 = 35 mm

• Amplitudinea relativă a variaţiei:

A% = (35:87,2)*100 = 40,14%

Se observă o amplitudine restrânsă a variaţiei în jurul mediei estimate.


Pentru estimarea indicatorilor sintetici ai variaţiei se poate folosi următorul tabel
de calcul:


Eroarea de estimare (e) indusă de folosirea centrelor intervalelor de grupare, în locul variantelor reale, se
obţine comparând mediile din rezolvările 1 şi 2:
x −x 87.2 − 87.1
e = 2 1 ⋅ 100 = ⋅ 100 = +0,11% (o eroare neglijabilă).
x1 87.1
Statistică teoretică şi economică

Număr
piese (xi) xi − x ( xi − x ) 2 ni 2
xi ni
(ni)

Intervale de
variaţie a lungimii
piesei (mm)
Până la 65 1 62,5 -24,7 610,09 3906,25
65,1 – 70,0 2 67,5 -19,7 776,18 9112,50
70,1 – 75,0 4 72,5 -14,7 864,36 21025,00
75,1 – 80,0 5 77,5 -9,7 470,45 30031,25
80,1 – 85,0 8 82,5 -4,7 176,72 54450,00
85,1 – 90,0 18 87,5 0,3 1,62 137812,50
90,1 – 95,0 15 92,5 5,3 421,35 128343,75
95,1 – 100,0 12 97,5 10,3 1273,08 114075,00
Total 65 --- --- 4593,85 498756,25

Dispersia colectivităţii în jurul mediei poate fi determinată în două moduri:


- fie folosind totalul penultimei coloane a tabelului:

Σ( xi − x ) 2 ⋅ ni 4593,85
σ2 = = = 70,6746 ,
Σn i 65

-fie totalul din ultima coloană a tabelului pentru a înlocui în relaţia:

2
Σxi ⋅ ni 49756,25
σ2 = − (x)2 = − 87,2 2 = 69,3333
Σn i 65

Diferenţa dintre cele două rezultate este cauzată de rotunjirile repetate la prima
versiune a calculului.
Abaterea medie pătratică este radicalul de ordinul doi din dispersie:

σ 2 = σ 2 = 69.3333 = 8,3 mm ,

ceea ce arată că între lungimile reale ale celor 65 piese observate şi media estimată există
o distanţă medie de aproximativ 8,3 mm.

Coeficientul de variaţie este de:

σ 8,3
v= ⋅ 100 = ⋅ 100 = 9,5%
x 87,2
Statistică teoretică şi economică

Deci, intensitatea variaţiei în jurul mediei este redusă (sub 35%), colectivitatea
este omogenă, bine caracterizată prin valoarea medie a lungimii pieselor.

Coeficientul de asimetrie exprimă forma împrăştierii:


as = x − Mo = 87,2 − 88,9 = −1,7 mm
x − Mo − 1,7
C as = = = −0,2048
σ 8,3

Se observă o diferenţă de numai 1,7 mm între medie şi mod, modul fiind mai
mare, ceea ce înseamnă că seria prezintă o moderată asimetrie de dreapta (-0,2048).

4.2. O anchetă derulată în rândul salariaţilor unui lanţ de magazine conduce la


următoarea grupare a acestora în funcţie de salariul lunar (milioane lei) şi sex:

Număr de din care:


Intervale de variaţie salariaţi bărbaţi femei
a salariului lunar (mil lei)
până la 3,5*) 58 31 27
3,5 – 4,5 119 71 48
4,5 – 5,5 140 112 28
5,5 – 6,5 102 92 10
6,5 – 7,5 58 55 3
7,5 – 8,5 39 37 2
8,5 şi peste 24 22 2
Total 540 420 120
*)
limita superioară nu este cuprinsă în interval

Se cere:
Să se determine indicatorii tendinţei centrale şi să se comenteze rezultatele
folosind indicatorii variaţiei în jurul mediei şi indicatorii asimetriei.
Rezolvare
Salariul mediu lunar al celor 540 salariaţi investigaţi este de:

Σxi ni 28960
x= = = 5,363 mil lei / luna
Σn i 540

0,5(Σn + 1) − F 270,5 − 177


Me = x Me + k Me ⋅ i = 4,5 + 1 ⋅ = 5,168 mil lei / lună
f Me 140

∆ 21
Mo = x Mo + k Mo ⋅ 1 = 4,5 + 1 ⋅ = 4,856 mil lei / lună
∆ +∆ 21 + 38
1 2

Deoarece Mo < Me < x , rezultă că seria prezintă o asimetrie de stânga (a se


vedea mai jos intensitatea asimetriei).
Statistică teoretică şi economică

Intervalele marginale sunt deschise, ceea ce impune o estimare a amplitudinii


variaţiei cu cu ajutorul centrelor intervalelor de grupare:

A= x −x = 90 − 30 = 60 mil lei
max min
A
A % = ⋅ 100 = 111,9%
x
Întrucât amplitudinea variaţiei comparată cu media colectivităţii depăşeşte 100%,
se poate afirma că mărimea împrăştierii este destul de mare.
Dispersia se determină cu ajutorul formulei de calcul simplificat astfel:

2
Σx i ⋅ n i 16880
σ 02 = − ( x0 ) 2 = − 5,363 2 = 2,4979
Σni 540

iar abaterea medie pătratică este:

σ 0 = σ 02 = 1,58 mil lei

Coeficientul de variaţie:

σ0
v0 = ⋅ 100 = 29,5%
x0

Pentru că intensitatea împrăştierii este sub 35%, putem accepta că, pe total,
colectivitatea salariaţilor este relativ omogenă din punct de vedere al salariului lunar.
Indicatorii asimetriei propuşi de Pearson sunt:

Asimetria absolută: as = x − Mo = 5,353 − 4,856 = +0,507 mil lei


x − Mo 0 ,507
Coeficientul de asimetrie: C as = = = +0 ,3209 .
σ 1,58

Valoarea coeficientului indică o asimetrie moderată de stânga (pozitivă).


Să se determine x j şi σ 2j pentru salariaţii de sex masculin şi feminin şi să se
verifice regula de adunare a dispersiilor.
Rezovare:
Indicatorii specifici celor două grupe de salariaţi se obţin astfel:

• Pentru salariaţii de sex masculin:

Σxi ni1 2368


x1 = = = 5,638 mil lei
Σni1 420
Statistică teoretică şi economică

Σ( xi − x1 ) 2 ⋅ ni1
σ = 2
1 = 2,4309
Σni1

σ 1 = 1,559 mil lei


v1 = 27,7%

• Pentru salariaţii de sex feminin:

Σxi ni 2 528
x2 = = = 4,4 mil lei
Σn i 2 120

Σ( xi − x2 ) 2 ⋅ ni 2
σ 22 = = 1,54
Σni 2

σ 2 = 1,241 mil lei

v 2 = 28,2%

Dispersia explicată prin împărţirea salariaţilor după sex:

Σ( x j − x 0 ) 2 ⋅ n j ∆2y / x 43,0468
δ = 2
= = = 0,2649
Σn j Σn j 540

Dispersia reziduală:

Σσ 2j ⋅ n j ∆2y / z 1205,778
σ = 2
= = = 0,2649
Σn j Σn j 540

Regula de adunare a dispersiilor:

σ 02 = δ 2 + σ 2

2,4779 ≅ 0,2649 + 2,2329

Ca urmare a repetatelor rotunjiri, pot apare unele mici diferenţe, cum este şi în
acest caz.
Să se afle în ce măsură influenţează sexul salariaţilor variaţia în jurul mediei (D)
şi să se testeze dacă diferenţa (disparitatea salarială) este statistic consistentă (testul F şi,
eventual, testul t).
Rezovare:
Coeficientul de determinaţie:
Statistică teoretică şi economică

δ2 0 ,2649
D= ⋅ 100 = ⋅ 100 = 10 ,6%
σ0
2
2,979

Doar 10,6% din variaţia totală a salariilor poate fi explicată prin diferenţierea
salariaţilor după sex.
- Testul Fisher-Snedecor se aplică pentru a vedea dacă o asemenea influenţă redusă
este statistic semnificativă:
-
∆2y / x ∆2y / z 143,9468 1205,778 13,0468
F= : = : = = 63,825
r −1 n − r 2 −1 540 − 2 2,2412

Pentru probabilitatea p = 0,95 (eroare acceptată α = 0,05), F1, 538 ∈ (3,84; 3,92).
Cum Fcalculat > Ftabelat ⇒ factorul de grupare (sexul) are o influenţă consistentă
asupra variaţiei salariilor lunare ale celor 540 angajaţi.
- Testul Student pentru verificarea semnificaţiei diferenţei între două medii:

x1 − x 2 5,638 − 4,4 1,238


t= = = = 9,0723
σ 12 σ 22 2,4309 1,54 0,1365
+ +
n1 n2 420 120

Valoarea calculată este mult mai mare decât t = 1,96 (pentru o eroare acceptată α
= 0,05) sau t = 2,58 (pentru o eroare acceptată α = 0,01), ceea ce înseamnă că mediile
diferă consistent din punct de vedere statistic (grade de libertate n-r = 540-2 = 538).

Să se prezinte grafic disparitatea între salarizarea femeilor şi bărbaţilor.


Rezovare:
Disparitatea salarizării bărbaţi-femei poate fi observată prin compararea
repartiţiilor de frecvenţe relative pe intervale de variaţie a salariului lunar brut,
determinate pe baza ultimelor două coloane ale tabelului din enunţ:

Intervale de variaţie a Ponderea persoanelor cuprinse în diferite grupe de


salariului lunar (mil lei) salarizare faţă de total
la bărbaţi (%) la femei (%)
până la 3,5 7,4 22,5
3,5 – 4,5 16,9 40,0
4,5 – 5,5 26,7 23,3
5,5 – 6,5 21,9 8,3
6,5 – 7,5 13,1 2,5
7,5 – 8,5 8,8 1,7
8,5 şi peste 5,2 1,7
Total 100,0 100,0

În timp ce femeile se află preponderent grupate în primele trei intervale de


salarizare, bărbaţii se repartizează mai unioform pe întreaga gamă de salarizare, iar cei
mai mulţi se află în grupele 3, 4 şi 5, potrivit ordinii de prezentare din enunţul problemei.
Statistică teoretică şi economică

Structura câştigurilor salariale ale


angajaţilor de sex masculin

9% 5% 7%
17%
13%

22% 27%

sub 3.5 mil 3.5 - 4.5 mil 4.5 - 5.5 mil 5.5 - 6.5 mil
6.5 - 7.5 mil 7.5 - 8.5 mil 8.5 mil si peste

Structura câştigurilor salariale ale


angajaţilor de sex feminin
8% 3% 2%2%
23%

23%

39%

sub 3.5 mil 3.5 - 4.5 mil 4.5 - 5.5 mil 5.5 - 6.5 mil
6.5 - 7.5 mil 7.5 - 8.5 mil 8.5 mil si peste

Disparitatea mai poate fi remarcată şi prin observarea ponderii diferitelor grupe de


salarizare în totalul fondului de salarii achitat salariaţilor de sex masculin şi, respectiv,
feminin. Faţă de rezolvarea de mai sus (care are în vedere doar numărul de bărbaţi şi
femei cuprins în intervale de salarizare), această variantă ia în considerare şi salariile
plătite:
Statistică teoretică şi economică

Fondul de salarii (mil lei) Ponderea în total (%)


bărbaţi femei bărbaţi femei

Intervale de variaţie a
salariului lunar (mil lei)
până la 3,5 93 81 3,9 15,3
3,5 – 4,5 284 192 12,0 36,4
4,5 – 5,5 560 140 23,6 26,5
5,5 – 6,5 552 60 23,3 11,4
6,5 – 7,5 385 21 16,3 4,0
7,5 – 8,5 296 16 12,5 3,0
8,5 şi peste 198 18 8,4 3,4
Total 2368 528 100,0 100,0

Se constată că, în totalul salariilor încasate de femei, salariile mici cuprinse în


primele două intervale de grupare au ponderi considerabil mai mari decât în cazul
salariilor bărbaţilor. Situaţia se inversează la următoarele intervale de grupare (salarii
mijlocii şi mari): ponderea acestor grupe de salarizare este mult mi mică în cazul femeilor
decât la bărbaţi.

4.3. Calculaţi abaterea medie pătratică şi dispersia din următoarele valori: 2, 5, 7, 9


şi 10.

4.4. Se consideră o firmă de comerţ exterior care are 15 sucursale în oraşe diferite
grupate după profitul obţinut astfel:
(date convenţionale)
Grupe după profit (mil.$) Număr filiale
Sub 10 2
10-20 3
20-30 7
30-40 2
peste 40 1

Se cere:
1. să se determine indicatorii simplii ai variaţiei;
2. să se determine indicatorii sintetici ai variaţiei.

4.5. Fie x10 = 5 şi σ 2 10 = 20 media şi dispersia numerelor a1 ,..., a10 .


Presupunem că se adaugă termenul următor este a11 = 16 .
1. Care va fi media aritmetică x11 a numerelor a1 ,..., a11 ?
2. Presupunem că a11 = 5 . Calculaţi x11 şi σ 112 .
3. Determinaţi media aritmetică x n +1 a n+1 termeni ca o funcţie de x n , a n +1 şi de n.

4.6. Fie v coeficientul de variaţie al n numere. Dacă fiecare din aceste numere este
înmulţit cu 2, să se precizeze care va fi noul coeficent de variaţie?
Statistică teoretică şi economică

4.7. Pentru determinarea calităţii unor produse destinate exportului au fost


examinate un număr de 1000 produse din care 850 au fost confirmate ca făcând faţă
cerinţelor standardelor internaţionale.
Se cere:
1. procentul mediu de produse bune;
2. dispersia colectivităţii;
3. coeficientul de variaţie.

4.8. În urma efectuării unei anchete statistice într-un oraş de provincie în rândul a
300 de persoane privind timpul de deplasare zilnică rezultă următoarea situaţie:

Timp de deplasare zilnică (min.) Număr de persoane


0-30 30
30-60 60
60-90 100
90-120 70
120-150 40
Total 300

Se cere:
1. să se caracterizeze gradul de omogenitate al repartiţiei;
2. să se calculeze indicatorii tendinţei centrale;
3. să se măsoare gradul de asimetrie.

S-ar putea să vă placă și