Documente Academic
Documente Profesional
Documente Cultură
c4 Variat PDF
c4 Variat PDF
CAPITOLUL 4.
ANALIZA STATISTICĂ A SERIILOR DE REPARTIŢIE
Cuvinte cheie:
- amplitudinea variaţiei
- abaterea medie liniară
- abaterea medie pătratică (standard)
- coeficientul de variatie
- coeficientul de concentrare GINI
- dispersia
- dispersia explicata
- dispersia reziduala
- seria de repartiţie
- variabila alternativă
- diagramă de structură
- curbă de concentrare
- curba frecvenţelor cumulate
- ogivă
- diagramă de corelaţii
Din cel de-al doilea set de indicatori din cadrul sistemului de indicatori care
caracterizeaza repartiţiile unidimensionale fac parte:
Obs.1. din datele prezentate lipseşte oraşul Bucureşti care având o populaţie de peste 5 ori mai mare
decât limita superioară a ultimului interval de grupare se constituie într-un element atipic
al colectivităţii localităţilor urbane din România;
Obs.2. intervalele de grupare folosite în statistica oficială a României pentru aceste date sunt neegale.
Pentru calculul mediei este necesară stabilirea centrelor intervalelor de grupare (xi), ca
medii aritmetice simple ale limitelor fiecărui interval de grupare. Primul interval se consideră închis
la limita inferioară de 200 pers.
11001
x= = 42,475 mii persoane
259
Media este varianta care împarte seria ordonată în două părţi egale.
n +1 259 + 1
Loc Me = ; Loc Me = 130 .
2 2
Într-o serie organizată pe intervale de grupare, după aflarea locului medianei se procedează
la identificarea intervalului ce conţine mediana. Adunând treptat frecvenţele ajungem la un număr
mai mare sau egal cu cel al locului meidanei, astfel rezultând intervalul în care se găseşte mediana.
Mediana se calculează după relaţia următoare:
0,5(n + 1) − ∑ np Me
Me = x 0 + k ⋅ , unde:
n Me
130 − 64
Me = 10 + 10 ⋅ = 17,586 mii pers.
87
Mediala separă în două părţi egale suma produselor dintre valorile variabilei şi frecvenţele
corespunzătoare. Mediala se aplică la repartiţia valorilor globale ale variabilei analizate.
locMl − ∑ npMl
Ml = x 0 + k ⋅ .
n Ml
Într-o serie organizată pe intervale de grupare, valoarea modală se află tot prin interpolare
în interiorul cu frecvenţa cea mai mare. Intervalul modal din tabel este (10-20) (nu este obligatoriu să
coincidă cu cel al medianei).
Modul se calculează după relaţia:
∆1
Mo = x 0 + k ⋅ , unde:
∆2 + ∆3
34
Mo = 10 + 10 ⋅ = 15,667 mii pers.
34 + 26
Chiar dacă cele trei valori ale tendinţei centrale ar fi fost foarte apropiate în
preocuparea economistului trebuie să se afle nu numai valorile tipice (cu caracter de
generalitate cu mediile) ci şi variabilitatea în jurul mediei. Se pune problema de a
carcteriza mărimea, intensitatea şi forma variaţiei în jurul mediei.
d i = xi − x
d i % = (( x i − x ) ⋅ x ) ⋅ 100
d=
∑ (x i − x)
n
d=
∑ (d )n
i i
=
∑ ( x − x ) = 10257,375 = ±39,604 mii pers.
i
∑n i ∑n i 259
Interpretare: populaţia din cele 259 de localităţi este cu 39,604 mii pers. mai mică sau mai
mare decât media calculată ca fiind egală cu 42,475 mii pers.
2) Dispersia poate fi definită ca medie aritmetică a pătratelor abaterilor de la
media colectivităţii. Este o mărime abstractă, adimensională ce nu serveşte direct analizei
variaţiei.
σ2 =
∑ (x i − x)
n
σ2 =
∑ (x i − x ) 2 ⋅ ni
=
1159524,5
= 4476,9285
∑n i 259
σ 2
=
∑x ⋅n 2
i i
− (x) 2 =
1626791
− (42,475) 2 = 4476,9285
∑n i 259
σ = σ2
4) coeficientul de variaţie este indicatorul cel mai sintetic care exprimă într-o
formă abstractă intensitatea variaţiei. Se calculează astfel:
σ 66,91
v= ⋅ 100 = ⋅ 100 = 157,5%
x 42,475
as = x − Mo ≤ 0
x − Mo 3 ⋅ ( x − Me)
C as = sau C as′
σ σ
C as ∈ [− 1,1] C as′ ∈ [− 3,+3]
26,808
C as = = +0,4007 rezultă că media nu este caracteristică pentru că are loc
66,91
o asimetrie mică.
yi =
∑ y ⋅nj ij
y0 =
∑ y ⋅n j j
∑n ij ∑n j
j
5000
y0 = = 50 min
100
15 ⋅ 30 + 50 ⋅ 20 + 70 ⋅ 5
y1 = = 45 min
40
30 ⋅ 10 + 50 ⋅ 30 + 70 ⋅ 20 3200
y2 = = = 53,3 min
60 60
∑(y j
j − y i ) ⋅ nij
σ = 2
∑n
i
ij
i
σ 2
=
∑(y j − y0 ) 2 n j
∑n
0
j
Pe baza acestor indicatori se trece la determinarea în cadrul fiecărei grupe a abaterii medii
pătratice (σi) şi a coeficientului de variaţie (vi).
Pentru a rezuma aceste consideraţii sub forma unor indicatori statistici ce calculează
dispersia explicată de numărul de staţii de aşteptare (σ2) şi dispersia reziduală (σ2) ca părţi ale
dispersiei generale (σ2o).
Dispersia explicată σ2 se calculează ca dispersia de grupă faţă de media generală şi se
numeşte explicată pentru că mediile de grupă sunt determinate, condiţionate de numărul de staţii de
aşteptare:
σ 2
=
∑(y i − y 0 ) ⋅ ni
=
(45 − 50) 2 ⋅ 40 + (53,3 − 50) 2 ⋅ 60 1653,4
= = 16,6
∑n i 100 100
Disperisa reziduală σ arată influenţa factorilor reziduali (alţi factori decât numărul de
2
σ 2
=
∑σ ⋅ ni
2
i
=
175 ⋅ 40 + 188,89 ⋅ 60 18333,4
= = 183,4
∑n i 100 100
σ 02 = σ 2 + σ 2
σ2 16,6
R2 = ⋅ 100 = = 8,3%
σ0
2
200
Deci, în proporţie de 8,3% variaţia timpilor de aşteptare poate fi explicată prin factorul
″numărul de staţii de aşteptare″.
- coeficientul de nedeterminaţie (k2) care este o valoare complementară faţă de R2.
σ2 183,4
k = 2 ⋅ 100 =
2
⋅ 100 = 91,7%
σ0 200
Deoarece coeficientul de determinaţie este mai mic de 50% este necesară testarea statistică a
semnificaţiei influenţei factorului de grupare asupra variabilei cercetate.
Această testare statistică se face cu ajutorul testului Fisher-Snedecor (F). Acest test verifică
consistenţa influenţei factorului suplimentar de grupare comparând cele două părţi ale dispersiei
generale. Mai precis, se iau în considerare numărătorii acestor dispersii (denumiţi varianţe sau
devianţe) corectaţi cu un număr corespunzător al gradelor de libertate de variaţie.
∆2 ⋅ x ∆2 ⋅ z
F= :
r −1 n − r
Statistică teoretică şi economică
∆2x = ∑ ( y i − y 0 ) 2 ⋅ ni
∆2z = ∑ σ i2 ⋅ ni
x=
∑x ⋅ni i
=
1⋅ M + 0 ⋅ (N − M ) M
= =p
∑n i N N
Din totalul de N elemente ale unei colectivităţi se notează cu M numărul de elemente care
posedă starea care ne interesează (în cazul nostru n1 = M iar n2 = N-M, rezultă n1 + n2 = N
Statistică teoretică şi economică
prin urmare media unei caracteristici alternative este egală cu cota parte a elementelor care posedă
varianta (starea) ce ne interesează în analiză.
99032
P= = 0,46
215226
Dacă se foloseşte frecvenţa relativă atunci:
x = ∑ x i ⋅ nix = 1 ⋅ p + 0 ⋅ q = p
σ2 =
∑ (x − x)
i
2
=
(1 − p) 2 ⋅ p + (0 − p) 2 ⋅ q q 2 p + p 2 ⋅ q
= = pq = 0,2484
∑n i p+q p+q
Dispersia unei caracteristici alternative este produsul cotelor părţi ale celor două stări sau
vriante în colectivitatea generală.
Media şi dispersia caracteristicii alternative se folosesc în estimarea unor parametrii ai
colectivităţii generale atunci când cercetarea se bazează pe eşantioane reprezentative.
Coeficienţi de concentrare
1. GINI (1922, fondat de şcoala statistică din Italia)
n xi
c = ∑ g i2 , gi = i ,
∑ ni ∑ xi
gi = cota parte neprocentuală a fiecărei stări în totalul colectivităţii.
1
≤c≤i
n
n∑ g i2 − 1
c′ = , 0 < c′ < 1
n −1
8 ⋅ 0,32 − 1
c′ = = 0,4728 , adică alternează la mijlocul intervalului de definire, însă nu
8 −1
se poate vorbi de o repartiţie echilibrată.
Probleme şi aplicaţii
4.1. Pentru a verifica reglarea unei maşini de debitat, din producţia realizată de-a lungul
unei zile (N = 600 piese) se prelevă un eşantion n = 65 piese, care măsoară în mm:
90,9 93,2 72,4 91,7 93,2 67,4 75,0 83,3 75,0 90,2 99,2 88,6 62,8
95,5 76,1 78,8 97,0 65,2 77,8 86,4 87,1 76,1 86,4 96,2 83,3 87,9
70,5 83,3 91,7 93,9 91,7 84,1 85,6 87,9 89,4 85,6 84,1 100,0 80,3
92,4 88,6 92,4 97,7 7,9 95,5 87,1 91,7 96,2 92,4 86,4 81,8 76,5
89,4 92,4 93,2 88,6 87,1 97,0 96,2 86,1 90,9 87,9 98,5 98,5 81,8
Statistică teoretică şi economică
Σxi ni 5659
• Media: x = = = 87,0615 ≈ 87,1 mm
Σn i 65
Σni + 1 65 + 1
• Locul medianei: locMe = = = 33;
2 2
Mediana este a 33-a variantă în seria ordonată crescător. Deci, Me = 87,9 mm.
• Pentru a afla modul se va observa că frecvenţa maximă înregistrată este 4,
întâlnită la trei variante. Deci, seria de variante distincte ale caracteristicii
observate este o serie trimodală (cu trei moduri):
Mo = 87,9 mm; Mo = 91,7 mm; Mo = 92,4 mm.
Indicatorii variaţiei:
A 37,2
A% = ⋅ 100 = ⋅ 100 = 42,7%
x 87,1
σ = σ 2 = 8,42 mm
Cele 65 piese măsurate sunt în medie cu 8,42 mm mai scurte sau mai lungi decât media
calculată (87,1 mm).
• Coeficientul de variaţie:
σ
v= ⋅ 100 = 9,67%
x
• Locul medianei este tot 33, dar se va observa că această variantă este cuprinsă
în intervalul (85,1 – 90,0). Prin interpolarea în acest interval, rezultă mediana:
0,5(Σn + 1) − F 33 − 20
Me = x Me + k Me ⋅ i = 85,1 + 5 ⋅ = 88,7 mm
f Me 18
∆ 10
Mo = x Mo + k Mo ⋅ 1 = 85,1 + 5 ⋅ = 88,9 mm
∆ +∆ 10 + 3
1 2
A = 97,5 – 62,5 = 35 mm
A% = (35:87,2)*100 = 40,14%
∗
Eroarea de estimare (e) indusă de folosirea centrelor intervalelor de grupare, în locul variantelor reale, se
obţine comparând mediile din rezolvările 1 şi 2:
x −x 87.2 − 87.1
e = 2 1 ⋅ 100 = ⋅ 100 = +0,11% (o eroare neglijabilă).
x1 87.1
Statistică teoretică şi economică
Număr
piese (xi) xi − x ( xi − x ) 2 ni 2
xi ni
(ni)
Intervale de
variaţie a lungimii
piesei (mm)
Până la 65 1 62,5 -24,7 610,09 3906,25
65,1 – 70,0 2 67,5 -19,7 776,18 9112,50
70,1 – 75,0 4 72,5 -14,7 864,36 21025,00
75,1 – 80,0 5 77,5 -9,7 470,45 30031,25
80,1 – 85,0 8 82,5 -4,7 176,72 54450,00
85,1 – 90,0 18 87,5 0,3 1,62 137812,50
90,1 – 95,0 15 92,5 5,3 421,35 128343,75
95,1 – 100,0 12 97,5 10,3 1273,08 114075,00
Total 65 --- --- 4593,85 498756,25
Σ( xi − x ) 2 ⋅ ni 4593,85
σ2 = = = 70,6746 ,
Σn i 65
2
Σxi ⋅ ni 49756,25
σ2 = − (x)2 = − 87,2 2 = 69,3333
Σn i 65
Diferenţa dintre cele două rezultate este cauzată de rotunjirile repetate la prima
versiune a calculului.
Abaterea medie pătratică este radicalul de ordinul doi din dispersie:
σ 2 = σ 2 = 69.3333 = 8,3 mm ,
ceea ce arată că între lungimile reale ale celor 65 piese observate şi media estimată există
o distanţă medie de aproximativ 8,3 mm.
σ 8,3
v= ⋅ 100 = ⋅ 100 = 9,5%
x 87,2
Statistică teoretică şi economică
Deci, intensitatea variaţiei în jurul mediei este redusă (sub 35%), colectivitatea
este omogenă, bine caracterizată prin valoarea medie a lungimii pieselor.
Se observă o diferenţă de numai 1,7 mm între medie şi mod, modul fiind mai
mare, ceea ce înseamnă că seria prezintă o moderată asimetrie de dreapta (-0,2048).
Se cere:
Să se determine indicatorii tendinţei centrale şi să se comenteze rezultatele
folosind indicatorii variaţiei în jurul mediei şi indicatorii asimetriei.
Rezolvare
Salariul mediu lunar al celor 540 salariaţi investigaţi este de:
Σxi ni 28960
x= = = 5,363 mil lei / luna
Σn i 540
∆ 21
Mo = x Mo + k Mo ⋅ 1 = 4,5 + 1 ⋅ = 4,856 mil lei / lună
∆ +∆ 21 + 38
1 2
A= x −x = 90 − 30 = 60 mil lei
max min
A
A % = ⋅ 100 = 111,9%
x
Întrucât amplitudinea variaţiei comparată cu media colectivităţii depăşeşte 100%,
se poate afirma că mărimea împrăştierii este destul de mare.
Dispersia se determină cu ajutorul formulei de calcul simplificat astfel:
2
Σx i ⋅ n i 16880
σ 02 = − ( x0 ) 2 = − 5,363 2 = 2,4979
Σni 540
Coeficientul de variaţie:
σ0
v0 = ⋅ 100 = 29,5%
x0
Pentru că intensitatea împrăştierii este sub 35%, putem accepta că, pe total,
colectivitatea salariaţilor este relativ omogenă din punct de vedere al salariului lunar.
Indicatorii asimetriei propuşi de Pearson sunt:
Σ( xi − x1 ) 2 ⋅ ni1
σ = 2
1 = 2,4309
Σni1
Σxi ni 2 528
x2 = = = 4,4 mil lei
Σn i 2 120
Σ( xi − x2 ) 2 ⋅ ni 2
σ 22 = = 1,54
Σni 2
v 2 = 28,2%
Σ( x j − x 0 ) 2 ⋅ n j ∆2y / x 43,0468
δ = 2
= = = 0,2649
Σn j Σn j 540
Dispersia reziduală:
Σσ 2j ⋅ n j ∆2y / z 1205,778
σ = 2
= = = 0,2649
Σn j Σn j 540
σ 02 = δ 2 + σ 2
Ca urmare a repetatelor rotunjiri, pot apare unele mici diferenţe, cum este şi în
acest caz.
Să se afle în ce măsură influenţează sexul salariaţilor variaţia în jurul mediei (D)
şi să se testeze dacă diferenţa (disparitatea salarială) este statistic consistentă (testul F şi,
eventual, testul t).
Rezovare:
Coeficientul de determinaţie:
Statistică teoretică şi economică
δ2 0 ,2649
D= ⋅ 100 = ⋅ 100 = 10 ,6%
σ0
2
2,979
Doar 10,6% din variaţia totală a salariilor poate fi explicată prin diferenţierea
salariaţilor după sex.
- Testul Fisher-Snedecor se aplică pentru a vedea dacă o asemenea influenţă redusă
este statistic semnificativă:
-
∆2y / x ∆2y / z 143,9468 1205,778 13,0468
F= : = : = = 63,825
r −1 n − r 2 −1 540 − 2 2,2412
Pentru probabilitatea p = 0,95 (eroare acceptată α = 0,05), F1, 538 ∈ (3,84; 3,92).
Cum Fcalculat > Ftabelat ⇒ factorul de grupare (sexul) are o influenţă consistentă
asupra variaţiei salariilor lunare ale celor 540 angajaţi.
- Testul Student pentru verificarea semnificaţiei diferenţei între două medii:
Valoarea calculată este mult mai mare decât t = 1,96 (pentru o eroare acceptată α
= 0,05) sau t = 2,58 (pentru o eroare acceptată α = 0,01), ceea ce înseamnă că mediile
diferă consistent din punct de vedere statistic (grade de libertate n-r = 540-2 = 538).
9% 5% 7%
17%
13%
22% 27%
sub 3.5 mil 3.5 - 4.5 mil 4.5 - 5.5 mil 5.5 - 6.5 mil
6.5 - 7.5 mil 7.5 - 8.5 mil 8.5 mil si peste
23%
39%
sub 3.5 mil 3.5 - 4.5 mil 4.5 - 5.5 mil 5.5 - 6.5 mil
6.5 - 7.5 mil 7.5 - 8.5 mil 8.5 mil si peste
Intervale de variaţie a
salariului lunar (mil lei)
până la 3,5 93 81 3,9 15,3
3,5 – 4,5 284 192 12,0 36,4
4,5 – 5,5 560 140 23,6 26,5
5,5 – 6,5 552 60 23,3 11,4
6,5 – 7,5 385 21 16,3 4,0
7,5 – 8,5 296 16 12,5 3,0
8,5 şi peste 198 18 8,4 3,4
Total 2368 528 100,0 100,0
4.4. Se consideră o firmă de comerţ exterior care are 15 sucursale în oraşe diferite
grupate după profitul obţinut astfel:
(date convenţionale)
Grupe după profit (mil.$) Număr filiale
Sub 10 2
10-20 3
20-30 7
30-40 2
peste 40 1
Se cere:
1. să se determine indicatorii simplii ai variaţiei;
2. să se determine indicatorii sintetici ai variaţiei.
4.6. Fie v coeficientul de variaţie al n numere. Dacă fiecare din aceste numere este
înmulţit cu 2, să se precizeze care va fi noul coeficent de variaţie?
Statistică teoretică şi economică
4.8. În urma efectuării unei anchete statistice într-un oraş de provincie în rândul a
300 de persoane privind timpul de deplasare zilnică rezultă următoarea situaţie:
Se cere:
1. să se caracterizeze gradul de omogenitate al repartiţiei;
2. să se calculeze indicatorii tendinţei centrale;
3. să se măsoare gradul de asimetrie.