Documente Academic
Documente Profesional
Documente Cultură
OBSERVAREA, SISTEMATIZAREA ŞI
PREZENTAREA DATELOR STATISTICE
Cuprinsul capitolului
Obiectivele capitolului 1
1.1. Noţiuni fundamentale
1.2. Etapele unei cercetări statistice
1.3. Variabila de grupare
1.4. Clasificarea și gruparea statistică
1.5. Reprezentări grafice
Rezumat
Termeni cheie
Bibliografie
Obiectivele capitolului 1
În cadrul acestei unităţi de învăţare, structurată în
cinci secţiuni şi mai multe subsecţiuni, sunt definite noţiunile
fundamentale ale statisticii şi principalele metode şi tehnici
de prezentare a datelor statistice utilizate în economie și
administrarea afacerilor.
După parcurgerea primelor secțiuni și la sfârșitul
unității de învățare, studentul va avea de rezolvat două teste de autoevaluare.
Testele sunt construite gradual, ca mărime şi complexitate, din întrebări
deschise, teste grilă și aplicații practice. Încadrarea în parametrii specificaţi
(timp, variante) îi va confirma fiecărui student dezvoltarea competenţelor
necesare pentru trecerea la o nouă unitate de învăţare.
Parcurgerea logică a tuturor elementelor acestei unităţi îi va conferi
fiecărui student următoarele competenţe specifice:
descrierea corectă şi completă, din punct de vedere al conţinutului, spaţiului
şi timpului, a populaţiei sau eşantionului supus studiului statistic;
identificarea şi descrierea corectă a variabilelor (caracteristicile unităţilor
care compun populaţia sau eşantionul) investigate;
alegerea şi utilizarea metodelor adecvate de prezentare a datelor statistice
(tabele, serii, grafice) pentru un studiu de caz concret din domeniul
economic;
formularea unor concluzii pertinente despre datele analizate, pe baza
regularităţilor relevate prin folosirea acestor instrumente statistice.
9
Statistică
11
Statistică
13
Statistică
Tabelul 1.1
Indicatori ai tendinţei
Tipuri de Relaţii matematice care au
centrale
scale sens
posibil de calculat
Nominală - echivalenţă dominanta
- echivalenţă
Ordinală mediana
- ordine
- echivalenţă
Interval - ordine media aritmetică
- raport între două intervale
- echivalenţă
- ordine
Proporţională - raport între două intervale media geometrică
- raport între două valori de
pe scală
discretă
atributivă cantitativă
continuă
calitativă
de spaţiu
14
Observarea, sistematizarea şi prezentarea datelor statistice
Test de autoevaluare 1
1. Ce reprezintă o populație (colectivitate) statistică?
15
Statistică
2
Conform DEX reprezintă listã sau culegere care cuprinde nomenclatura unui domeniu de
activitate, sistematizatã dupã anumite criterii.
16
Observarea, sistematizarea şi prezentarea datelor statistice
Exemplul 1.1:
Distribuţia angajaţilor Firmei A după Distribuţia muncitorilor din Firma B după
salariul lunar categoria de calificare
Salariul Numărul de Categoria de Numărul de
lunar (lei) angajaţi calificare muncitori
850-900 3 I 3
900-950 12 II 22
950-1000 25 III 35
1000-1050 30 IV 20
1050-1100 10 V 10
Total 80 Total 90
Notă. Limita inferioară se include
în interval. Figura 1.3. Serie de distribuţie
Figura 1.2. Serie de simplă, după variante
distribuţie simplă, după
intervale.
17
Statistică
Mod de construcţie:
Serie de distribuţie simplă
Dacă variabila de grupare atributivă este şi calitativă, seria de distribuţie
care se obţine este una după variante.
Dacă variabila de grupare atributivă este cantitativă şi continuă, seria de
distribuţie care se obţine este una după intervale de variaţie.
Dacă variabila de grupare atributivă este cantitativă, discretă şi are un
domeniu redus de variaţie, seria de distribuţie care se obţine este una după
variante, iar dacă are un domeniu larg de variaţie atunci este recomandată
construirea unei serii de distribuţie după intervale de variaţie.
În cazul construcţiei unei serii de distribuţie după variante (figura 1.3) nu
se ridică probleme deosebite. După ce se determină variantele caracteristicii de
grupare, se trece la construirea frecvenţelor, prin simpla numărare a unităţilor
statistice din colectivitatea studiată care se încadrează pentru fiecare variantă
în parte.
În cazul construcţiei unei serii de distribuţie după intervale de variaţie se
cer clarificate câteva elemente:
1. Câte intervale ar trebui construite?
2. Care ar trebui să fie mărimea unui interval?
Numărul şi mărimea intervalelor sunt factori care influenţează direct modul
în care unităţile statistice din colectivitatea studiată se vor repartiza în cadrul
intervalelor de variaţie, altfel spus influenţează forma distribuţiei şi implicit
mărimea şi semnificaţia indicatorilor sintetici ce vor fi calculaţi pe baza acesteia.
Pentru construirea unui asemenea tip de serie mai frecvent se utilizează
următoarele variante:
• se stabileşte empiric un anumit număr de intervale (n), pornind de la
ideea că cel care urmează să construiască seria beneficiază de o
bogată experienţă teoretică şi practică în domeniu, caz în care rămâne
de determinat doar mărimea intervalelor. Aceasta se poate determina
cu ajutorul relaţiei:
x max − x min
k=
n
Unde x max , x min - valoarea maximă, respectiv minimă a
caracteristicii de grupare studiate
• se determină numărul intervalelor folosind relaţia determinată
experimental de statisticianul american H.A. Sturges
n = 1 + 3.322 log N
unde log N - logaritmul în baza 10 din numărul total de unităţi
statistice din populaţia studiată
18
Observarea, sistematizarea şi prezentarea datelor statistice
∑f
i =1
i =N
150 − 100
k= = 10 lei
5
20
Observarea, sistematizarea şi prezentarea datelor statistice
Tabelul 1.6.
1,7 2,0 2,3 2,6 2,9
Y
- - - - - fx
X
2,0 2,3 2,6 2,9 3,2
100-110 2 1 0 0 3
110-120 0 2 1 0 0 3
120-130 0 1 3 2 0 6
130-140 0 0 1 2 0 3
140-150 0 0 0 0 3 3
fy 2 4 5 4 3 18
Notă: Limita inferioară este inclusă în interval.
∑
i =1
f xi = ∑ f y j = ∑∑ f ij = N
j =1 i =1 j =1
unde:
f xi - frecvenţe absolute determinate numai după variabila X, ignorând
variabila Y;
f yj - frecvenţe absolute determinate numai după variabila Y, ignorând
variabila X;
f ij - frecvenţe absolute duble determinate simultan după ambele variabile
X şi Y (se află poziţionate în zona gri din tabel);
Tabelul unei serii de distribuţie bidimensionale conţine de fapt trei
distribuţii:
1. Distribuţia unităţilor statistice numai după prima variabilă de grupare (X),
dacă din tabel se separă prima şi ultima coloană – serie de distribuţie
simplă numai după variabila X, ignorând variabila Y.
Tabelul 1.7.
Productivitatea Nr. de
orară a muncii (wh) muncitori
- lei-
100-110 3
110-120 3
120-130 6
130-140 3
140-150 3
Total 18
21
Statistică
Tabelul 1.8.
Salariul fi pi fcci fcdi pcci pcdi
(xi) (cumulate (cumulate (cumulate (cumulate
-mii lei- crescător) descrescător) crescător) descrescător)
1,7-2,0 2 2/18=0,111 2 18 0,111 1,000
2,0-2,3 4 4/18=0,222 6 16 0,333 0,889
2,3-2,6 5 5/18=0,278 11 12 0,611 0,667
2,6-2,9 4 4/18=0,222 15 7 0,833 0,389
2,9-3,2 3 3/18=0,167 18 3 1,000 0,167
Total 18 1 * * * *
Condiţii:
1. Se pot construi numai pe baza variabilelor de grupare de timp.
2. Valorile variabilei de grupare de timp trebuie să ordonate
cronologic.
3. Trebuie să conţină un număr suficient de mare de valori pentru a
permite surprinderea tendinţelor evolutive ale variabilelor urmărite în timp.
4. Valorile variabilelor a căror tendinţă se studiază, cuprinse în serie, trebuie
să se refere la aceeaşi unitate spaţială.
Tipuri:
Ca serie simplă, seria cronologică este o paralelă între şirul momentelor
sau intervalelor de timp, care vizează variabila de grupare, şi cel al valorilor
altei variabile, a cărei tendinţă evolutivă se urmăreşte.
Ca serie complexă, seria cronologică este o paralelă între şirul
momentelor sau intervalelor de timp, care vizează variabila de grupare, şi cele
ale valorilor altor variabile a căror tendinţă evolutivă se urmăreşte.
Seriile cronologice nu pun probleme deosebite în ceea ce priveşte
construcţia, atât timp cât sunt îndeplinite condiţiile de bază.
22
Observarea, sistematizarea şi prezentarea datelor statistice
Exemplul 1.4:
Situaţia stocului de piese tip A şi de combustibili la firma
Evoluţia cifrei de afaceri a firmei C. Autotransport.
Cifra de Stocul de Stocul de
Anul Data
afaceri piese tip A combustibil
-mii lei- -buc- -tone-
2007 600 1.01.13 80 100
2008 850 1.02.13 120 *
2009 748 1.03.13 100 248
2010 805 1.04.13 115 305
2011 983 1.05.13 125 *
2012 1005 1.06.13 150 305
2013 1300 1.07.13 260 300
Figura 1.4. Serie cronologică Figura 1.5. Serie cronologică complexă,
simplă, după intervale de timp după momente de timp.
Condiţii:
1. Se pot construi numai pe baza variabilelor de grupare de spaţiu.
2. Trebuie să conţină un număr suficient de mare de valori pentru a
permite surprinderea variaţiilor variabilelor urmărite în profil
teritorial.
3. Valorile variabilelor a căror variaţie se studiază, cuprinse în serie, trebuie să
se refere la aceeaşi perioadă de timp.
Tipuri:
Ca serie simplă, seria de spaţiu este o paralelă între şirul variantelor
variabilei de grupare, şi cel al valorilor altei variabile, a cărei variabilitate
teritorială se urmăreşte.
Ca serie complexă, seria de spaţiu este o paralelă între şirul variantelor
variabilei de grupare, şi cele ale valorilor altor variabile a căror variabilitate
teritorială se urmăreşte.
Exemplul 1.5:
Populaţia la data de 1 iulie 2011 Durata medie de viaţă a populaţiei din sud-vestul
României, 2011
Judeţul Populaţia Durata medie de viaţă
Dolj 697813 Judeţul - ani-
Gorj 375147 Masculin Feminin
Mehedinţi 288775 Dolj 69,69 77,12
Olt 458380 Gorj 70,83 76,97
Vâlcea 404993 Mehedinţi 69,55 75,75
Sursa: Anuarul statistic al României Olt 69,57 76,88
2012 Vâlcea 72,62 79,39
Figura 1.6. Serie de spaţiu Sursa: Anuarul statistic al României 2012
simplă. Figura 1.7. Serie de spaţiu complexă.
23
Statistică
serie de distribuţie
după variante
discretă
cantitativă serie de distribuţie
atributivă după intervale
continuă
calitativă serie de distribuţie
după variante
de spaţiu
serie de spaţiu
Figura 1.9
24
Observarea, sistematizarea şi prezentarea datelor statistice
Figura 1.10
25
Statistică
Metodologia de construcţie
Se foloseşte drept suport sistemul axelor rectangulare.
Pe abscisă (axa Ox) se trec valorile scării de reprezentare
aferente variabilei de grupare (x).
Pe ordonată (axa Oy) se trec valorile scării de reprezentare
aferentă frecvenţelor (fi).
Din dreptul diviziunilor, pentru seriile construite pe bază de variabile
discrete, se ridică batoane a căror înălţime este proporţională cu frecvenţa
corespunzătoare fiecărei variante.
Din dreptul intervalului, pentru seriile construite pe bază de variabile
continue, se ridică dreptunghiuri a căror înălţime este proporţională cu
frecvenţa fiecărui interval
Exemplul 1.6:
Tabelul 1.9.
Distribuţia după greutate a coletelor poştale transportate pe
calea ferată, ianuarie 2013
Greutatea Număr
(kg) de colete
40 – 45 7
45 – 50 26
50 – 55 27
55 – 60 37
60 – 65 43
65 – 70 34
70 – 75 27
75 – 80 11
Total 212
55 55
50 50
45 45
40 40
35 35
30 30
25 25
20 20
15 15
10 10
5 5
0 0
40 45 50 55 60 65 70 75 80 40 45 50 55 60 65 70 75 80
Exemplul 1.7:
Tabelul 1.10
Distribuţia după categoria de calificare a
muncitorilor din firma Y martie 2013
Categoria de Număr de
calificare muncitori
I 5
II 15
III 50
IV 55
V 23
VI 2
Total 150
55 55
50 50
45 45
40 40
35 35
30 30
25 25
20 20
15 15
10 10
5 5
0 0
I II III IV V VI I II III IV V VI
Exemplul 1.8:
55 55
50 50
45 45
40 40
35 35
30 30
25 25
20 20
15 15
10 10
5 5
0 0
27
40 45 50 55 60 65 70 75 80 40 45 50 55 60 65 70 75 80
Metodologie de construcţie
Se ridică, de pe abscisă, din dreptul fiecărui interval, dreptunghiuri a
căror înălţime este proporţională cu frecvenţa cumulată crescătoare
corespunzătoare intervalului. Se porneşte din colţul stânga-jos al
primului dreptunghi şi se unesc, prin segmente de dreaptă, colţurile
din dreapta sus ale dreptunghiurilor, obţinându-se astfel ogiva.
Exemplul 1.9:
220
200
180
160
140
120
100
80
60
40
20
0
40 45 50 55 60 65 70 75 80
Tabelul 1.12.
Y 1,7 2,0 2,3 2,6 2,9
- - - - - fx
X 2,0 2,3 2,6 2,9 3,2
100-110 2 1 0 0 0 3
110-120 0 2 1 0 0 3
120-130 0 1 3 2 0 6
130-140 0 0 1 2 0 3
140-150 0 0 0 0 3 3
fy 2 4 5 4 3 18
2,5
1,5
0,5
-3 ,2
2, 9 9
-2 , 0
2, 6 6
2,
, 3-
0
2
15
0
3
-2 ,
0-
14
2, 0
14
0
0-
13
13
0
0-
0
12
-2,
12
0
1, 7
0-
11
11
0-
10
2,5
1,5
0,5
10
0- 1
10 0
20
0- 1
11 0
3 2,9-
0-1
12 2,6- 3,2
40
0- 1 2,3- 2,9
13
0 2,0- 2,6
0 -15
14 1,7- 2,3
2,0
Cronograma
Se construieşte în sistemul axelor rectangulare XOY.
Pe abscisă se trec variantele caracteristicii timp: în dreptul
diviziunilor, pentru seriile cronologice de momente; în dreptul
intervalelor dintre diviziuni, pentru seriile cronologice după intervale
de timp.
Pe ordonată se trec valorile scării de reprezentare aferente
variabilei/variabilelor a căror evoluţie se urmăreşte.
De pe abscisă din dreptul diviziunilor, pentru seria de momente, sau din
dreptul centrelor intervalelor, pentru seria de intervale, se ridică perpendiculare
de înălţime proporţională cu mărimea indicatorilor ce trebuie reprezentaţi. Prin
30
Observarea, sistematizarea şi prezentarea datelor statistice
10
9
8
7
6
5
4
3
2
1
0
1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006
Masculin Feminin
Historiograma
Se construieşte similar cu cronograma, cu deosebirea că, fie pe
orizontală, fie pe verticală, are un canal de întrerupere care
simbolizează renunţarea la unele porţiuni din scara de reprezentare.
31
Statistică
Diagrama polară
Diagramele polare se construiesc în sistemul axelor polare, având ca
suport un cerc a cărui rază, pentru a păstra proporţionalitatea nivelurilor
reprezentate, se determină ca medie a valorii termenilor seriei de reprezentat
sau:
x max + x min
r=
2
32
Observarea, sistematizarea şi prezentarea datelor statistice
35 + 5
r= = 20 mil. lei; 1cm ≈10 mil. lei
2
33
Statistică
Exemplul 1.14:
Populaţia la data de 1 iulie 2011 Tabelul 1.15
Judeţul Populaţia
Dolj 697813
Gorj 375147
Mehedinţi 288775
Olt 458380
Vâlcea 404993
Sursa: Anuarul statistic al României 2012
Populaţia
700000
600000
500000
400000
300000
200000
100000
0
Dolj Gorj Mehedinţi Olt Vâlcea
Olt
Mehedinţi
Gorj
Dolj
Cartograma
Se construieşte având ca suport harta fizică, pe care valorile
indicatorilor se reprezintă la nivelul fiecărei zone prin haşuri diferite (figura 1.27
a).
Cartodiagrama
Se construieşte având ca suport harta fizică, pe care, în dreptul fiecărei
zone, se construiesc figuri geometrice ale căror dimensiuni sunt proporţionale
cu valorile indicatorilor de reprezentat (figura 1.27 b).
Legendă
sub medie
Crişana Maramureş peste medie
7 Media = 9%
Moldova
Transilvania 7
8
Banat
11 Muntenia
Dobrogea
Oltenia 10
15
13
Bucureşti
9
a). Excluderea socială prin disponibilizare şi concediere, 1990-2007, pe regiuni (%)
Legendă
sub medie
Nord-Vest
peste medie
92,3 Nord-Est Media naţională =
92,4 91,6%
Centru
91,6
Vest
92,8 Sud-Est
89,6
Sud
90,1
Sud-Vest
93,1
Bucureşti
91,2
35
Statistică
Dreptunghiul
Se cunoaşte faptul că aria dreptunghiului depinde de cele două
dimensiuni ale sale:
A=L.l
Pornind de la aceasta, un dreptunghi a cărui arie să fie proporţională cu
mărimea indicatorilor de comparat, poate fi construit în două variante:
a) pe baza unei singure dimensiuni, cealaltă se menţinându-se constantă;
b) pe baza ambelor dimensiuni.
Prima variantă se foloseşte în cazul în care se reprezintă indicatori
monofactoriali, a doua, mai rar, pentru reprezentarea indicatorilor bifactoriali.
Figura 1.28
Cercul
Pentru cerc elementul de proporţionalitate îl constituie raza. Pornind de la
faptul că aria cercului (A) va fi proporţională cu mărimea indicatorului de
reprezentat (Q - element cunoscut), se poate determina raza cu ajutorul relaţiei
următoare :
A Q
r= =
π π
În practică, pentru uşurarea construcţiei grafice şi fără a afecta
proporţionalitatea ariei cercului cu mărimea indicatorului de reprezentat, π
poate fi neglijat
r= A
Folosind datele din exemplul anterior, în cazul reprezentării producţiei vom
avea:
rA = Q A = 350 = 18.7 ; rB = QB = 250 = 15.8
Stabilim scara de reprezentare 1cm≈10mil.lei, deci cercul pentru firma A va
avea o rază de 1.87 cm iar cel pentru firma B de 1.58 cm.
36
Observarea, sistematizarea şi prezentarea datelor statistice
A B
Figura 1.29
Pătratul
Metodologia de construcţie este similară cu cea de la cerc.
A = l2 ⇒ l = A
A B
Figura 1.30
- alte produse
- îmbracaminte
- electrocasnice
- alimentare
- alimentare
- electrocasnice
- îmbrăcăminte
- alte produse
38
Observarea, sistematizarea şi prezentarea datelor statistice
4,55%
13,64%
27,27%
- alimentare
- electrocasnice
- îmbrăcăminte
- alte produse
54,54%
Piramida vârstelor
Este un tip de reprezentare grafică utilizat pentru a compara volumul
populaţiei pe grupe de vârstă şi sexe corespunzătoare unei anumite perioade.
Populaţia activă
Şomeri
Masculin Feminin
39
Statistică
Greutatea (kg)
Greutatea (kg)
Greutatea (kg)
Greutatea (kg)
Greutatea (kg)
Greutatea (kg)
Înălţimea (m)
Înălţimea (m)
Înălţimea (m)
Înălţimea (m)
Înălţimea (m)
Înălţimea (m)
Înălţimea (m)
Nr. Crt.
Nr. Crt.
Nr. Crt.
Nr. Crt.
Nr. Crt.
Nr. Crt.
Nr. Crt.
1 1,76 50 12 1,63 53 23 1,65 47 34 1,68 63 45 1,79 76 56 1,67 52 67 1,56 50
2 1,7 77 13 1,6 43 24 1,68 58 35 1,66 64 46 1,8 70 57 1,68 58 68 1,68 67
3 1,67 46 14 1,57 55 25 1,67 50 36 1,6 57 47 1,83 60 58 1,67 54 69 1,76 85
4 1,7 54 15 1,75 65 26 1,72 50 37 1,6 53 48 1,72 60 59 1,7 57 70 1,64 58
5 1,7 53 16 1,72 58 27 1,64 54 38 1,6 50 49 1,65 50 60 1,7 50 71 1,6 49
6 1,72 55 17 1,67 53 28 1,67 54 39 1,59 50 50 1,6 52 61 1,65 45 72 1,65 80
7 1,71 48 18 1,73 54 29 1,74 53 40 1,62 58 51 1,65 60 62 1,77 75 73 1,67 61
8 1,57 45 19 1,68 52 30 1,6 58 41 1,61 53 52 1,63 55 63 1,62 45 74 1,7 52
9 1,67 70 20 1,78 74 31 1,7 54 42 1,62 52 53 1,67 62 64 1,69 58 75 1,58 49
10 1,73 47 21 1,68 63 32 1,69 54 43 1,75 65 54 1,6 49 65 1,62 58 76 1,66 50
11 1,7 58 22 1,68 59 33 1,59 50 44 1,79 70 55 1,74 60 66 1,72 70 77 1,67 54
90
80
70
60
50
40
30
20
10
0
1,5 1,55 1,6 1,65 1,7 1,75 1,8 1,85
Figura 1.
40
Observarea, sistematizarea şi prezentarea datelor statistice
Test de autoevaluare 2
Colete transportate prin curierat rapid în regim urgent, prin SC Cargo SRL
Număr curent 1 2 3 4 5 6 7 8
Greutatea (kg) 1 0,5 5,9 1,5 0,8 5 7 2,1
Număr curent 9 10 11 12 13 14 15 16
Greutatea (kg) 1 3 2,4 9 5,2 3,4 10,5 0,5
a) serie de spaţiu simplă
b) serie de distribuţie bidimensională
c) serie de spaţiu complexă
d) serie de distribuţie simplă
e) nu se poate construi nici un tip de serie statistică
41
Statistică
Rezumat
Scopul Statisticii este acela de a extrage informaţia reprezentativă,
tipică, pentru largi colectivităţi de entităţi. Ea operează cu o serie de noţiuni
fundamentale specifice dintre care cele mai importante sunt: populaţie
statistică, unitate statistică, eşantion, variabilă statistică, variabilă de grupare.
Pentru a putea realiza extragerea informaţiei reprezentative este
necesară organizarea unei cercetări statistice care cuprinde de obicei trei
etape: etapa descriptivă, etapa analitică şi etapa previzională.
Având în vedere modul de includere în cerecetare a elementelor
populaţiei statistice supuse studiului există două categorii de cercetări statistice:
totale şi parţiale.
Cercetarea statistică a unei populaţii se realizează prin intermediul
variabilelor ce pot fi asociate unităţilor statistice din populaţia respectivă. Privite
prin prisma conţinutului aceste variabile pot fi: atributive, de timp sau de spaţiu.
Privite din punct de vedere al modului de exprimare variabilele pot fi cantitative
sau calitative. Cele cantitative pot fi grupate în funcţie de modul în care pot lua
valori în variabile cu variaţie continuă şi variabile cu variaţie discretă. Privite din
punct de vedere al posibilităţilor de măsurare, variabilele pot fi măsurate pe una
din cele patru scale de măsurare: scala nominală, scala ordinală, scala interval
şi scala proporţională.
Prelucrarea datelor în cadrul unei cercetări statistice conduce
organizarea datelor ce vor fi prelucrate, de cele mai multe ori, în serii statistice.
În funcţie de tipul variabilelor ce se prelucrează se pot obţine următoarele tipuri
de serii statistice: de distribuţie (construite pe baza variabilelor atributive), de
timp (construite pe seama variabilelor de timp) sau de spaţiu (construite pe
seama variabilelor de spatiu).
Tipul variabilei de grupare determină tipul seriei ce poate fi obţinută pe
baza sa.
Pentru fiecare tip de serie statistică există un set de condiţii ce trebuie
îndeplinite pentru a putea fi construite.
Pentru înţelegerea rapidă a conţinutului informaţional este necesară de
cele mai multe ori reprezentarea grafică a datelor statistice.
În funcţie de conţinutul acestora şi de modul de organizare se pot utiliza
mai multe tipuri de grafice statistice pentru reprezentarea lor. Dacă datele
statistice sunt organizate în serii statistice se poate alege unul din graficele
dedicate fiecărui tip de serie statistică. Dacă datele statistice nu constituie o
serie statistică, atunci acestea pot exprima o comparaţie - caz în care se poate
alege între tipurile de diagrame de comparaţie existente, pot exprima o
structură - caz în care se poate alege între diagramele de structură existente,
sau pot exprima anumite situaţii speciale caz în care este posibil să existe
tipuri de grafice speciale ce pot fi utilizate numai în acele cazuri.
Fiecare tip de grafic statistic prezintă un mod de construcţie dedicat
care trebuie respectat întocmai altfel, acesta nu-şi mai poate îndeplini funcţia
de a transmite vizual nedistorsionat conţinutul datelor.
43
Statistică
Termeni cheie
Populație statistică, eșantion, cercetare totală, cercetare selectivă, variabilă de
grupare: atributivă, de timp și de spațiu, calitativă și cantitativă, scală de
măsurare, clasificare și grupare statistică, serie statistică: de distribuție, de
timp, de spațiu, grafice statistice: histograma, ogiva sau curba frecvențelor
cumulate, poligonul frecvențelor, rețea poligonală, stereograma, cronograma,
historiograma, diagrama prin coloane sau benzi, diagrama polară, cartgrama,
cartodiagrama, diagrama de structură.
Bibliografie
1. Anderson, D., Sweeney, D., Williams, Th., Freeman, J., Shoesmith, E.,
Statistics for business and economics, Cengage Learning EMEA, 2010;
2. Amiot, E., Introduction aux probabilites et a la statistique, Gaetan Marin
Editeur, Montreal, 2004;
3. McClave, J. T., Benson, P., G., Sincich, T., Statistics for Business and
Economics, 10th Edition, Pearson Prentice Hall, 2008;
4. Georgescu, V., Statistică descriptivă şi inferenţiala, Editura Universitaria,
Craiova, 2006;
5. Georgescu, V., Radu, C., Statistică, Editura Reprograph, Craiova, 1999;
6. Giard, V., Statistique appliquée à la gestion, Ed. Economica, Paris, 2007;
7. Goldfarb, B., Pardoux, C., Introduction a la methode statistique. Economie.
Gestion, Dunod, Paris, 2007;
8. Radu, C., Ionaşcu, C., M., Murăriţa, I., Statistică teoretică, Editura
Universitaria, Craiova, 2009;
9. Voineagu, V., Ţiţan, E., Ghiţă, S., Boboc, C., Todose, D., Statistică. Baze
teoretice şi aplicaţii, Editura Economică, Bucureşti, 2007
10. *** Anuarul Statistic al României 2012.
44
UNITATEA DE ÎNVĂŢARE 2
INDICATORII NUMERICI AI SERIILOR DE
DISTRIBUȚIE
Cuprinsul capitolului
Obiectivele capitolului 1
2.1. Indicatorii tendinței centrale
2.2. Indicatorii variației
2.3. Indicatorii formei
Rezumat
Termeni cheie
Bibliografie
Obiectivele capitolului 1
În cadrul acestei unităţi de învăţare, structurată în trei
secţiuni şi mai multe subsecţiuni, sunt definiţi principalii
indicatori ai tendinţei centrale, ai variației, asimetriei și
excesului unei distribuții statistice.
După parcurgerea primei secțiuni și la sfârșitul unității de
învățare, studentul va avea de rezolvat două teste de autoevaluare. Testele
sunt construite gradual, ca mărime şi complexitate, din întrebări deschise,
teste grilă și aplicații practice. Încadrarea în parametrii specificaţi (timp,
variante) îi va confirma fiecărui student dezvoltarea competenţelor necesare
pentru trecerea la o nouă unitate de învăţare.
Parcurgerea logică a tuturor elementelor acestei unităţi îi va conferi fiecărui
student următoarele competenţe specifice:
descrierea corectă şi completă, din punct de vedere al conţinutului,
metodologiei şi utilităţii în domeniul economic a principalilor indicatori ai
tendinţei centrale: media, cuantilele, dominanta (modul);
descrierea corectă şi completă, din punct de vedere al conţinutului,
metodologiei şi utilităţii în domeniul economic a principalilor indicatori ai
variaţiei, asimetriei şi excesului;
identificarea sau alegerea corectă a indicatorului numeric adecvat unei
situaţii reale;
utilizarea indicatorilor numerici ai tendinţei centrale, ai variației sau formei
unei distribuții statistice pentru un studiu de caz concret din domeniul
economic;
formularea unor concluzii pertinente despre datele analizate, pe baza
regularităţilor relevate prin folosirea acestor instrumente statistice.
45
Statistică
46
Indicatorii numerici ai seriilor de distribuție
Nota 4 5 6 7 8 9 10
Număr studenţi 9 10 10 2 2 1 1
Nota 4 5 6 7 8 9 10
Număr studenţi 1 1 2 2 10 10 9
47
Statistică
Media aritmetică
Media aritmetică se foloseşte atunci când fenomenul supus cercetării
înregistrează modificări aproximativ constante, în progresie aritmetică,
prezentând, deci, o tendinţă liniară.
Media aritmetică simplă se foloseşte pentru seriile simple, adică în
cazul în care numărul variantelor caracteristicii studiate este egal cu numărul
unităţilor sau când se cunoaşte nivelul totalizat al caracteristicii şi numărul
unităţilor. Pentru o caracteristică statistică X, cu valorile x1, x2, …, xn, şi ţinând
cont că funcţia determinantă pentru media aritmetică simplă este de tip
adiţional, adică:
x1 + x 2 + ... + x n = ∑ xi ,
x + x + ... + x = ∑ xi ⇒ n ⋅ x = ∑ xi ⇒ x=
∑ xi ; i = 1, n .
n
Exemplul 2.1.
Producţia obţinută de 5 firme din oraşul Craiova, în luna decembrie
2006, se prezintă astfel (tabelul 2.1.):
Tabelul 2.1.
Firma 1 2 3 4 5
Producţia realizată (mil. lei) 50 65 42 74 87
Să se determine producţia medie a celor 5 firme.
Rezolvare
x=
∑ xi =
50 + 65 + 42 + 74 + 87 318
= = 63 ,6 mil. lei
n 5 5
48
Indicatorii numerici ai seriilor de distribuție
x ⋅ ∑ f i = ∑ xi ⋅ f i ⇒ x=
∑ xi ⋅ f i ; i = 1, n.
∑ fi
Observaţie: în cazul seriilor de distribuţie după intervale, variantele xi
vor fi date de centrele intervalelor.
Dacă în locul frecvenţelor absolute (fi) se folosesc frecvenţele relative
(pi), relaţia de calcul devine:
x= ∑ xi ⋅ pi
∑ pi
şi se poate scrie în următoarele două variante:
Exemplul 2.2.
Situaţia salariului lunar obţinut de angajaţii unei firme este prezentată în
tabelul următor:
Tabelul 2.2.
Salariul lunar realizat (u.m.) Numărul de muncitori (fi) xi
350 - 450 50 400
450 – 550 150 500
550 – 650 350 600
650 – 750 300 700
750 – 850 100 800
850 - 950 50 900
Total 1000 -
x= ∑ xi ⋅ f i =
400 ⋅ 50 + 500 ⋅ 150 + 600 ⋅ 350 + 700 ⋅ 300 + 800 ⋅ 100 + 900 ⋅ 50
∑ fi 1000
x = 640 u.m.
49
Statistică
x= ∑ xi f i = ∑ xi r = r ∑ xi = ∑ xi ;
∑ fi ∑r n⋅r n
Media aritmetică a unei variabile Z, definită ca sumă a două variabile
aleatoare independente X şi Y (Z = X + Y), este egală cu suma mediilor
celor două variabile:
x+ y = x+ y ;
Media aritmetică a unei variabile Z, definită ca produs a două variabile
aleatoare independente X şi Y (Z = X · Y), este egală cu produsul mediilor
celor două variabile:
50
Indicatorii numerici ai seriilor de distribuție
x⋅ y = x ⋅ y ;
În cazul în care colectivitatea generală este structurată, valoarea medie a
caracteristicii studiate se calculează ca medie aritmetică ponderată a
mediilor parţiale. Astfel, pentru o serie X (x1 , x2 , … xr , xr+1 ... xn ) împărţită în
⎛ r
⎞ ⎛ n
⎞
două clase omogene de mărime fa ⎜ f a = ∑ f i ⎟ şi fb ⎜ f b = ∑ f i ⎟ , pentru
⎝ i =1 ⎠ ⎝ i = r +1 ⎠
Exemplul 2.3.
Considerăm datele de la exemplul 2.2. Pentru determinarea mediei
aritmetice, pe baza calculului simplificat, vom construi tabelul 2.3.
Tabelul 2.3.
Salariul lunar realizat Numărul de xi xi − a xi − a
(u.m.) muncitori (fi) ⋅ fi
k k
350 - 450 50 400 -2 -100
450 – 550 150 500 -1 -150
550 – 650 350 600 0 0
650 – 750 300 700 1 300
750 – 850 100 800 2 200
850 - 950 50 900 3 150
Total 1000 - - 400
a=600; k=100
Rezolvare
400
x= ⋅ 100 + 600 = 640 u.m.
1000
Principalul dezavantaj al folosirii mediei aritmetice îl constituie
sensibilitatea sa faţă de valorile extreme. Ea devine nereprezentativă dacă
termenii seriei sunt prea dispersaţi, iar dacă în colectivitatea statistică se
observă manifestări distincte, din punct de vedere calitativ, media riscă să
devină o mărime lipsită de conţinut. În acest caz, este indicat să se calculeze
medii parţiale pentru fiecare tip calitativ al colectivităţii şi, în final, să se
determine media generală. Omogenitatea colectivităţii pentru care se
calculează media este, de fapt, o condiţie a reprezentativităţii pentru orice tip
de mărime medie.
51
Statistică
x= ∑ xi ⋅ f i =
x1 ⋅ f 1 + x2 ⋅ f 2
= x1 ⋅
f1
+ x2 ⋅
f2
= 1⋅ p + 0 ⋅ q = p
∑ fi f1 + f 2 f1 + f 2 f1 + f 2
x = p.
Exemplul 2.4.
Dacă analizăm salariul muncitorilor din această unitate prin prisma
nivelului de trai şi considerăm că un salariu sub 550 u.m. este necorespunzător
din acest punct de vedere, iar unul peste 550 u.m. corespunzător, putem
regrupa datele din exemplul 2.2. ca în tabelul 2.4.
Tabelul 2.4.
Salariul lunar Numărul de Frecvenţe
realizat muncitori (fi) relative (pi)
necorespunzător 200 0,2
corespunzător 800 0,8
Total 1000 1
52
Indicatorii numerici ai seriilor de distribuție
Exemplul 2.5.
Considerăm datele de la exemplul 2.2. Să se determine salariul mediu
aplicând media armonică. Pentru aceasta, vom construi tabelul următor:
Tabelul 2.5.
Salariul lunar Numărul de xi 1 1
realizat (u.m.) muncitori (fi) ⋅ fi
xi xi
350 - 450 50 400 0,002500 0,125000
450 – 550 150 500 0,002000 0,300000
550 – 650 350 600 0,001667 0,583333
650 – 750 300 700 0,001429 0,428571
750 – 850 100 800 0,001250 0,125000
850 - 950 50 900 0,001111 0,055556
Total 1000 - 1,617460
xh = ∑ fi =
1000
= 618,25 u.m..
1 1,61746
∑x ⋅ fi
i
x= ∑ xi f i = ∑ xi f i =
n ⋅ xi f i
=
n
= xh
∑ fi 1
∑ x xi f i xi f i ⋅ ∑
1 1
∑x
i xi i
53
Statistică
x= ∑ xi f i = ∑ xi f i = xh
∑ fi 1
∑ x xi f i
i
y
Dacă între două variabile există raportul de inversă proporţionalitate, = 1,
x
atunci acelaşi raport se păstrează şi între mediile calculate pentru cele două
variabile. Dacă în cazul primei variabile utilizăm media aritmetică, atunci
pentru cealaltă variabilă se impune folosirea mediei armonice. Un exemplu
ar fi raportul de inversă proporţionalitate ce există între productivitatea
muncii (w) şi consumul de timp de muncă pe unitatea de produs (t). Cum
între w şi t există relaţia de inversă proporţionalitate:
qi 1
wi = = ,
Ti t i
unde Ti – consumul total de timp de muncă;
qi – producţia obţinută;
1
t=
w
Dacă pentru o caracteristică numerică se cunoaşte seria de valori (xi, fi),
i=1,n, atunci pentru determinarea nivelului mediu se va utiliza media
aritmetică, iar dacă avem valorile (xi, xi · fi), i=1,n, se va utiliza media
armonică. Mediile calculate în cele două cazuri sunt egale:
x= ∑ xi f i = ∑ xi f i = xh .
∑ fi 1
∑ x xi f i
i
Media pătratică
Media pătratică se foloseşte în cazul în care fenomenele înregistrează
creşteri, aproximativ, în progresie exponenţială, adică atunci când creşterea
este mai lentă la începutul seriei şi din ce în ce mai pronunţată spre sfârşitul
acesteia, fiind utilizată, deci, în analiza tendinţelor neliniare, de tip exponenţial.
Este folosită şi ca model matematic în calculul indicatorilor sintetici ai variaţiei
(abaterea standard).
Media pătratică se determină în mod asemănător mediei aritmetice,
funcţia determinantă fiind tot de tip adiţional, cu deosebirea că, în cazul mediei
pătratice, se foloseşte pătratul caracteristicii.
Media pătratică simplă este utilizată pentru seriile simple şi se
determină astfel:
54
Indicatorii numerici ai seriilor de distribuție
xp = ∑ xi2 ⋅ fi .
∑ fi
Dacă pentru aceeaşi serie se calculează media aritmetică şi media
pătratică, întotdeauna:
x < xp .
Exemplul 2.6.
Considerăm datele de la exemplul 2.2. Să se determine salariul mediu
aplicând media pătratică. Pentru aceasta, vom construi tabelul următor:
Tabelul 2.6.
Salariul lunar Numărul de xi
realizat (u.m.) muncitori (fi) xi2 ∑ xi2 ⋅ fi
350 - 450 50 400 160000 8000000
450 – 550 150 500 250000 37500000
550 – 650 350 600 360000 126000000
650 – 750 300 700 490000 147000000
750 – 850 100 800 640000 64000000
850 - 950 50 900 810000 40500000
- 423000000
Total 1000 -
Rezolvare
xp = ∑ xi2 ⋅ fi =
423000000
= 423000 = 650 ,38 u.m.
∑ fi 1000
Media geometrică
Media geometrică se foloseşte în cazurile în care fenomenele
înregistrează modificări, aproximativ, în progresie geometrică. Se utilizează mai
frecvent în situaţia în care diferenţele dintre variantele caracteristicii sunt mai
mari la începutul seriei şi din ce în ce mai mici către sfârşitul acesteia. Rezultă
că, media geometrică este recomandată pentru analiza tendinţelor neliniare
care evidenţiază creşteri la început şi o atenuare a acestora spre sfârşitul
seriei.
Este folosită ca model matematic în calculul unuia dintre indicatorii
sintetici ai seriilor cronologice (indicele mediu al dinamicii).
În cazul mediei geometrice funcţia determinantă este de tipul
produsului.
Media geometrică simplă este specifică seriilor simple, determinându-se
astfel:
55
Statistică
x1 ⋅ x2 ⋅ ... ⋅ xn = Πxi ⎫⎪
⎬ ⇒ xg = Πxi ⇒ xg = n Πxi .
n
xg ⋅ xg ⋅ ... ⋅ xg = xgn ⎪⎭
Exemplul 2.7.
Considerăm datele de la exemplul 2.2. Să se determine salariul mediu
aplicând media geometrică.
Rezolvare
xg = 1000 400 50 ⋅ 500 150 ⋅ 600 350 ⋅ 700 300 ⋅ 800100 ⋅ 900 50 ⇒ x g = 629,29 u.m.
Media de ordinul t
Relaţia de calcul a acestei medii este:
pentru serii simple:
1
⎛ n t ⎞t
⎜ ∑ xi ⎟
xt = ⎜ i =1 ⎟ ;
⎜ n ⎟
⎜ ⎟
⎝ ⎠
pentru serii de frecvenţe:
56
Indicatorii numerici ai seriilor de distribuție
1
⎛ n t ⎞t
⎜ ∑ xi f i ⎟
- absolute: xt = ⎜ i =1n ⎟ ;
⎜ ⎟
⎜ ∑ fi ⎟
⎝ i =1 ⎠
1
⎛ n ⎞t
- relative: xt = ⎜ ∑ xit pi ⎟ .
⎝ i =1 ⎠
xt
xsup
x2
x t →0 x1
x −1
xinf
-1 0 1 2
Figura 2.1. Curba reprezentativă a mediei de ordinul t.
Dacă pentru aceeaşi serie de date calculăm cele patru tipuri de medie
prezentate, între ele există următoarea relaţie de ordine (aşa cum rezultă şi din
figura 2.1.):
xh ≤ x g ≤ xa ≤ x p .
Egalitatea dintre medii are loc numai atunci când valorile din cadrul
seriei sunt constante.
57
Statistică
2.1.2. Cuantilele
k
Fie n volumul unităţilor statistice analizate şi z =
un număr
n
raţional (z∈(0,1), deci k<n). Se numeşte cuantila de ordinul z, valoarea xz a
variabilei aleatoare X, cu proprietatea: Fn(xz ) = z,
unde Fn(xz ) este funcţia empirică de repartiţie (funcţia frecvenţelor relative
cumulate). În mod uzual, z are una din valorile:
1
z = ⇒ cuantila x 1 = Me se numeşte mediană şi împarte seria de variaţie
2 2
n
în două părţi de efective egale cu ;
2
⎧1 2 3⎫
z ∈ ⎨ , , ⎬ ⇒ cuantilele x 1 = xQ1 , x 2 = xQ2 , x 3 = xQ3 se numesc cuartile şi
⎩4 4 4 ⎭ 4 4 4
n
împart seria de variaţie în patru părţi de efective egale cu ;
4
⎧1 2 9⎫
z ∈ ⎨ , ,..., ⎬ ⇒ cuantilele x 1 = xD1 , x 2 = xD2 ,..., x 9 = xD9 se numesc
⎩ 10 10 10 ⎭ 10 10 10
n
decile şi împart seria de variaţie în zece părţi de efective egale cu ;
10
⎧ 1 2 99 ⎫
z∈⎨ , ,..., ⎬ ⇒ cuantilele x 1 = xP1 , x 2 = xP2 ,..., x 99 = xP99 se
⎩ 100 100 100 ⎭ 100 100 100
numesc percentile şi împart seria de variaţie în o sută părţi de efective
n
egale cu .
100
Mediana
58
Indicatorii numerici ai seriilor de distribuție
- dacă seria este formată dintr-un număr par de termeni, atunci mediana
este semisuma termenilor de rang n/2 şi n/2 +1, adică:
xn + xn
+1
Me = 2 2
.
2
Exemplul 2.8.
Fie seria de date X = {18, 27, 16, 35, 38, 44, 13}, reprezentând numărul
de puncte obţinute de 7 candidaţi la un examen. Să se determine mediana.
Rezolvare
Mai întâi ordonăm crescător seria: X = {13, 16, 18, 27, 35, 38, 44}. Cum
seria este formată dintr-un număr impar de termeni, vom avea:
Me = 27.
Dacă la seria iniţială mai adăugăm o valoare: X = {18, 27, 16, 35, 38,
44, 13, 30}, atunci numărul termenilor seriei va deveni par şi vom avea o altă
mediană. Seria ordonată crescător va fi: X = {13, 16, 18, 27, 30, 35, 38, 44}. În
acest caz mediana va fi:
x n + x n +1
27 + 30
Me = 2 2
= = 28 ,5
2 2
• Pentru seriile de distribuţie se deosebesc două posibilităţi de calcul:
A. Calculul algebric
Pentru o serie de distribuţie după variante, determinarea medianei
presupune parcurgerea următoarelor etape:
- se determină frecvenţele cumulate crescător sau descrescător (Fci );
n
- determinăm unitatea mediană după relaţia: U Me = ;
2
- stabilim mediana, care este egală cu prima valoare din cadrul seriei de
valori pentru care: UMe ≤ Fci .
Exemplul 2.9.
Considerăm notele obţinute de studenţii unei grupe la un examen:
Tabelul 2.7.
Nota obţinută (xi) Număr de studenţi (fi) Fci
3 5 5
4 4 9
5 2 11
6 3 14
7 6 20
8 4 24
9 2 26
10 2 28
Total 28 -
n 28
U Me = = = 14 ⇒ Me = 6.
2 2
59
Statistică
Exemplul 2.10.
Considerăm datele de la exemplul 2.2. Să se determine nivelul mediu
cu ajutorul medianei. La tabelul iniţial mai adăugăm o coloană cu frecvenţele
cumulate.
Tabelul 2.8.
Salariul lunar Numărul de Frecvenţe
realizat (u.m.) muncitori (fi) cumulate (Fci )
350 − 450 50 50
450 – 550 150 200
550 – 650 350 550
650 – 750 300 850
750 – 850 100 950
850 − 950 50 1000
Total 1000 -
Rezolvare
n 1000
U Me = = = 500
2 2
Primul interval pentru care UMe ≤ Fci este IMe =[550, 650].
⎛ 1000 ⎞ 100
Me = 550 + ⎜ − 200 ⎟ ⋅ = 550 + 85 ,71 = 635 ,71 u.m.
⎝ 2 ⎠ 350
Rezultă că jumătate din angajaţi obţine salarii de până la 635,71 u.m.,
în timp ce jumătatea cealaltă obţine salarii de peste 635,71 u.m.
60
Indicatorii numerici ai seriilor de distribuție
B. Calculul grafic
Pentru determinarea medianei pe cale grafică se foloseşte ogiva (curba
n
frecvenţelor cumulate). De pe ordonată, din dreptul lui , se duce o paralelă la
2
abscisă şi din intersecţia acesteia cu ogiva, se coboară o perpendiculară pe
abscisă; punctul de întâlnire a perpendicularei cu abscisa corespunde valorii
medianei.
Exemplul 2.11.
Considerăm datele de la exemplul 2.2. Să se determine grafic mediana.
Acest lucru este realizat în figura 2.2. Se observă că mediana se plasează pe
intervalul [70, 90].
Frecvenţe cumulate
1000
900
800
n 700
2 600
500
400
300
Me
200
Cuartilele
61
Statistică
h⋅n
U Qh = , h=1,2,3;
4
- se calculează cuartilele pe baza relaţiei:
⎛ h⋅n ⎞ k
xQh = xQinfh + ⎜ − S Qh − 1 ⎟ ⋅ ,
⎝ 4 ⎠ f Qh
Exemplul 2.12.
Considerând datele de la exemplul 2.2, să se determine cuartilele.
Rezolvare
Unităţile cuartilice sunt:
1 ⋅ 1000 2 ⋅ 1000 3 ⋅ 1000
U Q1 = = 250 ; U Q2 = = 500 ; U Q3 = = 750 .
4 4 4
Corespunzător acestor unităţi cuartilice vom avea intervalele:
I Q1 =[550, 650]; I Q2 =[550, 650]; I Q3 =[650, 750].
Decilele
h⋅n
U Dh = ;
10
- se calculează decilele pe baza relaţiei:
⎛ h⋅n ⎞ k
xDh = xDinfh + ⎜ − S Dh −1 ⎟ ⋅ , h = 1,9 ,
⎝ 10 ⎠ f Dh
Exemplul 2.13.
Considerând datele de la exemplul 2.2, să se determine decilele.
Rezolvare
Unităţile decilice sunt:
1 ⋅ 1000 2 ⋅ 1000 9 ⋅ 1000
U D1 = = 100 ; U D2 = = 200 ; … U D9 = = 900 .
10 10 10
Corespunzător acestor unităţi decilice vom avea intervalele:
I D1 = I D2 =[450, 550]; I D3 = I D4 = I D5 =[550, 650]; I D6 = I D7 = I D8 =[650, 750];
I D9 =[750, 850].
Percentilele
percentilele xP25 , xP50 , xP100 coincid cu cuartilele xQ1 , xQ2 , xQ3 , deoarece
xP25 = x 25 = x 1 = xQ1 , xP50 = x 50 = x 2 = xQ2 şi xP75 = x 75 = x 3 = xQ3 ;
100 4 100 4 100 4
percentilele xP10 , xP20 , xP30 , xP40 , xP50 , xP60 , xP70 , xP80 , xP90 coincid cu decilele
xD1 , xD2 , xD3 , xD4 , xD5 , xD6 , xD7 , xD8 , xD9 , deoarece xP10 = x 10 = x 1 = xD1 , …
100 10
xP90 = x 90 = x 9 = xD9 ;
100 10
percentila x P50 coincide cu decila x D5 , cu cuartila xQ2 , respectiv cu
mediana, deoarece xP50 = x 50 = x 5 = x 2 = x 1 .
100 10 4 2
Metodologia de calcul a percentilelor este asemănătoare cu a celorlalte
cuantile:
- se stabilesc intervalele repartiţiei în care se găsesc variantele de rang
n 2n 99 n
, , …, pentru percentilele x P1 , xD2 , …, x D9 ;
100 100 100
- se calculează percentilele pe baza relaţiei:
⎛ h⋅n ⎞ k
xPh = xPinfh + ⎜ − S Ph −1 ⎟ ⋅ , h = 1,99 ,
⎝ 100 ⎠ f Ph
2.1.3. Modul
64
Indicatorii numerici ai seriilor de distribuție
seria de date are mai multe valori modale – există două sau mai multe
valori dominante, adică frecvenţa cea mai mare corespunde la două sau
mai multe variante din cadrul seriei. Seria se va numi multimodală
(figura 2.3.b);
seria de date nu conţine valori modale – cazul în care toate variantele
au aceeaşi frecvenţă de apariţie.
fi fi
xi xi
a) b)
O serie de distribuţie poate avea una sau mai multe valori modale
absolute, cât şi valori modale relative (valori dominante pe anumite intervale de
valori) – figura 2.4. Numim mod relativ al seriei ((xifi), i = 1,n) valoarea xi pentru
care:
fi ≥ fi-1 şi fi ≥ fi+1 ,
egalitatea având loc numai într-un singur caz.
fi
xi
x − Me =
1
(x − Mo ) ,
3
iar relaţia pe baza căreia se determină modul este:
Mo = 3Me − 2 x ;
` Varianta 4. Constă în metoda grafică, respectiv utilizarea histogramei prin
dreptunghiuri. Se unesc vârfurile coloanei maxime cu punctele de incidenţă
ale acesteia cu coloanele adiacente şi din intersecţia segmentelor
respective, se coboară o perpendiculară pe abscisă; valoarea
corespunzătoare punctului de intersecţie al acestei perpendiculare cu
abscisa reprezintă nivelul modului.
• dacă seriile de distribuţie au intervale inegale, trebuie să parcurgem
următoarele etape:
( )
- se calculează mărimea fiecărui interval: I i = xiinf , xisup . Se va alege un
interval etalon pentru seria de date, având lungimea intervalului de
valori h;
66
Indicatorii numerici ai seriilor de distribuție
hi
- se calculează pentru fiecare interval factorul de ajustare: ki = ;
h
fi
- se determină seria frecvenţelor ajustate: ; f i* =
ki
- se determină modul prin diferite metode, precum în cazul seriei cu
intervale egale.
Exemplul 2.14.
Considerăm datele de la exemplul 2.2. Să se determine, pentru aceste
date, modul.
Rezolvare
Intervalul modal va fi IMo =[550, 650], iar modul:
350 − 150 200
Mo = 550 + 100 ⋅ = 550 + 100 ⋅ = 630 u.m..
( 350 − 150 ) + ( 350 − 300 ) 250
Aplicând varianta grafică se obţine figura 2.5.
fi
400
300
200
100
Proprietăţile modului
Valoarea modului este cuprinsă între varianta minimă şi varianta maximă a
seriei de date observate:
xmin < Mo < xmax ;
Dacă se măreşte sau se micşorează fiecare valoare individuală a
caracteristicii unei serii cu o constantă a, atunci şi valoarea modală se
măreşte sau se micşorează cu aceeaşi constantă a;
Dacă se multiplică sau se simplifică fiecare valoare individuală cu o
constantă k, atunci şi valoarea modală se multiplică de acelaşi număr de ori
k.
67
Statistică
Modul are aceleaşi utilizări ca şi mediana; este folosit mai mult decât
mediana în calculul unor indicatori ai asimetriei. Modul poate înlocui media
atunci când aceasta nu se poate calcula sau nu are sens a fi calculată, ca de
exemplu: numărul mediu la încălţăminte, talia medie în industria confecţiilor etc.
În aceste cazuri se stabilesc ca valori modale numărul la pantofi cel mai căutat
şi talia cea mai des solicitată. De asemenea modul este util când seria de date
este asimetrică.
***
Alegerea celui mai adecvat indicator al tendinţei centrale este
determinată atât de natura şi caracteristicile seriei de date, cât şi de scopul
urmărit prin analiză.
În alegerea dintre medie, mediană şi mod, pentru caracterizarea
tendinţei centrale, este necesar să se ţină seama de o serie de elemente, cum
ar fi:
în cazul caracteristicilor nominale nu putem preciza decât varianta cu
frecvenţa cea mai mare;
pentru seriile de date ale unor caracteristici ordinale se recomandă
determinarea medianei şi a modului. Dacă valorile sunt numerice, dintre
cei doi indicatori este preferată mediana, care este o măsură mai stabilă
spre deosebire de mod, care poate înregistra mai multe valori pentru o
serie de date;
media este singurul indicator care ţine seama de toate valorile din
cadrul seriei de date. Din acest motiv ea este preferată de cele mai
multe ori în analizele economice;
în cazul distribuţiilor cu o asimetrie pronunţată sau care prezintă valori
extreme, media este o măsură nepotrivită, fiind recomandată folosirea
medianei, modului sau a altei măsuri rezistente la prezenţa valorilor
extreme;
pentru seriile de date cu caracter ciclic, mediana şi modul sunt măsuri
semnificative, spre deosebire de medie, care, în astfel de cazuri, are o
relevanţă foarte redusă.
Pentru analiza statistică sunt importante şi următoarele constatări:
distribuţie unidimensională este simetrică dacă media, mediana şi
modul sunt egale, precum şi dacă este îndeplinită condiţia repartizării
frecvenţelor, două câte două egale de o parte şi de alta a frecvenţei
maxime;
pentru o serie simetrică, gradul de semnificaţie a mediei este egal cu cel
al medianei şi al modului;
în general, dacă media este diferită, ca valoare, de mediană, atunci
mediana se va plasa între nivelul mediei şi cel al modului;
dacă mediile mai multor distribuţii simetrice sunt egale aceasta nu
înseamnă că, în mod obligatoriu, aceste medii au şi aceeaşi
semnificaţie.
68
Indicatorii numerici ai seriilor de distribuție
Test de autoevaluare 1
1.Ce reprezintă media?
2. Care dintre relaţiile de mai jos sunt utilizate pentru calculul simplificat al
mediei aritmetice ponderate?
a) ∑ (x i − x a ) = 0 ;
⎛ xi ⎞
∑⎜ ⎟f i
⎝ k ⎠ k=x
b)
∑ fi
a
d)
∑ (x i − a )f i + a = x
∑ fi
a
e) ∑ (x i − x a )f i = 0 ;
3. Se cunosc următoarele date referitoare la activitatea unei firme în luna mai
2013:
Productivitatea muncii 100- 120- 140- 160- 180- 200-
(u.m.) 120 140 160 180 200 220
Ponderea muncitorilor 5 10 20 30 20 15
(%)
Determinaţi productivitatea medie ( x ) şi cea mediană (Me) la nivelul firmei în
luna mai 2013 şi alegeţi varianta corectă de răspuns:
a) x − Me = 1 u.m.;
b) x = Me ;
c) Me − x = 10 u.m.;
d) Me − x = 1 u.m.;
e) x − Me = 10 u.m.
5. Mediana reprezintă:
a) un indicator de poziţie care împarte seria de variaţie în două părţi de
efective egale cu n/2;
b) tipul de medie cel mai des întâlnit în practică;
c) indicatorul de poziţie care desemnează valoarea caracteristicii cu cea mai
mare frecvenţă;
d) un indicator al variaţiei;
e) un indicator al tendinţei centrale.
6. Distribuţia angajaţilor unei firme după numărul zilelor nelucrate într-o lună
este:
Număr zile nelucrate 0 1 2 3 4 5
Număr angajaţi 20 65 70 30 10 5
Valoarea mediană a seriei este:
a) 1zi; b) 5zile; c) 70 angajaţi; d) 3 zile; e) 2 zile.
69
Statistică
7. Distribuţia angajaţilor unei firme după numărul zilelor nelucrate într-o lună
este:
Număr zile nelucrate 0 1 2 3 4 5
Număr angajaţi 20 65 70 30 10 5
Valoarea modală a seriei este:
a) 1zi; b) 5zile; c) 70 angajaţi; d) 3 zile; e) 2 zile.
9. Dominanta reprezintă:
a) un indicator de poziţie care împarte seria de variaţie în două părţi de
efective egale cu n/2;
b) tipul de medie cel mai des întâlnit în practică;
c) indicatorul de poziţie care desemnează valoarea caracteristicii cu cea mai
mare frecvenţă;
d) un indicator al variaţiei;
e) un indicator al tendinţei centrale.
70
Indicatorii numerici ai seriilor de distribuție
X
Y
Z
Exemplul 2.15.
Considerăm datele de la exemplul 2.2. Să se determine, pentru aceste
date, indicatorii simpli ai variaţiei.
Rezolvare
a) Amplitudinea variaţiei:
Amplitudinea absolută:
Aa = Xmax – Xmin = 950 – 350 = 600 u.m.
Amplitudinea relativă:
Aa 600
Ar = ⋅ 100 = ⋅ 100 = 93 ,75%
x 640
Câmpul de variaţie al salariului muncitorilor este de 600 u.m., aceasta
reprezentând 93,75% din salariul mediu al muncitorilor.
b) Abaterile individuale:
Abaterile individuale absolute:
73
Statistică
d=
∑ xi − x - pentru o serie simplă;
n
d=
∑ i − x fi - pentru o serie de frecvenţe;
x
∑ fi
∑ xi − x pi
d = - pentru o serie de frecvenţe relative - procentual;
100
d =∑ xi − x ⋅ p i - pentru o serie de frecvenţe relative - ∑ p i = 1 .
74
Indicatorii numerici ai seriilor de distribuție
d=
n1d1 ⎛ n2 d 2 ⎞
+ ⎜⎜ − ⎟=
∑ (xi − x ) − ∑ (x j − x ) .
n ⎝ n ⎟⎠ n
Exemplul 2.16.
Considerăm datele de la exemplul 2.2. Să se determine abaterea medie
liniară. Calculele intermediare necesare determinării abaterii medii liniare sunt
prezentate în tabelul 2.9.
Tabelul 2.9.
Salariul lunar Numărul de
realizat (u.m.) muncitori (fi) xi − x xi − x f i
350 - 450 50 240 12000
450 – 550 150 140 21000
550 – 650 350 40 14000
650 – 750 300 60 18000
750 – 850 100 160 16000
850 - 950 50 260 13000
900 94000
Total 1000
Rezolvare
d=
∑ xi − x fi
=
94000
= 94
∑ fi 1000
75
Statistică
` Dispersia ( σ 2 )
Cunoscută şi sub denumirea de varianţă, dispersia se calculează ca o
medie aritmetică simplă sau ponderată a pătratelor abaterilor termenilor seriei
de la tendinţa lor centrală. Aceasta înseamnă că în calculul dispersiei poate fi
luată în considerare media sau alt indicator al tendinţei centrale (mediana,
modul).
Relaţiile de calcul ale dispersiei sunt următoarele:
σ2 = ∑ i
(x − x )2 - pentru o serie simplă;
n
σ2 = ∑ i
(x − x )2 fi - pentru o serie de frecvenţe;
∑ fi
∑ ( xi − x )
2
pi
σ2 = - pentru o serie de frecvenţe relative – procentual.
100
Dispersia este un indicator abstract, nu are formă concretă de
exprimare şi arată modul în care valorile caracteristicii gravitează în jurul
mediei. Măsoară variaţia totală a caracteristicii studiate datorită cauzelor
esenţiale şi întâmplătoare. Este un indicator util în verificări de ipoteze
statistice, în calculul altor indicatori statistici etc.
Dispersia, ca şi media, calculată pe baza seriilor de repartiţie după
intervale, este mai puţin exactă decât în cazul folosirii datelor individuale
negrupate, deoarece se calculează pe baza centrelor intervalelor, în baza
ipotezei că frecvenţele sunt repartizate uniform în cadrul fiecărui interval. În
practică, însă, această ipoteză este verificată foarte rar, motiv pentru care
valoarea dispersiei în această situaţie este afectată de erori.
Pentru a înlătura această eroare sistematică, W.F.Sheppard a propus
ca valoarea calculată a dispersiei să fie diminuată cu a douăsprezecea parte
k2
din pătratul mărimii intervalului de grupare, astfel: σ c = σ −
2 2
,
12
unde σ c2 - reprezintă valoarea corectată a dispersiei;
k - reprezintă mărimea intervalului de grupare.
Corecţia lui W.F.Sheppard prezintă, însă, o serie de limite:
este utilizabilă numai în cazul seriilor statistice unimodale;
intervalele de grupare trebuie să fie egale;
frecvenţele intervalelor de grupare trebuie să tindă către zero în ambele
direcţii.
Proprietăţile dispersiei
Dispersia este egală cu diferenţa dintre media pătratelor şi pătratul mediei:
σ 2 = x2 − x 2 .
Acest mod de calcul este recomandat mai ales atunci când media este
un număr zecimal.
76
Indicatorii numerici ai seriilor de distribuție
σ2 = ∑
(xi − a )2 fi − (x − a )2 .
∑ fi
Dispersia calculată din abaterile variantelor xi de la media lor, micşorate în
prealabil prin împărţire la o constantă k, este mai mică decât dispersia reală
de k2 ori, astfel:
2
⎛ xi − x ⎞
∑⎜ ⎟ fi
σ2 = ⎝ k ⎠ ⋅ k2 .
∑ fi
Din combinarea ultimelor două proprietăţi rezultă relaţia de calcul
simplificat a dispersiei:
2
⎛ x −a⎞
∑ ⎜ i k ⎟ fi
σ2 = ⎝ ⎠ ⋅ k 2 − ( x − a )2 .
∑ fi
Această nouă relaţie de calcul a dispersiei pare mai complicată, dar, la
fel ca în cazul mediei aritmetice (cu a – centrul intervalului cu frecvenţa cea mai
mare şi k – mărimea intervalului de grupare), are loc o reducere a timpului şi
calculelor necesare obţinerii dispersiei.
Dacă dintr-o serie X (x1 , x2 , … xn ) construim seria X * prin micşorarea de k
ori a frecvenţelor, atunci dispersia seriei X * va fi egală cu cea a seriei X:
σ X2 * = σ 2 .
f aσ a2 + f bσ b2 f a ( xa − x ) + f b (xb − x )
2 2
σ2 = + .
f a + fb f a + fb
σ2 = ∑
(xi − x )2 .
n −1
77
Statistică
σ2 = ∑
(xi − x )2 fi = (x1 − x )2 f1 + (x2 − x )2 f 2 = (x1 − x )2 f1 + (x2 − x )2 f 2 =
∑ fi f1 + f 2 f1 + f 2 f1 + f 2
= (1 − p ) p + (0 − p ) q = pq ( p + q )
2 2 2
σ 2 = pq .
Exemplul 2.17.
Considerând datele de la exemplul 2.2, să se determine dispersia
utilizând atât relaţia de calcul obişnuit, cât şi relaţia de calcul simplificat. Datele
necesare calculelor sunt:
Tabelul 2.10.
xi − a ⎛ xi − a ⎞
2
⎛ xi − a ⎞
2
xi fi xi − x (xi − x )
2
⋅ fi ⎜ ⎟ ⎜ ⎟ ⋅ fi
k ⎝ k ⎠ ⎝ k ⎠
σ2 = ∑
(xi − x )2 fi =
13400000
= 13400
∑ fi 1000
Pe baza calculului simplificat, avem:
2
⎛x −a⎞
∑ ⎜ i k ⎟ fi
σ2 = ⎝ ⎠ ⋅ k 2 − (x − a ) =
2 1500
⋅ 10000 − (640 − 600 ) =
2
∑ fi 1000
= 15000 – 1600 = 13400.
Se observă acelaşi nivel al dispersiei pentru ambele procedee (calcul
obişnuit şi calcul simplificat).
Dacă analizăm salariul muncitorilor din această unitate prin prisma
nivelului de trai şi considerăm că un salariu sub 550 u.m. este necorespunzător
din acest punct de vedere, iar unul peste 550 u.m. corespunzător, putem
regrupa datele din exemplul 2.2. ca în tabelul 2.4. În acest caz, dispersia se
determină ţinând cont de caracteristicile variabilei alternative a lui Bernoulli.
Astfel, dispersia va fi:
σ 2 = pq = 0 ,2 ⋅ 0 ,8 = 0 ,16 .
78
Indicatorii numerici ai seriilor de distribuție
Exemplul 2.18.
Pentru datele de la exemplul 2.2. abaterea standard se determină foarte
simplu:
σ = σ 2 = 13400 = 115,76 .
Intervalul mediu calculat pe baza abaterii standard este:
⎧ x + σ = 640 + 115,76 = 755 ,76
x ±σ ⇒ ⎨
⎩ x − σ = 640 − 115,76 = 524,24
Se observă că intervalul obţinut prin utilizarea abaterii standard (524,24;
755,76) este mai larg decât intervalul rezultat în urma utilizării abaterii medii
liniare (546, 734).
Pentru cazul variabilei alternative considerate la exemplul anterior,
abaterea standard va fi:
σ = σ 2 = pq = 0 ,16 = 0 ,4 .
80
Indicatorii numerici ai seriilor de distribuție
Exemplul 2.19.
Pentru datele de la exemplul 2.2. coeficientul de variaţie se determină
imediat:
σ 115,76
Cv = ⋅ 100 = ⋅ 100 = 18 ,09%
x 640 .
fi
X1 X2
x1 x2 = 2 x1 xi
σ2 σ1 Cv1
Cv2 = ⋅ 100 = ⋅ 100 = .
x2 2 x1 2
Exemplul 2.20.
Producţia realizată de 100 de firme din oraşul Craiova în luna ianuarie
2013 este redată în tabelul 2.11.
81
Statistică
Tabelul 2.11.
2
⎛ xi − a ⎞
Producția Numărul de xi − a xi − a 2 ⎜ ⎟ ⋅ fi
⋅ fi ⎛ xi − a ⎞ ⎜ k ⎟
realizată (mil. firme (fi) xi ⎜ ⎟ ⎝ ⎠
k k ⎜ k ⎟
⎝ ⎠
lei)
5 - 15 5 10 -2 -10 4 20
15 – 25 15 20 -1 -15 1 15
25 – 35 35 30 0 0 0 0
35 – 45 30 40 1 30 1 30
45 – 55 10 50 2 20 4 40
55 - 65 5 60 3 15 9 45
Total 100 - - 40 - 150
a = 30; k = 10.
xi − a
∑ k
⋅ fi
40
x1 = ⋅k + a = ⋅ 10 + 30 = 34 milioane lei
∑ fi 100
2
⎛ x −a⎞
∑ ⎜ i k ⎟ fi
σ 12 = ⎝ ⎠ ⋅ k 2 − (x − a ) = ⋅ 100 − (34 − 30 ) = 134
2 150 2
∑ fi 100
Tabelul 2.12.
Producţia realizată Numărul de xi xi − a ⎛ xi − a ⎞
2
⋅ fi ⎜ ⎟ ⋅ fi
(milioane lei) firme (fi) k ⎜ k ⎟
⎝ ⎠
95 - 105 5 100 -10 20
105 – 115 15 110 -15 15
115 – 125 35 120 0 0
125 – 135 30 130 30 30
135 – 145 10 140 20 40
145 - 155 5 150 15 45
Total 100 - 40 150
a = 120; k = 10.
xi − a
∑ k
⋅ fi
40
x2 = ⋅k + a = ⋅ 10 + 120 = 124 milioane lei
∑ fi 100
2
⎛ x −a⎞
∑ ⎜ i k ⎟ fi
σ 22 = ⎝ ⎠ ⋅ k 2 − (x − a ) = ⋅ 100 − (124 − 120 ) = 134
2 150 2
∑ fi 100
82
Indicatorii numerici ai seriilor de distribuție
În acest caz, media aritmetică a celor două cuartile extreme este egală
cu valoarea cuartilei a doua, adică cu mediana seriei:
xQ1 + xQ3
Q= = xQ2 = Me .
2
Dacă ultimele două relaţii nu sunt verificate, adică Me − xQ1 ≠ xQ3 − Me şi
Q ≠ Me , înseamnă că seria prezintă un anumit grad de variaţie intercuartilică,
grad care poate şi trebuie să fie măsurată statistic.
Abaterea intercuartilică se calculează ca o medie a celor două abateri
ale cuartilelor extreme faţă de cuartila centrală:
Qc =
(Me − x ) + (x
Q1 Q3 − Me )= x
Q3 − xQ1
.
2 2
83
Statistică
Qd =
(Me − x ) + (x
D1 D9 − Me )= x D9 − xD1
.
2 2
Nici acest indicator nu permite comparaţia statistică a mai multor serii,
motiv pentru care a fost introdus coeficientul de variaţie interdecilică. Acesta
se calculează ca raport între abaterea interdecilică şi valoarea mediană, astfel:
Qd xD − xD1
VQ = ⋅ 100 = 9 ⋅ 100 .
Me 2 Me
De regulă, calculul variaţiei interdecilice se face pentru serii statistice cu
un număr foarte mare de grupe şi cu tendinţă evidentă de asimetrie.
Avantajul major al acestor indicatori îl reprezintă faptul că nu sunt
sensibili la existenţa valorilor aberante.
Exemplul 2.21.
Pornind de la exemplul 2.2. şi ţinând cont şi de rezultatele de la
exemplele 2.12. ( xQ1 = 564 ,28 u.m.; xQ2 = 635 ,71 u.m.; xQ3 = 716 ,67 lei) şi 2.13.
( xD1 = 483,33 u.m.; xD9 = 800 u.m.), să se determine abaterile intercuantilice.
Rezolvare
Abaterea intercuartilică este:
xQ3 − xQ1 716 ,67 − 564 ,28
Qc = = = 76 ,19 u.m.
2 2
Coeficientul de variaţie intercuartilică este:
Qc 76 ,19
VQ = ⋅ 100 = ⋅ 100 = 11,98% .
Me 635 ,71
Abaterea interdecilică este:
84
Indicatorii numerici ai seriilor de distribuție
2.2.4. Momentele
mt ( a ) = ∑ ( xi − a )t fi .
∑ fi
În funcţie de valorile pe care le ia a putem avea următoarele tipuri de
momente:
• momente iniţiale ( mt0 ) – în acest caz a=0, iar relaţia de calcul a momentelor
este:
∑ xi f i
t
mt0 = ;
∑ fi
• momente centrate (μt ) – în această situaţie a = x şi se determină pe baza
relaţiei:
85
Statistică
μt = ∑
( xi − x )t f i
;
∑ fi
• momente obişnuite sau ordinare (mt ) – sunt cele în care a ≠ 0 şi a ≠ x , iar
relaţia de calcul este cea descrisă iniţial.
Între momentele centrate şi cele obişnuite pot fi stabilite o serie de
relaţii. Pentru determinarea acestor relaţii vom face următoarele notaţii:
xi − a = p ⎫
⎪
xi − x = r ⎬ ⇒ (xi − a ) = (xi − x ) + (x − a ); p = r + s .
x − a = s ⎪⎭
mt = ∑ pt fi = ∑ ( r + s )t fi = ∑ r t fi +
Ct1s ∑ r t −1 fi Ct2 s 2 ∑ r t − 2 fi
+ + ... + s t =
∑ fi ∑ fi ∑ fi ∑ fi ∑ fi
mt = μ t + Ct1 sμ t −1 + Ct2 s 2 μ t − 2 + ... + s t .
În mod asemănător, momentul centrat de ordinul t va fi:
μt = ∑ ∑ ( p − s )t fi ∑ pt fi
r t fi Ct1s ∑ p t −1 fi
= = − +
∑ fi ∑ fi ∑ fi ∑ fi
Ct2 s 2 ∑ p t − 2 f i
+ + ... + (− 1) s t =
t
∑ i
f
t=0 → m00 = ∑ i i = ∑ i = 1 ;
0
x f f
∑ fi ∑ fi
∑ xi f i = x ;
1
t=1 → m10 =
∑ fi
∑
2
xi f i
t=2 → m2 =
0
=σ 2 + x2 .
∑ fi
Momentele obişnuite pentru diferite valori ale lui t sunt:
t=0 → m0 =
∑ ( xi − a )0 f i = ∑ p 0 f i = ∑ f i = 1 ;
∑ fi ∑ fi ∑ fi
t=1 → m1 =
∑ ( xi − a )1 f i = ∑ xi f i − a ∑ f i = x − a ;
∑ fi ∑ fi ∑ fi
t=2 → m2 =
∑ ( xi − a ) f i = ∑ ( r + s ) 2 f i = μ + 2 sμ + s 2 ⇒ m = σ 2 + s 2 ;
2
∑ fi ∑ fi
2 1 2
t=3 → m3 =
∑ ( xi − a )3 f i = ∑ ( r + s )3 f i = μ + 3sμ + 3s 2 μ + s 3 ⇒
∑ fi ∑ fi
3 2 1
m3 = μ 3 + 3sμ 2 + s 3 .
Pentru diferite valori ale lui t momentele centrate sunt:
t=0 → μ0 = ∑ i
( x − x )0 fi ∑ r 0 fi ∑ fi
= = =1;
∑ fi ∑ fi ∑ fi
86
Indicatorii numerici ai seriilor de distribuție
t=1 → μ 1 =
∑ ( xi − x )1 f i =
∑ ( p − s )1 f i = 0 , deoarece suma abaterilor de la
∑ fi ∑ fi
medie este nulă (a se vedea, în acest sens, proprietăţile mediei aritmetice);
t=2 → μ 2 = ∑ i
( x − x )2 f i
= σ 2 (din definiţia dispersiei);
∑ fi
t=3 → μ 3 =
∑ ( xi − x )3 f i =
∑ ( p − s )3 f i = m3 − 3sm2 + 3 s 2 m1 − s 3 ⇒
∑ fi ∑ fi
μ 3 = m3 − 3 sm2 + 2 s 3 .
Momentele prezentate sunt folosite foarte frecvent în statistică, atât ca
bază de calcul în determinarea unor indicatori specifici seriilor de distribuţie
(excesul), cât şi ca modalitate practică de simplificare a calculului unuia dintre
indicatorii sintetici utilizaţi în analiza statistică (coeficientul de corelaţie liniară).
La rândul lor, momentele pot fi determinate cu ajutorul procedeului de calcul
simplificat. Acest procedeu nu diferă, în principiu, de cel prezentat la calculul
mediei aritmetice ponderate şi dispersiei, astfel:
t
⎛ x −a⎞
∑ ⎜ i k ⎟ fi
mt = ⎝ ⎠ ⋅kt .
∑ i
f
x1
f11 f12 … f1j … f1m f1 y1 σ 12
x2
f21 f22 … f2j … f2m f2 y2 σ 22
M M … M … M M M M
M
xi
fi1 fi2 … fij … fim fi yi σ i2
M M … M … M M M M
M
xn
fn1 fn2 … fni … fnm fn yn σ n2
Total fy
f1 f2 … fi … fm n y0 σ 02
87
Statistică
• ( )
Dispersia de grupă σ i2 – cunoscută şi sub denumirea de dispersie
parţială, se determină ca o medie aritmetică ponderată a pătratelor
abaterilor variantelor caracteristicii de la media grupei, pe baza relaţiei
următoare:
∑ (y j − yi ) ∑ (y j − yi )
m m
2 2
f ij f ij
j =1 j =1
σ =
i
2
m
= ,
fi
∑ fij
j =1
88
Indicatorii numerici ai seriilor de distribuție
• ( )
Dispersia dintre grupe δ 2 – reflectă variaţia caracteristicii secundare
datorată acţiunii cauzelor esenţiale la nivelul întregii colectivităţi şi se
calculează ca o medie aritmetică ponderată a pătratelor abaterilor mediilor
de grupă de la media generală, pe baza relaţiei:
n
∑ ( yi − y0 )
2
fi
δ2 = i =1
n
,
∑ fi
i =1
• ( )
Dispersia generală σ 02 – se calculează ca o medie aritmetică ponderată
a pătratelor abaterilor termenilor faţă de media generală, pe baza relaţiei
următoare:
∑ (y j − y0 )
m
2
fj
j =1
σ =
2
0 m
.
∑ fj
j =1
∑ (y j − y0 )
m
2
pj
j =1
σ =
2
0 ,
100
unde p j reprezintă frecvenţele relative în colectivitatea totală a
variantelor înregistrate independent de factorul de grupare.
Dispersia dintre grupe se va calcula astfel:
n
∑ ( y i − y0 )
2
pi
δ =
2 i =1
,
100
unde pi reprezintă ponderea fiecărei grupe faţă de total.
Media dispersiilor de grupă va fi:
n
∑ σ i2 pi
σ2 = i =1
.
100
În cazul folosirii frecvenţelor relative este necesară cunoaşterea atât a
structurii seriilor componente cât şi a structurii pe grupe a colectivităţii totale.
90
Indicatorii numerici ai seriilor de distribuție
Exemplul 2.22.
Distribuţia muncitorilor unei societăţi comerciale din oraşul Craiova după
salariu (lei) şi vechime (ani) în luna decembrie 2006 este redată în tabelul 2.14.
Tabelul 2.14.
- 450 – 550 – 650 – 750 – 850 - Total
Salariul
450 550 650 750 850 fx
Y
X 5 6 7 8 9
Vechime 400 500 600 700 800 900
- 15 10 20 30 30 20 - - 100
15-25 20 30 80 100 90 30 - 330
25-35 30 - 40 140 120 50 30 380
35 - 40 - - 80 70 20 20 190
Total fy 50 150 350 300 100 50 1000
m
∑ y j f2 j 400 ⋅ 30 + 500 ⋅ 80 + 600 ⋅ 100 + 700 ⋅ 90 + 800 ⋅ 30 199000
j =1
y2 = = = = 603,03
f2 330 330
m
∑ y j f3 j 500 ⋅ 40 + 600 ⋅ 140 + 700 ⋅ 120 + 800 ⋅ 50 + 900 ⋅ 30 255000
j =1
y3 = = = = 671,05
f3 380 380
m
∑ y j f4 j 600 ⋅ 80 + 700 ⋅ 70 + 800 ⋅ 20 + 900 ⋅ 20 131000
j =1
y4 = = = = 689,47
f4 190 190
Dispersiile de grupă vor fi:
91
Statistică
∑ (y j − y1 )
m
2
f1 j
σ = 2 j =1
=
(400 − 550 )2 20 + (500 − 550 )2 30 + (600 − 550 )2 30 +
1
f1 12
+ (700 − 550 ) 20 1050000
2
= = 10500
100 100
σ 22 = 12415,06 ;
σ 32 = 11530,47 ;
σ 42 = 9362,88
Dispersie mai mică apare pentru grupa 4, respectiv grupa de vechime
de peste 35 ani. Urmează grupele 1, 3 şi 2 (în grupa 2 dispersia fiind maximă).
Deci, pentru ultimele două grupe factorii întâmplători au influenţat puternic
nivelul salariului.
b) Media dispersiilor de grupă
n
∑ σ i2 f i 10500,00 ⋅ 100 + 12415,06 ⋅ 330 + 11530,47 ⋅ 380 + 9362,88 ⋅ 190
i =1
σ2= n
= ⇒
1000
∑ fi
i =1
σ 2 = 11307,5
n
∑ ( yi − y0 )
2
δ = 2 i =1
fi
=
(550 − 640 )2 100 + (603,03 − 640 )2 330 +
n
1000
∑ fi
i =1
∑ (y j − y0 )
m
2
fj
σ =2 j =1
=
(400 − 640 )2 50 + (500 − 640 )2 150 + (600 − 640 )2 350 +
0 m
1000
∑ fj
j =1
1000
92
Indicatorii numerici ai seriilor de distribuție
13400000
σ 02 = = 13400 .
1000
Regula adunării dispersiilor este verificată:
σ 02 = σ 2 + δ 2 ⇒ 13400 = 11307,50 + 2092,50.
2.3.1. Asimetria
fi fi Me fi Mo Me
Mo
x x
93
μ3 = ∑
( xi − x )3 fi
.
∑ fi
Interpretarea acestui indicator porneşte de la observaţia că
momentele centrate de ordin impar ale seriilor de distribuţie perfect
simetrice sunt egale cu zero (deci şi μ3=0). Pentru seriile în care
predomină termenii cu abateri negative faţă de medie ( xi − x < 0 ), vom
avea μ3<0, iar pentru seriile în care predomină termenii cu abateri
pozitive faţă de medie ( xi − x > 0 ), vom avea μ3>0. Ca atare, în funcţie
de valoarea lui μ3 vom avea:
- serie simetrică – pentru μ 3 = 0 ;
- serie cu asimetrie spre stânga (negativă) – pentru μ 3 < 0 ;
- serie cu asimetrie spre dreapta (pozitivă) – pentru μ 3 > 0 .
` Densitatea de repartiţie a frecvenţelor – se calculează ca raport
între fiecare frecvenţă (absolută sau relativă) şi mărimea intervalului,
astfel:
fi p
da = sau d r = i ,
k k
unde: fi – frecvenţele absolute;
pi – frecvenţele relative;
k – mărimea intervalului.
Dacă valorile acestor indicatori au tendinţă de creştere către
valoarea centrală a caracteristicii, înseamnă că seria de distribuţie are
tendinţa de normalitate. Densităţile de repartiţie a frecvenţelor se
calculează în special pentru seriile cu intervale de grupare mari sau
neegale.
(μ )2
2
1 ⎛ μ3 ⎞
β1 = 3 3 = ⋅⎜ ⎟ .
(μ2 ) μ2 ⎜⎝ μ2 ⎟⎠
Exemplul 2.23.
Pornind de la exemplul 2.2., să se analizeze asimetria seriei.
Rezolvare
x − Mo 640 − 630
Cas = = = 0,086 .
σ 115 ,76
Rezultă că avem o asimetrie moderată spre dreapta sau pozitivă.
2.3.2. Excesul
curba leptocurtică
curba mezocurtică
curba platicurtică
Exemplul 2.24.
Considerând datele de la exemplul 2.2., să se analizeze boltirea
(aplatizarea) seriei.
Rezolvare
a) Coeficientul de boltire Pearson:
Mai întâi vom determina momentul centrat de ordinul 4:
∑ (xi − x )
4
fi 522320000000
μ4 = = = 522320000 .
∑ fi 1000
Coeficientul va fi:
μ4 522320000
β2 = = = 2 ,91 < 3 ⇒ avem o curbă platicurtică.
μ22 179560000
b) Coeficientul de boltire Fisher:
γ2 = β2 – 3= – 0,09 < 0 ⇒ avem o curbă platicurtică.
Test de autoevaluare 2
Numărul de muncitori 5 23 37 17 13
a) Să se calculeze toţi indicatorii simpli şi sintetici ai variaţiei.
b) Să se determine dacă media este semnificativă.
99
Statistică
Rezumat
Luarea unei decizii, în orice tip de activitate, implică necesitatea
cunoaşterii acelui domeniu, respectiv a fenomenelor de masă manifestate în
acel domeniu. Cu cât această cunoaştere este mai profundă, cu atât riscurile
acţiunilor întreprinse sunt mai mici.
Pentru a realiza acest lucru este necesară calcularea indicatorilor
numerici ai seriilor statistice de distribuție. Aceştia se împart în:
- indicatori ai tendinţei centrale
- indicatori ai variaţiei
- indicatori ai formei
Indicatorii principali ai tendinţei centrale sunt:
` Media – este expresia sintetizării într-un singur nivel reprezentativ a tot
ceea ce este esenţial, tipic şi obiectiv în apariţia, manifestarea şi
dezvoltarea acesteia.
` Cuantilele - indicatori de poziţie care împart seria de distribuţie într-un
anumit număr de părţi cu efective egale.
` Modul - valoarea caracteristicii care are frecvenţa cea mai mare. Este
un indicator specific seriilor de distribuţie.
Media prezintă mai multe tipuri şi este necesară cunoaşterea condiţiilor
de aplicare pentru fiecare dintre acestea pentru a putea să fi utilizată corect.
Dintre cuantile cele mai des utilizate sunt cuartilele şi mai ales cuartila a
doua (mediana) care împarte o serie în două părţi egale.
În cazul seriilor de distribuţie, devine necesară compararea formei
acestora întâlnită în realitate cu distribuiţii teoretice ale căror proprietăţi sunt
cunoscute. Pentru a realiza acest lucru sunt necesari indicatorii formei.
De reţinut că avantajul utilizării mediei este reuşita de a sintetiza într-o
singură valoare esenţa unui set de date. Acesta este în acelaşi timp şi
principalul dezavantaj. Reţinând doar esenţa în manifestarea unui fenomen,
media nu reţine variaţiile din manifestarea acestuia. Acest dezavantaj este
eliminat prin calculul indicatorilor variaţiei.
Principalii indicatori ai variaţiei sunt grupaţi în două categorii:
¾ indicatori simpli: amplitudinea variaţiei (absolută şi relativă),
abaterile individuale (absolute şi relative). Au dezavantajul că nu
pot concentra într-o singură valoare variaţia unui întreg set de
date. Din acest motiv se calculează indicatorii sintetici.
¾ indicatori sintetici: abaterea medie liniară, dispersia (are
dezavantajul că nu poate fi utilizată direct în practică, rezultatul
ei nefiind uşor de utilizat direct), abaterea standard (înlătura
dezavantajul dispersiei şi este indicatorul cel mai des utilizat în
practică direct), coeficientul de variaţie (este forma de exprimare
relativă a abaterii standard).
100
Indicatorii numerici ai seriilor de distribuție
Termeni cheie
Tendința centrală, mărimi medii: media aritmetică, media armonică, media
pătratică, media geometrică, cuantile, cuartile, mediana, decile, percentile, mod
(dominantă), amplitudine, abaterea medie liniară, dispersie, abaterea medie
pătratică, coeficient de variație, momente, abateri intercuartilice, asimetrie,
exces.
Bibliografie
1. Anderson, D., Sweeney, D., Williams, Th., Freeman, J., Shoesmith, E.,
Statistics for business and economics, Cengage Learning EMEA, 2010;
2. Amiot, E., Introduction aux probabilites et a la statistique, Gaetan Marin
Editeur, Montreal, 2004;
3. McClave, J. T., Benson, P., G., Sincich, T., Statistics for Business and
Economics, 10th Edition, Pearson Prentice Hall, 2008;
4. Georgescu, V., Statistică descriptivă şi inferenţiala, Editura Universitaria,
Craiova, 2006;
5. Georgescu, V., Radu, C., Statistică, Editura Reprograph, Craiova, 1999;
6. Giard, V., Statistique appliquée à la gestion, Ed. Economica, Paris, 2007;
7. Goldfarb, B., Pardoux, C., Introduction a la methode statistique. Economie.
Gestion, Dunod, Paris, 2007;
8. Radu, C., Ionaşcu, C., M., Murăriţa, I., Statistică teoretică, Editura
Universitaria, Craiova, 2009;
9. Voineagu, V., Ţiţan, E., Ghiţă, S., Boboc, C., Todose, D., Statistică. Baze
teoretice şi aplicaţii, Editura Economică, Bucureşti, 2007
10. *** Anuarul Statistic al României 2012.
101
UNITATEA DE ÎNVĂŢARE 3
ANALIZA STATISTICĂ A
SERIILOR CRONOLOGICE
Cuprinsul capitolului
Obiectivele capitolului 3
3.1. Indicatorii dinamicii
3.2. Metode elementare de ajustare a seriilor cronologice
3.3. Definirea, clasificarea și proprietățile indicilor statistici
3.4. Sisteme de ponderare utilizate în construcția indicilor
factoriali de prețuri
Rezumat
Termeni cheie
Bibliografie
Obiectivele capitolului 3
În cadrul acestei unităţi de învăţare, structurată în
patru secţiuni şi mai multe subsecţiuni, sunt definite şi
analizate componentele seriilor cronologice şi utilizarea
acestora ca instrumente de ajustare şi predicţie în domeniul
economic.
După parcurgerea primelor două secțiuni și la sfârșitul unității de învățare,
studentul va avea de rezolvat două teste de autoevaluare. Testele sunt
construite gradual, ca mărime şi complexitate, din întrebări deschise, teste
grilă și aplicații practice. Încadrarea în parametrii specificaţi (timp, variante)
îi va confirma fiecărui student dezvoltarea competenţelor necesare pentru
trecerea la o nouă unitate de învăţare.
Parcurgerea logică a tuturor elementelor acestei unităţi îi va conferi
fiecărui student următoarele competenţe specifice:
descrierea corectă şi completă a tuturor componentelor unei serii de timp;
analiza componentelor seriei de timp cu ajutorul indicatorilor absoluţi,
relativi şi medii ai dinamicii;
utilizarea sistemelor de ponderare adecvate pentru construirea indicilor de
prețuri din țara noastră;
utilizarea indicatorilor specifici seriilor cronologice, dar şi a altor indicatori
statistici numerici ca instrumente de ajustare şi predicţie a fenomenelor
economice;
formularea unor concluzii pertinente despre datele analizate, pe baza
regularităţilor relevate prin folosirea acestor instrumente statistice.
101
Statistică
Rt / 1 =
yt − y1
y1
Δ
( )
⋅ 100 = t / 1 ⋅ 100 = I t / 1 − 1 ⋅ 100 ;
y1
103
Statistică
Rt / t −1 =
yt − yt −1
yt −1
Δ
( )
⋅ 100 = t / t −1 ⋅ 100 = I t / t −1 − 1 ⋅ 100 .
yt −1
Ritmul dinamicii se exprimă numai în procente.
` Valoarea absolută a unui procent de creştere (reducere) – exprimă
cât din modificarea absolută a unui fenomen revine la un procent din
ritmul dinamicii. Ca şi ceilalţi indicatori, acesta se poate calcula cu bază
fixă sau cu baza în lanţ, raportând modificarea absolută la ritmul
dinamicii:
Δ yt − y1 y
- cu baza fixă: At / 1 = t / 1 = = 1 ;
Rt / 1 yt − y1 100
⋅ 100
y1
Δ t / t −1 yt − yt −1 y
- cu baza în lanţ: At / t −1 = = = t −1 .
Rt / t −1 yt − yt −1 100
⋅ 100
yt −1
104
Analiza statistică a seriilor cronologice
Δ=∑
Δt / t −1 Δ
următoare: = t/1 .
n −1 n−1
Modificarea medie prezintă importanţă pentru stabilirea tendinţei
(trendului) unui fenomen, astfel:
- dacă Δ > 0 ⇒ tendinţă evolutivă (crescătoare);
- dacă Δ < 0 ⇒ tendinţă involutivă (descrescătoare).
De asemenea, acest indicator permite ajustarea seriei dinamice
şi elaborarea de prognoze privind evoluţia viitoare a fenomenului
analizat.
` indicele mediu – reuneşte într-un singur indicator nivelurile individuale
ale indicilor cu baza în lanţ calculaţi pentru o serie dinamică. Se
determină ca o medie geometrică simplă a indicilor cu baza în lanţ, pe
baza relaţiei: I = n −1 ∏ I t / t −1 = n −1 I t / 1 .
Indicele mediu se foloseşte la ajustarea seriei dinamice, precum
şi la determinarea ritmului mediu.
` ritmul mediu – arată cu cât a crescut sau a scăzut în medie, pe fiecare
perioadă, fenomenul analizat şi se exprimă în procente. Se calculează
pe baza relaţiei: R = I − 1 ⋅ 100 . ( )
` valoarea medie absolută a unui procent de creştere – exprimă cât
din modificarea medie a unui fenomen revine la un procent din ritmul
Δ
mediu şi se determină pe baza relaţiei: A= .
R
Exemplul 3.1.
Volumul vânzărilor unui magazin, în primele 8 luni ale anului trecut este
redat în tabelul 3.1. Indicatorii dinamicii sunt calculaţi, de asemenea, în acelaşi
tabel.
105
Statistică
Tabelul 3.1.
1 100 - - 1,00 - - - - -
2 90 -10 -10 0,90 0,90 -10 -10 1 1,0
3 110 10 20 1,10 1,22 10 22 1 0,9
4 120 20 10 1,20 1,09 20 9 1 1,1
5 140 40 20 1,40 1,16 40 16 1 1,2
6 150 50 10 1,50 1,07 50 7 1 1,4
7 110 10 -40 1,10 0,73 10 -27 1 1,5
8 130 30 20 1,30 1,18 30 18 1 1,1
Rezolvare
Indicatorii medii ai dinamicii sunt:
nivelul mediu: y = ∑ i =
y 950
= 118 ,75 bucăţi;
n 8
Δ 30
modificarea medie: Δ = t / 1 = = 4 ,28 bucăţi;
n −1 7
indicele mediu: I = n −1 I t / 1 = 7 1,30 = 1,0382 ;
( )
ritmul mediu: R = I − 1 ⋅ 100 = (1,038 − 1) ⋅ 100 = 3 ,8% ;
abaterea medie absolută a unui procent de creştere:
Δ 4 ,28
A= = = 1,12 bucăţi.
R 3,8
Volumul mediu lunar al vânzărilor acestui magazin a fost de 118,75
bucăţi. Observăm că vânzările au înregistrat o creştere, în primele 8 luni ale
anului, în medie (pe lună) cu 4,28 bucăţi, ritmul mediu a înregistrat o creştere
de 3,8% lunar, iar la un procent de creştere a revenit un volum al vânzărilor de
1,12 bucăţi.
În funcţie de semnificaţia şi importanţa economico-socială, indicatorii se
împart în două mari categorii:
- indicatori al căror nivel firmele şi, în general, societatea îl
doresc cât mai ridicat (de exemplu: cantitatea de produse fabricate,
productivitatea muncii etc.);
- indicatori al căror nivel se doreşte cât mai mic (de exemplu:
costul de fabricaţie pe unitatea de produs, consumurile de materiale etc.).
Tabelul 3.2.
Situaţia favorabilă nefavorabilă
Nivel dorit al indicatorilor
cât mai ridicat I > 1; R > 0; Δ > 0 I < 1; R < 0; Δ < 0
cât mai scăzut I < 1; R < 0; Δ < 0 I > 1; R > 0; Δ > 0
106
Analiza statistică a seriilor cronologice
107
Statistică
Exemplul 3.2.
Considerând datele de la exemplul 3.1., valorile ajustate prin metoda
mediilor eşalonate şi cea a mediilor mobile sunt redate în tabelul 3.3..
Tabelul 3.3.
Luna Vânzări (buc.) Mediile eşalonate Mediile mobile
1 100 95 95
2 90 115 100
3 110 145 115
4 120 120 130
5 140 - 145
6 150 - 130
7 110 - 120
8 130 - -
Exemplul 3.3.
Considerând datele de la exemplul 3.1., valorile ajustate prin metoda
sporului mediu ( Δ = 4 ,28 ) sunt cele din tabelul 3.4.:
108
Analiza statistică a seriilor cronologice
Tabelul 3.4.
Luna Vânzări (buc.) - yt Yi
1 100 100,00
2 90 104,28
3 110 108,56
4 120 112,84
5 140 117,12
6 150 121,40
7 110 125,68
8 130 130,00
Exemplul 3.4.
Considerând datele de la exemplul 3.1., valorile ajustate prin metoda
indicelui mediu ( I = 1,0382 ) sunt cele din tabelul 3.5.:
Tabelul 3.5.
Luna Vânzări (buc.) - yt Yi
1 100 100,00
2 90 103,82
3 110 107,78
4 120 111,90
5 140 116,17
6 150 120,61
7 110 125,22
8 130 130,00
109
Statistică
Test de autoevaluare 1
1. Care sunt indicatorii utilizaţi cel mai frecvent pentru caracterizarea dinamicii
seriilor cronologice?
2. Producţia realizată în luna mai din anul curent a crescut cu 106 % faţă de
nivelul realizat în luna decembrie din anul precedent, iar în luna octombrie
nivelul său a fost de 3,18 ori mai mare decât cel din decembrie.
Determinaţi, interpretaţi şi alegeţi rezultatul corect, care vizează ritmul mediu
lunar pentru perioada iunie - octombrie, din anul curent :
a) -6,5%; b) 9,07%; c) 14%; d) 118%; e) – 9,07%.
110
Analiza statistică a seriilor cronologice
10. Producţia unei firme a evoluat de-a lungul unui an după cum urmează:
Luna Producţia
(t) (mii lei)
1 100
2 110
3 125
4 115
5 150
6 175
7 200
8 180
9 190
10 210
11 200
12 225
111
Statistică
112
Analiza statistică a seriilor cronologice
113
Statistică
economic din acea ramură; în analiza evoluţiei populaţiei ocupate din ţara
nostră, nivelul individual poate fi reprezentat de ramurile economiei naţionale
sau de unităţile administrativ teritoriale (judeţe, regiuni).
I 1Y/ 0 =
∑ y (100)
1
∑y 0
I AY B =
∑ y (100)
A
∑y B
I 1x/ 0 =
∑x f 1
- măsoară influenţa factorului calitativ
∑x f 0
I 1f/ 0 =
∑ xf 1
- măsoară influenţa factorului cantitativ
∑ xf 0
115
Statistică
⎧∑ y
⎪
⎨ y y1
⎪i1 / 0 = y ⇒ y1 = i1 / 0 ⋅ y 0
y
⎩ 0
cantitativ: I y( f )
=
∑i ⋅ x
f
1/ 0 0 f0
∑x f
1/ 0
0 0
⎧∑ y1
⎪
⎨ y y1 1
⎪i1 / 0 = y ⇒ y 0 = i y ⋅ y1
⎩ 0 1/ 0
∑y o
1
∑i ⋅ y y 1
1/ 0
Indicele de grup calculat ca medie armonică a indicilor individuali se
aplică în practica statistică, de regulă, pentru determinarea influenţei factorului
calitativ:
I 1y/(0x ) =
∑x f 1 1
1
∑i ⋅x x 1 1f
1/ 0
∑ y = ∑ xf = x ⋅ f = x ⋅ S
x= ∑ ∑
∑f f ∑f
unde: x - nivelul mediu al factorului calitativ (de exemplu: consum
specific individual de materiale, salariu mediu realizat);
x - nivelurile individuale ale caracteristicii calitative derivate
(acestea au caracter de mărime relativă de intensitate, fiind
rezultat al raportului dintre două caracteristici de natură diferită);
f - frecvenţa de apariţie a nivelurilor individuale;
f
S= - ponderea fiecărui element sau
∑ f
structura colectivităţii cercetate.
Deoarece nivelul mediu al factorului calitativ astfel construit depinde de
nivelurile individuale observate la fiecare element al colectivităţii (x) şi de
structura acesteia (S), forma generală a indicelui de grup calculat ca raport de
medii este:
I 1x/ 0 =
x1
=
∑x f 1 1
÷
∑x f
0 0
=
∑x S 1 1
x0 ∑f 1 ∑f 0 ∑x S 0 0
i1y/(0x , f ) =
y1 x f
= 1 1 I1/ 0 =
∑y 1
=
∑x
1 1 f
y0 x0 f 0 ∑y 0 ∑x
0 f0
Indici factoriali – exprimă variabilitatea fenomenului general
determinată de influenţa fiecăruia dintre factori. Pentru separarea
influenţei unui factor, nivelurile celorlalţi factori se menţin
constante (joacă rol de pondere).
Pentru evidenţierea influenţei factorului calitativ (x) asupra variaţiei unui
fenomen general (y) există două posibilităţi:
x1 f1 x x1 f 0 x
i1y/(0x ) = = 1 = i1x/ 0 sau i1y/(0x ) = = 1 = i1x/ 0
x0 f 0 x0 x0 f 0 x0
I 1y/(0x ) =
∑x f
1 1
sau I 1y/(0x ) =
∑x 1 f0
∑x f
0 1 ∑x 0 f0
117
Statistică
I 1y/(0f ) =
∑x f 1 1
sau I 1y/(0f ) =
∑x 0 1 f
∑x f 1 0 ∑x 0 f0
Se observă că în cazul indicilor individuali, metoda de ponderare aleasă
nu influenţează rezultatul: indicii factoriali individuali sunt egali cu indicii
individuali ai factorului respectiv:
i1y/(0x ) = i1x/ 0 şi i1y/(0f ) = i1f/ 0
În cazul indicilor de grup, nivelurile indicilor factoriali diferă în funcţie de
metoda de ponderare aleasă. Explicaţia constă în aceea că indicii de grup fiind
– cum am demostrat anterior – medii (aritmetice sau armonice) ale indicilor
individuali, nivelurile lor depind şi de frecvenţe (ponderi).
3.3.3. Proprietățile indicilor. Teste de verificare
imy / p imy / p
Relaţiile derivate sunt: imy / n = sau iny/ p =
iny/ p imy / n
118
Analiza statistică a seriilor cronologice
I 1y/(0x ) =
∑x1 0 f
∑x0 f0
• pentru factorul cantitativ:
I 1y/(0f ) =
∑x 0 1 f
∑x 0 f0
Indicii factoriali ai dinamicii valorii, propuşi de Laspeyres pot fi
determinaţi după mai multe relaţii echivalente:
• indicele preţurilor poate fi calculat:
o sub formă de indice agregat:
119
Statistică
I 1p/ 0 =
∑pq 1 0
∑p q 0 0
I1p/ 0 = 0
= 1/ 0 0 0
= ∑ i1p/ 0 ⋅ S 0
∑pq 0 0 ∑p q 0 0
p0 q0
unde S 0 = - structura valorii din perioada de bază.
∑ p0 q0
o ca medie armonică a indicilor elementari ai preţurilor,
ponderaţi cu valoarea obţinută pe baza cantităţilor din
perioada trecută şi a preţurilor din perioada curentă:
I 1p/ 0 =
∑pq 1 0
=
∑pq 1 0
p 1
∑p pq 0
1 0 ∑i p q p 1 0
1 1/ 0
I 1q/ 0 =
∑p q 0 1
∑p q 0 0
= = = ∑ i1q/ 0 ⋅ S 0
q 0 1/ 0 0 0
I
∑p q ∑p q
1/ 0
0 0 0 0
I 1q/ 0 =
∑p q 0 1
=
∑p q 0 1
q 1
∑q p q 0
0 1 ∑i p q q 0 1
1 1/ 0
120
Analiza statistică a seriilor cronologice
I 1y/(0x ) =
∑x f 1 1
- pentru factorul calitativ
∑x f 0 1
I 1y/(0f ) =
∑x f 1 1
- pentru factorul cantitativ
∑x f 1 0
I 1p/ 0 =
∑pq 1 1
∑p q 0 1
= =
p 0 1/ 0 0 1
I
∑p q ∑p q
1/ 0
0 1 0 1
I 1p/ 0 =
∑pq 1 1
=
∑pq 1 1
p 1
∑p pq 0
1 1 ∑i p q p 1 1
1 1/ 0
I 1q/ 0 =
∑pq 1 1
∑pq 1 0
= =
q 0 1/ 0 1 0
I
∑pq ∑pq
1/ 0
1 0 1 0
121
Statistică
I 1q/ 0 =
∑pq 1 1
=
∑pq 1 1
q 1
∑q pq 0
1 1 ∑i p q
q 1 1
1 1/ 0
I 1y/(0x ) =
∑x 1 f0
⋅
∑x 1 1 f
∑x 0 f0 ∑x 0 1 f
I 1y/(0f ) =
∑x 0 1 f
⋅
∑x f 1 1
∑x 0 f0 ∑x f 1 0
Laspeyres: I tp/ t =
∑ p q = 1; I
t t q
=
∑ p q =1
t t
∑pq ∑pq
t /t
t t t t
Paasche: I tp/ t =
∑ p q = 1;
t t
I tq/ t =
∑ p q =1
t t
∑pq t t ∑pq t t
122
Analiza statistică a seriilor cronologice
I ap/ b =
∑p q a b ∑p q ; I =∑p q
; I bp/ c =
b c p a c
;
∑p q ∑p q ∑p q
a/c
b b c c c c
⇒ I ap/ b ⋅ I bp/ c =
∑p q ⋅∑p q ≠ ∑p q
a b b c a c
∑p q ∑p q ∑p qb b c c c c
I ap/ b =
∑p q a b
⇒ I ap/ b ⋅ I bp/ a =
∑p q ⋅∑p q
a b b a
≠1
∑p q b b ∑p q ∑p q
b b a a
I bp/ a =
∑p q b a
∑p q a a
I ap/ b =
∑p q a a
⇒ I ap/ b ⋅ I bp/ a =
∑p q ⋅∑p q
a a b b
≠1
∑p q b a ∑p q ∑p q
b a a b
I bp/ a =
∑p q b b
∑p q a b
I ap/ b ⋅ I bp/ a =
∑p q ⋅∑p q ⋅∑p q ⋅∑p q
a b a a b a b b
=1
∑p q ∑p q ∑p q ∑p q
b b b a a a a b
I1v/ 0 =
∑pq ; I = ∑p q ; I = ∑p q
1 1 v( p) 1 0 v(q) 0 1
∑pq ∑p q ∑p q
1/ 0 1/ 0
0 0 0 0 0 0
⇒
∑pq ⋅∑p q ≠ ∑pq 1 0 0 1 1 1
∑p q ∑p q ∑p q 0 0 0 0 0 0
123
Statistică
I 1v/(0p ) ⋅ I 1v/(0q ) =
∑pq ⋅∑pq
1 0 1 1
⋅
∑p q ⋅∑pq
0 1 1 1
=
∑pq 1 1
= I 1v/ 0
∑p q ∑p q
0 0 0 1 ∑p q ∑pq0 0 1 0 ∑p q 0 0
I 1v/(0p ,q ) =
∑pq 1 1
= 2.4375
∑p q 0 0
I P
=
∑pq
1 0
sau I P
=
∑i p q
p
1/ 0 0 0
; unde i1p/ 0 =
p1
∑p q ∑p q
L L
0 0 0 0 p0
Avantaje şi limite.
o Costurile necesare determinării acestui indice sunt scăzute
(se înregistrează doar preţurile, cantităţile şi structura lor
fiind cele determinate pentru perioada de bază).
o Are o largă aplicabilitate în practică, majoritatea indicilor de
preţuri calculându-se astfel (indicele preţurilor de consum,
indicele preţurilor producţiei industriale).
o Fiind un indice cu pondere constantă, într-o serie de astfel
de indici, aceştia sunt comparabili între ei.
o Nu cuprinde în calcul modificarea preţurilor produselor noi
(apărute în cursul perioadei analizate).
o Indică limita superioară a modificării relative a preţurilor;
bazându-se pe structura produselor din perioada de bază,
nu ţine cont de faptul că aceasta se modifică în favoarea
înlocuirii produselor scumpe cu altele mai ieftine, dar care
satisfac aceleaşi necesităţi.
⇒ supraestimează nivelul modificării preţurilor.
125
Statistică
I PP =
∑pq
1 1
sau I PP =
∑pq 1 1
∑p q
0 1
1
∑ i ⋅p q
p 1 1
1/ 0
Avantaje şi limite.
o Costurile necesare determinării acestui indice sunt ridicate
(se înregistrează atât preţurile cât şi cantităţile din perioada
curentă).
o Se aplică mai rar în practică, în general pentru calculul
indicilor anuali de preţuri (deflatorul PIB).
o Fiind un indice cu pondere variabilă, într-o serie de astfel
de indici, aceştia nu sunt comparabili între ei.
o Nu surprinde modificarea preţurilor produselor vechi (care
s-au produs în perioada de bază dar nu mai sunt produse
sau solicitate în perioada curentă).
o Indică limita inferioară a modificării relative a preţurilor; nu
ţine cont de faptul că în structura produselor din perioada
curentă, bunurile cu creşteri mari de preţuri vor avea o
pondere mică, iar cele cu creşteri mai mici de preţuri, vor
avea o pondere mare.
⇒ subestimează nivelul modificării preţurilor.
Principalii indici de preţuri calculaţi şi publicaţi în ţara noastră – utilizaţi,
de altfel, în majoritatea ţărilor, ca şi în statistica internaţională sunt:
• Indicele preţurilor consumatorului (indicele preţurilor de consum);
• Indicele preţurilor produselor industriale.
• Indicele preţurilor produsului intern brut (deflatorul PIB);
126
Analiza statistică a seriilor cronologice
IPC1 / 0 =
∑i ⋅ p q
p
1/ 0 0 0
∑p q 0 0
127
Statistică
128
Analiza statistică a seriilor cronologice
Test de autoevaluare 2
129
Statistică
130
Analiza statistică a seriilor cronologice
Rezumat
131
Statistică
Termeni cheie
Bibliografie
1. Anderson, D., Sweeney, D., Williams, Th., Freeman, J., Shoesmith, E.,
Statistics for business and economics, Cengage Learning EMEA, 2010;
2. Amiot, E., Introduction aux probabilites et a la statistique, Gaetan Marin
Editeur, Montreal, 2004;
3. McClave, J. T., Benson, P., G., Sincich, T., Statistics for Business and
Economics, 10th Edition, Pearson Prentice Hall, 2008;
4. Georgescu, V., Statistică descriptivă şi inferenţiala, Editura Universitaria,
Craiova, 2006;
5. Georgescu, V., Radu, C., Statistică, Editura Reprograph, Craiova, 1999;
6. Giard, V., Statistique appliquée à la gestion, Ed. Economica, Paris, 2007;
7. Goldfarb, B., Pardoux, C., Introduction a la methode statistique. Economie.
Gestion, Dunod, Paris, 2007;
8. Radu, C., Ionaşcu, C., M., Murăriţa, I., Statistică teoretică, Editura
Universitaria, Craiova, 2009;
9. Voineagu, V., Ţiţan, E., Ghiţă, S., Boboc, C., Todose, D., Statistică. Baze
teoretice şi aplicaţii, Editura Economică, Bucureşti, 2007;
10. *** Buletin statistic de prețuri, 2012 - 2013
11. *** Anuarul Statistic al României 2012.
132
Probabilități și distribuții clasice de probabilitate
UNITATEA DE ÎNVĂŢARE4
PROBABILITĂȚI ȘI DISTRIBUȚII
CLASICE DE PROBABILITATE
Cuprinsul capitolului
Obiectivele capitolului 4
4.1. Definirea probabilității, reguli și arbori de probabilitate
4.2. Variabila aleatoare
4.3. Distribuții de probabilitate ale variabilelor aleatoare discrete
4.4. Distribuții de probabilitate ale variabilelor aleatoare continue
Rezumat
Termeni cheie
Bibliografie
Obiectivelecapitolului 4
În cadrul acestei unităţi de învăţare, structurată în
patru secţiuni şi mai multe subsecţiuni, sunt definite
principalele noțiuni de statistică matematică utile pentru
înțelegerea conceptelor statisticii inferențiale și aplicarea
corectă a metodologiei specifice acesteia în domeniul
economic: experiment aleator, eveniment, probabilitate, variabilă aleatoare,
distribuții clasice de probabilitate.
La sfârșitul unității de învățare, studentul va avea de rezolvat un test de
autoevaluare,construit gradual, ca mărime şi complexitate, din întrebări
deschise, teste grilă și aplicații practice. Încadrarea în parametrii specificaţi
(timp, variante) îi va confirma fiecărui student dezvoltarea competenţelor
necesare pentru trecerea la o nouă unitate de învăţare.
Parcurgerea logică a tuturor elementelor acestei unităţi îi va conferi
fiecărui student următoarele competenţe specifice:
descrierea corectă şi completă a conceptelor de statistică matematică:
probabilități, variabile aleatoare, distribuții de probabilitate;
aplicarea corectă a metodelor și instrumentelor de statistică matematică
într-o cercetare economică;
completarea teoriei și metodologiei statistice cu bazele logice și rigoarea
necesare care conferă abilități calculatorii și criterii de validitate pentru
orizontul de competență propriu domeniului economic.
133
Statistică
134
Probabilități și distribuții clasice de probabilitate
135
Statistică
P( A ∩ B) 1 / 6 1
P(A/B) = = =
P( B) 3/ 6 3
P( A ∩ B) 1 / 6 1
P(B/A) = = =
P( A) 2/6 2
P(A) + P( A ) = 1.
Regula complementului, pentru orice eveniment A, este:
P(A) = 1 – P( A ).
Deşi simplă, regula este foarte folositoare: uneori este mai uşor să
calculăm probabilitatea producerii unui eveniment, calculând doar probabilitatea
ca acesta să nu se producă şi scăzând rezultatul din 1.
• Regula adunării– ne permite determinarea probabilităţii unei reuniuni
de evenimente pe baza probabilităţilor altor evenimente. Pentru oricare două
evenimente A şi B, regula adunării lor este:
P(A U B) = P(A) + P(B) – P(A ∩ B).
Dacă cele două evenimente sunt reciproc exclusive, atunci P(A ∩ B) =
0, iar regula adunării se simplifică:
P(A U B) = P(A) + P(B).
• Regula înmulţirii– ne permite să determinăm probabilitatea unor
evenimente combinate; ea este, practic, o altă modalitate de calcul a
probabilităţilor condiţionate. Pentru oricare două evenimente A şi B, regula
înmulţirii lor este:
P(A ∩ B) = P(A) × P(B/A)
= P(B) × P(A/B).
Cele două formule sunt echivalente; utilizarea uneia sau alteia într-o
situaţie concretă depinde de informaţiile pe care le deţinem.
Pentru cazul particular în care cele două evenimente A şi B sunt
independente:
P(A/B) = P(A) şi P(B/A) = P(B)
regula înmulţirii se simplifică:
P(A ∩ B) = P(A) × P(B).
O metodă foarte utilă pentru calculul probabilităţilor este arborele de
probabilitate, în care diferitele evenimente posibile ale unui experiment sunt
reprezentate prin linii sau ramuri ale acestuia; metoda este utilă în special
pentru a ne asigura că am identificat toate evenimentele elementare si am
atribuit corect probabilităţile asociate.
Exemplul 4.1. Considerând experimentul aruncării unei monede
(rezultate posibile Cap şi Pajură) de două ori, câmpul de evenimente asociat
este:
S = { CC, CP, PC, PP }.
Arborele de probabilitate al acestui experiment este prezentat în figura
4.2.
138
Probabilități și distribuții clasice de probabilitate
139
Statistică
140
Probabilități și distribuții clasice de probabilitate
CC 0 1/4
CP 1 1/4
PC 1 1/4
PP 2 1/4
0 1/4
1 1/2
2 1/4
141
Statistică
142
Probabilități și distribuții clasice de probabilitate
σ = V (X ).
Exemplul 4.2. Presupunem următorul joc: după ce mizăm 1 euro,
aruncăm un zar şi primim un număr de monede de 20 eurocenţi egal cu
numărul de puncte obţinute la aruncarea zarului. Dacă notăm cu x numărul
obţinut la aruncarea zarului, putem defini variabila aleatoare discretă X astfel:
x 1 2 3 4 5 6
p(x) 1/6 1/6 1/6 1/6 1/6 1/6
σ y = V (Y ) = 34 .16 .
Numim moment teoretic niţial de ordinul kal variabilei aleatoare discrete X
expresia: M k = E( X k ) = ∑
xik pi ; k ∈ Ν
x∈X i
posibilă între oricare două dintre aceste valori – de aceea doar intervalele sunt
semnificative pentru această variabilă. Probabilitatea ca o variabilă aleatoare
continuă X să ia o anumită valoare particulară este zero. Nu este practic posibil
să asociezi o probabilitate pozitivă fiecărei valori din mulţimea infinită
(nenumărabilă) a acestora iar suma acestor probabilităţi să ramână egală cu 1.
Pentru o astfel de variabilă are semnificaţie doar probabilitatea ca valoarea
luată de X să fie cuprinsă într-un anumit interval de valori.
O variabilă aleatoare este continuădacă ansamblul valorilor sale posibile
corespunde celor dintr-un interval dat, finit sau infinit.
Exemplul 4.3. Un experiment aleator poate fi considerat observarea
duratei convorbirilor telefonice pentru un eşantion reprezentativ de angajaţi ai
unei companii într-o zi de lucru. Dacă notăm cu X durata convorbirilor
(măsurată în minute), deoarece angajaţii au fost selactaţi întâmplător (şi în
număr suficient de mare), iar ansamblul valorilor posibile corespunde unui
interval de timp, atunci X este o variabilă aleatoare continuă. Reprezentarea
grafică a datelor astfel culese se poate realiza printr-o histogramă prin
dreptunghiuri (figura 4.6.) ale cărei frecvenţe relative pot fi reduse proporţional
cu mărimea intervalului de variaţie, astfel încât suprafaţa histogramei să fie
egală cu 1, iar suprafaţa fiecărui dreptunghi să reprezinte proporţia în care
rezultatele măsurătorilor aparţin acestei clase (interval).
frecvenţe relative
0,3
0,25
0,2
0,15
0,1
0,05
0
2 2 5 5 8 8 11 11 14 14 17 17 20
144
Probabilități și distribuții clasice de probabilitate
b
• P(a < X < b) = ∫ f ( x)dx, a < b
a
Este importantă precizarea că f(x) nu este o probabilitate:
f ( x ) ≠ P ( X = x). Aşa cum am menţionat anterior, probabilitatea ca X să ia o
anumită valoare specifică este zero: P ( X = x ) = 0 . Fiind dată o funcţie a
densităţii probabilităţii f(x), suprafaţa cuprinsă între graficul funcţiei şi două
valori a şi b ale lui x (de pe abcisă) reprezintă probabilitatea ca X să ia o
valoare cuprinsă între a şi b, conform proprietăţilor densităţii de repartiţie
prezentate mai sus (figura 4.7.)
145
Statistică
∞
V (X ) = ∫ (x − μ) ⋅ f ( x)dx, unde E (x ) = μ
2
−∞
- formula simplificată:
∞
V ( x) = ∫x f ( x)dx − μ 2
2
−∞
σ = V (X ) = σ 2
• momentul iniţial de ordinul k (k ∈ N)
∞
M k (X ) = ∫x ⋅ f ( x)dx
k
−∞
F(x)
146
Probabilități și distribuții clasice de probabilitate
147
Statistică
148
Probabilități și distribuții clasice de probabilitate
S ESS p2(1-p) 2
S p
(1-p) E p
(1-p) E ESE p (1-p)2 1
E p
(1-p) S EES p (1-p)2 1
(1-p)
F EEE (1-p)3 0
0 (1-p)3
1 3p(1-p)2
2 3p2(1-p)
3 p3
SS......SEE...........E
149
Statistică
0 C30=1
1 C31=3
2 C32=3
3 C33=1
⎧C nx p x ⋅ (1 − p) n − x ≥ 0, daca. x ∈ {0,...,1,.....n}
p ( x) = ⎨
⎩0, pentru oricare alta valoare a lui x
2. ∑ε C
xi X
x
n p x (1 − p ) n − x =1
151
Statistică
0 0.5788
1 0.9260
2 0.9954
3 1.0000
152
Probabilități și distribuții clasice de probabilitate
153
Statistică
154
Probabilități și distribuții clasice de probabilitate
2
1 ⎛ x−μ ⎞
1 − ⎜
2⎝ σ ⎠
⎟
f ( x) = ⋅e ; ∀x ∈ R
σ 2π
unde μ = E ( X ) , σ 2 = V ( X ) , π = 3.14159.. , e = 2.71828...
O variabilă aleatoare care este normal distribuită (sau este supusă unei
legi normale de probabilitate) se numeşte variabilă aleatoare normală, se
notează cu X : N( μ ; σ 2 ) - unde μ şi σ 2 reprezintă valorile mediei şi dispersiei
acestei variabile - şi are o reprezentare grafică precum cea din figura 4.12.
Se observă că variabila normală poate lua orice valoare pe axa reală (de
la - ∞ la + ∞ ) iar funcţia normală de densitate a probabilităţii f(x) este continuă;
are valori pozitive pentru toate valorile lui x, este simetrică în raport cu x = μ ,
1
posedă un punct de maximum pentru x = μ (şi y = ) şi două puncte de
σ 2π
inflexiune (unul în x = μ − σ şi altul în x = μ + σ ) . Fiind vorba de o funcţie de
densitate de probabilitate, aria suprafeţei delimitată de curba funcţiei şi axa
orizontală este egală cu 1 şi, din cauza simetriei, aria fiecărei suprafeţei de o
parte si alta a axei x = μ este egală cu 0.5. Ca în cazul oricărei alte funcţii de
densitate de probabilitate, valoarea lui f(x) nu este probabilitatea cu care X ia
valoarea x, ci o expresie a înălţimii curbei la valoarea x.
Cu toate că, aparent, o distribuţie normală este complet determinată
odată cu specificarea celor doi parametri μ şi σ 2 , în realitate, există o
întreagă familie de distribuţii normale care au aceeaşi formă (clopotul lui
Gauss) dar diferă una de cealaltă prin localizarea mediei şi dispersia valorilor.
În figura 4.13 sunt prezentate trei distribuţii normale cu aceeaşi dispersie dar cu
medii diferite, iar în figura 4.14 sunt reprezentate trei distribuţii normale cu
aceeaşi medie şi dispersii diferite.
155
Statistică
x0 − μ
z0 =
σ
Probabilitatea ca o variabilă să ia o valoare în cadrul intervalului definit de
z0 abateri standard de la medie, rămâne constantă pentru orice variabilă
aleatoare normală. Cu alte cuvinte, pentru oricare variabilă aleatoare normală
X, cu media μ şi abaterea medie pătratică σ , avem:
b) 50 ≤ X ≤ 70
50 − 60 x − 60 70 − 60
≤ ≤ ⇔ − 1.25 ≤ Z ≤ 1.25
8 8 8
De fiecare dată când aria de interes include media, ca în acest caz (figura
4.17), ea trebuie determinată ca sumă a celor două suprafeţe situate de o parte
şi de alta a mediei.
159
Statistică
P (0.63 ≤ Z ≤ 1.25) = A = A1 − A2
Unde: A1 = P (0 ≤ Z ≤ 1.25) A2 = P (0 ≤ Z ≤ 0.63)
Rezultă: P (0.63 ≤ Z ≤ 1.25) = P (0 ≤ Z ≤ 1.25) − P (0 ≤ Z ≤ 0.63) =
= 0.3944 − 0.2357 = 0.1587
Aşa cum am văzut din exemplul prezentat, în viaţa reală multe
caracteristici cantitative continue sunt în mod natural distribuite după un model
normal. Din punct de vedere statstic, frecvenţa lor relativă este distribuită în
aceeaşi manieră ca şi densitatea de probabilitate a unei legi normale: înălţimea
sau greutatea persoanelor dintr-o populaţie dată, rezistenţa tijelor de metal în
cadrul unei producţii industriale, volumul conţinutului sticlelor dintr-o firmă de
îmbuteliere, notele obţinute la un examen de către studenţii unui an de studiu
etc.
Un alt exemplu al utilităţii legii normale îl constituie furnizarea unui
instrument de comparare între valori aparţinând unor distribuţii normale diferite.
Exemplu 4.7.Notele obţinute la un test naţional de către elevii unui
colegiu A sunt distribuite după o lege normală N(7.2;0.81) iar notele obţinute la
acelaşi test de către elevii unui alt colegiu B sunt normal distribuite N(6.9;1).
Considerând un elev care a obţinut nota 7.4 la colegiul A şi alt elev care a
obţinut nota 7.3 la colegiul B, ne propunem să determinăm care dintre cei doi
elevi este mai bine clasat în raport cu ceilalţi elevi din colegiul său.
Pentru a stabili acest lucru, standardizăm nota fiecărui elev, altfel spus
calculăm echivalentul notei sale într-o distribuţie N(0;1).
• Pentru elevul de la colegiul A nota sa de 7.4 într-o distribuţie
N(7.2;0.81) devine:
7.4 − 7.2
= 0.2
0.9
• Pentru elevul de la colegiul B, nota sa de 7.3 într-o distrubuţie
N(6.9;1) devine:
7.3 − 6.9
= 0.4
1
Se observă că elevul de la colegiul B, chiar dacă a obţinut o notă brută
inferioară celei a elevului de la colegiul A, este mai bine clasat decât acesta,
deoarece pe scara comună a variabilei Z nota sa este superioară.
160
Probabilități și distribuții clasice de probabilitate
şi fie Y = ∑X
i
i
Atunci Y : N ( μ ; σ 2 )
Unde μ = μ1 + ... + μ n = ∑μ i
i
σ 2 = σ 12 + ... + σ n2 = ∑ σ i
2
161
Statistică
4.4.2 Distribuţia χ
2
162
Probabilități și distribuții clasice de probabilitate
a) b)
Figura 4.20. Determinarea valorilor critice ale funcţiei χ 2
Pentru o variabilă X: χ 102 , dacă dorim să aflăm pentru care valoare a lui x,
P [ X > x ] =0.05, deducem mai întâi că dacă P [ X > x ] = 0.05, atunci P [ X > x ]
=0.95 şi căutăm la intersecţia liniei n = 10 cu coloana α = 0.95 pentru a găsi
valoarea dorită:
x = 3.940
Atunci când am analizat reprezentarea grafică a diferitelor legi χ n2 , am
menţionat că pe măsură ce n creşte, repartiţia χ n2 tinde lent, conform teoremei
limită centrală, spre repartiţia normală N(n;2n). Datorită acestei tendinţe, există
o formulă care permite, pentru n>30, estimarea unei valori particulare x supusă
unei legi χ n2 , plecând de la o valoare z supusă unei legi N(0;1):
Fie X : χ n2
1
Dacă n>30, atunci x ≅ ( z + 2 n − 1) 2
2
Unde z = o valoare particulară pe axa lui Z:N(0;1),echivalentă celei
căutate pentru x, pe axa X : χ n2 .
163
Statistică
Cu cât valoarea lui n este mai mare, cu atât formula aproximării este mai
corectă.
Z
T= ,
X
n
Atunci T este o variabilă aleatoare continuă supusă unei funcţii de
densitate de probabilitate numită t a lui student cu n grade de libertate, pe care
o notăm: T : tn
Reprezentarea grafică a unei astfel de variabile are aspectul unei
distribuţii normale N(0;1) aplatizate, incluzând şi proprietăţile de simetrie ale
acesteia (figura 4.21).
Se observă că, pe măsură ce n are valori mai mici, forma clopotului este
mai largă şi plată, iar pe măsură ce valorile lui n sunt mai mari, forma clopotului
este mai îngustă şi mai înaltă, tinzând progresiv către cea a lui N(0;1), atunci
când n → ∞ .
Valorile mediei şi dispersiei pentru o astfel de variabilă sunt:
n
E(T)=0 V (T ) = , dacă n >2
n−2
Obsevaţie: conform analizei reprezentării grafice, pentru valori mari ale
lui n:
164
Probabilități și distribuții clasice de probabilitate
E(T)=0 V (T ) → 1
Tabelul cu valorile specifice acestei distribuţii este prezentat în anexa 6;
valorile unei variabile se regăsesc la intersecţia unei linii care precizează
numărul gradelor de libertate ale lui tn cu o coloană care precizează aria α a
suprafeţei situată la dreapta acestei valori, sub curbă.
Astfel, pentru o variabilă T : t21, găsim valoarea t pentru care P[T > t ]
este 0.05 (figura 4.22), la intersecţia liniei n = 21 şi a coloanei α = 0.05 :
t = 1.721.
Test de autoevaluare 1
1.Probabilitatea teoretică:
a) este calculată fără efectuarea experimentului, folosind doar informaţia care
se cunoaşte despre situaţia fizică;
b) este determinată folosind rezultatele unui experiment efectuat de un anumit
număr de ori;
c) este probabilitatea unui rezultat al experimentului dedusă în mod logic din
natura simetrică a acestuia;
d) se numeşte şi frecvenţă relativă;
e) reflectă o evaluare personală a situaţiei.
4. Probabilitatea empirică:
a) este calculată fără efectuarea experimentului, folosind doar informaţia care
se cunoaşte despre situaţia fizică;
b) este determinată folosind rezultatele unui experiment efectuat de un anumit
număr de ori;
c) este probabilitatea unui rezultat al experimentului dedusă în mod logic din
natura simetrică a acestuia;
d) se numeşte şi frecvenţă relativă;
e) reflectă o evaluare personală a situaţiei.
7. Probabilitatea subiectivă:
a) este calculată fără efectuarea experimentului, folosind doar informaţia care
se cunoaşte despre situaţia fizică;
b) este determinată folosind rezultatele unui experiment efectuat de un anumit
număr de ori;
c) este probabilitatea unui rezultat al experimentului dedusă în mod logic din
natura simetrică a acestuia;
d) se numeşte şi frecvenţă relativă;
e) reflectă o evaluare personală a situaţiei.
166
Probabilități și distribuții clasice de probabilitate
9.Variabila aleatoare:
a) este o variabilă a cărei valoare numerică este determinată de rezultatul unui
experiment aleator;
b) este o variabilă ale cărei valori sunt cunoscute dintr-o observare sau
culegere anterioară studiului;
c) nu este supusă hazardului;
d) este o funcţie care asociază o valoare numerică fiecărui eveniment
elementar dintr-un câmp de evenimente;
e) este ansamblul rezultatelor posibile ale unui experiment aleator.
11. Repartiţia personalului unei companii, după statutul profesional şi sex, este
următoarea:
Statut profesional Masculin Feminin
Angajaţi cu funcţii de conducere 12 5
Muncitori calificaţi 48 20
În cadrul unui studiu vizând eficienţa şi acurateţea operaţiunilor legate de
salarii, analistul alege la întâmplare un angajat al acestei companii; care este
probabilitatea să fie vorba de un bărbat cu funcţie de conducere?
a) 0,15; b) 1/17;c) 56,5%;d) 12/85; e) 14,1%.
Rezumat
Elementele de statistică matematică, calculul probabilităţilor şi distribuţii
clasice de probabilitate, prezentate în această unitate de învățare, au rolul de a
furniza teoriei statisticii bazele logice şi rigoarea necesare, conferind abilităţi
calculatorii şi criterii de validitate pentru orizontul de competenţă propriu
sectorului din realitatea concretă supus investigaţiei. Cunoaşterea lumii reale –
a fenomenelor social-economice în special -, deşi ghidată de teorie, este
întotdeauna factuală. Statistica teoretică are menirea să realizeze o punte de
legătură între statistica matematică (cu statutul său de ştiinţă logico-formală) şi
statisticile aplicate, destinate (asemenea oricăror ştiinţe factuale) investigării
materialului faptic dintr-o zonă bine delimitată a realităţii.
Teoria probabilităţilor este o parte integrantă a statisticii în general, dar
este,în particular, esenţială pentru teoria inferenţei statistice, care asigură
decidenţilor (oameni de afaceri, economişti) un grup de metode care îi ajută în
procesul de luare a deciziilor în condiţii de incertitudine. Incertitudinea provine
din cauză că, în situaţiile din viaţa reală avem rareori informaţii perfecte
referitoare la variatele input-uri ale unei decizii. Indiferent dacă incertitudinile se
referă la cererea pentru produsul nostru, la nivelul viitor al ratelor dobânzii sau
la posibilitatea unei greve de muncă, teoria probabilităţilor este utilă pentru
168
Probabilități și distribuții clasice de probabilitate
Termeni cheie
Experiment aleator, eveniment, probabilitate empirică, probabilitate teoretică,
probabilitate subiectivă, regulile probabilităților (complementului, adunării,
înmulțirii), arbori de probabilitate, variabilă aleatoare discretă și continuă,
distribuții de probabilitate ale variabilelor aleatoare discrete și continue,
distribuția binomială, distribuția Poisson, distribuția normală, distribuția standard
normală, distribuția student și distribuția χ 2
Bibliografie
1. Anderson, D., Sweeney, D., Williams, Th., Freeman, J., Shoesmith, E.,
Statistics for business and economics, Cengage Learning EMEA, 2010;
2. Andrei, T., Statistică şi econometrie, Editura Economică, Bucureşti, 2003;
3. Amiot, E., Introduction aux probabilites et a la statistique, Gaetan Marin
Editeur, Montreal, 2004;
4. Beganu Gabriela, Elemente de teoria probabilităților și statistică matematică,
Meteor Press, București, 2007;
5. McClave, J. T., Benson, P., G., Sincich, T., Statistics for Business and
Economics, 10th Edition, Pearson Prentice Hall, 2008;
6. Francis A., Statistică şi matematică pentru managementul afacerilor, Editura
Tehnică, Bucureşti, 2005;
7. Giard, V., Statistique appliquée à la gestion, Ed. Economica, Paris, 2007;
8. Goldfarb, B., Pardoux, C., Introduction a la methode statistique. Economie.
Gestion, Dunod, Paris, 2007;
9. Groebner, D., Shannon, P., Fry, P., Smith, K., Business Statistics. A
Decision-Making; Approach, Pearson Prentice Hall, 2008;
10. Radu, C., Ionaşcu, C., M., Murăriţa, I., Statistică teoretică, Editura
Universitaria, Craiova, 2009.
169
Statistică
UNITATEA DE ÎNVĂŢARE 5
INTRODUCERE ÎN INFERENŢA
STATISTICĂ
Cuprinsul capitolului
Obiectivele capitolului 5
5.1. Eșantionare aleatoare
5.2. Distribuții de sondaj
5.3. Utilizarea distribuțiilor de sondaj în inferența statistică
5.4. Estimarea parametrilor
5.5. Testarea ipotezelor statistice
Rezumat
Termeni cheie
Bibliografie
Obiectivele capitolului 5
În cadrul acestei unităţi de învăţare, structurată în
cinci secţiuni şi mai multe subsecţiuni, sunt definite noţiunile
fundamentale ale inferenţei statistice şi principalele metode
ale statisticii inferenţiale utilizate în domeniul economic:
distribuţii de sondaj, estimarea parametrilor, testarea
ipotezelor statistice.
După parcurgerea primelor trei secțiuni și la sfârșitul unității de învățare,
studentul va avea de rezolvat două teste de autoevaluare. Testele au un grad
mai mare de complexitate şi necesită cunoştinţele şi competenţele dobândite prin
parcurgerea tuturor unităţilor de învăţare precedente; ele sunt construite gradual,
din întrebări deschise, teste grilă și aplicații practice. Încadrarea în parametrii
specificaţi (timp, variante) îi va confirma fiecărui student dezvoltarea
competenţelor necesare pentru trecerea la o nouă unitate de învăţare.
Parcurgerea logică a tuturor elementelor acestei unităţi îi va conferi
fiecărui student următoarele competenţe specifice:
definirea corectă a principalelor concepte ale inferenţei statistice: variabilă
aleatoare, eşantionare aleatoare, distribuţii de sondaj;
utilizarea procedeelor probabiliste pentru formarea unui eşantion
reprezentativ;
alegerea şi utilizarea metodelor adecvate ale statisticii inferenţiale
(estimarea parametrilor, testarea ipotezelor) pentru un studiu de caz
concret din domeniul afacerilor;
măsurarea gradului de încredere (siguranţă) pentru inferenţa realizată.
170
Introducere în inferența statistică
171
Statistică
x 1 2 3 4 5
P(x) 1/5 1/5 1/5 1/5 1/5
173
Statistică
xs p(xs ) xs p(xs )
1,0 1/25 3,5 4/25
1,5 2/25 4,0 3/25
2,0 3/25 4,5 2/25
2,5 4/25 5,0 1/25
3,0 5/25
174
Introducere în inferența statistică
p(x) p ( xs )
1/5 5/25
4/25
3/25
2/25
1/25
x xs
1 2 3 4 5 1 1,5 2 2,5 3 3,5 4 4,5 5
+ ( 5.0 − 3 )2 ⋅ 1 / 25 = 1
Se observă că media distribuţiei lui xs este egală cu media distribuţiei
lui x ( μ = μ xs ); cu toate acestea, varianţa lui xs este de două ori mai mică decât
cea a lui x.
Dacă se repetă procesul de sondaj pentru aceeaşi populaţie, dar cu alte
valori ale lui n, se obţin distribuţii diferite ale lui x; pentru fiecare dintre acestea,
μ xs = μ şi σ x2s = σ 2 / n . Cu cât valoarea lui n este mai mare, cu atât curba
distribuţiei lui xs devine mai îngustă, mai concentrată în jurul mediei şi mai
apropiată ca formă de clopotul lui Gauss (forma distribuţiei normale). Acest
fenomen este exprimat prin teorema limită centrală.
Dacă dintr-o populaţie este extras un eşantion aleator, distribuţia de
sondaj a mediei eşantionului este aproximativ normală pentru un număr
suficient de mare n al unităţilor eşantionului; cu cât mărimea eşantionului
creşte, cu atât mai mult distribuţia mediei sale ( xs ) se apropie de cea normală.
Precizia aproximării la care face referire teorema limită centrală depinde
atât de distribuţia de probabilitate a populaţiei originare cât şi de mărimea
eşantionului:
dacă populaţia este normală, atunci xs este normal distribuită pentru oricare
valoare a lui n;
dacă populaţia este non-normală, atunci xs este aproximativ normal
distribuită doar pentru valori mari ale lui n; în multe situaţii practice, o
mărime a eşantionului de n > 30 este suficientă pentru a permite
aproximarea distribuţiei lui xs printr-o distribuţie normală;
dacă populaţia are o distribuţie extrem non-normală (distribuţie bimodală
sau extrem asimetrică),distribuţia de sondaj va fi de asemenea non-
normală, chiar pentru valori moderat de mari ale lui n.
Rezumând, putem defini distribuţia de sondaj a mediei de selecţie prin
intermediul următoarelor elemente:
175
Statistică
σ x s = 75 / 25
⎛ x s − μ x s 350 − 400 ⎞
⇒ P ( x s < 350 ) = P ⎜ < ⎟
⎜ σx 15 ⎟
⎝ s ⎠
P( Z < − 3 .33 ) = P (Z > 3 .33 ) = 0 .0004
176
Introducere în inferența statistică
-1.96 1.96 z
Xs − μ
Ştim că: Z= .
σ/ n
este standard normal distribuită.
⎛ X −μ ⎞
⇒ P⎜⎜ − 1.96 < s < 1.96 ⎟⎟ = 0.95
⎝ σ/ n ⎠
⎛ 75 75 ⎞
P⎜⎜ 400 − 2.575 ⋅ < X s < 400 + 2.575 ⎟⎟ = 0.99
⎝ 25 25 ⎠
178
Introducere în inferența statistică
aproximare mai corectă. Valoare lui n trebuie să fie suficient de mare astfel
încât np şi n(1-p) să fie mai mare decât 5.
Pentru experimentul binomial considerat anterior, cu n = 20 şi p = 0.5,
putem aproxima probabilităţile binominale utilizând o distribuţie normală ale
cărei medie şi abatere standard sunt egale cu cele ale distribuţiei binominale:
μ = np = 20( 0.5 ) = 10
p(x)
0.20
0.15
0.10
0.05
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 x
⎛ X ⎞ E ( X ) np
E ( ps ) = E ⎜ ⎟ = = =p
⎝n⎠ n n
⎛ X ⎞ V ( X ) np(1 − p ) p(1 − p )
V ( ps ) = σ 2p s = V ⎜ ⎟ = 2 = =
⎝n⎠ n n2 n
σ ps = p(1 − p ) / n
ps − p
Dacă np > 5 şi np (1 − p ) > 5 , atunci variabila: Z=
p( 1 − p ) / n
este aproximativ standard normal distribuită.
σ 12 σ 22
( ) ( ) ( )
V X1 − X 2 = V X1 + V X 2 =
n1
+
n2
dacă X1 şi X2 sunt independente.
În concluzie, în cazul unui proces de sondaj realizat repetitiv şi
independent pentru două populaţii normale ale căror medii sunt μ1 şi μ 2 şi ale
180
Introducere în inferența statistică
σ 12 / n1 + σ 22 / n2
Reprezentarea grafică a acestei distribuţii este realizată în figura 5.4.
P( x1 − x2 )
μ1 − μ 2 x1 − x2
Figura 5.4. Distribuţia de sondaj a lui X 1 − X 2 .
xi fi
0 10
1 25
2 15
Total 50
181
Statistică
∑ xi fi ( 0 ⋅ 10 ) + ( 1 ⋅ 25 ) + ( 2 ⋅ 15 )
x= = = 1.1 copii
∑ fi 50
∑( xi − x )2 fi
dispersia: σ2 = = 0.49
∑ fi
Dacă vom considera un succes faptul că o familie nu are copii, putem
defini prin p proporţia succeselor în interiorul acestei populaţii (reamintim că
variabila statistică studiată, numărul de copii – atributivă, cantitativă, cu variaţie
discretă – se poate transforma într-o variabilă binară, cu două stări: o familie
poate să nu aibă copii – prima variantă – sau poate să aibă copii – a doua
variantă; media unei astfel de variabile este chiar frecvenţa relativă
corespunzătoare primei stări a variabilei):
10
p= = 0 ,2
50
Să ne imaginăm că vrem să alegem la întâmplare o familie din această
asociaţie. Dacă definim variabila aleatoare X=numărul de copii al familiei alese,
distribuţia de probabilitate a lui X este următoarea:
xi 0 1 2
p(xi) 10/50 25/50 15/50
182
Introducere în inferența statistică
cu media sa:
E( X s ) = 0·(100/2500) + 0.5· (500/2500) + 1· (925/2500) + 1.5·
(750/2500) + 2· (225/2500) = 1.1
şi varianţa:
V( X s ) = 02(100/2500) + (0.5)2(500/2500)+12(925/2500) =
(1.5)2(750/2500) + 22(225/25000) – (1,1)2 = 0.245.
• distribuţia de probabilitate a variabilei S2, varianţa de eşantion aleatoare:
σ2 s
0 0.25 1
(
P S 2 = σ s2 ) 950/2500 1250/2500 300/2500
cu media sa:
E(S2) = 0·(950/2500) + 0.250.25 (1250/2500) + 10.25 (300/2500) =
0.245
şi varianţa:
V(S2) = 02(950/2500) + (0.25)2(1250/2500) + 12(300/2500) – (0.2452 ) =
= 0.091225
• distribuţia de probabilitate a variabilei Ps , proporţia de succes aleatoare, în
interiorul eşantionului:
ps 0 0.5 1
P(Ps = ps) 1600/2500 800/2500 100/2500
183
Statistică
184
Introducere în inferența statistică
( )
E S2 =
n −1 2
n
σ
V (Ps ) =
pq
n
185
Statistică
186
Introducere în inferența statistică
187
Statistică
TEST DE AUTOEVALUARE 1
1.Definiți inferența statistică.
188
Introducere în inferența statistică
7. Un studiu statistic efectuat în rândul tinerilor români (cu vârsta cuprinsă între
15 şi 25 de ani) precizează că 17% dintre ei nu iau masa de prânz. Într-un
eşantion de 250 de tineri români, care este probabilitatea ca ponderea celor
care nu mănâncă la prânz să fie peste 20%?
a) 56,44%; b) 89,62%; c) 10,38% d) 42,50%; e) 0,20%.
189
Statistică
190
Introducere în inferența statistică
∑( xi − x s )2 n
σ s2n −1 = = σ s2 .
n −1 n −1
În consecinţă, dacă un eşantion aleator (un ansamblu de eşantioane
posibile) presupune un ansamblu S2 de varianţe de eşantion posibile, (varianţa
de eşantion aleatoare), el presupune de asemenea şi un ansamblu de varianţe
corectate de eşantion posibile, o nouă variabilă aleatoare putând fi definită –
varianta corectată de eşantion:
n 2
S n2−1 = S
n −1
Această variabilă este un estimator nedeplasat şi consistent al lui σ2 şi,
deci, un estimator eficient al acestui parametru.
Pentru a estima punctual un parametru al unei populaţii cu ajutorul unui
eşantion unic extras din aceasta, utilizăm valoarea particulară pe care un
estimator eficient al acestui parametru o are în interiorul eşantionului; astfel, pe
baza estimatorilor eficienţi pe care i-am descris anterior pentru μ, σ2 şi p,
utilizăm:
xs ca estimaţie punctuală a lui μ;
σ s2n −1 ca estimaţie punctuala a lui σ2;
ps ca estimaţie punctuală a lui p.
Vom nota cu θ̂ estimaţia punctuală asupra unui parametru θ. Enunţurile
anterioare pot fi reformulate astfel:
μˆ = x s
n
σˆ 2 = σ sn2 −1 = σ 2s
n −1
p̂ = ps
Exemplul 5.8 Numărul mediu de cărţi de credit utilizate de un eşantion
de 50 de persoane extras dintre clienţii unui hipermarket este de 2.28 şi
dispersia de 4.362; 28% dintre clienţii din eşantion utilizează mai mult de două
cărţi de credit. Să se estimeze punctual principalii parametri ai ansamblului
clienţilor hipermarketului: media, dispersia şi abaterea tip ale numărului cărţilor
de credit utilizate dar şi media variabilei alternative, ponderea clienţilor care
utilizează mai mult de două cărţi de credit.
μˆ = xs = 2.28 cărţi de credit
n 2 50
σˆ 2 = σ s= 4.362 = 4.451
n−1 49
σ = 4 ⋅ 451 = 2.11 cărţi de credit
ˆ
p̂ = p = 0.28 = 28%
191
Statistică
X s :N(μ; σ 2/n)
şi dacă, în acelaşi timp, n ≥ 30 , np ≥ 5 şi nq ≥ 5 , atunci Ps: N(P; pq/n)
Utilizând standardizarea acestor variabile, obţinem următoarele
distribuţii:
dacă X: N(μ; σ2) sau n este mare, atunci:
Xs − μ
: N ( 0 ;1 )
σ/ n
şi dacă, în acelaşi timp, n ≥ 30 , np ≥ 5 şi nq ≥ 5 , atunci:
Ps − p
: N ( 0;1 )
pq / n
Tabelul 5.4
Distribuţii de sondaj utilizate pentru construirea intervalelor de încredere
∑( X i − μ ) μ cunoscută
2
n
:χ 2
şi X: normal distribuită
σ2 σ2
n
192
Introducere în inferența statistică
193
Statistică
⎡ 1.96 ⋅ 2 1.96 ⋅ 2 ⎤
⇒ μ ∈ ⎢10 − ;10 + ⎥
⎣ 20 20 ⎦
⇒ μ ∈ [9.12;10.88] cu 95% certitudine
Cu un grad de certitudine de 95%, durata medie de funcţionare a tuturor
bateriilor se va încadra în intervalul [9.12; 10.88].
• Dispersia populaţiei este necunoscută
Tehnica utilizată în acest caz pentru a estima printr-un interval de
încredere media populaţiei este asemănătoare cu cea din modelul precedent,
singura diferenţă fiind punctul de plecare – o distribuţie diferită (a doua din
tabelul 5.4).
Exemplul 5.10 Dorim să estimăm printr-un interval de încredere de 90%
certitudine consumul mediu de benzină pentru un anumit tip de automobil
(litri/100 km), ştiind că acesta este normal distribuit şi cunoscând media şi
abaterea tip corectată pentru un eşantion de 25 de automobile:
xs = 8 ,7 l şi σsn – 1 = 0.09 l.
populaţia: X = consumul de benzină în litri la 100/km.
X: N(μ; σ2).
eşantionul: n = 25 xs = 8 ,7 l σ sn −1 = 0.09
Pentru a estima parametrul μ cu 90% certitudine, utilizăm a doua
distribuţie din tabelul 5.4.
⎛ Xs −μ ⎞
P⎜ − 1.711 ≤ ≤ 1.711⎟ = 0.90
⎜ ⎟
⎝ S n −1 / n ⎠
↓
t24
unde: - 1.711 şi + 1.711 corespund celor două valori simetrice – t şi t ale
variabilei T:t24, între care vom regăsi o arie de 0.90 sub curba t24 (anexa 10).
⎛ 1.711S n −1 1.711S n −1 ⎞
⇒ P⎜⎜ X s − ≤ μ ≤ Xs + ⎟⎟ = 0.90
⎝ n n ⎠
⎡ 1.711 ⋅ σ sn −1 1.711σ sn −1 ⎤
⇒ μ ∈ ⎢ xs − ; xs + ⎥
⎣ n n ⎦
194
Introducere în inferența statistică
⎡ pq pq ⎤
⇒ p ∈ ⎢ ps − 1.96 ; ps + 1.96 ⎥ cu 95% siguranţă.
⎢⎣ n n ⎥⎦
195
Statistică
:χ σ ∈⎢ n ⎥
n 2 2
;n
σ2
n
⎢ x2 x2 ⎥
⎢⎣ ⎥⎦
5. (n − 1)Sn2−1 : χ 2 ⎡ (n − 1)σ sn
2
(n − 1)σ sn2 −1 ⎤
n −1 σ2 ∈⎢ −1
; ⎥
σ2 ⎣ x2 x1 ⎦
6. Ps − p
: N ( 0;1 )
⎡ z ps (1 − ps ) z ps (1 − ps ) ⎤
p ∈ ⎢ ps − ; ps + ⎥
pq
⎣⎢ n n ⎥⎦
n
196
Introducere în inferența statistică
⎛ z ps ( 1 − ps ) ⎞
cu un anumit grad de certitudine, are o marjă de eroare ⎜ ⎟ care
⎜ n ⎟
⎝ ⎠
pare, la prima vedere, dependentă de un rezultat experimental (ps ) – ca şi
distribuţiile 2 – 5 din tabelul 5.5 pentru care este imposibil de a preciza înaintea
extragerii unui eşantion mărimea marjei de eroare admise şi de a stabili
volumul minim necesar al eşantionului; cu toate acestea, din primele capitole
ale acestei lucrări (de statistică descriptivă) cunoaştem faptul că produsul ps(1 –
ps) este întotdeauna mai mic sau egal cu 0.25 (1/4) – valoarea maximă a
dispersiei pentru o variabilă binară este 0.25
z p s ( 1 − ps ) z 0.25 z
⇒ ≤ =
n n 2 n
Pentru ca e să devină marja de eroare maximală a unei astfel de
z z
estimaţii, este suficient ca: ≤e⇒ n ≥
2 n 2e
Altfel spus, în cazul estimării lui p printr-un interval de încredere pe baza
unei distribuţii standard normale (ultima distribuţie din tabelul 5.5), această
estimare are, pentru un anumit grad de certitudine, o marjă de eroare maximală
z
e, atunci când volumul eşantionului respectă inegalitatea: n≥
2e
unde z = valoarea particulară a lui Z care asigură gradul de certitudine dorit
pentru estimare.
197
Statistică
Tabelul 5.6
Parametrul μ σ2 p
Ipotezele statistice
primul caz (test H0 : μ = μ0 H0 : σ 2 = σ 02 H0 : p = p0
unilateral)
H1 : μ > μ0 H1 : p > p0
H1 : σ 2 > σ 02
198
Introducere în inferența statistică
H0 : μ = 5000
H1 : μ > 5000
Respectând regula anunţată anterior, conform căreia un test va fi
întotdeauna aplicat unei ipoteze simple, contextul problemei va decide alegerea
ipotezelor care se confruntă (vezi tabelul 5.6).
Procedeul de bază al unui test de ipoteze este simplu: extragem din
populaţie un eşantion şi calculăm după caz, una dintre caracteristicile sale
numerice, xs , σ sn
2
−1 sau ps; după cum această valoare de eşantion pare să
confirme mai mult ipoteza H0 sau ipoteza H1 decidem să o acceptăm pe cea
mai plauzibilă dintre cele două şi astfel să o respingem pe cealaltă.
Revenind la exemplul 5.13, referitor la durata de viaţă a pneurilor
fabricate de o firmă (exprimată în număr de kilometri), dorim să efectuăm testul
care confruntă cele două ipoteze:
H0 : μ = 5000
H1 : μ > 5000
Pentru a efectua acest test, va trebui să extragem un eşantion de pneuri
fabricate prin noul procedeu tehnologic şi să calculăm numărul mediu de
kilometri parcurşi ( xs ). Dacă această medie de eşantion se situează în jurul
valorii de 5000 km, vom accepta ipoteza H0 şi vom respinge ipoteza H1. În caz
contrar, dacă media de eşantion se situează cu mult peste această valoare de
5000, vom respinge ipoteza H0 pentru a accepta ipoteza H1, validând astfel
afirmaţia conform căreia modificarea tehnologică a sporit eficienţa firmei.
Aşa cum am menţionat deja, ipoteza simplă, propunând o valoare
precisă pentru parametru, este cea care serveşte ca referinţă pentru un studiu
dat. În comparaţie cu valoarea propusă în această ipoteză, se fixează o bornă,
o valoare critică, astfel încât:
• de o parte a acesteia, decidem să acceptăm ipoteza H0;
• de cealaltă parte a acesteia, decidem să respingem ipoteza H0 şi să
acceptăm ipoteza H1.
Intervalul situat de acea parte a valorii critice pentru care decidem să
respingem ipoteza H0 poartă numele de regiune critică sau zonă de
respingere a ipotezei H0. Forma ipotezei alternative H1 determină zona de
respingere a lui H0:
a) H0 : μ = μ0
H1 : μ > μ0
În acest caz, dacă media de eşantion xs este mai mică sau egală cu
valoarea critică xc , considerăm că eşantionul confirmă ipoteza H0 (μ = μ0) şi
decidem să acceptăm această ipoteză (figura 5.6.a)
Dacă valoarea lui xs este mai mare decât xc , considerăm că eşantionul
confirmă ipoteza H1 (μ > μ0) şi decidem să respingem ipoteza H0 şi să
acceptăm ipoteza H1.
b) H0 : μ = μ0
H1 : μ < μ0
Dacă media de eşantion xs este mai mare sau egală cu xc , considerăm
că eşantionul confirmă ipoteza H0 (μ = μ0) şi decidem acceptarea acesteia.
Dacă, dimpotrivă, media de eşantion este mai mică decât valoarea critică,
considerăm că eşantionul confirmă mai degrabă ipoteza H1 (μ < μ0) şi decidem
respingerea ipotezei H0 şi acceptarea ipotezei H1 (figura 5.6.b).
c) H0 : μ = μ0
H0 : μ ≠ μ0
199
Statistică
μ0 xc
xs
a)
Regiunea critică
xs
Zona de acceptare Zona de respingere
a lui H0 a lui H0
xc μ0
xs
b)
Regiunea critică
Zona de respingere Zona de acceptare
xs
a lui H0 a lui H0
xc1 μ0 xc 2
xs
c)
Regiune critică Regiune critică
xs
Zonă de Zona de Zonă de
respingere a lui H0 acceptare a lui H0 respingere a lui H0
Dacă media de eşantion este mai mare sau egală cu valoarea critică
xc1 , şi mai mică sau egală cu valoarea critică xc 2 , considerăm că eşantionul
confirmă ipoteza H0 (μ = μ0) şi decidem să acceptăm această ipoteză.
Dacă media de eşantion xs este inferioară valorii xc1 sau superioară
valorii xc 2 , considerăm că eşantionul confirmă mai degrabă ipoteza H1 (μ ≠ μ0)
şi decidem să respingem ipoteza H0 (figura 5.6.c).
Primele două modele de teste descrise anterior sunt calificate drept
teste unilaterale, deoarece regiunea lor critică este compusă dintr-un singur
interval continuu. Al treilea model de test este calificat drept test bilateral, zona
sa de respingere a ipotezei H0 fiind formată din două sub-intervale.
Observaţii. Metodologia de stabilire a regiunii critice este aceeaşi
pentru ipotezele asupra varianţei σ2 sau mediei variabilei alternative p
(proporţiei succesului într-o populaţie).
Reluând exemplul 5.13:
H0 : μ = 5000
H1 : μ > 5000
putem fixa, de exemplu, valoarea critică a mediilor de eşantion la 5075
km (figura 5.7).
Dacă durata medie de viaţă a pneurilor din eşantionul extras este mai
mică sau egală cu valoarea critică 5075 km, vom considera că eşantionul
200
Introducere în inferența statistică
201
Statistică
Probabilitatea unei
decizii corecte (1-α)
Probabilitatea unei
erori de tipul I (α)
5000 5075
Figura 5.8 Curba distribuţiei lui X s , dacă H0 este adevărată.
Probabilitatea unei
erori de tipul II (β)
Probabilitatea unei
decizii corecte (1-β)
>5000 5075
Figura 5.9 Curba distribuţiei lui X s , dacă H1 este adevărată.
202
Introducere în inferența statistică
203
Statistică
∑( X i − μ ) μ cunoscută
2
n
: χ n2 şi
σ =σ
2 2
0 σ 02
X: normal distribuită
(n − 1)Sn2−1 : χ 2 μ necunoscută
n −1
σ 2
0 şi
X: normal distribuită
Ps − p0 n mare (n≥30)
: N ( 0 ;1 )
p=p0 p0 q0 np0 ≥ 5
n şi
nq0 ≥ 5
204
Introducere în inferența statistică
Test de autoevaluare 2
1. Pentru a estima punctual un parametru al unei populaţii cu ajutorul unui
eşantion unic extras din aceasta, utilizăm valoarea particulară pe care un
estimator eficient al acestui parametru o are în interiorul eşantionului. Care
dintre afirmaţiile următoare este corectă?
a) pentru estimarea punctuală a mediei ( μ ) se foloseşte media de selecţie
( x s );
b) pentru estimarea punctuală a dispersiei ( σ 2 ) se foloseşte dispersia de
selecţie ( σ s2 );
c) pentru estimarea punctuală a proporţiei succeselor (p) se foloseşte proporţia
corectată a succeselor din eşantion ( p sn −1 );
d) pentru estimarea punctuală a proporţiei succeselor (p) se foloseşte proporţia
succeselor din eşantion ( p s );
e) pentru estimarea punctuală a dispersiei ( σ 2 ) se foloseşte abaterea tip
corectată de selecţie ( σ sn −1 ).
205
Statistică
6. Care dintre cuplurile de ipoteze statistice de mai jos descrie corect un test
unilateral?
a) H 0 : μ = μ 0 ; H 1 : μ > μ 0 ;
b) H 0 : μ = μ 0 ; H 1 : μ ≠ μ 0 ;
c) H 0 : p = p 0 ; H 1 : p < p 0 ;
d) H 0 : p = p 0 ; H 1 : p ≠ p 0 ;
e) H 0 : σ 2 = σ 02 ; H 1 : σ 2 ≠ σ 02 .
8. Care dintre cuplurile de ipoteze statistice de mai jos descrie corect un test
bilateral?
a) H 0 : μ = μ 0 ; H 1 : μ > μ 0 ;
b) H 0 : μ = μ 0 ; H 1 : μ ≠ μ 0 ;
c) H 0 : p = p 0 ; H 1 : p < p 0 ;
d) H 0 : p = p 0 ; H 1 : p ≠ p 0 ;
e) H 0 : σ 2 = σ 02 ; H 1 : σ 2 < σ 02 .
10. Într-o companie, timpul de fabricaţie (în ore) al unui anumit aparat era
distribuit, până de curând, după o lege normală N: (6;0.36). În scopul accelerării
procesului de fabricaţie, s-a procedat recent la reamenajarea aparatelor pe linia
de montaj. Pentru a verifica dacă această schimbare este eficientă, s-a decis
efectuarea următorului test:
- întâi, se admite că reamenajarea nu a afectat nici aspectul normal al
timpilor de fabricaţie, nici dispersia acestei distribuţii;
- apoi, se extrage un eşantion de 125 de aparate, pentru care se notează
timpul de fabricaţie;
- dacă timpul mediu al acestui eşantion este sub 5.9 ore, se consideră că
reamenajarea a fost eficientă, dacă nu, se concluzionează că ea a fost
inutilă.
a) Prezentaţi schema acestui test de ipoteze.
206
Introducere în inferența statistică
Rezumat
207
Statistică
Precizia aproximării la care face referire teorema limită centrală depinde atât de
distribuţia de probabilitate a populaţiei originare cât şi de mărimea eşantionului.
O populaţie statistică este unică; un eşantion al acestei populaţii poate
avea mărimi diferite şi poate fi extras în maniere diferite; ansamblul diferitelor
eşantioane se numeşte eşantion aleator.
Un ansamblu de eşantioane posibile aduce un ansamblu de medii de
eşantion posibile - media de eşantion aleatoare; un ansamblu de varianţe de
eşantion posibile - varianţa de eşantion aleatoare; un ansamblu de proporţii de
succes posibile în interiorul eşantionului - proporţia de succes aleatoare în
interiorul eşantionului.
Un eşantion particular extras din această populaţie este unic şi posedă
o medie unică, o dispersie unică şi o proporţie unică de succes.
Diferitele medii de eşantion posibile oscilează în jurul mediei reale a
populaţiei cu o dispersie care depinde de mărimea eşantionului; diferitele
varianţe de eşantion posibile nu gravitează în jurul dispersiei reale a populaţiei,
ci în jurul unei valori uşor inferioare acesteia (sunt deplasate în raport cu
dispersia reală); diferitele proporţii ale succesului posibile în interiorul unui
eşantion gravitează în jurul proporţiei succesului în interiorul populaţiei cu o
concentrare cu atât mai puternică, cu cât volumul eşantionului este mai mare.
Informaţiile despre populaţie şi parametrii săi ne permit să utilizăm
distribuţiile de probabilitate pentru a face afirmaţii probabilistice despre fiecare
unitate a populaţiei statistice. Cunoaşterea parametrilor şi anumite informaţii
despre distribuţie ne permit afirmaţii probabilistice despre statisticile de
eşantion (de sondaj). În aplicarea atât a distribuţiilor de probabilitate cât şi a
celor de sondaj, trebuie să cunoaştem valoarea parametrilor relevanţi,
circumstanţă puţin probabilă, deoarece, în viaţa reală, parametrii sunt aproape
întotdeauna necunoscuţi, ei reprezentând indicatori descriptivi ai unor populaţii
extrem de mari. Inferenţa statistică se adresează acestor situaţii, inversând
direcţia fluxului informaţional: dacă majoritatea parametrilor populaţiei sunt
necunoscuţi dar statisticile de eşantion sunt cunoscute, distribuţia de sondaj ne
va permite realizarea de inferenţe statistice asupra parametrilor populaţiei pe
baza statisticilor de eşantion.
O primă modalitate de efectuare a inferenţei statistice – formularea unor
concluzii referitoare la ansamblul unei populaţii plecând de la
observaţiile realizate asupra unui eşantion unic extras din aceasta – o
reprezintă estimarea valorilor necunoscute ale parametrilor µ, σ2 şi p ale
unei populaţii date pe baza celor cunoscute ale lui xs , σ s2 şi ps dintr-un
eşantion. Pentru a realiza acest lucru, există două tehnici diferite:
estimarea punctuală – care evaluează parametrul necunoscut cu
ajutorul unui număr unic, fără a preciza valoarea acestei estimaţii;
estimarea prin intervale de încredere – care determină un interval de
valori în interiorul căruia ar trebui să se situeze parametrul căutat,
Testarea ipotezelor constituie, după estimare, a doua formă de inferenţă
statistică. În timp ce estimarea are drept scop delimitarea cât mai precis
posibil a valorii necunoscute a unui parametru al populaţiei, testarea
ipotezelor are drept scop confruntarea a două ipoteze exprimând două
tendinţe diferite referitoare la acest parametru şi determinarea, în
comparaţie cu eşantionul observat, care dintre cele două ipoteze este
mai veridică.
Tipurile de ipoteze ale unui test sunt: ipoteza nulă, notată H0, care
prezintă o propoziţie simplă; ipoteza alternativă, notată H1, care prezintă o
propoziţie compusă (care cuprinde un interval de valori posibile).
Ipoteza simplă, propunând o valoare precisă pentru parametru, este cea
care serveşte ca referinţă pentru un studiu dat. În comparaţie cu valoarea
propusă în această ipoteză, se fixează o bornă, o valoare critică, astfel încât,
208
Introducere în inferența statistică
Termeni cheie
Bibliografie
1. Anderson, D., Sweeney, D., Williams, Th., Freeman, J., Shoesmith, E.,
Statistics for business and economics, Cengage Learning EMEA, 2010;
2. Andrei, T., Statistică şi econometrie, Editura Economică, Bucureşti, 2003;
3. Amiot, E., Introduction aux probabilites et a la statistique, Gaetan Marin
Editeur, Montreal, 2004;
4. Beganu Gabriela, Elemente de teoria probabilităților și statistică matematică,
Meteor Press, București, 2007;
5. McClave, J. T., Benson, P., G., Sincich, T., Statistics for Business and
Economics, 10th Edition, Pearson Prentice Hall, 2008;
6. Francis A., Statistică şi matematică pentru managementul afacerilor, Editura
Tehnică, Bucureşti, 2005;
7. Giard, V., Statistique appliquée à la gestion, Ed. Economica, Paris, 2007;
8. Goldfarb, B., Pardoux, C., Introduction a la methode statistique. Economie.
Gestion, Dunod, Paris, 2007;
9. Groebner, D., Shannon, P., Fry, P., Smith, K., Business Statistics. A
Decision-Making; Approach, Pearson Prentice Hall, 2008;
10. Radu, C., Ionaşcu, C., M., Murăriţa, I., Statistică teoretică, Editura
Universitaria, Craiova, 2009.
209
Statistică
UNITATEA DE ÎNVĂŢARE 6
SONDAJUL STATISTIC
Cuprinsul capitolului
Obiectivele capitolului 6
6.1. Noțiuni introductive
6.2. Procedee de eșantionare. Tipuri de sondaje
6.3. Sondajul aleator simplu
6.4. Sondajul tipic (stratificat)
6.5. Sondajul de serii
Rezumat
Termeni cheie
Bibliografie
Obiectivele capitolului 6
În cadrul acestei unităţi de învăţare, structurată în
cinci secţiuni şi mai multe subsecţiuni, sunt definite
principalele tipuri de sondaj statistic ca metode de cercetare
selectivă în domeniul economic: sondaj întâmplător (aleator)
simplu, sondaj stratificat (tipic), sondaj de serii.
După parcurgerea acestei unități de învățare, studentul va avea de
rezolvat un test de autoevaluare, care are un grad mai mare de complexitate şi
necesită cunoştinţele şi competenţele dobândite prin parcurgerea tuturor unităţilor de
învăţare precedente. Încadrarea în parametrii specificaţi îi va confirma fiecărui
student dezvoltarea competenţelor necesare pentru trecerea la o nouă unitate
de învăţare.
Parcurgerea logică a tuturor secțiunilor acestei unităţi îi va conferi
fiecărui student următoarele competenţe specifice:
descrierea corectă şi completă a populaţiei vizate;
identificarea şi descrierea corectă a variabilelor (caracteristicile unităţilor
care compun populaţia) care vor fi investigate;
utilizarea procedeelor probabilistice pentru formarea unui eşantion
reprezentativ;
alegerea şi utilizarea tipului de sondaj adecvat pentru un studiu de caz
concret din domeniul afacerilor;
măsurarea gradului de încredere (siguranţă) pentru inferenţa realizată.
estimarea parametrilor populaţiei şi testarea ipotezelor statistice.
210
Sondajul statistic
211
Statistică
212
Sondajul statistic
213
Statistică
P=1/N.
Numărul total al eşantioanelor de volum n posibil de generat prin acest
procedeu este dat de formula aranjamentelor cu repetiţie:
ANn = N n .
La sfârşitul celor n extrageri ale unui eşantion, probabilitatea ca o
unitate să figureze cel puţin o dată în eşantion este:
n
⎛ 1⎞
P = 1 − ⎜1 − ⎟ .
⎝ N⎠
1
5
2 3 4 5
6 7 8 9 1 9 5
1
5
2 3 4 2
6 7 8 9 1 9 5
215
Statistică
19 20 21 22 23 24 25 26 27
28 29 30 31 32 33 34 35 36
37 38 39 40 41 42 43 44 45
46 47 48 49 50 51 52 53 54
55 56 57 58 59 60 61 62 63
64 65 66 67 68 69 70 71 72
216
Sondajul statistic
∑ (x − x0 )
2
σ x2 (μ r2 ) =
sk
k =1
unde k = numărul mediilor de
s
m
selecţie (numărul eşantioanelor
de volum n)
Abaterea standard a mediilor de selecţie faţă de media generală are, în
cazul sondajului simplu repetat, expresia:
σ 02 σ0
σ x (μ r ) = =
s
n n
şi se numeşte eroare medie de reprezentativitate, sau eroare standard a
selecţiei; ea constituie o măsură a fluctuaţiei mediilor de selecţie faţă de
valoarea reală a parametrului estimat. În cadrul acestei relaţii se poate folosi
dispersia generală σ 02 , atunci când aceasta s-a calculat cu ocazia unei
cercetări totale anterioare (dispersia de selecţie este cunoscută) sau se poate
folosi dispersia de selecţie σ s2 . Deoarece dispersia de selecţie este un
estimator deplasat (cu distorsiune) al dispersiei generale, un estimator
217
Statistică
2π − z
⎡ σ σ ⎤
Φ( z ) = P ⎢ x s − z ⋅ 0 < x0 < x s + z ⋅ 0 ⎥
⎣ n n⎦
Notă: valorile lui z şi Φ ( z ) se găsesc calculate în tabele speciale şi, în
funcţie de condiţiile de precizie impuse sondajului statistic, se preiau valorile
corespunzătoare.
Dacă eşantioanele sunt de volum redus, distribuţia mediilor de
selecţie este mai bine aproximată de repartiţia Student. Apelul la această
repartiţie se impune şi mai acut atunci când în calculul lui μ r s-a utilizat
estimaţia σ s a abaterii standard σ 0 . Statistica:
X s − x0
t=
σs / n
se compară cu valoarea teoretică asociată celor n-1 grade de libertate cu care
s-a efectuat calcului estimaţiei nedeplasate a lui σ 0 . Această concluzie se
218
Sondajul statistic
dar volumul eşantionului este foarte mare ( n ≥ 100 ). În cazul în care dispersia
generală nu este cunoscută iar volumul eşantionului este sub 100 de unităţi
statistice, variabila standardizată a mediei de selecţie urmează o distribuţie
Student cu (n-1) grade de libertate:
X s − x0
≅ t n −1
σs / n
Iar formula erorii limită admise devine:
σs
Δ x = t n −1;α / 2 ⋅
n
Eroarea limită admisă este folosită pentru estimarea:
mediei generale
σ0 σs
x0 = x s ± Δ x = x s ± z ⋅ sau x0 = x s ± t ⋅
n n
Pe baza acestor relaţii este posibilă analiza factorilor ce influenţează
amplitudinea intervalului de încredere; abaterea standard ( σ 0 , respectiv σ s )
reflectă caracteristicile de variabilitate intrinseci ale fenomenului, fiind deci un
factor de influenţă cu un nivel dat, nesupus controlului; în schimb, volumul
eşantionului şi argumentul (z sau t) constituie parametri importanţi: o mărire a
lui n produce diminuarea erorii medii de reprezentativitate şi, implicit, reducerea
intervalului de încredere, respectiv creşterea preciziei, iar mărirea probabilităţii
de garantare a unui rezultat conduce la limite mai largi ale intervalului de
încredere.
nivelului totalizator al variabilei X (atunci când acesta are
semnificaţie):
N
X 0 = ∑ xi = x 0 ⋅ N = ( x s ± Δ s ) ⋅ N ⇒ X 0 ∈ N ⋅ ( x s − Δ x , x s + Δ x )
i =1
Volumul necesar al eşantionului pentru un nivel impus al erorii limită
admise şi o valoare precizată a probabilităţii Φ ( z ) se determină pornind de la
relaţia de calcul a erorii limită admise:
z 2 ⋅ σ 02 t 2 ⋅ σ s2
n= respectiv n=
Δ2x Δ2x
Rezultatele obţinute în cazul sondajului simplu întâmplător repetat se
pot particulariza cu uşurinţă pentru variabila alternativă (binară). Dacă notăm
cu p media populaţiei, şi cu w media de selecţie, atunci dispersia populaţiei
are următoarea expresie:
σ 02 = p(1 − p)
Iar estimatorul său nedeplasat, obţinut din statistici de eşantion, va fi definit
prin:
n
σ sn2 −1 = w(1 − w)
n −1
Eroarea medie de reprezentativitate (eroarea standard a selecţiei)
se calculează utilizând fie abaterea standard a populaţiei (dacă este cunoscută
219
Statistică
220
Sondajul statistic
σ 2
=
∑ (x − xs ) ⎛
i
2
1⎞
⎜1 − ⎟ = σ s ⋅
2 n ⎛ 1⎞
⎜1 − ⎟
sn −1
n −1 ⎝ N⎠ n −1⎝ N ⎠
Particularizând, estimatorul nedeplasat al dispersiei pentru variabila
alternativă, în sondajul simplu nerepetat, se defineşte astfel:
n ⎛ 1⎞
σ sn2 −1 = w(1 − w) ⋅ ⎜1 − ⎟
n −1⎝ N ⎠
Acest tip de sondaj are o serie de avantaje:
foloseşte procedeul bilei nerevenite, preluând toate aspectele pozitive
ale acestui tip de eşantionare;
formulele indicatorilor sondajului sunt corectate cu un factor subunitar,
ceea ce conduce la o eroare standard a estimaţiei şi un volum necesar
al eşantionului mai mici decât în cazul sondajului repetat:
⇒ acest tip de sondaj se foloseşte mai frecvent decât cel repetat.
Conform metodologiei prezentate, indicatorii sondajului simplu
întâmplător (repetat şi nerepetat) sunt prezentaţi în tabelul 6.1.
Tabelul 6.1
Tip sondaj
repetat nerepetat
Indicatori
Eroarea medie de σ 02 σ 02 ⎛ n⎞
reprezentativitate
μr = μn = ⋅ ⎜1 − ⎟
n n ⎝ N⎠
σ 02 σ 02 ⎛ n⎞
Eroarea limită ± Δ x = z ⋅ μr = z ⋅ ± Δ x = z ⋅ μn = z ⋅ ⎜1 − ⎟
admisă n n ⎝ N⎠
z 2 ⋅ σ 02 z 2 ⋅ σ 02
n= n=
Volumul eşantionului Δ2x z 2 ⋅ σ 02
Δx +
2
Tabelul 6.2.
Durata de funcţionare (ore) Numărul de baterii
→200 20
200-400 60
400-600 280
600-800 120
800→ 20
Total 500
Se calculează:
xs = 524 ore
σ s2 = 26624 ore
Presupunând că la extragerea eşantionului s-a utilizat varianta cu
revenire vom putea determina:
- eroarea medie de reprezentativitate ( μ ):
26624
μrep = = 7.29 ore
500
- eroarea-limită admisă ( Δx ):
± Δx rep = 7.29 × 3.0 = 2187
. ore
- estimarea duratei medii de funcţionare pentru lotul de bază:
524 − 2187
. ≤ x0 ≤ 524 + 2187
.
. ≤ x0 ≤ 54587
50313 . ore
222
Sondajul statistic
2 2 2
t σ0 3 × 26624
n rep = 2
= = 2396 baterii, adică 47,9% din total
Δx 100
-pentru sondaj nerepetat:
2 2 2
t σ0 3 × 26624
n nrep = 2 2
= 2
= 1620 baterii, adică 32,4% din totalul
2 t σ0 3 × 26624
Δx + 100 +
N 5000
celor 5000.
- eroarea-limită admisă
± Δw rep = t ⋅ μ wrep = 3.0 × 0 .00876 = 0 .0262 (2.62%)
- estimarea procentului de rebuturi pentru lotul de bază
4% − 2.62% ≤ p ≤ 4% + 2.62%
138%
. ≤ p ≤ 6.62%
Presupunând că la extragerea eşantionului s-a utilizat varianta fără
revenire, atunci se determină:
- eroarea medie de reprezentativitate ( μ )
σ w2 ⎛ n⎞
μwnrep = ⎜ 1 − ⎟ = 0.00831
n ⎝ N⎠
- eroarea-limită admisă
± Δw nrep = t ⋅ μ wnrep = 3.0 × 0 .00831 = 0 .0249 (2.49%)
- estimarea procentului de rebuturi pentru lotul de bază
4% − 2.49% ≤ p ≤ 4% + 2.49%
151%
. ≤ p ≤ 6.49%
Se poate observa că în lotul de bază se estimează că procentul de
rebuturi va încadrat în intervalul [138
. ;6.62] % conform rezultatelor sondajului
simplu cu revenire sau [151
. ;6.49] % conform rezultatelor sondajului simplu fără
revenire, care este mai precis.
n
fs = ⇒ n1 = f s ⋅ N 1 ; n2 = f s ⋅ N 2 ;...nk = f s ⋅ N k
N
În cadrul acestui tip de sondaj se utilizează analiza dispersională:
dispersia totală = media dispersiilor de grupă sau strat (componentă intra clase)
+ dispersia dintre grupe sau straturi (componentă inter clase):
σ 02 = σ 2 + δ 2 - pentru baza de selecţie
σ s2 = σ s2 + δ s2 - pentru eşantion
În cadrul acestor relaţii, σ 2 sau σ s2 reprezintă variaţia întâmplătoare,
iar δ 2 sau δ s2 reprezintă variaţia sistematică.
Deoarece diferenţele din interiorul straturilor sunt generate de factorii
întâmplători, în sondajul tipic se utilizează dispersia care sintetizează această
variaţie ( σ 2 sau σ s2 ). Cu cât straturile sunt mai omogene, cu atât dispersiile lor
interne sunt mai mici şi, prin urmare, raportul de corelaţie inter-straturi se
apropie mai mult de valoarea limită 1:
δ2 σ2
R2 = = 1 −
σ 02 σ 02
225
Statistică
Tabelul 6.5.
Grupe omogene după Nr. de Salariul mediu Coeficientul de
nivelul salariilor lunare muncitori lunar (u.m.) variaţie
N xi vi %
nivel mic al salariului 160 373 3.7
nivel mijlociu al salariului 840 626 6.3
nivel mare al salariului 400 914 9.5
nivel foarte mare al 100 1.285 3.2
salariului
Total 1500 * *
Se cere determinarea volumului eşantionului astfel încât pe baza lui să
se poată estima salariul mediu la nivelul firmei care să nu se abată faţă de
salariul mediu calculat la nivelul eşantionului cu mai mult de ±5 u.m., rezultatele
trebuind garantate cu o precizie de 99.73% (z = 3.0).
σ 2
=
∑ σ2i f i
= 3014.556 u.m.
∑ fi
σ2i = vi2 ⋅ x i2
p(1 − p) σp 2
μrep = =
n n
- eroarea-limită admisă ( Δx ):
± Δx rep = tμrep
- volumul eşantionului (n):
226
Sondajul statistic
t 2 σ p2
nrep =
Δx rep
2
p(1 − p) ⎛ n⎞ σ p2 ⎛ n⎞
μnrep = ⎜1 − ⎟ = ⎜1 − ⎟
n ⎝ N⎠ n ⎝ N⎠
- eroarea-limită admisă ( Δx ):
± Δx nrep = tμnrep
- volumul eşantionului (n):
t 2σ p2
nnrep =
t 2σ p2
Δx 2
nrep +
N
Tabelul 6.6.
Secţiile Producţia Eşantioane extrase din care,
fizică (buc) (buc) produse cu
defecte
A: uzura utilajelor < 50% N1=5000 n1=500 12
B: uzura utilajelor > 50% N2=2000 n2=200 7
Total 7000 700 19
12 7
wA = = 0.024 şi wB = = 0.035
500 200
iar
19
w= = 0.0271
700
σ w2 =
∑σ f 2
wi i
∑f i
unde
σ wi2 = wi (1 − wi )
vom avea:
σ wA
2
= 0.024(1 − 0.024) = 0.023424
σ wB = 0.035(1 − 0.035) = 0.033775
2
0.026381 ⎛ 700 ⎞
± Δw = 2.88 ⎜1 − ⎟ = ±0.0167
700 ⎝ 7000 ⎠
w − Δw ≤ p ≤ w + Δw
(104%
. ) 0.0104 ≤ p ≤ 0.0438( 4.38% )
10000
Prin urmare, pentru a obţine precizia cerută în noul sondaj este suficient
să controlăm un eşantion de 1315 produse (13.15%) faţă de 10% în sondajul
precedent.
228
Sondajul statistic
∑ (x − x0 )
R
2
g
g =1
δ2 =
R
Iar dacă nu este cunoscută, se poate folosi estimatorul său nedeplasat:
∑ (x − xs )
r
2
g
g =1 ⎛ 1⎞
δ s2 = ⎜1 − ⎟ unde g = numărul de serii
r −1 ⎝ R⎠
eroarea limită admisă:
Δ x = z ⋅ μn
volumul eşantionului (numărul de serii):
R ⋅ z2 ⋅δ 2 R ⋅ z 2 ⋅ δ s2
r= =
(R − 1)Δ2x + z 2 ⋅ δ 2 (R − 1)Δ2x + z 2 ⋅ δ s2
Sondajul de serii nerepetat are rezultate mai bune decât sondajul simplu
întâmplător, având erori de reprezentativitate mai mici şi volum necesar al
eşantionului mai mic decât acesta
Tabelul 6.8.
Numărul curent al echipei extrase Producţia medie decadală (u.m.)
13 2800
48 3000
9 2890
21 3250
28 2900
Să se determine:
229
Statistică
xs =
∑x i
=
2410 + 3600+...+2900
= 2968 u.m.
r 5
∑ (x − xs )
2
δ = = 23896 u.m.
2 i
s
r
23896 ⎛ 50 − 5⎞
± Δx = 2.7 ⎜ ⎟ = 199.988 u.m.
5 − 1 ⎝ 50 − 1⎠
x s − Δx ≤ x 0 ≤ x s + Δx
2968 − 199.988 ≤ x 0 ≤ 2968 + 199.988
2768.012 ≤ x 0 ≤ 3167.988
Producţia medie decadală la nivelul firmei se va încadra, cu o precizie
de 99.49% în intervalul [2768.012;3167.988] .
Producţia totală realizată la nivelul firmei în decursul unei decade va fi:
Q = N ( x s ± Δx )
400 × 2768.012 ≤ Q ≤ 400 × 3167.988 u.m.
1107204.8 mii lei ≤ Q ≤ 1267195.2 mii lei
50 ⋅ ( 2.8) ⋅ 23896
2
r= ≈ 7 echipe
( 50 − 1) ⋅ 150 2 + ( 2.8) 2 ⋅ 23896
Deci, în condiţiile unui sondaj de precizie mai mare (probabilitate de
99.49% în loc de 99.31% şi o eroare în scădere de la 199.988 u.m. la 150 u.m.)
trebuie să studiem 7 echipe din cele 50 (14%) în loc de 5 (10%).
δw2 ⎛ R − r ⎞
μwnrep = ⎜ ⎟
r − 1 ⎝ R − 1⎠
- eroarea-limită admisă ( Δw )
± Δwnrep = tμwnrep
230
Sondajul statistic
Rt 2 δw2
rnrep =
( R − 1) Δwnrep
2
+ t 2 δw2
50000 31
R= = 500 ; w = = 0.031( 31%
. ) ; r = 10
100 1000
∑ ( w − w)
2
( 0.03 − 0.031) 2 + ( 0.05 − 0.031) 2 +...+( 0.02 − 0.031) 2
δ2
= =
i
w
r 10
δw2 = 0.000077
0.000077 ⎛ 500 − 10 ⎞
± Δw = 3.2 ⎜ ⎟ = 0.00927
10 − 1 ⎝ 500 − 1 ⎠
w − Δw ≤ p ≤ w + Δw
( 2.173% ) 0.02173 ≤ p ≤ 0.04027 ( 4.027% )
231
Statistică
Test de autoevaluare 1
1. Dintr-o populaţie formată din 8 unităţi se extrag toate eşantioanele formate
din câte două unităţi, prin procedeul bilei nerevenite. Care este probabilitatea
ca o unitate să figureze cel puţin o dată în eşantion la sfârşitul extragerilor?
a) 25%; b) 23.43%; c) 15/64; d)28%; e) 1/2.
2. În cadrul unui studiu, o parte dintre angajaţii unei companii, care compun un
eşantion aleator, au fost interogaţi în privinţa încrederii acordate
managementului companiei; 37,5 % dintre aceştia au răspuns afirmativ; marja
de eroare (eroarea limită admisă) este de 7 % iar rezultatele sunt garantate cu
o precizie de 95% (z = 1,96). Care a fost volumul eşantionului necesar pentru a
obţine aceste rezultate?
a) 196 angajaţi; b) 267 angajați; c) 246 angajați; d) 184 angajați;
e) 163 angajați
232
Sondajul statistic
12. În cadrul unui studiu statistic, o parte dintre angajaţii unei companii, care
compun un eşantion aleator, au fost interogaţi în privinţa încrederii acordate
politicii salariale a companiei; 50% dintre aceştia au răspuns afirmativ; marja de
eroare (eroarea limită admisă) este de 6 % iar rezultatele sunt garantate cu o
precizie de 95% (z = 1,96). Care a fost volumul eşantionului necesar pentru a
obţine aceste rezultate?
a) 196 angajaţi; b) 267 angajaţi; c) 246 angajaţi;
d) 163 angajaţi; e)306 angajaţi.
233
Statistică
Rezumat
Cercetarea prin sondaj, face parte din categoria cercetărilor parţiale. Are
o arie de aplicabilitate foarte largă şi o serie de avantaje care impun utilizarea
sa în practică. Se poate aplica şi acolo unde cercetarea statistică totală nu
poate fi aplicată sau necesită cheltuieli prea mari. Principalele etape ale
cercetării prin sondaj sunt:
` Stabilirea obiectivelor cercetării
` Extragerea eşantionului.
` Elaborarea chestionarului.
` Culegerea datelor.
` Codificarea şi prelucrarea primară a datelor.
` Prelucrarea propriu-zisă a datelor.
` Analiza şi interpretarea rezultatelor.
Termeni cheie
Bibliografie
1. Anderson, D., Sweeney, D., Williams, Th., Freeman, J., Shoesmith, E.,
Statistics for business and economics, Cengage Learning EMEA, 2010;
2. Andrei, T., Statistică şi econometrie, Editura Economică, Bucureşti, 2003;
3. Amiot, E., Introduction aux probabilites et a la statistique, Gaetan Marin
Editeur, Montreal, 2004;
4. Beganu Gabriela, Elemente de teoria probabilităților și statistică matematică,
Meteor Press, București, 2007;
5. McClave, J. T., Benson, P., G., Sincich, T., Statistics for Business and
Economics, 10th Edition, Pearson Prentice Hall, 2008;
6. Francis A., Statistică şi matematică pentru managementul afacerilor, Editura
Tehnică, Bucureşti, 2005;
7. Giard, V., Statistique appliquée à la gestion, Ed. Economica, Paris, 2007;
8. Goldfarb, B., Pardoux, C., Introduction a la methode statistique. Economie.
Gestion, Dunod, Paris, 2007;
9. Groebner, D., Shannon, P., Fry, P., Smith, K., Business Statistics. A
Decision-Making; Approach, Pearson Prentice Hall, 2008;
10. Radu, C., Ionaşcu, C., M., Murăriţa, I., Statistică teoretică, Editura
Universitaria, Craiova, 2009.
235