Sunteți pe pagina 1din 30

Statistica

Anul I, 2012-2013
Exercitii pregatitoare pentru testul de la seminar si pentru examen partea I
Ex. 1. Urmtoarea serie de date arat preul de vnzare (sute lei) pentru 13 lucrri de grafic la o licitaie
de obiecte de art: 51, 60, 72, 35, 32, 57, 63, 61, 48, 33, 67, 54, 37.
Se cere:
a) s se calculeze i s se interpreteze indicatorii tendinei centrale;
b) s se stabileasc dac media este reprezentativ;
c) s se calculeze i s se interpreteze cuartilele acestei serii de date;
d) optiunea Descriptive Statistics din Data Analysis Excel;
e) s se analizeze asimetria acestei serii de date;
f) stabilii valoarea de adevr a urmtoarelor afirmaii, justificnd rspunsurile:
f1) 25 % dintre lucrarile licitate s-au vandut pentru un pret mai mic de 48 sute de lei;
f2) jumatate dintre lucrarile licitate au un pret mai mic sau egal cu 54 sute lei;
f3) 25 % dintre lucrari s-au vandut cu cel putin 62 sute de lei;
f4) pentru 75% dintre obiecte s-a obinut un pret de cel putin 36 sute lei;
f5) precizati care dintre urmtoarele valori: 25, 29, 16, 40, 124, 85, 99,8 sute lei sunt
outliers n raport cu datele iniiale;
f6) coeficientul de variaie este 26,33%;
f7) media este reprezentativ.
Rezolvare: a)
o Populaia statistic este mulimea lucrarilor de grafic puse n vnzare la licitaiile cu obiecte de art.
o Unitatea statistic este o lucrare de grafic pus n vnzare la o licitaie.
o Variabila statistic sau caracteristica de interes, notat cu X, arat preul de vnzare, n sute lei, al unei
lucrri de grafic.
o Pentru un eantion de volum n=13 uniti statistice (lucrri de grafic), se cunoate preul de vnzare,
adic avem urmtoarea serie statistic simpl sau nesistematizat de date numerice:
{x1=51, x2=60, x3=72, x4=35, x5=32, x6=57, x7=63, x8=61, x9=48, x10=33, x11=67, x12=54, x13=xn=37}.
o Pentru o serie simpl de date numerice {x1 , x2 ,..., xn } ,
n

x1 + x2 + ... + xn i =1
=
.
n
n
Valorile xi ale variabilei X - preul de vnzare (sute lei)
x1= 51
x2= 60
x3= 72
x4= 35
x5= 32
x6= 57
x7= 63
x8= 61
x9= 48
x10=33
x11=67
x12=54
x13=37

media aritmetic (Mean) este x =


Nr. crt.
1
2
3
4
5
6
7
8
9
10
11
12
13

xi

13

xi = 670

i =1

13

xi

x1 + x2 + ... + x13 i=1


670
=
=
= 51,5385 51,54 sute lei, adic preul mediu de
13
13
13
vnzare al unei lucrri de grafic este de 51,54 sute lei.

o n cazul nostru, x =

o Pentru a determina Mediana (Median) unei serii simple de date, se parcurg urmtoarele etape:
Valorile seriei de date se ordoneaz cresctor: x(1) x(2 ) ... x(n 1) x(n ) , unde x(i ) , i = 1, n
reprezint a i-a valoare din irul ordonat cresctor de date numerice (astfel, x(1) este prima
valoare din irul ordonat cresctor, adic cea mai mic valoare, x(2 ) este urmtoarea valoare n
ordine cresctoare i aa mai departe pn la x(n ) , care este cea mai mare valoare).
Pentru aceast serie, cele n=13 valori ordonate cresctor sunt:
x(1)=32, x(2)=33, x(3)=35, x(4)=37, x(5)=48, x(6)=51, x(7)=54, x(8)=57, x(9)=60, x(10)=61, x(11)=63,
x(12)=67, x(13)=72.
n + 1 13 + 1
Se stabilete locul medianei:
=
= 7N
2
2
Mediana este a 7-a valoare din irul ordonat de date, adic Me = x(7 ) = 54 sute de lei (valoarea
din mijlocul seriei ordonate de date).
x(1) x(2 ) x(3) x(4 ) x(5 ) x(6 ) x(7 ) x(8 ) x(9 ) x(10 ) x(11) x(12 ) x(13 )
144444424444443
50%

1444444424444444
3
50%

Me
54

Interpretarea: jumtate dintre unitile statistice din eantion au nivelul variabilei de interes mai
mic sau egal cu Mediana, iar restul au nivelul variabilei de interes cel puin egal cu Mediana,
adic jumtate dintre lucrrile de grafic licitate s-au vndut cu mai puin de 54 sute lei, iar
restul s-au vndut cu un pre mai mare de 54 sute lei.

o Modul (Mode) sau valoarea modal este acea valoare sau variant de rspuns care apare cu cea mai
mare frecven. n cazul nostru se observ c niciuna dintre valorile seriei de date nu are o frecven
mai mare ca 1, adic avem numai valori distincte, prin urmare, seria nu are valoare modal.
b) pentru a stabili dac media este reprezentativ, se calculeaz coeficientul de variaie al seriei de date,
s
adic v x = x 100 , unde s x = s x2 este abaterea standard a seriei de date.
x
o Dispersia de selecie (sample variance) pentru o serie simpl de date numerice asupra variabilei X
este
n

( xi x )
2
2

(
x1 x ) + ... + ( xn x )
2
i =1
s =
=
x

n 1

n 1

Calculele intermediare sunt prezentate n tabelul de mai jos:

Nr. crt.

Valorile xi

x1= 51

x2= 60

x3= 72

4
5
6
7
8
9
10
11
12

x4= 35
x5= 32
x6= 57
x7= 63
x8= 61
x9= 48
x10=33
x11=67
x12=54

13

x13=37

(xi x )2
(x1 x )2 = (51 51,54)2 = 0,2916
(x 2 x )2 = (60 51,54)2 = 71,5716
(x3 x )2 = (72 51,54)2 = 418,6116
(x4 x )2 = (35 51,54)2 = 273,5716
381,8116
29,8116
131,3316
89,4916
12,5316
343,7316
239,0116

(x12 x )2 = (54 51,54)2 = 6,0516


(x13 x )2 = (37 51,54)2 = 211,4116

13

13

2
(xi x ) = 2209,231

xi = 670
i =1

i =1

s x2 =

x = 51,54

2209,231
= 184,1026
13 1

s x = s x2 = 184,1026 = 13,5684
v x = 26,33%
13

adic dispersia (sample variance) este

s x2

(xi x )

i =1

13 1

2209,231
= 184,1026 ,
12

iar abaterea standard (standard deviation) este s x = s x2 = 184,1026 = 13,5684 sute lei, cu interpretarea
c valorile individuale ale seriei se abat, n medie, cu 13,5684 sute lei fa de nivelul mediu de 51,84 sute
lei al preului de vnzare din eantion.
s
13,5684
o Coeficientul de variaie este v x = x 100 =
100 = 26,33% < 35% , ceea ce indic faptul c seria
x
51,54
de date este omogen; media este reprezentativ pentru colectivitate, ca indicator al tendinei centrale.

c) Cuartilele seriei de date sunt Q1 , Q2 = Me, Q3 , iar pentru determinarea lor, seria de date trebuie s fie

ordonat cresctor x(1) x(2 ) ... x(n 1) x(n ) .


o Q1 cuartila de ordinul 1 sau cuartila inferioar se determin astfel:
n +1
13 + 1
se stabilete locul lui Q1 :
1 =
1 = 3,50 N, dar 3 < 3,50 < 4
4
4
(locul lui Q1 cuartilei este ntre 3 i 4, astfel c Q1 se va gsi ntre a 3-a i a 4-a valoare
din irul ordonat cresctor)
x(3) + x(4 ) 35 + 37
=
= 36 sute lei.
x(3) Q1 x(4 ) i Q1 =
2
2
x(1) x(2 ) x(3) x(4 ) x(5 ) x(6 ) x(7 ) x(8 ) x(9 ) x(10 ) x(11) x(12 ) x(13)
1
442443 1444444444442444444444443

Q1

25%

75%

36

interpretarea: 25% dintre unitile statistice din eantion au nivelul variabilei de interes mai
mic sau egal cu Q1 , iar restul de 75% dintre unitile statistice din eantion au nivelul
variabilei de interes cel puin egal cu Q1 ; adic 25% dintre lucrrile de grafic licitate s-au
vndut pentru un pre mai mic dect 36 sute lei, iar restul de 75% dintre ele s-au vndut cu
un pre mai mare de 36 sute lei.

o Q2=Me=54 sute lei este cuartila de ordinul 2 sau mediana seriei de date statistice.
o Q3 cuartila de ordinul 3 sau cuartila superioar se determin astfel:
n +1
13 + 1
se stabilete locul lui Q3 :
3 =
3 = 10,50 N, dar 10 < 10,50 < 11
4
4
(locul lui Q1 cuartilei este ntre 10 i 11, astfel c Q3 se va gsi ntre a 10-a i a 11-a
valoare din irul ordonat cresctor)
x(10 ) + x(11) 61 + 63
=
= 62 sute lei,
x(10 ) Q3 x(11) si Q3 =
2
2
x(1) x(2 ) x(3) x(4 ) x(5 ) x(6 ) x(7 ) x(8 ) x(9 ) x(10 ) x(11) x(12 ) x(13)
1
4444444444
4244444444444
3 1442443

Q3

75%

25%

62

interpretarea: 75% dintre unitile statistice din eantion au nivelul variabilei de interes mai
mic sau egal cu Q3 , iar restul de 25% dintre unitile statistice din eantion au nivelul
variabilei de interes cel puin egal cu Q3 ; adic 75% dintre lucrrile de grafic licitate s-au
vndut pentru un pre mai mic dect 62 sute lei, iar restul de 25% dintre ele s-au vndut cu
un pre mai mare de 62 sute lei.

x(1) x(2 ) x(3) x(4 ) x(5 ) x(6 ) x(7 ) x(8 ) x(9 ) x(10 ) x(11) x(12 ) x(13 )
1
442443 14444444244444443 144
42444
3
25%

Q1

36

50%

Q3

25%

62

Jumatate din termenii din mijlocul seriei au valori cuprinse intre Q1=36 sute lei si Q3=62 sute lei.
Abaterea intercuatilic (interquratile range) este IQR=Q3-Q1=26 sute lei.

d) pentru o serie statistica simpla de date numerice, principalii indicatori ai tendintei centrale, variatiei si
formei distributiei se pot calcula in Excel astfel:
datele statistice se introduc intr-o foaie de lucru a unui fisier Excel, asa cum se poate vedea in
Figura nr. 1;
in Excel 2003, din meniul Tools se alege Data Analysis, iar apoi se selecteaza Descriptive
Statistics asa cum se poate vedea in Figura nr. 1;
in Excel 2007 sau versiuni ulterioare, din meniul Data, se alege Data Analysis, iar apoi se
selecteazaDescriptive Statistics, asa cum se poate vedea in Figura nr. 1;

Figura nr. 1. Introducerea datelor seriei simple intr-o foaie de lucru si selectarea optiunii Descriptive
Statistics din Data Analysis.

in urmatoarea fereastra care se va deschide, asa cum se poate observa in Figura nr. 2, se va
completa:
la sectiunea Input Range se selecteaza cu mouse-ul sirul de celule care contin datele seriei
statistice simple,
la sectiunea Output options se alege o celula din foaia de lucru unde vor aparea rezultatele
prelucrarii datelor,
se bifeaza Summary Statistics,
se da click pe butonul OK;

Figura nr. 2. Fereastra Descriptive Statistics.

Rezultatele sunt prezentate intr-un tabel de forma:


Mean (media)
Standard Error
Median (mediana)
Mode (modul)
Standard Deviation (abaterea standard)
Sample Variance (dispersia de selectie)
Kurtosis (coeficientul de boltire si aplatizare)
Skewness (coeficientul de asimetrie)

51,5385 = x
3,7632
54 = Me
#N/A (nu exista)

s x2

13,5684 = s x =

184,1026 = s x

-1,29426 = CBA
-0,23938 = CAS

Range (Amplitudinea)

40 = Ax = xmax x min

Minimum (valoarea minima)

32 = xmin

= x(1)

Maximum (valoarea maxima)

72 = xmax

= x( n )
n

Sum (suma valorilor)

670 = xi
i =1

Count (volumul esantionului)

13 = n

e) asimetria unei serii de date statistice se poate analiza din mai multe puncte de vedere:
o prin compararea indicatorilor tendintei centrale:
in cazul nostru, comparam doar media aritmetica si mediana, deoarece modul nu exista,
astfel: x < Me , ceea ce indica o asimetrie negativa, in seria de date predominand valorile
mai mari, adica intre lucrarile de grafica licitate sunt mai numeroase cele care au o valoare
de vanzare mai mare;
o prin calculul si evaluarea semnului urmatorului coeficient de asimetrie
3 (x Me )
Cas =
= 0,5442 < 0 ce arata ca distributia prezinta asimetrie negativa;
sx
n

o prin calculul coeficientului de asimetrie (Skewness), CAS =

( xi x )

i =1

, a carui valoare este data


3
n (s x )
in tabelul ce reprezinta output-ul prelucrarii datelor statistice in Excel
valoarea acestuia este CAS = 0,2393 , o valoare negativa si apropiata de 0, indicand ca
distributia prezinta o asimetrie negativa moderata;
o prin aprecierea pozitiei medianei fata de cele doua cuartile:
Me Q1 = 18 sute lei, Q3 Me = 8 sute lei, deci Me Q1 > Q3 Me , adica Mediana este
mai apropiata de cuartila superioara decat de cea inferioara, ceea ce arata ca seria prezinta
asimetrie negativa.
f)
f1) 25 % dintre lucrarile licitate s-au vandut pentru un pret mai mic de 48 sute de lei:
afirmatie falsa deoarece cuartila de ordinul intai este Q1 = 36 sute lei;
f2) jumatate dintre lucrarile licitate au un pret mai mic sau egal cu 54 sute lei:
afirmatie adevarata deoarece mediana este Me = 54 sute lei;
f3) 25 % dintre lucrari s-au vandut cu cel putin 62 sute de lei:
afirmatie corecta deoarece curatila superioara este Q3 = 62 sute lei;
f4) pentru 75% dintre obiecte s-a obinut un pret de cel putin 36 sute lei;
afirmatie adevarata deoarece cuartila inferioara este Q1 = 36 sute lei
f5) precizati care dintre urmtoarele valori: 25, 29, 16, 40, 124, 85, 99,8 sute lei sunt outliers n raport cu
datele iniiale:
Definitie: Spunem ca o valoare x este outlier pentru un set de date statistice numerice dac:
x < Q1 1,5 IQR sau x > Q3 + 1,5 IQR
sau
valoarea x este outlier pentru un set de date statistice daca se gsete n afara intervalului
[Q1 1,5 IQR; Q3 + 1,5 IQR] .
n cazul nostru, [Q1 1,5 IQR; Q3 + 1,5 IQR ] = [ 3;101] , deci numai valoarea 124 este outlier n raport cu
setul iniial de date statistice;

f6) coeficientul de variaie este 26,33%:


afirmatie adevarata;
f7) media este reprezentativ pentru colectivitate:
afirmatie adevarata deoarece coeficientul de variatie este mai mic de 35%.
7

Ex. 2. Se consider urmatoarea serie, reprezentand valoarea inregistrata a 9 facturi emise de o societate
comerciala in ultima luna: 47; 58; 41; 36; 54; 42; 65; 43; 37 (mil. lei).
Alegeti afirmatiile false:
a) Cuartilele inferioara si superioara sunt 43 si respectiv 58 mil. lei.
b) Abaterea intercuartilica este de 10 mil. lei;
c) Jumatate dintre termenii seriei, plasati pe mijocul distributiei, se regasesc intre 39 si 56.
d) Percentilele de ordinul 25 si 75 sunt 39 si respectiv 56 mil. lei
e) In raport cu datele initiale, valorile: 73, 29, 18, 73, 23 sunt toate outliers.
f) Daca fiecare valoare s-ar mari intai cu 4,25 lei, apoi de 2 ori, dispersia noilor valori ar fi 396.
Ex. 3. Structura unui esantion de 90 de copii dupa nivelul maxim atins al unui joc pe calculator este:

E
22%

Unde A nivelul cel mai slab, E nivelul cel mai


inalt.

A
11%
B
13%

D
34%

C
20%

a) Construiti distributia de frecvente absolute si


reprezentati-o grafic.
b) Studiati tendinta centrala a distributiei folosind
indicatori adecvati.
c) Calculati media si dispersia unei variabile
alternative, a carei stare favorabila este data de
copiii care au atins cel mult nivelul C al jocului.

Ex. 4. Pentru 39 de actrite care au obtinut premiul Oscar se cunoaste varsta, in ani impliniti, la momentul
castigarii premiului:
50, 44, 35, 80, 26, 28, 41, 21, 61, 38, 49, 33, 74, 30, 33, 41, 31, 35, 41, 42,
37, 26, 34, 34, 35, 26, 61, 60, 34, 24, 30, 37, 31, 27, 39, 34, 26, 25, 33 ani.
Se cere:
a) sa se determine si sa se interpreteze indicatorii tendintei centrale si cuartilele acestei serii de date;
b) sa se construiasca diagrama box-plot (sau diagrama cu mustati box-and-whisker), punand in
evidenta daca seria are valori extreme;
c) sa se calculeze indicatorii variatiei si sa se stabileasca daca seria este omogena;
d) analizati asimetria;
e) Descriptive Statistics.

Rezolvare: a)
o Populatia statistica este multimea actritelor care au castigat premiul Oscar.
o Unitatea statistica este o actrita.
o Variabila sau caracteristica de interes, notata X, este variabila ce arata varsta unei actrite la momentul
obtinerii premiului; variabila numerica, discreta.
o Pentru un esantion de volum n = 39 de actrite se cunosc valorile variabilei X, adica {x1=50, x2=44,
x3=35, x4=80, ..., xn=x39=33 ani}, care reprezinta o serie simpla sau nesistematizata de date statistice
numerice.
n

xi
x1 + x2 + ... + xn
i =1
o Media unei serii simple de date numerice {x1 , x2 , ..., xn } este x =
=
.
n
n
In cazul acestei serii, varsta medie a unei actrite din esantion care a castigat premiul Oscar este
39

x1 + x2 + ... + x39 i =1 i 1486


x=
=
=
= 38,1025 ani.
39
39
39
8

o Pentru a determina mediana, vom proceda astfel:


- seria simpla de date se ordoneaza crescator x(1) x(2 ) ... x( n ) , unde x(i ) , i = 1, n este
elementul cu rangul i din seria ordonata crescator,
n +1
- locul medianei este
= 20 N Me = x(20 ) = 34 ani.
2
Jumatate dintre actritele din selectie au obtunut premiul Oscar la o varsta de cel mult 34 de ani
(jumatate dintre actritele din esantion au castigat premiul Oscar la o varsta de peste 34 de ani).
o Exista doua valori care au frecventa maxima si anume valorile 26 ani si 34 ani, care apar pentru 4
actrite fiecare.
Varsta actritelor, in ordine crescatoare x(i )
Varsta actritelor xi
Nr. crt.
1
2
3
4
5
6

x1=50
x2=44
x3=35
x4=80
x5=26

x(1)=21
x(2)=24
x(3)=25
x(4)=26
x(5)=26

28

26

41

26

21

27

61

28

10

38

x(10)=30=Q1

11
12
13
14

49
33
74
30

30
31
31
33

15

33

33

16
17
18
19

41
31
35
41

33
34
34
34

20

42

x(20)=34=Me

21
22
23
24
25
26
27
28
29

37
26
34
34
35
26
61
60
34

35
35
35
37
37
38
39
41
41

30

24

x(30)=41=Q3

31
32
33

30
37
31

42
44
49

34

27

35

39

36

34

37

26

38

25

39

x39=33

x(34)=50
x(35)=60
x(36)=61
x(37)=61
x(38)=74
x(39)=80

o Pentru determinarea cuartilelor procedam astfel:


n +1
1 = 10 N Q1 = x(10 ) = 30 ani; un sfert
4
dintre actrite au castigat premiul Oscar la o varsta mai mica sau egala cu 30 de ani, iar
restul la cel putin 30 de ani;
n +1
- locul cuartilei de ordinul 3, Q3, este
3 = 30 N Q3 = x(30 ) = 41 ani; trei sferturi
4
dintre actrite au castigat premiul Oscar la o varsta mai mica sau egala cu 41 de ani, iar
restul la cel putin 41 de ani.
o Abaterea intercuartilica este IQR = Q3 Q1 = 11 ani si arata lungimea intervalului in care se gasesc
jumatate dintre valorile din mijlocul seriei de date.
-

locul cuartilei de ordinul 1, Q1, este

b)
Diagrama cu mustati (box-and-whisker) sau diagrama box-plot pentru o serie de date statistice
numerice se construieste punand in evidenta urmatoarele cinci elemente si eventualele valori extreme sau
outliers:
- cuartila inferioara sau de ordinul 1, Q1=30 ani;
- mediana sau cuartila de ordinul al 2-lea, Q2=Me=34 ani;
- cuartila superioara sau de ordinul al 3-lea, Q3=41 ani;
- limita sau marginea inferioara a diagramei box-plot este cea mai mica dintre valorile
seriei de date cu proprietatea ca este mai mare sau egala cu Q1 1,5 IQR , adica

lim inf box plot = min x(i ) , i = 1, n x(i ) Q1 1,5 IQR :

o Q1 1,5 IQR = 13,5


o cea mai mica dintre valorile seriei de date, cu proprietatea ca este 13,5 , este
x(1)=21 ani, deci marginea inferioara este egala cu 21 ani,
lim inf box plot = 21 = x(1) ;
limita sau marginea superioara a diagramei box-plot este cea mai mare dintre valorile
seriei de date cu proprietatea ca este mai mica sau egala cu Q3 + 1,5 IQR , adica

lim sup box plot = max x(i ) , i = 1, n x(i ) Q3 + 1,5 IQR :

o Q3 + 1,5 IQR = 57,5


o cea mai mare dintre valorile seriei de date, cu proprietatea ca este 57,5 , este
x(34)=50 ani, deci marginea superioara este egala cu 50 ani,
lim sup box plot = 50 = x(34 ) .
Se observa ca intervalul cuprins intre marginea inferioara si cea superioara diagramei box-plot,
adica intervalul de numere reale [21; 50] nu contine toate valorile observate, in afara lui ramanand
valorile x(35)=60, x(36)=61, x(37)=61, x(38)=74, x(39)=80 ani.
Valoarea x este outlier pentru seria de date statistice numerice daca x se gaseste in afara
intervalului [Q1 1,5 IQR; Q3 + 1,5 IQR ] = [13,5; 57,5] , x(35)=60, x(36)=61, x(37)=61, x(38)=74, x(39)=80 sunt
outliers si vor fi reprezentate distinct in diagrama box-plot.

10

*
* *

21

30
(Q1)

34
(Me)

41
(Q3)

50

60 61

74

80

Fig. . Diagrama box-plot sau diagrama cu mustati (box-and-whisker).

Fig. . Diagrama box-plot in SPSS.

c) Dispersia de selectie (sample variance) pentru o serie simpla de date numerice asupra variabilei X este
n

(x1 x )

s x2 =
39

adica s x2 =

(x

x)

+ ... + ( xn x )
=
n 1
2

(x

x)

i =1

n 1

i =1

39 1

6791,5897
= 178,7260 ,
39 1

abaterea standard (standard deviation) este s x = s x2 = 13,3688 ani.


11

sx
100 = 35,09% > 35% , ceea ce indica faptul ca seria de date
x
nu este omogena, iar media nu este reprezentativa pentru colectivitate, ca indicator al tendintei centrale.
xi x
Nr. crt. Varsta actritelor xi
(xi x )2
Coeficientul de variatie este v x =

x1=50
x2=44
x3=35
x4=80
x5=26

6
7
8
9

28
41
21
61

-12,1026
-10,1026
2,8974
-17,1026
22,8974

146,4720
102,0618
8,3951
292,4977
524,2925

10
11
12
13
14
15
16
17

38
49
33
74
30
33
41
31

-0,1026
10,8974
-5,1025
35,8974
-8,1025
-5,1025
2,8974
-7,1025

0,0105
118,7541
26,0361
1288,6259
65,6515
26,0361
8,3951
50,4464

18

35

19
20
21
22
23
24
25

41
42
37
26
34
34
35

-3,1025
2,8974
3,8974
-1,1025
-12,1025
-4,1025
-4,1025
-3,1025

9,6259
8,3951
15,1900
1,2156
146,4720
16,8310
16,8310
9,6259

26

26

27
28
29
30
31
32
33
34
35
36
37
38

61
60
34
24
30
37
31
27
39
34
26
25

-12,1025
22,8974
21,8974
-4,10256
-14,1025
-8,1025
-1,1025
-7,1025
-11,1025
0,8974
-4,1025
-12,1025
-13,1025

146,4720
524,2925
479,4977
16,8310
198,8823
65,6515
1,2156
50,4464
123,2669
0,8053
16,8310
146,4720
171,6771

1
2
3
4

x39=33

39
39

= 1486

i =1

x = 38,1025

11,8974

141,5489

5,8974

34,7797

-3,1026

9,6259

41,8974

1755,3951

-5,1025
39

(x
i =1

x) = 0

26,0361
39

(x

x ) = 6791,5897
2

i =1

s x2 = 178,7260
s x = s x2 = 13,3688
v x = 35,09%

12

Asimetria unei serii de distribuie de frecvene se poate stabili:


- prin compararea indicatorilor tendintei centrale,
- prin analiza distantei intre mediana si cele doua cuartile inferioara si superioara,
- prin calculul si interpretarea valorii unui indicator specific, coeficientul de asimetrie,
- se observ din reprezentarea grafic prin histogram sau poligonul frecvenelor.
- Cum Me = 34 < 38,1025 = x , atunci concluzionam ca seria de date prezinta asimetrie pozitiva.
- Cum mediana este mai apropiata de Q1 decat de Q2, adica Me Q1 < Q3 Me , asa cum se poate
vedea din diagrama box-plot, atunci concluzionam ca seria prezinta asimetrie pozitiva, in seria de date
predominand valorile mici.

d)

- Indicatorul asimetriei este coeficientul de asimetrie (Skewness) CAS =

(x

x)

i =1

, al carui semn si
3
n (s x )
marime arata tipul asimetriei (pozitiva sau negativa), iar marimea arata gradul mai putin accentuat sau
mai accentuat al asimetriei seriei de date sau al distributiei. In cazul acestei serii de date, CAS = 1,5734 , o
valoare pozitiva si mai mare ca 1, ceea ce arata ca seria de date prezinta o asimetrie pozitiva pronuntata.
- Sistematizarea printr-o serie de distributie de frecvente pe r = 6 intervale de variatie de marime
egala a dat urmatoarea distributie a celor n=39 de actrite din esantion dupa varsta la momentul obtinerii
premiului Oscar:
Nr. crt.

Intervalul k de variatie
(clasa de varsta)

Frecventa absoluta nk
a intervalului k de variatie
(numarul de actrite
din fiecare clasa de varsta)

20-30 ani
30-40 ani
40-50 ani
50-60 ani
60-70 ani
70-80 ani

1
2
3
4
5
6

Centrul xk
al intervalului k de
variatie
25
35
45
55
65
75

11
16
7
1
2
2
6

= 39=n

k =1

Reprezentarea grafica seriei de distributie de frecvente pe intervale, adica histograma si poligonul


frecventelor sugereaza ca aceasta prezinta asimetrie pronuntata la dreapta sau asimetrie pozitiva, adica
predomina valorile mai mici ale variabilei de interes, cu coada mai lung a distribuiei spre valorile mari,
care apar cu frecventa mai mica. Intre cele 39 de actrite castigatoare ale premiului Oscar, predomina cele
cu varste relativ mai mici.
Histograma - distributia celor n=39 de actrite dupa
variabila ce arata varsta la momentul castigarii premiului
Oscar

Poligonul frecventelor pentru seria de distributie de frecvente

16

16

16
14
12

16

14
Numarul de actrite

Frecventa absoluta (numarul de


actrite)

18

18

11

10
7

8
6

12
11
10
8
7
6
4

4
1

2
2

20-30
ani

30-40
ani

40-50
ani

50-60
ani

60-70
ani

70-80
ani

10

20

30

40

50

60

70

80

Varsta, in ani (centrele intervalelor)

Varsta (intervalele sau clasele de varsta)

13

e) Indicatorii tendintei centrale, principalii indicatori ai variatiei si ai formei distributiei pentru o serie
simpla de date numerice pot fi calculati in Excel si in SPSS, output-urile fiind de forma:
Output-ul Descriptive Statistics in Excel

Output-ul Descriptive Statistics in SPSS

Varsta actritelor

Statistics

Mean (media)

x = 38.1025

Standard Error

2.1407
Me=34
Mo=26

Median
Mode
Standard Deviation
(abaterea standard)
Sample Variance
(dispersia de selectie)
Kurtosis
Skewness
(coeficientul de asimetrie)
Range
(Amplitudinea)
Minimum
Maximum

39

Missing

Mean

x = 38.10

s x2 = 178.7260

Std. Error of Mean

2.141

Median

Me=34.00

CAS = 1.5734

Mode

Mo=26a

Ax = xmax xmin = 59

Std. Deviation

s x = s x2 = 13.369

Variance

s x2 = 178.726

Skewness

CAS = 1.573

Std. Error of Skewness

.378

Kurtosis

2.383

Std. Error of Kurtosis

.741

Range

Ax = xmax xmin = 59

Minimum

xmin = 21

Maximum

xmax = 80

2.3830

xmin = 21
xmax = 80

= 1486

i =1

Count

Valid

s x = s x2 = 13.3688

39

Sum

Varsta actritelor Oscar

n=39

39

Sum

= 1486

i =1

Percentiles

25

Q1 = 30.00

50

Q2 = Me = 34.00

75

Q3 = 41.00

a. Multiple modes exist. The smallest value is shown

Observatie: Analiza boltirii/aplatizrii


Boltirea(kurtosis, n engl.) exprim nlimea curbei (cocoaei) comparativ cu distribuia normal
teoretic. ntlnim, astfel distribuii leptocurtice, ascuite (cu cocoaa nalt) i distribuii platicurtice,
aplatizate. Coeficientul de boltire sau aplatizare (kurtosis) este o msur a mprtierii fiecrei
observaii n jurul unei valori centrale i se determin, pe eantion, cu formula:
n

CBA =

(x
i =1

x)

( )

n s x2

3 , unde s x2 =

(x

x)

i =1

n 1

Definiia este bazat pe momentul centrat de ordinul 4.

14

Interpretarea valorii coeficientului de aplatizare si boltire:


Dac CBA > 0 , avem distribuie leptocurtic, valorile varibilei fiind concentrate n jurul
indicatorilor tendinei centrale
Dac CBA < 0 , avem distribuie platicurtica, valorile varibilei fiind dispersate n raport cu
indicatorii tendinei centrale
Dac CBA = 0 , avem distribuie mezocurtic, adic distribuia normal.

In cazul acestei serii de date statistice, CAB = 2,383 > 0 , ceea ce indica o distributie leptocurtica
(cu cocoasa, asa cum se poate vedea si din histograma sau poligonul frecventelor).

Ex. 5. Un agent al companiei de asigurari W vinde contracte de asigurare de locuinte. In luna iulie a
incheiat: 2 contracte cu prime anuale de 50 Eur, 3 contracte cu prime anuale de 60 Eur, 6 contracte cu
prime de 70 Eur, 9 contracte cu prime de 90 Eur, 16 contracte cu prime anuale de 120 Eur, 8 contracte cu
prime anuale de 130 Eur si 6 contracte cu prime de 140 Eur. Se cere:
a) Construii seria de distribuie de frecvene i analizai grafic tendina de normalitate a acesteia.
b) Caracterizai omogenitatea i asimetria distribuiei contractelor n funcie de valoarea primelor
anuale.
c) Calculati media si abaterea standard a variabilei alternative care evidentiaza contractele cu prime
anuale de valoare mai mica sau egala cu 90 Eur.

Rezolvare: a)
o Populatia statistica este multimea contractelor de asigurare de locuinte din portofoliul companiei W.
o Unitatea statistica este un contract de asigurare de locuinta.
o Variabila statistica sau caracteristica de interes, notata X, este variabila ce arata marimei primei
anuale, in Eur, pentru un contract de asigurare de locuinta incheiat de un agent al companiei; variabila
numerica, continua.
o Agentul a incheiat intr-o luna n=50 de contracte, seria de date statistice referitoare la primele anuale
ale acestor contracte fiind sistematizata intr-o serie de distributie de frecvente pe r=7 variante
distincte. Astfel distributia celor n=50 de contracte dupa valoarea primei anuale, in Eur, este:
Valoarea

Nr.
crt.
1

xk Eur

Numarul de contracte,

a unei prime anuale


x1 = 50 Eur

x2 = 60 Eur
x3 = 70 Eur

n2 = 3
n3 = 6

x4 = 90 Eur
x5 = 120 Eur

n4 = 9
n5 = 16

x6 = 130 Eur

n6 = 8

x7 = 140 Eur

n7 = 6

2
3
4

nk ,

(frecventa absoluta)
n1 = 2 contracte

= 50 = n contracte

k =1

x2 = 60 x3 = 70 x4 = 90 x5 = 120 x6 = 130 x7 = 120


x = 50 Eur
,
X : 1
n6 = 8
n7 = 6
n1 = 2 contracte n2 = 3 n3 = 6 n4 = 9 n5 = 16

sau
7

unde

= 50 = n contracte.

k =1

15

o Reprezentarea grafica a acestei serii de distributie este poligonul frecventelor absolute.


Poligonul frecventelor absolute - distributia celor 50 de contracte
incheiate de agentul de asigurari dupa valoarea primei anuale

Frecventa absoluta (numarul de contracte)

18
16
14
12
10
8
6
4
2
0
0

10

20

30

40

50

60

70

80

90

100

110

120

130

140

150

Prima anuala de asigurare a unui contract, in Eur

o Poligonul frecventelor sugereaza ca distributia are tendinta de normalitate, dar prezinta asimetrie la
stanga, coada poligonului freventelor absolute fiind mai alungita spre stanga.
o Poligonul frecventelor se mai poate reprezenta si cu ajutorul frecventelor relative
Valoarea

Nr.
crt.

xk

Eur

Numarul de contracte,

a unei prime anuale

nk ,

Frecventa relativa

(frecventa absoluta)

x1 = 50 Eur

n1 = 2 contracte

n1* = 0,04

x2 = 60 Eur

n2 = 3

n2* = 0,06

x3 = 70 Eur

n3 = 6

n3* = 0,12

x4 = 90 Eur

n4 = 9

n4* = 0,18

x5 = 120 Eur

n5 = 16

n5* = 0,32

x6 = 130 Eur

n6 = 8

n6* = 0,16

x7 = 140 Eur

n7 = 6

n7* = 0,12

n
k =1

= 50 = n

contracte

*
k

nk* =

nk
[0,1]
n

=1

k =1

16

Poligonul frecventelor relative


0,35

0,3

Frecventa relativa

0,25

0,2

0,15

0,1
0,05

0
0

10

20

30

40

50

60

70

80

90

100 110 120 130 140 150

Prima anuala, in Eur, pentru un contract de asigurare

b)
o Media pentru o serie de distributie de frecvente pe r variante distincte ale variabilei de interes este
r

x n + ... + xr nr
x= 1 1
=
n1 + ... + nr

k =1

nk
,

unde xk , k = 1, r sunt variantele distincte observate ale variabilei, iar

= n volumul esantionului.

k =1

nk

5310
= 106,2 Eur este valoarea medie a unei prime anuala
50
50
corespunzatoare unui contract de asigurare de locuinta incheiat de respectivul agent de vanzari.

In cazul nostru, x =

k =1

o Mediana pentru o serie de distributie de frecvente pe r variante distincte se calculeaza parcurgand


urmatorii pasi:
Cele r variante distincte sunt ordonate crescator x1 < x2 < ... < xr .
n +1
Se determina locul medianei, adica
= 25,5 .
2
Se calculeaza frecventele absolute cumulate crescator ale celor r variante distincte
Fck = n1 + ... + nk , k = 1, r .
Mediana este acea valoare distincta cu proprietatea ca frecventa sa absoluta cumulata
crescator este prima care depaseste locul medianei
Fc1 = 2 < 25,5
Fc 2 = 5 < 25,5
Fc 3 = 11 < 25,5
Fc 4 = 20 < 25,5
si Fc5 = 36 25,5 , deci a 5-a varianta sau valoare distincta, x5 , este mediana sau valoarea
mediana: Me = x5 = 120 Eur, adica jumatate dintre contractele incheiat de agentul de
vanzari au o prima anuala de valoare mai cica sau egala cu 120 Eur.

17

Nr.
crt.
1
2
3

Valoarea
distincta,

xk

nk ,

Eur

n1 = 2

x1 n1 = 100

Fc1 = n1 = 2

x2 = 60
x3 = 70

n2 = 3
n3 = 6

x2 n2 = 180

Fc 2 = n1 + n2 = 5

n4 = 9
n5 = 16

x6 = 130

n6 = 8

x7 = 140

n7 = 6
7

= 50 = n

k =1

(x2 x )2 n1 = 6316,88
(x2 x )2 n2 = 6403,32

420

Fc3 = n1 + n2 + n3 = 11

7862,64

810

Fc 4 = n1 + ... + n4 = 20

2361,96

1920

Fc 5 = n1 + ... + n5 = 36

3047,04

1040

Fc 6 = n1 + ... + n6 = 44

840
7

(xk x )2 nk

Fck = n1 + ... + nk

x1 = 50

x4 = 90
x5 = 120

xk nk

(frecventa
absoluta)

Fc 7 = n1 + ... + n7 = n = 50

( x7 x )

(x

nk = 5310

k =1

4531,52

n7 = 6854,64

x ) nk = 37378
2

k =1

s x2 = 762,8163265

x = 106,2

s x = s x2 = 27,61912972
v x = 26,01%

o Modul sau valoarea modala pentru o serie de distributie de frecvente pe r variante distincte este acea
varianta sau valoare care apare cu frecventa absoluta sau relativa cea mai mare:
Frecventa absoluta cea mai mare este:
16 = n5 = max nk , k = 1, r .
valoarea modala este deci a 5-a varianta sau valoare distincta de raspuns a variabilei de
interes, Mo = x5 = 120 Eur, aceasta fiind valoarea cea mai des intalnita a unei prime anuale
pentru contractele incheiate de respectivul agent.

Relatia in care se gasesc indicatorii tendintei centrale, x < Me = Mo , ca si reprezentatrea grafica


pentru poligonul frecventelor absolute sau relative, arata ca distributia contractelor dupa valoarea
primelor anuale prezinta asimetrie negativa, in serie predominand valorile mai mari ale primelor
anuale, iar coada distributiei este alungita spre stanga.

o Dispersia in esantion (de selectie) pentru o serie de distributie de frecvente pe r intervale de variatie
este
r

(xk x )2 nk
2
2

(
)
(
)
x

n
+
...
+
x

n
1
r
r
s x2 = 1
= k =1
(n1 + ... + nr ) 1
n 1

unde xk , k = 1, r sunt variantele distincte observate ale variabilei,

= n volumul esantionului.

k =1

In cazul nostru, s x2 =

(x

x ) nk
2

k =1

50 1

37378
= 762,8163 , iar abaterea standard sau abaterea medie
50 1

patratica este s x = s = 27,6191 Eur, care arata cu cat se abat, in medie, valorile observate fata de
nivelul mediu in esantion al primelor anuale.
2
x

sx
27,6191
100 =
100 = 26,01% < 30% , ceea ce arata ca
x
106,2
distributia este omogena si media este reprezentativa pentru colectivitate.

o Coeficientul de variatie in esantion este v x =

18

c) Definim evenimentul favorabil ca evenimentul ca un contract de asigurare are o prima anuala de


valoare mai mica sau egala cu 90 Eur. Variabila alternativa care evidentiaza contractele ale caror prime
1
0
,
anuale sunt de valoare mai mica sau egala cu 90 Eur este Y :
n m m
unde

iar

Y = 1 pentru unitatile statistice din esantion care verifica evenimentul favorabil, iar m este
numarul de unitati statistice din esantion care verifica evenimentul favorabil,
m = n1 + n2 + n3 + n4 = 20 contracte,
Y = 0 pentru unitatile statistice din esantion care nu verifica evenimentul favorabil, n m este
numarul de unitati statistice din esantion pentru care nu se verifica evenimentul favorabil,
n m = 30 de contracte cu prime anuale mai mari de 90 Eur.

m 20
=
= 0,4 , adica 40% dintre contracte au valori ale
n 50
primelor anuale mai mici sau egale cu 90 Eur.
m m
Dispersia variabilei alternative este s 2y = 1 = 0,24 , iar abaterea standard
n n
Media variabilei alternative este y =

sy =

m m
1 0,48
n
n

Ex. 6. Distributia a 1100 de absolventi ai Universitatii din Florida dupa salariul castigat, in $, in primul an
dupa terminarea studiilor este urmatoarea serie de distributie de frecvente pe intervale de variatie:
Nr. crt. Intervalul de variatie al salariului, $ Numarul de absolventi
1
2
3
4
5
6
7
8
9
10
11

[7200; 12500]
(12500; 17800]
(17800; 23100]
(23100; 28400]
(28400; 33700]
(33700; 39000]
(39000; 44300]
(44300; 49600]
(49600; 54900]
(54900; 60200]
(60200; 65500]

30
69
302
308
263
95
20
6
5
1
1

Se cere:
a) sa se reprezinte grafic aceasta serie de distributie;
b) sa se determine si sa se interpreteze indicatorii tendintei centrale;
c) sa se reprezinte grafic poligonul frecventelor absolute cumulate crescator si sa se estimeze
proportia absolventilor care:
i)
au obtinut un salariu mai mic de 21000 $ in primul an de dupa finalizarea studiilor,
ii)
au obtinut un salariu mai mic decat media in primul an de dupa finalizarea studiilor,
iii)
au castigat in primul an intre 25000 $ si 40000 $,
iv)
au castigat mai mult de 52000 $;
d) sa se stabileasca daca media este reprezentativa pentru colectivitate;
e) sa se analizeze asimetria acestei distributii.

Rezolvare: a)
Populatia statistica este multimea absolventilor Universitatii din Florida, promotiile anilor 1989 si
1990, asa cum se specifica in fisierul University of Florida graduate salaries.sav al programului
SPSS.
Unitatea statistica este un absolvent.
19

Variabila sau caracteristica de interes, notata X, este variabila ce arata salariul unui absolvent, in $, din
primul an de dupa finalizarea studiilor, variabila numerica, continua.
Pentru un esantion de volum n = 1100 de absolventi s-au inregistrat valorile variabilei, iar setul de
date s-a sistematizat intr-o serie de distributie de frecvente pe r = 11 intervale de variatie de marime
egala, data in enuntul problemei.
Reprezentarea grafica a acestei serii de distributie de frecvente pe intervale de variatie se poate realiza
prin histograma si poligonul frecventelor absolute.
Nr.
crt.

1
2
3
4
5
6
7
8
9
10
11

Frecventa absoluta

Intervalul k de variatie
(Salariul anual al unui
absolvent, in $)

nk

Limita inferioara

Limita superioara

x(k )inf

x(k )sup

a intervalului k

a intervalului k

7200
12500
17800
23100
28400
33700
39000
44300
49600
54900
60200

12500
17800
23100
28400
33700
39000
44300
49600
54900
60200
65500

a intervalului k

(numarul de absolventi)

[7200; 12500]
(12500; 17800]
(17800; 23100]
(23100; 28400]
(28400; 33700]
(33700; 39000]
(39000; 44300]
(44300; 49600]
(49600; 54900]
(54900; 60200]
(60200; 65500]

30
69
302
308
263
95
20
6
5
1
1
11

Centrul

xk

al intervalului k

9850
15150
20450
25750
31050
36350
41650
46950
52250
57550
62850

= n = 1100

k =1

Histograma

Frecventa absoluta (numarul de absolventi)

350
308

302

300
263

250
200
150
95

100
69

50

30

20
6

]
00

]
0;
(6

02
0

0;
49
0
(5

65
5

00

]
60
2

00

]
0;
96
0
(4

43
0
(4

54
9

49
6

00
0;

44
3
0;

90
0
(3

00

]
00

]
39
0

37
0
(3

(2

84
0

0;

0;

33
7

00

00

]
(2

31
0

0;

28
4

23
1

00

00
0;
(1

78
0

0;
25
0
(1

[7

20
0;

12

17
8

50
0

Salariul, in $ (intervalele de variatie)

Fig. ..... Histograma Distributia celor 1100 de absolventi ai Universitatii din Florida dupa salariul
castigat in primul an de dupa finalizarea studiilor.
20

Poligonul frecventelor absolute

Frecventa absoluta (numarul de


absolventi)

350
308

302

300

263

250
200
150
100

95
69

50

20

30

0
0

10000

20000

30000

40000

50000

60000

70000

Salariul, in $ (centrele intervalelor de variatie)

Fig. ..... Poligonul frecventelor absolute Distributia celor 1100 de absolventi ai Universitatii din
Florida dupa salariul castigat in primul an de dupa finalizarea studiilor.

b) Indicatorii tendintei centrale: media, mediana si modul.


Nr.
crt.

Intervalul k
(Salariul anual al
unui
absolvent, in $)

1
2
3
4
5
6
7
8
9
10
11

[7200; 12500]
(12500; 17800]
(17800; 23100]
(23100; 28400]
(28400; 33700]
(33700; 39000]
(39000; 44300]
(44300; 49600]
(49600; 54900]
(54900; 60200]
(60200; 65500]

Centrul

xk

Frecventa absoluta

nk

xk nk

(numarul de absolventi)

9850
15150
20450
25750
31050
36350
41650
46950
52250
57550
62850

Fck = n1 + ... + nk

30
69
302
308
263
95
20
6
5
1
1
11

= n = 1100

k =1

Frecventa absoluta
cumulata crescator
a intervalului k,

295500
1045350
6175900
7931000
8166150
3453250
833000
281700
261250
57550
62850
11

30
99
401
709
972
1067
1087
1093
1098
1099
1100

nk = 28563500

k =1

x = 25966,82
o Media pentru o serie de distributie de frecvente pe r intervale de variatie este
r

x=

x1 n1 + ... + xr nr
=
n1 + ... + nr

unde xk , k = 1, r sunt centrele celor r intervale, iar

k =1

nk
,

= n volumul esantionului.

k =1

21

11

x=

nk

k =1

1100

28563500
= 25966,82 $ a castigat, in medie, un absolvent in primul an.
1100

o Mediana pentru o serie de distributie de frecvente pe r intervale de variatie se calculeaza parcurgand


urmatorii pasi:
n +1
Se determina locul medianei, adica
= 550,5 .
2
Se calculeaza frecventele absolute cumulate crescator ale intervalelor de variatie
Fck = n1 + ... + nk , k = 1, r .
Intervalul median este primul interval cu proprietatea ca frecventa sa absoluta cumulata
crescator depaseste locul medianei
Fc1 = 30 < 550,5
Fc 2 = 99 < 550,5

Fc 3 = 401 < 550,5


si Fc 4 = 709 550,5 , deci al 4-lea interval de variatie (23100; 28400] $ este intervalul
median.
n +1
Fc Me1
Me = xinf Me + hMe 2
=
nMe
550,5 401
= 23100 + 5300
= 25672,56 $, adica jumatate dintre absolventi au castigat
308
cel mult 25672,56$ in primul an sau jumatate au castigat cel putin 25672,56 $.

o Modul sau valoarea modala pentru o serie de distributie de frecvente pe r intervale de variatie se
calculeaza astfel:
Se determina intervalul cu frecventa absoluta cea mai mare:
308 = n4 = max nk , k = 1, r ,
deci al 4-lea interval de variatie (23100; 28400] $ este intervalul modal.
1
Mo = xinf Mo + hMo
=
1 + 2
308 302
= 23100 + 5300
= 23723,52 $, aceasta este valoarea cea mai
(308 302) + (308 263)
des intalnita a castigului salarial al unui absolvent intr-un an.

c) Introducem functia Fc : R R + definita astfel

Fc (x ) = numarul de unitati statistice din esantion pentru care valoarea observata a caracteristicii
de interes X este mai mica sau egala cu x
sau
frecventa cumulata a lui x.

Frecventa absoluta cumulata crescator a intervalului k de variatie, Fck = n1 + ... + nk , k = 1, r ,


reprezinta numarul de unitati statistice din esantion pentru care valoarea observata a variabilei de interes
X este mai mica sau egala decat limita superioara x(k )sup a intervalului k de variatie, adica

Fck = Fc (x(k ) sup ) , k = 1, r .

22

Pentru reprezentarea grafica a poligonului freventelor absolute cumulate crescator vom pune in
evidenta limitele superioare x(k )sup ale intervalelor de variatie si frecventele lor absolute cumulate,
impreuna cu limita inferioara a primului interval de variatie x(1) inf , in cazul nostru 7200 $, a carui

frecventa absoluta cumulata este 0, Fc x(1) inf = Fc (7200 ) = 0 , deoarece pentru nicio unitate statistica din
esantion, nivelul variabilei nu este mai mic decat x(1) inf .
Limitele superioare ale
intervalelor de variatie,
x(k )sup

Fc (x(k ) sup ) = Fck = n1 + ... + nk , adica


numarul de absolventi din esantion
care au castigat un salariu mai mic sau egal cu x(k )sup $
Fc (x(1) inf ) = Fc (7200 ) =0

x(1) inf =7200

Fc (x(1) sup ) = Fc (12500 ) =30

x(1)sup =12500

Fc (x(2 ) sup ) = Fc (17800) =99

x(2 )sup =17800

Fc (x(3) sup ) = Fc (23100 ) =401

x(3 )sup =23100

Fc (x( 4 ) sup ) = Fc (28400 ) =709

x(4 )sup =28400

Fc (x(5 ) sup ) = Fc (33700 ) =972

x(5 )sup =33700

Fc (x(6 ) sup ) = Fc (39000 ) =1067

x(6 )sup =39000

Fc (x(7 ) sup ) = Fc (44300 ) =1087

x(7 )sup =44300

Fc (x(8 ) sup ) = Fc (49600 ) =1093

x(8 )sup =49600

Fc (x(9 ) sup ) = Fc (54900 ) =1098

x(9 )sup =54900

Fc (x(10 ) sup ) = Fc (60200 ) =1099

x(10 )sup =60200

Fc (x(11) sup ) = Fc (65500 ) =1100

x(11)sup =65500

Poligonul freventelor absolute cumulate crescator


1200
1067

1087

1093

1098

1100
1099

Frecventele absolute cumulate


(numarul cumulat de absolventi)

1000
972

800
709

600

400

401

200

30

99

0
0

10000

20000

30000

40000

50000

60000

70000

Salariul, in $ (limitele superioare ale intervalelor de variatie)

23

i) Fc (21000 ) este numarul de absolventi care au obtinut un salariu mai mic de 21000 $ in primul an
de dupa finalizarea studiilor.
Valoarea 21000 $ se gaseste in intervalul de variatie (17800; 23100] $, iar Fc (21000 ) se determina
prin interpolare liniara, utilizand urmatoarea egalitate de rapoarte, asa cum se poate observa in figura
de mai jos:
21000 17800 Fc (21000 ) Fc (17800 )
=
23100 17800 Fc (23100 ) Fc (17800 )
3200 Fc (21000 ) 99

=
5300
401 99
281
Fc (21000 ) = 281,33 281 absolventi, adica o proportie de
100 = 25,54% dintre cei 1100
1100
de absolventi din esantionul considerat au avut un salariu anual mai mic de 21000 $.

Fig. .... Interpolare liniara - detaliu din figura reprezentand poligonul frecventelor absolute cumulate
crescator, pentru intervalul (17800; 23100] $ in care se gaseste 21000 $.

ii) Fc (25966,82 ) este numarul de absolventi care au obtinut un salariu mai mic decat nivelul mediu
x = 25966,82 $ al salariului in esantion.
Din relatia
25966,82 23100 Fc (25966,82 ) Fc (23100 )
,
=
28400 23100
Fc (28400 ) Fc (23100 )
24

obtinem ca Fc (25966,82 ) = 567,8 568 absolventi,


568
adica o proportie de
100 = 51,63% dintre cei 1100 de absolventi din esantionul considerat au
1100
avut un salariu anual mai mic de nivelul mediu.

iii) Fc (40000 ) Fc (25000 ) = 559,35 559 este numarul de absolventi care au castigat in primul an
intre 25000 $ si 40000 $, adica 50,81% dintre cei 1100 de absolventi.
iv) n Fc (52000 ) = 1100 Fc (52000 ) = 4,73 5 absolventi au castigat mai mult de 52000 $, adica o
proportie de 0,45%.
d) Media variabilei de interes in esantion este x = 25966,82 $.
Nr.
crt.

Intervalul k
(Salariul anual al
unui
absolvent, in $)

1
2
3
4
5
6
7
8
9
10
11

[7200; 12500]
(12500; 17800]
(17800; 23100]
(23100; 28400]
(28400; 33700]
(33700; 39000]
(39000; 44300]
(44300; 49600]
(49600; 54900]
(54900; 60200]
(60200; 65500]

Centrul

xk

Frecventa absoluta

(xk x )2 nk

nk

(numarul de absolventi)

9850
15150
20450
25750
31050
36350
41650
46950
52250
57550
62850

(x1 x )2 n1 = 7792556607

30
69
302
308
263
95
20
6
5
1
1
11

= n = 1100

k =1

8073248049
9191461480
14479361,02
6795583074
10241990557
4919242698
2641763057
3454027755
997497258,9
1360368967
11

(x

x ) nk = 55482218864
2

k =1

s x2 = 50484275,58
s x = 7105,2287
Dispersia in esantion (de selectie) pentru o serie de distributie de frecvente pe r intervale de
variatie este
r

(x x )
s2 = 1

n1 + ... + ( xr x ) nr
=
(n1 + ... + nr ) 1

unde xk , k = 1, r sunt centrele celor r intervale,

(x

x ) nk
2

k =1

n 1

= n volumul esantionului.

k =1

11

(x

x ) nk
2

5548221886 4
= 50484275,58 , iar abaterea standard este s x = 7105,2287 $, care
1100 1
1100 1
arata cu cat se abat, in medie, valorile observate fata de nivelul mediu al salariului din esantion.
s
7105,2287
Coeficientul de variatie in esantion este v x = x 100 =
100 = 27,36% < 30% , ceea ce
x
25966,82
arata ca media este reprezentativa pentru colectivitate.

s x2 =

k =1

25

e) Asimetria unei serii de distribuie de frecvene se observ din reprezentarea grafic prin
histogram sau poligonul frecvenelor, si prin modalitatea n care sunt situai, unul fa de cellalt,
indicatorii tendinei centrale.
Histograma

Poligonul frecventelor absolute


302

308

350

300
263

Frecventa absoluta (numarul de


absolventi)

Frecventa absoluta (numarul de absolventi)

350

250
200
150
95

100

69

50

30

20
6

263

250
200
150
100

95
69

50

20

12

50
0]
17
(1
80
78
0]
00
;2
31
(2
0
31
0]
00
;2
84
(2
0
84
0]
00
;3
37
(3
00
37
]
00
;3
90
(3
00
90
]
00
;4
43
(4
00
43
]
00
;4
96
(4
00
96
]
00
;5
49
(5
0
49
0]
00
;6
02
(6
0
02
0]
00
;6
55
00
]

30

25
00
;

0
0

(1

[7
20
0;

308

302

300

10000

20000

30000

40000

50000

60000

70000

Salariul, in $ (centrele intervalelor de variatie)

Salariul, in $ (intervalele de variatie)

Reprezentarea grafica seriei de distributie sugereaza ca aceasta are tendinta de normalitate si ca in


seria de date predomina valorile mai mici ale variabilei de interes, castigul salarial intr-un an, adica este
asimetrica spre dreapta (cu coada mai lung a distribuiei spre valorile mari, care apar cu frecventa mai
mica).
Indicatorii tendintei centrale se gasesc in urmatoarea relatie Mo < Me < x , ceea ce indica faptul ca
distributia de frecvente prezinta asimetrie pozitiva, in serie predominand valorile mici.
Gradul de asimetrie prezent n serie poate s fie i msurat printr-un indicator specific, numit
coeficient de asimetrie (Skewness), care in cazul unei serii de distributii de frecvente pe r intervale de
variatie se calculeaza dupa
r

CAS x =

unde xk , k = 1, r sunt centrele celor r intervale,

(x
k =1

n (s x )

x ) nk
3

= n volumul esantionului.

k =1

Nr.
crt.

Intervalul k
(Salariul anual al unui
absolvent, in $)

Centrul

1
2
3
4
5
6
7
8
9
10
11

[7200; 12500]
(12500; 17800]
(17800; 23100]
(23100; 28400]
(28400; 33700]
(33700; 39000]
(39000; 44300]
(44300; 49600]
(49600; 54900]
(54900; 60200]
(60200; 65500]

9850
15150
20450
25750
31050
36350
41650
46950
52250
57550
62850

xk

Frecventa absoluta

(xk x )3 nk

nk

(numarul de absolventi)
30
69
302
308
263
95
20
6
5
1
1
11

nk = n = 1100
k =1

-1,25591E+14
-8,73269E+13
-5,07076E+13
-3139415056
3,45432E+13
1,06344E+14
7,71494E+13
5,54326E+13
9,07828E+13
3,15041E+13
5,01747E+13
11

(x

x ) nk = 1,82302E+14
3

k =1

CAS = 0,462
Cum 0 < CAS < 1 , avem asimetrie pozitiv, coada distribuiei este mai alungit la dreapta, n serie
predominnd valorile mici (modul < mediana < media).
26

Ex. 7. La o banca se analizeaza distributia a 500 de debitori restantieri dupa situatia datelor de intarziere a
rambursarii creditelor. Datele au fost sistematizate astfel:
Intervale de variatie
a numarului de zile de intarziere a platii
mai putin 25 de zile
25-35 de zile
35-45 de zile
45-55 de zile
55-65 de zile
peste 65 de zile

Ponderea cumulata
a debitorilor (%)
25
75
85
93
98
100

Se cere:
a) sa se scrie distributia de frecvente pe intervale de variatie;
b) sa se reprezinte grafic distributia de frecvente absolute;
c) sa se calculeze si sa se analizeze indicatorii tendintei centrale si sa se stabileasca daca durata
medie de intarziere a platilor este reprezentativa;
d) sa se calculeze media si abaterea standard pentru variabila alternativa care evidentiaza debitorii ce
au intarziat mai mult de 45 de zile cu efectuarea platilor.

Rezolvare: a)
o Populatia statistica mutimea debitorilor cu intarziere in efectuarea platilor pentru rambursarea unor
credite.
o Unitatea statistica un debitor.
o Variabila sau caracteristica de interes, X, este variabila ce arata numarul de zile de intarziere a
efectuarii platii catre banca de catre un deitor; variabila numerica, discreta.
o S-a realizat o selectie de volum n = 500 de debitori restantieri pentru care s-a inregistrat numarul de
zile de intarziere, datele obtinute fiind sistematizate intr-o serie de distributie de frecvente pe r = 6
intervale de variatie de marime egala.
Notam cu:
nk , k = 1, r , frecventa absoluta a intervalului k de variatie (numarul de debitori restantiei pentru care
numarul de zile de intarziere apartine intervalului k de variatie), n1 + ... + nr = n ;
n
nk* = k [0;1], k = 1, r , frecventa relativa a intervalului k de variatie, n1* + ... + nr* = 1 ;
n
n
nk* % = 100 k , k = 1, r , frecventa relativa exprimata procentual a intervalului k de variatie sau
n
ponderea debitorilor cu numarul de zile de intarziere din intervalul sau clasa k,
n1* % + ... + nr* % = 100% ;
Fck = n1 + ... + nk , k = 1, r , este frecventa absoluta cumulata crescator a intervalului k;
Fck* = n1* + ... + nk* , k = 1, r , este frecventa relativa cumulata crescator a intervalului k;
Fck* % = n1* % + ... + nk* %, k = 1, r , este frecventa relativa exprimata procentual cumulata crescator a
intervalului k (ponderea cumulata a intervalului k).

27

Intervalul k de
variatie a
numarului de zile
de intarziere a
platii
15-25 de zile

Nr.
crt.

Ponderea cumulata
a debitorilor (%)
*
Fck % = n1* % + ... + nk* %

Frecventa
absoluta,
nk = n nk* =

Frecventa
relativa,
n* %
nk* = k
100

Ponderea
intervalului k,
nk* %

= 500 nk*

Fck* % = n1* % = 25%

n1* % = 25%

n1* = 0,25

n1 = 125

25-35 de zile

Fc*2 % = n1* % + n2* % = 75%

n2* % = 50%

n2* = 0,50

n2 = 250

35-45 de zile

F % = n % + ... + n % = 85%

n % = 10%

n = 0,10

n3 = 50

45-55 de zile

Fc*4 % = n1* % + ... + n4* % = 93%

n4* % = 8%

n4* = 0,08

n4 = 40

55-65 de zile

F % = n % + ... + n % = 98%

n % = 5%

n = 0,05

n5 = 25

65-75 de zile

Fc*6 % = n1* % + ... + n6* % = 100%

n6* % = 2%

n6* = 0,02

n6 = 10

*
c3

*
1

*
c5

*
3

*
1

*
3

*
5

*
3

*
5

*
k

*
5

% = 100%

k =1

*
k

=1

k =1

= 500 = n

k =1

Distributia celor 500 de debitori dupa numarul de zile de intarziere a platii este urmatoarea serie
de distributie de frecvente pe intervale:
Nr.
crt.

Intervalul k de variatie
a numarului de zile
de intarziere a platii

1
2

15-25 de zile
25-35 de zile

35-45 de zile

45-55 de zile

55-65 de zile

65-75 de zile

Numarul de debitori
(frecventa absoluta),
nk

Centrul xk al
intervalului k
de variatie
x1 = 20
x2 = 30
x3 = 40

n1 = 125 debitori
n2 = 250
n3 = 50

n4 = 40
n5 = 25

x4 = 50
x5 = 60

n6 = 10

x6 = 70

= 500 = n debitori

k =1

b)
Poligonul frecventelor absolute

Histograma
300

300
250

250
N u m aru l d e d eb ito ri

Numarul de debitori

250

200

150

125

100
50

50

40

200
150
100
50

25
10

0
15-25
de zile

25-35
de zile

35-45
de zile

45-55
de zile

55-65
de zile

65-75
de zile

Numarul de zile de intarziere

Fig. ..... Distributia celor 500 de debitori dupa numarul de zile de


intarziere a platii

10

20

30

40

50

60

70

80

Numarul zilelor de intarziere

Fig. .... Poligonul frecventelor absolute pentru distributia celor


500 de debitori dupa numarul de zile de intarziere a platilor

28

c)
Numarul de
debitori, nk

Centrul

15-25 de zile

n1 = 125

x1 = 20

x1 n1 = 2500

Fc1 = 125

(x1 x )2 n1 = 19220

25-35 de zile

n2 = 250

x2 = 30

7500

Fc 2 = 375

1440

35-45 de zile

n3 = 50

x3 = 40

2000

Fc 3 = 425

2888

45-55 de zile

465

12390,4

55-65 de zile

x4 = 50
x5 = 60

2000

n4 = 40
n5 = 25

1500

490

65-75 de zile

n6 = 10

x6 = 70

Nr.
crt.

Intervalul k

1
2

x k nk

xk

x6 n6 = 700
6

= 500 = n

k =1

(xk x )2 nk

Fck

nk = 16200

k =1

19044

( x6 x )

Fc 6 = 500
6

(x

n6 = 14137,6

x ) nk = =69120
2

k =1

x = 32,4

s x2 = 138,5170

s x = s x2 = 11,7693
v x = 36,33%
6

n
x1 n1 + ... + xr n6 k =1 k k 16200
=
=
, deci x = 32,4 zile este numarul mediu de zile
n1 + ... + n6
n
500
de intarziere a platilor pentru un debitor restantier.

o Media este x =

n +1
n +1
= 250,5 ; primul interval cu proprietatea ca Fck
este intervalul 25-35
2
2
de zile, deoarece Fc1 = 125 < 250,5 , dar Fc 2 = 375 250,5 , deci:
n +1
Fc Me1
=
Me = xinf Me + hMe 2
nMe
250,5 125
= 25 + 10
= 30,02 zile, adica jumatate dintre debitorii restantieri au intarziat
250
cel putin 30 de zile cu efectuarea platilor.

o Locul medianei este

o Intervalul modal este intervalul 25-35 de zile deoarece are frecventa absoluta cea mai mare
250 = n2 = max nk , k = 1,6 , atunci

1
=
1 + 2
250 125
= 25 + 10
= 28,84 zile; numarul cel mai intalnit de zile de intarziere
(250 125) + (250 50 )
a platilor celor 500 de debitori restantieri este de aproximativ 29 de zile.

Mo = xinf Mo + hMo

o Relatia in care se gasesc cei trei indicatori ai tendintei centrale este Mo < Me < x , ceea ce indica o
asimetrie pozitiva.

29

(x x )
s2 = 1

n1 + ... + (x6 x ) n6
=
(n1 + ... + n6 ) 1

o Dispersia in esantion este

(x

x ) nk
2

k =1

500 1

69120
, deci
500 1

s = 138,5170 , iar abaterea standard s x = s = 11,7693 zile, care arata cu cate zile se abat, in
medie, valorile observate ale seriei de date fata de numarul mediu de zile de intarziere.
s
11,7693
o Coeficientul de variatie in esantion este v x = x 100 =
100 = 36,33% > 35% , ceea ce arata ca
32,4
x
distributia nu este omogena si media, ca indicatot al tendintei centrale, nu este reprezentativa pentru
colectivitate.
2
x

2
x

d) Definim evenimentul favorabil ca evenimentul ca un debitor intarzie cu platile mai mult de 45 de


zile. Variabila alternativa care evidentiaza debitorii ce au intarziat mai mult de 45 de zile cu efectuarea
1
0
,
platilor este Y :
n m m
unde

iar

Y = 1 pentru unitatile statistice din esantion care verifica evenimentul favorabil, iar m este
numarul de unitati statistice din esantion pentru care se verifica evenimentul favorabil,
m = n4 + n5 + n6 = 75 debitori,
Y = 0 pentru unitatile statistice din esantion care nu verifica evenimentul favorabil, n m este
numarul de unitati statistice din esantion pentru care nu se verifica evenimentul favorabil,
n m = 425 debitori.
Media variabilei alternative este y =

m 75
=
= 0,15 , adica 15% dintre debitori au intarziat mai
n 500

mult de 45 de zile.
Dispersia variabilei alternative este s 2y =

sy =

m m
1 = 0,1275 , iar abaterea standard
n n

m m
1 0,36 .
n
n

30

S-ar putea să vă placă și