Documente Academic
Documente Profesional
Documente Cultură
Anul I, 2012-2013
Exercitii pregatitoare pentru testul de la seminar si pentru examen partea I
Ex. 1. Urmtoarea serie de date arat preul de vnzare (sute lei) pentru 13 lucrri de grafic la o licitaie
de obiecte de art: 51, 60, 72, 35, 32, 57, 63, 61, 48, 33, 67, 54, 37.
Se cere:
a) s se calculeze i s se interpreteze indicatorii tendinei centrale;
b) s se stabileasc dac media este reprezentativ;
c) s se calculeze i s se interpreteze cuartilele acestei serii de date;
d) optiunea Descriptive Statistics din Data Analysis Excel;
e) s se analizeze asimetria acestei serii de date;
f) stabilii valoarea de adevr a urmtoarelor afirmaii, justificnd rspunsurile:
f1) 25 % dintre lucrarile licitate s-au vandut pentru un pret mai mic de 48 sute de lei;
f2) jumatate dintre lucrarile licitate au un pret mai mic sau egal cu 54 sute lei;
f3) 25 % dintre lucrari s-au vandut cu cel putin 62 sute de lei;
f4) pentru 75% dintre obiecte s-a obinut un pret de cel putin 36 sute lei;
f5) precizati care dintre urmtoarele valori: 25, 29, 16, 40, 124, 85, 99,8 sute lei sunt
outliers n raport cu datele iniiale;
f6) coeficientul de variaie este 26,33%;
f7) media este reprezentativ.
Rezolvare: a)
o Populaia statistic este mulimea lucrarilor de grafic puse n vnzare la licitaiile cu obiecte de art.
o Unitatea statistic este o lucrare de grafic pus n vnzare la o licitaie.
o Variabila statistic sau caracteristica de interes, notat cu X, arat preul de vnzare, n sute lei, al unei
lucrri de grafic.
o Pentru un eantion de volum n=13 uniti statistice (lucrri de grafic), se cunoate preul de vnzare,
adic avem urmtoarea serie statistic simpl sau nesistematizat de date numerice:
{x1=51, x2=60, x3=72, x4=35, x5=32, x6=57, x7=63, x8=61, x9=48, x10=33, x11=67, x12=54, x13=xn=37}.
o Pentru o serie simpl de date numerice {x1 , x2 ,..., xn } ,
n
x1 + x2 + ... + xn i =1
=
.
n
n
Valorile xi ale variabilei X - preul de vnzare (sute lei)
x1= 51
x2= 60
x3= 72
x4= 35
x5= 32
x6= 57
x7= 63
x8= 61
x9= 48
x10=33
x11=67
x12=54
x13=37
xi
13
xi = 670
i =1
13
xi
o n cazul nostru, x =
o Pentru a determina Mediana (Median) unei serii simple de date, se parcurg urmtoarele etape:
Valorile seriei de date se ordoneaz cresctor: x(1) x(2 ) ... x(n 1) x(n ) , unde x(i ) , i = 1, n
reprezint a i-a valoare din irul ordonat cresctor de date numerice (astfel, x(1) este prima
valoare din irul ordonat cresctor, adic cea mai mic valoare, x(2 ) este urmtoarea valoare n
ordine cresctoare i aa mai departe pn la x(n ) , care este cea mai mare valoare).
Pentru aceast serie, cele n=13 valori ordonate cresctor sunt:
x(1)=32, x(2)=33, x(3)=35, x(4)=37, x(5)=48, x(6)=51, x(7)=54, x(8)=57, x(9)=60, x(10)=61, x(11)=63,
x(12)=67, x(13)=72.
n + 1 13 + 1
Se stabilete locul medianei:
=
= 7N
2
2
Mediana este a 7-a valoare din irul ordonat de date, adic Me = x(7 ) = 54 sute de lei (valoarea
din mijlocul seriei ordonate de date).
x(1) x(2 ) x(3) x(4 ) x(5 ) x(6 ) x(7 ) x(8 ) x(9 ) x(10 ) x(11) x(12 ) x(13 )
144444424444443
50%
1444444424444444
3
50%
Me
54
Interpretarea: jumtate dintre unitile statistice din eantion au nivelul variabilei de interes mai
mic sau egal cu Mediana, iar restul au nivelul variabilei de interes cel puin egal cu Mediana,
adic jumtate dintre lucrrile de grafic licitate s-au vndut cu mai puin de 54 sute lei, iar
restul s-au vndut cu un pre mai mare de 54 sute lei.
o Modul (Mode) sau valoarea modal este acea valoare sau variant de rspuns care apare cu cea mai
mare frecven. n cazul nostru se observ c niciuna dintre valorile seriei de date nu are o frecven
mai mare ca 1, adic avem numai valori distincte, prin urmare, seria nu are valoare modal.
b) pentru a stabili dac media este reprezentativ, se calculeaz coeficientul de variaie al seriei de date,
s
adic v x = x 100 , unde s x = s x2 este abaterea standard a seriei de date.
x
o Dispersia de selecie (sample variance) pentru o serie simpl de date numerice asupra variabilei X
este
n
( xi x )
2
2
(
x1 x ) + ... + ( xn x )
2
i =1
s =
=
x
n 1
n 1
Nr. crt.
Valorile xi
x1= 51
x2= 60
x3= 72
4
5
6
7
8
9
10
11
12
x4= 35
x5= 32
x6= 57
x7= 63
x8= 61
x9= 48
x10=33
x11=67
x12=54
13
x13=37
(xi x )2
(x1 x )2 = (51 51,54)2 = 0,2916
(x 2 x )2 = (60 51,54)2 = 71,5716
(x3 x )2 = (72 51,54)2 = 418,6116
(x4 x )2 = (35 51,54)2 = 273,5716
381,8116
29,8116
131,3316
89,4916
12,5316
343,7316
239,0116
13
13
2
(xi x ) = 2209,231
xi = 670
i =1
i =1
s x2 =
x = 51,54
2209,231
= 184,1026
13 1
s x = s x2 = 184,1026 = 13,5684
v x = 26,33%
13
s x2
(xi x )
i =1
13 1
2209,231
= 184,1026 ,
12
iar abaterea standard (standard deviation) este s x = s x2 = 184,1026 = 13,5684 sute lei, cu interpretarea
c valorile individuale ale seriei se abat, n medie, cu 13,5684 sute lei fa de nivelul mediu de 51,84 sute
lei al preului de vnzare din eantion.
s
13,5684
o Coeficientul de variaie este v x = x 100 =
100 = 26,33% < 35% , ceea ce indic faptul c seria
x
51,54
de date este omogen; media este reprezentativ pentru colectivitate, ca indicator al tendinei centrale.
c) Cuartilele seriei de date sunt Q1 , Q2 = Me, Q3 , iar pentru determinarea lor, seria de date trebuie s fie
Q1
25%
75%
36
interpretarea: 25% dintre unitile statistice din eantion au nivelul variabilei de interes mai
mic sau egal cu Q1 , iar restul de 75% dintre unitile statistice din eantion au nivelul
variabilei de interes cel puin egal cu Q1 ; adic 25% dintre lucrrile de grafic licitate s-au
vndut pentru un pre mai mic dect 36 sute lei, iar restul de 75% dintre ele s-au vndut cu
un pre mai mare de 36 sute lei.
o Q2=Me=54 sute lei este cuartila de ordinul 2 sau mediana seriei de date statistice.
o Q3 cuartila de ordinul 3 sau cuartila superioar se determin astfel:
n +1
13 + 1
se stabilete locul lui Q3 :
3 =
3 = 10,50 N, dar 10 < 10,50 < 11
4
4
(locul lui Q1 cuartilei este ntre 10 i 11, astfel c Q3 se va gsi ntre a 10-a i a 11-a
valoare din irul ordonat cresctor)
x(10 ) + x(11) 61 + 63
=
= 62 sute lei,
x(10 ) Q3 x(11) si Q3 =
2
2
x(1) x(2 ) x(3) x(4 ) x(5 ) x(6 ) x(7 ) x(8 ) x(9 ) x(10 ) x(11) x(12 ) x(13)
1
4444444444
4244444444444
3 1442443
Q3
75%
25%
62
interpretarea: 75% dintre unitile statistice din eantion au nivelul variabilei de interes mai
mic sau egal cu Q3 , iar restul de 25% dintre unitile statistice din eantion au nivelul
variabilei de interes cel puin egal cu Q3 ; adic 75% dintre lucrrile de grafic licitate s-au
vndut pentru un pre mai mic dect 62 sute lei, iar restul de 25% dintre ele s-au vndut cu
un pre mai mare de 62 sute lei.
x(1) x(2 ) x(3) x(4 ) x(5 ) x(6 ) x(7 ) x(8 ) x(9 ) x(10 ) x(11) x(12 ) x(13 )
1
442443 14444444244444443 144
42444
3
25%
Q1
36
50%
Q3
25%
62
Jumatate din termenii din mijlocul seriei au valori cuprinse intre Q1=36 sute lei si Q3=62 sute lei.
Abaterea intercuatilic (interquratile range) este IQR=Q3-Q1=26 sute lei.
d) pentru o serie statistica simpla de date numerice, principalii indicatori ai tendintei centrale, variatiei si
formei distributiei se pot calcula in Excel astfel:
datele statistice se introduc intr-o foaie de lucru a unui fisier Excel, asa cum se poate vedea in
Figura nr. 1;
in Excel 2003, din meniul Tools se alege Data Analysis, iar apoi se selecteaza Descriptive
Statistics asa cum se poate vedea in Figura nr. 1;
in Excel 2007 sau versiuni ulterioare, din meniul Data, se alege Data Analysis, iar apoi se
selecteazaDescriptive Statistics, asa cum se poate vedea in Figura nr. 1;
Figura nr. 1. Introducerea datelor seriei simple intr-o foaie de lucru si selectarea optiunii Descriptive
Statistics din Data Analysis.
in urmatoarea fereastra care se va deschide, asa cum se poate observa in Figura nr. 2, se va
completa:
la sectiunea Input Range se selecteaza cu mouse-ul sirul de celule care contin datele seriei
statistice simple,
la sectiunea Output options se alege o celula din foaia de lucru unde vor aparea rezultatele
prelucrarii datelor,
se bifeaza Summary Statistics,
se da click pe butonul OK;
51,5385 = x
3,7632
54 = Me
#N/A (nu exista)
s x2
13,5684 = s x =
184,1026 = s x
-1,29426 = CBA
-0,23938 = CAS
Range (Amplitudinea)
40 = Ax = xmax x min
32 = xmin
= x(1)
72 = xmax
= x( n )
n
670 = xi
i =1
13 = n
e) asimetria unei serii de date statistice se poate analiza din mai multe puncte de vedere:
o prin compararea indicatorilor tendintei centrale:
in cazul nostru, comparam doar media aritmetica si mediana, deoarece modul nu exista,
astfel: x < Me , ceea ce indica o asimetrie negativa, in seria de date predominand valorile
mai mari, adica intre lucrarile de grafica licitate sunt mai numeroase cele care au o valoare
de vanzare mai mare;
o prin calculul si evaluarea semnului urmatorului coeficient de asimetrie
3 (x Me )
Cas =
= 0,5442 < 0 ce arata ca distributia prezinta asimetrie negativa;
sx
n
( xi x )
i =1
Ex. 2. Se consider urmatoarea serie, reprezentand valoarea inregistrata a 9 facturi emise de o societate
comerciala in ultima luna: 47; 58; 41; 36; 54; 42; 65; 43; 37 (mil. lei).
Alegeti afirmatiile false:
a) Cuartilele inferioara si superioara sunt 43 si respectiv 58 mil. lei.
b) Abaterea intercuartilica este de 10 mil. lei;
c) Jumatate dintre termenii seriei, plasati pe mijocul distributiei, se regasesc intre 39 si 56.
d) Percentilele de ordinul 25 si 75 sunt 39 si respectiv 56 mil. lei
e) In raport cu datele initiale, valorile: 73, 29, 18, 73, 23 sunt toate outliers.
f) Daca fiecare valoare s-ar mari intai cu 4,25 lei, apoi de 2 ori, dispersia noilor valori ar fi 396.
Ex. 3. Structura unui esantion de 90 de copii dupa nivelul maxim atins al unui joc pe calculator este:
E
22%
A
11%
B
13%
D
34%
C
20%
Ex. 4. Pentru 39 de actrite care au obtinut premiul Oscar se cunoaste varsta, in ani impliniti, la momentul
castigarii premiului:
50, 44, 35, 80, 26, 28, 41, 21, 61, 38, 49, 33, 74, 30, 33, 41, 31, 35, 41, 42,
37, 26, 34, 34, 35, 26, 61, 60, 34, 24, 30, 37, 31, 27, 39, 34, 26, 25, 33 ani.
Se cere:
a) sa se determine si sa se interpreteze indicatorii tendintei centrale si cuartilele acestei serii de date;
b) sa se construiasca diagrama box-plot (sau diagrama cu mustati box-and-whisker), punand in
evidenta daca seria are valori extreme;
c) sa se calculeze indicatorii variatiei si sa se stabileasca daca seria este omogena;
d) analizati asimetria;
e) Descriptive Statistics.
Rezolvare: a)
o Populatia statistica este multimea actritelor care au castigat premiul Oscar.
o Unitatea statistica este o actrita.
o Variabila sau caracteristica de interes, notata X, este variabila ce arata varsta unei actrite la momentul
obtinerii premiului; variabila numerica, discreta.
o Pentru un esantion de volum n = 39 de actrite se cunosc valorile variabilei X, adica {x1=50, x2=44,
x3=35, x4=80, ..., xn=x39=33 ani}, care reprezinta o serie simpla sau nesistematizata de date statistice
numerice.
n
xi
x1 + x2 + ... + xn
i =1
o Media unei serii simple de date numerice {x1 , x2 , ..., xn } este x =
=
.
n
n
In cazul acestei serii, varsta medie a unei actrite din esantion care a castigat premiul Oscar este
39
x1=50
x2=44
x3=35
x4=80
x5=26
x(1)=21
x(2)=24
x(3)=25
x(4)=26
x(5)=26
28
26
41
26
21
27
61
28
10
38
x(10)=30=Q1
11
12
13
14
49
33
74
30
30
31
31
33
15
33
33
16
17
18
19
41
31
35
41
33
34
34
34
20
42
x(20)=34=Me
21
22
23
24
25
26
27
28
29
37
26
34
34
35
26
61
60
34
35
35
35
37
37
38
39
41
41
30
24
x(30)=41=Q3
31
32
33
30
37
31
42
44
49
34
27
35
39
36
34
37
26
38
25
39
x39=33
x(34)=50
x(35)=60
x(36)=61
x(37)=61
x(38)=74
x(39)=80
b)
Diagrama cu mustati (box-and-whisker) sau diagrama box-plot pentru o serie de date statistice
numerice se construieste punand in evidenta urmatoarele cinci elemente si eventualele valori extreme sau
outliers:
- cuartila inferioara sau de ordinul 1, Q1=30 ani;
- mediana sau cuartila de ordinul al 2-lea, Q2=Me=34 ani;
- cuartila superioara sau de ordinul al 3-lea, Q3=41 ani;
- limita sau marginea inferioara a diagramei box-plot este cea mai mica dintre valorile
seriei de date cu proprietatea ca este mai mare sau egala cu Q1 1,5 IQR , adica
10
*
* *
21
30
(Q1)
34
(Me)
41
(Q3)
50
60 61
74
80
c) Dispersia de selectie (sample variance) pentru o serie simpla de date numerice asupra variabilei X este
n
(x1 x )
s x2 =
39
adica s x2 =
(x
x)
+ ... + ( xn x )
=
n 1
2
(x
x)
i =1
n 1
i =1
39 1
6791,5897
= 178,7260 ,
39 1
sx
100 = 35,09% > 35% , ceea ce indica faptul ca seria de date
x
nu este omogena, iar media nu este reprezentativa pentru colectivitate, ca indicator al tendintei centrale.
xi x
Nr. crt. Varsta actritelor xi
(xi x )2
Coeficientul de variatie este v x =
x1=50
x2=44
x3=35
x4=80
x5=26
6
7
8
9
28
41
21
61
-12,1026
-10,1026
2,8974
-17,1026
22,8974
146,4720
102,0618
8,3951
292,4977
524,2925
10
11
12
13
14
15
16
17
38
49
33
74
30
33
41
31
-0,1026
10,8974
-5,1025
35,8974
-8,1025
-5,1025
2,8974
-7,1025
0,0105
118,7541
26,0361
1288,6259
65,6515
26,0361
8,3951
50,4464
18
35
19
20
21
22
23
24
25
41
42
37
26
34
34
35
-3,1025
2,8974
3,8974
-1,1025
-12,1025
-4,1025
-4,1025
-3,1025
9,6259
8,3951
15,1900
1,2156
146,4720
16,8310
16,8310
9,6259
26
26
27
28
29
30
31
32
33
34
35
36
37
38
61
60
34
24
30
37
31
27
39
34
26
25
-12,1025
22,8974
21,8974
-4,10256
-14,1025
-8,1025
-1,1025
-7,1025
-11,1025
0,8974
-4,1025
-12,1025
-13,1025
146,4720
524,2925
479,4977
16,8310
198,8823
65,6515
1,2156
50,4464
123,2669
0,8053
16,8310
146,4720
171,6771
1
2
3
4
x39=33
39
39
= 1486
i =1
x = 38,1025
11,8974
141,5489
5,8974
34,7797
-3,1026
9,6259
41,8974
1755,3951
-5,1025
39
(x
i =1
x) = 0
26,0361
39
(x
x ) = 6791,5897
2
i =1
s x2 = 178,7260
s x = s x2 = 13,3688
v x = 35,09%
12
d)
(x
x)
i =1
, al carui semn si
3
n (s x )
marime arata tipul asimetriei (pozitiva sau negativa), iar marimea arata gradul mai putin accentuat sau
mai accentuat al asimetriei seriei de date sau al distributiei. In cazul acestei serii de date, CAS = 1,5734 , o
valoare pozitiva si mai mare ca 1, ceea ce arata ca seria de date prezinta o asimetrie pozitiva pronuntata.
- Sistematizarea printr-o serie de distributie de frecvente pe r = 6 intervale de variatie de marime
egala a dat urmatoarea distributie a celor n=39 de actrite din esantion dupa varsta la momentul obtinerii
premiului Oscar:
Nr. crt.
Intervalul k de variatie
(clasa de varsta)
Frecventa absoluta nk
a intervalului k de variatie
(numarul de actrite
din fiecare clasa de varsta)
20-30 ani
30-40 ani
40-50 ani
50-60 ani
60-70 ani
70-80 ani
1
2
3
4
5
6
Centrul xk
al intervalului k de
variatie
25
35
45
55
65
75
11
16
7
1
2
2
6
= 39=n
k =1
16
16
16
14
12
16
14
Numarul de actrite
18
18
11
10
7
8
6
12
11
10
8
7
6
4
4
1
2
2
20-30
ani
30-40
ani
40-50
ani
50-60
ani
60-70
ani
70-80
ani
10
20
30
40
50
60
70
80
13
e) Indicatorii tendintei centrale, principalii indicatori ai variatiei si ai formei distributiei pentru o serie
simpla de date numerice pot fi calculati in Excel si in SPSS, output-urile fiind de forma:
Output-ul Descriptive Statistics in Excel
Varsta actritelor
Statistics
Mean (media)
x = 38.1025
Standard Error
2.1407
Me=34
Mo=26
Median
Mode
Standard Deviation
(abaterea standard)
Sample Variance
(dispersia de selectie)
Kurtosis
Skewness
(coeficientul de asimetrie)
Range
(Amplitudinea)
Minimum
Maximum
39
Missing
Mean
x = 38.10
s x2 = 178.7260
2.141
Median
Me=34.00
CAS = 1.5734
Mode
Mo=26a
Ax = xmax xmin = 59
Std. Deviation
s x = s x2 = 13.369
Variance
s x2 = 178.726
Skewness
CAS = 1.573
.378
Kurtosis
2.383
.741
Range
Ax = xmax xmin = 59
Minimum
xmin = 21
Maximum
xmax = 80
2.3830
xmin = 21
xmax = 80
= 1486
i =1
Count
Valid
s x = s x2 = 13.3688
39
Sum
n=39
39
Sum
= 1486
i =1
Percentiles
25
Q1 = 30.00
50
Q2 = Me = 34.00
75
Q3 = 41.00
CBA =
(x
i =1
x)
( )
n s x2
3 , unde s x2 =
(x
x)
i =1
n 1
14
In cazul acestei serii de date statistice, CAB = 2,383 > 0 , ceea ce indica o distributie leptocurtica
(cu cocoasa, asa cum se poate vedea si din histograma sau poligonul frecventelor).
Ex. 5. Un agent al companiei de asigurari W vinde contracte de asigurare de locuinte. In luna iulie a
incheiat: 2 contracte cu prime anuale de 50 Eur, 3 contracte cu prime anuale de 60 Eur, 6 contracte cu
prime de 70 Eur, 9 contracte cu prime de 90 Eur, 16 contracte cu prime anuale de 120 Eur, 8 contracte cu
prime anuale de 130 Eur si 6 contracte cu prime de 140 Eur. Se cere:
a) Construii seria de distribuie de frecvene i analizai grafic tendina de normalitate a acesteia.
b) Caracterizai omogenitatea i asimetria distribuiei contractelor n funcie de valoarea primelor
anuale.
c) Calculati media si abaterea standard a variabilei alternative care evidentiaza contractele cu prime
anuale de valoare mai mica sau egala cu 90 Eur.
Rezolvare: a)
o Populatia statistica este multimea contractelor de asigurare de locuinte din portofoliul companiei W.
o Unitatea statistica este un contract de asigurare de locuinta.
o Variabila statistica sau caracteristica de interes, notata X, este variabila ce arata marimei primei
anuale, in Eur, pentru un contract de asigurare de locuinta incheiat de un agent al companiei; variabila
numerica, continua.
o Agentul a incheiat intr-o luna n=50 de contracte, seria de date statistice referitoare la primele anuale
ale acestor contracte fiind sistematizata intr-o serie de distributie de frecvente pe r=7 variante
distincte. Astfel distributia celor n=50 de contracte dupa valoarea primei anuale, in Eur, este:
Valoarea
Nr.
crt.
1
xk Eur
Numarul de contracte,
x2 = 60 Eur
x3 = 70 Eur
n2 = 3
n3 = 6
x4 = 90 Eur
x5 = 120 Eur
n4 = 9
n5 = 16
x6 = 130 Eur
n6 = 8
x7 = 140 Eur
n7 = 6
2
3
4
nk ,
(frecventa absoluta)
n1 = 2 contracte
= 50 = n contracte
k =1
sau
7
unde
= 50 = n contracte.
k =1
15
18
16
14
12
10
8
6
4
2
0
0
10
20
30
40
50
60
70
80
90
100
110
120
130
140
150
o Poligonul frecventelor sugereaza ca distributia are tendinta de normalitate, dar prezinta asimetrie la
stanga, coada poligonului freventelor absolute fiind mai alungita spre stanga.
o Poligonul frecventelor se mai poate reprezenta si cu ajutorul frecventelor relative
Valoarea
Nr.
crt.
xk
Eur
Numarul de contracte,
nk ,
Frecventa relativa
(frecventa absoluta)
x1 = 50 Eur
n1 = 2 contracte
n1* = 0,04
x2 = 60 Eur
n2 = 3
n2* = 0,06
x3 = 70 Eur
n3 = 6
n3* = 0,12
x4 = 90 Eur
n4 = 9
n4* = 0,18
x5 = 120 Eur
n5 = 16
n5* = 0,32
x6 = 130 Eur
n6 = 8
n6* = 0,16
x7 = 140 Eur
n7 = 6
n7* = 0,12
n
k =1
= 50 = n
contracte
*
k
nk* =
nk
[0,1]
n
=1
k =1
16
0,3
Frecventa relativa
0,25
0,2
0,15
0,1
0,05
0
0
10
20
30
40
50
60
70
80
90
b)
o Media pentru o serie de distributie de frecvente pe r variante distincte ale variabilei de interes este
r
x n + ... + xr nr
x= 1 1
=
n1 + ... + nr
k =1
nk
,
= n volumul esantionului.
k =1
nk
5310
= 106,2 Eur este valoarea medie a unei prime anuala
50
50
corespunzatoare unui contract de asigurare de locuinta incheiat de respectivul agent de vanzari.
In cazul nostru, x =
k =1
17
Nr.
crt.
1
2
3
Valoarea
distincta,
xk
nk ,
Eur
n1 = 2
x1 n1 = 100
Fc1 = n1 = 2
x2 = 60
x3 = 70
n2 = 3
n3 = 6
x2 n2 = 180
Fc 2 = n1 + n2 = 5
n4 = 9
n5 = 16
x6 = 130
n6 = 8
x7 = 140
n7 = 6
7
= 50 = n
k =1
(x2 x )2 n1 = 6316,88
(x2 x )2 n2 = 6403,32
420
Fc3 = n1 + n2 + n3 = 11
7862,64
810
Fc 4 = n1 + ... + n4 = 20
2361,96
1920
Fc 5 = n1 + ... + n5 = 36
3047,04
1040
Fc 6 = n1 + ... + n6 = 44
840
7
(xk x )2 nk
Fck = n1 + ... + nk
x1 = 50
x4 = 90
x5 = 120
xk nk
(frecventa
absoluta)
Fc 7 = n1 + ... + n7 = n = 50
( x7 x )
(x
nk = 5310
k =1
4531,52
n7 = 6854,64
x ) nk = 37378
2
k =1
s x2 = 762,8163265
x = 106,2
s x = s x2 = 27,61912972
v x = 26,01%
o Modul sau valoarea modala pentru o serie de distributie de frecvente pe r variante distincte este acea
varianta sau valoare care apare cu frecventa absoluta sau relativa cea mai mare:
Frecventa absoluta cea mai mare este:
16 = n5 = max nk , k = 1, r .
valoarea modala este deci a 5-a varianta sau valoare distincta de raspuns a variabilei de
interes, Mo = x5 = 120 Eur, aceasta fiind valoarea cea mai des intalnita a unei prime anuale
pentru contractele incheiate de respectivul agent.
o Dispersia in esantion (de selectie) pentru o serie de distributie de frecvente pe r intervale de variatie
este
r
(xk x )2 nk
2
2
(
)
(
)
x
n
+
...
+
x
n
1
r
r
s x2 = 1
= k =1
(n1 + ... + nr ) 1
n 1
= n volumul esantionului.
k =1
In cazul nostru, s x2 =
(x
x ) nk
2
k =1
50 1
37378
= 762,8163 , iar abaterea standard sau abaterea medie
50 1
patratica este s x = s = 27,6191 Eur, care arata cu cat se abat, in medie, valorile observate fata de
nivelul mediu in esantion al primelor anuale.
2
x
sx
27,6191
100 =
100 = 26,01% < 30% , ceea ce arata ca
x
106,2
distributia este omogena si media este reprezentativa pentru colectivitate.
18
iar
Y = 1 pentru unitatile statistice din esantion care verifica evenimentul favorabil, iar m este
numarul de unitati statistice din esantion care verifica evenimentul favorabil,
m = n1 + n2 + n3 + n4 = 20 contracte,
Y = 0 pentru unitatile statistice din esantion care nu verifica evenimentul favorabil, n m este
numarul de unitati statistice din esantion pentru care nu se verifica evenimentul favorabil,
n m = 30 de contracte cu prime anuale mai mari de 90 Eur.
m 20
=
= 0,4 , adica 40% dintre contracte au valori ale
n 50
primelor anuale mai mici sau egale cu 90 Eur.
m m
Dispersia variabilei alternative este s 2y = 1 = 0,24 , iar abaterea standard
n n
Media variabilei alternative este y =
sy =
m m
1 0,48
n
n
Ex. 6. Distributia a 1100 de absolventi ai Universitatii din Florida dupa salariul castigat, in $, in primul an
dupa terminarea studiilor este urmatoarea serie de distributie de frecvente pe intervale de variatie:
Nr. crt. Intervalul de variatie al salariului, $ Numarul de absolventi
1
2
3
4
5
6
7
8
9
10
11
[7200; 12500]
(12500; 17800]
(17800; 23100]
(23100; 28400]
(28400; 33700]
(33700; 39000]
(39000; 44300]
(44300; 49600]
(49600; 54900]
(54900; 60200]
(60200; 65500]
30
69
302
308
263
95
20
6
5
1
1
Se cere:
a) sa se reprezinte grafic aceasta serie de distributie;
b) sa se determine si sa se interpreteze indicatorii tendintei centrale;
c) sa se reprezinte grafic poligonul frecventelor absolute cumulate crescator si sa se estimeze
proportia absolventilor care:
i)
au obtinut un salariu mai mic de 21000 $ in primul an de dupa finalizarea studiilor,
ii)
au obtinut un salariu mai mic decat media in primul an de dupa finalizarea studiilor,
iii)
au castigat in primul an intre 25000 $ si 40000 $,
iv)
au castigat mai mult de 52000 $;
d) sa se stabileasca daca media este reprezentativa pentru colectivitate;
e) sa se analizeze asimetria acestei distributii.
Rezolvare: a)
Populatia statistica este multimea absolventilor Universitatii din Florida, promotiile anilor 1989 si
1990, asa cum se specifica in fisierul University of Florida graduate salaries.sav al programului
SPSS.
Unitatea statistica este un absolvent.
19
Variabila sau caracteristica de interes, notata X, este variabila ce arata salariul unui absolvent, in $, din
primul an de dupa finalizarea studiilor, variabila numerica, continua.
Pentru un esantion de volum n = 1100 de absolventi s-au inregistrat valorile variabilei, iar setul de
date s-a sistematizat intr-o serie de distributie de frecvente pe r = 11 intervale de variatie de marime
egala, data in enuntul problemei.
Reprezentarea grafica a acestei serii de distributie de frecvente pe intervale de variatie se poate realiza
prin histograma si poligonul frecventelor absolute.
Nr.
crt.
1
2
3
4
5
6
7
8
9
10
11
Frecventa absoluta
Intervalul k de variatie
(Salariul anual al unui
absolvent, in $)
nk
Limita inferioara
Limita superioara
x(k )inf
x(k )sup
a intervalului k
a intervalului k
7200
12500
17800
23100
28400
33700
39000
44300
49600
54900
60200
12500
17800
23100
28400
33700
39000
44300
49600
54900
60200
65500
a intervalului k
(numarul de absolventi)
[7200; 12500]
(12500; 17800]
(17800; 23100]
(23100; 28400]
(28400; 33700]
(33700; 39000]
(39000; 44300]
(44300; 49600]
(49600; 54900]
(54900; 60200]
(60200; 65500]
30
69
302
308
263
95
20
6
5
1
1
11
Centrul
xk
al intervalului k
9850
15150
20450
25750
31050
36350
41650
46950
52250
57550
62850
= n = 1100
k =1
Histograma
350
308
302
300
263
250
200
150
95
100
69
50
30
20
6
]
00
]
0;
(6
02
0
0;
49
0
(5
65
5
00
]
60
2
00
]
0;
96
0
(4
43
0
(4
54
9
49
6
00
0;
44
3
0;
90
0
(3
00
]
00
]
39
0
37
0
(3
(2
84
0
0;
0;
33
7
00
00
]
(2
31
0
0;
28
4
23
1
00
00
0;
(1
78
0
0;
25
0
(1
[7
20
0;
12
17
8
50
0
Fig. ..... Histograma Distributia celor 1100 de absolventi ai Universitatii din Florida dupa salariul
castigat in primul an de dupa finalizarea studiilor.
20
350
308
302
300
263
250
200
150
100
95
69
50
20
30
0
0
10000
20000
30000
40000
50000
60000
70000
Fig. ..... Poligonul frecventelor absolute Distributia celor 1100 de absolventi ai Universitatii din
Florida dupa salariul castigat in primul an de dupa finalizarea studiilor.
Intervalul k
(Salariul anual al
unui
absolvent, in $)
1
2
3
4
5
6
7
8
9
10
11
[7200; 12500]
(12500; 17800]
(17800; 23100]
(23100; 28400]
(28400; 33700]
(33700; 39000]
(39000; 44300]
(44300; 49600]
(49600; 54900]
(54900; 60200]
(60200; 65500]
Centrul
xk
Frecventa absoluta
nk
xk nk
(numarul de absolventi)
9850
15150
20450
25750
31050
36350
41650
46950
52250
57550
62850
Fck = n1 + ... + nk
30
69
302
308
263
95
20
6
5
1
1
11
= n = 1100
k =1
Frecventa absoluta
cumulata crescator
a intervalului k,
295500
1045350
6175900
7931000
8166150
3453250
833000
281700
261250
57550
62850
11
30
99
401
709
972
1067
1087
1093
1098
1099
1100
nk = 28563500
k =1
x = 25966,82
o Media pentru o serie de distributie de frecvente pe r intervale de variatie este
r
x=
x1 n1 + ... + xr nr
=
n1 + ... + nr
k =1
nk
,
= n volumul esantionului.
k =1
21
11
x=
nk
k =1
1100
28563500
= 25966,82 $ a castigat, in medie, un absolvent in primul an.
1100
o Modul sau valoarea modala pentru o serie de distributie de frecvente pe r intervale de variatie se
calculeaza astfel:
Se determina intervalul cu frecventa absoluta cea mai mare:
308 = n4 = max nk , k = 1, r ,
deci al 4-lea interval de variatie (23100; 28400] $ este intervalul modal.
1
Mo = xinf Mo + hMo
=
1 + 2
308 302
= 23100 + 5300
= 23723,52 $, aceasta este valoarea cea mai
(308 302) + (308 263)
des intalnita a castigului salarial al unui absolvent intr-un an.
Fc (x ) = numarul de unitati statistice din esantion pentru care valoarea observata a caracteristicii
de interes X este mai mica sau egala cu x
sau
frecventa cumulata a lui x.
22
Pentru reprezentarea grafica a poligonului freventelor absolute cumulate crescator vom pune in
evidenta limitele superioare x(k )sup ale intervalelor de variatie si frecventele lor absolute cumulate,
impreuna cu limita inferioara a primului interval de variatie x(1) inf , in cazul nostru 7200 $, a carui
frecventa absoluta cumulata este 0, Fc x(1) inf = Fc (7200 ) = 0 , deoarece pentru nicio unitate statistica din
esantion, nivelul variabilei nu este mai mic decat x(1) inf .
Limitele superioare ale
intervalelor de variatie,
x(k )sup
x(1)sup =12500
x(11)sup =65500
1087
1093
1098
1100
1099
1000
972
800
709
600
400
401
200
30
99
0
0
10000
20000
30000
40000
50000
60000
70000
23
i) Fc (21000 ) este numarul de absolventi care au obtinut un salariu mai mic de 21000 $ in primul an
de dupa finalizarea studiilor.
Valoarea 21000 $ se gaseste in intervalul de variatie (17800; 23100] $, iar Fc (21000 ) se determina
prin interpolare liniara, utilizand urmatoarea egalitate de rapoarte, asa cum se poate observa in figura
de mai jos:
21000 17800 Fc (21000 ) Fc (17800 )
=
23100 17800 Fc (23100 ) Fc (17800 )
3200 Fc (21000 ) 99
=
5300
401 99
281
Fc (21000 ) = 281,33 281 absolventi, adica o proportie de
100 = 25,54% dintre cei 1100
1100
de absolventi din esantionul considerat au avut un salariu anual mai mic de 21000 $.
Fig. .... Interpolare liniara - detaliu din figura reprezentand poligonul frecventelor absolute cumulate
crescator, pentru intervalul (17800; 23100] $ in care se gaseste 21000 $.
ii) Fc (25966,82 ) este numarul de absolventi care au obtinut un salariu mai mic decat nivelul mediu
x = 25966,82 $ al salariului in esantion.
Din relatia
25966,82 23100 Fc (25966,82 ) Fc (23100 )
,
=
28400 23100
Fc (28400 ) Fc (23100 )
24
iii) Fc (40000 ) Fc (25000 ) = 559,35 559 este numarul de absolventi care au castigat in primul an
intre 25000 $ si 40000 $, adica 50,81% dintre cei 1100 de absolventi.
iv) n Fc (52000 ) = 1100 Fc (52000 ) = 4,73 5 absolventi au castigat mai mult de 52000 $, adica o
proportie de 0,45%.
d) Media variabilei de interes in esantion este x = 25966,82 $.
Nr.
crt.
Intervalul k
(Salariul anual al
unui
absolvent, in $)
1
2
3
4
5
6
7
8
9
10
11
[7200; 12500]
(12500; 17800]
(17800; 23100]
(23100; 28400]
(28400; 33700]
(33700; 39000]
(39000; 44300]
(44300; 49600]
(49600; 54900]
(54900; 60200]
(60200; 65500]
Centrul
xk
Frecventa absoluta
(xk x )2 nk
nk
(numarul de absolventi)
9850
15150
20450
25750
31050
36350
41650
46950
52250
57550
62850
(x1 x )2 n1 = 7792556607
30
69
302
308
263
95
20
6
5
1
1
11
= n = 1100
k =1
8073248049
9191461480
14479361,02
6795583074
10241990557
4919242698
2641763057
3454027755
997497258,9
1360368967
11
(x
x ) nk = 55482218864
2
k =1
s x2 = 50484275,58
s x = 7105,2287
Dispersia in esantion (de selectie) pentru o serie de distributie de frecvente pe r intervale de
variatie este
r
(x x )
s2 = 1
n1 + ... + ( xr x ) nr
=
(n1 + ... + nr ) 1
(x
x ) nk
2
k =1
n 1
= n volumul esantionului.
k =1
11
(x
x ) nk
2
5548221886 4
= 50484275,58 , iar abaterea standard este s x = 7105,2287 $, care
1100 1
1100 1
arata cu cat se abat, in medie, valorile observate fata de nivelul mediu al salariului din esantion.
s
7105,2287
Coeficientul de variatie in esantion este v x = x 100 =
100 = 27,36% < 30% , ceea ce
x
25966,82
arata ca media este reprezentativa pentru colectivitate.
s x2 =
k =1
25
e) Asimetria unei serii de distribuie de frecvene se observ din reprezentarea grafic prin
histogram sau poligonul frecvenelor, si prin modalitatea n care sunt situai, unul fa de cellalt,
indicatorii tendinei centrale.
Histograma
308
350
300
263
350
250
200
150
95
100
69
50
30
20
6
263
250
200
150
100
95
69
50
20
12
50
0]
17
(1
80
78
0]
00
;2
31
(2
0
31
0]
00
;2
84
(2
0
84
0]
00
;3
37
(3
00
37
]
00
;3
90
(3
00
90
]
00
;4
43
(4
00
43
]
00
;4
96
(4
00
96
]
00
;5
49
(5
0
49
0]
00
;6
02
(6
0
02
0]
00
;6
55
00
]
30
25
00
;
0
0
(1
[7
20
0;
308
302
300
10000
20000
30000
40000
50000
60000
70000
CAS x =
(x
k =1
n (s x )
x ) nk
3
= n volumul esantionului.
k =1
Nr.
crt.
Intervalul k
(Salariul anual al unui
absolvent, in $)
Centrul
1
2
3
4
5
6
7
8
9
10
11
[7200; 12500]
(12500; 17800]
(17800; 23100]
(23100; 28400]
(28400; 33700]
(33700; 39000]
(39000; 44300]
(44300; 49600]
(49600; 54900]
(54900; 60200]
(60200; 65500]
9850
15150
20450
25750
31050
36350
41650
46950
52250
57550
62850
xk
Frecventa absoluta
(xk x )3 nk
nk
(numarul de absolventi)
30
69
302
308
263
95
20
6
5
1
1
11
nk = n = 1100
k =1
-1,25591E+14
-8,73269E+13
-5,07076E+13
-3139415056
3,45432E+13
1,06344E+14
7,71494E+13
5,54326E+13
9,07828E+13
3,15041E+13
5,01747E+13
11
(x
x ) nk = 1,82302E+14
3
k =1
CAS = 0,462
Cum 0 < CAS < 1 , avem asimetrie pozitiv, coada distribuiei este mai alungit la dreapta, n serie
predominnd valorile mici (modul < mediana < media).
26
Ex. 7. La o banca se analizeaza distributia a 500 de debitori restantieri dupa situatia datelor de intarziere a
rambursarii creditelor. Datele au fost sistematizate astfel:
Intervale de variatie
a numarului de zile de intarziere a platii
mai putin 25 de zile
25-35 de zile
35-45 de zile
45-55 de zile
55-65 de zile
peste 65 de zile
Ponderea cumulata
a debitorilor (%)
25
75
85
93
98
100
Se cere:
a) sa se scrie distributia de frecvente pe intervale de variatie;
b) sa se reprezinte grafic distributia de frecvente absolute;
c) sa se calculeze si sa se analizeze indicatorii tendintei centrale si sa se stabileasca daca durata
medie de intarziere a platilor este reprezentativa;
d) sa se calculeze media si abaterea standard pentru variabila alternativa care evidentiaza debitorii ce
au intarziat mai mult de 45 de zile cu efectuarea platilor.
Rezolvare: a)
o Populatia statistica mutimea debitorilor cu intarziere in efectuarea platilor pentru rambursarea unor
credite.
o Unitatea statistica un debitor.
o Variabila sau caracteristica de interes, X, este variabila ce arata numarul de zile de intarziere a
efectuarii platii catre banca de catre un deitor; variabila numerica, discreta.
o S-a realizat o selectie de volum n = 500 de debitori restantieri pentru care s-a inregistrat numarul de
zile de intarziere, datele obtinute fiind sistematizate intr-o serie de distributie de frecvente pe r = 6
intervale de variatie de marime egala.
Notam cu:
nk , k = 1, r , frecventa absoluta a intervalului k de variatie (numarul de debitori restantiei pentru care
numarul de zile de intarziere apartine intervalului k de variatie), n1 + ... + nr = n ;
n
nk* = k [0;1], k = 1, r , frecventa relativa a intervalului k de variatie, n1* + ... + nr* = 1 ;
n
n
nk* % = 100 k , k = 1, r , frecventa relativa exprimata procentual a intervalului k de variatie sau
n
ponderea debitorilor cu numarul de zile de intarziere din intervalul sau clasa k,
n1* % + ... + nr* % = 100% ;
Fck = n1 + ... + nk , k = 1, r , este frecventa absoluta cumulata crescator a intervalului k;
Fck* = n1* + ... + nk* , k = 1, r , este frecventa relativa cumulata crescator a intervalului k;
Fck* % = n1* % + ... + nk* %, k = 1, r , este frecventa relativa exprimata procentual cumulata crescator a
intervalului k (ponderea cumulata a intervalului k).
27
Intervalul k de
variatie a
numarului de zile
de intarziere a
platii
15-25 de zile
Nr.
crt.
Ponderea cumulata
a debitorilor (%)
*
Fck % = n1* % + ... + nk* %
Frecventa
absoluta,
nk = n nk* =
Frecventa
relativa,
n* %
nk* = k
100
Ponderea
intervalului k,
nk* %
= 500 nk*
n1* % = 25%
n1* = 0,25
n1 = 125
25-35 de zile
n2* % = 50%
n2* = 0,50
n2 = 250
35-45 de zile
F % = n % + ... + n % = 85%
n % = 10%
n = 0,10
n3 = 50
45-55 de zile
n4* % = 8%
n4* = 0,08
n4 = 40
55-65 de zile
F % = n % + ... + n % = 98%
n % = 5%
n = 0,05
n5 = 25
65-75 de zile
n6* % = 2%
n6* = 0,02
n6 = 10
*
c3
*
1
*
c5
*
3
*
1
*
3
*
5
*
3
*
5
*
k
*
5
% = 100%
k =1
*
k
=1
k =1
= 500 = n
k =1
Distributia celor 500 de debitori dupa numarul de zile de intarziere a platii este urmatoarea serie
de distributie de frecvente pe intervale:
Nr.
crt.
Intervalul k de variatie
a numarului de zile
de intarziere a platii
1
2
15-25 de zile
25-35 de zile
35-45 de zile
45-55 de zile
55-65 de zile
65-75 de zile
Numarul de debitori
(frecventa absoluta),
nk
Centrul xk al
intervalului k
de variatie
x1 = 20
x2 = 30
x3 = 40
n1 = 125 debitori
n2 = 250
n3 = 50
n4 = 40
n5 = 25
x4 = 50
x5 = 60
n6 = 10
x6 = 70
= 500 = n debitori
k =1
b)
Poligonul frecventelor absolute
Histograma
300
300
250
250
N u m aru l d e d eb ito ri
Numarul de debitori
250
200
150
125
100
50
50
40
200
150
100
50
25
10
0
15-25
de zile
25-35
de zile
35-45
de zile
45-55
de zile
55-65
de zile
65-75
de zile
10
20
30
40
50
60
70
80
28
c)
Numarul de
debitori, nk
Centrul
15-25 de zile
n1 = 125
x1 = 20
x1 n1 = 2500
Fc1 = 125
(x1 x )2 n1 = 19220
25-35 de zile
n2 = 250
x2 = 30
7500
Fc 2 = 375
1440
35-45 de zile
n3 = 50
x3 = 40
2000
Fc 3 = 425
2888
45-55 de zile
465
12390,4
55-65 de zile
x4 = 50
x5 = 60
2000
n4 = 40
n5 = 25
1500
490
65-75 de zile
n6 = 10
x6 = 70
Nr.
crt.
Intervalul k
1
2
x k nk
xk
x6 n6 = 700
6
= 500 = n
k =1
(xk x )2 nk
Fck
nk = 16200
k =1
19044
( x6 x )
Fc 6 = 500
6
(x
n6 = 14137,6
x ) nk = =69120
2
k =1
x = 32,4
s x2 = 138,5170
s x = s x2 = 11,7693
v x = 36,33%
6
n
x1 n1 + ... + xr n6 k =1 k k 16200
=
=
, deci x = 32,4 zile este numarul mediu de zile
n1 + ... + n6
n
500
de intarziere a platilor pentru un debitor restantier.
o Media este x =
n +1
n +1
= 250,5 ; primul interval cu proprietatea ca Fck
este intervalul 25-35
2
2
de zile, deoarece Fc1 = 125 < 250,5 , dar Fc 2 = 375 250,5 , deci:
n +1
Fc Me1
=
Me = xinf Me + hMe 2
nMe
250,5 125
= 25 + 10
= 30,02 zile, adica jumatate dintre debitorii restantieri au intarziat
250
cel putin 30 de zile cu efectuarea platilor.
o Intervalul modal este intervalul 25-35 de zile deoarece are frecventa absoluta cea mai mare
250 = n2 = max nk , k = 1,6 , atunci
1
=
1 + 2
250 125
= 25 + 10
= 28,84 zile; numarul cel mai intalnit de zile de intarziere
(250 125) + (250 50 )
a platilor celor 500 de debitori restantieri este de aproximativ 29 de zile.
Mo = xinf Mo + hMo
o Relatia in care se gasesc cei trei indicatori ai tendintei centrale este Mo < Me < x , ceea ce indica o
asimetrie pozitiva.
29
(x x )
s2 = 1
n1 + ... + (x6 x ) n6
=
(n1 + ... + n6 ) 1
(x
x ) nk
2
k =1
500 1
69120
, deci
500 1
s = 138,5170 , iar abaterea standard s x = s = 11,7693 zile, care arata cu cate zile se abat, in
medie, valorile observate ale seriei de date fata de numarul mediu de zile de intarziere.
s
11,7693
o Coeficientul de variatie in esantion este v x = x 100 =
100 = 36,33% > 35% , ceea ce arata ca
32,4
x
distributia nu este omogena si media, ca indicatot al tendintei centrale, nu este reprezentativa pentru
colectivitate.
2
x
2
x
iar
Y = 1 pentru unitatile statistice din esantion care verifica evenimentul favorabil, iar m este
numarul de unitati statistice din esantion pentru care se verifica evenimentul favorabil,
m = n4 + n5 + n6 = 75 debitori,
Y = 0 pentru unitatile statistice din esantion care nu verifica evenimentul favorabil, n m este
numarul de unitati statistice din esantion pentru care nu se verifica evenimentul favorabil,
n m = 425 debitori.
Media variabilei alternative este y =
m 75
=
= 0,15 , adica 15% dintre debitori au intarziat mai
n 500
mult de 45 de zile.
Dispersia variabilei alternative este s 2y =
sy =
m m
1 = 0,1275 , iar abaterea standard
n n
m m
1 0,36 .
n
n
30