Documente Academic
Documente Profesional
Documente Cultură
Statistica I
Exercitii pregatitoare pentru testul de la seminar si pentru examen partea I
Ex. 1. Urmtoarea serie de date arat preul de vnzare (sute lei) pentru 13 lucrri de grafic
la o licitaie de obiecte de art: 51, 60, 72, 35, 32, 57, 63, 61, 48, 33, 67, 54, 37.
Stabilii valoarea de adevr a urmtoarelor afirmaii, justificnd rspunsurile:
a) 25 % dintre lucrarile licitate s-au vandut pentru un pret mai mic de 48 sute de lei;
b) jumatate dintre lucrarile licitate au un pret mai mic sau egal cu 54 sute lei;
c) 25 % dintre lucrari s-au vandut cu cel putin 62 sute de lei;
d) pentru 75% dintre obiecte s-a obtinut un pret de cel putin 36 sute lei;
e) precizati care dintre urmatoarele valori: 25, 29, 16, 40, 124, 85, 99,8 sute lei sunt
outliers in raport cu datele initiale.
Rezolvare:
Cele n=13 valori ale seriei de date se ordoneaz cresctor:
x(1)=32, x(2)=33, x(3)=35, x(4)=37, x(5)=48, x(6)=51, x(7)=54, x(8)=57, x(9)=60, x(10)=61, x(11)=63,
x(12)=67, x(13)=72.
36
x 3 Q1 x 4
2
2
si
sute lei.
x x x x x x x x x x x x x13
1 2 3 4 5 6 7 8 9 10 11 12
25%
Q1
75%
36
Cu interpretarea:
25 % dintre termenii seriei au valori mai mici decat 36 sute lei (Q1 este percentila de ordinul 25),
iar 75% dintre termenii seriei au valori mai mari ca 36 sute lei;
sau
25% dintre lucrarile de grafica licitate s-au vandut pentru un pret mai mic decat 36 sute lei, iar
restul de 75% dintre ele s-au vandut cu un pret mai mare de 36 sute lei.
Q2=Me cuartila de ordinul 2 sau mediana seriei de date statistice.
n 1 13 1
7 Me x 54
7
2
2
Locul lui Q2=Me este
N
sute lei
Me
50%
54
Cu interpretarea:
jumatate dintre termenii seriei au valori mai mici ca 54 sute lei (Me este percentila de ordinul 50),
iar restul au valori mai mari ca 54 sute lei;
sau
jumatate dintre lucrarile de grafica licitate s-au vandut cu mai putin de 54 sute lei, iar restul s-au
vandut cu un pret mai mare de 54 sute lei.
Q3 cuartila de ordinul 3 sau cuartila superioara
n 1
13 1
3
3 10,50
4
4
Locul lui Q3 este
N, dar 10 < 10,50 < 11
x 10 x 11 61 63
Q3
62
x10 Q3 x 11
2
2
si
sute lei.
x x x x x x x x x x x x x
1 2 3 4 5 6 7 8 9 10 11 12 13
Q3
25%
75%
62
Cu interpretarea:
75 % dintre termenii seriei au valori mai mici decat 62 sute lei (Q3 este percentila de ordinul 75),
iar 25% dintre termenii seriei au valori mai mari ca 62 sute lei;
sau
75% dintre lucrarile de grafica licitate s-au vandut pentru un pret mai mic decat 62 sute lei,
iar restul de 25% dintre ele s-au vandut cu un pret mai mare de 62 sute lei.
x x x x x x x x x x x x x
1 2 3 4 5 6 7 8 9 10 11 12 13
25%
Q1
36
50%
Q3
25%
62
Jumatate din termenii din mijlocul seriei au valori cuprinse intre Q1=36 sute lei si
Q3=62 sute lei.
Abaterea intercuatilica este IQR=Q3-Q1=26 sute lei.
Definitie: Spunem ca o valoare x este outlier pentru un set de date statistice numerice daca:
x Q1 1,5 IQR
x Q3 1,5 IQR
sau
sau
valoarea x este outlier pentru un set de date statistice daca daca se gaseste in afara
intervalului
Q1 1,5 IQR ; Q3 1,5 IQR
.
, deci
Ex. 4. Pentru 39 de actrite care au obtinut premiul Oscar se cunoaste varsta, in ani impliniti,
la momentul castigarii premiului:
50, 44, 35, 80, 26, 28, 41, 21, 61, 38, 49, 33, 74, 30, 33, 41, 31, 35, 41, 42,
37, 26, 34, 34, 35, 26, 61, 60, 34, 24, 30, 37, 31, 27, 39, 34, 26, 25, 33 ani.
Se cere:
a) sa se determine si sa se interpreteze indicatorii tendintei centrale si cuartilele acestei
serii de date;
b) sa se construiasca diagrama box-plot (sau diagrama cu mustati box-and-whisker),
punand in evidenta daca seria are valori extreme;
c) sa se calculeze indicatorii variatiei si sa se stabileasca daca seria este omogena;
d) analizati asimetria;
e) Descriptive Statistics.
Rezolvare: a)
o Populatia statistica este multimea actritelor care au castigat premiul Oscar.
o Unitatea statistica este o actrita.
o Variabila sau caracteristica de interes, notata X, este variabila ce arata varsta unei actrite la
momentul obtinerii premiului; variabila numerica, discreta.
n 39
o Pentru un esantion de volum
de actrite se cunosc valorile variabilei X, adica
{x1=50, x2=44, x3=35, x4=80, ..., xn=x39=33 ani}, care reprezinta o serie simpla sau
nesistematizata de date statistice numerice.
x x ... xn
x 1 2
x1 , x2 , ..., xn
x
i 1
n
o Media unei serii simple de date numerice
este
.
In cazul acestei serii, varsta medie a unei actrite din esantion care a castigat premiul Oscar
39
xi
x1 x2 ... x39
1486
i 1
x
38,1025
39
39
39
este
ani.
o Pentru a determina mediana, vom proceda astfel:
x 1 x 2 ... x n
x i
xi
Varsta actritelor
x1=50
x2=44
x3=35
x4=80
x5=26
x(1)=21
x(2)=24
x(3)=25
x(4)=26
x(5)=26
28
41
26
26
8
9
10
21
61
38
27
28
11
12
13
14
15
16
17
18
19
20
49
33
74
30
33
41
31
35
41
42
x(20)=34=Me
21
22
23
24
37
26
34
34
35
35
35
37
1
2
3
4
5
6
7
x(10)=30=Q1
30
31
31
33
33
33
34
34
34
25
26
27
28
29
30
31
32
33
34
35
26
61
60
34
24
30
37
31
27
35
39
36
34
37
26
38
25
39
x39=33
37
38
39
41
41
x(30)=41=Q3
42
44
49
x(34)=50
x(35)=60
x(36)=61
x(37)=61
x(38)=74
x(39)=80
n 1
1 10 N Q1 x 10 30
4
limita sau marginea superioara a diagramei box-plot este cea mai mare
dintre valorile seriei de date cu proprietatea ca este mai mica sau egala cu
lim sup box plot max x i , i 1, n x i Q3 1,5 IQR
Q3 1,5 IQR
, adica
:
Q3 1,5 IQR 57,5
o
o cea mai mare dintre valorile seriei de date, cu proprietatea ca este
57,5
, este x(34)=50 ani, deci marginea superioara este egala cu 50
lim sup box plot 50 x 34
ani,
.
21
30
(Q1)
34
(Me)
41
(Q3)
50
*
* *
60 61
74
80
xi x
2
2
x1 x ... xn x
2
i 1
s
39
s x2
adica
x
i 1
39 1
n 1
n 1
6791,5897
178,7260
39 1
s x s x2 13,3688
abaterea standard (standard deviation) este
ani.
sx
v x 100 35,09% 35%
x
Nr. crt.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
xi
xi x
xi x 2
Varsta actritelor
x1=50
x2=44
x3=35
x4=80
x5=26
11,8974
141,5489
5,8974
34,7797
-3,1026
9,6259
41,8974
1755,3951
28
41
21
61
38
49
33
74
30
33
41
31
35
41
42
37
26
34
34
35
26
61
60
34
24
30
37
31
27
39
34
26
25
-12,1026
-10,1026
2,8974
-17,1026
22,8974
-0,1026
10,8974
-5,1025
35,8974
-8,1025
-5,1025
2,8974
-7,1025
-3,1025
2,8974
3,8974
-1,1025
-12,1025
-4,1025
-4,1025
-3,1025
-12,1025
22,8974
21,8974
-4,10256
-14,1025
-8,1025
-1,1025
-7,1025
-11,1025
0,8974
-4,1025
-12,1025
-13,1025
146,4720
102,0618
8,3951
292,4977
524,2925
0,0105
118,7541
26,0361
1288,6259
65,6515
26,0361
8,3951
50,4464
9,6259
8,3951
15,1900
1,2156
146,4720
16,8310
16,8310
9,6259
146,4720
524,2925
479,4977
16,8310
198,8823
65,6515
1,2156
50,4464
123,2669
0,8053
16,8310
146,4720
171,6771
x39=33
-5,1025
26,0361
39
39
39
xi x
xi
i 1
i 1
1486
i 1
x
2
6791,5897
s
2
x
38,1025
178,7260
sx s
2
x
13,3688
vx
35,09%
d)
CAS
x
i 1
n sx
1
2
3
4
5
6
Intervalul k de variatie
(clasa de varsta)
20-30 ani
30-40 ani
40-50 ani
50-60 ani
60-70 ani
70-80 ani
Frecventa absoluta
a intervalului k de variatie
(numarul de actrite
din fiecare clasa de varsta)
11
16
7
1
2
2
Centrul
al intervalului k de
variatie
25
35
45
55
65
75
n
k 1
39=n
Statistics
Varsta actritelor Oscar
N
Valid
39
Missing
Mean
Std. Error of Mean
2.141
Median
Me=34.00
Mode
Mo=26a
e) Indicatorii tendintei
indicatori ai variatiei
distributiei pentru o
numerice
pot
fi
SPSS,
output-urile
Std. Deviation
s x s x2
Variance
13.369
Standard Error
Median
Mode
Std.xError
of Skewness
38.1025
Kurtosis
2.1407
Std. Error
of Kurtosis
Me=34
s x2
2
x
Minimum
Maximum
Count
.741
xmin
21
xmax
178.7260
Maximum
2.3830
80
CAS
39
Sum
1.5734
Ax xmax xmin
i 1
59
xmin
Percentiles
25
1486
Q1
30.00
21
xmax
50
80
39
Sum
2.383
59
13.3688
Minimum
Kurtosis
.378
Ax xmax xmin
Mo=26
Range
Sample Variance
(dispersia de selectie)
x
i 1
centrale,
principalii
si
ai
formei
serie simpla de date
calculati in Excel si in
fiind de forma:
Output-ul Descriptive
Statistics in Excel
Output-ul Descriptive
Statistics in SPSS
1.573
sx s
Range
(Amplitudinea)
CAS
Skewness
Standard Deviation
(abaterea standard)
Skewness
(coeficientul de asimetrie)
2
x
178.726
Varsta actritelor
Mean (media)
38.10
Q2 Me
34.00
75
Q3
41.00
1486
a. Multiplen=39
modes exist. The smallest value is shown
Observatie: Analiza
boltirii/aplatizrii
Boltirea(kurtosis, n
engl.)
exprim
nlimea
curbei
(cocoaei)
comparativ
cu
distribuia
normal
teoretic.
ntlnim,
astfel
distribuii
leptocurtice, ascuite
(cu cocoaa nalt)
CBA
x
i 1
n s x2
s x2
, unde
x
i 1
n 1
xk
Nr.
crt.
nk
Valoarea
Eur
a unei prime anuale
Numarul de contracte,
(frecventa absoluta)
x1
1
n1
50 Eur
2 contracte
x2
2
n2
60 Eur
x3
3
n3
70 Eur
x4
4
n4
90 Eur
x5
5
n5
120 Eur
16
x6
6
n6
130 Eur
x7
7
n7
140 Eur
6
7
n
k 1
50 n
contracte
x1 50 Eur
X :
n1 2 contracte
sau
7
n
unde
k 1
n3 6
n4 9
n5 16
n6 8
n7 6
50 n
contracte.
Valoarea
Eur
a unei prime anuale
nk
Numarul de contracte,
(frecventa absoluta)
x1
1
n1
50 Eur
0,12
n4
90 Eur
n
*
4
x5
0,18
n5
120 Eur
n5*
16
x6
0,32
n6
130 Eur
n
*
6
x7
7
n
*
3
x4
0,06
n3
70 Eur
0,04
n2*
3
x3
Frecventa relativa
n1*
n2
60 Eur
2 contracte
x2
2
nk*
n7
140 Eur
n7*
0,16
0,12
6
7
nk 50 n
k 1
k 1
contracte
*
k
nk
0,1
n
b)
o Media pentru o serie de distributie de frecvente pe r variante distincte ale variabilei de
interes este
r
x n ... xr nr
x 1 1
n1 ... nr
x
k 1
nk
n
,
x , k 1, r
unde
esantionului.
x
k 1
nk
k 1
volumul
5310
106,2
50
50
In cazul nostru,
Eur este valoarea medie a unei prime anuala
corespunzatoare unui contract de asigurare de locuinta incheiat de respectivul agent de
vanzari.
o Mediana pentru o serie de distributie de frecvente pe r variante distincte se calculeaza
parcurgand urmatorii pasi:
x1 x2 ... xr
Cele r variante distincte sunt ordonate crescator
.
n 1
25,5
2
Se determina locul medianei, adica
.
Se calculeaza frecventele absolute cumulate crescator ale celor r variante
distincte
Fck n1 ... nk k 1, r
,
.
x5
si
Valoarea
distincta,
nk
xk
Eur
x1
1
n1
50
60
x3
3
1920
1040
n7
140
20
2361,96
36
3047,04
Fc 6 n1 ... n6
8
x7
7862,64
Fc 5 n1 ... n5
n6
130
11
810
16
x6
6403,3
2
Fc 4 n1 ... n4
n5
120
44
x7 x
Fc 7 n1 ... n7 n
6
840
n
k 1
50 n
x
k 1
n7
6854,6
4
nk
4531,52
2
50
7
n2
420
x5
x2 x
6316,88
2
Fc 3 n1 n2 n3
n4
90
180
x4
Fc 2 n1 n2
x 2 n2
n3
70
100
x2 x 2 n1
Fc1 n1
x1 n1
n2
x k x 2 nk
Fck n1 ... nk
x2
2
x k nk
,
(frecventa
absoluta)
k 1
x nk
2
373
78
5310
s x2
x
106,2
762,8163265
s x s x2
27,6191297
2
vx
26,01%
x Me Mo
Relatia in care se gasesc indicatorii tendintei centrale,
, ca si reprezentatrea
grafica pentru poligonul frecventelor absolute sau relative, arata ca distributia contractelor
dupa valoarea primelor anuale prezinta asimetrie negativa, in serie predominand valorile
mai mari ale primelor anuale, iar coada distributiei este alungita spre stanga.
s x2
x1 x
n1 ... xr x nr
n1 ... nr 1
x
k 1
x nk
2
n 1
x , k 1, r
unde
esantionului.
s x2
In cazul nostru,
x
k 1
x nk
k 1
volumul
50 1
37378
762,8163
50 1
s x s 27,6191
2
x
vx
sx
27,6191
100
100 26,01% 30%
x
106,2
Y :
n m m
,
unde
iar
Y 1
pentru unitatile statistice din esantion care verifica evenimentul favorabil, iar m
este numarul de unitati statistice din esantion care verifica evenimentul favorabil,
m n1 n2 n3 n4 20
contracte,
Y 0
pentru unitatile statistice din esantion care nu verifica evenimentul favorabil,
nm
este numarul de unitati statistice din esantion pentru care nu se verifica
n m 30
evenimentul favorabil,
de contracte cu prime anuale mai mari de 90 Eur.
m 20
0,4
n 50
m
m
1 0,48
n
n
Ex. 6. Distributia a 1100 de absolventi ai Universitatii din Florida dupa salariul castigat, in $,
in primul an dupa terminarea studiilor este urmatoarea serie de distributie de frecvente pe
intervale de variatie:
Nr. crt. Intervalul de variatie al salariului, $ Numarul de absolventi
1
2
3
4
5
6
7
8
9
10
11
[7200; 12500]
(12500; 17800]
(17800; 23100]
(23100; 28400]
(28400; 33700]
(33700; 39000]
(39000; 44300]
(44300; 49600]
(49600; 54900]
(54900; 60200]
(60200; 65500]
30
69
302
308
263
95
20
6
5
1
1
Se cere:
a) sa se reprezinte grafic aceasta serie de distributie;
b) sa se determine si sa se interpreteze indicatorii tendintei centrale;
c) sa se reprezinte grafic poligonul frecventelor absolute cumulate crescator si sa se
estimeze proportia absolventilor care:
i)
au obtinut un salariu mai mic de 21000 $ in primul an de dupa finalizarea
studiilor,
ii)
au obtinut un salariu mai mic decat media in primul an de dupa finalizarea
studiilor,
iii)
au castigat in primul an intre 25000 $ si 40000 $,
iv)
au castigat mai mult de 52000 $;
d) sa se stabileasca daca media este reprezentativa pentru colectivitate;
e) sa se analizeze asimetria acestei distributii.
Rezolvare: a)
Populatia statistica este multimea absolventilor Universitatii din Florida, promotiile anilor
1989 si 1990, asa cum se specifica in fisierul University of Florida graduate salaries.sav
al programului SPSS.
1
2
3
4
5
6
7
8
9
10
11
Intervalul k de variatie
(Salariul anual al unui
absolvent, in $)
Frecventa absoluta
nk
a intervalului k
(numarul de absolventi)
[7200; 12500]
(12500; 17800]
(17800; 23100]
(23100; 28400]
(28400; 33700]
(33700; 39000]
(39000; 44300]
(44300; 49600]
(49600; 54900]
(54900; 60200]
(60200; 65500]
30
69
302
308
263
95
20
6
5
1
1
11
n
k 1
n
1100
Limita inferioara
Limita superioara
x k inf
x k sup
a intervalului k
a intervalului k
7200
12500
17800
23100
28400
33700
39000
44300
49600
54900
60200
12500
17800
23100
28400
33700
39000
44300
49600
54900
60200
65500
xk
Centrul
al intervalului k
9850
15150
20450
25750
31050
36350
41650
46950
52250
57550
62850
Fig. ..... Histograma Distributia celor 1100 de absolventi ai Universitatii din Florida
dupa salariul castigat in primul an de dupa finalizarea studiilor.
Intervalul k
(Salariul anual al
unui
absolvent, in $)
Centrul
1
2
3
4
5
6
7
8
9
10
11
[7200; 12500]
(12500; 17800]
(17800; 23100]
(23100; 28400]
(28400; 33700]
(33700; 39000]
(39000; 44300]
(44300; 49600]
(49600; 54900]
(54900; 60200]
(60200; 65500]
9850
15150
20450
25750
31050
36350
41650
46950
52250
57550
62850
xk
nk
x k nk
Frecventa absoluta
(numarul de absolventi)
30
69
302
308
263
95
20
6
5
1
1
11
k 1
Fck n1 ... nk
295500
1045350
6175900
7931000
8166150
3453250
833000
281700
261250
57550
62850
11
nk n
Frecventa absoluta
cumulata crescator
a intervalului k,
k 1
30
99
401
709
972
1067
1087
1093
1098
1099
1100
nk
1100
28563500
25966,82
x n ... xr nr
x 1 1
n1 ... nr
x
k 1
nk
x , k 1, r
unde
11
nk
k 1
1100
28563500
25966,82
1100
k 1
volumul esantionului.
Fc1 30 550,5
Fc 2 99 550,5
Fc 3 401 550,5
Fc 4 709 550,5
si
intervalul median.
Me xinf Me
n 1
Fc Me1
2
hMe
nMe
23100 5300
550,5 401
25672,56
308
1 2
308 302
23100 5300
23723,52
308 302 308 263
$, aceasta este
valoarea cea mai des intalnita a castigului salarial al unui absolvent intr-un an.
Fc : R R
c) Introducem functia
definita astfel
Fc x
numarul de unitati statistice din esantion pentru care valoarea observata a
caracteristicii de interes X este mai mica sau egala cu x
sau
frecventa cumulata a lui x.
Fck n1 ... nk
Frecventa absoluta cumulata crescator a intervalului k de variatie,
k 1, r
,
reprezinta numarul de unitati statistice din esantion pentru care valoarea observata a
x k sup
variabilei de interes X este mai mica sau egala decat limita superioara
a intervalului k
Fck Fc x k sup k 1, r
de variatie, adica
,
.
Pentru reprezentarea grafica a poligonului freventelor absolute cumulate crescator
x k sup
vom pune in evidenta limitele superioare
ale intervalelor de variatie si frecventele lor
x 1 inf
absolute cumulate, impreuna cu limita inferioara a primului interval de variatie
, in cazul
Fc x 1 inf Fc 7200 0
nostru 7200 $, a carui frecventa absoluta cumulata este 0,
, deoarece
x1 inf
pentru nicio unitate statistica din esantion, nivelul variabilei nu este mai mic decat
.
Limitele superioare ale
intervalelor de variatie,
x k sup
x 1 inf
=7200
x 1 sup
=12500
x 2 sup
=17800
x 3 sup
=23100
x 4 sup
=28400
x 5 sup
, adica
numarul de absolventi din esantion
x k sup
=401
F x F 33700
=709
=33700
x 6 sup
=39000
x 7 sup
=44300
=49600
=54900
x 10 sup
=60200
x 11 sup
=65500
=972
F x F 44300
=1067
F x F 49600
=1087
Fc x 9 sup Fc 54900
=1093
x 9 sup
Fc x 6 sup Fc 39000
c
x 8 sup
5 sup
7 sup
8 sup
=1098
Fc x 10 sup Fc 60200
Fc x 11 sup Fc 65500
=1099
=1100
Fc 21000
i)
este numarul de absolventi care au obtinut un salariu mai mic de 21000 $
in primul an de dupa finalizarea studiilor.
Fc 21000
Valoarea 21000 $ se gaseste in intervalul de variatie (17800; 23100] $, iar
se
determina prin interpolare liniara, utilizand urmatoarea egalitate de rapoarte, asa cum se
poate observa in figura de mai jos:
21000 17800 Fc 21000 Fc 17800
3200 Fc 21000 99
5300
401 99
281
100 25,54%
1100
Fig. .... Interpolare liniara - detaliu din figura reprezentand poligonul frecventelor absolute
cumulate crescator, pentru intervalul (17800; 23100] $ in care se gaseste 21000 $.
Fc 25966,82
ii)
nivelul mediu
Din relatia
28400 23100
Fc 28400 Fc 23100
obtinem ca
absolventi,
568
100 51,63%
1100
adica o proportie de
dintre cei 1100 de absolventi din esantionul
considerat au avut un salariu anual mai mic de nivelul mediu.
Nr.
crt.
x
25966,82 $.
Centrul
xk
nk
x k x 2 nk
Frecventa absoluta
(numarul de absolventi)
x1 x 2 n1
1
2
3
4
5
6
7
8
9
10
11
[7200; 12500]
(12500; 17800]
(17800; 23100]
(23100; 28400]
(28400; 33700]
(33700; 39000]
(39000; 44300]
(44300; 49600]
(49600; 54900]
(54900; 60200]
(60200; 65500]
9850
15150
20450
25750
31050
36350
41650
46950
52250
57550
62850
30
69
302
308
263
95
20
6
5
1
1
11
n
k 1
7792556607
8073248049
9191461480
14479361,02
6795583074
10241990557
4919242698
2641763057
3454027755
997497258,9
1360368967
11
k 1
x nk
2
1100
55482218864
s
2
x
50484275,58
sx
7105,2287
x k x 2 nk
2
2
...
n
1
r
r
s x2 1
k 1
n1 ... nr 1
n 1
,
x , k 1, r
unde
11
s x2
x
k 1
x nk
k 1
volumul esantionului.
1100 1
s x 7105,2287
55482218864
50484275,58
1100 1
iar
abaterea
standard
este
$, care arata cu cat se abat, in medie, valorile observate fata de nivelul mediu
al salariului din esantion.
CAS x
x
k 1
x nk
3
n sx
x , k 1, r
unde
Nr.
crt.
Intervalul k
(Salariul anual al unui
absolvent, in $)
Centrul
1
2
3
4
5
[7200; 12500]
(12500; 17800]
(17800; 23100]
(23100; 28400]
(28400; 33700]
9850
15150
20450
25750
31050
xk
k 1
volumul esantionului.
nk
Frecventa absoluta
(numarul de absolventi)
30
69
302
308
263
x k x 3 nk
-1,25591E+14
-8,73269E+13
-5,07076E+13
-3139415056
3,45432E+13
6
7
8
9
10
11
(33700; 39000]
(39000; 44300]
(44300; 49600]
(49600; 54900]
(54900; 60200]
(60200; 65500]
36350
41650
46950
52250
57550
62850
95
20
6
5
1
1
1,06344E+14
7,71494E+13
5,54326E+13
9,07828E+13
3,15041E+13
5,01747E+13
11
11
nk n
k 1
k 1
x nk
3
1100
1,82302E+14
CAS
0,462
0 CAS 1
Cum
, avem asimetrie pozitiv, coada distribuiei este mai alungit la dreapta, n
serie predominnd valorile mici (modul < mediana < media).
Ex. 7. La o banca se analizeaza distributia a 500 de debitori restantieri dupa situatia datelor de
intarziere a rambursarii creditelor. Datele au fost sistematizate astfel:
Intervale de variatie
a numarului de zile de intarziere a platii
mai putin 25 de zile
25-35 de zile
35-45 de zile
45-55 de zile
55-65 de zile
peste 65 de zile
Ponderea cumulata
a debitorilor (%)
25
75
85
93
98
100
Se cere:
a) sa se scrie distributia de frecvente pe intervale de variatie;
b) sa se reprezinte grafic distributia de frecvente absolute;
c) sa se calculeze si sa se analizeze indicatorii tendintei centrale si sa se stabileasca daca
durata medie de intarziere a platilor este reprezentativa;
d) sa se calculeze media si abaterea standard pentru variabila alternativa care evidentiaza
debitorii ce au intarziat mai mult de 45 de zile cu efectuarea platilor.
Rezolvare: a)
o Populatia statistica mutimea debitorilor cu intarziere in efectuarea platilor pentru
rambursarea unor credite.
o Unitatea statistica un debitor.
o Variabila sau caracteristica de interes, X, este variabila ce arata numarul de zile de
intarziere a efectuarii platii catre banca de catre un deitor; variabila numerica, discreta.
n 500
o S-a realizat o selectie de volum
de debitori restantieri pentru care s-a inregistrat
numarul de zile de intarziere, datele obtinute fiind sistematizate intr-o serie de distributie
r6
de frecvente pe
intervale de variatie de marime egala.
Notam cu:
Nr.
crt.
nk , k 1, r
, frecventa absoluta a intervalului k de variatie (numarul de debitori restantiei
pentru care numarul de zile de intarziere apartine intervalului k de variatie),
n1 ... nr n
;
n
nk* k 0;1, k 1, r
n1* ... nr* 1
n
, frecventa relativa a intervalului k de variatie,
;
n
nk* % 100 k , k 1, r
n
, frecventa relativa exprimata procentual a intervalului k de
variatie sau ponderea debitorilor cu numarul de zile de intarziere din intervalul sau clasa
n1* % ... nr* % 100%
k,
;
Fck n1 ... nk , k 1, r
, este frecventa absoluta cumulata crescator a intervalului k;
Fck* n1* ... nk* , k 1, r
, este frecventa relativa cumulata crescator a intervalului k;
*
*
*
Fck % n1 % ... nk %, k 1, r
, este frecventa relativa exprimata procentual cumulata
crescator a intervalului k (ponderea cumulata a intervalului k).
Intervalul k de
variatie a
numarului de zile
de intarziere a
platii
Ponderea cumulata
a debitorilor (%)
*
Fck % n1* % ... nk* %
15-25 de zile
Fck* % n1* %
25-35 de zile
3
4
5
35-45 de zile
45-55 de zile
55-65 de zile
Ponderea
intervalului k,
nk* %
25%
n %
*
1
n2* %
75%
F % n % ... n %
*
c3
*
1
F % n % ... n %
*
1
0,50
8%
250
50
n4
0,08
40
n5
n
*
5
5%
125
n3
*
5
98%
n2
0,10
*
4
n %
*
5
500 nk*
0,25
10%
*
4
Frecventa
absoluta,
nk n nk*
n1
*
3
n %
*
4
93%
*
c5
50%
*
3
F % n % ... n %
*
1
n1*
n2*
n %
*
3
85%
*
c4
25%
Frecventa
relativa,
n* %
nk* k
100
0,05
25
65-75 de zile
100
%
k 1
*
k
100
k 1
*
k
%
Distributia celor 500 de debitori dupa numarul de zile de intarziere a platii este
urmatoarea serie de distributie de frecvente pe intervale:
Numarul de debitori
(frecventa absoluta),
nk
Nr.
crt.
Intervalul k de variatie
a numarului de zile
de intarziere a platii
15-25 de zile
n1
25-35 de zile
n2
35-45 de zile
n3
45-55 de zile
n4
55-65 de zile
n5
65-75 de zile
n6
125 debitori
250
50
40
25
10
n
k 1
500 n
b)
debitori
10
0,02
2%
n6
n6*
n6* %
xk
Centrul
al
intervalului k
de variatie
x1
20
x2
30
x3
40
x4
50
x5
60
x6
70
k 1
500 n
intarziere a platii
c)
Nr.
crt.
Numarul de
Intervalul k
x1
125
15-25 de zile
n2
2
35-45 de zile
45-55 de zile
25
375
1440
Fc 3
40
2000
425
2888
50
2000
465
12390,4
60
1500
490
x6
10
65-75 de zile
7500
x5
n6
6
19220
x4
40
55-65 de zile
125
Fc 2
x3
n5
5
2500
30
50
x1 x 2 n1
Fc1
x1 n1
20
250
25-35 de zile
n4
4
xk x 2 nk
Fck
x2
n3
3
x k nk
xk
debitori,
n1
1
Centrul
nk
x6 n6
70
Fc 6
700
x6 x
n
k 1
500 n
k 1
n6
500
14137,6
6
19044
2
nk
k 1
x nk
2
=69
120
16200
s x2
x
32,4
138,5170
sx s
2
x
11,7693
vx
36,33%
6
x n ... xr n6
x 1 1
n1 ... n6
x
k 1
nk
16200
500
x 32,4
o Media este
, deci
mediu de zile de intarziere a platilor pentru un debitor restantier.
n 1
250,5
2
Fck
n 1
2
nMe
25 10
250,5 125
30,02
250
Mo xinf Mo hMo
25 10
1 2
250 125
28,84
250 125 250 50
Mo Me x
s x2
x1 x
n1 ... x6 x n6
n1 ... n6 1
x
k 1
x nk
, ceea ce
500 1
69120
500 1
,
s x s x2 11,7693
deci
, iar abaterea standard
zile, care arata cu cate zile
se abat, in medie, valorile observate ale seriei de date fata de numarul mediu de zile de
intarziere.
s
11,7693
v x x 100
100 36,33% 35%
x
32,4
o Coeficientul de variatie in esantion este
, ceea
ce arata ca distributia nu este omogena si media, ca indicatot al tendintei centrale, nu este
reprezentativa pentru colectivitate.
d) Definim evenimentul favorabil ca evenimentul ca un debitor intarzie cu platile mai mult
de 45 de zile. Variabila alternativa care evidentiaza debitorii ce au intarziat mai mult de 45 de
1
0
Y :
n m m
zile cu efectuarea platilor este
,
unde
Y 1
pentru unitatile statistice din esantion care verifica evenimentul favorabil, iar m
este numarul de unitati statistice din esantion pentru care se verifica evenimentul
m n4 n5 n6 75
favorabil,
debitori,
iar
Y 0
nm
y
Media variabilei alternative este
intarziat mai mult de 45 de zile.
m 75
0,15
n 500
s y2
m
m
1 0,1275
n
n
m
m
1 0,36
n
n
.
Ex. 8. Un cercettor face un studiu asupra unor firme, privind ansele pe care acestea le ofer
tinerilor angajai de a promova repede i de a avansa n carier. Pentru aceasta el a cuprins n
studiu un numr de 20 de companii productoare de tehnologie de vrf i a nregistrat timpul
scurs de la angajarea iniial a unui salariat n firm pn la prima promovare a acestuia.
Firmele au fost grupate dup mrime, iar datele nregistrate sunt:
Mrimea
firmelor
Mici
Medii
Mari
Se cere:
a) s seprecizeze care este grupa de firme cu un grad mai ridicat de omogenitate;
b) sa se determine in ce proportie marimea companiei influenteaza variatia timpului pana
la prima promovare a unui salariat.
Rezolvare: a)
o
Populatia statistica este multimea companiilor producatoare de tehnologie de varf.
o
Unitatea statistica este o companie (firma).
o
Caracteristicile urmarite sunt:
X
si
Y
y1
n1
1, j
j 1
n1
240
30
8
1, 1
saptamani,
n1 1
y
n1
1, j
j 1
y1
18,2857
n1 1
,
s1 s 18,2857 4,2762
2
1
saptamani,
v1
s1
4,2762
100
100 14,25%
y1
30
n2 5
{ y2, 1 34, y2, 2 32, y2, 3 25, y2, 4 36, y2, 5 y2, n2 33}
saptamani.
n2
y2
y 2, 1 y 2, 2 ... y 2, n2
n2
y
j 1
n2
2, j
160
32
5
2, 1
y 2 y 2, 2 y 2 ... y 2, n2 y 2
2
n2 1
y
n2
j 1
2, j
y2
n2 1
17,5
,
saptamani,
firme
v2
s2
4,1833
100
100 13,07%
y2
32
n3 7
Din Grupa 3 (grupa firmelor mari) se selecteaza un subesantion de volum
pentru care se inregistreaza valorile variabilei Y:
firme
{ y3, 1 47; y3, 2 41; y3, 3 43; y3, 4 48; y3, 5 40; y3, 6 49; y3, 7 y3, n2 40 }
saptamani.
n3
y3
y
j 1
n3
3, j
308
44
7
3, 1
saptamani,
y
n3
n3 1
j 1
3, j
y3
n3 1
15,3333
,
saptamani,
v3
s3
3,9158
100
100 8,89%
y3
44
Cum coeficientii de variatie pentru cele trei grupe sunt mai mici ca 30%-35%, atunci
toate grupele sunt omogene. Grupa 3 (grupa firmelor mari) este mai omogena in privinta
duratei de timp de la angajare la prima promovare a unui salariat deoarece are cel mai mic
v3 v2 v1
coeficient de variatie
.
Problema poate fi rezolvata in Excel dupa cum urmeaza:
Intr-o foaie de lucru se introduc datele din cele trei subesantioane pe coloane, asa cum
apare in Figura 1;
In Excel 2003, din meniul principal Tools, submeniul Data Analysis, se alege
Descriptive Statistics;
In Excel 2007, din meniul principal Data, submeniul Data Analysis, se alege
Descriptive Statistics;
Grupa 1
(firme mici)
Mean
Standard Error
Median
Mode
Standard Deviation
Grupa 2
(firme mijlocii)
Grupa 3
(firme mari)
y1
y2
y3
30=
1,5119
30
30
4,2762=
32=
1,8708
33
#N/A
44=
1,4800
43
40
4,1833=
Sample Variance
Kurtosis
Skewness
Range
Minimum
Maximum
3,9158=
2
1
18,2857=
0,9406
0,5846
14
24
38
n3
y 2, j
j 1
j 1
160=
8=
b)
j 1
3, j
308=
n1
Count
15,3333=
-2,3115
0,2332
9
40
49
n2
y1, j
240=
s32
2
2
17,5=
2,9143
-1,5367
11
25
36
n1
Sum
s3 s32
s 2 s 22
s1 s12
n3
n2
5=
7=
n n1 n2 n3 20
n1 n2 n3
20
y 35,4
saptamani.
o Pe baza datelor de selectie calculam:
Variatia dintre grupe (Sum of Squares Between Groups)
SSB y1 y 2 n1 y 2 y 2 n2 y 3 y 2 n3
SSB 808,8
SSW 290
Variatia totala
firme este
SST 1098,8
0,368
SST 1098,8
R%2
SSB
404,4
100
100 36,8%
SST
1098,8
57,8315
n 1
n 1 20 1
s y s y2 57,8315 7,6047
cu o abatere standard
saptamani,
vy
sy
y
100
7,6047
100 21,48%
35,4
Ex. 9. Managerul unei agentii imobiliare doreste sa efectueze o analiza referitoare la pretul de
vanzare (zeci mii euro) al caselor din doua zone ale Bucurestiului: zona Cotroceni si zona
Piata Victoriei. Datele inregistrate au fost prelucrate cu Excel si s-au obtinut urmatoarele
rezultate:
Cotroceni
Piata Victoriei
a) Caracterizati comparativ cele
doua subcolectivitati pe baza
Mean
38,98
Mean
59,45
output-ului prezentat (in
Median
36,18
Median
59,8
particular, caracterizai
Mode
36
Mode
59
omogenitatea i asimetria
Standard Deviation
12,04
Standard Deviation
17,23
fiecrei grupe);
Sample Variance
144,93
Sample Variance
296,88
b) Determinati in ce proportie
Kurtosis
1,91
Kurtosis
-1,01
zona influenteaza pretul de
Skewness
1,30
Skewness
0,09
vanzare al caselor.
Range
53,20
Range
61,37
Minimum
Maximum
Sum
Count
21,77
74,97
1169,50
30
Minimum
Maximum
Sum
Count
29,9
91,27
1783,37
30