Sunteți pe pagina 1din 38

Anul I, CSIE 2011-2012

Statistica I
Exercitii pregatitoare pentru testul de la seminar si pentru examen partea I
Ex. 1. Urmtoarea serie de date arat preul de vnzare (sute lei) pentru 13 lucrri de grafic
la o licitaie de obiecte de art: 51, 60, 72, 35, 32, 57, 63, 61, 48, 33, 67, 54, 37.
Stabilii valoarea de adevr a urmtoarelor afirmaii, justificnd rspunsurile:
a) 25 % dintre lucrarile licitate s-au vandut pentru un pret mai mic de 48 sute de lei;
b) jumatate dintre lucrarile licitate au un pret mai mic sau egal cu 54 sute lei;
c) 25 % dintre lucrari s-au vandut cu cel putin 62 sute de lei;
d) pentru 75% dintre obiecte s-a obtinut un pret de cel putin 36 sute lei;
e) precizati care dintre urmatoarele valori: 25, 29, 16, 40, 124, 85, 99,8 sute lei sunt
outliers in raport cu datele initiale.
Rezolvare:
Cele n=13 valori ale seriei de date se ordoneaz cresctor:
x(1)=32, x(2)=33, x(3)=35, x(4)=37, x(5)=48, x(6)=51, x(7)=54, x(8)=57, x(9)=60, x(10)=61, x(11)=63,
x(12)=67, x(13)=72.

Q1 cuartila de ordinul 1 sau cuartila inferioara


n 1
13 1
1
1 3,50
4
4
Locul lui Q1 este
N, dar 3 < 3,50 < 4
x 3 x 4 35 37
Q1

36
x 3 Q1 x 4
2
2
si
sute lei.
x x x x x x x x x x x x x13
1 2 3 4 5 6 7 8 9 10 11 12

25%

Q1

75%

36

Cu interpretarea:
25 % dintre termenii seriei au valori mai mici decat 36 sute lei (Q1 este percentila de ordinul 25),
iar 75% dintre termenii seriei au valori mai mari ca 36 sute lei;
sau
25% dintre lucrarile de grafica licitate s-au vandut pentru un pret mai mic decat 36 sute lei, iar
restul de 75% dintre ele s-au vandut cu un pret mai mare de 36 sute lei.
Q2=Me cuartila de ordinul 2 sau mediana seriei de date statistice.
n 1 13 1

7 Me x 54
7
2
2
Locul lui Q2=Me este
N
sute lei

x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 x10 x 11 x12 x13



50%

Me

50%

54

Cu interpretarea:
jumatate dintre termenii seriei au valori mai mici ca 54 sute lei (Me este percentila de ordinul 50),
iar restul au valori mai mari ca 54 sute lei;
sau
jumatate dintre lucrarile de grafica licitate s-au vandut cu mai putin de 54 sute lei, iar restul s-au
vandut cu un pret mai mare de 54 sute lei.
Q3 cuartila de ordinul 3 sau cuartila superioara
n 1
13 1
3
3 10,50
4
4
Locul lui Q3 este
N, dar 10 < 10,50 < 11
x 10 x 11 61 63
Q3

62
x10 Q3 x 11
2
2
si
sute lei.
x x x x x x x x x x x x x
1 2 3 4 5 6 7 8 9 10 11 12 13

Q3

25%

75%

62

Cu interpretarea:
75 % dintre termenii seriei au valori mai mici decat 62 sute lei (Q3 este percentila de ordinul 75),
iar 25% dintre termenii seriei au valori mai mari ca 62 sute lei;
sau

75% dintre lucrarile de grafica licitate s-au vandut pentru un pret mai mic decat 62 sute lei,
iar restul de 25% dintre ele s-au vandut cu un pret mai mare de 62 sute lei.
x x x x x x x x x x x x x
1 2 3 4 5 6 7 8 9 10 11 12 13
25%

Q1

36

50%

Q3

25%

62

Jumatate din termenii din mijlocul seriei au valori cuprinse intre Q1=36 sute lei si
Q3=62 sute lei.
Abaterea intercuatilica este IQR=Q3-Q1=26 sute lei.
Definitie: Spunem ca o valoare x este outlier pentru un set de date statistice numerice daca:

x Q1 1,5 IQR

x Q3 1,5 IQR
sau

sau
valoarea x este outlier pentru un set de date statistice daca daca se gaseste in afara
intervalului
Q1 1,5 IQR ; Q3 1,5 IQR
.

Q1 1,5 IQR; Q3 1,5 IQR 3;101


In cazul nostru,
numai valoarea 124 este outlier in raport cu setul initial de date statistice.

, deci

In concluzie, a) fals; b) adevarat; c) adevarat; d) adevarat; e) numai valoarea 124


sute lei este outlier in raport cu seria initiala de date.
Ex. 2. Se considera urmatoarea serie, reprezentand valoarea inregistrata a 9 facturi emise de o
societate comerciala in ultima luna: 47; 58; 41; 36; 54; 42; 65; 43; 37 (mil. lei).
Alegeti afirmatiile false:
a) Cuartilele inferioara si superioara sunt 43 si respectiv 58 mil. lei.
b) Abaterea intercuartilica este de 10 mil. lei;
c) Jumatate dintre termenii seriei, plasati pe mijocul distributiei, se regasesc intre 39 si
56.
d) Percentilele de ordinul 25 si 75 sunt 39 si respectiv 56 mil. lei
e) In raport cu datele initiale, valorile: 73, 29, 18, 73, 23 sunt toate outliers.
f) Daca fiecare valoare s-ar mari intai cu 4,25 lei, apoi de 2 ori, dispersia noilor valori ar
fi 396.
Ex. 3. Structura unui esantion de 90 de copii dupa nivelul maxim atins al unui joc pe
calculator este:

Unde A nivelul cel mai slab, E nivelul cel mai inalt.

Construiti distributia de frecvente absolute si reprezentati-o grafic.


Studiati tendinta centrala a distributiei folosind indicatori adecvati.
Calculati media si dispersia unei variabile alternative, a carei stare favorabila este data de co

Ex. 4. Pentru 39 de actrite care au obtinut premiul Oscar se cunoaste varsta, in ani impliniti,
la momentul castigarii premiului:
50, 44, 35, 80, 26, 28, 41, 21, 61, 38, 49, 33, 74, 30, 33, 41, 31, 35, 41, 42,
37, 26, 34, 34, 35, 26, 61, 60, 34, 24, 30, 37, 31, 27, 39, 34, 26, 25, 33 ani.
Se cere:
a) sa se determine si sa se interpreteze indicatorii tendintei centrale si cuartilele acestei
serii de date;
b) sa se construiasca diagrama box-plot (sau diagrama cu mustati box-and-whisker),
punand in evidenta daca seria are valori extreme;
c) sa se calculeze indicatorii variatiei si sa se stabileasca daca seria este omogena;
d) analizati asimetria;
e) Descriptive Statistics.
Rezolvare: a)
o Populatia statistica este multimea actritelor care au castigat premiul Oscar.
o Unitatea statistica este o actrita.
o Variabila sau caracteristica de interes, notata X, este variabila ce arata varsta unei actrite la
momentul obtinerii premiului; variabila numerica, discreta.
n 39
o Pentru un esantion de volum
de actrite se cunosc valorile variabilei X, adica
{x1=50, x2=44, x3=35, x4=80, ..., xn=x39=33 ani}, care reprezinta o serie simpla sau
nesistematizata de date statistice numerice.

x x ... xn
x 1 2

x1 , x2 , ..., xn

x
i 1

n
o Media unei serii simple de date numerice
este
.
In cazul acestei serii, varsta medie a unei actrite din esantion care a castigat premiul Oscar
39

xi
x1 x2 ... x39
1486
i 1
x

38,1025
39
39
39

este
ani.
o Pentru a determina mediana, vom proceda astfel:

x 1 x 2 ... x n

seria simpla de date se ordoneaza crescator


, unde
x i , i 1, n
este elementul cu rangul i din seria ordonata crescator,
n 1
20 N Me x 20 34
2
- locul medianei este
ani.
Jumatate dintre actritele din selectie au obtunut premiul Oscar la o varsta de cel mult 34
de ani (jumatate dintre actritele din esantion au castigat premiul Oscar la o varsta de peste
34 de ani).
o Exista doua valori care au frecventa maxima si anume valorile 26 ani si 34 ani, care apar
pentru 4 actrite fiecare.
Nr. crt.

x i

xi
Varsta actritelor

Varsta actritelor, in ordine crescatoare

x1=50
x2=44
x3=35
x4=80
x5=26

x(1)=21
x(2)=24
x(3)=25
x(4)=26
x(5)=26

28
41

26
26

8
9
10

21
61
38

27
28

11
12
13
14
15
16
17
18
19
20

49
33
74
30
33
41
31
35
41
42

x(20)=34=Me

21
22
23
24

37
26
34
34

35
35
35
37

1
2
3
4
5
6
7

x(10)=30=Q1
30
31
31
33
33
33
34
34
34

25
26
27
28
29
30
31
32
33
34

35
26
61
60
34
24
30
37
31
27

35

39

36

34

37

26

38

25

39

x39=33

o Pentru determinarea cuartilelor procedam astfel:

37
38
39
41
41

x(30)=41=Q3
42
44
49

x(34)=50
x(35)=60
x(36)=61
x(37)=61
x(38)=74
x(39)=80
n 1
1 10 N Q1 x 10 30
4

locul cuartilei de ordinul 1, Q1, este


ani;
un sfert dintre actrite au castigat premiul Oscar la o varsta mai mica sau
egala cu 30 de ani, iar restul la cel putin 30 de ani;
n 1
3 30 N Q3 x 30 41
4
- locul cuartilei de ordinul 3, Q3, este
ani;
trei sferturi dintre actrite au castigat premiul Oscar la o varsta mai mica sau
egala cu 41 de ani, iar restul la cel putin 41 de ani.
IQR Q3 Q1 11
o Abaterea intercuartilica este
ani si arata lungimea intervalului in care
se gasesc jumatate dintre valorile din mijlocul seriei de date.
b)
Diagrama cu mustati (box-and-whisker) sau diagrama box-plot pentru o serie de date
statistice numerice se construieste punand in evidenta urmatoarele cinci elemente si
eventualele valori extreme sau outliers:
- cuartila inferioara sau de ordinul 1, Q1=30 ani;
- mediana sau cuartila de ordinul al 2-lea, Q2=Me=34 ani;
- cuartila superioara sau de ordinul al 3-lea, Q3=41 ani;
- limita sau marginea inferioara a diagramei box-plot este cea mai mica
dintre valorile seriei de date cu proprietatea ca este mai mare sau egala cu
lim inf box plot min x i , i 1, n x i Q1 1,5 IQR
Q1 1,5 IQR
, adica
:
Q1 1,5 IQR 13,5
o
o cea mai mica dintre valorile seriei de date, cu proprietatea ca este
13,5
, este x(1)=21 ani, deci marginea inferioara este egala cu 21
lim inf box plot 21 x 1
ani,
;

limita sau marginea superioara a diagramei box-plot este cea mai mare
dintre valorile seriei de date cu proprietatea ca este mai mica sau egala cu
lim sup box plot max x i , i 1, n x i Q3 1,5 IQR
Q3 1,5 IQR
, adica
:
Q3 1,5 IQR 57,5
o
o cea mai mare dintre valorile seriei de date, cu proprietatea ca este
57,5
, este x(34)=50 ani, deci marginea superioara este egala cu 50
lim sup box plot 50 x 34
ani,
.

Se observa ca intervalul cuprins intre marginea inferioara si cea superioara diagramei


box-plot, adica intervalul de numere reale [21; 50] nu contine toate valorile observate, in
afara lui ramanand valorile x(35)=60, x(36)=61, x(37)=61, x(38)=74, x(39)=80 ani.
Valoarea x este outlier pentru seria de date statistice numerice daca x se gaseste in
Q1 1,5 IQR ; Q3 1,5 IQR 13,5; 57,5
afara intervalului
,
x(35)=60, x(36)=61, x(37)=61, x(38)=74, x(39)=80 sunt outliers si vor fi reprezentate distinct in
diagrama box-plot.

21

30
(Q1)

34
(Me)

41
(Q3)

50

*
* *

60 61

74

80

Fig. . Diagrama box-plot sau diagrama cu mustati (box-and-whisker).

Fig. . Diagrama box-plot in SPSS.


c) Dispersia de selectie (sample variance) pentru o serie simpla de date numerice asupra
variabilei X este
n

xi x
2
2

x1 x ... xn x
2
i 1
s

39

s x2
adica

x
i 1

39 1

n 1

n 1

6791,5897
178,7260
39 1

s x s x2 13,3688
abaterea standard (standard deviation) este

ani.
sx
v x 100 35,09% 35%
x

Coeficientul de variatie este


, ceea ce indica faptul ca
seria de date nu este omogena, iar media nu este reprezentativa pentru colectivitate, ca
indicator al tendintei centrale.

Nr. crt.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39

xi

xi x

xi x 2

Varsta actritelor

x1=50
x2=44
x3=35
x4=80
x5=26

11,8974

141,5489

5,8974

34,7797

-3,1026

9,6259

41,8974

1755,3951

28
41
21
61
38
49
33
74
30
33
41
31
35
41
42
37
26
34
34
35
26
61
60
34
24
30
37
31
27
39
34
26
25

-12,1026
-10,1026
2,8974
-17,1026
22,8974
-0,1026
10,8974
-5,1025
35,8974
-8,1025
-5,1025
2,8974
-7,1025
-3,1025
2,8974
3,8974
-1,1025
-12,1025
-4,1025
-4,1025
-3,1025
-12,1025
22,8974
21,8974
-4,10256
-14,1025
-8,1025
-1,1025
-7,1025
-11,1025
0,8974
-4,1025
-12,1025
-13,1025

146,4720
102,0618
8,3951
292,4977
524,2925
0,0105
118,7541
26,0361
1288,6259
65,6515
26,0361
8,3951
50,4464
9,6259
8,3951
15,1900
1,2156
146,4720
16,8310
16,8310
9,6259
146,4720
524,2925
479,4977
16,8310
198,8823
65,6515
1,2156
50,4464
123,2669
0,8053
16,8310
146,4720
171,6771

x39=33

-5,1025

26,0361

39

39

39

xi x

xi
i 1

i 1

1486

i 1

x
2

6791,5897

s
2
x

38,1025

178,7260

sx s
2
x

13,3688

vx
35,09%

d)

Asimetria unei serii de distribuie de frecvene se poate stabili:


- prin compararea indicatorilor tendintei centrale,
- prin analiza distantei intre mediana si cele doua cuartile inferioara si superioara,
- prin calculul si interpretarea valorii unui indicator specific, coeficientul de asimetrie,
- se observ din reprezentarea grafic prin histogram sau poligonul frecvenelor.
Me 34 38,1025 x
- Cum
, atunci concluzionam ca seria de date prezinta asimetrie
pozitiva.
Me Q1 Q3 Me
- Cum mediana este mai apropiata de Q1 decat de Q2, adica
, asa cum
se poate vedea din diagrama box-plot, atunci concluzionam ca seria prezinta asimetrie
pozitiva, in seria de date predominand valorile mici.
n

CAS

x
i 1

n sx

- Indicatorul asimetriei este coeficientul de asimetrie (Skewness)


, al
carui semn si marime arata tipul asimetriei (pozitiva sau negativa), iar marimea arata gradul
mai putin accentuat sau mai accentuat al asimetriei seriei de date sau al distributiei. In cazul
CAS 1,5734
acestei serii de date,
, o valoare pozitiva si mai mare ca 1, ceea ce arata ca seria
de date prezinta o asimetrie pozitiva pronuntata.
r 6
- Sistematizarea printr-o serie de distributie de frecvente pe
intervale de variatie de
marime egala a dat urmatoarea distributie a celor n=39 de actrite din esantion dupa varsta la
momentul obtinerii premiului Oscar:
nk
x
Nr. crt.

1
2
3
4
5
6

Intervalul k de variatie
(clasa de varsta)
20-30 ani
30-40 ani
40-50 ani
50-60 ani
60-70 ani
70-80 ani

Frecventa absoluta
a intervalului k de variatie
(numarul de actrite
din fiecare clasa de varsta)
11
16
7
1
2
2

Centrul
al intervalului k de
variatie
25
35
45
55
65
75

n
k 1

39=n

Reprezentarea grafica seriei de distributie de frecvente pe intervale, adica histograma si


poligonul frecventelor sugereaza ca aceasta prezinta asimetrie pronuntata la dreapta sau
asimetrie pozitiva, adica predomina valorile mai mici ale variabilei de interes, cu coada mai
lung a distribuiei spre valorile mari, care apar cu frecventa mai mica. Intre cele 39 de actrite
castigatoare ale premiului Oscar, predomina cele cu varste relativ mai mici.

Statistics
Varsta actritelor Oscar
N

Valid

39

Missing

Mean
Std. Error of Mean

2.141

Median

Me=34.00

Mode

Mo=26a

e) Indicatorii tendintei
indicatori ai variatiei
distributiei pentru o
numerice
pot
fi
SPSS,
output-urile

Std. Deviation

s x s x2

Variance

13.369

Standard Error
Median
Mode

Std.xError
of Skewness
38.1025
Kurtosis
2.1407
Std. Error
of Kurtosis
Me=34

s x2

2
x

Minimum
Maximum

Count

.741

xmin
21

xmax

178.7260
Maximum
2.3830

80

CAS

39

Sum
1.5734

Ax xmax xmin

i 1

59

xmin
Percentiles

25

1486

Q1
30.00

21

xmax

50
80

39

Sum

2.383

59

13.3688
Minimum

Kurtosis

.378

Ax xmax xmin

Mo=26
Range

Sample Variance
(dispersia de selectie)

x
i 1

centrale,
principalii
si
ai
formei
serie simpla de date
calculati in Excel si in
fiind de forma:
Output-ul Descriptive
Statistics in Excel
Output-ul Descriptive
Statistics in SPSS

1.573

sx s

Range
(Amplitudinea)

CAS

Skewness

Standard Deviation
(abaterea standard)

Skewness
(coeficientul de asimetrie)

2
x

178.726

Varsta actritelor
Mean (media)

38.10

Q2 Me
34.00

75

Q3

41.00
1486
a. Multiplen=39
modes exist. The smallest value is shown

Observatie: Analiza
boltirii/aplatizrii
Boltirea(kurtosis, n
engl.)
exprim
nlimea
curbei
(cocoaei)
comparativ
cu
distribuia
normal
teoretic.
ntlnim,
astfel
distribuii
leptocurtice, ascuite
(cu cocoaa nalt)

i distribuii platicurtice, aplatizate. Coeficientul de boltire sau aplatizare (kurtosis) este o


msur a mprtierii fiecrei observaii n jurul unei valori centrale i se determin, pe
eantion, cu formula:
n

CBA

x
i 1

n s x2

s x2

, unde

x
i 1

n 1

Definiia este bazat pe momentul centrat de ordinul 4.

Interpretarea valorii coeficientului de aplatizare si boltire:


CBA 0
Dac
, avem distribuie leptocurtic, valorile varibilei fiind concentrate n
jurul indicatorilor tendinei centrale
CBA 0
Dac
, avem distribuie platicurtica, valorile varibilei fiind dispersate n
raport cu indicatorii tendinei centrale
CBA 0
Dac
, avem distribuie mezocurtic, adic distribuia normal.
CAB 2,383 0

In cazul acestei serii de date statistice,


, ceea ce indica o distributie
leptocurtica (cu cocoasa, asa cum se poate vedea si din histograma sau poligonul
frecventelor).
Ex. 5. Un agent al companiei de asigurari W vinde contracte de asigurare de locuinte. In luna
iulie a incheiat: 2 contracte cu prime anuale de 50 Eur, 3 contracte cu prime anuale de 60 Eur,
6 contracte cu prime de 70 Eur, 9 contracte cu prime de 90 Eur, 16 contracte cu prime anuale
de 120 Eur, 8 contracte cu prime anuale de 130 Eur si 6 contracte cu prime de 140 Eur. Se
cere:
a) Construii seria de distribuie de frecvene i analizai grafic tendina de normalitate a
acesteia.
b) Caracterizai omogenitatea i asimetria distribuiei contractelor n funcie de valoarea
primelor anuale.
c) Calculati media si abaterea standard a variabilei alternative care evidentiaza
contractele cu prime anuale de valoare mai mica sau egala cu 90 Eur.
Rezolvare: a)
o Populatia statistica este multimea contractelor de asigurare de locuinte din portofoliul
companiei W.
o Unitatea statistica este un contract de asigurare de locuinta.
o Variabila statistica sau caracteristica de interes, notata X, este variabila ce arata marimei
primei anuale, in Eur, pentru un contract de asigurare de locuinta incheiat de un agent al
companiei; variabila numerica, continua.
o Agentul a incheiat intr-o luna n=50 de contracte, seria de date statistice referitoare la
primele anuale ale acestor contracte fiind sistematizata intr-o serie de distributie de
frecvente pe r=7 variante distincte. Astfel distributia celor n=50 de contracte dupa
valoarea primei anuale, in Eur, este:

xk
Nr.
crt.

nk

Valoarea
Eur
a unei prime anuale

Numarul de contracte,
(frecventa absoluta)

x1
1

n1
50 Eur

2 contracte

x2
2

n2
60 Eur

x3
3

n3
70 Eur

x4
4

n4
90 Eur

x5
5

n5
120 Eur

16

x6
6

n6
130 Eur

x7
7

n7
140 Eur

6
7

n
k 1

50 n
contracte

x1 50 Eur
X :
n1 2 contracte

sau
7

n
unde

k 1

x 2 60 x3 70 x4 90 x5 120 x6 130 x7 120


n2 3

n3 6

n4 9

n5 16

n6 8

n7 6

50 n

contracte.

o Reprezentarea grafica a acestei serii de distributie este poligonul frecventelor absolute.

o Poligonul frecventelor sugereaza ca distributia are tendinta de normalitate, dar prezinta


asimetrie la stanga, coada poligonului freventelor absolute fiind mai alungita spre stanga.
o Poligonul frecventelor se mai poate reprezenta si cu ajutorul frecventelor relative
xk
Nr.
crt.

Valoarea
Eur
a unei prime anuale

nk
Numarul de contracte,
(frecventa absoluta)

x1
1

n1
50 Eur

0,12

n4
90 Eur

n
*
4

x5

0,18

n5
120 Eur

n5*
16

x6

0,32

n6
130 Eur

n
*
6

x7
7

n
*
3

x4

0,06

n3
70 Eur

0,04

n2*
3

x3

Frecventa relativa

n1*

n2
60 Eur

2 contracte

x2
2

nk*

n7
140 Eur

n7*

0,16
0,12

6
7

nk 50 n

k 1

k 1

contracte

*
k

nk
0,1
n

b)
o Media pentru o serie de distributie de frecvente pe r variante distincte ale variabilei de
interes este
r

x n ... xr nr
x 1 1

n1 ... nr

x
k 1

nk

n
,

x , k 1, r

unde
esantionului.

sunt variantele distincte observate ale variabilei, iar


7

x
k 1

nk

k 1

volumul

5310
106,2
50

50
In cazul nostru,
Eur este valoarea medie a unei prime anuala
corespunzatoare unui contract de asigurare de locuinta incheiat de respectivul agent de
vanzari.
o Mediana pentru o serie de distributie de frecvente pe r variante distincte se calculeaza
parcurgand urmatorii pasi:
x1 x2 ... xr
Cele r variante distincte sunt ordonate crescator
.
n 1
25,5
2
Se determina locul medianei, adica
.
Se calculeaza frecventele absolute cumulate crescator ale celor r variante
distincte
Fck n1 ... nk k 1, r
,
.

Mediana este acea valoare distincta cu proprietatea ca frecventa sa absoluta


cumulata crescator este prima care depaseste locul medianei
Fc1 2 25,5
Fc 2 5 25,5
Fc 3 11 25,5
Fc 4 20 25,5
Fc 5 36 25,5

x5

si

, deci a 5-a varianta sau valoare distincta, , este mediana


Me x5 120
sau valoarea mediana:
Eur, adica jumatate dintre contractele
incheiat de agentul de vanzari au o prima anuala de valoare mai cica sau egala
cu 120 Eur.
Nr.
crt.

Valoarea
distincta,

nk

xk
Eur

x1
1

n1
50

60

x3
3

1920
1040

n7
140

20

2361,96

36

3047,04

Fc 6 n1 ... n6
8

x7

7862,64

Fc 5 n1 ... n5

n6
130

11

810

16

x6

6403,3
2

Fc 4 n1 ... n4

n5
120

44

x7 x

Fc 7 n1 ... n7 n
6

840

n
k 1

50 n

x
k 1

n7
6854,6
4

nk

4531,52
2

50
7

n2

420

x5

x2 x

6316,88
2

Fc 3 n1 n2 n3

n4
90

180

x4

Fc 2 n1 n2

x 2 n2

n3
70

100

x2 x 2 n1

Fc1 n1

x1 n1

n2

x k x 2 nk

Fck n1 ... nk

x2
2

x k nk

,
(frecventa
absoluta)

k 1

x nk
2

373
78

5310

s x2

x
106,2

762,8163265

s x s x2
27,6191297
2

vx
26,01%

o Modul sau valoarea modala pentru o serie de distributie de frecvente pe r variante


distincte este acea varianta sau valoare care apare cu frecventa absoluta sau relativa cea
mai mare:

Frecventa absoluta cea mai mare este:


16 n5 max nk , k 1, r
.

valoarea modala este deci a 5-a varianta sau valoare distincta de


Mo x5 120
raspuns a variabilei de interes,
Eur, aceasta fiind valoarea cea
mai des intalnita a unei prime anuale pentru contractele incheiate de
respectivul agent.

x Me Mo
Relatia in care se gasesc indicatorii tendintei centrale,
, ca si reprezentatrea
grafica pentru poligonul frecventelor absolute sau relative, arata ca distributia contractelor
dupa valoarea primelor anuale prezinta asimetrie negativa, in serie predominand valorile
mai mari ale primelor anuale, iar coada distributiei este alungita spre stanga.

o Dispersia in esantion (de selectie) pentru o serie de distributie de frecvente pe r intervale


de variatie este
r

s x2

x1 x

n1 ... xr x nr

n1 ... nr 1

x
k 1

x nk
2

n 1

x , k 1, r

unde
esantionului.

sunt variantele distincte observate ale variabilei,


7

s x2
In cazul nostru,

x
k 1

x nk

k 1

volumul

50 1

37378
762,8163
50 1

, iar abaterea standard sau

s x s 27,6191
2
x

abaterea medie patratica este


Eur, care arata cu cat se abat, in medie,
valorile observate fata de nivelul mediu in esantion al primelor anuale.

vx

sx
27,6191
100
100 26,01% 30%
x
106,2

o Coeficientul de variatie in esantion este


,
ceea ce arata ca distributia este omogena si media este reprezentativa pentru colectivitate.
c) Definim evenimentul favorabil ca evenimentul ca un contract de asigurare are o prima
anuala de valoare mai mica sau egala cu 90 Eur. Variabila alternativa care evidentiaza
contractele ale caror prime anuale sunt de valoare mai mica sau egala cu 90 Eur este
1
0

Y :
n m m
,

unde

iar

Y 1

pentru unitatile statistice din esantion care verifica evenimentul favorabil, iar m
este numarul de unitati statistice din esantion care verifica evenimentul favorabil,
m n1 n2 n3 n4 20
contracte,
Y 0
pentru unitatile statistice din esantion care nu verifica evenimentul favorabil,
nm
este numarul de unitati statistice din esantion pentru care nu se verifica
n m 30
evenimentul favorabil,
de contracte cu prime anuale mai mari de 90 Eur.

m 20

0,4
n 50

Media variabilei alternative este


, adica 40% dintre contracte au
valori ale primelor anuale mai mici sau egale cu 90 Eur.
m
m
s y2 1 0,24
n
n
Dispersia variabilei alternative este
, iar abaterea standard
sy

m
m
1 0,48
n
n

Ex. 6. Distributia a 1100 de absolventi ai Universitatii din Florida dupa salariul castigat, in $,
in primul an dupa terminarea studiilor este urmatoarea serie de distributie de frecvente pe
intervale de variatie:
Nr. crt. Intervalul de variatie al salariului, $ Numarul de absolventi
1
2
3
4
5
6
7
8
9
10
11

[7200; 12500]
(12500; 17800]
(17800; 23100]
(23100; 28400]
(28400; 33700]
(33700; 39000]
(39000; 44300]
(44300; 49600]
(49600; 54900]
(54900; 60200]
(60200; 65500]

30
69
302
308
263
95
20
6
5
1
1

Se cere:
a) sa se reprezinte grafic aceasta serie de distributie;
b) sa se determine si sa se interpreteze indicatorii tendintei centrale;
c) sa se reprezinte grafic poligonul frecventelor absolute cumulate crescator si sa se
estimeze proportia absolventilor care:
i)
au obtinut un salariu mai mic de 21000 $ in primul an de dupa finalizarea
studiilor,
ii)
au obtinut un salariu mai mic decat media in primul an de dupa finalizarea
studiilor,
iii)
au castigat in primul an intre 25000 $ si 40000 $,
iv)
au castigat mai mult de 52000 $;
d) sa se stabileasca daca media este reprezentativa pentru colectivitate;
e) sa se analizeze asimetria acestei distributii.

Rezolvare: a)
Populatia statistica este multimea absolventilor Universitatii din Florida, promotiile anilor
1989 si 1990, asa cum se specifica in fisierul University of Florida graduate salaries.sav
al programului SPSS.

Unitatea statistica este un absolvent.


Variabila sau caracteristica de interes, notata X, este variabila ce arata salariul unui
absolvent, in $, din primul an de dupa finalizarea studiilor, variabila numerica, continua.
n 1100
Pentru un esantion de volum
de absolventi s-au inregistrat valorile variabilei, iar
r 11
setul de date s-a sistematizat intr-o serie de distributie de frecvente pe
intervale de
variatie de marime egala, data in enuntul problemei.
Reprezentarea grafica a acestei serii de distributie de frecvente pe intervale de variatie se
poate realiza prin histograma si poligonul frecventelor absolute.
Nr.
crt.

1
2
3
4
5
6
7
8
9
10
11

Intervalul k de variatie
(Salariul anual al unui
absolvent, in $)

Frecventa absoluta

nk
a intervalului k
(numarul de absolventi)

[7200; 12500]
(12500; 17800]
(17800; 23100]
(23100; 28400]
(28400; 33700]
(33700; 39000]
(39000; 44300]
(44300; 49600]
(49600; 54900]
(54900; 60200]
(60200; 65500]

30
69
302
308
263
95
20
6
5
1
1
11

n
k 1

n
1100

Limita inferioara

Limita superioara

x k inf

x k sup

a intervalului k

a intervalului k

7200
12500
17800
23100
28400
33700
39000
44300
49600
54900
60200

12500
17800
23100
28400
33700
39000
44300
49600
54900
60200
65500

xk
Centrul
al intervalului k

9850
15150
20450
25750
31050
36350
41650
46950
52250
57550
62850

Fig. ..... Histograma Distributia celor 1100 de absolventi ai Universitatii din Florida
dupa salariul castigat in primul an de dupa finalizarea studiilor.

Fig. ..... Poligonul frecventelor absolute Distributia celor 1100 de absolventi ai


Universitatii din Florida dupa salariul castigat in primul an de dupa finalizarea studiilor.

b) Indicatorii tendintei centrale: media, mediana si modul.


Nr.
crt.

Intervalul k
(Salariul anual al
unui
absolvent, in $)

Centrul

1
2
3
4
5
6
7
8
9
10
11

[7200; 12500]
(12500; 17800]
(17800; 23100]
(23100; 28400]
(28400; 33700]
(33700; 39000]
(39000; 44300]
(44300; 49600]
(49600; 54900]
(54900; 60200]
(60200; 65500]

9850
15150
20450
25750
31050
36350
41650
46950
52250
57550
62850

xk

nk

x k nk

Frecventa absoluta
(numarul de absolventi)

30
69
302
308
263
95
20
6
5
1
1
11

k 1

Fck n1 ... nk

295500
1045350
6175900
7931000
8166150
3453250
833000
281700
261250
57550
62850
11

nk n

Frecventa absoluta
cumulata crescator
a intervalului k,

k 1

30
99
401
709
972
1067
1087
1093
1098
1099
1100

nk

1100

28563500

25966,82

o Media pentru o serie de distributie de frecvente pe r intervale de variatie este


r

x n ... xr nr
x 1 1

n1 ... nr

x
k 1

nk

x , k 1, r

unde

11

nk

k 1

1100

sunt centrele celor r intervale, iar

28563500
25966,82
1100

k 1

volumul esantionului.

$ a castigat, in medie, un absolvent in primul an.

o Mediana pentru o serie de distributie de frecvente pe r intervale de variatie se calculeaza


parcurgand urmatorii pasi:
n 1
550,5
2
Se determina locul medianei, adica
.
Se calculeaza frecventele absolute cumulate crescator ale intervalelor de
variatie
Fck n1 ... nk k 1, r
,
.
Intervalul median este primul interval cu proprietatea ca frecventa sa absoluta
cumulata crescator depaseste locul medianei

Fc1 30 550,5
Fc 2 99 550,5
Fc 3 401 550,5

Fc 4 709 550,5
si
intervalul median.
Me xinf Me

, deci al 4-lea interval de variatie (23100; 28400] $ este

n 1
Fc Me1
2
hMe

nMe

23100 5300

550,5 401
25672,56
308

$, adica jumatate dintre absolventi


au castigat cel mult 25672,56$ in primul an sau jumatate au castigat cel putin
25672,56 $.
o Modul sau valoarea modala pentru o serie de distributie de frecvente pe r intervale de
variatie se calculeaza astfel:

Se determina intervalul cu frecventa absoluta cea mai mare:


308 n4 max nk , k 1, r
,
deci al 4-lea interval de variatie (23100; 28400] $ este intervalul modal.
1
Mo xinf Mo hMo

1 2

308 302
23100 5300
23723,52
308 302 308 263
$, aceasta este
valoarea cea mai des intalnita a castigului salarial al unui absolvent intr-un an.

Fc : R R
c) Introducem functia
definita astfel
Fc x
numarul de unitati statistice din esantion pentru care valoarea observata a
caracteristicii de interes X este mai mica sau egala cu x
sau
frecventa cumulata a lui x.

Fck n1 ... nk
Frecventa absoluta cumulata crescator a intervalului k de variatie,

k 1, r
,

reprezinta numarul de unitati statistice din esantion pentru care valoarea observata a

x k sup

variabilei de interes X este mai mica sau egala decat limita superioara
a intervalului k
Fck Fc x k sup k 1, r
de variatie, adica
,
.
Pentru reprezentarea grafica a poligonului freventelor absolute cumulate crescator
x k sup
vom pune in evidenta limitele superioare
ale intervalelor de variatie si frecventele lor
x 1 inf
absolute cumulate, impreuna cu limita inferioara a primului interval de variatie
, in cazul
Fc x 1 inf Fc 7200 0
nostru 7200 $, a carui frecventa absoluta cumulata este 0,
, deoarece
x1 inf
pentru nicio unitate statistica din esantion, nivelul variabilei nu este mai mic decat
.
Limitele superioare ale
intervalelor de variatie,
x k sup
x 1 inf
=7200

x 1 sup

=12500
x 2 sup

=17800
x 3 sup

=23100
x 4 sup

=28400
x 5 sup

Fc x k sup Fck n1 ... nk

, adica
numarul de absolventi din esantion
x k sup

care au castigat un salariu mai mic sau egal cu


Fc x 1 inf Fc 7200
=0
Fc x 1 sup Fc 12500
=30
Fc x 2 sup Fc 17800
=99
Fc x 3 sup Fc 23100
Fc x 4 sup Fc 28400

=401

F x F 33700

=709

=33700
x 6 sup

=39000
x 7 sup

=44300
=49600
=54900
x 10 sup

=60200
x 11 sup

=65500

=972

F x F 44300

=1067

F x F 49600

=1087

Fc x 9 sup Fc 54900

=1093

x 9 sup

Fc x 6 sup Fc 39000
c

x 8 sup

5 sup

7 sup

8 sup

=1098

Fc x 10 sup Fc 60200
Fc x 11 sup Fc 65500

=1099

=1100

Fc 21000
i)
este numarul de absolventi care au obtinut un salariu mai mic de 21000 $
in primul an de dupa finalizarea studiilor.
Fc 21000
Valoarea 21000 $ se gaseste in intervalul de variatie (17800; 23100] $, iar
se
determina prin interpolare liniara, utilizand urmatoarea egalitate de rapoarte, asa cum se
poate observa in figura de mai jos:
21000 17800 Fc 21000 Fc 17800

23100 17800 Fc 23100 Fc 17800

3200 Fc 21000 99

5300
401 99

Fc 21000 281,33 281

281
100 25,54%
1100

absolventi, adica o proportie de


dintre cei 1100 de absolventi din esantionul considerat au avut un salariu anual mai mic de
21000 $.

Fig. .... Interpolare liniara - detaliu din figura reprezentand poligonul frecventelor absolute
cumulate crescator, pentru intervalul (17800; 23100] $ in care se gaseste 21000 $.

Fc 25966,82
ii)
nivelul mediu
Din relatia

este numarul de absolventi care au obtinut un salariu mai mic decat


25966,82 $ al salariului in esantion.
25966,82 23100 Fc 25966,82 Fc 23100

28400 23100
Fc 28400 Fc 23100

Fc 25966,82 567,8 568

obtinem ca

absolventi,
568
100 51,63%
1100
adica o proportie de
dintre cei 1100 de absolventi din esantionul
considerat au avut un salariu anual mai mic de nivelul mediu.

Fc 40000 Fc 25000 559,35 559


iii)
este numarul de absolventi care au castigat in
primul an intre 25000 $ si 40000 $, adica 50,81% dintre cei 1100 de absolventi.

n Fc 52000 1100 Fc 52000 4,73 5


iv)
$, adica o proportie de 0,45%.

absolventi au castigat mai mult de 52000

d) Media variabilei de interes in esantion este


Intervalul k
(Salariul anual al
unui
absolvent, in $)

Nr.
crt.

x
25966,82 $.

Centrul

xk

nk

x k x 2 nk

Frecventa absoluta
(numarul de absolventi)

x1 x 2 n1
1
2
3
4
5
6
7
8
9
10
11

[7200; 12500]
(12500; 17800]
(17800; 23100]
(23100; 28400]
(28400; 33700]
(33700; 39000]
(39000; 44300]
(44300; 49600]
(49600; 54900]
(54900; 60200]
(60200; 65500]

9850
15150
20450
25750
31050
36350
41650
46950
52250
57550
62850

30
69
302
308
263
95
20
6
5
1
1
11

n
k 1

7792556607
8073248049
9191461480
14479361,02
6795583074
10241990557
4919242698
2641763057
3454027755
997497258,9
1360368967
11

k 1

x nk
2

1100

55482218864

s
2
x

50484275,58

sx
7105,2287

Dispersia in esantion (de selectie) pentru o serie de distributie de frecvente pe r


intervale de variatie este
r

x k x 2 nk
2
2

...

n
1
r
r
s x2 1
k 1
n1 ... nr 1
n 1
,

x , k 1, r

unde

11

s x2

x
k 1

sunt centrele celor r intervale,

x nk

k 1

volumul esantionului.

1100 1

s x 7105,2287

55482218864
50484275,58
1100 1

iar

abaterea

standard

este

$, care arata cu cat se abat, in medie, valorile observate fata de nivelul mediu
al salariului din esantion.

Coeficientul de variatie in esantion este


s
7105,2287
v x x 100
100 27,36% 30%
x
25966,82
, ceea ce arata ca media este reprezentativa
pentru colectivitate.
e) Asimetria unei serii de distribuie de frecvene se observ din reprezentarea grafic
prin histogram sau poligonul frecvenelor, si prin modalitatea n care sunt situai, unul
fa de cellalt, indicatorii tendinei centrale.

Reprezentarea grafica seriei de distributie sugereaza ca aceasta are tendinta de


normalitate si ca in seria de date predomina valorile mai mici ale variabilei de interes, castigul
salarial intr-un an, adica este asimetrica spre dreapta (cu coada mai lung a distribuiei spre
valorile mari, care apar cu frecventa mai mica).
Mo Me x
Indicatorii tendintei centrale se gasesc in urmatoarea relatie
, ceea ce indica
faptul ca distributia de frecvente prezinta asimetrie pozitiva, in serie predominand valorile
mici.
Gradul de asimetrie prezent n serie poate s fie i msurat printr-un indicator specific,
numit coeficient de asimetrie (Skewness), care in cazul unei serii de distributii de frecvente pe
r intervale de variatie se calculeaza dupa
r

CAS x

x
k 1

x nk
3

n sx

x , k 1, r

unde

sunt centrele celor r intervale,

Nr.
crt.

Intervalul k
(Salariul anual al unui
absolvent, in $)

Centrul

1
2
3
4
5

[7200; 12500]
(12500; 17800]
(17800; 23100]
(23100; 28400]
(28400; 33700]

9850
15150
20450
25750
31050

xk

k 1

volumul esantionului.

nk
Frecventa absoluta
(numarul de absolventi)
30
69
302
308
263

x k x 3 nk
-1,25591E+14
-8,73269E+13
-5,07076E+13
-3139415056
3,45432E+13

6
7
8
9
10
11

(33700; 39000]
(39000; 44300]
(44300; 49600]
(49600; 54900]
(54900; 60200]
(60200; 65500]

36350
41650
46950
52250
57550
62850

95
20
6
5
1
1

1,06344E+14
7,71494E+13
5,54326E+13
9,07828E+13
3,15041E+13
5,01747E+13
11

11

nk n
k 1

k 1

x nk
3

1100

1,82302E+14

CAS

0,462

0 CAS 1
Cum
, avem asimetrie pozitiv, coada distribuiei este mai alungit la dreapta, n
serie predominnd valorile mici (modul < mediana < media).

Ex. 7. La o banca se analizeaza distributia a 500 de debitori restantieri dupa situatia datelor de
intarziere a rambursarii creditelor. Datele au fost sistematizate astfel:
Intervale de variatie
a numarului de zile de intarziere a platii
mai putin 25 de zile
25-35 de zile
35-45 de zile
45-55 de zile
55-65 de zile
peste 65 de zile

Ponderea cumulata
a debitorilor (%)
25
75
85
93
98
100

Se cere:
a) sa se scrie distributia de frecvente pe intervale de variatie;
b) sa se reprezinte grafic distributia de frecvente absolute;
c) sa se calculeze si sa se analizeze indicatorii tendintei centrale si sa se stabileasca daca
durata medie de intarziere a platilor este reprezentativa;
d) sa se calculeze media si abaterea standard pentru variabila alternativa care evidentiaza
debitorii ce au intarziat mai mult de 45 de zile cu efectuarea platilor.
Rezolvare: a)
o Populatia statistica mutimea debitorilor cu intarziere in efectuarea platilor pentru
rambursarea unor credite.
o Unitatea statistica un debitor.
o Variabila sau caracteristica de interes, X, este variabila ce arata numarul de zile de
intarziere a efectuarii platii catre banca de catre un deitor; variabila numerica, discreta.
n 500
o S-a realizat o selectie de volum
de debitori restantieri pentru care s-a inregistrat
numarul de zile de intarziere, datele obtinute fiind sistematizate intr-o serie de distributie
r6
de frecvente pe
intervale de variatie de marime egala.
Notam cu:

Nr.
crt.

nk , k 1, r
, frecventa absoluta a intervalului k de variatie (numarul de debitori restantiei
pentru care numarul de zile de intarziere apartine intervalului k de variatie),
n1 ... nr n
;
n
nk* k 0;1, k 1, r
n1* ... nr* 1
n
, frecventa relativa a intervalului k de variatie,
;
n
nk* % 100 k , k 1, r
n
, frecventa relativa exprimata procentual a intervalului k de
variatie sau ponderea debitorilor cu numarul de zile de intarziere din intervalul sau clasa
n1* % ... nr* % 100%
k,
;
Fck n1 ... nk , k 1, r
, este frecventa absoluta cumulata crescator a intervalului k;
Fck* n1* ... nk* , k 1, r
, este frecventa relativa cumulata crescator a intervalului k;
*
*
*
Fck % n1 % ... nk %, k 1, r
, este frecventa relativa exprimata procentual cumulata
crescator a intervalului k (ponderea cumulata a intervalului k).

Intervalul k de
variatie a
numarului de zile
de intarziere a
platii

Ponderea cumulata
a debitorilor (%)
*
Fck % n1* % ... nk* %

15-25 de zile

Fck* % n1* %

25-35 de zile

Fc*2 % n1* % n2* %

3
4
5

35-45 de zile
45-55 de zile
55-65 de zile

Ponderea
intervalului k,
nk* %

25%

n %
*
1

n2* %
75%

F % n % ... n %
*
c3

*
1

F % n % ... n %
*
1

0,50

8%

250
50

n4

0,08

40

n5

n
*
5

5%

125

n3

*
5

98%

n2

0,10
*
4

n %

*
5

500 nk*

0,25

10%
*
4

Frecventa
absoluta,
nk n nk*

n1

*
3

n %

*
4

93%
*
c5

50%

*
3

F % n % ... n %
*
1

n1*
n2*

n %

*
3

85%
*
c4

25%

Frecventa
relativa,
n* %
nk* k
100

0,05

25

65-75 de zile

Fc*6 % n1* % ... n6* %

100
%

k 1

*
k

100

k 1

*
k

%
Distributia celor 500 de debitori dupa numarul de zile de intarziere a platii este
urmatoarea serie de distributie de frecvente pe intervale:
Numarul de debitori
(frecventa absoluta),
nk

Nr.
crt.

Intervalul k de variatie
a numarului de zile
de intarziere a platii

15-25 de zile

n1

25-35 de zile

n2

35-45 de zile

n3

45-55 de zile

n4

55-65 de zile

n5

65-75 de zile

n6

125 debitori
250
50
40
25
10

n
k 1

500 n

b)

Fig. ..... Distributia celor 500 de debitori dupa numarul de zile de

debitori

10

0,02

2%

n6

n6*

n6* %

xk
Centrul
al
intervalului k
de variatie
x1
20
x2
30
x3
40
x4
50
x5
60
x6
70

k 1

500 n

Fig. .... Poligonul frecventelor absolute pentru distributia celor


500 de debitori dupa numarul de zile de intarziere a platilor

intarziere a platii

c)
Nr.
crt.

Numarul de
Intervalul k

x1
125

15-25 de zile

n2
2

35-45 de zile
45-55 de zile

25

375

1440

Fc 3
40

2000

425

2888

50

2000

465

12390,4

60

1500

490

x6
10

65-75 de zile

7500

x5

n6
6

19220

x4
40

55-65 de zile

125

Fc 2

x3

n5
5

2500

30

50

x1 x 2 n1

Fc1

x1 n1
20

250

25-35 de zile

n4
4

xk x 2 nk

Fck

x2

n3
3

x k nk

xk

debitori,

n1
1

Centrul

nk

x6 n6
70

Fc 6
700

x6 x

n
k 1

500 n

k 1

n6

500

14137,6
6

19044
2

nk

k 1

x nk
2

=69
120

16200

s x2

x
32,4

138,5170

sx s
2
x

11,7693

vx
36,33%
6

x n ... xr n6
x 1 1

n1 ... n6

x
k 1

nk

16200
500

x 32,4

o Media este
, deci
mediu de zile de intarziere a platilor pentru un debitor restantier.

o Locul medianei este

n 1
250,5
2

zile este numarul

Fck

n 1
2

; primul interval cu proprietatea ca


este
Fc1 125 250,5
Fc 2 375 250,5
intervalul 25-35 de zile, deoarece
, dar
, deci:
n 1
Fc Me1
2
Me xinf Me hMe

nMe

25 10

250,5 125
30,02
250

zile, adica jumatate dintre debitorii restantieri


au intarziat cel putin 30 de zile cu efectuarea platilor.
o Intervalul modal este intervalul 25-35 de zile deoarece are frecventa absoluta cea mai
250 n2 max nk , k 1,6
mare
, atunci

Mo xinf Mo hMo

25 10

1 2

250 125
28,84
250 125 250 50

zile; numarul cel mai intalnit de zile


de intarziere a platilor celor 500 de debitori restantieri este de aproximativ 29
de zile.
o Relatia in care se gasesc cei trei indicatori ai tendintei centrale este
indica o asimetrie pozitiva.

Mo Me x

s x2

x1 x

n1 ... x6 x n6

n1 ... n6 1

o Dispersia in esantion este


s x2 138,5170

x
k 1

x nk

, ceea ce

500 1

69120
500 1

,
s x s x2 11,7693

deci
, iar abaterea standard
zile, care arata cu cate zile
se abat, in medie, valorile observate ale seriei de date fata de numarul mediu de zile de
intarziere.
s
11,7693
v x x 100
100 36,33% 35%
x
32,4
o Coeficientul de variatie in esantion este
, ceea
ce arata ca distributia nu este omogena si media, ca indicatot al tendintei centrale, nu este
reprezentativa pentru colectivitate.
d) Definim evenimentul favorabil ca evenimentul ca un debitor intarzie cu platile mai mult
de 45 de zile. Variabila alternativa care evidentiaza debitorii ce au intarziat mai mult de 45 de
1
0

Y :
n m m
zile cu efectuarea platilor este
,
unde

Y 1

pentru unitatile statistice din esantion care verifica evenimentul favorabil, iar m
este numarul de unitati statistice din esantion pentru care se verifica evenimentul
m n4 n5 n6 75
favorabil,
debitori,

iar

Y 0

nm

pentru unitatile statistice din esantion care nu verifica evenimentul favorabil,

este numarul de unitati statistice din esantion pentru care nu se verifica


n m 425
evenimentul favorabil,
debitori.

y
Media variabilei alternative este
intarziat mai mult de 45 de zile.

m 75

0,15
n 500

s y2

Dispersia variabilei alternative este


sy

, adica 15% dintre debitori au

m
m
1 0,1275
n
n

, iar abaterea standard

m
m
1 0,36
n
n
.

Ex. 8. Un cercettor face un studiu asupra unor firme, privind ansele pe care acestea le ofer
tinerilor angajai de a promova repede i de a avansa n carier. Pentru aceasta el a cuprins n
studiu un numr de 20 de companii productoare de tehnologie de vrf i a nregistrat timpul
scurs de la angajarea iniial a unui salariat n firm pn la prima promovare a acestuia.
Firmele au fost grupate dup mrime, iar datele nregistrate sunt:
Mrimea
firmelor
Mici
Medii
Mari

Numr de sptmni de la angajare pn la prima


promovare
30; 26; 30; 32; 38; 24; 32; 28;
34; 32; 25; 36; 33
47; 41; 43; 48; 40; 49; 40.

Se cere:
a) s seprecizeze care este grupa de firme cu un grad mai ridicat de omogenitate;
b) sa se determine in ce proportie marimea companiei influenteaza variatia timpului pana
la prima promovare a unui salariat.
Rezolvare: a)
o
Populatia statistica este multimea companiilor producatoare de tehnologie de varf.
o
Unitatea statistica este o companie (firma).
o
Caracteristicile urmarite sunt:
X

- variabila ce arata marimea unei firme;


- variabila nenumerica avand r=3 categorii sau variante de raspuns: firme mici, firme mijlocii si
firme mari:
aceste categorii ale variabilei X vor determina impartirea populatiei statistice in r =3 grupe
si anume:
Grupa 1 (grupa firmelor mici),
Grupa 2 (grupa firmelor mijlocii),
Grupa 3 (grupa firmelor mari);
- astfel, variabila X, marimea firmei, se mai numeste si factor de grupare.

si
Y

- variabila ce arata durata de timp, in saptamani, de la angajare la prima promovare a unui


salariat al unei firme producatoare de tehnologie de varf;
- variabila numerica de interes.
n1 8

Din Grupa 1 (grupa firmelor mici) se selecteaza un subesantion de volum


firme
pentru care se inregistreaza valorile variabilei Y:
{ y1, 1 30; y1, 2 26; y1, 3 30; y1, 4 32; y1, 5 38; y1, 6 24; y1, 7 32; y1, 8 y1, n1 28 }
saptamani.
n1

y1, 1 y1, 2 ... y1, n1

y1

n1

1, j

j 1

n1

240
30
8

Media de selectie de grupa este


dispersia de selectie de grupa este
s12

y1 y1, 2 y1 ... y1, n1 y1


2

1, 1

saptamani,

n1 1

y
n1

1, j

j 1

y1

18,2857

n1 1

,
s1 s 18,2857 4,2762
2
1

abaterea standard de selectie de grupa este

saptamani,
v1

s1
4,2762
100
100 14,25%
y1
30

iar coeficientul de variatie al acestei grupe este

Din Grupa 2 (grupa firmelor mijlocii) se selecteaza un subesantion de volum


pentru care se inregistreaza valorile variabilei Y:

n2 5

{ y2, 1 34, y2, 2 32, y2, 3 25, y2, 4 36, y2, 5 y2, n2 33}

saptamani.
n2

y2

y 2, 1 y 2, 2 ... y 2, n2
n2

y
j 1

n2

2, j

160
32
5

Media de selectie de grupa este


saptamani,
dispersia de selectie de grupa este
s22

2, 1

y 2 y 2, 2 y 2 ... y 2, n2 y 2
2

n2 1

y
n2

j 1

2, j

y2

n2 1

17,5
,

s2 s22 17,5 4,1833


abaterea standard de selectie de grupa este

saptamani,

firme

v2

s2
4,1833
100
100 13,07%
y2
32

iar coeficientul de variatie al acestei grupe este

n3 7
Din Grupa 3 (grupa firmelor mari) se selecteaza un subesantion de volum
pentru care se inregistreaza valorile variabilei Y:

firme

{ y3, 1 47; y3, 2 41; y3, 3 43; y3, 4 48; y3, 5 40; y3, 6 49; y3, 7 y3, n2 40 }

saptamani.
n3

y3

y3, 1 y3, 2 ... y3, n3


n3

y
j 1

n3

3, j

308
44
7

Media de selectie de grupa este


dispersia de selectie de grupa este
s32

y3 y3, 2 y3 ... y3, n3 y3


2

3, 1

saptamani,

y
n3

n3 1

j 1

3, j

y3

n3 1

15,3333
,

s3 s32 15,3333 3,9158


abaterea standard de selectie de grupa este

saptamani,
v3

iar coeficientul de variatie al acestei grupe este

s3
3,9158
100
100 8,89%
y3
44

Cum coeficientii de variatie pentru cele trei grupe sunt mai mici ca 30%-35%, atunci
toate grupele sunt omogene. Grupa 3 (grupa firmelor mari) este mai omogena in privinta
duratei de timp de la angajare la prima promovare a unui salariat deoarece are cel mai mic
v3 v2 v1
coeficient de variatie
.
Problema poate fi rezolvata in Excel dupa cum urmeaza:
Intr-o foaie de lucru se introduc datele din cele trei subesantioane pe coloane, asa cum
apare in Figura 1;
In Excel 2003, din meniul principal Tools, submeniul Data Analysis, se alege
Descriptive Statistics;
In Excel 2007, din meniul principal Data, submeniul Data Analysis, se alege
Descriptive Statistics;

Figura 1. Introducerea datelor si alegerea Descriptive Statistics


din submeniul Data Analysis.

Fereastra de dialog este prezentata in Figura 2.

Figura 2. Fereastra de dialog pentru Descriptive Statistics.


Output-ul consta din urmatorul tabel, corepunzator prelucrarii datelor din cele trei
grupe:

Grupa 1
(firme mici)

Mean
Standard Error
Median
Mode
Standard Deviation

Grupa 2
(firme mijlocii)

Grupa 3
(firme mari)

y1

y2

y3

30=
1,5119
30
30
4,2762=

32=
1,8708
33
#N/A

44=
1,4800
43
40

4,1833=
Sample Variance
Kurtosis
Skewness
Range
Minimum
Maximum

3,9158=

2
1

18,2857=
0,9406
0,5846
14
24
38

n3

y 2, j

j 1

j 1

160=
8=

b)

j 1

3, j

308=

n1

Count

15,3333=
-2,3115
0,2332
9
40
49

n2

y1, j
240=

s32

2
2

17,5=
2,9143
-1,5367
11
25
36

n1

Sum

s3 s32

s 2 s 22

s1 s12

n3

n2
5=

7=

n n1 n2 n3 20

o Media totala la nivelul intregului esantion de volum


y n y 2 n 2 y 3 n3 30 8 32 5 44 7
y 1 1

n1 n2 n3
20

y 35,4
saptamani.
o Pe baza datelor de selectie calculam:
Variatia dintre grupe (Sum of Squares Between Groups)
SSB y1 y 2 n1 y 2 y 2 n2 y 3 y 2 n3

30 35,4 2 8 32 35,4 2 5 44 35,4 2 7

SSB 808,8

Variatia din interiorul grupelor (Sum of Squares Within Groups)


SSW n1 1 s12 n2 1 s22 n3 1 s32

8 1 18,2857 5 1 17,5 7 1 15,3333

SSW 290

Variatia totala

firme este

SST SSB SSW


808,8 290

SST 1098,8

Coeficientul de determinatie este


SSB 404,4
R2

0,368
SST 1098,8

R%2

SSB
404,4
100
100 36,8%
SST
1098,8

sau, exprimat procentual,


arata ca factorul de
grupare, tipul companiei, explica variatia totala a duratei de timp pana la prima
promovare in proportie de 36,8%, restul de 63,2% din variatia totala a timpului se
datoreaza altor factori care nu au fost considerati de cercetator.
n 20

o Dispersia de selectie la nivelul intregului esantion de volum


de firme este
Variatia totala la nivelul intregului esantion SST 1098,8
s 2y

57,8315
n 1
n 1 20 1
s y s y2 57,8315 7,6047

cu o abatere standard

saptamani,
vy

sy
y

100

7,6047
100 21,48%
35,4

iar coeficientul de variatie este

Ex. 9. Managerul unei agentii imobiliare doreste sa efectueze o analiza referitoare la pretul de
vanzare (zeci mii euro) al caselor din doua zone ale Bucurestiului: zona Cotroceni si zona
Piata Victoriei. Datele inregistrate au fost prelucrate cu Excel si s-au obtinut urmatoarele
rezultate:
Cotroceni
Piata Victoriei
a) Caracterizati comparativ cele
doua subcolectivitati pe baza
Mean
38,98
Mean
59,45
output-ului prezentat (in
Median
36,18
Median
59,8
particular, caracterizai
Mode
36
Mode
59
omogenitatea i asimetria
Standard Deviation
12,04
Standard Deviation
17,23
fiecrei grupe);
Sample Variance
144,93
Sample Variance
296,88
b) Determinati in ce proportie
Kurtosis
1,91
Kurtosis
-1,01
zona influenteaza pretul de
Skewness
1,30
Skewness
0,09
vanzare al caselor.
Range
53,20
Range
61,37
Minimum
Maximum
Sum
Count

21,77
74,97
1169,50
30

Minimum
Maximum
Sum
Count

29,9
91,27
1783,37
30