Sunteți pe pagina 1din 15

Aplicații rezolvate

1. Următoarea serie de date arată prețul de vânzare (mii lei) pentru 13 lucrări de grafică la o licitație de
obiecte de artă: 51, 60, 72, 35, 32, 57, 63, 61, 48, 33, 67, 54, 37.
Stabiliți valoarea de adevăr a următoarelor afirmații, justificând răspunsurile:
a) 25 % dintre lucrările licitate s-au vândut pentru un preț mai mic de 48 mii lei;
b) jumătate dintre lucrările licitate au un preț mai mic sau egal cu 54 mii lei;
c) 25 % dintre lucrări s-au vândut cu cel puțin 62 mii lei;
d) pentru 75% dintre obiecte s-a obținut un preț de cel puțin 36 mii lei;
e) precizați care dintre următoarele valori: 25, 29, 16, 40, 124, 85, 99,8 mii lei sunt outliers în raport cu
datele inițiale.
Rezolvare:
Cele n=13 valori ale seriei de date se ordonează crescător:
x(1)=32, x(2)=33, x(3)=35, x(4)=37, x(5)=48, x(6)=51, x(7)=54, x(8)=57, x(9)=60, x(10)=61, x(11)=63, x(12)=67, x(13)=72.

Q1 – cuartila de ordinul 1 sau cuartila inferioară


n 1 13  1
Locul lui Q1 este 1  1  3,50  N, dar 3 < 3,50 < 4  x3  Q1  x4 
4 4

x1  x2   x3  x4   x5   x6   x7   x8   x9   x10   x11  x12   x13
  
25%  75%
Q1

36

x3  x4  35  37
Q1    36 mii lei
2 2
Cu interpretarea:
 25 % dintre termenii seriei au valori mai mici decât 36 mii lei (Q1 este percentila de ordinul 25), iar
75% dintre termenii seriei au valori mai mari ca 36 mii lei;
sau
 25% dintre lucrările de grafica licitate s-au vândut pentru un preț mai mic decât 36 mii lei, iar restul
de 75% dintre ele s-au vândut cu un preț mai mare de 36 mii lei.
Q2=Me – cuartila de ordinul 2 sau mediana seriei de date statistice.
n  1 13  1
Locul lui Q2=Me este   7  N  Me  x7   54 mii lei
2 2

x1  x2   x3  x4   x5   x6   x7   x8   x9   x10   x11  x12   x13

 

50% Me 50%

54

Cu interpretarea:
 jumătate dintre termenii seriei au valori mai mici ca 54 mii lei (Me este percentila de ordinul 50), iar
restul au valori mai mari ca 54 mii lei;
sau
 jumătate dintre lucrările de grafica licitate s-au vândut cu mai puțin de 54 mii lei, iar restul s-au
vândut cu un preț mai mare de 54 mii lei.
Q3 – cuartila de ordinul 3 sau cuartila superioara
n 1 13  1
Locul lui Q3 este 3   3  10,50  N, dar 10 < 10,50 < 11  x10   Q3  x11
4 4
x1  x2   x3  x4   x5  x6   x7   x8  x9   x10   x11  x12   x13
      
75%  25%
Q3

62

x10   x11 61  63
Q3    62 mii lei.
2 2

Cu interpretarea:
 75 % dintre termenii seriei au valori mai mici decât 62 mii lei (Q3 este percentila de ordinul 75), iar
25% dintre termenii seriei au valori mai mari ca 62 mii lei;
sau
 75% dintre lucrările de grafica licitate s-au vândut pentru un preț mai mic decât 62 mii lei, iar restul
de 25% dintre ele s-au vândut cu un preț mai mare de 62 mii lei.

x1  x2   x3  x4   x5   x6   x7   x8   x9   x10   x11  x12   x13
     
25%  50%  25%
Q1 Q3

36 62

Jumătate din termenii din mijlocul seriei au valori cuprinse între Q1=36 mii lei și Q3=62 mii lei.
Abaterea intercuartilică este IQR=Q3-Q1=26 mii lei.

Definiție:
O valoare x este outlier pentru un set de date statistice numerice dacă: x  Q1 1,5  IQR sau
x  Q3  1,5  IQR
sau
valoarea x este outlier pentru un set de date statistice dacă se găsește în afara intervalului
Q1 1,5  IQR; Q3  1,5  IQR .
În cazul nostru, Q1  1,5  IQR; Q3  1,5  IQR   3;101 , deci numai valoarea 124 este outlier în raport cu
setul inițial de date statistice.

În concluzie,
a) fals;
b) adevărat;
c) adevărat;
d) adevărat;
e) numai valoarea 124 mii lei este outlier în raport cu seria inițială de date.

2
2. Pentru 39 de actrițe care au obținut premiul Oscar se cunoaște vârsta, în ani împliniți, la momentul
câștigării premiului:
50, 44, 35, 80, 26, 28, 41, 21, 61, 38, 49, 33, 74, 30, 33, 41, 31, 35, 41, 42,
37, 26, 34, 34, 35, 26, 61, 60, 34, 24, 30, 37, 31, 27, 39, 34, 26, 25, 33 ani.
Se cere:
a) să se determine și să se interpreteze indicatorii tendinței centrale și cuartilele acestei serii de date;
b) să se construiască diagrama box-plot (sau diagrama cu mustăți box-and-whisker), punând în evidență
dacă seria are valori extreme;
c) să se calculeze indicatorii variației și să se stabilească dacă seria este omogenă;
d) analizați asimetria;
e) Descriptive Statistics.

Rezolvare:
a) Populația statistică este mulțimea actrițelor care au câștigat premiul Oscar.
Unitatea statistică este o actriță.
Variabila sau caracteristica de interes, notata X, este variabila ce arata vârsta unei actrițe la momentul
obținerii premiului; variabila numerica, discreta.
Pentru un eșantion de volum n  39 de actrițe se cunosc valorile variabilei X, adică {x1=50, x2=44, x3=35,
x4=80, ..., xn=x39=33 ani}, care reprezintă o serie simplă sau nesistematizata de date statistice numerice.
n

x1  x2  ...  xn 
xi
 Media unei serii simple de date numerice x1 , x2 , ..., xn  este x   i 1
.
n n
In cazul acestei serii, vârsta medie a unei actrițe din eșantion care a câștigat premiul Oscar este
39

x
x1  x2  ...  x39 i 1 i 1486
x    38,1025  38 ani.
39 39 39
 Pentru a determina mediana, vom proceda astfel:
- seria simplă de date se ordonează crescător x1  x2   ...  xn  , unde xi  , i  1, n este elementul cu
rangul i din seria ordonata crescător,
n 1
- locul medianei este  20  N  Me  x20   34 ani.
2
Jumătate dintre actrițele din selecție au obținut premiul Oscar la o vârsta de cel mult 34 ani (jumătate dintre
actrițele din eșantion au câștigat premiul Oscar la o vârsta de peste 34 ani).
 Există două valori care au frecvența maximă și anume valorile 26 ani și 34 ani, care apar pentru 4
actrițe fiecare.

Nr. crt. Vârsta actrițelor x i Vârsta actrițelor, în ordine crescătoare xi 


1 x1=50 x(1)=21
2 x2=44 x(2)=24
3 x3=35 x(3)=25
4 x4=80 x(4)=26
5 x5=26 x(5)=26
6 28 26
7 41 26
8 21 27
9 61 28
10 38 x(10)=30=Q1
11 49 30
12 33 31
13 74 31
14 30 33
15 33 33

3
Nr. crt. Vârsta actrițelor x i Vârsta actrițelor, în ordine crescătoare xi 
16 41 33
17 31 34
18 35 34
19 41 34
20 42 x(20)=34=Me
21 37 35
22 26 35
23 34 35
24 34 37
25 35 37
26 26 38
27 61 39
28 60 41
29 34 41
30 24 x(30)=41=Q3
31 30 42
32 37 44
33 31 49
34 27 x(34)=50
35 39 x(35)=60
36 34 x(36)=61
37 26 x(37)=61
38 25 x(38)=74
39 x39=33 x(39)=80

 Determinarea cuartilelor:
n 1
- LQ1   1  10  N  Q1  x10   30 ani; un sfert dintre actrițe au câștigat premiul Oscar la o
4
vârsta mai mica sau egala cu 30 de ani, iar restul la cel puțin 30 ani;
n 1
- LQ3   3  30  N  Q3  x30   41 ani; trei sferturi dintre actrițe au câștigat premiul Oscar la o
4
vârsta mai mică sau egală cu 41 ani, iar restul la cel puțin 41 ani.
 Abaterea intercuartilică este IQR  Q3  Q1  11 ani și arata lungimea intervalului în care se găsesc
jumătate dintre valorile din mijlocul seriei de date.
b) Diagrama cu mustăți (box-and-whisker) sau diagrama box-plot pentru o serie de date statistice numerice
se construiește punând în evidenta următoarele cinci elemente și eventualele valori extreme sau outliers:
- cuartila inferioara sau de ordinul 1, Q1=30 ani;
- mediana sau cuartila de ordinul al 2-lea, Q2=Me=34 ani;
- cuartila superioara sau de ordinul al 3-lea, Q3=41 ani;
- limita sau marginea inferioară a diagramei box-plot este cea mai mică dintre valorile seriei de date
cu proprietatea că este mai mare sau egală cu Q1  1,5  IQR , adică
 
lim inf box plot  min xi  , i  1, n xi   Q1  1,5  IQR :
o Q1  1,5  IQR  13,5
o cea mai mică dintre valorile seriei de date, cu proprietatea ca este  13,5 , este x(1)=21 ani, deci
marginea inferioară este egală cu 21 ani, lim inf box plot  21  x1 ;
- limita sau marginea superioară a diagramei box-plot este cea mai mare dintre valorile seriei de date
cu proprietatea ca este mai mică sau egală cu Q3  1,5  IQR , adică
 
lim sup box plot  max xi  , i  1, n xi   Q3  1,5  IQR :
o Q3  1,5  IQR  57,5

4
o cea mai mare dintre valorile seriei de date, cu proprietatea ca este  57,5 , este x(34)=50 ani,
deci marginea superioara este egală cu 50 ani, lim sup box plot  50  x34  .

Se observă că intervalul cuprins între marginea inferioară și cea superioară diagramei box-plot, adică
intervalul de numere reale [21; 50] nu conține toate valorile observate, în afara lui rămânând valorile
x(35)=60, x(36)=61, x(37)=61, x(38)=74, x(39)=80 ani.
Valoarea x este outlier pentru seria de date statistice numerice dacă x se găsește în afara intervalului
Q1 1,5  IQR; Q3  1,5  IQR  13,5; 57,5, x(35)=60, x(36)=61, x(37)=61, x(38)=74, x(39)=80 sunt outliers și vor
fi reprezentate distinct în diagrama box-plot.

Diagrama box-plot sau diagrama cu mustăți (box-and-whisker).

Diagrama box-plot în SPSS.

c) Dispersia de selecție (sample variance) pentru o serie simpla de date numerice asupra variabilei X este
n

 x  x
2

s x2 
x1  x 
2
 ...  xn  x 
2
 i 1
i
,
n 1 n 1

5
39

 x  x
2
i
6791,5897
adică s x2  i 1
  178,7260 ,
39  1 39  1
abaterea standard (standard deviation) este s x  s x2  13,3688 ani.
sx
Coeficientul de variatie este v x   100  35,09%  35% , ceea ce indica faptul ca seria de date nu este
x
omogenă, iar media nu este reprezentativă pentru colectivitate, ca indicator al tendinței centrale.
Nr. crt. Vârsta actrițelor x i xi  x xi  x 2
1 x1=50 11,8974 141,5489
2 x2=44 5,8974 34,7797
3 x3=35 -3,1026 9,6259
4 x4=80 41,8974 1755,3951
5 x5=26 -12,1026 146,4720
6 28 -10,1026 102,0618
7 41 2,8974 8,3951
8 21 -17,1026 292,4977
9 61 22,8974 524,2925
10 38 -0,1026 0,0105
11 49 10,8974 118,7541
12 33 -5,1025 26,0361
13 74 35,8974 1288,6259
14 30 -8,1025 65,6515
15 33 -5,1025 26,0361
16 41 2,8974 8,3951
17 31 -7,1025 50,4464
18 35 -3,1025 9,6259
19 41 2,8974 8,3951
20 42 3,8974 15,1900
21 37 -1,1025 1,2156
22 26 -12,1025 146,4720
23 34 -4,1025 16,8310
24 34 -4,1025 16,8310
25 35 -3,1025 9,6259
26 26 -12,1025 146,4720
27 61 22,8974 524,2925
28 60 21,8974 479,4977
29 34 -4,10256 16,8310
30 24 -14,1025 198,8823
31 30 -8,1025 65,6515
32 37 -1,1025 1,2156
33 31 -7,1025 50,4464
34 27 -11,1025 123,2669
35 39 0,8974 0,8053
36 34 -4,1025 16,8310
37 26 -12,1025 146,4720
38 25 -13,1025 171,6771
39 x39=33 -5,1025 26,0361
39 39 39

x  1486  x  x  0  x  x   6791,5897
2
i i i
i 1 i 1 i 1

x  38,1025 s x2  178,7260
s x  s x2  13,3688
v x  35,09%

d) Asimetria unei serii de distribuție de frecvențe se poate stabili:


- prin compararea indicatorilor tendinței centrale;
- prin analiza distanței între mediană și cele două cuartile inferioară și superioară;
- prin calculul și interpretarea valorii unui indicator specific, coeficientul de asimetrie,

6
- se observă din reprezentarea grafică prin histogramă sau poligonul frecvențelor.
- Cum Me  34  38,1025  x , atunci concluzionăm că seria de date prezintă asimetrie pozitivă.
- Cum mediana este mai apropiata de Q1 decât de Q2, adică Me  Q1  Q3  Me , așa cum se poate vedea din
diagrama box-plot, atunci concluzionăm că seria prezintă asimetrie pozitivă, în seria de date predominând
valorile mici.
n

 x  x
3
i
- Indicatorul asimetriei este coeficientul de asimetrie (Skewness) CAS  , al cărui semn și i 1

n  s x 
3

mărime arata tipul asimetriei (pozitivă sau negativă), iar mărimea arata gradul mai puțin accentuat sau mai
accentuat al asimetriei seriei de date sau al distribuției. în cazul acestei serii de date, CAS  1,5734 , o valoare
pozitiva și mai mare ca 1, ceea ce arată că seria de date prezintă o asimetrie pozitivă pronunțată.
- Sistematizarea printr-o serie de distribuție de frecvente pe r  6 intervale de variatie de mărime egala a
dat următoarea distribuție a celor n=39 de actrițe din eșantion după vârsta la momentul obținerii premiului
Oscar:

Frecvența absoluta n k
Centrul x k
Intervalul k de variatie a intervalului k de variatie
Nr. crt. al intervalului
(clasa de vârsta) (numărul de actrițe
k de variatie
din fiecare clasa de vârsta)
1 20-30 ani 11 25
2 30-40 ani 16 35
3 40-50 ani 7 45
4 50-60 ani 1 55
5 60-70 ani 2 65
6 70-80 ani 2 75
6

n
k 1
k  39=n

Reprezentarea grafica seriei de distribuție de frecvente pe intervale, adică histograma și poligonul


frecventelor sugerează că aceasta prezintă asimetrie pronunțată la dreapta sau asimetrie pozitivă, adică
predomină valorile mai mici ale variabilei de interes, cu coada mai lungă a distribuției spre valorile mari,
care apar cu frecvența mai mică. Între cele 39 de actrițe câștigătoare ale premiului Oscar, predomină cele
cu vârste relativ mai mici.

Histograma - distribuția celor n=39 actrițe după variabila vârstă la Poligonul frecvențelor pentru seria de distribuție de frecvențe
momentul câștigării premiului Oscar
18 16
18
16
Frecvența absolută (număr actrițe)

16
16
14
14 11
12
11
Număr actrițe

12
10
10
7
7 8
8
6 6

4 4 2 2
2 2 1
2 1 2
0 0
20 30 40 50 60 70 80 90 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90
Vârsta - în ani (intervalele sau clasele de vârstă)
Vârsta - în ani (centrele intervalelor)

e) Indicatorii tendinței centrale, principalii indicatori ai variației și ai formei distribuției pentru o serie
simplă de date numerice pot fi calculați în Excel și în SPSS, output-urile fiind de forma:

7
Output-ul Descriptive Statistics în Excel Output-ul Descriptive Statistics în SPSS

Vârsta actrițelor Statistics


Vârsta actrițelor Oscar
Mean (media) x  38.1025 N Valid 39
Standard Error 2.1407 Missing 0
Median Me=34 Mean x  38.10
Mode Mo=26
Std. Error of Mean 2.141
Standard Deviation
(abaterea standard) s x  s x2  13.3688 Median Me=34.00
Sample Variance
(dispersia de selecție) s  178.7260
2
x
Mode Mo=26a
Std. Deviation
Kurtosis 2.3830 s x  s x2  13.369
Skewness
(coeficientul de asimetrie) CAS  1.5734 Variance
s x2  178.726
Range
Ax  xmax  xmin  59
(Amplitudinea) Skewness CAS  1.573
Minimum xmin  21 Std. Error of Skewness .378
Maximum xmax  80 Kurtosis 2.383
39 Std. Error of Kurtosis .741
Sum x
i 1
i  1486 Range Ax  xmax  xmin 
59
Count n=39
Minimum xmin  21
Maximum xmax  80
Sum 39

x
i 1
i  1486

Percentiles 25 Q1  30.00
50 Q2  Me  34.00
75 Q3  41.00
a. Multiple modes exist. The smallest value is shown

Observație: Analiza boltirii/aplatizării


Boltirea(kurtosis, în engl.) exprimă înălțimea curbei („cocoașei”) comparativ cu distribuția normală
teoretică. Întâlnim, astfel distribuții leptocurtice, ascuțite (cu „cocoașa” înaltă) și distribuții platicurtice,
aplatizate. Coeficientul de boltire sau aplatizare (kurtosis) este o măsură a împrăștierii fiecărei observații
în jurul unei valori centrale și se determină, pe eșantion, cu formula:
n n

 x  x  x  x
4 2
i i
CBA  i 1
 3 , unde s x2  i 1
.
 
n s 2 2
x
n 1

Definiția este bazată pe momentul centrat de ordinul 4.


Interpretarea valorii coeficientului de aplatizare și boltire:
 Dacă CBA  0 , avem distribuție leptocurtică, valorile variabilei fiind concentrate în jurul indicatorilor
tendinței centrale;
 Dacă CBA  0 , avem distribuție platicurtica, valorile variabilei fiind dispersate în raport cu indicatorii
tendinței centrale;
 Dacă CBA  0 , avem distribuție mezocurtică, adică distribuția normală.
În cazul acestei serii de date statistice, CAB  2,383  0 , ceea ce indică o distribuție leptocurtică (cu
cocoașa, așa cum se poate vedea și din histogramă sau poligonul frecvențelor).
8
3. Un agent al companiei de asigurări W vinde contracte de asigurare de locuințe. În luna iulie a încheiat: 2
contracte cu prime anuale de 50 Euro, 3 contracte cu prime anuale de 60 Euro, 6 contracte cu prime de 70
Euro, 9 contracte cu prime de 90 Euro, 16 contracte cu prime anuale de 120 Euro, 8 contracte cu prime
anuale de 130 Euro și 6 contracte cu prime de 140 Euro.
Se cere:
a) Construiți seria de distribuție de frecvențe și analizați grafic tendința de normalitate a acesteia;
b) Caracterizați omogenitatea și asimetria distribuției contractelor în funcție de valoarea primelor anuale;
c) Calculați media și abaterea standard a variabilei alternative care evidențiază contractele cu prime anuale
de valoare mai mica sau egala cu 90 Euro.

Rezolvare:
a) Populația statistică este reprezentată de mulțimea contractelor de asigurare de locuințe din portofoliul
companiei W;
Unitatea statistică este un contract de asigurare de locuință;
Variabila statistică sau caracteristica de interes, notată X, este variabila ce arată mărimea primei anuale, în
Euro, pentru un contract de asigurare de locuință încheiat de un agent al companiei; variabilă numerică,
continuă.
Agentul a încheiat într-o lună n=50 de contracte, seria de date statistice referitoare la primele anuale ale
acestor contracte fiind sistematizată într-o serie de distribuție de frecvente pe r=7 variante distincte. Astfel
distribuția celor n=50 de contracte după valoarea primei anuale, în Euro, este:

Nr. crt. Valoarea x k Euro a unei prime anuale Numărul de contracte, n k , (frecvența absoluta)

1 x1  50 Euro n1  2 contracte
2 x2  60 Euro n2  3
3 x3  70 Euro n3  6
4 x4  90 Euro n4  9
5 x5  120 Euro n5  16
6 x6  130 Euro n6  8
7 x7  140 Euro n7  6
7

n
k 1
k  50  n contracte

 x  50 Eur x2  60 x3  70 x4  90 x5  120 x6  130 x7  120 


sau X :  1 ,
 n1  2 contracte n2  3 n3  6 n4  9 n5  16 n6  8 n7  6 
7
unde n
k 1
k  50  n contracte.
18
16
Frecvența absolută (număr de contracte)

16
14
12
10 9
8
8
6 6
6
4 3
2
2
0
0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160
Prima anuală de asigurare a unui contract, în Euro

Poligonul frecvențelor absolute - distribuția celor 50 de contracte încheiate de agentul de asigurări după valoarea primei anuale

9
Poligonul frecventelor sugerează ca distribuția are tendință de normalitate, dar prezintă asimetrie la
stânga, coada poligonului fervențelor absolute fiind mai alungită spre stânga.
b) Media pentru o serie de distribuție de frecvente pe r variante distincte ale variabilei de interes este
r

x  nk
x  n  ...  xr  nr
 
k
x 1 1  k 1
, unde xk , k  1, r sunt variantele distincte observate ale variabilei, iar
n1  ...  nr n
r

n
k 1
k  n volumul eșantionului.
7

x
5310 k  nk
În cazul nostru, x  k 1

 106,2 Euro este valoarea medie a unei prime anuală
50 50
corespunzătoare unui contract de asigurare de locuința încheiat de respectivul agent de vânzări.
Mediana pentru o serie de distribuție de frecvente pe r variante distincte se calculează parcurgând următorii
pași:
 Cele r variante distincte sunt ordonate crescător x1  x2  ...  xr .
n 1
 Se determină locul medianei, adică  25,5 .
2
 Se calculează frecvențele absolute cumulate crescător ale celor r variante distincte Fck  n1  ...  nk ,
k  1, r .
 Mediana este acea valoare distincta cu proprietatea ca frecvența sa absoluta cumulata crescător este
prima care depășește locul medianei:
Fc1  2  25,5; Fc 2  5  25,5; Fc3  11  25,5; Fc 4  20  25,5;
Fc5  36  25,5 , deci a 5-a variantă sau valoare distinctă, x 5 , este mediana sau valoarea mediană:
Me  x5  120 Euro, adică jumătate dintre contractele încheiat de agentul de vânzări au o primă anuală
de valoare mai mică sau egală cu 120 Euro.

Valoarea
Nr.
crt.
distinctă, n k , (frecvența x k  nk Fck  n1  ...  nk xk  x 2  nk
xk Euro absolută)

1 x1  50 n1  2 x1  n1  100 Fc1  n1  2 x2  x 2  n1  6316,88


2 x2  60 n2  3 x2  n2  180 Fc 2  n1  n2  5 x2  x 2  n2  6403,32
3 x3  70 n3  6 420 Fc3  n1  n2  n3  11 7862,64

4 x4  90 n4  9 810 Fc 4  n1  ...  n4  20 2361,96

5 x5  120 n5  16 1920 Fc5  n1  ...  n5  36 3047,04

6 x6  130 n6  8 1040 Fc6  n1  ...  n6  44 4531,52

7 x7  140 n7  6 840 Fc 7  n1  ...  n7  n  50  x7  x 2


 n7  6854,64
7 7 7

n  50  n x  nk  5310  x  x   nk  37378
2
k k k
k 1 k 1 k 1

x  106,2 s x2  762,8163265
s x  s x2  27,61912972
v x  26,01%
Modul sau valoarea modală pentru o serie de distribuție de frecvențe pe r variante distincte este acea
variantă sau valoare care apare cu frecvența absolută sau relativă cea mai mare:
10
 
 Frecvența absolută cea mai mare este: 16  n5  max nk , k  1, r ⇒ valoarea modală este a 5-a variantă
sau valoare distinctă de răspuns a variabilei de interes, Mo  x5  120 Euro, aceasta fiind valoarea cea
mai des întâlnita a unei prime anuale pentru contractele încheiate de respectivul agent.

Relația în care se găsesc indicatorii tendinței centrale, x  Me  Mo , ca și reprezentarea grafică pentru


poligonul frecvențelor absolute sau relative, arată că distribuția contractelor după valoarea primelor anuale
prezintă asimetrie negativă, în serie predominând valorile mai mari ale primelor anuale, iar coada
distribuției este alungită spre stânga.

Dispersia în eșantion (de selecție) pentru o serie de distribuție de frecvențe pe r variante este:
r

 x  x   nk
2

s x2 
x1  x 
2
 n1  ...  xr  x   nr
2
 k 1
k
 
, unde xk , k  1, r sunt variantele distincte observate
n1  ...  nr   1 n 1
r
ale variabilei, n
k 1
k  n volumul eșantionului.
7

 x  x   nk
2
k
37378
În cazul nostru, s x2  k 1
  762,8163 , iar abaterea standard sau abaterea medie
50  1 50  1
pătratica este s x  s  27 ,6191 Euro, care arată cu cat se abat, în medie, valorile observate față de nivelul
2
x

mediu în eșantion al primelor anuale.


sx 27,6191
Coeficientul de variatie în eșantion este v x  100  100  26,01%  30% , ceea ce arată că
x 106,2
distribuția este omogenă și media este reprezentativă pentru colectivitate.

c) Definim “evenimentul favorabil” ca evenimentul ca un contract de asigurare are o primă anuală de


valoare mai mică sau egală cu 90 Euro. Variabila alternativă care evidențiază contractele ale căror prime
 0 1
anuale sunt de valoare mai mică sau egală cu 90 Euro este Y :   ,
 n  m m
unde Y  1 pentru unitățile statistice din eșantion care verifica evenimentul favorabil, iar m este numărul
de unități statistice din eșantion care verifică evenimentul favorabil, m  n1  n2  n3  n4  20
contracte,
iar Y  0 pentru unitățile statistice din eșantion care nu verifică evenimentul favorabil, n  m este
numărul de unități statistice din eșantion pentru care nu se verifică evenimentul favorabil,
n  m  30 de contracte cu prime anuale mai mari de 90 Euro.

m 20
Media variabilei alternative este f    0,4 , adică 40% dintre contracte au valori ale primelor anuale
n 50
mai mici sau egale cu 90 Euro.
m  m m  m
Dispersia variabilei alternative este s y2   1    0,24 , iar abaterea standard s f   1    0,48
n  n n  n

11
4. La o bancă se analizează distribuția a 500 de debitori restanțieri după situația datelor de întârziere a
rambursării creditelor. Datele au fost sistematizate astfel:

Intervale de variație a numărului de zile de întârziere a plății Ponderea cumulată a debitorilor (%)
mai puțin 25 de zile 25
25-35 de zile 75
35-45 de zile 85
45-55 de zile 93
55-65 de zile 98
peste 65 de zile 100

Se cere:
a) să se scrie distribuția de frecvente pe intervale de variatie;
b) să se reprezinte grafic distribuția de frecvente absolute;
c) să se calculeze și să se analizeze indicatorii tendinței centrale și să se stabilească daca durata medie de
întârziere a plaților este reprezentativă;
d) să se calculeze media și abaterea standard pentru variabila alternativă care evidențiază debitorii ce au
întârziat mai mult de 45 de zile cu efectuarea plaților.

Rezolvare:
a) Populația statistică – mulțimea debitorilor cu întârziere în efectuarea plaților pentru rambursarea unor
credite;
Unitatea statistică – un debitor;
Variabila sau caracteristica de interes, X, este variabila ce arată numărul de zile de întârziere a efectuării
plații către banca de către un debitor; variabila numerică, discretă.
S-a realizat o selecție de volum n  500 de debitori restanțieri pentru care s-a înregistrat numărul de zile
de întârziere, datele obținute fiind sistematizate într-o serie de distribuție de frecvente pe r  6 intervale de
variatie de mărime egală.
Notam cu:
 nk , k  1, r , frecvența absolută a intervalului k de variatie (numărul de debitori restanțieri pentru care
numărul de zile de întârziere aparține intervalului k de variatie), n1  ...  nr  n ;

 nk*  k  0;1, k  1, r , frecvența relativă a intervalului k de variatie, n1*  ...  nr*  1 ;


n
n
n
 nk* %  100  k , k  1, r , frecvența relativă exprimată procentual a intervalului k de variație sau ponderea
n
debitorilor cu numărul de zile de întârziere din intervalul sau clasa k, n1* %  ...  nr* %  100% ;
 Fck  n1  ...  nk , k  1, r , este frecvența absolută cumulată crescător a intervalului k;
 Fck*  n1*  ...  nk* , k  1, r , este frecvența relativă cumulată crescător a intervalului k;
 Fck* %  n1* %  ...  nk* %, k  1, r , este frecvența relativă exprimată procentual cumulată crescător a
intervalului k (ponderea cumulată a intervalului k).

Ponderea cumulată Ponderea Frecvența relativă,


Nr.
Intervalul k de Frecvența absolută,
variație a nr. de zile a debitorilor (%) intervalului k, n* %
crt.
de întârziere a plății Fck* %  n1* %  ...  nk* % nk* % nk*  k nk  n  nk*  500  nk*
100
1 15-25 de zile Fck* %  n1* %  25% n1* %  25% n1*  0,25 n1  125
2 25-35 de zile Fc*2 %  n1* %  n2* %  75% n2* %  50% n2*  0,50 n2  250
3 35-45 de zile Fc*3 %  n1* %  ...  n3* %  85% n3* %  10% n3*  0,10 n3  50
4 45-55 de zile Fc*4 %  n1* %  ...  n4* %  93% n4* %  8% n4*  0,08 n4  40

12
Ponderea cumulată Ponderea Frecvența relativă,
Nr.
Intervalul k de Frecvența absolută,
variație a nr. de zile a debitorilor (%) intervalului k, n* %
crt.
de întârziere a plății F %  n %  ...  n %
* * * *
n % nk*  k nk  n  nk*  500  nk*
ck 1 k k 100
5 55-65 de zile F %  n %  ...  n %  98%
*
c5
*
1
*
5 n %  5%
*
5 n5*  0,05 n5  25
6 65-75 de zile Fc*6 %  n1* %  ...  n6* %  100% n6* %  2% n6*  0,02 n6  10
6 6 6

 n %  100%  n
k 1
*
k
k 1
*
k 1 n
k 1
k  500  n

Distribuția celor 500 de debitori după numărul de zile de întârziere a plății este următoarea serie de
distribuție de frecvențe pe intervale:

Nr. Intervalul k de variație a numărului Numărul de debitori Centrul x k al


crt. de zile de întârziere a plății (frecvența absolută) n k intervalului k de variație
1 15-25 de zile n1  125 debitori x1  20
2 25-35 de zile n2  250 x2  30
3 35-45 de zile n3  50 x3  40
4 45-55 de zile n4  40 x4  50
5 55-65 de zile n5  25 x5  60
6 65-75 de zile n6  10 x6  70
6

n
k 1
k  500  n debitori

b)

Histograma Poligonul frecvențelor absolute


300
300
250 250
250
200
Număr debitori

200
Număr debitori

150
150 125

100 100
50
40 50
50 25
10
0 0
0 15 25 35 45 55 65 75 0 20 40 60 80
Număr zile de întârziere Numărul de zile de întârziere (centrul de interval)

Distribuția celor 500 de debitori după numărul de zile de întârziere a plații Poligonul frecventelor absolute pentru distribuția celor 500 de debitori
după numărul de zile de întârziere a plaților

c)
Numărul de Centrul
Nr.
crt.
Intervalul k
debitori, n k intervalului x k
x k  nk Fck xk  x 2  nk
1 15-25 de zile
n1  125 x1  20 x1  n1  2500 Fc1  125 x1  x 2  n1  19220
2 25-35 de zile n2  250 x2  30 7500 Fc 2  375 1440

3 35-45 de zile n3  50 x3  40 2000 Fc 3  425 2888

13
Numărul de Centrul
Nr.
crt.
Intervalul k
debitori, n k intervalului x k
x k  nk Fck xk  x 2  nk
4 45-55 de zile n4  40 x4  50 2000 465 12390,4
5 55-65 de zile n5  25 x5  60 1500 490 19044

6 65-75 de zile
n6  10 x6  70 x6  n6  700 Fc 6  500  x6  x  2
 n6  14137,6
6 6 6

n  500  n x  nk  16200  x  x   nk  =69120


2
k k k
k 1 k 1 k 1

x  32,4 s x2  138,5170
s x  s x2  11,7693
v x  36,33%
6

x1  n1  ...  xr  n6 
x k  nk
16200
Media este x   k 1
 , deci x  32,4 zile este numărul mediu de zile de
n1  ...  n6 n 500
întârziere a plăților pentru un debitor restanțier.

n 1 n 1
Locul medianei este  250,5 ; primul interval cu proprietatea ca Fck  este intervalul 25-35 de
2 2
n 1
 Fc Me1
zile, deoarece Fc1  125  250,5 , dar Fc 2  375  250,5 , deci: Me  xinf Me  hMe  2 
nMe
250,5  125
 25  10   30,02 zile, adică jumătate dintre debitorii restanțieri au întârziat cel puțin 30 de
250
zile cu efectuarea plăților.

Intervalul modal este intervalul 25-35 de zile deoarece are frecvența absoluta cea mai mare
 
250  n2  max nk , k  1,6 , atunci Mo  xinf Mo  hMo 
1
1   2
 25  10 
250  125
250  125  250  50
 28,84 zile;

numărul cel mai întâlnit de zile de întârziere a plăților celor 500 de debitori restanțieri este de aproximativ
29 de zile.

Relația în care se găsesc cei trei indicatori ai tendinței centrale este Mo  Me  x , ceea ce indică o asimetrie
pozitivă.
6

 x  x   nk
2

Dispersia în eșantion este s x2 


x1  x 
2
 n1  ...  x6  x   n6

2
k 1
k

69120
, deci
n1  ...  n6   1 500  1 500  1
s x2  138 ,5170 , iar abaterea standard s x  s x2  11,7693 zile, care arată cu câte zile se abat, în medie,
valorile observate ale seriei de date față de numărul mediu de zile de întârziere.

sx 11,7693
Coeficientul de variație în eșantion este v x  100  100  36,33%  35% , ceea ce arată că
x 32,4
distribuția nu este omogenă și media, ca indicator al tendinței centrale, nu este reprezentativă pentru
colectivitate.

14
d) Definim “evenimentul favorabil” ca evenimentul ca un debitor întârzie cu plățile mai mult de 45 de zile.
Variabila alternativă care evidențiază debitorii ce au întârziat mai mult de 45 de zile cu efectuarea plaților
 0 1
este Y :   ,
 n  m m
unde Y  1 pentru unitățile statistice din eșantion care verifică evenimentul favorabil, iar m este numărul
de unități statistice din eșantion pentru care se verifică evenimentul favorabil, m  n4  n5  n6  75
debitori,
iar Y  0 pentru unitățile statistice din eșantion care nu verifica evenimentul favorabil, n  m este
numărul de unități statistice din eșantion pentru care nu se verifică evenimentul favorabil,
n  m  425 debitori.
m 75
Media variabilei alternative este f    0,15 , adică 15% dintre debitori au întârziat mai mult de
n 500
45 de zile.
m  m m  m
Dispersia variabilei alternative este s 2f   1    0,1275 , iar abaterea standard: s f   1    0,36
n  n n  n
.

15

S-ar putea să vă placă și