Sunteți pe pagina 1din 11

Aplicații rezolvate - 1

Exemplul 1 Următoarea serie de date arată prețul de vânzare (sute lei) pentru 13 lucrări de grafică la o
licitație de obiecte de artă: 51, 60, 72, 35, 32, 57, 63, 61, 48, 33, 67, 54, 37.

Stabiliți valoarea de adevăr a următoarelor afirmații, justificând răspunsurile:


a) 25 % dintre lucrările licitate s-au vândut pentru un preț mai mic de 48 sute de lei;
b) jumătate dintre lucrările licitate au un preț mai mic sau egal cu 54 sute lei;
c) 25 % dintre lucrări s-au vândut cu cel puțin 62 sute de lei;
d) pentru 75% dintre obiecte s-a obținut un preț de cel puțin 36 sute lei;
e) precizați care dintre următoarele valori: 25, 29, 16, 40, 124, 85, 99,8 sute lei sunt outliers in raport
cu datele inițiale.
Rezolvare:
Cele n=13 valori ale seriei de date se ordonează crescător:
x(1)=32, x(2)=33, x(3)=35, x(4)=37, x(5)=48, x(6)=51, x(7)=54, x(8)=57, x(9)=60, x(10)=61, x(11)=63, x(12)=67, x(13)=72.

Q1 – cuartila de ordinul 1 sau cuartila inferioara


n 1 13  1
Locul lui Q1 este 1  1  3,50  N, dar 3 < 3,50 < 4
4 4
x3  x4  35  37
 x3  Q1  x4  si Q1    36 sute lei.
2 2
x1  x2   x3  x4   x5   x6   x7   x8   x9   x10  x11  x12  x13
  
25%  75%
Q1

36

Cu interpretarea:
 25 % dintre termenii seriei au valori mai mici decât 36 sute lei (Q1 este percentila de ordinul
25), iar 75% dintre termenii seriei au valori mai mari ca 36 sute lei;
sau
 25% dintre lucrările de grafica licitate s-au vândut pentru un preț mai mic decât 36 sute lei, iar
restul de 75% dintre ele s-au vândut cu un preț mai mare de 36 sute lei.
Q2=Me – cuartila de ordinul 2 sau mediana seriei de date statistice.
n  1 13  1
Locul lui Q2=Me este   7  N  Me  x7   54 sute lei
2 2

x1  x2   x3  x4   x5   x6   x7   x8   x9   x10  x11  x12  x13

 

50% Me 50%

54

Cu interpretarea:
 jumătate dintre termenii seriei au valori mai mici ca 54 sute lei (Me este percentila de ordinul
50), iar restul au valori mai mari ca 54 sute lei;
sau
 jumătate dintre lucrările de grafica licitate s-au vândut cu mai puțin de 54 sute lei, iar restul s-au
vândut cu un preț mai mare de 54 sute lei.
Q3 – cuartila de ordinul 3 sau cuartila superioara
n 1 13  1
Locul lui Q3 este 3   3  10,50  N, dar 10 < 10,50 < 11
4 4
x10  x11 61  63
 x10  Q3  x11 si Q3    62 sute lei.
2 2
x1  x2   x3  x4   x5   x6   x7   x8   x9   x10  x11  x12  x13
    
25%  75%
Q3

62

Cu interpretarea:
 75 % dintre termenii seriei au valori mai mici decât 62 sute lei (Q3 este percentila de ordinul
75), iar 25% dintre termenii seriei au valori mai mari ca 62 sute lei;
sau
75% dintre lucrările de grafica licitate s-au vândut pentru un preț mai mic decât 62 sute lei, iar
restul de 25% dintre ele s-au vândut cu un preț mai mare de 62 sute lei.

x1  x2   x3  x4   x5   x6   x7   x8   x9   x10  x11  x12  x13
     
25%  50%  25%
Q1 Q3

36 62

Jumătate din termenii din mijlocul seriei au valori cuprinse intre Q1=36 sute lei si Q3=62 sute lei.
Abaterea intercuatilica este IQR=Q3-Q1=26 sute lei.

Definiție: Spunem ca o valoare x este outlier pentru un set de date statistice numerice daca:
x  Q1 1,5  IQR sau x  Q3  1,5  IQR
sau
valoarea x este outlier pentru un set de date statistice daca se găsește in afara intervalului
Q1 1,5  IQR; Q3  1,5  IQR  .
In cazul nostru, Q1  1,5  IQR; Q3  1,5  IQR    3;101 , deci numai valoarea 124 este outlier in
raport cu setul inițial de date statistice.

In concluzie, a) fals; b) adevărat; c) adevărat; d) adevărat; e) numai valoarea 124 sute lei este
outlier in raport cu seria inițiala de date.

2
Exemplul 2 Pentru 39 de actrițe care au obținut premiul Oscar se cunoaște vârsta, in ani împliniți, la
momentul câștigării premiului:
50, 44, 35, 80, 26, 28, 41, 21, 61, 38, 49, 33, 74, 30, 33, 41, 31, 35, 41, 42,
37, 26, 34, 34, 35, 26, 61, 60, 34, 24, 30, 37, 31, 27, 39, 34, 26, 25, 33 ani.
Se cere:
a) sa se determine si sa se interpreteze indicatorii tendinței centrale si cuartilele acestei serii de date;
b) sa se construiască diagrama box-plot (sau diagrama cu mustăți box-and-whisker), punând in
evidenta daca seria are valori extreme;
c) sa se calculeze indicatorii variației si sa se stabilească daca seria este omogena;
d) analizați asimetria;

Rezolvare: a)
o Populația statistica este mulțimea actrițelor care au câștigat premiul Oscar.
o Unitatea statistica este o actrița.
o Variabila sau caracteristica de interes, notata X, este variabila ce arata vârsta unei actrițe la momentul
obținerii premiului; variabila numerica, discreta.
o Pentru un eșantion de volum n  39 de actrițe se cunosc valorile variabilei X, adică {x1=50, x2=44,
x3=35, x4=80, ..., xn=x39=33 ani}, care reprezintă o serie simpla sau nesistematizata de date statistice
numerice.
n

x1  x2  ...  xn i 1 i x
o Media unei serii simple de date numerice x1 , x2 , ..., xn  este x   .
n n
In cazul acestei serii, vârsta medie a unei actrițe din eșantion care a câștigat premiul Oscar este
39

x1  x2  ...  x39 
xi
1486
x  i 1
  38,1025 ani.
39 39 39
o Pentru a determina mediana, vom proceda astfel:
- seria simpla de date se ordonează crescător x1  x2   ...  xn  , unde xi  , i  1, n este
elementul cu rangul i din seria ordonata crescător,
n 1
- locul medianei este  20  N  Me  x20  34 ani.
2
Jumătate dintre actrițele din selecție au obținut premiul Oscar la o vârsta de cel mult 34 de ani (jumătate
dintre actrițele din eșantion au câștigat premiul Oscar la o vârsta de peste 34 de ani).
o Exista doua valori care au frecventa maxima si anume valorile 26 ani si 34 ani, care apar pentru 4 actrițe
fiecare.

Nr. crt. Vârsta actrițelor xi Vârsta actrițelor, in ordine crescătoare x i 


1 x1=50 x(1)=21
2 x2=44 x(2)=24
3 x3=35 x(3)=25
4 x4=80 x(4)=26
5 x5=26 x(5)=26
6 28 26
7 41 26
8 21 27
9 61 28
10 38 x(10)=30=Q1
11 49 30
12 33 31

3
13 74 31
14 30 33
15 33 33
16 41 33
17 31 34
18 35 34
19 41 34
20 42 x(20)=34=Me
21 37 35
22 26 35
23 34 35
24 34 37
25 35 37
26 26 38
27 61 39
28 60 41
29 34 41
30 24 x(30)=41=Q3
31 30 42
32 37 44
33 31 49
34 27 x(34)=50
35 39 x(35)=60
36 34 x(36)=61
37 26 x(37)=61
38 25 x(38)=74
39 x39=33 x(39)=80
o Pentru determinarea cuartilelor procedam astfel:
n 1
- locul cuartilei de ordinul 1, Q1, este 1  10  N  Q1  x10  30 ani; un sfert dintre
4
actrițe au câștigat premiul Oscar la o vârsta mai mica sau egala cu 30 de ani, iar restul la
cel puțin 30 de ani;
n 1
- locul cuartilei de ordinul 3, Q3, este  3  30  N  Q3  x30  41 ani; trei sferturi
4
dintre actrițe au câștigat premiul Oscar la o vârsta mai mica sau egala cu 41 de ani, iar
restul la cel puțin 41 de ani.
o Abaterea intercuartilică este IQR  Q3  Q1  11 ani si arata lungimea intervalului in care se găsesc
jumătate dintre valorile din mijlocul seriei de date.
b) Diagrama cu mustăți (box-and-whisker) sau diagrama box-plot pentru o serie de date statistice
numerice se construiește punând in evidenta următoarele cinci elemente si eventualele valori extreme sau
outliers:
- cuartila inferioara sau de ordinul 1, Q1=30 ani;
- mediana sau cuartila de ordinul al 2-lea, Q2=Me=34 ani;
- cuartila superioara sau de ordinul al 3-lea, Q3=41 ani;
- limita sau marginea inferioara a diagramei box-plot este cea mai mica dintre valorile
seriei de date cu proprietatea ca este mai mare sau egala cu Q1 1,5  IQR , adică
 
lim inf box plot  min xi  , i  1, n xi   Q1  1,5  IQR :
o Q1 1,5  IQR  13,5

4
o cea mai mica dintre valorile seriei de date, cu proprietatea ca este  13,5 , este
x(1)=21 ani, deci marginea inferioara este egala cu 21 ani,
lim inf box plot  21  x1 ;
- limita sau marginea superioara a diagramei box-plot este cea mai mare dintre valorile
seriei de date cu proprietatea ca este mai mica sau egala cu Q3  1,5  IQR , adică
 
lim sup box plot  max xi  , i  1, n xi   Q3  1,5  IQR :
o Q3  1,5  IQR  57,5
o cea mai mare dintre valorile seriei de date, cu proprietatea ca este  57,5 , este
x(34)=50 ani, deci marginea superioara este egala cu 50 ani,
lim sup box plot  50  x34 .

Se observa ca intervalul cuprins intre marginea inferioara si cea superioara diagramei box-plot,
adică intervalul de numere reale [21; 50] nu conține toate valorile observate, in afara lui rămânând valorile
x(35)=60, x(36)=61, x(37)=61, x(38)=74, x(39)=80 ani.
Valoarea x este outlier pentru seria de date statistice numerice daca x se găsește in afara intervalului
Q1 1,5  IQR; Q3  1,5  IQR   13,5; 57,5 , x(35)=60, x(36)=61, x(37)=61, x(38)=74, x(39)=80 sunt outliers si vor
fi reprezentate distinct in diagrama box-plot.

*
* * * *

21 30 34 41 50 60 61 74 80
(Q1) (Me) (Q3)

Fig. …. Diagrama box-plot sau diagrama cu mustăți (box-and-whisker).

5
Fig. …. Diagrama box-plot in SPSS.

c) Dispersia de selecție (sample variance) pentru o serie simpla de date numerice asupra variabilei X este
n

 x  x
2

s x2 
x1  x 
2
 ...  xn  x 
2
 i 1
i
,
n 1 n 1
39

 x  x
2
i
6791,5897
adică s x2  i 1
  178,7260 ,
39  1 39  1
abaterea standard (standard deviation) este s x  s x2  13,3688 ani.
sx
Coeficientul de variație este v x   100  35,09%  35% , ceea ce indica faptul ca seria de date
x
nu este omogena, iar media nu este reprezentativa pentru colectivitate, ca indicator al tendinței centrale.
Nr. crt. Vârsta actrițelor xi xi  x xi  x 2
1 x1=50 11,8974 141,5489
2 x2=44 5,8974 34,7797
3 x3=35 -3,1026 9,6259
4 x4=80 41,8974 1755,3951
5 x5=26 -12,1026 146,4720
6 28 -10,1026 102,0618
7 41 2,8974 8,3951
8 21 -17,1026 292,4977
9 61 22,8974 524,2925
10 38 -0,1026 0,0105
11 49 10,8974 118,7541
12 33 -5,1025 26,0361
13 74 35,8974 1288,6259
14 30 -8,1025 65,6515

6
15 33 -5,1025 26,0361
16 41 2,8974 8,3951
17 31 -7,1025 50,4464
18 35 -3,1025 9,6259
19 41 2,8974 8,3951
20 42 3,8974 15,1900
21 37 -1,1025 1,2156
22 26 -12,1025 146,4720
23 34 -4,1025 16,8310
24 34 -4,1025 16,8310
25 35 -3,1025 9,6259
26 26 -12,1025 146,4720
27 61 22,8974 524,2925
28 60 21,8974 479,4977
29 34 -4,10256 16,8310
30 24 -14,1025 198,8823
31 30 -8,1025 65,6515
32 37 -1,1025 1,2156
33 31 -7,1025 50,4464
34 27 -11,1025 123,2669
35 39 0,8974 0,8053
36 34 -4,1025 16,8310
37 26 -12,1025 146,4720
38 25 -13,1025 171,6771
39 x39=33 -5,1025 26,0361

39 39 39

 xi  1486   xi  x   0  x  x   6791,5897
2
i
i 1 i 1 i 1

x  38,1025 s x2  178,7260
s x  s x2  13,3688
v x  35,09%

d) Asimetria unei serii de distribuție de frecvențe se poate stabili:


- prin compararea indicatorilor tendinței centrale:
Cum Me  34  38,1025  x , atunci concluzionam ca seria de date prezinta asimetrie pozitiva.

- prin analiza distantei intre mediana si cele doua cuartile inferioara si superioara,
Cum mediana este mai apropiata de Q1 decât de Q2, adică Me  Q1  Q3  Me , așa cum se poate vedea
din diagrama box-plot, atunci concluzionam ca seria prezinta asimetrie pozitiva, in seria de date
predominând valorile mici.

- prin calculul si interpretarea valorii unui indicator specific, coeficientul de asimetrie,


Indicatorul asimetriei este coeficientul de asimetrie.
𝑥̅ −𝑀 3(𝑥̅ −𝑀 )
𝐶𝐴𝑆 = 𝑠 𝑜 sau 𝐶𝐴𝑆 = 𝑒
.
𝑠
Semnul coeficientului ne indica tipul asimetriei (pozitiva sau negativa), iar mărimea acestuia ne arata
gradul mai puțin accentuat sau mai accentuat al asimetriei seriei de date sau al distribuției.
3(𝑥̅ −𝑀𝑒 )
In cazul acestei serii de date, 𝐶𝐴𝑆 = = 0.30, o valoare pozitiva, ceea ce arata ca seria de date
𝑠
prezinta o asimetrie pozitiva.

- se observă din reprezentarea grafică prin histogramă sau poligonul frecvențelor.


7
Exemplul 3 Un agent al companiei de asigurări W vinde contracte de asigurare de locuințe. In luna iulie a
încheiat: 2 contracte cu prime anuale de 50 Euro, 3 contracte cu prime anuale de 60 Euro, 6 contracte cu
prime de 70 Euro, 9 contracte cu prime de 90 Euro, 16 contracte cu prime anuale de 120 Euro, 8 contracte
cu prime anuale de 130 Euro si 6 contracte cu prime de 140 Euro. Se cere:
a) Construiți seria de distribuție de frecvențe și analizați grafic tendința de normalitate a acesteia.
b) Caracterizați omogenitatea și asimetria distribuției contractelor în funcție de valoarea primelor
anuale.
c) Calculați media si dispersia variabilei alternative care evidențiază contractele cu prime anuale de
valoare mai mica sau egala cu 90 Euro.

Rezolvare: a)
o Populația statistica este mulțimea contractelor de asigurare de locuințe din portofoliul companiei W.
o Unitatea statistica este un contract de asigurare de locuința.
o Variabila statistica sau caracteristica de interes, notata X, este variabila ce arata mărimii primei anuale,
in Euro, pentru un contract de asigurare de locuința încheiat de un agent al companiei; variabila
numerica, continua.
o Agentul a încheiat într-o luna n=50 de contracte, seria de date statistice referitoare la primele anuale ale
acestor contracte fiind sistematizata într-o serie de distribuție de frecvente pe r=7 variante distincte.
Astfel distribuția celor n=50 de contracte după valoarea primei anuale, in Euro, este:

Nr. Valoarea x k Euro Numărul de contracte, nk ,


crt. a unei prime anuale (frecventa absoluta)
1 x1  50 Euro n1  2 contracte
2 x2  60 Euro n2  3
3 x3  70 Euro n3  6
4 x4  90 Euro n4  9
5 x5  120 Euro n5  16
6 x6  130 Euro n6  8
7 x7  140 Euro n7  6
7

n
k 1
k  50  n contracte

 x  50 Eur x2  60 x3  70 x4  90 x5  120 x6  130 x7  120 


sau X :  1 ,
 n1  2 contracte n2  3 n3  6 n4  9 n5  16 n6  8 n7  6 
7
unde n
k 1
k  50  n contracte.

o Reprezentarea grafica a acestei serii de distribuție este poligonul frecventelor absolute.

8
Poligonul frecventelor absolute - distributia celor 50 de contracte
incheiate de agentul de asigurari dupa valoarea primei anuale

18

16

Frecventa absoluta (numarul de contracte)


14

12

10

0
0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150

Prima anuala de asigurare a unui contract, in Eur

o Poligonul frecventelor sugerează ca distribuția are tendința de normalitate, dar prezinta asimetrie la
stânga, coada poligonului ferventelor absolute fiind mai alungita spre stânga.

b)
o Media pentru o serie de distribuție de frecvente pe r variante distincte ale variabilei de interes este
r

x k  nk
x1  n1  ...  xr  nr
x k 1
 ,
n n1  ...  nr

 
r
unde xk , k  1, r sunt variantele distincte observate ale variabilei, iar n k 1
k  n volumul eșantionului.
7

5310 x k  nk
In cazul nostru, x  
 106,2 Euro este valoarea medie a unei prime anuala
k 1

50 50
corespunzătoare unui contract de asigurare de locuința încheiat de respectivul agent de vânzări.
o Mediana pentru o serie de distribuție de frecvente pe r variante distincte se calculează parcurgând
următorii pași:
 Cele r variante distincte sunt ordonate crescător x1  x2  ...  xr .
n 1
 Se determina locul medianei, adică  25,5 .
2
 Se calculează frecventele absolute cumulate crescător ale celor r variante distincte
Fck  n1  ...  nk , k  1, r .
 Mediana este acea valoare distincta cu proprietatea ca frecventa sa absoluta cumulata
crescător este prima care depășește locul medianei
Fc1  2  25,5
Fc 2  5  25,5
Fc 3  11  25,5
Fc 4  20  25,5

9
si Fc5  36  25,5 , deci a 5-a varianta sau valoare distincta, x5 , este mediana sau valoarea
mediana: Me  x5  120 Euro, adică jumătate dintre contractele încheiat de agentul de
vânzări au o prima anuala de valoare mai mică sau egala cu 120 Euro.

Valoarea nk ,
Nr.
crt.
distincta,
(frecventa xk  nk Fck  n1  ...  nk xk  x 2  nk
xk Euro absoluta)
x2  x 2  n1 
1 x1  50 n1  2 x1  n1  100 Fc1  n1  2 6316,88
 x2  x  2
 n2 
2 x2  60 n2  3 x2  n2  180 Fc 2  n1  n2  5 6403,32

3 x3  70 n3  6 420 Fc3  n1  n2  n3  11 7862,64

4 x4  90 n4 9 810 Fc 4  n1  ...  n4  20 2361,96

5 x5  120 n5  16 1920 Fc5  n1  ...  n5  36 3047,04

6 x6  130 n6  8 1040 Fc 6  n1  ...  n6  44 4531,52


Fc 7  n1  ...  n7  n  x7  x  2
 n7 
7 x7  140 n7  6 840 50 6854,64
7

 x  x   nk 
2
7 7

n  50  n x  nk  5310
k
k k k 1
k 1 k 1 37378

x  106,2 s  762,8163265
2
x

s x  s x2 
27,61912972
v x  26,01%
o Modul sau valoarea modala pentru o serie de distribuție de frecvente pe r variante distincte este acea
varianta sau valoare care apare cu frecventa absoluta sau relativa cea mai mare:
 Frecventa absoluta cea mai mare este:
16  n5  max nk , k  1, r . 
 valoarea modala este deci a 5-a varianta sau valoare distincta de răspuns a variabilei de
interes, Mo  x5  120 Euro, aceasta fiind valoarea cea mai des întâlnita a unei prime
anuale pentru contractele încheiate de respectivul agent.
o Relația in care se găsesc indicatorii tendinței centrale, x  Me  Mo , ca si reprezentarea grafica pentru
poligonul frecventelor absolute sau relative, arata ca distribuția contractelor după valoarea primelor
anuale prezinta asimetrie negativa, in serie predominând valorile mai mari ale primelor anuale, iar coada
distribuției este alungita spre stânga.
o Dispersia in eșantion (de selecție) pentru o serie de distribuție de frecvente pe r intervale de variație
este
r

 x  x   nk
2

s x2  k 1
k

x1  x 2  n1  ...  xr  x 2  nr ,
r
n1  ...  nr 
n
k 1
k

 
r
unde xk , k  1, r sunt variantele distincte observate ale variabilei, n
k 1
k  n volumul eșantionului.

10
7

 x  x   nk
2
k
37378
In cazul nostru, s x2  k 1
  746,56 , iar abaterea standard sau abaterea medie
50 50
pătratica este s x  s  27,6191 Euro, care arata cu cat se abat, in medie, valorile observate fata de
2
x

nivelul mediu in eșantion al primelor anuale.


sx 27,6191
o Coeficientul de variație in eșantion este v x  100  100  26,01%  30% , ceea ce arata ca
x 106,2
distribuția este omogena si media este reprezentativa pentru colectivitate.
c) Definim “evenimentul favorabil” ca evenimentul ca un contract de asigurare are o prima anuala de
valoare mai mica sau egala cu 90 Euro. Variabila alternativa care evidențiază contractele ale căror prime
 0 1
anuale sunt de valoare mai mica sau egala cu 90 Euro este Y :   ,
 n  m m
unde Y  1 pentru unitățile statistice din eșantion care verifica evenimentul favorabil, iar m este numărul
de unități statistice din eșantion care verifica evenimentul favorabil, m  n1  n2  n3  n4  20
contracte,
iar Y  0 pentru unitățile statistice din eșantion care nu verifica evenimentul favorabil, n  m este
numărul de unități statistice din eșantion pentru care nu se verifica evenimentul favorabil,
n  m  30 de contracte cu prime anuale mai mari de 90 Euro.

m 20
Media variabilei alternative este f    0,4 , adică 40% dintre contracte au valori ale
n 50
primelor anuale mai mici sau egale cu 90 Euro.
m  m
Dispersia variabilei alternative este s y2   1    f  1  f   0,24 .
n  n

11

S-ar putea să vă placă și