Documente Academic
Documente Profesional
Documente Cultură
Exemplul 1 Următoarea serie de date arată prețul de vânzare (sute lei) pentru 13 lucrări de grafică la o
licitație de obiecte de artă: 51, 60, 72, 35, 32, 57, 63, 61, 48, 33, 67, 54, 37.
36
Cu interpretarea:
25 % dintre termenii seriei au valori mai mici decât 36 sute lei (Q1 este percentila de ordinul
25), iar 75% dintre termenii seriei au valori mai mari ca 36 sute lei;
sau
25% dintre lucrările de grafica licitate s-au vândut pentru un preț mai mic decât 36 sute lei, iar
restul de 75% dintre ele s-au vândut cu un preț mai mare de 36 sute lei.
Q2=Me – cuartila de ordinul 2 sau mediana seriei de date statistice.
n 1 13 1
Locul lui Q2=Me este 7 N Me x7 54 sute lei
2 2
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13
50% Me 50%
54
Cu interpretarea:
jumătate dintre termenii seriei au valori mai mici ca 54 sute lei (Me este percentila de ordinul
50), iar restul au valori mai mari ca 54 sute lei;
sau
jumătate dintre lucrările de grafica licitate s-au vândut cu mai puțin de 54 sute lei, iar restul s-au
vândut cu un preț mai mare de 54 sute lei.
Q3 – cuartila de ordinul 3 sau cuartila superioara
n 1 13 1
Locul lui Q3 este 3 3 10,50 N, dar 10 < 10,50 < 11
4 4
x10 x11 61 63
x10 Q3 x11 si Q3 62 sute lei.
2 2
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13
25% 75%
Q3
62
Cu interpretarea:
75 % dintre termenii seriei au valori mai mici decât 62 sute lei (Q3 este percentila de ordinul
75), iar 25% dintre termenii seriei au valori mai mari ca 62 sute lei;
sau
75% dintre lucrările de grafica licitate s-au vândut pentru un preț mai mic decât 62 sute lei, iar
restul de 25% dintre ele s-au vândut cu un preț mai mare de 62 sute lei.
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13
25% 50% 25%
Q1 Q3
36 62
Jumătate din termenii din mijlocul seriei au valori cuprinse intre Q1=36 sute lei si Q3=62 sute lei.
Abaterea intercuatilica este IQR=Q3-Q1=26 sute lei.
Definiție: Spunem ca o valoare x este outlier pentru un set de date statistice numerice daca:
x Q1 1,5 IQR sau x Q3 1,5 IQR
sau
valoarea x este outlier pentru un set de date statistice daca se găsește in afara intervalului
Q1 1,5 IQR; Q3 1,5 IQR .
In cazul nostru, Q1 1,5 IQR; Q3 1,5 IQR 3;101 , deci numai valoarea 124 este outlier in
raport cu setul inițial de date statistice.
In concluzie, a) fals; b) adevărat; c) adevărat; d) adevărat; e) numai valoarea 124 sute lei este
outlier in raport cu seria inițiala de date.
2
Exemplul 2 Pentru 39 de actrițe care au obținut premiul Oscar se cunoaște vârsta, in ani împliniți, la
momentul câștigării premiului:
50, 44, 35, 80, 26, 28, 41, 21, 61, 38, 49, 33, 74, 30, 33, 41, 31, 35, 41, 42,
37, 26, 34, 34, 35, 26, 61, 60, 34, 24, 30, 37, 31, 27, 39, 34, 26, 25, 33 ani.
Se cere:
a) sa se determine si sa se interpreteze indicatorii tendinței centrale si cuartilele acestei serii de date;
b) sa se construiască diagrama box-plot (sau diagrama cu mustăți box-and-whisker), punând in
evidenta daca seria are valori extreme;
c) sa se calculeze indicatorii variației si sa se stabilească daca seria este omogena;
d) analizați asimetria;
Rezolvare: a)
o Populația statistica este mulțimea actrițelor care au câștigat premiul Oscar.
o Unitatea statistica este o actrița.
o Variabila sau caracteristica de interes, notata X, este variabila ce arata vârsta unei actrițe la momentul
obținerii premiului; variabila numerica, discreta.
o Pentru un eșantion de volum n 39 de actrițe se cunosc valorile variabilei X, adică {x1=50, x2=44,
x3=35, x4=80, ..., xn=x39=33 ani}, care reprezintă o serie simpla sau nesistematizata de date statistice
numerice.
n
x1 x2 ... xn i 1 i x
o Media unei serii simple de date numerice x1 , x2 , ..., xn este x .
n n
In cazul acestei serii, vârsta medie a unei actrițe din eșantion care a câștigat premiul Oscar este
39
x1 x2 ... x39
xi
1486
x i 1
38,1025 ani.
39 39 39
o Pentru a determina mediana, vom proceda astfel:
- seria simpla de date se ordonează crescător x1 x2 ... xn , unde xi , i 1, n este
elementul cu rangul i din seria ordonata crescător,
n 1
- locul medianei este 20 N Me x20 34 ani.
2
Jumătate dintre actrițele din selecție au obținut premiul Oscar la o vârsta de cel mult 34 de ani (jumătate
dintre actrițele din eșantion au câștigat premiul Oscar la o vârsta de peste 34 de ani).
o Exista doua valori care au frecventa maxima si anume valorile 26 ani si 34 ani, care apar pentru 4 actrițe
fiecare.
3
13 74 31
14 30 33
15 33 33
16 41 33
17 31 34
18 35 34
19 41 34
20 42 x(20)=34=Me
21 37 35
22 26 35
23 34 35
24 34 37
25 35 37
26 26 38
27 61 39
28 60 41
29 34 41
30 24 x(30)=41=Q3
31 30 42
32 37 44
33 31 49
34 27 x(34)=50
35 39 x(35)=60
36 34 x(36)=61
37 26 x(37)=61
38 25 x(38)=74
39 x39=33 x(39)=80
o Pentru determinarea cuartilelor procedam astfel:
n 1
- locul cuartilei de ordinul 1, Q1, este 1 10 N Q1 x10 30 ani; un sfert dintre
4
actrițe au câștigat premiul Oscar la o vârsta mai mica sau egala cu 30 de ani, iar restul la
cel puțin 30 de ani;
n 1
- locul cuartilei de ordinul 3, Q3, este 3 30 N Q3 x30 41 ani; trei sferturi
4
dintre actrițe au câștigat premiul Oscar la o vârsta mai mica sau egala cu 41 de ani, iar
restul la cel puțin 41 de ani.
o Abaterea intercuartilică este IQR Q3 Q1 11 ani si arata lungimea intervalului in care se găsesc
jumătate dintre valorile din mijlocul seriei de date.
b) Diagrama cu mustăți (box-and-whisker) sau diagrama box-plot pentru o serie de date statistice
numerice se construiește punând in evidenta următoarele cinci elemente si eventualele valori extreme sau
outliers:
- cuartila inferioara sau de ordinul 1, Q1=30 ani;
- mediana sau cuartila de ordinul al 2-lea, Q2=Me=34 ani;
- cuartila superioara sau de ordinul al 3-lea, Q3=41 ani;
- limita sau marginea inferioara a diagramei box-plot este cea mai mica dintre valorile
seriei de date cu proprietatea ca este mai mare sau egala cu Q1 1,5 IQR , adică
lim inf box plot min xi , i 1, n xi Q1 1,5 IQR :
o Q1 1,5 IQR 13,5
4
o cea mai mica dintre valorile seriei de date, cu proprietatea ca este 13,5 , este
x(1)=21 ani, deci marginea inferioara este egala cu 21 ani,
lim inf box plot 21 x1 ;
- limita sau marginea superioara a diagramei box-plot este cea mai mare dintre valorile
seriei de date cu proprietatea ca este mai mica sau egala cu Q3 1,5 IQR , adică
lim sup box plot max xi , i 1, n xi Q3 1,5 IQR :
o Q3 1,5 IQR 57,5
o cea mai mare dintre valorile seriei de date, cu proprietatea ca este 57,5 , este
x(34)=50 ani, deci marginea superioara este egala cu 50 ani,
lim sup box plot 50 x34 .
Se observa ca intervalul cuprins intre marginea inferioara si cea superioara diagramei box-plot,
adică intervalul de numere reale [21; 50] nu conține toate valorile observate, in afara lui rămânând valorile
x(35)=60, x(36)=61, x(37)=61, x(38)=74, x(39)=80 ani.
Valoarea x este outlier pentru seria de date statistice numerice daca x se găsește in afara intervalului
Q1 1,5 IQR; Q3 1,5 IQR 13,5; 57,5 , x(35)=60, x(36)=61, x(37)=61, x(38)=74, x(39)=80 sunt outliers si vor
fi reprezentate distinct in diagrama box-plot.
*
* * * *
21 30 34 41 50 60 61 74 80
(Q1) (Me) (Q3)
5
Fig. …. Diagrama box-plot in SPSS.
c) Dispersia de selecție (sample variance) pentru o serie simpla de date numerice asupra variabilei X este
n
x x
2
s x2
x1 x
2
... xn x
2
i 1
i
,
n 1 n 1
39
x x
2
i
6791,5897
adică s x2 i 1
178,7260 ,
39 1 39 1
abaterea standard (standard deviation) este s x s x2 13,3688 ani.
sx
Coeficientul de variație este v x 100 35,09% 35% , ceea ce indica faptul ca seria de date
x
nu este omogena, iar media nu este reprezentativa pentru colectivitate, ca indicator al tendinței centrale.
Nr. crt. Vârsta actrițelor xi xi x xi x 2
1 x1=50 11,8974 141,5489
2 x2=44 5,8974 34,7797
3 x3=35 -3,1026 9,6259
4 x4=80 41,8974 1755,3951
5 x5=26 -12,1026 146,4720
6 28 -10,1026 102,0618
7 41 2,8974 8,3951
8 21 -17,1026 292,4977
9 61 22,8974 524,2925
10 38 -0,1026 0,0105
11 49 10,8974 118,7541
12 33 -5,1025 26,0361
13 74 35,8974 1288,6259
14 30 -8,1025 65,6515
6
15 33 -5,1025 26,0361
16 41 2,8974 8,3951
17 31 -7,1025 50,4464
18 35 -3,1025 9,6259
19 41 2,8974 8,3951
20 42 3,8974 15,1900
21 37 -1,1025 1,2156
22 26 -12,1025 146,4720
23 34 -4,1025 16,8310
24 34 -4,1025 16,8310
25 35 -3,1025 9,6259
26 26 -12,1025 146,4720
27 61 22,8974 524,2925
28 60 21,8974 479,4977
29 34 -4,10256 16,8310
30 24 -14,1025 198,8823
31 30 -8,1025 65,6515
32 37 -1,1025 1,2156
33 31 -7,1025 50,4464
34 27 -11,1025 123,2669
35 39 0,8974 0,8053
36 34 -4,1025 16,8310
37 26 -12,1025 146,4720
38 25 -13,1025 171,6771
39 x39=33 -5,1025 26,0361
39 39 39
xi 1486 xi x 0 x x 6791,5897
2
i
i 1 i 1 i 1
x 38,1025 s x2 178,7260
s x s x2 13,3688
v x 35,09%
- prin analiza distantei intre mediana si cele doua cuartile inferioara si superioara,
Cum mediana este mai apropiata de Q1 decât de Q2, adică Me Q1 Q3 Me , așa cum se poate vedea
din diagrama box-plot, atunci concluzionam ca seria prezinta asimetrie pozitiva, in seria de date
predominând valorile mici.
Rezolvare: a)
o Populația statistica este mulțimea contractelor de asigurare de locuințe din portofoliul companiei W.
o Unitatea statistica este un contract de asigurare de locuința.
o Variabila statistica sau caracteristica de interes, notata X, este variabila ce arata mărimii primei anuale,
in Euro, pentru un contract de asigurare de locuința încheiat de un agent al companiei; variabila
numerica, continua.
o Agentul a încheiat într-o luna n=50 de contracte, seria de date statistice referitoare la primele anuale ale
acestor contracte fiind sistematizata într-o serie de distribuție de frecvente pe r=7 variante distincte.
Astfel distribuția celor n=50 de contracte după valoarea primei anuale, in Euro, este:
n
k 1
k 50 n contracte
8
Poligonul frecventelor absolute - distributia celor 50 de contracte
incheiate de agentul de asigurari dupa valoarea primei anuale
18
16
12
10
0
0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150
o Poligonul frecventelor sugerează ca distribuția are tendința de normalitate, dar prezinta asimetrie la
stânga, coada poligonului ferventelor absolute fiind mai alungita spre stânga.
b)
o Media pentru o serie de distribuție de frecvente pe r variante distincte ale variabilei de interes este
r
x k nk
x1 n1 ... xr nr
x k 1
,
n n1 ... nr
r
unde xk , k 1, r sunt variantele distincte observate ale variabilei, iar n k 1
k n volumul eșantionului.
7
5310 x k nk
In cazul nostru, x
106,2 Euro este valoarea medie a unei prime anuala
k 1
50 50
corespunzătoare unui contract de asigurare de locuința încheiat de respectivul agent de vânzări.
o Mediana pentru o serie de distribuție de frecvente pe r variante distincte se calculează parcurgând
următorii pași:
Cele r variante distincte sunt ordonate crescător x1 x2 ... xr .
n 1
Se determina locul medianei, adică 25,5 .
2
Se calculează frecventele absolute cumulate crescător ale celor r variante distincte
Fck n1 ... nk , k 1, r .
Mediana este acea valoare distincta cu proprietatea ca frecventa sa absoluta cumulata
crescător este prima care depășește locul medianei
Fc1 2 25,5
Fc 2 5 25,5
Fc 3 11 25,5
Fc 4 20 25,5
9
si Fc5 36 25,5 , deci a 5-a varianta sau valoare distincta, x5 , este mediana sau valoarea
mediana: Me x5 120 Euro, adică jumătate dintre contractele încheiat de agentul de
vânzări au o prima anuala de valoare mai mică sau egala cu 120 Euro.
Valoarea nk ,
Nr.
crt.
distincta,
(frecventa xk nk Fck n1 ... nk xk x 2 nk
xk Euro absoluta)
x2 x 2 n1
1 x1 50 n1 2 x1 n1 100 Fc1 n1 2 6316,88
x2 x 2
n2
2 x2 60 n2 3 x2 n2 180 Fc 2 n1 n2 5 6403,32
x x nk
2
7 7
n 50 n x nk 5310
k
k k k 1
k 1 k 1 37378
x 106,2 s 762,8163265
2
x
s x s x2
27,61912972
v x 26,01%
o Modul sau valoarea modala pentru o serie de distribuție de frecvente pe r variante distincte este acea
varianta sau valoare care apare cu frecventa absoluta sau relativa cea mai mare:
Frecventa absoluta cea mai mare este:
16 n5 max nk , k 1, r .
valoarea modala este deci a 5-a varianta sau valoare distincta de răspuns a variabilei de
interes, Mo x5 120 Euro, aceasta fiind valoarea cea mai des întâlnita a unei prime
anuale pentru contractele încheiate de respectivul agent.
o Relația in care se găsesc indicatorii tendinței centrale, x Me Mo , ca si reprezentarea grafica pentru
poligonul frecventelor absolute sau relative, arata ca distribuția contractelor după valoarea primelor
anuale prezinta asimetrie negativa, in serie predominând valorile mai mari ale primelor anuale, iar coada
distribuției este alungita spre stânga.
o Dispersia in eșantion (de selecție) pentru o serie de distribuție de frecvente pe r intervale de variație
este
r
x x nk
2
s x2 k 1
k
x1 x 2 n1 ... xr x 2 nr ,
r
n1 ... nr
n
k 1
k
r
unde xk , k 1, r sunt variantele distincte observate ale variabilei, n
k 1
k n volumul eșantionului.
10
7
x x nk
2
k
37378
In cazul nostru, s x2 k 1
746,56 , iar abaterea standard sau abaterea medie
50 50
pătratica este s x s 27,6191 Euro, care arata cu cat se abat, in medie, valorile observate fata de
2
x
m 20
Media variabilei alternative este f 0,4 , adică 40% dintre contracte au valori ale
n 50
primelor anuale mai mici sau egale cu 90 Euro.
m m
Dispersia variabilei alternative este s y2 1 f 1 f 0,24 .
n n
11