Ex. 1. Următoarea serie de date arată preţul de vânzare (sute lei) pentru 13 lucrări de grafică la o licitaţie
de obiecte de artă: 51, 60, 72, 35, 32, 57, 63, 61, 48, 33, 67, 54, 37.
Se cere:
a) să se calculeze şi să se interpreteze indicatorii tendinţei centrale;
b) să se stabilească dacă media este reprezentativă;
c) să se calculeze şi să se interpreteze cuartilele acestei serii de date;
d) optiunea Descriptive Statistics din Data Analysis Excel;
e) să se analizeze asimetria acestei serii de date;
f) stabiliţi valoarea de adevăr a următoarelor afirmaţii, justificând răspunsurile:
f1) 25 % dintre lucrarile licitate s-au vandut pentru un pret mai mic de 48 sute de lei;
f2) jumatate dintre lucrarile licitate au un pret mai mic sau egal cu 54 sute lei;
f3) 25 % dintre lucrari s-au vandut cu cel putin 62 sute de lei;
f4) pentru 75% dintre obiecte s-a obţinut un pret de cel putin 36 sute lei;
f5) precizati care dintre următoarele valori: 25, 29, 16, 40, 124, 85, 99,8 sute lei sunt
outliers în raport cu datele iniţiale;
f6) coeficientul de variaţie este 26,33%;
f7) media este reprezentativă.
Rezolvare: a)
o Populaţia statistică este mulţimea lucrarilor de grafică puse în vânzare la licitaţiile cu obiecte de artă.
o Unitatea statistică este o lucrare de grafică pusă în vânzare la o licitaţie.
o Variabila statistică sau caracteristica de interes, notată cu X, arată preţul de vânzare, în sute lei, al unei
lucrări de grafică.
o Pentru un eşantion de volum n=13 unităţi statistice (lucrări de grafică), se cunoaşte preţul de vânzare,
adică avem următoarea serie statistică simplă sau nesistematizată de date numerice:
{x1=51, x2=60, x3=72, x4=35, x5=32, x6=57, x7=63, x8=61, x9=48, x10=33, x11=67, x12=54, x13=xn=37}.
o Pentru o serie simplă de date numerice {x1 , x2 ,..., xn } ,
n
∑ xi
x1 + x2 + ... + xn i =1
media aritmetică (Mean) este x = = .
n n
Nr. crt. Valorile xi ale variabilei X - preţul de vânzare (sute lei)
1 x1= 51
2 x2= 60
3 x3= 72
4 x4= 35
5 x5= 32
6 x6= 57
7 x7= 63
8 x8= 61
9 x9= 48
10 x10=33
11 x11=67
12 x12=54
13 x13=37
13
∑ xi = 670
i =1
1
Statistica – seminar, Facultatea de Marketing, ASE, anul I, 2013-2014
Lect. univ. dr. Mihaela Covrig
13
o Pentru a determina Mediana (Median) unei serii simple de date, se parcurg următoarele etape:
• Valorile seriei de date se ordonează crescător: x(1) ≤ x(2 ) ≤ ... ≤ x(n−1) ≤ x(n ) , unde x(i ) , i = 1, n
reprezintă a i-a valoare din şirul ordonat crescător de date numerice (astfel, x(1) este prima
valoare din şirul ordonat crescător, adică cea mai mică valoare, x(2 ) este următoarea valoare în
ordine crescătoare şi aşa mai departe până la x(n ) , care este cea mai mare valoare).
• Pentru această serie, cele n=13 valori ordonate crescător sunt:
x(1)=32, x(2)=33, x(3)=35, x(4)=37, x(5)=48, x(6)=51, x(7)=54, x(8)=57, x(9)=60, x(10)=61, x(11)=63,
x(12)=67, x(13)=72.
n + 1 13 + 1
• Se stabileşte locul medianei: = = 7∈N
2 2
• Mediana este a 7-a valoare din şirul ordonat de date, adică Me = x(7 ) = 54 sute de lei (valoarea
din mijlocul seriei ordonate de date).
x(1) ≤ x(2 ) ≤ x(3 ) ≤ x(4 ) ≤ x(5 ) ≤ x(6 ) ≤ x(7 ) ≤ x(8 ) ≤ x(9 ) ≤ x(10 ) ≤ x(11) ≤ x(12 ) ≤ x(13 )
↑
144444424444443 1444444424444444
3
50% Me 50%
54
• Interpretarea: jumătate dintre unităţile statistice din eşantion au nivelul variabilei de interes mai
mic sau egal cu Mediana, iar restul au nivelul variabilei de interes cel puţin egal cu Mediana,
adică jumătate dintre lucrările de grafică licitate s-au vândut cu mai puţin de 54 sute lei, iar
restul s-au vândut cu un preâ mai mare de 54 sute lei.
o Modul (Mode) sau valoarea modală este acea valoare sau variantă de răspuns care apare cu cea mai
mare frecvenţă. În cazul nostru se observă că niciuna dintre valorile seriei de date nu are o frecvenţă
mai mare ca 1, adică avem numai valori distincte, prin urmare, seria nu are valoare modală.
b) pentru a stabili dacă media este reprezentativă, se calculează coeficientul de variaţie al seriei de date,
s
adică v x = x ⋅100 , unde s x = s x2 este abaterea standard a seriei de date.
x
o Dispersia de selecţie (sample variance) pentru o serie simplă de date numerice asupra variabilei X
este
n
∑ (x − x)
2
s x2 =
(x1 − x )
2
+ ... + ( xn − x )
2
= i =1
i
.
n −1 n −1
2
Statistica – seminar, Facultatea de Marketing, ASE, anul I, 2013-2014
Lect. univ. dr. Mihaela Covrig
13
2
∑ (xi − x ) 2209,231
adică dispersia (sample variance) este s x2 = i =1
= = 184,1026 ,
13 − 1 12
iar abaterea standard (standard deviation) este s x = s x2 = 184,1026 = 13,5684 sute lei, cu interpretarea
că valorile individuale ale seriei se abat, în medie, cu 13,5684 sute lei faţă de nivelul mediu de 51,84 sute
lei al preţului de vânzare din eşantion.
s 13,5684
o Coeficientul de variaţie este v x = x ⋅100 = ⋅100 = 26,33% < 35% , ceea ce indică faptul că seria
x 51,54
de date este omogenă; media este reprezentativă pentru colectivitate, ca indicator al tendinţei centrale.
3
Statistica – seminar, Facultatea de Marketing, ASE, anul I, 2013-2014
Lect. univ. dr. Mihaela Covrig
c) Cuartilele seriei de date sunt Q1 , Q2 = Me, Q3 , iar pentru determinarea lor, seria de date trebuie să fie
ordonată crescător x(1) ≤ x(2 ) ≤ ... ≤ x(n −1) ≤ x(n ) .
o Q1 – cuartila de ordinul 1 sau cuartila inferioară se determină astfel:
n +1 13 + 1
• se stabileşte locul lui Q1 : ⋅1 = ⋅1 = 3,50 ∉N, dar 3 < 3,50 < 4
4 4
(locul lui Q1 cuartilei este între 3 şi 4, astfel că Q1 se va găsi între a 3-a şi a 4-a valoare
din şirul ordonat crescător)
x(3) + x(4 ) 35 + 37
⇒ x(3) ≤ Q1 ≤ x(4 ) şi Q1 = = = 36 sute lei.
2 2
x(1) ≤ x(2 ) ≤ x(3) ≤ x(4 ) ≤ x(5 ) ≤ x(6 ) ≤ x(7 ) ≤ x(8 ) ≤ x(9 ) ≤ x(10 ) ≤ x(11) ≤ x(12 ) ≤ x(13)
1 442443 1444444444442444444444443
25% ↑ 75%
Q1
36
• interpretarea: 25% dintre unităţile statistice din eşantion au nivelul variabilei de interes mai
mic sau egal cu Q1 , iar restul de 75% dintre unităţile statistice din eşantion au nivelul
variabilei de interes cel puţin egal cu Q1 ; adică 25% dintre lucrările de grafică licitate s-au
vândut pentru un preţ mai mic decât 36 sute lei, iar restul de 75% dintre ele s-au vândut cu
un preţ mai mare de 36 sute lei.
o Q2=Me=54 sute lei este cuartila de ordinul 2 sau mediana seriei de date statistice.
62
• interpretarea: 75% dintre unităţile statistice din eşantion au nivelul variabilei de interes mai
mic sau egal cu Q3 , iar restul de 25% dintre unităţile statistice din eşantion au nivelul
variabilei de interes cel puţin egal cu Q3 ; adică 75% dintre lucrările de grafică licitate s-au
vândut pentru un preţ mai mic decât 62 sute lei, iar restul de 25% dintre ele s-au vândut cu
un preţ mai mare de 62 sute lei.
o x(1) ≤ x(2 ) ≤ x(3 ) ≤ x(4 ) ≤ x(5 ) ≤ x(6 ) ≤ x(7 ) ≤ x(8 ) ≤ x(9 ) ≤ x(10 ) ≤ x(11) ≤ x(12 ) ≤ x(13 )
1 442443 14444444244444443 144 42444 3
25% ↑ 50% ↑ 25%
Q1 Q3
36 62
Jumatate din termenii din mijlocul seriei au valori cuprinse intre Q1=36 sute lei si Q3=62 sute lei.
Abaterea intercuatilică (interquratile range) este IQR=Q3-Q1=26 sute lei.
4
Statistica – seminar, Facultatea de Marketing, ASE, anul I, 2013-2014
Lect. univ. dr. Mihaela Covrig
d) pentru o serie statistica simpla de date numerice, principalii indicatori ai tendintei centrale, variatiei si
formei distributiei se pot calcula in Excel astfel:
• datele statistice se introduc intr-o foaie de lucru a unui fisier Excel, asa cum se poate vedea in
Figura nr. 1;
• in Excel 2003, din meniul Tools se alege Data Analysis, iar apoi se selecteaza Descriptive
Statistics asa cum se poate vedea in Figura nr. 1;
• in Excel 2007 sau versiuni ulterioare, din meniul Data, se alege Data Analysis, iar apoi se
selecteazaDescriptive Statistics, asa cum se poate vedea in Figura nr. 1;
Figura nr. 1. Introducerea datelor seriei simple intr-o foaie de lucru si selectarea optiunii Descriptive
Statistics din Data Analysis.
• in urmatoarea fereastra care se va deschide, asa cum se poate observa in Figura nr. 2, se va
completa:
la sectiunea Input Range se selecteaza cu mouse-ul sirul de celule care contin datele seriei
statistice simple,
la sectiunea Output options se alege o celula din foaia de lucru unde vor aparea rezultatele
prelucrarii datelor,
se bifeaza Summary Statistics,
se da click pe butonul OK;
5
Statistica – seminar, Facultatea de Marketing, ASE, anul I, 2013-2014
Lect. univ. dr. Mihaela Covrig
6
Statistica – seminar, Facultatea de Marketing, ASE, anul I, 2013-2014
Lect. univ. dr. Mihaela Covrig
e) asimetria unei serii de date statistice se poate analiza din mai multe puncte de vedere:
o prin compararea indicatorilor tendintei centrale:
in cazul nostru, comparam doar media aritmetica si mediana, deoarece modul nu exista,
astfel: x < Me , ceea ce indica o asimetrie negativa, in seria de date predominand valorile
mai mari, adica intre lucrarile de grafica licitate sunt mai numeroase cele care au o valoare
de vanzare mai mare;
o prin calculul si evaluarea semnului urmatorului coeficient de asimetrie
3 ⋅ ( x − Me )
Cas = = −0,5442 < 0 ce arata ca distributia prezinta asimetrie negativa;
sx
n
3
∑ ( xi − x )
o prin calculul coeficientului de asimetrie (Skewness), CAS = i =1
3
, a carui valoare este data
n ⋅ (s x )
in tabelul ce reprezinta output-ul prelucrarii datelor statistice in Excel
valoarea acestuia este CAS = −0,2393 , o valoare negativa si apropiata de 0, indicand ca
distributia prezinta o asimetrie negativa moderata;
o prin aprecierea pozitiei medianei fata de cele doua cuartile:
Me − Q1 = 18 sute lei, Q3 − Me = 8 sute lei, deci Me − Q1 > Q3 − Me , adica Mediana este
mai apropiata de cuartila superioara decat de cea inferioara, ceea ce arata ca seria prezinta
asimetrie negativa.
f)
f1) 25 % dintre lucrarile licitate s-au vandut pentru un pret mai mic de 48 sute de lei:
afirmatie falsa deoarece cuartila de ordinul intai este Q1 = 36 sute lei;
f2) jumatate dintre lucrarile licitate au un pret mai mic sau egal cu 54 sute lei:
afirmatie adevarata deoarece mediana este Me = 54 sute lei;
f3) 25 % dintre lucrari s-au vandut cu cel putin 62 sute de lei:
afirmatie corecta deoarece curatila superioara este Q3 = 62 sute lei;
f4) pentru 75% dintre obiecte s-a obţinut un pret de cel putin 36 sute lei;
afirmatie adevarata deoarece cuartila inferioara este Q1 = 36 sute lei
f5) precizati care dintre următoarele valori: 25, 29, 16, 40, 124, 85, 99,8 sute lei sunt outliers în raport cu
datele iniţiale:
Definitie: Spunem ca o valoare x este outlier pentru un set de date statistice numerice dacă:
x < Q1 − 1,5 ⋅ IQR sau x > Q3 + 1,5 ⋅ IQR
sau
valoarea x este outlier pentru un set de date statistice daca se găseşte în afara intervalului
[Q1 − 1,5 ⋅ IQR; Q3 + 1,5 ⋅ IQR] .
În cazul nostru, [Q1 − 1,5 ⋅ IQR; Q3 + 1,5 ⋅ IQR ] = [− 3;101] , deci numai valoarea 124 este outlier în raport cu
setul iniţial de date statistice;
f6) coeficientul de variaţie este 26,33%:
afirmatie adevarata;
f7) media este reprezentativă pentru colectivitate:
afirmatie adevarata deoarece coeficientul de variatie este mai mic de 35%.
7
Statistica – seminar, Facultatea de Marketing, ASE, anul I, 2013-2014
Lect. univ. dr. Mihaela Covrig
Ex. 2. Se consideră urmatoarea serie, reprezentand valoarea inregistrata a 9 facturi emise de o societate
comerciala in ultima luna: 47; 58; 41; 36; 54; 42; 65; 43; 37 (mil. lei).
Alegeti afirmatiile false:
a) Cuartilele inferioara si superioara sunt 43 si respectiv 58 mil. lei.
b) Abaterea intercuartilica este de 10 mil. lei;
c) Jumatate dintre termenii seriei, plasati pe mijocul distributiei, se regasesc intre 39 si 56.
d) Percentilele de ordinul 25 si 75 sunt 39 si respectiv 56 mil. lei
e) In raport cu datele initiale, valorile: 73, 29, 18, 73, 23 sunt toate outliers.
f) Daca fiecare valoare s-ar mari intai cu 4,25 lei, apoi de 2 ori, dispersia noilor valori ar fi 396.
Ex. 3. Structura unui esantion de 90 de copii dupa nivelul maxim atins al unui joc pe calculator este:
Ex. 4. Pentru 39 de actrite care au obtinut premiul Oscar se cunoaste varsta, in ani impliniti, la momentul
castigarii premiului:
50, 44, 35, 80, 26, 28, 41, 21, 61, 38, 49, 33, 74, 30, 33, 41, 31, 35, 41, 42,
37, 26, 34, 34, 35, 26, 61, 60, 34, 24, 30, 37, 31, 27, 39, 34, 26, 25, 33 ani.
Se cere:
a) sa se determine si sa se interpreteze indicatorii tendintei centrale si cuartilele acestei serii de date;
b) sa se construiasca diagrama box-plot (sau diagrama cu mustati box-and-whisker), punand in
evidenta daca seria are valori extreme;
c) sa se calculeze indicatorii variatiei si sa se stabileasca daca seria este omogena;
d) analizati asimetria;
e) Descriptive Statistics.
Rezolvare: a)
o Populatia statistica este multimea actritelor care au castigat premiul Oscar.
o Unitatea statistica este o actrita.
o Variabila sau caracteristica de interes, notata X, este variabila ce arata varsta unei actrite la momentul
obtinerii premiului; variabila numerica, discreta.
o Pentru un esantion de volum n = 39 de actrite se cunosc valorile variabilei X, adica {x1=50, x2=44,
x3=35, x4=80, ..., xn=x39=33 ani}, care reprezinta o serie simpla sau nesistematizata de date statistice
numerice.
n
x1 + x2 + ... + xn ∑
xi
o Media unei serii simple de date numerice {x1 , x2 , ..., xn } este x = = i =1
.
n n
In cazul acestei serii, varsta medie a unei actrite din esantion care a castigat premiul Oscar este
39
∑x
x1 + x2 + ... + x39 i =1 i 1486
x= = = = 38,1025 ani.
39 39 39
8
Statistica – seminar, Facultatea de Marketing, ASE, anul I, 2013-2014
Lect. univ. dr. Mihaela Covrig
1 x1=50 x(1)=21
2 x2=44 x(2)=24
3 x3=35 x(3)=25
4 x4=80 x(4)=26
5 x5=26 x(5)=26
6 28 26
7 41 26
8 21 27
9 61 28
10 38 x(10)=30=Q1
11 49 30
12 33 31
13 74 31
14 30 33
15 33 33
16 41 33
17 31 34
18 35 34
19 41 34
20 42 x(20)=34=Me
21 37 35
22 26 35
23 34 35
24 34 37
25 35 37
26 26 38
27 61 39
28 60 41
29 34 41
30 24 x(30)=41=Q3
31 30 42
32 37 44
33 31 49
34 27 x(34)=50
35 39 x(35)=60
36 34 x(36)=61
37 26 x(37)=61
38 25 x(38)=74
39 x39=33 x(39)=80
9
Statistica – seminar, Facultatea de Marketing, ASE, anul I, 2013-2014
Lect. univ. dr. Mihaela Covrig
o Pentru determinarea cuartilelor procedam astfel:
n +1
- locul cuartilei de ordinul 1, Q1, este ⋅1 = 10 ∈ N ⇒ Q1 = x(10 ) = 30 ani; un sfert
4
dintre actrite au castigat premiul Oscar la o varsta mai mica sau egala cu 30 de ani, iar
restul la cel putin 30 de ani;
n +1
- locul cuartilei de ordinul 3, Q3, este ⋅ 3 = 30 ∈ N ⇒ Q3 = x(30 ) = 41 ani; trei sferturi
4
dintre actrite au castigat premiul Oscar la o varsta mai mica sau egala cu 41 de ani, iar
restul la cel putin 41 de ani.
o Abaterea intercuartilica este IQR = Q3 − Q1 = 11 ani si arata lungimea intervalului in care se gasesc
jumatate dintre valorile din mijlocul seriei de date.
b) Diagrama cu mustati (box-and-whisker) sau diagrama box-plot pentru o serie de date statistice
numerice se construieste punand in evidenta urmatoarele cinci elemente si eventualele valori extreme sau
outliers:
- cuartila inferioara sau de ordinul 1, Q1=30 ani;
- mediana sau cuartila de ordinul al 2-lea, Q2=Me=34 ani;
- cuartila superioara sau de ordinul al 3-lea, Q3=41 ani;
- limita sau marginea inferioara a diagramei box-plot este cea mai mica dintre valorile
seriei de date cu proprietatea ca este mai mare sau egala cu Q1 − 1,5 ⋅ IQR , adica
{ }
lim inf box − plot = min x(i ) , i = 1, n x(i ) ≥ Q1 − 1,5 ⋅ IQR :
o Q1 − 1,5 ⋅ IQR = 13,5
o cea mai mica dintre valorile seriei de date, cu proprietatea ca este ≥ 13,5 , este
x(1)=21 ani, deci marginea inferioara este egala cu 21 ani,
lim inf box − plot = 21 = x(1) ;
- limita sau marginea superioara a diagramei box-plot este cea mai mare dintre valorile
seriei de date cu proprietatea ca este mai mica sau egala cu Q3 + 1,5 ⋅ IQR , adica
{ }
lim sup box − plot = max x(i ) , i = 1, n x(i ) ≤ Q3 + 1,5 ⋅ IQR :
o Q3 + 1,5 ⋅ IQR = 57,5
o cea mai mare dintre valorile seriei de date, cu proprietatea ca este ≤ 57,5 , este
x(34)=50 ani, deci marginea superioara este egala cu 50 ani,
lim sup box − plot = 50 = x(34 ) .
Se observa ca intervalul cuprins intre marginea inferioara si cea superioara diagramei box-plot,
adica intervalul de numere reale [21; 50] nu contine toate valorile observate, in afara lui ramanand
valorile x(35)=60, x(36)=61, x(37)=61, x(38)=74, x(39)=80 ani.
Valoarea x este outlier pentru seria de date statistice numerice daca x se gaseste in afara
intervalului [Q1 − 1,5 ⋅ IQR; Q3 + 1,5 ⋅ IQR] = [13,5; 57,5] , x(35)=60, x(36)=61, x(37)=61, x(38)=74, x(39)=80 sunt
outliers si vor fi reprezentate distinct in diagrama box-plot.
10
Statistica – seminar, Facultatea de Marketing, ASE, anul I, 2013-2014
Lect. univ. dr. Mihaela Covrig
*
* * * *
21 30 34 41 50 60 61 74 80
(Q1) (Me) (Q3)
∑ (x − x)
2
s x2 =
(x1 − x )
2
+ ... + ( xn − x )
2
= i =1
i
,
n −1 n −1
39
∑ (x − x)
2
i
6791,5897
adica s x2 = i =1
= = 178,7260 ,
39 − 1 39 − 1
11
Statistica – seminar, Facultatea de Marketing, ASE, anul I, 2013-2014
Lect. univ. dr. Mihaela Covrig
∑ (x − x) = 0 ∑ (x − x ) = 6791,5897
2
∑x
i =1
i = 1486
i =1
i
i =1
i
x = 38,1025 s x2 = 178,7260
s x = s x2 = 13,3688
v x = 35,09%
12
Statistica – seminar, Facultatea de Marketing, ASE, anul I, 2013-2014
Lect. univ. dr. Mihaela Covrig
d) Asimetria unei serii de distribuţie de frecvenţe se poate stabili:
- prin compararea indicatorilor tendintei centrale,
- prin analiza distantei intre mediana si cele doua cuartile inferioara si superioara,
- prin calculul si interpretarea valorii unui indicator specific, coeficientul de asimetrie,
- se observă din reprezentarea grafică prin histogramă sau poligonul frecvenţelor.
- Cum Me = 34 < 38,1025 = x , atunci concluzionam ca seria de date prezinta asimetrie pozitiva.
- Cum mediana este mai apropiata de Q1 decat de Q2, adica Me − Q1 < Q3 − Me , asa cum se poate
vedea din diagrama box-plot, atunci concluzionam ca seria prezinta asimetrie pozitiva, in seria de date
predominand valorile mici.
n
∑ (x − x)
3
i
- Indicatorul asimetriei este coeficientul de asimetrie (Skewness) CAS = , al carui semn si i =1
n ⋅ (s x )
3
marime arata tipul asimetriei (pozitiva sau negativa), iar marimea arata gradul mai putin accentuat sau
mai accentuat al asimetriei seriei de date sau al distributiei. In cazul acestei serii de date, CAS = 1,5734 , o
valoare pozitiva si mai mare ca 1, ceea ce arata ca seria de date prezinta o asimetrie pozitiva pronuntata.
- Sistematizarea printr-o serie de distributie de frecvente pe r = 6 intervale de variatie de marime
egala a dat urmatoarea distributie a celor n=39 de actrite din esantion dupa varsta la momentul obtinerii
premiului Oscar:
Intervalul k de Frecventa absoluta nk
Centrul x k
Nr. crt. variatie a intervalului k de variatie
(clasa de varsta) al intervalului k de variatie
(numarul de actrite din fiecare clasa de varsta)
1 20-30 ani 11 25
2 30-40 ani 16 35
3 40-50 ani 7 45
4 50-60 ani 1 55
5 60-70 ani 2 65
6 70-80 ani 2 75
6
∑n
k =1
k = 39=n
16
14
14
Numarul de actrite
12
12 11 11
10
actrite)
10
8
8 7
7
6
6
4 4
2 2
2 1 2 2 2
1
0 0
20-30 30-40 40-50 50-60 60-70 70-80 0 10 20 30 40 50 60 70 80
ani ani ani ani ani ani Varsta, in ani (centrele intervalelor)
13
Statistica – seminar, Facultatea de Marketing, ASE, anul I, 2013-2014
Lect. univ. dr. Mihaela Covrig
e) Indicatorii tendintei centrale, principalii indicatori ai variatiei si ai formei distributiei pentru o serie
simpla de date numerice pot fi calculati in Excel si in SPSS, output-urile fiind de forma:
Output-ul Descriptive Statistics in Excel Output-ul Descriptive Statistics in SPSS
Kurtosis 2.383
Count n=39
Std. Error of Kurtosis .741
Percentiles 25 Q1 = 30.00
50 Q2 = Me = 34.00
75 Q3 = 41.00
a. Multiple modes exist. The smallest value is shown
∑ (x − x)
4
i ∑ (x i − x)
2
CBA = i =1
− 3 , unde s =
2 i =1
.
( )
n ⋅ s x2
2 x
n −1
14
Statistica – seminar, Facultatea de Marketing, ASE, anul I, 2013-2014
Lect. univ. dr. Mihaela Covrig
In cazul acestei serii de date statistice, CAB = 2,383 > 0 , ceea ce indica o distributie leptocurtica
(cu cocoasa, asa cum se poate vedea si din histograma sau poligonul frecventelor).
Ex. 5. Un agent al companiei de asigurari W vinde contracte de asigurare de locuinte. In luna iulie a
incheiat: 2 contracte cu prime anuale de 50 Eur, 3 contracte cu prime anuale de 60 Eur, 6 contracte cu
prime de 70 Eur, 9 contracte cu prime de 90 Eur, 16 contracte cu prime anuale de 120 Eur, 8 contracte cu
prime anuale de 130 Eur si 6 contracte cu prime de 140 Eur. Se cere:
a) Construiţi seria de distribuţie de frecvenţe şi analizaţi grafic tendinţa de normalitate a acesteia.
b) Caracterizaţi omogenitatea şi asimetria distribuţiei contractelor în funcţie de valoarea primelor
anuale.
c) Calculati media si abaterea standard a variabilei alternative care evidentiaza contractele cu prime
anuale de valoare mai mica sau egala cu 90 Eur.
Rezolvare: a)
o Populatia statistica este multimea contractelor de asigurare de locuinte din portofoliul companiei W.
o Unitatea statistica este un contract de asigurare de locuinta.
o Variabila statistica sau caracteristica de interes, notata X, este variabila ce arata marimei primei
anuale, in Eur, pentru un contract de asigurare de locuinta incheiat de un agent al companiei; variabila
numerica, continua.
o Agentul a incheiat intr-o luna n=50 de contracte, seria de date statistice referitoare la primele anuale
ale acestor contracte fiind sistematizata intr-o serie de distributie de frecvente pe r=7 variante
distincte. Astfel distributia celor n=50 de contracte dupa valoarea primei anuale, in Eur, este:
∑n
k =1
k = 50 = n contracte
15
Statistica – seminar, Facultatea de Marketing, ASE, anul I, 2013-2014
Lect. univ. dr. Mihaela Covrig
18
16
Frecventa absoluta (numarul de contracte)
14
12
10
0
0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150
o Poligonul frecventelor sugereaza ca distributia are tendinta de normalitate, dar prezinta asimetrie la
stanga, coada poligonului freventelor absolute fiind mai alungita spre stanga.
o Poligonul frecventelor se mai poate reprezenta si cu ajutorul frecventelor relative
nk
Nr. Valoarea xk Eur Numarul de contracte, nk , Frecventa relativa nk* = ∈ [0,1]
crt. a unei prime anuale (frecventa absoluta) n
1 x1 = 50 Eur n1 = 2 contracte n1* = 0,04
2 x2 = 60 Eur n2 = 3 n2* = 0,06
3 x3 = 70 Eur n3 = 6 n3* = 0,12
4 x4 = 90 Eur n4 = 9 n4* = 0,18
5 x5 = 120 Eur n5 = 16 n5* = 0,32
6 x6 = 130 Eur n6 = 8 n6* = 0,16
7 x7 = 140 Eur n7 = 6 n7* = 0,12
7 7
∑n
k =1
k = 50 = n contracte ∑n
k =1
*
k =1
16
Statistica – seminar, Facultatea de Marketing, ASE, anul I, 2013-2014
Lect. univ. dr. Mihaela Covrig
Poligonul frecventelor relative
0,35
0,3
0,25
Frecventa relativa
0,2
0,15
0,1
0,05
0
0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150
Prima anuala, in Eur, pentru un contract de asigurare
b)
o Media pentru o serie de distributie de frecvente pe r variante distincte ale variabilei de interes este
r
x ⋅ n + ... + xr ⋅ nr ∑x k ⋅ nk
x= 1 1 = k =1
,
n1 + ... + nr n
r
{ }
unde xk , k = 1, r sunt variantele distincte observate ale variabilei, iar ∑n k = n volumul esantionului.
k =1
7
5310 ∑x k ⋅ nk
In cazul nostru, x = = 106,2 Eur este valoarea medie a unei prime anuala
k =1
=
50 50
corespunzatoare unui contract de asigurare de locuinta incheiat de respectivul agent de vanzari.
o Mediana pentru o serie de distributie de frecvente pe r variante distincte se calculeaza parcurgand
urmatorii pasi:
• Cele r variante distincte sunt ordonate crescator x1 < x2 < ... < xr .
n +1
• Se determina locul medianei, adica = 25,5 .
2
• Se calculeaza frecventele absolute cumulate crescator ale celor r variante distincte
Fck = n1 + ... + nk , k = 1, r .
• Mediana este acea valoare distincta cu proprietatea ca frecventa sa absoluta cumulata
crescator este prima care depaseste locul medianei
Fc1 = 2 < 25,5
Fc 2 = 5 < 25,5
Fc 3 = 11 < 25,5
Fc 4 = 20 < 25,5
si Fc 5 = 36 ≥ 25,5 , deci a 5-a varianta sau valoare distincta, x5 , este mediana sau valoarea
mediana: Me = x5 = 120 Eur, adica jumatate dintre contractele incheiat de agentul de
vanzari au o prima anuala de valoare mai cica sau egala cu 120 Eur.
17
Statistica – seminar, Facultatea de Marketing, ASE, anul I, 2013-2014
Lect. univ. dr. Mihaela Covrig
Valoarea nk ,
Nr. distincta,
crt. (frecventa x k ⋅ nk Fck = n1 + ... + nk (xk − x )2 ⋅ nk
xk Eur absoluta)
∑ (x − x ) ⋅ nk = 37378
2
∑n
k =1
k = 50 = n ∑x
k =1
k ⋅ nk = 5310
k =1
k
x = 106,2 s x2 = 762,8163265
s x = s x2 = 27,61912972
v x = 26,01%
o Modul sau valoarea modala pentru o serie de distributie de frecvente pe r variante distincte este acea
varianta sau valoare care apare cu frecventa absoluta sau relativa cea mai mare:
• Frecventa absoluta cea mai mare este:
16 = n5 = max nk , k = 1, r . { }
• valoarea modala este deci a 5-a varianta sau valoare distincta de raspuns a variabilei de
interes, Mo = x5 = 120 Eur, aceasta fiind valoarea cea mai des intalnita a unei prime anuale
pentru contractele incheiate de respectivul agent.
o Relatia in care se gasesc indicatorii tendintei centrale, x < Me = Mo , ca si reprezentatrea grafica
pentru poligonul frecventelor absolute sau relative, arata ca distributia contractelor dupa valoarea
primelor anuale prezinta asimetrie negativa, in serie predominand valorile mai mari ale primelor
anuale, iar coada distributiei este alungita spre stanga.
o Dispersia in esantion (de selectie) pentru o serie de distributie de frecvente pe r intervale de variatie
este
r
∑ (xk − x )2 ⋅ nk
(
s x2 = 1
x − x )2
⋅ n1 + ... + ( x r − x )2
⋅ n r
= k =1 ,
(n1 + ... + nr ) − 1 n −1
r
{ }
unde xk , k = 1, r sunt variantele distincte observate ale variabilei, ∑n k = n volumul esantionului.
k =1
7
∑ (x − x ) ⋅ nk
2
k
37378
In cazul nostru, s x2 = k =1
= = 762,8163 , iar abaterea standard sau abaterea medie
50 − 1 50 − 1
2
patratica este s x = s = 27,6191 Eur, care arata cu cat se abat, in medie, valorile observate fata de
x
18
Statistica – seminar, Facultatea de Marketing, ASE, anul I, 2013-2014
Lect. univ. dr. Mihaela Covrig
c) Definim “evenimentul favorabil” ca evenimentul ca un contract de asigurare are o prima anuala de
valoare mai mica sau egala cu 90 Eur. Variabila alternativa care evidentiaza contractele ale caror prime
0 1
anuale sunt de valoare mai mica sau egala cu 90 Eur este Y : ,
n − m m
unde Y = 1 pentru unitatile statistice din esantion care verifica evenimentul favorabil, iar m este
numarul de unitati statistice din esantion care verifica evenimentul favorabil,
m = n1 + n2 + n3 + n4 = 20 contracte,
iar Y = 0 pentru unitatile statistice din esantion care nu verifica evenimentul favorabil, n − m este
numarul de unitati statistice din esantion pentru care nu se verifica evenimentul favorabil,
n − m = 30 de contracte cu prime anuale mai mari de 90 Eur.
m 20
Media variabilei alternative este y = = = 0,4 , adica 40% dintre contracte au valori ale
n 50
primelor anuale mai mici sau egale cu 90 Eur.
m m
Dispersia variabilei alternative este s y2 = ⋅ 1 − = 0,24 , iar abaterea standard
n n
m m
sy = ⋅ 1 − ≅ 0,48
n n
Ex. 6. Distributia a 1100 de absolventi ai Universitatii din Florida dupa salariul castigat, in $, in primul an
dupa terminarea studiilor este urmatoarea serie de distributie de frecvente pe intervale de variatie:
Nr. crt. Intervalul de variatie al salariului, $ Numarul de absolventi
1 [7200; 12500] 30
2 (12500; 17800] 69
3 (17800; 23100] 302
4 (23100; 28400] 308
5 (28400; 33700] 263
6 (33700; 39000] 95
7 (39000; 44300] 20
8 (44300; 49600] 6
9 (49600; 54900] 5
10 (54900; 60200] 1
11 (60200; 65500] 1
Se cere:
a) sa se reprezinte grafic aceasta serie de distributie;
b) sa se determine si sa se interpreteze indicatorii tendintei centrale;
c) sa se reprezinte grafic poligonul frecventelor absolute cumulate crescator si sa se estimeze
proportia absolventilor care:
i) au obtinut un salariu mai mic de 21000 $ in primul an de dupa finalizarea studiilor,
ii) au obtinut un salariu mai mic decat media in primul an de dupa finalizarea studiilor,
iii) au castigat in primul an intre 25000 $ si 40000 $,
iv) au castigat mai mult de 52000 $;
d) sa se stabileasca daca media este reprezentativa pentru colectivitate;
e) sa se analizeze asimetria acestei distributii.
Rezolvare: a)
Populatia statistica este multimea absolventilor Universitatii din Florida, promotiile anilor 1989 si
1990, asa cum se specifica in fisierul University of Florida graduate salaries.sav al programului
SPSS.
Unitatea statistica este un absolvent.
19
Statistica – seminar, Facultatea de Marketing, ASE, anul I, 2013-2014
Lect. univ. dr. Mihaela Covrig
Variabila sau caracteristica de interes, notata X, este variabila ce arata salariul unui absolvent, in $, din
primul an de dupa finalizarea studiilor, variabila numerica, continua.
Pentru un esantion de volum n = 1100 de absolventi s-au inregistrat valorile variabilei, iar setul de
date s-a sistematizat intr-o serie de distributie de frecvente pe r = 11 intervale de variatie de marime
egala, data in enuntul problemei.
Reprezentarea grafica a acestei serii de distributie de frecvente pe intervale de variatie se poate realiza
prin histograma si poligonul frecventelor absolute.
∑n
k =1
k = n = 1100
Histograma
350
Frecventa absoluta (numarul de absolventi)
302 308
300
263
250
200
150
95
100
69
50 30
20
6 5 1 1
0
]
]
]
00
00
00
00
00
00
00
00
00
00
0
50
5
12
17
23
28
33
39
44
49
54
60
65
0;
0;
0;
0;
0;
0;
0;
0;
0;
0;
0;
20
0
25
78
31
84
37
90
43
96
49
02
[7
(1
(1
(2
(2
(3
(3
(4
(4
(5
(6
Fig. ..... Histograma – Distributia celor 1100 de absolventi ai Universitatii din Florida dupa salariul
castigat in primul an de dupa finalizarea studiilor.
20
Statistica – seminar, Facultatea de Marketing, ASE, anul I, 2013-2014
Lect. univ. dr. Mihaela Covrig
Poligonul frecventelor absolute
350
308
302
300
150
100 95
69
50
20
30 6 5 1 1
0
0 10000 20000 30000 40000 50000 60000 70000
Salariul, in $ (centrele intervalelor de variatie)
Fig. ..... Poligonul frecventelor absolute – Distributia celor 1100 de absolventi ai Universitatii din
Florida dupa salariul castigat in primul an de dupa finalizarea studiilor.
b) Indicatorii tendintei centrale: media, mediana si modul.
Intervalul k Frecventa absoluta
Nr. (Salariul anual al Centrul Frecventa absoluta nk cumulata crescator
unui
x k ⋅ nk a intervalului k,
crt. xk (numarul de absolventi)
absolvent, in $) Fck = n1 + ... + nk
1 [7200; 12500] 9850 30 295500 30
2 (12500; 17800] 15150 69 1045350 99
3 (17800; 23100] 20450 302 6175900 401
4 (23100; 28400] 25750 308 7931000 709
5 (28400; 33700] 31050 263 8166150 972
6 (33700; 39000] 36350 95 3453250 1067
7 (39000; 44300] 41650 20 833000 1087
8 (44300; 49600] 46950 6 281700 1093
9 (49600; 54900] 52250 5 261250 1098
10 (54900; 60200] 57550 1 57550 1099
11 (60200; 65500] 62850 1 62850 1100
11 11
∑ nk = n = 1100
k =1
∑x k =1
k ⋅ nk = 28563500
x = 25966,82
o Media pentru o serie de distributie de frecvente pe r intervale de variatie este
r
x ⋅ n + ... + xr ⋅ nr ∑x k =1
k ⋅ nk
x= 1 1 = ,
n1 + ... + nr n
r
{ }
unde xk , k = 1, r sunt centrele celor r intervale, iar ∑n k = n volumul esantionului.
k =1
21
Statistica – seminar, Facultatea de Marketing, ASE, anul I, 2013-2014
Lect. univ. dr. Mihaela Covrig
11
∑x
k =1
k ⋅ nk
28563500
⇒x= = = 25966,82 $ a castigat, in medie, un absolvent in primul an.
1100 1100
o Mediana pentru o serie de distributie de frecvente pe r intervale de variatie se calculeaza parcurgand
urmatorii pasi:
n +1
• Se determina locul medianei, adica = 550,5 .
2
• Se calculeaza frecventele absolute cumulate crescator ale intervalelor de variatie
Fck = n1 + ... + nk , k = 1, r .
• Intervalul median este primul interval cu proprietatea ca frecventa sa absoluta cumulata
crescator depaseste locul medianei
Fc1 = 30 < 550,5
Fc 2 = 99 < 550,5
Fc 3 = 401 < 550,5
si Fc 4 = 709 ≥ 550,5 , deci al 4-lea interval de variatie (23100; 28400] $ este intervalul
median.
n +1
− Fc Me−1
• Me = xinf Me + hMe ⋅ 2 =
nMe
550,5 − 401
= 23100 + 5300 ⋅ = 25672,56 $, adica jumatate dintre absolventi au castigat
308
cel mult 25672,56$ in primul an sau jumatate au castigat cel putin 25672,56 $.
o Modul sau valoarea modala pentru o serie de distributie de frecvente pe r intervale de variatie se
calculeaza astfel:
• Se determina intervalul cu frecventa absoluta cea mai mare:
308 = n4 = max nk , k = 1, r , { }
deci al 4-lea interval de variatie (23100; 28400] $ este intervalul modal.
∆1
• Mo = xinf Mo + hMo ⋅ =
∆1 + ∆ 2
308 − 302
= 23100 + 5300 ⋅ = 23723,52 $, aceasta este valoarea cea mai
(308 − 302) + (308 − 263)
des intalnita a castigului salarial al unui absolvent intr-un an.
22
Statistica – seminar, Facultatea de Marketing, ASE, anul I, 2013-2014
Lect. univ. dr. Mihaela Covrig
Pentru reprezentarea grafica a poligonului freventelor absolute cumulate crescator vom pune in
evidenta limitele superioare x(k )sup ale intervalelor de variatie si frecventele lor absolute cumulate,
impreuna cu limita inferioara a primului interval de variatie x(1) inf , in cazul nostru 7200 $, a carui
frecventa absoluta cumulata este 0, Fc (x(1) inf ) = Fc (7200 ) = 0 , deoarece pentru nicio unitate statistica din
esantion, nivelul variabilei nu este mai mic decat x(1) inf .
Limitele superioare ale Fc (x(k ) sup ) = Fck = n1 + ... + nk , adica
intervalelor de variatie, numarul de absolventi din esantion
x(k )sup care au castigat un salariu mai mic sau egal cu x(k )sup $
x(1) inf =7200 Fc (x(1) inf ) = Fc (7200 ) =0
x(1)sup =12500 Fc (x(1) sup ) = Fc (12500 ) =30
x(2 )sup =17800 Fc (x(2 ) sup ) = Fc (17800 ) =99
x(3)sup =23100 Fc (x(3) sup ) = Fc (23100 ) =401
x(4 )sup =28400 Fc (x(4 ) sup ) = Fc (28400 ) =709
x(5 )sup =33700 Fc (x(5 ) sup ) = Fc (33700 ) =972
x(6 )sup =39000 Fc (x(6 ) sup ) = Fc (39000 ) =1067
x(7 )sup =44300 Fc (x(7 ) sup ) = Fc (44300 ) =1087
x(8 )sup =49600 Fc (x(8 ) sup ) = Fc (49600 ) =1093
x(9 )sup =54900 Fc (x(9 ) sup ) = Fc (54900 ) =1098
x(10 )sup =60200 Fc (x(10 ) sup ) = Fc (60200 ) =1099
x(11)sup =65500 Fc (x(11) sup ) = Fc (65500 ) =1100
1200
1087 1093 1098 1100
1067
1099
1000
972
(numarul cumulat de absolventi)
Frecventele absolute cumulate
800
709
600
400
401
200
99
30
0
0
0 10000 20000 30000 40000 50000 60000 70000
23
Statistica – seminar, Facultatea de Marketing, ASE, anul I, 2013-2014
Lect. univ. dr. Mihaela Covrig
i) Fc (21000 ) este numarul de absolventi care au obtinut un salariu mai mic de 21000 $ in primul an
de dupa finalizarea studiilor.
Valoarea 21000 $ se gaseste in intervalul de variatie (17800; 23100] $, iar Fc (21000 ) se determina
prin interpolare liniara, utilizand urmatoarea egalitate de rapoarte, asa cum se poate observa in figura
de mai jos:
21000 − 17800 Fc (21000 ) − Fc (17800 )
=
23100 − 17800 Fc (23100 ) − Fc (17800 )
3200 Fc (21000 ) − 99
⇒ =
5300 401 − 99
281
⇒ Fc (21000 ) = 281,33 ≅ 281 absolventi, adica o proportie de ⋅100 = 25,54% dintre cei 1100
1100
de absolventi din esantionul considerat au avut un salariu anual mai mic de 21000 $.
Fig. .... Interpolare liniara - detaliu din figura reprezentand poligonul frecventelor absolute cumulate
crescator, pentru intervalul (17800; 23100] $ in care se gaseste 21000 $.
ii) Fc (25966,82 ) este numarul de absolventi care au obtinut un salariu mai mic decat nivelul mediu
x = 25966,82 $ al salariului in esantion.
Din relatia
25966,82 − 23100 Fc (25966,82 ) − Fc (23100 )
= ,
28400 − 23100 Fc (28400 ) − Fc (23100 )
24
Statistica – seminar, Facultatea de Marketing, ASE, anul I, 2013-2014
Lect. univ. dr. Mihaela Covrig
obtinem ca Fc (25966,82 ) = 567,8 ≅ 568 absolventi,
568
adica o proportie de ⋅ 100 = 51,63% dintre cei 1100 de absolventi din esantionul considerat au
1100
avut un salariu anual mai mic de nivelul mediu.
iii) Fc (40000 ) − Fc (25000 ) = 559,35 ≅ 559 este numarul de absolventi care au castigat in primul an
intre 25000 $ si 40000 $, adica 50,81% dintre cei 1100 de absolventi.
iv) n − Fc (52000 ) = 1100 − Fc (52000 ) = 4,73 ≅ 5 absolventi au castigat mai mult de 52000 $, adica o
proportie de 0,45%.
d) Media variabilei de interes in esantion este x = 25966,82 $.
Intervalul k
Nr. (Salariul anual al Centrul Frecventa absoluta nk
crt. unui xk (xk − x )2 ⋅ nk
(numarul de absolventi)
absolvent, in $)
∑ (x − x ) ⋅ nk = 55482218864
2
∑n
k =1
k = n = 1100
k =1
k
s x2 = 50484275,58
s x = 7105,2287
Dispersia in esantion (de selectie) pentru o serie de distributie de frecvente pe r intervale de
variatie este
r
∑ (x − x ) ⋅ nk
2
s x2 =
(x1 − x )2
⋅ n1 + ... + ( xr − x ) ⋅ nr
2
= k =1
k
,
(n1 + ... + nr ) − 1 n −1
r
{ }
unde xk , k = 1, r sunt centrele celor r intervale, ∑n k = n volumul esantionului.
k =1
11
∑ (x − x ) ⋅ nk
2
k
55482218864
⇒ s x2 = k =1
= = 50484275,58 , iar abaterea standard este s x = 7105,2287 $, care
1100 − 1 1100 − 1
arata cu cat se abat, in medie, valorile observate fata de nivelul mediu al salariului din esantion.
s 7105,2287
Coeficientul de variatie in esantion este v x = x ⋅100 = ⋅100 = 27,36% < 30% , ceea ce
x 25966,82
arata ca media este reprezentativa pentru colectivitate.
25
Statistica – seminar, Facultatea de Marketing, ASE, anul I, 2013-2014
Lect. univ. dr. Mihaela Covrig
e) Asimetria unei serii de distribuţie de frecvenţe se observă din reprezentarea grafică prin
histogramă sau poligonul frecvenţelor, si prin modalitatea în care sunt situaţi, unul faţă de celălalt,
indicatorii tendinţei centrale.
Histograma
302 308
300 350
263 308
302
300
263
200 250
absolventi)
150 200
95
100 150
69
50 30 100 95
]
20
]
0
6
0
5 1 1
0
69
0
5
0
5
50
]
5
2
0
20
2
6
1
30
6
0
0
]
0;]
0;]
0;]
0;]
]
6
;
5
00
0
1
100
700
000
600
4
9
;
0
20;
8
0
17
03
03
09
44
09
54
0
;2
0
0
0
8
2
;
0;
500
100
00
2
690
9
7
0
0 10000 20000 30000 40000 50000 60000 70000
[7
4
(1
(2
(3
(4
(4
(6
(1
(2
(3
(5
∑ (x − x ) ⋅ nk
3
k
k =1
CAS x = ,
n ⋅ (s x )
3
r
unde xk , k = 1, r sunt centrele celor r intervale, { } ∑n k = n volumul esantionului.
k =1
Intervalul k Centrul
Nr. Frecventa absoluta nk
crt.
(Salariul anual al unui
xk (xk − x )3 ⋅ nk
absolvent, in $) (numarul de absolventi)
1 [7200; 12500] 9850 30 -1,25591E+14
2 (12500; 17800] 15150 69 -8,73269E+13
3 (17800; 23100] 20450 302 -5,07076E+13
4 (23100; 28400] 25750 308 -3139415056
5 (28400; 33700] 31050 263 3,45432E+13
6 (33700; 39000] 36350 95 1,06344E+14
7 (39000; 44300] 41650 20 7,71494E+13
8 (44300; 49600] 46950 6 5,54326E+13
9 (49600; 54900] 52250 5 9,07828E+13
10 (54900; 60200] 57550 1 3,15041E+13
11 (60200; 65500] 62850 1 5,01747E+13
11 11
∑ (x − x ) ⋅ nk = 1,82302E+14
3
∑n
k =1
k = n = 1100
k =1
k
CAS = 0,462
Cum 0 < CAS < 1 , avem asimetrie pozitivă, coada distribuţiei este mai alungită la dreapta, în serie
predominând valorile mici (modul < mediana < media).
26
Statistica – seminar, Facultatea de Marketing, ASE, anul I, 2013-2014
Lect. univ. dr. Mihaela Covrig
Ex. 7. La o banca se analizeaza distributia a 500 de debitori restantieri dupa situatia datelor de intarziere a
rambursarii creditelor. Datele au fost sistematizate astfel:
Intervale de variatie Ponderea cumulata
a numarului de zile de intarziere a platii a debitorilor (%)
mai putin 25 de zile 25
25-35 de zile 75
35-45 de zile 85
45-55 de zile 93
55-65 de zile 98
peste 65 de zile 100
Se cere:
a) sa se scrie distributia de frecvente pe intervale de variatie;
b) sa se reprezinte grafic distributia de frecvente absolute;
c) sa se calculeze si sa se analizeze indicatorii tendintei centrale si sa se stabileasca daca durata
medie de intarziere a platilor este reprezentativa;
d) sa se calculeze media si abaterea standard pentru variabila alternativa care evidentiaza debitorii ce
au intarziat mai mult de 45 de zile cu efectuarea platilor.
Rezolvare: a)
o Populatia statistica – mutimea debitorilor cu intarziere in efectuarea platilor pentru rambursarea unor
credite.
o Unitatea statistica – un debitor.
o Variabila sau caracteristica de interes, X, este variabila ce arata numarul de zile de intarziere a
efectuarii platii catre banca de catre un deitor; variabila numerica, discreta.
o S-a realizat o selectie de volum n = 500 de debitori restantieri pentru care s-a inregistrat numarul de
zile de intarziere, datele obtinute fiind sistematizate intr-o serie de distributie de frecvente pe r = 6
intervale de variatie de marime egala.
Notam cu:
• nk , k = 1, r , frecventa absoluta a intervalului k de variatie (numarul de debitori restantiei pentru care
numarul de zile de intarziere apartine intervalului k de variatie), n1 + ... + nr = n ;
n
• nk* = k ∈ [0;1], k = 1, r , frecventa relativa a intervalului k de variatie, n1* + ... + nr* = 1 ;
n
n
• nk* % = 100 ⋅ k , k = 1, r , frecventa relativa exprimata procentual a intervalului k de variatie sau
n
ponderea debitorilor cu numarul de zile de intarziere din intervalul sau clasa k,
n1* % + ... + nr* % = 100% ;
• Fck = n1 + ... + nk , k = 1, r , este frecventa absoluta cumulata crescator a intervalului k;
• Fck* = n1* + ... + nk* , k = 1, r , este frecventa relativa cumulata crescator a intervalului k;
• Fck* % = n1* % + ... + nk* %, k = 1, r , este frecventa relativa exprimata procentual cumulata crescator a
intervalului k (ponderea cumulata a intervalului k).
27
Statistica – seminar, Facultatea de Marketing, ASE, anul I, 2013-2014
Lect. univ. dr. Mihaela Covrig
Intervalul k de Frecventa Frecventa
variatie a Ponderea cumulata Ponderea absoluta,
Nr. relativa,
numarului de zile a debitorilor (%) intervalului k,
crt. n* % nk = n ⋅ nk* =
de intarziere a Fck % = n1* % + ... + nk* %
*
nk* % nk* = k
platii 100 = 500 ⋅ nk*
1 15-25 de zile Fck* % = n1* % = 25% n1* % = 25% n1* = 0,25 n1 = 125
* * * *
2 25-35 de zile F % = n % + n % = 75%
c2 1 2 n2* % = 50% n = 0,50
2
n2 = 250
3 35-45 de zile Fc*3 % = n1* % + ... + n3* % = 85% n3* % = 10% n3* = 0,10 n3 = 50
4 45-55 de zile Fc*4 % = n1* % + ... + n4* % = 93% n4* % = 8% n4* = 0,08 n4 = 40
* * * * *
5 55-65 de zile F % = n % + ... + n % = 98%
c5 1 5 n % = 5%
5 n = 0,05
5
n5 = 25
6 65-75 de zile Fc*6 % = n1* % + ... + n6* % = 100% n6* % = 2% n6* = 0,02 n6 = 10
6 6 6
∑ n % = 100% ∑ n
k =1
*
k
k =1
*
k =1 ∑n k =1
k = 500 = n
Distributia celor 500 de debitori dupa numarul de zile de intarziere a platii este urmatoarea serie
de distributie de frecvente pe intervale:
Intervalul k de variatie Numarul de debitori Centrul xk al
Nr. (frecventa absoluta),
a numarului de zile intervalului k de
crt. nk
de intarziere a platii variatie
1 15-25 de zile n1 = 125 debitori x1 = 20
2 25-35 de zile n2 = 250 x2 = 30
3 35-45 de zile n3 = 50 x3 = 40
4 45-55 de zile n4 = 40 x4 = 50
5 55-65 de zile n5 = 25 x5 = 60
6 65-75 de zile n6 = 10 x6 = 70
6
∑n
k =1
k = 500 = n debitori
b)
Histograma Poligonul frecventelor absolute
300
300
250
250
250
N u m aru l d e d eb ito ri
Numarul de debitori
200
200
150
125 150
100
100
50
50 40
25 50
10
0 0
15-25 25-35 35-45 45-55 55-65 65-75
de zile de zile de zile de zile de zile de zile
0 10 20 30 40 50 60 70 80
Numarul de zile de intarziere Numarul zilelor de intarziere
Fig. ..... Distributia celor 500 de debitori dupa numarul de zile de Fig. .... Poligonul frecventelor absolute pentru distributia celor
intarziere a platii 500 de debitori dupa numarul de zile de intarziere a platilor
28
Statistica – seminar, Facultatea de Marketing, ASE, anul I, 2013-2014
Lect. univ. dr. Mihaela Covrig
c)
Nr. Numarul de Centrul
crt.
Intervalul k
debitori, nk xk x k ⋅ nk Fck (xk − x )2 ⋅ nk
6 65-75 de zile
n6 = 10 x6 = 70 x6 ⋅ n6 = 700 Fc 6 = 500 ( x6 − x ) 2
⋅ n6 = 14137,6
6 6 6
∑ (x − x ) ⋅ nk = =69120
2
∑ nk = 500 = n
k =1
∑ xk ⋅ nk = 16200
k =1 k =1
k
x = 32,4 s x2 = 138,5170
s x = s x2 = 11,7693
v x = 36,33%
6
x1 ⋅ n1 + ... + xr ⋅ n6 ∑
x k ⋅ nk
k =1 16200
o Media este x = = = , deci x = 32,4 zile este numarul mediu de zile
n1 + ... + n6 n 500
de intarziere a platilor pentru un debitor restantier.
n +1 n +1
o Locul medianei este = 250,5 ; primul interval cu proprietatea ca Fck ≥ este intervalul 25-35
2 2
de zile, deoarece Fc1 = 125 < 250,5 , dar Fc 2 = 375 ≥ 250,5 , deci:
n +1
− Fc Me−1
Me = xinf Me + hMe ⋅ 2 =
nMe
250,5 − 125
= 25 + 10 ⋅ = 30,02 zile, adica jumatate dintre debitorii restantieri au intarziat
250
cel putin 30 de zile cu efectuarea platilor.
o Intervalul modal este intervalul 25-35 de zile deoarece are frecventa absoluta cea mai mare
{ }
250 = n2 = max nk , k = 1,6 , atunci
∆1
Mo = xinf Mo + hMo ⋅ =
∆1 + ∆ 2
250 − 125
= 25 + 10 ⋅ = 28,84 zile; numarul cel mai intalnit de zile de intarziere
(250 − 125) + (250 − 50)
a platilor celor 500 de debitori restantieri este de aproximativ 29 de zile.
o Relatia in care se gasesc cei trei indicatori ai tendintei centrale este Mo < Me < x , ceea ce indica o
asimetrie pozitiva.
29
Statistica – seminar, Facultatea de Marketing, ASE, anul I, 2013-2014
Lect. univ. dr. Mihaela Covrig
6
∑ (xk − x )2 ⋅ nk
o Dispersia in esantion este
(
s x2 = 1
x − x )2
⋅ n1 + ... + ( x 6 − x )2
⋅ n 6
= k =1 =
69120
, deci
(n1 + ... + n6 ) − 1 500 − 1 500 − 1
s x2 = 138,5170 , iar abaterea standard s x = s x2 = 11,7693 zile, care arata cu cate zile se abat, in
medie, valorile observate ale seriei de date fata de numarul mediu de zile de intarziere.
s 11,7693
o Coeficientul de variatie in esantion este v x = x ⋅100 = ⋅100 = 36,33% > 35% , ceea ce arata ca
x 32,4
distributia nu este omogena si media, ca indicatot al tendintei centrale, nu este reprezentativa pentru
colectivitate.
m 75
Media variabilei alternative este y = = = 0,15 , adica 15% dintre debitori au intarziat mai
n 500
mult de 45 de zile.
m m
Dispersia variabilei alternative este s y2 = ⋅ 1 − = 0,1275 , iar abaterea standard
n n
m m
sy = ⋅ 1 − ≅ 0,36 .
n n
30