Sunteți pe pagina 1din 30

Anul I, Facultatea de Marketing 2011-2012 Statistica Exercitii pregatitoare pentru testul de la seminar si pentru examen partea I Ex. 1.

. Urmtoarea serie de date arat preul de vnzare (sute lei) pentru 13 lucrri de grafic la o licitaie de obiecte de art: 51, 60, 72, 35, 32, 57, 63, 61, 48, 33, 67, 54, 37. Se cere: a) s se calculeze i s se interpreteze indicatorii tendinei centrale; b) s se stabileasc dac media este reprezentativ; c) s se calculeze i s se interpreteze cuartilele acestei serii de date; d) optiunea Descriptive Statistics din Data Analysis Excel; e) s se analizeze asimetria acestei serii de date; f) stabilii valoarea de adevr a urmtoarelor afirmaii, justificnd rspunsurile: f1) 25 % dintre lucrarile licitate s-au vandut pentru un pret mai mic de 48 sute de lei; f2) jumatate dintre lucrarile licitate au un pret mai mic sau egal cu 54 sute lei; f3) 25 % dintre lucrari s-au vandut cu cel putin 62 sute de lei; f4) pentru 75% dintre obiecte s-a obinut un pret de cel putin 36 sute lei; f5) precizati care dintre urmtoarele valori: 25, 29, 16, 40, 124, 85, 99,8 sute lei sunt outliers n raport cu datele iniiale; f6) coeficientul de variaie este 26,33%; f7) media este reprezentativ. Rezolvare: a) o Populaia statistic este mulimea lucrarilor de grafic puse n vnzare la licitaiile cu obiecte de art. o Unitatea statistic este o lucrare de grafic pus n vnzare la o licitaie. o Variabila statistic sau caracteristica de interes, notat cu X, arat preul de vnzare, n sute lei, al unei lucrri de grafic. o Pentru un eantion de volum n=13 uniti statistice (lucrri de grafic), se cunoate preul de vnzare, adic avem urmtoarea serie statistic simpl sau nesistematizat de date numerice: {x1=51, x2=60, x3=72, x4=35, x5=32, x6=57, x7=63, x8=61, x9=48, x10=33, x11=67, x12=54, x13=xn=37}. o Pentru o serie simpl de date numerice {x1 , x2 ,..., xn } , media aritmetic (Mean) este x =

Nr. crt. 1 2 3 4 5 6 7 8 9 10 11 12 13

x1 + x2 + ... + xn i =1 = . n n Valorile xi ale variabilei X - preul de vnzare (sute lei) x1= 51 x2= 60 x3= 72 x4= 35 x5= 32 x6= 57 x7= 63 x8= 61 x9= 48 x10=33 x11=67 x12=54 x13=37

xi

xi = 670
i =1

13

o n cazul nostru, x =

x1 + x2 + ... + x13 i =1 670 = = = 51,5385 51,54 sute lei, adic preul mediu de 13 13 13 vnzare al unei lucrri de grafic este de 51,54 sute lei.

xi

13

o Pentru a determina Mediana (Median) unei serii simple de date, se parcurg urmtoarele etape: Valorile seriei de date se ordoneaz cresctor: x(1) x(2 ) ... x(n1) x(n ) , unde x(i ) , i = 1, n

reprezint a i-a valoare din irul ordonat cresctor de date numerice (astfel, x(1) este prima valoare din irul ordonat cresctor, adic cea mai mic valoare, x(2 ) este urmtoarea valoare n ordine cresctoare i aa mai departe pn la x(n ) , care este cea mai mare valoare).
Pentru aceast serie, cele n=13 valori ordonate cresctor sunt: x(1)=32, x(2)=33, x(3)=35, x(4)=37, x(5)=48, x(6)=51, x(7)=54, x(8)=57, x(9)=60, x(10)=61, x(11)=63, x(12)=67, x(13)=72. n + 1 13 + 1 = = 7N Se stabilete locul medianei: 2 2 Mediana este a 7-a valoare din irul ordonat de date, adic Me = x(7 ) = 54 sute de lei (valoarea din mijlocul seriei ordonate de date). x(1) x(2 ) x(3 ) x(4 ) x(5 ) x(6 ) x(7 ) x(8 ) x(9 ) x(10 ) x(11) x(12 ) x(13 )
1444444 444444 2 3
50%

Me 54

1444444 24444444 4 3
50%

Interpretarea: jumtate dintre unitile statistice din eantion au nivelul variabilei de interes mai mic sau egal cu Mediana, iar restul au nivelul variabilei de interes cel puin egal cu Mediana, adic jumtate dintre lucrrile de grafic licitate s-au vndut cu mai puin de 54 sute lei, iar restul s-au vndut cu un pre mai mare de 54 sute lei. o Modul (Mode) sau valoarea modal este acea valoare sau variant de rspuns care apare cu cea mai mare frecven. n cazul nostru se observ c niciuna dintre valorile seriei de date nu are o frecven mai mare ca 1, adic avem numai valori distincte, prin urmare, seria nu are valoare modal. b) pentru a stabili dac media este reprezentativ, se calculeaz coeficientul de variaie al seriei de date, s 2 adic v x = x 100 , unde s x = s x este abaterea standard a seriei de date. x o Dispersia de selecie (sample variance) pentru o serie simpl de date numerice asupra variabilei X este

(x x ) (x1 x )2 + ... + (xn x )2 = i 2 i =1 s =


x

n 1

n 1

Calculele intermediare sunt prezentate n tabelul de mai jos:

Nr. crt. 1

Valorile xi

x1= 51

2 3 4 5 6 7 8 9 10 11 12 13
13

x2= 60 x3= 72 x4= 35 x5= 32 x6= 57 x7= 63 x8= 61 x9= 48 x10=33 x11=67 x12=54 x13=37

(xi x )2 (x1 x )2 = (51 51,54)2 = 0,2916 (x 2 x )2 = (60 51,54)2 = 71,5716 (x3 x )2 = (72 51,54)2 = 418,6116 (x4 x )2 = (35 51,54)2 = 273,5716
381,8116 29,8116 131,3316 89,4916 12,5316 343,7316 239,0116

(x12 x )2 = (54 51,54)2 = 6,0516 (x13 x )2 = (37 51,54)2 = 211,4116


2 (xi x ) = 2209,231
i =1
2 sx =

xi = 670
i =1

13

x = 51,54

2209,231 = 184,1026 13 1

2 s x = s x = 184,1026 = 13,5684

v x = 26,33%

2 adic dispersia (sample variance) este s x =

(xi x )
i =1

13

13 1

2209,231 = 184,1026 , 12

2 iar abaterea standard (standard deviation) este s x = s x = 184,1026 = 13,5684 sute lei, cu interpretarea c valorile individuale ale seriei se abat, n medie, cu 13,5684 sute lei fa de nivelul mediu de 51,84 sute lei al preului de vnzare din eantion. s 13,5684 100 = 26,33% < 35% , ceea ce indic faptul c seria o Coeficientul de variaie este v x = x 100 = x 51,54 de date este omogen; media este reprezentativ pentru colectivitate, ca indicator al tendinei centrale.

c) Cuartilele seriei de date sunt Q1 , Q2 = Me, Q3 , iar pentru determinarea lor, seria de date trebuie s fie

ordonat cresctor x(1) x(2 ) ... x(n1) x(n ) . o Q1 cuartila de ordinul 1 sau cuartila inferioar se determin astfel: n +1 13 + 1 se stabilete locul lui Q1 : 1 = 1 = 3,50 N, dar 3 < 3,50 < 4 4 4 (locul lui Q1 cuartilei este ntre 3 i 4, astfel c Q1 se va gsi ntre a 3-a i a 4-a valoare din irul ordonat cresctor) x(3) + x(4 ) 35 + 37 = = 36 sute lei. x(3) Q1 x(4 ) i Q1 = 2 2 x(1) x(2 x( x(4 ) x 5 ) x(6 x(7 ) x(8 ) x(9 ) x(10 ) x(11 x( x(13 14 2)443) 144(444)444444 444444) 412 ) 44 ) 4 3 2 4 4 3
25%
Q1

75%

36

interpretarea: 25% dintre unitile statistice din eantion au nivelul variabilei de interes mai mic sau egal cu Q1 , iar restul de 75% dintre unitile statistice din eantion au nivelul variabilei de interes cel puin egal cu Q1 ; adic 25% dintre lucrrile de grafic licitate s-au vndut pentru un pre mai mic dect 36 sute lei, iar restul de 75% dintre ele s-au vndut cu un pre mai mare de 36 sute lei.

o Q2=Me=54 sute lei este cuartila de ordinul 2 sau mediana seriei de date statistice. o Q3 cuartila de ordinul 3 sau cuartila superioar se determin astfel: n +1 13 + 1 se stabilete locul lui Q3 : 3 = 3 = 10,50 N, dar 10 < 10,50 < 11 4 4 (locul lui Q1 cuartilei este ntre 10 i 11, astfel c Q3 se va gsi ntre a 10-a i a 11-a valoare din irul ordonat cresctor) x(10 ) + x(11) 61 + 63 = = 62 sute lei, x(10 ) Q3 x(11) si Q3 = 2 2 x(1) x(2 ) x(3 x( x(5 ) x(6 x(7 ) x(8 ) x( ) x(10 x(11) x(12 ) x 13) 144444)444 ) 44 24)44444449444 ) 144244(3 4 4 3
75% Q3 62 25%

interpretarea: 75% dintre unitile statistice din eantion au nivelul variabilei de interes mai mic sau egal cu Q3 , iar restul de 25% dintre unitile statistice din eantion au nivelul variabilei de interes cel puin egal cu Q3 ; adic 75% dintre lucrrile de grafic licitate s-au vndut pentru un pre mai mic dect 62 sute lei, iar restul de 25% dintre ele s-au vndut cu un pre mai mare de 62 sute lei.

x(1) x(2 x( x(4 ) x x(6 ) x x( x(9 ) x(10 x(11) x(12 ) x 13) 14 2)443) 144(5 ) 4444(7 )448 ) 4444 ) 144244(3 4 3 4 2 4 3 4 4
25% Q1 50% Q3 62 25% 36

Jumatate din termenii din mijlocul seriei au valori cuprinse intre Q1=36 sute lei si Q3=62 sute lei. Abaterea intercuatilic (interquratile range) este IQR=Q3-Q1=26 sute lei.

d) pentru o serie statistica simpla de date numerice, principalii indicatori ai tendintei centrale, variatiei si formei distributiei se pot calcula in Excel astfel: datele statistice se introduc intr-o foaie de lucru a unui fisier Excel, asa cum se poate vedea in Figura nr. 1; in Excel 2003, din meniul Tools se alege Data Analysis, iar apoi se selecteaza Descriptive Statistics asa cum se poate vedea in Figura nr. 1; in Excel 2007 sau versiuni ulterioare, din meniul Data, se alege Data Analysis, iar apoi se selecteazaDescriptive Statistics, asa cum se poate vedea in Figura nr. 1;

Figura nr. 1. Introducerea datelor seriei simple intr-o foaie de lucru si selectarea optiunii Descriptive Statistics din Data Analysis.

in urmatoarea fereastra care se va deschide, asa cum se poate observa in Figura nr. 2, se va completa: la sectiunea Input Range se selecteaza cu mouse-ul sirul de celule care contin datele seriei statistice simple, la sectiunea Output options se alege o celula din foaia de lucru unde vor aparea rezultatele prelucrarii datelor, se bifeaza Summary Statistics, se da click pe butonul OK;

Figura nr. 2. Fereastra Descriptive Statistics.

Rezultatele sunt prezentate intr-un tabel de forma:


Mean (media) Standard Error Median (mediana) Mode (modul) Standard Deviation (abaterea standard) Sample Variance (dispersia de selectie) Kurtosis (coeficientul de boltire si aplatizare) Skewness (coeficientul de asimetrie) Range (Amplitudinea) Minimum (valoarea minima) Maximum (valoarea maxima) Sum (suma valorilor) Count (volumul esantionului)

51,5385 = x 3,7632 54 = Me #N/A (nu exista) 13,5684 = s x


2 = sx 2

184,1026 = s x

-1,29426 = CBA -0,23938 = CAS 40 =

Ax = xmax xmin
32 = x min = x(1) 72 = x max = x(n ) 670 = xi
i =1 n

13 = n

e) asimetria unei serii de date statistice se poate analiza din mai multe puncte de vedere: o prin compararea indicatorilor tendintei centrale: in cazul nostru, comparam doar media aritmetica si mediana, deoarece modul nu exista, astfel: x < Me , ceea ce indica o asimetrie negativa, in seria de date predominand valorile mai mari, adica intre lucrarile de grafica licitate sunt mai numeroase cele care au o valoare de vanzare mai mare; o prin calculul si evaluarea semnului urmatorului coeficient de asimetrie 3 ( x Me ) Cas = = 0,5442 < 0 ce arata ca distributia prezinta asimetrie negativa; sx o prin calculul coeficientului de asimetrie (Skewness), CAS = i =1 , a carui valoare este data n (s x )3 in tabelul ce reprezinta output-ul prelucrarii datelor statistice in Excel valoarea acestuia este CAS = 0,2393 , o valoare negativa si apropiata de 0, indicand ca distributia prezinta o asimetrie negativa moderata; o prin aprecierea pozitiei medianei fata de cele doua cuartile: Me Q1 = 18 sute lei, Q3 Me = 8 sute lei, deci Me Q1 > Q3 Me , adica Mediana este mai apropiata de cuartila superioara decat de cea inferioara, ceea ce arata ca seria prezinta asimetrie negativa. f) f1) 25 % dintre lucrarile licitate s-au vandut pentru un pret mai mic de 48 sute de lei: afirmatie falsa deoarece cuartila de ordinul intai este Q1 = 36 sute lei; f2) jumatate dintre lucrarile licitate au un pret mai mic sau egal cu 54 sute lei: afirmatie adevarata deoarece mediana este Me = 54 sute lei; f3) 25 % dintre lucrari s-au vandut cu cel putin 62 sute de lei: afirmatie corecta deoarece curatila superioara este Q3 = 62 sute lei; f4) pentru 75% dintre obiecte s-a obinut un pret de cel putin 36 sute lei; afirmatie adevarata deoarece cuartila inferioara este Q1 = 36 sute lei f5) precizati care dintre urmtoarele valori: 25, 29, 16, 40, 124, 85, 99,8 sute lei sunt outliers n raport cu datele iniiale: Definitie: Spunem ca o valoare x este outlier pentru un set de date statistice numerice dac: x < Q1 1,5 IQR sau x > Q3 + 1,5 IQR sau valoarea x este outlier pentru un set de date statistice daca se gsete n afara intervalului [Q1 1,5 IQR; Q3 + 1,5 IQR] .

(xi x )

n cazul nostru, [Q1 1,5 IQR; Q3 + 1,5 IQR] = [ 3;101] , deci numai valoarea 124 este outlier n raport cu setul iniial de date statistice;
f6) coeficientul de variaie este 26,33%: afirmatie adevarata; f7) media este reprezentativ pentru colectivitate: afirmatie adevarata deoarece coeficientul de variatie este mai mic de 35%.

Ex. 2. Se consider urmatoarea serie, reprezentand valoarea inregistrata a 9 facturi emise de o societate comerciala in ultima luna: 47; 58; 41; 36; 54; 42; 65; 43; 37 (mil. lei). Alegeti afirmatiile false: a) Cuartilele inferioara si superioara sunt 43 si respectiv 58 mil. lei. b) Abaterea intercuartilica este de 10 mil. lei; c) Jumatate dintre termenii seriei, plasati pe mijocul distributiei, se regasesc intre 39 si 56. d) Percentilele de ordinul 25 si 75 sunt 39 si respectiv 56 mil. lei e) In raport cu datele initiale, valorile: 73, 29, 18, 73, 23 sunt toate outliers. f) Daca fiecare valoare s-ar mari intai cu 4,25 lei, apoi de 2 ori, dispersia noilor valori ar fi 396. Ex. 3. Structura unui esantion de 90 de copii dupa nivelul maxim atins al unui joc pe calculator este:

E 22%

A 11% B 13%

Unde A nivelul cel mai slab, E nivelul cel mai inalt. a) Construiti distributia de frecvente absolute si reprezentati-o grafic. b) Studiati tendinta centrala a distributiei folosind indicatori adecvati. c) Calculati media si dispersia unei variabile alternative, a carei stare favorabila este data de copiii care au atins cel mult nivelul C al jocului.

D 34%

C 20%

Ex. 4. Pentru 39 de actrite care au obtinut premiul Oscar se cunoaste varsta, in ani impliniti, la momentul castigarii premiului: 50, 44, 35, 80, 26, 28, 41, 21, 61, 38, 49, 33, 74, 30, 33, 41, 31, 35, 41, 42, 37, 26, 34, 34, 35, 26, 61, 60, 34, 24, 30, 37, 31, 27, 39, 34, 26, 25, 33 ani. Se cere: a) sa se determine si sa se interpreteze indicatorii tendintei centrale si cuartilele acestei serii de date; b) sa se construiasca diagrama box-plot (sau diagrama cu mustati box-and-whisker), punand in evidenta daca seria are valori extreme; c) sa se calculeze indicatorii variatiei si sa se stabileasca daca seria este omogena; d) analizati asimetria; e) Descriptive Statistics. Rezolvare: a) o Populatia statistica este multimea actritelor care au castigat premiul Oscar. o Unitatea statistica este o actrita. o Variabila sau caracteristica de interes, notata X, este variabila ce arata varsta unei actrite la momentul obtinerii premiului; variabila numerica, discreta. o Pentru un esantion de volum n = 39 de actrite se cunosc valorile variabilei X, adica {x1=50, x2=44, x3=35, x4=80, ..., xn=x39=33 ani}, care reprezinta o serie simpla sau nesistematizata de date statistice numerice.

x x1 + x2 + ... + xn i i =1 = . o Media unei serii simple de date numerice {x1 , x2 , ..., xn } este x = n n In cazul acestei serii, varsta medie a unei actrite din esantion care a castigat premiul Oscar este x x1 + x2 + ... + x39 i 1486 i =1 x= = = = 38,1025 ani. 39 39 39
8
39

o Pentru a determina mediana, vom proceda astfel: - seria simpla de date se ordoneaza crescator x(1) x(2 ) ... x(n ) , unde x(i ) , i = 1, n este elementul cu rangul i din seria ordonata crescator, n +1 = 20 N Me = x(20 ) = 34 ani. - locul medianei este 2 Jumatate dintre actritele din selectie au obtunut premiul Oscar la o varsta de cel mult 34 de ani (jumatate dintre actritele din esantion au castigat premiul Oscar la o varsta de peste 34 de ani). o Exista doua valori care au frecventa maxima si anume valorile 26 ani si 34 ani, care apar pentru 4 actrite fiecare. Varsta actritelor, in ordine crescatoare x(i ) Varsta actritelor xi Nr. crt.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

x1=50 x2=44 x3=35 x4=80 x5=26


28 41 21 61 38 49 33 74 30 33 41 31 35 41 42 37 26 34 34 35 26 61 60 34 24 30 37 31 27 39 34 26 25

x(1)=21 x(2)=24 x(3)=25 x(4)=26 x(5)=26


26 26 27 28

x(10)=30=Q1
30 31 31 33 33 33 34 34 34

x(20)=34=Me
35 35 35 37 37 38 39 41 41

x(30)=41=Q3
42 44 49

x39=33

x(34)=50 x(35)=60 x(36)=61 x(37)=61 x(38)=74 x(39)=80

o Pentru determinarea cuartilelor procedam astfel:


n +1 1 = 10 N Q1 = x(10 ) = 30 ani; un sfert 4 dintre actrite au castigat premiul Oscar la o varsta mai mica sau egala cu 30 de ani, iar restul la cel putin 30 de ani; n +1 3 = 30 N Q3 = x(30 ) = 41 ani; trei sferturi - locul cuartilei de ordinul 3, Q3, este 4 dintre actrite au castigat premiul Oscar la o varsta mai mica sau egala cu 41 de ani, iar restul la cel putin 41 de ani. o Abaterea intercuartilica este IQR = Q3 Q1 = 11 ani si arata lungimea intervalului in care se gasesc jumatate dintre valorile din mijlocul seriei de date.

locul cuartilei de ordinul 1, Q1, este

b) Diagrama cu mustati (box-and-whisker) sau diagrama box-plot pentru o serie de date statistice numerice se construieste punand in evidenta urmatoarele cinci elemente si eventualele valori extreme sau outliers: - cuartila inferioara sau de ordinul 1, Q1=30 ani; - mediana sau cuartila de ordinul al 2-lea, Q2=Me=34 ani; - cuartila superioara sau de ordinul al 3-lea, Q3=41 ani; - limita sau marginea inferioara a diagramei box-plot este cea mai mica dintre valorile seriei de date cu proprietatea ca este mai mare sau egala cu Q1 1,5 IQR , adica
lim inf box plot = min x(i ) , i = 1, n x(i ) Q1 1,5 IQR :

o Q1 1,5 IQR = 13,5 o cea mai mica dintre valorile seriei de date, cu proprietatea ca este 13,5 , este x(1)=21 ani, deci marginea inferioara este egala cu 21 ani, lim inf box plot = 21 = x(1) ; limita sau marginea superioara a diagramei box-plot este cea mai mare dintre valorile seriei de date cu proprietatea ca este mai mica sau egala cu Q3 + 1,5 IQR , adica
lim sup box plot = max x(i ) , i = 1, n x(i ) Q3 + 1,5 IQR :

o Q3 + 1,5 IQR = 57,5 o cea mai mare dintre valorile seriei de date, cu proprietatea ca este 57,5 , este x(34)=50 ani, deci marginea superioara este egala cu 50 ani, lim sup box plot = 50 = x(34 ) .

Se observa ca intervalul cuprins intre marginea inferioara si cea superioara diagramei box-plot, adica intervalul de numere reale [21; 50] nu contine toate valorile observate, in afara lui ramanand valorile x(35)=60, x(36)=61, x(37)=61, x(38)=74, x(39)=80 ani. Valoarea x este outlier pentru seria de date statistice numerice daca x se gaseste in afara intervalului [Q1 1,5 IQR; Q3 + 1,5 IQR] = [13,5; 57,5] , x(35)=60, x(36)=61, x(37)=61, x(38)=74, x(39)=80 sunt outliers si vor fi reprezentate distinct in diagrama box-plot.

10

* * *

21

30 (Q1)

34 (Me)

41 (Q3)

50

60 61

74

80

Fig. . Diagrama box-plot sau diagrama cu mustati (box-and-whisker).

Fig. . Diagrama box-plot in SPSS.


c) Dispersia de selectie (sample variance) pentru o serie simpla de date numerice asupra variabilei X este
2 sx =

(x1 x )

+ ... + ( xn x ) = n 1
2

(x
i =1

x)

n 1

(x
2 adica s x = i =1

39

x)

39 1

6791,5897 = 178,7260 , 39 1

2 abaterea standard (standard deviation) este s x = s x = 13,3688 ani.

11

sx 100 = 35,09% > 35% , ceea ce indica faptul ca seria de date x nu este omogena, iar media nu este reprezentativa pentru colectivitate, ca indicator al tendintei centrale. xi x Nr. crt. Varsta actritelor xi (xi x )2

Coeficientul de variatie este v x =

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
39

x1=50 x2=44 x3=35 x4=80 x5=26


28 41 21 61 38 49 33 74 30 33 41 31 35 41 42 37 26 34 34 35 26 61 60 34 24 30 37 31 27 39 34 26 25

11,8974 5,8974 -3,1026 41,8974 -12,1026 -10,1026 2,8974 -17,1026 22,8974 -0,1026 10,8974 -5,1025 35,8974 -8,1025 -5,1025 2,8974 -7,1025 -3,1025 2,8974 3,8974 -1,1025 -12,1025 -4,1025 -4,1025 -3,1025 -12,1025 22,8974 21,8974 -4,10256 -14,1025 -8,1025 -1,1025 -7,1025 -11,1025 0,8974 -4,1025 -12,1025 -13,1025 -5,1025

141,5489 34,7797 9,6259 1755,3951 146,4720 102,0618 8,3951 292,4977 524,2925 0,0105 118,7541 26,0361 1288,6259 65,6515 26,0361 8,3951 50,4464 9,6259 8,3951 15,1900 1,2156 146,4720 16,8310 16,8310 9,6259 146,4720 524,2925 479,4977 16,8310 198,8823 65,6515 1,2156 50,4464 123,2669 0,8053 16,8310 146,4720 171,6771 26,0361

x39=33

x
i =1

= 1486

(x
i =1

39

x) = 0

(x
i =1

39

x ) = 6791,5897
2 2 s x = 178,7260

x = 38,1025

2 s x = s x = 13,3688

v x = 35,09%

12

Asimetria unei serii de distribuie de frecvene se poate stabili: - prin compararea indicatorilor tendintei centrale, - prin analiza distantei intre mediana si cele doua cuartile inferioara si superioara, - prin calculul si interpretarea valorii unui indicator specific, coeficientul de asimetrie, - se observ din reprezentarea grafic prin histogram sau poligonul frecvenelor. - Cum Me = 34 < 38,1025 = x , atunci concluzionam ca seria de date prezinta asimetrie pozitiva. - Cum mediana este mai apropiata de Q1 decat de Q2, adica Me Q1 < Q3 Me , asa cum se poate vedea din diagrama box-plot, atunci concluzionam ca seria prezinta asimetrie pozitiva, in seria de date predominand valorile mici.
d)

(x
- Indicatorul asimetriei este coeficientul de asimetrie (Skewness) CAS =
i =1

x)

, al carui semn si 3 n (s x ) marime arata tipul asimetriei (pozitiva sau negativa), iar marimea arata gradul mai putin accentuat sau mai accentuat al asimetriei seriei de date sau al distributiei. In cazul acestei serii de date, CAS = 1,5734 , o valoare pozitiva si mai mare ca 1, ceea ce arata ca seria de date prezinta o asimetrie pozitiva pronuntata. - Sistematizarea printr-o serie de distributie de frecvente pe r = 6 intervale de variatie de marime egala a dat urmatoarea distributie a celor n=39 de actrite din esantion dupa varsta la momentul obtinerii premiului Oscar:
Nr. crt. Intervalul k de variatie (clasa de varsta) 20-30 ani 30-40 ani 40-50 ani 50-60 ani 60-70 ani 70-80 ani Frecventa absoluta nk a intervalului k de variatie (numarul de actrite din fiecare clasa de varsta) 11 16 7 1 2 2 Centrul xk al intervalului k de variatie 25 35 45 55 65 75

1 2 3 4 5 6

n
k =1

= 39=n

Reprezentarea grafica seriei de distributie de frecvente pe intervale, adica histograma si poligonul frecventelor sugereaza ca aceasta prezinta asimetrie pronuntata la dreapta sau asimetrie pozitiva, adica predomina valorile mai mici ale variabilei de interes, cu coada mai lung a distribuiei spre valorile mari, care apar cu frecventa mai mica. Intre cele 39 de actrite castigatoare ale premiului Oscar, predomina cele cu varste relativ mai mici.
Histograma - distributia celor n=39 de actrite dupa variabila ce arata varsta la momentul castigarii premiului Oscar
18

Poligonul frecventelor pentru seria de distributie de frecvente

Frecventa absoluta (numarul de actrite)

18 16 14 12 10 8 6 4 2 0 20-30 ani 11

16

16 14 Numarul de actrite 12 11 10 8

16

7 6 4

1 30-40 ani 40-50 ani 50-60 ani

2 1 0

60-70 ani

70-80 ani

10

20

30

40

50

60

70

80

Varsta, in ani (centrele intervalelor)

Varsta (intervalele sau clasele de varsta)

13

e) Indicatorii tendintei centrale, principalii indicatori ai variatiei si ai formei distributiei pentru o serie simpla de date numerice pot fi calculati in Excel si in SPSS, output-urile fiind de forma:

Output-ul Descriptive Statistics in Excel


Varsta actritelor Mean (media) Standard Error Median Mode Standard Deviation (abaterea standard) Sample Variance (dispersia de selectie) Kurtosis Skewness (coeficientul de asimetrie) Range (Amplitudinea) Minimum Maximum Sum Count

Output-ul Descriptive Statistics in SPSS

Statistics

x = 38.1025
2.1407 Me=34 Mo=26
2 s x = s x = 13.3688 2 s x = 178.7260

Varsta actritelor Oscar N Valid Missing Mean Std. Error of Mean Median Mode Std. Deviation Variance Skewness Std. Error of Skewness Kurtosis Std. Error of Kurtosis Range Minimum Maximum Sum 39 0

x = 38.10
2.141

2.3830

Me=34.00 Mo=26a
2 s x = s x = 13.369 2 s x = 178.726

CAS = 1.5734

Ax = xmax xmin = 59 xmin = 21 xmax = 80

CAS = 1.573
.378 2.383 .741

x
i =1

39

= 1486

n=39

Ax = xmax xmin = 59 xmin = 21 xmax = 80


39

x
i =1

= 1486

Percentiles

25 50 75

Q1 = 30.00 Q2 = Me = 34.00 Q3 = 41.00

a. Multiple modes exist. The smallest value is shown

Observatie: Analiza boltirii/aplatizrii Boltirea(kurtosis, n engl.) exprim nlimea curbei (cocoaei) comparativ cu distribuia normal teoretic. ntlnim, astfel distribuii leptocurtice, ascuite (cu cocoaa nalt) i distribuii platicurtice, aplatizate. Coeficientul de boltire sau aplatizare (kurtosis) este o msur a mprtierii fiecrei observaii n jurul unei valori centrale i se determin, pe eantion, cu formula:

(x
CBA =
i =1

x)
2 2 x

4
2 3 , unde s x =

(x
i =1

x)

n s

( )

n 1

Definiia este bazat pe momentul centrat de ordinul 4.

14

Interpretarea valorii coeficientului de aplatizare si boltire: Dac CBA > 0 , avem distribuie leptocurtic, valorile varibilei fiind concentrate n jurul indicatorilor tendinei centrale Dac CBA < 0 , avem distribuie platicurtica, valorile varibilei fiind dispersate n raport cu indicatorii tendinei centrale Dac CBA = 0 , avem distribuie mezocurtic, adic distribuia normal.

In cazul acestei serii de date statistice, CAB = 2,383 > 0 , ceea ce indica o distributie leptocurtica (cu cocoasa, asa cum se poate vedea si din histograma sau poligonul frecventelor).
Ex. 5. Un agent al companiei de asigurari W vinde contracte de asigurare de locuinte. In luna iulie a incheiat: 2 contracte cu prime anuale de 50 Eur, 3 contracte cu prime anuale de 60 Eur, 6 contracte cu prime de 70 Eur, 9 contracte cu prime de 90 Eur, 16 contracte cu prime anuale de 120 Eur, 8 contracte cu prime anuale de 130 Eur si 6 contracte cu prime de 140 Eur. Se cere: a) Construii seria de distribuie de frecvene i analizai grafic tendina de normalitate a acesteia. b) Caracterizai omogenitatea i asimetria distribuiei contractelor n funcie de valoarea primelor anuale. c) Calculati media si abaterea standard a variabilei alternative care evidentiaza contractele cu prime anuale de valoare mai mica sau egala cu 90 Eur. Rezolvare: a) o Populatia statistica este multimea contractelor de asigurare de locuinte din portofoliul companiei W. o Unitatea statistica este un contract de asigurare de locuinta. o Variabila statistica sau caracteristica de interes, notata X, este variabila ce arata marimei primei anuale, in Eur, pentru un contract de asigurare de locuinta incheiat de un agent al companiei; variabila numerica, continua. o Agentul a incheiat intr-o luna n=50 de contracte, seria de date statistice referitoare la primele anuale ale acestor contracte fiind sistematizata intr-o serie de distributie de frecvente pe r=7 variante distincte. Astfel distributia celor n=50 de contracte dupa valoarea primei anuale, in Eur, este:
Nr. crt. 1 2 3 4 5 6 7 Valoarea

xk Eur

Numarul de contracte, (frecventa absoluta) n1 = 2 contracte

nk ,

a unei prime anuale x1 = 50 Eur

x2 = 60 Eur x3 = 70 Eur x4 = 90 Eur x5 = 120 Eur x6 = 130 Eur x7 = 140 Eur

n2 = 3 n3 = 6 n4 = 9 n5 = 16 n6 = 8 n7 = 6

n
k =1

= 50 = n contracte

sau
7

x2 = 60 x3 = 70 x4 = 90 x5 = 120 x6 = 130 x7 = 120 x = 50 Eur , X : 1 n = 2 contracte n = 3 n = 6 n = 9 n = 16 n6 = 8 n7 = 6 2 3 4 5 1

unde

n
k =1

= 50 = n contracte.

15

o Reprezentarea grafica a acestei serii de distributie este poligonul frecventelor absolute.


Poligonul frecventelor absolute - distributia celor 50 de contracte incheiate de agentul de asigurari dupa valoarea primei anuale
18

Frecventa absoluta (numarul de contracte)

16 14 12 10 8 6 4 2 0 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150

Prima anuala de asigurare a unui contract, in Eur

o Poligonul frecventelor sugereaza ca distributia are tendinta de normalitate, dar prezinta asimetrie la stanga, coada poligonului freventelor absolute fiind mai alungita spre stanga. o Poligonul frecventelor se mai poate reprezenta si cu ajutorul frecventelor relative
Nr. crt. 1 2 3 4 5 6 7 Valoarea

xk

Eur

Numarul de contracte,

nk ,

Frecventa relativa
* n1 = 0,04 * n2 = 0,06 * n3 = 0,12 * n4 = 0,18 * n5 = 0,32 * n6 = 0,16 * n7 = 0,12

a unei prime anuale

(frecventa absoluta)

* nk =

nk [0,1] n

x1 = 50 Eur x2 = 60 Eur x3 = 70 Eur x4 = 90 Eur x5 = 120 Eur x6 = 130 Eur x7 = 140 Eur
7
k =1

n1 = 2 contracte n2 = 3 n3 = 6 n4 = 9 n5 = 16 n6 = 8 n7 = 6

nk = 50 = n

contracte

n
k =1

* k

=1

16

Poligonul frecventelor relative


0,35

0,3 0,25
Frecventa relativa

0,2

0,15

0,1 0,05

0 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 Prima anuala, in Eur, pentru un contract de asigurare

b) o Media pentru o serie de distributie de frecvente pe r variante distincte ale variabilei de interes este

x n + ... + xr nr = x= 1 1 n1 + ... + nr

x
k =1

nk ,
r

unde xk , k = 1, r sunt variantele distincte observate ale variabilei, iar

n
k =1

= n volumul esantionului.

5310 = 106,2 Eur este valoarea medie a unei prime anuala 50 50 corespunzatoare unui contract de asigurare de locuinta incheiat de respectivul agent de vanzari. In cazul nostru, x =
k =1

nk

o Mediana pentru o serie de distributie de frecvente pe r variante distincte se calculeaza parcurgand urmatorii pasi: Cele r variante distincte sunt ordonate crescator x1 < x2 < ... < xr . n +1 Se determina locul medianei, adica = 25,5 . 2 Se calculeaza frecventele absolute cumulate crescator ale celor r variante distincte Fck = n1 + ... + nk , k = 1, r . Mediana este acea valoare distincta cu proprietatea ca frecventa sa absoluta cumulata crescator este prima care depaseste locul medianei Fc1 = 2 < 25,5

Fc 2 = 5 < 25,5 Fc 3 = 11 < 25,5 Fc 4 = 20 < 25,5 si Fc 5 = 36 25,5 , deci a 5-a varianta sau valoare distincta, x5 , este mediana sau valoarea mediana: Me = x5 = 120 Eur, adica jumatate dintre contractele incheiat de agentul de vanzari au o prima anuala de valoare mai cica sau egala cu 120 Eur.

17

Nr. crt. 1 2 3 4 5 6 7

Valoarea distincta,

nk ,
(frecventa absoluta)

xk

Eur

xk nk x1 n1 = 100 x2 n2 = 180
420 810 1920 1040 840

Fck = n1 + ... + nk Fc1 = n1 = 2 Fc 2 = n1 + n2 = 5 Fc 3 = n1 + n2 + n3 = 11 Fc 4 = n1 + ... + n4 = 20 Fc 5 = n1 + ... + n5 = 36 Fc 6 = n1 + ... + n6 = 44 Fc 7 = n1 + ... + n7 = n = 50

(xk x )2 nk
(x2 x )2 n1 = 6316,88 (x2 x )2 n2 = 6403,32
7862,64 2361,96 3047,04 4531,52

x1 = 50 x2 = 60 x3 = 70 x4 = 90 x5 = 120 x6 = 130 x7 = 140


7

n1 = 2 n2 = 3 n3 = 6 n4 = 9 n5 = 16 n6 = 8 n7 = 6

( x7 x )

n7 = 6854,64
2

nk = 50 = n
k =1

xk nk = 5310
k =1

(x
k =1

x ) nk = 37378
2 s x = 762,8163265

x = 106,2

2 s x = s x = 27,61912972

v x = 26,01%
o Modul sau valoarea modala pentru o serie de distributie de frecvente pe r variante distincte este acea varianta sau valoare care apare cu frecventa absoluta sau relativa cea mai mare: Frecventa absoluta cea mai mare este: 16 = n5 = max nk , k = 1, r . valoarea modala este deci a 5-a varianta sau valoare distincta de raspuns a variabilei de interes, Mo = x5 = 120 Eur, aceasta fiind valoarea cea mai des intalnita a unei prime anuale pentru contractele incheiate de respectivul agent.

Relatia in care se gasesc indicatorii tendintei centrale, x < Me = Mo , ca si reprezentatrea grafica pentru poligonul frecventelor absolute sau relative, arata ca distributia contractelor dupa valoarea primelor anuale prezinta asimetrie negativa, in serie predominand valorile mai mari ale primelor anuale, iar coada distributiei este alungita spre stanga.

o Dispersia in esantion (de selectie) pentru o serie de distributie de frecvente pe r intervale de variatie este
2 sx =

(x1 x )

n1 + ... + ( xr x ) nr = (n1 + ... + nr ) 1


2

(x
k =1

x ) nk
2

n 1

,
= n volumul esantionului.

unde xk , k = 1, r sunt variantele distincte observate ale variabilei,

n
k =1

(x
2 In cazul nostru, s x =

x ) nk
2

k =1

50 1
2 x

37378 = 762,8163 , iar abaterea standard sau abaterea medie 50 1

patratica este s x = s = 27,6191 Eur, care arata cu cat se abat, in medie, valorile observate fata de nivelul mediu in esantion al primelor anuale.
o Coeficientul de variatie in esantion este v x =

sx 27,6191 100 = 100 = 26,01% < 30% , ceea ce arata ca x 106,2 distributia este omogena si media este reprezentativa pentru colectivitate.

18

c) Definim evenimentul favorabil ca evenimentul ca un contract de asigurare are o prima anuala de valoare mai mica sau egala cu 90 Eur. Variabila alternativa care evidentiaza contractele ale caror prime 1 0 anuale sunt de valoare mai mica sau egala cu 90 Eur este Y : n m m ,

unde

iar

Y = 1 pentru unitatile statistice din esantion care verifica evenimentul favorabil, iar m este numarul de unitati statistice din esantion care verifica evenimentul favorabil, m = n1 + n2 + n3 + n4 = 20 contracte, Y = 0 pentru unitatile statistice din esantion care nu verifica evenimentul favorabil, n m este numarul de unitati statistice din esantion pentru care nu se verifica evenimentul favorabil, n m = 30 de contracte cu prime anuale mai mari de 90 Eur.

m 20 = = 0,4 , adica 40% dintre contracte au valori ale n 50 primelor anuale mai mici sau egale cu 90 Eur. m m Dispersia variabilei alternative este s 2 = 1 = 0,24 , iar abaterea standard y n n

Media variabilei alternative este y =

sy =

m m 1 0,48 n n

Ex. 6. Distributia a 1100 de absolventi ai Universitatii din Florida dupa salariul castigat, in $, in primul an dupa terminarea studiilor este urmatoarea serie de distributie de frecvente pe intervale de variatie: Nr. crt. Intervalul de variatie al salariului, $ Numarul de absolventi
1 2 3 4 5 6 7 8 9 10 11 [7200; 12500] (12500; 17800] (17800; 23100] (23100; 28400] (28400; 33700] (33700; 39000] (39000; 44300] (44300; 49600] (49600; 54900] (54900; 60200] (60200; 65500] 30 69 302 308 263 95 20 6 5 1 1

Se cere: a) sa se reprezinte grafic aceasta serie de distributie; b) sa se determine si sa se interpreteze indicatorii tendintei centrale; c) sa se reprezinte grafic poligonul frecventelor absolute cumulate crescator si sa se estimeze proportia absolventilor care: i) au obtinut un salariu mai mic de 21000 $ in primul an de dupa finalizarea studiilor, ii) au obtinut un salariu mai mic decat media in primul an de dupa finalizarea studiilor, iii) au castigat in primul an intre 25000 $ si 40000 $, iv) au castigat mai mult de 52000 $; d) sa se stabileasca daca media este reprezentativa pentru colectivitate; e) sa se analizeze asimetria acestei distributii.
Rezolvare: a) Populatia statistica este multimea absolventilor Universitatii din Florida, promotiile anilor 1989 si 1990, asa cum se specifica in fisierul University of Florida graduate salaries.sav al programului SPSS. Unitatea statistica este un absolvent.

19

Variabila sau caracteristica de interes, notata X, este variabila ce arata salariul unui absolvent, in $, din primul an de dupa finalizarea studiilor, variabila numerica, continua. Pentru un esantion de volum n = 1100 de absolventi s-au inregistrat valorile variabilei, iar setul de date s-a sistematizat intr-o serie de distributie de frecvente pe r = 11 intervale de variatie de marime egala, data in enuntul problemei. Reprezentarea grafica a acestei serii de distributie de frecvente pe intervale de variatie se poate realiza prin histograma si poligonul frecventelor absolute.
Nr. crt. Intervalul k de variatie (Salariul anual al unui absolvent, in $) Frecventa absoluta Limita inferioara Limita superioara

nk

a intervalului k

x(k )inf
a intervalului k

x(k )sup
a intervalului k

Centrul

xk

(numarul de absolventi)

al intervalului k

1 2 3 4 5 6 7 8 9 10 11

[7200; 12500] (12500; 17800] (17800; 23100] (23100; 28400] (28400; 33700] (33700; 39000] (39000; 44300] (44300; 49600] (49600; 54900] (54900; 60200] (60200; 65500]

30 69 302 308 263 95 20 6 5 1 1

7200 12500 17800 23100 28400 33700 39000 44300 49600 54900 60200

12500 17800 23100 28400 33700 39000 44300 49600 54900 60200 65500

9850 15150 20450 25750 31050 36350 41650 46950 52250 57550 62850

n
k =1

11

= n = 1100

Histograma

350 Frecventa absoluta (numarul de absolventi)


302 308 263

300 250 200 150 100


69 95

50 0

30

20 6 5 1 1

00

00

00

00

00

] 00 60 2 (6 02 0 0; 65 5

00

50 0

28 4

33 7

39 0

17 8

23 1

44 3

00

12

0;

0;

0;

0;

0;

49 6

54 9

0;

20 0;

78 0

31 0

84 0

37 0

25 0

0;

0;

90 0

[7

(1

(1

(2

(2

(3

(3

43 0

(4

96 0

Salariul, in $ (intervalele de variatie)

Fig. ..... Histograma Distributia celor 1100 de absolventi ai Universitatii din Florida dupa salariul castigat in primul an de dupa finalizarea studiilor. 20

(5

(4

49 0

0;

00

00

Poligonul frecventelor absolute


350

Frecventa absoluta (numarul de absolventi)

300 250 200 150 100

302

308

263

95 69 20

50 30 0 0 10000 20000 30000

1 70000

40000

50000

60000

Salariul, in $ (centrele intervalelor de variatie)

Fig. ..... Poligonul frecventelor absolute Distributia celor 1100 de absolventi ai Universitatii din Florida dupa salariul castigat in primul an de dupa finalizarea studiilor.
b) Indicatorii tendintei centrale: media, mediana si modul.
Nr. crt. 1 2 3 4 5 6 7 8 9 10 11
Intervalul k (Salariul anual al unui absolvent, in $) Centrul Frecventa absoluta

xk
9850 15150 20450 25750 31050 36350 41650 46950 52250 57550 62850

nk
30 69 302 308 263 95 20 6 5 1 1

(numarul de absolventi)

xk nk
295500 1045350 6175900 7931000 8166150 3453250 833000 281700 261250 57550 62850

Frecventa absoluta cumulata crescator a intervalului k,

Fck = n1 + ... + nk
30 99 401 709 972 1067 1087 1093 1098 1099 1100

[7200; 12500] (12500; 17800] (17800; 23100] (23100; 28400] (28400; 33700] (33700; 39000] (39000; 44300] (44300; 49600] (49600; 54900] (54900; 60200] (60200; 65500]

nk = n = 1100
k =1

11

x
k =1

11

nk = 28563500 x = 25966,82

o Media pentru o serie de distributie de frecvente pe r intervale de variatie este

x n + ... + xr nr x= 1 1 = n1 + ... + nr unde xk , k = 1, r sunt centrele celor r intervale, iar

x
k =1

nk ,

n
k =1

= n volumul esantionului.

21

x
x=
k =1

11

nk =

1100

28563500 = 25966,82 $ a castigat, in medie, un absolvent in primul an. 1100

o Mediana pentru o serie de distributie de frecvente pe r intervale de variatie se calculeaza parcurgand urmatorii pasi: n +1 = 550,5 . Se determina locul medianei, adica 2 Se calculeaza frecventele absolute cumulate crescator ale intervalelor de variatie Fck = n1 + ... + nk , k = 1, r . Intervalul median este primul interval cu proprietatea ca frecventa sa absoluta cumulata crescator depaseste locul medianei Fc1 = 30 < 550,5

Fc 2 = 99 < 550,5 Fc 3 = 401 < 550,5 si Fc 4 = 709 550,5 , deci al 4-lea interval de variatie (23100; 28400] $ este intervalul median. n +1 Fc Me1 = Me = xinf Me + hMe 2 nMe 550,5 401 = 25672,56 $, adica jumatate dintre absolventi au castigat = 23100 + 5300 308 cel mult 25672,56$ in primul an sau jumatate au castigat cel putin 25672,56 $.

o Modul sau valoarea modala pentru o serie de distributie de frecvente pe r intervale de variatie se calculeaza astfel: Se determina intervalul cu frecventa absoluta cea mai mare: 308 = n4 = max nk , k = 1, r , deci al 4-lea interval de variatie (23100; 28400] $ este intervalul modal. 1 = Mo = xinf Mo + hMo 1 + 2 308 302 = 23723,52 $, aceasta este valoarea cea mai = 23100 + 5300 (308 302) + (308 263) des intalnita a castigului salarial al unui absolvent intr-un an.

c) Introducem functia Fc : R R + definita astfel Fc ( x ) = numarul de unitati statistice din esantion pentru care valoarea observata a caracteristicii de interes X este mai mica sau egala cu x sau frecventa cumulata a lui x.

Frecventa absoluta cumulata crescator a intervalului k de variatie, Fck = n1 + ... + nk , k = 1, r , reprezinta numarul de unitati statistice din esantion pentru care valoarea observata a variabilei de interes X este mai mica sau egala decat limita superioara x(k )sup a intervalului k de variatie, adica
Fck = Fc (x(k ) sup ) , k = 1, r .

22

Pentru reprezentarea grafica a poligonului freventelor absolute cumulate crescator vom pune in evidenta limitele superioare x(k )sup ale intervalelor de variatie si frecventele lor absolute cumulate, impreuna cu limita inferioara a primului interval de variatie x(1) inf , in cazul nostru 7200 $, a carui esantion, nivelul variabilei nu este mai mic decat x(1) inf . Limitele superioare ale intervalelor de variatie, x(k )sup
x(1) inf =7200 x(1)sup =12500 x(2 )sup =17800 x(3 )sup =23100 x(4 )sup =28400 x(5 )sup =33700 x(6 )sup =39000 x(7 )sup =44300 x(8 )sup =49600 x(9 )sup =54900 x(10 )sup =60200 x(11)sup =65500 Fc (x(k ) sup ) = Fck = n1 + ... + nk , adica numarul de absolventi din esantion care au castigat un salariu mai mic sau egal cu x(k )sup $ Fc (x(1) inf ) = Fc (7200 ) =0 Fc (x(1) sup ) = Fc (12500 ) =30

frecventa absoluta cumulata este 0, Fc (x(1) inf ) = Fc (7200 ) = 0 , deoarece pentru nicio unitate statistica din

Fc (x(2 ) sup ) = Fc (17800 ) =99

Fc (x(4 ) sup ) = Fc (28400 ) =709

Fc (x(3 ) sup ) = Fc (23100 ) =401 Fc (x(5 ) sup ) = Fc (33700 ) =972

Fc (x(7 ) sup ) = Fc (44300 ) =1087 Fc (x(8 ) sup ) = Fc (49600 ) =1093 Fc (x(9 ) sup ) = Fc (54900 ) =1098

Fc (x(6 ) sup ) = Fc (39000 ) =1067

Fc (x(10 ) sup ) = Fc (60200 ) =1099 Fc (x(11) sup ) = Fc (65500 ) =1100

Poligonul freventelor absolute cumulate crescator


1200
1067 1087 1093 1098 1099 1100

1000

Frecventele absolute cumulate (numarul cumulat de absolventi)

972

800
709

600

400

401

200
30 99

0 0 10000 20000 30000 40000 50000 60000 70000

Salariul, in $ (limitele superioare ale intervalelor de variatie)

23

i) Fc (21000) este numarul de absolventi care au obtinut un salariu mai mic de 21000 $ in primul an de dupa finalizarea studiilor. Valoarea 21000 $ se gaseste in intervalul de variatie (17800; 23100] $, iar Fc (21000) se determina prin interpolare liniara, utilizand urmatoarea egalitate de rapoarte, asa cum se poate observa in figura de mai jos: 21000 17800 Fc (21000 ) Fc (17800 ) = 23100 17800 Fc (23100 ) Fc (17800 ) 3200 Fc (21000 ) 99 = 5300 401 99 281 Fc (21000 ) = 281,33 281 absolventi, adica o proportie de 100 = 25,54% dintre cei 1100 1100 de absolventi din esantionul considerat au avut un salariu anual mai mic de 21000 $.

Fig. .... Interpolare liniara - detaliu din figura reprezentand poligonul frecventelor absolute cumulate crescator, pentru intervalul (17800; 23100] $ in care se gaseste 21000 $.
ii) Fc (25966,82) este numarul de absolventi care au obtinut un salariu mai mic decat nivelul mediu x = 25966,82 $ al salariului in esantion. Din relatia 25966,82 23100 Fc (25966,82 ) Fc (23100 ) = , 28400 23100 Fc (28400 ) Fc (23100 )

24

obtinem ca Fc (25966,82) = 567,8 568 absolventi, 568 100 = 51,63% dintre cei 1100 de absolventi din esantionul considerat au adica o proportie de 1100 avut un salariu anual mai mic de nivelul mediu.
iii) Fc (40000) Fc (25000) = 559,35 559 este numarul de absolventi care au castigat in primul an intre 25000 $ si 40000 $, adica 50,81% dintre cei 1100 de absolventi. iv) n Fc (52000) = 1100 Fc (52000) = 4,73 5 absolventi au castigat mai mult de 52000 $, adica o proportie de 0,45%. d) Media variabilei de interes in esantion este x = 25966,82 $.
Nr. crt.
Intervalul k (Salariul anual al unui absolvent, in $) Centrul Frecventa absoluta

xk

nk

(numarul de absolventi)

(xk x )2 nk
(x1 x )2 n1 = 7792556607
8073248049 9191461480 14479361,02 6795583074 10241990557 4919242698 2641763057 3454027755 997497258,9 1360368967

1 2 3 4 5 6 7 8 9 10 11

[7200; 12500] (12500; 17800] (17800; 23100] (23100; 28400] (28400; 33700] (33700; 39000] (39000; 44300] (44300; 49600] (49600; 54900] (54900; 60200] (60200; 65500]

9850 15150 20450 25750 31050 36350 41650 46950 52250 57550 62850

30 69 302 308 263 95 20 6 5 1 1

n
k =1

11

= n = 1100

(x
k =1

11

x ) nk = 55482218864
2 2 s x = 50484275,58

s x = 7105,2287 Dispersia in esantion (de selectie) pentru o serie de distributie de frecvente pe r intervale de variatie este

(x x )2 nk (x1 x )2 n1 + ... + (xr x )2 nr = k 2 k =1 sx = (n1 + ... + nr ) 1 n 1


unde xk , k = 1, r sunt centrele celor r intervale,

n
k =1

= n volumul esantionului.

55482218864 = 50484275,58 , iar abaterea standard este s x = 7105,2287 $, care 1100 1 1100 1 arata cu cat se abat, in medie, valorile observate fata de nivelul mediu al salariului din esantion. s 7105,2287 100 = 27,36% < 30% , ceea ce Coeficientul de variatie in esantion este v x = x 100 = x 25966,82 arata ca media este reprezentativa pentru colectivitate.
2 sx = k =1

(x

11

x ) nk
2

25

e) Asimetria unei serii de distribuie de frecvene se observ din reprezentarea grafic prin histogram sau poligonul frecvenelor, si prin modalitatea n care sunt situai, unul fa de cellalt, indicatorii tendinei centrale.
Histograma

350 Frecventa absoluta (numarul de absolventi)


302 308

Poligonul frecventelor absolute


350
263

300 250 200 150 100


69 95

Frecventa absoluta (numarul de absolventi)

300 250 200 150 100

302

308

263

50 0

30

20

95 69 20

50 30 0 0 10000 20000 30000

25 00 ] ;1 78 (1 00 78 ] 00 ;2 31 (2 00 31 ] 00 ;2 84 (2 00 84 ] 00 ;3 37 (3 00 37 ] 00 ;3 90 (3 00 90 ] 00 ;4 43 (4 00 43 ] 00 ;4 96 (4 00 96 ] 00 ;5 49 (5 00 49 ] 00 ;6 02 (6 00 02 ] 00 ;6 55 00 ]

1 70000

20 0; 1

25 00

(1

40000

50000

60000

[7

Salariul, in $ (intervalele de variatie)

Salariul, in $ (centrele intervalelor de variatie)

Reprezentarea grafica seriei de distributie sugereaza ca aceasta are tendinta de normalitate si ca in seria de date predomina valorile mai mici ale variabilei de interes, castigul salarial intr-un an, adica este asimetrica spre dreapta (cu coada mai lung a distribuiei spre valorile mari, care apar cu frecventa mai mica). Indicatorii tendintei centrale se gasesc in urmatoarea relatie Mo < Me < x , ceea ce indica faptul ca distributia de frecvente prezinta asimetrie pozitiva, in serie predominand valorile mici. Gradul de asimetrie prezent n serie poate s fie i msurat printr-un indicator specific, numit coeficient de asimetrie (Skewness), care in cazul unei serii de distributii de frecvente pe r intervale de variatie se calculeaza dupa

(x
CAS x =
k =1

x ) nk
3 3

n (s x )

unde xk , k = 1, r sunt centrele celor r intervale,


Nr. crt. 1 2 3 4 5 6 7 8 9 10 11 Intervalul k (Salariul anual al unui absolvent, in $) [7200; 12500] (12500; 17800] (17800; 23100] (23100; 28400] (28400; 33700] (33700; 39000] (39000; 44300] (44300; 49600] (49600; 54900] (54900; 60200] (60200; 65500] Centrul

n
k =1

= n volumul esantionului.

Frecventa absoluta

xk
9850 15150 20450 25750 31050 36350 41650 46950 52250 57550 62850

nk
30 69 302 308 263 95 20 6 5 1 1

(numarul de absolventi)

(xk x )3 nk
-1,25591E+14 -8,73269E+13 -5,07076E+13 -3139415056 3,45432E+13 1,06344E+14 7,71494E+13 5,54326E+13 9,07828E+13 3,15041E+13 5,01747E+13

nk = n = 1100
k =1

11

(x
k =1

11

x ) nk = 1,82302E+14
3

CAS = 0,462

Cum 0 < CAS < 1 , avem asimetrie pozitiv, coada distribuiei este mai alungit la dreapta, n serie predominnd valorile mici (modul < mediana < media). 26

Ex. 7. La o banca se analizeaza distributia a 500 de debitori restantieri dupa situatia datelor de intarziere a rambursarii creditelor. Datele au fost sistematizate astfel:

Intervale de variatie a numarului de zile de intarziere a platii mai putin 25 de zile 25-35 de zile 35-45 de zile 45-55 de zile 55-65 de zile peste 65 de zile

Ponderea cumulata a debitorilor (%) 25 75 85 93 98 100

Se cere: a) sa se scrie distributia de frecvente pe intervale de variatie; b) sa se reprezinte grafic distributia de frecvente absolute; c) sa se calculeze si sa se analizeze indicatorii tendintei centrale si sa se stabileasca daca durata medie de intarziere a platilor este reprezentativa; d) sa se calculeze media si abaterea standard pentru variabila alternativa care evidentiaza debitorii ce au intarziat mai mult de 45 de zile cu efectuarea platilor.
Rezolvare: a) o Populatia statistica mutimea debitorilor cu intarziere in efectuarea platilor pentru rambursarea unor credite. o Unitatea statistica un debitor. o Variabila sau caracteristica de interes, X, este variabila ce arata numarul de zile de intarziere a efectuarii platii catre banca de catre un deitor; variabila numerica, discreta. o S-a realizat o selectie de volum n = 500 de debitori restantieri pentru care s-a inregistrat numarul de zile de intarziere, datele obtinute fiind sistematizate intr-o serie de distributie de frecvente pe r = 6 intervale de variatie de marime egala. Notam cu: nk , k = 1, r , frecventa absoluta a intervalului k de variatie (numarul de debitori restantiei pentru care

numarul de zile de intarziere apartine intervalului k de variatie), n1 + ... + nr = n ; n * * * nk = k [0;1], k = 1, r , frecventa relativa a intervalului k de variatie, n1 + ... + nr = 1 ; n n * nk % = 100 k , k = 1, r , frecventa relativa exprimata procentual a intervalului k de variatie sau n ponderea debitorilor cu numarul de zile de intarziere din intervalul sau clasa k, * * n1 % + ... + nr % = 100% ; Fck = n1 + ... + nk , k = 1, r , este frecventa absoluta cumulata crescator a intervalului k;
* * * Fck = n1 + ... + nk , k = 1, r , este frecventa relativa cumulata crescator a intervalului k; * * * Fck % = n1 % + ... + nk %, k = 1, r , este frecventa relativa exprimata procentual cumulata crescator a intervalului k (ponderea cumulata a intervalului k).

27

Nr. crt. 1 2 3 4 5 6

Intervalul k de variatie a numarului de zile de intarziere a platii 15-25 de zile 25-35 de zile 35-45 de zile 45-55 de zile 55-65 de zile 65-75 de zile

Ponderea cumulata a debitorilor (%) * * * Fck % = n1 % + ... + nk %


* * Fck % = n1 % = 25% * * Fc*2 % = n1 % + n2 % = 75% * * Fc*3 % = n1 % + ... + n3 % = 85% * * Fc*4 % = n1 % + ... + n4 % = 93% * * Fc*5 % = n1 % + ... + n5 % = 98%

Ponderea intervalului k, * nk %
* n1 % = 25% * n2 % = 50% * n3 % = 10% * n4 % = 8% * n5 % = 5%

Frecventa relativa, n* % * nk = k 100


* n1 = 0,25 * n2 = 0,50 * n3 = 0,10 * n4 = 0,08 * n5 = 0,05

Frecventa absoluta, * nk = n nk =
* = 500 nk

n1 = 125 n2 = 250 n3 = 50 n4 = 40 n5 = 25 n6 = 10

F % = n % + ... + n % = 100%
* c6 * 1 * 6

n % = 2%
* 6

n = 0,02
* 6

n
k =1

* k

% = 100%

n
k =1

* k

=1

n
k =1

= 500 = n

Distributia celor 500 de debitori dupa numarul de zile de intarziere a platii este urmatoarea serie de distributie de frecvente pe intervale: Nr. crt. 1 2 3 4 5 6 Intervalul k de variatie a numarului de zile de intarziere a platii 15-25 de zile 25-35 de zile 35-45 de zile 45-55 de zile 55-65 de zile 65-75 de zile
6

Numarul de debitori (frecventa absoluta), nk n1 = 125 debitori n2 = 250 n3 = 50 n4 = 40 n5 = 25 n6 = 10

Centrul xk al intervalului k de variatie x1 = 20 x2 = 30 x3 = 40 x4 = 50 x5 = 60 x6 = 70

n
k =1

= 500 = n debitori

b)
Histograma
300
250

Poligonul frecventelor absolute


300 250 N u m aru l d e d ebito ri
40 25 10

250

Numarul de debitori

200

200 150 100 50 0

150

125

100
50

50

0 15-25 de zile 25-35 de zile 35-45 de zile 45-55 de zile 55-65 de zile 65-75 de zile

10

20

30

40

50

60

70

80

Numarul de zile de intarziere

Numarul zilelor de intarziere

Fig. ..... Distributia celor 500 de debitori dupa numarul de zile de intarziere a platii

Fig. .... Poligonul frecventelor absolute pentru distributia celor 500 de debitori dupa numarul de zile de intarziere a platilor

28

c)
Nr. crt. Intervalul k Numarul de debitori, nk Centrul

xk x1 = 20 x2 = 30 x3 = 40 x4 = 50 x5 = 60 x6 = 70

xk nk x1 n1 = 2500
7500 2000 2000 1500

Fck Fc1 = 125 Fc 2 = 375 Fc 3 = 425


465 490

(xk x )2 nk
(x1 x )2 n1 = 19220
1440 2888 12390,4 19044

1 2 3 4 5 6

15-25 de zile 25-35 de zile 35-45 de zile 45-55 de zile 55-65 de zile 65-75 de zile

n1 = 125 n2 = 250 n3 = 50 n4 = 40 n5 = 25 n6 = 10

x6 n6 = 700

Fc 6 = 500
6

( x6 x )

n6 = 14137,6

n
k =1

= 500 = n

x
k =1

nk = 16200 x = 32,4

(x
k =1

x ) nk = =69120
2 2 s x = 138,5170 2 s x = s x = 11,7693

v x = 36,33% x n x1 n1 + ... + xr n6 k k 16200 k =1 = = , deci x = 32,4 zile este numarul mediu de zile o Media este x = n1 + ... + n6 n 500 de intarziere a platilor pentru un debitor restantier.
o Locul medianei este
n +1 n +1 este intervalul 25-35 = 250,5 ; primul interval cu proprietatea ca Fck 2 2 de zile, deoarece Fc1 = 125 < 250,5 , dar Fc 2 = 375 250,5 , deci: n +1 Fc Me1 Me = xinf Me + hMe 2 = nMe 250,5 125 = 25 + 10 = 30,02 zile, adica jumatate dintre debitorii restantieri au intarziat 250 cel putin 30 de zile cu efectuarea platilor.
6

o Intervalul modal este intervalul 25-35 de zile deoarece are frecventa absoluta cea mai mare 250 = n2 = max nk , k = 1,6 , atunci

Mo = xinf Mo + hMo

1 = 1 + 2 250 125 = 28,84 zile; numarul cel mai intalnit de zile de intarziere = 25 + 10 (250 125) + (250 50) a platilor celor 500 de debitori restantieri este de aproximativ 29 de zile.

o Relatia in care se gasesc cei trei indicatori ai tendintei centrale este Mo < Me < x , ceea ce indica o asimetrie pozitiva.

29

2 o Dispersia in esantion este s x =

(x1 x )

n1 + ... + ( x6 x ) n6 = (n1 + ... + n6 ) 1


2

(x
k =1

x ) nk
2

500 1

69120 , deci 500 1

2 2 s x = 138,5170 , iar abaterea standard s x = s x = 11,7693 zile, care arata cu cate zile se abat, in medie, valorile observate ale seriei de date fata de numarul mediu de zile de intarziere. s 11,7693 100 = 36,33% > 35% , ceea ce arata ca o Coeficientul de variatie in esantion este v x = x 100 = x 32,4 distributia nu este omogena si media, ca indicatot al tendintei centrale, nu este reprezentativa pentru colectivitate.

d) Definim evenimentul favorabil ca evenimentul ca un debitor intarzie cu platile mai mult de 45 de zile. Variabila alternativa care evidentiaza debitorii ce au intarziat mai mult de 45 de zile cu efectuarea 1 0 platilor este Y : n m m ,

unde

iar

Y = 1 pentru unitatile statistice din esantion care verifica evenimentul favorabil, iar m este numarul de unitati statistice din esantion pentru care se verifica evenimentul favorabil, m = n4 + n5 + n6 = 75 debitori, Y = 0 pentru unitatile statistice din esantion care nu verifica evenimentul favorabil, n m este numarul de unitati statistice din esantion pentru care nu se verifica evenimentul favorabil, n m = 425 debitori.

Media variabilei alternative este y = mult de 45 de zile.

m 75 = = 0,15 , adica 15% dintre debitori au intarziat mai n 500 m m 1 = 0,1275 , iar abaterea standard n n

Dispersia variabilei alternative este s 2 = y sy = m m 1 0,36 . n n

30

S-ar putea să vă placă și