Sunteți pe pagina 1din 30

Anul I, CSIE 2011-2012 Statistica I Exercitii pregatitoare pentru testul de la seminar si pentru examen partea I Ex. 1.

. Urmtoarea serie de date arat preul de vnzare (sute lei) pentru 13 lucrri de grafic la o licitaie de obiecte de art: 51, 60, 72, 35, 32, 57, 63, 61, 48, 33, 67, 54, 37. Stabilii valoarea de adevr a urmtoarelor afirmaii, justificnd rspunsurile: a) 25 % dintre lucrarile licitate s-au vandut pentru un pret mai mic de 48 sute de lei; b) jumatate dintre lucrarile licitate au un pret mai mic sau egal cu 54 sute lei; c) 25 % dintre lucrari s-au vandut cu cel putin 62 sute de lei; d) pentru 75% dintre obiecte s-a obtinut un pret de cel putin 36 sute lei; e) precizati care dintre urmatoarele valori: 25, 29, 16, 40, 124, 85, 99,8 sute lei sunt outliers in raport cu datele initiale. Rezolvare: Cele n=13 valori ale seriei de date se ordoneaz cresctor:
x(1)=32, x(2)=33, x(3)=35, x(4)=37, x(5)=48, x(6)=51, x(7)=54, x(8)=57, x(9)=60, x(10)=61, x(11)=63, x(12)=67, x(13)=72.

Q1 cuartila de ordinul 1 sau cuartila inferioara n +1 13 + 1 1 = 1 = 3,50 N, dar 3 < 3,50 < 4 Locul lui Q1 este 4 4 x + x( 4 ) 35 + 37 x( 3) Q1 x( 4 ) si Q1 = ( 3) = = 36 sute lei. 2 2 x(1) x( 2 x( x( 4 ) x 5 ) x( 6 x( 7 ) x( 8 x( 9 ) x( 10 ) x(11 x( x(13 )3) ()) )12 ) )
25% Q1 75% 36

Cu interpretarea: 25 % dintre termenii seriei au valori mai mici decat 36 sute lei (Q1 este percentila de ordinul 25), iar 75% dintre termenii seriei au valori mai mari ca 36 sute lei; sau 25% dintre lucrarile de grafica licitate s-au vandut pentru un pret mai mic decat 36 sute lei, iar restul de 75% dintre ele s-au vandut cu un pret mai mare de 36 sute lei. Q2=Me cuartila de ordinul 2 sau mediana seriei de date statistice. n + 1 13 + 1 = = 7 N Me = x( 7 ) = 54 sute lei Locul lui Q2=Me este 2 2
x( 1) x( 2 ) x( 3) x( 4 ) x( 5 ) x( 6 ) x( 7 ) x( 8 ) x( 9 ) x(10 ) x(11) x(12 ) x(13)
50%

Me 54


50%

Cu interpretarea: jumatate dintre termenii seriei au valori mai mici ca 54 sute lei (Me este percentila de ordinul 50), iar restul au valori mai mari ca 54 sute lei; sau

jumatate dintre lucrarile de grafica licitate s-au vandut cu mai putin de 54 sute lei, iar restul s-au vandut cu un pret mai mare de 54 sute lei. Q3 cuartila de ordinul 3 sau cuartila superioara n +1 13 + 1 3 = 3 = 10,50 N, dar 10 < 10,50 < 11 Locul lui Q3 este 4 4 x + x(11) 61 + 63 x( 10 ) Q3 x( 11) si Q3 = (10 ) = = 62 sute lei. 2 2
x( 1) x 2 ) x( 3 x( x( 5 ) x( 6 x( 7 ) x( 8 ) x( ) x( 10 x( 11) x( 12 ) x 13 ) ( )4 ) )9 ) (
25% Q3 62 75%

Cu interpretarea: 75 % dintre termenii seriei au valori mai mici decat 62 sute lei (Q3 este percentila de ordinul 75), iar 25% dintre termenii seriei au valori mai mari ca 62 sute lei; sau 75% dintre lucrarile de grafica licitate s-au vandut pentru un pret mai mic decat 62 sute lei, iar restul de 25% dintre ele s-au vandut cu un pret mai mare de 62 sute lei.
x( 1) x( 2 x( x( 4 ) x 5 ) x( 6 ) x x( x( 9 ) x(10 x( 11) x(12 ) x 13 ) )3 ) (( 7 )8 ) ) (
25% Q1 50% Q3 62 25% 36

Jumatate din termenii din mijlocul seriei au valori cuprinse intre Q1=36 sute lei si Q3=62 sute lei. Abaterea intercuatilica este IQR=Q3-Q1=26 sute lei. Definitie: Spunem ca o valoare x este outlier pentru un set de date statistice numerice daca: x < Q1 1,5 IQR sau x > Q3 + 1,5 IQR sau valoarea x este outlier pentru un set de date statistice daca daca se gaseste in afara intervalului [ Q1 1,5 IQR; Q3 + 1,5 IQR] . In cazul nostru, [ Q1 1,5 IQR; Q3 + 1,5 IQR] = [ 3; 101] , deci numai valoarea 124 este outlier in raport cu setul initial de date statistice. In concluzie, a) fals; b) adevarat; c) adevarat; d) adevarat; e) numai valoarea 124 sute lei este outlier in raport cu seria initiala de date. Ex. 2. Se considera urmatoarea serie, reprezentand valoarea inregistrata a 9 facturi emise de o societate comerciala in ultima luna: 47; 58; 41; 36; 54; 42; 65; 43; 37 (mil. lei). Alegeti afirmatiile false: a) Cuartilele inferioara si superioara sunt 43 si respectiv 58 mil. lei. b) Abaterea intercuartilica este de 10 mil. lei; c) Jumatate dintre termenii seriei, plasati pe mijocul distributiei, se regasesc intre 39 si 56. d) Percentilele de ordinul 25 si 75 sunt 39 si respectiv 56 mil. lei e) In raport cu datele initiale, valorile: 73, 29, 18, 73, 23 sunt toate outliers. f) Daca fiecare valoare s-ar mari intai cu 4,25 lei, apoi de 2 ori, dispersia noilor valori ar fi 396. 2

Ex. 3. Structura unui esantion de 90 de copii dupa nivelul maxim atins al unui joc pe calculator este:
E 22% A 11% B 13%

D 34%

C 20%

Unde A nivelul cel mai slab, E nivelul cel mai inalt. Construiti distributia de frecvente absolute si reprezentati-o grafic. Studiati tendinta centrala a distributiei folosind indicatori adecvati. Calculati media si dispersia unei variabile alternative, a carei stare favorabila este data de copiii care au atins cel mult nivelul C al jocului. Ex. 4. Pentru 39 de actrite care au obtinut premiul Oscar se cunoaste varsta, in ani impliniti, la momentul castigarii premiului: 50, 44, 35, 80, 26, 28, 41, 21, 61, 38, 49, 33, 74, 30, 33, 41, 31, 35, 41, 42, 37, 26, 34, 34, 35, 26, 61, 60, 34, 24, 30, 37, 31, 27, 39, 34, 26, 25, 33 ani. Se cere: a) sa se determine si sa se interpreteze indicatorii tendintei centrale si cuartilele acestei serii de date; b) sa se construiasca diagrama box-plot (sau diagrama cu mustati box-and-whisker), punand in evidenta daca seria are valori extreme; c) sa se calculeze indicatorii variatiei si sa se stabileasca daca seria este omogena; d) analizati asimetria; e) Descriptive Statistics. Rezolvare: a) o Populatia statistica este multimea actritelor care au castigat premiul Oscar. o Unitatea statistica este o actrita. o Variabila sau caracteristica de interes, notata X, este variabila ce arata varsta unei actrite la momentul obtinerii premiului; variabila numerica, discreta. o Pentru un esantion de volum n = 39 de actrite se cunosc valorile variabilei X, adica {x1=50, x2=44, x3=35, x4=80, ..., xn=x39=33 ani}, care reprezinta o serie simpla sau nesistematizata de date statistice numerice. o Media unei serii simple de date numerice { x1 , x2 , ..., xn } este x x1 + x2 + ... + xn i . i =1 x= = n n
n

In cazul acestei serii, varsta medie a unei actrite din esantion care a castigat premiul Oscar este x x1 + x2 + ... + x39 i 1486 ani. i =1 x= = = = 38,1025 39 39 39 o Pentru a determina mediana, vom proceda astfel: seria simpla de date se ordoneaza crescator x( 1) x( 2 ) ... x( n ) , unde x( i ) , i = 1, n este elementul cu rangul i din seria ordonata crescator, n +1 = 20 N Me = x( 20 ) = 34 ani. - locul medianei este 2 Jumatate dintre actritele din selectie au obtunut premiul Oscar la o varsta de cel mult 34 de ani (jumatate dintre actritele din esantion au castigat premiul Oscar la o varsta de peste 34 de ani). o Exista doua valori care au frecventa maxima si anume valorile 26 ani si 34 ani, care apar pentru 4 actrite fiecare. Nr. crt. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 Varsta actritelor xi Varsta actritelor, in ordine crescatoare x( i )
39

x1=50 x2=44 x3=35 x4=80 x5=26


28 41 21 61 38 49 33 74 30 33 41 31 35 41 42 37 26 34 34 35 26 61 60 34 24 30 37 31 27 39 34 26

x(1)=21 x(2)=24 x(3)=25 x(4)=26 x(5)=26


26 26 27 28

x(10)=30=Q1
30 31 31 33 33 33 34 34 34

x(20)=34=Me
35 35 35 37 37 38 39 41 41

x(30)=41=Q3
42 44 49

x(34)=50 x(35)=60 x(36)=61 x(37)=61 4

38 39

25

x39=33

x(38)=74 x(39)=80

Pentru determinarea cuartilelor procedam astfel: n +1 1 = 10 N Q1 = x( 10 ) = 30 ani; un sfert dintre - locul cuartilei de ordinul 1, Q1, este 4 actrite au castigat premiul Oscar la o varsta mai mica sau egala cu 30 de ani, iar restul la cel putin 30 de ani; n +1 3 = 30 N Q3 = x( 30 ) = 41 ani; trei sferturi - locul cuartilei de ordinul 3, Q3, este 4 dintre actrite au castigat premiul Oscar la o varsta mai mica sau egala cu 41 de ani, iar restul la cel putin 41 de ani. o Abaterea intercuartilica este IQR = Q3 Q1 = 11 ani si arata lungimea intervalului in care se gasesc jumatate dintre valorile din mijlocul seriei de date. o b) Diagrama cu mustati (box-and-whisker) sau diagrama box-plot pentru o serie de date statistice numerice se construieste punand in evidenta urmatoarele cinci elemente si eventualele valori extreme sau outliers: - cuartila inferioara sau de ordinul 1, Q1=30 ani; - mediana sau cuartila de ordinul al 2-lea, Q2=Me=34 ani; - cuartila superioara sau de ordinul al 3-lea, Q3=41 ani; - limita sau marginea inferioara a diagramei box-plot este cea mai mica dintre valorile seriei de date cu proprietatea ca este mai mare sau egala cu Q1 1,5 IQR , adica lim inf box plot = min x( i ) , i = 1, n x( i ) Q1 1,5 IQR : o Q1 1,5 IQR = 13,5 o cea mai mica dintre valorile seriei de date, cu proprietatea ca este 13,5 , este x(1)=21 ani, deci marginea inferioara este egala cu 21 ani, lim inf box plot = 21 = x( 1) ; limita sau marginea superioara a diagramei box-plot este cea mai mare dintre valorile seriei de date cu proprietatea ca este mai mica sau egala cu Q3 + 1,5 IQR , adica lim sup box plot = max x( i ) , i = 1, n x( i ) Q3 + 1,5 IQR : o Q3 + 1,5 IQR = 57,5 o cea mai mare dintre valorile seriei de date, cu proprietatea ca este 57,5 , este x(34)=50 ani, deci marginea superioara este egala cu 50 ani, lim sup box plot = 50 = x( 34 ) . Se observa ca intervalul cuprins intre marginea inferioara si cea superioara diagramei box-plot, adica intervalul de numere reale [21; 50] nu contine toate valorile observate, in afara lui ramanand valorile x(35)=60, x(36)=61, x(37)=61, x(38)=74, x(39)=80 ani. Valoarea x este outlier pentru seria de date statistice numerice daca x se gaseste in afara intervalului [ Q1 1,5 IQR; Q3 + 1,5 IQR] = [13,5; 57,5] , x(35)=60, x(36)=61, x(37)=61, x(38)=74, x(39)=80 sunt outliers si vor fi reprezentate distinct in diagrama box-plot.

* * *

21

30 (Q1)

34 (Me)

41 (Q3)

50

60 61

74

80

Fig. . Diagrama box-plot sau diagrama cu mustati (box-and-whisker).

Fig. . Diagrama box-plot in SPSS. c) Dispersia de selectie (sample variance) pentru o serie simpla de date numerice asupra variabilei X este
n

( x x) ( x1 x ) 2 + ... + ( xn x ) 2 = i 2 i =1 s =
x

n 1

n 1

adica

2 sx =

( x
i =1

39

x)

39 1

, 6791,5897 = 178,7260 39 1 6

2 abaterea standard (standard deviation) este s x = s x = 13,3688 ani.

sx 100 = 35,09% > 35% , ceea ce indica faptul ca seria de date x nu este omogena, iar media nu este reprezentativa pentru colectivitate, ca indicator al tendintei centrale. Coeficientul de variatie este v x =

Nr. crt.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33

Varsta actritelor

xi

xi x
11,8974 5,8974 -3,1026 41,8974 -12,1026 -10,1026 2,8974 -17,1026 22,8974 -0,1026 10,8974 -5,1025 35,8974 -8,1025 -5,1025 2,8974 -7,1025 -3,1025 2,8974 3,8974 -1,1025 -12,1025 -4,1025 -4,1025 -3,1025 -12,1025 22,8974 21,8974 -4,10256 -14,1025 -8,1025 -1,1025 -7,1025

( xi x ) 2
141,5489 34,7797 9,6259 1755,3951 146,4720 102,0618 8,3951 292,4977 524,2925 0,0105 118,7541 26,0361 1288,6259 65,6515 26,0361 8,3951 50,4464 9,6259 8,3951 15,1900 1,2156 146,4720 16,8310 16,8310 9,6259 146,4720 524,2925 479,4977 16,8310 198,8823 65,6515 1,2156 50,4464

x1=50 x2=44 x3=35 x4=80 x5=26


28 41 21 61 38 49 33 74 30 33 41 31 35 41 42 37 26 34 34 35 26 61 60 34 24 30 37 31

34 35 36 37 38 39
39

27 39 34 26 25

-11,1025 0,8974 -4,1025 -12,1025 -13,1025 -5,1025


39 39

123,2669 0,8053 16,8310 146,4720 171,6771 26,0361

x39=33

x
i =1

= 1486

( xi x ) = 0 ( xi x ) 2 = 6791,5897
i =1 i =1 2 s x = 178,7260 2 s x = s x = 13,3688

x = 38,1025

v x = 35,09%

d)

Asimetria unei serii de distribuie de frecvene se poate stabili: - prin compararea indicatorilor tendintei centrale, - prin analiza distantei intre mediana si cele doua cuartile inferioara si superioara, - prin calculul si interpretarea valorii unui indicator specific, coeficientul de asimetrie, - se observ din reprezentarea grafic prin histogram sau poligonul frecvenelor. - Cum Me = 34 < 38,1025 = x , atunci concluzionam ca seria de date prezinta asimetrie pozitiva. - Cum mediana este mai apropiata de Q1 decat de Q2, adica Me Q1 < Q3 Me , asa cum se poate vedea din diagrama box-plot, atunci concluzionam ca seria prezinta asimetrie pozitiva, in seria de date predominand valorile mici. - Indicatorul asimetriei este coeficientul de asimetrie (Skewness) CAS =

( x
i =1

x)
3

n ( sx ) marime arata tipul asimetriei (pozitiva sau negativa), iar marimea arata gradul mai putin accentuat sau mai accentuat al asimetriei seriei de date sau al distributiei. In cazul acestei serii de date, CAS = 1,5734 , o valoare pozitiva si mai mare ca 1, ceea ce arata ca seria de date prezinta o asimetrie pozitiva pronuntata. - Sistematizarea printr-o serie de distributie de frecvente pe r = 6 intervale de variatie de marime egala a dat urmatoarea distributie a celor n=39 de actrite din esantion dupa varsta la momentul obtinerii premiului Oscar:
Nr. crt. Intervalul k de variatie (clasa de varsta) 20-30 ani 30-40 ani 40-50 ani 50-60 ani 60-70 ani 70-80 ani Frecventa absoluta nk a intervalului k de variatie (numarul de actrite din fiecare clasa de varsta) 11 16 7 1 2 2 Centrul xk al intervalului k de variatie 25 35 45 55 65 75

, al carui semn si

1 2 3 4 5 6

n
k =1

= 39=n

Reprezentarea grafica seriei de distributie de frecvente pe intervale, adica histograma si poligonul frecventelor sugereaza ca aceasta prezinta asimetrie pronuntata la dreapta sau asimetrie pozitiva, adica predomina valorile mai mici ale variabilei de interes, cu coada mai lung a distribuiei spre valorile mari, 8

care apar cu frecventa mai mica. Intre cele 39 de actrite castigatoare ale premiului Oscar, predomina cele cu varste relativ mai mici.
Histograma - distributia celor n=39 de actrite dupa variabila ce arata varsta la momentul castigarii premiului Oscar
18

Poligonul frecventelor pentru seria de distributie de frecvente

Frecventa absoluta (numarul de actrite)

18 16 14 12 10 8 6 4 2 0 20-30 ani 11

16

16 14 Numarul de actrite 12 11 10 8

16

7 6 4 2 1 0 2 2

1 30-40 ani 40-50 ani 50-60 ani

60-70 ani

70-80 ani

10

20

30

40

50

60

70

80

Varsta, in ani (centrele intervalelor)

Varsta (intervalele sau clasele de varsta)

e) Indicatorii tendintei centrale, principalii indicatori ai variatiei si ai formei distributiei pentru o serie simpla de date numerice pot fi calculati in Excel si in SPSS, output-urile fiind de forma: Output-ul Descriptive Statistics in Excel Output-ul Descriptive Statistics in SPSS

Statistics Varsta actritelor Oscar N Valid Missing Mean Std. Error of Mean Median Mode Std. Deviation Variance Skewness Std. Error of Skewness Kurtosis Std. Error of Kurtosis Range Minimum Maximum Sum 39 0

x = 38.10
2.141

Me=34.00 Mo=26a
2 s x = s x = 13.369 2 s x = 178.726

CAS = 1.573
.378 2.383 .741

Ax = xmax xmin = 59 xmin = 21 xmax = 80

x
i =1

39

= 1486

Percentiles

25 50 75

Q1 = 30.00 Q2 = Me = 34.00 Q3 = 41.00

a. Multiple modes exist. The smallest value is shown

Observatie: Analiza boltirii/aplatizrii Boltirea(kurtosis, n engl.) exprim nlimea curbei (cocoaei) comparativ cu distribuia normal teoretic. ntlnim, astfel distribuii leptocurtice, ascuite (cu cocoaa nalt) i distribuii platicurtice, aplatizate. Coeficientul de boltire sau aplatizare (kurtosis) este o msur a mprtierii fiecrei observaii n jurul unei valori centrale i se determin, pe eantion, cu formula:
CBA =

( x
i =1

x)
2

2 n sx

( )

, unde

2 sx =

( x
i =1

x)

n 1

Definiia este bazat pe momentul centrat de ordinul 4. Interpretarea valorii coeficientului de aplatizare si boltire: Dac CBA > 0 , avem distribuie leptocurtic, valorile varibilei fiind concentrate n jurul indicatorilor tendinei centrale Dac CBA < 0 , avem distribuie platicurtica, valorile varibilei fiind dispersate n raport cu indicatorii tendinei centrale 10

Dac CBA = 0 , avem distribuie mezocurtic, adic distribuia normal.

In cazul acestei serii de date statistice, CAB = 2,383 > 0 , ceea ce indica o distributie leptocurtica (cu cocoasa, asa cum se poate vedea si din histograma sau poligonul frecventelor). Ex. 5. Un agent al companiei de asigurari W vinde contracte de asigurare de locuinte. In luna iulie a incheiat: 2 contracte cu prime anuale de 50 Eur, 3 contracte cu prime anuale de 60 Eur, 6 contracte cu prime de 70 Eur, 9 contracte cu prime de 90 Eur, 16 contracte cu prime anuale de 120 Eur, 8 contracte cu prime anuale de 130 Eur si 6 contracte cu prime de 140 Eur. Se cere: a) Construii seria de distribuie de frecvene i analizai grafic tendina de normalitate a acesteia. b) Caracterizai omogenitatea i asimetria distribuiei contractelor n funcie de valoarea primelor anuale. c) Calculati media si abaterea standard a variabilei alternative care evidentiaza contractele cu prime anuale de valoare mai mica sau egala cu 90 Eur. Rezolvare: a) o Populatia statistica este multimea contractelor de asigurare de locuinte din portofoliul companiei W. o Unitatea statistica este un contract de asigurare de locuinta. o Variabila statistica sau caracteristica de interes, notata X, este variabila ce arata marimei primei anuale, in Eur, pentru un contract de asigurare de locuinta incheiat de un agent al companiei; variabila numerica, continua. o Agentul a incheiat intr-o luna n=50 de contracte, seria de date statistice referitoare la primele anuale ale acestor contracte fiind sistematizata intr-o serie de distributie de frecvente pe r=7 variante distincte. Astfel distributia celor n=50 de contracte dupa valoarea primei anuale, in Eur, este:
Nr. crt. 1 2 3 4 5 6 7 Valoarea xk Eur a unei prime anuale x1 = 50 Eur Numarul de contracte, nk , (frecventa absoluta) n1 = 2 contracte

x2 = 60 Eur x3 = 70 Eur x4 = 90 Eur x5 = 120 Eur x6 = 130 Eur x7 = 140 Eur

n2 = 3 n3 = 6 n4 = 9 n5 = 16 n6 = 8 n7 = 6

n
k =1

= 50 = n contracte

sau
7

x = 50 Eur X : 1 n = 2 contracte 1

x2 = 60 n2 = 3

x3 = 70 x4 = 90 n3 = 6 n4 = 9

x5 = 120 x6 = 130 x7 = 120 , n5 = 16 n6 = 8 n7 = 6

unde

n
k =1

= 50 = n contracte.

o Reprezentarea grafica a acestei serii de distributie este poligonul frecventelor absolute.

11

Poligonul frecventelor absolute - distributia celor 50 de contracte incheiate de agentul de asigurari dupa valoarea primei anuale
18

Frecventa absoluta (numarul de contracte)

16 14 12 10 8 6 4 2 0 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150

Prima anuala de asigurare a unui contract, in Eur

o Poligonul frecventelor sugereaza ca distributia are tendinta de normalitate, dar prezinta asimetrie la stanga, coada poligonului freventelor absolute fiind mai alungita spre stanga. o Poligonul frecventelor se mai poate reprezenta si cu ajutorul frecventelor relative
Nr. crt. 1 2 3 4 5 6 7 Valoarea

xk

Eur

Numarul de contracte,

nk ,

Frecventa relativa
* n1 = 0,04 * n2 = 0,06 * n3 = 0,12 * n4 = 0,18 * n5 = 0,32 * n6 = 0,16 * n7 = 0,12

a unei prime anuale

(frecventa absoluta)

* nk =

nk [ 0,1] n

x1 = 50 Eur x2 = 60 Eur x3 = 70 Eur x4 = 90 Eur x5 = 120 Eur x6 = 130 Eur x7 = 140 Eur
7 k =1

n1 = 2 contracte n2 = 3 n3 = 6 n4 = 9 n5 = 16 n6 = 8 n7 = 6

nk = 50 = n

contracte

n
k =1

* k

=1

12

Poligonul frecventelor relative


0,35 0,3 0,25
Frecventa relativa

0,2 0,15 0,1 0,05 0 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 Prima anuala, in Eur, pentru un contract de asigurare

b) o Media pentru o serie de distributie de frecvente pe r variante distincte ale variabilei de interes este x n + ... + xr nr x= 1 1 = n1 + ... + nr

x
k =1

nk

unde xk , k = 1, r sunt variantele distincte observate ale variabilei, iar In cazul nostru,

n
k =1

= n volumul esantionului.

Eur este valoarea medie a unei prime anuala 5310 = 106,2 50 50 corespunzatoare unui contract de asigurare de locuinta incheiat de respectivul agent de vanzari. x=
k =1

nk

o Mediana pentru o serie de distributie de frecvente pe r variante distincte se calculeaza parcurgand urmatorii pasi: Cele r variante distincte sunt ordonate crescator x1 < x2 < ... < xr . n +1 = 25,5 . Se determina locul medianei, adica 2 Se calculeaza frecventele absolute cumulate crescator ale celor r variante distincte Fck = n1 + ... + nk , k = 1, r . Mediana este acea valoare distincta cu proprietatea ca frecventa sa absoluta cumulata crescator este prima care depaseste locul medianei Fc1 = 2 < 25,5 Fc 2 = 5 < 25,5 Fc 3 = 11 < 25,5 Fc 4 = 20 < 25,5 si Fc 5 = 36 25,5 , deci a 5-a varianta sau valoare distincta, x5 , este mediana sau valoarea mediana: Me = x5 = 120 Eur, adica jumatate dintre contractele incheiat de agentul de vanzari au o prima anuala de valoare mai cica sau egala cu 120 Eur. 13

Nr. crt. 1 2 3 4 5 6 7

Valoarea distincta,

nk ,
(frecventa absoluta)

xk

Eur

x k nk x1 n1 = 100 x2 n2 = 180
420 810 1920 1040 840

Fck = n1 + ... + nk Fc1 = n1 = 2 Fc 2 = n1 + n2 = 5 Fc 3 = n1 + n2 + n3 = 11 Fc 4 = n1 + ... + n4 = 20 Fc 5 = n1 + ... + n5 = 36 Fc 6 = n1 + ... + n6 = 44 Fc 7 = n1 + ... + n7 = n = 50

( x k x ) 2 nk ( x2 x ) 2 n1 = 6316,88 ( x2 x ) 2 n2 = 6403,32
7862,64 2361,96 3047,04

x1 = 50 x2 = 60 x3 = 70 x4 = 90 x5 = 120 x6 = 130 x7 = 140


7 k =1

n1 = 2 n2 = 3 n3 = 6 n4 = 9 n5 = 16 n6 = 8 n7 = 6

( x7 x )

4531,52
2

n7 = 6854,64
2

nk = 50 = n

xk nk = 5310
k =1

( x
k =1

x ) nk = 37378
2 s x = 762,8163265

x = 106,2

2 s x = s x = 27,61912972

v x = 26,01% o Modul sau valoarea modala pentru o serie de distributie de frecvente pe r variante distincte este acea varianta sau valoare care apare cu frecventa absoluta sau relativa cea mai mare: Frecventa absoluta cea mai mare este: 16 = n5 = max nk , k = 1, r . valoarea modala este deci a 5-a varianta sau valoare distincta de raspuns a variabilei de interes, Mo = x5 = 120 Eur, aceasta fiind valoarea cea mai des intalnita a unei prime anuale pentru contractele incheiate de respectivul agent.

Relatia in care se gasesc indicatorii tendintei centrale, x < Me = Mo , ca si reprezentatrea grafica pentru poligonul frecventelor absolute sau relative, arata ca distributia contractelor dupa valoarea primelor anuale prezinta asimetrie negativa, in serie predominand valorile mai mari ale primelor anuale, iar coada distributiei este alungita spre stanga.

o Dispersia in esantion (de selectie) pentru o serie de distributie de frecvente pe r intervale de variatie este
2 sx =

( x1 x )

n1 + ... + ( xr x ) nr = ( n1 + ... + nr ) 1
2

( x
k =1

x ) nk
2

n 1

unde xk , k = 1, r sunt variantele distincte observate ale variabilei, In cazul nostru,

n
k =1

= n volumul esantionului.

2 sx =

( x
k =1

x ) nk
2

50 1

, iar abaterea standard sau abaterea medie 37378 = 762,8163 50 1

2 patratica este s x = s x = 27,6191 Eur, care arata cu cat se abat, in medie, valorile observate fata de

nivelul mediu in esantion al primelor anuale. o Coeficientul de variatie in esantion este v x = sx 27,6191 100 = 100 = 26,01% < 30% , ceea ce arata ca x 106,2 distributia este omogena si media este reprezentativa pentru colectivitate.

14

c) Definim evenimentul favorabil ca evenimentul ca un contract de asigurare are o prima anuala de valoare mai mica sau egala cu 90 Eur. Variabila alternativa care evidentiaza contractele ale caror prime 1 0 anuale sunt de valoare mai mica sau egala cu 90 Eur este Y : n m m , unde Y = 1 pentru unitatile statistice din esantion care verifica evenimentul favorabil, iar m este numarul de unitati statistice din esantion care verifica evenimentul favorabil, m = n1 + n2 + n3 + n4 = 20 contracte, Y = 0 pentru unitatile statistice din esantion care nu verifica evenimentul favorabil, n m este numarul de unitati statistice din esantion pentru care nu se verifica evenimentul favorabil, n m = 30 de contracte cu prime anuale mai mari de 90 Eur. Media variabilei alternative este y = anuale mai mici sau egale cu 90 Eur.
2 Dispersia variabilei alternative este s y =

iar

m 20 = = 0,4 , adica 40% dintre contracte au valori ale primelor n 50 m m 1 = 0,24 , iar abaterea standard n n

sy =

m m 1 0,48 n n

Ex. 6. Distributia a 1100 de absolventi ai Universitatii din Florida dupa salariul castigat, in $, in primul an dupa terminarea studiilor este urmatoarea serie de distributie de frecvente pe intervale de variatie: Nr. crt. Intervalul de variatie al salariului, $ Numarul de absolventi
1 2 3 4 5 6 7 8 9 10 11 [7200; 12500] (12500; 17800] (17800; 23100] (23100; 28400] (28400; 33700] (33700; 39000] (39000; 44300] (44300; 49600] (49600; 54900] (54900; 60200] (60200; 65500] 30 69 302 308 263 95 20 6 5 1 1

Se cere: a) sa se reprezinte grafic aceasta serie de distributie; b) sa se determine si sa se interpreteze indicatorii tendintei centrale; c) sa se reprezinte grafic poligonul frecventelor absolute cumulate crescator si sa se estimeze proportia absolventilor care: i) au obtinut un salariu mai mic de 21000 $ in primul an de dupa finalizarea studiilor, ii) au obtinut un salariu mai mic decat media in primul an de dupa finalizarea studiilor, iii) au castigat in primul an intre 25000 $ si 40000 $, iv) au castigat mai mult de 52000 $; d) sa se stabileasca daca media este reprezentativa pentru colectivitate; e) sa se analizeze asimetria acestei distributii. Rezolvare: a) Populatia statistica este multimea absolventilor Universitatii din Florida, promotiile anilor 1989 si 1990, asa cum se specifica in fisierul University of Florida graduate salaries.sav al programului SPSS. Unitatea statistica este un absolvent. Variabila sau caracteristica de interes, notata X, este variabila ce arata salariul unui absolvent, in $, din primul an de dupa finalizarea studiilor, variabila numerica, continua. 15

Pentru un esantion de volum n = 1100 de absolventi s-au inregistrat valorile variabilei, iar setul de date s-a sistematizat intr-o serie de distributie de frecvente pe r = 11 intervale de variatie de marime egala, data in enuntul problemei. Reprezentarea grafica a acestei serii de distributie de frecvente pe intervale de variatie se poate realiza prin histograma si poligonul frecventelor absolute.
Nr. crt. Intervalul k de variatie (Salariul anual al unui absolvent, in $) Frecventa absoluta Limita inferioara Limita superioara

nk

a intervalului k

x( k ) inf
a intervalului k

x( k ) sup
a intervalului k

Centrul

xk

(numarul de absolventi)

al intervalului k

1 2 3 4 5 6 7 8 9 10 11

[7200; 12500] (12500; 17800] (17800; 23100] (23100; 28400] (28400; 33700] (33700; 39000] (39000; 44300] (44300; 49600] (49600; 54900] (54900; 60200] (60200; 65500]

30 69 302 308 263 95 20 6 5 1 1

7200 12500 17800 23100 28400 33700 39000 44300 49600 54900 60200

12500 17800 23100 28400 33700 39000 44300 49600 54900 60200 65500

9850 15150 20450 25750 31050 36350 41650 46950 52250 57550 62850

n
k =1

11

= n = 1100

Histograma

350 Frecventa absoluta (numarul de absolventi)


302 308 263

300 250 200 150 100 50 0


] ] ] ] ] ] ] ] ] ] 00 00 00 00 00 50 0 28 4 39 0 49 6 17 8 23 1 33 7 44 3 54 9 60 2 12 65 5 0; 00 00 00 00 00 ]
30 95 69 20

0;

0;

0;

0;

00 ;

31 0

37 0

43 0

25 0

78 0

84 0

90 0

96 0

49 0 (5

0; (6

0;

0;

0;

0;

[7 2

(1

(2

(3

(4

(1

(2

(3

Salariul, in $ (intervalele de variatie)

Fig. ..... Histograma Distributia celor 1100 de absolventi ai Universitatii din Florida dupa salariul castigat in primul an de dupa finalizarea studiilor.

(4

02 0

16

Poligonul frecventelor absolute


350

Frecventa absoluta (numarul de absolventi)

300 250 200 150 100

302

308

263

95 69 20

50 30 0 0 10000 20000 30000

1 70000

40000

50000

60000

Salariul, in $ (centrele intervalelor de variatie)

Fig. ..... Poligonul frecventelor absolute Distributia celor 1100 de absolventi ai Universitatii din Florida dupa salariul castigat in primul an de dupa finalizarea studiilor. b) Indicatorii tendintei centrale: media, mediana si modul.
Nr. crt. 1 2 3 4 5 6 7 8 9 10 11
Intervalul k (Salariul anual al unui absolvent, in $) Centrul Frecventa absoluta cumulata crescator a intervalului k,

xk
9850 15150 20450 25750 31050 36350 41650 46950 52250 57550 62850

Frecventa absoluta

nk
30 69 302 308 263 95 20 6 5 1 1

(numarul de absolventi)

x k nk
295500 1045350 6175900 7931000 8166150 3453250 833000 281700 261250 57550 62850

Fck = n1 + ... + nk
30 99 401 709 972 1067 1087 1093 1098 1099 1100

[7200; 12500] (12500; 17800] (17800; 23100] (23100; 28400] (28400; 33700] (33700; 39000] (39000; 44300] (44300; 49600] (49600; 54900] (54900; 60200] (60200; 65500]

nk = n = 1100
k =1

11

x
k =1 r

11

nk = 28563500 x = 25966,82 nk

o Media pentru o serie de distributie de frecvente pe r intervale de variatie este x n + ... + xr nr x= 1 1 = n1 + ... + nr unde xk , k = 1, r sunt centrele celor r intervale, iar

x
k =1

n
k =1

= n volumul esantionului.

17

x=

x
k =1

11

nk

1100

$ a castigat, in medie, un absolvent in primul an. 28563500 = 25966,82 1100

o Mediana pentru o serie de distributie de frecvente pe r intervale de variatie se calculeaza parcurgand urmatorii pasi: n +1 = 550,5 . Se determina locul medianei, adica 2 Se calculeaza frecventele absolute cumulate crescator ale intervalelor de variatie Fck = n1 + ... + nk , k = 1, r . Intervalul median este primul interval cu proprietatea ca frecventa sa absoluta cumulata crescator depaseste locul medianei Fc1 = 30 < 550,5 Fc 2 = 99 < 550,5 Fc 3 = 401 < 550,5 si Fc 4 = 709 550,5 , deci al 4-lea interval de variatie (23100; 28400] $ este intervalul median. n +1 Fc Me1 Me = xinf Me + hMe 2 = nMe 550,5 401 = 23100 + 5300 = 25672,56 $, adica jumatate dintre absolventi au castigat 308 cel mult 25672,56$ in primul an sau jumatate au castigat cel putin 25672,56 $. o Modul sau valoarea modala pentru o serie de distributie de frecvente pe r intervale de variatie se calculeaza astfel: Se determina intervalul cu frecventa absoluta cea mai mare: 308 = n4 = max nk , k = 1, r , deci al 4-lea interval de variatie (23100; 28400] $ este intervalul modal. 1 Mo = xinf Mo + hMo = 1 + 2 308 302 = 23100 + 5300 = 23723,52 $, aceasta este valoarea cea mai ( 308 302 ) + ( 308 263) des intalnita a castigului salarial al unui absolvent intr-un an.

c) Introducem functia Fc : R R + definita astfel Fc ( x ) = numarul de unitati statistice din esantion pentru care valoarea observata a caracteristicii de interes X este mai mica sau egala cu x sau frecventa cumulata a lui x. Frecventa absoluta cumulata crescator a intervalului k de variatie, Fck = n1 + ... + nk , k = 1, r , reprezinta numarul de unitati statistice din esantion pentru care valoarea observata a variabilei de interes X este mai mica sau egala decat limita superioara x( k ) sup a intervalului k de variatie, adica Fck = Fc ( x( k ) sup ) , k = 1, r . Pentru reprezentarea grafica a poligonului freventelor absolute cumulate crescator vom pune in evidenta limitele superioare x( k ) sup ale intervalelor de variatie si frecventele lor absolute cumulate, impreuna 18

cu limita inferioara a primului interval de variatie x( 1) inf , in cazul nostru 7200 $, a carui frecventa absoluta cumulata este 0, Fc ( x( 1) inf ) = Fc ( 7200 ) = 0 , deoarece pentru nicio unitate statistica din esantion, nivelul variabilei nu este mai mic decat x( 1) inf . Limitele superioare ale intervalelor de variatie, x( k ) sup x( 1) inf =7200 x( 1) sup =12500 x( 2 ) sup =17800 x( 3 ) sup =23100 x( 4 ) sup =28400 x( 5 ) sup =33700 x( 6 ) sup =39000 x( 7 ) sup =44300 x( 8 ) sup =49600 x( 9 ) sup =54900 x( 10 ) sup =60200 x( 11) sup =65500 Fc ( x( k ) sup ) = Fck = n1 + ... + nk , adica numarul de absolventi din esantion care au castigat un salariu mai mic sau egal cu x( k ) sup $ Fc ( x( 1) inf ) = Fc ( 7200 ) =0 Fc ( x( 1) sup ) = Fc (12500 ) =30 Fc ( x( 2 ) sup ) = Fc (17800 ) =99

Fc ( x( 3 ) sup ) = Fc ( 23100 ) =401 Fc ( x( 4 ) sup ) = Fc ( 28400 ) =709 Fc ( x( 5 ) sup ) = Fc ( 33700 ) =972

Fc ( x( 6 ) sup ) = Fc ( 39000 ) =1067 Fc ( x( 8 ) sup ) = Fc ( 49600 ) =1093 Fc ( x( 9 ) sup ) = Fc ( 54900 ) =1098

Fc ( x( 7 ) sup ) = Fc ( 44300 ) =1087

Fc ( x( 10 ) sup ) = Fc ( 60200 ) =1099 Fc ( x( 11) sup ) = Fc ( 65500 ) =1100


Poligonul freventelor absolute cumulate crescator

1200
1067 1087 1093 1098 1099 1100

1000

Frecventele absolute cumulate (numarul cumulat de absolventi)

972

800
709

600

400

401

200
30 99

0 0

10000

20000

30000

40000

50000

60000

70000

Salariul, in $ (limitele superioare ale intervalelor de variatie)

19

i) Fc ( 21000 ) este numarul de absolventi care au obtinut un salariu mai mic de 21000 $ in primul an de dupa finalizarea studiilor. Valoarea 21000 $ se gaseste in intervalul de variatie (17800; 23100] $, iar Fc ( 21000 ) se determina prin interpolare liniara, utilizand urmatoarea egalitate de rapoarte, asa cum se poate observa in figura de mai jos: 21000 17800 Fc ( 21000 ) Fc (17800 ) = 23100 17800 Fc ( 23100 ) Fc (17800 ) 3200 Fc ( 21000 ) 99 = 5300 401 99 281 Fc ( 21000 ) = 281,33 281 absolventi, adica o proportie de 100 = 25,54% dintre cei 1100 1100 de absolventi din esantionul considerat au avut un salariu anual mai mic de 21000 $.

Fig. .... Interpolare liniara - detaliu din figura reprezentand poligonul frecventelor absolute cumulate crescator, pentru intervalul (17800; 23100] $ in care se gaseste 21000 $. ii) Fc ( 25966 ,82 ) este numarul de absolventi care au obtinut un salariu mai mic decat nivelul mediu x = 25966,82 $ al salariului in esantion. Din relatia 25966,82 23100 Fc ( 25966,82 ) Fc ( 23100 ) = , 28400 23100 Fc ( 28400 ) Fc ( 23100 ) obtinem ca Fc ( 25966 ,82 ) = 567,8 568 absolventi, 20

568 100 = 51,63% dintre cei 1100 de absolventi din esantionul considerat au 1100 avut un salariu anual mai mic de nivelul mediu. adica o proportie de iii) Fc ( 40000 ) Fc ( 25000 ) = 559,35 559 este numarul de absolventi care au castigat in primul an intre 25000 $ si 40000 $, adica 50,81% dintre cei 1100 de absolventi. iv) n Fc ( 52000 ) = 1100 Fc ( 52000 ) = 4,73 5 absolventi au castigat mai mult de 52000 $, adica o proportie de 0,45%. d) Media variabilei de interes in esantion este x = 25966,82 $.
Nr. crt.
Intervalul k (Salariul anual al unui absolvent, in $) Centrul

xk

Frecventa absoluta

nk

(numarul de absolventi)

( x k x ) 2 nk ( x1 x ) 2 n1 = 7792556607
8073248049 9191461480 14479361,02 6795583074 10241990557 4919242698 2641763057 3454027755 997497258,9 1360368967

1 2 3 4 5 6 7 8 9 10 11

[7200; 12500] (12500; 17800] (17800; 23100] (23100; 28400] (28400; 33700] (33700; 39000] (39000; 44300] (44300; 49600] (49600; 54900] (54900; 60200] (60200; 65500]

9850 15150 20450 25750 31050 36350 41650 46950 52250 57550 62850

30 69 302 308 263 95 20 6 5 1 1

n
k =1

11

= n = 1100

( x
k =1

11

x ) nk = 55482218864
2 2 s x = 50484275,58

s x = 7105,2287 Dispersia in esantion (de selectie) pentru o serie de distributie de frecvente pe r intervale de variatie este

( x x ) 2 nk ( x1 x ) 2 n1 + ... + ( xr x ) 2 nr = k 2 k =1 sx = ( n1 + ... + nr ) 1 n 1
unde xk , k = 1, r sunt centrele celor r intervale,

n
k =1

= n volumul esantionului.

, iar abaterea standard este s x = 7105,2287 $, care 5548221886 4 = 50484275 ,58 1100 1 1100 1 arata cu cat se abat, in medie, valorile observate fata de nivelul mediu al salariului din esantion. sx 7105,2287 100 = 27,36% < 30% , ceea ce Coeficientul de variatie in esantion este v x = 100 = x 25966 ,82 arata ca media este reprezentativa pentru colectivitate.
2 sx = k =1 k

( x

11

x ) nk
2

21

e) Asimetria unei serii de distribuie de frecvene se observ din reprezentarea grafic prin histogram sau poligonul frecvenelor, si prin modalitatea n care sunt situai, unul fa de cellalt, indicatorii tendinei centrale.
Histograma

350 Frecventa absoluta (numarul de absolventi)


302 308 263

Poligonul frecventelor absolute


350

300 250 200 150 100 50 0


] ] ] ] ] ] ] ] ] ] ] 00 00 00 00 00 00 00 00 00 50 0 00 28 4 49 6 17 8 23 1 33 7 39 0 44 3 54 9 60 2 12 65 5
30 95 69 20

Frecventa absoluta (numarul de absolventi)

300 250 200 150 100

302

308

263

95 69 20

50 30 0 0 10000 20000 30000

1 70000

0;

0;

0;

0;

0;

0;

0;

0;

0; 49 0

00 ;

25 0

78 0

31 0

(2 84 0

37 0

90 0

43 0

(4 96 0

02 0

0;

(1

(1

(2

(3

(3

(4

(5

(6

40000

50000

60000

[7 2

Salariul, in $ (intervalele de variatie)

Salariul, in $ (centrele intervalelor de variatie)

Reprezentarea grafica seriei de distributie sugereaza ca aceasta are tendinta de normalitate si ca in seria de date predomina valorile mai mici ale variabilei de interes, castigul salarial intr-un an, adica este asimetrica spre dreapta (cu coada mai lung a distribuiei spre valorile mari, care apar cu frecventa mai mica). Indicatorii tendintei centrale se gasesc in urmatoarea relatie Mo < Me < x , ceea ce indica faptul ca distributia de frecvente prezinta asimetrie pozitiva, in serie predominand valorile mici. Gradul de asimetrie prezent n serie poate s fie i msurat printr-un indicator specific, numit coeficient de asimetrie (Skewness), care in cazul unei serii de distributii de frecvente pe r intervale de variatie se calculeaza dupa CAS x = unde xk , k = 1, r sunt centrele celor r intervale,
Nr. crt. 1 2 3 4 5 6 7 8 9 10 11 Intervalul k (Salariul anual al unui absolvent, in $) [7200; 12500] (12500; 17800] (17800; 23100] (23100; 28400] (28400; 33700] (33700; 39000] (39000; 44300] (44300; 49600] (49600; 54900] (54900; 60200] (60200; 65500] Centrul

( x
k =1 k

x ) nk
3 3

n ( sx )

n
k =1

= n volumul esantionului. nk
30 69 302 308 263 95 20 6 5 1 1

xk
9850 15150 20450 25750 31050 36350 41650 46950 52250 57550 62850

Frecventa absoluta

(numarul de absolventi)

( x k x ) 3 nk
-1,25591E+14 -8,73269E+13 -5,07076E+13 -3139415056 3,45432E+13 1,06344E+14 7,71494E+13 5,54326E+13 9,07828E+13 3,15041E+13 5,01747E+13

n
k =1

11

= n = 1100

(x
k =1

11

x ) nk = 1,82302E+14
3

CAS = 0,462

Cum 0 < CAS < 1 , avem asimetrie pozitiv, coada distribuiei este mai alungit la dreapta, n serie predominnd valorile mici (modul < mediana < media). 22

Ex. 7. La o banca se analizeaza distributia a 500 de debitori restantieri dupa situatia datelor de intarziere a rambursarii creditelor. Datele au fost sistematizate astfel: Intervale de variatie a numarului de zile de intarziere a platii mai putin 25 de zile 25-35 de zile 35-45 de zile 45-55 de zile 55-65 de zile peste 65 de zile Ponderea cumulata a debitorilor (%) 25 75 85 93 98 100

Se cere: a) sa se scrie distributia de frecvente pe intervale de variatie; b) sa se reprezinte grafic distributia de frecvente absolute; c) sa se calculeze si sa se analizeze indicatorii tendintei centrale si sa se stabileasca daca durata medie de intarziere a platilor este reprezentativa; d) sa se calculeze media si abaterea standard pentru variabila alternativa care evidentiaza debitorii ce au intarziat mai mult de 45 de zile cu efectuarea platilor. Rezolvare: a) o Populatia statistica mutimea debitorilor cu intarziere in efectuarea platilor pentru rambursarea unor credite. o Unitatea statistica un debitor. o Variabila sau caracteristica de interes, X, este variabila ce arata numarul de zile de intarziere a efectuarii platii catre banca de catre un deitor; variabila numerica, discreta. o S-a realizat o selectie de volum n = 500 de debitori restantieri pentru care s-a inregistrat numarul de zile de intarziere, datele obtinute fiind sistematizate intr-o serie de distributie de frecvente pe r = 6 intervale de variatie de marime egala. Notam cu: nk , k = 1, r , frecventa absoluta a intervalului k de variatie (numarul de debitori restantiei pentru care numarul de zile de intarziere apartine intervalului k de variatie), n1 + ... + nr = n ; nk * * * nk = [ 0;1], k = 1, r , frecventa relativa a intervalului k de variatie, n1 + ... + nr = 1 ; n nk * nk % = 100 , k = 1, r , frecventa relativa exprimata procentual a intervalului k de variatie sau n ponderea debitorilor cu numarul de zile de intarziere din intervalul sau clasa k, * * n1 % + ... + nr % = 100% ; Fck = n1 + ... + nk , k = 1, r , este frecventa absoluta cumulata crescator a intervalului k;
* * * Fck = n1 + ... + nk , k = 1, r , este frecventa relativa cumulata crescator a intervalului k; * * * Fck % = n1 % + ... + nk %, k = 1, r , este frecventa relativa exprimata procentual cumulata crescator a intervalului k (ponderea cumulata a intervalului k).

23

Nr. crt. 1 2 3 4 5 6

Intervalul k de variatie a numarului de zile de intarziere a platii 15-25 de zile 25-35 de zile 35-45 de zile 45-55 de zile 55-65 de zile 65-75 de zile

Ponderea cumulata a debitorilor (%) * * * Fck % = n1 % + ... + nk %


* * Fck % = n1 % = 25%

Ponderea intervalului k, * nk %
* n1 % = 25% * n2 % = 50%

Frecventa relativa, n* % * nk = k 100 n1* = 0,25 n = 0,50


* 2

Frecventa absoluta, * nk = n nk =
* = 500 nk

n1 = 125 n2 = 250 n3 = 50 n4 = 40 n5 = 25 n6 = 10

F % = n % + n % = 75%
* c2 * 1 * 2

F % = n % + ... + n % = 85%
* c3 * 1 * 3 * * Fc*4 % = n1 % + ... + n4 % = 93% * * Fc*5 % = n1 % + ... + n5 % = 98% * * Fc*6 % = n1 % + ... + n6 % = 100%

n % = 10%
* 3 * n4 % = 8% * n5 % = 5% * n6 % = 2%

n = 0,10
* 3 * n4 = 0,08 * n5 = 0,05 * n6 = 0,02

nk* % = 100%
k =1

nk* = 1
k =1

n
k =1

= 500 = n

Distributia celor 500 de debitori dupa numarul de zile de intarziere a platii este urmatoarea serie de distributie de frecvente pe intervale: Nr. crt. 1 2 3 4 5 6 Intervalul k de variatie a numarului de zile de intarziere a platii 15-25 de zile 25-35 de zile 35-45 de zile 45-55 de zile 55-65 de zile 65-75 de zile
6

Numarul de debitori (frecventa absoluta), nk n1 = 125 debitori n2 = 250 n3 = 50 n4 = 40 n5 = 25 n6 = 10

Centrul xk al intervalului k de variatie x1 = 20 x2 = 30 x3 = 40 x4 = 50 x5 = 60 x6 = 70

n
k =1

= 500 = n debitori

b)
Histograma
300
250

P o lig o n u l fre cv e n telo r ab s o lu te


300 250 Numarul de debitori
40 25 10

250

Numarul de debitori

200

200 150 100 50 0 0 10 20 30 40 50 60 70 80 N u maru l z ile lo r d e in tarz ie re

150 100

125

50

50 0 15-25 de zile 25-35 de zile 35-45 de zile

45-55 de zile

55-65 de zile

65-75 de zile

Numarul de zile de intarziere

Fig. ..... Distributia celor 500 de debitori dupa numarul de zile de

24

intarziere a platii

Fig. .... Poligonul frecventelor absolute pentru distributia celor 500 de debitori dupa numarul de zile de intarziere a platilor Centrul

c)
Nr. crt. Intervalul k Numarul de debitori, nk

xk x1 = 20 x2 = 30 x3 = 40 x4 = 50 x5 = 60 x6 = 70
6

x k nk x1 n1 = 2500
7500 2000 2000 1500

Fck Fc1 = 125 Fc 2 = 375 Fc 3 = 425


465 490

( x k x ) 2 nk ( x1 x ) 2 n1 = 19220
1440 2888 12390,4

1 2 3 4 5 6

15-25 de zile 25-35 de zile 35-45 de zile 45-55 de zile 55-65 de zile 65-75 de zile
6

n1 = 125 n2 = 250 n3 = 50 n4 = 40 n5 = 25 n6 = 10

x6 n6 = 700

Fc 6 = 500
6

( x6 x )

19044
2

n6 = 14137,6

nk = 500 = n
k =1

xk nk = 16200
k =1

( x
k =1

x ) nk = =69120
2 2 s x = 138,5170 2 s x = s x = 11,7693

x = 32,4

v x = 36,33% o Media este x n x1 n1 + ... + xr n6 k k 16200 , deci x = 32,4 zile este numarul mediu de zile k =1 x= = = n1 + ... + n6 n 500 de intarziere a platilor pentru un debitor restantier.
6

o Locul medianei este

n +1 n +1 = 250,5 ; primul interval cu proprietatea ca Fck este intervalul 25-35 de 2 2 zile, deoarece Fc1 = 125 < 250,5 , dar Fc 2 = 375 250,5 , deci: n +1 Fc Me1 2 Me = xinf Me + hMe = nMe 250,5 125 = 25 + 10 = 30,02 zile, adica jumatate dintre debitorii restantieri au intarziat cel 250 putin 30 de zile cu efectuarea platilor.

o Intervalul modal este intervalul 25-35 de zile deoarece are frecventa absoluta cea mai mare 250 = n2 = max nk , k = 1,6 , atunci

Mo = xinf Mo + hMo

1 = 1 + 2 250 125 = 25 + 10 = 28,84 zile; numarul cel mai intalnit de zile de intarziere ( 250 125) + ( 250 50 ) a platilor celor 500 de debitori restantieri este de aproximativ 29 de zile.

o Relatia in care se gasesc cei trei indicatori ai tendintei centrale este Mo < Me < x , ceea ce indica o asimetrie pozitiva.

25

o Dispersia in esantion este

2 sx =

( x1 x )

n1 + ... + ( x6 x ) n6 = ( n1 + ... + n6 ) 1
2

( x
k =1

x ) nk
2

500 1

69120 , deci 500 1

2 2 s x = 138,5170 , iar abaterea standard s x = s x = 11,7693 zile, care arata cu cate zile se abat, in medie,

valorile observate ale seriei de date fata de numarul mediu de zile de intarziere. s 11,7693 100 = 36,33% > 35% , ceea ce arata ca o Coeficientul de variatie in esantion este v x = x 100 = x 32,4 distributia nu este omogena si media, ca indicatot al tendintei centrale, nu este reprezentativa pentru colectivitate. d) Definim evenimentul favorabil ca evenimentul ca un debitor intarzie cu platile mai mult de 45 de zile. Variabila alternativa care evidentiaza debitorii ce au intarziat mai mult de 45 de zile cu efectuarea platilor 1 0 este Y : n m m , unde Y = 1 pentru unitatile statistice din esantion care verifica evenimentul favorabil, iar m este numarul de unitati statistice din esantion pentru care se verifica evenimentul favorabil, m = n4 + n5 + n6 = 75 debitori, Y = 0 pentru unitatile statistice din esantion care nu verifica evenimentul favorabil, n m este numarul de unitati statistice din esantion pentru care nu se verifica evenimentul favorabil, n m = 425 debitori. Media variabilei alternative este y = de 45 de zile.
2 Dispersia variabilei alternative este s y =

iar

m 75 = = 0,15 , adica 15% dintre debitori au intarziat mai mult n 500 m m 1 = 0,1275 , iar abaterea standard n n

sy =

m m 1 0,36 . n n

Ex. 8. Un cercettor face un studiu asupra unor firme, privind ansele pe care acestea le ofer tinerilor angajai de a promova repede i de a avansa n carier. Pentru aceasta el a cuprins n studiu un numr de 20 de companii productoare de tehnologie de vrf i a nregistrat timpul scurs de la angajarea iniial a unui salariat n firm pn la prima promovare a acestuia. Firmele au fost grupate dup mrime, iar datele nregistrate sunt: Mrimea firmelor Mici Medii Mari Numr de sptmni de la angajare pn la prima promovare 30; 26; 30; 32; 38; 24; 32; 28; 34; 32; 25; 36; 33 47; 41; 43; 48; 40; 49; 40.

Se cere: a) s seprecizeze care este grupa de firme cu un grad mai ridicat de omogenitate; b) sa se determine in ce proportie marimea companiei influenteaza variatia timpului pana la prima promovare a unui salariat. Rezolvare: a) o Populatia statistica este multimea companiilor producatoare de tehnologie de varf. o Unitatea statistica este o companie (firma). 26

o Caracteristicile urmarite sunt: X - variabila ce arata marimea unei firme; - variabila nenumerica avand r=3 categorii sau variante de raspuns: firme mici, firme mijlocii si firme mari: aceste categorii ale variabilei X vor determina impartirea populatiei statistice in r =3 grupe si anume: Grupa 1 (grupa firmelor mici), Grupa 2 (grupa firmelor mijlocii), Grupa 3 (grupa firmelor mari); - astfel, variabila X, marimea firmei, se mai numeste si factor de grupare. - variabila ce arata durata de timp, in saptamani, de la angajare la prima promovare a unui salariat al unei firme producatoare de tehnologie de varf; - variabila numerica de interes. Din Grupa 1 (grupa firmelor mici) se selecteaza un subesantion de volum n1 = 8 firme pentru care se inregistreaza valorile variabilei Y: { y1, 1 = 30 ; y1, 2 = 26 ; y1, 3 = 30 ; y1, 4 = 32 ; y1, 5 = 38; y1, 6 = 24 ; y1, 7 = 32 ; y1, 8 = y1, n1 = 28 } saptamani. Media de selectie de grupa este y1 = y1, 1 + y1, 2 + ... + y1, n1 n1 =

si Y

y
j =1

n1

1, j

n1
2

240 saptamani, = 30 8

dispersia de selectie de grupa este s12 =

(y

1, 1

y1 ) + ( y1, 2 y1 ) + ... + y1, n1 y1


2 2

n1 1

( y
n1 j =1

1, j

y1 )

n1 1

= 18,2857

abaterea standard de selectie de grupa este s1 = s12 = 18,2857 = 4,2762 saptamani, s1 4,2762 100 = 14,25% . iar coeficientul de variatie al acestei grupe este v1 = 100 = y1 30 Din Grupa 2 (grupa firmelor mijlocii) se selecteaza un subesantion de volum n2 = 5 firme pentru care se inregistreaza valorile variabilei Y: { y2, 1 = 34, y2, 2 = 32, y2, 3 = 25, y2, 4 = 36, y2, 5 = y2, n2 = 33} saptamani. Media de selectie de grupa este y2 = y 2, 1 + y 2, 2 + ... + y 2, n2 n2 =

y
j =1

n2

2, j

n2
2

160 saptamani, = 32 5

dispersia de selectie de grupa este


2 s2

(y =

2 , 1 y 2 ) + ( y 2 , 2 y 2 ) + ... + y 2, n2 y 2 2 2

n2 1

(y
n2 j =1

2, j

y2 )

n2 1

= 17,5

2 abaterea standard de selectie de grupa este s2 = s2 = 17,5 = 4,1833 saptamani, s2 4,1833 100 = 100 = 13,07% . iar coeficientul de variatie al acestei grupe este v2 = y2 32

27

Din Grupa 3 (grupa firmelor mari) se selecteaza un subesantion de volum n3 = 7 firme pentru care se inregistreaza valorile variabilei Y: { y3, 1 = 47; y3, 2 = 41; y3, 3 = 43; y3, 4 = 48; y3, 5 = 40; y3, 6 = 49; y3, 7 = y3, n2 = 40 } saptamani. Media de selectie de grupa este y3 = y3, 1 + y3, 2 + ... + y3, n3 n3 =

y
j =1

n3

3, j

n3
2

308 saptamani, = 44 7

dispersia de selectie de grupa este


2 s3 =

(y

3, 1

y3 ) + ( y3, 2 y3 ) + ... + y3, n3 y3


2 2

n3 1

( y
n3 j =1

3, j

y3 )

n3 1

= 15,3333

2 abaterea standard de selectie de grupa este s3 = s3 = 15,3333 = 3,9158 saptamani,

iar coeficientul de variatie al acestei grupe este v3 =

s3 3,9158 100 = 100 = 8,89% . y3 44

Cum coeficientii de variatie pentru cele trei grupe sunt mai mici ca 30%-35%, atunci toate grupele sunt omogene. Grupa 3 (grupa firmelor mari) este mai omogena in privinta duratei de timp de la angajare la prima promovare a unui salariat deoarece are cel mai mic coeficient de variatie v3 < v2 < v1 . Problema poate fi rezolvata in Excel dupa cum urmeaza: Intr-o foaie de lucru se introduc datele din cele trei subesantioane pe coloane, asa cum apare in Figura 1; In Excel 2003, din meniul principal Tools, submeniul Data Analysis, se alege Descriptive Statistics; In Excel 2007, din meniul principal Data, submeniul Data Analysis, se alege Descriptive Statistics;

Figura 1. Introducerea datelor si alegerea Descriptive Statistics din submeniul Data Analysis.

28

Fereastra de dialog este prezentata in Figura 2.

Figura 2. Fereastra de dialog pentru Descriptive Statistics. Output-ul consta din urmatorul tabel, corepunzator prelucrarii datelor din cele trei grupe:
Grupa 1 (firme mici) Mean Standard Error Median Mode Standard Deviation Sample Variance Kurtosis Skewness Range Minimum Maximum Sum Count 240= 4,2762= s1 30= y1 1,5119 30 30 Grupa 2 (firme mijlocii) 32= y 2 1,8708 33 #N/A 4,1833= s 2
2 = s2 2

Grupa 3 (firme mari) 44= y3 1,4800 43 40 3,9158= s3


2 = s3 2

= s

2 1 2

18,2857= s1

17,5= s 2

15,3333= s3

0,9406 0,5846 14 24 38

2,9143 -1,5367 11 25 36 160=

-2,3115 0,2332 9 40 49 308=

y1, j
j =1

n1

y 2, j
j =1

n2

y
j =1

n3

3, j

8= n1

5= n2

7= n3

b) o Media totala la nivelul intregului esantion de volum y n + y 2 n2 + y 3 n3 30 8 + 32 5 + 44 7 y= 1 1 = n1 + n2 + n3 20 y = 35,4 saptamani.

n = n1 + n 2 + n3 = 20

firme este

29

o Pe baza datelor de selectie calculam: Variatia dintre grupe (Sum of Squares Between Groups) SSB = ( y1 y ) 2 n1 + ( y 2 y ) 2 n2 + ( y 3 y ) 2 n3 = = ( 30 35,4 ) 2 8 + ( 32 35,4 ) 2 5 + ( 44 35,4) 2 7 SSB = 808,8 Variatia din interiorul grupelor (Sum of Squares Within Groups) 2 2 SSW = ( n1 1) s12 + ( n2 1) s2 + ( n3 1) s3 =

= ( 8 1) 18,2857 + ( 5 1) 17,5 + ( 7 1) 15,3333 SSW = 290 Variatia totala SST = SSB + SSW = 808,8 + 290 SST = 1098,8 Coeficientul de determinatie este SSB 404,4 R2 = = = 0,368 SST 1098,8 SSB 404,4 2 100 = 100 = 36,8% arata ca factorul de grupare, tipul sau, exprimat procentual, R% = SST 1098,8 companiei, explica variatia totala a duratei de timp pana la prima promovare in proportie de 36,8%, restul de 63,2% din variatia totala a timpului se datoreaza altor factori care nu au fost considerati de cercetator. o Dispersia de selectie la nivelul intregului esantion de volum n = 20 de firme este Variatia totala la nivelul intregului esantion SST 1098,8 s2 = = = = 57,8315 y n 1 n 1 20 1 cu o abatere standard s y = s 2 = 57,8315 = 7,6047 saptamani, y iar coeficientul de variatie este v y = sy y 100 = 7,6047 100 = 21,48% . 35,4

Ex. 9. Managerul unei agentii imobiliare doreste sa efectueze o analiza referitoare la pretul de vanzare (zeci mii euro) al caselor din doua zone ale Bucurestiului: zona Cotroceni si zona Piata Victoriei. Datele inregistrate au fost prelucrate cu Excel si s-au obtinut urmatoarele rezultate: Cotroceni Piata Victoriei a) Caracterizati comparativ cele doua subcolectivitati pe baza outputMean 38,98 Mean 59,45 ului prezentat (in particular, Median 36,18 Median 59,8 caracterizai omogenitatea i asimetria Mode 36 Mode 59 fiecrei grupe); Standard Deviation 12,04 Standard Deviation 17,23 b) Determinati in ce proportie zona Sample Variance 144,93 Sample Variance 296,88 influenteaza pretul de vanzare al Kurtosis 1,91 Kurtosis -1,01 caselor. Skewness 1,30 Skewness 0,09
Range Minimum Maximum Sum Count 53,20 21,77 74,97 1169,50 30 Range Minimum Maximum Sum Count 61,37 29,9 91,27 1783,37 30

30