Sunteți pe pagina 1din 30

PROBLEME REZOLVATE

1. Pentru 30 de convorbiri telefonice de lungă-distanţă s-au înregistrat duratele (în minute):


11,8; 3,6; 16,6; 13,5; 4,8; 8,3; 8,9; 9,1; 7,7; 2,3; 12,1; 6,1;
10,2; 8,0; 11,4; 6,8; 9,6; 19,5; 15,3; 12,3; 8,5; 15,9; 18,7; 11,7;
6,2; 11,2; 10,4; 7,2; 5,5; 14,5.
Se cere:
a) Să se determine durata medie a unei convorbiri telefonice şi să se studieze dacă valoarea obţinută este
reprezentativă;
b) Să se analizeze asimetria distribuţiei;
c) Calculaţi cuartilele acestui set de date şi interpretaţi rezultatele obţinute;
d) Să se grupeze datele pe 6 intervale de mărime egală şi să se reprezinte grafic rezultatul grupării;
e) Să se determine ponderea cazurilor care se găsesc în intervalul:
x  s; x  s 
x  2s; x  2s 
x  3s; x  3s  şi să se stabilească dacă valorile găsite corespund regulii empirice.
Rezolvare:
a) Notăm cu X variabila “durata unei convorbiri telefonice”, iar xi reprezintă valorile variabilei X pentru
cele n=30 observaţii.
Pentru calculul mediei se va utiliza formula mediei aritmetice simple:
30
 xi
x  i 1  10 ,26 minute.
n
Verificarea reprezentativităţii mediei se face cu ajutorul coeficientului de variaţie:
s
v  x  100
x
Calculăm abaterea medie pătratică:

 xi  x
30
2

s x  s x2  i 1  4 ,29 minute.
n
Coeficientul de variaţie este:
s 4 ,29
v  x  100   100  41,8% >35%, ceea ce înseamnă că seria de date are un grad redus
x 10 ,26
de omogenitate şi deci media are o reprezentativitate scăzută.

b) Analizăm asimetria seriei cu ajutorul coeficientului de asimetrie Pearson:


x  Mo
Cas  , unde Mo este valoarea modală şi reprezintă valoarea cel mai des întâlnită
sx
într-o serie statistică.
Dacă analizăm seria de date observăm că fiecare valoare apare o singură dată şi deci putem afirma
nu există mod. În acest caz vom analiza asimetria seriei folosind o formulă alternativă a coeficientului de
asimetrie, formulă bazată pe ipoteza că într-o repartiţie moderat asimetrică între indicatorii tendinţei centrale
există relaţia Mo  x  3Me  x  .
3( x  Me )
Cas1  , unde Me reprezintă mediana seriei.
sx
Pentru determinarea valorii medianei procedăm astfel:
 Ordonăm crescător seria de date:
2,3 3,6 4,8 5,5 6,1 6,2 6,8 7,2 7,7 8 8,3 8,5
8,9 9,1 9,6 10,2 10,4 11,2 11,4 11,7 11,8 12,1 12,3 13,5
14,5 15,3 15,9 16,6 18,7 19,5

1
 Determinăm locul medianei în serie:
n  1 31
locMe    15 ,5 . Această valoare arată că mediana se găseşte între termenul al 15-
2 2
lea, respective al 16-lea ai seriei ordodate crescător/descrescător, adică mediana este o valoare cuprinsă între
9,6 şi 10,2.
 Determinăm mediana ca fiind media aritmetică simplă a celor două valori:
9 ,6  10 ,2
Me   9 ,9 minute.
2
Aceasta înseamnă că 50% dintre convorbirile telefonice au o durată mai mică de 9,9 minute, respective 50%
au o durată mai mare.
3( x  Me ) 310 ,26  9 ,9 
Cas1    0 ,25
sx 4 ,29
Observaţie: Cas1   3,3 .
Valoarea coeficientului arată o uşoară asimetrie pozitivă, în serie predominând valorile mici.
c) Cuartilele sunt indicatori de poziţie care impart seria în patru părţi egale. Din categoria acestor
indicatori face parte şi mediana determinată la punctul b).
În mod similar vom determina Q1 şi Q3.
n  1 31
locQ1    7 ,75 .
4 4
Deci Q1 este o valoare cuprinsă între termenii al 7-lea şi al 8-lea ai seriei, adică între 6,8 şi 7,2. Determinăm
prima cuartilă ca fiind media aritmetică simplă a celor două valori:
6 ,8  7 ,2
Q1   7 minute.
2
Aceasta înseamnă că 75% dintre convorbirile telefonice au o durată mai mare de 7 minute.

3n  1 93
locQ3    23,25 .
4 4
Deci Q3 este o valoare cuprinsă între termenii al 23-lea şi al 24-lea ai seriei, adică între 12,3 şi 13,5.
Determinăm cuartila a treia ca fiind media aritmetică simplă a celor două valori:
12 ,3  13,5
Q3   12 ,9 minute.
2
Aceasta înseamnă că 25% dintre convorbirile telefonice au o durată mai mare de 12,9 minute.

d) Ax = xmax - xmin = 19,1 - 2,3 = 16,8 minute


r=6
h  Ax r  16,8 6  2,8  3 minute
Rezultatele grupării sunt prezentate în tabelul 3.1.
Tabelul 3.1
Intervale de variaţie a duratei convorbirilor telefonice (minute) Număr de convorbiri telefonice
2-5 3
5-8 6
8-11 8
11-14 7
14-17 4
17-20 2
Total 30
Notă: limita inferioară inclusă în interval.
Reprezentarea grafică este redată în figura 3.1.

2
9
8
7
6

Convorbiri
5
4
3
2
1
0
0-2 2-5 5-8 8-11 11-14 14-17 17-20
Durata

Figura 3.1 Distribuţia convorbirilor telefonice după durată

Se observă că distribuţia este normală, uşor asimetrică la dreapta (vezi coeficientul de asimetrie-punctul b).

d) x  s; x  s  = (10,26-4,29; 10,26 + 4,29) = (5,97; 14,55)


x  2 s; x  2s  = (1,68; 18,84)
Tabelul 3.2
Interval Ponderea convorbirilor telefonice pentru Regula empirică
distribuţia dată
x  s; x  s = (5,97; 14,55) 21/30=0,7 (70%) 68%
x  2s; x  2s = (1,68; 29/30 = 0,967 (96,7%) 95%
18,84)
Se observă că procentele calculate pe baza datelor iniţiale sunt foarte apropiate de cele
 
corespunzătoare regulii empirice. În ultimul interval, x  3s; x  3s se găsesc practic toate convorbirile
telefonice.

2. Distribuţia celor 54 de agenţi comerciali ai unei firme ce comercializează produse cosmetice de


după numărul de zile lucrate în luna iulie este următoarea:
Tabelul 3.3
Zile lucrate Număr vânzători
21 6
22 7
23 14
24 11
25 9
26 4
27 3
Total 54
Se cere:
a) Să se reprezinte grafic distribuţia vânzătorilor după numărul de zile lucrate;
b) Să se determine numărul mediu de zile lucrate şi să se studieze dacă valoarea obţinută este
reprezentativă;
c) Care este numărul de zile lucrate peste care se situează:
c1) trei sferturi dintre vânzători?
c2) 50% din vânzători?
c3) o pătrime din vânzători?
d) Să se analizeze asimetria distribuţiei.

3
Rezolvare:
a) În tabelul 3.3 avem o serie de distribuţie de frecvenţe pe variante, variabila analizată X fiind „număr
zile lucrate”. Pentru reprezentarea grafică se foloseşte diagrama cu coloane nelipite centrate pe variantă.

16

14

12

ri 10
to
a
r
c 8
u
.lr
n
6

0
21 22 23 24 25 26 27

zile lucrate

Figura 3.2 Distribuţia vânzătorilor după numărul de zile lucrate

b) Se calculează numărul mediu de zile lucrate cu ajutorul mediei aritmetice ponderate:

x
 xi ni 
1276
 23,6 zile.
 ni 54

Tabelul 3.4
Zile lucrate Număr xi  ni xi  x 2 ni Fci
(xi) vânzători
(ni)
0 1 2 3 4
21 6 126 40,56 6
22 7 154 17,92 s13
23 14 322 5,04 27
24 11 264 1,76 38
25 9 225 17,64 47
26 4 104 23,04 51
27 3 81 34,68 54
Total 54 1276 140,64 -

Aşadar, un vânzător din cei 54 luaţi în studiu a lucrat, în medie, aproximativ 23 de zile şi jumătate.
Pentru a verifica reprezentativitatea mediei obţinute, trebuie calculat coeficientul de variaţie, pe baza
abaterii medii pătratice:
s
v  x  100
x
s x  s x2
Dispersia variabilei este:
 xi  x  ni  140,64  2,6044 .
2
s x2 
 ni 54
Calculele intermediare necesare în determinarea dispersiei sunt prezentate în coloana 3 a tabelului 3.4.
Abaterea medie pătratică va fi:
sx  2,6044  1,61 zile.
iar coeficientul de variaţie:
s 1,61
v  x  100   100  6 ,8% < 35%, ceea ce înseamnă că media calculată este reprezentativă,
x 23,6
colectivitatea fiind omogenă.

4
c) Se cer calculaţi următorii indicatori medii de poziţie:
c1) prima cuartilă (Q1):
Pentru calculul ei se procedează astfel:
 se calculează frecvenţele absolute cumulate crescător (Fci)-vezi coloana 4 a tabelului 3.4
 se determină locul primei cuartile:

locQ1 
 ni  1 55
  13,75
4 4
Q1 este acea valoare a variabilei corespunzătoare primei frecvenţe cumulate crescător mai mare decât locQ1,
deci Q1=23 zile.
Aşadar, 75% dintre vânzători au lucrat mai mult de 23 de zile în luna iulie.
c2) Mediana (Me)

locMe 
 ni  1 55
  27 ,5
2 2
Me = 24 zile.
Deci, 50% din vânzători au lucrat mai mult de 24 de zile, iar 50% mai puţin.
c3) Cuartila a treia (Q3)

locQ3 

3( ni  1 ) 3  55
  41,25
4 4
Q3 = 25 zile.
Aşadar, 25% din vânzători au lucrat mai mult de 25 de zile.

d) Analizăm asimetria distribuţiei cu ajutorul coeficientului de asimetrie al lui Pearson.


x  Mo 23,6  23
Cas    0 ,37
sx 1,61
Mo = 23 zile (nivelul variabilei cu frecvenţa cea mai mare).
Valoarea coeficientului de asimetrie indică fapul că seria este moderat asimetrică la dreapta (predomină
valorile mici ale variabilei).

3. Procentul din profit cheltuit de 70 de firme pentru reclamă şi publicitate în anul 2005 a avut
următoarea distribuţie:
Tabelul 3.5
% pentru reclamă şi Nr. firme cu % pentru reclama mai
publicitate mic decât limita superioară a
intervalului
0,6-1,0 14
1,0-1,4 32
1,4-1,8 56
1,8-2,2 64
2,2-2,6 68
2,6-3,0 70
Notă: limita inferioară inclusă în interval.
Se cere:
a) Să se reprezinte grafic distribuţia de frecvenţe absolute;
b) Să se determine procentul mediu cheltuit pentru reclamă şi publicitate şi să se studieze dacă valoarea
obţinută este reprezentativă;
c) Care este procentul din profit cheltuit pentru reclamă şi publicitate peste care se situează:
c1) trei sferturi dintre firme?
c2) 50% din firme?
c3) o pătrime din firme?
d) Să se analizeze asimetria distribuţiei.
e) Să se calculeze media şi dispersia firmelor care au cheltuit mai mult de 2,2% din profit pentru
reclamă şi publicitate.

5
Rezolvare:
a) Se observă că în tabelul 3.5 sunt date frecvenţele absolute cumulate crescător. Pentru a determina
frecvenţele absolute, trebuie să decumulăm frecvenţele date în tabelul iniţial (coloana 2). Rezultatele
prelucrărilor intermediare necesare pentru calcularea indicatorilor solicitaţi vor fi redate în tabelul 3.6.
Tabelul 3.6
% cheltuit Frecvenţele Frecvenţe Centre
pentru absolute absolute de
reclamă şi cumulate (nr. interval xi ni xi  x xi  x2 ni
publicitate crescător firme) (xi)
(ni)
0 1 2 3 4 5 6
0,6-1,0 14 0,8 -
14 11,2 0,66 6,098
1,0-1,4 32 1,2 -
18 21,6 0,26 1,217
1,4-1,8 56 24 1,6 38,4 0,14 0,470
1,8-2,2 64 8 2,0 16 0,54 2,333
2,2-2,6 68 4 2,4 9,6 0,94 3,534
2,6-3,0 70 2 2,8 5,6 1,34 3,591
Total - 70 - 102,4 17,244

Distribuţia de frecvenţe absolute este reprezentată grafic în figura 3.3, prin histogramă.
30

25
Număr de firme

20

15

10

0
0,6-1,0 1,0-1,4 1,4-1,8 1,8-2,2 2,2-2,6 2,6-3,0
procentul pt. reclama si publicitate

Figura 3.3 Distribuţia firmelor după procentul cheltuit pentru reclamă şi publicitate

b) Se calculează media aritmetică ponderată a procentului cheltuit pentru reclamă şi publicitate, pe baza
frecvenţelor absolute (coloana 4):

x
 xi ni 
102,4
 1,4628  1,46 %
 ni 70
Aşadar, o firmă din cele 70 luate în studiu a cheltuit, în medie, 1,46% din profit pentru reclamă şi
publicitate.
Pentru a verifica reprezentativitatea mediei obţinute, trebuie calculat coeficientul de variaţie, pe baza
abaterii medii pătratice:
s
v  x  100
x
s x  s x2
Dispersia variabilei în eşantion este:
 xi  x  ni  17 ,244  0 ,2463
2
s x2 
 ni 70
Calculele intermediare necesare în determinarea dispersiei sunt prezentate în coloanele 5 şi 6.

6
Abaterea medie pătratică va fi:
sx  0 ,2463  0 ,4963  0 ,5 %.
iar coeficientul de variaţie:
s 0 ,5
v  x  100   100  34 ,24% < 35%, ceea ce înseamnă că media calculată este reprezentativă,
x 1,46
colectivitatea fiind omogenă.
c) Se cer calculaţi următorii indicatori medii de poziţie:
c1) prima cuartilă (Q1):
Pentru calculul ei se procedează astfel:
 se determină locul primei cuartile:

locQ1 

ni  1 71
  17 ,75
4 4
 se găseşte intervalul în care se află prima cuartilă (primul interval a cărui frecvenţă cumulată crescător
depăşeşte locul primei cuartile), acesta este 1,0-1,4;
 se calculează prima cuartilă, cu formula:
loc Q1  FcQ1 1 17 ,75  14
Q1  x0  k  1  0 ,4   1,08 %.
nQ1 18
unde:
x0 = limita inferioară a intervalului primei cuartile;
k = mărimea intervalului cuartilic;
FcQ1-1 = frecvenţa cumulată a intervalului anterior celui cuartilic;
nQ1 = frecvenţa absolută a intervalului primei cuartile.

Aşadar, 75% dintre firme au cheltuit pentru reclamă şi publicitate mai mult de 1,08 % din profit.

c2) Mediana (Me)

locMe 

ni  1 71
  35 ,5
2 2
Mediana se găseşte în intervalul 1,4-1,8.
loc Me  FcMe 1 35 ,5  32
Me  x0  k  1,4  0 ,4   1,458 %.
nMe 24
Deci, 50% din firme au cheltuit pentru reclamă şi publicitate mai mult de 1,458 % din profit, iar 50%
mai puţin.
c3) Cuartila a treia (Q3)

locQ3 

3( ni  1 )
 53,25
4
A treia cuartilă se găseşte tot în intervalul 1,4-1,8.
loc Q3  FcQ3 1 53,25  32
Q3  x0  k  1,4  0 ,4   1,754 %.
nQ3 24
Aşadar, 25% din firme au cheltuit pentru reclamă şi publicitate mai mult de 1,754 % din profit, iar 75%
mai puţin.

d) Analizăm asimetria distribuţiei cu ajutorul coeficientului de asimetrie al lui Pearson.


x  Mo
Cas 
sx
1
Mo  x0  k
1   2
unde:
x0 = limita inferioară a intervalului modal;
k = mărimea intervalului modal;

7
Intervalul modal este intervalul cu frecvenţa maximă: [1,4-1,8)
1 = nMo – nMo-1 = frecvenţa intervalului modal minus frecvenţa intervalului anterior celui modal;
2 = nMo - nMo+1 = frecvenţa intervalului modal minus frecvenţa intervalului următor celui modal;
24  18
Se obţine Mo  1,4  0 ,44   1,52%.
( 24  18 )  ( 24  8 )
Cele mai multe firme au cheltuit pentru reclamă şi publicitate 1,52% din profit.
1,46  1,52
Cas   0 ,12 <0 ceea ce arată o asimetrie uşoară, negativă, în serie predomină valorile mici.
0 ,4963
Oblicitatea poate fi studiată şi cu ajutorul coeficientului lui Bowley:
As  3
Q  Me  Me  Q1   0 ,122 , cu aceeaşi interpretare ca cea arătată înainte.
Q3  Q1
e) Se creează o caracteristică alternativă cu o stare favorabilă (firmele care au cheltuit peste 2,2%) şi o
stare nefavorabilă (firmele care au cheltuit mai puţin de 2,2%).
Media caracteristicii alternative este:
m 6
w   0 ,086  0 ,09 (în medie, 9% din firme au cheltuit peste 2,2%)
n 70
iar dispersia:
s 2  w1  w  0 ,09  0 ,91  0 ,08 .

4. Se cunosc următoarele date referitoare la distribuţia celor 3569 structuri de primire turistică cu
funcţiuni de cazare turistică, pe categorii de confort în anul 2003:
Tabelul 3.7
Categorii de confort Număr de unităţi (ni)
0 1
Neclasificate 448
1 stea 1080
2 stele 1479
3 stele 427
4 stele 125
5 stele 10
TOTAL 3569
Sursa: www.insse.ro
Să se determine indicatorii tendinţei centrale pentru această serie.

Rezolvare:
Datele prezentate în tabelul 3.7 reprezintă o serie de distribuţie de frecvenţe pe variante, iar variabila
analizată (categoria de confort) este calitativă, măsurată pe o scală ordinală. Din categoria indicatorilor ce
caracterizează tendinţa centrală, pentru această serie pot fi determinate valoarea modală (modul) şi mediana.
Modul (Mo) este valoarea variabilei cu frecvenţa cea mai mare, deci nivelul Mo este “2 stele” (nimax =1467).
Pentru determinarea medianei (Me) procedăm astfel:
 Calculăm frecvenţele absolute cumulate crescător (Fci)- coloana 2, tabelul 3.8.
Tabelul 3.8
Frecvenţe absolute
Categorii de confort Număr de unităţi (ni)
cumulate crescător (Fci)
0 1 2
Neclasificate 448 448
1 stea 1080 1528
2 stele 1479 3007
3 stele 427 3434
4 stele 125 3559
5 stele 10 3569
TOTAL 3569 -
 Determinăm locul medianei:

8
6
 ni  1 n  1 3570
locMe  i 1    1785
2 2 2
 Determinăm mediana:
Mediana reprezintă acel nivel al variabilei analizate corespunzător primei frecvenţe cumulate crescător mai
mare decât locMe. Deci şi nivelul Me este “2 stele” (Fc3=3007>locMe=1785).

5. Două grupe de studenţi, cu efective de 25 şi, respectiv, 32 de persoane, au susţinut un test de


cultură generală. Prima grupă a obţinut media 7,8, iar a doua 8,4. Cercetătorul este interesat în a determina
nota medie pe ansamblul celor două grupe.

Răspuns:
Nota medie pe ansamblul celor două grupe se poate determina ca o medie de medii parţiale. Să notăm:
n1 = 25 şi x 1  7 ,8
n2 = 32 şi x 2  8 ,4

Atunci: x 
x ni i
, x
x 1  n1  x 2  n 2 7 ,8  25  8 ,4  32 195  268 ,8
   8 ,14 puncte.
n i n1  n 2 25  32 57

6. Consideraţi următoarele valori: 5, 7, 4, 5, 20, 6, 4.


a) Calculaţi media aritmetică şi mediana acestui set de date; ce valoare vi se pare mai potrivită pentru a
caracteriza tendinţa centrală: media sau mediana?
b) Înlocuiţi valoarea 20 cu valoarea 8 şi recalculaţi cei doi indicatori ai tendinţei centrale. Explicaţi
modificările survenite.
c) Adăugaţi 50 fiecărei valori iniţiale. Cum se va modifica media?

Răspuns:
x  7 ,28
Pentru determinarea medianei, datele se ordonează: 4, 4, 5, 5, 6, 7, 20. Se determină locul medianei în serie:

Loc Me 
 ni  1 7  1
  4.
2 2
Seria având un număr impar de termeni, mediana este egală cu valoarea termenului central (al patrulea), deci
Me = 5.
Mediana este un indicator potrivit pentru a studia tendinţa centrală în acest set de date, deoarece valoarea 20
este o valoare extremă, ce afectează, prin magnitudine, nivelul total al variabilei şi deci valoarea mediei. Şase
dintre cele şapte valori se situează sub valoarea mediei aritmetice, ceea ce face ca indicatorul mediană să
exprime mai corect tendinţa centrală.
b) Noile valori sunt: 4, 4, 5, 5, 6, 7, 8.
x  5,57 , Me = 5.
Valoarea medianei rămâne neschimbată, ea ţinând cont numai de numărul valorilor mari, nu şi de valoarea
lor efectivă.
c) Valorile sunt: 55, 57, 54, 55, 70, 56, 54.

x' 
 x'i 401
  57 ,28  x  50 .
n 7
Se verifică proprietatea mediei aritmetice de a se modifica () cu „a“ unităţi, dacă fiecare valoare se modifică
() cu câte „a“ unităţi.

7. Directorul unei bănci doreşte să cunoască situaţia numărul de zile de întârziere a rambursării
creditelor. Analizând distribuţia debitorilor după numărul zilelor de întârziere, constată următoarele: 30% din
debitori întârzie între 10 şi 20 de zile, 40% între 20 şi 30 de zile, 18% între 30 şi 40 de zile, iar restul mai
mult de 40 de zile. Care este numărul mediu de zile de întârziere a plăţii pe un debitor?

9
Răspuns:
Datele pot fi sistematizate ca în tabelul 3.11:

Tabelul 3.11
Intervale de variaţie a numărului de zile de întârziere
a plăţii
Număr de debitori (%) xi xi ni*%
10-20 40 15 600
20-30 30 25 750
30-40 18 35 630
40 şi peste 12 45 540
Total 100 - 2520
Se va utiliza media aritmetică ponderată, calculată pe baza frecvenţelor relative:

x
 xi n*i%  2520  25,2  25 zile.
100 100
Aşadar, în medie, un debitor al băncii întârzie 25 zile la rambursarea unui credit.

8. Într-o colectivitate statistică s-au cules date privitoare la două variabile numerice, obţinându-se:
xi   4,1,1,5,6 ,3,2,1şi yi   100,90,40,80,70,50,100,70
Să se arate după care din variabile colectivitatea este mai omogenă.

Răspuns:
Pentru variabila X vom calcula:
 xi 23
x   2,875
n 8

s x2 

 xi  x 2  26,875  3,839
n 1 7
sau prin metoda momentelor:
2  xi 2 232
 xi  93 
93  66,125
s x2  n  8   3,839
n 1 7 7
s x  s x2  1,959
s 1,959
vx  x 100  100  68,1%
x 2,875
iar pentru variabila Y:
 yi 600
y   75
n 8

s 2y 

 yi  y 2  3400  485,71
n 1 7
s y  s 2y  22,039
sy 22,039
v y  100  100  29,38%
y 75
Seria formată după caracteristica Y este, deci, mai omogenă decât cea formată după caracteristica X.

9. Într-o şcoală generală se organizează un test de verificare a aptitudinilor elevilor pentru


informatică. Distribuţia elevilor după punctajul obţinut este aproximativ normală. Primii 25% din cei mai
puţin înclinaţi spre această disciplină obţin până la 18 puncte, iar cei mai performanţi 25% obţin peste 48 de
puncte. Dacă valoarea mediană este de 27 de puncte, să se studieze oblicitatea distribuţiei.

10
Răspuns:
Asimetria (oblicitatea) distribuţiei poate fi studiată cu indicatorul (coeficientul lui Bowley):
Q  Me  Me  Q1  Q1  Q3  2 Me
As  3 
2Q 2Q
sau
Q  Me  Me  Q1 
As  3 .
Q3  Q1

Aşadar, As 
48  27   27  18   21  9  0 ,4 .
48  18 30
Valoarea indicatorului de oblicitate arată că, în colectivitatea analizată, predomină elevii cu punctaj mare
la test. Asimetria este pozitivă, moderată.

10. Un profesor doreşte să vadă care au fost rezultatele medii obţinute de studenţii săi la examen. De
asemenea, ar vrea să observe care a fost variaţia notelor. Calculaţi mărimile necesare. Notele obţinute de
studenţi la examen au fost următoarele:
8,1 9,2 3,0 7,9 9,0 6,9 9,6 3,9 9,4 8,8 6,5 7,3 8,4 8,3 9,5 3,8 9,7
9,4 9,3 7,3 7,8 8,6 5,7 9,8 9,3 8,3 9,9 4,2 9,9 5,1 8,4 9,0 8,8 5,9
9,5 7,0 8,1 9,1 7,5 8,2 8,3 6,5 3,4 8,9 4,3 8,5 7,5 6,4 6,4 9,3 8,6
8,4 4,8 8,1 9,6 9,1 9,6 8,3 4,1 10,0 2,5 4,8 7,1 8,9 6,1 7,7 7,6 1,8
5,3 6,9 6,6 9,4 8,0 5,5 8,4 6,6 3,4 9,8 7,2 1,1 3,8 8,5 7,7 9,6 5,0
7,2 8,3 8,7 7,4 9,4 9,0 8,4 9,5 9,0 7,3 9,9 8,5 7,1 3,7 1,6

Rezolvare folosind EXCEL:


1. Se introduc datele. În A1 tastaţi „Nota“.
2. Apăsaţi Tools/Data Analysis şi Descriptive Statistics.
3. Introduceţi Input Range (A1:A101) conţinând şi numele variabilei. Selectaţi Labels in First Row.
4. Apăsaţi Summary Statistics şi OK.
Se obţin rezultatele:
Note
Mean 7.398
Standard Error 0.215022
Median 8.1
Mode 8.4
Standard Deviation 2.150216
Sample Variance 4.62343
Kurtosis 0.393661
Skewness -1.0731
Range 8.9
Minimum 1.1
Maximum 10
Sum 739.8
Count 100

Media notelor obţinute la examen este 7,398 (Mean) cu mediana 8,1 (Median). Modulul este 8,4
(Mode). Acesta este posibil să nu fie singurul, deoarece EXCEL nu afişează decât o singură valoare.
Cea mai mică notă obţinută a fost 1,1 (Minimum) iar cea mai mare Maximum = 10. Amplitudinea
(diferenţa între valoarea minimă şi cea maximă) este 8,9 (Range).
Variaţia măsurată prin dispersie este 4,62 (Sample Variance) iar abaterea medie pătratică este 2,15
(Standard deviation). Eroarea standard (acest indicator va fi explicat la capitolul de sondaj statistic) este
0,215 (Standard Error).
Deoarece Skewness este negativ şi mult diferit de zero (-1,07) seria de date este puternic asimetrică
negativ, curba fiind alungită spre stânga.
Kurtosis este 0,39, pozitiv, ceea ce înseamnă că avem o curbă ascuţită (distribuţie leptocurtică).

11
11. 60 de vizitatori ai unei expoziţii sunt cronometraţi cât timp vizitează expoziţia (minute). 20 de
vizitatori dimineaţa, 20 la prânz şi 20 seara (tabel).
Determinaţi care este tendinţa centrală generală, a vizitatorilor de dimineaţă, de la prânz şi a celor de seară.
Determinaţi variaţia totală şi a celor trei tipuri de vizitatori.
Dimineaţa 37 46 52 40 46 36 42 35 37 63 56 40 36 45 55 42 50 40 57 40
La prânz 113 36 45 47 51 42 31 89 52 40 45 65 52 32 28 28 34 82 29 47
Seara 199 38 56 58 39 39 85 46 79 53 40 55 113 99 41 93 39 43 66 41

Rezolvare folosind EXCEL:


1. Se introduc datele. În A1 tastaţi „Dimineaţa“, în B1 „La prânz“, în C1 „Seara“. Timpii pentru
vizitatorii de dimineaţă sunt în coloana A, pentru cei de la prânz sunt în coloana B şi pentru cei de
seara sunt în coloana C.
2. Apăsaţi Tools/Data Analysis şi Descriptive Statistics
3. Introduceţi Input Range (A1:C21) conţinând şi numele variabilei. Selectaţi Labels in First Row.
4. Apăsaţi Summary Statistics şi OK.

Se obţin rezultatele:
Dimineaţa La prânz Seara
Mean 44.75 Mean 49.4 Mean 66.1
Standard Error 1.829 Standard Error 5.005 Standard Error 8.664
Median 42 Median 45 Median 54
Mode 40 Mode 45 Mode 39
Standard Deviation 8.181 Standard Deviation 22.383 Standard Deviation 38.747
Sample Variance 66.934 Sample Variance 500.99 Sample Variance 1501.35
Kurtosis -0.409 Kurtosis 2.479 Kurtosis 6.801
Skewness 0.777 Skewness 1.621 Skewness 2.37
Range 28 Range 85 Range 161
Minimum 35 Minimum 28 Minimum 38
Maximum 63 Maximum 113 Maximum 199
Sum 895 Sum 988 Sum 1322
Count 20 Count 20 Count 20

Media de timp a vizitatorilor de dimineaţă este de 44,75 min., cu o abatere medie pătratică de 8,181
min., a celor de la prânz este de 49,4 min., cu abaterea medie pătratică de 22,383 min. şi a celor de seara de
66,1 min., cu o abatere medie pătratică de 38,747 min. Deci, vizitatorii de seara au cea mai mare medie de
timp de vizitare a muzeului, dar tot aceştia variază şi cel mai mult. Deci, vizitatorii de seara nu sunt omogeni.
Variaţia mai poate fi caracterizată şi de amplitudine. Observăm că amplitudinea pentru datele de dimineaţă
este de 28 min., pentru cele de la prânz fiind de 3 ori mai mare (85 min.), iar pentru cele de seara de 6 ori mai
mare.
Pentru a calcula indicatorii pentru întreaga colectivitate (de 60 de vizitatori) se introduc toate datele pe o
singură coloană şi se parcurg aceiaşi paşi.

12. Următoarea serie de date arată preţul de vânzare (sute lei) pentru 13 lucrări de grafică la o
licitaţie de obiecte de artă: 51, 60, 72, 35, 32, 57, 63, 61, 48, 33, 67, 54, 37.
Stabiliţi valoarea de adevăr a următoarelor afirmaţii, justificând răspunsurile:
a) 25 % dintre lucrarile licitate s-au vandut pentru un pret mai mic de 48 sute de lei;
b) jumatate dintre lucrarile licitate au un pret mai mic sau egal cu 54 sute lei;
c) 25 % dintre lucrari s-au vandut cu cel putin 62 sute de lei;
d) pentru 75% dintre obiecte s-a obtinut un pret de cel putin 36 sute lei;
e) precizati care dintre urmatoarele valori: 25, 29, 16, 40, 124, 85, 99,8 sute lei sunt outliers in raport
cu datele initiale.
Rezolvare:
Cele n=13 valori ale seriei de date se ordonează crescător:
x(1)=32, x(2)=33, x(3)=35, x(4)=37, x(5)=48, x(6)=51, x(7)=54, x(8)=57, x(9)=60, x(10)=61, x(11)=63, x(12)=67,
x(13)=72.

12
Q1 – cuartila de ordinul 1 sau cuartila inferioara
n 1 13  1
Locul lui Q1 este 1  1  3,50  N, dar 3 < 3,50 < 4
4 4
x3  x4  35  37
 x3  Q1  x4  si Q1    36 sute lei.
2 2

x1  x2   x3  x4   x5   x6   x7   x8   x9   x10   x11  x12   x13
  
25%  75%
Q1

36
Cu interpretarea:
 25 % dintre termenii seriei au valori mai mici decat 36 sute lei (Q1 este percentila de ordinul 25), iar
75% dintre termenii seriei au valori mai mari ca 36 sute lei;
sau
 25% dintre lucrarile de grafica licitate s-au vandut pentru un pret mai mic decat 36 sute lei, iar restul
de 75% dintre ele s-au vandut cu un pret mai mare de 36 sute lei.

Q2=Me – cuartila de ordinul 2 sau mediana seriei de date statistice.


n  1 13  1
Locul lui Q2=Me este   7  N  Me  x7   54 sute lei
2 2
x1  x2   x3  x4   x5   x6   x7   x8   x9   x10   x11  x12   x13

 

50% Me 50%

54
Cu interpretarea:
 jumatate dintre termenii seriei au valori mai mici ca 54 sute lei (Me este percentila de ordinul 50), iar
restul au valori mai mari ca 54 sute lei;
sau
 jumatate dintre lucrarile de grafica licitate s-au vandut cu mai putin de 54 sute lei, iar restul s-au
vandut cu un pret mai mare de 54 sute lei.
Q3 – cuartila de ordinul 3 sau cuartila superioara
n 1 13  1
Locul lui Q3 este 3   3  10,50  N, dar 10 < 10,50 < 11
4 4
x10   x11 61  63
 x10   Q3  x11 si Q3    62 sute lei.
2 2

x1  x2   x3  x4   x5   x6   x7   x8   x9   x10   x11  x12   x13
    
25%  75%
Q3

62
Cu interpretarea:
 75 % dintre termenii seriei au valori mai mici decat 62 sute lei (Q3 este percentila de ordinul 75), iar
25% dintre termenii seriei au valori mai mari ca 62 sute lei;
sau
 75% dintre lucrarile de grafica licitate s-au vandut pentru un pret mai mic decat 62 sute lei, iar restul
de 25% dintre ele s-au vandut cu un pret mai mare de 62 sute lei.
x1  x2   x3  x4   x5   x6   x7   x8   x9   x10   x11  x12   x13
     
25%  50%  25%
Q1 Q3

36 62

13
Jumatate din termenii din mijlocul seriei au valori cuprinse intre Q1=36 sute lei si Q3=62 sute lei.
Abaterea intercuatilica este IQR=Q3-Q1=26 sute lei.

Definitie: Spunem ca o valoare x este outlier pentru un set de date statistice numerice daca:
x  Q1 1,5  IQR sau x  Q3  1,5  IQR
sau
valoarea x este outlier pentru un set de date statistice daca daca se gaseste in afara intervalului
Q1 1,5  IQR; Q3  1,5  IQR .
In cazul nostru, Q1  1,5  IQR; Q3  1,5  IQR   3;101 , deci numai valoarea 124 este outlier in
raport cu setul initial de date statistice.

In concluzie, a) fals; b) adevarat; c) adevarat; d) adevarat; e) numai valoarea 124 sute lei este
outlier in raport cu seria initiala de date.

13. Pentru 39 de actrite care au obtinut premiul Oscar se cunoaste varsta, in ani impliniti, la
momentul castigarii premiului:
50, 44, 35, 80, 26, 28, 41, 21, 61, 38, 49, 33, 74, 30, 33, 41, 31, 35, 41, 42,
37, 26, 34, 34, 35, 26, 61, 60, 34, 24, 30, 37, 31, 27, 39, 34, 26, 25, 33 ani.
Se cere:
a) sa se determine si sa se interpreteze indicatorii tendintei centrale si cuartilele acestei serii de date;
b) sa se construiasca diagrama box-plot (sau diagrama cu mustati box-and-whisker), punand in evidenta
daca seria are valori extreme;
c) sa se calculeze indicatorii variatiei si sa se stabileasca daca seria este omogena;

Rezolvare:

a)
o Populatia statistica este multimea actritelor care au castigat premiul Oscar.
o Unitatea statistica este o actrita.
o Variabila sau caracteristica de interes, notata X, este variabila ce arata varsta unei actrite la momentul
obtinerii premiului; variabila numerica, discreta.
o Pentru un esantion de volum n  39 de actrite se cunosc valorile variabilei X, adica {x1=50, x2=44,
x3=35, x4=80, ..., xn=x39=33 ani}, care reprezinta o serie simpla sau nesistematizata de date statistice
numerice.
n

x1  x2  ...  xn 
xi
o Media unei serii simple de date numerice x1 , x2 , ..., xn  este x   i 1
.
n n
In cazul acestei serii, varsta medie a unei actrite din esantion care a castigat premiul Oscar este
39

x1  x2  ...  x39 
xi
1486
x  i 1
  38,1025 ani.
39 39 39
o Pentru a determina mediana, vom proceda astfel:
- seria simpla de date se ordoneaza crescator x1  x2   ...  xn  , unde xi  , i  1, n este
elementul cu rangul i din seria ordonata crescator,
n 1
- locul medianei este  20  N  Me  x20   34 ani.
2
Jumatate dintre actritele din selectie au obtunut premiul Oscar la o varsta de cel mult 34 de ani (jumatate
dintre actritele din esantion au castigat premiul Oscar la o varsta de peste 34 de ani).
o Exista doua valori care au frecventa maxima si anume valorile 26 ani si 34 ani, care apar pentru 4 actrite
fiecare.

14
Nr. crt. Varsta actritelor x i Varsta actritelor, in ordine crescatoare xi 
1 x1=50 x(1)=21
2 x2=44 x(2)=24
3 x3=35 x(3)=25
4 x4=80 x(4)=26
5 x5=26 x(5)=26
6 28 26
7 41 26
8 21 27
9 61 28
10 38 x(10)=30=Q1
11 49 30
12 33 31
13 74 31
14 30 33
15 33 33
16 41 33
17 31 34
18 35 34
19 41 34
20 42 x(20)=34=Me
21 37 35
22 26 35
23 34 35
24 34 37
25 35 37
26 26 38
27 61 39
28 60 41
29 34 41
30 24 x(30)=41=Q3
31 30 42
32 37 44
33 31 49
34 27 x(34)=50
35 39 x(35)=60
36 34 x(36)=61
37 26 x(37)=61
38 25 x(38)=74
39 x39=33 x(39)=80

o Pentru determinarea cuartilelor procedam astfel:


n 1
- locul cuartilei de ordinul 1, Q1, este 1  10  N  Q1  x10   30 ani; un sfert
4
dintre actrite au castigat premiul Oscar la o varsta mai mica sau egala cu 30 de ani, iar
restul la cel putin 30 de ani;
n 1
- locul cuartilei de ordinul 3, Q3, este  3  30  N  Q3  x30   41 ani; trei
4
sferturi dintre actrite au castigat premiul Oscar la o varsta mai mica sau egala cu 41 de
ani, iar restul la cel putin 41 de ani.
o Abaterea intercuartilica este IQR  Q3  Q1  11 ani si arata lungimea intervalului in care se gasesc
jumatate dintre valorile din mijlocul seriei de date.

15
b) Diagrama cu mustati (box-and-whisker) sau diagrama box-plot pentru o serie de date statistice
numerice se construieste punand in evidenta urmatoarele cinci elemente si eventualele valori extreme sau
outliers:
- cuartila inferioara sau de ordinul 1, Q1=30 ani;
- mediana sau cuartila de ordinul al 2-lea, Q2=Me=34 ani;
- cuartila superioara sau de ordinul al 3-lea, Q3=41 ani;
- limita sau marginea inferioara a diagramei box-plot este cea mai mica dintre valorile
seriei de date cu proprietatea ca este mai mare sau egala cu Q1  1,5  IQR , adica
 
lim inf box plot  min xi  , i  1, n xi   Q1  1,5  IQR :
o Q1 1,5  IQR  13,5
o cea mai mica dintre valorile seriei de date, cu proprietatea ca este  13,5 , este
x(1)=21 ani, deci marginea inferioara este egala cu 21 ani,
lim inf box plot  21  x1 ;
- limita sau marginea superioara a diagramei box-plot este cea mai mare dintre valorile
seriei de date cu proprietatea ca este mai mica sau egala cu Q3  1,5  IQR , adica
 
lim sup box plot  max xi  , i  1, n xi   Q3  1,5  IQR :
o Q3  1,5  IQR  57,5
o cea mai mare dintre valorile seriei de date, cu proprietatea ca este  57,5 , este
x(34)=50 ani, deci marginea superioara este egala cu 50 ani,
lim sup box plot  50  x34  .
Se observa ca intervalul cuprins intre marginea inferioara si cea superioara diagramei box-plot, adica
intervalul de numere reale [21; 50] nu contine toate valorile observate, in afara lui ramanand valorile
x(35)=60, x(36)=61, x(37)=61, x(38)=74, x(39)=80 ani.
Valoarea x este outlier pentru seria de date statistice numerice daca x se gaseste in afara intervalului
Q1 1,5  IQR; Q3  1,5  IQR  13,5; 57,5, x(35)=60, x(36)=61, x(37)=61, x(38)=74, x(39)=80 sunt outliers si
vor fi reprezentate distinct in diagrama box-plot.

*
* * * *

21 30 34 41 50 60 61 74 80
(Q1) (Me) (Q3)

Diagrama box-plot sau diagrama cu mustati (box-and-whisker).

16
Diagrama box-plot in SPSS.
c) Dispersia de selectie (sample variance) pentru o serie simpla de date numerice asupra variabilei X este
n

 x  x
2

s x2 
x1  x 
2
 ...  xn  x 

2
i 1
i
,
n 1 n 1
39

 x  x
2
i
adica s x2  6791,5897
i 1
  178,7260 ,
39  1 39  1
abaterea standard (standard deviation) este s x  s x2  13,3688 ani.
sx
Coeficientul de variatie este v x   100  35,09%  35% , ceea ce indica faptul ca seria de date
x
nu este omogena, iar media nu este reprezentativa pentru colectivitate, ca indicator al tendintei centrale.
Nr. crt. Varsta actritelor x i xi  x xi  x 2
1 x1=50 11,8974 141,5489
2 x2=44 5,8974 34,7797
3 x3=35 -3,1026 9,6259
4 x4=80 41,8974 1755,3951
5 x5=26 -12,1026 146,4720
6 28 -10,1026 102,0618
7 41 2,8974 8,3951
8 21 -17,1026 292,4977
9 61 22,8974 524,2925
10 38 -0,1026 0,0105
11 49 10,8974 118,7541
12 33 -5,1025 26,0361
13 74 35,8974 1288,6259
14 30 -8,1025 65,6515
15 33 -5,1025 26,0361
16 41 2,8974 8,3951
17 31 -7,1025 50,4464
18 35 -3,1025 9,6259
19 41 2,8974 8,3951
20 42 3,8974 15,1900
21 37 -1,1025 1,2156
22 26 -12,1025 146,4720
23 34 -4,1025 16,8310
24 34 -4,1025 16,8310
25 35 -3,1025 9,6259
26 26 -12,1025 146,4720
27 61 22,8974 524,2925
28 60 21,8974 479,4977
29 34 -4,10256 16,8310
30 24 -14,1025 198,8823
31 30 -8,1025 65,6515
32 37 -1,1025 1,2156
33 31 -7,1025 50,4464
34 27 -11,1025 123,2669
35 39 0,8974 0,8053
36 34 -4,1025 16,8310
37 26 -12,1025 146,4720
38 25 -13,1025 171,6771
39 x39=33 -5,1025 26,0361
39 39 39

 xi  1486
i 1
  xi  x   0
i 1
 x
i 1
i  x   6791,5897
2

x  38,1025 s x2  178,7260
s x  s x2  13,3688

17
vx  35,09%
14. Un agent al companiei de asigurari W vinde contracte de asigurare de locuinte. In luna iulie a
incheiat: 2 contracte cu prime anuale de 50 Eur, 3 contracte cu prime anuale de 60 Eur, 6 contracte cu prime
de 70 Eur, 9 contracte cu prime de 90 Eur, 16 contracte cu prime anuale de 120 Eur, 8 contracte cu prime
anuale de 130 Eur si 6 contracte cu prime de 140 Eur. Se cere:
a) Construiţi seria de distribuţie de frecvenţe şi analizaţi grafic tendinţa de normalitate a acesteia.
b) Caracterizaţi omogenitatea şi asimetria distribuţiei contractelor în funcţie de valoarea primelor
anuale.
c) Calculati media si abaterea standard a variabilei alternative care evidentiaza contractele cu prime
anuale de valoare mai mica sau egala cu 90 Eur.

Rezolvare: a)
o Populatia statistica este multimea contractelor de asigurare de locuinte din portofoliul companiei W.
o Unitatea statistica este un contract de asigurare de locuinta.
o Variabila statistica sau caracteristica de interes, notata X, este variabila ce arata marimei primei anuale,
in Eur, pentru un contract de asigurare de locuinta incheiat de un agent al companiei; variabila numerica,
continua.
o Agentul a incheiat intr-o luna n=50 de contracte, seria de date statistice referitoare la primele anuale ale
acestor contracte fiind sistematizata intr-o serie de distributie de frecvente pe r=7 variante distincte.
Astfel distributia celor n=50 de contracte dupa valoarea primei anuale, in Eur, este:

Nr. Valoarea x k Eur Numarul de contracte, n k ,


crt. a unei prime anuale (frecventa absoluta)
1 x1  50 Eur n1  2 contracte
2 x2  60 Eur n2  3
3 x3  70 Eur n3  6
4 x4  90 Eur n4  9
5 x5  120 Eur n5  16
6 x6  130 Eur n6  8
7 x7  140 Eur n7  6
7

n
k 1
k  50  n contracte

 x  50 Eur x2  60 x3  70 x4  90 x5  120 x6  130 x7  120 


sau X :  1 ,
 n1  2 contracte n2  3 n3  6 n4  9 n5  16 n6  8 n7  6 
7
unde n
k 1
k  50  n contracte.
o Reprezentarea grafica a acestei serii de distributie este poligonul frecventelor absolute.

18
Poligonul frecventelor absolute - distributia celor 50 de contracte
incheiate de agentul de asigurari dupa valoarea primei anuale

18

16

Frecventa absoluta (numarul de contracte)


14

12

10

0
0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150

Prima anuala de asigurare a unui contract, in Eur

o Poligonul frecventelor sugereaza ca distributia are tendinta de normalitate, dar prezinta asimetrie la
stanga, coada poligonului freventelor absolute fiind mai alungita spre stanga.
o Poligonul frecventelor se mai poate reprezenta si cu ajutorul frecventelor relative

 0,1
Valoarea x k Eur Numarul de contracte, n k , nk
Nr. Frecventa relativa nk* 
crt. a unei prime anuale (frecventa absoluta) n
1 x1  50 Eur n1  2 contracte n1*  0,04
2 x2  60 Eur n2  3 n2*  0,06
3 x3  70 Eur n3  6 n3*  0,12
4 x4  90 Eur n4  9 n4*  0,18
5 x5  120 Eur n5  16 n5*  0,32
6 x6  130 Eur n6  8 n6*  0,16
7 x7  140 Eur n7  6 n7*  0,12
7 7

n
k 1
k  50  n contracte n
k 1
*
k 1

Poligonul frecventelor relative

0,35

0,3

0,25
Frecventa relativa

0,2

0,15

0,1

0,05

0
0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150
Prima anuala, in Eur, pentru un contract de asigurare

b)
o Media pentru o serie de distributie de frecvente pe r variante distincte ale variabilei de interes este

19
r

x  n  ...  xr  nr x k  nk
x 1 1  k 1
,
n1  ...  nr n

 
r
unde xk , k  1, r sunt variantele distincte observate ale variabilei, iar n
k 1
k  n volumul esantionului.
7

x k  nk
5310
In cazul nostru, x  k 1
  106,2 Eur este valoarea medie a unei prime anuala
50 50
corespunzatoare unui contract de asigurare de locuinta incheiat de respectivul agent de vanzari.
o Mediana pentru o serie de distributie de frecvente pe r variante distincte se calculeaza parcurgand
urmatorii pasi:
 Cele r variante distincte sunt ordonate crescator x1  x2  ...  xr .
n 1
 Se determina locul medianei, adica  25,5 .
2
 Se calculeaza frecventele absolute cumulate crescator ale celor r variante distincte
Fck  n1  ...  nk , k  1, r .
 Mediana este acea valoare distincta cu proprietatea ca frecventa sa absoluta cumulata
crescator este prima care depaseste locul medianei
Fc1  2  25,5
Fc 2  5  25,5
Fc 3  11  25,5
Fc 4  20  25,5
si Fc5  36  25,5 , deci a 5-a varianta sau valoare distincta, x5 , este mediana sau valoarea
mediana: Me  x5  120 Eur, adica jumatate dintre contractele incheiat de agentul de
vanzari au o prima anuala de valoare mai cica sau egala cu 120 Eur.

Valoarea nk ,
Nr.
crt.
distincta,
(frecventa xk  nk Fck  n1  ...  nk xk  x 2  nk
x k Eur absoluta)
1 x1  50 n1  2 x1  n1  100 Fc1  n1  2 x2  x 2  n1  6316,88
2 x2  60 n2  3 x2  n2  180 Fc 2  n1  n2  5 x2  x 2  n2  6403,32
3 x3  70 n3  6 420 Fc3  n1  n2  n3  11 7862,64
4 x4  90 n4  9 810 Fc 4  n1  ...  n4  20 2361,96
5 x5  120 n5  16 1920 Fc5  n1  ...  n5  36 3047,04
6 x6  130 n6  8 1040 Fc6  n1  ...  n6  44 4531,52

7 x7  140 n7  6 840 Fc 7  n1  ...  n7  n  50  x7  x  2


 n7  6854,64
7 7 7

n  50  n x  nk  5310  x  x   nk  37378
2
k k k
k 1 k 1 k 1

x  106,2 s x2  762,8163265
s x  s x2  27,61912972
vx  26,01%
o Modul sau valoarea modala pentru o serie de distributie de frecvente pe r variante distincte este acea
varianta sau valoare care apare cu frecventa absoluta sau relativa cea mai mare:

20
 Frecventa absoluta cea mai mare este: 16  n5  max nk , k  1, r .  
 valoarea modala este deci a 5-a varianta sau valoare distincta de raspuns a variabilei de
interes, Mo  x5  120 Eur, aceasta fiind valoarea cea mai des intalnita a unei prime anuale
pentru contractele incheiate de respectivul agent.
o Relatia in care se gasesc indicatorii tendintei centrale, x  Me  Mo , ca si reprezentatrea grafica pentru
poligonul frecventelor absolute sau relative, arata ca distributia contractelor dupa valoarea primelor
anuale prezinta asimetrie negativa, in serie predominand valorile mai mari ale primelor anuale, iar coada
distributiei este alungita spre stanga.
o Dispersia in esantion (de selectie) pentru o serie de distributie de frecvente pe r intervale de variatie este
r

 x  x   nk
2

s x2 
x1  x 2
 n1  ...  xr  x   nr
2
 k 1
k
,
n1  ...  nr   1 n 1

unde x , k  1, r  sunt variantele distincte observate ale variabilei,  n


r

k k  n volumul esantionului.
k 1
7

 x  x   nk
2
k
37378
In cazul nostru, s x2  k 1
  762,8163 , iar abaterea standard sau abaterea medie
50  1 50  1
patratica este s x  s x2  27 ,6191 Eur, care arata cu cat se abat, in medie, valorile observate fata de
nivelul mediu in esantion al primelor anuale.
sx 27,6191
o Coeficientul de variatie in esantion este v x  100  100  26,01%  30% , ceea ce arata
x 106,2
ca distributia este omogena si media este reprezentativa pentru colectivitate.
c) Definim “evenimentul favorabil” ca evenimentul ca un contract de asigurare are o prima anuala de valoare
mai mica sau egala cu 90 Eur. Variabila alternativa care evidentiaza contractele ale caror prime anuale sunt
 0 1
de valoare mai mica sau egala cu 90 Eur este Y :   ,
 n  m m
unde Y  1 pentru unitatile statistice din esantion care verifica evenimentul favorabil, iar m este numarul
de unitati statistice din esantion care verifica evenimentul favorabil, m  n1  n2  n3  n4  20
contracte,
iar Y  0 pentru unitatile statistice din esantion care nu verifica evenimentul favorabil, n  m este
numarul de unitati statistice din esantion pentru care nu se verifica evenimentul favorabil,
n  m  30 de contracte cu prime anuale mai mari de 90 Eur.

m 20
Media variabilei alternative este f    0,4 , adica 40% dintre contracte au valori ale
n 50
primelor anuale mai mici sau egale cu 90 Eur.
m  m
Dispersia variabilei alternative este s y   1    0,24 , iar abaterea standard
2

n  n
m  m
sf   1    0,48
n  n

15. Distributia a 1100 de absolventi ai Universitatii din Florida dupa salariul castigat, in $, in primul
an dupa terminarea studiilor este urmatoarea serie de distributie de frecvente pe intervale de variatie:
Nr. crt. Intervalul de variatie al salariului, $ Numarul de absolventi
1 [7200; 12500] 30
2 (12500; 17800] 69

21
3 (17800; 23100] 302
4 (23100; 28400] 308
5 (28400; 33700] 263
6 (33700; 39000] 95
7 (39000; 44300] 20
8 (44300; 49600] 6
9 (49600; 54900] 5
10 (54900; 60200] 1
11 (60200; 65500] 1

Se cere:
a) sa se reprezinte grafic aceasta serie de distributie si sa se analizeze asimetria acestei distributii.
b) sa se determine si sa se interpreteze indicatorii tendintei centrale;
c) sa se stabileasca daca media este reprezentativa pentru colectivitate;

Rezolvare: a)
 Populatia statistica este multimea absolventilor Universitatii din Florida, promotiile anilor 1989 si 1990,
asa cum se specifica in fisierul University of Florida graduate salaries.sav al programului SPSS.
 Unitatea statistica este un absolvent.
 Variabila sau caracteristica de interes, notata X, este variabila ce arata salariul unui absolvent, in $, din
primul an de dupa finalizarea studiilor, variabila numerica, continua.
 Pentru un esantion de volum n  1100 de absolventi s-au inregistrat valorile variabilei, iar setul de date
s-a sistematizat intr-o serie de distributie de frecvente pe r  11 intervale de variatie de marime egala,
data in enuntul problemei.
 Reprezentarea grafica a acestei serii de distributie de frecvente pe intervale de variatie se poate realiza
prin histograma si poligonul frecventelor absolute.

Intervalul k de variatie Frecventa absoluta Limita inferioara Limita superioara


Nr. Centrul x k
(Salariul anual al unui n k a intervalului k xk inf xk sup
crt. al intervalului k
absolvent, in $) (numarul de absolventi) a intervalului k a intervalului k

1 [7200; 12500] 30 7200 12500 9850


2 (12500; 17800] 69 12500 17800 15150
3 (17800; 23100] 302 17800 23100 20450
4 (23100; 28400] 308 23100 28400 25750
5 (28400; 33700] 263 28400 33700 31050
6 (33700; 39000] 95 33700 39000 36350
7 (39000; 44300] 20 39000 44300 41650
8 (44300; 49600] 6 44300 49600 46950
9 (49600; 54900] 5 49600 54900 52250
10 (54900; 60200] 1 54900 60200 57550
11 (60200; 65500] 1 60200 65500 62850

11

n
k 1
k  n  1100

Histograma
Poligonul frecventelor absolute
350
350
Frecventa absoluta (numarul de absolventi)

302 308
300 308
302
300
Frecventa absoluta (numarul de

263

250
263
250
200
absolventi)

200
150

95 150
100
69

50 100 95
30
20
6 5 1 1 69
0 50
20
30 6 5 1
]

]
]

1
00

00

00

00

00

00

00

00

00

00
0
50

5
12

0
17

23

28

33

39

44

49

54

60

65
0;

0;

0;

0;

0;

0;

0;

0;

0;

0;
0;
20

0 10000 20000 30000 40000 50000 60000 70000


25

78

31

84

37

90

43

96

49

02
[7

(1

(1

(2

(2

(3

(3

(4

(4

(5

(6

Salariul, in $ (intervalele de variatie) 22 Salariul, in $ (centrele intervalelor de variatie)


Histograma Poligonul frecventelor absolute
Distributia celor 1100 de absolventi ai Universitatii din Florida dupa salariul castigat in primul an de
dupa finalizarea studiilor.
Reprezentarea grafica seriei de distributie sugereaza ca aceasta are tendinta de normalitate si ca in seria
de date predomina valorile mai mici ale variabilei de interes, castigul salarial intr-un an, adica este asimetrica
spre dreapta (cu coada mai lungă a distribuţiei spre valorile mari, care apar cu frecventa mai mica).
Indicatorii tendintei centrale se gasesc in urmatoarea relatie Mo  Me  x , ceea ce indica faptul ca
distributia de frecvente prezinta asimetrie pozitiva, in serie predominand valorile mici.
b) Indicatorii tendintei centrale: media, mediana si modul.
Intervalul k Frecventa absoluta
Nr. (Salariul anual al Centrul Frecventa absoluta n k cumulata crescator
crt. unui xk xk  nk a intervalului k,
(numarul de absolventi)
absolvent, in $) Fck  n1  ...  nk
1 [7200; 12500] 9850 30 295500 30
2 (12500; 17800] 15150 69 1045350 99
3 (17800; 23100] 20450 302 6175900 401
4 (23100; 28400] 25750 308 7931000 709
5 (28400; 33700] 31050 263 8166150 972
6 (33700; 39000] 36350 95 3453250 1067
7 (39000; 44300] 41650 20 833000 1087
8 (44300; 49600] 46950 6 281700 1093
9 (49600; 54900] 52250 5 261250 1098
10 (54900; 60200] 57550 1 57550 1099
11 (60200; 65500] 62850 1 62850 1100
11 11

 nk  n  1100
k 1
x
k 1
k  nk  28563500

x  25966,82
o Media pentru o serie de distributie de frecvente pe r intervale de variatie este
r

x  n  ...  xr  nr x k  nk
x 1 1  k 1
,
n1  ...  nr n

unde x , k  1, r  sunt centrele celor r intervale, iar  n


r

k k  n volumul esantionului.
k 1
11

x k  nk
28563500
x k 1
  25966,82 $ a castigat, in medie, un absolvent in primul an.
1100 1100
o Mediana pentru o serie de distributie de frecvente pe r intervale de variatie se calculeaza parcurgand
urmatorii pasi:
n 1
 Se determina locul medianei, adica  550,5 .
2
 Se calculeaza frecventele absolute cumulate crescator ale intervalelor de variatie
Fck  n1  ...  nk , k  1, r .
 Intervalul median este primul interval cu proprietatea ca frecventa sa absoluta cumulata
crescator depaseste locul medianei
Fc1  30  550,5
Fc 2  99  550,5
Fc 3  401  550,5

23
si Fc 4  709  550,5 , deci al 4-lea interval de variatie (23100; 28400] $ este intervalul
median.
n 1
 Fc Me1
 Me  xinf Me  hMe  2 
nMe
550,5  401
 23100  5300   25672,56 $, adica jumatate dintre absolventi au
308
castigat cel mult 25672,56$ in primul an sau jumatate au castigat cel putin 25672,56 $.
o Modul sau valoarea modala pentru o serie de distributie de frecvente pe r intervale de variatie se
calculeaza astfel:
 Se determina intervalul cu frecventa absoluta cea mai mare:

308  n4  max nk , k  1, r , 
deci al 4-lea interval de variatie (23100; 28400] $ este intervalul modal.
1
 Mo  xinf Mo  hMo  
1   2
308  302
 23100  5300   23723,52 $, aceasta este valoarea cea
308  302  308  263
mai des intalnita a castigului salarial al unui absolvent intr-un an.

c) Media variabilei de interes in esantion este x  25966,82 $.


Intervalul k
Frecventa absoluta n k
Nr. (Salariul anual al Centrul
crt. unui xk (numarul de xk  x 2  nk
absolvent, in $) absolventi)

1 [7200; 12500] 9850 30 x1  x 2  n1  7792556607


2 (12500; 17800] 15150 69 8073248049
3 (17800; 23100] 20450 302 9191461480
4 (23100; 28400] 25750 308 14479361,02
5 (28400; 33700] 31050 263 6795583074
6 (33700; 39000] 36350 95 10241990557
7 (39000; 44300] 41650 20 4919242698
8 (44300; 49600] 46950 6 2641763057
9 (49600; 54900] 52250 5 3454027755
10 (54900; 60200] 57550 1 997497258,9
11 (60200; 65500] 62850 1 1360368967

11 11

n  n  1100  x  x   nk  55482218864
2
k k
k 1 k 1

s x2  50484275,58
s x  7105,2287
Dispersia in esantion (de selectie) pentru o serie de distributie de frecvente pe r intervale de variatie
este
r

 x  x   nk
2

s x2 
x1  x 
2
 n1  ...  xr  x   nr
2
 k 1
k
,
n1  ...  nr   1 n 1

 
r
unde xk , k  1, r sunt centrele celor r intervale, n
k 1
k  n volumul esantionului.

24
11

 x  x   nk
2
k
55482218864
 s x2  k 1
  50484275,58 , iar abaterea standard este s x  7105,2287 $,
1100  1 1100  1
care arata cu cat se abat, in medie, valorile observate fata de nivelul mediu al salariului din esantion.
sx 7105,2287
Coeficientul de variatie in esantion este v x  100  100  27,36%  30% , ceea ce
x 25966,82
arata ca media este reprezentativa pentru colectivitate.

16. La o banca se analizeaza distributia a 500 de debitori restantieri dupa situatia datelor de intarziere
a rambursarii creditelor. Datele au fost sistematizate astfel:
Intervale de variatie a numarului de zile de intarziere a platii Ponderea cumulata a debitorilor (%)
mai putin 25 de zile 25
25-35 de zile 75
35-45 de zile 85
45-55 de zile 93
55-65 de zile 98
peste 65 de zile 100
Se cere:
a) sa se scrie distributia de frecvente pe intervale de variatie;
b) sa se reprezinte grafic distributia de frecvente absolute;
c) sa se calculeze si sa se analizeze indicatorii tendintei centrale si sa se stabileasca daca durata medie
de intarziere a platilor este reprezentativa;
d) sa se calculeze media si abaterea standard pentru variabila alternativa care evidentiaza debitorii ce au
intarziat mai mult de 45 de zile cu efectuarea platilor.
Rezolvare: a)
o Populatia statistica – mutimea debitorilor cu intarziere in efectuarea platilor pentru rambursarea unor
credite.
o Unitatea statistica – un debitor.
o Variabila sau caracteristica de interes, X, este variabila ce arata numarul de zile de intarziere a efectuarii
platii catre banca de catre un deitor; variabila numerica, discreta.
o S-a realizat o selectie de volum n  500 de debitori restantieri pentru care s-a inregistrat numarul de zile
de intarziere, datele obtinute fiind sistematizate intr-o serie de distributie de frecvente pe r  6 intervale
de variatie de marime egala.
Notam cu:
 nk , k  1, r , frecventa absoluta a intervalului k de variatie (numarul de debitori restantiei pentru care
numarul de zile de intarziere apartine intervalului k de variatie), n1  ...  nr  n ;

 0;1, k  1, r , frecventa relativa a intervalului k de variatie, n1*  ...  nr*  1 ;


nk
 nk 
*

n
n
 nk %  100  k , k  1, r , frecventa relativa exprimata procentual a intervalului k de variatie sau
*

n
ponderea debitorilor
cu numarul de zile de intarziere din intervalul sau clasa k,
n %  ...  n %  100% ;
*
1
*
r

 Fck  n1  ...  nk , k  1, r , este frecventa absoluta cumulata crescator a intervalului k;


 Fck*  n1*  ...  nk* , k  1, r , este frecventa relativa cumulata crescator a intervalului k;
 Fck* %  n1* %  ...  nk* %, k  1, r , este frecventa relativa exprimata procentual cumulata crescator a
intervalului k (ponderea cumulata a intervalului k).
Intervalul k de Frecventa Frecventa absoluta,
Ponderea cumulata Ponderea
relativa,
Nr. variatie a a debitorilor (%) intervalului k, nk  n  nk* 
n* %
crt. numarului de zile
de intarziere a platii F %  n %  ...  n %
*
ck
*
1
*
k
*
n %
k n  k
*
k  500  nk*
100
1 15-25 de zile Fck* %  n1* %  25% n1* %  25% n1  0,25
*
n1  125

25
2 25-35 de zile Fc*2 %  n1* %  n2* %  75% n2* %  50% n2*  0,50 n2  250
3 35-45 de zile F %  n %  ...  n %  85%
*
c3
*
1
*
3 n %  10%
*
3 n  0,10
*
3
n3  50
4 45-55 de zile Fc*4 %  n1* %  ...  n4* %  93% n4* %  8% n4*  0,08 n4  40
5 55-65 de zile Fc*5 %  n1* %  ...  n5* %  98% n5* %  5% n5*  0,05 n5  25
6 65-75 de zile Fc*6 %  n1* %  ...  n6* %  100% n6* %  2% n6*  0,02 n6  10
6 6 6

 n %  100%  n
k 1
*
k
k 1
*
k 1 n
k 1
k  500  n

Distributia celor 500 de debitori dupa numarul de zile de intarziere a platii este urmatoarea serie de
distributie de frecvente pe intervale:
Intervalul k de variatie Numarul de debitori Centrul x k al
Nr. (frecventa absoluta),
a numarului de zile intervalului k de
crt.
de intarziere a platii nk variatie
1 15-25 de zile n1  125 debitori x1  20
2 25-35 de zile n2  250 x2  30
3 35-45 de zile n3  50 x3  40
4 45-55 de zile n4  40 x4  50
5 55-65 de zile n5  25 x5  60
6 65-75 de zile n6  10 x6  70
6

n
k 1
k  500  n debitori

b)

Histograma
Poligonul frecventelor absolute

300 300

250
250 250
Numarul de debitori
Numarul de debitori

200 200

150 150
125

100
100

50 50
50 40
25
10
0
0
15-25 25-35 35-45 45-55 55-65 65-75
0 10 20 30 40 50 60 70 80
de zile de zile de zile de zile de zile de zile Numarul zilelor de intarziere
Numarul de zile de intarziere

Poligonul frecventelor absolute pentru distributia celor


Distributia celor 500 de debitori dupa numarul de zile de
500 de debitori dupa numarul de zile de intarziere a
intarziere a platii
platilor
c)
Numarul de Centrul
Nr.
crt.
Intervalul k
debitori, n k xk x k  nk Fck xk  x 2  nk
1 15-25 de zile n1  125 x1  20 x1  n1  2500 Fc1  125 x1  x 2  n1  19220
2 25-35 de zile n2  250 x2  30 7500 Fc 2  375 1440
3 35-45 de zile n3  50 x3  40 2000 Fc3  425 2888
4 45-55 de zile n4  40 x4  50 2000 465 12390,4

26
5 55-65 de zile n5  25 x5  60 1500 490 19044

6 65-75 de zile
n6  10 x6  70 x6  n6  700 Fc 6  500  x6  x 2
 n6  14137,6
6 6

x  x  x   nk  =69120
6

n  nk  16200
2
k  500  n k k
k 1 k 1 k 1

x  32,4 s x2  138,5170
s x  s x2  11,7693
vx  36,33%
6

x1  n1  ...  xr  n6 
x k  nk
16200
o Media este x   k 1
 , deci x  32,4 zile este numarul mediu de
n1  ...  n6 n 500
zile de intarziere a platilor pentru un debitor restantier.
n 1 n 1
o Locul medianei este  250,5 ; primul interval cu proprietatea ca Fck  este intervalul 25-35
2 2
de zile, deoarece Fc1  125  250,5 , dar Fc 2  375  250,5 , deci:
n 1
 Fc Me1 250,5  125
Me  xinf Me  hMe  2  25  10   30,02 zile, adica jumatate dintre
nMe 250
debitorii restantieri au intarziat cel putin 30 de zile cu efectuarea platilor.
o Intervalul modal este intervalul 25-35 de zile deoarece are frecventa absoluta cea mai mare

250  n2  max nk , k  1,6 , atunci
1
Mo  xinf Mo  hMo  
1   2
250  125
 25  10   28,84 zile; numarul cel mai intalnit de zile de
250  125  250  50
intarziere a platilor celor 500 de debitori restantieri este de aproximativ 29 de zile.
o Relatia in care se gasesc cei trei indicatori ai tendintei centrale este Mo  Me  x , ceea ce indica o
asimetrie pozitiva.
6

 x  x   nk
2

o Dispersia in esantion este s x2 


x1  x 
2
 n1  ...  x6  x   n6
2
 k 1
k

69120
, deci
n1  ...  n6   1 500  1 500  1
s x2  138 ,5170 , iar abaterea standard s x  s x2  11,7693 zile, care arata cu cate zile se abat, in
medie, valorile observate ale seriei de date fata de numarul mediu de zile de intarziere.
sx 11,7693
o Coeficientul de variatie in esantion este v x  100  100  36,33%  35% , ceea ce arata
x 32,4
ca distributia nu este omogena si media, ca indicatot al tendintei centrale, nu este reprezentativa pentru
colectivitate.

d) Definim “evenimentul favorabil” ca evenimentul ca un debitor intarzie cu platile mai mult de 45 de zile.
Variabila alternativa care evidentiaza debitorii ce au intarziat mai mult de 45 de zile cu efectuarea platilor
 0 1
este Y :   ,
 n  m m 

27
unde Y  1 pentru unitatile statistice din esantion care verifica evenimentul favorabil, iar m este numarul
de unitati statistice din esantion pentru care se verifica evenimentul favorabil, m  n4  n5  n6  75
debitori,
iar Y  0 pentru unitatile statistice din esantion care nu verifica evenimentul favorabil, n  m este
numarul de unitati statistice din esantion pentru care nu se verifica evenimentul favorabil,
n  m  425 debitori.
m 75
Media variabilei alternative este f    0,15 , adica 15% dintre debitori au intarziat mai
n 500
mult de 45 de zile.
m  m
Dispersia variabilei alternative este s 2f   1    0,1275 , iar abaterea standard
n  n
m  m
sf   1    0,36 .
n  n

17. Un cercetător face un studiu asupra unor firme, privind şansele pe care acestea le oferă tinerilor
angajaţi de a promova repede şi de a avansa în carieră. Pentru aceasta el a cuprins în studiu un număr de 20
de companii producătoare de tehnologie de vârf şi a înregistrat timpul scurs de la angajarea iniţială a unui
salariat în firmă până la prima promovare a acestuia. Firmele au fost grupate după mărime, iar datele
înregistrate sunt:
Mărimea firmelor Număr de săptămâni de la angajare până la prima promovare
Mici 30; 26; 30; 32; 38; 24; 32; 28;
Medii 34; 32; 25; 36; 33
Mari 47; 41; 43; 48; 40; 49; 40.
Se cere:
a) să seprecizeze care este grupa de firme cu un grad mai ridicat de omogenitate;
b) sa se determine in ce proportie marimea companiei influenteaza variatia timpului pana la prima
promovare a unui salariat.

Rezolvare: a)
o Populatia statistica este multimea companiilor producatoare de tehnologie de varf.
o Unitatea statistica este o companie (firma).
o Caracteristicile urmarite sunt:
X - variabila ce arata marimea unei firme;
- variabila nenumerica avand r=3 categorii sau variante de raspuns: firme mici, firme mijlocii si
firme mari:
aceste categorii ale variabilei X vor determina impartirea populatiei statistice in r =3 grupe si
anume:
Grupa 1 (grupa firmelor mici),
Grupa 2 (grupa firmelor mijlocii),
Grupa 3 (grupa firmelor mari);
- astfel, variabila X, marimea firmei, se mai numeste si factor de grupare.
si
Y - variabila ce arata durata de timp, in saptamani, de la angajare la prima promovare a unui salariat al
unei firme producatoare de tehnologie de varf;
- variabila numerica de interes.

 Din Grupa 1 (grupa firmelor mici) se selecteaza un subesantion de volum n1  8 firme pentru care se
inregistreaza valorile variabilei Y:
{ y1, 1  30; y1, 2  26; y1, 3  30; y1, 4  32; y1, 5  38; y1, 6  24; y1, 7  32; y1, 8  y1, n1  28 }
saptamani.

28
n1

y1, 1  y1, 2  ...  y1, n1 y


j 1
1, j
240
Media de selectie de grupa este y1     30 saptamani,
n1 n1 8
dispersia de selectie de grupa este

   y  y1 
n1

y 
1, 1  y1    y1, 2  y1   ...  y1, n1  y1
2
2 2 2 1, j
j 1
s12   18,2857 ,
n1  1 n1  1
abaterea standard de selectie de grupa este s1  s1  18,2857  4,2762 saptamani,
2

s1 4,2762
iar coeficientul de variatie al acestei grupe este v1   100   100  14,25% .
y1 30
 Din Grupa 2 (grupa firmelor mijlocii) se selecteaza un subesantion de volum n2  5 firme pentru care
se inregistreaza valorile variabilei Y:
{ y2, 1  34, y2, 2  32, y2, 3  25, y2, 4  36, y2, 5  y2, n2  33} saptamani.
n2

y2, 1  y2, 2  ...  y2, n2 y j 1


2, j
160
Media de selectie de grupa este y2     32 saptamani,
n2 n2 5
dispersia de selectie de grupa este

   y  y2 
n2

y 
2, 1  y 2    y 2, 2  y 2   ...  y 2 , n2  y 2
2
2 2 2 2, j
j 1
s22   17,5 ,
n2  1 n2  1
abaterea standard de selectie de grupa este s2  s22  17 ,5  4,1833 saptamani,
s 4,1833
iar coeficientul de variatie al acestei grupe este v2  2  100   100  13,07% .
y2 32
 Din Grupa 3 (grupa firmelor mari) se selecteaza un subesantion de volum n3  7 firme pentru care se
inregistreaza valorile variabilei Y:
{ y3, 1  47; y3, 2  41; y3, 3  43; y3, 4  48; y3, 5  40; y3, 6  49; y3, 7  y3, n2  40 } saptamani.
n3

y3, 1  y3, 2  ...  y3, n3 y j 1


3, j
308
Media de selectie de grupa este y3     44 saptamani,
n3 n3 7
dispersia de selectie de grupa este

 y  y3 
n3

y 
 y3   y3, 2  y3   ...  y3, n3 y 
2
2 2 2 3, j
j 1
s32    15,3333 ,
3, 1 3

n3  1 n3  1
abaterea standard de selectie de grupa este s3  s32  15,3333  3,9158 saptamani,
s3 3,9158
iar coeficientul de variatie al acestei grupe este v3  100  100  8,89% .
y3 44
Cum coeficientii de variatie pentru cele trei grupe sunt mai mici ca 30%-35%, atunci toate grupele
sunt omogene. Grupa 3 (grupa firmelor mari) este mai omogena in privinta duratei de timp de la angajare la
prima promovare a unui salariat deoarece are cel mai mic coeficient de variatie v3  v2  v1 .

b)

29
o Media totala la nivelul intregului esantion de volum n  n1  n2  n3  20 firme este
y1  n1  y 2  n2  y3  n3 30  8  32  5  44  7
y 
n1  n2  n3 20
 y  35,4 saptamani.
o Pe baza datelor de selectie calculam:
 Variatia dintre grupe (Sum of Squares Between Groups)
SSB   y1  y 2  n1   y 2  y 2  n2   y3  y 2  n3 
 30  35,42  8  32  35,42  5  44  35,42  7
 SSB  808,8
 Variatia din interiorul grupelor (Sum of Squares Within Groups)
SSW  n1  1  s12  n2  1  s22  n3  1  s32 
 8  1 18,2857  5  1 17,5  7  1 15,3333
 SSW  290
 Variatia totala
SST  SSB  SSW
 808,8  290
 SST  1098,8
 Coeficientul de determinatie este
SSB 404,4
R2    0,368
SST 1098,8
SSB 404,4
sau, exprimat procentual, R%2  100  100  36,8% arata ca factorul de grupare,
SST 1098,8
tipul companiei, explica variatia totala a duratei de timp pana la prima promovare in proportie de
36,8%, restul de 63,2% din variatia totala a timpului se datoreaza altor factori care nu au fost
considerati de cercetator.
o Dispersia de selectie la nivelul intregului esantion de volum n  20 de firme este
Variatia totala la nivelul intregului esantion SST 1098,8
s y2     57,8315
n 1 n  1 20  1

cu o abatere standard s y  s y2  57,8315  7,6047 saptamani,

sy 7,6047
iar coeficientul de variatie este v y  100  100  21,48% .
y 35,4

30

S-ar putea să vă placă și