Documente Academic
Documente Profesional
Documente Cultură
Subiectul 1
Următoarele valori reprezintă producția zilnică (bucăti) realizata de către 28 de angajați direct productivi
ai unei firme:
163 188 179 192 186 187 183 178 140 167 168 176 146 181
177 184 176 170 176 177 175 198 181 182 181 187 178 170
Se cere:
a) Folosind indicatorii statistici descriptivi (indicatorii tendintei centrale, ai variabilitatii și ai formei
distribuției), să se analizeze distribuția angajatilor în funcție de producția zilnică realizată. (1,5 p)
b) Construiți diagrama Box-Plot și identificați daca seria conține valori de tip outlier. Precizati care sunt
indicatorii utilizati in construirea diagramei Box-Plot si interpretati valorile lor. (1,5 p)
c) Pentru seria considerată calculați scorurile Z. Prezentati Regula empirică a lui Cebâşev si verificați
aceasta regula pentru variabila setul de date considerat. (1 p)
Recomandare: Utilizati EXCEL pentru rezolvarea problemei
Rezolvare
Mean 176,64
Standard Error 2,31
Median 178
Mode 176
Standard Deviation 12,23
Sample Variance 149,65
Kurtosis 2,95
Skewness -1,39
Range 58
Minimum 140
Maximum 198
Sum 4946
Count 28
coef de variatie 6,93%
1
NUME PRENUME GRUPA
Indicatorii variabilitatii
Productia realizata de angajatii din esantion se abate, in medie, cu aproximativ 12 buc. de la
valoarea medie inregistrata. Seria de date este omogenă, media este reprezentativa intrucat coef. de
variatie este aprox 7% (mai maica de 30%).
Standard Deviation 12,23
s=A/4 14,5
Skewness (coeficientul de asimetrie) = - 1,39 arată o asimetrie negativă (predomina valorile mari ale
productiei), în limite acceptabile.
b) Construiți diagrama Box-Plot și identificați daca seria conține valori de tip outlier. Precizati care
sunt indicatorii utilizati in construirea diagramei Box-Plot si interpretati valorile lor.
2
NUME PRENUME GRUPA
Q1 = 171 buc (25% dintre angajati realizeaza o productie mai mica de 171 buc)
Q2=Me=178 buc
Q3 = 184 buc (25% dintre angajati realizeaza o productie mai mare de 184 buc)
(50% dintre angajati realizeaza o productie cuprinsa intre 171 și 184 buc)
IQR (abaterea interquartilica) = 184 -171 = 13
Xmin ≥ Q1-1,5*IQR = 163
Xmax ≤Q3+1,5*IQR = 198
Valori outlier = orice valoare care nu apartine intervalului [Q1-1,5*IQR; Q3+1,5*IQR]
Valori outlier: 146 si 140
c) Pentru seria considerată calculați scorurile Z. Prezentati Regula empirică a lui Cebâşev
si verificați aceasta regula pentru variabila setul de date considerat.
3
NUME PRENUME GRUPA
Interval Nr valori
Sub -3 0
-3; -2 2
-2; -1 1
-1; 1 23
1; 2 2
2; 3 0
Peste 3 0
Nu se verifica Regula empirică a lui Cebâşev, procentul ridicat de valori din intervalul -1 și 1 confirmând
excesul (boltirea) distributiei.
Subiectul 2
1. Următoarele date reprezinta vechimea in muncă (ani), inregistrata de specialiștii IT cu studii superioare,
în trei departamente ale unei companii:
Departament A Departament B Departament C
5 6 9
5 5 9
6 7 10
4 7 11
3 7 12
5 8 11
6 6 12
8 5 10
5 8 11
7 12
8
a) să se determine vechimea medie in munca a specialistilor IT din fiecare department si sa se verifice daca
sunt valori reprezentative; (1 p)
b) să se determine vechimea medie in munca a specialistilor IT din companie și să se verifice daca este o
valoare reprezentativa; (0,5p)
c) În ce măsură politica in domeniul resurselor umane din fiecare departament influențează variabilitatea
vechimii angajaților? Prezentati regula de compunere a variabilitatii totale. (1,5p)
4
NUME PRENUME GRUPA
Rezolvare
Vechimea medie a angajatilor din companie este de aproximativ 7 ani și jumatate, iar valoarea are un
grad de reprezentativitate redus deoarece coef. de variatie este 34% (mai mare de 30%).
5
NUME PRENUME GRUPA
SSB
R2 = 100 ,
SST
𝑚
SSW= 𝑖=1 𝑠𝑖2 ⋅ 𝑛𝑖 − 1
𝑚 2
SSB = 𝑖=1 𝑥𝑖 − 𝑥 × 𝑛𝑖
SSB 155,3626
SSW 39,83737
SST 195,2
R^2 79,59%
6
NUME PRENUME GRUPA
Subiectul 3
Pentru 14 persoane de sex masculin, din aceeasi grupă de vârstă și cu înălțimi aproximativ egale, s-au
inregistrat date privind indicele de masă corporală (IMC/BMI, kg/mp) și valoarea colesterolului seric total
(mg/dl):
Colesterol
(mg/dl) 210 201 189 245 220 206 198 187 175 239 205 220 215 180 213 260
BMI
(kg/mp) 21,6 25,3 20,1 34 26,5 24,4 29,3 27,5 22,5 38 29 34 28 21 27 37
a. Analizați grafic existența, forma și sensul legăturii dintre cele două variabile. (0.5 p)
b. Descrieți metodele de analiză/indicatorii ce pot fi utilizați pentru caracterizarea legaturii dintre
cele două variabile. Alegeti metoda adecvata acestui set de date si argumentati alegerea (1p)
c. Caracterizati intensitatea legăturii folosind indicatorul ales la punctul b) (0.5 p)
Recomandare: Utilizati EXCEL pentru rezolvarea problemei.
Rezolvare
a) Analizați grafic existența, forma și sensul legăturii dintre cele două variabile.
corelograma
270
Colesterol (mg/dl)
250
230
210
190
170
150
15 20 25 30 35 40
BMI (kg/mp)
7
NUME PRENUME GRUPA
A. CORELAȚIA PARAMETRICĂ
➢ Determinarea coeficientului de corelație liniară Pearson se poate realiza folosind EXCEL, funcția
CORREL (ARRAY 1, ARRAY 2).
B. CORELAȚIA NEPARAMETRICĂ
CORELATIA RANGURILOR
În cazul variabilelor:
• care nu au o distribuție gaussiană/normală
• pentru care nu se poate preciza tipul distribuției, volumul eșantionului fiind redus
• intre care exista legatura liniară sau neliniară
• nenumerice, măsurate pe scala ordinală și care nu au un număr mare de valori egale intre ele, putem
folosi COEFICIENTUL DE CORELAȚIE A RANGURILOR SPEARMAN (rs)
• nenumerice, măsurate pe scala ordinală, ale căror ranguri egale depășește 25% din numărul lor este
indicată folosirea COEFICIENTUL DE CORELAȚIE A RANGURILOR KENDALL (rk)
• cei doi coeficienți fac parte din categoria metodelor neparametrice (libere de distribuție)
8
NUME PRENUME GRUPA
9
NUME PRENUME GRUPA
Pentru datele problemei 3 poate fi utilizat COEFICIENTUL DE CORELAȚIE LINIARĂ PEARSON deoarece
măsuram intensitate și sensul legăturii dintre două variabile numerice între care există o legătură
liniară, doar in ipoteza distribuției normale a celor 2 variabile in populatia statistica din care a fost
extras esantionul.
Un indicator adecvat masurarii intensitatii legaturii dintre cele 2 variabile (IMC și colesterol) este
COEFICIENTUL DE CORELAȚIE A RANGURILOR SPEARMAN (𝑟𝑠 ), deoarece avem 2 variabile numerice,
pentru care nu se poate preciza tipul distribuției, volumul eșantionului fiind redus, intre care exista
legatura liniară .
10