Sunteți pe pagina 1din 10

NUME PRENUME GRUPA

EXAMEN LA DISCIPLINA BAZELE STATISTICII (1 PO)

Subiectul 1
Următoarele valori reprezintă producția zilnică (bucăti) realizata de către 28 de angajați direct productivi
ai unei firme:
163 188 179 192 186 187 183 178 140 167 168 176 146 181
177 184 176 170 176 177 175 198 181 182 181 187 178 170
Se cere:
a) Folosind indicatorii statistici descriptivi (indicatorii tendintei centrale, ai variabilitatii și ai formei
distribuției), să se analizeze distribuția angajatilor în funcție de producția zilnică realizată. (1,5 p)
b) Construiți diagrama Box-Plot și identificați daca seria conține valori de tip outlier. Precizati care sunt
indicatorii utilizati in construirea diagramei Box-Plot si interpretati valorile lor. (1,5 p)
c) Pentru seria considerată calculați scorurile Z. Prezentati Regula empirică a lui Cebâşev si verificați
aceasta regula pentru variabila setul de date considerat. (1 p)
Recomandare: Utilizati EXCEL pentru rezolvarea problemei

Rezolvare

a) Folosind indicatorii statistici descriptivi (indicatorii tendintei centrale, ai variabilitatii și ai formei


distribuției), să se analizeze distribuția angajatilor în funcție de producția zilnică realizată.
productia (buc.)

Mean 176,64
Standard Error 2,31
Median 178
Mode 176
Standard Deviation 12,23
Sample Variance 149,65
Kurtosis 2,95
Skewness -1,39
Range 58
Minimum 140
Maximum 198
Sum 4946
Count 28
coef de variatie 6,93%

1
NUME PRENUME GRUPA

Indicatorii tendintei centrale


Un ungajat din esantionul considerat realizează, pn medie, o productie de 177 buc. (176,64 buc.),
cei mai multi angajati realizează 176 buc, jumatate dintre angajați realizand o productie mai mare de 178
buc.

Indicatorii variabilitatii
Productia realizata de angajatii din esantion se abate, in medie, cu aproximativ 12 buc. de la
valoarea medie inregistrata. Seria de date este omogenă, media este reprezentativa intrucat coef. de
variatie este aprox 7% (mai maica de 30%).
Standard Deviation 12,23
s=A/4 14,5

Indicatorii formei distributiei


Kurtosis 2,95
Skewness -1,39

Skewness (coeficientul de asimetrie) = - 1,39 arată o asimetrie negativă (predomina valorile mari ale
productiei), în limite acceptabile.

Skewness cuprins intre -1 si 1 arata un grad de asimetrie redus, foarte bun.


Skewness cuprins intre -2 și -1, respectiv 1 si 2 arata un grad de asimetrie acceptabil.
Skewness mac mic decat -2 si mai mare decat 2 arata un o distributie profund asimetrica, se impune
transformarea datelor.
Skewness pozitiv, distributie cu asimetrie pozitiva, predomina valorile mici ale variabilei.
Skewness negativ, distributie cu asimetrie negativă, predomina valorile mari ale variabilei.
Skewness =0, distributie simetrică, distributia normala.

Kurtosis (coeficientul de boltire/aplatizare) = 2,95 (valoare pozitiva) arata o distributie ascutita


(leptocurtica), valoarea mai mare decat 2 aratand ca este boltirea distributiei este ridicata.

Kurtosis cuprins intre -1 si 1 arata un grad de boltire/aplatizare redus, foarte bun.


Kurtosis cuprins intre -2 și -1, respectiv 1 si 2 arata un grad de boltire/aplatizare acceptabil.
Kurtosis mac mic decat -2 si mai mare decat 2 arata un de boltire/aplatizare ridicat.
Kurtosis pozitiv, distributie leptokurtică, ascutita.
Kurtosis negativ, distributie platikurtică, aplatizat.
Kurtosis=0, distributie mezokurtică, distributia normala.

b) Construiți diagrama Box-Plot și identificați daca seria conține valori de tip outlier. Precizati care
sunt indicatorii utilizati in construirea diagramei Box-Plot si interpretati valorile lor.

2
NUME PRENUME GRUPA

Q1 = 171 buc (25% dintre angajati realizeaza o productie mai mica de 171 buc)
Q2=Me=178 buc
Q3 = 184 buc (25% dintre angajati realizeaza o productie mai mare de 184 buc)
(50% dintre angajati realizeaza o productie cuprinsa intre 171 și 184 buc)
IQR (abaterea interquartilica) = 184 -171 = 13
Xmin ≥ Q1-1,5*IQR = 163
Xmax ≤Q3+1,5*IQR = 198
Valori outlier = orice valoare care nu apartine intervalului [Q1-1,5*IQR; Q3+1,5*IQR]
Valori outlier: 146 si 140

c) Pentru seria considerată calculați scorurile Z. Prezentati Regula empirică a lui Cebâşev
si verificați aceasta regula pentru variabila setul de date considerat.

Regula empirică a lui Cebâşev (pentru scoruri Z)


• aproximativ 68% dintre observaţii înregistrează pentru scorurile z valori cuprinse între -1 şi 1.
• aproximativ 95% dintre observaţii înregistrează pentru scorurile z valori cuprinse între -2 şi 2.
• aproximativ 99,8% dintre observaţii înregistrează pentru scorurile z valori cuprinse între -3 şi 3.

3
NUME PRENUME GRUPA

Interval Nr valori
Sub -3 0
-3; -2 2
-2; -1 1
-1; 1 23
1; 2 2
2; 3 0
Peste 3 0

In intervalul -1, 1 avem 82% dintre valori (23)


In intervalul -2, 2 avem 96,4% dintre valori (27)
In intervalul -3, 3 avem 100% dintre valori (28)

Nu se verifica Regula empirică a lui Cebâşev, procentul ridicat de valori din intervalul -1 și 1 confirmând
excesul (boltirea) distributiei.

Subiectul 2

1. Următoarele date reprezinta vechimea in muncă (ani), inregistrata de specialiștii IT cu studii superioare,
în trei departamente ale unei companii:
Departament A Departament B Departament C
5 6 9
5 5 9
6 7 10
4 7 11
3 7 12
5 8 11
6 6 12
8 5 10
5 8 11
7 12
8
a) să se determine vechimea medie in munca a specialistilor IT din fiecare department si sa se verifice daca
sunt valori reprezentative; (1 p)
b) să se determine vechimea medie in munca a specialistilor IT din companie și să se verifice daca este o
valoare reprezentativa; (0,5p)
c) În ce măsură politica in domeniul resurselor umane din fiecare departament influențează variabilitatea
vechimii angajaților? Prezentati regula de compunere a variabilitatii totale. (1,5p)

4
NUME PRENUME GRUPA

Rezolvare

a) să se determine vechimea medie in munca a specialistilor IT din fiecare department si sa se verifice


daca sunt valori reprezentative;
Departament A Departament B Departament C

Mean 5,222222 Mean 6,727273 Mean 10,7


Standard Error 0,464811 Standard Error 0,332782 Standard Error 0,366667
Median 5 Median 7 Median 11
Mode 5 Mode 7 Mode 11
Standard Standard
Standard Deviation 1,394433 Deviation 1,103713 Deviation 1,159502
Sample Variance 1,944444 Sample Variance 1,218182 Sample Variance 1,344444
Kurtosis 1,58484 Kurtosis -0,923 Kurtosis -1,22679
Skewness 0,564928 Skewness -0,43724 Skewness -0,34212
Range 5 Range 3 Range 3
Minimum 3 Minimum 5 Minimum 9
Maximum 8 Maximum 8 Maximum 12
Sum 47 Sum 74 Sum 107
Count 9 Count 11 Count 10
Coef de variatie 26,7% Coef de variatie 16,4% Coef de variatie 10,8%

a) să se determine vechimea medie in munca a specialistilor IT din fiecare department si sa se


verifice daca sunt valori reprezentative;
➢ Vechimea medie a angajatilor din Departamentul A este de aproximativ 5 ani, iar valoarea este
reprezentativa deoarece datele sunt omogene, coef. de variatie fiind de 26,7%.
➢ Vechimea medie a angajatilor din Departamentul B este de aproximativ 7 ani, iar valoarea este
reprezentativa deoarece datele sunt omogene, coef. de variatie fiind de 16,4%.
➢ Vechimea medie a angajatilor din Departamentul C este de aproximativ 11 ani, iar valoarea este
reprezentativa deoarece datele sunt omogene, coef. de variatie fiind de 10,8%.

b) să se determine vechimea medie in munca a specialistilor IT din companie și să se verifice


daca este o valoare reprezentativa;

medie pe total 7,6


abatere standard pe total 2,59
Coef de variatie pe total 34%

Vechimea medie a angajatilor din companie este de aproximativ 7 ani și jumatate, iar valoarea are un
grad de reprezentativitate redus deoarece coef. de variatie este 34% (mai mare de 30%).

5
NUME PRENUME GRUPA

c) În ce măsură politica in domeniul resurselor umane din fiecare departament influențează


variabilitatea vechimii angajaților?

Se determina coeficientul de determinatie care arata in ce proportie factorul de grupare


(departamentul, considerat factor essential de influenta) influentează variabilitatea vechimii
angajatilor.

SSB
R2 =  100 ,
SST

SST = SSW + SSB

𝑚
SSW= 𝑖=1 𝑠𝑖2 ⋅ 𝑛𝑖 − 1

𝑚 2
SSB = 𝑖=1 𝑥𝑖 − 𝑥 × 𝑛𝑖

➢ SST masoara variabilitatea totala a vechimii angajatilor, determinată de influenta


factorului considerat esential in analiza (factorul de grupare- departamentul cu
politica de personal aferenta), precum si a factorilor neesentiali ce actioneaza la
nivelul fiecarei grupe.
➢ SSB masoara variabilitatea dintre grupe ,determinată de influenta factorului
considerat esential in analiza (factorul de grupare- departamentul cu politica de
personal aferenta
➢ SSW masoara variabilitatea din interiorul grupelor determinată de influenta
factorilor neesentiali ce actioneaza la nivelul fiecarei grupe.

SSB 155,3626
SSW 39,83737
SST 195,2
R^2 79,59%

Politica in domeniul resurselor umane din fiecare departament influențează variabilitatea


vechimii angajaților in proportie de 79,6%, fiind un factor esential de influenta.

6
NUME PRENUME GRUPA

Subiectul 3

Pentru 14 persoane de sex masculin, din aceeasi grupă de vârstă și cu înălțimi aproximativ egale, s-au
inregistrat date privind indicele de masă corporală (IMC/BMI, kg/mp) și valoarea colesterolului seric total
(mg/dl):

Colesterol
(mg/dl) 210 201 189 245 220 206 198 187 175 239 205 220 215 180 213 260
BMI
(kg/mp) 21,6 25,3 20,1 34 26,5 24,4 29,3 27,5 22,5 38 29 34 28 21 27 37

a. Analizați grafic existența, forma și sensul legăturii dintre cele două variabile. (0.5 p)
b. Descrieți metodele de analiză/indicatorii ce pot fi utilizați pentru caracterizarea legaturii dintre
cele două variabile. Alegeti metoda adecvata acestui set de date si argumentati alegerea (1p)
c. Caracterizati intensitatea legăturii folosind indicatorul ales la punctul b) (0.5 p)
Recomandare: Utilizati EXCEL pentru rezolvarea problemei.

Rezolvare

a) Analizați grafic existența, forma și sensul legăturii dintre cele două variabile.

corelograma
270
Colesterol (mg/dl)

250
230
210
190
170
150
15 20 25 30 35 40
BMI (kg/mp)

Intre cele 2 variabile exista legatura directa liniara.

b) Descrieți metodele de analiză/indicatorii ce pot fi utilizați pentru caracterizarea legaturii dintre


cele două variabile. Alegeti metoda adecvata acestui set de date si argumentati alegerea

7
NUME PRENUME GRUPA

A. CORELAȚIA PARAMETRICĂ

➢ COEFICIENTUL DE CORELAȚIE LINIARĂ PEARSON este un indicator al corelației utilizat pentru a


măsura intensitate și sensul dintre două variabile numerice, cu distribuție normală, între care
există o legătură liniară.
➢ Coeficientul de corelație liniară Pearson se obține prin standardizarea covarianței, adică prin
raportarea acesteia la produsul abaterilor standard ale celor două variabile:
𝑛
𝑐𝑜𝑣 𝑥, 𝑦 𝑠𝑥𝑦 𝑖=1 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦
𝑟𝑥𝑦 = = = ∈ [−1, 1]
𝑠𝑥 ⋅ 𝑠𝑦 𝑠𝑥 ⋅ 𝑠𝑦 𝑛 2 𝑛 2
√[ 𝑖=1 𝑥𝑖 − 𝑥 ][ 𝑖=1 𝑦𝑖 − 𝑦 ]
➢ Semnul coeficientului indică direcția legăturii, iar valoarea lui indică intensitatea legăturii. Prin
transformări elementare se obține o formulă de calcul mai rapid:
𝑛 𝑛𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑛𝑖=1 𝑥𝑖 𝑛𝑖=1 𝑦𝑖
𝑟𝑥𝑦 =
2 2
√[𝑛 𝑛𝑖=1 𝑥𝑖2 − ( 𝑛𝑖=1 𝑥𝑖 ) ] [𝑛 𝑛𝑖=1 𝑦𝑖2 − ( 𝑛𝑖=1 𝑦𝑖 ) ]

➢ Determinarea coeficientului de corelație liniară Pearson se poate realiza folosind EXCEL, funcția
CORREL (ARRAY 1, ARRAY 2).

B. CORELAȚIA NEPARAMETRICĂ

CORELATIA RANGURILOR
În cazul variabilelor:
• care nu au o distribuție gaussiană/normală
• pentru care nu se poate preciza tipul distribuției, volumul eșantionului fiind redus
• intre care exista legatura liniară sau neliniară
• nenumerice, măsurate pe scala ordinală și care nu au un număr mare de valori egale intre ele, putem
folosi COEFICIENTUL DE CORELAȚIE A RANGURILOR SPEARMAN (rs)
• nenumerice, măsurate pe scala ordinală, ale căror ranguri egale depășește 25% din numărul lor este
indicată folosirea COEFICIENTUL DE CORELAȚIE A RANGURILOR KENDALL (rk)
• cei doi coeficienți fac parte din categoria metodelor neparametrice (libere de distribuție)

Rangurile reprezintă numere de ordine acordate unităților statistice, în funcție de valoarea


înregistrată pentru fiecare variabilă în parte. Aceste ranguri permit ordonarea unităților statistice în
funcție de criteriile studiate.
Rangurile sunt de la 1 (unitatea cu performanța cea mai scăzută ori cu valoarea cea mai mică a
variabilei), până la n (unitatea cu performanța cea mai ridicată ori cu valoarea cea mai mare a variabilei).
Dacă mai multe unități statistice au aceeași variantă/valoare a unei variabile, atunci se acordă media
rangurilor succesive.
Pentru determinarea rangurilor se poate utiliza funcția RANK.AVG din Excel.

8
NUME PRENUME GRUPA

1.1 COEFICIENTUL DE CORELAȚIE A RANGURILOR SPEARMAN (𝑟𝑠 ) se determină cu formula:


6 𝑑𝑖2
𝑟𝑠 = 1 − 2
𝑛 𝑛 −1
unde 𝑑𝑖 = 𝑟𝑥𝑖 − 𝑟𝑦𝑖 reprezintă diferența dintre rangurile perechi acordate aceleiași unități statistice.
o coeficientul ia valori cuprinse în intervalul [-1, 1];
o valorile apropiate de ±1 indică o corelație puternică între variabile, iar valori apropiate de
zero indică o corelație slabă între variabile.
Coeficientul de corelație a rangurilor Spearman se bazează pe analiza concordanței rangurilor acordate pentru
fiecare din cele n unități statistice, după variabila X și după variabila Y.
Dacă există o legătură directă perfectă, atunci fiecărui rang i, 𝑖 = 1, 𝑛 după variabila X îi va corespunde același
rang i, după variabila Y și diferența din rangurile acordate aceleiași unități statistice va fi nulă: 𝑑𝑖 = 𝑟𝑥𝑖 − 𝑟𝑦𝑖 =
0
Dacă legătura nu este perfectă, rangurile nu sunt identice și, atunci 𝑑𝑖 = 𝑟𝑥𝑖 − 𝑟𝑦𝑖 ≠ 0.

2.2 COEFICIENTUL DE CORELAȚIE A RANGURILOR KENDALL ( rk ) se determină cu formula:


2𝑆
𝑟𝑘 = ,
𝑛 𝑛−1
𝑛 𝑛
unde 𝑆 = 𝑃 − 𝑄, 𝑃 = 𝑖=1 𝑝𝑖
, 𝑄= 𝑖=1 𝑞𝑖
Acest indicator se utilizează în cazul în care se presupune o relație de tip cauză-efect între două
variabile. Se notează cu Y variabila efect și cu X variabila cauză.
Mărimile p i și q i se determină pe baza rangurilor acordate unităților statistice în funcție de valorile
variabilei Y (𝑟𝑦𝑖 ), valori dispuse corespunzător ordonării crescătoare a unităților statistice în funcție de
valorile variabilei X (𝑟𝑥𝑖 )
p i reprezintă numărul rangurilor superioare fiecărui rang 𝑟𝑦𝑖 , de la el în jos;
q i reprezintă numărul rangurilor inferioare fiecărui rang 𝑟𝑦𝑖 , de la el în jos.
Acest indicator ia valori cuprinse în intervalul [-1, 1], iar interpretarea acestora este similară cu cea a
valorilor coeficientului de corelație a rangurilor Spearman.
Pentru determinarea acestui coeficient se ordonează crescător unitățile statistice după rangurile acordate
variabilei X și se înscriu, în paralel, rangurile acordate după variabila Y.
Dacă legătura este perfectă și directă, atunci și rangurile acordate după variabila Y sunt ordonate crescător
și:
𝑛−1
𝑛 𝑛−1
𝑃 = ∑𝑖 = , 𝑄 = 0,deci 𝑟𝑘 = 1
2
𝑖=1
𝑛 𝑛−1
Dacă legătura este perfectă și inversă, atunci 𝑃 = 0, 𝑄 = și 𝑟𝑘 = −1.
2
Pentru același set de date coeficientul de corelație a rangurilor Kendall are o valoare mai mică decât
coeficientul de corelație a rangurilor Spearman și, pentru un număr mare de unități statistice (n) avem
2
relația 𝑟𝑘 ≅ 𝑟𝑠 .
3

9
NUME PRENUME GRUPA

Pentru datele problemei 3 poate fi utilizat COEFICIENTUL DE CORELAȚIE LINIARĂ PEARSON deoarece
măsuram intensitate și sensul legăturii dintre două variabile numerice între care există o legătură
liniară, doar in ipoteza distribuției normale a celor 2 variabile in populatia statistica din care a fost
extras esantionul.

Un indicator adecvat masurarii intensitatii legaturii dintre cele 2 variabile (IMC și colesterol) este
COEFICIENTUL DE CORELAȚIE A RANGURILOR SPEARMAN (𝑟𝑠 ), deoarece avem 2 variabile numerice,
pentru care nu se poate preciza tipul distribuției, volumul eșantionului fiind redus, intre care exista
legatura liniară .

c) Caracterizati intensitatea legăturii folosind indicatorul ales la punctul b) (0.5 p)


COEFICIENTUL DE CORELAȚIE LINIARĂ PEARSON
𝑟𝑥𝑦 =0,81953 (legatură directa si puternica)

COEFICIENTUL DE CORELAȚIE A RANGURILOR SPEARMAN (𝑟𝑠 )

BMI (kg/mp) Colesterol (mg/dl) Rx Ry di di^2


21,6 210 3 9 -6 36
25,3 201 6 6 0 0
20,1 189 1 4 -3 9
34 245 13,5 15 -1,5 2,25
26,5 220 7 12,5 -5,5 30,25
24,4 206 5 8 -3 9
29,3 198 12 5 7 49
27,5 187 9 3 6 36
22,5 175 4 1 3 9
38 239 16 14 2 4
29 205 11 7 4 16
34 220 13,5 12,5 1 1
28 215 10 11 -1 1
21 180 2 2 0 0
27 213 8 10 -2 4
37 260 15 16 -1 1
207,5
n = 16
6 𝑑𝑖2 6∗207,5
𝑟𝑠 = 1 − = 1− = 0,694853 (legatură directa si puternica)
𝑛 𝑛2 −1 16 162 −1

10

S-ar putea să vă placă și