Sunteți pe pagina 1din 13

STATISTICA - PROBLEME REZOLVATE

Aplicatia 1

Numarul angajatilor in regim part-time, pentru 9 firme, selectate aleator, se prezinta astfel:

4 10 12 9 16 18 18 22 8

a. Identificati populatia statistica, esantionul, unitatea si variabila statistica. Aratati tipul variabilei
si scala de masurare.
b. Determinati numarul mediu, median si modal de angajati in regim “part-time” si interpretati
valorile obtinute.
c. Analizati omogenitatea seriei.
d. Determinati si interpretati cuartilele seriei.
e. Verificati prezenta valorilor extreme in serie (outiliers)
f. Analizati asimetria si boltirea/aplatizarea setului de date.
g. Calculati media si dispersia unei variabile alternative, a carei stare favorabila este data de firmele
care au angajat cel putin 16 persoane in regim part-time.
h. Completati urmatorul tabel “Descriptive Statistics”.

Numar angajati part-time

Mean …
Median …
Mode …
Standard Deviation …
Sample Variance …
Kurtosis -0,95
Skewness -0,65
Range …
Minimum …
Maximum …
Sum …
Count …

Rezolvare:

a. populatia totala: totalitatea firmelor.


esantionul: cele 9 firme selectate
unitatea statistica: o firma
variabila: numarul angajatilor in regim part-time.
Este o variabila atributiva, numerica, non-alternativa, discontinua.

1
Scala de masurare: scala de raport.

b. Se noteaza:
X – variabila (nr. angajati in regim part-time)
n = 9 volumul esantionului
n<=30 esantion de volum mic
xi , sunt valorile variabilei
Se cere determinarea mediei, medianei si modului.

Media aritmetica simpla (folosita in cazul datelor negrupate):

Interpretare: In medie, o firma a angajat 13 persoane in regim part-time.

Mediana:

Se parcurg urmatorii pasi:

1. Se ordoneaza crescator termenii seriei:

4 8 9 10 12 16 18 18 22

2. Se determina locul medianei in serie:

3. Se determina mediana, ca fiind al 5-lea termen din seria ordonata: Me=12 angajati
Interpretare:

50% dintre firmele din esantion au angajat mai putin de 12 persoane in regim part-time si 50% - mai mult.

Modul:

Valoarea care se repeta cel mai des (sau valoarea cu frecventa maxima de aparitie) este 18. Asadar,
Mo=18 angajati.

Interpretare: cele mai multe firme au angajat 18 persoane in regim part-time.

c. Omogenitatea seriei de analizeaza cu ajutorul coeficientului de variatie. Astfel, o serie este


omogena daca valoarea coeficientului este mai mica decat 35%
Coeficientul de variatie se determina cu formula:

Pentru aceasta, intai determinam dispersia (s2), apoi abaterea standard (s):

2
S-a lucrat pe seria ordonata.

angajati

> 35%, rezultand ca seria nu este omogena, iar media nu este reprezentativa.

d. Cuartilele seriei sunt valori care impart seria ordonata in 4 parti egale. Exista 3 cuartile: Q1, Q2
(=Me) si Q3.
Se urmeaza aceiasi pasi ca si la determinarea medianei.
Dupa ce s-a ordonat seria, se determina locul primei cuartile:

Q1 este egala cu media aritmetica a celui de-al doilea si a celui de-al treilea termen al seriei
ordonate.

Interpretare: 25% dintre firme au angajat mai putin de 8,5 ~9 persoane in regim part-time, iar
75% dintre firme au angajat mai mult de 9 persoane in regim part-time.
Q2 = Me = 12 angajati.
Se determina locul cuartilei 3:

Q3 este egala cu media aritmetica a celui de-al saptelea si a celui de-al optulea termen al seriei
ordonate.
angajati
Interpretare: 75% dintre firme au angajat mai putin de 18 persoane in regim part-time, iar 25%
dintre firme au angajat mai mult de 18 persoane in regim part-time.

e. Sunt considerate valori extreme (outliers) valorile care indeplinesc una din conditiile:
xi  Q1  1,5  IQR sau xi  Q3  1,5  IQR
IQR = Q3 – Q1 = 18-8,5=9,5, unde IQR este abaterea intercuartilica.
Q1-1,5 x IQR = 8,5 – 1,5 x 9,5 = -5,75
Q3+1,5 x IQR = 18 + 1,5 x 9,5 = 32,25
Cum nu exista in serie nici o valoare mai mica decat -5,75 sau mai mare decat 32,25,
concluzionam ca nu exista valori extreme (de tip “outlier”) in serie.

f. Asimetria se analizeaza cu ajutorul coeficientului de asimetrie Pearson sau Fisher.


Coeficientul de asimetrie Pearson este dat de relatia:

Cas<0 exista o asimetrie negativa, in serie predomina valorile mari.


Cum Cas ~ -1 exista o asimetrie puternica

3
Sau se poate folosi coeficientul de asimetrie Fisher, a carui valoare este afisata in tabelul
Descriptive Statistics: Skewness=-0,65<0 exista o asimetrie negativa, in serie predomina valorile
mari
Cum exista o asimetrie medie
Boltirea/aplatizarea se analizeaza cu ajutorul coeficientului de boltire/aplatizare, a carui valoare
este afisata in tabelul Descriptive Statistics: kurtosis = k = -0,95<0, ceea ce inseamna ca
distributia firmelor dupa numarul angajatilor in regim part-time este mai aplatizata decat
distributia normala, iar valorile sunt mai putin concentrate in jurul mediei decat in distributia
normala.

g. Se construieste urmatoarea variabila alternativa:


- stare favorabila: firmele cu cel putin 16 angajati in regim part-time
- stare nefavorabila: firmele cu mai mult de 16 angajati in regim part-time

Se determina numarul firmelor din esantion care indeplinesc conditia de a avea cel putin 16 angajati in
regim part-time. Se noteaza cu m acest numar

m=4 (sunt patru valori cel putin egale cu 16: 16, 18, 18, 22)

Media variabilei alternative este data de:

Dispersia variabilei alternative este data de:

h. Se completeaza urmatorul tabel Descriptive Statistics cu valorile indicatorilor calculati anterior.

Tabelul Descriptive Statistics Notatii indicatori


Variabila: Numar angajati part-time
Mean 13
Standard Error
1,943651
Median 12 Me
Mode 18 Mo
Standard Deviation 5,830952 s
Sample Variance 34 s2
Kurtosis -0,95 k
Skewness -0,65 sk
Range 18 A= Xmax - xmin
Minimum 4 xmin
Maximum 22 Xmax
Sum 117 Σxi
Count 9 n

4
Aplicatia 2

Pentru 150 de clienti ai unui magazine de produse cosmetice se cunosc sumele alocate lunar pentru
achizitionarea unui produs (unitati monetare u.m.):

Sume alocate (u.m.) 40 50 60 70 80 90


Numar de clienti 8 12 24 60 30 16

a) Reprezentati grafic datele si analizati grafic forma distributiei clientilor dupa sumele alocate.
b) Determinati frecventele relative si frecventele relative cumulate crescator, interpretati a treia
valoare.
c) Determinati suma medie alocata lunar de un client pentru achzitionarea produsului si aratati daca
este reprezentativa.
d) Completati urmatoarele afirmatii:
- Jumatate dintre clientii din esantion au alocat mai putin de …….. u.m. pentru achizitionarea
produsului.
- Cei mai multi client au alocat ……. u.m. pentru achizitionarea produsului.
e) Analizati asimetria distributiei folosind un indicator adevat.
f) Determinat media si dispersia unei variabile altenative, pentru care starea favorabila este data de
clientii care au alocat cel mult 60 de u.m. pentru achizitionarea produsului.

Rezolvare:

X = variabila = sumele alocate

n=150 volumul esantionului

n>150 esantion de volum mare

r=6 (numarul grupelor)

xi , sunt valorile variabilei (valori distincte)

a) Poligonul frecventelor

Distributia clientilor dupa sumele alocate


70
60
50
40
30
20
10
0
0 20 40 60 80 100

5
Distributie aproximativ normala, cu asimetrie negativa, predomina valorile mari

b) Se determina frecventele relative ni* (%) = ni/n*100. Rezultatele se gasesc in coloana 3 a


tabelului de mai jos.
Se determina frecventele relative cumulate crescator Fci* (%)(coloana 4 a tabelului)
A treia valoare ne arata ca 29,33% dintre clientii esantionului aloca cel mult 60 u.m. (adica 40 sau
50 sau 60 u.m.)

c) Se determina media aritmetica ponderata (folosita in cazul datelor grupate)


Se foloseste colana 5 din tabelul de mai jos.

Interpretare: In medie, un client din esantion a alocat lunar 69 unitati monetare pentru achizitionarea
produsului.

Sume Nr. de Fci


(xi) clienti
(u.m.) (ni) Fci*
ni*(%) (%) xini xi- (xi- )2 (xi- )2· ni
1 2 3 4 5 6 7 8 9

40 8 5,33 5,33 320 -29 841 6728 8


50 12 8 13,33 600 -19 361 4332 20
60 24 16 29,33 1440 -9 81 1944 44
70 60 40 69,33 4200 1 1 60 104
80 30 20 89,33 2400 11 121 3630 134
90 16 10,67 100,00 1440 21 441 7056 150
Total 150 100 - 10400 - - 23750

Verificam reprezentativitatea mediei cu coeficientul de variatie:

Pentru aceasta, intai determinam dispersia (s2), apoi abaterea standard (s):

S-au determinat coloanele 6,7,8 din tabelul de mai sus.

u.m.

< 35%, rezultand ca seria este omogena, iar media este reprezentativa.

d) Pentru completarea primei afirmatii se determina Mediana seriei (Me).

6
Pentru determinarea medianei pe date grupate, se parcurg urmatorii pasi:

- se calculeaza frecventele absolute cumulate crescator: vezi coloana 9 a tabelului de mai sus
(Fci)
se determina locul medianei in serie:

- se gaseste prima Fci >loc Me. Aceasta este 104.


- se determina valoarea variabilei (din prima coloana a tabelului) corespunzatoare acelei
frecvente cumulate gasite anterior. Aceasta valoare este mediana.
Me = 70 u.m.

Interpretare: 50% dintre clienti aloca mai putin de 70 u.m. pentru achizitionarea produsului, iar 50% - mai
putin. Se completeaza prima afirmatie cu “70” .

A doua firmatie se completeaza cu Modul seriei.

Este valoarea “xi” cu frecventa maxima. Cum frecventa maxima este 60 (vezi coloana cu ni), Mo=70
u.m.

Interpretare: Cei mai multi clienti au alocat 70 u.m. pentru achizitionarea produsului.

e) Asimetria se analizeaza cu ajutorul coeficientului de asimetrie Pearson.


Coeficientul de asimetrie Pearson este dat de relatia:

Cas<0 exista o asimetrie negativa, in serie predomina valorile mari.

Cum Cas ~ 0 exista o asimetrie slaba.

f)

Se construieste urmatoarea variabila alternativa:

- stare favorabila: clientii care au alocat cel mult 60 de u.m. pentru achizitionarea produsului
- stare nefavorabila: clientii care au alocat mai mult de 60 de u.m. pentru achizitionarea
produsului

Se determina numarul clientilor din esantion care indeplinesc conditia de a aloca cel mult 60 u.m. Se
noteaza cu m acest numar

m=8 + 12 + 24 = 44 clienti (8 clienti care au alocat 40 um + 12 clienti care au alocat 50 um + 24 de clienti


care au alocat 60 um)

Media variabilei alternative este data de:

7
Dispersia variabilei alternative este data de:

Aplicatia 3.

Pentru 45 de firme selectate aleator, s-a înregistrat numărul angajaţilor în anul anterior. În urma
prelucrării datelor, s-au obţinut rezultatele:
Numărul angajatilor a. Descrieţi seria de date sub aspectul tendinţei centrale, al
Mean …. variaţiei şi al formei distribuţiei firmelor după numărul de
Median 80 angajati, utilizând indicatori adecvaţi.
Mode 72 b. Ştiind că:
Standard Deviation ….. - 25% dintre firmele din eşantion au mai puţin de 78 de
Sample Variance 244.42 angajati, şi că
Kurtosis -0.33 - Abaterea intercuartilică este 8,
Skewness 0.28 arătaţi dacă valoarea minima şi maximă pot fi considerate
Range 65 outliers.
Minimum 50
Maximum ….
Sum 3735
Count …

Rezolvare:

a. X – variabila – numarul de angajati


n=45 volumul esantionului
n>30 esantion de volum mare
xi – valorile variabilei,

I. Tendinta centrala:

Media:

Interpretare: In medie, o firma are 83 de angajati.

Mediana:

Me=88 (din tabelul Descriptive Statistics)

Interpretare: 50% dintre firme au mai putin de 88 de angajati, iar 50% - mai mult.

Modul:

Mo=72 angajati

Interpretare: cel mai mutle firme au 72 de angajati.

8
II. Variabilitatea:

Se analizeaza cu ajutorul urmatorilor indicatori:

- Amplitudinea (Range) : A = xmax-xmin=65 angajati

Interpretare: Diferenta intre numarul maxim si cel minim de angajati este de 65.

- Dispersia (Sample variance): s2 = 244,42


- Abaterea standard (standard deviation): s = √244,42 = 15,63 angajati

Interpretare: numarul angajatilor intr-o firma difera in medie cu 15,63 ~ 16 angajati de numarul mediu de
angajati la nivelul esantionului.

- Coeficientul de variatie:

Interpretare: seria este omogena, media este reprezentativa.

III. Forma distributiei firmelor dupa nr. de angajati

Asimetria: coeficientul lui Fisher de asimetrie: skewness = sk = 0,18>0 si 0< <0,5

Interpretare: seria are o asimetrie pozitiva (coefficient pozitiv), slaba (valoarea coeficientului este intre 0
si 0,5), predomina valorile mici.

Boltirea/aplatizarea: coeficientul de aplatizare: kurtosis = k = -0,33 < 0

Interpretare: distributia este platicurtica (mai aplatizata decat distributia normala), deci valorile sunt mai
putin concentrate in jurul mediei decat in distributia normala.

b. Din afirmatia: “25% dintre firmele din eşantion au mai puţin de 78 de angajati” rezulta ca Q1 = 78.
Din afirmatia: “Abaterea intercuartilică este 8” rezulta ca IQR = 8
Cum IQR=Q3-Q1 rezulta ca Q3 = Q1 + IQR = 78+8=86.

Sunt considerate valori extreme (outliers) valorile care indeplinesc una din conditiile:

xi  Q1  1,5  IQR sau xi  Q3  1,5  IQR

Q1-1,5 x IQR = 78 – 1,5 x 8= 66


Q3+1,5 x IQR = 86 + 1,5 x 8 = 98
x_min = 50
x_max = A + x_min = 50 + 65 = 115
Cum x_min=50 < 66 si x_max = 115 > 98, rezulta ca atat valoarea minima cat si cea maxima sunt
outliers (valori extreme).

9
Aplicatia 4.

Pentru 10 supermarketuri amplasate în două zone ale unui oraş (Z1, Z2) a fost înregistrat profitul
obtinut in anul anterior (milioane lei). Datele – grupate după locaţia de amplasare a
supermarketurilor – sunt prezentate în următorul tabel:
Zona de amplasare Profit in anul anterior (milioane lei)
Z1 20; 23; 26; 23; 28
Z2 18; 15; 21; 16; 20

a) Determinati profitul mediu al unui supermarket din fiecare zona si aratati care grupă de
de supermarketuri este cea mai omogenă din punctul de vedere al profitului?
Argumentaţi.
b) Ce procent din variaţia totală a profitului este explicat de alţi factori decât zona de
amplasare a supermarketurilor?

a) Cele doua variabile sunt:


- variabila de grupare : zona de amplasare (variabila calitativa)
- variabila de interes (X) – profitul (variabila cantitativa)
n =10 (volumul esantionului)
n1 = 5
n2 = 5
r=2 (numarul de grupe)

Se calculeaza mediile, dispersiile, abaterile standard si coeficientii de variatie pentru fiecare grupa:

Grupa 1 (Zona 1)

mil. lei

mil. lei

Grupa 2 (Zona 2)

mil. lei

mil. lei

10
Cum v1 si v2 < 35% ambele grupe sunt omogene, ambele medii sunt representative.

Cum insa v1 < v2 prima grupa este mai omogena, si prima medie este mai reprezentativa decat a doua
medie.

Rezultatele obtinute anterior sunt centralizate in urmatorul tabel:

SUMMARY
Standard
Count Average Variance
Groups Sum Deviation vi(%)
(ni) ( ) ( )
( )
Z1 5 120 24 9,5 3,08 12,83
Z2 5 90 18 6,5 2,55 14,16

b) Se determina media generala (totala) la nivelul esantionului:

Se determina Varianţa dintre grupe (Sum of Squares Between Groups):

Se determina Varianţa dintre interiorul grupelor (Sum of Squares Within Groups):

Se determina varianţa totală: SST = SSB + SSW = 90 + 64 = 154

Se determina coeficientul de determinatie:

58% din variatia totala a profitului este explicat (determinat) de zona de amplasare a supermarketului.

Coeficientul de nedeterminatie:

42% din variatia totala a profitului este explicat (determinat) de factorii aleatori sau reziduali (altii decat
zona de amplasare a supermarketului).

11
Aplicatia 5 (varianta a aplicatiei 4)

Pentru 10 supermarketuri amplasate în două zone ale unui oraş (Z1, Z2) a fost înregistrat profitul
obtinut in anul anterior (milioane lei). In urma prelucrarii datelor, s-a obtinut următorul tabel:

Count Variance
Groups Sum
(ni) ( )
Z1 5 120 9,5
Z2 5 90 6,5

a) Care grupă de de supermarketuri este cea mai omogenă din punctul de vedere al
profitului? Argumentaţi.
b) Determinati influenta procentuala a zonei de amplasare a supermarketurilor asupra
variatiei profitului acestora.
c) Studiati reprezentativitatea profitului mediu pe total esantion.

a) Cele doua variabile sunt:


- variabila de grupare : zona de amplasare (variabila calitativa)
- variabila de interes (X) – profitul (variabila cantitativa)
n =10 (volumul esantionului)
n1 = 5
n2 = 5
r=2 (numarul de grupe)

Se calculeaza abaterile standard si coeficientii de variatie pentru fiecare grupa:

mil. lei

mil. lei

Cum v1 si v2 < 35% ambele grupe sunt omogene, ambele medii sunt representative.

Cum insa v1 < v2 prima grupa este mai omogena, si prima medie este mai reprezentativa decat a doua
medie.

b) Se determina media generala (totala) la nivelul esantionului:

12
Se determina Varianţa dintre grupe (Sum of Squares Between Groups):

Se determina Varianţa dintre interiorul grupelor (Sum of Squares Within Groups):

Se determina varianţa totală: SST = SSB + SSW = 90 + 64 = 154

Se determina coeficientul de determinatie:

58% din variatia totala a profitului este explicat (determinat) de zona de amplasare a supermarketului.

Coeficientul de nedeterminatie:

42% din variatia totala a profitului este explicat (determinat) de factorii aleatori sau reziduali (altii decat
zona de amplasare a supermarketului).

c) Se determina dispersia totala la nivelul esantionului:

Abaterea standard totala (la nivelul intregului esantionului):

Se determina coeficientul de variatie pe total esantion:

rezulta ca media totala la nivelul esantionului este reprezentativa.

13