Sunteți pe pagina 1din 29

STATISTICĂ

CURS 3

Indicatori statistici descriptivi pentru date univariate

1
Măsuri statistice descriptive pentru date univariate

Indicatorii tendinţei centrale = indicatori sintetici care exprimă într-o


singură măsură ceea este tipic, esenţial, stabil într-o serie de date.

Indicatorii fundamentali ai tendinţei centrale sunt:


1. Modul sau valoarea modală (Mo)
2. Mediana (Me)
3. Media aritmetică ( x )

Puterea de caracterizare a indicatorilor tendinţei centrale depinde de gradul


de omogenitate/eterogenitatele al setului de date analizat.

2
Modul
MODUL (Mo) = valoarea cel mai des întâlnită într-o serie de date statistice sau valoarea care
are cea mai mare frecvenţă de apariţie (mode în engl.)

Mo = reprezintă valoarea pe care o înregistrează, din punctul de vedere al variabilei studiate,


cele mai multe unităţi statistice.

Modul se poate determina pentru orice tip de variabilă, nenumerică sau numerică, indiferent de
scala de măsurare.

Modul este singurul indicator al tendinţei centrale ce poate fi determinat pentru variabilele
măsurate pe scala nominală.

Grafic, într-o diagramă prin coloane, histogramă sau poligon al frecvenţelor, valoarea modală
reprezintă varianta/valoarea de pe abscisă ce corespunde vârfului reprezentării.

3
Modul
 O serie de date poate prezenta una sau mai multe valori modale.
 este important în etapa de analiză descriptivă, pentru caracterizarea
concentrării valorilor şi a formei distribuţiei, fără a avea un rol în etapa
inferenţială .
 este un indicator potrivit pentru caracterizarea unor serii mari de date
în care interesează valoarea cel mai des întâlnită (exemplu: venitul
modal).
 are unitatea de măsură a variabilei studiate.
 În cazul datelor sistematizate sub forma seriilor de distribuţie de
frecvenţe, modul este varianta/valoarea variabilei cu frecvenţa cea mai
mare de apariţie.

4
Exemple
Exemplul 1. Pentru un eşantion de 9 unităţi de cazare turistică dintr-o
anumită regiune au fost înregistrate date referitoare la numărul
angajaţilor pe perioadă nedeterminată:

8, 6, 5, 9, 5, 8, 6, 10, 6.
Variabila analizată este „numărul angajaţilor pe perioadă
nedeterminată”, fiind o variabilă numerică cu variaţie discretă.
Eşantionul este format din cele 9 unităţi de cazare turistică, fiind de
volum redus (n = 9 < 30)

Modul este valoarea care apare de cele mai multe ori, adică Mo = 6 angajaţi.

5
Exemple
Exemplul 1. Distribuţia celor 120 de salariaţi ai firmei Papirus în funcţie de departamentul în care îşi
desfăşoară activitatea este:
Departamentul Număr salariaţi Mo = „producţie”

Administrativ 5

Financiar 20

Aprovizionare 25

Producţie 60

Vânzare 10

Total 120

6
Exemple
Exemplul 2. Distribuţia celor 120 de salariaţi ai firmei Papirus în funcţie de nivelul ultimelor studii
absolvite este:
Nivelul studiilor Număr salariaţi Mo = „universitare”

Gimnaziale 5

Liceale 25

Postliceale 31

Universitare 44

Postuniversitare 15

Total 120

7
Exemple

Exemplul 3. Distribuţia celor 120 de salariaţi ai firmei Papirus în funcţie de numărul copiilor minori
în întreţinere:
Număr copii minori în Număr Mo = 3 copii
întreţinere salariaţi
0 10
1 20
2 35
3 40
4 15

Total 120

8
Exemple
 În cazul seriei de distribuţie de frecvenţe pe intervale de variaţie
valoarea modală poate aproximată cu valoarea ce reprezintă mijlocul
intervalului cu frecvenţa cea mai mare (numit şi interval modal)
 Metoda de aproximare este fundamentată pe ipoteza distribuţiei
normale a valorilor variabilei în interiorul fiecărui interval de variaţie.
Exemplul 4. Distribuţia celor 120 de salariaţi ai firmei Papirus în funcţie de veniturile salariale este:
Venituri salariale Număr Mo1,75 mii lei sau
(mii lei) salariaţi
Sub 1,5 10
1,5 – 2,0 40
2,0 - 2,5 30
2,5 – 3,0 20
3,0 – 3,5 15
Peste 3,5 5
Total 120
Notă: Limita superioară inclusă în interval

9
MEDIANA

 MEDIANA (Me)= varianta/valoarea din mijlocul unei serii de date în


care observaţiile au fost ordonate (median, în engl.).
 este un indicator mediu de poziţie care face parte din categoria
cuantilelor
 ia în consideraţie doar poziţia observaţiilor în serie, nu şi mărimea lor.
 Pentru a determina mediana se introduce noţiunea de ranguri, adică
numere de ordine asociate observaţiilor, de la cea mai mică (cu rangul
1), până la cea mai mare (rangul n).
 Rangul/locul medianei este rangul unităţii din mijlocul seriei, adică
(n+1)/2.
 Pentru seria cu număr impar de termeni Me este termenul din mijlocul
seriei, iar pentru seria cu număr par de termeni Me este media
aritmetică a termenilor situaţi în centrul seriei.

10
MEDIANA

 se poate determina în cazul variabilelor nenumerice măsurate pe scala


ordinală şi în cazul variabilelor numerice.
 prezintă avantajul că nu este afectată de valorile extreme ale
variabilei, luând în considerare doar poziţia valorilor nu şi mărimea lor.
 are unitatea de măsură a variabilei studiate.
Pentru determinarea Me ordonăm setul de date ( xi - valorile variabilei):
5, 5, 6, 6, 6, 8, 8, 9, 10.

Mediana este valoarea situată pe poziţia (n+1)/2=5, adică Me = 6 angajaţi.


Număr angajaţi ( xi ) 5 5 6 6 Me = 6 8 8 9 10
Rangul/poziţia valorii xi 1 2 3 4 Loc Me = 5 6 7 8 9

11
MEDIANA

 În cazul datelor sistematizate sub forma SDF, pentru


determinarea medianei se introduce noţiunea de frecvenţă
cumulată crescător.
 Frecvenţa absolută cumulată crescător a unei grupe (Fci)
reprezintă numărul unităţilor statistice care au valoarea
variabilei cel mult egală cu valoarea grupei corespunzătoare:

 Frecvenţa absolută cumulată crescător a ultimei clase/grupe


este egală cu volumul total al eşantionului.
 Mediana este varianta sau valoarea variabilei corespunzătoare
primei frecvenţe cumulate crescător mai mare sau egală cu
rangul/locul medianei.

12
Exemple
Exemplul 3. Distribuţia celor 120 de salariaţi ai firmei Papirus în funcţie de numărul copiilor minori
în întreţinere:
Număr copii Număr Frecvenţă absolută cumulată Me = 2 copii
minori în salariaţi crescător (Fci)
întreţinere
0 10 10 Loc Me = (n+1)/2 = 121/2=60,5
1 20 10+20=30 Me = 2 copii arată că jumătate
2 35 10+20+35=65≥60,5 dintre salariaţi au cel mult doi
3 40 10+20+35+40=105 copii minori în întreţinere,
4 15 10+20+35+40+15=120 respectiv jumătate dintre
- salariaţii firmei au mai mult de
Total 120
doi copii minori în întreţinere.

13
Exemple
În cazul seriei de distribuţie de frecvenţe pe intervale de variaţie valoarea
mediană poate aproximată cu valoarea ce reprezintă mijlocul intervalului
median (intervalul corespunzător primei frecvenţe cumulate mai mare decât
LocMe = (n+1)/2).

Aceasta metoda de aproximare a valorii mediane este fundamentata pe ipoteza distribuţiei


normale a valorilor variabilei în interiorul fiecărui interval de variaţie.

14
Exemple
Exemplul 4. Distribuţia celor 120 de salariaţi ai firmei Papirus în funcţie de veniturile salariale este:
Venituri Număr Frecvenţă absolută Me  2,25 mii lei sau
salariale salariaţi cumulată crescător (Fci)
(mii lei)
Sub 1,5 10 10 Loc Me = (n+1)/2 = 121/2=60,5
1,5 – 2,0 40 10+40=50
2,0 - 2,5 30 10+40+30=80≥60,5 Me = 2,25 mii lei arată că jumătate dintre salariaţi
2,5 – 3,0 20 10+40+30+20=100 au venituri salariale mai mici de 2,25 mii lei (2.25
3,0 – 3,5 15 10+40+30+20+15=115 lei), respectiv jumătate dintre salariaţii firmei
Peste 3,5 5 10+40+30+20+15+5=120 obţin venituri salariale mai mari de 2.25 lei.
Total 120 -
Notă: Limita superioară inclusă în interval

15
MEDIA
I. MEDIA (media aritmetică - average, mean, în engl.) unei serii de date se
calculează ca suma valorilor raportată la numărul lor, fiind valoarea care, înlocuind toţi
termenii unei serii, nu modifică nivelul lor totalizator.

Media aritmetică este indicatorul cel mai utilizat pentru caracterizarea tendinţei centrale a
datelor numerice, atât în etapa descriptivă, cât şi în etapa inferenţială.
Formula de calcul a mediei este:
ESTIMATOR PARAMETRU
(Media variabilei în eşantion) (Media variabilei în populaţia statistică)
n N

x i x
i 1
i

x i 1 
n N

16
MEDIA
În cazul datelor sistematizate media (numită şi medie ponderată) se determină astfel:
r

xn i i
x i 1
r

n
i 1
i

unde:
xi , i  1, r reprezintă valorile variabilei X sau centrele intervalelor de variaţie (calculate ca

medie a capetelor de interval);


r reprezintă numărul de variante sau de grupe;
ni reprezintă frecvenţa absolută a variantei/grupei „i”

17
MEDIA
Media se situează, întotdeauna între valoarea minimă (xmin) şi valoarea maximă (xmax) a
variabilei.
Suma abaterilor valorilor individuale de la media lor aritmetică este egală cu zero:
n

n n x i

 ( x  x)   x  n 
i 1
i
i 1
i
i 1

n
0

Media aritmetică este afectată de prezenţa valorilor de tip outlier deoarece calculul
acesteia se bazează pe toate valorile individuale observate.
Media are unitatea de măsură a variabilei studiate.

18
MEDIA
r

x n i
*%
i
Media poate fi determinată şi prin utilizarea frecvenţelor relative: x i 1 .
100

Dacă o serie de date este alcătuită din mai multe subserii, pentru care se cunosc mediile
parţiale x j , j  1, m , atunci media întregii serii poate fi calculată ca o medie aritmetică
m

x n j j
ponderată din mediile parţiale x
j 1
, unde n j reprezintă volumul subseriei
m

n
j 1
j

componente j  j  1, m .

19
Exemple
Exemplul 1. Pentru un eşantion de 9 unităţi de cazare turistică dintr-o
anumită regiune au fost înregistrate date referitoare la numărul
angajaţilor pe perioadă nedeterminată:

8, 6, 5, 9, 5, 8, 6, 10, 6.

Media, determinată ca medie aritmetică simplă, este:

5  5  6  6  6  8  8  9  10
x  7 angajati
9

20
Exemple
Exemplul 3. Distribuţia celor 120 de salariaţi ai firmei Papirus în funcţie de numărul copiilor minori
în întreţinere:
Număr copii minori Număr salariaţi x = 2 copii
în întreţinere
( xi ) ( ni ) xi * ni
0 10 0 r

x n i i
270
1 20 20 x  i 1
r
  2.25  2 cop ii
n
120
2 35 70 i
i 1

3 40 120 Un salariat al firmei, are, în medie, doi copii


4 15 60 minori în întreţinere (numărul copiilor fiind
Total 120 270 o variabilă numerică cu variaţie discretă).

21
Exemple
Exemplul 4. Distribuţia celor 120 de salariaţi ai firmei Papirus în funcţie de veniturile salariale este:
Centrul/
Venituri Număr xi *
mijlocul
salariale salariaţi x = 2,27 mii lei (2 270 lei)
intervalului ni
(mii lei) ( ni )
( xi )
Sub 1,5
10 1,25 12.5
(1,0 - 1,5]
1,5 – 2,0 40 1,75 70 r

67.5 x n i i
272.5
2,0 - 2,5 30 2,25 x  i 1
  2.27 mii lei
r

n
120
2,5 – 3,0 20 2,75 55 i
i 1
3,0 – 3,5 15 3,25 48.75
Peste 3,5 Un salariat al firmei, obţine, în medie, un venit
5 3,75 18.75
(3,5 - 4,0]
salarial de 2270 lei.
Total 120 - 272.5
Notă: Limita superioară inclusă în interval

22
Determinarea celor trei indicatori ai tendinţei centrale se realizează
facil folosind funcţii statistice implementate de Microsoft Office –
Excel:
 MODE pentru determinarea valorii modale, adică cea mai mică
dintre valorile cu frecvenţa maximă;

 MEDIAN pentru determinarea valorii medianei;

 AVERAGE pentru determinarea mediei.

23
Exemple

Exemplul 7. Considerăm seria de date referitoare la preţurile de vânzare pentru 50 de loturi cu


destinaţie agricolă din judeţul Giurgiu (Eur/ha):
280 284 295 295 298 298 300 300 300 305
306 310 310 314 315 315 318 318 320 320
325 326 328 329 331 332 332 335 337 338
338 339 339 340 341 342 345 345 346 348
350 353 353 355 355 357 360 365 368 369

Valorile indicatorilor tendinţei centrale determinate prin intermediul funcţiilor Excel sunt:
Mode = 300 Eur/ha
Median = 331,5 Eur/ha
Mean/Average = 328,44 Eur/ha.

24
Caracterizarea comparativă a indicatorilor tendinţei centrale

Media
Media aritmetică este indicatorul cel mai folosit în caracterizarea tendinţei centrale pentru un
set de date statistice numerice (cantitative).
Media este mai stabilă şi mai puţin sensibilă la fluctuaţiile de selecţie decât modul sau
mediana;
Media este utilizată în procesul de inferenţă statistică.
Media poate fi utilizată în calcule algebrice (în cazul în care seria este formată din mai
multe subserii media seriei rezultante se poate exprima ca medie a mediilor subseriilor
componente).
Media este sensibilă la prezenţa valorilor extreme.
Media este cel mai potrivit indicator pentru caracterizarea tendinţei centrale în cazul
variabilelor cu distribuţie aproximativ normală sau cu un grad redus de asimetrie.

25
Caracterizarea comparativă a indicatorilor tendinţei centrale

Mediana
Mediana se poate folosi în cazul datelor măsurate pe scalele ordinală şi de raport.
Mediana nu este sensibilă la prezenţa valorilor extreme.
Mediana este cel mai potrivit indicator pentru caracterizarea tendinţei centrale în cazul
datelor profund asimetrice.

26
Caracterizarea comparativă a indicatorilor tendinţei centrale

Modul
Modul este singurul indicator al tendinţei centrale ce poate fi folosit în cazul datelor
calitative măsurate pe o scală nominală.
Modul poate fi determinat pentru toate tipurile de date, indiferent de scala lor de
măsurare.

Modul este cel mai potrivit indicator pentru caracterizarea tendinţei centrale în cazul în care
ne interesează categoria cea mai importantă (reprezentată cel mai mult în setul de date).
Exemplu: Dacă managerul unui magazin de încălţăminte pentru bărbaţi observă că, pentru 25 de
perechi de pantofi vândute într-o zi, valoarea modală este 42, înseamnă, cu siguranţă, că acesta a fost
numărul cel mai solicitat. Modul este mai util, în acest caz, decât media sau mediana.

27
Caracterizarea comparativă a indicatorilor tendinţei centrale

În cazul datelor cantitative cei trei indicatori ai tendinţei centrale pot fi determinaţi şi sunt
utili pentru a obţine o imagine complexă asupra unui fenomen economico-social. Prezintă
interes atât analiza valorilor fiecărui indicator, cât şi relaţia dintre ei.
Pentru o distribuţie normală cu grad redus de asimetrie, există diferenţe foarte mici între
aceşti indicatori şi toţi trei caracterizează tendinţa centrală.
Pentru date cu distribuţie asimetrică, valorile indicatorilor diferă, diferenţele fiind utile în
aprecierea gradului de asimetrie.
Cei trei indicatori fundamentali ai tendinţei centrale oferă informaţii privind forma
distribuţiei într-o serie de date statistice:

28
Forma distributiei
 pentru repartiţii moderat asimetrice, există o relaţie empirică între cele trei valori şi

anume: x  Mo  3 x  Me 

Figura 1.9.1
a) distribuţie simetrică; b) distribuţie cu asimetrie pozitivă; c) distribuţie cu asimetrie negativă

29

S-ar putea să vă placă și