Documente Academic
Documente Profesional
Documente Cultură
CURS 3
1
Măsuri statistice descriptive pentru date univariate
2
Modul
MODUL (Mo) = valoarea cel mai des întâlnită într-o serie de date statistice sau valoarea care
are cea mai mare frecvenţă de apariţie (mode în engl.)
Modul se poate determina pentru orice tip de variabilă, nenumerică sau numerică, indiferent de
scala de măsurare.
Modul este singurul indicator al tendinţei centrale ce poate fi determinat pentru variabilele
măsurate pe scala nominală.
Grafic, într-o diagramă prin coloane, histogramă sau poligon al frecvenţelor, valoarea modală
reprezintă varianta/valoarea de pe abscisă ce corespunde vârfului reprezentării.
3
Modul
O serie de date poate prezenta una sau mai multe valori modale.
este important în etapa de analiză descriptivă, pentru caracterizarea
concentrării valorilor şi a formei distribuţiei, fără a avea un rol în etapa
inferenţială .
este un indicator potrivit pentru caracterizarea unor serii mari de date
în care interesează valoarea cel mai des întâlnită (exemplu: venitul
modal).
are unitatea de măsură a variabilei studiate.
În cazul datelor sistematizate sub forma seriilor de distribuţie de
frecvenţe, modul este varianta/valoarea variabilei cu frecvenţa cea mai
mare de apariţie.
4
Exemple
Exemplul 1. Pentru un eşantion de 9 unităţi de cazare turistică dintr-o
anumită regiune au fost înregistrate date referitoare la numărul
angajaţilor pe perioadă nedeterminată:
8, 6, 5, 9, 5, 8, 6, 10, 6.
Variabila analizată este „numărul angajaţilor pe perioadă
nedeterminată”, fiind o variabilă numerică cu variaţie discretă.
Eşantionul este format din cele 9 unităţi de cazare turistică, fiind de
volum redus (n = 9 < 30)
Modul este valoarea care apare de cele mai multe ori, adică Mo = 6 angajaţi.
5
Exemple
Exemplul 1. Distribuţia celor 120 de salariaţi ai firmei Papirus în funcţie de departamentul în care îşi
desfăşoară activitatea este:
Departamentul Număr salariaţi Mo = „producţie”
Administrativ 5
Financiar 20
Aprovizionare 25
Producţie 60
Vânzare 10
Total 120
6
Exemple
Exemplul 2. Distribuţia celor 120 de salariaţi ai firmei Papirus în funcţie de nivelul ultimelor studii
absolvite este:
Nivelul studiilor Număr salariaţi Mo = „universitare”
Gimnaziale 5
Liceale 25
Postliceale 31
Universitare 44
Postuniversitare 15
Total 120
7
Exemple
Exemplul 3. Distribuţia celor 120 de salariaţi ai firmei Papirus în funcţie de numărul copiilor minori
în întreţinere:
Număr copii minori în Număr Mo = 3 copii
întreţinere salariaţi
0 10
1 20
2 35
3 40
4 15
Total 120
8
Exemple
În cazul seriei de distribuţie de frecvenţe pe intervale de variaţie
valoarea modală poate aproximată cu valoarea ce reprezintă mijlocul
intervalului cu frecvenţa cea mai mare (numit şi interval modal)
Metoda de aproximare este fundamentată pe ipoteza distribuţiei
normale a valorilor variabilei în interiorul fiecărui interval de variaţie.
Exemplul 4. Distribuţia celor 120 de salariaţi ai firmei Papirus în funcţie de veniturile salariale este:
Venituri salariale Număr Mo1,75 mii lei sau
(mii lei) salariaţi
Sub 1,5 10
1,5 – 2,0 40
2,0 - 2,5 30
2,5 – 3,0 20
3,0 – 3,5 15
Peste 3,5 5
Total 120
Notă: Limita superioară inclusă în interval
9
MEDIANA
10
MEDIANA
11
MEDIANA
12
Exemple
Exemplul 3. Distribuţia celor 120 de salariaţi ai firmei Papirus în funcţie de numărul copiilor minori
în întreţinere:
Număr copii Număr Frecvenţă absolută cumulată Me = 2 copii
minori în salariaţi crescător (Fci)
întreţinere
0 10 10 Loc Me = (n+1)/2 = 121/2=60,5
1 20 10+20=30 Me = 2 copii arată că jumătate
2 35 10+20+35=65≥60,5 dintre salariaţi au cel mult doi
3 40 10+20+35+40=105 copii minori în întreţinere,
4 15 10+20+35+40+15=120 respectiv jumătate dintre
- salariaţii firmei au mai mult de
Total 120
doi copii minori în întreţinere.
13
Exemple
În cazul seriei de distribuţie de frecvenţe pe intervale de variaţie valoarea
mediană poate aproximată cu valoarea ce reprezintă mijlocul intervalului
median (intervalul corespunzător primei frecvenţe cumulate mai mare decât
LocMe = (n+1)/2).
14
Exemple
Exemplul 4. Distribuţia celor 120 de salariaţi ai firmei Papirus în funcţie de veniturile salariale este:
Venituri Număr Frecvenţă absolută Me 2,25 mii lei sau
salariale salariaţi cumulată crescător (Fci)
(mii lei)
Sub 1,5 10 10 Loc Me = (n+1)/2 = 121/2=60,5
1,5 – 2,0 40 10+40=50
2,0 - 2,5 30 10+40+30=80≥60,5 Me = 2,25 mii lei arată că jumătate dintre salariaţi
2,5 – 3,0 20 10+40+30+20=100 au venituri salariale mai mici de 2,25 mii lei (2.25
3,0 – 3,5 15 10+40+30+20+15=115 lei), respectiv jumătate dintre salariaţii firmei
Peste 3,5 5 10+40+30+20+15+5=120 obţin venituri salariale mai mari de 2.25 lei.
Total 120 -
Notă: Limita superioară inclusă în interval
15
MEDIA
I. MEDIA (media aritmetică - average, mean, în engl.) unei serii de date se
calculează ca suma valorilor raportată la numărul lor, fiind valoarea care, înlocuind toţi
termenii unei serii, nu modifică nivelul lor totalizator.
Media aritmetică este indicatorul cel mai utilizat pentru caracterizarea tendinţei centrale a
datelor numerice, atât în etapa descriptivă, cât şi în etapa inferenţială.
Formula de calcul a mediei este:
ESTIMATOR PARAMETRU
(Media variabilei în eşantion) (Media variabilei în populaţia statistică)
n N
x i x
i 1
i
x i 1
n N
16
MEDIA
În cazul datelor sistematizate media (numită şi medie ponderată) se determină astfel:
r
xn i i
x i 1
r
n
i 1
i
unde:
xi , i 1, r reprezintă valorile variabilei X sau centrele intervalelor de variaţie (calculate ca
17
MEDIA
Media se situează, întotdeauna între valoarea minimă (xmin) şi valoarea maximă (xmax) a
variabilei.
Suma abaterilor valorilor individuale de la media lor aritmetică este egală cu zero:
n
n n x i
( x x) x n
i 1
i
i 1
i
i 1
n
0
Media aritmetică este afectată de prezenţa valorilor de tip outlier deoarece calculul
acesteia se bazează pe toate valorile individuale observate.
Media are unitatea de măsură a variabilei studiate.
18
MEDIA
r
x n i
*%
i
Media poate fi determinată şi prin utilizarea frecvenţelor relative: x i 1 .
100
Dacă o serie de date este alcătuită din mai multe subserii, pentru care se cunosc mediile
parţiale x j , j 1, m , atunci media întregii serii poate fi calculată ca o medie aritmetică
m
x n j j
ponderată din mediile parţiale x
j 1
, unde n j reprezintă volumul subseriei
m
n
j 1
j
componente j j 1, m .
19
Exemple
Exemplul 1. Pentru un eşantion de 9 unităţi de cazare turistică dintr-o
anumită regiune au fost înregistrate date referitoare la numărul
angajaţilor pe perioadă nedeterminată:
8, 6, 5, 9, 5, 8, 6, 10, 6.
5 5 6 6 6 8 8 9 10
x 7 angajati
9
20
Exemple
Exemplul 3. Distribuţia celor 120 de salariaţi ai firmei Papirus în funcţie de numărul copiilor minori
în întreţinere:
Număr copii minori Număr salariaţi x = 2 copii
în întreţinere
( xi ) ( ni ) xi * ni
0 10 0 r
x n i i
270
1 20 20 x i 1
r
2.25 2 cop ii
n
120
2 35 70 i
i 1
21
Exemple
Exemplul 4. Distribuţia celor 120 de salariaţi ai firmei Papirus în funcţie de veniturile salariale este:
Centrul/
Venituri Număr xi *
mijlocul
salariale salariaţi x = 2,27 mii lei (2 270 lei)
intervalului ni
(mii lei) ( ni )
( xi )
Sub 1,5
10 1,25 12.5
(1,0 - 1,5]
1,5 – 2,0 40 1,75 70 r
67.5 x n i i
272.5
2,0 - 2,5 30 2,25 x i 1
2.27 mii lei
r
n
120
2,5 – 3,0 20 2,75 55 i
i 1
3,0 – 3,5 15 3,25 48.75
Peste 3,5 Un salariat al firmei, obţine, în medie, un venit
5 3,75 18.75
(3,5 - 4,0]
salarial de 2270 lei.
Total 120 - 272.5
Notă: Limita superioară inclusă în interval
22
Determinarea celor trei indicatori ai tendinţei centrale se realizează
facil folosind funcţii statistice implementate de Microsoft Office –
Excel:
MODE pentru determinarea valorii modale, adică cea mai mică
dintre valorile cu frecvenţa maximă;
23
Exemple
Valorile indicatorilor tendinţei centrale determinate prin intermediul funcţiilor Excel sunt:
Mode = 300 Eur/ha
Median = 331,5 Eur/ha
Mean/Average = 328,44 Eur/ha.
24
Caracterizarea comparativă a indicatorilor tendinţei centrale
Media
Media aritmetică este indicatorul cel mai folosit în caracterizarea tendinţei centrale pentru un
set de date statistice numerice (cantitative).
Media este mai stabilă şi mai puţin sensibilă la fluctuaţiile de selecţie decât modul sau
mediana;
Media este utilizată în procesul de inferenţă statistică.
Media poate fi utilizată în calcule algebrice (în cazul în care seria este formată din mai
multe subserii media seriei rezultante se poate exprima ca medie a mediilor subseriilor
componente).
Media este sensibilă la prezenţa valorilor extreme.
Media este cel mai potrivit indicator pentru caracterizarea tendinţei centrale în cazul
variabilelor cu distribuţie aproximativ normală sau cu un grad redus de asimetrie.
25
Caracterizarea comparativă a indicatorilor tendinţei centrale
Mediana
Mediana se poate folosi în cazul datelor măsurate pe scalele ordinală şi de raport.
Mediana nu este sensibilă la prezenţa valorilor extreme.
Mediana este cel mai potrivit indicator pentru caracterizarea tendinţei centrale în cazul
datelor profund asimetrice.
26
Caracterizarea comparativă a indicatorilor tendinţei centrale
Modul
Modul este singurul indicator al tendinţei centrale ce poate fi folosit în cazul datelor
calitative măsurate pe o scală nominală.
Modul poate fi determinat pentru toate tipurile de date, indiferent de scala lor de
măsurare.
Modul este cel mai potrivit indicator pentru caracterizarea tendinţei centrale în cazul în care
ne interesează categoria cea mai importantă (reprezentată cel mai mult în setul de date).
Exemplu: Dacă managerul unui magazin de încălţăminte pentru bărbaţi observă că, pentru 25 de
perechi de pantofi vândute într-o zi, valoarea modală este 42, înseamnă, cu siguranţă, că acesta a fost
numărul cel mai solicitat. Modul este mai util, în acest caz, decât media sau mediana.
27
Caracterizarea comparativă a indicatorilor tendinţei centrale
În cazul datelor cantitative cei trei indicatori ai tendinţei centrale pot fi determinaţi şi sunt
utili pentru a obţine o imagine complexă asupra unui fenomen economico-social. Prezintă
interes atât analiza valorilor fiecărui indicator, cât şi relaţia dintre ei.
Pentru o distribuţie normală cu grad redus de asimetrie, există diferenţe foarte mici între
aceşti indicatori şi toţi trei caracterizează tendinţa centrală.
Pentru date cu distribuţie asimetrică, valorile indicatorilor diferă, diferenţele fiind utile în
aprecierea gradului de asimetrie.
Cei trei indicatori fundamentali ai tendinţei centrale oferă informaţii privind forma
distribuţiei într-o serie de date statistice:
28
Forma distributiei
pentru repartiţii moderat asimetrice, există o relaţie empirică între cele trei valori şi
anume: x Mo 3 x Me
Figura 1.9.1
a) distribuţie simetrică; b) distribuţie cu asimetrie pozitivă; c) distribuţie cu asimetrie negativă
29