Sunteți pe pagina 1din 29

STATISTIC

CURS 5

Masuri statistice descriptive pentru date


univariate

1. Masurarea tendintei centrale

1
Msuri statistice descriptive pentru date univariate

 Pentru o variabil numeric, folosind indicatorii statistici,


putem analiza trei proprieti majore:
1. Tendina central
2. Variabilitatea
3. Forma distribuiei

Indicatorii tendinei centrale = indicatori sintetici cu ajutorul


crora urmrim s exprimm printr-o singur valoare ceea este tipic,
esenial, stabil ntr-o serie de date numerice.

2
Msurarea tendinei centrale
 Indicatorii fundamentali ai tendinei centrale sunt:
1. media aritmetic ( x )
2. mediana (Me)
3. modul (Mo)
Aceti indicatori au o putere cu att mai mare de caracterizare a tendinei
centrale cu ct se determin pe baza unor date mai omogene.

1. Media aritmetic (average, mean, n engl.)


- este indicatorul cel mai utilizat pentru caracterizarea tendinei centrale a
datelor numerice
- reprezint valoarea care, nlocuind toi termenii unei serii, nu modific suma
acestora
- se calculeaz ca suma valorilor raportat la numrul lor.

3
Media aritmetic
Formula de calcul a mediei este:
n
- pentru eantion - estimator
x i =1
i
x=
n
- pentru colectivitatea general parametru
N

x
i =1
i
=
N

- Dac datele au fost sistematizate ntr-o serie de distribuie de frecvene, n care


valorile/centrele intervalelor de variaie x k , k = 1, r apar cu frecvenele nk ,
se determin media ca medie aritmetic ponderat:
r r

x n + x2 n2 + ... + xr nr
x k nk x k nk
k =1 k =1
x= 1 1 = r
=
n1 + n2 + ... + nr n
nk
k =1

4
Media aritmetic

Exemplu
Vechimea n munc a fost nregistrat pentru cinci salariai ai unei firme i
anume: 7, 5, 6, 7 i 8 ani. Vechimea medie este:

7 + 5 + 6 + 7 + 8 33
x= = = 6,6 ani.
5 5

Media aritmetic pune n balan toate valorile individuale:

5 6 7 8

x =6,6 ani

5
Media aritmetic
 Media aritmetic este afectat de orice valoare sau valori extreme.

Exemplu
Datele pentru vechimea n munc a 10 salariai sunt: 5, 4, 5, 5, 6, 6, 4 i 20,
atunci vechimea medie este:

5 + 4 + ... + 4 + 20
x= = 6,6 ani
10

0 5 10 15 20
x = 6,6 ani

5 + 4 + ... + 6 + 4
x= = 5,1 ani
9

6
Exemplu

Se cunoate distribuia de frecvene a 50 de firme referitor la procentul din venituri


cheltuit cu cercetarea-dezvoltarea:

Intervalul de variatie pentru


Nr firme Centrul de interval
procentul din venituri
Grupa xk nk Fck
cheltuit cu cercetarea- nk xk
dezvoltarea
1 sub 6,25 4 5,70 22,8 4
2 6,25 - 7,35 12 6,80 81,6 16
3 7,35 - 8,45 14 7,90 110,6 30
4 8,45 - 9,55 7 9,00 63 37
5 9,55 - 10,65 7 10,10 70,7 44
6 10,65 - 11,75 3 11,20 33,6 47
7 11,75 - 12,85 0 12,30 0 47
8 12,85 i peste 3 13,40 40,2 50
Total 50 - 422,5

7
Exemplu

8
Media aritmetic

Particulariti n calculul mediei

1. Dac toate nivelurile variabilei sunt egale (cu o constant) atunci


media este egal cu constanta, adic:
dac x1 = x2 = ... = xn = a, atunci x = a.

2. Media poate fi sau nu egal cu o valoare individual nregistrat i


are unitatea de msur a variabilei studiate.

3. Media se poate determina i dac se cunoate doar suma valorilor i


numrul de uniti din colectivitate (dac se cunosc veniturile totale
ale unei familii i numrul de persoane se poate calcula venitul
mediu pe o persoan din familie).

4. Media se situeaz ntotdeauna ntre valoarea minim (xmin) i


valoarea maxim (xmax) a variabilei.
9
Media aritmetic

5. Media poate fi determinat i prin utilizarea frecvenelor relative:


r
xk nk*%
k =1
x= .
100

6. Dac o serie statistic este alctuit din m serii componente, pentru care s-au
( )
calculat mediile pariale x j , j = 1, m , atunci media ntregii serii poate fi calculat
ca o medie aritmetic ponderat din mediile pariale
m

x
j =1
j nj
x = m

n
j =1
j

unde nj (
reprezint volumul seriei componente j j = 1, m . )

10
Mediana
2. Mediana (median, n engl.) reprezint valoarea din
mijlocul unei serii de date ordonate.
- este un indicator mediu de poziie care face parte din categoria
cuantilelor
- mediana este un indicator al tendinei centrale, fiind situat n
centrul seriei
- 50% dintre valori sunt situate la stnga medianei, iar 50% la
dreapta medianei
- ia n consideraie doar poziia observaiilor n serie, nu i mrimea
lor efectiv (nu este afectat de prezena valorilor extreme).

 Mediana se poate determina pe cale grafic. Ea reprezint proiecia pe


axa absciselor a punctului de intersecie dintre cele dou curbe ale
frecvenelor cumulate (cresctor i descresctor).

11
Mediana
 Pentru a determina mediana se introduce noiunea de ranguri,
adic numere de ordine asociate observaiilor, de la cea mai
mic (cu rangul 1), pn la cea mai mare (rangul n)
 Rangul (locul ) medianei va fi, atunci, (n+1)/2, deci rangul
unitii din mijlocul seriei.

Exemplu
Pentru o serie numeric de forma {30, 32, 40, 35, 32, 37, 34, 32, 35, 41},
mediana se determin astfel:
- ordonm cresctor valorile seriei: {30, 32, 32, 32, 34, 35, 35, 37, 40, 41}
- calculm locul medianei: Loc Me = (n+1)/2 = 11/2=5,5
- mediana este valoarea cuprins ntre al 5-lea i al 6-lea termen al seriei
ordonate i se calculeaz ca fiind media aritmetic a celor doi termeni aflai n
centrul distribuiei:
Astfel, jumtate dintre valorile seriei sunt mai mici dect valoarea 34,5.

12
Mediana

 Dac seria are un numr par de termeni atunci


mediana se calculeaz ca media aritmetic a celor doi
termeni situai n mijlocul seriei ordonate.

 Dac seria are un numr impar de termeni atunci


mediana reprezint termenul din mijlocul seriei
ordonate.

13
Mediana
- Pentru o repartiie de frecvene pe intervale de variaie, mediana se va
ncadra n intervalul median

- Intervalul median este primul interval cu frecvena cumulat mai mare dect
locul (rangul, poziia) medianei.

- Mediana se va estima prin interpolare pe intervalul median pe baza formulei:

1 r
nk + 1 Fc ( Me 1)
2 k =1
Me = xinf Me + hMe
nMe ,
unde:
xinf Me reprezint limita inferioar a intervalului median;
hMe reprezint mrimea intervalului median;
1 r n +1
nk + 1 =
2 k =1 2 reprezint locul medianei n serie;
Fc (Me - 1) reprezint frecvena cumulat a intervalului anterior celui median;
nMe reprezint frecvena absolut a intervalului median.

Similar se determin mediana i n cazul unei serii de distribuie de frecvene relative.

14
Mediana
 Mediana poate fi determinat i pentru variabilele
nenumerice msurate pe scala ordinal.
 Pentru o variabil nenumeric, determinarea medianei
este mai uoar dac datele sunt sistematizate
 Se parcurg urmtorii pai :
- calcularea frecvenelor cumulate cresctor, (Fck)
- determinarea locului medianei cu formula (n+1)/2
- determinarea Me ca fiind valoarea (varianta)
corespunztoare primei frecvene cumulate mai mare
dect (n+1)/2

15
Mediana
n cazul datelor privind clasamentul general la competiiile
internaionale oficiale pentru Federaia Romn de Atletism, n anul
2006, mediana se determin astfel:
Locul Nr. sportivi Frecvene cumulate (Fci)
I 50 50
Me = II 36 86>65
III 31 117
IV 2 119
V 3 122
VI 7 129
Total 129 -
Loc Me = 130/2 = 65, iar valoarea median este locul II, ceea ce
nseamn c jumtate dintre cei 129 de sportivi situai n primele ase
locuri la competiiile internaionale, au ocupat locurile I i II, sau, astfel
spus, jumtate dintre cei 129 de sportivi s-au clasat pe locurile III, IV, V
i VI.

16
Indicatori ai poziiei relative cuantilele

 Cuantilele (percentile, n engl.) reprezint niveluri ale variabilei


care caracterizeaz poziia relativ a unui nivel individual n setul
de date

 Cuantilele au aceeai unitate de msur ca i caracteristica


studiat

 Cuantilele realizeaz o divizare a distribuiei ntr-un numr de k


pri egale

 Cuantilele pot fi folosite pentru a analiza forma distribuiei

17
Indicatori ai poziiei relative cuantilele

n caracterizarea unui set de date, cele mai uzuale cuantile sunt:

 Cuantila de ordin 2 ( mediana )

 Cuantilele de ordin 4 (cuartile, notate Q1, Q2, Q3, care mpart seria
n patru pri egale, delimitnd cte 25% din observaii, Q2=Me)

 Cuantilele de ordin 10 (decile, notate D1, ...., D9 i care delimiteaz


cte 10% din observaii, D5 = Me)

 Cuantilele de ordin 100 (centile, care delimiteaz cte 1% din


observaii)

Cuantilele de ordin mai mare dect 2 se folosesc n cazul


seturilor de date de volum mare ( n 30)

18
Indicatori ai poziiei relative cuantilele

y
Frecvene relative

25% 25% 25% 25%


o Q1 Q2=Me Q3 x

19
Modul
3. Modul (Mo, mode n engl.) reprezint valoarea cel mai
des ntlnit ntr-o serie de date (valoarea care are cea
mai mare frecven de apariie)
 Valoarea modal se poate determina pentru orice tip de variabil (nenumeric sau
numeric), indiferent de scala de msurare.
 Modul este singurul indicator ce poate fi determinat pentru variabilele msurate pe scala
nominal.
 Grafic, ntr-o histogram ori poligon al frecvenelor, modul reprezint valoarea de pe abscis,
corespunztoare vrfului reprezentrii.
 O serie de date statistice poate s aib una sau mai multe valori modale.

 O distribuie cu un singur mod se numete unimodal


(a), o distribuie este bimodal (b) dac are dou
valori dominante i multimodal (c) dac are mai mult
de dou valori modale.

20
Modul
ni
ni
a) b)

xi
xi
Mo Mo 1 Mo2

ni
c)

xi
Mo 1 Mo2 Mo 3
21
Modul
I. Determinarea modului pentru o variabil nenumeric

Considerm exemplul referitor la distribuia muzeelor dup tipul acestora:

Tipul muzeului Nr. muzeelor


ni (la sf. anului)

tiinele naturii 44
Istoria tehnicii i tiinei 21
Istorie 117
Etnografie 115
Mo = Istoria culturii ni max = 152
Art 149
Mixte 70
Total 668
Sursa: Anuarul Statistic al Romniei, 2008.

22
Modul
II. Determinarea modului pentru o variabil numeric

a) Serie simpl (date nesistematizate)

Pentru o serie numeric de forma {30, 32, 40, 35, 32, 37, 34,
32, 35, 41}, Mo = 32, deoarece valoarea 32 apare de cele mai
multe ori.

Dac toate valorile apar cu aceeai frecven spunem c seria nu are mod.

b) Serie de distribuie de frecvene (date sistematizate)

Dac datele sunt sistematizate pe intervale de variaie modul


se determin, prin interpolare astfel:

23
MODUL

1. Se identific intervalul modal (intervalul cu frecvena maxim)

2. Se calculeaz modul, prin relaia:

1
Mo = x 0 + h
1 + 2
unde:
x0 este limita inferioar a intervalului modal;
h este mrimea intervalului modal;


1 = nMo nMo1 este diferena ntre frecvena intervalului
modal i frecvena intervalului anterior celui modal;

2 = nMo nMo+1 este diferena ntre frecvena intervalului


modal i frecvena intervalului urmtor celui modal;

24
Modul
Exemplu
Se cunoate distributia a 200 de agenti economici in functie de cifra de afaceri:

Intervale de variaie a cifrei de afaceri Numr de ageni economici


(zeci mii euro) (nk)
5-15 5

15-25 15

25-35 120

35-45 40

45-55 20

Total 200

120 15
M o = 25 + 10 = 30 ,67
(120 15 ) + (120 40 )
Cele mai multe firme au realizat o cifr de afaceri de aproximativ 30,67 zeci mii euro. 25
Analiza comparativ a indicatorilor tendinei centrale

Pentru a obine o imagine complet asupra unui fenomen


economico-social se determin i analizez att cei trei
indicatori ai tendinei centrale, ct i relaia dintre ei.

 Media poate fi utilizat cnd setul de date este (cel puin


aproximativ) normal distribuit i, n acest caz, este cel mai
potrivit indicator pentru a caracteriza tendina central.
 Media este indicatorul care va fi utilizat cel mai des deoarece
rspunde cel mai bine scopului inferenei statistice.
 Media este mai stabil i mai puin sensibil la fluctuaiile de
selecie dect mediana
 Media poate fi supus cu uurin calculelor algebrice, spre
deosebire de median
Dac seria se compune din mai multe subserii componente, mediana seriei rezultante nu se
poate exprima prin medianele subseriilor componente.

26
Analiza comparativ a indicatorilor tendinei centrale

 Modul poate fi calculat pentru orice set de date univariate


 Modul poate fi afectat de modalitatea de construire a
intervalelor, pentru date numerice grupate.

 Mediana poate fi calculat pentru orice tip de date, cu


excepia celor nominale (care nu pot fi ordonate).
 Mediana este indicat atunci cnd:
- datele sunt profund asimetrice
- exist valori extreme
- datele sunt msurate pe scala ordinal

27
Analiza comparativ a indicatorilor tendinei centrale

 Cei trei indicatori medii (de calcul i de poziie) ofer,


informaii pertinente privind forma distribuiei ntr-o serie de
date statistice:
 pentru o distribuie simetric, media, mediana i modul
coincid (a).
 dac distribuia este cu tendin de normalitate, dar
asimetric spre dreapta, adic spre valori mari (cu coada
mai lung a distribuiei spre valorile mari), atunci x > Me > Mo
(b);
 dac distribuia este cu tendin de normalitate, dar
asimetric spre stnga, adic spre valori mici (cu coada mai
lung a distribuiei spre valorile mici), atunci x < Me < Mo (c).

28
Analiza comparativ indicatorilor tendinei centrale

y y y

o x=Me=Mo x o Mo Me x x o x Me Mo x

Pentru repartiii moderat asimetrice, exist o relaie:

(
x M 0 3 x Me )
29

S-ar putea să vă placă și