Sunteți pe pagina 1din 27

BAZELE STATISTICII

CURS 6

Măsuri statistice descriptive pentru


date univariate (II)
A. Măsurarea tendinţei centrale

1
Mediana
 Mediana poate fi determinată şi pentru variabilele
nenumerice măsurate pe scala ordinală.
 Pentru o variabilă nenumerică, determinarea medianei
este mai uşoară dacă datele sunt sistematizate
 Se parcurg următorii paşi :
- calcularea frecvenţelor cumulate crescător, (Fci)
- determinarea locului medianei cu formula (n+1)/2
- determinarea Me ca fiind valoarea (varianta)
corespunzătoare primei frecvenţe cumulate mai mare
decât (n+1)/2

2
Mediana
În cazul datelor privind clasamentul general la competiţiile
internaţionale oficiale pentru Federaţia Română de Atletism, în anul
2006, mediana se determină astfel:
Locul Nr. sportivi Frecvenţe cumulate (Fci)
I 50 50
Me = II 36 86>65
III 31 117
IV 2 119
V 3 122
VI 7 129
Total 129 -
Loc Me = 130/2 = 65, iar valoarea mediană este locul II, ceea ce
înseamnă că jumătate dintre cei 129 de sportivi situaţi în primele şase
locuri la competiţiile internaţionale, au ocupat locurile I şi II, sau, astfel
spus, jumătate dintre cei 129 de sportivi s-au clasat pe locurile III, IV, V
şi VI.

3
Mediana
- Mediana se va estima prin interpolare pe intervalul median pe baza formulei:

1 r 
  ni  1  FC ( Me1)
2  i 1 
Me  xinf Me  hMe
nMe ,

xinf Me reprezintă limita inferioară a intervalului median;


hMe reprezintă mărimea intervalului median;
1 r  n 1
  ni  1 
2  i 1  2 reprezintă locul medianei în serie;
FC(Me - 1) reprezintă frecvenţa cumulată a intervalului ante-rior celui median;
nMe reprezintă frecvenţa absolută a intervalului median.

Similar se determină mediana şi în cazul unei serii de distribuţie de frecvenţe relative.

4
Indicatori ai poziţiei relative – cuantilele

 Cuantilele (percentile, în engl.) reprezintă niveluri ale variabilei


care caracterizează poziţia relativă a unui nivel individual în setul
de date

 Cuantilele au aceeaşi unitate de măsură ca şi caracteristica


studiată

 Cuantilele realizează o divizare a distribuţiei într-un număr de „k”


părţi egale

 Cuantilele pot fi folosite pentru a analiza forma distribuţiei

5
Indicatori ai poziţiei relative – cuantilele

În caracterizarea unui set de date, cele mai uzuale cuantile sunt:

 Cuantila de ordin 2 ( mediana )

 Cuantilele de ordin 4 (cuartile, notate Q1, Q2, Q3, care împart seria
în patru părţi egale, delimitând câte 25% din observaţii, Q2=Me)

 Cuantilele de ordin 10 (decile, notate D1, ...., D9 şi care delimitează


câte 10% din observaţii, D5 = Me)

 Cuantilele de ordin 100 (centile, care delimitează câte 1% din


observaţii)

Cuantilele de ordin mai mare decât 2 se folosesc în cazul


seturilor de date de volum mare ( n  30)

6
Indicatori ai poziţiei relative – cuantilele

7
Indicatori ai poziţiei relative – cuantilele

 Se utilizează cinci indicatori, din categoria indicatorilor medii de


poziţie care oferă informaţii privind tendinţa centrală, variabilitatea şi
forma distribuţiei variabilei studiate:

- valoarea minimă -xmin (numită şi percentila 0);

- cuartila inferioară -Q1 (delimitează cele mai mici 25% din valori);

- mediana -Me (delimitează 50% din valori);

- cuartila superioară -Q3 (delimitează cele mai mari 25% din valori);

- valoarea maximă -xmax (numită şi percentila 100)

Cele cinci valori se reprezintă grafic prin intermediul diagramei Box-Plot

8
Indicatori ai poziţiei relative – cuantilele

Diagrama Box-Plot

9
Indicatori ai poziţiei relative – cuantilele

 Valorile extreme (outliers, în engl.) ale unei


serii de date se pot determina, pe baza
diagramei Boxplot, ca fiind cele situate in afara
limitelor date de x *min și x *max, calculate astfel:

x *min  Q1  1,5  IQR x *max  Q3  1,5  IQR

 IQR se numeşte abatere intercuartilică


(InterQuartile Range)
IQR  Q3  Q1

10
Modul
3. Modul (Mo, mode în engl.) reprezintă valoarea cel mai
des întâlnită într-o serie de date (valoarea care are cea
mai mare frecvenţă de apariţie)

 Valoarea modală se poate determina pentru orice tip


de variabilă (nenumerică sau numerică), indiferent de
scala de măsurare.

 O distribuţie cu un singur mod se numeşte unimodală


(a), o distribuţie este bimodală (b) dacă are două
valori dominante şi multimodală (c) dacă are mai mult
de două valori modale.

11
Modul
ni
ni
a) b)

xi
xi
Mo Mo1 Mo2

ni
c)

xi
Mo1 Mo2 Mo3
12
Modul
I. Determinarea modului pentru o variabilă nenumerică

Considerăm exemplul referitor la distribuţia muzeelor după tipul acestora:

Tipul muzeului Nr. muzeelor


ni (la sf. anului)

Ştiinţele naturii 44
Istoria tehnicii şi ştiinţei 21
Istorie 117
Etnografie 115
Mo = Istoria culturii ni max = 152
Artă 149
Mixte 70
Total 668
Sursa: Anuarul Statistic al României, 2008.

13
Modul
II. Determinarea modului pentru o variabilă numerică

a) Serie simplă (date nesistematizate pe grupe)

Pentru o serie numerică de forma {30, 32, 40, 35, 32, 37, 34,
32, 35, 41}, Mo = 32, deoarece valoarea 32 apare de cele mai
multe ori.

Dacă toate valorile apar cu aceeaşi frecvenţă spunem că seria nu are mod.

b) Serie de distribuţie de frecvenţe (date sistematizate


pe grupe)

Dacă datele sunt sistematizate pe intervale de variaţie modul


se determină, prin interpolare astfel:

14
MODUL

1. Se identifică intervalul modal (intervalul cu frecvenţa maximă)

2. Se calculează modul, prin relaţia:

1
Mo  x 0  h 
1   2
unde:
• x0 este limita inferioară a intervalului modal;
• h este mărimea intervalului modal;

• 1  nMo  nMo1 este diferenţa între frecvenţa intervalului


modal şi frecvenţa intervalului anterior celui modal;

•  2  nMo  nMo1 este diferenţa între frecvenţa intervalului


modal şi frecvenţa intervalului următor celui modal;

15
Modul
Exemplu
Se cunoaşte distributia a 200 de agenti economici in functie de cifra de afaceri:

Intervale de variaţie a cifrei de afaceri Număr de agenţi economici


(zeci mii euro) (ni)

5-15 5

15-25 15

25-35 120

35-45 40

45-55 20

Total 200

120  15
Mo  25  10   30,67
120  15  120  40
Cele mai multe firme au realizat o cifră de afaceri de aproximativ 30,67 zeci mii euro. 16
Analiza comparativă a indicatorilor tendinţei centrale

Pentru a obţine o imagine completă asupra unui fenomen


economico-social se determină şi analizeză atât cei trei
indicatori ai tendinţei centrale, cât şi relaţia dintre ei.

 Media poate fi utilizată când setul de date este (cel puţin


aproximativ) normal distribuit şi, în acest caz, este cel mai
potrivit indicator pentru a caracteriza tendinţa centrală.
 Media este indicatorul care va fi utilizat cel mai des deoarece
răspunde cel mai bine scopului inferenţei statistice.
 Media este mai stabilă şi mai puţin sensibilă la fluctuaţiile de
selecţie decît mediana
 Media poate fi supusă cu uşurinţă calculelor algebrice, spre
deosebire de mediană.

17
Analiza comparativă a indicatorilor tendinţei centrale

 Modul poate fi calculat pentru orice set de date univariate


 Modul poate fi afectat de modalitatea de construire a
intervalelor, pentru date numerice grupate.

 Mediana poate fi calculată pentru orice tip de date, cu


excepţia celor nominale (care nu pot fi ordonate).
 Mediana este indicată atunci când:
- datele sunt profund asimetrice
- există valori extreme
- datele sunt măsurate pe scala ordinală

18
Analiza comparativă a indicatorilor tendinţei centrale

 Cei trei indicatori medii (de calcul şi de poziţie) oferă,


informaţii pertinente privind forma distribuţiei într-o serie de
date statistice:
 pentru o distribuţie simetrică, media, mediana şi modul
coincid (a).
 dacă distribuţia este cu tendinţă de normalitate, dar
asimetrică spre dreapta, adică spre valori mari (cu coada
mai lungă a distribuţiei spre valorile mari), atunci x  Me  Mo
(b);
 dacă distribuţia este cu tendinţă de normalitate, dar
asimetrică spre stânga, adică spre valori mici (cu coada mai
lungă a distribuţiei spre valorile mici), atunci x  Me  Mo (c).

19
Analiza comparativă indicatorilor tendinţei centrale

Pentru repartiţii moderat asimetrice, există o relaţie:


x  M 0  3 x  Me 
20
Alte tipuri de medii
1. MEDIA ARMONICĂ =medie de calcul, cu aplicaţii speciale, care se determină, ca
valoarea inversă a mediei aritmetice, calculată din inversele valorilor seriei:
n
xh  n


1
i 1
xi
r

n i 1
i
1 100
xh  r
 r
 r

  
1 1 * 1 *%
ni ni ni
i 1
xi i 1
xi i 1
xi
21
Alte tipuri de medii
2. MEDIA PĂTRATICĂ = medie de calcul cu aplicaţii speciale şi reprezintă
valoarea care, înlocuind termenii seriei, nu modifică suma pătratelor lor:


i 1
2
xi
xp 
n
r r r

i 1
xi2 ni 
i 1
xi2 ni* 
i 1
xi2 ni*%
xp  r
 
1 100
n
i 1
i

22
Alte tipuri de medii
3. Media geometrică se calculează ca rădăcina de ordinul n din
produsul celor n valori ale unei serii de date:

.
xg  n x
i 1
i

 r


ni
xg  i 1
ni
xi
i 1
Între mediile de calcul prezentate există relaţia:
xh  x g  x  x p

23
Aplicatii ale mediei geometrice
Media geometrica este folosita, de exemplu, pentru a calcula rata
medie de profit a unei investitii sau a unui portofoliu.

Daca Rt este dobanda sau rata profitului înregistrat în anul t pentru 1


u.m. investită la începutul anului,  1  Rt  1 sau  100%  Rt %  100% ,
atunci 1  Rt este factorul de fructificare al anului t, adică valoarea la
sfârşitul anului t a 1 u.m. investită la începutul anului t, 0  1  Rt  2 .

Daca la inceputul primului an s-a investit 1 u.m., atunci la sfârşitul


anului n, valoarea finală este 1  R1 1  R2  ... 1  Rn  .

Ne interesează care ar fi rata anuală constantă (de profitabilitate) R


pe toată perioada celor n ani, care ar fi dat aceeaşi valoare finală,
adică 1  R n  1  R1 1  R2  ... 1  Rn  , deci factorul constant de fructificare
anual este 1  R  n 1  R1 1  R2  ... 1  Rn  , adica media geometrica a factorilor
anuali de fructificare si de aici, R  n 1  R1 1  R2  ... 1  Rn   1 .
24
Alte tipuri de medii
 MEDIA DE ORDIN “ r ” este o generalizare a definiţiilor şi a
formulelor de calcul ale tipurilor de medii prezentate şi se determină
cu formula:
1
 n 
  i ni
r
r
x 
x  r   i 1n 
 
 
 i 1
ni


 Pentru r = 1 se obţine media aritmetică

 Pentru r = 2 se obţine media pătratică

 Pentru r = -1 se obţine media armonică

25
Medii robuste

Prezenţa valorilor de tip outlier distorsionează valoarea indicatorilor tendinţei centrale,


în special media, recomandându-se în aceste cazuri determinarea unor medii robuste. Aceste
medii încearcă să elimine efectul valorilor aberante (fără a afecta rezultatele).

Cele mai utilizate medii robuste sunt:


Media winsorizată 95%, în calculul căreia primele 2.5% dintre valorile ordonate sunt
înlocuite cu „percentila 2.5” şi ultimele 2.5% dintre valori sunt înlocuite cu „percentila
97.5”.
Media trunchiată 95% (trimmed mean în engl.), este calculată excluzând primele 2.5% şi
ultimele 2.5% dintre valorile seriei ordonate.

26
Bibliografie: Material suport, pag. 9-19

27

S-ar putea să vă placă și