Sunteți pe pagina 1din 21

STATISTICĂ I

CURS 7

Măsuri statistice descriptive pentru


date univariate (II)
A. Măsurarea tendinţei centrale

1
Indicatori ai poziţiei relative – cuantilele

 Cuantilele (percentile, în engl.) reprezintă niveluri ale variabilei


care caracterizează poziţia relativă a unui nivel individual în setul
de date

 Cuantilele au aceeaşi unitate de măsură ca şi caracteristica


studiată

 Cuantilele realizează o divizare a distribuţiei într-un număr de „k”


părţi egale

 Cuantilele pot fi folosite pentru a analiza forma distribuţiei

2
Indicatori ai poziţiei relative – cuantilele

În caracterizarea unui set de date, cele mai uzuale cuantile sunt:

 Cuantila de ordin 2 ( mediana )

 Cuantilele de ordin 4 (cuartile, notate Q1, Q2, Q3, care împart seria
în patru părţi egale, delimitând câte 25% din observaţii, Q2=Me)

 Cuantilele de ordin 10 (decile, notate D1, ...., D9 şi care delimitează


câte 10% din observaţii, D5 = Me)

 Cuantilele de ordin 100 (centile, care delimitează câte 1% din


observaţii)

Cuantilele de ordin mai mare decâtn 230


se folosesc în cazul
seturilor de date de volum mare ( )

3
Indicatori ai poziţiei relative – cuantilele

4
Indicatori ai poziţiei relative – cuantilele

 Se utilizează cinci indicatori, din categoria indicatorilor medii de


poziţie care oferă informaţii privind tendinţa centrală, variabilitatea şi
forma distribuţiei variabilei studiate:

- valoarea minimă -xmin (numită şi percentila 0);

- cuartila inferioară -Q1 (delimitează cele mai mici 25% din valori);

- mediana -Me (delimitează 50% din valori);

- cuartila superioară -Q3 (delimitează cele mai mari 25% din valori);

- valoarea maximă -xmax (numită şi percentila 100)

Cele cinci valori se reprezintă grafic prin intermediul diagramei Box-Plot

5
Indicatori ai poziţiei relative – cuantilele

Diagrama Box-Plot

6
Indicatori ai poziţiei relative – cuantilele

 Valorile extreme (outliers, în engl.) ale unei


serii de date se determină, pe baza diagramei
Boxplot, astfel:

xmin  xi  Q1  1,5  IQR xmax  xi  Q3  1,5  IQR

 IQR se numeşte abatere intercuartilică


(InterQuartile Range)
IQR  Q3  Q1

7
Modul
3. Modul (Mo, mode în engl.) reprezintă valoarea cel mai
des întâlnită într-o serie de date (valoarea care are cea
mai mare frecvenţă de apariţie)

 O distribuţie cu un singur mod se numeşte unimodală


(a), o distribuţie este bimodală (b) dacă are două
valori dominante şi multimodală (c) dacă are mai
mult de două valori modale.

8
Modul
ni
ni
a) b)

xi
xi
Mo Mo1 Mo2

ni
c)

xi
Mo1 Mo2 Mo3

9
Modul
I. Determinarea modului pentru o variabilă nenumerică

Considerăm exemplul referitor la distribuţia muzeelor după tipul acestora:

Tipul muzeului Nr. muzeelor


ni (la sf. anului)

Ştiinţele naturii 44
Istoria tehnicii şi ştiinţei 21
Istorie 117
Etnografie 115
ni max
Mo = Istoria culturii = 152
Artă 149
Mixte 70
Total 668
Sursa: Anuarul Statistic al României, 2008.

10
Modul
II. Determinarea modului pentru o variabilă numerică

a) Serie simplă (date nesistematizate)

Pentru o serie numerică de forma {30, 32, 40, 35, 32, 37, 34,
32, 35, 41}, Mo = 32, deoarece valoarea 32 apare de cele mai
multe ori.

b) Serie de distribuţie de frecvenţe (date sistematizate)

Dacă datele sunt sistematizate pe intervale de variaţie modul


se determină, prin interpolare astfel:

11
MODUL

1. Se identifică intervalul modal (intervalul cu frecvenţa maximă)

2. Se calculează modul, prin relaţia:

1
Mo  x 0  h 
1   2
unde:
• x0 este limita inferioară a intervalului modal;
• h este mărimea intervalului modal;
1  nMo  nMo1
• este diferenţa între frecvenţa intervalului
modal şi frecvenţa intervalului anterior celui modal;
 2  nMo  nMo1
• este diferenţa între frecvenţa intervalului
modal şi frecvenţa intervalului următor celui modal;

12
Modul
Exemplu
Se cunoaşte distributia a 200 de agenti economici in functie de cifra de afaceri:

Intervale de variaţie a cifrei de afaceri Număr de agenţi economici


(zeci mii euro) (ni)

5-15 5

15-25 15

25-35 120

35-45 40

45-55 20

Total 200

120  15
Mo  25  10   30,67
120  15  120  40
Cele mai multe firme au realizat o cifră de afaceri de aproximativ 30,67 zeci mii euro. 13
Analiza comparativă a indicatorilor tendinţei centrale

Pentru a obţine o imagine completă asupra unui fenomen


economico-social se determină şi analizeză atât cei trei
indicatori ai tendinţei centrale, cât şi relaţia dintre ei.

 Media poate fi utilizată când setul de date este (cel puţin


aproximativ) normal distribuit şi, în acest caz, este cel mai
potrivit indicator pentru a caracteriza tendinţa centrală.
 Media este indicatorul care va fi utilizat cel mai des deoarece
răspunde cel mai bine scopului inferenţei statistice.
 Media este mai stabilă şi mai puţin sensibilă la fluctuaţiile de
selecţie decît mediana
 Media poate fi supusă cu uşurinţă calculelor algebrice, spre
deosebire de mediană
Dacă seria se compune din mai multe subserii componente, mediana seriei rezultante nu se
poate exprima prin medianele subseriilor componente.

14
Analiza comparativă a indicatorilor tendinţei centrale

 Modul poate fi calculat pentru orice set de date univariate


 Modul poate fi afectat de modalitatea de construire a
intervalelor, pentru date numerice grupate.

 Mediana poate fi calculată pentru orice tip de date, cu


excepţia celor nominale (care nu pot fi ordonate).
 Mediana este indicată atunci când:
- datele sunt profund asimetrice
- există valori extreme
- datele sunt măsurate pe scala ordinală

15
Analiza comparativă a indicatorilor tendinţei centrale

 Cei trei indicatori medii (de calcul şi de poziţie) oferă, informaţii


pertinente privind forma distribuţiei într-o serie de date
statistice:
 pentru o distribuţie simetrică, media, mediana şi modul
coincid (a).
 dacă distribuţia este cu tendinţă de normalitate, dar
asimetrică spre dreapta, adică spre valori mari (cu coada
mai lungă a distribuţiei spre valorile mari), atunci x  Me  Mo
(b);
 dacă distribuţia este cu tendinţă de normalitate, dar
asimetrică spre stânga, adică spre valori mici (cu coada mai
lungă a distribuţiei spre valorile mici), atunci x  Me  Mo (c).

16
Analiza comparativă indicatorilor tendinţei centrale

Pentru repartiţii moderat asimetrice, există o relaţie:


x  M 0  3 x  Me 
17
Alte tipuri de medii
1. MEDIA ARMONICĂ =medie de calcul, cu aplicaţii speciale, care se determină, ca
valoarea inversă a mediei aritmetice, calculată din inversele valorilor seriei:
r

xh 
n n i 1
i
1 100
n
1 xh   

r r r
1 1 * 1
i 1
xi 
i 1
xi
ni 
i 1
xi
ni x n
i 1 i
*%
i

 Media armonică este folosită:


- în situaţia în care distribuţia este profund asimetrică, în forma de J, cu predominanţă a
valorilor mici;
- la calculul nivelului mediu al unei caracteristici derivate, cu caracter de mărime
relativă sau mărime medie (preţurile (în u.m./kg), vitezele (în km/h) sau
productivitatea (cantitate/factor de producţie));
- dacă între două variabile există o relaţie de inversă proporţionalitate, atunci, dacă
pentru una folosim media aritmetică drept indicator al tendinţei centrale, pentru cealaltă
vom folosi media armonică

18
Alte tipuri de medii
2. MEDIA PĂTRATICĂ = medie de calcul cu aplicaţii speciale şi reprezintă
valoarea care, înlocuind termenii seriei, nu modifică suma pătratelor lor:

r r r

  
n
xi2 ni xi2 ni* xi2 ni*%
i 1
xi2
xp  i 1
r
 i 1
 i 1

xp  1 100
n i 1
ni

 Media pătratică este folosită:


- în situaţia în care distribuţia este asimetrică, predominând valorile mari;
- în determinarea unor indicatori ai împrăştierii faţă de tendinţa centrală, atunci
când dorim să acordăm o importanţă crescută abaterilor mari ale termenilor de la
tendinţa centrală.

19
Alte tipuri de medii
3. Media geometrică se calculează ca rădăcina de ordinul n din
produsul celor n valori ale unei serii de date:
r
n
 ni r
xg  n  i 1
xi xg  i 1

i 1
xini

 Media geometrică este zero dacă una dintre valorile variabilei este zero
 Media geometrică nu se determnă dacă variabila ia şi valori negative.
 În practică, media geometrică se foloseşte pentru calculul indicelui
mediu de modificare a unui fenomen.

Între mediile de calcul prezentate există relaţia:


xh  x g  x  x p

20
Alte tipuri de medii
 MEDIA DE ORDIN “ r ” este o generalizare a definiţiilor şi a
formulelor de calcul ale tipurilor de medii prezentate şi se determină
cu formula:
1
 n
 r

  xi ni
r

x r   i 1n 
 
 
 i 1
ni


Pentru diferite valori ale lui “r” se obţin diferite tipuri de medie:
 Pentru r = 1 se obţine media aritmetică

 Pentru r = 2 se obţine media pătratică

 Pentru r = -1 se obţine media armonică

21

S-ar putea să vă placă și