Sunteți pe pagina 1din 39

BAZELE STATISTICII

CURS 4 - 5

Măsuri statistice descriptive pentru


date univariate (I)
A. Măsurarea tendinţei centrale

1
STATISTICA DESCRIPTIVA
VANZARI(mii lei)

Mean 11.5116667
Standard Error 0.36183846
Median 12
Mode 13.1
Standard Deviation 2.80278866
Sample Variance 7.85562429
Kurtosis -0.08692287
Skewness -0.35192546
Range 12.3
Minimum 5
Maximum 17.3
Sum 690.7
Count 60

2
Măsuri statistice descriptive pentru date univariate

 Pentru o variabilă numerică, folosind indicatorii statistici,


putem analiza trei proprietăţi majore:
1. Tendinţa centrală
2. Variabilitatea
3. Forma distribuţiei

Precizări
• Dacă indicatorii statistici descriptivi sunt calculaţi pentru o colectivitate generală
se numesc parametri şi se notează, de regulă, cu litere greceşti.
• Indicatorii descriptivi determinaţi pentru un eşantion se numesc estimatori şi se
notează, de regulă, cu litere romane.
• În cercetarea statistică, folosim, în general, eşantioane şi folosim indicatorii
descriptivi în scopul estimării parametrilor colectivităţii generale.
• Vor fi explicaţi, în continuare, indicatorii statistici descriptivi ce caracterizează
eşantioanele, precizând simbolurile şi formulele utilizate în determinarea aceloraşi
indicatori pentru colectivitatea generală.

3
Măsurarea tendinţei centrale
 Indicatorii tendinţei centrale = indicatori sintetici cu
ajutorul cărora urmărim să exprimăm printr-o singură valoare
ceea este tipic, esenţial, stabil într-o serie de date numerice.
Deoarece nivelurile individuale, înregistrate pentru fiecare unitate statistică în
parte, se manifestă sub influenţa factorilor esenţiali (sistematici) şi neesenţiali
(întâmplători), în procesul de prelucrare a datelor se impune eliminarea
influenţelor întâmplătoare şi exprimarea, într-o singură valoare numerică, a
aspectelor tipice, reprezentative pentru seria de date.

 Indicatorii tendinţei se clasifică, în funcţie de modul


de determinare, în:
- indicatori medii de calcul:
media aritmetică, media armonică, media pătratică, media geometrică
- indicatori medii de poziţie:
modul, mediana

4
Măsurarea tendinţei centrale
 Indicatorii fundamentali ai tendinţei centrale sunt:
1. media aritmetică ( x )
2. mediana (Me)
3. modul (Mo)
Aceşti indicatori au o putere cu atât mai mare de caracterizare a tendinţei
centrale cu cât se determină pe baza unor date mai omogene.

1. Media aritmetică (average, mean, în engl.)


- este indicatorul cel mai utilizat pentru caracterizarea
tendinţei centrale a datelor numerice
- reprezintă valoarea care, înlocuind toţi termenii unei serii,
nu modifică suma acestora
- se calculează ca suma valorilor raportată la numărul lor.

5
Media aritmetică
Formula de calcul a mediei este:
n
- pentru eşantion - estimator
x
i 1
i
x
n
- pentru colectivitatea generală – parametru
N

x
i 1
i

N

- Dacă datele au fost sistematizate într-o serie de distribuţie de frecvenţe, în care


valorile/centrele intervalelor de variaţie xi , i  1, r apar cu frecvenţele ni ,
se determină media ca medie aritmetică ponderată:
r

x n
i 1
i i
x r

n
i 1
i

6
Media aritmetică

Exemplu
Vechimea în muncă a fost înregistrată pentru cinci salariaţi ai unei firme şi
anume: 7, 5, 6, 7 şi 8 ani. Vechimea medie este:

7  5  6  7  8 33
x   6,6 ani.
5 5

Media aritmetică pune în balanţă toate valorile individuale:

5 6 7 8

x =6,6 ani

7
Media aritmetică
 Media aritmetică este afectată de orice valoare sau valori extreme.

Exemplu
Datele pentru vechimea în muncă a 10 salariaţi sunt: 5, 4, 5, 5, 6, 6, 4 şi 20,
atunci vechimea medie este:

5  4  ...  4  20
x  6,6 ani
10

0 5 10 15 20
x = 6,6 ani

5  4  ...  6  4
x  5,1 ani
9

8
Exemplu

Se cunoaşte distribuţia de frecvenţe a 50 de firme referitor la procentul din venituri


cheltuit cu cercetarea-dezvoltarea:

Intervalul de variatie pentru


Nr firme Centrul de interval
procentul din venituri
Grupa xi  ni Fci
cheltuit cu cercetarea- ni xi
dezvoltarea
1 sub 6,25 4 5,70 22,8 4
2 6,25 - 7,35 12 6,80 81,6 16
3 7,35 - 8,45 14 7,90 110,6 30
4 8,45 - 9,55 7 9,00 63 37
5 9,55 - 10,65 7 10,10 70,7 44
6 10,65 - 11,75 3 11,20 33,6 47
7 11,75 - 12,85 0 12,30 0 47
8 12,85 şi peste 3 13,40 40,2 50
Total 50 - 422,5

9
Exemplu
Se observă că pentru primul, respectiv ultimul interval de variaţie nu s-au precizat
ambele limite, ceea ce ar putea sugera că seria de date negrupate conţine valori
extreme.
Pentru a putea calcula media şi aceasta să fie neafectată de aceste valori se
procedează la fixarea limitelor inferioară, respectiv superioară pentru aceste
intervale.
Limitele se determină astfel încât toate intervalele să aibă aceeaşi mărime, adică
1,10.astfel intervalele devin:5,15-6,25, respectiv 12,85-13,95.
r

x n
i 1
i i
422,5
x r
  8,45.
Media va fi: 50
n
i 1
i

Rezultatul arată că procentul mediu cheltuit pentru reclamă şi publicitate de o firmă


din cele 50 luate în studiu este 8,45.
După cum se observă, unele firme cheltuie un procent mai mic pentru cercetare-
dezvoltare (sub 6,25), iar altele alocă un procent mai mare. Procentul alocat diferă
de la o firmă la alta sub acţiunea factorilor sistematici, dar şi întâmplători, care
influenţează într-un sens sau în altul. Dacă toţi factorii ce influenţează procentul
alocat ar acţiona în mod egal şi constant asupra tuturor firmelor, atunci suma
alocată de o firmă pentru cercetare-dezvoltare ar fi de 8,45% din venituri.

10
Media aritmetică
Particularităţi în calculul mediei

1. Dacă toate nivelurile variabilei sunt egale (cu o constantă) atunci


media este egală cu constanta, adică:
dacă x1 = x2 = ... = xn = a, atunci x = a.

2. Media poate fi sau nu egală cu o valoare individuală înregistrată şi


are unitatea de măsură a variabilei studiate.

3. Media se poate determina şi dacă se cunoaşte doar suma valorilor


şi numărul de unităţi din colectivitate (dacă se cunosc veniturile
totale ale unei familii şi numărul de persoane se poate calcula
venitul mediu pe o persoană din familie).

4. Media se situează întotdeauna între valoarea minimă (xmin) şi


valoarea maximă (xmax) a variabilei
11
Media aritmetică

5. Media poate fi determinată şi prin utilizarea frecvenţelor relative:


r

 x n
i 1
i
*%
i
x .
100

6. Dacă o serie statistică este alcătuită din m serii componente, pentru care s-au
 
calculat mediile parţiale x j , j  1, m , atunci media întregii serii poate fi calculată
ca o medie aritmetică ponderată din mediile parţiale
m

x j 1
j nj
x m

nj 1
j

unde nj 
reprezintă volumul seriei componente j j  1, m . 

12
Mediana
2. Mediana (median, în engl.) reprezintă valoarea din
mijlocul unei serii de date ordonate.
- este un indicator mediu de poziţie care face parte din categoria
cuantilelor
- mediana este un indicator al tendinţei centrale, fiind situată în
centrul seriei
- 50% dintre valori sunt situate la stânga medianei, iar 50% la
dreapta medianei
- ia în consideraţie doar poziţia observaţiilor în serie, nu şi mărimea
lor efectivă (nu este afectată de prezenţa valorilor extreme).

 Mediana se poate determina pe cale grafică. Ea reprezintă proiecţia pe


axa absciselor a punctului de intersecţie dintre cele două curbe ale
frecvenţelor cumulate (crescător şi descrescător).

13
Mediana
 Pentru a determina mediana se introduce noţiunea de ranguri,
adică numere de ordine asociate observaţiilor, de la cea mai
mică (cu rangul 1), până la cea mai mare (rangul n)
 Rangul (locul ) medianei va fi, atunci, (n+1)/2, deci rangul
unităţii din mijlocul seriei.

Exemplu
Pentru o serie numerică de forma {30, 32, 40, 35, 32, 37, 34, 32, 35, 41},
mediana se determină astfel:
- ordonăm crescător valorile seriei: {30, 32, 32, 32, 34, 35, 35, 37, 40, 41}
- calculăm locul medianei: Loc Me = (n+1)/2 = 11/2=5,5
- mediana este valoarea cuprinsă între al 5-lea şi al 6-lea termen al seriei
ordonate şi se calculează ca fiind media aritmetică a celor doi termeni aflaţi în
centrul distribuţiei:
Astfel, jumătate dintre valorile seriei sunt mai mici decât valoarea 34,5.

14
Mediana

 Dacă seria are un număr par de termeni atunci


mediana se calculează ca media aritmetică a celor doi
termeni situaţi în mijlocul seriei ordonate.

 Dacă seria are un număr impar de termeni atunci


mediana reprezintă termenul din mijlocul seriei
ordonate.

15
Mediana
- Pentru o repartiţie de frecvenţe pe intervale de variaţie, mediana se va
încadra în intervalul median

- Intervalul median este primul interval cu frecvenţa cumulată mai mare decât
locul (rangul, poziţia) medianei.

- Mediana se va estima prin interpolare pe intervalul median pe baza formulei:

1 r 
  ni  1  FC ( Me 1)
2  i 1 
Me  xinf Me  hMe ,
nMe
unde:
xinf Me reprezintă limita inferioară a intervalului median;
hMe reprezintă mărimea intervalului median;
1 r  n 1
  ni  1 
2  i 1  2 reprezintă locul medianei în serie;
FC(Me - 1) reprezintă frecvenţa cumulată a intervalului ante-rior celui median;
nMe reprezintă frecvenţa absolută a intervalului median.

Similar se determină mediana şi în cazul unei serii de distribuţie de frecvenţe relative.

16
Mediana
 Mediana poate fi determinată şi pentru variabilele
nenumerice măsurate pe scala ordinală.
 Pentru o variabilă nenumerică, determinarea medianei
este mai uşoară dacă datele sunt sistematizate
 Se parcurg următorii paşi :

- calcularea frecvenţelor cumulate crescător, (Fci)


- determinarea locului medianei cu formula (n+1)/2
- determinarea Me ca fiind valoarea (varianta)
corespunzătoare primei frecvenţe cumulate mai mare
decât (n+1)/2

17
Mediana
În cazul datelor privind clasamentul general la competiţiile
internaţionale oficiale pentru Federaţia Română de Atletism, în anul
2006, mediana se determină astfel:
Locul Nr. sportivi Frecvenţe cumulate (Fci)
I 50 50
Me = II 36 86>65
III 31 117
IV 2 119
V 3 122
VI 7 129
Total 129 -
Loc Me = 130/2 = 65, iar valoarea mediană este locul II, ceea ce
înseamnă că jumătate dintre cei 129 de sportivi situaţi în primele şase
locuri la competiţiile internaţionale, au ocupat locurile I şi II, sau, astfel
spus, jumătate dintre cei 129 de sportivi s-au clasat pe locurile III, IV, V
şi VI.

18
Indicatori ai poziţiei relative – cuantilele

 Mediana este un indicator mediu de poziţie care face parte din


categoria cuantilelor
 Cuantilele reprezintă niveluri ale variabilei, având aceeaşi unitate de
măsură ca şi caracteristica studiată, care caracterizează poziţia
relativă a unui nivel individual în setul de date.
 Cuantilele (percentile, în engl.) realizează o divizare a distribuţiei
într-un număr de „k” părţi egale, localizarea lor în seria ordonată de
date determinându-se cu relaţia:

k n  1
Qk 
unde: q
n reprezintă volumul colectivităţii
k reprezintă indexul cuantilei
q reprezintă numărul părţilor în care se împarte seria de date de către cuantilele
luate în considerare.

19
Indicatori ai poziţiei relative – cuantilele

În caracterizarea unui set de date, cele mai uzuale cuantile sunt:

 Cuantila de ordin 2 ( mediana )

 Cuantilele de ordin 4 (cuartile, notate Q1, Q2, Q3, care împart seria
în patru părţi egale, delimitând câte 25% din observaţii, Q2=Me)

 Cuantilele de ordin 10 (decile, notate D1, ...., D9 şi care delimitează


câte 10% din observaţii, D5 = Me)

 Cuantilele de ordin 100 (centile, care delimitează câte 1% din


observaţii)

Cuantilele de ordin mai mare decâtn 230se folosesc în cazul


seturilor de date de volum mare ( )

20
Indicatori ai poziţiei relative – cuantilele

21
Indicatori ai poziţiei relative – cuantilele
 De exemplu, ne poate interesa capacitatea de cazare (locuri) peste care se situează cele mai
mari 20% dintre unităţile de cazare dintr-o zonă de destinaţie turistică, ori nivelul încasărilor
sub care s-au situat cele mai „slabe” 25% din zile, din punctul de vedere al vânzărilor realizate
de un magazin comercial.

 Cuantilele pot fi folosite pentru a analiza forma distribuţiei,


astfel:
- de exemplu, dacă prima decilă (decila inferioară) este mai apropiată
(ca valoare) de mediană, în timp ce decila a noua (decila superioară)
este relativ mai depărtată de mediană, vom concluziona că distribuţia
este pozitiv înclinată către valorile mari ale variabilei;

- dacă prima şi cea de-a treia cuartilă sunt situate aproximativ


la aceeaşi distanţă de mediană, vom concluziona că distribuţia
variabilei este aproximativ simetrică.

22
Indicatori ai poziţiei relative – cuantilele

 Se utilizează, în general, cinci indicatori, din categoria indicatorilor


medii de poziţie care oferă informaţii privind tendinţa centrală,
variabilitatea şi forma distribuţiei variabilei studiate:

- valoarea minimă -xmin (numită şi percentila 0);

- cuartila inferioară -Q1 (delimitează cele mai mici 25% din valori);

- mediana -Me (delimitează 50% din valori);

- cuartila superioară -Q3 (delimitează cele mai mari 25% din valori);

- valoarea maximă -xmax (numită şi percentila 100)

Cele cinci valori se reprezintă grafic prin intermediul diagramei Box-Plot

23
Indicatori ai poziţiei relative – cuantilele

Diagrama Box-Plot

- 50% din valorile situate în centrul distribuţiei (valori situate între Q1 şi Q3).
-linia din interior reprezintă valoarea mediană
-iar liniile inferioară, respectiv superioară reprezintă valorile xmin şi xmax.

24
Indicatori ai poziţiei relative – cuantilele

 Valorile extreme (outliers, în engl.)


ale unei serii de date se determină,
pe baza diagramei Boxplot, ca fiind
valorile situate înafara intervalului dat
de 1,5*abaterea intercuartilica

 Q3-Q1 şi se numeşte abatere


intercuartilică.

25
Modul
3. Modul (Mo, mode în engl.) reprezintă valoarea cel mai
des întâlnită într-o serie de date (valoarea care are cea
mai mare frecvenţă de apariţie)
 Valoarea modală se poate determina pentru orice tip de variabilă
(nenumerică sau numerică), indiferent de scala de măsurare.
 Modul este singurul indicator ce poate fi determinat pentru variabilele
măsurate pe scala nominală.
 Grafic, într-o histogramă ori poligon al frecvenţelor, modul reprezintă
valoarea de pe abscisă, corespunzătoare vârfului reprezentării.
 O serie de date statistice poate să aibă una sau mai multe valori
modale.
 O distribuţie cu un singur mod se numeşte unimodală (a), o
distribuţie este bimodală (b) dacă are două valori dominante şi
multimodală (c) dacă are mai mult de două valori modale.

26
Modul
ni
ni
a) b)

xi
xi
Mo Mo1 Mo2

ni
c)

xi
Mo1 Mo2 Mo3
27
Modul
I. Determinarea modului pentru o variabilă nenumerică

Considerăm exemplul referitor la distribuţia muzeelor după tipul acestora:

Tipul muzeului Nr. muzeelor


ni (la sf. anului)

Ştiinţele naturii 44
Istoria tehnicii şi ştiinţei 21
Istorie 117
Etnografie 115
ni max
Mo = Istoria culturii = 152
Artă 149
Mixte 70
Total 668
Sursa: Anuarul Statistic al României, 2008.

28
Modul
II. Determinarea modului pentru o variabilă numerică

a) Serie simplă (date nesistematizate)

Pentru o serie numerică de forma {30, 32, 40, 35, 32, 37, 34,
32, 35, 41}, Mo = 32, deoarece valoarea 32 apare de cele mai
multe ori.

Dacă toate valorile apar cu aceeaşi frecvenţă spunem că seria nu are mod.

b) Serie de distribuţie de frecvenţe (date sistematizate)

Dacă datele sunt sistematizate pe intervale de variaţie modul


se determină, prin interpolare astfel:

29
MODUL

1. Se identifică intervalul modal (intervalul cu frecvenţa maximă)

2. Se calculează modul, prin relaţia:

1
Mo  x 0  h 
1   2
unde:
• x0 este limita inferioară a intervalului modal;
• h este mărimea intervalului modal;


1  nMo  nMo1 este diferenţa între frecvenţa intervalului modal
şi frecvenţa intervalului anterior celui modal;

•  2  nMo  nMo 1 este diferenţa între frecvenţa intervalului modal


şi frecvenţa intervalului următor celui modal;

30
Modul
Exemplu
Se cunoaşte distributia a 200 de agenti economici in functie de cifra de afaceri:

Intervale de variaţie a cifrei de afaceri Număr de agenţi economici


(zeci mii euro) (ni)
5-15 5

15-25 15

25-35 120

35-45 40

45-55 20

Total 200

120  15
Mo  25  10   30,67
120  15  120  40
Cele mai multe firme au realizat o cifră de afaceri de aproximativ 30,67 zeci mii euro. 31
Analiza comparativă a indicatorilor tendinţei centrale
Pentru a obţine o imagine completă asupra unui fenomen
economico-social se determină şi analizeză atât cei trei
indicatori ai tendinţei centrale, cât şi relaţia dintre ei.

 Modul poate fi calculat pentru orice set de date univariate (deşi,


pentru date cantitative grupate, poate fi afectat de modalitatea de
construire a intervalelor).
Modul este preferat în a fi utilizat atunci când ne interesează categoria
cea mai importantă (reprezentată cel mai mult în setul de date).

 Mediana poate fi calculată pentru orice tip de date, cu excepţia celor


nominale (care nu pot fi ordonate).
Mediana este indicată atunci când:
- datele sunt profund asimetrice
- există valori extreme
- datele sunt măsurate pe scala ordinală

32
Analiza comparativă a indicatorilor tendinţei centrale

 Media poate fi calculată doar pentru date cantitative (unde


numerele au un înţeles concret).
Media poate fi utilizată când setul de date este (cel puţin
aproximativ) normal distribuit şi, în acest caz, este cel mai
potrivit indicator pentru a caracteriza tendinţa centrală.
Media este indicatorul care va fi utilizat cel mai des
deoarece răspunde cel mai bine scopului inferenţei
statistice.
Media este mai stabilă şi mai puţin sensibilă la fluctuaţiile
de selecţie decît mediana
Media poate fi supusă cu uşurinţă calculelor algebrice, spre
deosebire de mediană; dacă seria se compune din mai
multe subserii componente, mediana seriei rezultante nu se
poate exprima prin medianele subseriilor componente.

33
Analiza comparativă a indicatorilor tendinţei centrale

 Cei trei indicatori medii (de calcul şi de poziţie) oferă, informaţii


pertinente privind forma distribuţiei într-o serie de date
statistice:
 pentru o distribuţie simetrică, media, mediana şi modul
coincid (a).
 dacă distribuţia este cu tendinţă de normalitate, dar
asimetrică spre dreapta, adică spre valori mari (cu coada
mai lungă a distribuţiei spre valorile mari), atunci x  Me  Mo
(b);
 dacă distribuţia este cu tendinţă de normalitate, dar
asimetrică spre stânga, adică spre valori mici (cu coada mai
lungă a distribuţiei spre valorile mici), atunci x  Me  Mo (c).

34
Analiza comparativă indicatorilor tendinţei centrale

Pentru repartiţii moderat asimetrice, există o relaţie:


x  M 0  3 x  Me 
35
Alte tipuri de medii
1. MEDIA ARMONICĂ =medie de calcul, cu aplicaţii speciale, care se determină, ca
valoarea inversă a mediei aritmetice, calculată din inversele valorilor seriei:
r

xh 
n n i 1
i
1 100
n xh   
1

r r r
1 1 * 1
i 1
xi 
i 1
xi
ni 
i 1
xi
ni x n
i 1 i
*%
i

 Media armonică este folosită:


- în situaţia în care distribuţia este profund asimetrică, în forma de J, cu predominanţă a
valorilor mici;
- la calculul nivelului mediu al unei caracteristici derivate, cu caracter de mărime
relativă sau mărime medie (preţurile (în u.m./kg), vitezele (în km/h) sau
productivitatea (cantitate/factor de producţie));
- dacă între două variabile există o relaţie de inversă proporţionalitate, atunci, dacă
pentru una folosim media aritmetică drept indicator al tendinţei centrale, pentru cealaltă
vom folosi media armonică

36
Alte tipuri de medii
2. MEDIA PĂTRATICĂ = medie de calcul cu aplicaţii speciale şi reprezintă
valoarea care, înlocuind termenii seriei, nu modifică suma pătratelor lor:

r r r
n
 xi2 ni  xi2 ni*  xi2 ni*%
 xi2
xp  i 1
r
 i 1
 i 1

xp  i 1 1 100
n n
i 1
i

 Media pătratică este folosită:


- în situaţia în care distribuţia este asimetrică, predominând valorile mari;
- în determinarea unor indicatori ai împrăştierii faţă de tendinţa centrală, atunci
când dorim să acordăm o importanţă crescută abaterilor mari ale termenilor de la
tendinţa centrală.

37
Alte tipuri de medii
3. Media geometrică se calculează ca rădăcina de ordinul n din produsul
celor n valori ale unei serii de date:
r
n r
 ni
xg  n x
i 1
i xg  i 1
 xini
i 1

 Media geometrică. este valoarea care, înlocuind termenii seriei, nu


modifică produsul lor:
n


n
x1  x2  ....  xn  xi  x g
i 1
 Media geometrică este zero dacă una dintre valorile variabilei este zero
 Media geometrică nu se determnă dacă variabila ia şi valori negative.
 În practică, media geometrică se foloseşte pentru calculul indicelui mediu
de modificare a unui fenomen.

Între mediile de calcul prezentate există relaţia: xh  x g  x  x p 38


Alte tipuri de medii
 MEDIA DE ORDIN “r” este o generalizare a definiţiilor şi a
formulelor de calcul ale tipurilor de medii prezentate şi se determină
cu formula:
1
 n  n
  xir ni 
x r

  i 1
n





n
i 1
i



Pentru diferite valori ale lui “r” se obţin diferite tipuri de medie:
 Pentru r = 1 se obţine media aritmetică
 Pentru r = 2 se obţine media pătratică

 Pentru r = -1 se obţine media armonică

39

S-ar putea să vă placă și