Sunteți pe pagina 1din 29

STATISTICĂ

CURS 5

Masuri statistice descriptive pentru date


univariate

1. Masurarea tendintei centrale

1
Măsuri statistice descriptive pentru date univariate

 Pentru o variabilă numerică, folosind indicatorii statistici,


putem analiza trei proprietăţi majore:
1. Tendinţa centrală
2. Variabilitatea
3. Forma distribuţiei

Indicatorii tendinţei centrale = indicatori sintetici cu ajutorul


cărora urmărim să exprimăm printr-o singură valoare ceea este tipic,
esenţial, stabil într-o serie de date numerice.

2
Măsurarea tendinţei centrale
 Indicatorii fundamentali ai tendinţei centrale sunt:
1. media aritmetică ( x )
2. mediana (Me)
3. modul (Mo)
Aceşti indicatori au o putere cu atât mai mare de caracterizare a tendinţei
centrale cu cât se determină pe baza unor date mai omogene.

1. Media aritmetică (average, mean, în engl.)


- este indicatorul cel mai utilizat pentru caracterizarea tendinţei centrale a
datelor numerice
- reprezintă valoarea care, înlocuind toţi termenii unei serii, nu modifică suma
acestora
- se calculează ca suma valorilor raportată la numărul lor.

3
Media aritmetică
Formula de calcul a mediei este:
- pentru eşantion - estimator
n

x
i =1
i
x=
n
- pentru colectivitatea generală – parametru
N

x
i =1
i
=
N

- Dacă datele au fost sistematizate într-o serie de distribuţie de frecvenţe, în care


valorile/centrele intervalelor de variaţie xi , i = 1, r apar cu frecvenţele ni ,
se determină media ca medie aritmetică ponderată:
r

x n
i =1
i i
x= r

n
i =1
i

4
Media aritmetică

Exemplu
Vechimea în muncă a fost înregistrată pentru cinci salariaţi ai unei firme şi
anume: 7, 5, 6, 7 şi 8 ani. Vechimea medie este:

7 + 5 + 6 + 7 + 8 33
x= = = 6,6 ani.
5 5

Media aritmetică pune în balanţă toate valorile individuale:

5 6 7 8

x =6,6 ani

5
Media aritmetică
 Media aritmetică este afectată de orice valoare sau valori extreme.

Exemplu
Datele pentru vechimea în muncă a 10 salariaţi sunt: 5, 4, 5, 5, 6, 6, 4 şi 20,
atunci vechimea medie este:

5 + 4 + ... + 4 + 20
x= = 6,6 ani
10

0 5 10 15 20
x = 6,6 ani

5 + 4 + ... + 6 + 4
x= = 5,1 ani
9

6
Exemplu

Se cunoaşte distribuţia de frecvenţe a 50 de firme referitor la procentul din venituri


cheltuit cu cercetarea-dezvoltarea:

Intervalul de variatie pentru


Nr firme Centrul de interval
procentul din venituri
Grupa xi  ni Fci
cheltuit cu cercetarea- ni xi
dezvoltarea
1 sub 6,25 4 5,70 22,8 4
2 6,25 - 7,35 12 6,80 81,6 16
3 7,35 - 8,45 14 7,90 110,6 30
4 8,45 - 9,55 7 9,00 63 37
5 9,55 - 10,65 7 10,10 70,7 44
6 10,65 - 11,75 3 11,20 33,6 47
7 11,75 - 12,85 0 12,30 0 47
8 12,85 şi peste 3 13,40 40,2 50
Total 50 - 422,5

7
Exemplu
Pentru a putea calcula media se procedează la fixarea limitelor inferioară, respectiv
superioară pentru aceste intervale.
Limitele se determină astfel încât toate intervalele să aibă aceeaşi mărime, adică
1,10.
Astfel intervalele devin:5,15-6,25, respectiv 12,85-13,95.
r

x n
i =1
i i
422,5
x= = = 8,45.
Media va fi:
r
50
n
i =1
i

Rezultatul arată că procentul mediu cheltuit pentru reclamă şi publicitate de o firmă


din cele 50 luate în studiu este 8,45.
După cum se observă, unele firme cheltuie un procent mai mic pentru cercetare-
dezvoltare (sub 6,25), iar altele alocă un procent mai mare.
Procentul alocat diferă de la o firmă la alta sub acţiunea factorilor sistematici, dar şi
întâmplători, care influenţează într-un sens sau în altul. Dacă toţi factorii ce
influenţează procentul alocat ar acţiona în mod egal şi constant asupra tuturor
firmelor, atunci suma alocată de o firmă pentru cercetare-dezvoltare ar fi de 8,45%
din venituri.

8
Media aritmetică
Particularităţi în calculul mediei

1. Dacă toate nivelurile variabilei sunt egale (cu o constantă) atunci


media este egală cu constanta, adică:
dacă x1 = x2 = ... = xn = a, atunci x = a.

2. Media poate fi sau nu egală cu o valoare individuală înregistrată şi


are unitatea de măsură a variabilei studiate.

3. Media se poate determina şi dacă se cunoaşte doar suma valorilor


şi numărul de unităţi din colectivitate (dacă se cunosc veniturile
totale ale unei familii şi numărul de persoane se poate calcula
venitul mediu pe o persoană din familie).

4. Media se situează întotdeauna între valoarea minimă (xmin) şi


valoarea maximă (xmax) a variabilei
9
Media aritmetică

5. Media poate fi determinată şi prin utilizarea frecvenţelor relative:


r

x n
i =1
i
*%
i
x= .
100

6. Dacă o serie statistică este alcătuită din m serii componente, pentru care s-au
( )
calculat mediile parţiale x j , j = 1, m , atunci media întregii serii poate fi calculată
ca o medie aritmetică ponderată din mediile parţiale
m

x j =1
j nj
x= m

nj =1
j

unde nj (
reprezintă volumul seriei componente j j = 1, m . )

10
Mediana
2. Mediana (median, în engl.) reprezintă valoarea din
mijlocul unei serii de date ordonate.
- este un indicator mediu de poziţie care face parte din categoria
cuantilelor
- mediana este un indicator al tendinţei centrale, fiind situată în
centrul seriei
- 50% dintre valori sunt situate la stânga medianei, iar 50% la
dreapta medianei
- ia în consideraţie doar poziţia observaţiilor în serie, nu şi mărimea
lor efectivă (nu este afectată de prezenţa valorilor extreme).

 Mediana se poate determina pe cale grafică. Ea reprezintă proiecţia pe


axa absciselor a punctului de intersecţie dintre cele două curbe ale
frecvenţelor cumulate (crescător şi descrescător).

11
Mediana
 Pentru a determina mediana se introduce noţiunea de ranguri,
adică numere de ordine asociate observaţiilor, de la cea mai
mică (cu rangul 1), până la cea mai mare (rangul n)
 Rangul (locul ) medianei va fi, atunci, (n+1)/2, deci rangul
unităţii din mijlocul seriei.

Exemplu
Pentru o serie numerică de forma {30, 32, 40, 35, 32, 37, 34, 32, 35, 41},
mediana se determină astfel:
- ordonăm crescător valorile seriei: {30, 32, 32, 32, 34, 35, 35, 37, 40, 41}
- calculăm locul medianei: Loc Me = (n+1)/2 = 11/2=5,5
- mediana este valoarea cuprinsă între al 5-lea şi al 6-lea termen al seriei
ordonate şi se calculează ca fiind media aritmetică a celor doi termeni aflaţi în
centrul distribuţiei:
Astfel, jumătate dintre valorile seriei sunt mai mici decât valoarea 34,5.

12
Mediana

 Dacă seria are un număr par de termeni atunci


mediana se calculează ca media aritmetică a celor doi
termeni situaţi în mijlocul seriei ordonate.

 Dacă seria are un număr impar de termeni atunci


mediana reprezintă termenul din mijlocul seriei
ordonate.

13
Mediana
- Pentru o repartiţie de frecvenţe pe intervale de variaţie, mediana se va
încadra în intervalul median

- Intervalul median este primul interval cu frecvenţa cumulată mai mare decât
locul (rangul, poziţia) medianei.

- Mediana se va estima prin interpolare pe intervalul median pe baza formulei:

1 r 
  ni + 1 − FC ( Me−1)
2  i =1 
Me = xinf Me + hMe ,
nMe
unde:
xinf Me reprezintă limita inferioară a intervalului median;
hMe reprezintă mărimea intervalului median;
1 r
 n +1
  ni + 1 =
2  i =1  2 reprezintă locul medianei în serie;
FC(Me - 1) reprezintă frecvenţa cumulată a intervalului ante-rior celui median;
nMe reprezintă frecvenţa absolută a intervalului median.

Similar se determină mediana şi în cazul unei serii de distribuţie de frecvenţe relative.

14
Mediana
 Mediana poate fi determinată şi pentru variabilele
nenumerice măsurate pe scala ordinală.
 Pentru o variabilă nenumerică, determinarea medianei
este mai uşoară dacă datele sunt sistematizate
 Se parcurg următorii paşi :
- calcularea frecvenţelor cumulate crescător, (Fci)
- determinarea locului medianei cu formula (n+1)/2
- determinarea Me ca fiind valoarea (varianta)
corespunzătoare primei frecvenţe cumulate mai mare
decât (n+1)/2

15
Mediana
În cazul datelor privind clasamentul general la competiţiile
internaţionale oficiale pentru Federaţia Română de Atletism, în anul
2006, mediana se determină astfel:
Locul Nr. sportivi Frecvenţe cumulate (Fci)
I 50 50
Me = II 36 86>65
III 31 117
IV 2 119
V 3 122
VI 7 129
Total 129 -
Loc Me = 130/2 = 65, iar valoarea mediană este locul II, ceea ce
înseamnă că jumătate dintre cei 129 de sportivi situaţi în primele şase
locuri la competiţiile internaţionale, au ocupat locurile I şi II, sau, astfel
spus, jumătate dintre cei 129 de sportivi s-au clasat pe locurile III, IV, V
şi VI.

16
Indicatori ai poziţiei relative – cuantilele

 Cuantilele (percentile, în engl.) reprezintă niveluri ale variabilei


care caracterizează poziţia relativă a unui nivel individual în setul
de date

 Cuantilele au aceeaşi unitate de măsură ca şi caracteristica


studiată

 Cuantilele realizează o divizare a distribuţiei într-un număr de „k”


părţi egale

 Cuantilele pot fi folosite pentru a analiza forma distribuţiei

17
Indicatori ai poziţiei relative – cuantilele

În caracterizarea unui set de date, cele mai uzuale cuantile sunt:

 Cuantila de ordin 2 ( mediana )

 Cuantilele de ordin 4 (cuartile, notate Q1, Q2, Q3, care împart seria
în patru părţi egale, delimitând câte 25% din observaţii, Q2=Me)

 Cuantilele de ordin 10 (decile, notate D1, ...., D9 şi care delimitează


câte 10% din observaţii, D5 = Me)

 Cuantilele de ordin 100 (centile, care delimitează câte 1% din


observaţii)

Cuantilele de ordin mai mare decât 2 se folosesc în cazul


seturilor de date de volum mare ( n  30)

18
Indicatori ai poziţiei relative – cuantilele

19
Modul
3. Modul (Mo, mode în engl.) reprezintă valoarea cel mai
des întâlnită într-o serie de date (valoarea care are cea
mai mare frecvenţă de apariţie)
 Valoarea modală se poate determina pentru orice tip de variabilă (nenumerică sau
numerică), indiferent de scala de măsurare.
 Modul este singurul indicator ce poate fi determinat pentru variabilele măsurate pe scala
nominală.
 Grafic, într-o histogramă ori poligon al frecvenţelor, modul reprezintă valoarea de pe abscisă,
corespunzătoare vârfului reprezentării.
 O serie de date statistice poate să aibă una sau mai multe valori modale.

 O distribuţie cu un singur mod se numeşte unimodală


(a), o distribuţie este bimodală (b) dacă are două
valori dominante şi multimodală (c) dacă are mai mult
de două valori modale.

20
Modul
ni
ni
a) b)

xi
xi
Mo Mo1 Mo2

ni
c)

xi
Mo1 Mo2 Mo3
21
Modul
I. Determinarea modului pentru o variabilă nenumerică

Considerăm exemplul referitor la distribuţia muzeelor după tipul acestora:

Tipul muzeului Nr. muzeelor


ni (la sf. anului)

Ştiinţele naturii 44
Istoria tehnicii şi ştiinţei 21
Istorie 117
Etnografie 115
Mo = Istoria culturii ni max = 152
Artă 149
Mixte 70
Total 668
Sursa: Anuarul Statistic al României, 2016.

22
Modul
II. Determinarea modului pentru o variabilă numerică

a) Serie simplă (date nesistematizate)

Pentru o serie numerică de forma {30, 32, 40, 35, 32, 37, 34,
32, 35, 41}, Mo = 32, deoarece valoarea 32 apare de cele mai
multe ori.

Dacă toate valorile apar cu aceeaşi frecvenţă spunem că seria nu are mod.

b) Serie de distribuţie de frecvenţe (date sistematizate)

Dacă datele sunt sistematizate pe intervale de variaţie modul


se determină, prin interpolare astfel:

23
MODUL

1. Se identifică intervalul modal (intervalul cu frecvenţa maximă)

2. Se calculează modul, prin relaţia:

1
Mo = x0 + h 
1 +  2
unde:
• x0 este limita inferioară a intervalului modal;
• h este mărimea intervalului modal;

• 1 = nMo − nMo−1 este diferenţa între frecvenţa intervalului


modal şi frecvenţa intervalului anterior celui modal;

•  2 = nMo − nMo+1 este diferenţa între frecvenţa intervalului


modal şi frecvenţa intervalului următor celui modal;

24
Modul
Exemplu
Se cunoaşte distributia a 200 de agenti economici in functie de cifra de afaceri:

Intervale de variaţie a cifrei de afaceri Număr de agenţi economici


(zeci mii euro) (ni)

5-15 5

15-25 15

25-35 120

35-45 40

45-55 20

Total 200

120 − 15
Mo = 25 + 10  = 30,67
(120 − 15) + (120 − 40)
Cele mai multe firme au realizat o cifră de afaceri de aproximativ 30,67 zeci mii euro. 25
Analiza comparativă a indicatorilor tendinţei centrale

Pentru a obţine o imagine completă asupra unui fenomen


economico-social se determină şi analizeză atât cei trei
indicatori ai tendinţei centrale, cât şi relaţia dintre ei.

 Media poate fi utilizată când setul de date este (cel puţin


aproximativ) normal distribuit şi, în acest caz, este cel mai
potrivit indicator pentru a caracteriza tendinţa centrală.
 Media este indicatorul care va fi utilizat cel mai des deoarece
răspunde cel mai bine scopului inferenţei statistice.
 Media este mai stabilă şi mai puţin sensibilă la fluctuaţiile de
selecţie decît mediana
 Media poate fi supusă cu uşurinţă calculelor algebrice, spre
deosebire de mediană
Dacă seria se compune din mai multe subserii componente, mediana seriei rezultante nu se
poate exprima prin medianele subseriilor componente.

26
Analiza comparativă a indicatorilor tendinţei centrale

 Modul poate fi calculat pentru orice set de date univariate


 Modul poate fi afectat de modalitatea de construire a
intervalelor, pentru date numerice grupate.

 Mediana poate fi calculată pentru orice tip de date, cu


excepţia celor nominale (care nu pot fi ordonate).
 Mediana este indicată atunci când:
- datele sunt profund asimetrice
- există valori extreme
- datele sunt măsurate pe scala ordinală

27
Analiza comparativă a indicatorilor tendinţei centrale

 Cei trei indicatori medii (de calcul şi de poziţie) oferă,


informaţii pertinente privind forma distribuţiei într-o serie de
date statistice:
 pentru o distribuţie simetrică, media, mediana şi modul
coincid (a).
 dacă distribuţia este cu tendinţă de normalitate, dar
asimetrică spre dreapta, adică spre valori mari (cu coada
mai lungă a distribuţiei spre valorile mari), atunci x  Me  Mo
(b);
 dacă distribuţia este cu tendinţă de normalitate, dar
asimetrică spre stânga, adică spre valori mici (cu coada mai
lungă a distribuţiei spre valorile mici), atunci x  Me  Mo (c).

28
Analiza comparativă indicatorilor tendinţei centrale

Pentru repartiţii moderat asimetrice, există o relaţie:

(
x − M 0  3 x − Me )
29

S-ar putea să vă placă și