Sunteți pe pagina 1din 23

BAZELE STATISTICII

CURS 5

Măsuri statistice descriptive pentru


serii de date univariate (I)
A. Măsurarea tendinţei centrale

1
Măsuri statistice descriptive pentru
serii de date univariate
 Pentru o variabilă numerică, folosind indicatorii statistici,
putem analiza trei proprietăţi majore:
1. Tendinţa centrală
2. Variabilitatea
3. Forma distribuţiei

Precizări
• Dacă indicatorii statistici descriptivi sunt calculaţi pentru o colectivitate
generală se numesc parametri şi se notează, de regulă, cu litere greceşti.
• Indicatorii descriptivi determinaţi pentru un eşantion se numesc estimatori şi
se notează, de regulă, cu litere romane.
• În cercetarea statistică, folosim, în general, eşantioane şi folosim indicatorii
descriptivi în scopul estimării parametrilor colectivităţii generale.
• Vor fi explicaţi, în continuare, indicatorii statistici descriptivi ce caracterizează
eşantioanele, precizând simbolurile şi formulele utilizate în determinarea
aceloraşi indicatori pentru colectivitatea generală.

2
Măsurarea tendinţei centrale
 Indicatorii tendinţei centrale = indicatori sintetici cu
ajutorul cărora urmărim să exprimăm printr-o singură valoare
ceea este tipic, esenţial, stabil într-o serie de date numerice.
Deoarece nivelurile individuale, înregistrate pentru fiecare unitate statistică în
parte, se manifestă sub influenţa factorilor esenţiali (sistematici) şi neesenţiali
(întâmplători), în procesul de prelucrare a datelor se impune eliminarea
influenţelor întâmplătoare şi exprimarea, într-o singură valoare numerică, a
aspectelor tipice, reprezentative pentru seria de date.

 Indicatorii tendinţei se clasifică, în funcţie de modul


de determinare, în:
- indicatori medii de calcul:
media aritmetică, media armonică, media pătratică, media geometrică
- indicatori medii de poziţie:
modul, mediana

3
Măsurarea tendinţei centrale
 Indicatorii fundamentali ai tendinţei centrale sunt:
1. media aritmetică ( x )
2. mediana (Me)
3. modul (Mo)
Aceşti indicatori au o putere cu atât mai mare de caracterizare a tendinţei
centrale cu cât se determină pe baza unor date mai omogene.

1. Media aritmetică (average, mean, în engl.)


- este indicatorul cel mai utilizat pentru caracterizarea
tendinţei centrale a datelor numerice
- reprezintă valoarea care, înlocuind toţi termenii unei serii,
nu modifică suma acestora
- se calculează ca suma valorilor raportată la numărul lor.

4
Media aritmetică
n

x
Formula de calcul a mediei este:
- pentru eşantion - estimator i
i 1
x
n
- pentru colectivitatea generală – parametru N

x i
  i 1
N
- Dacă datele au fost sistematizate într-o serie de distribuţie de frecvenţe, în care
valorile/centrele intervalelor de variaţie xi , i  1, r apar cu frecvenţele ni , se
determină media ca medie aritmetică ponderată:
r

x n
i 1
i i
x r

n
i 1
i
5
Media aritmetică
Exemplu
Vechimea în muncă a fost înregistrată pentru cinci salariaţi ai unei firme şi
anume: 7, 5, 6, 7 şi 8 ani. Vechimea medie este:

7  5  6  7  8 33
x   6,6 ani.
5 5

Media aritmetică pune în balanţă toate valorile individuale:

5 6 7 8

x =6,6 ani

6
Media aritmetică
 Media aritmetică este afectată de orice valoare sau valori extreme.

Exemplu
Datele pentru vechimea în muncă a 10 salariaţi sunt: 5, 4, 5, 5, 6, 6, 4 şi 20,
atunci vechimea medie este:

5  4  ...  4  20
x  6,6 ani
10

0 5 10 15 20
x = 6,6 ani

5  4  ...  6  4
x  5,1 ani
9

7
Exemplu
Pe baza datelor din tabelul următor, referitoare la capacitatea de cazare a 75 de
hoteluri de categoria două stele, vom determina capacitatea medie de cazare

Număr de Centre de Frecvenţe


Capacitate de
hoteluri interval x i  ni cumulate (
cazare (locuri)
(nI) (xI) Fci )
0 1 2 3 4
Mai mică de 170 5 160 800 5
170-190 9 180 1620 14
190-210 12 200 2400 26
210-230 18 220 3960 44
230-250 22 240 5280 66
250-270 4 260 1040 70
270-290 2 280 560 72
290-310 2 300 600 74
310 şi peste 1 320 320 75
Total 75 - 16580 -

8
Exemplu
Se observă că pentru primul, respectiv ultimul interval de variaţie nu s-au precizat
ambele limite, ceea ce ar putea sugera că seria de date negrupate conţine valori
extreme.
Pentru a putea calcula media şi aceasta să fie neafectată de aceste valori se
procedează la fixarea limitelor inferioară, respectiv superioară pentru aceste
intervale.
Limitele se determină astfel încât toate intervalele să aibă aceeaşi mărime, adică 20
de locuri. Astfel, intervalele devin:150-170, respectiv 310-330 locuri.

Media va fi: locuri

Rezultatul arată că nivelul mediu al capacității de cazare în cele 75 de hoteluri luate


în studiu este 221 locuri.

9
Media aritmetică
Particularităţi (observații) asupra mediei

 Dacă toate nivelurile variabilei sunt egale (cu o constantă)


atunci media este egală cu constanta, adică:
dacă x1 = x2 = ... = xn = a, atunci x = a.

 Media poate fi sau nu egală cu o valoare individuală înregistrată


şi are unitatea de măsură a variabilei studiate.

 Media se poate determina şi dacă se cunoaşte doar suma


valorilor şi numărul de unităţi din colectivitate (dacă se cunosc
veniturile totale ale unei familii şi numărul de persoane se
poate calcula venitul mediu pe o persoană din familie).

 Media se situează întotdeauna între valoarea minimă (xmin) şi


valoarea maximă (xmax) a variabilei
10
Media aritmetică
 Media poate fi determinată şi prin utilizarea frecvenţelor relative:
r

x n
i 1
i
*%
i
x .
100

 Dacă o serie statistică este alcătuită din m serii componente, pentru care s-au
 
calculat mediile parţiale x j , j  1, m , atunci media întregii serii poate fi calculată
ca o medie aritmetică ponderată din mediile parţiale
m

x nj 1
j j

x m

nj 1
j

unde nj reprezintă volumul seriei componente j j  1, m .  

11
Media aritmetică

La nivelul anului 2018, în România s-au înregistrat 35


mii sosiri de turişti străini pe litoral (cu o durată medie a
sejurului de 7,54 zile), 29 mii în turismul balnear (cu o
durată medie a sejurului de 6,14 zile), 72 mii în turismul
montan (cu o durată medie a sejurului de 3,15 zile) şi 6
mii în Delta Dunării (cu o durată medie a sejurului de 2,33
zile). Durata medie a sejurului, în toate aceste destinaţii
turistice, pentru un turist străin este:

12
Media aritmetică

7,54  35  6,14  29  3,15  72  2,33  6 683 (mii innoptari )


x   4,81 zile
142 142 (mii turisti )

13
.

Media aritmetică

n n x i

 (x
i 1
i
 x)   x i  n 
i 1
i 1

n
0

xyxy

xy  x  y
Relația este valabilă doar dacă cele două variabile sunt
independente. Pentru două variabile între care există o
relaţie de dependenţă:

xy  x  y  0

14
.

Media unei variabile de tip alternativ

Varianta de Frecvenţe
xi Frecvenţe ni
răspuns relative n *i
0 1 2 3
m
Afirmativ 1 m f
n
nm
Negativ 0 n-m  1 f
n
Total – n 1

15
Media unei variabile de tip alternativ

Exemplu

200 de turişti dintr-o staţiune balneară au fost întrebaţi


dacă sunt mulţumiţi de serviciile de cazare. Dintre aceştia 160
au răspuns afirmativ (m) şi 40 negativ. Media variabilei alter-
native este: f=m/n=160/200=0,8, adică 80% dintre persoanele
anchetate sunt mulţumite de serviciile de cazare.

16
Mediana
2. Mediana (median, în engl.) reprezintă valoarea din
mijlocul unei serii de date ordonate.
- este un indicator mediu de poziţie care face parte din categoria
cuantilelor
- mediana este un indicator al tendinţei centrale, fiind situată în
centrul seriei
- 50% dintre valori sunt situate la stânga medianei, iar 50% la
dreapta medianei
- ia în consideraţie doar poziţia observaţiilor în serie, nu şi mărimea
lor efectivă (nu este afectată de prezenţa valorilor extreme).

 Mediana se poate determina pe cale grafică. Ea reprezintă proiecţia pe


axa absciselor a punctului de intersecţie dintre cele două curbe ale
frecvenţelor cumulate (crescător şi descrescător).

17
Mediana
 Pentru a determina mediana se introduce noţiunea de ranguri,
adică numere de ordine asociate observaţiilor, de la cea mai
mică (cu rangul 1), până la cea mai mare (rangul n)
 Rangul (locul ) medianei va fi, atunci, (n+1)/2, deci rangul
unităţii din mijlocul seriei.

Exemplu
Pentru o serie numerică de forma {30, 32, 40, 35, 32, 37, 34, 32, 35, 41},
mediana se determină astfel:
- ordonăm crescător valorile seriei: {30, 32, 32, 32, 34, 35, 35, 37, 40, 41}
- calculăm locul medianei: Loc Me = (n+1)/2 = 11/2=5,5
- mediana este valoarea cuprinsă între al 5-lea şi al 6-lea termen al seriei
ordonate şi se calculează ca fiind media aritmetică a celor doi termeni aflaţi în
centrul distribuţiei:
Astfel, jumătate dintre valorile seriei sunt mai mici decât valoarea 34,5.

18
Mediana

 Dacă seria are un număr par de termeni atunci


mediana se calculează ca media aritmetică a celor doi
termeni situaţi în mijlocul seriei ordonate.

 Dacă seria are un număr impar de termeni atunci


mediana reprezintă termenul din mijlocul seriei
ordonate.

19
Mediana
 Mediana poate fi determinată şi pentru variabilele
nenumerice măsurate pe scala ordinală.
 Pentru o variabilă nenumerică, determinarea medianei
este mai uşoară dacă datele sunt sistematizate
 Se parcurg următorii paşi :
- calcularea frecvenţelor cumulate crescător, (Fci)
- determinarea locului medianei cu formula (n+1)/2
- determinarea Me ca fiind valoarea (varianta)
corespunzătoare primei frecvenţe cumulate mai mare
decât (n+1)/2

20
Mediana
În cazul datelor privind clasamentul general la competiţiile
internaţionale oficiale pentru Federaţia Română de Atletism, în anul
2006, mediana se determină astfel:
Locul Nr. sportivi Frecvenţe cumulate (Fci)
I 50 50
Me = II 36 86>65
III 31 117
IV 2 119
V 3 122
VI 7 129
Total 129 -
Loc Me = 130/2 = 65, iar valoarea mediană este locul II, ceea ce
înseamnă că jumătate dintre cei 129 de sportivi situaţi în primele şase
locuri la competiţiile internaţionale, au ocupat locurile I şi II, sau, astfel
spus, jumătate dintre cei 129 de sportivi s-au clasat pe locurile III, IV, V
şi VI.

21
Mediana
- Pentru o repartiţie de frecvenţe pe intervale de variaţie, mediana se va
încadra în intervalul median

- Intervalul median este primul interval cu frecvenţa cumulată mai mare decât
locul (rangul, poziţia) medianei.

- Mediana se va estima prin interpolare pe intervalul median pe baza formulei:

1 r 
  ni  1  FC ( Me1)
2  i 1 
Me  xinf Me  hMe ,
nMe
unde:
xinf Me reprezintă limita inferioară a intervalului median;
hMe reprezintă mărimea intervalului median;
1 r  n 1
  ni  1 
2  i 1  2 reprezintă locul medianei în serie;
FC(Me - 1) reprezintă frecvenţa cumulată a intervalului ante-rior celui median;
nMe reprezintă frecvenţa absolută a intervalului median.

Similar se determină mediana şi în cazul unei serii de distribuţie de frecvenţe relative.

22
Mediana
Exemplu
Pe baza datelor din tabelul de la slide 8, locul medianei este
1 r  76
  n i  1   38
2  i 1  2
prima frecvenţă cumulată mai mare decât 38 este 44,
corespunzătoare intervalului median [210-230) locuri şi

locuri.

Aşadar, o jumătate din unităţile hoteliere au o capacitate mai


mică sau egală cu 223 locuri, iar o jumătate dintre ele au o
capacitate de cazare mai mare de 223 locuri.

23

S-ar putea să vă placă și