Documente Academic
Documente Profesional
Documente Cultură
CURS 5
1
Măsuri statistice descriptive pentru
serii de date univariate
Pentru o variabilă numerică, folosind indicatorii statistici,
putem analiza trei proprietăţi majore:
1. Tendinţa centrală
2. Variabilitatea
3. Forma distribuţiei
Precizări
• Dacă indicatorii statistici descriptivi sunt calculaţi pentru o colectivitate
generală se numesc parametri şi se notează, de regulă, cu litere greceşti.
• Indicatorii descriptivi determinaţi pentru un eşantion se numesc estimatori şi
se notează, de regulă, cu litere romane.
• În cercetarea statistică, folosim, în general, eşantioane şi folosim indicatorii
descriptivi în scopul estimării parametrilor colectivităţii generale.
• Vor fi explicaţi, în continuare, indicatorii statistici descriptivi ce caracterizează
eşantioanele, precizând simbolurile şi formulele utilizate în determinarea
aceloraşi indicatori pentru colectivitatea generală.
2
Măsurarea tendinţei centrale
Indicatorii tendinţei centrale = indicatori sintetici cu
ajutorul cărora urmărim să exprimăm printr-o singură valoare
ceea este tipic, esenţial, stabil într-o serie de date numerice.
Deoarece nivelurile individuale, înregistrate pentru fiecare unitate statistică în
parte, se manifestă sub influenţa factorilor esenţiali (sistematici) şi neesenţiali
(întâmplători), în procesul de prelucrare a datelor se impune eliminarea
influenţelor întâmplătoare şi exprimarea, într-o singură valoare numerică, a
aspectelor tipice, reprezentative pentru seria de date.
3
Măsurarea tendinţei centrale
Indicatorii fundamentali ai tendinţei centrale sunt:
1. media aritmetică ( x )
2. mediana (Me)
3. modul (Mo)
Aceşti indicatori au o putere cu atât mai mare de caracterizare a tendinţei
centrale cu cât se determină pe baza unor date mai omogene.
4
Media aritmetică
n
x
Formula de calcul a mediei este:
- pentru eşantion - estimator i
i 1
x
n
- pentru colectivitatea generală – parametru N
x i
i 1
N
- Dacă datele au fost sistematizate într-o serie de distribuţie de frecvenţe, în care
valorile/centrele intervalelor de variaţie xi , i 1, r apar cu frecvenţele ni , se
determină media ca medie aritmetică ponderată:
r
x n
i 1
i i
x r
n
i 1
i
5
Media aritmetică
Exemplu
Vechimea în muncă a fost înregistrată pentru cinci salariaţi ai unei firme şi
anume: 7, 5, 6, 7 şi 8 ani. Vechimea medie este:
7 5 6 7 8 33
x 6,6 ani.
5 5
5 6 7 8
x =6,6 ani
6
Media aritmetică
Media aritmetică este afectată de orice valoare sau valori extreme.
Exemplu
Datele pentru vechimea în muncă a 10 salariaţi sunt: 5, 4, 5, 5, 6, 6, 4 şi 20,
atunci vechimea medie este:
5 4 ... 4 20
x 6,6 ani
10
0 5 10 15 20
x = 6,6 ani
5 4 ... 6 4
x 5,1 ani
9
7
Exemplu
Pe baza datelor din tabelul următor, referitoare la capacitatea de cazare a 75 de
hoteluri de categoria două stele, vom determina capacitatea medie de cazare
8
Exemplu
Se observă că pentru primul, respectiv ultimul interval de variaţie nu s-au precizat
ambele limite, ceea ce ar putea sugera că seria de date negrupate conţine valori
extreme.
Pentru a putea calcula media şi aceasta să fie neafectată de aceste valori se
procedează la fixarea limitelor inferioară, respectiv superioară pentru aceste
intervale.
Limitele se determină astfel încât toate intervalele să aibă aceeaşi mărime, adică 20
de locuri. Astfel, intervalele devin:150-170, respectiv 310-330 locuri.
9
Media aritmetică
Particularităţi (observații) asupra mediei
x n
i 1
i
*%
i
x .
100
Dacă o serie statistică este alcătuită din m serii componente, pentru care s-au
calculat mediile parţiale x j , j 1, m , atunci media întregii serii poate fi calculată
ca o medie aritmetică ponderată din mediile parţiale
m
x nj 1
j j
x m
nj 1
j
11
Media aritmetică
12
Media aritmetică
13
.
Media aritmetică
n n x i
(x
i 1
i
x) x i n
i 1
i 1
n
0
xyxy
xy x y
Relația este valabilă doar dacă cele două variabile sunt
independente. Pentru două variabile între care există o
relaţie de dependenţă:
xy x y 0
14
.
Varianta de Frecvenţe
xi Frecvenţe ni
răspuns relative n *i
0 1 2 3
m
Afirmativ 1 m f
n
nm
Negativ 0 n-m 1 f
n
Total – n 1
15
Media unei variabile de tip alternativ
Exemplu
16
Mediana
2. Mediana (median, în engl.) reprezintă valoarea din
mijlocul unei serii de date ordonate.
- este un indicator mediu de poziţie care face parte din categoria
cuantilelor
- mediana este un indicator al tendinţei centrale, fiind situată în
centrul seriei
- 50% dintre valori sunt situate la stânga medianei, iar 50% la
dreapta medianei
- ia în consideraţie doar poziţia observaţiilor în serie, nu şi mărimea
lor efectivă (nu este afectată de prezenţa valorilor extreme).
17
Mediana
Pentru a determina mediana se introduce noţiunea de ranguri,
adică numere de ordine asociate observaţiilor, de la cea mai
mică (cu rangul 1), până la cea mai mare (rangul n)
Rangul (locul ) medianei va fi, atunci, (n+1)/2, deci rangul
unităţii din mijlocul seriei.
Exemplu
Pentru o serie numerică de forma {30, 32, 40, 35, 32, 37, 34, 32, 35, 41},
mediana se determină astfel:
- ordonăm crescător valorile seriei: {30, 32, 32, 32, 34, 35, 35, 37, 40, 41}
- calculăm locul medianei: Loc Me = (n+1)/2 = 11/2=5,5
- mediana este valoarea cuprinsă între al 5-lea şi al 6-lea termen al seriei
ordonate şi se calculează ca fiind media aritmetică a celor doi termeni aflaţi în
centrul distribuţiei:
Astfel, jumătate dintre valorile seriei sunt mai mici decât valoarea 34,5.
18
Mediana
19
Mediana
Mediana poate fi determinată şi pentru variabilele
nenumerice măsurate pe scala ordinală.
Pentru o variabilă nenumerică, determinarea medianei
este mai uşoară dacă datele sunt sistematizate
Se parcurg următorii paşi :
- calcularea frecvenţelor cumulate crescător, (Fci)
- determinarea locului medianei cu formula (n+1)/2
- determinarea Me ca fiind valoarea (varianta)
corespunzătoare primei frecvenţe cumulate mai mare
decât (n+1)/2
20
Mediana
În cazul datelor privind clasamentul general la competiţiile
internaţionale oficiale pentru Federaţia Română de Atletism, în anul
2006, mediana se determină astfel:
Locul Nr. sportivi Frecvenţe cumulate (Fci)
I 50 50
Me = II 36 86>65
III 31 117
IV 2 119
V 3 122
VI 7 129
Total 129 -
Loc Me = 130/2 = 65, iar valoarea mediană este locul II, ceea ce
înseamnă că jumătate dintre cei 129 de sportivi situaţi în primele şase
locuri la competiţiile internaţionale, au ocupat locurile I şi II, sau, astfel
spus, jumătate dintre cei 129 de sportivi s-au clasat pe locurile III, IV, V
şi VI.
21
Mediana
- Pentru o repartiţie de frecvenţe pe intervale de variaţie, mediana se va
încadra în intervalul median
- Intervalul median este primul interval cu frecvenţa cumulată mai mare decât
locul (rangul, poziţia) medianei.
1 r
ni 1 FC ( Me1)
2 i 1
Me xinf Me hMe ,
nMe
unde:
xinf Me reprezintă limita inferioară a intervalului median;
hMe reprezintă mărimea intervalului median;
1 r n 1
ni 1
2 i 1 2 reprezintă locul medianei în serie;
FC(Me - 1) reprezintă frecvenţa cumulată a intervalului ante-rior celui median;
nMe reprezintă frecvenţa absolută a intervalului median.
22
Mediana
Exemplu
Pe baza datelor din tabelul de la slide 8, locul medianei este
1 r 76
n i 1 38
2 i 1 2
prima frecvenţă cumulată mai mare decât 38 este 44,
corespunzătoare intervalului median [210-230) locuri şi
locuri.
23