Documente Academic
Documente Profesional
Documente Cultură
CURS 4 - 5
1
STATISTICA DESCRIPTIVA
VANZARI(mii lei)
Mean 11.5116667
Standard Error 0.36183846
Median 12
Mode 13.1
Standard Deviation 2.80278866
Sample Variance 7.85562429
Kurtosis -0.08692287
Skewness -0.35192546
Range 12.3
Minimum 5
Maximum 17.3
Sum 690.7
Count 60
2
Măsuri statistice descriptive pentru date univariate
Precizări
• Dacă indicatorii statistici descriptivi sunt calculaţi pentru o colectivitate generală
se numesc parametri şi se notează, de regulă, cu litere greceşti.
• Indicatorii descriptivi determinaţi pentru un eşantion se numesc estimatori şi se
notează, de regulă, cu litere romane.
• În cercetarea statistică, folosim, în general, eşantioane şi folosim indicatorii
descriptivi în scopul estimării parametrilor colectivităţii generale.
• Vor fi explicaţi, în continuare, indicatorii statistici descriptivi ce caracterizează
eşantioanele, precizând simbolurile şi formulele utilizate în determinarea aceloraşi
indicatori pentru colectivitatea generală.
3
Măsurarea tendinţei centrale
Indicatorii tendinţei centrale = indicatori sintetici cu
ajutorul cărora urmărim să exprimăm printr-o singură valoare
ceea este tipic, esenţial, stabil într-o serie de date numerice.
Deoarece nivelurile individuale, înregistrate pentru fiecare unitate statistică în
parte, se manifestă sub influenţa factorilor esenţiali (sistematici) şi neesenţiali
(întâmplători), în procesul de prelucrare a datelor se impune eliminarea
influenţelor întâmplătoare şi exprimarea, într-o singură valoare numerică, a
aspectelor tipice, reprezentative pentru seria de date.
4
Măsurarea tendinţei centrale
Indicatorii fundamentali ai tendinţei centrale sunt:
1. media aritmetică ( x )
2. mediana (Me)
3. modul (Mo)
Aceşti indicatori au o putere cu atât mai mare de caracterizare a tendinţei
centrale cu cât se determină pe baza unor date mai omogene.
5
Media aritmetică
Formula de calcul a mediei este:
n
- pentru eşantion - estimator
x
i 1
i
x
n
- pentru colectivitatea generală – parametru
N
x
i 1
i
N
x n
i 1
i i
x r
n
i 1
i
6
Media aritmetică
Exemplu
Vechimea în muncă a fost înregistrată pentru cinci salariaţi ai unei firme şi
anume: 7, 5, 6, 7 şi 8 ani. Vechimea medie este:
7 5 6 7 8 33
x 6,6 ani.
5 5
5 6 7 8
x =6,6 ani
7
Media aritmetică
Media aritmetică este afectată de orice valoare sau valori extreme.
Exemplu
Datele pentru vechimea în muncă a 10 salariaţi sunt: 5, 4, 5, 5, 6, 6, 4 şi 20,
atunci vechimea medie este:
5 4 ... 4 20
x 6,6 ani
10
0 5 10 15 20
x = 6,6 ani
5 4 ... 6 4
x 5,1 ani
9
8
Exemplu
9
Exemplu
Se observă că pentru primul, respectiv ultimul interval de variaţie nu s-au precizat
ambele limite, ceea ce ar putea sugera că seria de date negrupate conţine valori
extreme.
Pentru a putea calcula media şi aceasta să fie neafectată de aceste valori se
procedează la fixarea limitelor inferioară, respectiv superioară pentru aceste
intervale.
Limitele se determină astfel încât toate intervalele să aibă aceeaşi mărime, adică
1,10.astfel intervalele devin:5,15-6,25, respectiv 12,85-13,95.
r
x n
i 1
i i
422,5
x r
8,45.
Media va fi: 50
n
i 1
i
10
Media aritmetică
Particularităţi în calculul mediei
x n
i 1
i
*%
i
x .
100
6. Dacă o serie statistică este alcătuită din m serii componente, pentru care s-au
calculat mediile parţiale x j , j 1, m , atunci media întregii serii poate fi calculată
ca o medie aritmetică ponderată din mediile parţiale
m
x j 1
j nj
x m
nj 1
j
unde nj
reprezintă volumul seriei componente j j 1, m .
12
Mediana
2. Mediana (median, în engl.) reprezintă valoarea din
mijlocul unei serii de date ordonate.
- este un indicator mediu de poziţie care face parte din categoria
cuantilelor
- mediana este un indicator al tendinţei centrale, fiind situată în
centrul seriei
- 50% dintre valori sunt situate la stânga medianei, iar 50% la
dreapta medianei
- ia în consideraţie doar poziţia observaţiilor în serie, nu şi mărimea
lor efectivă (nu este afectată de prezenţa valorilor extreme).
13
Mediana
Pentru a determina mediana se introduce noţiunea de ranguri,
adică numere de ordine asociate observaţiilor, de la cea mai
mică (cu rangul 1), până la cea mai mare (rangul n)
Rangul (locul ) medianei va fi, atunci, (n+1)/2, deci rangul
unităţii din mijlocul seriei.
Exemplu
Pentru o serie numerică de forma {30, 32, 40, 35, 32, 37, 34, 32, 35, 41},
mediana se determină astfel:
- ordonăm crescător valorile seriei: {30, 32, 32, 32, 34, 35, 35, 37, 40, 41}
- calculăm locul medianei: Loc Me = (n+1)/2 = 11/2=5,5
- mediana este valoarea cuprinsă între al 5-lea şi al 6-lea termen al seriei
ordonate şi se calculează ca fiind media aritmetică a celor doi termeni aflaţi în
centrul distribuţiei:
Astfel, jumătate dintre valorile seriei sunt mai mici decât valoarea 34,5.
14
Mediana
15
Mediana
- Pentru o repartiţie de frecvenţe pe intervale de variaţie, mediana se va
încadra în intervalul median
- Intervalul median este primul interval cu frecvenţa cumulată mai mare decât
locul (rangul, poziţia) medianei.
1 r
ni 1 FC ( Me 1)
2 i 1
Me xinf Me hMe ,
nMe
unde:
xinf Me reprezintă limita inferioară a intervalului median;
hMe reprezintă mărimea intervalului median;
1 r n 1
ni 1
2 i 1 2 reprezintă locul medianei în serie;
FC(Me - 1) reprezintă frecvenţa cumulată a intervalului ante-rior celui median;
nMe reprezintă frecvenţa absolută a intervalului median.
16
Mediana
Mediana poate fi determinată şi pentru variabilele
nenumerice măsurate pe scala ordinală.
Pentru o variabilă nenumerică, determinarea medianei
este mai uşoară dacă datele sunt sistematizate
Se parcurg următorii paşi :
17
Mediana
În cazul datelor privind clasamentul general la competiţiile
internaţionale oficiale pentru Federaţia Română de Atletism, în anul
2006, mediana se determină astfel:
Locul Nr. sportivi Frecvenţe cumulate (Fci)
I 50 50
Me = II 36 86>65
III 31 117
IV 2 119
V 3 122
VI 7 129
Total 129 -
Loc Me = 130/2 = 65, iar valoarea mediană este locul II, ceea ce
înseamnă că jumătate dintre cei 129 de sportivi situaţi în primele şase
locuri la competiţiile internaţionale, au ocupat locurile I şi II, sau, astfel
spus, jumătate dintre cei 129 de sportivi s-au clasat pe locurile III, IV, V
şi VI.
18
Indicatori ai poziţiei relative – cuantilele
k n 1
Qk
unde: q
n reprezintă volumul colectivităţii
k reprezintă indexul cuantilei
q reprezintă numărul părţilor în care se împarte seria de date de către cuantilele
luate în considerare.
19
Indicatori ai poziţiei relative – cuantilele
Cuantilele de ordin 4 (cuartile, notate Q1, Q2, Q3, care împart seria
în patru părţi egale, delimitând câte 25% din observaţii, Q2=Me)
20
Indicatori ai poziţiei relative – cuantilele
21
Indicatori ai poziţiei relative – cuantilele
De exemplu, ne poate interesa capacitatea de cazare (locuri) peste care se situează cele mai
mari 20% dintre unităţile de cazare dintr-o zonă de destinaţie turistică, ori nivelul încasărilor
sub care s-au situat cele mai „slabe” 25% din zile, din punctul de vedere al vânzărilor realizate
de un magazin comercial.
22
Indicatori ai poziţiei relative – cuantilele
- cuartila inferioară -Q1 (delimitează cele mai mici 25% din valori);
- cuartila superioară -Q3 (delimitează cele mai mari 25% din valori);
23
Indicatori ai poziţiei relative – cuantilele
Diagrama Box-Plot
- 50% din valorile situate în centrul distribuţiei (valori situate între Q1 şi Q3).
-linia din interior reprezintă valoarea mediană
-iar liniile inferioară, respectiv superioară reprezintă valorile xmin şi xmax.
24
Indicatori ai poziţiei relative – cuantilele
25
Modul
3. Modul (Mo, mode în engl.) reprezintă valoarea cel mai
des întâlnită într-o serie de date (valoarea care are cea
mai mare frecvenţă de apariţie)
Valoarea modală se poate determina pentru orice tip de variabilă
(nenumerică sau numerică), indiferent de scala de măsurare.
Modul este singurul indicator ce poate fi determinat pentru variabilele
măsurate pe scala nominală.
Grafic, într-o histogramă ori poligon al frecvenţelor, modul reprezintă
valoarea de pe abscisă, corespunzătoare vârfului reprezentării.
O serie de date statistice poate să aibă una sau mai multe valori
modale.
O distribuţie cu un singur mod se numeşte unimodală (a), o
distribuţie este bimodală (b) dacă are două valori dominante şi
multimodală (c) dacă are mai mult de două valori modale.
26
Modul
ni
ni
a) b)
xi
xi
Mo Mo1 Mo2
ni
c)
xi
Mo1 Mo2 Mo3
27
Modul
I. Determinarea modului pentru o variabilă nenumerică
Ştiinţele naturii 44
Istoria tehnicii şi ştiinţei 21
Istorie 117
Etnografie 115
ni max
Mo = Istoria culturii = 152
Artă 149
Mixte 70
Total 668
Sursa: Anuarul Statistic al României, 2008.
28
Modul
II. Determinarea modului pentru o variabilă numerică
Pentru o serie numerică de forma {30, 32, 40, 35, 32, 37, 34,
32, 35, 41}, Mo = 32, deoarece valoarea 32 apare de cele mai
multe ori.
Dacă toate valorile apar cu aceeaşi frecvenţă spunem că seria nu are mod.
29
MODUL
1
Mo x 0 h
1 2
unde:
• x0 este limita inferioară a intervalului modal;
• h este mărimea intervalului modal;
•
1 nMo nMo1 este diferenţa între frecvenţa intervalului modal
şi frecvenţa intervalului anterior celui modal;
30
Modul
Exemplu
Se cunoaşte distributia a 200 de agenti economici in functie de cifra de afaceri:
15-25 15
25-35 120
35-45 40
45-55 20
Total 200
120 15
Mo 25 10 30,67
120 15 120 40
Cele mai multe firme au realizat o cifră de afaceri de aproximativ 30,67 zeci mii euro. 31
Analiza comparativă a indicatorilor tendinţei centrale
Pentru a obţine o imagine completă asupra unui fenomen
economico-social se determină şi analizeză atât cei trei
indicatori ai tendinţei centrale, cât şi relaţia dintre ei.
32
Analiza comparativă a indicatorilor tendinţei centrale
33
Analiza comparativă a indicatorilor tendinţei centrale
34
Analiza comparativă indicatorilor tendinţei centrale
x M 0 3 x Me
35
Alte tipuri de medii
1. MEDIA ARMONICĂ =medie de calcul, cu aplicaţii speciale, care se determină, ca
valoarea inversă a mediei aritmetice, calculată din inversele valorilor seriei:
r
xh
n n i 1
i
1 100
n xh
1
r r r
1 1 * 1
i 1
xi
i 1
xi
ni
i 1
xi
ni x n
i 1 i
*%
i
36
Alte tipuri de medii
2. MEDIA PĂTRATICĂ = medie de calcul cu aplicaţii speciale şi reprezintă
valoarea care, înlocuind termenii seriei, nu modifică suma pătratelor lor:
r r r
n
xi2 ni xi2 ni* xi2 ni*%
xi2
xp i 1
r
i 1
i 1
xp i 1 1 100
n n
i 1
i
37
Alte tipuri de medii
3. Media geometrică se calculează ca rădăcina de ordinul n din produsul
celor n valori ale unei serii de date:
r
n r
ni
xg n x
i 1
i xg i 1
xini
i 1
n
x1 x2 .... xn xi x g
i 1
Media geometrică este zero dacă una dintre valorile variabilei este zero
Media geometrică nu se determnă dacă variabila ia şi valori negative.
În practică, media geometrică se foloseşte pentru calculul indicelui mediu
de modificare a unui fenomen.
39