Sunteți pe pagina 1din 27

Statistic urban

Statistic descriptiv univariat


Cursul 5. Statistic descriptiv
Coninut:
Sintez numeric univariat
Indicatori de mprtiere
Dispersia
Variana
Abaterea standard
Coeficientul (procentual) de variabilitate
Amplitudinea
Tipuri de indicatori de mprtiere
Sinteza numeric univariat se face pentru
evidenierea obiectiv i exact a aspectelor eseniale
ale variabilitii unei serii statistice, perceput ca
mprtiere n jurul unei tendine centrale. Paradigma
central a statisticii (n special descriptive) este
renunarea la o parte din informaie pentru ctig n
relevan.
Indicatorii de mprtiere se bazeaz pe:
indicatorii de tendin central dispersia, abaterea
standard i coeficientul (procentual) de variaie
indicatorii de tendin extrem amplitudinea
Cum am putea construi un
indicator de mprtiere?
Am artat c vorbim de mprtiere n jurul unei
tendine centrale.
Am artat c, datorit proprietilor sale
matematice, dintre indicatorii de tendin
central Yule prefer media.
Vom ncerca, deci, s construim un indicator de
mprtiere n jurul mediei.
Idei?
Cum am putea construi un
indicator de mprtiere?
Vom construi indicatorul I:






S se calculeze suma abaterilor de la medie pentru
seriile:
(a) 2, 3, 4
(b) 43, 44, 45, 48
N
X
I
n
k
k
X

=

=
1
) (
Cum am putea construi un indicator de
mprtiere?
Surprini?
Se poate demonstra matematic c media
abaterilor de la media aritmetic a unei serii
este ntotdeauna 0 (v reamintii, de la curba
erorilor de msurare, c suma valorilor aflate la
stnga mediei este egal, dar de semn
contrar, cu cea a valorilor aflate la dreapta ei).
Soluii?
Cum am putea construi un indicator de
mprtiere?
O alt idee este s construim un alt indicator:






Din nefericire, proprietile matematice ale modulului
(valorii absolute) fac impractic folosirea acestui
indicator.
Ce putem face?
N
M
I
n
k
k
X

=

=
'
1
Indicatori de mprtiere dispersia
unde M este media aritmetic, N este numrul total de observaii X
j
i p (s N)
numrul de observaii distincte X
i
, iar f
i
este frecvena relativ a valorii X
i

(Dragomirescu L., op. cit.).
Numrtorul dispersiei se numete varian.
Pentru a obine o valoare pozitiv, putem ridica abaterile la ptrat.
Dispersia se noteaz cu S
2
i se calculeaz folosind una dintre formulele:
Proprietile dispersiei
1. S
2
0 (egalitate doar pentru serii constante)
2. Permite compararea (Dragomirescu L., op. cit.):
variabilitii unui caracter n n 2 populaii, dac datele au acelai ordin
de mrime (i medii apropiate)
a n 2 caractere ale aceleiai populaii dac se folosesc aceleai
uniti de msur i datele au acelai ordin de mrime (i medii
apropiate)
Proprieti pozitive Proprieti negative
1. ine cont de toate valorile din
cadrul seriei;
2. Numrtorul expresiei
ndeplinete o proprietate de
aditivitate.
1. Este sensibil la valorile aberante;
2. Are alt ordin de mrime fa de
datele iniiale i medie i se exprim
n ptratul unitii de msur a
datelor.
Abaterea standard
Abaterea standard se noteaz cu S i este rdcina
ptrat a dispersiei.
Proprieti (Dragomirescu L., op. cit.)
1. S 0 (egalitate doar pentru serii constante)
2. Permite compararea:
Proprieti pozitive Proprieti negative
1. ine cont de toate
valorile din cadrul seriei.
2. ndeplinete o
proprietate de aditivitate.
1. Este sensibil la valorile aberante;
2. Are acelai ordin de mrime fa de datele
iniiale i medie i se exprim n unitatea de
msur a datelor.
variabilitii unui caracter n n 2 populaii, dac datele au acelai
ordin de mrime (i medii apropiate)
a n 2 caractere ale aceleiai populaii dac se folosesc aceleai
uniti de msur i datele au acelai ordin de mrime (i medii
apropiate)
Coeficientul (procentual) de
variabilitate
Coeficientul (procentual) de variabilitate,
notat cu CV, reprezint procentul
reprezentat de abaterea standard S din
media M:
Proprieti
1. CV% 0 (deoarece S 0 i, pentru c msurtorile se situeaz pe o
scar raport, M > 0). CV = 0 dac i numai dac S = 0, adic irul este
constant.
2. Permite compararea:
variabilitii unui caracter n n 2 populaii, dac datele au ordine
de mrime (i medii) diferite
a n 2 caractere ale aceleiai populaii dac se folosesc uniti de
msur diferite sau aceleai uniti de msur, dar datele au
ordine de mrime diferite (Dragomirescu L., op. cit.)
Coeficientul (procentual) de
variabilitate (continuare)
Proprieti
pozitive
Proprieti
negative
1. Poate fi utilizat i n cazurile
recomandate pentru dispersie sau
abaterea standard, deci este indicatorul
universal de comparare a variabilitii
pentru variabile pe scara raport;
2. Numrtorul expresiei ndeplinete o
proprietate de aditivitate;
3. Este independent de unitatea de
msur folosit pentru valorile seriei, fiind
adimensional.
1. Este sensibil
la valorile
aberante;
2. Este valabil
doar pentru
msurtorile
pe scar
raport, nu i
interval.
Reguli empirice referitoare la
coeficientul (procentual) de variaie
CV% < 10% populaie omogen
CV% > 30% populaie eterogen
10% < CV% < 20% populaie relativ
omogen sau chiar omogen, n funcie de
variabil
20% < CV% < 30% populaie relativ
eterogen (Dragomirescu L., op. cit.)
Omogenitate i eterogenitate
Omogenitate maxim exprimat
prin moda unic i CV mic
Omogenitatea exprimat de moda
unic, eterogenitatea de CV mare
Eterogenitate exprimat prin
multimodalitate, dar CV mic
Eterogenitate maxim exprimat prin
multimodalitate i CV mare
Realitatea
vzut de
mod, CV
Realitatea
vzut de
mod, CV
Realitatea
vzut de
mod
Realitatea
vzut de
mod
Eterogenitatea ca
mprtiere n jurul
tendinei centrale
Eterogenitatea
ca amestec de
omogeniti
Aplicaie
S se calculeze dispersia, abaterea
standard i coeficientul (procentual) de
variaie pentru seria 7; 16,1; 16,5; 16,7;
16,8; 16,9; 16,9; 17; 17; 17; 17; 17; 17,1;
17,1; 17,1; 17,2; 17,3; 17,5; 17,8; 18,
nainte i dup eliminarea valorii aberante
7.
Rezolvare seria cu valoarea aberant
7 inclus
Calcul pe baza primei formule:
( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ( )
96 , 4
20
16,55 - 18 16,55 - 17,2 16,55 - 17 16,55 - 17 16,55 - 16,7
16,55 - 17,8 16,55 - 17,1 16,55 - 17 16,55 - 16,9 16,55 - 16,5
16,55 - 17,5 16,55 - 17,1 16,55 - 17 16,55 - 16,9 16,55 - 16,1
16,55 - 17,3 16,55 - 17,1 16,55 - 17 16,55 - 16,8 16,55 - 7
2 2 2 2 2
2 2 2 2 2
2 2 2 2 2
2 2 2 2 2
2
~
+ + + + +
+ + + + + +
+ + + + + +
+ + + + +
=
S
Calcul pe baza celei de-a doua formule:
( ) ( ) ( )
( ) ( ) ( )
( ) ( ) ( )
( ) ( ) ( ) ( )
96 , 4 1/20 1/20 1/20 1/20
1/20 3/20 5/20
2/20 1/20 1/20
1/20 1/20 1/20
16,55 - 18 16,55 - 17,8 16,55 - 17,5 16,55 - 17,3
16,55 - 17,2 16,55 - 17,1 16,55 - 17
16,55 - 16,9 16,55 - 16,8 16,55 - 16,7
16,55 - 16,5 16,55 - 16,1 16,55 - 7
2 2 2 2
2 2 2
2 2 2
2 2 2
2
~ + + + +
+ + + +
+ + + +
+ + + =
S
Rezolvare seria cu valoarea aberant
7 inclus (continuare)
S

CV
CV = 100 (2,23 / 16,55) = 13,46
Diagnostic
Populaie relativ omogen
Rezolvare seria fr valoarea
aberant 7
Calcul pe baza primei formule:
( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ( )
17 , 0
19
17,05 - 18 17,05 - 17,2 17,05 - 17 17,05 - 17 17,05 - 16,7
17,05 - 17,8 17,05 - 17,1 17,05 - 17 17,05 - 16,9 17,05 - 16,5
17,05 - 17,5 17,05 - 17,1 16,05 - 17 17,05 - 16,9 17,05 - 16,1
17,05 - 17,3 17,05 - 17,1 17,05 - 17 17,05 - 16,8
2 2 2 2 2
2 2 2 2 2
2 2 2 2 2
2 2 2 2
2
~
+ + + + +
+ + + + + +
+ + + + + +
+ + + +
=
S
Calcul pe baza celei de-a doua formule:
( ) ( )
( ) ( ) ( )
( ) ( ) ( )
( ) ( ) ( ) ( )
0,17 1/19 1/19 1/19 1/19
1/19 3/19 5/19
2/19 1/19 1/19
1/19 1/19
17,05 - 18 17,05 - 17,8 17,05 - 17,5 17,05 - 17,3
17,05 - 17,2 17,05 - 17,1 17,05 - 17
17,05 - 16,9 17,05 - 16,8 17,05 - 16,7
17,05 - 16,5 17,05 - 16,1
2 2 2 2
2 2 2
2 2 2
2 2
2
~ + + + +
+ + + +
+ + + +
+ + =
S
Rezolvare seria fr valoarea
aberant 7 (continuare)
S

CV
CV = 100 (0,41 / 17,05) = 2,41
Diagnostic
Populaie omogen
Exemplu practic de utilizare a indicatorilor
de mprtiere n jurul tendinei centrale

Media
($)
Deviaia
standard ($)
CV%
Kalorama 1699 538,5 31,7
Cleveland Park 1417 188,7 13,3
Dupont Circle 1517 373,7 24,6
Georgetown 1478 416,8 28,2
Foggy Bottom 1291 318,8 24,7
Cathedral Heights 1248 301,1 24,1
Capitol Hill 1117 228,4 20,5
Adams Morgan 1187 189,0 15,9
Columbia Heights 1122 208,0 18,5
Logan Circle 1078 228,8 21,2
Mount Pleasant 1025 212,6 20,7
Glover Park 1010 195,8 19,4
Northwest 1110 412,5 37,7
Northeast 718 171,7 23,9
Southeast 586 89,7 15,3
American University Park 1284 70,2 5,5

Media, deviaia
standard i
coeficientul de
variabilitate
pentru chiriile
pltite n diferite
zone din
regiunea
Washington
(DC) n 2003 (n
dolari), pe baza
datelor obinute
din anunurile
publicate n
pres
Amplitudinea
Reprezint diferena dintre valoarea maxim i
valoarea minim dintr-o serie (Dragomirescu L.,
op. cit.):
A = X
max
X
min
Aplicaie:
S se calculeze amplitudinea seriei 7; 16,1; 16,5;
16,7; 16,8; 16,9; 16,9; 17; 17; 17; 17; 17; 17,1; 17,1;
17,1; 17,2; 17,3; 17,5; 17,8; 18, nainte i dup
eliminarea valorii aberante 7.
Rezolvare
nainte de eliminarea valorii aberante:
A = 18 7 = 11.
Dup eliminarea valorii aberante:
A = 18 16,1 = 1,9.
Proprieti
pozitive
Proprieti
negative
1. Ofer o
imagine
general
asupra
mprtierii.
1. Consider doar valorile extreme;
2. Este sensibil la valorile aberante;
3. Nu este sensibil la alte valori dect cele extreme.
4. Nu se preteaz la calcule algebrice.
(Dragomirescu L., op. cit.)
Exemplul 1: numrul de apartamente finalizate
n 2002 n judeele din regiunea Sud
Sintez grafic
Diagram circular distribuia
numrului de apartamente pe
judee
Histogram, poligon i curb de
frecvene numrul de
apartamente
Sintez numeric
Medie, median, mod, dispersie,
abatere standard, coeficient de
variabilitate i amplitudine pentru
numrul de apartamente
Jude Numr
Arge 28
Dmbovia 303
Giurgiu 55
Ialomia 79
Prahova 42
Teleorman 130
Diagrama circular i histograma
Diagram circular Histogram
N = 6 < 50, gruparea nu are sens.
nc1+10/3log
10
N=1+10/3 log
10
6=3,594
ic=(x
max
x
min
)/nc=(30328)/4=68,7569
Arges
Dmbovita
Giurgiu
Ialomita
Prahova
Teleorman
0
1
2
3
4
5
1 2 3 4
Poligon i curb de frecvene
Poligon de frecvene Curb de frecvene distribuie n form de u
Poligon , curb de frecvene distribuie uniform
0.5
1
28 42 55 79 130 303
0.5
1
0 100 200 300
Sintez numeric
M = 106,17
S
2
= 8815,81
S = 93,89
CV = 88,44 > 30
populaie eterogen

A = 303 28 = 275
Mediana: N = 6
k = 3
Mediana este semisuma
valorilor 3 i 4
Me=(55+79)/2=67
Moda: toate valorile au
aceeai frecven i sunt
mode. Distribuia este
uniform.
ntrebri
Atept ntrebri.