Sunteți pe pagina 1din 52

Statistica descriptiv

NICHOLAS GEORGESCU-ROEGEN
Evoluia sferei noiunii statistic
Teoria probabilitilor Blaise Pascal XVII
statistik: Gottfried Achenwall 1749
statistica: stabilirea naturii informaiilor despre stat,
a cadrului n care sunt expuse
a evoluat spre Economie Politic, Sociologie,
Demografie
1874, Rumelin: Statistica nu este dect o metod
coala englez: abordare calculatorie
Graunt: raportul 14/13 dintre numrul naterilor de
biei i de fete
aritmicieni politici
tiina numrtorii, tiina numerelor mari,
tiina valorilor medii. Istorie de 150 de ani.
2 statistica descriptiva
FENOMENE COLECTIVE
Fenomene naturale:
tipice : P = UI
colective (generale) : variaia preului petrolului,
rate de schimb, variaia incidenei unei boli etc.
Fenomene tipice: n condiii identice sau
similare, se produc n aceeai form
caracteristice pentru anumite niveluri ale lumii
anorganice
Fenomene colective: nu se pot reproduce
identic aproape niciodat
fenomene sociale
fenomene biologice
unele fenomene anorganice (meteorologie)
3 statistica descriptiva
METODA de studiu
Fenomene tipice:
experiena de laborator, modelarea matematic
Fenomene colective:
observarea (rareori repetabile prin experiment:
meteorologie, economie, sociologie etc.)
trebuie observate multe repetri
pentru a distinge tipicul de accidental
Metod de studiu cu o altfel de modelare
matematic. Noiunile noi:
variabil aleatoare
lege stochastic
4 statistica descriptiva
LEGE STOCHASTIC
Fenomene tipice: legi rigide
Spaiul parcurs este egal cu
produsul dintre viteza de deplasare i
timpul de deplasare
Fenomene colective: legi stochastice
Din stejar, stejar rsare
Spiritul uman, prin abstractizare, tinde
s rein ce este tipic, general i s
ignore excepiile.
5 statistica descriptiva
STABILITATEA
FRECVENELOR
Cum se descoper legile stochastice?
Ce le face adevrate?
Punctul comun al teoriei statisticii i al realitii:
Axioma stabilitii frecvenelor
Dac ntr-o serie de observaii coninnd
N
1
, N
2
, , N
p
cazuri, obinute sub influena
aceluiai complex de cauze, numrul de
cazuri prezentnd calitatea A este de f
1
, f
2
,
, f
p
, atunci raporturile f
1
/N
1
, f
2
/N
2
, ,
f
p
/N
p
nu difer prea mult ntre ele.
Frecvenele relative ale evenimentului A.
Bernoulli Ars conjectandi, 1713: demonstraie.
6 statistica descriptiva
Structura STATISTICII:
Statistica:tiin care culege, sintetizeaz,
descrie i interpreteaz date referitoare la
fenomene colective
Statistica descriptiv
sintetizarea i prezentarea datelor
informeaz, aranjnd datele pentru decizii
Statistica inferenial (matematic): modele
i tehnici pentru:
a obine concluzii din datele colectate
a face estimri de parametri
a verifica ipoteze statistice
7 statistica descriptiva
ELEMENTELE DEFINITORII ALE UNUI
STUDIU STATISTIC
Populaie: o colecie de obiecte (entiti
elementare, indivizi), posednd toate o
anumit caracteristic.
finite / infinite; concrete / abstracte
definirea populaiei este esenial
Eantion: o submulime a populaiei definite.
Atribut variabil: o caracteristic ce prezint
valori ce pot diferi de la un individ la altul.
cantitative / calitative (sortabile / nesortabile).
Observaie: valoare a unui atribut variabil
pentru un anumit individ.
8 statistica descriptiva
Un parametru este o msur descriptiv a unei
populaii.
O statistic este o msur descriptiv a unei
probe (eantion).
O statistic este un estimator nedeplasat (unbiased) al
unui parametru , dac nu sub (sau supra )estimeaz
parametrul n mod constant.
9 statistica descriptiva
Acuratee i precizie:
acuratee nalt i precizie nalt
Acurateea este gradul de conformitate a unei cantiti msurate sau calculate
cu valoarea sa real .
Acurateea este strns legat de precizie , de asemenea, numit
reproductibilitate sau repetabilitate , gradul n care urmtoarele msurtori
sau calcule vor arta rezultate identice sau similare :
10 statistica descriptiva
acuratee nalt i
precizie slab
acuratee slab i
precizie nalt
Acuratee i precizie:
11 statistica descriptiva
Dou tipuri de erori
- eroare sistematic
acuratee slab
cauze clare
reproductibil
- eroare aleatorie
precizie slab
cauze non - specifice
nereproductibil
12 statistica descriptiva
EANTIONARE ALEATOARE
Eantionare subiectiv (exemple: selecia
rocilor, pacieni pentru tratamente diferite)
Eantionare aleatoare: fiecare individ din
populaie are aceeai ans de a fi selectat.
metoda seleciei aleatoare (etichetarea tuturor indivizilor)
selecia sistematic (din k n k; periodiciti?)
selecia stratificat (proporiile straturilor)
selecia pe grupe: strzi, careuri de teren,
circumscripii
selecia ierarhic: aleator judee comune
strzi persoane.
13 statistica descriptiva
PROIECTAREA
EXPERIMENTELOR
Nu se caut structuri mici n date foarte
numeroase.
Prelucrarea statistic ncepe dup analizarea
atent a datelor (familiarizarea cu datele).
La dimensiunile actuale, Data mining
Colectarea datelor: numai n conformitate cu
analiza statistic ulterioar.
Surse de erori - datele:
pot lipsi (cei cu durerile cele mai mari se
trateaz)
pot fi greit nregistrate (cifre semnificative
lips)
pot fi din alt populaie: definire, eantion ne-
aleator
14 statistica descriptiva
FRECVEN
Frecvena unei observaii n eantion:
numrul de apariii ale acelei observaii
(valori) n eantion.
Frecvena relativ a unei observaii n
eantion: raportul dintre numrul de apariii
ale observaiei n eantion i numrul total de
observaii (dimensiunea eantionului)
Distribuia frecvenelor (atribut variabil
discret): mulimea tuturor observaiilor
distincte, mpreun cu frecvenele lor relative
n eantion.
Exemplu: fumat Intens Rar Nu
Total
F_abs 7149 2818 6563 16500
15 statistica descriptiva
ATRIBUTE CONTINUE
Clas interval: un subinterval inclus ntre
valorea minim i cea maxim.
Frecvena clasei interval: numrul de
observaii ce aparin clasei respective.
Distribuia frecvenelor unui atribut
variabil continuu: mulimea claselor
interval mpreun cu frecvena relativ a
fiecreia.
16 statistica descriptiva
REPREZENTAREA GRAFIC A
DISTRIBUIEI FRECVENELOR
Histograme:
X axa valorilor;
Y axa frecvenelor;
aria fiecrui dreptunghi proporional cu frecvena
relativ respectiv.
Poligonul frecvenelor: se unesc centrele
laturilor superioare ale dreptunghiurilor din
histogram.
Frecvene cumulate: suma frecvenelor
valorilor mai mici dect o valoare dat
variabile continue.
17 statistica descriptiva
Exemplu :un eantion de 98 de persoane ,la care s-a nregistrat vrsta
Limite superioare subintervala
de variaie vrsta(ani)
Frecvena absolut
subinterval
Frecvena relativ cumulat%
subinterval
1 2 2,04%
5 7 9,18%
10 8 17,35%
15 8 25,51%
20 18 43,88%
30 11 55,10%
50 23 78,57%
70 14 92,86%
80 5 97,96%
90 2 100,00%
100 0 100,00%
98
18 statistica descriptiva
histograma
19 statistica descriptiva
Msuri ale tendinei centrale
Imaginea eantionului
21 statistica descriptiva
Media aritmetic(average)
Media aritmetic(average)
x
N
x
i
i
N
=
=

1
1
Media aritmetic a unei variabile este
calculat prin determinarea sumei
tuturor valorilor variabilei din setul de
date , mprit la numrul de
observaii .
22 statistica descriptiva
Media aritmetic a populaiei, este calculat
folosind toate persoanele dintr-o populaie.
Valoarea medie a populaiei este un parametru.
Media aritmetic a populaiei este notat cu

Media aritmetic a eantionului este notat cu


x
23 statistica descriptiva
Media aritmetic a eantionului, este calculat
folosind mostre de date .
Media aritmetic a eantionului este o statistic
care este un estimator imparial al mediei
populaiei.
24 statistica descriptiva
MEDIA ARITMETIC (1)
1.- Pentru atribute discrete: M = (x
1
++x
n
) /
n
Depinde de toate observaiile.
Dac valoarea x
i
se repet de p
i
ori:
M = (p
1
x
1
++p
n
x
n
) / (p
1
+p
2
++p
n
)
Notnd f
i
= p
i
/ n : M = f
1
x
1
+ + f
n
x
n
2.- Pentru frecvene distribuite pe intervale -
media ponderat a centrelor intervalelor de
grupare:
se alege mijlocul fiecrui interval (presupunnd
distribuie omogen pe interval / principiul erorii
minime)
se nmulete cu numrul de observaii pe interval
se sumeaz dup toate intervalele i se mparte la
numrul de observaii
25 statistica descriptiva
MEDIA ARITMETIC (2)
Stabilitate:
valorile aberante o afecteaz
mici modificri ale sumei nu o afecteaz
reaezri de intervale nu o afecteaz prea mult
Liniaritate: M(ax+b) = aM(x) + b
Abaterile n raport cu media aritmetic:

i
(x
i
) = 0
Definiia variaional: media aritmetic este
numrul M care minimizeaz expresia
i
(x
i

)
2
legtura cu definirea dispersiei.
x
x
26 statistica descriptiva
MEDIA GEOMETRIC
Populaia SUA:
1840: 17 069 000
1850: 23 192 000
1860: 31 443 000
Dac nu am avea observaia din 1850:
Media aritmetic M = 24 256 000
Media geometric G = 23 167 000
27 statistica descriptiva
MEDIA ARMONIC
Un automobil parcurge distana Iai
Pacani de mai multe ori, respectiv cu
vitezele de 80 km/h, 90 km/h, 120 km/h,
60 km/h. Care a fost viteza sa medie?
M = 87,5 km/h
n realitate:
H = 4/(1/80 +1/90 +1/120 +1/60) =
82,3km/h.
Utilizat la calcule bursiere (HGM)
distribuii n J.
28 statistica descriptiva
x y Media aritmetic Media geometric Media armonic
50 50 50 50 50
40 60 50 49 48
30 70 50 46 42
20 80 50 40 32
Media
armonic
29 statistica descriptiva
Mediana unei variabile este valoarea care se afl
n mijlocul datelor , atunci cnd acestea sunt
aranjate n ordine cresctoare . Adic , jumtate
din date sunt sub median i jumtate din date sunt
peste median .
MEDIANA
30 statistica descriptiva
MEDIANA
Descriere printr-o observaie (sau prin media
a dou observaii) din eantion.
Eantionul se sorteaz dup variabila
studiat.
Definiie: Mediana unui set de N observaii
ordonate cresctor este egal cu
valoarea de pe poziia k+1, dac N=2k+1
media dintre valorile de pe poziiile k i k+1, dac
N=2k.
Stabilitate: schimbarea valorii unei observaii,
dar nu i a rangului ei, nu afecteaz
mediana(reduce efectul valorilor aberante).
31 statistica descriptiva
Efectul unei valori aberante
asupra tendinei centrale
Media
Media
Mediana
Mediana
32 statistica descriptiva
QUARTILE
Definiie: Pentru un set de observaii,
quartilele (q
1
, q
2
, q
3
), sunt valorile din
irul ordonat al tuturor observaiilor,
pentru care numrul de valori mai mici
reprezint 25%, 50%, respectiv 75%
din numrul total de
observaii.
q
2
este mediana;
q
1
este mediana valorilor din stnga
medianei;
q
3
este mediana valorilor din dreapta
medianei.
33 statistica descriptiva
Modul unei variabile este cea mai frecvent
observaie a variabilei care apare n setul de
date .
Dac nu exist nici o observaie care apare
cu cea mai mare frecven , spunem c
datele nu au nici un modul .
34 statistica descriptiva
COMPARAIE NTRE MEDIAN, MEDIE
ARITMETIC I MOD
La o distribuie simetric, coincid.
Media aritmetic :
ncorporeaz toate informaiile disponibile, deci nu se
poate calcula pentru distribuii deschise (ultimul
interval nemrginit); Mediana da.
Dac suma tuturor valorilor este semnificativ
Mdul
Pentru distribuii asimetrice, mdul d impresia
cea mai real.
Atunci cnd datele pot fi grupate n tipuri distincte ,
categorii ( date categoriale )
Mediana i mdul nu au proprieti de
liniaritate.
35 statistica descriptiva
36 statistica descriptiva
37 statistica descriptiva
38 statistica descriptiva
39 statistica descriptiva
Cnd seturile de date au valori
neobinuit de mari , sau mici, n raport
cu ntregul set de date , sau atunci
cnd distribuia datelor este asimetric,
mediana este msura preferat pentru
tendina central dect media
aritmetic , pentru c este mai
reprezentativ pentru observare .
40 statistica descriptiva
Msuri ale mprtierii
Variana populaiei unei variabile este suma
ptratelor abaterilor fa de media populaiei
mprit la numrul de observaii din rndul
populaiei , N.
MSURI ALE MPRTIERII(1)
42 statistica descriptiva
Abaterea standard a populaiei este notat cu
Se obine prin luarea rdcinii ptrate a varianei
populaiei , astfel nct
43 statistica descriptiva
AMPLITUDINE
Msur grosier a variabilitii.
Definiie: diferena dintre cea mai mare i
cea mai mic valoare ale observaiilor.
Exemple:
amplitudinea salariilor;
amplitudinea temperaturii (pentru concediu);
amplitudinea notelor (relevana unui test).
44 statistica descriptiva
MSURI ALE MPRTIERII(2)
Definiie: Amplitudinea (intervalul) semi-inter-
quartil este 0,5*(q
3
q
1
).
ntre q
1
i q
3
se gsesc 50 % dintre valori.
Sumarul celor 5 valori: (min,q
1
,q
2
,q
3
,Max)
Definiie: Decilele D
k
, k=1..9, sunt valorile din
irul ordonat cresctor la stnga crora se
afl 10*k % dintre observaii.
Definiie: Percentilele P
k
, k=1..100, sunt
valorile din irul ordonat cresctor la stnga
crora se afl k % dintre observaii
Importante sunt P
1
, P
5
, P
95
, P
99
.
45 statistica descriptiva
DEVIAII I DISPERSIE
Deviaie medie: media abaterilor absolute
fa de media aritmetic(adaptat pentru o serie
de date grupate pe intervale de grupare) Rar folosit.
Dispersia a n observaii:
Deviaia standard a unui eantion:
Pe intervale:
V SD=
n
x x
d
i

=


=
i
2
i i
f
) x (x f
SD
46 statistica descriptiva
Pentru a obine o estimare imparial,
unbiased ,a varianei populaiei , vom mpri
suma ptratelor abaterilor fa de valoarea
medie nu prin n , ci prin ( n 1).
variana (dispersia)eantionului este
calculat prin determinarea sumei ptratelor
abaterilor fa de media eantionului ,apoi
mprind acest rezultat la ( n - 1 ).
Dispersia eantionului
47 statistica descriptiva
( )
( )
) 1 (
1
1
2
1
2
1
2
2

= =
=
n n
x x n
n
x x
s
n
i
n
i
i i
n
i
i
Variana eantionului
48 statistica descriptiva
COEFICIENTUL DE DISPERSIE
Dispersia raportat la medie:
adimensional; comparabil pe atribute diferite.
Exemplu. Eantion de manageri;
vrsta(medie
1
= 51, SD
1
= 11,74); i
IQ(medie
2
= 125, SD
2
= 20).
Ce atribut are mprtiere mai mare?
CV
1
= 11,74 : 51 = 0,23
CV
2
= 20 : 125 = 0,16.
Concluzie: mai mult variaie la vrst.
x
SD
CV =
49 statistica descriptiva
MOMENTE
50 statistica descriptiva
Gaussian probability distribution
Gaussian probability distribution
P
r
o
b
a
b
i
l
i
t
y
+ +2 +3 - -2 -3
.67
.95
51 statistica descriptiva
52 statistica descriptiva

S-ar putea să vă placă și