Sunteți pe pagina 1din 47

BAZELE STATISTICII

- anul universitar 2016-2017 -


2. Analiza unei serii statistice
unidimensionale
2.1. Variabile cantitative

A. Variabil discret

A.1. Prezentarea seriei (distribuiei) statistice


- seria simpl X:(xi), cu i=1,m , cnd n1=n2= =ni.
xi
- seria cu frecvene diferite X: , cnd ninj.
ni
xi
X: , cu fi=ni/n
fi
Frecvene absolute cumulate cresctor (Ni )
sau descresctor (Ni )
- exprim numrul de uniti statistice cumulate pn la
sau peste nivelul considerat al caracteristicii, adic
valori xi, respectiv xi.

i
N i N i 1 ni nh
h 1

m
N i N i 1 ni nh
h i
Frecvene relative cumulate cresctor (Fi )
sau descresctor (Fi )

- exprim ponderea unitilor statistice cumulate pn


la sau peste nivelul considerat al caracteristicii, adic
valori xi, respectiv xi.

i
Fi Fi 1 f i f h
h 1

m
Fi Fi 1 f i f h
h i
Exemplu
Distribuia unui eantion de persoane dup numrul de spectacole de teatru
vizionate ntr-o lun

xi ni fi

0 9 5,17

1 29 16,67

2 95 54,6

3 35 20,11

4 6 3,45

Total 174 100,0


A.2. Analiza seriei folosind metode numerice
Presupune calculul indicatorilor statisticii descriptive,
cunoscui i sub denumirea de caracteristici numerice ale
unei distribuii.

A.2.1. Indicatori ai tendinei centrale (mrimi medii)

a. Definire:
- mediile sunt acele valori n jurul crora se repartizeaz
unitile unei populaii.
- cele mai importante mrimi medii sunt media aritmetic,
modul i mediana .
A.2. Analiza seriei folosind metode numerice
b. Media aritmetic ( x )
- Media aritmetic este valoarea pe care am observa-o dac
unitile statistice ar nregistra aceleai valori ale variabilei
(dac nu ar exista variaii ale valorilor nregistrate de
unitile statistice).
Mod de calcul n cazul seriilor simple i seriilor cu frecvene
diferite (variabil discret)

Media simpl: xi
x i
n
Media ponderat.
x i ni
x i sau x xi f i
ni i
i
Observaie:
Media aritmetic este sensibil la prezena valorilor extreme
(outliers).
Cele mai importante proprieti ale mediei aritmetice:
1. Media unei distribuii este o valoare intern:
xmin x xmax.

2. Media este o mrime normal: suma abaterilor valorilor


individuale ale unei variabile X de la media lor este egal cu
zero.

Exemplu: S considerm distribuia membrilor unei familii dup


numrul de litri de Coca-Cola consumai ntr-o sptmn:
1, 1, 4, 6, 8.
c. Modul (Mo)
este valoarea variabilei cea mai frecvent observat ntr-o
distribuie, adic valoarea xi care corespunde frecvenei
maxime (nimax).
Observaie:
modul poate fi aflat doar n cazul seriilor cu frecvene
diferite.
o distribuie poate avea una, dou sau mai multe valori
modale (serii unimodale, bimodale sau plurimodale).

Interpretare: Cele mai multe uniti nregistreaz valoarea


modal.
d. Mediana (Me)
- este acea valoare a variabilei unei serii ordonate, cresctor sau
descresctor, pn la care i peste care sunt distribuite n
numr egal unitile colectivitii: jumtate din uniti au
valori mai mici dect mediana, iar jumtate au valori mai mari
dect mediana.
- corespunde locului unitii mediane calculate astfel:

n1
U Me

2
Aflarea medianei se face diferit n funcie de tipul seriei:

1. Serii simple:
- numr impar de termeni. Exemplu: 7, 3, 8, 4, 5
- numr par de termeni. Exemplu: 7, 3, 8, 4, 5, 5

2. Serii cu frecvene diferite


- se calculeaz unitatea median (UMe).
- se calculeaz N i
- se afl prima valoare N i U Me
- valoarea xi corespunztoare acesteia este Me.

Observaie:
mediana nu este influenat de valorile extreme.

Exemplu: 1, 1, 2, 4, 4, 80
f. Quartilele

- sunt valori ale variabilei care mpart volumul


eantionului n 4 pri egale.
- reprezentare grafic i mod de calcul ( Q1, Q2, Q3).

g. Decile
- sunt valori ale variabilei care mpart volumul
eantionului n 10 pri egale.
- decila unu (D1) i decila 9 (D9).
A.2.2. Indicatori ai dispersiei (variaiei)
Definire:
- dispersia exprim gradul de variaie a valorilor individuale
ale unei variabile fa de nivelul mediu.
- aprecierea fenomenului de dispersie al unei distribuii
permite identificarea gradului de reprezentativitate a mediei
unei distribuii.
Indicatori sintetici ai dispersiei:
1. Abaterea medie liniar
1. Variana

( x x2
) (x x) n
i
2
i
i 2
s i
s
2 i
n
, respectiv n i
i

Variana este ntotdeauna pozitiv, nu are unitate de msur


i nu se interpreteaz.
Prin ridicarea la ptrat a abaterilor valorilor xi fa de medie
crete influena valorilor extreme asupra nivelului
varianei.
3. Abaterea standard (s)
arat cu ct variaz, n medie, valorile xi ale variabilei fa
de nivelul mediu al distribuiei, n sens pozitiv i negativ.
Se calculeaz ca radical din varian
se exprim n aceeai unitate de msur cu cea a variabilei.

(x x)
i
2 (x x)
i
2
ni
s2 i
s
2 i
n
n i
i
4. Coeficientul de variaie (v)
s
v 100
x
se exprim n procente.
valori ridicate ale acestui coeficient (v>50%) arat o
distribuie eterogen, care se caracterizeaz printr-o
variaie mare a valorilor xi fa de nivelul mediu i o medie
nereprezentativ.
este sensibil fa de valoarea mediei: cu ct media este mai
apropiat de zero, cu att coeficientul de variaie este mai
dificil de folosit (tinde spre infinit).
5. Amplitudinea intervalului interquartilic
IQ=Q3-Q1.
- cuprinde 50% din volumul eantionului.

n mod sintetic, cele mai importante caracteristici numerice


ale unei distribuii pot fi cuplate astfel:
media - abaterea standard - coeficientul de variaie
mediana amplitudinea intervalului interquartilic
media - mediana
A.2.3. Indicatori ai formei
1. Asimetria:
- reprezint o deviere de la forma simetric a unei distribuii.

Asimetria poate fi apreciat:


- pe cale grafic: curba frecvenelor, diagrama box-plot.
- pe cale numeric: - prin calculul indicatorilor de asimetrie
(Skewness).
3
Coeficientul de asimetrie Fisher: 1
s3
Relaii ntre cele trei mrimi medii
Arat forma unei distribuii:
1. Cnd x Mo Me distribuia este simetric.
2. Cnd x Me Mo distribuia este asimetric la
dreapta (asimetrie pozitiv).
3. Cnd x Me Mo distribuia este asimetric la
stnga (asimetrie negativ).
2. Boltirea
- este definit prin compararea distribuiei empirice cu
distribuia normal din punctul de vedere al variaiei
variabilei X i a frecvenei ni.
Boltirea poate fi apreciat:
pe cale grafic: curba frecvenelor.
- numeric: prin calculul indicatorilor boltirii (kurtosis).
Coeficientul de boltire Fisher:
4 4
2 2 3 4 3
2 s
A.3. Analiza seriei folosind metode grafice
a. Poligonul frecvenelor:
- construirea acestuia presupune gsirea locului geometric al
punctelor Ai de coordonate (xi,ni) sau (xi,fi) i unirea
acestora prin segmente de dreapt.
- aproximeaz forma unei distribuii.
b. Histograma
c. Curba frecvenelor:
- presupune ajustarea printr-o linie curb, continu a
histogramei.
- aproximeaz mai bine forma de distribuie a colectivitii
dup variabila considerat.
d. Reprezentarea diagramei box-plot sau box-and-whiskers
Forma diagramei (D1, Q1, Q2, Q3, D9);

Avantaje:
- permite aprecierea nivelului mediu (Me), dispersiei i
asimetriei unei distribuiei;
- faciliteaz compararea mai multor distribuii (prin
reprezentarea simultan a diagramelor).
Exemplu: Pentru o distributie s-au inregistrat valorile: D1=5,
Q1=12, Q2=20, Q3=22, D9=25. Sa se interpreteze asimetria
distributiei folosind diagrama box-plot.
Diagrama box-plot

1
NOTA

3 4 5 6 7 8 9 10 11

Analy sis w eighted by NRSTUD


NOTA _1

NOTA _2

3 4 5 6 7 8 9 10 11
Indicatorii statisticii descriptive n Excel
Column1
Mean 8.6
Standard Error 0.347735
Median 8
Mode 10
Standard Deviation 1.904622
Sample Variance 3.627586
Kurtosis -0.14315
Skewness -0.40554
Range 8
Minimum 4
Maximum 12
Sum 258
Count 30
B. Variabil continu
B.1 Prezentarea seriei statistice
- gruparea unitilor statistice este realizat pe intervale de
variaie.
Observaie:
- Gruparea pe intervale de variaie duce la pierderea unei pri
a informaiei iniiale.

B.2. Indicatori ai statisticii descriptive


- se calculeaz n mod identic, prin discretizarea variabilei
(calculul mijlocului intervalelor de variaie).
B.3. Prelucrarea seriei statistice folosind metode
grafice
a. Histograma

b. Poligonul frecvenelor

c. Curba frecvenelor

d. Box-plot
Distribuia unui eantion de firme dup valoarea profitului (mil.
lei), n anul 2012
xi-1-xi ni xi' xi' ni
0 -10 20
5 100
10-20 40
15 600
20-30 35
25 875
30-40 15
35 525
40-50 10
45 450
TOTAL 120 -
2550
Statistics

Profit
N Valid 120
Mean 21.2500
Median 20.3333
Mode 15.00
Std. Deviation 11.52728
Variance 132.878
Skewness .442
Kurtosis -.484
Percentiles 10 5.6667
20 9.6667
25 11.6667
30 13.6667
40 17.1333
50 20.3333
60 23.5333
70 27.6000
75 30.0000
80 32.4000
90 39.4000
Histogram

50

40
Frequency

30

20

10

Mean = 21.25
Std. Dev. = 11.52728
0 N = 120
0.00 10.00 20.00 30.00 40.00 50.00

Profit

Cases weighted by nr.firme


Profit

0.00 10.00 20.00 30.00 40.00 50.00

Cases weighted by nr.firme


2. Analiza unei serii univariate
2.1. Variabil cantitativ
A. Variabil discret
B. Variabil continu

2.2. Variabil calitativ

I. Tipuri de variabile
A. Variabile nominale
B. Variabile ordinale
III. Indicatori statistici specifici
a) Variabile nominale:
1. Mrimi relative
- frecvene relative (fi)

2. Indicatori ai tendinei centrale


- modul arat categoria cea mai frecvent observat.
II. Reprezentare grafic
a) Variabile nominale:
Pentru a reprezenta structura pe categorii la
nivelul unui eantion se calculeaz frecvene
relative;
Reprezentarea structurii unui eantion se
realizeaz folosind diagrame de structur:
dreptunghiul, ptratul i cercul de structur
(Pie Chart) sau folosing diagrame prin
coloane (Bar Chart).
Religie ni fi (%)
Budism 7 6,80
2% 7%
Catolic 41 39,81 16% Budism
Catolic
Hinduism 1 0,97
Hinduism
8%
Iudaism 1 0,97 Iudaism
39% Islam
Islam 27 26,21
Ortodox
Ortodox 8 7,77 Protestantism
26% Taoism
1%
Protestantism 16 15,53
1%
Taoism 2 1,94

Total 103 100


b) Variabile ordinale:
1. Mrimi relative
- frecvene relative (fi)
- frecvene relative cumulate (Fi)

2. Indicatori ai tendinei centrale


- mediana i modul.

3. Reprezentare grafica
Histograma
Poligonul frecvenelor
Box-plot
Distribuia medaliilor olimpice obinute de Romnia la JO dup categoria medaliei, n
perioada 1924-2012.

Medalia ni fi (%) Ni Fi

Aur 88 29 88 29

Argint 95 31,4 183 60,4

Bronz 120 39,6 303 100

Total 303 100 - -

S-ar putea să vă placă și