Sunteți pe pagina 1din 50

BAZELE STATISTICII

- anul universitar 2018-2019 -


2. Analiza unei serii statistice
unidimensionale
2.1. Variabile cantitative

A. Variabilă discretă

A.1. Prezentarea seriei (distribuţiei) statistice


- seria simplă X:(xi), cu i=1,m , când n1=n2= … =ni.
 xi 
- seria cu frecvenţe diferite X:   , când ni≠nj.
 ni 
 xi 
X:   , cu fi=ni/n
 fi 
• Frecvenţe absolute cumulate crescător (Ni  )
sau descrescător (Ni  )
- exprimă numărul de unităţi statistice cumulate “până la”
sau “peste” nivelul considerat al caracteristicii, adică
valori ≤ xi, respectiv ≥ xi.

i
N i  N i 1   ni   nh
h 1

m
N i  N i 1   ni   nh
h i
• Frecvenţe relative cumulate crescător (F i  )
sau descrescător (Fi  )

- exprimă ponderea unităţilor statistice cumulate “până


la” sau “peste” nivelul considerat al caracteristicii, adică
valori ≤ xi, respectiv ≥ xi.

i
Fi  Fi 1   f i   f h
h 1

m
Fi  Fi 1   f i   f h
h i
Exemplu
Distribuţia unui eşantion de persoane după numărul de spectacole de teatru
vizionate într-o lună
xi ni fi

0 9 5,17

1 29 16,67

2 95 54,6

3 35 20,11

4 6 3,45

Total 174 100,0


A.2. Analiza seriei folosind metode numerice
Presupune calculul indicatorilor statisticii descriptive,
cunoscuţi şi sub denumirea de caracteristici numerice ale
unei distribuţii.

A.2.1. Indicatori ai tendinţei centrale (mărimi medii)

a. Definire:
- mediile sunt acele valori în jurul cărora se repartizează
unităţile unei populaţii.
- cele mai importante mărimi medii sunt media aritmetică,
modul şi mediana .
A.2. Analiza seriei folosind metode numerice
b. Media aritmetică ( x )
- Media aritmetică este valoarea pe care am observa-o dacă
unităţile statistice ar înregistra aceleaşi valori ale variabilei
(dacă nu ar exista variaţii ale valorilor înregistrate de
unităţile statistice).
Mod de calcul în cazul seriilor simple şi seriilor cu frecvenţe
diferite (variabilă discretă)

 Media simplă:  xi
i
x
n
 Media ponderată.
 x i  ni
x i
sau x   xi  f i
 ni i
i

Observaţie:
Media aritmetică este sensibilă la prezenţa valorilor extreme
(outliers).
Cele mai importante proprietăţi ale mediei aritmetice:
1. Media unei distribuţii este o valoare internă:
xmin≤ x ≤xmax.

2. Media este o mărime normală: suma abaterilor valorilor


individuale ale unei variabile X de la media lor este egală cu zero.

Exemplu: Să considerăm distribuţia membrilor unei familii după


numărul de litri de Coca-Cola consumaţi într-o săptămână:
1, 1, 4, 6, 8.
c. Modul (Mo)
 este valoarea variabilei cea mai frecvent observată într-o
distribuţie, adică valoarea xi care corespunde frecvenţei
maxime (nimax).
Observaţie:
 modul poate fi aflat doar în cazul seriilor cu frecvenţe
diferite.
 o distribuţie poate avea una, două sau mai multe valori
modale (serii unimodale, bimodale sau plurimodale).

Interpretare: Cele mai multe unităţi înregistrează valoarea


modală.
d. Mediana (Me)
- este acea valoare a variabilei unei serii ordonate, crescător sau
descrescător, până la care şi peste care sunt distribuite în
număr egal unităţile colectivităţii: jumătate din unităţi au
valori mai mici decât mediana, iar jumătate au valori mai mari
decât mediana.
- corespunde locului unităţii mediane calculate astfel:

Me n1
U 
2
Aflarea medianei se face diferit în funcţie de tipul seriei:

1. Serii simple:
- număr impar de termeni. Exemplu: 7, 3, 8, 4, 5
- număr par de termeni. Exemplu: 7, 3, 8, 4, 5, 5

2. Serii cu frecvenţe diferite


- se calculează unitatea mediană (UMe).
- se calculează N i 
Me
- se află prima valoare N i  U
- valoarea xi corespunzătoare acesteia este Me.

Observaţie:
mediana nu este influenţată de valorile extreme.

Exemplu: 1, 1, 2, 4, 4, 80
f. Quartilele
- sunt valori ale variabilei care împart volumul
eşantionului în 4 părţi egale.
- reprezentare grafică şi mod de calcul ( Q1, Q2, Q3).

g. Decile
- sunt valori ale variabilei care împart volumul
eşantionului în 10 părţi egale.
- decila unu (D1) şi decila 9 (D9).
A.2.2. Indicatori ai dispersiei (variaţiei)
Definire:
- dispersia exprimă gradul de variaţie a valorilor individuale
ale unei variabile faţă de nivelul mediu.
- aprecierea fenomenului de dispersie al unei distribuţii
permite identificarea gradului de reprezentativitate a mediei
unei distribuţii.
Indicatori sintetici ai dispersiei:
1. Abaterea medie liniară
1. Varianţa

 ( x  x2
)  (x  x)  n
i
2
i
i 2
s i
s 
2 i
n
, respectiv n i
i

Varianţa este întotdeauna pozitivă, nu are unitate de măsură


şi nu se interpretează.
Prin ridicarea la pătrat a abaterilor valorilor xi faţă de medie
creşte “influenţa” valorilor extreme asupra nivelului
varianţei.
3. Abaterea standard (s)
 arată cu cât variază, în medie, valorile xi ale variabilei faţă
de nivelul mediu al distribuţiei.
 Se calculează ca radical din varianţă
 se exprimă în aceeaşi unitate de măsură cu cea a variabilei.

 (x  x)
i
2  (x  x)
i
2
 ni
s i
s i
n
n i
i
4. Coeficientul de variaţie (v)
s
v  100
x
 se exprimă în procente.
 valori ridicate ale acestui coeficient (v>50%) arată o
distribuţie eterogenă, care se caracterizează printr-o
variaţie mare a valorilor xi faţă de nivelul mediu şi o
medie nereprezentativă.
 este sensibil faţă de valoarea mediei: cu cât media este mai
apropiată de zero, cu atât coeficientul de variaţie este mai
dificil de folosit (tinde spre infinit).
5. Amplitudinea intervalului interquartilic
IQ=Q3-Q1.
- cuprinde 50% din volumul eşantionului.

 În mod sintetic, cele mai importante caracteristici numerice


ale unei distribuţii pot fi “cuplate” astfel:
 media - abaterea standard - coeficientul de variaţie
 mediana – amplitudinea intervalului interquartilic
 media - mediana
A.2.3. Indicatori ai formei
1. Asimetria:
- reprezintă o deviere de la forma simetrică a unei distribuţii.

Asimetria poate fi apreciată:


- pe cale grafică: curba frecvenţelor, diagrama box-plot.
- pe cale numerică: - prin calculul indicatorilor de asimetrie
(Skewness).
3
Coeficientul de asimetrie Fisher: 1 
s3
Relaţii între cele trei mărimi medii
Arată forma unei distribuţii:
1. Când x  Mo  Me distribuţia este simetrică.
2. Când x are valoarea cea mai mare, distribuţia este
asimetrică la dreapta (asimetrie pozitivă).
3. Când x are valoarea cea mai mica, distribuţia este
asimetrică la stânga (asimetrie negativă).
2. Boltirea
- este definită prin compararea distribuţiei empirice cu
distribuţia normală din punctul de vedere al variaţiei
variabilei X şi a frecvenţei ni.
Boltirea poate fi apreciată:
– pe cale grafică: curba frecvenţelor.
- numeric: prin calculul indicatorilor boltirii (kurtosis).
Coeficientul de boltire Fisher:
4 4
2  2 3  4 3
2 s
A.3. Analiza seriei folosind metode grafice
a. Poligonul frecvenţelor:
- construirea acestuia presupune găsirea locului geometric al
punctelor Ai de coordonate (xi,ni) sau (xi,fi) şi unirea
acestora prin segmente de dreaptă.
- aproximează forma unei distribuţii.
b. Histograma
c. Curba frecvenţelor:
- presupune ajustarea printr-o linie curbă, continuă a
histogramei.
- aproximează mai bine forma de distribuţie a colectivităţii
după variabila considerată.
d. Reprezentarea diagramei “box-plot” sau “box-and-whiskers”
 Forma diagramei (D1, Q1, Q2, Q3, D9);

 Avantaje:
- permite aprecierea nivelului mediu (Me), dispersiei şi
asimetriei unei distribuţiei;
- facilitează compararea mai multor distribuţii (prin
reprezentarea simultană a diagramelor).
Exemplu: Pentru o distributie s-au inregistrat valorile: D1=5,
Q1=12, Q2=20, Q3=22, D9=25. Sa se interpreteze asimetria
distributiei folosind diagrama box-plot.
Diagrama box-plot

1
NOTA

3 4 5 6 7 8 9 10 11

Analysis weighted by NRSTUD


NOTA_1

NOTA_2

3 4 5 6 7 8 9 10 11
Indicatorii statisticii descriptive în Excel
Column1  
Mean 8.6
Standard Error 0.347735
Median 8
Mode 10
Standard Deviation 1.904622
Sample Variance 3.627586
Kurtosis -0.14315
Skewness -0.40554
Range 8
Minimum 4
Maximum 12
Sum 258
Count 30
B. Variabilă continuă
B.1 Prezentarea seriei statistice
- gruparea unităţilor statistice este realizată pe intervale de
variaţie.
Observaţie:
- Gruparea pe intervale de variaţie duce la pierderea unei părţi
a informaţiei iniţiale.

B.2. Indicatori ai statisticii descriptive


- se calculează în mod identic, prin “discretizarea” variabilei
(calculul mijlocului intervalelor de variaţie).
B.3. Prelucrarea seriei statistice folosind metode
grafice
a. Histograma

b. Poligonul frecvenţelor

c. Curba frecvenţelor

d. Box-plot
Distribuţia unui eşantion de firme după valoarea profitului (mil.
lei), în anul 2012
xi-1-xi ni xi' xi'  ni
0 -10 20
5 100
10-20 40
15 600
20-30 35
25 875
30-40 15
35 525
40-50 10
45 450
TOTAL 120 -
2550
Statistics

Profit
N Valid 120
Mean 21.2500
Median 20.3333
Mode 15.00
Std. Deviation 11.52728
Variance 132.878
Skewness .442
Kurtosis -.484
Percentiles 10 5.6667
20 9.6667
25 11.6667
30 13.6667
40 17.1333
50 20.3333
60 23.5333
70 27.6000
75 30.0000
80 32.4000
90 39.4000
Histogram

50

40
Frequency

30

20

10

Mean = 21.25
Std. Dev. = 11.52728
0 N = 120
0.00 10.00 20.00 30.00 40.00 50.00

Profit

Cases weighted by nr.firme


Profit

0.00 10.00 20.00 30.00 40.00 50.00

Cases weighted by nr.firme


2. Analiza unei serii univariate
2.1. Variabilă cantitativă
A. Variabilă discretă
B. Variabilă continuă

2.2. Variabilă calitativă

I. Tipuri de variabile
A. Variabile nominale
B. Variabile ordinale
III. Indicatori statistici specifici
a) Variabile nominale:
1. Mărimi relative
- frecvenţe relative (fi)

2. Indicatori ai tendinţei centrale


- modul arată categoria cea mai frecvent observată.
Variabile alternative (dichotomice)
 Variabilele alternative sunt variabile care admit doar
doua valori/categorii posibile (Ex. Sexul persoanei)
 Categoriile variabilelor alternative pot fi codificate
cu 0 si 1.
 Exemplu: Pentru un esantion de studenti, s-au
observat rezultatele obtinute la un examen
(Admis/Respins). Pentru categoria Admis poate fi
atribuit codul 1 iar pentru categoria Respins poate fi
atribuit codul 0.
 Pentru variabilele alternative codificate cu 0 si 1
putem calcula media si varianta.
Variabile alternative
 Notam cu p proportia categoriei codificate cu
1, in totalul populatiei.
 Media unei variabile alternative este egala cu
p.
 Varianţa unei variabile alternative este egala
cu p(p-1).
Exemplu
 Distributia unui esantion de studenti dupa rezultatul
obtinut la un examen este prezentata in tabelul de
mai jos.
xi ni

(Admis) 1 30

(Respins) 0 10

Total 40
II. Reprezentare grafică

a) Variabile nominale:
• Pentru a reprezenta structura pe categorii la
nivelul unui eşantion se calculează frecvenţe
relative;
• Reprezentarea structurii unui eşantion se
realizează folosind diagrame de structură:
dreptunghiul, pătratul şi cercul de structură
(Pie Chart) sau folosing diagrame prin
coloane (Bar Chart).
Religie ni fi (%)
Budism 7 6,80

Catolic 41 39,81

Hinduism 1 0,97

Iudaism 1 0,97

Islam 27 26,21

Ortodox 8 7,77

Protestantism 16 15,53

Taoism 2 1,94

Total 103 100


b) Variabile ordinale:
1. Mărimi relative
- frecvenţe relative (fi)
- frecvenţe relative cumulate (Fi)

2. Indicatori ai tendinţei centrale


- mediana şi modul.

3. Reprezentare grafica
• Histograma
• Poligonul frecvenţelor
• Box-plot
Distribuţia medaliilor olimpice obţinute de România la JO după categoria medaliei, în
perioada 1924-2012.

Medalia ni fi (%) Ni Fi

Aur 88 29 88 29

Argint 95 31,4 183 60,4

Bronz 120 39,6 303 100

Total 303 100 - -

S-ar putea să vă placă și