Sunteți pe pagina 1din 38

STATISTIC

CURS 2
Conf.univ.dr. Mihai SACAL
sacalamihai@yahoo.com
2
Etapele cercetrii statistice
Procesul cunoaterii statistice presupune organizarea i parcurgerea unor etape distincte
i succesive care includ operaiile de observare sau culegere a datelor, de sistematizare i
prelucrare, de analiz i interpretare a rezultatelor.
Etapele cercetrii statistice sunt:
observarea statistic - etap n care se culeg date de la
unitile colectivitii studiate, pentru toate caracteristicile
urmrite;
prelucrarea statistic - etap n care datele culese sunt
sistematizate i sunt calculai indicatorii statistici primari i
derivai, absolui i sintetici ce caracterizeaz fenomenul
studiat;
analiza i interpretarea rezultatelor - etap n care sunt
verificate ipotezele, formulate concluziile i fundamentate
procesele decizionale.
3
Principiile clasificrii i gruprii
Sistematizarea datelor se realizeaz prin clasificare (variabile
nenumerice) i grupare (variabile numerice)
Sistematizarea presupune mprirea datelor n grupe omogene,
dup unul sau mai multe criterii.
Criteriul de grupare este dat de variabila statistic
Gruprile sunt simple sau combinate n funcie de numrul
criteriilor utilizate
Gruparea datelor trebuie s se fac dup principiile:
omogenitii
unicitii
universalitii
Grupele constituite trebuie s fie deci exhaustive i mutual
exclusive.
Rezultatul gruprii datelor l reprezint seria de distribuie de
frecvene.

4
Sistematizarea datelor nenumerice
Clasificarea presupune mprirea unitilor n categoriile variabilei nenumerice
considerate.
Prin numrarea unitilor statistice ce se ncadreaz n fiecare clas se stabilete
frecvena clasei
Frecvena fiecrei clase, astfel determinat, se numete frecven absolut, notat
i
n
,
r i , 1 =
, unde r reprezint numrul de clase, iar
=
=
r
i
i
n n
1

Se poate calcula i frecvena relativ a clasei (
*
i
n
), care indic proporia din
numrul total de uniti, care se ncadreaz n fiecare clas:
n
n
n
n
n
i
r
i
i
i
i
= =

=1
*
, unde
1
1
*
=

=
r
i
i
n
, iar n reprezint volumul total al eantionului.
Exprimat n procente, frecvena relativ a grupei i este:

100 100
1
% *
n
n
n
n
n
i
r
i
i
i
i
= =

=
.

5
Sistematizarea datelor nenumerice
Dac variabila este msurat pe scala nominal ordinea claselor o alege cercettorul.

Sistematizarea datelor privind muzeele, n anul 2007, n Romnia, n funcie de tipul acestora, a
dus la urmtoarele rezultate:

Tipul muzeului
Numrul muzeelor
(la sfritul anului)
( i
n
)
Ponderea muzeelor
(
*%
i
n
)
tiinele naturii 44 6,6
Istoria tehnicii i
tiinei
21 3,1
Istorie 117 17,5
Etnografie 115 17,2
Istoria culturii 152 22,8
Art 149 22,3
Mixte 70 10,5
Total 668 100
Sursa: Anuarul Statistic al Romniei, 2008.

6
Reprezentarea grafic a seriilor de distribuie de
frecvene pentru variabile nenumerice

Diagrama prin coloane (n cazul frecvenelor absolute)
0
20
40
60
80
100
120
140
160
tiinele
naturii
Istoria
tehnicii i
tiinei
Istorie Etnografie Istoria
culturii
Art Mixte
tipul de muzeu
N
r
.

m
u
z
e
e

(
f
r
e
c
v
e
n
t
e

a
b
s
o
l
u
t
e
)

Distribuia muzeelor dup tipul lor
7
Reprezentarea grafic a seriilor de distribuie
de frecvene pentru variabile nenumerice


Graficul pie chart (n cazul frecvenelor relative).
7%
3%
18%
17%
23%
22%
10%
tiinele naturii Istoria tehnicii i tiinei Istorie Etnografie Istoria culturii Art Mixte

Structura muzeelor dup tipul lor

8
Sistematizarea datelor numerice
Gruparea reprezint sistematizarea datelor
dup o variabil numeric (discret sau
continu).
A. Dac variabila este discret i cu un numr
redus de valori distincte (max. 10)
sistematizarea datelor se face prin gruparea
pe variante, obinndu-se o serie de
distribuie de frecvene pe variante.
Frecvena grupelor se stabilete prin
numrarea unitilor care iau aceeai valoare.
9
Sistematizarea datelor numerice
Gruparea a 50 de manageri ai unor firme de IT, n funcie de numrul de deplasri n
strintate, n interes de serviciu, n luna mai 2007, se prezint astfel:

Numr deplasri Numr manageri
0 3
1 16
2 19
3 7
4 4
5 1
Total 50

O serie de distribuie de frecvene pentru o variabil discret poate fi prezentat i sub
urmtoarea form:
|
|
.
|

\
|
r
r
... n n n
... x x x
X
2 1
2 1
:
.

10
Sistematizarea datelor numerice
Reprezentarea grafic a unei serii de distribuie de frecvene alctuit dup o variabil numeric
discret cu numr redus de valori distincte este poligonul frecvenelor:

0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
0 1 2 3 4 5
Nr. deplasari
n
r
.

m
a
n
a
g
e
r
i

Distribuia managerilor n funcie de numrul de deplasri (poligonul frecvenelor)


11
Sistematizarea datelor numerice
B. Dac variabila numeric este discret i are un numr
mare de valori distincte sau este continu sistematizarea
presupune gruparea pe intervale de variaie
Se obine o serie de distribuie de frecvene pe intervale.
Intervalul de variaie reprezint un ir de valori ale variabilei
studiate delimitat prin limita inferioar i limita superioar.
Intervalele de variaie pot fi de mrime egal sau neegal.
Pentru gruparea pe intervale de variaie se recomand
utilizarea unui numr moderat de grupe (5-10 grupe).
Numrul intervalelor depinde de numrul unitilor statistice.

Un numr mare de date necesit un numr mai mare de intervale de
grupare. Ca un principiu general, o distribuie de frecvene trebuie s
cuprind cel puin 5 intervale de grupare, dar nu mai mult de 15.
12
Alctuirea intervalelor de variaie
A. Determinarea numrului de intervale

Pentru alegerea numrului de intervale (r) se poate utiliza i relaia:

n r
10
log 322 , 3 1+ =
,
unde n reprezint volumul colectivitii.
B. Stabilirea mrimii intervalului (h) de variaie

- se recomand utilizarea intervalelor de mrime egal
r
x x
r
A
h
min max

= ~

- mrimea intervalului se recomand a se rotunji la o valoare convenabil.

Prin sistematizarea datelor pe intervale de grupare se pierde din exactitatea informaiei,
dar se ctig pe linia condensrii datelor i descoperirii trsturilor eseniale.

n prelucrrile ulterioare, cnd trebuie s atam fiecrei uniti statistice o valoare
concret i aceast valoare va fi, sub anumite presupuneri, centrul intervalului de grupare.

13
Alctuirea intervalelor de variaie
C. Sabilirea intervalelor

Punctul de plecare n alctuirea intervalelor de grupare se alege, convenabil, 0
sau un numr ntreg mai mic sau egal dect x
min
.

Limitele intervalelor de grupare trebuie stabilite cu acuratee, respectnd
precizia datelor (cu acelai numr de zecimale, dac valorile sunt de aceast
manier).

Se stabilesc intervalele de grupare pornind de la x
min
(sau de la o valoare puin
mai mic):
x
min
x
min
+h
x
min
+h x
min
+2h
.....................................................
x
min
+ (r 1)h x
min
+ r h

Frecvena fiecrui interval i
n
(numit frecven absolut) se obine prin
numrarea unitilor care se ncadreaz n fiecare grup
Dac exist grupe cu frecven nul, ori multe grupe cu o singur observaie,
poate fi necesar revizuirea mrimii intervalelor sau a numrului de intervale.
14
Exemplu
Tabelul statistic ce se obine prin gruparea datelor pe intervale de variaie este:

Intervale de variaie a vechimii n activitate
(ani)
Numr salariai
i
n

0-5 5
5-10 8
10-15 17
15-20 20
20-25 14
25-30 10
30 i peste 6
TOTAL 80
Not: limita superioar este inclus n interval

15
Seria de distribuie de frecvene pe intervale
n cazul seriilor de distribuie de frecvene pe intervale se mai determin:

1. Centrul de interval = valoarea situat la jumtatea distanei dintre limitele intervalului i este
considerat reprezentativ pentru datele din interiorul intervalului:

2
inf
i
i i
h
x x + =
sau
2
sup inf i i
i
x x
x
+
= ,
r i , 1 =
.
2. Frecvena absolut cumulat cresctor a unei grupe (F
ci
) = numrul unitilor statistice care au
valoarea variabilei mai mic sau egal cu limita superioar a intervalului

=
=
i
k
k ci
n F
1
.
3. Frecvena relativ cumulat cresctor a unei grupe (
*
ci
F
) = procentul unitilor statistice care au
valoarea variabilei mai mic sau egal cu limita superioar a grupei:

=
=
i
k
k ci
n F
1
* *
.
4. Frecvene absolute i relative cumulate descresctor = numrul sau procentul unitilor
statistice care au valoarea variabilei mai mare sau egal cu limita inferioar a intervalului

=
=
r
i k
k di
n F
,

=
=
r
i k
k di
n F
* *
.

16
Seria de distribuie de frecvene pe intervale
Frecvenele absolute, relative i cumulate ofer o imagine de ansamblu asupra
tendinei de distribuie a valorilor n colectivitate, asupra normalitii, simetriei ori
asimetriei repartiiei de frecvene.

Intervale de
variaie
a vechimii n
activitate
(ani)
Numr
salariai
i
n

Ponderea
salariailor
*%
i
n

Centrul
de
interval
i
x

ci
F

di
F

*
ci
F

*
di
F

0-5 5 6,25 2,5 5 80 6,25 100
5-10 8 10 7,5 13 75 16,25 93,75
10-15 17 21,25 12,5 30 67 37,5 83,75
15-20 20 25 17,5 50 50 62,5 62,5
20-25 14 17,5 22,5 64 30 80 37,5
25-30 10 12,5 27,5 74 16 92,5 20
30-35 6 7,5 32,5 80 6 100 7,5
TOTAL 80 100 - - - - -
Not: limita superioar este inclus n interval
17
Reprezentarea grafic a seriilor de distribuie de
frecvene pe intervale
O serie de distribuie de frecvene pe intervale de variaie se
reprezint grafic cu ajutorul histogramei i a poligonului
frecvenelor.
Datele cantitative se pot reprezenta grafic utiliznd histograma
frecvenelor absolute sau relative, construit ntr-un sistem de
coordonate rectangulare.
Pe abscis sunt reprezentate intervalele de variaie, iar pe
ordonat sunt reprezentate frecvenele.
Histograma se construiete prin ridicarea unor dreptunghiuri,
fiecare dreptunghi fiind de lime egal cu mrimea intervalului
de grupare i de nlime egal cu frecvena intervalului
18
Histograma
0
2
4
6
8
10
12
14
10 20 30 40 50 60 70 80 90
Intervale
F
r
e
c
v
e
n
t
e
0
5
10
15
20
25
30
35
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46
Intervale
F
r
e
c
v
e
n
t
e

set mic de date set mare de date

19
Distribuia normal
Distribuia normal, perfect simetric, n forma clopotului lui
Gauss-Laplace este foarte rar ntlnit n practic, fiind de fapt
o distribuie teoretic de referin n analiza statistic.
20
Distribuii asimetrice
n cele mai multe cazuri, distribuiile de frecvene empirice au
tendin de normalitate, dar un anumit grad de asimetrie

21
Distribuia n form de J
Distribuia n form de J este o distribuie profund asimetric,
n care frecvena maxim se ntlnete n primul ori n ultimul
interval, pentru ca apoi frecvenele s descreasc spre zero

22
Distribuia n form de U
Distribuia n form de U este o distribuie cu frecvene
maxime n ambele intervale extreme de variaie i cu frecven
minim n jurul intervalului central









Este firesc, aadar, ca analiza statistic s nceap cu vizualizarea, pe cale
grafic, a tendinei de distribuie a valorilor n colectivitatea cercetat.

23
n cazul seriilor de distribuie de frecvene pe intervale se mai
determin:

1. Centrul de interval = valoarea situat la jumtatea distanei dintre
limitele intervalului i este considerat reprezentativ pentru datele din
interiorul intervalului:

2
inf
i
i i
h
x x + =


2
sup inf i i
i
x x
x
+
=
,
r i , 1 =
.

2. Frecvena absolut cumulat cresctor a unei grupe (F
ci
) =
numrul unitilor statistice care au valoarea variabilei mai mic sau
egal cu limita superioar a intervalului

=
=
i
k
k ci
n F
1
.
24
3. Frecvena relativ cumulat cresctor a unei grupe (
*
ci
F
) = procentul
unitilor statistice care au valoarea variabilei mai mic sau egal cu limita superioar
a grupei:

=
=
i
k
k ci
n F
1
* *
.

4. Frecvene absolute i relative cumulate descresctor = numrul sau
procentul unitilor statistice care au valoarea variabilei mai mare sau egal cu
limita inferioar a intervalului

=
=
r
i k
k di
n F
,

=
=
r
i k
k di
n F
* *
.

25
Exemplu
Frecvenele absolute, relative i cumulate ofer o imagine de ansamblu asupra
tendinei de distribuie a valorilor n colectivitate, asupra normalitii, simetriei ori
asimetriei repartiiei de frecvene.

Intervale de
variaie
a vechimii n
activitate
(ani)
Numr
salariai
i
n

Ponderea
salariailor
*%
i
n

Centrul
de
interval
i
x

ci
F

di
F

*
ci
F

*
di
F

0-5 5 6,25 2,5 5 80 6,25 100
5-10 8 10 7,5 13 75 16,25 93,75
10-15 17 21,25 12,5 30 67 37,5 83,75
15-20 20 25 17,5 50 50 62,5 62,5
20-25 14 17,5 22,5 64 30 80 37,5
25-30 10 12,5 27,5 74 16 92,5 20
30-35 6 7,5 32,5 80 6 100 7,5
TOTAL 80 100 - - - - -
Not: limita superioar este inclus n interval
26
Exemplu
distributia salariatilor in functie de vechimea in activitate
5
8
17
20
14
10
6
0
5
10
15
20
25
2,5 7,5 12,5 17,5 22,5 27,5 32,5
nr.ani
n
r
.

s
l
a
r
i
a
t
i
27
Exemplu
poligonul frecventelor
0
5
10
15
20
25
-2,5 2,5 7,5 12,5 17,5 22,5 27,5 32,5 37,5
nr.ani
n
r
.

s
l
a
r
i
a
t
i
28
Curbele cumulative ale frecvenelor
curbele cumulative ale frecventelor
0
10
20
30
40
50
60
70
80
90
0 5 10 15 20 25 30 35
Fci
Fdi
29
Msuri statistice descriptive pentru date univariate
Pentru o variabil numeric, folosind indicatorii statistici,
putem analiza trei proprieti majore:
1. Tendina central
2. Variabilitatea
3. Forma distribuiei
Precizri
Dac indicatorii statistici descriptivi sunt calculai pentru o colectivitate
general se numesc parametri i se noteaz, de regul, cu litere greceti.
Indicatorii descriptivi determinai pentru un eantion se numesc estimatori i
se noteaz, de regul, cu litere romane.
n cercetarea statistic, folosim, n general, eantioane i folosim indicatorii
descriptivi n scopul estimrii parametrilor colectivitii generale.
Vor fi explicai, n continuare, indicatorii statistici descriptivi ce caracterizeaz
eantioanele, preciznd simbolurile i formulele utilizate n determinarea
acelorai indicatori pentru colectivitatea general.
30
Msurarea tendinei centrale
Indicatorii tendinei centrale = indicatori sintetici cu
ajutorul crora urmrim s exprimm printr-o singur valoare
ceea este tipic, esenial, stabil ntr-o serie de date numerice.
Deoarece nivelurile individuale, nregistrate pentru fiecare unitate statistic n
parte, se manifest sub influena factorilor eseniali (sistematici) i neeseniali
(ntmpltori), n procesul de prelucrare a datelor se impune eliminarea
influenelor ntmpltoare i exprimarea, ntr-o singur valoare numeric, a
aspectelor tipice, reprezentative pentru seria de date.

Indicatorii tendinei se clasific, n funcie de modul
de determinare, n:
- indicatori medii de calcul:
media aritmetic, media armonic, media ptratic, media geometric
- indicatori medii de poziie:
modul, mediana
31
Msurarea tendinei centrale
Indicatorii fundamentali ai tendinei centrale sunt:
1. media aritmetic ( )
2. mediana (Me)
3. modul (Mo)

Aceti indicatori au o putere cu att mai mare de caracterizare a tendinei
centrale cu ct se determin pe baza unor date mai omogene.

1. Media aritmetic (average, mean, n engl.)
- este indicatorul cel mai utilizat pentru caracterizarea
tendinei centrale a datelor numerice
- reprezint valoarea care, nlocuind toi termenii unei serii,
nu modific suma acestora
- se calculeaz ca suma valorilor raportat la numrul lor.

x
32
Media aritmetic
Formula de calcul a mediei este:
- pentru eantion - estimator


- pentru colectivitatea general parametru




- Dac datele au fost sistematizate ntr-o serie de distribuie de frecvene, n care
valorile/centrele intervalelor de variaie apar cu frecvenele ,
se determin media ca medie aritmetic ponderat:

n
x
x
n
i
i
=
=
1
N
x
N
i
i
=
=
1

=
=
=
r
i
i
r
i
i i
n
n x
x
1
1
r i x
i
, 1 , =
i
n
33
Media aritmetic
Exemplu

Vechimea n munc a fost nregistrat pentru cinci salariai ai unei firme i
anume: 7, 5, 6, 7 i 8 ani. Vechimea medie este:

6 , 6
5
33
5
8 7 6 5 7
x = =
+ + + +
=
ani.


Media aritmetic pune n balan toate valorile individuale:
5 6 7 8
x
=6,6 ani
34
Media aritmetic
Media aritmetic este afectat de orice valoare sau valori extreme.

Exemplu
Datele pentru vechimea n munc a 10 salariai sunt: 5, 4, 5, 5, 6, 6, 4 i 20,
atunci vechimea medie este:

ani 6 , 6
10
20 4 ... 4 5
x =
+ + + +
=
0 5 10 15
= 6,6 ani
20
ani 1 , 5
9
4 6 ... 4 5
x =
+ + + +
=
x
35
Exemplu
Se cunoate distribuia de frecvene a 50 de firme referitor la procentul din venituri
cheltuit cu cercetarea-dezvoltarea:

Grupa
Intervalul de variatie pentru
procentul din venituri
cheltuit cu cercetarea-
dezvoltarea
Nr firme
i
n

Centrul de interval
i
x

i i
n x

Fci
1 sub 6,25 4 5,70 22,8 4
2 6,25 - 7,35 12 6,80 81,6 16
3 7,35 - 8,45 14 7,90 110,6 30
4 8,45 - 9,55 7 9,00 63 37
5 9,55 - 10,65 7 10,10 70,7 44
6 10,65 - 11,75 3 11,20 33,6 47
7 11,75 - 12,85 0 12,30 0 47
8 12,85 i peste 3 13,40 40,2 50
Total 50 - 422,5

36
Exemplu
Se observ c pentru primul, respectiv ultimul interval de variaie nu s-au precizat
ambele limite, ceea ce ar putea sugera c seria de date negrupate conine valori
extreme.
Pentru a putea calcula media i aceasta s fie neafectat de aceste valori se
procedeaz la fixarea limitelor inferioar, respectiv superioar pentru aceste
intervale.
Limitele se determin astfel nct toate intervalele s aib aceeai mrime, adic
1,10.astfel intervalele devin:5,15-6,25, respectiv 12,85-13,95.
Media va fi:
. 45 , 8
50
5 , 422
1
1
= = =

=
=
r
i
i
r
i
i i
n
n x
x

Rezultatul arat c procentul mediu cheltuit pentru reclam i publicitate de o firm
din cele 50 luate n studiu este 8,45.
Dup cum se observ, unele firme cheltuie un procent mai mic pentru cercetare-
dezvoltare (sub 6,25), iar altele aloc un procent mai mare. Procentul alocat difer
de la o firm la alta sub aciunea factorilor sistematici, dar i ntmpltori, care
influeneaz ntr-un sens sau n altul. Dac toi factorii ce influeneaz procentul
alocat ar aciona n mod egal i constant asupra tuturor firmelor, atunci suma
alocat de o firm pentru cercetare-dezvoltare ar fi de 8,45% din venituri.

37
Media aritmetic








Particulariti n calculul mediei

1. Dac toate nivelurile variabilei sunt egale (cu o constant) atunci
media este egal cu constanta, adic:
dac x
1
= x
2
= ... = x
n
= a, atunci
x
= a.

2. Media poate fi sau nu egal cu o valoare individual nregistrat i
are unitatea de msur a variabilei studiate.

3. Media se poate determina i dac se cunoate doar suma valorilor
i numrul de uniti din colectivitate (dac se cunosc veniturile
totale ale unei familii i numrul de persoane se poate calcula
venitul mediu pe o persoan din familie).

4. Media se situeaz ntotdeauna ntre valoarea minim (x
min
) i
valoarea maxim (x
max
) a variabilei
38
Media aritmetic
5. Media poate fi determinat i prin utilizarea frecvenelor relative:

100
1
*%

=

=
r
i
i i
n x
x
.


6. Dac o serie statistic este alctuit din m serii componente, pentru care s-au
calculat mediile pariale
( ) m , 1 , = j x
j
, atunci media ntregii serii poate fi calculat
ca o medie aritmetic ponderat din mediile pariale

=
=
=
m
j
j
m
j
j j
n
n x
x
1
1

unde j
n
reprezint volumul seriei componente j
( ) m , 1 = j
.

S-ar putea să vă placă și