Sunteți pe pagina 1din 29

STATISTIC

Cursurile 3 si 4

Prezentarea i reprezentarea datelor


statistice

1
Sondajul statistic. Procedee de selecie

 Sondajele pot fi repetate sau nerepetate, dup cum exist posibilitatea


revenirii unei aceleai uniti n cadrul aceluiai eantion.
1. Procedeul urnei cu bile
 Dac selecia se face cu revenire eantionul se numete eantion aleator
repetat.
 Dac selecia se face fr revenire eantionul se numete eantion aleator
nerepetat.
2. Procedeul mecanic de selecie presupune prelevarea unitilor din
populaie dup un interval predeterminat, denumit pas de numrare,
aplicat bazei de sondaj.
N
- Pasul de numrare se calculeaz dup formula k = n (pentru a selecta 50 de
uniti dintr-o populaie de 1000 uniti, se va alege tot a 20-a unitate).
- Numrul iniial de la care se ncepe citirea se alege aleator ntre 1 i k, dup care
se selecteaz tot a k-a unitate, pn la completarea eantionului de n uniti
statistice.

2
Eroarea statistic
 Orice msurare statistic conine erori
 Eroarea = diferena dintre rezultatul obinut prin nregistrare
i mrimea real a caracteristicilor observate
 Erorile pot fi de nregistrare i de calcul
 Clasificarea erorilor:
1. Erori de observare statistic
2. Erori de prelucrare
3. Erori de reprezentativitate

Erorile de observare sunt:


1. Erori sistematice
2. Erori ntmpltoare

3
Erori de observare
1. Erori sistematice
- rezult din aciunea unui factor ce determin devierea variabilei studiate
ntotdeauna n acelai sens
2. Erori ntmpltoare
- se produc n ambele sensuri i difer ca mrime
- influenele lor se compensez reciproc pe total i nu afecteaz rezultatele
- sunt generate de cauze obiective i nu pot fi evitate ci doar minimizate

Concluzii
 Orice msurare statistic implic erori
 Ceea ce intereseaz este ordinul de mrime al erorii pentru a se
cunoate ntre ce limite de acceptabilitate se gsete afirmaia unei
investigaii statistice
 Erorile generate n procesul de observare statistic pot fi determinate

4
Principiile clasificrii i gruprii

 Sistematizarea datelor se realizeaz prin clasificare (vb. nenumerice) i


grupare (vb. numerice)
 Sistematizarea = mprirea datelor n grupe omogene, dup unul sau mai
multe criterii.
 Criteriul de grupare este dat de variabila statistic
 Gruprile sunt simple sau combinate n funcie de numrul criteriilor
utilizate
 Gruparea datelor trebuie s se fac dup principiile:
 omogenitii
 unicitii
 universalitii
 Grupele constituite trebuie s fie deci exhaustive i mutual exclusive.
 Rezultatul gruprii datelor l reprezint seria de distribuie de frecvene.

5
Sistematizarea datelor nenumerice
 Clasificarea = mprirea unitilor n categoriile variabilei nenumerice
 Prin numrarea unitilor statistice ce se ncadreaz n fiecare clas se stabilete
frecvena clasei
 Dac variabila este msurat pe scala nominal ordinea claselor o alege
cercettorul.

Sistematizarea datelor privind muzeele, n anul 2007, n Romnia, n funcie de tipul acestora:
Numrul muzeelor (la sfritul anului) Ponderea muzeelor
Tipul muzeului *%
n
( i) ( n i )
tiinele naturii 44 6,6
Istoria tehnicii i tiinei 21 3,1
Istorie 117 17,5
Etnografie 115 17,2
Istoria culturii 152 22,8
Art 149 22,3
Mixte 70 10,5
Total 668 100
Sursa: Anuarul Statistic al Romniei, 2008.
6
Sistematizarea datelor nenumerice
Dac datele se refer la variabile msurate pe scala ordinal, clasele vor respecta
criteriul de ordine:

Sistematizarea datelor privind clasamentul general la competiiile internaionale


oficiale pentru Federaia Romn de Atletism, n anul 2006
Locul Nr. sportivi
I 50
II 36
III 31
IV 2
V 3
VI 7
Total 129
Sursa: Anuarul Statistic al Romniei, 2008.

7
Reprezentarea grafic a seriilor de distribuie de frecvene

pentru variabile nenumerice

Diagrama prin coloane (n cazul frecvenelor absolute)

160
N r. m u z e e (fre c v e n te a b s o lu te )

140
120
100
80
60
40
20
0
tiinele Istoria Istorie Etnografie Istoria Art Mixte
naturii tehnicii i culturii
tiinei
tipul de muzeu

Distribuia muzeelor dup tipul lor

8
Reprezentarea grafic a seriilor de distribuie
de frecvene pentru variabile nenumerice

Graficul pie chart (n cazul frecvenelor relative).

10% 7% 3%

18%
22%

17%
23%

tiinele naturii Istoria tehnicii i tiinei Istorie Etnografie Istoria culturii Art Mixte

Structura muzeelor dup tipul lor

9
Sistematizarea datelor numerice
 Gruparea reprezint sistematizarea datelor dup o variabil numeric
A. Dac variabila este discret i cu un numr redus de valori distincte (max. 10)
sistematizarea datelor se face prin gruparea pe variante, obinndu-se o serie de
distribuie de frecvene pe variante.
 Frecvena grupelor se stabilete prin numrarea unitilor care iau aceeai valoare.
Gruparea a 50 de manageri ai unor firme de IT, n funcie de numrul de
deplasri n strintate, n interes de serviciu, n luna mai 2007:
Numr deplasri Numr manageri
0 3
1 16
2 19
3 7
4 4
5 1
Total 50
O serie de distribuie de frecvene pentru o variabil discret poate fi prezentat
i sub urmtoarea form:
x1 x 2 ... x
X :
r

n1 n2 ... n r .

10
Sistematizarea datelor numerice
Reprezentarea grafic a unei serii de distribuie de frecvene alctuit dup o variabil numeric
discret cu numr redus de valori distincte este poligonul frecvenelor:

20
19
18
17
16
15
14
nr. manageri

13
12
11
10
9
8
7
6
5
4
3
2
1
0
0 1 2 3 4 5

Nr. deplasari

Distribuia managerilor n funcie de numrul de deplasri (poligonul frecvenelor)

11
Sistematizarea datelor numerice
B. Dac variabila numeric este discret i are un numr mare
de valori distincte sau este continu, sistematizarea
presupune gruparea pe intervale de variaie.
 Se obine o serie de distribuie de frecvene pe intervale.

 Intervalul de variaie reprezint un ir de valori ale variabilei delimitat prin


limita inferioar i limita superioar.

 Intervalele de variaie pot fi de mrime egal sau neegal.

 Pentru gruparea pe intervale de variaie se recomand utilizarea unui numr


moderat de grupe (5-15 grupe).

 Numrul intervalelor depinde de numrul unitilor statistice. Un numr mare de


date necesit un numr mai mare de intervale de grupare.

12
Alctuirea intervalelor de variaie
a. Determinarea numrului de intervale (r) se poate face utilizand relaia:

r = 1+ 3,322 log10 n , unde n reprezint volumul colectivitii.

b. Stabilirea mrimii intervalului (h) de variaie


A xmax xmin
h =
r r
c. Stabilirea intervalelor
Punctul de plecare n alctuirea intervalelor de grupare se alege, convenabil, 0 sau
un numr ntreg mai mic sau egal dect xmin.
xmin xmin+h
xmin+h xmin+2h
.....................................................
xmin + (r 1)h xmin + r h
Frecvena fiecrui interval nk (numit frecven absolut) se obine prin numrarea
unitilor statistice care se ncadreaz n fiecare grup. 13
Exemplu
Tabelul statistic ce se obine prin gruparea datelor pe intervale de variaie este:

Intervale de variaie a vechimii n activitate Numr salariai


(ani) ni
0-5 sau [0; 5] 5
5-10 sau (5-10] 8
10-15 sau (10; 15] 17
15-20 sau (15; 20] 20
20-25 sau (20; 25] 14
25-30 sau (25;30] 10
30 i peste 6
TOTAL 80
Not: limita superioar este inclus n interval

14
Reprezentarea grafic a seriilor de distribuie de
frecvene pe intervale
 O serie de distribuie de frecvene pe intervale de variaie se reprezint
grafic cu ajutorul histogramei i a poligonului frecvenelor.
 Histograma se construiete prin ridicarea unor dreptunghiuri, fiecare
dreptunghi fiind de lime egal cu mrimea intervalului de grupare i de
nlime egal cu frecvena intervalului

14 35

12 30

10 25

Frecvente
F r e c v e n te

8 20

6 15

4 10

2 5

0 0
10 20 30 40 50 60 70 80 90 1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46
Intervale Intervale

set mic de date set mare de date

15
Exemplu
distributia salariatilor in functie de vechimea in activitate

25

20
20
17

14
15
nr. slariati

10
10 8
6
5
5

0
2,5 7,5 12,5 17,5 22,5 27,5 32,5
nr.ani

16
Exemplu

poligonul frecventelor

25

20

15
nr. slariati

10

0
-2,5 2,5 7,5 12,5 17,5 22,5 27,5 32,5 37,5
nr.ani

17
Distribuia normal

 Distribuia normal, perfect simetric, n forma clopotului lui


Gauss-Laplace este foarte rar ntlnit n practic, fiind de fapt
o distribuie teoretic de referin n analiza statistic.

18
Distribuii asimetrice

 n cele mai multe cazuri, distribuiile de frecvene empirice au


tendin de normalitate, dar un anumit grad de asimetrie

19
Distribuia n form de J

 Distribuia n form de J este o distribuie profund asimetric,


n care frecvena maxim se ntlnete n primul ori n ultimul
interval, pentru ca apoi frecvenele s descreasc spre zero

20
Distribuia n form de U
 Distribuia n form de U este o distribuie cu frecvene
maxime n ambele intervale extreme de variaie i cu frecven
minim n jurul intervalului central

 Este firesc, aadar, ca analiza statistic s nceap cu vizualizarea, pe cale


grafic, a tendinei de distribuie a valorilor n colectivitatea cercetat.

21
Seria de distribuie de frecvene pe intervale
n cazul seriilor de distribuie de frecvene pe intervale se mai determin:
1. Centrul de interval = valoarea situat la jumtatea distanei dintre limitele intervalului i este
considerat reprezentativ pentru datele din interiorul intervalului:
hk xk inf + xk sup
xk = xk inf +
2
sau xk =
2
, k = 1, r .
2. Frecvena absolut cumulat cresctor a unui interval (Fck) = nr. unitilor statistice care au
valoarea variabilei mai mic sau egal cu limita superioar a intervalului
k
Fck = nj .
j =1
*
3. Frecvena relativ cumulat cresctor a un ui interval ( Fck ) = procentul unitilor statistice care au
valoarea variabilei mai mic sau egal cu limita superioar a grupei:
k
Fck* = n *j .
j =1
4. Frecvene absolute i relative cumulate descresctor = nr. sau procentul unitilor statistice care
au valoarea variabilei mai mare sau egal cu limita inferioar a intervalului
r r
*
Fdk = n j , Fdk = n*j .
j =k j =k

22
Seria de distribuie de frecvene pe intervale
Frecvenele absolute, relative i cumulate ofer o imagine de ansamblu asupra
tendinei de distribuie a valorilor n colectivitate, asupra normalitii, simetriei ori
asimetriei repartiiei de frecvene.

Intervale de Ponderea Centrul


variaie Numr salariailor de
a vechimii n salariai interval Fck Fdk Fck* Fdk*
nk*%
activitate nk (%) (%)
(ani)
xk
0-5 5 6,25 2,5 5 80 6,25 100
5-10 8 10 7,5 13 75 16,25 93,75
10-15 17 21,25 12,5 30 67 37,5 83,75
15-20 20 25 17,5 50 50 62,5 62,5
20-25 14 17,5 22,5 64 30 80 37,5
25-30 10 12,5 27,5 74 16 92,5 20
30-35 6 7,5 32,5 80 6 100 7,5
TOTAL 80 100 - - - - -
Not: limita superioar este inclus n interval 23
Curbele cumulative ale frecvenelor

curbele cumulative ale frecventelor

90
80
70
60
50 Fci
40 Fdi
30
20
10
0
0 5 10 15 20 25 30 35

24
Msuri statistice descriptive pentru date univariate

 Pentru o variabil numeric, folosind indicatorii statistici,


putem analiza trei proprieti majore:
1. Tendina central
2. Variabilitatea
3. Forma distribuiei

Indicatorii tendinei centrale = indicatori sintetici cu ajutorul


crora urmrim s exprimm printr-o singur valoare ceea este tipic,
esenial, stabil ntr-o serie de date numerice.

25
Msurarea tendinei centrale
 Indicatorii fundamentali ai tendinei centrale sunt:
1. media aritmetic ( x )
2. mediana (Me)
3. modul (Mo)
Aceti indicatori au o putere cu att mai mare de caracterizare a tendinei
centrale cu ct se determin pe baza unor date mai omogene.

1. Media aritmetic (average, mean, n engl.)


- este indicatorul cel mai utilizat pentru caracterizarea tendinei centrale a
datelor numerice
- reprezint valoarea care, nlocuind toi termenii unei serii, nu modific suma
acestora
- se calculeaz ca suma valorilor raportat la numrul lor.

26
Media aritmetic
Formula de calcul a mediei este:
n
- pentru eantion - estimator
x
i =1
i
x=
n
- pentru colectivitatea general parametru
N

x
i =1
i
=
N

- Dac datele au fost sistematizate ntr-o serie de distribuie de frecvene, n care


valorile/centrele intervalelor de variaie x k , k = 1, r apar cu frecvenele nk ,
se determin media ca medie aritmetic ponderat:
r r

x n + x2 n2 + ... + xr nr
x k nk x k nk
k =1 k =1
x= 1 1 = r
=
n1 + n2 + ... + nr n
nk
k =1

27
Media aritmetic

Exemplu
Vechimea n munc a fost nregistrat pentru cinci salariai ai unei firme i
anume: 7, 5, 6, 7 i 8 ani. Vechimea medie este:

7 + 5 + 6 + 7 + 8 33
x= = = 6,6 ani.
5 5

Media aritmetic pune n balan toate valorile individuale:

5 6 7 8

x =6,6 ani

28
Media aritmetic
 Media aritmetic este afectat de orice valoare sau valori extreme.

Exemplu
Datele pentru vechimea n munc a 10 salariai sunt: 5, 4, 5, 5, 6, 6, 4 i 20,
atunci vechimea medie este:

5 + 4 + ... + 4 + 20
x= = 6,6 ani
10

0 5 10 15 20
x = 6,6 ani

5 + 4 + ... + 6 + 4
x= = 5,1 ani
9

29

S-ar putea să vă placă și