Documente Academic
Documente Profesional
Documente Cultură
complexitate
- ordinal O
- interval I
- rapoarte R
3
Nivelul nominal
Cerinte:
Categorii distincte si reciproc exclusive
Categorii exhaustive
Etichetele NU exprima:
Cantitatea exacta
Intervale egale
Aranjarea exacta in cadrul categoriei
Etichetele NU exprima:
Un zero absolut (care sa arate lipsa acelei insusiri)
Nu se pot face comparatii in termeni de “cate ori”
Etichetele exprima:
Cantitatea reala a proprietatii masurate
8
2. Distribuții de frecvență
• Notiunea de frecventa
• Tabelul de frecvente
• Tabelul de frecvente pentru variabile cantitative
• Frecvente absolute si frecvente relative
• Frecvente valide
• Frecvente cumulate
• SPSS: comenzi si exemplu
9
Notiunea de frecventa
Total 1 400
10
Tabelul de frecvente
• Definitie: Daca avem o variabila X cu valorile {x1, x2, …xs}, si daca din n indivizi ai
populatiei, k1 sunt din clasa x1, k2, sunt din clasa x2, … ks sunt din clasa xs, atunci
corespondenta biunivoca dintre multimea claselor X={x1, x2, …xs} si multimea
frecventelor
K={k1, k2,… ks} se numeste distributie de frecvente, sau tabel de frecvente.
xs ks k
i 1
i n
Total n
11
Tabelul de frecvente pt variabile cantitative
• Exista 2 forme, in functie de capacitatea investigatorului de a masura cu o precizie mai
mare sau mai mica :
5. Pentru scale stabilite ad-hoc, se utilizeaza intervale de lungimi egale, intr-un numar optim
x max x min
l
14 1 3,322 * lg n
Frecvente absolute si frecvente relative
Frecvente absolute = numar de indivizi ce se gasesc intr-o grupa sau alta
Necesitate reducerii la un total fix, standard: 1, 100, 1 000, 10 000, 100 000
ki
pi proportii (reducere la unitate)
n
Exemplu
Cat de fericit se Frecvente Frecvente
simte R absolute relative
xi ki pi
Total 1400 1
16
Frecvente absolute si frecvente relative
• Interpretarea frecventelor relative: “probabilitati empirice”
- prime aproximari pentru propensitatea experimentarii unui eveniment
- prime aproximari pentru propensitatea de apartinere la o categorie sau
alta
• Utilizare
- pentru a intelege mai usor o distributie de frecvente
- pentru comparatii si standardizari
- pentru modele explicative
17
Frecvente valide
• Frecvente valide = frecvente relative in care se tine cont de numarul non-raspunsurilor prin
scoaterea acestora de la numitor
18
Frecvente cumulate
• Interpretare:
Frecvente ascendente = cati indivizi (in ce proportie, cate procente) se gasesc sub o anumita valoare
a scalei
= cati sunt pana la o anumita valoare (treapta)
Frecvente descendente = cati indivizi (ce proportie, cate procente) se gasesc peste o anumita valoare
(treapta) a scalei
= cati au depasit o anumita valoare
19
Frecvente cumulate
20
SPSS: comenzi si exemplu
Comanda SPSS pentru tabele de frecvente:
ANALYZE, DESCRIPTIVE STATISTICS, FREQUENCIES
Frequencies
S ta tis tics
Ge n e ra l Ha pp i n e s s
N Va l i d 1504
M i s s i ng 13
General Happiness
Cumulative
Frequency Percent Valid Percent Percent
Valid Very Happy 467 30.8 31.1 31.1
Pretty Happy 872 57.5 58.0 89.0
Not Too Happy 165 10.9 11.0 100.0
Total 1504 99.1 100.0
Missing NA 13 .9
Total 1517 100.0
21
Reprezentări grafice
22
Rolul reprezentarilor grafice
• Graficul ca forma alternativa de reprezentare a tabelei de frecvente
• Folosirea graficelor in faza de explorare, in procesul de analiza a datelor, in scopul gasirii unor
idei interesante ajutor substantial al calculatoarelor si al software-lor specializate
23
Grafice atasate variabilelor calitative
Diagrama circulara - principiul divizarii unui intreg in parti componente
60%
Cat de fericit se Procente 50%
simte R
40%
Foarte fericit 43%
30%
Mai degraba fericit 50%
20%
Nu prea fericit 7% 10%
Total 100% 0%
Foarte fericit Mai degraba Nu prea fericit
24 fericit
Diagrama circulară
6+
membrii
5 6% 1
membrii membru
8% 19%
4
membrii
18%
2
membrii
26%
3
membrii
23%
27
Grafice atasate variabilelor calitative
Cum se face alegerea intre diagrama circulara (dc) si diagrama de bare (db) ?
- dezavantaj dc: daca exista prea multe valori (clase) dc devine mult prea incarcata
- avantaj db: exista posibilitatea folosirii aceluiasi grafic pentru a reprezenta mai multe
serii de date
28
Grafice atasate variabilelor calitative
Diagrama de bare
- verticale
- orizontale
29
Diagrama de bare
100 000
90 000
Numar de nascuti-vii
80 000
70 000
60 000
50 000
40 000
30 000
20 000
10 000
0
10-14 15-19 20-24 25-29 30-34 35-39 40-44 45-49
Varsta mamei la nastere
30
Diagrama de bare alaturate
100 000
90 000 2000
Numar de nascuti-vii 80 000 2006
70 000
60 000
50 000
40 000
30 000
20 000
10 000
0
10-14 15-19 20-24 25-29 30-34 35-39 40-44 45-49
Varsta mamei la nastere
31
Diagrama de bare incalecate
160 000
140 000
120 000
100 000
80 000
60 000
40 000
20 000
0
1 2 3 4 5 6 7 8
32
Diagrama de bare procentuale incalecate
100%
90%
80%
70%
60%
50%
40%
30%
20%
10%
0%
1 2 3 4 5 6 7 8
33
Grafice atasate variabilelor cantitative
Numar de decese
35 000
5-9 334 Barele se ating !
30 000
10-14 365 25 000
100+ 254 0
0-4
5-9
10-14
15-19
20-24
25-29
30-34
35-39
40-44
45-49
50-54
55-59
60-64
65-69
70-74
75-79
80-84
85-89
90-95
98-99
100+
Total 258 094
34 Varsta (in ani impliniti)
Grafice atasate variabilelor cantitative
Numar de decese
5-9 334
30 000
10-14 365 25 000
120%
Grupa de Procen
varsta te cum. 100%
0-4 1,4
80%
5-9 1,5
10-14 1,7 60%
une 1600
1400
Numar comune
Sub 1000 68 1200
1000
1000 -1999 568
800
2000 - 4999 1 769 600
400
5000 - 9999 428
200
10000 + 21 0
< 1000 1000-1999 2000-4999 5000-9999 10000 +
Total 2 854 Numar locuitori
37
Histograma
Numar comune
500
une
400
Sub 1000 68
300
1000 -1999 568 200
100
2000 - 4999 1 769
0
5000 - 9999 428
00 99 99 99 +
10 1 9 4 9 9 9 00
10000 + 21 < 00- 00- 00- 10
0
10 20 50
Total 2 854 Numar locuitori
Frecvente
42
Diagrama de imprastiere
• Diagrama de imprastiere - se ataseaza seriilor de valori (si nu
distributiilor de frecvente !) Fiecare individ din populatia statistica
reprezinta un punct in diagrama de imprastiere.
Țările lumii, dupa durata vietii si venitul mediu pe cap de locuitor, 1995
85
Excel: Charts
SPSS: GRAPHS
ANALYZE, …, Charts
44
Indicatori statistici descriptivi
45
Indicatori statistici descriptivi
• Clasificare:
Indicatori ai formei
46
Indicatori de poziţie
nu au o semnificatie exacta
au doar o semnificatie generala cu continut relativ redus
47
Media
x i
x i 1
n
Definitie 2 : Valoarea comuna pe care ar trebui sa o ia fiecare
individ din populatie astfel incat sa se pastreze neschimbata suma
valorilor
n
n x xi
i 1
48
Media
k x i i
x i 1
n
Nu e formula mediei ponderate. Aici fiecare individ conteaza la fel in generarea
valorii medii, indivizii avand ponderi egale.
Ex: media generala a notelor studentilor din anul I, la o anumita disciplina, calculata pe baza
mediilor obtinute pe grupe de studenti:
n – nr. studenti; s – nr. subgrupe;
ki – nr. de studenti in subgrupa i,
xi media obtinuta de grupa i
s
k x i i
x i 1
n
50
Proprietăţile mediei
(1) Daca consideram o populatie impartita in mai multe sub-populatii, Media generala
este egala cu media mediilor sub-populatiilor ponderate cu marimea fiecarei subpopulatii
(2) Media este o valoare cuprinsa in intervalul dintre valoarea cea mai mica si
valoarea cea mai mare a seriei de valori
(3) Media este o valoare a carei unitate de masura coincide cu unitatea de masura in
care sunt exprimate valorile variabilei respective
Ex: lei, euro, ani (de varsta), puncte (obtinute)
51
Proprietatile mediei
x
n
i x 0
i 1
Media este un “centru de greutate” al seriei de valori
m k x i i k x i i
x
' i 1
i 1
x
mn n
Posibilitatea utilizarii frecventelor relative (pi) in calculele mediei
s
x pi x i
52 i 1
Proprietatile mediei
x a b xi
'
i x' a b x
Obs1. Media poate fi calculata si daca nu se cunoaste distributia
variabilei, ci doar suma valorilor
• Valoare tipica
55
Mediana
Ex1: 4, 4, 5, 7, 10
media= 6
mediana = 5
Ex2: 7, 4, 4, 5, 10 ?
56
Mediana
x rme1 x rme 2
Me x rme Me
2
57
Mediana
rme Fi 1
Me xi l
ki
58
Mediana
59
Modul
Grupa Frecv.
de absolute
varsta
10-14 551 [ 25, 30 ) este intervalul modal
15-19 28 329
20-24 54 533
71.721 54.533
25-29 71 721 Mo 25 5 26,94
30-34 44 580
71.721 54.533 71.721 44.580
35-39 17 537
(ani)
40-44 2 104
45-49 128
Total 219 483
61
Media, mediana sau modul?
62
Indicatori de dispersie
Structura cursului
• Amplitudinea
• Abaterea medie
• Comenzi SPSS
64
Rolul indicatorilor de dispersie
65
Cerinte de indeplinit
• Definitie. Amplitudinea este diferenta dintre valoarea cea mai mare si valoarea
cea mai mica.
Q3 Q1
Abaterea semi-intercuartila
2
Q3 Q1
Abaterea intercuartila relativa
Q2
Q3 Q1
Abaterea semi-intercuartila relativa
68 2 Q2
Abaterea intercuartila
0
1
2
3
4
5
6
ch ov
R a ki
ep a
u
H blic
un
ga
N ry
or
w
a
N E st y
et on
he ia
rl a
n
N Fi ds
n
ew la
M S n
em Lu we d
b e xe m d e
rS b n
ta our
te g
s
(1
Po 2)
D lan
en d
m
Li ar
th k
ua
n
Au i a
Sl stria
ov
e
Be nia
lg
G ium
er
Eu m
an
ro y
ar M
ea al
(c Ire t a
h a EU la
n n
Eu g i n (2 7 La d
ro g c o t v
Eu are com unt ia
ro a p ri e
ar (17 osit s)
ea c io
(1 oun n)
6
co trie
u n s)
EU tri
e
(1 Ic s)
5 el
co an
un d
tri
e
G s)
re
R ec
om e
U an
ia
S80/S20 income quintile share ratio, elderly people (65+), 2010
ni
te
d
4.1
Ki It a
ng ly
do
m
Sp
a
Fr in
an
B ce
Sw ulg
ar
it z ia
er
la
C nd
yp
P o ru s
rtu
g
C al
ro
at
ia
Abaterea medie
n s
| x i x| k i | xi x |
Abm i 1 sau Abm i 1
n n
n s
(x i x) 2
sau
k (x i i x)2
2 i 1
2 i 1
n n
72
Varianța
( 4 6) 2 ( 4 6) 2 (5 6) 2 (7 6) 2 (10 6) 2 26
2
A 5,2
5 5
( 2 6) 2 ( 4 6) 2 (6 6) 2 (6 6) 2 (12 6) 2 56
2
B 11,2
5 5
(1 6,6) 2 ( 4 6,6) 2 (8 6,6) 2 (9 6,6) 2 (11 6,6) 2
2
C 13,04
5
A 2,28
B 3,35
C 3,61
73
Proprietatile abaterii standard
(1) Cea mai mica abatere medie patratica fata de o valoare “a” este abaterea
standard
Orice abatere medie patratica fata de o valoare “a” poate fi obtinuta ca suma
dintre varianta si patratul distantei “d” dintre valoarea “a” si valoarea medie
(propr. foarte utila la calculul manual al ab.std.)
(5) Varianța are proprietati suplimentare care o fac potrivita pentru analizele
folosite in modele explicative (numita analiza de varianta sau ANOVA)
75
Comenzi SPSS
76
Indicatori ai formei distributiilor.
Valori Z.
Distribuția normală.
Structura cursului
Problema formei se pune doar pentru variabile cantitative: doar aceste distributii de
frecvente empirice pot fi comparate cu distributii matematice avand proprietati bine
definite (si in special cu distributia normala)
• Indicatorii boltirii arata masura in care distributia este mai plata, respectiv, mai
boltita fata de forma de clopot a distributiei normale
Simetria curbei normale
x Mo
Oblicitate =
n
i
( x
i 1
x ) 3
i
( x x ) 4
Boltire = i 1
3 (moment centrat de ordinul 4)
n 4
x2=70 x3=45
x1=70
m=60 m=60
m=60
σ=20 σ=20
σ=5
z2=+0,5 z3=-0,75
z1=+2
m=60 70 m=60 70
Distributia normala standardizata (z)
34,13%
13,59%
34% 34%
2,15%
14% 14%
2% 2%
Scoruri z -3 -2 -1 0 +1 +2 +3
0,13%
• In situatiile in care o distributie frecvente empirice are o forma “normala”, aria de sub curba,
medie si valorile “z” corespunzatroare valorilor seriei de date sunt chiar frecventele relative
pentru intervalul (medie,x)
• In situatii ipotetice, in care volumul populatiei este infinit, frecventele relative se asimileaza cu
probabilitatile
0 <= p <= 1
p=0,34 (=34%)
Aria de sub curba normala vazuta ca probabilitate
p=0,05 (=5%)
Aria de sub curba normala vazuta ca probabilitate
p=0,025 (=2,5%)
Aria de sub curba normala vazuta ca probabilitate
p=0,05 (=5%)
• Statistica inferențială:
– Ipoteze de cercetare
– Teste statistice
– Asocierea. Testul hi pătrat χ.
– Testarea diferențelor între medii. Testul t
– Corelatia
– Test 2