Sunteți pe pagina 1din 24

TEMATICA CURSULUI

1.

Statistica descriptiv

2. Tabele de contingen
3. Testarea neparametric
4. Testarea parametric
5.

Eantionarea

6.

Analiza varianei (ANOVA)

7.

Corelarea i regresia

8.

Analiza discriminant

TEMA 1: Statistica descriptiv


Tipurile de scale
2. Organizarea datelor
3. Tendina central
4. Variaia (mprtierea) datelor
5. Asimetria i boltirea
distribuiei
1.

I. Patru tipuri de scale

Caracteristici
Tip scal

Clasificri

Ordonri

Intervale
egale

Intervale
proporionale

Nominal

Ordinal

Interval

Proporional

Exemple de ntrebri din chestionar

Care este ocupaia Dvs.? (nominal)


Ce apreciai la un calculator n primul, al doilea i al
treilea rnd?
(ordinal)
Avei vrsta de:

20-29
30- 39
40-49

(interval)

Care este venitul Dvs. lunar (lei)? (proporional)

II. Organizarea Datelor


2.1. Frecvena distribuiei
n cadrul unei cercetri au fost obinute urmtoarele
valori ale variabilei studiate:
X = (7, 5, 7, 8, 4, 9, 8, 10, 5, 3, 8, 10, 8, 7, 9, 6, 4, 7, 6,
1, 8, 6, 8, 7, 5, 7, 4, 7, 1, 9, 5, 8, 6, 7, 7).
n total sunt 35 de date colectate.

2.1.
n cazul unei distributii simple a frecventei sunt
necesari urmatorii pasi:

Se cauta valorile extreme din irul de date (valoarea cea mai


mare i cea mai mica);

Se scriu toate valorile cuprinse ntre cele doua extreme ntr-o


ordine ascendent (cresctoare) pe o coloan;

Se numr de cte ori apare fiecare valoare n irul de date;

Se trec apoi n tabel, frecvenele de apariie a fiecrei valori.

2.1. Tabelul de frecvene


Obinem:
(N=35)

Valoarea, X

Frecvena, f

1
2
3
4
5
6
7
8
9
10

2
0
1
3
4
4
9
7
3
2

n cazul datelor nominale n prima coloan sunt incluse valorile calitative ale
acestora (cuvinte, nu cifre)

2.2. Gruparea datelor pe intervale


Exemplu:
De ordonat pe intervale, rezultatele intervievrii a 48 de
subieci.
X = (17, 12, 8, 5, 10, 12, 23, 21, 22, 11, 14, 20, 18, 17, 15, 14, 21, 7,
10, 14, 18, 23, 25, 18, 17, 16, 29, 14, 19, 6, 27, 15, 17, 19, 14, 16, 10,
24, 17, 19, 15, 16, 12, 4, 22, 31, 19, 18).

Rezolvare:
1.

Ordonm datele (n ordine ascendent sau descendent)

X = (4, 5, 6, 7, 8, 10, 10, 10, 11, 12, 12, 12, 14, 14, 14, 14, 14, 15, 15, 15, 16,
16, 16, 17,17, 17, 17,17, 18, 18, 18, 18, 19, 19, 19, 19, 20, 21, 21, 22, 22,
23, 23, 24, 25, 27, 29, 31).
2.

Notam valorile extreme (4 si 31)

3.

Calculam diferenta dintre cele doua valori = 27

4.

Stabilim marimea intervalului (h) i numrul de intervale (i),


astfel c hi =27+1 .

Rezolvare:
De exemplu,

h=2 ne va oferi 28/2=14 intervale


h=3 respectiv 28/3=9 intervale i 1 rest (neacoperit)
h=4 respectiv 28/4=7 intervale
h=5 respectiv 28/5 = 5 intervale i 3 rest (neacoperit)

Dac exist resturi se adaug un interval i calculm supraacoperirea: h=3,


deci 3restul =2, deci 2 puncte le repartizm la extreme, conform
urmtoarelor opiuni ale extremelor intervalelor: [2;31] sau [3;32] sau [4;33]
h=5, deci 5 minusrestul =2, deci iari 2 puncte le repartizm la extreme i
obinem: [2;31] sau [3;32] sau [4;33]

Rezolvare:
Opiuni de intervale pentru h=3

Intervale [2;31]
1
24
2
57
3
810
4
1113
5
1416
6
1719
7
2022
8
2325
9
2628
10
2931

Extremiti
[3;32] [4;33]
35
46
68
79
911
1012
1214 1315
1517 1618
1820 1921
2123 2224
2426 2527
2729 2830
3032 3133

Intervale: concluzii i sugestii finale

Trei, cinci i zece constitue marimea cea mai des ntlnit a


intervalelor.

Dac pentru analiz sunt necesare date scale, putem transforma


intervalele nlocuind categoriile - cu cifre care reprezint media
intervalului.

Este bine dac primul interval ncepe, cu o valoare multiplu de h


ales. De exemplu, daca 22 este cel mai mic numr, iar marimea
intervalului este 3, atunci vom ncepe cu valoarea 21 deoarece este
multiplu de trei (n exemplul nostru - opiunea din coloana 2).

Pentru h= 5 n afar de intervalul {1-5, 6-10, etc.} se mai recomand


i {3-7, 8-12, etc.} care asigur mijlocul intervalului multiplu de 5.

Exemplu: soluia coloana 2


Intervalul (I) Mijlocul clasei Frecventa (f)
30-32
31
1
27-29
28
2
24-26
25
2
21-23
22
6
18-20
19
9
15-17
16
11
12-14
13
8
9-11
10
4
6-8
7
3
3-5
4
2

III. Indicatori ai tendinei centrale

Media
Mediana
Modul

Media

Media este un indicator care caracterizeaza un esantion (o populatie)


din punctul de vedere al unei caracteristici studiate. Exista mai multe
notri pentru medie: M si X reprezinta media unui eantion, iar (miu)
este media unei colectiviti generale (populaii).

Media aritmetic a unui sir de date se calculeaz astfel:


X=X/N

Pentru sirul de date: X = (4, 8, 6, 7, 9, 11, 9, 9, 12, 7)

Media X = (4+8+6+7+9+11+9+9+12+7) / 10 = 82 / 10 = 8,2.

n cazul n care sirul de date este prezentat ntrun tabel de frecvene se


aplic formula mediei ponderate:

fi * Xi
X =
fi

Unde: fi reprezinta frecvena grupat, iar Xi centrul intervalului (exemplu


slideul urmtor).

exemplu (cazul unui tabel de frecvene)


Intervalul (i)
3032
2729
2426
2123
1820
1517
1214
911
68
35

fi = 48

Centrul (Xi)
31
28
25
22
19
16
13
10
7
4

Frecventa (fi)
1
2
2
6
9
11
8
4
3
2

Xi * f i
31
56
50
132
171
176
104
40
21
8

= 48

= 789

=Xi*fi= 789 X = 789 / 48 = 16,4

Mediana

Mediana este acel parametru care prin pozitia sa, se afla n mijlocul seriei
de date. Ea reprezinta punctul central al seriei, deoarece la stnga si la
dreapta ei se situeaza cte 50% din totalitatea datelor. Mediana coincide
cu media n cazul unei distributii teoretice normale si se ndeparteaza mult
de aceasta daca distributia este asimetrica.

Pentru a calcula mediana n cazul distributiei simple a datelor exista doua


situatii:

1.

Cnd n este impar locul medianei se stabileste astfel:


Loc mediana = (n+1) / 2

2.

Cnd n este par sunt adunate valorile din centrul seriei si se mpart la doi.

Mediana- cazul unui ir simplu

De exemplu, irul X = (4, 8, 6, 7, 9, 11, 9, 9, 12, 7)

Mai nti datele sunt aranjate n ordine crescatoare sau descrescatoare.

Astfel, X devine: (4, 6, 7, 7, 8, 9, 9, 9, 11, 12). Observam ca n este par (n=10). n


acest caz vom lua valorile care se gasesc pe locurile din mijlocul seriei, este vorba
de locurile 5 si 6. Cele doua valori care se gasesc pe aceste locuri sunt 8 si 9.
Pentru a calcula mediana adunam cele doua valori gasite si mpartim rezultatul la
doi. Astfel, Me = (8+9) / 2 = 8,5

Daca am fi renuntat la un numar din sir, sa spunem 12, am fi obtinut un sir de


noua numere (4, 6, 7, 7, 8, 9, 9, 9, 11). n acest caz, locul medianei este stabilit
dupa formula: (n+1) / 2, (deci, poziia cinci). Respectiv, mediana

Me = 8.

Mediana cazul irului de date


sub form de tabel de frecvene
N 1
ncpm
Me x0 h 2
nm
unde:
x0 limita inferioar a intervalului median (sau media ntre limita
inferioar a intervalului median i limita superioar a intervalului
precedent)
h mrimea intervalului median
N numarul total al cazurilor
nm frecvena intervalului median
ncpm frecvenele cumulative pn la intervalul median

10

exemplu
Intervalul
30-32
27-29
24-26
21-23
18-20
15-17
12-14
9-11
6-8
3-5

Centrul i
31
28
25
22
19
16
13
10
7
4

Frecventa (fi)
1
2
2
6
9
11
8
4
3
2

Frecventa cumulata
48
47
45
43
37
28
17
9
5
2

48 1
17
Me 14,5 3 2
16,6
11

etapele procesului de calcul

Stabilirea punctului mai jos i mai sus de care se situeaza cte 50% din cazuri
(N+1)/2. n cazul dat vom avea (48+1)/2=24,5;

Stabilirea intervalului care contine mediana. Se cauta n coloana frecventelor


cumulate intervalul care corespunde locului medianei (28). Pozitia 24 din sirul de
date este ocupat de o valoare cuprinsa n intervalul 1517;

Se stabileste limita inferioara a intervalului care cuprinde mediana (15+14)/2 =


14,5 ct si frecventa datelor sale (11);

Se calculeaza frecventele cumulate, care preced clasa care contine mediana 17;

Se calculeaza marimea intervalului (h=3) care cuprinde valorile 15,16 si 17 sau


altfel diferenta dintre limita maxima ((16+19)/2 =17,5) si cea minima a
intervalului ce contine mediana este 3 (17,5 14,5).

11

Cuartilele i decilele

Cuartilele sunt acele valori ale caracteristicii, care separ seria n patru pri
egale:

cuartila inferioar, notat cu Q1, este mai mare sau egal de 25% din termenii
seriei i mai mic sau egal de 75% dintre ei;

cuartila a doua Q2 i decila a cincea D5 coincide cu Me i separ seria n dou


pri egale;

cuartila superioar Q3 este mai mare sau egal de 75% din numrul termenilor i
mai mic sau egal de 25% din numrul lor.

n cazul n care se calculeaz decilele, seria se divide n zece pri egale folosind n
acest scop nou decile (D1, D2 D9).

Cuartilele i decilele
N 1
ncpq
Q1 x 0 h 4
nq

unde:
Q1, Q3 cuartila 1 (25%) i 3 (75%)
x0 este limita inferioar a intervalului cuartilei,
decilei

( N 1)
ncpq
4
Q 3 x0 h
nq

h este mrimea intervalului cuartilei, decilei

( N 1)
n cpd
10
D1 x0 h
nd

nq i nd frecvena intervalului cuartilei, decilei

N este numarul total al cazurilor

ncpq i ncpd frecvenele cumulative pn la


intervalul cuartilei, decilei

12

exemplu
Intervalul
30-32
27-29
24-26
21-23
18-20
15-17
12-14
9-11
6-8
3-5

Centrul i
31
28
25
22
19
16
13
10
7
4

Frecventa (fi)
1
2
2
6
9
11
8
4
3
2

Frecventa cumulata
48
47
45
43
37
28
17
9
5
2

48 1
28
4
Q 3 17,5 3
20,4
9
3

Modul

Modul este parametrul care corespunde celei mai mari frecvente, adica este valoarea
cea mai frecvent ntlnita.

De exemplu, X = (4, 8, 6, 7, 9, 11, 9, 9, 12, 7).

Dupa ordonarea datelor obtinem X = (4, 6, 7, 7, 8, 9, 9, 9, 11, 12). Se observa ca


valoarea cea mai ntlnita este 9 (apare de trei ori).

Ca urmare modul pentru acest sir este: Mo = 9

13

Modul - cazul sirului de date sub form


de tabel de frecvente

Pentru date grupate, se cauta intervalul care are cea mai mare frecven. n
cazul de mai jos, acest interval este 1517, n interiorul caruia se afla 11
valori.

Valoarea modala este egala cu valoarea plasat n centrul acestui interval,


adic Mo = 16.
Intervalul (i) Frecventa (f) Intervalul (i)
30-32 (31)
1
15-17 (16)
27-29 (28)
2
12-14 (13)
24-26 (25)
2
9-11 (10)
21-23 (22)
6
6-8 (9)
18-20 (19)
9
3-5 (4)

Frecventa (f)
11
8
4
3
2

IV. Indicatori ai variaiei (dispersiei)

Principalii indicatori ai variaiei sunt:


1. Amplitudinea A
2. Abaterea medie ptratic ( pentru populaie i S pentru eantion)
3. Dispersia (2 pentru populaie i S 2 pentru eantion)
4. Coeficientul de variaie V.

1. AMPLITUDINEA: A = (Xmax Xmin)


Pentru a calcula amplitudinea sirului de date:
X = (7, 5, 10, 4, 8, 5, 8, 9, 7) vom avea: A =10 4 = 6.

14

Abaterea medie patratic:


cazul unui ir simplu

i 1

(
i 1

Unde:
Xi sunt valorile individuale;
X este media esantionului;
este media populatiei
N, n este numarul de subiecti observati
(mrimea populaiei i respectiv, a eantionului)

Exemplu

De calculat S pentru urmatorul sir de date:


X = (4, 6, 7, 9, 8, 5, 8, 3, 10, 6)
X= 66/10 = 6,6
X
4
6
7
9
8
5
8
3
10
6

X-X
-2,6
-0,6
0,4
2,4
1,4
-1,6
1,4
-3,6
3,4
-0,6

(X-X) 2
6,76
0,36
0,16
5,76
1,96
2,56
1,96
12,96
11,56
0,36

(XX)2 = 44,40

44,40
2,10
10

15

Abaterea medie patratic:


cazul seriilor cu frecvente

(x

i 1

) 2 ni
S

n
i 1

( xi x ) ni

i 1

ni

i 1

nde: Xi sunt valorile individuale;


U
X este media esantionului;
este media populatiei
n reprezint frecvenele observate

Exemplu
De calculat S pentru urmatoarele date:
(i)

Xi

ni

(Xi-X)

(Xi-X)2

ni * (Xi-X)2

30-32

31

213,2

213,2

28

11,6

134,6

269,1

24-26

25

8,6

73,96

147,9

21-23

22

5,6

31,36

188,2

18-20

19

2,6

6,76

60,84

15-17

16

-0,4

0,16

1,76

12-14

13

-3,4

11,56

92,48

9-11

10

-6,4

40,96

163,8

6-8

-9,4

88,36

265,1

3-5

1
2
2
6
9
11
8
4
3
2

14,6

27-29

-12,4

153,8

307,5

X = 16,4
ni = 48
ni *(XX)2 = 1709,9

1709,9
5,97
48

16

Coeficientul de variaie

Este utilizat n scopul stabilirii gradului de omogenitate a unui esantion

S
100
x

Unde: S este abaterea standard a esantionului studiat; X este media


eantionului.

Spre exemplu, daca X = 11,40, iar S = 2,7, vom avea:

V = (2,7/11,4)*100 = 23,68%

Pentru cazul de mai sus V = (5,97/16,4)*100 = 36,4%

Interpretarea coeficientului de variaie

daca V este cuprins ntre 0 si 15%, atunci mprastierea datelor (variaia) este
foarte mica, iar media este reprezentativ, deoarece eantionul msurat este
omogen;

daca valoarea lui este ntre 15 si 30%, variaia datelor este mijlocie, media fiind
nca suficient de reprezentativa;

daca V depete 30%, media nu este reprezentativ pentru eantionul n cauz,


fiind recomandata utilizarea medianei din cauza lipsei de omogenitate a grupului.

17

V. Indicatori de asimetrie si boltire


Exista

situatii destul de frecvente cnd media nu corespunde cu mediana. Daca ele


ar coincide am vorbi despre o distributie complet simetrica, specifica unei
distributii normale teoretice.

Indicele

de asimetrie (de oblicitate) ne arata n ce masura media se ndeparteaza


de mediana, si implicit, n ce masura curba de distributie normala a datelor se
departeaza de mijloc, deplasnduse spre stnga sau spre dreapta. Sunt
considerate distributii relativ normale cazurile n care acesti indicatori nu depasesc
1,96 abateri medii patratice.
Vorbim despre o asimetrie pozitiva n situatia n care media este mai mare dect
caz n care indicele de asimetrie ia valori pozitive si apare o deplasare a
datelor spre stnga.

mediana,

Vorbim despre o asimetrie negativ n situatia n care media este mai mic dect
caz n care indicele de asimetrie ia valori negative si apare o deplasare a
datelor spre dreapta.

mediana,

Reprezentarea grafic

fi

fi
fmax

fi
fmax

xi
x =Me=Mo
serie perfect simetric

fmax

xi
Mo Me x
asimetrie pozitiv

xi
x

Me Mo

asimetrie negativ

18

Asimetrie (skewness)

Formula de calcul a coeficientului de asimetrie Ca:


( x i x)3
Ca
n 3
unde este abaterea medie patratic de sondaj

Dac Ca =0 serie simetric.


Dac Ca>0 serie cu asimetrie pozitiv (deplasare spre stnga).
Dac Ca<0 serie cu asimetrie negativ (deplasare spre dreapta).

Asimetrie (skewness): 3 cazuri

a
1
2
2
3
3
3
4
4
4
4
5
5
5
6
6
7

d
0
0
0
0
0
0
0
0
0
0
0
0
0
1
2
3

e
2
2
2
2
2
2
2
2
2
2
2
2
2
1
0
0

19

Asimetrie lipsa (cazul a)

Ca = 0,000

Asimetrie pozitiva spre stanga (cazul d)


(produse de lux)

Ca = 2,411

20

Asimetrie negativa spre dreapta (cazul e)


(produse de larg consum consum zaharul)

Ca = -2,082

Boltire (kurtosis)

Un indice de aplatizare mare arat o repartiie cu cozi mari


(sunt prezente categorii deprtate de medie), n timp ce un
indice de aplatizare mic arat o repartiie ascuit sau boltit
n care sunt prezente mai puine categorii deprtate de medie.
Formula de calcul este :
4
C

( x i x )
4
n

unde este abaterea medie patratic de sondaj.


n cazul unei repartiii apropiate de repartiia normal,
coeficientul de aplatizare este n jurul valorii 0.
Cb >0, atunci distribuia are forma ascuit iar dac Cb <0 aplatizat

21

Boltire: 2 cazuri
b
1
1
1
1
1
1
1
5
6
9
9
9
9
9
9
9

c
1
2
3
3
3
3
3
3
3
3
3
3
3
3
4
5

Boltire: cazul a 2 segmente distincte

Cb = - 2,118

22

Boltire: cazul omogenitatii excesive

Cb = 3,913

Exemplu de calcul pentru tabele de frecvene

Vnzri lunare
(mii lei)

Nr. comis
voiajori

41 50

10

51 60

30

61 70

50

71 80

50

81 90

70

91 100

60

101 110

30

Me = 86,67 mii lei


x = 80,17 mii lei

Total

300

= 16,10

O mare companie de cosmetic are o


reea dezvoltat de distribuie prin
comis voiajori. A fost extras un
eantion de 300 de persoane din
rndurile acestora. Datele cu privire la
vnzrile lunare sunt prezentate n
tabel. Caracterizai i msurai
asimetria i boltirea distribuiei comis
voiajorilor.

23

asimetrie
Coeficientul de asimetrie se calculeaz n baza formulei:
( x i x )
n 3

C as

ni

315797

300 16 , 07

0 , 254

Eroarea standard pentru asimetrie este


E a

6 / n

6 / 300 0 ,141

n SPSS n calitate de test de normalitate a asimetrie este considerat raportul

C as /

6 / n 2 ; 2

Adic n cazul nostru: 0 , 254 / 0 ,141 1,80 2 ; 2

boltire
Coeficientul de boltire se calculeaz conform formulei:
Cb

( x i x ) 4n i
3
n 4

43620028
2 ,1806
300 16 , 07 4

3 0 ,819

Eroarea standard pentru boltire este


E b 24 / n 24 / 300 0 , 283
n SPSS n calitate de test de normalitate a boltirii este considerat raportul

Cb /

24 / n 2 ; 2

Adic n cazul nostru: 0 ,819 / 0 , 283 2 ,89 2 ; 2


Adic putem vorbi despre un nivel de aplatizare excesiv

24