Sunteți pe pagina 1din 25

TEMATICA CURSULUI

1.

Statistica descriptiv

2.

Tabele de contingen

3.

Testarea neparametric

4.

Testarea parametric

5.

Eantionarea

6.

Analiza varianei (ANOVA)

7.

Corelarea i regresia

8.

Analiza discriminant

TEMA 1: Statistica descriptiv


1.
2.
3.
4.

5.

Tipurile de scale
Organizarea datelor
Tendina central
Variaia (mprtierea) datelor
Asimetria i boltirea
distribuiei

I. Patru tipuri de scale

Caracteristici
Tip scal

Clasificri

Ordonri

Intervale
egale

Intervale
proporionale

Nominal

Ordinal

Interval

Proporional

Exemple de ntrebri din chestionar

Care este ocupaia Dvs.? (nominal)


Ce apreciai la un calculator n primul, al doilea i al
treilea rnd?
(ordinal)
Avei vrsta de:

20-29
30- 39
40-49

(interval)

Care este venitul Dvs. lunar (lei)? (proporional)

II. Organizarea Datelor


2.1. Frecvena distribuiei
n cadrul unei cercetri au fost obinute urmtoarele
valori ale variabilei studiate:
X = (7, 5, 7, 8, 4, 9, 8, 10, 5, 3, 8, 10, 8, 7, 9, 6, 4, 7, 6,
1, 8, 6, 8, 7, 5, 7, 4, 7, 1, 9, 5, 8, 6, 7, 7).
n total sunt 35 de date colectate.

2.1.
n cazul unei distributii simple a frecventei sunt
necesari urmatorii pasi:

Se cauta valorile extreme din irul de date (valoarea cea mai


mare i cea mai mica);

Se scriu toate valorile cuprinse ntre cele doua extreme ntr-o


ordine ascendent (cresctoare) pe o coloan;

Se numr de cte ori apare fiecare valoare n irul de date;

Se trec apoi n tabel, frecvenele de apariie a fiecrei valori.

2.1. Tabelul de frecvene


Obinem:
(N=35)

Valoarea, X

Frecvena, f

1
2
3
4
5
6
7
8
9
10

2
0
1
3
4
4
9
7
3
2

n cazul datelor nominale n prima coloan sunt incluse valorile calitative ale
acestora (cuvinte, nu cifre)

2.2. Gruparea datelor pe intervale


Exemplu:
De ordonat pe intervale, rezultatele intervievrii a 48 de
subieci.
X = (17, 12, 8, 5, 10, 12, 23, 21, 22, 11, 14, 20, 18, 17, 15, 14, 21, 7,
10, 14, 18, 23, 25, 18, 17, 16, 29, 14, 19, 6, 27, 15, 17, 19, 14, 16, 10,
24, 17, 19, 15, 16, 12, 4, 22, 31, 19, 18).

Rezolvare:
1.

Ordonmdatele(nordineascendentsaudescendent)

X=(4,5, 6, 7, 8,10, 10, 10,11, 12,12,12,14,14,14,14,14,15,15,15, 16,


16,16,17,17, 17,17,17,18,18, 18, 18,19,19,19,19,20, 21,21,22,22,
23, 23,24,25,27,29,31).
2.

Notam valorile extreme (4si 31)

3.

Calculam diferenta dintre cele doua valori =27

4.

Stabilim marimea intervalului (h) inumruldeintervale(i),


astfelc hi=27+1.

Rezolvare:
Deexemplu,h=2nevaoferi28/2=14intervale
h=3 respectiv28/3=9intervalei1rest(neacoperit)
h=4 respectiv28/4=7intervale
h=5 respectiv28/5=5intervalei3rest(neacoperit)
Dacexistresturi:
seadaugunintervalsuplimentar
secalculeazextinderea(nafaravalorilorextreme)
Deexemplu,pentruh=3:
restulobinutvafi1,deciadugmuninterval(alzecelea)
extindereaeste:31=2
Deci2punctelerepartizmlaextreme,conformurmtoareloropiuni:
[2;31]sau [3;32]sau [4;33]

Rezolvare:
Opiuni deintervale pentru h=3

Intervale
1
2
3
4
5
6
7
8
9
10

[2;31]
24
57
810
1113
1416
1719
2022
2325
2628
2931

Extremiti
[3;32] [4;33]
35
46
68
79
911
1012
1214 1315
1517 1618
1820 1921
2123 2224
2426 2527
2729 2830
3032 3133

Intervale: concluzii i sugestii finale

Trei, cinci i zece constitue marimea cea mai des ntlnit a


intervalelor.

Dac pentru analiz sunt necesare date scale, putem transforma


intervalele nlocuind categoriile - cu cifre care reprezint media
intervalului.

Este bine dac primul interval ncepe, cu o valoare multiplu de h


ales. De exemplu, daca 22 este cel mai mic numr, iar marimea
intervalului este 3, atunci vom ncepe cu valoarea 21 deoarece este
multiplu de trei (n exemplul nostru - opiunea din coloana 2).

Pentru h= 5 n afar de intervalul {1-5, 6-10, etc.} se mai recomand


i {3-7, 8-12, etc.} care asigur mijlocul intervalului multiplu de 5.

Exemplu: soluia coloana 2


Intervalul (I) Mijlocul clasei Frecventa (f)
30-32
31
1
27-29
28
2
24-26
25
2
21-23
22
6
18-20
19
9
15-17
16
11
12-14
13
8
9-11
10
4
6-8
7
3
3-5
4
2

III. Indicatori ai tendinei centrale

Media
Mediana
Modul

Media

Mediaeste unindicatorcarecaracterizeaza unesantion (opopulatie)


dinpunctul devedere alunei caracteristici studiate.Exista mai multe
notri pentru medie:M si X reprezinta mediaunui eantion,iar (miu)
este mediaunei colectivitigenerale (populaii).

Mediaaritmeticaunuisirdedatesecalculeazastfel:
X = X/N

Pentrusirul dedate:X=(4,8,6,7,9,11,9,9,12,7)

MediaX =(4+8+6+7+9+11+9+9+12+7)/10=82/10=8,2.

n cazul n caresirul dedateeste prezentat ntruntabel defrecvene se


aplicformulamediei ponderate:

fi*Xi
X=
fi

Unde:fi reprezinta frecvenagrupat,iar Xi centrul intervalului (exemplu


slideulurmtor).

exemplu (cazul unui tabel de frecvene)


Intervalul (i)
3032
2729
2426
2123
1820
1517
1214
911
68
35

fi =48

Centrul(Xi)
31
28
25
22
19
16
13
10
7
4

Frecventa (fi)
1
2
2
6
9
11
8
4
3
2

Xi *fi
31
56
50
132
171
176
104
40
21
8

=48

=789

=Xi*fi=789 X=789 /48 =16,4

Mediana

Medianaeste acel parametru careprin pozitia sa,seafla n mijlocul seriei


dedate.Ea reprezinta punctul centralalseriei,deoarece lastnga si la
dreapta ei sesitueaza cte 50%dintotalitatea datelor.Medianacoincide
cumedian cazul unei distributii teoretice normale si sendeparteaza mult
deaceasta daca distributia este asimetrica.

Pentruacalcula mediana n cazul distributiei simpleadatelor exista doua


situatii:

1.

Cnd neste impar locul medianei sestabileste astfel:


Locmediana =(n+1)/2

2.

Cnd neste parsunt adunate valorile dincentrul seriei si sempart ladoi.

Mediana- cazul unui ir simplu

Deexemplu,irulX=(4,8,6,7,9,11,9,9,12,7)

Mai nti datele suntaranjate n ordine crescatoare saudescrescatoare.

Astfel,Xdevine: (4,6,7,7,8,9,9,9,11,12).Observam ca neste par(n=10).n


acest caz vom lua valorile caresegasesc pe locurile dinmijlocul seriei,este vorba
delocurile 5si 6.Cele doua valori caresegasesc pe aceste locuri sunt 8si 9.
Pentruacalcula mediana adunam cele doua valori gasite si mpartim rezultatul la
doi.Astfel,Me =(8+9)/2=8,5

Daca amfirenuntat launnumar dinsir,sa spunem 12,amfiobtinut unsirde


noua numere (4,6,7,7,8,9,9,9,11).n acest caz,locul medianei este stabilit
dupa formula: (n+1)/2,(deci,poziiacinci).Respectiv, mediana

Me =8.

Mediana cazul irului de date


sub form de tabel de frecvene
N 1
ncpm
Me x0 h 2
nm
unde:
x0 limitainferioaraintervaluluimedian(saumediantrelimita
inferioaraintervaluluimedianilimitasuperioaraintervalului
precedent)
h mrimeaintervaluluimedian
N numarul totalalcazurilor
nm frecvenaintervaluluimedian
ncpm frecvenelecumulativepnlaintervalulmedian

10

exemplu
Intervalul
30-32
27-29
24-26
21-23
18-20
15-17
12-14
9-11
6-8
3-5

Centrul i
31
28
25
22
19
16
13
10
7
4

Frecventa (fi)
1
2
2
6
9
11
8
4
3
2

Frecventa cumulata
48
47
45
43
37
28
17
9
5
2

48 1
17
Me 14,5 3 2
16,6
11

etapele procesului de calcul

Stabilireapunctului maijosimaisusdecaresesitueaza cte 50%dincazuri


(N+1)/2.n cazuldat vom avea (48+1)/2=24,5;

Stabilireaintervalului carecontine mediana.Secauta n coloana frecventelor


cumulateintervalul carecorespunde locului medianei (28).Pozitia 24dinsirul de
dateeste ocupat deovaloare cuprinsa n intervalul 1517;

Sestabileste limita inferioara aintervalului carecuprinde mediana (15+14)/2=


14,5ct si frecventa datelor sale(11);

Secalculeaza frecventele cumulate,carepreced clasa carecontine mediana 17;

Secalculeaza marimea intervalului (h=3) carecuprindevalorile 15,16si 17sau


altfel diferenta dintre limita maxima ((16+19)/2=17,5)si cea minimaa
intervalului ce contine mediana este 3(17,514,5).

11

Cuartilele i decilele

Cuartilelesuntacelevalorialecaracteristicii,careseparserianpatrupri
egale:

cuartilainferioar,notatcuQ1,estemaimaresauegalde25%dintermenii
serieiimaimicsauegalde75%dintreei;

cuartilaadouaQ2idecilaacinceaD5 coincidecuMe iseparseriandou


priegale;

cuartilasuperioarQ3 estemaimaresauegalde75%dinnumrultermenilori
maimicsauegalde25%dinnumrullor.

n cazul n caresecalculeaz decilele,seria sedividen zece pri egale folosind n


acest scopnou decile (D1,D2 D9).

Cuartilele i decilele
N 1
ncpq
Q1 x0 h 4
nq

unde:
Q1,Q3 cuartila1(25%)i3(75%)
x0 estelimitainferioaraintervaluluicuartilei,
decilei

( N 1)
ncpq
4
Q 3 x0 h
nq

hestemrimeaintervaluluicuartilei,decilei

( N 1)
ncpd
10
D1 x0 h
nd

nq ind frecvenaintervaluluicuartilei,decilei

Neste numarul totalalcazurilor

ncpq incpd frecvenelecumulativepnla


intervalulcuartilei,decilei

12

exemplu
Intervalul
30-32
27-29
24-26
21-23
18-20
15-17
12-14
9-11
6-8
3-5

Centrul i
31
28
25
22
19
16
13
10
7
4

Frecventa (fi)
1
2
2
6
9
11
8
4
3
2

Frecventa cumulata
48
47
45
43
37
28
17
9
5
2

48 1
28
4
Q 3 17,5 3
20,4
9
3

Modul

Modul este parametrul carecorespunde celei mai mari frecvente,adica este valoarea
cea mai frecvent ntlnita.

Deexemplu,X=(4,8,6,7,9,11,9,9,12,7).

Dupa ordonarea datelor obtinem X=(4,6,7,7,8,9,9,9,11,12).Seobserva ca


valoarea cea mai ntlnita este 9(apare detrei ori).

Ca urmare modul pentru acest sireste:Mo=9

13

Modul - cazul sirului de date sub form


de tabel de frecvente

Pentrudategrupate,secauta intervalul carearecea mai marefrecven.n


cazul demaijos,acest intervaleste 1517, n interiorul caruia seafla 11
valori.

Valoarea modala este egala cuvaloarea plasat n centrul acestui interval,


adicMo =16.
Intervalul (i) Frecventa (f) Intervalul (i)
30-32 (31)
1
15-17 (16)
27-29 (28)
2
12-14 (13)
24-26 (25)
2
9-11 (10)
21-23 (22)
6
6-8 (9)
18-20 (19)
9
3-5 (4)

Frecventa (f)
11
8
4
3
2

IV. Indicatori ai variaiei (dispersiei)

Principaliiindicatoriaivariaieisunt:
1. AmplitudineaA
2. Abatereamedieptratic( pentrupopulaieiS pentrueantion)
3. Dispersia(2 pentrupopulaieiS 2 pentrueantion)
4. CoeficientuldevariaieV.

1.AMPLITUDINEA:A=(Xmax Xmin)
Pentruacalcula amplitudinea sirului dedate:
X=(7,5,10,4,8,5,8,9,7)vom avea:A=10 4=6.

14

Abaterea medie patratic:


cazul unui ir simplu

( x )
i 1

(x x)
i 1

Unde:
Xi sunt valorile individuale;
X este mediaesantionului;
este mediapopulatiei
N,neste numarul desubiecti observati
(mrimeapopulaieiirespectiv,aeantionului)

Exemplu

Decalculat Spentru urmatorul sirdedate:


X=(4,6,7,9,8,5,8,3,10,6)
X=66/10=6,6
X
4
6
7
9
8
5
8
3
10
6

X-X
-2,6
-0,6
0,4
2,4
1,4
-1,6
1,4
-3,6
3,4
-0,6

(X-X) 2
6,76
0,36
0,16
5,76
1,96
2,56
1,96
12,96
11,56
0,36

(XX)2= 44,40

44,40
2,10
10

15

Abaterea medie patratic:


cazul seriilor cu frecvente

( x ) n

i 1

n
i 1

(x x) n
i 1

n
i 1

Unde:Xi sunt valorile individuale;


X este mediaesantionului;
este mediapopulatiei
n reprezintfrecveneleobservate

Exemplu
Decalculat Spentru urmatoarele date:
(Xi-X)2

ni * (Xi-X)2

(i)

Xi

ni

(Xi-X)

30-32

31

213,2

213,2

28

11,6

134,6

269,1

24-26

25

8,6

73,96

147,9

21-23

22

5,6

31,36

188,2

18-20

19

2,6

6,76

60,84

15-17

16

-0,4

0,16

1,76

12-14

13

-3,4

11,56

92,48

9-11

10

-6,4

40,96

163,8

6-8

-9,4

88,36

265,1

3-5

1
2
2
6
9
11
8
4
3
2

14,6

27-29

-12,4

153,8

307,5

X = 16,4
ni = 48
ni*(XX)2= 1709,9

1709,9
5,97
48

16

Coeficientul de variaie

Esteutilizat n scopul stabilirii gradului deomogenitate aunui esantion

S
100
x

Unde:Seste abaterea standardaesantionului studiat; X este media


eantionului.

Spre exemplu,daca X =11,40,iar S=2,7,vom avea:

V=(2,7/11,4)*100=23,68%

PentrucazuldemaisusV=(5,97/16,4)*100=36,4%

Interpretarea coeficientului de variaie

daca V este cuprins ntre 0si 15%,atunci mprastierea datelor (variaia) este
foarte mica,iar mediaeste reprezentativ,deoarece eantionul msurat este
omogen;

daca valoarea lui este ntre 15si 30%,variaia datelor este mijlocie,mediafiind
nca suficient dereprezentativa;

daca V depete 30%,medianueste reprezentativ pentru eantionul n cauz,


fiind recomandata utilizarea medianei dincauza lipsei deomogenitate agrupului.

17

Estimarea normalitii distribuiei


Conformteoriei
STATISTICIIodistribuie
econsideratnormal
dacnjurulmedieise
concentreazun
anumitnumrdecazuri
ianume:
Ladistanade:

oabateremedie
patratic()
68,2%

de 2 95,4%

de 3 99,7%

Oricedevieridelaacestenormereprezintsemnedeneomogenitate

V. Indicatori de asimetrie si boltire

Exista situatii destul defrecvente cnd medianucorespunde cumediana.Daca ele


ar coincideamvorbi despre odistributie complet simetrica,specifica unei
distributii normale teoretice.

Indicele deasimetrie (deoblicitate)nearata n ce masura mediasendeparteaza


demediana,si implicit,n ce masura curba dedistributie normala adatelor se
departeaza demijloc,deplasndusespre stnga sau spre dreapta.Sunt
consideratedistributii relativ normale cazurile n careacesti indicatori nudepasesc
1,96 abaterimediipatratice.

Vorbim despre oasimetrie pozitiva n situatia n caremediaeste mai maredect


mediana,caz n careindicele deasimetrie ia valori pozitive si apare odeplasare a
datelor spre stnga.

Vorbim despre oasimetrie negativn situatia n caremediaeste mai mic dect


mediana,caz n careindicele deasimetrie ia valori negative si apare odeplasare a
datelor spre dreapta.

18

Reprezentarea grafic

fi

fi
fmax

fi
fmax

xi
x =Me=Mo
serie perfect simetric

fmax

xi
Mo Me x
asimetrie pozitiv
Anormal de muli
consum puin

xi
x

Me Mo

asimetrie negativ
Anormal de muli consum
mult

Exemple

n anii 1995-2000 din cauza srciei o mare parte din oameni consumau
carne foarte rar (iar unii - deloc). Aceast abatere de la normal const n
mrirea frecvenelor pe aripa stng a liniei normale (deplasare spre
stnga). Evident c media este bun (n mediu oamenii mncau cte 1 pui
pe sptmn, doar c n realitate cineva 3 pui, iar iar ali 2 nici cte
unul). Iar mediana e mai mic i modulul tot.

Iar n ce privete consumul de alcool n aceeai perioad situaia e


invers: muli oameni care consumau normal (conform curbei normale) au
nceput a consuma mult (pe aripa dreapt a cupolei normale au aprut
frecvene mari bare nalte deci deplasare spre dreapta). O astfel de
asimetrie este negativ. Media e mai mic dect mediana, pe aripa stng
fiind mai puini (50% sau mediana apuc din barele nalte ale graficului)

19

Asimetrie (skewness)

Formula de calcul a coeficientului de asimetrie Ca:

Ca

( xi x )3
n 3

unde este abaterea medie patratic de sondaj

Dac Ca =0 serie simetric.


Dac Ca>0 serie cu asimetrie pozitiv (deplasare spre stnga).
Dac Ca<0 serie cu asimetrie negativ (deplasare spre dreapta).

Asimetrie (skewness): 3 cazuri

a
1
2
2
3
3
3
4
4
4
4
5
5
5
6
6
7

d
0
0
0
0
0
0
0
0
0
0
0
0
0
1
2
3

e
2
2
2
2
2
2
2
2
2
2
2
2
2
1
0
0

20

Asimetrie lipsa (cazul a)

Ca = 0,000

Asimetrie pozitiva spre stanga


(cazul produselor de lux)

Ca = 2,411

21

Asimetrie negativa spre dreapta

(cazul produselor de larg consum consum zaharul)

Ca = -2,082

Boltire (kurtosis)

Un indice de aplatizare mare arat o repartiie cu cozi mari


(sunt prezente categorii deprtate de medie), n timp ce un
indice de aplatizare mic arat o repartiie ascuit sau boltit
n care sunt prezente mai puine categorii deprtate de medie.
Formula de calcul este :
4
C

(xi x)
n 4

unde este abaterea medie patratic de sondaj.


n cazul unei repartiii apropiate de repartiia normal,
coeficientul de aplatizare este n jurul valorii 0.
Cb >0, atunci distribuia are forma ascuit iar dac Cb <0 aplatizat

22

Boltire: 2 cazuri
b
1
1
1
1
1
1
1
5
6
9
9
9
9
9
9
9

c
1
2
3
3
3
3
3
3
3
3
3
3
3
3
4
5

Boltire: cazul a 2 segmente distincte

Cb = - 2,118

23

Boltire: cazul omogenitatii excesive

Cb = 3,913

Exemplu de calcul pentru SPSS

Vnzri lunare
(mii lei)

Nr. comis
voiajori

41 50

10

51 60

30

61 70

50

71 80

50

81 90

70

91 100

60

101 110

30

Me = 86,67 mii lei


x = 80,17 mii lei

Total

300

= 16,07

O mare companie de cosmetic are o


reea dezvoltat de distribuie prin
comis voiajori. A fost extras un
eantion de 300 de persoane din
rndurile acestora. Datele cu privire la
vnzrile lunare sunt prezentate n
tabel. Caracterizai i msurai
asimetria i boltirea distribuiei comis
voiajorilor.

24

asimetrie
Coeficientul de asimetrie se calculeaz n baza formulei:
( xi x )3 ni
315797

300 16 , 07
n 3

C as

0 , 254

Eroarea standard pentru asimetrie este

Ea

6/n

6 / 300 0 ,141

n SPSS n calitate de test de normalitate a asimetrie este considerat raportul

6 / n 2 ; 2

C as /

Adic n cazul nostru: 0 , 254 / 0 ,141 1 , 80 2 ; 2

boltire
Coeficientul de boltire se calculeaz conform formulei:
( xi x ) 4 n i
43620028
3
300 16 , 07
n 4

Cb

2 ,1806 3 0 ,819

Eroarea standard pentru boltire este

Eb

24 / n

24 / 300 0 , 283

n SPSS n calitate de test de normalitate a boltirii este considerat raportul

Cb /

24 / n 2 ; 2

Adic n cazul nostru: 0 , 819 / 0 , 283 2 , 89 2 ; 2


Adic putem vorbi despre un nivel de aplatizare excesiv

25