Sunteți pe pagina 1din 47

METODA STATISTIC DISPERSIONAL

ANOVA

ANALIZA VARIANEI

Etimologie: ANOVA (ANalyses Of VAriance)

I
S
T
O
R
I
C

A fost introdus n practica statistic n 1920 de ctre R. Fischer,


care a vrut s vad diferenele semnificative dintre diferitele tipuri
de plante.
Din 1970 este cea mai folosit metod statistic n studii de
psihologie.

Aplicaiile sunt dintre cele mai variate: psihologie, biologie,


sociologie, economie.

TIPURI DE VARIABILE
Tipul de variabile indica ce estimatori se pot calcula si tipul de test ce
poate fi utilizat

Variabile continue
Intotdeauna numerice
Calculeaza
in
general
media, media si deviatia
standard

Variabile absolute
Informatia este grupata pe
categorii
Nu se poate calcula media
sau mediana, dar se poate
calcula riscul

TERMINOLOGIE
Variabila dependent (variabil rspuns )
variabila studiat
Variabila independent/explicativ (factor)
o variabil care influeneaz variabila dependent
Nivelul factorului (tratament) o valoare particular (sau o
grup de valori) a factorului

Variaia rezidual influene aleatoare asupra variabilei


dependente (ali factori de influen)

Variatia
explicata
(VE)

Variatia
reziduala
(VR)

VARIATIA TOTALA

Variata datorata
unui factor cauza

Variata datorata
factorilor aleatori
UNIFACTORIALA

TIPURI DE ANOVA
BIFACTORIALA
VARIATIA TOTALA
Variata datorata
factorului cauza A

Variata datorata
interactiunii dintre
factorii cauza

Variata datorata
factorilor aleatori

Variata datorata
factorului cauza B

ANOVA
CONDITII

NORMALITATE

INDEPENDENTA

HOMOSCEDASCITATE

Distributiile populatiilor
din care se extrag
esantioanele
sunt
normale

Esantioanele aleatoare
de
efective
sunt
prelevate din populatii
intr-o
maniera
independenta

Variantele celor k populatii


sunt egale intre ele

ANOVA
Formularea problemei de rezolvat
UNIFACTORIALA
f(X)

H0: 1 = 2 = 3 = ... = p

Mediile populatiilor sunt


egale

1 = 2 = 3

H1: Nu toate j sunt egale

f(X)

Cel putin o medie este


diferita

1 = 2 3

Populaia de nul
Populaia 1
(metoda 1)

eantion1
(1, s12)

Ipoteza de nul (Ho):

Populaia 2

Populaia 3

(metoda 2)

(metoda 3)

eantion2
(2 s22)

eantion3
(3 , s32)

1= 2 = 3

Ipoteza cercetrii (H1): 1 2 3


Ct de diferite (mprtiate) trebuie sa fie 1 , 2 , 3 (luate ca
distribuie de sine stttoare) pentru a accepta ca nu provin din
populaia de nul, ci din trei populaii diferite (P1, P2, P3)?

1 dispersia mediilor grupurilor cercetrii


(considerate ca eantioane separate)

m1

m2

m3

VARIANTA INTERGRUPE

2 dispersia valorilor individuale la nivelul


populaiei de nul
VARIANTA INTRAGRUPE

3 Se face raportul dintre cele doua variante


Un raport ridicat exprim apartenena

fiecreia din cele trei medii la o


populaie distinct

Un raport scazut ar sugera provenienta

mediilor dintr-o populatie unica (de nul)

4 Decizia statistic

se ia prin raportarea la o distribuie


teoretic numit distributia Fischer,
sau distributia F (difer
de
distributia normala)

dispersiaintergrup
F=
dispersiaintragrup

IPOTEZE STATISTICE
Sunt o presupunere cu privire la
legea de probabilitate a unei
populatii studiate sau cu privire la
un parametru al unei distributii
date.
Ho ipoteza nula

H1 ipoteza alternativa

Ho:=o
H1:o
Test bilateral

Ho:=o
H1:< o

Ho:=o
H1:>o

Test unilateral

Tabel de sinteza pentru ANOVA unifactoriala


Sursa
variatiei

Variatia

Grade de
libertate

Intergrupe

1=k-1

Intragrupe

2=n-k

TOTALA

SURSA
VARIATIEI

Estimatori ai
variantei

ESTIMATORI

n-1

VARIATIA

GRADE DE
LIBERTATE

VARIANTA INTRAGRUPE
Ce cauzeaza variatia din interiorul grupei?
Variatia intragrupe este cauzata de factori care nu pot fi
tinuti sub control

Variabilitatea din interiorul grupei trebuie sa fie mare


sau mica?
Variatia intragrupe trebuie sa fie cat mai mica intrucat
reprezinta o sursa de eroare.

VARIANTA INTERGRUPE
Ce cauzeaza variatia dintre grupe?
Variatia intergrupe este influentata de efectul
(componenta explicata) pe care tratamentul il are asupra
variabilei dependente

Daca varianta intergupe este slaba si varianta intragrupe puternica, ne


putem astepta ca mediile grupelor populatiilor sa difere intre ele.

Pentru verificarea ipotezei Ho se foloseste statistica test


F- raportul Fisher
Daca F < F crt se
accepta ipoteza
nula

Estimatorul variatiei integrupe


Estimatorul variatiei intagrupe

Nu exista
diferente
semnificative

DISTRIBUTIA FISHER
asimetrie pozitiva
poate lua valori oricat de mari

dispersiaintergrup
F=
dispersiaintragrup

valoarea minima este zero deoarece


decurge din raportul a doua dispersii
forma distribuiei variaz n funcie
de o pereche de grade de libertate

Factori care influenteaza marimea lui F crit

a pe masura ce a scade, marimea lui F crit creste.


Marimea esantionului pe masura ce marimea esantionului
creste, numarul gradelor de libertate pentru varianta
intragrupe creste, iar valoarea lui F crit scade.
Pe masura ce esantionul este mai mare, devine mai
reprezentativ pentru populatie.

ANOVA BIFACTORIALA

Este un procedeu de analiza statistica ce consta in


descompunerea variatiei totale pe componente ale
variatiei pe factori cauza si compararea lor pentru a
verifica semnificatia influentei factorilor asupra variabilei
X.

Variatia
explicata
(VE)

Variatia
reziduala
(VR)

VARIATIA TOTALA

Variata datorata
unui factor cauza

Variata datorata
factorilor aleatori
UNIFACTORIALA

TIPURI DE ANOVA
BIFACTORIALA
VARIATIA TOTALA
Variata datorata
factorului cauza A

Variata datorata
interactiunii dintre
factorii cauza

Variata datorata
factorilor aleatori

Variata datorata
factorului cauza B

IPOTEZE

IPOTEZA 1

H0: 1 = 2 == i = ... = a
H1: cel putin o mediei este diferita

IPOTEZA 2

H0: 1 = 2 == j= ... = b
H1: cel putin o mediej este diferita

IPOTEZA 3

H0: 11 = 12 == 1b= ... == 21 =ab


H1: cel putin media unei interactiuni este diferita
de o alta

Tabel de sinteza pentru ANOVA bifactoriala


Sursa
variatiei

Variatia

Grade de
libertate

Factorul A
a-1

Factorul B
b-1
Interactiunea
AB

(a-1) (b-1)

Reziduu
ab(r-1)
Total
abr-1

Estimatori ai
variantei

EXEMPLU 1
Un cercetator doreste sa testeze eficienta a trei noi arome pentru a
dezvolta o noua bautura. Pentru aceasta selecteaza un numar de 10
degustatori. Fiecare degustator a primit un chestionar pentru a evalua
cat de placute au fost bauturile analizate. Scorurile primite au fost
urmatoarele:
Degustator

Proba X

Proba Y

Proba Z

13

12

17

19

19

15

11

16

14

20

12

10

15

14

16

18

10

18

18

11

12

14

10

16

11

11

Ipoteza nula
Nu
exista
diferente
semnificative intre aromele
folosite
la
fabricarea
bauturii.
Ipoteza alternativa

Exista cel putin o diferenta


intre aromele folosite la
fabricarea bauturii.

ANOVA pentru
=0.05
Grade de
Sursa de variatie Variatia libertate
Intergrupe
77.4
2
Intragrupe
415.4
27
Total

492.8

Varianta
38.7
15.38

F
2.511

P
0.099

F crit
3.3541

29

CONCLUZIE

Tipul de aroma folosita nu influenteaza semnificativ gradul de placere al


bauturii perceput de catre consumator.

EXEMPLU 2
Se realizeaza un studiu pentru a testa influenta pe care tipul de cheag si tipul
de enzima utilizata o au asupra aciditatii branzeturilor tip telemea. Pentru
aceasta s-au utilizat trei tipuri de cheag si patru tipuri de enzima. Valorile
obtinute pentru aciditate au fost urmatoarele:

Tip de cheag
tip de enzima

A1

A2

A3

B1

130

120

127

B2

150

140

160

B3

120

136

150

B4

115

120

110

Ipoteze statistice

Enzime

Cheag

Interactiune

H0: 1 = 2 = 3 =

H1: Cel putin o medie este diferita


H0: 1 = 2 =

H1: cel putin o medie este diferita


H0: Interactiunea nu este semnificativa
H1: Interactiunea este semnificativa

ANOVA
Sursa de
variatie
Enzima

=0.05
Variatia

Grade de
libertate

Varianta

P-value

F crit

1989.667

663.2222

6.769492

0.023617

4.757063

Cheag

165.5

82.75

0.844627

0.475118

5.143253

Eroare

587.8333

97.97222

2743

11

Total
CONCLUZIE

Tipul de enzima folosita influenteaza semnificativ (cu o probabilitate de 95%)


aciditatea branzeturilor. Pe de alta, parte tipul de cheag folosit la fabricarea
branzaturilor telemea nu influenteaza semnificativ aciditatea branzaturilor

Metoda ANOVA precizeaza doar daca


sunt diferente semnificative .

Testul t ?

Testul Tukey

Metoda ANOVA NU specifica si care


sunt mediile care difera intre ele.

NU

Eroare de tip I

Testul Dunett

Testul Scheffe

SOLUTIA

Testul Bonferroni

Covarianta
n

cov ( x , y )

( x X )( y Y )
i 1

n 1

Interpretare
cov(X,Y) > 0

X si Y corelatie pozitiva

cov(X,Y) < 0

X si Y corelatie negativa

cov(X,Y) = 0

X si sunt independente

Coeficient de corelatie

Coeficientul de corelatie Pearson este


covarianta standardizata (adimensional)

cov ariance( x, y )
r
var x var y

Corelatia

Masoara precizia relatiilor liniare dintre 2 variabile

Adimensional

Ia valori intre 1 si 1

Cu cat este mai aproape de 1, relatia liniara negativa


puternica
Cu cat este mai aproape de 1, relatia liniara pozitiva
puternica
Cu cat este mai aproape de 0, relatii liniare pozitive slabe

Corelatie liniara
Relatii liniare

Relatii curbliniare

X
Y

X
Y

Corelatie liniara
puternica

slaba

X
Y

X
Y

Corelatie liniara
Nicio relatie
Y

X
Y

Regresia liniara
In corelatie cele doua variabile sunt tratate ca fiind
egale.

In regresie o variabila este considerata independenta


(variabila x) iar celalalta dependenta (variabila y)

Variabila dependenta

Regresia

Variabila independenta (x)

Regresia reprezinta incercarea de a explica variatia unei variabile


dependente prin intermediul variatiei variabilei independente.
Daca variabila(variabilele) independenta este suficienta pentru a
explica variatia variabilei dependente, atunci modelul poate fi utilizat
pentru previzionare.

Ce inseamna Liniar?

Y=mX+B?
m

Variabila dependenta (y)

Regresia liniara simpla

y = b0 + b1X

b0 (y interceptul)

b1 = panta
= y/ x

Variabila independenta (x)

Rezultatul regresiei este o functie care previzioneaza variabila


dependenta pe baza valorilor variabilei independente
Regresia simpla o linie dreapta ce trece prin toate valorile

Ce este panta?
O panta de 2 inseamna ca fiecare unitate modificata
in x va modifica cu 2 unitati variabila y

Variabila dependenta

Regresia liniara simpla


Observata: y
Previzionata: y^

Zero
Variabila independenta (x)

Functia realizeaza o previziune pentru fiecare valoare observata.

Regresia liniara simpla

Eroare previzionata:
Observata: y
Previzionata : y^
Zero

Pentru fiecare observatie, variatia poate fi descrisa ca:

y=^
y+
Actuala = Explicata + Eroare

Variabila dependenta

Regresia

Variabila independenta (x)

Regresia celor mai mici patrate selecteaza linia cu cea mai mica suma
totala a erorilor patratice previzionate
Aceasta valoare poarta denumirea de Suma patratelor erorii (Sum of
Squares of Error), sau SSE.

Variabila dependenta

Calcul SSR

Medie populatie : y

Variabila independenta (x)

Suma patratelor regresiei (Sum of Squares Regression (SSR)


reprezinta suma diferentelor la patrat dintre fiecare valoare
previzionata si media populatiei.

Relatii de calcul regresie


Suma totala a patratelor (Total Sum of Squares (SST) = SSR + SSE.

Matematic
SSR = ( ^y y ) 2 (masoara variatia explicata)
^)
SSE = ( y y

(masoara variatia neexplicata)


2

SST = SSR + SSE = ( y y ) (masoara variatia totala in y)

Coeficientul de corelatie

SSR
=
SST

SSR
SSR + SSE

R= 0 si 1

Cu cat R este mai mare cu atat modelul de regresie este mai precis.

Eroarea standard a regresiei

Eroarea standard a regresiei este o masura a propriei variatii. Poate fi


utilizata in conditii similiare ca deviatia standard.
y 2 eroare standard = 95% precizie, y 3 eroare standard = 99%
precizie.

Eroarea standard este calculata ca fiind radicalul erorii medii


previzionate

Eroarea standard =

SSE
n-k

unde n numarul de observatii si k numarul total de variabile din model

Rezultatul regresiei este coeficientul si constanta A. Ecuatia


devine:
y=A+*x+
unde este eroarea reziduala.
=

y
x