Sunteți pe pagina 1din 47

METODA STATISTICĂ DISPERSIONALĂ

ANOVA
ANALIZA VARIANŢEI

Etimologie: ANOVA (ANalyses Of VAriance)

I A fost introdusă în practica statistică în 1920 de către R. Fischer,


S care a vrut să vadă diferenţele semnificative dintre diferitele tipuri
T de plante.
O
R Din 1970 este cea mai folosită metodă statistică în studii de
I psihologie.
C
Aplicaţiile sunt dintre cele mai variate: psihologie, biologie,
sociologie, economie.
TIPURI DE VARIABILE

Tipul de variabile indica ce estimatori se pot calcula si tipul de test ce


poate fi utilizat

Variabile continue Variabile absolute


Informatia este grupata pe
Intotdeauna numerice
categorii
Calculeaza in general
Nu se poate calcula media
media, media si deviatia
sau mediana, dar se poate
standard
calcula riscul
TERMINOLOGIE

Variabila dependentă (variabilă răspuns )


variabila studiată

Variabila independentă/explicativă (factor)


o variabilă care influenţează variabila dependentă

Nivelul factorului (tratament) o valoare particulară (sau o


grupă de valori) a factorului

Variaţia reziduală influenţe aleatoare asupra variabilei


dependente (alţi factori de influenţă)
Variatia Variatia
explicata reziduala
(VE) VARIATIA TOTALA (VR)
Variata datorata Variata datorata
unui factor cauza factorilor aleatori
UNIFACTORIALA

TIPURI DE ANOVA
BIFACTORIALA
VARIATIA TOTALA

Variata datorata Variata datorata


factorului cauza A factorilor aleatori

Variata datorata
Variata datorata
interactiunii dintre
factorului cauza B
factorii cauza
ANOVA
CONDITII

NORMALITATE INDEPENDENTA HOMOSCEDASCITATE

Esantioanele aleatoare
Distributiile populatiilor
de efective sunt
din care se extrag Variantele celor k populatii
prelevate din populatii
esantioanele sunt sunt egale intre ele
intr-o maniera
normale
independenta
ANOVA
Formularea problemei de rezolvat
UNIFACTORIALA
f(X)
H0: 1 = 2 = 3 = ... = p
– Mediile populatiilor sunt
egale

X
1 = 2 = 3

H1: Nu toate j sunt egale f(X)


– Cel putin o medie este
diferita
X
1 =  2  3
Populaţia de nul

Populaţia 1 Populaţia 2 Populaţia 3


(metoda 1) (metoda 2) (metoda 3)

eşantion1 eşantion2 eşantion3


(1, s12) (2 s22) (3 , s32)

Ipoteza de nul (Ho): 1= 2 = 3


Ipoteza cercetării (H1): 1 ≠ 2 ≠ 3

Cât de diferite (împrăştiate) trebuie sa fie 1 , 2 , 3 …(luate ca


distribuţie de sine stătătoare) pentru a accepta ca nu provin din
populaţia de nul, ci din trei populaţii diferite (P1, P2, P3)?
1 dispersia mediilor grupurilor cercetării
(considerate ca eşantioane separate) m1 m2 m3
VARIANTA INTERGRUPE

2 dispersia valorilor individuale la nivelul


populaţiei de nul
VARIANTA INTRAGRUPE

3 Se face raportul dintre cele doua variante


 Un raport ridicat exprimă apartenenţa dispersiaintergrup
fiecăreia din cele trei medii la o
populaţie distinctă F=
dispersiaintragrup
 Un raport scazut ar sugera provenienta
mediilor dintr-o populatie unica (de nul)

4 Decizia statistică
se ia prin raportarea la o distribuţie
teoretică numită distributia Fischer,
sau distributia F (diferă de
distributia normala)
IPOTEZE STATISTICE
Sunt o presupunere cu privire la
legea de probabilitate a unei
populatii studiate sau cu privire la
un parametru al unei distributii
date.
Ho – ipoteza nula
H1 – ipoteza alternativa

Ho:θ=θo Ho:θ=θo Ho:θ=θo


H1:θǂθo H1:θ< θo H1:θ>θo

Test bilateral Test unilateral


Tabel de sinteza pentru ANOVA unifactoriala

Sursa Variatia Grade de Estimatori ai F


variatiei libertate variantei

Intergrupe ν1=k-1

Intragrupe ν2=n-k

TOTALA n-1

SURSA GRADE DE
VARIATIA ESTIMATORI F
VARIATIEI LIBERTATE
VARIANTA INTRAGRUPE

Ce cauzeaza variatia din interiorul grupei?

Variatia intragrupe este cauzata de factori care nu pot fi


tinuti sub control

Variabilitatea din interiorul grupei trebuie sa fie mare


sau mica?

Variatia intragrupe trebuie sa fie cat mai mica intrucat


reprezinta o sursa de eroare.
VARIANTA INTERGRUPE

Ce cauzeaza variatia dintre grupe?

Variatia intergrupe este influentata de efectul


(componenta explicata) pe care tratamentul il are asupra
variabilei dependente

Daca varianta intergupe este slaba si varianta intragrupe puternica, ne


putem astepta ca mediile grupelor populatiilor sa difere intre ele.
Pentru verificarea ipotezei Ho se foloseste statistica test
F- raportul Fisher

Daca F < F crt se


accepta ipoteza
nula

Nu exista
Estimatorul variatiei integrupe diferente
semnificative
Estimatorul variatiei intagrupe
DISTRIBUTIA FISHER

asimetrie pozitiva
dispersiaintergrup
poate lua valori oricat de mari F=
dispersiaintragrup
valoarea minima este zero deoarece
decurge din raportul a doua dispersii

forma distribuţiei variază în funcţie


de o pereche de grade de libertate
Factori care influenteaza marimea lui F crit

a – pe masura ce a scade, marimea lui F crit creste.

Marimea esantionului– pe masura ce marimea esantionului


creste, numarul gradelor de libertate pentru varianta
intragrupe creste, iar valoarea lui F crit scade.

Pe masura ce esantionul este mai mare, devine mai


reprezentativ pentru populatie.
ANOVA BIFACTORIALA

Este un procedeu de analiza statistica ce consta in


descompunerea variatiei totale pe componente ale
variatiei pe factori cauza si compararea lor pentru a
verifica semnificatia influentei factorilor asupra variabilei
X.
Variatia Variatia
explicata reziduala
(VE) VARIATIA TOTALA (VR)
Variata datorata Variata datorata
unui factor cauza factorilor aleatori
UNIFACTORIALA

TIPURI DE ANOVA
BIFACTORIALA
VARIATIA TOTALA

Variata datorata Variata datorata


factorului cauza A factorilor aleatori

Variata datorata
Variata datorata
interactiunii dintre
factorului cauza B
factorii cauza
IPOTEZE

IPOTEZA 1 H0: 1 = 2 =…= i = ... = a


H1: cel putin o mediei este diferita

H0: 1 = 2 =…= j= ... = b


IPOTEZA 2
H1: cel putin o mediej este diferita

H0: 11 =  12 =…= 1b= ... =…=  21 =ab


IPOTEZA 3
H1: cel putin media unei interactiuni este diferita
de o alta
Tabel de sinteza pentru ANOVA bifactoriala

Sursa Variatia Grade de Estimatori ai F


variatiei libertate variantei
Factorul A
a-1

Factorul B
b-1
Interactiunea
AB
(a-1) (b-1)
Reziduu

ab(r-1)
Total
abr-1
EXEMPLU 1
Un cercetator doreste sa testeze eficienta a trei noi arome pentru a
dezvolta o noua bautura. Pentru aceasta selecteaza un numar de 10
degustatori. Fiecare degustator a primit un chestionar pentru a evalua
cat de placute au fost bauturile analizate. Scorurile primite au fost
urmatoarele:
Degustator Proba X Proba Y Proba Z
Ipoteza nula
1 13 12 7 Nu exista diferente
2 17 8 19 semnificative intre aromele
folosite la fabricarea
3 19 6 15 bauturii.
4 11 16 14
5 20 12 10 Ipoteza alternativa
6 15 14 16 Exista cel putin o diferenta
7 18 10 18 intre aromele folosite la
fabricarea bauturii.
8 9 18 11
9 12 4 14
10 16 11 11
ANOVA pentru
α=0.05
Grade de
Sursa de variatie Variatia libertate Varianta F P F crit
Intergrupe 77.4 2 38.7 2.511 0.099 3.3541
Intragrupe 415.4 27 15.38

Total 492.8 29

CONCLUZIE

Tipul de aroma folosita nu influenteaza semnificativ gradul de placere al


bauturii perceput de catre consumator.
EXEMPLU 2

Se realizeaza un studiu pentru a testa influenta pe care tipul de cheag si tipul


de enzima utilizata o au asupra aciditatii branzeturilor tip telemea. Pentru
aceasta s-au utilizat trei tipuri de cheag si patru tipuri de enzima. Valorile
obtinute pentru aciditate au fost urmatoarele:

Tip de cheag A1 A2 A3
tip de enzima
B1 130 120 127
B2 150 140 160
B3 120 136 150
B4 115 120 110
Ipoteze statistice

H0:  1 =  2 =  3 =  4
Enzime
H1: Cel putin o medie este diferita

H0:  1 =  2 =  3
Cheag H1: cel putin o medie este diferita

H0: Interactiunea nu este semnificativa


Interactiune H1: Interactiunea este semnificativa
ANOVA α=0.05
Sursa de Grade de
variatie Variatia libertate Varianta F P-value F crit
Enzima 1989.667 3 663.2222 6.769492 0.023617 4.757063
Cheag 165.5 2 82.75 0.844627 0.475118 5.143253
Eroare 587.8333 6 97.97222

Total 2743 11

CONCLUZIE

Tipul de enzima folosita influenteaza semnificativ (cu o probabilitate de 95%)


aciditatea branzeturilor. Pe de alta, parte tipul de cheag folosit la fabricarea
branzaturilor telemea nu influenteaza semnificativ aciditatea branzaturilor
Metoda ANOVA precizeaza doar daca Metoda ANOVA NU specifica si care
sunt diferente semnificative . sunt mediile care difera intre ele.

Testul t ? NU Eroare de tip I

Testul Tukey Testul Dunett Testul Scheffe Testul Bonferroni

SOLUTIA
Covarianta

 ( x  X )( y  Y )
i i
cov ( x , y )  i 1
n 1
Interpretare
cov(X,Y) > 0 X si Y corelatie pozitiva

cov(X,Y) < 0 X si Y corelatie negativa

cov(X,Y) = 0 X si sunt independente


Coeficient de corelatie

 Coeficientul de corelatie Pearson este


covarianta standardizata (adimensional)

cov ariance( x, y )
r
var x var y
Corelatia
 Masoara precizia relatiilor liniare dintre 2 variabile
 Adimensional
 Ia valori intre –1 si 1
 Cu cat este mai aproape de –1, relatia liniara negativa
puternica
 Cu cat este mai aproape de 1, relatia liniara pozitiva
puternica
 Cu cat este mai aproape de 0, relatii liniare pozitive slabe
Corelatie liniara
Relatii liniare Relatii curbliniare

Y Y

X X

Y Y

X X
Corelatie liniara
puternica slaba

Y Y

X X

Y Y

X X
Corelatie liniara
Nicio relatie

X
Regresia liniara

In corelatie cele doua variabile sunt tratate ca fiind


egale.

In regresie o variabila este considerata independenta


(variabila x) iar celalalta dependenta (variabila y)
Variabila dependenta
Regresia

Variabila independenta (x)

Regresia reprezinta incercarea de a explica variatia unei variabile


dependente prin intermediul variatiei variabilei independente.
Daca variabila(variabilele) independenta este suficienta pentru a
explica variatia variabilei dependente, atunci modelul poate fi utilizat
pentru previzionare.
Ce inseamna “Liniar”?

 Y=mX+B?

B
Regresia liniara simpla

Variabila dependenta (y)


y’ = b0 + b1X ± є
є

b1 = panta
= ∆y/ ∆x
b0 (y interceptul)

Variabila independenta (x)

Rezultatul regresiei este o functie care previzioneaza variabila


dependenta pe baza valorilor variabilei independente
Regresia simpla – o linie dreapta ce trece prin toate valorile
Ce este panta?

O panta de 2 inseamna ca fiecare unitate modificata


in x va modifica cu 2 unitati variabila y
Regresia liniara simpla

Variabila dependenta
Observata: y

Previzionata: y^

Zero
Variabila independenta (x)

Functia realizeaza o previziune pentru fiecare valoare observata.


Regresia liniara simpla

Eroare previzionata: ε

Observata: y
Previzionata : y^

Zero

Pentru fiecare observatie, variatia poate fi descrisa ca:

y=^
y+ε
Actuala = Explicata + Eroare
Regresia

Variabila dependenta

Variabila independenta (x)


Regresia celor mai mici patrate selecteaza linia cu cea mai mica suma
totala a erorilor patratice previzionate
Aceasta valoare poarta denumirea de Suma patratelor erorii (Sum of
Squares of Error), sau SSE.
Calcul SSR

Variabila dependenta Medie populatie : y

Variabila independenta (x)

Suma patratelor regresiei (Sum of Squares Regression (SSR)


reprezinta suma diferentelor la patrat dintre fiecare valoare
previzionata si media populatiei.
Relatii de calcul regresie

Suma totala a patratelor (Total Sum of Squares (SST) = SSR + SSE.

Matematic

SSR = ∑ ( ^y – y ) 2 (masoara variatia explicata)

^)
SSE = ∑ ( y – y (masoara variatia neexplicata)

2
SST = SSR + SSE = ∑ ( y – y ) (masoara variatia totala in y)
Coeficientul de corelatie

2 SSR SSR
R = =
SST SSR + SSE

R= 0 si 1

Cu cat R este mai mare cu atat modelul de regresie este mai precis.
Eroarea standard a regresiei

Eroarea standard a regresiei este o masura a propriei variatii. Poate fi


utilizata in conditii similiare ca deviatia standard.

y ± 2 eroare standard = 95% precizie, y± 3 eroare standard = 99%


precizie.

Eroarea standard este calculata ca fiind radicalul erorii medii


previzionate

Eroarea standard = √ SSE


n-k

unde n numarul de observatii si k numarul total de variabile din model


Rezultatul regresiei este coeficientul β si constanta A. Ecuatia
devine:

y=A+β*x+ε

unde ε este eroarea reziduala.

β= ∆y
∆x

S-ar putea să vă placă și