General Linear Model

General Linear Model
1
1. INTRODUCERE
1.1 REGRESIE, ANOVA ȘI ANCOVA ÎN TERMENI GLM

1.2. TERMENUL "GENERAL" DIN GLM
1.3. TERMENUL "LINEAR" DIN GLM
1.4. ESTIMAREA PRIM METODA CELOR MAI MICI PĂTRATE
1.5. ANALIZE CU EFECTE FIXE, ALEATOARE ȘI MIXTE
2
1. INTRODUCERE
 Regresia și analiza varianței sunt utilizate extensiv în multe domenii de cercetare cum ar fi:
psihologie, biologie, medicină, educație, sociologie, antropologie, economic, științe politice ca și în
industrie și comerț.
 Sunt câteva motive pentru care regresia și analiza varianței sunt aplicate atât de frecvent:
1. Ele furnizează răspunsuri la întrebările cercetătorilor cu privire la datele pe care le au la dispoziție:
regresia permite să determina dacă și cum sunt corelate, ANOVA permite determinarea dacă mediile
diferitelor grupuri sau condiții diferă, ANCOVA (analiza covarianței) o combinație dintre regresie și
ANOVA permite să determinăm dacă mediile grupurilor sau condițiilor diferă după ce influența unei
variabile (sau a mai multor variabile) a fost considerată egală în aceste grupuri.
2.Ele sunt aplicate datelor experimentale, cvasi-experimentale și non-experimentale și pot fi aplicate
majorității tipurilor de analiză utilizate în aceste studii.
3. soft-urile statistice pentru regresie și ANOVA sunt disponibile pentru majoritatea tipurilor de analiză.
3
1.1 REGRESIE, ANOVA ȘI ANCOVA ÎN TERMENI GLM
 În termeni GLM, regresia încearcă să explice datele (variabila dependentă) în funcție de un set de
variabile independente sau predictori (ai modelului) și componenta reziduală (eroare).
 Tipic, cercetătorul ce aplică regresie este interesat în previzionarea variabilei cantitative

dependente pe baza a uneia sau mai multor variabile independente și în determinarea contribuției
relative a fiecărei variabile independente la predicție.
 Există, de asemenea, interesul în determinarea proporției în care variația variabilei dependente este
atribuită variației variabilei(lor) independente.
 Regresia poate utiliza predictori categoriali (cunoscuți și ca nominali sau cantitativi).
 Deoarece regresia este o formă elementară a GLM, este posibil să construim regresii
4 GLM echivalente
cu orice ANOVA și ANCOVA GLM.
 În termeni GLM, ANOVA încearcă să explice datele (valorile variabilei dependente) în funcție de
condițiile experimentale (model) și o componentă eroare.
 Tipic, cercetătorul care aplică ANOVA este interesat în determinarea cărei medii a condițiilor
experimentale (sau grup) diferă.
 Există, de asemenea, interesul în determinarea proporției variației variabilei dependente ce poate fi
atribuită diferențelor dintre grupurile experimentale specifice sau condiții, așa cum sunt definite de
variabilele independente.
 ANCOVA combină regresia și ANOVA

 ANCOVA determină covariația (corelația) dintre covariată și variabila dependentă și apoi înlătură
varianța asociată covariatei din variația variabilei dependente, pentru a determina dacă diferențele
dintre mediile condițiilor experimentale sunt semnificative.
5
1.2. TERMENUL "GENERAL" DIN GLM
 Termenul “general” în GLM se referă la abilitatea de a estima modelul

-atât cu variabile cantitative ce sunt reprezentate de valori continue (ca în regresie)
- cât și cu variabile calitative ce reprezintă grupuri sau condiții experimentale (ca în ANOVA).
Această caracteristică este accentuată în ANOVA, unde variabile numerice continue și variabile
categoriale sunt utilizate în același GLM.
6
1.3. TERMENUL "LINEAR" DIN GLM
 Termenul ”liniar” din modelul liniar vine din forma matematică a ecuației, nu din orice constrângere
a modelului că ar trebui să potrivească o linie dreaptă.
 Această formă matematică exprimă variabila dependentă pentru orice observație dată ca sumă a trei
componente:
(1) ordonata la origine;
(2) suma variabilelor independente ponderate;
(3) eroarea.
 Variabilele independente în GLM pot include transformări non liniare a variabilelor originale
înregistrate în setul de date sau suma produselor acestor variabile originale. Caracteristica centrală a
GLM este ca aceste variabile ”noi” pot fi măsurate și plasate într-o ecuație.
7
 Metoda celor mai mici pătrate este utilizată pentru estimarea parametrilor prin minimizarea sumei
pătratelor discrepanțelor între valorile observate și cele previzionate.

 Efectele fixe, aleatoare și mixte se referă la diferite situații de eșantionare.
 Analizele cu efecte fixe utilizează variabile fixate, analizele cu efecte aleatoare utilizează numai
variabile aleatoare în timp ce efectele mixte utilizează atât variabile fixate cât și variabile aleatoare
în componentele modelului GLM.
 Analizele cu efecte fixe sunt mai potrivite pentru datele experimentale.
 Analizele cu efecte aleatoare consideră condițiile experimentale utilizate în studiu a fi un eșantion
aleator din populație sau condiții experimentale și astfel, rezultatele inferențele realizate prin
studiu pot fi aplicate populației sau condițiilor în ansamblu.
 Analizele efectelor mixte sunt întâlnite cel mai frecvent cu respectarea tipurilor de măsurări.
8
2. ANOVA
2.1. ANOVA – COMPARAREA MEDIILOR
2.2. ANOVA – CA REGRESIE
2.3. GLM
2.3.1. CONTRASTE
2.3.1.a. Contraste planificate
2.3.1.b. Definirea contrastelor utilizând ponderi
2.3.1.c. Contraste standard
2.3.1.d. Contraste polinomiale: analiza trendului
2.3.1.e. Proceduri post hoc
9
2.3.2. ANOVA UNIFACTORIALĂ UTILIZÂND PROGRAMUL R

2.3.2.a. Explorarea datelor
2.3.2.b. Analiza principală
2.3.2.c. Planificarea contrastelor utilizând R
2.3.2.d. Construirea contrastelor
2.3.2.e. Analiza trendului
2.3.2.f. Proceduri post hoc utilizând R
2.3.2.g Determinarea mărimii efectului
2.3.3. ANOVA UNIFACTORIALĂ ROBUSTĂ UTILIZÂND PROGRAMUL R

2.3.3.a. ANOVA robustă în R
2.3.3.b Testele post hoc robuste în R 10
 Metoda celor mai mici pătrate este utilizată pentru estimarea parametrilor prin minimizarea sumei
pătratelor discrepanțelor între valorile observate și cele previzionate.

 Efectele fixe, aleatoare și mixte se referă la diferite situații de eșantionare.
 Analizele cu efecte fixe utilizează variabile fixate, analizele cu efecte aleatoare utilizează numai
variabile aleatoare în timp ce efectele mixte utilizează atât variabile fixate cât și variabile aleatoare
în componentele modelului GLM.
 Analizele cu efecte fixe sunt mai potrivite pentru datele experimentale.
 Analizele cu efecte aleatoare consideră condițiile experimentale utilizate în studiu a fi un eșantion
aleator din populație sau condiții experimentale și astfel, rezultatele inferențele realizate prin
studiu pot fi aplicate populației sau condițiilor în ansamblu.
 Analizele efectelor mixte sunt întâlnite cel mai frecvent cu respectarea tipurilor de măsurări.
11
2. ANOVA
2.1. ANOVA – COMPARAREA CÂTORVA MEDII
 ANOVA ne spune dacă trei sau mai multe medii sunt aceleași și testează ipoteza nulă că toate mediile
grupurilor sunt egale.
 ANOVA este un test de ansamblu, care înseamnă că testează efectul de ansamblu: astfel nu furnizează o
informație specifică cu privire la care grup este afectat.
a) Presupuneri pentru ANOVA

 omogenitatea varianței – varianțele în fiecare din condițiile experimentale este necesară a fi similară;
 normalitatea – distribuțiile din cadrul grupurilor sunt distribuite după o lege normală;
 Observațiile trebuie să fie independente;
Variabila dependentă trebuie să fie măsurată pe o scală interval.

12
b) Raportul F
 Compară varianța sistematică din date cu varianța nesistematică
 F este raportul din varianța explicată de model și eroarea sa.
 Suma totală a pătratelor SST - variația totală

SST =  ( yi − y )
n 2
sau
i =1
SST = s 2 ( N − 1)
y - media de ansamblu a variabilei

s 2 - varianța de ansamblu a variabilei
N - numărul de observații
 Suma pătratelor modelului (Suma explicată a pătratelor) – ne spune cât de mult din variația totală
poate fi explicată prin faptul că valori diferite ale variabilelor sunt din grupuri diferite.
SS M =  nk ( yk − y )
k 2
13
n =1
numărul gradelor de libertate df M = k − 1
 Suma pătratelor reziduurilor – variația care nu poate fi explicată prin model.

SS R =  ( yik − yk ) or SST =  sk2 ( nk − 1)
n 2 k
i =1 n =1
gradele de libertate df R = N − k
 Raportul F
SS M SS M
SS N − k
= M = k −1 = M 
MS M df
F=
MS R SS R SS R SS R k − 1
df R n−k
14
EXEMPLE:
DATA: ANOVA_ANCOVA
VARIABLES:
mathach -
mathcrs -
gender -
faed -
15
16
 Concluzie:
 Raportul F nu ne spune unde sunt diferențele dintre grupuri. De aceea, este necesar
17
după ce realizăm
ANOVA să continuăm analiza pentru a identifica care grupuri diferă.
18
19
 2.2. ANOVA – CA REGRESIE
ANOVA este un caz special al regresiei.
 ANOVA poate fi reprezentată printr-o ecuație de regresie multiplă în care numărul de predictori este
cu unul mai puțin decât numărul de categorii a variabilei independente.
 Dacă avem trei grupe/categorii vom utiliza un model de regresie cu două variabile dummy.
Y = f ( X )+
Y =  0 + 1 D1 +  2 D2 + 
0, group=1 0, group=1

 
D1 = 1, group=2 D2 = 0, group=2
0, group=3 1, group=3
 
 grupul=1 – categoria de bază/raportare
20
Rezultate:
 D1=0 și D2=0
Y = b0 =Y mediu pentru categoria de bază (grupul 1)
 D1=1 și D2=0
Y = b0 + b1 = Y mediu pentru grupul 2.
b1 - diferența dintre media grupului 2 și media grupului 1;
Dacă 1 este semnificativ atunci există o diferență semnificativă între media grupului 2 și media
grupului 1.
 D1=0 și D2=1
Y = b0 + b2 = Y mediu pentru grupul 3.
b2 - diferența dintre media grupului 3 și media grupului 1;
Dacă  2 este semnificativ atunci există diferențe semnificative între media grupului
21 3 și media grupului
1.
 EXEMPLE:
22
 Concluzie:
 În regresia multiplă fiecare coeficient de regresie este testat individual utilizând un test t.
 Pentru a continua analiza și a găsi care grup diferă sunt două posibilități:
A) Să descompunem varianța din model în părți componente: poate fi realizată cu comparații planificate
(numite și contraste planificate);
B) Să comparăm fiecare grup (ca și cum am realiza câteva teste t) dar să utilizăm un criteriu de
acceptare astfel încât eroarea de tip I să nu crească peste 0.05: este realizată utilizând comparații post-
hoc.
23
2.3. GLM
2.3.1. CONTRASTE
2.3.1.a. Contraste planificate
Figura 1. Descompunerea varianței în ANOVA
SST
Varianța totală
SSM
SSR
Varianța explicată
Varianța neexplicată 24
prin model
Figura 2. Descompunerea varianței în componente
SSM
Varianța explicată prin model
Grup 1

Grup 2 + Grup 3 
Varianța explicată de grupul  Contrast 1
Varianța explicată de grupurile 2 și 3
de control 



Grup 2 Grup 3
 Contrast 2
Varianța explicată de grupul 2 Varianța explicată de grupul 3 
25 
 Sunt trei reguli care ne pot ajuta pentru planificarea comparațiilor:
1) Dacă avem un grup de control, aceasta este de obicei pentru că vrem sa-l comparăm cu alte grupuri;
2) Fiecare contrast trebuie să compare numai două ”bucăți” de variație
3) Din moment ce un grup a fost introdus într-un contrast nu poate fi utilizat în al contrast.
26
 2.3.1.b. Definirea contrastelor utilizând ponderi
 Pentru a realiza contrastele trebuie să asociem valori variabilelor dummy din modelul de regresie;
 Dacă înainte am definit grupurile experimentale asociind variabilelor dummy valori de 1 și 0, când
realizăm contrastele utilizăm valori diferite pentru a specifica care grupuri dorim să le comparăm;
 Coeficienții rezultați în modelul de regresie (b2 și b3) reprezintă comparații de care suntem
interesați. Valorile asociate variabilelor dummy sunt cunoscute ca ponderi.
27
Reguli pentru ponderi:
 Regula 1: Alegeți comparații sensibile. Amintiți-vă că doriți să comparați două părți de variație și,
dacă un grup este singur într-o comparație, acel grup va fi exclus din orice contrast următor.
 Regula 2: Grupurile codificate cu ponderi pozitive vor fi comparate cu grupurile codificate cu

ponderi negative. Astfel, compararea se face între o parte din variație cu o pondere pozitivă , cu alta
cu ponderi negative.
 Regula 3: Suma ponderilor pentru o comparație trebuie să fie 0. Dacă adunăm ponderile pentru un
anumit contrast rezultatul trebuie să fie zero.
 Regula4: Dacă un grup nu este implicat într-o comparație, automat îi asociem o valoare zero.
Dacă îi dăm unui grup o pondere 0 atunci aceasta elimină tot grupul din toate calculele.
 Regula 5: Pentru un contrast dat ponderea asociată grupurilor într-o parte de variație trebuie să fie
egală cu nr. de grupuri în grupul opus de variație.
28
 CONTRAST 1
Bucata 1 Bucata 2
Grupa 2 și Grupa 3 Grupa 1
+1 -2 29
 CONTRAST 2
Bucata 1 Bucata 2
Grupa 2 Grupa 3 Grupa 1

Nu este în Contrast
+1 -1 30
 Tabelul 1. Contraste ortogonale
Grupa Variabila dummy1 Variabila dummy2 Produsul

Contrast 1 Contrast 2 Contrast 1 X Contrast 2
Grupa 1 -2 0 0
Grupa 2 1 -1 -1
Grupa 3 1 1 1
Total 0 0 0
Contrastele sunt independente și ortogonale
31
 Când utilizăm contraste planificate, ordonata la origine b0 este egală cu media de ansamblu (adică
valoarea previzionată de model când apartenența la grup nu este cunoscută), care atunci când
mărimea grupurilor este egală este:
y1 + y2 + y3
b0 = y =
3
 Dacă utilizăm contrastul 1 codificarea pentru grupul 1 (categoria de bază) valoarea previzionată a lui
y este egală cu media grupului 1.
yi = b0 + b1contrast1 + b2 contrast 2
1  y2 + y3  
y1 = b0 + ( −2b1 ) + ( b2  0 )  b1 =   − y1 
3  2  
 Această ecuație arată că b1 este de fapt o treime din această diferență între media celor 2 grupuri
experimentale și grupul de control.
 Dacă utilizăm contrastul 2, codificarea pentru grupul 2, valoarea previzionată a lui y este egală cu
media grupului 2:
yi = b0 + b1contrast1 + b2 contrast 2
y2 = b0 + ( b1  1) + ( b2  1) 32
1
b2 = y2 − b0 − b1  b2 = ( y3 − y2 )
2
 b2 este jumătate din diferența dintre grupul experimental 2 și 3.
33
 2.3.1.c. Contraste standard
 Deși în majoritatea circumstanțelor se utilizează contrastele specificate de cercetător, sunt contraste

speciale care au fost realizate pentru a compara anumite situații. Unele din aceste contraste sunt
ortogonale iar altele nu sunt.
 Tabelul următor arată contrastele care sunt disponibile în R utilizând funcția contrasts(). Această
funcție este utilizată pentru a codifica orice variabilă categorială și rezultatele codifică pot fi
utilizate în majoritatea din modele liniare (ANOVA, regresie, regresie logistică etc.)
34
 Tabelul 2. Contraste standard disponibile în R
35
 2.3.1.d. Contraste polinomiale: analiza trendului
 Un alt tip de contrast este contrastul polinomial, care poate fi obținut în R utilizând funcția
contr.poly().
 Acest contrast testează trendul ce apare în date și în forma sa de bază identifică trendul liniar( dacă
mediile grupelor cresc).
 Un trend quadratic este când apare o schimbare în direcția liniei de evoluție a mediilor grupelor
(adică este curbată într-un loc)
 Un trend cubic apare atunci când sunt două schimbări în direcția trendului.
 Un trend quartic are trei schimbări de direcție (astfel aveți nevoie de cel puțin 5 categorii ale
variabilei independente) 36
Figura A. Trenduri liniar, quadratic, cubic and quartic pentru cinci grupe
37
 2.3.1.e. Procedurile Post hoc
 Adesea este cazul să nu ai nici o așteptare anterioară cu privire la datele pe care le-ai colectat și ești
interesat în explorarea datelor pentru toate diferențele care există între mediile grupelor.
 Testele Post hoc constau din perechile de comparații care sunt desemnate pentru a compara toate
combinațiile posibile ale grupurilor de tratament.
 Perechile de comparații compară eroarea de tip I prin corectarea nivelului de semnificație pentru
fiecare test
Corecția Bonferroni : împarte α prin numărul de comparații, k, astfel asigurându-se că eroarea de Tip I
este sub 0,05

pcrit =
k
 Are loc un schimb pentru controlarea erorii de tip I și o pierdere a puterii statistice
38 a testului.
 Metoda lui Holm

pcrit =
j
j este un indice pentru p-value (pentru cel mai mare p asociem indicele 1, următorul cel mai mare 2 și
așa mai departe până la cel mai mic.
 Metoda lui Benjamini și Hochberg

j
pcrit = 
k
j este un indice pentru p-value (notația este inversă față de metoda lui Holm)
k este numărul de comparații.
 Ei estimează cât de multe erori de Tip I (sau descoperiri false pot fi făcute și calculează FDR:
39
A-B
B-C
D-B
A-D
A-C
D-C
40
Procedura post hoc realizează testele controlând:
-Eroarea de Tip I;
-Eroarea de Tip II ( sau puterea statistică a testului).
Testele Bonferroni și Tukey HSD controlează eroarea de Tip I dar sunt teste conservatoare (le
lipsește puterea statistică)
 - Bonferroni are putere mai mare atunci când numărul de comparații este mic;
 - Tukey este mai puternic când testează un număr mai mare de medii
Tukey are, în general o putere mai mare decât alte teste ( cum sunt Dunn and Scheffé)
 Metoda Holm are putere mai mare decât Bonferroni
 Benjamini–Hochberg are putere mai mare decât Holm
41
 Majoritatea cercetărilor asupra testelor post hoc au fost realizate cu privire la rezultatele obținute
atunci când :
-mărimea grupelor este diferită (an unbalanced design);
-varianțele populațiilor diferă semnificativ;
-variabila nu urmează o lege normală.
 Cele mai multe proceduri de comparare multiplă au rezultate bune atunci când sunt deviații mici de
la normalitate.
 Rezultatele nu sunt bune atunci când mărimea grupelor diferă și când varianțele populațiilor sunt
diferite.
42
 2.3.2. ANOVA UNIFACTORIALĂ UTILIZÂND R
2.3.2.a. Explorarea datelor
by(variable, group, output)
 variable este variabila pe care vrei să o analizezi (in this case well being);
 group este variabila care defineșste grupul în funcție de care dorești să organizezi rezultatul (dose);
 output este o funcție menționată programului R a cărui rezultat îl dorești (de ex. media). Dacă
utilizăm funcția stat.desc() din pachetul pastecs atunci R ne va da indicatori ai statisticii descriptive.
attach(EX1)
by(well_being,dose,stat.desc)
 Înainte de a utiliza metoda ANOVA trebuie să calculăm testul Levene. Utilizăm funcția levene.Test()
din pachetul car:
leveneTest(outcome variable, group, center = median/mean)
leveneTest(well_being, dose, center=median)
43
44
 Rezultatul testului Levene arată că testul nu este semnificativ.
F(2,12)=0,118, p=0,89
Aceasta înseamnă că varianțele variabilei well being nu diferă semnificativ în cele 3 grupe determinate
de variabila dose: Placebo, Low dose and High dose.
45
 2.3.2.b. Analiza principală
Estimăm un model de regresie utilizând funcția lm():
ModelA<-lm(well_being~dose)
summary(ModelA)
Funcția aov() are următoarea formă generală:
ModelB<-aov(outcome ~ predictor, data = dataFrame, na.action = an action))
 ModelB este un obiect creat care conține toate informațiile despre modelul estimat. Putem obține o
prezentare a modelului cu ajutorul funcției summary(ModelB) pentru ANOVA și cu ajutorul funcției
summary.lm(ModelB) parametrii specifici ai modelului.
 outcome este variabila pe care încercăm să o previzionăm, cunoscută și sub denumirea de variabilă
dependentă. În acest exemplu va fi variabila well being.
 predictor este variabila independentă. În acest exemplu va fi variabila dose. Într-o analiză mai complexă
putem specifica câțiva predictori sau variabile independente dar, vom analiza această situație într-un
capitol următor.
 dataFrame este numele cadrului de date unde sunt înregistrate variabilele: dependentă și independentă.
 na.action este o comandă opțională. Dacă aveți date complete puteți să o ignorați, dar dacă sunt valori
lipsă (adică valori NA în cadrul de date) atunci poate fi util să utilizăm na.action
46
= na.exclude, ce va
exclude toate cazurile cu valori lipsă.
ModelA<-lm(well_being~dose)
summary(ModelA)
Dacă vrem să schimbăm grupul de referință pentru variabila dose putem utiliza funcția
dose=relevel(dose, ref="High Dose") 47
Coeficientul de regresie b0 , constanta, este egal cu media categoriei de bază (grupul Placebo);
Coeficientul de regresie pentru prima variabilă dummy (b1) este egal cu diferența dintre media
grupului cu doză mică și media grupului Placebo.
Coeficientul de regresie pentru a doua variabilă dummy (b2) este egal cu diferența dintre media
grupului cu doză mare și media grupului cu doză Palcebo.
Această analiză demonstrează cum modelul de regresie reprezintă situația celor trei grupe.
Putem vedea din semnificația testelor t că diferența între grupul cu doză măre și grupul Placebo
(b2) este semnificativă deoarece p<0,05.
Diferența dintre grupul cu doză mică și Placebo nu este semnificativă (p=0,282)
48
ModelB<-aov(well_being ~ dose, data = EX1)
summary(ModelB)
49
ModelB<-aov(well_being ~ dose, data = EX1)
summary(ModelB)
plot(ModelB)
50
Un test ANOVA a fost utilizat pentru testarea de ansamblu a semnificației modelului.
Testul este semnificativ F(2, 12) = 5.12, p <0.05.
Știind că modelul nostru reprezintă diferențele dintre grupe, ANOVA ne spune că utilizând mediile
grupelor pentru previziune este semnificativ mai bine decât să utilizăm media de ansamblu.
Altfel spus, mediile grupelor sunt semnificativ diferite.
51
2.3.2.c. Contraste planificate cu R

 Dacă dorim să utilizăm propriile noastre contraste planificate vom face asta prin resetarea
atributelor de contraste asociate cu variabila predictor utilizând următoarea comandă generală:
contrasts(predictor variable)<-contrast instructions

 contrast instructions pot fi fie un set de ponderi pentru contraste pe care le dorim fie unel din
seturile deja construite în R:
contr.helmert(n)
contr.poly(n)
contr.treatment(n, base = x)
contr.SAS(n)
52
 n este numărul de grupe ale variabilei predictor (pentru dose, această valoare va fi 3);
 Opțiunea, base, permite specificarea grupului pe care vrei să-l utilizezi pentru comparații;
 Funcția contr.SAS() este aceeași cu funcția contr.treatment() când selectăm ultima categorie ca bază.
contrasts(EX1$dose)<-contr.helmert(3)
2.3.2.d. Propriile voastre contraste

Ponderile pentru contrastul 1 au fost −2 (pt. grupul placebo), +1 (grupul cu doză mică) și +1 (grupul cu doză
mare). Creăm aceste contraste în R prin executarea unei singure comenzi:
contrasts(EX1$dose)<-cbind(c(-2,1,1),c(0,-1,1))
EX1$dose
ModelC<-aov(well_being~dose, data=EX1)
summary.lm(ModelC)
summary(ModelC) 53
contrasts(EX1$dose)<-cbind(c(-2,1,1),c(0,-1,1))
EX1$dose
ModelC<-aov(well_being~dose, data=EX1)
summary.lm(ModelC) summary(ModelC)
54
 Output-ul prezintă rezultatele acestei regresii.
 Testul F este același cu modelul când s-a utilizat variabila dummy ceea ce arată că variabila
dependentă este explicată în același mod prin mediile grupelor (care nu s-au schimbat); totuși
coeficienții modelului de regresie s-au schimbat.
 Constanta/interceptul este media de ansamblu 3,467.
 Coeficientul de regresie pentru contrastul 1 este o treime din diferența dintre media condițiilor
experimentale și condiția de control (Placebo).
 Coeficientul de regresie pentru contrastul 2 este jumătate din diferența dintre grupele
experimentale.
 Din semnificația testelor t putem vedea că grupurile noastre experimentale au fost semnificativ
diferite de grupul de control (p < 0.05) dar
 Grupurile experimentale nu diferă între ele (p > 0.05). Media grupului cu Low Dose nu diferă
semnificativ de media grupului cu High dose.
55
2.3.2.e. Analiza trendului
 Pentru a realiza analiza trendului putem utiliza funcția contr.poly().
 Aceste teste de comparare sunt utilizate pentru a testa dacă mediile cresc liniar.
contrasts(EX1$dose)<-contr.poly(3)
ModelT<-aov(well_being~dose, data=EX1)
summary.lm(ModelT)
56
 Output-ul prezintă dacă efectul experimental determină o creștere liniară (dose.L) sau quadratică
(dose.Q) a mediilor grupelor.
 Componenta liniară. Această componentă testează dacă mediile cresc în grupuri în formă liniară.
Pentru acest trend t= 3.16 și această valoare este semnificativă deoarece p=0,008. Prin urmare,
putem să spunem că, atunci când doza de Magneziu crește de la 0 la doză mică și apoi la doză mare,
weel being crește proporțional.
 Trendul quadratic. Acest test pune în evidență dacă mediile grupelor evoluează după cu trend
quadratic (adică evoluează după o curbă cu o singură schimbare a evoluției). Deoarece t=0,52 și
p=0,612 trendul quadratic nu este semnificativ.
57
 2.3.2.f. Testele Post hoc utilizând R
 A. Metoda Bonferroni și metode asemănătoare
pairwise.t.test(outcome, predictor, paired = FALSE, p.adjust.method ="method")
 outcome este numele variabilei rezultat (în acest caz va fi well being (EX1$well_being).
 predictor este numele variabilei de grupare (in acest caz va fi dose (EX1$dose).
 paired este o afirmație logică este FALSE dar poate fi setată și TRUE. Aceasta specifică dacă doriți
teste perechi sau nu.
 p.adjust.method este o specificare a metodei dorite pentru corecția valorilor p. Se poate înlocui
cuvântul “method” cu o comandă la alegere din “bonferroni”, “holm”, “hochberg”, “hommel”, “BH”
(ce produce metoda Benjamini–Hochberg), “BY” (ce produce metoda mai recentă Benjamini–
Yekutieli), “fdr” (metoda ratei generale a rezultatelor false), și “none” (nu se corectează p-value
deloc, se realizează o mulțime de teste t – nu este recomandată).
pairwise.t.test(well_being, dose, p.adjust.method="BH")
pairwise.t.test(well_being, dose, p.adjust.method="bonferroni")
58
ModelB<-aov(well_being~dose)
pairwise.t.test(well_being, dose, p.adjust.method="BH")
pairwise.t.test(well_being, dose, p.adjust.method="bonferroni")
59
 Ambele metode specifică well being ca variabilă rezultat și dose ca variabilă de grupare, dar ele
diferă în modul în care sunt corectate p-values
 Ambele metode aduc rezultatele pentru p-values pentru toate combinațiile de grupe.
 La valorile corectate prin Bonferroni obținem:
-grupul placebo este comparat cu grupul cu doză mică și indică o diferență nesemnificativă (0.845 este
mai mare decât 0,05),
-grupul placebo este comparat cu grupul cu doză mare și este o diferență semnificativă (0.025 mai mică
decât 0.05).
 Testele corectate cu BH, au aceleași rezultate ca și cele corectate cu metoda Bonferroni:
-placebo este semnificativ diferit de grupul cu doză mare (deoarece 0.025 este mai mic decât 0.05),
-nu este o diferență semnificativă între grupul placebo și doză mică (0.282 este mai mare decât 0.05) și
-dozele mici și mari nu diferă semnificativ (0.098 este mai mare decât 0.05).
60
B. Tukey și Dunnett
Tukey și Dunnett pot fi implementate utilizând funcția glht() ce este parte a pachetului multcomp în R.
newModel<-glht(aov.Model, linfct = mcp(predictor = "method"), base = x)
 newModel este un obiect ce conține informații din testele post hoc. Pentru a vedea aceste informații
se poate utiliza funcția summary(newModel) pentru testele de bază post hoc și confint(newModel)
pentru a vedea intervalele de încredere.
 aov.Model este numele unui model care a fost deja creat cu funcția aov ().
 predictor este numele variabilei de grupare (în acest caz va fi dose (Ex1$dose).
 linfct = mcp(predictor = “method”) specifică corecția ce este aplicată pentru p-values. Se poate
înlocui “method” cu o comandă din următoarele “Dunnett”, “Tukey”, “Sequen”, “AVE”,
“Changepoint”, “Williams”, “Marcus”, “McDermott”, “UmbrellaWilliams”, și “GrandMean”.
61
 base este utilizată numai când este specificat “Dunnett”. Această opțiune permite specificarea
grupului de bază utilizând un număr al grupului . În acest caz dacă dorim ca grupul Placebo să fie
grupul de bază putem utiliza base = 1, dar dacă dorim grupul cu doză mare ca fiind grupul de bază
putem specifica valoarea 3, base = 3.
Putem obține testele post hoc Tukey prin funcția:
postHocs<-glht(ModelB, linfct = mcp(dose = "Tukey"))
summary(postHocs)
confint(postHocs)
Putem obține testele post hoc Dunnett post hoc prin funcția:
postHocs<-glht(ModelB, linfct = mcp(dose = "Dunnett"), base = 1)
summary(postHocs)
confint(postHocs)
62
ModelB<-aov(well_being~dose)
summary(postHocs)
confint(postHocs)
63
Output-ul arată:
-cele trei comparații(doză mică vs. placebo, doză mare vs. placebo, doză mare vs. doză mică),
-estimarea( care este diferența dintre mediile grupelor),
-eroarea standard asociată cu diferența dintre medii,
-testele t și valorile asociate pentru p-value.
Acest output confirmă:
-diferența semnificativă între grupul cu doză mare și grupul placebo, t = 3.16, p < .05,
-diferența nesemnificativă între grupul cu doză mică și placebo t = 1.13, p = 0.52
- diferența nesemnificativă între grupul cu doză mare și grupul cu doză mică t = 2.03, p = 0.15
Intervalele de încredere confirmă, de asemenea, rezultatele. Intervalele care cuprind valoarea 0

arată că nu există diferențe semnificative între medii iar intervalele care nu cuprind valoarea 0 arată că
sunt diferențe semnificative între medii.
64
postHocs<-glht(ModelA, linfct=mcp(dose="Dunnet"), base=1)
summary(postHocs)
confint(postHocs)
65
Concluziile sunt similare ca și pentru Tukey.
Testul Dunnett realizează comparații față de un grup de bază astfel încât se pot efectua două
comparații în loc de trei.
În acest caz se compară grupurile cu Placebo, deci nu sunt rezultate pentru comparația între grupul
cu doză mare și grupul cu doză mică.
66
2.3.2.g. Calcularea dimensiunii efectului
 În contextul ANOVA, R2 este denumit în mod uzual eta pătrat, η2.
SS M
R2 =
SST
 Această măsură a dimensiunii efectului este deplasată deoarece se calculează ca sumă a pătratelor
eșantionului și nu este făcută nici o ajustare pentru estimarea dimensiunii efectului în populație.
 Adesea utilizăm o măsură mai complexă numită omega la pătrat (ω2).
SS M − ( df M ) MS R
2 =
SST + MS R
 2 = 0 ,01- efect mic  = 0 ,06 - efect mediu

2  2 = 0 ,14 - efect mare
 Programul R nu furnizează o dimensiune a efectului pentru ANOVA unifactorială. Putem obține
această valoare de la estimarea ANOVA utilizând summary.lm() pentru obiectul creat cu aov().
67
R = R2
A
SS M SS R
SS M − ( df M ) MS R
2 =
SST + MS R
20 ,13 − 2 1,97
2 = = 0 ,35
( 20,13 + 23,60 ) + 1,97
 = 0,60
R = 0 ,46 = 0 ,68
68
 În R: din pachetul calculate.es putem utiliza funcția mes() pentru mărimea efectului a diferențelor
dintre perechile de grupuri:
mes(meangroup1, meangroup2, sdgroup1, sdgroup2, ngroup1, ngroup2)
În exemplul nostru:
-dacă vrem să comparăm grupul placebo cu grupul low-dose putem executa:
- mes(2.2, 3.2, 1.3038405, 1.3038405, 5, 5)
- dacă vrem să comparăm grupul placebo cu grupul high-dose
mes(2.2, 5, 1.3038405, 1.5811388, 5, 5)
- dacă vrem să comparăm grupul low- și high-dose
mes(3.2, 5, 1.3038405, 1.5811388, 5, 5)
69
mes(2.2, 3.2, 1.3038405, 1.3038405, 5, 5)
mes(2.2, 5, 1.3038405, 1.5811388, 5, 5)
mes(3.2, 5, 1.3038405, 1.5811388, 5, 5)
70
Mărimea efectului pentru contraste ortogonale:
t2
Rcontrasts = 2
t + df
tcontrasts1
tcontrasts 2
2 ,4742 2 ,0292
Rcontrasts1 = = 0 ,581 Rcontrasts 2 = = 0 ,505
2 ,474 + 12
2
2 ,029 + 12
2
71
 2.3.3. ANOVA ROBUSTĂ
Metodele robuste utilizează trimmed mean și estimator M.
 O trimmed mean este o medie bazată pe distribuția valorilor după ce un anumit procent a fost
înlăturat din fiecare extremă a distribuției. Astfel, 10% trimmed mean va exclude 10% din valorile
foarte mari și foarte mici înainte să fie calculată media.
 Un estimator M, care diferă de trimmed mean este că valorile ce vor fi excluse vor fi determinate
empiric. Un estimator M determină numărul optim de valori ce vor fi în mod necesar excluse pentru a
se obține o estimație robustă a mediei.
Wilcox (2005) descrie un set de proceduri robuste pentru aplicarea ANOVA unifactorială.
72
2.3.3.a. ANOVA robustă în R
 Funcțiile pentru ANOVA robustă necesită ca datele să fie în format lărgit decât în formatul lung.
 Putem converti datele în formatul lărgit utilizând funcția unstack()
newDataFrame<-unstack(oldDataFrame, scores ~ columns)
 Prima funcție robustă, t1way(), este bazată pe o trimmed mean.

t1way(formula, dataFrame, tr = .2)
- formula este modelul ANOVA;
- dataFrame denumirea cadrului de date ce este analizat.
- tr este proporția valorilor ce trebuie să fie excluse. Valoarea implicită este de 0.2 sau 20%, și trebuie
utilizată această opțiune dacă se dorește o altă valoare decât 20%.
73
 Putem, de asemenea, să comparăm medianele în locul mediilor utilizând funcția med1way(), care
are următoarea formă generală.
med1way(formula, dataFrame)
 O metodă finală este de a adăuga bootstrap alături de metoda trimmed mean utilizând funcția
t1waybt()
t1waybt(formula, dataFrame, tr = .2, alpha = .05, nboot = 599)

- alpha, stabilește rata de eroare de tip I
- nboot, specifică numărul eșantioanelor bootstrap ce pot fi utilizate. Valoarea implicită este 599.
74
În cazul nostru:
dataM<-unstack(EX1, well_being ~ dose))

dataM
t1way(well_being ~ dose, dataM,tr=.1)
med1way(well_being ~ dose, dataM)
t1waybt(well_being ~ dose, dataM, tr=.2, nboot=599)
75
A
76
A
77
ANCOVA
 2.1 Ce este ANCOVA?
 ANOVA poate fi extinsă prin includerea uneia sau mai multor variabile continue care previzionează
variabila dependentă. Variabilele continue independente sunt cunoscute sub denumirea de covariate
și pot fi incluse în ANOVA. Metoda utilizată este analiza covarianței, pe scurt ANCOVA.
 Există două motive pentru care se includ covariate în ANOVA:

- Pentru a reduce varianța din interiorul grupelor
- Eliminarea efectelor variabilelor care influențează atât variabila dependentă cât și variabila
independentă.
2
2.2. Presupuneri și dificultăți în ANCOVA
 ANCOVA are aceleași presupuneri ca în ANOVA la care se adaugă două considerații:

- (1) independența covariatei și a efectului tratamentului;
- (2) omogenitatea pantelor de regresie.
1. Independența covariatei și a efectului tratamentului
 Această problemă poate fi evitată prin extragerea aleatoare a participanților la grupurile

experimentale;
 Putem verifica dacă această problemă există prin testarea dacă grupurile experimentale diferă cu
privire la covariată înainte de a aplica ANCOVA.
3
Varianța totală
Varianța explicată
Varianța
neexplicată
4
Varianța totală
Varianța
Varianța explicată explicată de
covariată
5
Varianța totală
Varianța Varianța
Varianța explicată explicată de neexplicată
covariată
6
 2. Omogenitatea pantelor de regresie
 Când este realizată o analiză ANCOVA ne uităm la relația de ansamblu a variabilei dependente cu
covariata: linia de regresie este pentru întregul set de date, ignorând unitățile înregistrate din care
grup fac parte.
 Dacă, totuși, relația dintre variabila dependentă și covariată diferă în grupuri atunci modelul de
regresie de ansamblu nu este potrivit (nu reprezintă toate grupurile).
7
2.3 ANCOVA utilizând R
Vom avea nevoie de pachetele: Aceste pachete trebuie să fie încărcate astfel:
 car (pentru testul Levene, tipul III de sumă a  library(car)
pătratelor),
 library(compute.es)
 compute.es (pentru mărimea efectului),
 library(effects)
 effects (pentru mediile ajustate),
 library(ggplot2)
 ggplot2 (pentru grafice),
 library(multcomp)
 multcomp(for post hoc tests),
 library(pastecs)
 pastecs (pentru statistica descriptivă), și
 library(WRS2)
 WRS2 (pentru teste robuste).
8
 Procedura generală pentru ANCOVA
 1.Introducem datele
 2.Explorăm/ realizăm analiza descriptivă a datelor
 3.Verificăm dacă covariata și orice altă variabilă independentă sunt independente: realizăm ANOVA
cu covariata ca variabilă dependentă și orice variabilă independentă ca predictori pentru a verifica
dacă covariata nu diferă semnificativ pe grupurile acestor variabile. Dacă obțineți rezultate
semnificative atunci analiza se oprește aici .
 4. Se poate aplica ANCOVA dacă rezultatele au fost bune în pașii 2 și 3. În funcție de rezultatele de
la pasul 2 am putea estima o versiune robustă a testului.
 5. Calculați contrastele și teste pos thoc: puteți identifica ce grupuri diferă.
 6. Verificați omogenitatea pantelor de regresie: reluați ANOVA, incluzând interacțiunea dintre
variabila independentă și covariată. Dacă interacțiunea este semnificativă atunci nu puteți
presupune omogenitatea pantelor de regresie.
9
 2.3.1. Explorarea datelor
 Pentru a obține indicatori statistici descriptivi pentru fiecare grup separat, putem executa:
attach(EX)
by(well_beingp,dose,stat.desc)
 Pentru a vedea varianța variabilei well_being (variabila dependentă) variază în grupurile care
primesc doze diferite de Magneziu (dose), putem executa:
 Putem verifica dacă variabila well_being este independentă de manipularea experimentală. Estimăm
ANOVA cu well_beingp corespunzătoare partenerului și variabila dose ca predictor.
10
 A
11
 A
12
2.3.2.Estimarea modelului ANCOVA
 Modelul ANOVA :
Model=aov(well_being~dose)
 Modelul ANCOVA
ModelB=aov(well_being~well_beingp+dose)
Dar ordinea contează:

summary(ModelB)
ModelC=aov(well_being~dose+well_beingp)
summary(ModelC)
Anova(ModelB, type="III")
Anova(ModelC, type="III") 13
 A
14
Tipuri de sume a pătratelor:
 Tipul I de sumă a pătratelor nu poate evalua în mod real principalul efect al fiecărei variabile (cu
excepția cazului în care variabilele sunt complet independente una de cealaltă - ceea ce este puțin
probabil să fie cazul). Sumele pătratelor de tip I nu au tendința de a fi utilizate pentru evaluarea
ipotezelor privind efectele principale și interacțiunile, deoarece ordinea predictorilor va afecta
rezultatele.
 Tipul II ne dă o imagine cu acuratețe a principalului efect deoarece este evaluat ignorând efectul
oricărei interacțiuni (ce implică principalul efect considerat). Un avantaj al sumei de Tip II a
pătratelor este că ele nu sunt afectate de tipul de contrast codificat utilizat pentru a specifica
variabilele predictor.
 Tipul III are avantajul față de tipul II, că atunci când există o interacțiune, efectele principale
asociate cu acea interacțiune sunt încă semnificative (deoarece sunt calculate luând în considerare
interacțiunea). Sumele de tip III de pătrate sunt preferabile față de alte tipuri atunci când
dimensiunile eșantioanelor sunt inegale; totuși, acestea funcționează numai atunci când predictorii
sunt codificați cu contraste ortogonale.
15
 Dacă dorim Tipul I de sumă a pătratelor, atunci în ANCOVA va fi introdusă covariata prima și variabila
independentă a doua.
 Putem estima considerând suma de Tip II sau III a pătratelor utilizând funcția ANOVA() din pachetul
car. Această funcție are forma generală:
Anova(modelName, type = "III")
16
 A
17
 R va utiliza variabila dummy pentru dose (va compara fiecare grup cu primul grup). Pentru a calcula
suma de Tip III a pătratelor corect trebuie să specificăm constraste ortogonale:
contrasts(EX$dose)<-contr.helmert(3)
SAU
contrasts(EX$dose)<-cbind(c(-2,1,1),c(0,-1,1))
ModelB=aov(well_being~well_beingp+dose, data=EX)
summary.lm(ModelB)
Anova(ModelB, type="III")
18
 A
19
 Output-ul 2 arată rezultatul principal pentru ANCOVA
 Uitându-ne mai întâi la valorile sig., observăm covariata ca previzionând semnificativ variabila
dependentă deoarece sig.< 0,05.
 Prin urmare well_being a unei persoane este semnificativ influențată de well being a partenerului.
 Output-ul 1 arată parametrii modelului, care corespund cu contrastele pe care le-am specificat
pentru variabila dose.
 Prima variabilă dummy (dose 1) compară grupul placebo cu grupurile doză mică și doză mare. A doua
variabilă dummy (dose 2) compară grupurile cu doză mică și doză mare.
 Valoarea estimației b pentru covariată este 0.416. Această valoarea ne spune că, celelalte variabile
fiind egale, dacă well being pentru partener crește cu o unitate, atunci well being a persoanei crește
dar numai cu aproximativ jumătate din unitate.
 Semnul acestui coeficient ne spune direcția relației dintre covariată și variabila dependentă. Astfel,
pentru că este pozitiv înseamnă că well being a partenerului este într-o relație pozitivă cu well being
a persoanei: pe măsură ce crește una crește și cealaltă.
20
2.3.2. Testele Post hoc în ANCOVA
 Deoarece ne dorim să testăm diferențele între mediile ajustate, putem utiliza funcția glht().
 Funcția pairwise.t.test() nu va testa mediile ajustate.
 Suntem limitați la utilizarea testelor post hoc Tukey sau Dunnett’s

summary(postHocs)
confint(postHocs)
21
 A
22
 Output-ul arată cele trei comparații:
-doză mică versus placebo,
-doză mare versus placebo,
-doză mare versus doză mică.
 Estimarea în fiecare caz este a diferenței între mediile ajustate ale grupului.
 Acest output sugerează diferențe semnificative între grupurile cu doză mare și placebo (t = 2.77,
p < .05) dar nu între grupurile cu doză mică și placebo (t = 2.10, p = .12), și nici între grupul cu doză
mică și doză mare (t = 0.54, p = .85) .
23
 OBSERVAȚII
A. Când covariata nu este inclusă în tabelul ANOVA pentru datele utilizate avem:
 Fără să luăm în considerare well being a partenerului nu am fi ajuns la concluzia că Magneziul are un
efect asupra well being a persoanei.
24
B. Testarea omogenității pantelor de regresie
 Testarea presupuneri omogenității pantelor de regresie necesită estimarea ANCOVA din nou dar cu
includerea interacțiunii dintre covariată și variabila predictor.
hoRS<-aov(well_being ~ well_beingp + dose + dose:well_beingp, data =EX)
Anova(hoRS, type="III")
25
 Uitându-ne la semnificația valorii estimate a interacțiunii dintre covariată și variabila independentă,

(well_beingp:dose) dacă acest efect este semnificativ atunci presupunerea omogenității pantelor de
regresie nu este respectată.
26
 2.3.3. ANCOVA robustă
 Ca și în cazul ANOVA univariată, Wilcox (2005) descrie un set de proceduri robuste pentru ANCOVA
unifactorială. Pentru a le accesa avem nevoie de pachetul WRS2 în R.
 ANCOVA robustă este numai pentru 2 grupuri independente și o covariată.
 Sunt două funcții la care ne vom uita și care pot fi utilizate pentru a compara trimmed means între
două grupuri ce includ și o covariată: ancova() și ancboot().
 Pentru a elibera analiza de restricțiile privind omogenitatea pantelor de regresie, ca și alte
presupuneri cu privire la distribuții, aceste teste compară trimmed means la diferite puncte de-a
lungul covariatei.
 Găsește 5 puncte unde pantele de regresie sunt aceleași (adică 5 valori ale covariatei pentru care
relația între variabila dependentă și covariată sunt aceleași în ambele grupuri). Apoi compară
trimmed means la aceste 5 puncte pentru a vedea dacă ele diferă.
27
 ancova(formula, data, tr = 0.2)
 ancboot(formula, data, tr = 0.2, nboot = 599)
28
2.3.4. Calcularea mărimii efectului
Putem calcula:
 Eta pătrat - η2 – pentru fiecare efect (în ANCOVA avem mai mult decât un efect);
 Eta pătrat parțial (parțial η2): proporția din varianță ce este explicată de variabilă și nu este
explicată de alte variabile din analiză.
SS Effect
SS Effect partial  =2
 =
2
SS Effect + SS Re sidual
SSTotal
29
 A
SS Dose 25,19
partial  Dose2
= = = 0, 24
SS Dose + SS Re sidual 25,19 + 79, 05
SS well _ beingp 15,08

partial  well _ beingp =
2
= = 0,16
SS well _ beingp + SS Re sidual 15, 08 + 79, 05
30
 Mărime efectului pentru contraste ortogonale
t2
rcontrasts = 2
t + df
2 ,227 2
rwell _ beengp = = 0 ,400
2 ,227 + 26
2
2,785 2
rcontrast1 = = 0 ,479
2,785 + 26
2
0,5412
rcontrast 2 = = 0 ,106
0,541 + 26
2
31
 A
32
mes(4.712050, 2.926370, 1.755879, 1.788613, 8, 9)
mes(5.151251, 2.926370, 1.812267, 1.788613, 13, 9)
mes(5.151251, 4.712050, 1.812267, 1.755879, 13, 8)
33
ANOVA BIFACTORIALĂ
1. ANOVA FACTORIALĂ (design independent)
 Când avem două sau mai multe variabile independente ANOVA este numită factorială.
 Există câteva tipuri de design factorial:
A. Design factorial independent: În acest cadru există câteva variabile independente fiecare fiind
măsurate la nivelul diferitelor unități de înregistrare. Vom discuta această parte în acest capitol.
B. Design factorial cu măsuri repetate: în care fiecare variabilă independentă este înregistrată la
nivelul acelorași unități de înregistrare pentru toate condițiile. Această temă este abordată în capitolul
următor.
C. Design mixt: în care sunt mai multe variabile independente, unele măsurate pe diferite unități de
înregistrare și altele pe aceleași unități de înregistrare.
2
2. ANOVA factorială ca regresie
Un exemplu cu două variabile independente:
productivity =  0 + 1  gender +  2  overtime +  i

Codificăm genul masculin cu = 0, feminin cu = 1,
ore suplimentare nu există =0, 4 ore = 1
Acest model nu consideră interacțiunea dintre sex și ore suplimentare
productivity =  0 + 1  gender +  2  overtime +  3  gender  overtime +  i
3
 Exemple
Ore suplimentare None 2 Hours 4 Hours

Gen Feminin Masculin Feminin Masculin Feminin Masculin
65 50 70 45 55 30
70 55 65 60 65 30
60 80 60 85 70 30
60 65 70 65 55 55
60 70 65 70 55 35
55 75 60 70 60 20
60 75 60 80 50 45
55 65 50 60 50 40
Total 485 535 500 535 460 285
Media 60,625 66,875 62,50 66,875 57,50 35,625
Varianța 24,55 106,70 42,86 156,70 4 50,00 117,41
 Media de ansamblu=58,33 Varianța=190,78 MediaF=60,21 MediaM=56,46
 Tabelul1. Schema de codificare pentru ANOVA factorială
Gen Ore suplimentare Dummy Dummy Interaction Mean

(Gen) (ore supl.)
Male None 0 0 0 66.875
Male 4 Hours 0 1 0 35.625
Female None 1 0 0 60.625
Female 4 Hours 1 1 1 57.500
5
 A
6
gen: masculin = 0
ore suplimentare: none=0
yMen ,None = b0 + ( b1  0 ) + ( b2  0 ) + ( b3  0 )
yMen ,None = b0 = 66,875
---------------------------------------------------------------
gen: feminin = 1
ore suplimentare: none = 0
yWomen ,None = b0 + ( b1  1) + ( b2  0 ) + ( b3  0 )
yWomen ,None = b0 + b1
b1 = yWomen ,None − b0 = yWomen ,None − yMen ,None
b1 = 60,625 − 66 ,875 = −6 ,25 7

gen: masculin = 0
ore suplimentare: 4 ore = 1
yMen ,4 hours = b0 + ( b1  0 ) + ( b2  1) + ( b3  0 )
b2 = yMen ,4 hours − b0 = yMen ,4 hours − yMen ,None
b2 = 35,625 − 66 ,875 = −31,25
--------------------------------------------------------------------
gen: feminin = 1
ore suplimentare: 4 ore = 1
yWomen ,4 hours = b0 + ( b1  1) + ( b2  1) + ( b3  1)
yWomen ,4 hours = b0 + b1 + b2 + b3
b3 = yMen ,None − yWomen ,None + yWomen ,4 hours − yMen ,4 hours
b3 = 66 ,875 − 60 ,625 + 57 ,500 − 35,625 = 28,125 8
 Modelul de regresie
9
 Orice ANOVA (oricât ar fi de complexă) este numai o formă de regresie multiplă (un model liniar
general)
10
 3. ANOVA bifactorială
ANOVA bifactorială este conceptual similară cu ANOVA unifactorială
 Determinăm suma totală a pătratelor erorilor (SST) și descompunem varianța în:

- varianța care poate fi explicată de model (SSM):
• prin prima variabilă independentă (SSA),
• prin a doua variabilă independentă (SSB)
• prin interacțiunea dintre cele două variabile independente (SSA × B)
- varianța care nu poate fi explicată (reziduală) (SSR).
11
 Figura 1. Descompunerea varianței în ANOVA bifactorială
12
 3.Varianțe în ANOVA factorială
 A. Suma totală a pătratelor SST – variația totală a datelor.
SST =  ( yi − y )
n 2
i =1
SST = s 2 ( N − 1)
SST = 190.78 ( 48 − 1) = 8966 ,66
 B. Suma pătratelor explicată prin model SSM
SS M =  nk ( yk − y )
k 2
n =1
SS M = 8 ( 60,625 − 58,33) + 8 ( 66 ,875 − 58,33) + 8 ( 62 ,5 − 58,33 ) + 8 ( 66 ,875 − 58,33 ) + ...

2 2 2 2
+8 ( 57 ,5 − 58,33) + 8 ( 35,625 − 58,33)

2 2
SS M = 5479 ,167
13
df M = 6 − 1 = 5
 C. Efectul principal al sexului/genului (SSA)
SS A =  nk ( yk − y )
k 2
n =1
SS A = 24 ( 60,21 − 58,33) + 24 ( 56 ,46 − 58,33)

2 2
SS A = 84,8256 + 83,9256 = 168,75

df A = 2 − 1 = 1
 D. Efectul principal al orelor suplimentare (SSB)
SS B =  nk ( yk − y )
k 2
n =1
SS B = 16 ( 63,75 − 58,33) + 16 ( 64 ,6875 − 58,33) + 16 ( 46 ,5625 − 58,33 )

2 2 2
SS B = 470,0224 + 646,6849 + 2215,5849

SS B = 3332.292
14
df B = 3 − 1 = 2
 E. Efectul interacțiunii (SSA × B )
SS A B = SS M − SS A − SS B
SS A B = 5479,167 − 168,75 − 332,292

SS A B = 1978,125
df A B = df M − df A − df B df A B = df A  df B
df A B = 5 − 1 − 2 = 2
15
 F. Rapoartele F
MS A 168,75
SS
MS A = A =
168,75
= 168,75 FA = = = 2 ,032
df A 1 MS R 83,036
SS B 3332,292
MS B = = = 1666,146 MS B 1666,146
df B 2 FB = = = 20 ,065
MS R 83,036
SS A B 1978,125
MS A B = = = 989,062
df A B 2
MS B 989,062
FA B = = = 11,911
SS R 3487 ,52 MS R 83,036
MS R = = = 83,036
df R 42
 Fiecare din aceste rapoarte F pot fi comparate cu valorile critice (bazate pe gradele de libertate,
deci pot fi diferite pentru efecte diferite) pentru a determina dacă aceste variabile independente
influențează variabila dependentă.
16
 4. Factorial ANOVA using R
4.1 Pachetele din R
Trebuie să încărcați pachetele executând:
Veți avea nevoie de pachetele:  library(car)
 car (for Levene’s test, Type III sums of squares),  library(compute.es)
 compute.es (for effect sizes),  library(ggplot2)
 ggplot2 (for graphs),  library(multcomp)
 multcomp(for post hoc tests),  library(pastecs)
 pastecs (for descriptive statistics), and  library(reshape)
 reshape (for reshaping the data)  library(WRS2)
 WRS2 (for robust tests).
17
4.2. Procedura generală pentru ANOVA factorială
 1. Se introduc datele
 2. Se explorează datele: ca de obicei se începe cu reprezentări grafice și determinarea indicatorilor
statistici descriptivi. Se testează ipotezele cu privire la distribuții și se utilizează testul Levene
pentru verificarea omogenității varianțelor.
 3. Se construiesc sau se aleg contrastele: trebuie să decideți ce contraste să alegeți și să le

specificați potrivit pentru toate variabilele independente din analiză. Dacă se dorește Tipul III de
sumă a pătratelor atunci, contrastele trebuie să fie orthogonale.
 4. Estimați ANOVA: aplicați analiza principală a varianței. În funcție de rezultatele identificare la

etapele anterioare puteți utiliza versiuni robuste ale testului.
 5. Calculați contrastele sau testele post hoc: realizând ANOVA, în funcție de ceea ce se dorește
18
se aplică testele postd hoc sau contrastele. Metodele alese depind de rezultatele de la punctul 2.
by(Productivity$productivity, list(Productivity$overtime, Productivity$gender), stat.desc)
19
 Testul Levene ne arată că nu sunt diferențe între varianțele grupelor.
20
 Alegerea contrastelor
 Efectul genului are numai două niveluri, astfel încât putem codifica contrastele orthogonale ca -1
(persoanele de sex feminin) și 1 (persoanele de sex masculin).
 Efectul orelor suplimentare are trei niveluri: 0 ore (none), 2 ore și 4 ore.
 Tabelul 2. Contraste orthogonale pentru variabila ore suplimentare
Grup Contrast1 Contrast2

0 ore -2 0
2 ore 1 -1
4 ore 1 1
21
attach(Productivity)
contrasts(Productivity$overtime)<-cbind(c(-2,1,1),c(0,-1,1))
Productivity$overtime
contrasts(Productivity$gender)=c(-1,1)
Productivity$gender
ModelProd1=aov(productivity~gender+overtime+gender*overtime, data=Productivity)
Anova(ModelProd1, type="III")
summary.lm(ModelProd1)
22
 A
23
INTERPRETAREA CONTRASTELOR
 gender 1 – Acesta este contrastul pentru efectul variabilei gen/sex.
 overtime1 – Acest contrast compară grupul fără ore suplimentare cu cele două grupe cu ore
suplimentare.
 overtime 2 – Acest contrast testează dacă media grupului cu 2 ore suplimentare este diferită de
media grupului cu 4 ore suplimentare.
 gender1:overtime1 – Acest contrast testează dacă efectul overtime 1 descris mai sus este diferit
pentru persoanele de sex masculin și persoanele de sex feminin. Grafic, testează dacă liniile de
regresie au pante diferite pentru persoanele de sen masculin comparativ cu persoanele de sex
feminin.
 gender1:overtime2 – Acest contrast testează dacă efectul overtime 2 descris mai sus este diferit
pentru persoanele de sex masculin și persoanele de sex feminin. Grafic, testează dacă liniile de
regresie au pante diferite pentru persoanele de sen masculin comparativ cu persoanele de sex
feminin.
! Dacă există o interacțiune semnificativă între variabilele orele suplimentare și sex atunci efectele
24
principale nu trebuie/pot fi interpretate.
 ANALIZA POST HOC
Testele post hoc cu scop ilustrativ în R:
ModelProd1<-aov(productivity~gender+overtime+gender*overtime, data=Productivity)
pairwise.t.test(productivity, overtime, p.adjust.method="BH")
pairwise.t.test(productivity, overtime, p.adjust.method="bonferroni")
postHocs<-glht(ModelProd1, linfct=mcp(overtime="Tukey"))
summary(postHocs)
confint(postHocs)
25
 TESTELE POST HOC
26
27
ANOVA FACTORIALĂ ROBUSTĂ
 Funcții
▪ t2way(): Aceasta estimează ANOVA bifactorială independentă pe baza trimmed means.

▪ mcp2atm(): Aceasta estimează testele post hoc pentru ANOVA bifactorială independentă bazată pe
trimmed means
▪ pbad2way(): Realizează estimarea ANOVA bidimensională independentă utilizând mărimi medii de

poziție și bootstreap.
▪ mcp2a(): Aceasta realizează testele post hoc pentru funcția de mai sus.
28
t2way(productivity~gender+overtime+gender*overtime,data=Productivity)
mcp2atm(productivity~gender+overtime+gender*overtime,data=Productivity)
pbad2way(productivity~gender+overtime+gender*overtime,data=Productivity)
mcp2a(productivity~gender+overtime+gender*overtime,data=Productivity)
29
 A
30
 Contrastul 1 compară dacă diferențele în productivitate ale persoanelor cu 2 ore suplimentare și fără
ore suplimentare diferă între persoanele de sex masculin și persoanele de sex feminin.
 Contrastul 2 compară dacă diferențele în productivitate între persoanele cu 4 ore suplimentare și

fără ore suplimentare diferă între persoanele de sex masculin și persoanele de sex feminin.
 Contrastul 3 testează dacă diferențele între productivitatea persoanelor cu 4 ore suplimentare și 2
ore suplimentare este diferită între bărbați și femei.
 Contrastul 1 nu este semnificativ dar contrastele 2 și 3 sunt.

 Aceasta indică o diferență semnificativă în scorurile productivității pentru persoanele cu 4 ore
suplimentare comparativ cu persoanele fără ore suplimentare și 2 ore suplimentare, dar nu este o
diferență semnificativă între 2 ore suplimentare și fără ore suplimentare.
31
 A
32
 CALCULAREA MĂRIMII EFECTELOR
ˆ 2 =
( a − 1)( MS A − MS R )
nab
ˆ 2 =
( b − 1)( MS B − MS R )
nab
ˆ 
2
=
( a − 1)( b − 1)( MS AB − MS R )
nab
ˆ total
2
= ˆ 2 + ˆ 2 + ˆ 
2
+ MS R
 Mărimea efectului se calculează ca raport între varianța estimată pentru efectul care ne interesează
și varianța totală estimată. 2
ˆ effect
 2
= 2 33
effect
ˆ total
34
35
Raportarea rezultatelor pentru ANOVA bifactorială:
 Este un efect semnificativ principal al orelor suplimentare, asupra productivității F(2, 42) = 20.07, p
< .001, ω2 = .35. Testele Bonferroni post hoc arată că productivitatea este semnificativ mai mică
după 4 ore decât după 2 ore suplimentare sau fără ore suplimentare (ambele au p< .001 ).
Productivitatea după 2 ore suplimentare și fără ore suplimentare nu a fost semnificativ diferită.
 Nu a fost un efect semnificativ al sexului asupra productivității F(1,42)=2.03, p=0.161,
ω2 =0.009.
 Este un efect de interacțiune semnificativă între orele suplimentare și sexul persoanei asupra
productivității, F(2,42) = 11.91, p < .001, ω2= .20. Aceasta arată că persoanele de sex feminin și sex
masculin au fost afectate diferit de orele suplimentare.
În mod specific productivitatea a fost:
- Similară pentru bărbați (M = 66.88, SD = 10.33) și femei (M = 60.63, SD =4.96) dacă nu au ore
suplimentare, d = 0.77;
- Similară pentru bărbați (M = 66.88, SD = 12.52) și femei (M = 62.50, SD = 6.55) după 2 ore
suplimentare, d= 0.44;
- Semnificativ diferită a bărbaților (M = 35.63, SD = 10.84) și femeilor (M = 57.50,36 SD = 7.07) după 4 ore
suplimentare, d = −2.39.
37
Modelul Liniar General
MĂSURĂRI REPETATE
 ‘Măsurări repetate’ este un termen utilizat când aceleași unități de înregistrare statistică participă la
toate condițiile unui experiment și furnizează date în momente diferite de timp.
 Exemplu: timpul necesar pentru digerarea a diferite alimente a 8 celebrități
Celebritate prânz prânz 2 prânz 3 prânz 4 media s2
1
1 8 7 1 6 5,5 9,67
2 9 5 2 5 5,25 8,25
3 6 2 3 8 4,75 7,58
4 5 3 1 9 4,50 11,67
5 8 4 5 8 6,25 4,25
6 7 5 6 7 6,25 0,92
7 10 2 7 2 5,25 15,58
8 12 6 8 1 6,75 20,92
Media 8,13 4,25 4,13 5,75
PRESUPUNEREA SFERICITĂȚII
 Presupunerea sfericității poate fi asemănătoare cu presupunerea omogenității varianței între grupuri

ca și la ANOVA.
 Sfericitatea se referă la egalitatea varianțelor a diferențelor dintre nivelurile de tratament.
 Sfericitatea este o condiție mai generală a simetriei compuse.
 Simetria compusă este adevărată când varianțele în rezultatele condițiilor de tratament sunt egale
și covarianțele între perechile de condiții de tratament sunt egale.
 CUM ESTE MĂSURATĂ SFERICITATEA?
Se calculează diferențele între diferitele perechi de valori înregistrate pentru fiecare participant și,
de asemenea, se calculează varianțele pentru fiecare set de diferențe.
Vedem că sfericitatea este îndeplinită când aceste varianțe sunt aproximativ egale.
VarianțaA–B ≈ VarianțaA–C ≈ VarianțaB–C
Sfericitatea poate fi evaluată folosind un test cunoscut sub numele de testul lui Mauchly, care
testează ipoteza că varianțele diferențelor dintre condiții sunt egale.
Dacă testul Mauchly este semnificativ (adică are probabilitatea asociată mai mică decât 0,05) putem
concluziona că sunt diferențe semnificative între varianțele diferențelor și, astfel, condiția sfericității
nu este îndeplinită (ne îngrijorăm cu privire la valorile rapoartelor F).
Dacă testul Mauchly nu este semnificativ (adică p>0.05) atunci este rezonabil să concluzionăm că
varianțele diferențelor nu sunt semnificativ diferite (sunt aproximativ egale)
 Ce facem dacă ipoteza de sfericitate nu este îndeplinită?
 Sunt câteva corecții care pot fi aplicate pentru a obține o valoare validă a raportului F.
 1. Corecția Greenhouse–Geisser (în mod obișnuit notată cu ̂ ) variază între 1/(k−1), unde k este
numărul de condiții de măsuri repetate, și 1.
 Cu cât este mai apropiat ̂ de 1, cu atât sunt omogene varianțele diferențelor, și prin urmare datele
sunt mai aproape de a fi sfericehence. De exemplu, într-o situație în care sunt 5 condiții cea mai
mică valoare a lui ̂ va fi 1/(5-1) sau 0.25 (cunoscută ca limita inferioară a sfericității)
 2. Huynh și Feldt, propun o corecție mai puțin conservatoare correction (de obicei notată cu  ).
 3. Utilizarea unui alt test decât F: analiza multivariată a varianței, MANOVA sau analiza datelor cu
model multinivel.
 CUM ESTE MĂSURATĂ SFERICITATEA?
 Tabelul 1. Date ipotetice pentru a ilustra calcularea varianțelor diferențelor dintre condiții
Condiția A Condiția B Condiția C A-B A-C B-C

10 12 8 -2 2 4
15 15 12 0 3 3
25 30 20 -5 5 10
35 30 28 5 7 2
30 27 20 3 10 7
Varianța 15,7 10,3 10.7
 ANOVA unifactorială – măsurări repetate
Figura 1. Descompunerea varianței pentru ANOVA cu măsurări repetate ANOVA

 3.Varianțele în ANOVA unifactorială cu măsurări repetate
 A. Suma totală a pătratelor SST
SST = s 2 ( N − 1)
SST = 8,19 ( 32 − 1) = 253,89
 B. Suma pătratelor în interiorul participanților SSW
SSW = s 2person1 ( n1 − 1) + s 2person 2 ( n2 − 1) + ... + s 2person n ( nn − 1)

SSW = 9 ,67 ( 4 − 1) + 8,25 ( 4 − 1) + 7 ,58 ( 4 − 1) + 11,67 ( 4 − 1) + 4 ,25 ( 4 − 1) +
0 ,92 ( 4 − 1) + 15,58 ( 4 − 1) + 20 ,92 ( 4 − 1)
SSW = 236.50
 C. Suma pătatelor modelului SSM
SS M =  nk ( yk − y )
k 2
n =1
SS M = 8 ( 8,13 − 5,56 ) + 8 ( 4 ,25 − 5,56 ) + 8 ( 4 ,13 − 5,56 ) + 8 ( 5,75 − 5,56 ) +

2 2 2 2
SS M = 83,13
df M = 4 − 1 = 3
 D. Suma pătratelor reziduurilor SSR
SS R = SSW − SS M
SS R = 236,50 − 83,13
SS R = 153,37
df R = dfW − df M = 24 − 3 = 21
 E. Media pătratelor
SS M 83,13
MS M = = = 27 ,71
df M 3
SS R 153,37
MS R = = = 7 ,30
df R 21
 F. Raportul F
MS M 27 ,71
F = = = 3,79
MS R 7 ,30
G. Suma pătatelor între participanți(SSB)
SSb = SST − SSW = 253,89 − 236,50 = 17 ,39

 4.ANOVA unifactorială cu măsurări repetate
utilizând R
Aveți nevoie să încărcați aceste pachete prin

4.1 Pachetele din R executarea următoarelor comenzi:
Veți avea nevoie de următoarele pachete:  library(ez)

 ez (pentru ANOVA),  library(ggplot2)
 ggplot2 (pentru grafice),  library(multcomp)
 multcomp(pentru testele posthoc),  library(pastecs)
 pastecs (pentru statistica descriptivă), and  library(reshape2)
 reshape2 (pentru reașezarea datelor)  library(WRS2)
 WRS2 (pentru teste robuste).
 Procedura generală pentru măsurări repetate
1.Introduceți/încărcați datele.
2. Explorați datele: estimați indicatorii statistici descriptivi și testați sfericitatea dacă nu este
utilizată funcția lme() – utilizată în estimarea modelelor multinivel.
3. Construiți sau alegeți contraste: este necesar să decideți ce contraste trebuie să utilizați și să le
specificați pentru toate variabilele independente din analiză.
4. Estimați ANOVA/modelul multinivel: trebuie să realizați analiza principală. În funcție de
rezultatele din pașii anteriori este posibil să aveți nevoie de teste robuste.
5. Calculați contrastele sau testele post hoc: după realizarea analizei principale se poate continua
cu testele post hoc sau cu rezultatele contrastelor. Metoda exactă aleasă depinde de rezultatele
obținute la punctul 2.
attach(Repd)
Repd
longRepd=melt(Repd, id="participant", measured=c("m1","m2", "m3", "m4"))
names(longRepd)=c("participant", "meal", "time")
longRepd$meal=factor(longRepd$meal, labels=c("m1", "m2", "m3", "m4"))
longRepd
by(longRepd$time, longRepd$meal, stat.desc)
c1<-c(1,-1,-1,1)
c2<-c(0,-1,1,0)
c3<-c(-1,0,0,1)
contrasts<-cbind(c1,c2,c3)
contrasts
ModelA=ezANOVA(data=longRepd, dv=.(time), wid=.(participant), within=.(meal), detailed=TRUE,
type=3)
ModelA
attach(Repd)
Repd
longRepd=melt(Repd, id="participant", measured=c("m1","m2", "m3", "m4"))
names(longRepd)=c("participant", "meal", "time")
longRepd$meal=factor(longRepd$meal, labels=c("m1", "m2", "m3", "m4"))
longRepd
Datele sunt transformate din formatul inițial într-un format lung, conform posibilităților de analiză din
R.
Cadrul nou de date conține o coloană cu persoana participantă, o coloană cu tipul de alimente pe care
le primesc la mesă și o coloană cu timpul necesar pentru a digera alimentele de la masa.
 Datele în formatul inițial
by(longRepd$time, longRepd$meal, stat.desc)
c1<-c(1,-1,-1,1)
c2<-c(0,-1,1,0)
c3<-c(-1,0,0,1)
contrasts<-cbind(c1,c2,c3)
contrasts
ModelA=ezANOVA(data=longRepd, dv=.(time), wid=.(participant), within=.(meal), detailed=TRUE,
type=3)
ModelA
Se estimează indicatorii statistici descriptivi pentru variabila timpul necesar pentru a digera alimentele
corespunzătoare fiecărei mese.
Sunt înregistrate contrastele necesare pentru a realiza comparațiile planificate și apoi acestea sunt
prezentate.
Se estimează modelul GLM - ANOVA cu măsurări repetate.
 ModelA=ezANOVA(data=longRepd, dv=.(time), wid=.(participant), within=.(meal), detailed=TRUE,
type=3)
dv: variabila cantitativă ce reprezintă timpul de a digera alimentele de la diferite tipuri de mese
wid: variabila care identifică unitățile de înregistrare care participă la măsurări repetate determinate
de diferite mese. Aici este vorba de participant.
within: o variabilă (sau mai multe) predictor pentru care s-au efectuat măsurări repetate. In acest caz
este reprezentată de tipurile de masă (alimente servite la masa).
between: o variabilă (sau mai multe) predictor ce sunt înregistrate între grupuri (această opțiune nu
este utilizată în cazul măsurărilor repetate ci în cazul măsurărilor mixte)
detailed: vizează prezentarea detaliată a rezultatului în cazul în care opțiunea aleasă este TRUE
type: este tipul III de sumă de pătrate
 Interpretare:
 1. Deoarece probabilitatea asociată testului lui Mauchly este mai mică decât riscul asumat de 5%
condiția de respectare a sfericității nu este îndeplinită.
 Corecțiile prezentate sunt
- Greenhouse–Geisser (GGe) – 0,532 p value 0,062> 0,05 – metodă mai conservatoare
- Huynh și Feldt (HFe) – 0,665 p value 0,048 < 0,05
Limita inferioară a corecțiilor este 1/(4-1)=0,33
Limita superioară 1
Rezultatele sunt contradictorii.

Stevens (2002) recomandă o medie a celor două estimări pentru luarea deciziei.

General Linear Model

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

General Linear Model

Încărcat de

Drepturi de autor:

Formate disponibile

General Linear Model

1.1 REGRESIE, ANOVA ȘI ANCOVA ÎN TERMENI GLM

 Tipic, cercetătorul ce aplică regresie este interesat în previzionarea variabilei cantitative

 ANCOVA combină regresia și ANOVA

 Termenul “general” în GLM se referă la abilitatea de a estima modelul

1.5. ANALIZE CU EFECTE FIXE, ALEATOARE ȘI MIXTE

2.3.2. ANOVA UNIFACTORIALĂ UTILIZÂND PROGRAMUL R

2.3.3. ANOVA UNIFACTORIALĂ ROBUSTĂ UTILIZÂND PROGRAMUL R

1.5. ANALIZE CU EFECTE FIXE, ALEATOARE ȘI MIXTE

a) Presupuneri pentru ANOVA

Variabila dependentă trebuie să fie măsurată pe o scală interval.

 Suma totală a pătratelor SST - variația totală

y - media de ansamblu a variabilei

 Suma pătratelor reziduurilor – variația care nu poate fi explicată prin model.

0, group=1 0, group=1

 Regula 2: Grupurile codificate cu ponderi pozitive vor fi comparate cu grupurile codificate cu

Grupa 2 și Grupa 3 Grupa 1

Grupa 2 Grupa 3 Grupa 1

Grupa Variabila dummy1 Variabila dummy2 Produsul

Contrastele sunt independente și ortogonale

 Deși în majoritatea circumstanțelor se utilizează contrastele specificate de cercetător, sunt contraste

 Metoda lui Benjamini și Hochberg

leveneTest(well_being, dose, center=median)

Un test ANOVA a fost utilizat pentru testarea de ansamblu a semnificației modelului.

Testul este semnificativ F(2, 12) = 5.12, p <0.05.

Altfel spus, mediile grupelor sunt semnificativ diferite.

2.3.2.c. Contraste planificate cu R

contrasts(predictor variable)<-contrast instructions

2.3.2.d. Propriile voastre contraste

pairwise.t.test(well_being, dose, p.adjust.method="bonferroni")

Intervalele de încredere confirmă, de asemenea, rezultatele. Intervalele care cuprind valoarea 0

Concluziile sunt similare ca și pentru Tukey.

 2 = 0 ,01- efect mic  = 0 ,06 - efect mediu

mes(2.2, 5, 1.3038405, 1.5811388, 5, 5)

mes(3.2, 5, 1.3038405, 1.5811388, 5, 5)

Metodele robuste utilizează trimmed mean și estimator M.

 Prima funcție robustă, t1way(), este bazată pe o trimmed mean.

t1waybt(formula, dataFrame, tr = .2, alpha = .05, nboot = 599)

dataM<-unstack(EX1, well_being ~ dose))

 Există două motive pentru care se includ covariate în ANOVA:

 ANCOVA are aceleași presupuneri ca în ANOVA la care se adaugă două considerații:

1. Independența covariatei și a efectului tratamentului

 Această problemă poate fi evitată prin extragerea aleatoare a participanților la grupurile

Dar ordinea contează:

Anova(modelName, type = "III")

postHocs<-glht(ModelB, linfct = mcp(dose = "Tukey"))

 Uitându-ne la semnificația valorii estimate a interacțiunii dintre covariată și variabila independentă,

SS well _ beingp 15,08

mes(5.151251, 2.926370, 1.812267, 1.788613, 13, 9)

mes(5.151251, 4.712050, 1.812267, 1.755879, 13, 8)

Un exemplu cu două variabile independente:

productivity =  0 + 1  gender +  2  overtime +  i

productivity =  0 + 1  gender +  2  overtime +  3  gender  overtime +  i

Ore suplimentare None 2 Hours 4 Hours

Gen Ore suplimentare Dummy Dummy Interaction Mean

b1 = 60,625 − 66 ,875 = −6 ,25 7

ANOVA bifactorială este conceptual similară cu ANOVA unifactorială

 Determinăm suma totală a pătratelor erorilor (SST) și descompunem varianța în:

 B. Suma pătratelor explicată prin model SSM

SS M = 8 ( 60,625 − 58,33) + 8 ( 66 ,875 − 58,33) + 8 ( 62 ,5 − 58,33 ) + 8 ( 66 ,875 − 58,33 ) + ...

+8 ( 57 ,5 − 58,33) + 8 ( 35,625 − 58,33)

SS A = 24 ( 60,21 − 58,33) + 24 ( 56 ,46 − 58,33)

SS A = 84,8256 + 83,9256 = 168,75