Documente Academic
Documente Profesional
Documente Cultură
1
General Linear Model
1. INTRODUCERE
2
General Linear Model
1. INTRODUCERE
Regresia și analiza varianței sunt utilizate extensiv în multe domenii de cercetare cum ar fi:
psihologie, biologie, medicină, educație, sociologie, antropologie, economic, științe politice ca și în
industrie și comerț.
Sunt câteva motive pentru care regresia și analiza varianței sunt aplicate atât de frecvent:
1. Ele furnizează răspunsuri la întrebările cercetătorilor cu privire la datele pe care le au la dispoziție:
regresia permite să determina dacă și cum sunt corelate, ANOVA permite determinarea dacă mediile
diferitelor grupuri sau condiții diferă, ANCOVA (analiza covarianței) o combinație dintre regresie și
ANOVA permite să determinăm dacă mediile grupurilor sau condițiilor diferă după ce influența unei
variabile (sau a mai multor variabile) a fost considerată egală în aceste grupuri.
2.Ele sunt aplicate datelor experimentale, cvasi-experimentale și non-experimentale și pot fi aplicate
majorității tipurilor de analiză utilizate în aceste studii.
3. soft-urile statistice pentru regresie și ANOVA sunt disponibile pentru majoritatea tipurilor de analiză.
3
General Linear Model
1.1 REGRESIE, ANOVA ȘI ANCOVA ÎN TERMENI GLM
În termeni GLM, regresia încearcă să explice datele (variabila dependentă) în funcție de un set de
variabile independente sau predictori (ai modelului) și componenta reziduală (eroare).
Există, de asemenea, interesul în determinarea proporției în care variația variabilei dependente este
atribuită variației variabilei(lor) independente.
Regresia poate utiliza predictori categoriali (cunoscuți și ca nominali sau cantitativi).
Deoarece regresia este o formă elementară a GLM, este posibil să construim regresii
4 GLM echivalente
cu orice ANOVA și ANCOVA GLM.
General Linear Model
În termeni GLM, ANOVA încearcă să explice datele (valorile variabilei dependente) în funcție de
condițiile experimentale (model) și o componentă eroare.
Tipic, cercetătorul care aplică ANOVA este interesat în determinarea cărei medii a condițiilor
experimentale (sau grup) diferă.
Există, de asemenea, interesul în determinarea proporției variației variabilei dependente ce poate fi
atribuită diferențelor dintre grupurile experimentale specifice sau condiții, așa cum sunt definite de
variabilele independente.
5
General Linear Model
1.2. TERMENUL "GENERAL" DIN GLM
Această caracteristică este accentuată în ANOVA, unde variabile numerice continue și variabile
categoriale sunt utilizate în același GLM.
6
General Linear Model
1.3. TERMENUL "LINEAR" DIN GLM
Termenul ”liniar” din modelul liniar vine din forma matematică a ecuației, nu din orice constrângere
a modelului că ar trebui să potrivească o linie dreaptă.
Această formă matematică exprimă variabila dependentă pentru orice observație dată ca sumă a trei
componente:
(1) ordonata la origine;
(2) suma variabilelor independente ponderate;
(3) eroarea.
Variabilele independente în GLM pot include transformări non liniare a variabilelor originale
înregistrate în setul de date sau suma produselor acestor variabile originale. Caracteristica centrală a
GLM este ca aceste variabile ”noi” pot fi măsurate și plasate într-o ecuație.
7
General Linear Model
1.4. ESTIMAREA PRIM METODA CELOR MAI MICI PĂTRATE
Metoda celor mai mici pătrate este utilizată pentru estimarea parametrilor prin minimizarea sumei
pătratelor discrepanțelor între valorile observate și cele previzionate.
2. ANOVA
2.1. ANOVA – COMPARAREA MEDIILOR
2.2. ANOVA – CA REGRESIE
2.3. GLM
2.3.1. CONTRASTE
2.3.1.a. Contraste planificate
2.3.1.b. Definirea contrastelor utilizând ponderi
2.3.1.c. Contraste standard
2.3.1.d. Contraste polinomiale: analiza trendului
2.3.1.e. Proceduri post hoc
9
General Linear Model
SS M = nk ( yk − y )
k 2
13
n =1
General Linear Model
numărul gradelor de libertate df M = k − 1
i =1 n =1
gradele de libertate df R = N − k
Raportul F
SS M SS M
SS N − k
= M = k −1 = M
MS M df
F=
MS R SS R SS R SS R k − 1
df R n−k
14
General Linear Model
EXEMPLE:
DATA: ANOVA_ANCOVA
VARIABLES:
mathach -
mathcrs -
gender -
faed -
15
General Linear Model
16
General Linear Model
Concluzie:
Raportul F nu ne spune unde sunt diferențele dintre grupuri. De aceea, este necesar
17
după ce realizăm
ANOVA să continuăm analiza pentru a identifica care grupuri diferă.
General Linear Model
18
General Linear Model
19
General Linear Model
2.2. ANOVA – CA REGRESIE
ANOVA este un caz special al regresiei.
ANOVA poate fi reprezentată printr-o ecuație de regresie multiplă în care numărul de predictori este
cu unul mai puțin decât numărul de categorii a variabilei independente.
Dacă avem trei grupe/categorii vom utiliza un model de regresie cu două variabile dummy.
Y = f ( X )+
Y = 0 + 1 D1 + 2 D2 +
20
General Linear Model
Rezultate:
D1=0 și D2=0
Y = b0 =Y mediu pentru categoria de bază (grupul 1)
D1=1 și D2=0
Y = b0 + b1 = Y mediu pentru grupul 2.
b1 - diferența dintre media grupului 2 și media grupului 1;
Dacă 1 este semnificativ atunci există o diferență semnificativă între media grupului 2 și media
grupului 1.
D1=0 și D2=1
Y = b0 + b2 = Y mediu pentru grupul 3.
b2 - diferența dintre media grupului 3 și media grupului 1;
Dacă 2 este semnificativ atunci există diferențe semnificative între media grupului
21 3 și media grupului
1.
General Linear Model
EXEMPLE:
22
General Linear Model
Concluzie:
În regresia multiplă fiecare coeficient de regresie este testat individual utilizând un test t.
Pentru a continua analiza și a găsi care grup diferă sunt două posibilități:
A) Să descompunem varianța din model în părți componente: poate fi realizată cu comparații planificate
(numite și contraste planificate);
B) Să comparăm fiecare grup (ca și cum am realiza câteva teste t) dar să utilizăm un criteriu de
acceptare astfel încât eroarea de tip I să nu crească peste 0.05: este realizată utilizând comparații post-
hoc.
23
General Linear Model
2.3. GLM
2.3.1. CONTRASTE
2.3.1.a. Contraste planificate
Figura 1. Descompunerea varianței în ANOVA
SST
Varianța totală
SSM
SSR
Varianța explicată
Varianța neexplicată 24
prin model
General Linear Model
Figura 2. Descompunerea varianței în componente
SSM
Varianța explicată prin model
Grup 1
Grup 2 + Grup 3
Varianța explicată de grupul Contrast 1
Varianța explicată de grupurile 2 și 3
de control
Grup 2 Grup 3
Contrast 2
Varianța explicată de grupul 2 Varianța explicată de grupul 3
25
General Linear Model
Sunt trei reguli care ne pot ajuta pentru planificarea comparațiilor:
1) Dacă avem un grup de control, aceasta este de obicei pentru că vrem sa-l comparăm cu alte grupuri;
2) Fiecare contrast trebuie să compare numai două ”bucăți” de variație
3) Din moment ce un grup a fost introdus într-un contrast nu poate fi utilizat în al contrast.
26
General Linear Model
2.3.1.b. Definirea contrastelor utilizând ponderi
Pentru a realiza contrastele trebuie să asociem valori variabilelor dummy din modelul de regresie;
Dacă înainte am definit grupurile experimentale asociind variabilelor dummy valori de 1 și 0, când
realizăm contrastele utilizăm valori diferite pentru a specifica care grupuri dorim să le comparăm;
Coeficienții rezultați în modelul de regresie (b2 și b3) reprezintă comparații de care suntem
interesați. Valorile asociate variabilelor dummy sunt cunoscute ca ponderi.
27
General Linear Model
Reguli pentru ponderi:
Regula 1: Alegeți comparații sensibile. Amintiți-vă că doriți să comparați două părți de variație și,
dacă un grup este singur într-o comparație, acel grup va fi exclus din orice contrast următor.
Regula 3: Suma ponderilor pentru o comparație trebuie să fie 0. Dacă adunăm ponderile pentru un
anumit contrast rezultatul trebuie să fie zero.
Regula4: Dacă un grup nu este implicat într-o comparație, automat îi asociem o valoare zero.
Dacă îi dăm unui grup o pondere 0 atunci aceasta elimină tot grupul din toate calculele.
Regula 5: Pentru un contrast dat ponderea asociată grupurilor într-o parte de variație trebuie să fie
egală cu nr. de grupuri în grupul opus de variație.
28
General Linear Model
CONTRAST 1
Bucata 1 Bucata 2
+1 -2 29
General Linear Model
CONTRAST 2
Bucata 1 Bucata 2
+1 -1 30
General Linear Model
Tabelul 1. Contraste ortogonale
31
General Linear Model
Când utilizăm contraste planificate, ordonata la origine b0 este egală cu media de ansamblu (adică
valoarea previzionată de model când apartenența la grup nu este cunoscută), care atunci când
mărimea grupurilor este egală este:
y1 + y2 + y3
b0 = y =
3
Dacă utilizăm contrastul 1 codificarea pentru grupul 1 (categoria de bază) valoarea previzionată a lui
y este egală cu media grupului 1.
yi = b0 + b1contrast1 + b2 contrast 2
1 y2 + y3
y1 = b0 + ( −2b1 ) + ( b2 0 ) b1 = − y1
3 2
Această ecuație arată că b1 este de fapt o treime din această diferență între media celor 2 grupuri
experimentale și grupul de control.
Dacă utilizăm contrastul 2, codificarea pentru grupul 2, valoarea previzionată a lui y este egală cu
media grupului 2:
yi = b0 + b1contrast1 + b2 contrast 2
y2 = b0 + ( b1 1) + ( b2 1) 32
General Linear Model
1
b2 = y2 − b0 − b1 b2 = ( y3 − y2 )
2
b2 este jumătate din diferența dintre grupul experimental 2 și 3.
33
General Linear Model
2.3.1.c. Contraste standard
Tabelul următor arată contrastele care sunt disponibile în R utilizând funcția contrasts(). Această
funcție este utilizată pentru a codifica orice variabilă categorială și rezultatele codifică pot fi
utilizate în majoritatea din modele liniare (ANOVA, regresie, regresie logistică etc.)
34
General Linear Model
Tabelul 2. Contraste standard disponibile în R
35
General Linear Model
2.3.1.d. Contraste polinomiale: analiza trendului
Un alt tip de contrast este contrastul polinomial, care poate fi obținut în R utilizând funcția
contr.poly().
Acest contrast testează trendul ce apare în date și în forma sa de bază identifică trendul liniar( dacă
mediile grupelor cresc).
Un trend quadratic este când apare o schimbare în direcția liniei de evoluție a mediilor grupelor
(adică este curbată într-un loc)
Un trend cubic apare atunci când sunt două schimbări în direcția trendului.
Un trend quartic are trei schimbări de direcție (astfel aveți nevoie de cel puțin 5 categorii ale
variabilei independente) 36
General Linear Model
Figura A. Trenduri liniar, quadratic, cubic and quartic pentru cinci grupe
37
General Linear Model
2.3.1.e. Procedurile Post hoc
Adesea este cazul să nu ai nici o așteptare anterioară cu privire la datele pe care le-ai colectat și ești
interesat în explorarea datelor pentru toate diferențele care există între mediile grupelor.
Testele Post hoc constau din perechile de comparații care sunt desemnate pentru a compara toate
combinațiile posibile ale grupurilor de tratament.
Perechile de comparații compară eroarea de tip I prin corectarea nivelului de semnificație pentru
fiecare test
Corecția Bonferroni : împarte α prin numărul de comparații, k, astfel asigurându-se că eroarea de Tip I
este sub 0,05
pcrit =
k
Are loc un schimb pentru controlarea erorii de tip I și o pierdere a puterii statistice
38 a testului.
General Linear Model
Metoda lui Holm
pcrit =
j
j este un indice pentru p-value (pentru cel mai mare p asociem indicele 1, următorul cel mai mare 2 și
așa mai departe până la cel mai mic.
39
General Linear Model
A-B
B-C
D-B
A-D
A-C
D-C
40
General Linear Model
Procedura post hoc realizează testele controlând:
-Eroarea de Tip I;
-Eroarea de Tip II ( sau puterea statistică a testului).
Testele Bonferroni și Tukey HSD controlează eroarea de Tip I dar sunt teste conservatoare (le
lipsește puterea statistică)
- Bonferroni are putere mai mare atunci când numărul de comparații este mic;
- Tukey este mai puternic când testează un număr mai mare de medii
Tukey are, în general o putere mai mare decât alte teste ( cum sunt Dunn and Scheffé)
Metoda Holm are putere mai mare decât Bonferroni
Benjamini–Hochberg are putere mai mare decât Holm
41
General Linear Model
Majoritatea cercetărilor asupra testelor post hoc au fost realizate cu privire la rezultatele obținute
atunci când :
-mărimea grupelor este diferită (an unbalanced design);
-varianțele populațiilor diferă semnificativ;
-variabila nu urmează o lege normală.
Cele mai multe proceduri de comparare multiplă au rezultate bune atunci când sunt deviații mici de
la normalitate.
Rezultatele nu sunt bune atunci când mărimea grupelor diferă și când varianțele populațiilor sunt
diferite.
42
General Linear Model
2.3.2. ANOVA UNIFACTORIALĂ UTILIZÂND R
2.3.2.a. Explorarea datelor
by(variable, group, output)
variable este variabila pe care vrei să o analizezi (in this case well being);
group este variabila care defineșste grupul în funcție de care dorești să organizezi rezultatul (dose);
output este o funcție menționată programului R a cărui rezultat îl dorești (de ex. media). Dacă
utilizăm funcția stat.desc() din pachetul pastecs atunci R ne va da indicatori ai statisticii descriptive.
attach(EX1)
by(well_being,dose,stat.desc)
Înainte de a utiliza metoda ANOVA trebuie să calculăm testul Levene. Utilizăm funcția levene.Test()
din pachetul car:
leveneTest(outcome variable, group, center = median/mean)
leveneTest(well_being, dose, center=median)
43
General Linear Model
by(well_being,dose,stat.desc)
44
General Linear Model
Rezultatul testului Levene arată că testul nu este semnificativ.
F(2,12)=0,118, p=0,89
Aceasta înseamnă că varianțele variabilei well being nu diferă semnificativ în cele 3 grupe determinate
de variabila dose: Placebo, Low dose and High dose.
45
General Linear Model
2.3.2.b. Analiza principală
Estimăm un model de regresie utilizând funcția lm():
ModelA<-lm(well_being~dose)
summary(ModelA)
Funcția aov() are următoarea formă generală:
ModelB<-aov(outcome ~ predictor, data = dataFrame, na.action = an action))
ModelB este un obiect creat care conține toate informațiile despre modelul estimat. Putem obține o
prezentare a modelului cu ajutorul funcției summary(ModelB) pentru ANOVA și cu ajutorul funcției
summary.lm(ModelB) parametrii specifici ai modelului.
outcome este variabila pe care încercăm să o previzionăm, cunoscută și sub denumirea de variabilă
dependentă. În acest exemplu va fi variabila well being.
predictor este variabila independentă. În acest exemplu va fi variabila dose. Într-o analiză mai complexă
putem specifica câțiva predictori sau variabile independente dar, vom analiza această situație într-un
capitol următor.
dataFrame este numele cadrului de date unde sunt înregistrate variabilele: dependentă și independentă.
na.action este o comandă opțională. Dacă aveți date complete puteți să o ignorați, dar dacă sunt valori
lipsă (adică valori NA în cadrul de date) atunci poate fi util să utilizăm na.action
46
= na.exclude, ce va
exclude toate cazurile cu valori lipsă.
General Linear Model
ModelA<-lm(well_being~dose)
summary(ModelA)
Dacă vrem să schimbăm grupul de referință pentru variabila dose putem utiliza funcția
dose=relevel(dose, ref="High Dose") 47
General Linear Model
Coeficientul de regresie b0 , constanta, este egal cu media categoriei de bază (grupul Placebo);
Coeficientul de regresie pentru prima variabilă dummy (b1) este egal cu diferența dintre media
grupului cu doză mică și media grupului Placebo.
Coeficientul de regresie pentru a doua variabilă dummy (b2) este egal cu diferența dintre media
grupului cu doză mare și media grupului cu doză Palcebo.
Această analiză demonstrează cum modelul de regresie reprezintă situația celor trei grupe.
Putem vedea din semnificația testelor t că diferența între grupul cu doză măre și grupul Placebo
(b2) este semnificativă deoarece p<0,05.
Diferența dintre grupul cu doză mică și Placebo nu este semnificativă (p=0,282)
48
General Linear Model
ModelB<-aov(well_being ~ dose, data = EX1)
summary(ModelB)
49
General Linear Model
ModelB<-aov(well_being ~ dose, data = EX1)
summary(ModelB)
plot(ModelB)
50
General Linear Model
Știind că modelul nostru reprezintă diferențele dintre grupe, ANOVA ne spune că utilizând mediile
grupelor pentru previziune este semnificativ mai bine decât să utilizăm media de ansamblu.
51
General Linear Model
52
General Linear Model
n este numărul de grupe ale variabilei predictor (pentru dose, această valoare va fi 3);
Opțiunea, base, permite specificarea grupului pe care vrei să-l utilizezi pentru comparații;
Funcția contr.SAS() este aceeași cu funcția contr.treatment() când selectăm ultima categorie ca bază.
contrasts(EX1$dose)<-contr.helmert(3)
ModelC<-aov(well_being~dose, data=EX1)
summary.lm(ModelC) summary(ModelC)
54
General Linear Model
Output-ul prezintă rezultatele acestei regresii.
Testul F este același cu modelul când s-a utilizat variabila dummy ceea ce arată că variabila
dependentă este explicată în același mod prin mediile grupelor (care nu s-au schimbat); totuși
coeficienții modelului de regresie s-au schimbat.
Constanta/interceptul este media de ansamblu 3,467.
Coeficientul de regresie pentru contrastul 1 este o treime din diferența dintre media condițiilor
experimentale și condiția de control (Placebo).
Coeficientul de regresie pentru contrastul 2 este jumătate din diferența dintre grupele
experimentale.
Din semnificația testelor t putem vedea că grupurile noastre experimentale au fost semnificativ
diferite de grupul de control (p < 0.05) dar
Grupurile experimentale nu diferă între ele (p > 0.05). Media grupului cu Low Dose nu diferă
semnificativ de media grupului cu High dose.
55
General Linear Model
2.3.2.e. Analiza trendului
Pentru a realiza analiza trendului putem utiliza funcția contr.poly().
Aceste teste de comparare sunt utilizate pentru a testa dacă mediile cresc liniar.
contrasts(EX1$dose)<-contr.poly(3)
ModelT<-aov(well_being~dose, data=EX1)
summary.lm(ModelT)
56
General Linear Model
Output-ul prezintă dacă efectul experimental determină o creștere liniară (dose.L) sau quadratică
(dose.Q) a mediilor grupelor.
Componenta liniară. Această componentă testează dacă mediile cresc în grupuri în formă liniară.
Pentru acest trend t= 3.16 și această valoare este semnificativă deoarece p=0,008. Prin urmare,
putem să spunem că, atunci când doza de Magneziu crește de la 0 la doză mică și apoi la doză mare,
weel being crește proporțional.
Trendul quadratic. Acest test pune în evidență dacă mediile grupelor evoluează după cu trend
quadratic (adică evoluează după o curbă cu o singură schimbare a evoluției). Deoarece t=0,52 și
p=0,612 trendul quadratic nu este semnificativ.
57
General Linear Model
2.3.2.f. Testele Post hoc utilizând R
A. Metoda Bonferroni și metode asemănătoare
pairwise.t.test(outcome, predictor, paired = FALSE, p.adjust.method ="method")
outcome este numele variabilei rezultat (în acest caz va fi well being (EX1$well_being).
predictor este numele variabilei de grupare (in acest caz va fi dose (EX1$dose).
paired este o afirmație logică este FALSE dar poate fi setată și TRUE. Aceasta specifică dacă doriți
teste perechi sau nu.
p.adjust.method este o specificare a metodei dorite pentru corecția valorilor p. Se poate înlocui
cuvântul “method” cu o comandă la alegere din “bonferroni”, “holm”, “hochberg”, “hommel”, “BH”
(ce produce metoda Benjamini–Hochberg), “BY” (ce produce metoda mai recentă Benjamini–
Yekutieli), “fdr” (metoda ratei generale a rezultatelor false), și “none” (nu se corectează p-value
deloc, se realizează o mulțime de teste t – nu este recomandată).
pairwise.t.test(well_being, dose, p.adjust.method="BH")
pairwise.t.test(well_being, dose, p.adjust.method="bonferroni")
58
General Linear Model
ModelB<-aov(well_being~dose)
pairwise.t.test(well_being, dose, p.adjust.method="BH")
59
General Linear Model
Ambele metode specifică well being ca variabilă rezultat și dose ca variabilă de grupare, dar ele
diferă în modul în care sunt corectate p-values
Ambele metode aduc rezultatele pentru p-values pentru toate combinațiile de grupe.
La valorile corectate prin Bonferroni obținem:
-grupul placebo este comparat cu grupul cu doză mică și indică o diferență nesemnificativă (0.845 este
mai mare decât 0,05),
-grupul placebo este comparat cu grupul cu doză mare și este o diferență semnificativă (0.025 mai mică
decât 0.05).
Testele corectate cu BH, au aceleași rezultate ca și cele corectate cu metoda Bonferroni:
-placebo este semnificativ diferit de grupul cu doză mare (deoarece 0.025 este mai mic decât 0.05),
-nu este o diferență semnificativă între grupul placebo și doză mică (0.282 este mai mare decât 0.05) și
-dozele mici și mari nu diferă semnificativ (0.098 este mai mare decât 0.05).
60
General Linear Model
B. Tukey și Dunnett
Tukey și Dunnett pot fi implementate utilizând funcția glht() ce este parte a pachetului multcomp în R.
newModel<-glht(aov.Model, linfct = mcp(predictor = "method"), base = x)
newModel este un obiect ce conține informații din testele post hoc. Pentru a vedea aceste informații
se poate utiliza funcția summary(newModel) pentru testele de bază post hoc și confint(newModel)
pentru a vedea intervalele de încredere.
aov.Model este numele unui model care a fost deja creat cu funcția aov ().
predictor este numele variabilei de grupare (în acest caz va fi dose (Ex1$dose).
linfct = mcp(predictor = “method”) specifică corecția ce este aplicată pentru p-values. Se poate
înlocui “method” cu o comandă din următoarele “Dunnett”, “Tukey”, “Sequen”, “AVE”,
“Changepoint”, “Williams”, “Marcus”, “McDermott”, “UmbrellaWilliams”, și “GrandMean”.
61
General Linear Model
base este utilizată numai când este specificat “Dunnett”. Această opțiune permite specificarea
grupului de bază utilizând un număr al grupului . În acest caz dacă dorim ca grupul Placebo să fie
grupul de bază putem utiliza base = 1, dar dacă dorim grupul cu doză mare ca fiind grupul de bază
putem specifica valoarea 3, base = 3.
Putem obține testele post hoc Tukey prin funcția:
postHocs<-glht(ModelB, linfct = mcp(dose = "Tukey"))
summary(postHocs)
confint(postHocs)
Putem obține testele post hoc Dunnett post hoc prin funcția:
postHocs<-glht(ModelB, linfct = mcp(dose = "Dunnett"), base = 1)
summary(postHocs)
confint(postHocs)
62
General Linear Model
ModelB<-aov(well_being~dose)
postHocs<-glht(ModelB, linfct = mcp(dose = "Tukey"))
summary(postHocs)
confint(postHocs)
63
General Linear Model
Output-ul arată:
-cele trei comparații(doză mică vs. placebo, doză mare vs. placebo, doză mare vs. doză mică),
-estimarea( care este diferența dintre mediile grupelor),
-eroarea standard asociată cu diferența dintre medii,
-testele t și valorile asociate pentru p-value.
Acest output confirmă:
-diferența semnificativă între grupul cu doză mare și grupul placebo, t = 3.16, p < .05,
-diferența nesemnificativă între grupul cu doză mică și placebo t = 1.13, p = 0.52
- diferența nesemnificativă între grupul cu doză mare și grupul cu doză mică t = 2.03, p = 0.15
confint(postHocs)
65
General Linear Model
Testul Dunnett realizează comparații față de un grup de bază astfel încât se pot efectua două
comparații în loc de trei.
În acest caz se compară grupurile cu Placebo, deci nu sunt rezultate pentru comparația între grupul
cu doză mare și grupul cu doză mică.
66
General Linear Model
2.3.2.g. Calcularea dimensiunii efectului
În contextul ANOVA, R2 este denumit în mod uzual eta pătrat, η2.
SS M
R2 =
SST
Această măsură a dimensiunii efectului este deplasată deoarece se calculează ca sumă a pătratelor
eșantionului și nu este făcută nici o ajustare pentru estimarea dimensiunii efectului în populație.
Adesea utilizăm o măsură mai complexă numită omega la pătrat (ω2).
SS M − ( df M ) MS R
2 =
SST + MS R
R = R2
General Linear Model
A
SS M SS R
SS M − ( df M ) MS R
2 =
SST + MS R
20 ,13 − 2 1,97
2 = = 0 ,35
( 20,13 + 23,60 ) + 1,97
= 0,60
R = 0 ,46 = 0 ,68
68
General Linear Model
În R: din pachetul calculate.es putem utiliza funcția mes() pentru mărimea efectului a diferențelor
dintre perechile de grupuri:
mes(meangroup1, meangroup2, sdgroup1, sdgroup2, ngroup1, ngroup2)
În exemplul nostru:
-dacă vrem să comparăm grupul placebo cu grupul low-dose putem executa:
- mes(2.2, 3.2, 1.3038405, 1.3038405, 5, 5)
- dacă vrem să comparăm grupul placebo cu grupul high-dose
mes(2.2, 5, 1.3038405, 1.5811388, 5, 5)
- dacă vrem să comparăm grupul low- și high-dose
mes(3.2, 5, 1.3038405, 1.5811388, 5, 5)
69
General Linear Model
mes(2.2, 3.2, 1.3038405, 1.3038405, 5, 5)
70
General Linear Model
Mărimea efectului pentru contraste ortogonale:
t2
Rcontrasts = 2
t + df
tcontrasts1
tcontrasts 2
2 ,4742 2 ,0292
Rcontrasts1 = = 0 ,581 Rcontrasts 2 = = 0 ,505
2 ,474 + 12
2
2 ,029 + 12
2
71
General Linear Model
2.3.3. ANOVA ROBUSTĂ
O trimmed mean este o medie bazată pe distribuția valorilor după ce un anumit procent a fost
înlăturat din fiecare extremă a distribuției. Astfel, 10% trimmed mean va exclude 10% din valorile
foarte mari și foarte mici înainte să fie calculată media.
Un estimator M, care diferă de trimmed mean este că valorile ce vor fi excluse vor fi determinate
empiric. Un estimator M determină numărul optim de valori ce vor fi în mod necesar excluse pentru a
se obține o estimație robustă a mediei.
Wilcox (2005) descrie un set de proceduri robuste pentru aplicarea ANOVA unifactorială.
72
General Linear Model
2.3.3.a. ANOVA robustă în R
Funcțiile pentru ANOVA robustă necesită ca datele să fie în format lărgit decât în formatul lung.
Putem converti datele în formatul lărgit utilizând funcția unstack()
newDataFrame<-unstack(oldDataFrame, scores ~ columns)
Putem, de asemenea, să comparăm medianele în locul mediilor utilizând funcția med1way(), care
are următoarea formă generală.
med1way(formula, dataFrame)
O metodă finală este de a adăuga bootstrap alături de metoda trimmed mean utilizând funcția
t1waybt()
74
General Linear Model
În cazul nostru:
75
General Linear Model
A
76
General Linear Model
A
77
General Linear Model
ANCOVA
General Linear Model
2.1 Ce este ANCOVA?
ANOVA poate fi extinsă prin includerea uneia sau mai multor variabile continue care previzionează
variabila dependentă. Variabilele continue independente sunt cunoscute sub denumirea de covariate
și pot fi incluse în ANOVA. Metoda utilizată este analiza covarianței, pe scurt ANCOVA.
2
General Linear Model
2.2. Presupuneri și dificultăți în ANCOVA
3
General Linear Model
Varianța totală
Varianța explicată
Varianța
neexplicată
4
General Linear Model
Varianța totală
Varianța
Varianța explicată explicată de
covariată
5
General Linear Model
Varianța totală
Varianța Varianța
Varianța explicată explicată de neexplicată
covariată
6
General Linear Model
2. Omogenitatea pantelor de regresie
Când este realizată o analiză ANCOVA ne uităm la relația de ansamblu a variabilei dependente cu
covariata: linia de regresie este pentru întregul set de date, ignorând unitățile înregistrate din care
grup fac parte.
Dacă, totuși, relația dintre variabila dependentă și covariată diferă în grupuri atunci modelul de
regresie de ansamblu nu este potrivit (nu reprezintă toate grupurile).
7
General Linear Model
2.3 ANCOVA utilizând R
Vom avea nevoie de pachetele: Aceste pachete trebuie să fie încărcate astfel:
car (pentru testul Levene, tipul III de sumă a library(car)
pătratelor),
library(compute.es)
compute.es (pentru mărimea efectului),
library(effects)
effects (pentru mediile ajustate),
library(ggplot2)
ggplot2 (pentru grafice),
library(multcomp)
multcomp(for post hoc tests),
library(pastecs)
pastecs (pentru statistica descriptivă), și
library(WRS2)
WRS2 (pentru teste robuste).
8
General Linear Model
Procedura generală pentru ANCOVA
1.Introducem datele
2.Explorăm/ realizăm analiza descriptivă a datelor
3.Verificăm dacă covariata și orice altă variabilă independentă sunt independente: realizăm ANOVA
cu covariata ca variabilă dependentă și orice variabilă independentă ca predictori pentru a verifica
dacă covariata nu diferă semnificativ pe grupurile acestor variabile. Dacă obțineți rezultate
semnificative atunci analiza se oprește aici .
4. Se poate aplica ANCOVA dacă rezultatele au fost bune în pașii 2 și 3. În funcție de rezultatele de
la pasul 2 am putea estima o versiune robustă a testului.
5. Calculați contrastele și teste pos thoc: puteți identifica ce grupuri diferă.
6. Verificați omogenitatea pantelor de regresie: reluați ANOVA, incluzând interacțiunea dintre
variabila independentă și covariată. Dacă interacțiunea este semnificativă atunci nu puteți
presupune omogenitatea pantelor de regresie.
9
General Linear Model
2.3.1. Explorarea datelor
Pentru a obține indicatori statistici descriptivi pentru fiecare grup separat, putem executa:
attach(EX)
by(well_being,dose,stat.desc)
by(well_beingp,dose,stat.desc)
Pentru a vedea varianța variabilei well_being (variabila dependentă) variază în grupurile care
primesc doze diferite de Magneziu (dose), putem executa:
leveneTest(well_being, dose, center=median)
Putem verifica dacă variabila well_being este independentă de manipularea experimentală. Estimăm
ANOVA cu well_beingp corespunzătoare partenerului și variabila dose ca predictor.
10
General Linear Model
A
11
General Linear Model
A
12
General Linear Model
2.3.2.Estimarea modelului ANCOVA
Modelul ANOVA :
Model=aov(well_being~dose)
Modelul ANCOVA
ModelB=aov(well_being~well_beingp+dose)
14
General Linear Model
Tipuri de sume a pătratelor:
Tipul I de sumă a pătratelor nu poate evalua în mod real principalul efect al fiecărei variabile (cu
excepția cazului în care variabilele sunt complet independente una de cealaltă - ceea ce este puțin
probabil să fie cazul). Sumele pătratelor de tip I nu au tendința de a fi utilizate pentru evaluarea
ipotezelor privind efectele principale și interacțiunile, deoarece ordinea predictorilor va afecta
rezultatele.
Tipul II ne dă o imagine cu acuratețe a principalului efect deoarece este evaluat ignorând efectul
oricărei interacțiuni (ce implică principalul efect considerat). Un avantaj al sumei de Tip II a
pătratelor este că ele nu sunt afectate de tipul de contrast codificat utilizat pentru a specifica
variabilele predictor.
Tipul III are avantajul față de tipul II, că atunci când există o interacțiune, efectele principale
asociate cu acea interacțiune sunt încă semnificative (deoarece sunt calculate luând în considerare
interacțiunea). Sumele de tip III de pătrate sunt preferabile față de alte tipuri atunci când
dimensiunile eșantioanelor sunt inegale; totuși, acestea funcționează numai atunci când predictorii
sunt codificați cu contraste ortogonale.
15
General Linear Model
Dacă dorim Tipul I de sumă a pătratelor, atunci în ANCOVA va fi introdusă covariata prima și variabila
independentă a doua.
ModelB=aov(well_being~well_beingp+dose)
Putem estima considerând suma de Tip II sau III a pătratelor utilizând funcția ANOVA() din pachetul
car. Această funcție are forma generală:
16
General Linear Model
A
17
General Linear Model
R va utiliza variabila dummy pentru dose (va compara fiecare grup cu primul grup). Pentru a calcula
suma de Tip III a pătratelor corect trebuie să specificăm constraste ortogonale:
contrasts(EX$dose)<-contr.helmert(3)
SAU
contrasts(EX$dose)<-cbind(c(-2,1,1),c(0,-1,1))
ModelB=aov(well_being~well_beingp+dose, data=EX)
summary.lm(ModelB)
Anova(ModelB, type="III")
18
General Linear Model
A
19
General Linear Model
Output-ul 2 arată rezultatul principal pentru ANCOVA
Uitându-ne mai întâi la valorile sig., observăm covariata ca previzionând semnificativ variabila
dependentă deoarece sig.< 0,05.
Prin urmare well_being a unei persoane este semnificativ influențată de well being a partenerului.
Output-ul 1 arată parametrii modelului, care corespund cu contrastele pe care le-am specificat
pentru variabila dose.
Prima variabilă dummy (dose 1) compară grupul placebo cu grupurile doză mică și doză mare. A doua
variabilă dummy (dose 2) compară grupurile cu doză mică și doză mare.
Valoarea estimației b pentru covariată este 0.416. Această valoarea ne spune că, celelalte variabile
fiind egale, dacă well being pentru partener crește cu o unitate, atunci well being a persoanei crește
dar numai cu aproximativ jumătate din unitate.
Semnul acestui coeficient ne spune direcția relației dintre covariată și variabila dependentă. Astfel,
pentru că este pozitiv înseamnă că well being a partenerului este într-o relație pozitivă cu well being
a persoanei: pe măsură ce crește una crește și cealaltă.
20
General Linear Model
2.3.2. Testele Post hoc în ANCOVA
Deoarece ne dorim să testăm diferențele între mediile ajustate, putem utiliza funcția glht().
Funcția pairwise.t.test() nu va testa mediile ajustate.
Suntem limitați la utilizarea testelor post hoc Tukey sau Dunnett’s
21
General Linear Model
A
22
General Linear Model
Output-ul arată cele trei comparații:
-doză mică versus placebo,
-doză mare versus placebo,
-doză mare versus doză mică.
Estimarea în fiecare caz este a diferenței între mediile ajustate ale grupului.
Acest output sugerează diferențe semnificative între grupurile cu doză mare și placebo (t = 2.77,
p < .05) dar nu între grupurile cu doză mică și placebo (t = 2.10, p = .12), și nici între grupul cu doză
mică și doză mare (t = 0.54, p = .85) .
23
General Linear Model
OBSERVAȚII
A. Când covariata nu este inclusă în tabelul ANOVA pentru datele utilizate avem:
Fără să luăm în considerare well being a partenerului nu am fi ajuns la concluzia că Magneziul are un
efect asupra well being a persoanei.
24
General Linear Model
B. Testarea omogenității pantelor de regresie
Testarea presupuneri omogenității pantelor de regresie necesită estimarea ANCOVA din nou dar cu
includerea interacțiunii dintre covariată și variabila predictor.
hoRS<-aov(well_being ~ well_beingp + dose + dose:well_beingp, data =EX)
Anova(hoRS, type="III")
25
General Linear Model
26
General Linear Model
2.3.3. ANCOVA robustă
Ca și în cazul ANOVA univariată, Wilcox (2005) descrie un set de proceduri robuste pentru ANCOVA
unifactorială. Pentru a le accesa avem nevoie de pachetul WRS2 în R.
ANCOVA robustă este numai pentru 2 grupuri independente și o covariată.
Sunt două funcții la care ne vom uita și care pot fi utilizate pentru a compara trimmed means între
două grupuri ce includ și o covariată: ancova() și ancboot().
Pentru a elibera analiza de restricțiile privind omogenitatea pantelor de regresie, ca și alte
presupuneri cu privire la distribuții, aceste teste compară trimmed means la diferite puncte de-a
lungul covariatei.
Găsește 5 puncte unde pantele de regresie sunt aceleași (adică 5 valori ale covariatei pentru care
relația între variabila dependentă și covariată sunt aceleași în ambele grupuri). Apoi compară
trimmed means la aceste 5 puncte pentru a vedea dacă ele diferă.
27
General Linear Model
ancova(formula, data, tr = 0.2)
ancboot(formula, data, tr = 0.2, nboot = 599)
28
General Linear Model
2.3.4. Calcularea mărimii efectului
Putem calcula:
Eta pătrat - η2 – pentru fiecare efect (în ANCOVA avem mai mult decât un efect);
Eta pătrat parțial (parțial η2): proporția din varianță ce este explicată de variabilă și nu este
explicată de alte variabile din analiză.
SS Effect
SS Effect partial =2
=
2
SS Effect + SS Re sidual
SSTotal
29
General Linear Model
A
SS Dose 25,19
partial Dose2
= = = 0, 24
SS Dose + SS Re sidual 25,19 + 79, 05
2 ,227 2
rwell _ beengp = = 0 ,400
2 ,227 + 26
2
2,785 2
rcontrast1 = = 0 ,479
2,785 + 26
2
0,5412
rcontrast 2 = = 0 ,106
0,541 + 26
2
31
General Linear Model
A
32
General Linear Model
mes(4.712050, 2.926370, 1.755879, 1.788613, 8, 9)
33
ANOVA BIFACTORIALĂ
General Linear Model
1. ANOVA FACTORIALĂ (design independent)
Când avem două sau mai multe variabile independente ANOVA este numită factorială.
Există câteva tipuri de design factorial:
A. Design factorial independent: În acest cadru există câteva variabile independente fiecare fiind
măsurate la nivelul diferitelor unități de înregistrare. Vom discuta această parte în acest capitol.
B. Design factorial cu măsuri repetate: în care fiecare variabilă independentă este înregistrată la
nivelul acelorași unități de înregistrare pentru toate condițiile. Această temă este abordată în capitolul
următor.
C. Design mixt: în care sunt mai multe variabile independente, unele măsurate pe diferite unități de
înregistrare și altele pe aceleași unități de înregistrare.
2
General Linear Model
2. ANOVA factorială ca regresie
3
General Linear Model
Exemple
5
General Linear Model
A
6
General Linear Model
gen: masculin = 0
ore suplimentare: none=0
yMen ,None = b0 + ( b1 0 ) + ( b2 0 ) + ( b3 0 )
yMen ,None = b0 = 66,875
---------------------------------------------------------------
gen: feminin = 1
ore suplimentare: none = 0
yWomen ,None = b0 + ( b1 1) + ( b2 0 ) + ( b3 0 )
yWomen ,None = b0 + b1
b1 = yWomen ,None − b0 = yWomen ,None − yMen ,None
yMen ,4 hours = b0 + ( b1 0 ) + ( b2 1) + ( b3 0 )
b2 = yMen ,4 hours − b0 = yMen ,4 hours − yMen ,None
b2 = 35,625 − 66 ,875 = −31,25
--------------------------------------------------------------------
gen: feminin = 1
ore suplimentare: 4 ore = 1
yWomen ,4 hours = b0 + ( b1 1) + ( b2 1) + ( b3 1)
yWomen ,4 hours = b0 + b1 + b2 + b3
b3 = yMen ,None − yWomen ,None + yWomen ,4 hours − yMen ,4 hours
b3 = 66 ,875 − 60 ,625 + 57 ,500 − 35,625 = 28,125 8
General Linear Model
Modelul de regresie
9
General Linear Model
Orice ANOVA (oricât ar fi de complexă) este numai o formă de regresie multiplă (un model liniar
general)
10
General Linear Model
3. ANOVA bifactorială
11
General Linear Model
Figura 1. Descompunerea varianței în ANOVA bifactorială
12
General Linear Model
3.Varianțe în ANOVA factorială
A. Suma totală a pătratelor SST – variația totală a datelor.
SST = ( yi − y )
n 2
i =1
SST = s 2 ( N − 1)
SST = 190.78 ( 48 − 1) = 8966 ,66
SS M = nk ( yk − y )
k 2
n =1
SS M = 5479 ,167
13
df M = 6 − 1 = 5
General Linear Model
C. Efectul principal al sexului/genului (SSA)
SS A = nk ( yk − y )
k 2
n =1
SS B = nk ( yk − y )
k 2
n =1
SS A B = SS M − SS A − SS B
df A B = df M − df A − df B df A B = df A df B
df A B = 5 − 1 − 2 = 2
15
General Linear Model
F. Rapoartele F
MS A 168,75
SS
MS A = A =
168,75
= 168,75 FA = = = 2 ,032
df A 1 MS R 83,036
SS B 3332,292
MS B = = = 1666,146 MS B 1666,146
df B 2 FB = = = 20 ,065
MS R 83,036
SS A B 1978,125
MS A B = = = 989,062
df A B 2
MS B 989,062
FA B = = = 11,911
SS R 3487 ,52 MS R 83,036
MS R = = = 83,036
df R 42
Fiecare din aceste rapoarte F pot fi comparate cu valorile critice (bazate pe gradele de libertate,
deci pot fi diferite pentru efecte diferite) pentru a determina dacă aceste variabile independente
influențează variabila dependentă.
16
General Linear Model
4. Factorial ANOVA using R
4.1 Pachetele din R
Trebuie să încărcați pachetele executând:
Veți avea nevoie de pachetele: library(car)
car (for Levene’s test, Type III sums of squares), library(compute.es)
compute.es (for effect sizes), library(ggplot2)
ggplot2 (for graphs), library(multcomp)
multcomp(for post hoc tests), library(pastecs)
pastecs (for descriptive statistics), and library(reshape)
reshape (for reshaping the data) library(WRS2)
WRS2 (for robust tests).
17
General Linear Model
4.2. Procedura generală pentru ANOVA factorială
1. Se introduc datele
2. Se explorează datele: ca de obicei se începe cu reprezentări grafice și determinarea indicatorilor
statistici descriptivi. Se testează ipotezele cu privire la distribuții și se utilizează testul Levene
pentru verificarea omogenității varianțelor.
5. Calculați contrastele sau testele post hoc: realizând ANOVA, în funcție de ceea ce se dorește
18
se aplică testele postd hoc sau contrastele. Metodele alese depind de rezultatele de la punctul 2.
General Linear Model
by(Productivity$productivity, list(Productivity$overtime, Productivity$gender), stat.desc)
19
General Linear Model
20
General Linear Model
Alegerea contrastelor
Efectul genului are numai două niveluri, astfel încât putem codifica contrastele orthogonale ca -1
(persoanele de sex feminin) și 1 (persoanele de sex masculin).
Efectul orelor suplimentare are trei niveluri: 0 ore (none), 2 ore și 4 ore.
21
General Linear Model
attach(Productivity)
contrasts(Productivity$overtime)<-cbind(c(-2,1,1),c(0,-1,1))
Productivity$overtime
contrasts(Productivity$gender)=c(-1,1)
Productivity$gender
ModelProd1=aov(productivity~gender+overtime+gender*overtime, data=Productivity)
Anova(ModelProd1, type="III")
summary.lm(ModelProd1)
22
General Linear Model
A
23
General Linear Model
INTERPRETAREA CONTRASTELOR
gender 1 – Acesta este contrastul pentru efectul variabilei gen/sex.
overtime1 – Acest contrast compară grupul fără ore suplimentare cu cele două grupe cu ore
suplimentare.
overtime 2 – Acest contrast testează dacă media grupului cu 2 ore suplimentare este diferită de
media grupului cu 4 ore suplimentare.
gender1:overtime1 – Acest contrast testează dacă efectul overtime 1 descris mai sus este diferit
pentru persoanele de sex masculin și persoanele de sex feminin. Grafic, testează dacă liniile de
regresie au pante diferite pentru persoanele de sen masculin comparativ cu persoanele de sex
feminin.
gender1:overtime2 – Acest contrast testează dacă efectul overtime 2 descris mai sus este diferit
pentru persoanele de sex masculin și persoanele de sex feminin. Grafic, testează dacă liniile de
regresie au pante diferite pentru persoanele de sen masculin comparativ cu persoanele de sex
feminin.
! Dacă există o interacțiune semnificativă între variabilele orele suplimentare și sex atunci efectele
24
principale nu trebuie/pot fi interpretate.
General Linear Model
ANALIZA POST HOC
Testele post hoc cu scop ilustrativ în R:
ModelProd1<-aov(productivity~gender+overtime+gender*overtime, data=Productivity)
pairwise.t.test(productivity, overtime, p.adjust.method="BH")
pairwise.t.test(productivity, overtime, p.adjust.method="bonferroni")
postHocs<-glht(ModelProd1, linfct=mcp(overtime="Tukey"))
summary(postHocs)
confint(postHocs)
25
General Linear Model
TESTELE POST HOC
26
General Linear Model
27
General Linear Model
ANOVA FACTORIALĂ ROBUSTĂ
Funcții
28
General Linear Model
t2way(productivity~gender+overtime+gender*overtime,data=Productivity)
mcp2atm(productivity~gender+overtime+gender*overtime,data=Productivity)
pbad2way(productivity~gender+overtime+gender*overtime,data=Productivity)
mcp2a(productivity~gender+overtime+gender*overtime,data=Productivity)
29
General Linear Model
A
30
General Linear Model
Contrastul 1 compară dacă diferențele în productivitate ale persoanelor cu 2 ore suplimentare și fără
ore suplimentare diferă între persoanele de sex masculin și persoanele de sex feminin.
31
General Linear Model
A
32
General Linear Model
CALCULAREA MĂRIMII EFECTELOR
ˆ 2 =
( a − 1)( MS A − MS R )
nab
ˆ 2 =
( b − 1)( MS B − MS R )
nab
ˆ
2
=
( a − 1)( b − 1)( MS AB − MS R )
nab
ˆ total
2
= ˆ 2 + ˆ 2 + ˆ
2
+ MS R
Mărimea efectului se calculează ca raport între varianța estimată pentru efectul care ne interesează
și varianța totală estimată. 2
ˆ effect
2
= 2 33
effect
ˆ total
General Linear Model
34
General Linear Model
35
General Linear Model
Raportarea rezultatelor pentru ANOVA bifactorială:
Este un efect semnificativ principal al orelor suplimentare, asupra productivității F(2, 42) = 20.07, p
< .001, ω2 = .35. Testele Bonferroni post hoc arată că productivitatea este semnificativ mai mică
după 4 ore decât după 2 ore suplimentare sau fără ore suplimentare (ambele au p< .001 ).
Productivitatea după 2 ore suplimentare și fără ore suplimentare nu a fost semnificativ diferită.
Nu a fost un efect semnificativ al sexului asupra productivității F(1,42)=2.03, p=0.161,
ω2 =0.009.
Este un efect de interacțiune semnificativă între orele suplimentare și sexul persoanei asupra
productivității, F(2,42) = 11.91, p < .001, ω2= .20. Aceasta arată că persoanele de sex feminin și sex
masculin au fost afectate diferit de orele suplimentare.
În mod specific productivitatea a fost:
- Similară pentru bărbați (M = 66.88, SD = 10.33) și femei (M = 60.63, SD =4.96) dacă nu au ore
suplimentare, d = 0.77;
- Similară pentru bărbați (M = 66.88, SD = 12.52) și femei (M = 62.50, SD = 6.55) după 2 ore
suplimentare, d= 0.44;
- Semnificativ diferită a bărbaților (M = 35.63, SD = 10.84) și femeilor (M = 57.50,36 SD = 7.07) după 4 ore
suplimentare, d = −2.39.
General Linear Model
37
Modelul Liniar General
MĂSURĂRI REPETATE
General Linear Model
‘Măsurări repetate’ este un termen utilizat când aceleași unități de înregistrare statistică participă la
toate condițiile unui experiment și furnizează date în momente diferite de timp.
Exemplu: timpul necesar pentru digerarea a diferite alimente a 8 celebrități
Celebritate prânz prânz 2 prânz 3 prânz 4 media s2
1
1 8 7 1 6 5,5 9,67
2 9 5 2 5 5,25 8,25
3 6 2 3 8 4,75 7,58
4 5 3 1 9 4,50 11,67
5 8 4 5 8 6,25 4,25
6 7 5 6 7 6,25 0,92
7 10 2 7 2 5,25 15,58
8 12 6 8 1 6,75 20,92
Media 8,13 4,25 4,13 5,75
General Linear Model
PRESUPUNEREA SFERICITĂȚII
Se calculează diferențele între diferitele perechi de valori înregistrate pentru fiecare participant și,
de asemenea, se calculează varianțele pentru fiecare set de diferențe.
Vedem că sfericitatea este îndeplinită când aceste varianțe sunt aproximativ egale.
VarianțaA–B ≈ VarianțaA–C ≈ VarianțaB–C
Sfericitatea poate fi evaluată folosind un test cunoscut sub numele de testul lui Mauchly, care
testează ipoteza că varianțele diferențelor dintre condiții sunt egale.
Dacă testul Mauchly este semnificativ (adică are probabilitatea asociată mai mică decât 0,05) putem
concluziona că sunt diferențe semnificative între varianțele diferențelor și, astfel, condiția sfericității
nu este îndeplinită (ne îngrijorăm cu privire la valorile rapoartelor F).
Dacă testul Mauchly nu este semnificativ (adică p>0.05) atunci este rezonabil să concluzionăm că
varianțele diferențelor nu sunt semnificativ diferite (sunt aproximativ egale)
General Linear Model
Ce facem dacă ipoteza de sfericitate nu este îndeplinită?
Sunt câteva corecții care pot fi aplicate pentru a obține o valoare validă a raportului F.
1. Corecția Greenhouse–Geisser (în mod obișnuit notată cu ̂ ) variază între 1/(k−1), unde k este
numărul de condiții de măsuri repetate, și 1.
Cu cât este mai apropiat ̂ de 1, cu atât sunt omogene varianțele diferențelor, și prin urmare datele
sunt mai aproape de a fi sfericehence. De exemplu, într-o situație în care sunt 5 condiții cea mai
mică valoare a lui ̂ va fi 1/(5-1) sau 0.25 (cunoscută ca limita inferioară a sfericității)
2. Huynh și Feldt, propun o corecție mai puțin conservatoare correction (de obicei notată cu ).
3. Utilizarea unui alt test decât F: analiza multivariată a varianței, MANOVA sau analiza datelor cu
model multinivel.
General Linear Model
CUM ESTE MĂSURATĂ SFERICITATEA?
Tabelul 1. Date ipotetice pentru a ilustra calcularea varianțelor diferențelor dintre condiții
SS M = nk ( yk − y )
k 2
n =1
SS M = 83,13
df M = 4 − 1 = 3
SS R = SSW − SS M
SS R = 236,50 − 83,13
SS R = 153,37
df R = dfW − df M = 24 − 3 = 21
General Linear Model
E. Media pătratelor
SS M 83,13
MS M = = = 27 ,71
df M 3
SS R 153,37
MS R = = = 7 ,30
df R 21
F. Raportul F
MS M 27 ,71
F = = = 3,79
MS R 7 ,30
1.Introduceți/încărcați datele.
2. Explorați datele: estimați indicatorii statistici descriptivi și testați sfericitatea dacă nu este
utilizată funcția lme() – utilizată în estimarea modelelor multinivel.
3. Construiți sau alegeți contraste: este necesar să decideți ce contraste trebuie să utilizați și să le
specificați pentru toate variabilele independente din analiză.
4. Estimați ANOVA/modelul multinivel: trebuie să realizați analiza principală. În funcție de
rezultatele din pașii anteriori este posibil să aveți nevoie de teste robuste.
5. Calculați contrastele sau testele post hoc: după realizarea analizei principale se poate continua
cu testele post hoc sau cu rezultatele contrastelor. Metoda exactă aleasă depinde de rezultatele
obținute la punctul 2.
General Linear Model
attach(Repd)
Repd
longRepd=melt(Repd, id="participant", measured=c("m1","m2", "m3", "m4"))
names(longRepd)=c("participant", "meal", "time")
longRepd$meal=factor(longRepd$meal, labels=c("m1", "m2", "m3", "m4"))
longRepd
by(longRepd$time, longRepd$meal, stat.desc)
c1<-c(1,-1,-1,1)
c2<-c(0,-1,1,0)
c3<-c(-1,0,0,1)
contrasts<-cbind(c1,c2,c3)
contrasts
ModelA=ezANOVA(data=longRepd, dv=.(time), wid=.(participant), within=.(meal), detailed=TRUE,
type=3)
ModelA
General Linear Model
attach(Repd)
Repd
longRepd=melt(Repd, id="participant", measured=c("m1","m2", "m3", "m4"))
names(longRepd)=c("participant", "meal", "time")
longRepd$meal=factor(longRepd$meal, labels=c("m1", "m2", "m3", "m4"))
longRepd
Datele sunt transformate din formatul inițial într-un format lung, conform posibilităților de analiză din
R.
Cadrul nou de date conține o coloană cu persoana participantă, o coloană cu tipul de alimente pe care
le primesc la mesă și o coloană cu timpul necesar pentru a digera alimentele de la masa.
General Linear Model
Datele în formatul inițial
General Linear Model
by(longRepd$time, longRepd$meal, stat.desc)
c1<-c(1,-1,-1,1)
c2<-c(0,-1,1,0)
c3<-c(-1,0,0,1)
contrasts<-cbind(c1,c2,c3)
contrasts
ModelA=ezANOVA(data=longRepd, dv=.(time), wid=.(participant), within=.(meal), detailed=TRUE,
type=3)
ModelA
Se estimează indicatorii statistici descriptivi pentru variabila timpul necesar pentru a digera alimentele
corespunzătoare fiecărei mese.
Sunt înregistrate contrastele necesare pentru a realiza comparațiile planificate și apoi acestea sunt
prezentate.
Se estimează modelul GLM - ANOVA cu măsurări repetate.
General Linear Model
ModelA=ezANOVA(data=longRepd, dv=.(time), wid=.(participant), within=.(meal), detailed=TRUE,
type=3)
dv: variabila cantitativă ce reprezintă timpul de a digera alimentele de la diferite tipuri de mese
wid: variabila care identifică unitățile de înregistrare care participă la măsurări repetate determinate
de diferite mese. Aici este vorba de participant.
within: o variabilă (sau mai multe) predictor pentru care s-au efectuat măsurări repetate. In acest caz
este reprezentată de tipurile de masă (alimente servite la masa).
between: o variabilă (sau mai multe) predictor ce sunt înregistrate între grupuri (această opțiune nu
este utilizată în cazul măsurărilor repetate ci în cazul măsurărilor mixte)
detailed: vizează prezentarea detaliată a rezultatului în cazul în care opțiunea aleasă este TRUE
type: este tipul III de sumă de pătrate
General Linear Model
General Linear Model
General Linear Model
General Linear Model
Interpretare:
1. Deoarece probabilitatea asociată testului lui Mauchly este mai mică decât riscul asumat de 5%
condiția de respectare a sfericității nu este îndeplinită.
Corecțiile prezentate sunt
- Greenhouse–Geisser (GGe) – 0,532 p value 0,062> 0,05 – metodă mai conservatoare
- Huynh și Feldt (HFe) – 0,665 p value 0,048 < 0,05
Limita inferioară a corecțiilor este 1/(4-1)=0,33
Limita superioară 1