Sunteți pe pagina 1din 11

1.

MODELUL LINIAR GENERAL UNIVARIAT

1.1.Concepte generale

Modelul liniar general univariat este o versiune a modelului liniar general adesea folosit pentru a pune în aplicare două proceduri statistice de lungă durată: Anova și Ancova. Toate acestea prezintă situația în care există o variabilă dependentă și una sau mai multe variabile independente.

Analiza variației Anova este folosită pentru a descoperi principalele efecte și interacțiuni ale variabilelor independente categoriale, numite și factori, asupra unei variabile dependente. Implementarea analizei variației în modelul liniar general sprijină, de asemenea, utilizarea variabilelor categoriale ca și variabile dependente. Un efect principal ar fi cel direct al unei variabile independente asupra variabilei dependente. Un efect de intercțiune este efectul comun a două sau mai multe variabile independente asupra variabilei dependente. Întrucât modelele de regresie nu se ocupă de interacțiuni decât dacă sunt adăugați termeni de interacțiune crossproduct, Anova are aceste efecte încorporate. În cazul în care există mai multe variabile dependente, modelul liniar general multivariat implementează analiza multiplă a variației Manova și, inclusiv, o variantă care sprijină folosirea variabilelor de control ca și covariate, Mancova.

Statistica cheie în analiza variației este reprezentată de testul F, un test al diferenței mediei de grup, care testează dacă media în cadrul grupurilor de valori formate ale variabilei independente (sau combinațiile de valori pentru mai multe variabile independente) diferă și nu este la întâmplare. În cazul în care aceasta nu diferă semnificativ, se deduce faptul că variabila sau variabilele independente nu au niciun efect asupra variabilei dependente. În caz contrar când există legătură în general între variabila dependente și cele independente, se folosesc mai multe teste de comparație a semnificativității pentru a putea vedea care din variabilele independente creează o interacțiune puternică. Dacă datele implică măsuri repetate ale aceleiași variabile, testul F se calculează diferit față de obișnuitul Between-Groups, dar logica inferenței este acceași.

Este de reținut faptul că analiza variației testează ipoteza nulă că mediile grupurilor nu diferă. Nu este un test de diferențe în variații ci, mai degrabă, unul care presupune omogenitatea relativă a

varianțelor. Astfel, unele ipoteze-cheie ale analizei variației ar fi că grupurile formate de

variabila independentă sau variabilele indpendente sunt relativ egale ca și mărime și au variații

similare asupra variabilei dependente (omogenitatea varianțelor). În modelul de regresie, Anova

este o procedură parametrică ce presupune normalitatea variabilelor multiple, adică o distribuție

normală pentru fiecare categorie de valoare a variabilei sau variabilelor independente.

Analiza covariației Ancova este folosită pentru a testa principalele efecte și interacțiuni ale

variabilelor categoriale asupra unei variabile dependente continue, controlând efectele altor

variabile continue selectate care covariază cu variabila dependentă. Variabila de control se

numește covariată. Pot exista mai multe covariate. De asemenea, se pot efectua comparații

planificate sau post-hoc pentru a vedea care dintre valorile unui factor contribuie cel mai mult la

explicarea variabilei dependente. Ancova folosește regresia buit-in utilizând covariatele pentru a

previziona variabila dependentă, apoi face o analiză a variației Anova asupra reziduurilor

(variabilele previzionate-variabila dependentă actuală) pentru a vedea dacă factorii sunt în

continuare semnificativi în raport cu variabila dependentă după ce variația covariatelor a fost

eliminată. Numărul maxim de covariate care poate fi procesat în SPSS este 10. Ancova este

folosită în trei scopuri:

În modele cvasi-experimentale pentru a elimina efectele variabilelor care modifică relația ă relația

variabilelor categoriale independente asupra variabilei dependente;

În modele experimentale pentru a controla factorii care nu pot fi aleatori dar care pot fi mă surați pe o scal ă interval. Deoarece “randomizarea” în principiu controleaz ă toate variabilele ăsurați pe o scală interval. Deoarece “randomizarea” în principiu controlează toate variabilele nemăsurabile, adăugarea covariatelor unui model este rară sau deloc necesară în cercetarea experimentală. Dacă se adaugă o covariată și este necorelată cu variabila independentă, este dificil de interpretat deoarece este deja controlată prin randomizare. În cazul în care covariata este corelată cu variabila independentă, atunci includerea acesteia va conduce cercetătorul spre a subestima efectul dimensiunii variabilelor independente;

În modele de regresie pentru a potrivi regresiile în cazul în care există variabile ă variabile

independente atât categoriale cât și de tip interval. (Acest ultim scop a devenit deplasat

prin regresia logistică și alte metode.)

Toate acestea au scopul de a reduce termenul de eroare din model. Ca și alte proceduri de

control, Ancova poate fi văzzută ca o formă de analiză “what if”, întrebându-ne ce s-ar întâmpla

dacă toate cazurile ar marca în mod egal numărul de covariate, astfel încât efectul factorilor

asupra covariatelor să poată fi izolat. Ancova poate fi utilizată în toate modelele Anova și aplică aceleași ipoteze.

CAPITOLUL 2. MODELUL LINIAR GENERAL MULTIVARIAT

2.1. Concepte generale

Modelul general liniar multivariat furnizează analiza de regresie și analiza variației pentru mai multe variabile dependente și unul sau mai mulți factori. Variabilele de tip factor divid populația în grupuri. Cu ajutorul acestui model se pot testa ipoteze cu privire la efectele variabilelor independente asupra variației mediilor de grup ale unei distribuții comune a variabilelor dependente. Se pot investiga atât interacțiunile dintre factori, cât și efectele factorilor individuali. În plus, pot fi incluse efectele covariatelor și interacțiunile acestora cu factorii. În analiza de regresie, variabilele independente sau predictorii sunt specificate ca și covariate.

Se pot testa atât modele echilibrate, cât și neechilibrate. Un model este echilibrat dacă fiecare

celulă din acesta conține același număr de cazuri. Aceste matrici sunt numite SSCP (sume de

pătrate și produse secundare). În cazul în care apare mai mult de o variabilă dependentă, analiza

multivariată a variației cu ajutorul urmei Pillai, testului lambda Wilks, urmei Hotelling și a celui

mai mare criteriu de rădăcină cu aproximare a statisticii F, furnizeala fel de bine ca și analiza

variației univariată teste pentru fiecare variabilă dependentă. În plus față de ipotezele de

testare, procedura general liniară multivariată oferă estimări ale parametrilor.

Utilizate în mod obișnuit, contrastele a priori sunt disponibile pentru a efectua testarea

ipotezelor. În plus, după testul de semnificație globală F, se pot utiliza teste post hoc pentru a

evalua diferențele dintre mediile specificate. Estimațiile medii marginale oferă estimări ale

valorilor medii previzionate pentru celulele din model și graficele profil sau graficele de

interacțiune permit vizualizarea cu ușurință a unor relații ale variabilelor din model. Cele mai

multe teste de comparație post hoc sunt efectuate pentru fiecare variabilă separat.

Reziduurile, valorile prezise, distanța Cook și valorile leverage(levier) pot fi salvate ca noi

variabile în baza de date pentru verificarea ipotezelor. De asemenea, sunt disponibile matricile

reziduurilor SSCP care este o matrice pătratică a sumelor de pătrate și a produselor secundare

ale rezidurilor, o matrice de covarianță reziduală care este împărțită în funcție de gradele de

libertate ale reziduurilor și care este forma standardizată a matricii de covarianță reziduală.

Măsura WLS permite specificarea unei variabile folosite pentru a da diferite observații la

măsura celor mai mici pătrate (WLS), probabil pentru a compensa diferitele precizii de

măsurare.

De exemplu, un producător de materiale plastice măsoară trei proprietăți ale unei folii de

plastic: rezistența la rupere, luciul si opacitatea. Două rate de extrudare și două cantități diferite

de aditiv sunt încercate iar cele trei proprietăti sunt măsurate în conformitate cu fiecare

combinație a vitezei de extrudare și a cantității de aditiv. Producătorul constată că rata de

extrudare și cantitatea de aditiv produce individual rezultate semnificative doar că

interacțiunea dintre cei doi factori nu este semnificativă.

Metode: Tipul I, Tipul II, Tipul III și Tipul IV al sumelor pătratelor pot fi folosite pentru a evalua

diferite ipoteze.

Statistici: Testele de rang post hoc și comparații multiple: least significant difference,

Bonferroni, Sidak, Scheffe, Ryan-Einot-Gabriel-Welsch multiple F, Ryan-Einot-Gabriel-Welsch multiple range, Student-Newman-Keuls, Tukey's honestly significant difference, Tukey's b, Duncan, Hochberg's GT2, Gabriel, Waller Duncan t test, Dunnett (one-sided and two-sided), Tamhane's T2, Dunnett's T3, Games-Howell și Dunnett's C.

Statistici descriptive: mediile observate, deviațiile standard și “counts” pentru toate variabilele dependente din toate celulele; testul de omogenitate a variației Levene, testul omogenității

matricilor de covarianță a variabilelor dependente M Box și testul de sfericitate Bartlett.

Grafice: Spread vs level, residual și profile.

Date: Variabilele dependente ar trebui să fie cantitative. Factorii sunt variabile categoriale și pot avea valori numerice sau string. Covariatele sunt variabile cantitative și sunt legate de variabila dependentă.

Ipoteze: Pentru variabilele dependente, baza de date este reprezentată de un eșantion aleator de

vectori dintr-o populație normală cu variabile multiple; în populație, matricile de varianță-

covarianță sunt la fel pentru toate celulele. Analiza de varianță este robustă la abaterile de la

normalitate cu toate că datele trebuie să fie simetrice. Pentru a verifica ipotezele, se pot utiliza testele de omogenitate a varianțelor inclusiv M Box și graficele spread vs level. De asemenea, se pot examina și reziduurile cu graficele acestora.

Proceduri conexe: Se utilizează procedura Explore pentru a examina datele înainte de a face

analiza variației. Pentru o singură variabilă dependentă se utilizează procedura general liniară

univariată. Dacă se măsoară aceleași variabile dependente de mai multe ori pentru fiecare

subiect, se utilizează General Linear Model Repeated Measures.

2.2. Specificarea modelului general liniar multivariat

Un model factorial conține toate efectele principale ale factorilor, toate efectele principale ale covariatelor precum și toate interacțiunile dintre factori. Modelul nu conține interacțiuni între covariate. Se selecteaza opțiunea Custom pentru a specifica doar un subset de interacțiuni sau pentru a specifica interacțiunile dintre factori și covariate. Trebuie indicați toți termenii care urmează să fie incluși în model. Modelul depinde de natura datelor. După selectarea opțiunii

Custom se pot selecta principalele efecte și interacțiuni care prezintă interes în analiză.

Pentru modelele echilibrate și neechilibrate fără valori lipsă se utilizează cel mai frecvent tip de

sumă a pătratelor și anume Tipul III. Constanta este inclusă în model de obicei. În cazul în care

se poate presupune că datele trec prin origine, se poate exclude constanta.

2.2.1. Construirea termenilor

Pentru factorii selectați și covariate:

Interacțiunea: creează termenul de interacțiune la cel mai înalt nivel al tuturor variabilelor selectate. Acest lucru ă termenul de interacțiune la cel mai înalt nivel al tuturor variabilelor selectate. Acest lucru este implicit.

Efectele principale: creează un termen de efecte principale pentru fiecare variabil ă ă un termen de efecte principale pentru fiecare variabilă

selectată. All 2-way: creează toate posibilele interacțiuni cu două direcții ale variabilelor

selectate. All 3-way: creează toate posibilele interacțiuni cu trei direcții ale variabilelor

selectate. All 4-way: creează toate posibilele interacțiuni cu patru direcții ale variabilelor

selectate. All 5-way: creează toate posibilele interacțiuni cu cinci direcții ale variabilelor selectate.

2.2.2. Suma pătratelor

Pentru model se poate alege un tip de sume de pătrate. Tipul III este cel mai frecvent utilizat și implicit.

Tipul I: Această metodă este cunoscută ca și descompunerea ierarhică a metodei sumei

pătratelor. Fiecare termen este ajustat în funcție de termenul pe care îl precede în model. Tipul I este utilizat în mod obișnuit pentru:

Un model echilibrat ANOVA în care orice efecte principale sunt specificate înainte de orice efecte de interacțiune de prim ordin, orice efecte de interacțiune de prim ordin sunt orice efecte de interacțiune de prim ordin, orice efecte de interacțiune de prim ordin sunt specificate înainte de orice efecte de interacțiune de ordinul doi și așa mai departe.

Un model de regresie polinomială în care orice termeni de ordin inferior sunt specificați înainte de orice termeni de ă în care orice termeni de ordin inferior sunt specificați înainte de orice termeni de ordin superior.

Un model pur cuibă rit în care primul efect specificat este cuib ă rit în al doilea efect ărit în care primul efect specificat este cuibărit în al doilea efect specificat, al doilea în al treilea și așa mai departe.

Tipul II: Această metodă calculează sumele pătratelor ale unui efect în modelul ajustat pentru toate celelalte efecte adecvate. Un efect adecvat este unul care corespunde tuturor efectelor care nu conțin efectul examinat. Metoda de Tip II este frecvent utilizată pentru:

Un model ANOVA echilibrat;Metoda de Tip II este frecvent utilizat ă pentru: Orice model care are doar efectele principale

Orice model care are doar efectele principale ale factorului;frecvent utilizat ă pentru: Un model ANOVA echilibrat; Orice model de regresie; Un model pur cuib

Orice model de regresie;model care are doar efectele principale ale factorului; Un model pur cuib ă rit. Tipul III:

Un model pur cuibă rit. ărit.

Tipul III: Această metodă calculează sumele pătrate ale unui efect în proiectarea ca sume de

pătrate, ajustat pentru orice alte efecte care nu conțin efectul și ortogonal (dacă este cazul)

oricăror efecte care conțin efectul. Tipul III are un avantaj major în care sumele pătrate sunt

invariabile în raport cu frecvențele din celule atâta timp cât forma generală a estimabilității

rămâne constantă. Prin urmare, acest tip de sume de pătrate este adesea considerat util pentru un

model neechilibrat fără celule lipsă. Într-un model factorial fără nicio celulă lipsă, această

metodă este echivalentă cu tehnica sumei pătratelor ponderată Yates. Tipul III este frecvent utilizat pentru:

Orice modele enumerate la Tipul I și Tipul II; e la Tipul I și Tipul II;

Orice model echilibrat sau neechilibrat fă r ă celule lips ă . ără celule lipsă.

Tipul IV: Această metodă este făcută pentru o situație în care există celule lipsă. Pentru orice

efect F din model, dacă F nu este conținut în niciun alt efect, atunci Tipul IV=Tipul III=Tipul II.

Atunci când statistica F este conținută în alte efecte, Tipul IV distribuie constraste între

parametrii F la toate efectele de nivel superior echitabil. Tipul IV se utilizează frecvent pentru:

Orice modele enumerate la Tipul I și Tipul II;echitabil. Tipul IV se utilizeaz ă frecvent pentru: Orice model echilibrat sau neechilibrat cu celule lips

Orice model echilibrat sau neechilibrat cu celule lipsă. ă.

2.2.3. Contrastele în modelul general liniar multivariat

Contrastele sunt folosite pentru a testa dacă nivelurile de efect sunt semnificativ diferite unul de

celălalt. Se poate specifica un contrast pentru fiecare factor din model. Constrastele reprezintă combinații liniare ale parametrilor.

Testarea ipotezelor se bazează pe ipoteza nulă LBM=0 unde L este matricea coeficienților de

contrast, M este matricea de identitate care are dimensiunea egală cu numărul de variabile dependente, iar B este vectorul parametru. Când este specificat un contrast, o matrice L este creată astfel încât coloanele care corespund factorului sunt potrivite cu contrastul. Coloanele

rămase sunt ajustate astfel încât matricea L să fie estimabilă. În plus față de testul univariat care

utilizează statisticile F și cele de tip Bonferroni, intervalele de încredere simultane bazate pe distribuția Student t pentru diferențele de contrast din cadrul variabilelor dependente, testele multivariate folosesc și urma Pillai, lambda Wilks, urma Hotelling și cele mai mari criterii de rădăcină ale lui Roy.

Contrastele disponibile sunt deviația, simplă, diferența Helmert și cele polinomiale. Pentru

contrastele deviației și constrastele simple se poate alege categoria de referință să fie ultima sau prima.

Tipuri de contraste:

Deviație: compar ă media fiec ă rui nivel cu excepția unei categorii de referinț ă , compară media fiecărui nivel cu excepția unei categorii de referință, la media tuturor nivelurilor. Nivelurile factorului pot fi în orice ordine.

Simple: compar ă media fiec ă rui nivel cu media unui anumit nivel. Acest tip de compară media fiecărui nivel cu media unui anumit nivel. Acest tip de contrast

este util atunci când există un grup de control. Se poate alege prima sau ultima categorie

de referință.

Diferență : compar ă media fiec ă rui nivel cu excepția primului, la media nivelurilor ă: compară media fiecărui nivel cu excepția primului, la media nivelurilor anterioare. Uneori sunt numite contraste Helmert.

Helmert: compar ă media fiec ă rui nivel al factorului cu excepția ultimului la media nivelurilor compară media fiecărui nivel al factorului cu excepția ultimului la media nivelurilor ulterioare.

Repetate: compar ă media fiec ă rui nivel cu excepția ultimului la media nivelului urm ă compară media fiecărui nivel cu excepția ultimului la media nivelului următor.

Polinomiale: compar ă efectele liniare, efectul p ă tratic, efectul cubic și așa mai departe. Primul compară efectele liniare, efectul pătratic, efectul cubic și așa mai departe. Primul grad de libertate conține efectul liniar în toate categoriile; al doilea grad de libertate; efectul pătrat; și așa mai departe. Aceste contraste sunt adesea folosite pentru a estima tendințele polinomiale.

2.2.4. Graficele Profile

Graficele profile sunt utile pentru compararea mediilor marginale din model. Un grafic profile este un grafic linie în care fiecare punct indică media marginală estimată a unei variabile

dependente ajustată pentru orice covariată la un nivel al unui factor. Nivelurile celui de-al doilea factor pot fi folosite pentru a face linii separate. Fiecare nivel al unui al treilea factor poate fi folosit pentru a face un grafic separat. Toți factorii sunt disponibili pentru grafice. Graficele profil sunt create pentru fiecare variabilă dependentă.

Un grafic profil al unui factor arată dacă mediile marginale estimate sunt în creștere sau în

scădere între niveluri. Pentru doi sau mai mulți factori, liniile paralele arată că nu există nicio

interacțiune între factori ceea ce înseamnă că se pot investiga nivelurile doar pentru un singur factor. Liniile care nu sunt paralele indică o interacțiune.

După ce un grafic este specificat prin selectarea factorilor de pe axa orizontală și opțional factorii de pe linii separate, iar în cazul graficelor separate, graficul trebuie să fie adăugat la lista graficelor.

2.2.5. Testele de comparație multiple Post Hoc

Odată ce s-a stabilit că există diferențe între medii, testele post hoc și comparațiile între mai multe perechi pot determina ceea ce înseamnă că sunt diferite. Comparațiile sunt realizate pe valori neajustate. Testele post hoc sunt efectuate pentru fiecare variabilă dependentă separat.

Testele de diferență semnificativă Bonferroni și Tukey sunt utilizate în mod obișnuit în comparații multiple. Testul Bonferroni bazat pe statistica Student, reglează nivelul de smnificație observat din cauza faptului că sunt făcute comparații multiple. Testul t a lui Sidak ajustează, de asemenea, nivelul de semnificație și prevede limite mai stricte decât testul Bonferroni. Testul de diferență semnificativă Tukey folosește gama de statistici standardizate pentru a face toate comparațiile între grupuri și rata erorii a perechilor de experimente la rata erorii de colectare pentru toate perechile comparate. La testarea unui număr mare de perechi de medii, testarea semnificativă de diferență Tukey este mai puternică decât testul Bonferroni. Pentru un număr mic de perechi, testul Bonferroni este mult mai puternic.

2.3. Opțiunile modelului general liniar multivariat

2.3.1. Save

Există posibilitatea de a salva valorile previzionate de model, reziduurile și măsurile aferente ca noi variabile în editorul de date.

Valori previzionate: Valorile pentru care modelul face previziuni pentru fiecare caz în parte:

Nestandardizat: valoarea previzionată de model pentru fiecare variabil ă dependent ă ; ă de model pentru fiecare variabilă dependentă;

Ponderată : disponibil ă numai în cazul în care o variabil ă WLS a fost ă: disponibilă numai în cazul în care o variabilă WLS a fost selectată anterior;

Eroare standard: o estimare a abaterii stadard de la medie a variabilei dependente pentru cazurile

Eroare standard: o estimare a abaterii stadard de la medie a variabilei dependente pentru cazurile în care au aceleași valori ale variabilelor independente.

2.3.2. Afișare

Se selectează Descriptive statistics pentru a produce medii observate, abateri standard și se

calculează pentru toate variabilele dependente. Estimările efectelor de marire conferă o

valoare parțială eta-pătrat pentru fiecare efect și pentru fiecare parametru estimat. Statistica

eta-pătrat descrie proporția de variabiliate totală atribuită unui factor. Se selectează Observed

power pentru a obține puterea testului atunci când ipoteza alternativă este setată pe baza

valorii observate. Se selectează Parameter estimates pentru a produce estimări ale

parametrilor, erori standard, teste t, intervale de încredere și puterea observată pentru fiecare test. Se pot afișa ipoteza și eroarea matricii SSCP și reziduurile aceteia plus testul de sfericitate a matricei de covarianță reziduală a lui Bartlett.

2.3.3. Teste de omogenitate

Furnizează testul Levene al omogenității varianței pentru fiecare variabilă dependentă în toate combinațiile de nivel ale factorilor between-subjects, numai pentru factorii between- subjects. De asemenea, testele de omogenitate includ testul M Box al omogenității matricilor

de covarianță a variabilelor dependente în toate combinațiile de nivel ale factorilor between- subjects. Opțiunile Spread vs level și ale graficului reziduurilor sunt utile pentru verificarea ipotezelor cu privire la date. Această opțiune este dezactivată în cazul în care nu există

factori. Se selectează graficele reziduurilor pentru a produce grafice ale reziduurilor

observate, previzionate și standardizate pentru fiecare variabilă dependentă. Aceste grafice

sunt utile pentru investigarea ipotezei de varianță egală. Se selectează Lack of fit test pentru

a verifica dacă relația dintre variabila dependentă și variabilele independente poate fi

descrisă în mod adecvat în model. Funcția generală estimată permite construirea ipotezelor

de testare personalizate. Rândurile oricărei matrici contrast a coeficienților reprezintă combinații liniare ale funcției generale estimate.

Se dorește reglarea nivelului de semnificație utilizat în testele posthoc și nivelul de încredere utilizat pentru construirea intervalelor de încredere. Valoarea specificată este, de asemenea, folosită pentru a calcula puterea observată pentru test. Atunci când se specifică un nivel de semnificație, nivelul asociat intervalelor de încredere este afișat în fereastra de dialog.