Sunteți pe pagina 1din 8

Statistică multivariată

Lucrarea nr. 4 — Analiza dispersională univariată -


Excel, SPSS
A. Noţiuni teoretice
Structura datelor
Valorile unei caracteristici X, sunt măsurate în k eşantioane independente, obţinute din
k populaţii. Populaţiile se consideră repartizate normal, cu mediile µ1, µ2, …, µk şi
dispersiile egale σ 12 = σ 22 = K = σ k2 , respectiv. Problema care se cere rezolvată este să
se stabilească dacă populaţiile pot fi considerate omogene din punctul de vedere al
caracteristicii X. Cum egalitatea dispersiilor este impusă, mai trebuie testată egalitatea
mediilor.
Observaţie. Pentru verificarea ipotezei de egalitate a dispersiilor se va utiliza un test adecvat
(De exemplu, Levene). În cazul în care ipoteza normalităţii nu este îndeplinită (sau nu este
verificată), erorile care se introduc nu sunt importante în cazul în care volumul eşantioanelor
este suficient de mare (> 4) iar numărul grupurilor este relativ mic. Există şi teste de egalitate
a mediilor care se pot aplica şi în cazul respingerii ipotezei de egalitate a dispersiilor: Brown -
Forsythe, Welch.
De amintit şi că o reprezentare grafică de tip boxplot poate oferi o imagine intuitivă în ceea ce
priveşte egalitatea dispersiilor.
Formal, dispunem de k grupuri de valori, de volume n1, n2, …, nk, respectiv, notate cu
A1, A2, …, Ak. În sensul discuţiei generale, se poate considera că A1, A2, … sunt
categoriile unei variabile (de obicei nominale) care face deosebirea dintre grupuri.
Aceasta este variabila independentă a analizei. Variabila X este variabila dependentă,
variabila după care se compară populaţiile..
Variaţia datorată diferenţelor dintre grupuri este definită ca variaţie explicată —
partea din variaţia variabilei dependente explicată de variabila independentă. Cu alte
cuvinte, variaţia explicată este partea explicată de către împărţirea în grupuri. Variaţia,
care rămâne după separarea variaţiei explicate, este definită drept variaţie reziduală
(variaţia neexplicată) şi este datorată unor surse întâmplătoare de variaţie. Variaţie
explicată mai este denumită şi variaţie între grupuri (exterioară), iar cea reziduală –
variaţie în grupuri (internă).
Se poate considera că modelul de bază al analizei dispersionale afirmă că orice
valoare a variabilei X este obţinută prin cumularea a două efecte, unul sistematic şi
unul întâmpător:
xij = efect sistematic (al nivelului Ai ) + efect întâmplător (din nivelul Ai).

Formule de calcul
Mediile grupurilor
xi1 + xi 2 + K + x ini 1
ni
xi =
ni
=
ni
∑x
j =1
ij , i = 1,2, K , k

Media generală (considerând grupurile reunite)


k ni
1
x=
n1 + n 2 + K + n k
∑∑ x
i =1 j =1
ij .

Numărul total de observaţii


n = n1 + n 2 + K + n k .
Cu aceste notaţii, se defineşte variaţia din interiorul unui grup prin abaterile faţă de
media grupului, iar variaţia dintre grupuri prin abaterile de la media generală a
mediilor grupurilor. Se demonstrează că are loc relaţia
k ni k ni k ni

∑∑
i =1 j =1
( xij − x) 2 = ∑∑
i =1 j =1
( xij − xi ) 2 + ∑∑ ( x
i =1 j =1
i − x) 2 .

Relaţia se mai scrie


SPg = SPexp + SPrez

unde SPg este suma pătratelor globală, SPexp este suma pătratelor explicată, iar SPrez
este suma pătratelor reziduală, cu interpretarea de descompunere a variaţiei globale în
variaţia explicată şi variaţia reziduală.
Cele trei sume de pătrate au, respectiv, următoarele grade de libertate:
k
ν g = ∑ ni − 1 = n − 1, ν exp = n − k , ν rez = k − 1.
i =1
Prin raportarea unei sume de pătrate la numărul ei de grade de libertate se obţine
media pătratică. Astfel
SPg SPexp SPrez
s g2 = 2
; s exp = 2
; s rez = ,
νg ν esp ν rez

care caracterizează, respectiv, împrăştierile globală, explicată, reziduală.


2
Dintre acestea, s rez estimează absolut corect dispersia teoretică σ2, indiferent dacă
mediile de sondaj ale grupurilor estimează sau nu aceeaşi medie teoretică µ.
Dacă mediile de sondaj sunt omogene, atunci şi celelalte medii pătratice, s g2 şi s exp
2
,
sunt estimaţii absolut corecte ale dispersiei comune σ2. Dacă mediile de sondaj nu
sunt omogene (ca urmare a influenţei factorului sistematic de clasare în grupuri), s g2 şi
2
s exp nu vor mai estima absolut corect dispersia comună.
2 2
Prin urmare, între s rez şi s exp apar diferenţe semnificative când mediile grupurilor sunt
neomogene. Din acest motiv, analiza dispersională este uneori referită drept un test F
pentru o comparare multiplă.
Se construieşte astfel tabelul analizei dispersionale unifactoriale, ANOVA.
Sursa Suma Grade de Media
F
variaţiei pătratelor libertate pătratelor
Între grupuri 2
(externă)
SPexp νexp s exp 2
s exp
F=
În grupuri 2
s rez
2
s rez
(internă)
SPrez νrez

Globală SPg νg s g2
2 2
Testul F. Compararea cantităţilor s exp şi s rez se efectuează într-un test F cu ipotezele:
• H0 : µ1 = µ2 = … = µ k (mediile grupurilor sunt egale);
• H1 : există µ i ≠ µ j , (cel puţin două medii sunt neegale).
De remarcat că în ipoteza alternativă se afirmă existenţa unei diferenţe între două
medii, dar nu se pot specifica mediile diferite; nu se afirmă că toate mediile sunt
diferite două câte două.
În condiţiile ipotezei H0, cantitatea F calculată în tabelul ANOVA urmează o
repartiţie Fisher-Snedecor cu νexp şi νrez grade de libertate, Fν exp ;ν rez , ceea ce permite
efectuarea unui test statistic.
Decizia. Dacă, pentru un prag de semnificaţie α, fixat, valoarea F calculată este mai
mare sau egală cu quantila corespunzătoare a repartiţiei F,
F ≥ F1−α ;ν exp ;ν rez ,

atunci se respinge ipoteza nulă în favoarea ipotezei alternative. Cu alte cuvinte, în


acest caz se poate accepta ipoteza că mediile grupurilor nu sunt omogene, există cel
puţin două diferite între ele. Se conchide că diferenţele dintre grupuri justifică o parte
semnificativă a variaţiei variabilei dependente.
În caz contrar, nu se respinge ipoteza nulă a omogenităţii mediilor: împărţirea în
grupuri nu este semnificativă (grupurile sunt similare în privinţa variabilei
dependente).
Observaţie. Reamintim presupunerea iniţială că toate grupurile sunt caracterizate de
aceeaşi dispersie.

Modele ale analizei dispersionale unifactoriale


În funcţie de modul de stabilire a grupurilor pot să apară două situaţii, după cum sunt
considerate sau nu toate grupurile, de interes pentru cercetare, posibile.
1. Grupurile corespund categoriilor unei scale nominale (ordinale), toate
categoriile scalei fiind luate în considerare. În acest caz se spune că se studiază
întreaga populaţie a surselor. Situaţia apare şi atunci când, prin convenţie, se
consideră că se studiază întreaga populaţie a surselor. În acest caz se compară
grupurile între ele, se obţin concluzii valabile pentru fiecare grup în parte. Acesta
este modelul cu efecte sistematice (sau modelul 1).
2. Grupurile corespund unor surse alese întâmplător dintr-o populaţie a
surselor. In acest caz este important ca, pe lângă compararea grupurilor, să se
obţină informaţii despre mulţimea tuturor surselor. Este ca şi cum, din
multitudinea de categorii a unei scale nominale (ordinale) se aleg la întâmplare
câteva categorii, se obţin eşantioane din grupurile corespunzătoare categoriilor
selectate, prelucrarea se efectuează asupra acestor eşantioane. Acesta este modelul
cu efecte întâmpătoare (sau modelul 2).
Observatie. Indiferent de modelul aplicat, calculele care conduc la stabilirea tabelului
ANOVA sunt aceleaşi. Diferenţele între modele apar la concluzii şi la obţinerea altor
estimaţii.

B. Instrumente Excel, SPSS


Excel
Analiza dispersională unifactorială poate fi efectuată în Excel prin Tools - Data
Analysis: - Anova: Single Factor.
Datele trebuie să fie structurate pe coloane/linii astfel încât fiecare coloană/linie să
reprezinte eşantionul dintr-o subpopulaţie. Nu este necesar ca planul de experienţe să
fie echilibrat (eşantioanele pot avea volume diferite). În exemplul alăturat,
• cele patru coloane etichetate Optiune1 - Optiune4 reprezintă fiecare câte un
eşantion; etichetele pot fi gândite ca valori ale unei variabile discrete
(nominală în mod uzual), valori care identifică subpopulaţiile comparate.
• organizarea datelor în zona care începe din celula A1 este întâmplătoare (din
motive de prezentare).

Dialogul analizei este prezentat în continuare şi se poate remarca faptul că se indică la


Input Range întreg domeniul ocupat de date, faptul că prezenţa etichetelor în prima
linie este menţionată în Label in first row şi că în zona Alpha se poate preciza
valoarea pragului de semnificaţie (implicit este 0,05).
Adresa Output Range se referă la un domeniu din caietul existent unde se vor afişa
rezultatele, dar rezultatele pot fi scrise într-o nouă foaie de calcul sau un nou caiet.

Rezultatele conţin un prim tabel sintetic cu statisticile uzuale:


Tabelul ANOVA este

unde:
• Source of Variation reprezintă descompunerea în variaţie explicată (Between
Groups) şi variaţie neexplicată (Within Groups)
• SS este coloana sumelor de pătrate
• df este coloana gradelor de libertate asociate sumelor de pătrate
• MS conţine mediile sumelor de pătrate
• F este valoarea calculată a staticii F
• P-value, F crit sunt, respectiv, probabilitatea critică şi valoarea critică care
permit decizia în testul statistic: ipoteza nulă a grupurilor omogene se respinge
dacă p-value este mai mică sau egală cu pragul a ales sau dacă valoarea F
calculată este mai mare sau egală cu valoarea critică..

SPSS
Pentru a realiza o analiză dispersională unifactorială se dă comanda Analyze -
Compare Means - One-Way ANOVA... Este afişat dialogul

Se va trece în zona Factor variabila discretă care realizează caracterizarea grupurilor


de comparat iar în lista Dependent List variabilele continue pentru care se compară
grupurile. Fiecare variabilă continuă va produce un tabel ANOVA, deci se realizează
atâtea analize câte variabile sunt în lista variabilelor dependente.
Comanda Options (celelalte comenzi, Contrasts şi Post Hoc vor fi utilizate în
lucrarea următoare) afişează dialogul cu acelaşi nume, care permite fixarea
statisticilor care se calculează:
• Descriptive – indicatorii statistici ai variabilei dependente, total şi pe grupuri,
• Fixed and random effects – pentru a distinge la interpretare modelul cu efecte
sistematice sau nu,
• Homogeneity of variance test – testul
Levene de egalitate a dispersiilor,
• Brown-Forsythe şi Welch – teste de
egalitate a mediilor aplicabile în cazul
neegalităţii dispersiilor,
• Means plot – produce reprezentarea
grafică a mediilor grupurilor
comparate (interpretarea este relativă,
ca şi orice interpretare a unui grafic,
dar poate constitui un sprijin intuitiv
pentru rezultatele testelor statistice).

In arborele de structură a fişierului de


ieşire este de remarcat că intrarea
corespunzătoare este un nod de tip Oneway,
prezentat în continuare, în care sunt prezente
toate secţiunile, vizibile sau ascunse.
Dacă se vizualizează, prin dublu
click, secţiunea Notes, se va obţine un tabel
cu parametrii prelucrării: data prelucrării,
fişier de date, filtrare etc. Se poate vedea,
lucru util pentru crearea unor scripturi, sintaxa instrucţiunii care realizează aceeaşi
prelucrare.

Tabelul de statistici descriptive conţine, pentru fiecare grup determinat de valorile


variabilei factor, informaţiile:
• număr de cazuri (N),
• media (Mean),
• abaterea standard (Std. Deviation),
• eroarea standard a mediei (Std. Error),
• intervalul de încredere pentru medie (Confidence Interval for Mean)
• valorile extreme,
• statisticile specifice modelului de analiză solicitat (cu efecte sistematice sau cu
efecte întâmplătoare).

Dacă s-a solicitat testarea omogenităţii dispersiilor, se va aplica testul Levene,


rezultatele fiind sub forma:

în care Sig. reprezintă probabilitatea critică a testului (rotunjită la trei zecimale).


Tabelul ANOVA este sub forma:

afişându-se doar probabilitatea critică (p-value) în coloana Sig.


Dacă se solicită graficul mediilor, interpretarea este relativă, funcţie de scalele
utilizate, culori etc. Se pot însă vedea grupurile relativ apropiate, valorile extreme.
C. Lucrarea practică
1. Se salvează şi se deschide în Excel fişierul
http://thor.info.uaic.ro/~val/statistica/TVHours.xls
Datele privesc un studiu desfăşurat timp de 4 săptămâni în care s-a urmărit
numărul de ore de vizionare a trei tipuri de programe TV: filme, divertisment,
ştiri.
2. Să se analizeze setul de date TVHours.xls şi să se răspundă la următoarele
întrebări:
a. există diferenţe între bărbaţi şi femei în ceea ce priveşte numărul total
de ore de vizionare?
b. există diferenţe între bărbaţi şi femei în ceea ce priveşte numărul de ore
de vizionare pe categorii de programe?
c. pe total şi pe bărbaţi-femei separat, cele 4 săptămâni ale studiului
diferă
i. după numărul total al orelor de vizionare?
ii. după numărul de ore pe categorii de programe?
d. se împart subiecţii pe categorii de vârstă: 21-25, 26-30, 31-35. Să se
decidă dacă există deosebiri între cele trei categorii de vârstă definite
în ceea ce priveşte
i. numărul total al orelor de vizionare?
ii. numărul de ore pe categorii de programe?
3. Se va importa în SPSS fişierul TVHours.xls şi se va reface analiza în vederea
obţinerii răspunsurilor la întrebările 2-b, 2-d.
4. Se va deschide în SPSS fişierul cars.sav (fişierul de date se găseşte în folderul
aplicaţiei SPSS). Să se decidă dacă, între caracteristicile tehnice ale
autoturismelor considerate în studiul respectiv, există deosebiri după
localizarea producătorului (Europa, Japonia, America) atât pe ansamblul
perioadei considerate, cât şi pe ultimii 5 ani ai studiului.

S-ar putea să vă placă și