Sunteți pe pagina 1din 26

Introducere în analiza multivariată

Analiza de varianță (One-Way ANOVA)


Analiza multivariată
Scopul analizei multivariate este de a simplifica/ modela un set de date observate, analizând relaţiile dintre seturi de
variabile.
„Analiza multivariată, în sensul cel mai general,cuprinde toate tehnicile statistice care analizează simultan valorile mai
multor variabile pentru fiecare dintre obiectele sau cazurile din eşantion” (Culic, 2004: 65).
Într-un sens mai restrâns, în analiza multivariată „… relaţiile dintre variabile sunt de aşa natură încât diferitele efecte
ale variabilelor nu pot fi interpretate separat, fără a lua în considerare efectele celorlaltor variabile” (Culic, 2004: 66).

„Modul specific în care variaţia unui set de variabile influenţează variaţia altor variabile” (Culic, 2004: 66).

A simplifica înseamnă a reduce variabilitatea:

• a exprima o variabilă ca o funcţie a altor variabile (regresia);

• a grupa indivizii statistici (analiza cluster);

• a grupa variabilele (analiza factorială);

• a grupa cazurile şi categoriile variabilelor (analiza de corespondenţă).


Tehnici ne analiza multivariata
1.Tehnici de dependență – presupun desemnarea unor variabile drept dependente (explicate, determinate) şi a
altora drept independente (explicative, predictori). Sunt folosite pentru a înţelege forma şi măsura determinării
variabilei dependente de către variabilele independente.

Exemple: regresia liniară şi non-lineară, regresia multivariată, analiza path, analiza loglineară, regresie logistică,
analiza ANOVA şi MANOVA.

2. Tehnici de interdependență – nu presupune diferenţe între statutul ontologic al variabilelor. Analiza le implică
în mod simultan şi în acelaşi fel. Acestea sunt folosite pentru a identifica structura datelor, fie prin reducerea
variabilelor, fie prin gruparea obiectelor şi cazurilor, fie prin reprezentarea relaţiilor dintre obiecte şi atributele lor
pe o hartă perceptuală.

Exemple: analiza factorială, analiza cluster, scalarea multidimensională, analiza de corespondenţă/ de


omogenitate.
Sursa: Culic, 2004: 67-69
Analiza de varianţă: Când se foloseşte metoda?
Uneori dorim să răspundem la întrebări de tipul:

• Există diferenţe ale venitului mediu între persoanele cu ocupaţii diferite sau educaţie diferită?

• Există diferenţe în performanţa medie educaţională la copii proveniţi din medii sociale diferite?

• Există diferenţe între indicatorii KPI corespunzători indivizilor care lucreză în departamente
diferite ale aceleaşi companii?

În aceste cazuri dorim să evaluăm relaţia dintre valorile unei

• Variabile măsurate pe o scală cantitativă de intervale sau rapoarte (Y)

• In categoriile unei variabile categoriale (X)


Analiza de varianță este un test explorativ

• Prin care se testează dacă există dovezi în privinţa diferenţelor între un set
de medii ale unor grupuri.

• Dacă există suficiente dovezi în acest sens vom încerca să estimăm


mărimea acestor diferenţe între perechile de medii.
Problema de rezolvat
Dorim să evaluăm în ce măsură există diferenţe reale ale (a) variabilei cantitative în (b) grupurile formate
de variabila categorială

Să presupunem că avem două seturi de date


a. diferenţele sunt foarte clare:

b. diferenţele sunt mai puţin clare:

În cazul în care grupurile se suprapun parţial, care este criteriul utilizat pentru a decide dacă există
diferenţe? Mai ales dacă trebuie să luăm în calcul şi erorile de eşantionare, iar in acest caz media nu este
un indicator suficient al diferenţelor (ea se generalizează la nivelul populaţiei sub forma unui interval).
Formularea problemei de rezolvat
Ho: Ipoteza nulă
Media variabilei cantitative Y este aceeaşi pentru toate cele m grupuri formate
de variabila categorială X.
 = 1 = 2 = … = m

Ha: Ipoteza alternativă


Cel puţin două medii sunt diferite.
Logica analizei de varianţă: grupuri conturate şi depărtate

Soluţia constă în a evalua în ce măsură grupurile formate (de valorile variabilei


cantitative în clasele definite de variabila categorială) sunt diferite.
A. Gradul de eterogenitate a grupurilor (“mărimea” grupurilor)
B. Cât de depărtate sunt grupurile unele de altele
C. Împărţim distanţa dintre grupuri la etorogenitatea grupurilor

A. Mărimea grupurilor B. Distanţa dintre grupuri


A. “Mărimea” grupurilor: suma intragrupală a distanţelor pătratice
faţă de medie
Pentru a calcula mărimea unui grup am putea folosi distanţa dintre cea mai mică şi cea mai
mare valoare. Atunci însă mărimea grupului va fi influenţată de valorile extreme.

O altă strategie ar fi să calculăm toate distanţele faţă de un punct dat (de exemplu media) şi
să calculăm media acestor distanţe. Dar abaterea standard este tocmai abaterea medie a
valorilor de la medie. Prin urmare vom estima mărimea unui grup i cu ajutorul variantei:
2
  2
𝛴 ( 𝑌 Y1 𝑗 − 𝑌 𝑖 )
𝜎´ 𝑖 =
𝑛𝑖
Putem calcula mărimile tuturor grupurilor, iar apoi le putem aduna. Adică:
2 2 2
 
𝑤𝑠𝑠=𝛴 𝑌 − 𝑌
´ 𝛴 𝑌 − 𝑌
´
( 1 𝑗 1 ) ( 2 𝑗 Unde
+ …+ 𝛴 𝑌
2 ) m este numărul
+ − 𝑌
´
( 𝑚 total 𝑚de) grupuri.
𝑗

Astfel am obţinut o mărime sintetică a mărimi tuturor grupurilor: suma intragrupală a distanţelor pătratice faţă
de medie (Within Sum of Squares)
B. Distanţa dintre grupuri: suma intergrupală a distanţelor pătratice
faţă de medie
Pentru a calcula cât de depărtate sunt grupurile între ele:

calculam distanţele de la fiecare grup la un punct dat (media generală).


fiecare grup este sintetizat de valoarea sa medie.

Vom calcula, prin urmare, media distanţelor de la mediile fiecărui grup la media generală, adică o abaterea standard.
 𝜎 ´ )2
𝛴 ( 𝑌´ 1 − 𝑌
2
´ 𝑦=
𝑚 −1
Pentru că fiecare grup este posibil să aibă un număr diferit de cazuri, ponderăm aceste distanţele cu mărimea fiecărui
grup:
𝑌´  1   ´ )2
𝛴 𝑛𝑖 ( 𝑌´ 𝑖 − 𝑌
2
𝐵𝑆 𝑆 =
𝑌´  𝑚 −1
𝑌 ´ 2

Astfel am obţinut o mărime sintetică a distanţelor


𝑌 ´ 3
tuturor grupurilor unele faţă de altele: suma intergrupală
a distanţelor pătratice faţă de medie (Between Sum of
Squares)
Logica analizei de varianţă: succesul estimării

Soluţia constă în a estima:


A. Succesul pe care îl au mediile grupurilor în a aproxima media generală.
(în ce măsură variabila independentă categorială explică variaţia variabilei dependente)

B.Eroarea pe care o produce aproximarea valorilor fiecărui grup cu media


acestor grupuri.
(variabilitatea pe care variabila independentă categorială nu o mai explică)

C. Raportul dintre succes şi eroare.


A. Succesul predicţiei: suma intergrupală a distanţelor pătratice faţă
de medie
Să presupunem că:

- media variabilei cantitative (venitul subiectului) ar reprezenta media μ a unei populaţii, iar fiecare grup format de
 ´ 1 , 𝑌´ 2 , 𝑌´ 3 , … , 𝑌´ 𝑚
variabila categorială ar fi un subeşantion care aproximează această medie: 𝑌

Distribuţia de eşantionare a fiecărui Yi este o distribuţie centrată în jurul mediei și are o abatere standard (eroarea
standard): ⅇ=   𝜎
√𝑛

Adică noi putem calcula dispersia mediilor fiecărui grup de la media generală:
2
 𝜎 = 𝛴 ( 𝑌´ 𝑖 − 𝑌´ )
2
  𝑛 ∗ 𝛴 ( 𝑌
´ − 𝑌
´ )
2
 
𝜎 2
𝑛𝑖 ∗ 𝛴 ( 𝑌´ 𝑖 − 𝑌´ )  
𝜎
´ 2
=
𝐵𝑆𝑆
sau 2
𝜎 =
𝑖 ´ = sau 𝑦
𝑛 𝑚− 1 𝑚 −1
𝑦
𝑚− 1 𝑚− 1

Varianţa intergrupală ne indică succesul pe care îl avem


atunci când estimăm media generală cu ajutorul mediilor
fiecărui grup
B. Eroarea predicţiei: suma intragrupală a distanţelor pătratice faţă
de medie

Să presupunem că media variabilei cantitative reprezintă sintetic valoarea


grupului
În acest caz variabilitatea surprinsă de varianţă reprezintă o eroare: este
variabilitatea neexplicată atunci când recurgem la medie ca indice care
sintezează valorile grupul.

  = 𝑊𝑆𝑆
Suma tuturor acestor erori o constituie varianţa intragrupală: 𝜎
𝑁 −𝑚
C. Testarea Ho
Ipoteza nulă: valoare medie a variabilei Y este aceeaşi pentru toate cele m grupuri create de categoriile
variabilei X:  = 1 = 2 = … = m

Valoarea de test:

Varianţa estimată intergrupală BSS /(m-1)


F= F=
Varianţa estimată intragrupală WSS /(N-m)

F este mai mare cu cât:


- Distanţa dintre grupuri este mai mare sau dispersia mediilor grupurilor în jurul medie generale este mai mare
- Grupurile sunt mai mici sau eroarea reprezentată de dispersia valorilor în interiorul grupurilor este mai mică

Deci valori relativ mari a lui F reprezintă argumente puternice împotriva Ho.
Valoarea P este probabilitatea de a obţine o valoare F care este cel puţin la fel de mare ca cea observată de
noi dacă Ho ar fi adevărară. Prin urmare cu cât este mai mic p cu atât şansele ca Ho să fie adevărate sunt mai
mici. Pentru p < 0.05 putem respinge Ho.
C. Testarea Ho: Exemplu

Ipoteza nulă: valoare medie a variabilei “venit subiect” este aceeaşi pentru toate cele 3 grupuri create de
categoriile variabilei educaţie:  = superior = mediu = elementar
Suma intergrupală a pătratelor = 3659,794 grade de libertate = 3-1=2
Suma intragrupală a pătratelor = 15943,278 grade de libertate = 1353-3 = 1350

3659,794/2
F= 15943,278/1350

Ipoteza nulă se respinge: valoarea p = 0.000 este probabilitatea de a obţine o valoare F care este cel
puţin la fel de mare ca cea observată dacă Ho ar fi adevărară. Adică este o valoare foarte mică.
Se acceptă ipoteza alternativă: cel puţin două medii sunt egale. Care?
O soluţie incompletă: cine este diferit?
Testul F al analizei de varianţe verifică dacă toate mediile variabilei Y sunt egale în categoriile variabilei X.
Dacă nu sunt egale şi se confirmă ipoteza alternativă nu ştim care sunt categoriile în care mediile diferă.

De aceea putem compara toate mediile între ele pe rând. Însă şi aici pot interveni erorile de eşantionare:
dacă avem m categorii, atunci va trebui să facem m(m-1)/2 comparaţii
ne aşteptăm ca în medie doar 95% dintre intervalele de confidenţă în jurul diferenţelor să conţină valoarea reală.
Cu cât avem mai multe comparaţii de făcut cu atât este mai mare şansa de a face o inferenţă greşită.

Soluţia se găseşte în intervale de confidenţă simultane: atunci când dorim să facem un număr mare de
comparaţii folosim proprietatea că toate intervalele conţin cu o anumită probabilitate adevăratele
diferenţe între mediile grupurilor.
O soluţie incompletă: cine este diferit?
De exemplu:
• pentru o variabilă cu m=10 categorii va trebui să facem 10(9-1)/2=45 comparaţii între mediile în fiecare
categorie.
• noi ştim cu o probabilitate de 95% că cele 45 de diferenţe i-j conţin valoarea adevărată.
• de aceea vom construi intervale de confidenţă simultane pentru toate diferenţele pentru un anumit
nivel de probabilitate.

Au fost propuse mai multe moduri de abordare, precum: metoda Scheffé, metoda Tukey,
metoda Duncan, metoda Bonferonni, iar toate aceste teste se numesc teste post hoc de
comparaţie.

metoda Scheffé: (Yi-Yj) ± σ√(m-1)Fα(1/n1+1/n2)


- Valoarea Fα indică valoarea din distribuţia lui F pentru df 1 = m-1 şi df2 = N-m, pentru o probabilitate 100(1-
α). Adică Fα este valoarea critică pe care trebui să o depăşească testul F pentru a respinge ipoteza nulă.
Adică mediile 1 şi 2 sunt considerate a fi diferite dacă intervalul nu conţine valoarea 0.
- Valoarea aleasă α este rata de eroare pentru comparaţii multiple: probabilitatea ca cel puţin una dintre
cele m(m-1)/2 comparaţii să nu conţină diferenţele adevărate.
O soluţie incompletă: cine este diferit?
Pentru exemplu nostru iată intervale de confidenţă simultane.
Două medii vor fi considerate egale dacă intervalul de confidenţă simultan conţin valoarea 0 sau dacă
nivelul de probabilitate (sig.) >.05

În cazul nostru toate mediile sunt diferite.


Asumpţii ale analizei de varianţe

Pentru ca testul F să fie robust şi puternic este nevoie să fie testate trei asumpţii legate de date:

1. Distribuţia variabilei Y este normală în cele m grupuri formate de categoriile lui X

2. Abaterea standard a distribuţiei populaţiei în cele m grupuri este egală

3. Sunt selectate eşantioane aleatorii independente pentru cele m populaţii


Asumpţii: 1. Normalitatea în cele m categorii
Există mai multe metode de a testa normalitatea variabilei Y în categoriile variabilei X: histograma, box-plot-ul,
graficele P-P, Q-Q.
Logica de normalizarea variabilei numerice
În funcţie de forma distribuţiei variabilei Y se aplică o serie de transformări:
Asumpţii: 1. Normalitatea în cele m categorii
În cazul în care se constată încălcarea acestei asumpţii se încearcă transformarea variabilei: logaritm natural, ridicarea
la pătrat, etc.
În cazul variabilei venit am transformat prin logaritmare
Asumpţii: 2. Abaterea standard în cele m categorii
Această asumpţie este testată cu ajutorul testului Levene:

Ho: σ1=σ2=…=σm

Ha: cel puţin două abateri sunt diferite

Dacă L > F(α, m-1, N-m) atunci ipoteza nulă (Ho) este respinsă şi acceptată ipoteza alternativă (Ha). p este probabilitate
de a obţine o valoare F cel puţin cât cea observată (L). Dacă p<0.05 atunci ipoteza nulă se respinge.În acest caz se
respinge Ho, cel puţin două abateri sunt egale

Violările acestei asumpţii sunt mai moderate dacă mărimea subeşantioanelor este similară n1= n2 =…= nm
Referințe:

• Culic, I. (2004): Cap. 3, pp. 65-73

• Agresti, A. (2009), Cap. 12, pp. 369-378

• Rotariu, T. et. al. (1999, 2006): Cap. 12., pp. 254-271

• Moore, D., Nootz W. şi Fligner, M. (2018) – cap 27: One-Way Analysis of


Variance: Comparing Several Means, pp. 1132-1155
Data viitoare….

Analiza de regresie liniară simplă

S-ar putea să vă placă și