Analiza Multidimensionala c3, 14 Octombrie-2015

Analiza statistică multidimensională
Curs 3, 14 Octombrie 2015

Titular de curs: Conf.univ.dr.Cristina BOBOC
Email: cristina.boboc@csie.ase.ro
WEB page: www.cristinaboboc.wordpress.com
Analiza in componente principale
I. Definire şi utilizare
 este o metodă descriptivă

 pentru vizualizarea informaţiilor conţinute într-un tablou de date cantitative
 pentru vizualizarea corelaţiilor existente între variabile
 construieşte variabile noi, artificiale şi reprezentări grafice care permit
vizualizarea relaţiilor între variabile cât şi existenţa eventuală a unor
grupuri de indivizi sau grupuri de variabile
 II. În practică, se lucrează cu datele centrate şi reduse.
 Tabelul de date se transformă în Z = (zij)
x ij  x j
zij 
sj
Vectori și valori proprii
Vectori și valori proprii - standardizare
Vectori și valori proprii - standardizare
II. Principiul metodei
 ACP sintetizează variabilitatea iniţială a datelor privind cele p variabile iniţiale
în câteva componente necorelate între ele, numite componentele principale.
Fiecare componentă principală este extrasă ca o combinaţie liniară de
variabile iniţiale. Metoda constă în extragerea celui mai mic număr de
componente care preiau cea mai mare parte a varianţei datelor iniţiale, adică
în reducerea datelor iniţiale cu o pierdere minimă de „informaţie”.
 ACP ajută la obţinerea unei reprezentări apropiate a norului de n indivizi într-

un spaţiu de dimensiune mică, prin proiecţie
 Alegerea spaţiului de proiecţie se efectuează după criteriul următor: se caută

subspaţiul de dimensiune k astfel încât media pătratelor distanţelor între
proiecţii să fie cea mai mare posibilă, deci inerţia norului proiectat pe
subspaţiul Fk să fie maximală
III. Axe principale, factori principali,
componente principale
 Se caută dreapta din Rp care să treacă prin centrul de greutate şi să
maximizeze inerţia norului proiectat pe dreaptă.
 Prima componentă principală extrasă este acea combinaţie liniară de variabile care
preia maximul posibil din varianţa datelor iniţiale. Cea de-a doua componentă
principală preia mai puţina varianţă, şi aşa mai departe.
 Subspaţiul Fk, de dimensiune k este generat de cei k vectori proprii ai lui SM

asociaţi celor mai mari k valori proprii, unde S este matricea de covarianţă
Valorile proprii
 s 2 s12  s1n 
 1 1. Măsoară cantitatea de varianţă „explicată” de fiecare
s s 22  s 2n  componentă principală.
S 21

    2. Descresc odată cu indexul componentei, prima
s  s 2n 
componenta principală având valoarea proprie
 n1 s n 2 maximă.
3. Au suma egală cu p (numărul variabilelor iniţiale).
4. Exprimă „importanţa” componentelor principale
 Dacă primele k componente principale preiau 80% sau mai mult din varianţa
datelor iniţiale, atunci scopul reducerii dimensionalităţii va fi atins.
 Axele principale
 Axele principale sunt vectorii proprii ai matricii SM, cu M-norma egală cu 1
 Axele principale sunt M şi S-1 ortogonale
 SMa = a și a’Ma=1, 𝑎 ∈ 𝑅𝑝
 Factorii principali
 Fiecărei axe principale i se asociază factorul principal: u = Ma, element din Rp.
 Factorii principali sunt vectorii proprii M-1 normaţi ai lui MS
 Factorii principali sunt M-1 şi S ortogonali
 MSu = u
 Componentele principale
 Componentele principale sunt variabilele ci, elemente din Rn, definite cu ajutorul
factorilor principali ci = Xui
 ci este vectorul care conţine coordonatele proiecţiilor M-ortogonale ale indivizilor
pe axa definită de ai cu ai unitar
 În cazul în care se lucrează cu un tabel de date centrat şi redus Z, asociat lui X:
 metrica folosită va fi M = I
 matricea de covarianţă a datelor centrate şi reduse va fi matricea de corelaţie R
deci factorii principali vor fi vectorii proprii succesivi ai lui R,
aranjaţi după ordinea descrescătoare a valorilor proprii:
Ru = u cu u2 = 1
 Interes practic mai au doar componentele principale calculate drept combinaţii liniare
de variabilele centrate-reduse:
c = Zu
 c este variabila cea mai legată de xj în sensul sumei pătratelor corelațiilor:
p
 r
j1
2
( c, x j
)
ACP înlocuieşte variabilele iniţiale x1, x2, ..., xp,

care sunt corelate, prin variabile noi,
componentele principale c1, c2, ....,
combinaţii liniare ale variabilelor iniţiale xj,
necorelate între ele, de dispersie maximală şi
legate foarte mult de variabilele iniţiale xj,
în sensul păstrării informaţiei cât mai mult posibil
IV. Interpretarea rezultatelor
1. Calitatea reprezentărilor pe planurile principale 
 ACP: o reprezentare a indivizilor într-un spaţiu de

dimensiune mai mică decât p  problema este de
a aprecia pierderea informaţiei survenite şi de a şti
câţi factori trebuie reţinuţi
 Calitatea reprezentării pe un plan de
dimensiune k:
    
(1+2+...+k)/ (1+2+...+p)
 Aprecierea procentului de inerţie trebuie să facă să intervină numărul de variabile iniţiale.

Un procent de 10% nu are aceeaşi semnificaţie pe un tabel de 20 de variabile ca pe un tabel
de 100 de variabile.
 Când se lucrează pe date centrate reduse, se reţin componentele principale

corespunzătoare valorilor proprii superioare lui 1.
c
2. Corelaţii între componente şi variabilele iniţiale
Pentru a da o semnficaţie unei componente principale,
c, se calculează coeficienţii de corelaţie liniară r(c,xj) şi r(xj,c2) .xj
reţinându-se cei mai mari în valoare absolută
r(c,xj)=1/2uj r(xj,c1) c
Nu se vor lua în consideraţie punctele care

nu sunt apropiate de circumferinţă
c2
Contribuţia variabilei j la axa k:
r 2 (c k , x j ) x2
CTRV( j,k) =  (ukj ) 2 x6
k x3
x4
x5 c1
Proporția explicată de factorii principali din x1
variația unei variabile (Communality):
coeficientul de determinate R2
3. Reprezentarea indivizilor
c1 este foarte corelată cu o variabilă xj ~ indivizii care au o coordonată puternică
pozitivă pe axa 1 sunt caracterizaţi printr-o valoare a lui xj net superioară mediei
1
Contribuţia individului i la componenta ck : CTRI(i,k) = p i c k2i
k
 Când ponderile sunt toate egale cu 1/n, contribuţiile nu aduc mai multe informaţii
decât coordonatele
 Nu este de dorit ca un individ să aibă o contribuţie excesivă (mai mare ca

ponderea pi a individului) pentru că acesta ar fi un factor de instabilitate
V. Folosirea variabilelor și indivizilor
suplimentari
 Înglobarea indivizilor ilustrativi şi variabilelor pasive într-un ACP se
realizează astfel:
 pentru indivizii ilustrativi, este suficient a calcula:
c j  x ilustr  u j
 pentru variabilele pasive, trebuie distins intre variabilele pasive continue şi

variabilele pasive discrete :
 dacă variabila este continuă calculăm r(cjr(c
,y), y, fiind
y ) variabila pasivă.
j k
 dacă variabila este discretă atunci calculăm:
yk
unde este centrul de greutate pentru indivizii din categoria k.

Analiza Multidimensionala c3, 14 Octombrie-2015

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Analiza Multidimensionala c3, 14 Octombrie-2015

Încărcat de

Drepturi de autor:

Formate disponibile

Analiza statistică multidimensională

Curs 3, 14 Octombrie 2015

 este o metodă descriptivă

 II. În practică, se lucrează cu datele centrate şi reduse.

 Tabelul de date se transformă în Z = (zij)

 ACP ajută la obţinerea unei reprezentări apropiate a norului de n indivizi într-

 Alegerea spaţiului de proiecţie se efectuează după criteriul următor: se caută

 Subspaţiul Fk, de dimensiune k este generat de cei k vectori proprii ai lui SM

ACP înlocuieşte variabilele iniţiale x1, x2, ..., xp,

 ACP: o reprezentare a indivizilor într-un spaţiu de

 Aprecierea procentului de inerţie trebuie să facă să intervină numărul de variabile iniţiale.

 Când se lucrează pe date centrate reduse, se reţin componentele principale

Nu se vor lua în consideraţie punctele care

 Nu este de dorit ca un individ să aibă o contribuţie excesivă (mai mare ca

 pentru variabilele pasive, trebuie distins intre variabilele pasive continue şi

S-ar putea să vă placă și