Sunteți pe pagina 1din 6

Cuprins

Deducerea componentelor principale în spațiul variabilelor ......................................................... 1


Legătura dintre cele două abordări, în spațiul instanțelor și în spațiul variabilelor................... 2
Evaluarea rezultatelor ....................................................................................................................... 2
Criterii de alegere a numărului de axe ............................................................................................. 2
Scorurile ........................................................................................................................................... 4
Calitatea reprezentării unui punct .................................................................................................... 4
Contribuția indivizilor la varianța axelor ......................................................................................... 5
Comunalitățile .................................................................................................................................. 5
Calculul coeficienților de corelație .................................................................................................. 5

Deducerea componentelor principale în spațiul variabilelor


Analiza în componente principale realizată în spațiul variabilelor își propune identificarea directă a
componentelor principale astfel încât acestea să fie maxim corelate cu variabilele inițiale şi absolut necorelate între ele.
Etapa 1. Se determină prima variabilă sintetică C1 astfel încât aceasta să fie maxim corelată cu variabilele inițiale:
𝑚

max ∑ 𝑅2 (𝐶1 , 𝑋𝑗 )
𝐶1
𝑗=1
2
𝐶𝑜𝑣(𝐶1 , 𝑋𝑗 ) 1 𝐶1𝑡 𝑋𝑗 𝑋𝑗𝑡 𝐶1
𝑅 2 (𝐶1 , 𝑋𝑗 ) = =
𝑉𝑎𝑟(𝐶1 )𝑉𝑎𝑟(𝑋𝑗 ) 𝑛 𝐶1𝑡 𝐶1
𝑚 𝑚
2
1 𝐶1𝑡 𝑋𝑗 𝑋𝑗𝑡 𝐶1 1 𝐶1𝑡 (∑𝑚 𝑡
𝑗=1 𝑋𝑗 𝑋𝑗 )𝐶1 1 𝐶1𝑡 𝑋 𝑋 𝑡 𝐶1
∑ 𝑅 (𝐶1 , 𝑋𝑗 ) = ∑ = =
𝑛 𝐶1𝑡 𝐶1 𝑛 𝐶1𝑡 𝐶1 𝑛 𝐶1𝑡 𝐶1
𝑗=1 𝑗=1

1 𝐶1𝑡 𝑋𝑋 𝑡 𝐶1
Problema de optim: max
𝐶1 𝑛 𝐶1𝑡 𝐶1
𝐶1
Dacă notăm cu Ζ1 = , vectorul C1 normat (√𝐶1𝑡 𝐶1 este norma lui C1) ,
√𝐶𝑡1 𝐶1

1
max Ζ1𝑡 𝑋𝑋 𝑡 Ζ1
problema de optim va deveni: { Ζ1 𝑛
Ζ1𝑡 Ζ1 = 1
Această problemă se va rezolva în același fel ca problema de optim pentru prima etapă la abordarea geometrică a
modelului (capitolul precedent).
1
Soluția, Ζ1 o constituie vectorul propriu al matricei 𝑋𝑋 𝑡 , corespunzător celei mai mari valori proprii 1. Cum C1 și Ζ1
𝑛
1
diferă prin normă, rezultă că și C1 este vector propriu al matricei XX t corespunzător aceleiași valori proprii, 1.
n
Etapa 2. Se determină a doua componentă principală C2, maxim corelată cu variabilele observate şi absolut
necorelată cu prima componentă principală C1.
1 𝐶2𝑡 𝑋𝑋 𝑡 𝐶2
max 𝑡
Problema de optim este: {
𝐶2 𝑛 𝐶2 𝐶2
𝑅 (𝐶2 , 𝐶1 ) = 0
1
max Ζ2𝑡 𝑋𝑋 𝑡 Ζ2
Ζ2 𝑛
Făcând substituirea cu vectorul C2 normat, Z2, vom avea: {
Ζ2𝑡 Ζ2 =1
𝑍2𝑡 𝑍1 =0
deoarece R(C1 , C2 )  0 implică 𝑍2𝑡 𝑍1 = 0.
1
Prin rezolvarea modelului obținem Z2 și implicit C2, ca vectori proprii ai matricei XX t corespunzător celei de-a doua
n
1
valori proprii 2: XX t  C2   2  C2
n
Etapa k. În mod identic se determină variabila Ck maxim corelată cu variabilele inițiale dar absolut necorelată cu
celelalte variabile noi, Ci, i=1,k-1.
Problema care se rezolvă:
1
1 𝐶𝑘𝑡 𝑋𝑋 𝑡 𝐶𝑘 max Ζ𝑘𝑡 𝑋𝑋 𝑡 Ζ𝑘
max 𝑡
Ζ𝑘 𝑛
{ 𝐶𝑘 𝑛 𝐶 𝑘 𝐶𝑘 ↔{ Ζ𝑘𝑡 Ζ𝑘 = 1
𝑅(𝐶𝑘 , 𝐶𝑖 ) = 0, 𝑖 = 1, 𝑘 − 1
𝑍𝑘𝑡 𝑍𝑖 = 0, 𝑖 = ̅̅̅̅̅̅̅̅̅̅
1, 𝑘 − 1
1 1
Soluția o constituie vectorul propriu al matricei XX t corespunzător valorii proprii k: XX t  Ck   k  Ck .
n n

Legătura dintre cele două abordări, în spațiul instanțelor și în spațiul variabilelor


În spațiul indivizilor , la etapa k se determină vectorul propriu ak, care este vectorul unitar al axei k corespunzătoare
1
componentei Ck: 𝑋 𝑡 𝑋 ∙ 𝑎𝑘 = 𝛼𝑘 𝑎𝑘 .
𝑛

Înmulțind această relație la stânga cu X obținem:


1 1
𝑋𝑋 𝑡 𝑋 ∙ 𝑎𝑘 = 𝛼𝑘 𝑋 ∙ 𝑎𝑘 ↔ 𝑋𝑋 𝑡 𝐶𝑘 = 𝛼𝑘 𝐶𝑘
𝑛 𝑛

1
Relația obținută, XX t Ck   k Ck , este aceeași cu cea obținută la abordarea problemei în spațiul variabilelor,
n
considerând k=αk.
1 t
Numărul maxim de etape în spațiul indivizilor este poate fi m (gradul matricei X X ) iar în spațiul variabilelor
n
1
numărul maxim de etape poate fi n (gradul matricei X  X t ). Numărul valorilor proprii nenule este minim(m, n).
n

Evaluarea rezultatelor

Criterii de alegere a numărului de axe


Scopul primordial al analizei în componente principale este acela de a sintetiza varianța existentă la nivelul
întregului set de date, de a scoate în evidență ceea ce este semnificativ. Componentele principale sintetizează informații
independente intre ele dar nu la fel de importante. Astfel primul tip de informație, furnizat de componenta 1 este cel mai
important pentru că este cel care generează cantitatea maximă de variabilitate, al doilea tip este mai puțin important, șamd.
Problema care se pune este: câte tipuri de informație merită analizate, aprofundate? Geometric, problema constă în a
determina numărul de axe alese pentru reprezentarea multidimensională astfel încât acoperirea informațională să fie
satisfăcătoare.

1. Criteriul procentului de varianță explicată


O preocupare importantă în evaluarea calității analizei este determinarea cantității de varianță explicată prin
fiecare axă.
Deoarece criteriul de optim în alegerea axei k a fost maximizarea varianței pe axa respectivă, se poate scrie:
1
(ak )t X t Xak  (ak )t  k ak   k .
n
Varianța explicată prin axa k este deci k. Știm că varianța totală este m (tabelul X este standardizat). Prin urmare,
∑𝑘
𝑗=1 𝛼𝑗
procentul de varianță explicat prin axa k este k/m , iar procentul de varianță explicat prin primele k axe este 𝑣𝑘 = ∑𝑚
.
𝑖=1 𝛼𝑖
k 1


j 1
j

În cazul în care variabilele X sunt standardizate, vk = .


m
În mod similar, la analiza în spațiul variabilelor, corelația dintre componenta principală Ck şi variabilele vechi
este:
1 (Ck )t XX t Ck (Ck )t  k Ck
m

 R (C ,X
j 1
2
k j) 
n (Ck )t Ck

(Ck )t Ck
 k .

Deci valoarea proprie  k este tocmai suma coeficienților de determinare dintre componenta principală şi
variabilele observate.
Dacă se notează cu s numărul axelor semnificative, conform criteriului procentului de acoperire, s este prima
valoare pentru care vs>P, unde P este procentul de acoperire ales.

2. Criteriul lui Kaiser


Deoarece variabilele observate sunt standardizate și au varianță 1, apare firesc în această situație ca noile
variabile, componentele principale, să fie considerate importante, semnificative, în măsura în care cumulează mai multă
varianță decât o variabilă observată. Criteriul lui Kaiser recomandă reținerea acelor componente principale care au
varianță mai mare decât 1.

3. Criteriul Cattell
Acest criteriu se poate aplica în variantă grafică (vizual - Figura 2) sau analitică. În varianta grafică se determină
primul unghi dintre două pante consecutive mai mare decât 180⁰. Se rețin doar valorile proprii de până în acel punct,
inclusiv.
În varianta analitică se calculează diferențe de ordinul doi între valorile proprii:
εk = αk- αk+1, k = 1, m-1
δk= εk - εk+1 , k=1, m-2
şi se determină primul indice s astfel încât δs < 0. Acest indice corespunde unui unghi între două pante determinate de
dreptele (s-1,s) și (s, s+1) mai mare decât 180⁰.
Componentele principale semnificative după criteriul Cattell vor fi componentele C j, j = 1, s  1 .
Exemplu. In tabelul 1 sunt prezentate 8 valori proprii reprezentând varianțele a 8 componente principale rezultate în urma
aplicării metodei pe un set de date cu 8 variabile observate. Prima diferență δ mai mică decât 0 este -0.15 și corespunde
componentei 3 (Tabelul 2). Deci numărul de componente reținute este 4 (Marcajul albastru din figura 2).
Figura 2. Alegerea numărului de axe. Criteriul Cattell

Număr valoare proprie α ε δ


1 2.45 0.67 0.11
2 1.78 0.56 0.45
3 1.22 0.11 -0.15
4 1.11 0.26 0.03
5 0.84 0.24 -0.37
6 0.61 0.61 0.61
7 0.00 0.00
8 0.00
Tabelul 1. Alegerea numărului de axe. Criteriul Cattell

Scorurile
1
Scorurile sunt standardizări ale componentelor principale: 𝐶𝑘𝑠 = 𝐶𝑘 , k = 1,m, unde √𝛼𝑘 este abaterea
√𝛼𝑘
standard a componentei Ck.

Calitatea reprezentării unui punct pe o axă (valorile cosinus)

Componentele principale constituie o nou spațiu de reprezentare a indivizilor numit spațiul principal. Baza
acestui spațiu, vectorii unitari ai axelor, este constituită de vectorii proprii ak, k = 1,m, iar coordonatele indivizilor în
aceste noi axe sunt date de vectorii Ck, k =1,m. Așa cum am văzut un individ este reprezentat geometric de un punct într-
un spațiu m-dimensional. Pătratul distanțelor de la un punct de index i spre centrul de greutate al norului de date este
m

c
k 1
2
ik
2
. Un individ este cu atât mai bine reprezentat pe o axă oarecare aj cu cât cij are o valoare mai mare în raport cu

m
suma pătratelor proiecțiilor punctului pe celelalte axe, c
k 1
2
ik .

𝑐2
Calitatea reprezentării individului i pe axa aj este dată deci de raportul 𝑄𝑖𝑗 = ∑𝑚 𝑖𝑗 2 . Valoarea raportului este
𝑘=1 𝑐𝑖𝑘
egală cu pătratul cosinusului unghiului dintre vectorul punctului i și vectorul aj. În figura 2 este prezentată o situație în
care calitatea reprezentării instanței i pe axa a1 este mai mare decât calitatea reprezentării pe axa a2.

a2

ci2 i

α
O ci1 a1
Figura 2. Valoarea cosinus pentru o instanță i în raport cu axa a1 într-un spațiu bidimensional

Contribuția instanțelor la varianța axelor


2 1 2 2
𝑐𝑖𝑗 𝑐 1 𝑐𝑖𝑗
𝑛 𝑖𝑗
Contribuția unei instanței i la varianța axei aj este 𝛽𝑖𝑗 = ∑𝑛 2 = 1 𝑛 = ∙
𝑘=1 𝑐𝑘𝑗 ∑ 𝑐2 𝑛 𝛼𝑗
𝑛 𝑘=1 𝑘𝑗

Comunalitățile

Se numește comunalitate (communality) cantitatea de varianță explicată în comun de către un grup de


componentele principale. Am văzut că o componentă principală, Ck, are o varianță egală cu αk, iar suma coeficienților de
determinare dintre această componentă și variabilele observate este tot αk.
Distribuția varianței este următoarea:
C1 C2 ... Cm
2 2 2
X1 R(X ,C ) R(X ,C ) ... R(X ,C )
1 1 1 2 1 m
2 2 2
X2 R(X2,C1) R(X2,C2) ... R(X2,Cm)
2
... ... ... R(Xj,Ck) ...
2 2 2
Xm R(Xm,C1) R(Xm,C2) ... R(Xm,Cm)
Varianța α1 α2 αm
2
Cantitatea de varianță extrasă de componenta Ck de la variabila observată Xj este R(Xj,Ck) .
Comunalitățile se calculează la nivelul fiecărei variabile observate. Comunalitatea calculată pentru variabila Xj
și primele s componente principale este deci suma coeficienților de determinare dintre variabilă și aceste componente
2
principale: ∑𝑠𝑘=1 𝑅(𝑋𝑗 , 𝐶𝑘 ) . Pentru s = m această valoare este 1. Cele m componente principale preiau integral informația
din X.

Calculul coeficienților de corelație

Coeficienții de determinare dintre o variabilă observată Xj și componenta principală Cr se calculează astfel:


𝐶𝑜𝑣(𝑋𝑗 ,𝐶𝑘 ) 𝐶𝑜𝑣(𝑋𝑗 ,𝐶𝑘 )
𝑅(𝑋𝑗 , 𝐶𝑘 ) = = ,
𝜎𝑋𝑗 𝜎𝐶𝑘 √ 𝛼𝑘
deoarece Var(Ck)=k, iar Var(Xj ) =1.
Matriceal, obținem vectorul coeficienților de corelație dintre variabilele observate și Ck:
1 𝑡 1 𝑡
𝑋 𝐶𝑘 𝑋 𝑋𝑎𝑘 𝛼𝑘 𝑎𝑘
𝑅𝑘 = 𝑛 =𝑛 = = 𝑎𝑘 √𝛼𝑘 .
√𝛼𝑘 √𝛼𝑘 √𝛼𝑘
Aceste corelații sunt numite corelații factoriale (factor loadings).

S-ar putea să vă placă și