Documente Academic
Documente Profesional
Documente Cultură
max ∑ 𝑅2 (𝐶1 , 𝑋𝑗 )
𝐶1
𝑗=1
2
𝐶𝑜𝑣(𝐶1 , 𝑋𝑗 ) 1 𝐶1𝑡 𝑋𝑗 𝑋𝑗𝑡 𝐶1
𝑅 2 (𝐶1 , 𝑋𝑗 ) = =
𝑉𝑎𝑟(𝐶1 )𝑉𝑎𝑟(𝑋𝑗 ) 𝑛 𝐶1𝑡 𝐶1
𝑚 𝑚
2
1 𝐶1𝑡 𝑋𝑗 𝑋𝑗𝑡 𝐶1 1 𝐶1𝑡 (∑𝑚 𝑡
𝑗=1 𝑋𝑗 𝑋𝑗 )𝐶1 1 𝐶1𝑡 𝑋 𝑋 𝑡 𝐶1
∑ 𝑅 (𝐶1 , 𝑋𝑗 ) = ∑ = =
𝑛 𝐶1𝑡 𝐶1 𝑛 𝐶1𝑡 𝐶1 𝑛 𝐶1𝑡 𝐶1
𝑗=1 𝑗=1
1 𝐶1𝑡 𝑋𝑋 𝑡 𝐶1
Problema de optim: max
𝐶1 𝑛 𝐶1𝑡 𝐶1
𝐶1
Dacă notăm cu Ζ1 = , vectorul C1 normat (√𝐶1𝑡 𝐶1 este norma lui C1) ,
√𝐶𝑡1 𝐶1
1
max Ζ1𝑡 𝑋𝑋 𝑡 Ζ1
problema de optim va deveni: { Ζ1 𝑛
Ζ1𝑡 Ζ1 = 1
Această problemă se va rezolva în același fel ca problema de optim pentru prima etapă la abordarea geometrică a
modelului (capitolul precedent).
1
Soluția, Ζ1 o constituie vectorul propriu al matricei 𝑋𝑋 𝑡 , corespunzător celei mai mari valori proprii 1. Cum C1 și Ζ1
𝑛
1
diferă prin normă, rezultă că și C1 este vector propriu al matricei XX t corespunzător aceleiași valori proprii, 1.
n
Etapa 2. Se determină a doua componentă principală C2, maxim corelată cu variabilele observate şi absolut
necorelată cu prima componentă principală C1.
1 𝐶2𝑡 𝑋𝑋 𝑡 𝐶2
max 𝑡
Problema de optim este: {
𝐶2 𝑛 𝐶2 𝐶2
𝑅 (𝐶2 , 𝐶1 ) = 0
1
max Ζ2𝑡 𝑋𝑋 𝑡 Ζ2
Ζ2 𝑛
Făcând substituirea cu vectorul C2 normat, Z2, vom avea: {
Ζ2𝑡 Ζ2 =1
𝑍2𝑡 𝑍1 =0
deoarece R(C1 , C2 ) 0 implică 𝑍2𝑡 𝑍1 = 0.
1
Prin rezolvarea modelului obținem Z2 și implicit C2, ca vectori proprii ai matricei XX t corespunzător celei de-a doua
n
1
valori proprii 2: XX t C2 2 C2
n
Etapa k. În mod identic se determină variabila Ck maxim corelată cu variabilele inițiale dar absolut necorelată cu
celelalte variabile noi, Ci, i=1,k-1.
Problema care se rezolvă:
1
1 𝐶𝑘𝑡 𝑋𝑋 𝑡 𝐶𝑘 max Ζ𝑘𝑡 𝑋𝑋 𝑡 Ζ𝑘
max 𝑡
Ζ𝑘 𝑛
{ 𝐶𝑘 𝑛 𝐶 𝑘 𝐶𝑘 ↔{ Ζ𝑘𝑡 Ζ𝑘 = 1
𝑅(𝐶𝑘 , 𝐶𝑖 ) = 0, 𝑖 = 1, 𝑘 − 1
𝑍𝑘𝑡 𝑍𝑖 = 0, 𝑖 = ̅̅̅̅̅̅̅̅̅̅
1, 𝑘 − 1
1 1
Soluția o constituie vectorul propriu al matricei XX t corespunzător valorii proprii k: XX t Ck k Ck .
n n
1
Relația obținută, XX t Ck k Ck , este aceeași cu cea obținută la abordarea problemei în spațiul variabilelor,
n
considerând k=αk.
1 t
Numărul maxim de etape în spațiul indivizilor este poate fi m (gradul matricei X X ) iar în spațiul variabilelor
n
1
numărul maxim de etape poate fi n (gradul matricei X X t ). Numărul valorilor proprii nenule este minim(m, n).
n
Evaluarea rezultatelor
j 1
j
R (C ,X
j 1
2
k j)
n (Ck )t Ck
(Ck )t Ck
k .
Deci valoarea proprie k este tocmai suma coeficienților de determinare dintre componenta principală şi
variabilele observate.
Dacă se notează cu s numărul axelor semnificative, conform criteriului procentului de acoperire, s este prima
valoare pentru care vs>P, unde P este procentul de acoperire ales.
3. Criteriul Cattell
Acest criteriu se poate aplica în variantă grafică (vizual - Figura 2) sau analitică. În varianta grafică se determină
primul unghi dintre două pante consecutive mai mare decât 180⁰. Se rețin doar valorile proprii de până în acel punct,
inclusiv.
În varianta analitică se calculează diferențe de ordinul doi între valorile proprii:
εk = αk- αk+1, k = 1, m-1
δk= εk - εk+1 , k=1, m-2
şi se determină primul indice s astfel încât δs < 0. Acest indice corespunde unui unghi între două pante determinate de
dreptele (s-1,s) și (s, s+1) mai mare decât 180⁰.
Componentele principale semnificative după criteriul Cattell vor fi componentele C j, j = 1, s 1 .
Exemplu. In tabelul 1 sunt prezentate 8 valori proprii reprezentând varianțele a 8 componente principale rezultate în urma
aplicării metodei pe un set de date cu 8 variabile observate. Prima diferență δ mai mică decât 0 este -0.15 și corespunde
componentei 3 (Tabelul 2). Deci numărul de componente reținute este 4 (Marcajul albastru din figura 2).
Figura 2. Alegerea numărului de axe. Criteriul Cattell
Scorurile
1
Scorurile sunt standardizări ale componentelor principale: 𝐶𝑘𝑠 = 𝐶𝑘 , k = 1,m, unde √𝛼𝑘 este abaterea
√𝛼𝑘
standard a componentei Ck.
Componentele principale constituie o nou spațiu de reprezentare a indivizilor numit spațiul principal. Baza
acestui spațiu, vectorii unitari ai axelor, este constituită de vectorii proprii ak, k = 1,m, iar coordonatele indivizilor în
aceste noi axe sunt date de vectorii Ck, k =1,m. Așa cum am văzut un individ este reprezentat geometric de un punct într-
un spațiu m-dimensional. Pătratul distanțelor de la un punct de index i spre centrul de greutate al norului de date este
m
c
k 1
2
ik
2
. Un individ este cu atât mai bine reprezentat pe o axă oarecare aj cu cât cij are o valoare mai mare în raport cu
m
suma pătratelor proiecțiilor punctului pe celelalte axe, c
k 1
2
ik .
𝑐2
Calitatea reprezentării individului i pe axa aj este dată deci de raportul 𝑄𝑖𝑗 = ∑𝑚 𝑖𝑗 2 . Valoarea raportului este
𝑘=1 𝑐𝑖𝑘
egală cu pătratul cosinusului unghiului dintre vectorul punctului i și vectorul aj. În figura 2 este prezentată o situație în
care calitatea reprezentării instanței i pe axa a1 este mai mare decât calitatea reprezentării pe axa a2.
a2
ci2 i
α
O ci1 a1
Figura 2. Valoarea cosinus pentru o instanță i în raport cu axa a1 într-un spațiu bidimensional
Comunalitățile