Documente Academic
Documente Profesional
Documente Cultură
Analiza nu nu - da
corespondenţelor
Supervizată Regresia liniară da - da -
(explicativă) simplă şi multiplă
Regresia logistică - da da -
ANOVA/ - da da -
MANOVA
Analiza - da da da
discriminării
Tehnica arborilor da da - da
de decizie
(CART)
Tehnica . da da -
CHAID
Analiza canonică da - da -
Tabelul 3.1. Clasificarea tehnicilor de analiză a datelor
ACP
oare ca obiectiv prezentarea sintetică a unui tabel de date în care
unităţile sunt descrise prin multiple variabile cantitative.
o la prima vedere, fiecare dintre variabilele măsurate ar putea
părea a fi de aceeaşi importanţă;
o reducerea numărului variabilelor iniţiale poate fi utilizată
pentru
uşurarea interpretării
poate servi ca fază intermediară de calcul prealabil în
utilizarea altor metode de analiză multidimensională.
Informaţia cu care participă un individ i în norul de puncte, poate fi
exprimată prin distanţa de la punctul ce-l reprezintă, până la centrul de greutate al
norului de puncte:
n
I i ( x ij x j ) 2 , cu i 1, m
j 1
unde:
4 Analiza Datelor. Teorie şi aplicaţii
1 m j
x j g o, j xi , cu j 1, n
m i 1
g o , j - reprezintă coordonata j a centroidului indivizilor în spaţiul variabilelor şi
este valoarea medie înregistrată de cei m indivizi pentru cea de-a j-a
variabilă;
xij - reprezintă coordonata celui de-al i-lea individ în raport cu cea de-a j-a axă a
spaţiului variabilelor, cu i 1, m , j 1, n .
Informaţia totală, I, aferentă celor m indivizi, în ipoteza că fiecare individ
are aceeaşi pondere, este suma pătratelor distanţelor, adică:
m n
I ( x ij x j ) 2
i 1 j 1
x5
x4
x3
x2
x1
x1
Figura 3.1. Reducerea dimensionalităţii de la două axe x1 şi x 2 ,
la o singură axă w
pe restricţia:
u12 u 22 ... u n21 u n2 1
În aceste condiţii, problema determinării componentelor vectorului u k ce
definesc combinaţia liniară reprezentând componenta principală wk , se reduce la
rezolvarea următoarei probleme de extrem cu legături:
[max]{u k Vu kt }
u k
pe restrictia :
u u t 1
k k
şi are următoarea rezolvare:
Pasul 1. Fiind o problemă clasică de extrem cu legături, se construieşte
lagrangeanul problemei: L(u k , ) u k Vu kt 1 u k u kt .
Pasul 2. Condiţiile necesare de optim (CNO):
L()
u 0 2Vu k 2u k 0
k
sau echivalent:
u k u k 1
t
L() 0
Capitolul 3. Metode de învăţare nesupervizată şi supervizată(ACP) 7
k 1
k
1
Sau abordarea cu matricea Hessian.
8 Analiza Datelor. Teorie şi aplicaţii
1 2
Vexp ( w1 , w2 ) n
k 1
k
....
Astfel, se poate fixa un prag minim pentru varianţa explicită cumulată,
de exemplu, să fie în jur de 80%.
În momentul în care acest prag este atins se consideră că sunt suficiente
axele reţinute.
2. Este foarte important să poată fi interpretate axele factoriale. Pentru aceasta
este necesar să se revină la variabilele iniţiale. Astfel vom determina
importanţa variabilei iniţiale în formarea factorilor, calculând coeficienţii
de corelaţie dintre variabilele iniţiale şi axele factoriale (componentele
principale):
k
rx w
j u kj
k
S 2j
Algoritmul de construire a componentelor principale este, în esenţă, următorul:
Pasul 1. Se construieşte matricea datelor iniţiale, X m n ce conţine valorile
variabilelor relativ la indivizii supuşi observării, specificate printr-o matrice cu m
linii şi n coloane:
x11 x12 ... x1j ... x1n 1 x1n
1
x2 x 22 ... x 2j ... x 2n 1 x 2n
... ... ... ... ... ... ...
1
X [ x , x , x ,..., x , x ] x i
1 2 3 n 1 n
xi 2
... x i j n 1
... x i x in
... ... ... ... ... ... ...
1 2 j n 1 n
x m 1 x m 1 ... x m 1 ... x m 1 x m 1
x1 x m2 ... x mj ... x mn 1 x mn
m
Pasul 2. Se verifică dacă datele din matricea X m n sunt omogene.
Discuţie:
o dacă DA, atunci:
Pasul 2.1. Se calculează matricea de varianţă-covarianţă, V nn ,
având ca element general v jl , covarianţa dintre variabilele j şi l, cu
j l , iar elementele de pe diagonala principală sunt varianţele v jj
ale diferitelor variabile, adică:
v11 v12 ... v1n
v v 22 ... v 2 n
V 21
... ... ... ...
v n1 v n 2 ... v nn
Capitolul 3. Metode de învăţare nesupervizată şi supervizată(ACP) 9
2
În continuare, se prezintă cazul p n .
10 Analiza Datelor. Teorie şi aplicaţii
k 1
k
1 2
Vexp ( w1 , w2 ) n
k 1
k
....
Observaţie: Suma celor n valori proprii, reprezentând varianţele celor n
componente principale, este egală cu suma varianţelor variabilelor originale, adică:
n n
S
j 1
2
j k
k 1
3
Adică U U t E p .