Sunteți pe pagina 1din 10

Capitolul 3

Metode de învăţare nesupervizată şi supervizată


(Analiza în Componente Principale-ACP)

Prof. dr. Stelian STANCU


3.1. Metode aplicate în analiza Data Mining

Fie matricea observaţiilor:


 x11 x12 ... x1j ... x1n 1 x1n 
 1 
 x2 x 22 ... x 2j ... x 2n 1 x 2n 
 ... ... ... ... ... ... ... 
 1 
X   xi xi2 ... xi j ... xin 1 xin 
 ... ... ... ... ... ... ... 
 1 2 j n 1 n

 x m 1 x m 1 ... x m 1 ... x m 1 x m 1 
 x1 x m2 ... x mj ... x mn 1 x mn 
 m
Obiectiv în Analiza Datelor - a reduce controlat dimensiunea matricei
observaţiilor(a găsi un număr mai mic de variabile care să explice „trăsăturile”
indivizilor).
Se poate apela la:
o metode nesupervizate(tehnici descriptive de analiză a datelor):
o Analiza în Componente Principale (ACP) - având ca scop
reducerea dimensionalităţii datelor iniţiale;
o Analiza factorială - având ca scop principal identificarea factorilor
latenţi şi asocierea de scoruri indivizilor;
o Analiza clasificării - ce are ca scop gruparea în clase cât mai
omogene, uneori de indivizi, alteori de variabile;
o Analiza coşului de piaţă - având ca scop determinarea grupelor de
produse care sunt achiziţionate împreună de către cumpărători.
o metode supervizate (metode explicative) de analiză a datelor, când în
matricea de date putem identifica;
o o variabilă dependentă sau variabilă explicată;
o variabile care o influenţează, numite variabile independente sau
variabile explicative.
Metode supervizate:
o Clasificarea prin arbori de regresie (CART) - are ca scop
obţinerea de submulţimi de date cât mai omogene în raport cu
variabila explicată.
Observaţie: O variabilă explicată poate fi continuă sau categorială.
o Detectarea automată a interacţiunilor (CHAID) - este o metodă
de clasificare folosită pentru a studia relaţiile dintre o variabilă
explicată de tip categorial şi o mulţime de variabile independente
ce pot interacţiona unele cu altele.
2 Analiza Datelor. Teorie şi aplicaţii

o Analiza discriminant - este o metodă de clasificare ce pune în


evidenţă acele variabile independente care discriminează cel mai
mult între două sau mai multe grupări formate natural.
Observaţie: Variabila explicată acceptată este de tip categorial, în timp ce
variabilele independente pot fi atât variabile continue cât şi variabile ordinale.
o Regresia liniară multiplă - prin care se descrie, printr-un model
liniar, legătura dintre variabila explicată şi variabilele
independente.
Observaţie: De regulă toate variabilele implicate sunt continue.
o Regresia logistică - este un model particular de regresie liniară
ce presupune că variabila explicată este binară sau ordinală.
o Folosirea reţelelor neurale - prin intermediul cărora se
modelează un fenomen complex cu multe variabile
independente şi multiple interacţiuni.
Observaţie: Variabilele explicate pot fi codificate ca variabile binare.
Sintetizând, putem afirma că este indicat a se aplica:
o tehnicile descriptive, nesupervizate, după etapa primară de
explorare a datelor matricei - toate au ca scop reducerea
controlată a dimensionalităţii matricei iniţiale.
o tehnicile explicative, supervizate, după natura variabilei
explicate şi a variabilelor independente.
Putem întâlni următoarele situaţii:
o variabila explicată este continuă şi toate variabilele
independente sunt de asemenea continue; pentru a estima
dependenţa dorită se folosesc tehnici de regresie (simplă sau
multiplă);
o variabila explicată este binară, iar variabilele independente
sunt variabile continue. În acest caz se apelează la regresia
logit;
o variabila explicată este nominală, iar variabilele independente
sunt continue. Se va apela, în general, la tehnici de
discriminare;
o variabila explicată este continuă, dar variabilele independente
sunt de tip categorial; se vor aplica tehnici de analiză a
varianţei;
o atât variabila explicată, cât şi variabilele independente sunt de
tip categorial. Vom folosi tehnici de analiză de tip „conjoint”
Tipul tehnicii Denumirea Variabila explicată Variabilele explicative
cantitativă calitativă cantitative calitative
Nesupervizată Analiza nu nu da -
(descriptivă) componentelor
principale (ACP)
Analiza factorială nu nu da -
Analiza nu nu da -
clasificării
Capitolul 3. Metode de învăţare nesupervizată şi supervizată(ACP) 3

Analiza nu nu - da
corespondenţelor
Supervizată Regresia liniară da - da -
(explicativă) simplă şi multiplă
Regresia logistică - da da -
ANOVA/ - da da -
MANOVA
Analiza - da da da
discriminării
Tehnica arborilor da da - da
de decizie
(CART)
Tehnica . da da -
CHAID
Analiza canonică da - da -
Tabelul 3.1. Clasificarea tehnicilor de analiză a datelor

3.2. Metode de învăţare nesupervizată

- au ca scop construirea unui model al datelor iniţiale în care toate


variabilele sunt tratate ca inputuri(independente), nefiind precizate variabile care au
rolul de output(dependente).

3.2.1. Analiza în Componente Principale (ACP)

Prezentarea teoretică a metodei ACP

ACP
oare ca obiectiv prezentarea sintetică a unui tabel de date în care
unităţile sunt descrise prin multiple variabile cantitative.
o la prima vedere, fiecare dintre variabilele măsurate ar putea
părea a fi de aceeaşi importanţă;
o reducerea numărului variabilelor iniţiale poate fi utilizată
pentru
 uşurarea interpretării
 poate servi ca fază intermediară de calcul prealabil în
utilizarea altor metode de analiză multidimensională.
Informaţia cu care participă un individ i în norul de puncte, poate fi
exprimată prin distanţa de la punctul ce-l reprezintă, până la centrul de greutate al
norului de puncte:
n
I i   ( x ij  x j ) 2 , cu i  1, m
j 1

unde:
4 Analiza Datelor. Teorie şi aplicaţii

1 m j
x j  g o, j   xi , cu j  1, n
m i 1
g o , j - reprezintă coordonata j a centroidului indivizilor în spaţiul variabilelor şi
este valoarea medie înregistrată de cei m indivizi pentru cea de-a j-a
variabilă;
xij - reprezintă coordonata celui de-al i-lea individ în raport cu cea de-a j-a axă a
spaţiului variabilelor, cu i  1, m , j  1, n .
Informaţia totală, I, aferentă celor m indivizi, în ipoteza că fiecare individ
are aceeaşi pondere, este suma pătratelor distanţelor, adică:
m n
I    ( x ij  x j ) 2
i 1 j 1

Problema ACP constă în a reduce cele n variabile inţiale la un număr de p


variabile, denumite componente principale sau factori, cu p  n .
- presupune trecerea de la o matrice de date de dimensiune
m  n de forma:
 x11 x12 ... x1j ... x1n 1 x1n 
 1 
 x2 x 22 ... x 2j ... x 2n 1 x 2n 
 ... ... ... ... ... ... ... 
 1 
X   xi xi 2
... x i j n 1
... x i x in 
 ... ... ... ... ... ... ... 
 1 2 j n 1 n

 x m 1 x m 1 ... x m 1 ... x m 1 x m 1 
 x1 x m2 ... x mj ... x mn 1 x mn 
 m
la o matrice redusă, de dimensiune m  p :
 w11 w12 ... w1j ... w1p 1 w1p 
 1 
 w2 w22 ... w2j ... w2p 1 w2p 
 ... ... ... ... ... ... ... 
 
W   wi1 wi2 ... wi j ... wip 1 wip 
 ... ... ... ... ... ... ... 
 1 
 wm 1 wm2 1 ... wmj 1 ... wmp 11 wmp 1 
 w1 wm2 ... wmj ... wmp 1 wmp 
 m
Pornind de la cele n variabile originale, reprezentate de elementele
mulţimii {x 1 , x 2 , x 3 ,..., x n } , esenţa metodei ACP poate fi reprezentată în mod
simplificat prin intermediul transformării următoare:
[ x 1 , x 2 , x 3 ,..., x n 1 , x n ] 

[ w1 , w 2 , w 3 ,..., w p 1 , w p ]
unde:
o {w1 , w 2 , w 3 ,..., w p 1 , w p } reprezintă mulţimea componentelor
principale;
Capitolul 3. Metode de învăţare nesupervizată şi supervizată(ACP) 5

o transformarea  asigură, prin intermediul componentelor


principale, conservarea variabilităţii din spaţiul cauzal iniţial
într-o proporţie maxim posibilă.
În figura 3.1 sunt evidenţiate două modalităţi de reprezentare a 12 obiecte
(indivizi):
o prima este cea originală, adică aceea în care obiectele sunt
reprezentate în coordonatele iniţiale, netransformate
;
o a doua este cea rezultată în urma reducerii dimensionalităţii.
În cadrul primei reprezentări, obiectele sunt considerate a fi puncte din
planul x 1Ox 2 , cele două coordonate ale fiecăruia dintre aceste puncte, măsurate pe
axele reprezentate de x1 şi x 2 , fiind evaluări ale celor două presupuse caracteristici.
Observaţie: Dezavantajul acestei reprezentări constă în faptul că rezoluţia acestor
obiecte de-a lungul axei este foarte mică.
x11 x12
x2
x7 x9 x10 w
x8
x6

x5
x4
x3

x2

x1

x1
Figura 3.1. Reducerea dimensionalităţii de la două axe x1 şi x 2 ,
la o singură axă w

Reducerea dimensionalităţii constă, în acest caz, în trecerea de la două


dimensiuni la o singură dimensiune.
Aceasta înseamnă trecerea de la reprezentarea în plan la reprezentarea
pe o dreaptă.
Noua variabilă w reprezintă o componentă principală..

Prezentarea tehnică a metodei ACP

Tehnica utilizată de ACP, pentru a trece de la n la p variabilele, cu p  n ,


6 Analiza Datelor. Teorie şi aplicaţii

constă în a proiecta norul de puncte pe un subspatiu de dimensiunea p, R p , printr-o


deformare minimă posibilă, respectiv, pierderea de informaţie să fie cât mai mică.
Definiţia 3.1. Se numeşte analiză în componentelor principale (ACP) acea
metodă de analiză multidimensională care are ca scop determinarea unor noi
variabile, numite componente principale, ce sunt exprimate sub forma
combinaţiilor liniare ale variabilelor originale, astfel încât aceste variabile noi să fie
caracterizate de o variabilitate maximă.
Fie o direcţie W în spaţiu, ce poate fi exprimată prin vectorul u:
u  (u1 , u 2 ,...., u n )
Considerând dreapta ce trece prin centrul de greutate şi are această
direcţie, se va proiecta fiecare punct al norului pe această dreaptă.
Notând cu wi lungimea segmentului ce uneşte proiecţia punctului cu
centrul de greutate, avem;
wi  xi1u1  xi2u2  ....  xin1un1  xinun
Informaţia totală reţinută de aceste proiecţii este:
m
I u   wi2
i 1

Scopul metodei ACP constă în determinarea acelor direcţii ce maximizează


informaţia totală reţinută, respectiv (maximizare în raport cu u):
m
max I u  max  ( xi1u1  xi2u2  ....  xin1un1  xin un ) 2
i 1

pe restricţia:
u12  u 22  ...  u n21  u n2  1
În aceste condiţii, problema determinării componentelor vectorului u k ce
definesc combinaţia liniară reprezentând componenta principală wk , se reduce la
rezolvarea următoarei probleme de extrem cu legături:
[max]{u k Vu kt }
 u k

pe restrictia :
u u t  1
 k k
şi are următoarea rezolvare:
Pasul 1. Fiind o problemă clasică de extrem cu legături, se construieşte
lagrangeanul problemei: L(u k ,  )  u k Vu kt   1  u k u kt  .
Pasul 2. Condiţiile necesare de optim (CNO):
 L()
 u  0 2Vu k  2u k  0

k
sau echivalent: 
u k u k  1
t
 L()  0
 
Capitolul 3. Metode de învăţare nesupervizată şi supervizată(ACP) 7

Pasul 3: Condiţia suficientă de optim este ca diferenţiala totală de ordinul 2 a


lagrangeanului în punctul u k să fie negativă1.

Schema logică a ACP

Procedeul de rezolvare a ACP este prezentat în figura 3.2.

Matricea datelor iniţiale, X m n

Calculul matricei de varianţă-


covarianţă, V nn , sau a matricei
de corelaţie, R

Extragerea axelor factoriale


(vectorii proprii ai lui V sau R)

Alegerea celor k axe principale

Calculul coordonatelor Calculul corelaţiilor între axele


unităţilor pe axele principale principale şi variabilele iniţiale

Figura 3.2. Schema metodei ACP


Observaţii:
1. Cea mai uzuală metodă de alegere a numărului de axe este cea a calculării
varianţei explicite adusă de fiecare axă şi determinarea celei cumulate:
1
Vexp ( w1 )  n


k 1
k

1
Sau abordarea cu matricea Hessian.
8 Analiza Datelor. Teorie şi aplicaţii

1   2
Vexp ( w1 , w2 )  n


k 1
k

....
Astfel, se poate fixa un prag minim pentru varianţa explicită cumulată,
de exemplu, să fie în jur de 80%.
În momentul în care acest prag este atins se consideră că sunt suficiente
axele reţinute.
2. Este foarte important să poată fi interpretate axele factoriale. Pentru aceasta
este necesar să se revină la variabilele iniţiale. Astfel vom determina
importanţa variabilei iniţiale în formarea factorilor, calculând coeficienţii
de corelaţie dintre variabilele iniţiale şi axele factoriale (componentele
principale):
k
rx w 
j u kj
k
S 2j
Algoritmul de construire a componentelor principale este, în esenţă, următorul:
Pasul 1. Se construieşte matricea datelor iniţiale, X m n ce conţine valorile
variabilelor relativ la indivizii supuşi observării, specificate printr-o matrice cu m
linii şi n coloane:
 x11 x12 ... x1j ... x1n 1 x1n 
 1 
 x2 x 22 ... x 2j ... x 2n 1 x 2n 
 ... ... ... ... ... ... ... 
 1 
X  [ x , x , x ,..., x , x ]   x i
1 2 3 n 1 n
xi 2
... x i j n 1
... x i x in 
 ... ... ... ... ... ... ... 
 1 2 j n 1 n

 x m 1 x m 1 ... x m 1 ... x m 1 x m 1 
 x1 x m2 ... x mj ... x mn 1 x mn 
 m
Pasul 2. Se verifică dacă datele din matricea X m n sunt omogene.
Discuţie:
o dacă DA, atunci:
Pasul 2.1. Se calculează matricea de varianţă-covarianţă, V nn ,
având ca element general v jl , covarianţa dintre variabilele j şi l, cu
j  l , iar elementele de pe diagonala principală sunt varianţele v jj
ale diferitelor variabile, adică:
 v11 v12 ... v1n 
v v 22 ... v 2 n 
V   21
 ... ... ... ... 
 
v n1 v n 2 ... v nn 
Capitolul 3. Metode de învăţare nesupervizată şi supervizată(ACP) 9

vtot  v11  v 22  ...  v nn - urma matricei V, este egală cu varianţa


totală a norului de puncte ce exprimă informaţia totală, I.
o dacă NU, atunci:
Pasul 2.2. Se parcurg următoarele etape:
Etapa 1. Se centrează şi eventual se reduc datele din
matricea datelor iniţiale, X m n . Se obţine noua
matrice X m  n .
Etapa 2. Se calculează matricea de corelaţie, R, unde r jl
reprezintă coeficientul, de corelaţie dintre
variabilele j şi l, cu j  l , iar elementele de pe
diagonala principală sunt egale cu 1. În acest caz,
suma elementelor de pe diagonala principală este
egală cu n, respectiv numărul de variabile:
 1 r12 ... r1n 
r 1 ... r2 n 
R  21
.
 ... ... ... ... 
 
rn1 rn 2 ... 1 
Pasul 3. Se extrag axele factoriale (vectorii proprii la dreapta) astfel:
Etapa 3.1. Se determină valorilor proprii ale matricei V sau R, ce sunt
soluţii ale ecuaţiei:
det(V  E )  0 , în cazul datelor iniţiale omogene;
sau
det( R  E )  0 , în cazul datelor iniţiale omogene;
unde E este matricea unitate, iar  este vectorul propriu.
Etapa 3.2. Se ordonează valorile proprii în ordine descrescătoare şi se
renotează, astfel încât să avem:
1   2  3 ...   n .
Etapa 3.3. Se determină axele factoriale (vectorii proprii la dreapta) u k
asociaţi valorilor proprii  k , din rezolvarea ecuaţiei:
V  u k   k  u k , în cazul datelor iniţiale omogene;
sau
R  u k   k  u k , în cazul datelor iniţiale omogene;
unde k este indicele pentru valori proprii distincte, spre exemplificare2
k  1, p , cu p  n .
Se obţine matricea U a vectorilor proprii la dreapta ai matricei de
covarianţă V, respectiv ai matricei de corelaţie, R, corespunzători valorilor proprii
menţionate anterior, sub forma liniilor matricei următoare:

2
În continuare, se prezintă cazul p  n .
10 Analiza Datelor. Teorie şi aplicaţii

u1  u11 ... u1n 


u12
  
u u ... u 2 n 
u 22
U   2    21
 ...   ... ... ... 
...
   
u n  u n1 u n2
... u nn 
Observaţie: Cei p vectori proprii sunt de lungime egală cu unitatea şi sunt
ortogonali doi câte doi, astfel încât matricea U este ortogonală3.
Pasul 4. Se determină numărul şi care sunt axe factoriale reţinute, astfel:
Etapa 4.1. Se calculează factori sintetici wk , ca o combinaţie liniară a
variabilelor descriptive iniţiale [ x 1 , x 2 , x 3 ,..., x n 1 , x n ] , de forma:
n
wk   u kj x j , cu k  1, n
j 1

Etapa 4.2. Se aleg doar factorii sintetici wk ce sunt independenţi, adică:


cor ( wk , wl )  0 , cu k  l , k , l  1, n
Etapa 4.3. Se calculează varianţa explicită adusă de fiecare axă şi se
determină cea cumulată:
1
Vexp ( w1 )  n


k 1
k

1   2
Vexp ( w1 , w2 )  n


k 1
k

....
Observaţie: Suma celor n valori proprii, reprezentând varianţele celor n
componente principale, este egală cu suma varianţelor variabilelor originale, adică:
n n

S
j 1
2
j   k
k 1

Etapa 4.4. Se fixează un prag minim pentru varianţa explicită cumulată, de


exemplu 80%.
Etapa 4.5. Dacă varianţa explicită cumulată a atins acest prag, se consideră
ca fiind suficiente axele reţinute.

3
Adică U  U t  E p .

S-ar putea să vă placă și