Sunteți pe pagina 1din 17

UNIVERSITATEA SPIRU HARET

FACULTATEA MANAGEMENT FINANCIAR CONTABIL BUCURETI


Programul de studii universitare de masterat(4semestre,Ciclul II Bologna):
AUDITAREA SISTEMELOR INFORMATICE FINANCIARCONTABILE(A.S.I.F.C.)

PROIECT LA DISCIPLINA CLASIFICAREA DATELOR N ACTIVITILE


DE AUDIT INFORMATIC(semestrul 2)

Tema : ANALIZA N COMPONENTE PRINCIPALE (PCA)

Masterand:
PARVU V. VIORICA MIRELA

ANALIZA N COMPONENTE PRINCIPALE (PCA)


Scurt istoric
Inventat de Karl Pearson n 1901 si introdusa n statistica matematic de Harold Hotelling in
1933, analiza n componente principale a nceput sa fie utilizat efectiv odat cu apariia i extinderea
calculatoarelor electronice. Analiza n componente principale(PCA), poate fi prezentata din diverse
puncte de vedere:

pentru statisticianul clasic,analiza n componente principale nseamn a estima,pornind de la un


esantion dat axele principale ale elipsoidului indicator al unei distribuii normale
multidimensionale. Aceasta este prezentarea iniial a lui Hotelling urmat apoi de manualele
clasice de analiz multivariat;
pentru psihologi,analiza n componente principale este un caz particular de analiz factorial
utilizat n psihometrie;
pentru analitii de date,analiza n componente principale este o tehnic de reprezentare a
datelor cu un caracter optimal din punct de vedere al unor criterii algebrice sau
geometrice,utilizat,n general,fr vreo referire la ipoteze de natur statistic sau la un model
particular.

Analiza n componente principale este utilizat pentru a pune n eviden:


-

sistemul de relaii existente intre variabile(asocierea sau opoziia lor);


reprezentarea indivizilor n raport cu variabilele observate.
Introducere

Cu ajutorul acestei metode studiem un tabel indivizi x variabile,n cazul in care toate variabilele sunt
numerice. Mai ntai este prezentat o abordare exploratoare ce permite descrierea indivizilor n
multiplele lor dimensiuni i vizualizarea acestor relaii intre variabile.Urmeaz apoi Analiza in
Componente Principale(PCA);aceast metod permite obinerea unei hri a indivizilor n funcie de
asemnrile dintre ei i o hart a variabilelor n funcie de corelaiile lor. De asemeni,este prezentata i
metoda de clasificare ascendent ierarhic care folosete criteriul lui Ward,foarte bine adaptat la
tratarea datelor numerice.
Analiza exploratoare a datelor multidimensionale
Tabelul 1 va servi drept fir conductor pentru aceast prezentare.Liniile tabelului reprezint modele de
maini din anul 1989,iar coloanele,caracteristicile tehnice:capacitate cilindric,putere,
vitez,greutate,lungime,laime.
2

Caracteristicile celor 24 modele de maini


Nr.crt
.

Model

Cilindre

Putere

Tabelul 1
Vitez

Greutate

Lungime

Lime

Studiul descriptiv al indivizilor


Cei 24 de indivizi pot fi reprezentai mpreun cu cele 6 caracteristici ale lor utiliznd graficul in stea
din figura 1. Fiecare individ este reprezentat printr-un hexagon;fiecare varf al hexagonului
corespunde unei variabile.
Pentru individul reprezentat,distana de la varf la origine este proporional cu abaterea valorilor
variabilei fa de valoarea ei minim:ea este minim dac,caracteristica este minim i maxim dac
caracteristica este maxim.

Figura 1
Grafic in stea
Vitez

Putere

Greutate

Cilindree

Lungime

Lime

Studiul descriptiv al variabilelor


Rezumate statistice ale datelor
Statistici elementare
Va
riabila

Me
dia

Di
spersia

Abaterea
medie
ptratic

Tabelul 2

Minim

Maxim

Greutate

Lungime

Corelaii
Variabile

Cilindree

Putere

Vitez

n tabelul 2 sunt prezentate cateva statistici elementare si matricea corelaiilor dintre


variabile.Precizm ca dispersiile sunt calculate mparind prin n i nu prin (n-1),deoarece este vorba de
o analiz geometric a datelor si nu exist inferen statistic.
Figura 2. Clasificarea ierarhic ascendent a variabilelor
Metoda corelaiilor maxime

Indice de agregare Variabil


Putem s msurm asimilaritatea ntre fiecare variabil i mulimea tuturor variabilelor utiliznd
ptratele corelaiilor. Este vorba deci de a msura importana unei variabile. De exemplu, ,importana
variabilei Cilindree este calculat fcand media tuturor ptratelor corelaiilor sale cu mulimea de
variabile:
1
6

(1 0.861 0.693 0.905 0.864 0.709 )

4.29
6

0.715

Tabelul 3 conine similaritatea fiecrei variabile cu ntraga mulime a variabilelor:


Tabelul 3
Variabile
Cylindree
Puissance
Vitesse
Poinds
Longueur
Largeur

Proximitate
0.715
0.646
0.489
0.681
0.682
0.552

Asimilaritatea fiecrei variabile cu mulimea tuturor variabilelor.Astfel,variabila care rezum cel


mai bine mulimea celor 6 variabile este cilindreea.Viteza este o variabil mai independent fa de
celelalte.

Analiza n Componente Principale


Datele care trebuie analizate se prezint sub forma unui tabel indivizi x variabile. Exist p
variabile X 1 ,......, X J ,....., XP observate pentru n indivizi 1,,i,n.
Notm cu

xij valoarea luat de variabila

mulimea caracteristicilor pentru individul i,

X j pentru individul i, xi ( xi1 ,.....xip )

, s 2j =

media, dispersia i abaterea medie ptratic a variabilei X

1
n

ni=1

(xij - xj )2

i S j

j .

Diferenele ntalnite ntre programele de Analiza n Componente Principale franceze i americane, la


nivelul calculului componentelor principale,provin din mprirea cu n sau (n-1) n calculul dispersiei.
Analiza n Componente Principale const n cutarea unui numr mic de variabile noi Y1 ,......,Ym
numite componente principale necorelate ntre ele i care s rezume cat mai bine posibil datele de plecare, iniiale. Mai
multe criterii permit obinerea componentelor principale .
Prezentarea P. C.A. conform abordrii geometrice a lui Pearson
Norul de puncte asociat datelor si caracteristicilor sale
n aceast abordare geometric se asociaz datelor norului de puncte N = { x 1 ,.., x i ,..., x n} ntr-un
spaiu de dimensiune p : fiecare vector x i de caracteristici ( xi1 ,.....xip ) ale individului i este
considerat drept un punct ntr-un spaiu cu p dimensiuni. Centrul de greutate al norului N este punctul
g ale crui coordonate sunt mediile diferitelor variabile.

g=

1
n

x i = ( x ,...., x ,....., x ) = x.
i=1
1

g = (1906.114,183,1111,422,169).

Pentru exemplul nostru:

Vectorul g reprezint caracteristicile unei maini medii. mprtierea norului n jurul centrului su de
greutate se msoar cu ajutorul ineriei totale a norului N,definit prin:

I(N,g) =

1
n

ni=1

pj=1

(xij - xj ) 2.

Ineria total poate fi calculat direct,fiind egal cu suma dispersiilor variabilelor din problem :

I(N,g) =

1
n

ni=1

d (xi ,g) =
2

1
n

ni=1

pj=1

( xij - xj )2=
6

pj=1

1
n

ni=1

p
(xij - xj )2= j=1

s 2j

Obinem pentru exemplu:


I(N,g)= 267072+1441+609+50824+1638+56=321640.

Putem s obinem date omogene transformand datele iniiale n variabile centrate reduse: fiecrei
variabile Xj I se asociaz variabila centrat redus
Xj*= Xj xj

de medie 0 i dispersie 1.

Sj

La individul i se asociaz punctul xi*=( x*i1,.,x*ip). Noul nor de puncte este N* ={x*1....,x*n}.
Centrul de greutate al norului N* este 0 i ineria sa total este egal cu numrul p al variabilelor.
Prima ax principal i prima component principal
Prima ax principal

Se msoar mprtierea norului N* n jurul unei drepte cu ajutorul ineriei I(N*,) norului N*
raportat la dreapta .
1 n
*
I(N ,)= n i=1 d2( x*i , yi ) unde yi este proiecia ortogonal P(xi*) a punctului xi* pe dreapta
.
Dreapta 1 caut s minimizeze I(N*,) i se numete prima ax principal a norului
N*. Se poate arta ca dreapta 1 trece prin originea O,central de greutate al
norului N* al datelor centrate-reduse i este generat de vectorul unitar u1, vector
propriu normat al matricei R a corelaiilor ntre variabilele Xj ,asociat la cea mai
mare valoare proprie 1..
Valori i vectori proprii ai matricei de corelaii.
Tabelul 4

Pentru exemplul cu mainile am obinut:


1= 4.6745
u1= (0.4434;0.4182;0.3497;0.4252;0.4246;0.3811) .

Figura 3. Cutarea primei axe principale

Prima component principal


Prima component principal Y1 este o nou variabil definit pentru fiecare individ i prin lungimea
algebric a proieciei punctului x*i pe axa 1. Valoarea lui Y1(i) este deci egal cu produsul scalar ntre
vectorii u1 i x*i:
p

Y1( i )=

Oy

u
j=1

xij xj

1j

sj
Prima component principal Y1 este centrat,fiind combinaie liniar de variabile centrate. Se poate
arta c dispersia sa este egal cu 1 :
1 n
1 n

Y 21 ( i ) =
2
Dispersie ( Y1 ) = n i=1
n i=1 d (yi ,0)= I { y1 ,..,yn },0)= 1.
Dispersia primei componente principale Y1 este egal cu ineria norului de puncte proiectate pe 1 ,n
raport cu centrul de greutate O.
Corelaiile ntre variabilele Xj i corespondena principal Y1 pot fi calculate cu ajutorul formulei:
cor( Xj ,Y1 )=

1u1j

Se deduce c asimilaritatea lui Y1 fa de mulimea de variabile este egal cu:


1
p

cor
j=1

(Xj,Y1)=

1
p

Corelaiile ntre XJ i Y1 apar n prima coloan a tabelului 5.


Tabelul 5.
Corelaii variabile-componente principale

Prima component principal Y1 fiind foarte corelat pozitiv cu toate variabilele,ea poate fi interpretat
ca un factor de mrime,clasand mainile de la cele mai mici la cele mai mari.
Calitatea reprezentrii indivizilor pe prima ax principal
Calitatea reprezentrii fiecrui individ pe axa 1 se msoar cu ajutorul ptratului cosinusului

unghiului format de vectorul x i cu axa :


1

Y 1 ( i) 2
d 2( yi , 0)

i
cos (
, 1 )= d 2(xi ,0) = d 2( x i , 0)
2

Astfel avem pentru Rover:


Y1(Rover)=3.19
d 2 (Rover)=1.492 + 1.672 + 1.582 +1.132 + 1.172 +0.832=10.8
10.18
cos2(Rover,1)= 10.80 = 0.94.
Rover este bine reprezentat pe axa principal 1.
A doua ax principal i a doua component principal
A doua ax principal
Se caut o ax 2 ortogonal cu 1 i care s minimizeze ineria I(N*,) .Aceast a doua ax
principal 2 trece prin originea O i este generat de vectorul u2, vector propriu normat,din matricea

10

de corelaii R,asociat la a doua cea mai mare valoare proprie 2. Cutarea celei de-a doua axe
principale 2 este vizualizat n figura 4.
Figura 4.
Cutarea celei de-a doua axe principale

S notm cu zi i ai proieciile punctului

xi

pe axa 2 i pe planul (1 , 2). Vectorii yi i zi sunt de

asemeni proieciile punctelor ai pe axele 1 i 2.


Din descompunerea:

d2 ( x i ,0)=d2 (ai,0) +d2 ( x i ,ai)= d2( yi,0)+d2(zi,0)+ d2 ( x i ,ai)

I(N,O)=I({ y1 ,..,yn },0)+ I({ z1 ,..,zn },0)+I(N*,(1,2))

deducem:
unde

I(N*,(1 ,2)) = n i=1 d2 ( x i ,ai)

este ineria norului N* n raport cu planul (1 , 2). Se poate demonstra c I(N*,(1,2)) este minim
n raport cu ineria fa de toate celelalte plane posibile.
Planul (1,2) se numete primul plan principal. Este planul care trece cel mai bine posibil prin
mijlocul norului N* n sensul criteriului ineriei.

A doua component principal

11

A doua component principal Y2 este o variabil nou definit pentru fiecare


individ i prin:
Y2( i )=lungimea algebric a segmentului [ 0,zi]
p

Y2( i )=

u
j=1

2j

xij x

Sj

A doua component principal Y2 este centrat i de dispersie egal cu 2. Putem scrie:

Disp(Y2)=

1 n

n i=1

Y2(i) =

1 n

n i=1

d2(zi,0)= I({ z1 ,..,zn },0)= 2.

Mai mult corelaia ntre Y1 i Y2 este egal cu zero.corelaiile ntre variabilele XJ i Y2 se calculeaz cu
ajutorul formulei:
cor(XJ , Y2) =

2u2j.

Figura 5.
Axele principale.Componentele principale

12

Componentele principale Y1,.......Yp sunt definite prin Yh( i )=


x i

Ele reprezint coordonatele punctelor


nou reper astfel:

x i =

j=1

hj

n noul reper. Punctele

x ij
x i

pot fi exprimate n acest

Y h(i)uk.
h=1

Urmtoarele formule sunt foarte importante i se deduc direct n procesul de construire al


componentelor principale:
Formula de reconstituire a datelor:

x i

h=1

(i)uhj

Formula de reconstituire a matricei corelaiilor dintre variabile:


p

cor( Xj,X1)=

h=1

u u

h hj h1

Formula de descompunere a patratului distanei unui punct la origine


2

d (

x i

,0)=

x i

cos 2
(i)
(
h=1

de unde se deduce:

x i

Y
h=1

(i)2

,h)=1

(ii)

h=1

=p

Calculul corelaiilor ntre variabilele Xj i componentele principale Yh : cor( Xj ,Yh)=

huhj

Deducem c asimilaritatea componentei principale Yh cu variabilele X1,.,XP este egal cu:


1
p

cor 2( Xj ,Yh)=
j=1

p
p

adic partea de inerie explicat de axa principal

h ..

13

Prezentarea Analizei n Componente Principale (P.C.A.) conform abordrii lui Hotelling.


Procesul de construire al componentelor principale prezentat pan acum este
laborious,dar conduce la un ansamblu de rezultate foarte complet.Hotelling
(1933) a propus criteria care s permit obinerea mai ridicat a componentelor
principale.
Criteriul corelaiei
Se caut m variabile F1,,Fm centrate- reduse i necorelate care s maximizeze criteriul:
p

1
cor
p j=1

(Xj ,Fh)]

h=1

Valoarea maximului este egal cu ( 1+..+m)/ p.

Criteriul dispersiei
p

Se caut m variabile Z1,,Zm de forma Zh =

v
j=1

hj

X j cu vectorii vh=(vh1,..,vhp) care s

maximizeze criteriul:
Z
Dispersie
m

h =1

14

Se demonstreaz c maximul acestei formule este atins pentru vectorii proprii normai v1,,vm ai
matricei de covarian ntre variabilele xj asociate la cele mai mari m valori proprii v1,,vm i are
drept valoare v1+..+vm . Dac lum m=p,se obine v1+..+vm

v1+..+vp=

X
Dispersie
p

j=1

Suma primelor m valori proprii reprezint dispersia explicat de cele m variabile Z1,,Zm .Dac

X 1 ,.. , X p , atunci Z =Y i obinem:


h
h

se lucreaz cu variabilele centrate-reduse

Z
Dispersie
m

)= 1+ .+ m..

h =1

Metoda de clasificare ascendent ierarhic cu ajutorul criteriului lui Ward


Aceast metod conduce la un alt procedeu de a rezuma datele:construirea unei tipologii(sau partiii) a
indivizilor n clase astfel ca indivizii care aparin aceleiai clase s fie asemntori(similari) n timp ce
indivizii care aparin la clase diferite s fie deosebii,departai(disimilari).
Calitatea unei tipologii
S considerm o tipologie a mulimii noastre de indivizi n k clase,fiecare clas avand respectiv n1,
,nk indivizi.Notm cu G1,,Gk tipologia corespunztoare norului de puncte asociat
N=
{ x1,,xn } i cu g1,,gk centrele de greutate ale acestor clase.
Ineria total a norului N se descompune n felul urmtor:

I( N,g )=

)d2(gi,g) +

ki=1

I(Gi,gi).

i=1

Primul termen din dreapta se numete ineria inter-clase i msoar felul n care clasele se deprteaz
unele de altele.Acest termen se noteaz cu I(G 1,Gk) i reprezint ineria explicat de tipologie.Al doilea
termen din dreapta se numete ineria intra-clase i msoar omogenitatea claselor. Calitatea tipologiei
se msoar cu ajutorul raportului dintre ineria inter-clase i ineria total.
Criteriul lui Ward
15

Cand n tipologia G1,,Gk se nlocuiesc dou clase Gi i Gj prin reuniunea lor, Gi

G se
j

produce o diminuare a ineriei inter-clase.


Aceast micorare:

D(Gi , Gj)= I( G1,,Gi,...,Gj,,Gk) I (G1,,Gi Gj,,Gk) poate fi calculat i este


egal cu:
ninj
D(Gi ,Gj)= n(+nj) d2(gi,gj)
Acest criteriu,utilizat pentru msurarea distanei ntre dou clase,Gi i Gj, se numete criteriul de
agregare al lui Ward.
Clasificarea ierarhic ascendent
Algoritmul de clasificare ierarhic ascendent este interactiv. n etapa iniial se pleac de la o
partiie a mulimii de indivizi n k clase G1,,Gk i se regrupeaz cele dou clase Gi i Gj,
minimizand criteriul lui Ward, D(Gi ,Gj).
La etapa iniial,fiecare individ formeaz o clas i ineria total este atunci egal cu ineria
inter -clase.
La etapa final,nu mai exist decat o singur clas i ineria inter-clase este nul. Suma pierderilor
ineriei inter-clase a diferitelor etape este deci egal cu ineria total. La fiecare etap,se calculeaz un
indice obinut prin mprirea pierderii de inerie inter-clase la ineria total.

16

BIBLIOGRAFIE
Cocianu,C.,State,L. Tehnici de clasificare cu aplicaii n analiza datelor document,Editura ASE
Bucureti 2008.
Cocianu,C.,State,L.,Fusaru,D.,Ivan,I.,tefnescu,V.,Popa,M. Tehnici de clasificare i recunoatere
cu aplicaii n identificarea similaritii documentelor(CRIS) Editura ASE 2009.
Viorica tefnescu, Gilbert Saport - Analiza datelor i Informatic,Editura Economic.1996.
John Wiley&Sons Inc.,1996 Principal Component Neural Networks: Theory and Application.

17