Sunteți pe pagina 1din 26

Analize multivariate

ANALIZA N COMPONENTE
PRINCIPALE
Analizele multivariate

Dup obiectivele analizate




Reducere, simplificare, sintez Explicare, identificare

Metode descriptive Metode explicative
Toate variabilele sunt analizate Variabilele sunt separate n dou grupe:
mpreun. variabile de explicat i explicative.

Natura variabilelor Natura variabilelor de explicat

Nominale Ordinale Metrice Nominale Ordinale Metrice


Analiza Analiza Analiza n Analiza Analiza m- Analiza de
corespon- similarit- componente discrimi- rimilor core- regresie
denelor ilor principale nant ate-conjoint multipl

Metodele descriptive - metodele
factoriale de analiz
simplificarea unui tabel de date
brute,trecnd de la un numr mare de
variabile, la un numr mai mic de noi
variabile sintetice, obinute prin gruparea
variabilelor iniiale;
structurarea i interpretarea datelor, cu
ajutorul noilor variabile - componente
"ascunse" - care simplific interpretarea
datelor puin lizibile, prima dat.
Simplificarea variabilelor
Se trece de la un ansamblu de k variabile la un ansamblu de
p noi variabile, cu urmtoarele trei caracteristici
fundamentale:
p este mult mai mic dect k;
cele p noi variabile sunt combinri liniare a celor k
variabile iniiale i contribuie fiecare cu o parte
descresctoare la explicarea varianei datelor. Ele se
numesc componente principale i fiecare component P
i
este de urmtoarea form:
P
i
= a
1
V
1
+ a
2
V
2
+ a
3
V
3
+ ... + a
k
V
k
,
unde a
1
, a
2
, a
3
, ..., a
k
sunt coeficieni de ponderare a
variabilelor iniiale; aceti coeficieni sunt calculai pentru
a restitui maxim de varian coninut n tabelul de date
iniiale, iar V
1
, V
2
, V
3
, ..., V
k
sunt variabilele de plecare (n
principiu centrate i reduse)
cele p componente principale sunt independente ntre ele
(necorelate).
Identificarea componentelor
Se ine seama de clasificrile variabilelor:

dup natura lor:
variabile cantitative
variabile calitative

dup funcia lor n analiz:
variabile active
variabile ilustrative (pasive).

Variabilele active particip la determinarea
spaiului factorial. Variabilele active trebuie s fie
de aceeai natur, ceea ce condiioneaz
metodele de analiz:
analiza componentelor principale, pentru variabilele
cantitative,
analiza corespondenelor, pentru variabilele calitative.
Identificarea componentelor
un ansamblu de variabile numerice sub forma unui
tabel de n indivizi i p variabile cantitative active,
presupune c fiecare individ "i" se consider ca un
punct e
i
al unui spaiu cu p dimensiuni de
coordonate x
i1
, x
i2
, , x
ip
. Acest spaiu al indivizilor
se noteaz cu E.

Variabilele sunt exprimate n uniti de msur
diferite i nu se poate calcula n mod direct distana
dintre indivizi. Inconvenientul unitilor de msur
se elimin prin exprimarea variabilelor n abateri
normale normate (standardizate), prin centrarea
fa de medie i reducerea prin abaterile lor
standard.
Identificarea componentelor
Dac s
j
este abaterea standard a
variabilei j, ptratul distanei dintre
indivizii i i i' este:



Corelaiile dintre variabile, exprimate n
matricea simetric a coeficienilor de
corelaie R, vor determina proieciile pe
axele factoriale.
Variabilele sunt vectori de cte n valori
i se pot considera ca vectori ai unui
spaiu n dimensional, notat F. Lungimea
unui vector n acest spaiu se definete
prin:

=
'

=
'
p
j
j
j i ij
s
x x
i i d
1
2
2
) (
) , (
1 2 3 j p
1
2

i

n



x
ij

(
(
(
(

=
1
1
1
2 1
2 21
1 12
... r r
... ... ... ...
r ... r
r ... r
R
n n
p
p
n
x
X
n
i
i
=
=
1
2
Identificarea componentelor
Variabilele sunt centrate i reduse, lungimile lor sunt egale cu 1;
extremitile lor sunt situate pe o sfer de raz 1 a spaiului F. Cosinusul
unghiului format de dou variabile, n acest spaiu, este egal cu r.
Observaiile se prezint sub forma a doi nori de puncte:
norul celor "n" indivizi n spaiul E
norul celor "p" variabile n spaiul F.
Studiul formei norului de indivizi permite diferenierea acestora n grupe
de indivizi, dup rspunsurile lor la ansamblul de variabile active.
Forma norului de variabile descrie ansamblul corelaiilor dintre ele.
Utilizarea a mai mult de trei dimensiuni ngreuneaz nelegerea spaiilor.
Reprezentarea variabilelor este mai bogat n informaie i mai
complex.
Pentru un individ se asociaz un singur obiect matematic, un punct din E.
O variabil este mai nti o list de n valori - un vector din F, dar este de
asemenea o ax (direcie) a spaiului indivizilor, pe care acetia se
proiecteaz.
Coordonatele indivizilor pe aceast ax sunt valorile variabilei.
Proieciile celor n indivizi e
i
, pe o ax oarecare A a spaiului E, constituie
o nou variabil, care este o combinaie liniar a celor p variabile iniiale.
Ansamblul celor p coeficieni care descriu noua variabil, se numete
factorul asociat variabilei.
Analiza componentelor principale (ACP)
Trei moduri de prezentare, n funcie de contribuiile n timp la dezvoltarea ei:
K. Pearson (1901) a considerat ineria ca fiind criteriul de identificare a
componentelor principale.
Ineria total este suma varianelor celor p variabile. n cazul datelor
centrate i reduse, ineria total este egal cu p. Se proiecteaz norul
de puncte al indivizilor pe un subspaiu de dimensiune fix, trecnd
prin origine (punctul mediu, centrul de greutate, ale crui coordonate
sunt mediile fiecrei variabile). Subspaiile optimale verific proprietatea
imbricrii: subspaiul optimal de dimensiune k conine subspaiul optimal
de dimensiune k-1 etc., ceea ce permite cutarea unei suite de axe
ortogonale numite axe principale ale norului de puncte.
Cutarea variabilor care maximizeaz criteriile de dipersie sau de corelaie.
Harold Hoteling - cutarea combinaiilor liniare de varian maxim a
celor p variabile iniiale. Suma ptratelor coeficienilor acestor combinaii
liniare este 1. Vectorii care cuprind cei p coeficieni ai combinaiilor
liniare, sunt factorii principali, sunt vectorii proprii ai matricei de corelaie
R, (descresctor dup valorile lor proprii). Aceste combinaii se numesc
componente principale. Suma primelor k valori proprii este egal cu
ineria norului proiectat pe subspaiul de dimensiune k.
De la p variabile cantitative, se caut noi variabile notate c
k
, necorelate ntre
ele, ct mai corelate cu cele p variabile iniiale n sensul c:
max .

j
x , c
j k
r
2
ACP - etape
Indiferent de prezentarea utilizat, ACP este o metod factorial prin care se
construiesc noi variabile, ca fiind combinaii liniare ale celor p variabile
iniiale, necorelate ntre ele i de varian maxim.
Etapele analizei sunt:
1. identificarea observaiilor "aberante" (indivizi cu valori extreme, care
afecteaz valoarea medie; nonrspunsurile);
2. centrarea i reducerea observaiilor iniiale - necesar datorit
eterogenitii unitilor de msur;
3. calculul unei matrici de corelaii ntre variabilele iniiale;
4. calculul combinaiilor liniare - rezultatul este un tabel cu varianele
fiecrei componente principale i gradul de determinaie al fiecreia;
5. alegerea componentelor principale - dou criterii, curent utilizate:
se rein acele componente care au valoarea proprie > 1, (criteriul
lui Kaiser), pentru c aduc mai multe informaii dect variabilele
iniiale (centrate i reduse);
graficul-test, care reprezint varianele componentelor
principale; se aleg acele componente ale cror puncte
corespunztoare nu se situeaz pe o dreapt cu care se pot uni
celelalte. Numrul componentelor de reinut poate fi diferit fa
de cel ales prin criteriul anterior, dar acest ultim criteriu se
consider mai eficient.
ACP - structurarea i interpretarea
6. interpretarea componentelor principale - este facilitat de graficul cercul
corelaiilor, care este proiecia sferei unitate F, pe un plan delimitat de c
1

i c
2
- dou componente principale n spaiul F, ale cror coordonate
reprezint coeficienii de corelaie ale variabilelor iniiale cu componentele
considerate dou cte dou, .
7. vizualizarea indivizilor pe componentele principale, graficul indivizilor; se
reprezint coordonatele indivizilor; se vizualizeaz astfel poziia fiecruia
fa de componentele alese.

componenta 2
puternic


slab puternic
componenta 1


slab

Vizualizarea indivizilor fa de componentele principale
j k
x , c
r
PRINCIPAL COMPONENTS ANALYSIS (APC) FOR
COUNTRIES POSITIONS, IN 2002
32 European countries,
total expenditure in tourism (millions of U.S. $),
arrivals of tourists (thousands),
the weight of services in GDP (%),
GDP per capita (U.S. $/inhabitant),
inflation rate (%),
Gini coefficient,
Human Development Index (HDI),
the rate of unemployment.
APC - The Circle of Correlations for 2002
Component Plot in Rotated Space
Component 1
1.0 .5 0.0 -.5 -1.0
C
o
m
p
o
n
e
n
t

2
1.0
.5
0.0
-.5
-1.0
unemploy
tourism$
services
inf latio
hdi
gini
gdpcap
arrivals
PRINCIPAL COMPONENTS ANALYSIS (APC)
FOR COUNTRIES POSITIONS, IN 2002
32 European countries,
expenditure in tourism (millions of U.S. $),
arrivals of tourists (thousands)
the overnight stays of foreigners,
the weight of services in GDP (%),
GDP per capita (U.S. $/inhabitant)
inflation rate (%).
The Circle of Correlations between New
Variables and the Two Components in 2002
Component Plot in Rotated Space
Component 1
1.0 .5 0.0 -.5 -1.0
C
o
m
p
o
n
e
n
t

2
1.0
.5
0.0
-.5
-1.0
serv
nights
inf l
gdp
exp_t
arrivals


REGR factor score 1 for analysis 1
4 3 2 1 0 -1 -2 -3
3
2
1
0
-1
-2
-3
HU
UC
T
SW
S
SL
SK
R
RO
CH
P
PL
NL
N
UK
LT
LV
I
IS
IL
GR
D
F
FL
ES
SZ
DK
CR
BG
B
A
R
E
G
R

f
a
c
t
o
r

s
c
o
r
e



2

f
o
r

a
n
a
l
y
s
i
s




1

Countries' Position in 2002 face the Two Components
PRINCIPAL COMPONENTS ANALYSIS FOR
COUNTRIES POSITIONS, IN 1990
Component Plot in Rotated Space
Component 1
1.0 .5 0.0 -.5 -1.0
C
o
m
p
o
n
e
n
t

2
1.0
.5
0.0
-.5
-1.0
serv
nights
inf latio
gdpcap
exp$
arrivals
Countries' Position in 1990, face the Two Components

REGR factor score 1 for analysis 2
4 3 2 1 0 -1 -2 -3
3
2
1
0
-1
-2
-3
HU
UK
T
SW
S
SL
SK
R
RO
CH
P
PL
NL
N
UK
L
LT
LV
I
IS
IL
GR
D
F
FL
ES
SZ
DK
CR
BG
B
A
Few Countries' Position in 1990, face to the Two Components

REGR factor score 1 for analysis 3
4 3 2 1 0 -1 -2 -3
3
2
1
0
-1
-2
-3
HU
T
SW
S
RO
P
PL
NL
N
UK
L
I
IS
IL
GR
D
F
FL
SZ
DK
BG
BG
A
R E G R
f a c t o r
s c o r e 2
f o r
a n a l y s i s
3
23 countries
CONCLUSIONS
The Romanias position changed very little (from
more than two standard deviations face to the
average of the two components, in 1990, to less
than two standard deviations, in 2002).
Some countries changed their positions from one
square to another or in the same square they
changed the amplitude of the deviations from
average.
In general, the positions remained the same for the
majority, and Romania did not record any
significant changing position in the period 1990-
2002.

S-ar putea să vă placă și