Sunteți pe pagina 1din 26

Analize multivariate

ANALIZA ÎN COMPONENTE
PRINCIPALE
Analizele multivariate
După obiectivele analizate

Reducere, simplificare, sinteză Explicare, identificare

Metode descriptive Metode explicative


Toate variabilele sunt analizate Variabilele sunt separate în două grupe:
împreună. variabile de explicat şi explicative.

Natura variabilelor Natura variabilelor de explicat

Nominale Ordinale Metrice Nominale Ordinale Metrice

Analiza Analiza Analiza în Analiza Analiza mă- Analiza de


corespon- similarită- componente discrimi- rimilor core- regresie
denţelor ţilor principale nantă ate-conjoint multiplă
Metodele descriptive - metodele
factoriale de analiză
• simplificarea unui tabel de date
brute,trecând de la un număr mare de
variabile, la un număr mai mic de noi
variabile sintetice, obţinute prin gruparea
variabilelor iniţiale;
• structurarea şi interpretarea datelor, cu
ajutorul noilor variabile - componente
"ascunse" - care simplifică interpretarea
datelor puţin lizibile, prima dată.
Simplificarea variabilelor
• Se trece de la un ansamblu de k variabile la un ansamblu de p
noi variabile, cu următoarele trei caracteristici fundamentale:
– p este mult mai mic decât k;
– cele p noi variabile sunt combinări liniare a celor k variabile
iniţiale şi contribuie fiecare cu o parte descrescătoare la
explicarea varianţei datelor. Ele se numesc componente
principale şi fiecare componentă Pi este de următoarea
formă:
Pi = a1V1 + a2V2 + a3V3 + ... + akVk ,
unde a1, a2, a3, ..., ak sunt coeficienţi de ponderare a
variabilelor iniţiale; aceşti coeficienţi sunt calculaţi pentru a
restitui maxim de varianţă conţinută în tabelul de date
iniţiale, iar V1, V2, V3, ..., Vk sunt variabilele de plecare (în
principiu centrate şi reduse)
– cele p componente principale sunt independente între ele
(necorelate).
Identificarea componentelor
• Se ţine seama de clasificările variabilelor:
– după natura lor:
– variabile cantitative
– variabile calitative

– după funcţia lor în analiză:


– variabile active
– variabile ilustrative (pasive).

• Variabilele active participă la determinarea


spaţiului factorial. Variabilele active trebuie să fie
de aceeaşi natură, ceea ce condiţionează
metodele de analiză:
– analiza componentelor principale, pentru variabilele
cantitative,
– analiza corespondenţelor, pentru variabilele calitative.
Identificarea componentelor
• un ansamblu de variabile numerice sub forma unui
tabel de n indivizi şi p variabile cantitative active,
presupune că fiecare individ "i" se consideră ca un
punct ei al unui spaţiu cu p dimensiuni de
coordonate xi1, xi2, …, xip. Acest spaţiu al indivizilor se
notează cu E.

• Variabilele sunt exprimate în unităţi de măsură


diferite şi nu se poate calcula în mod direct distanţa
dintre indivizi. Inconvenientul unităţilor de măsură
se elimină prin exprimarea variabilelor în abateri
normale normate (standardizate), prin centrarea
faţă de medie şi reducerea prin abaterile lor
standard.
Identificarea componentelor
• Dacă sj este abaterea standard a
variabilei j, pătratul distanţei dintre
indivizii i şi i′ este: 1 2 3…j…p
p ( xij − xi′j ) 2 1
d 2 (i, i ′) = ∑ 2
j =1 sj …
i xij
• Corelaţiile dintre variabile, exprimate în
matricea simetrică a coeficienţilor de
corelaţie R, vor determina proiecţiile pe …
n
axele factoriale.
• Variabilele sunt vectori de câte n valori  1 r12 ... r1p 
şi se pot considera ca vectori ai unui r 1 ... r2p 
spaţiu n dimensional, notat F. Lungimea R=  21

unui vector în acest spaţiu se defineşte  ... ... ... ...


prin: n  
∑ xi2 rn1 rn2 ... 1
X = i =1
n
Identificarea componentelor
• Variabilele sunt centrate şi reduse, lungimile lor sunt egale cu 1;
extremităţile lor sunt situate pe o sferă de rază 1 a spaţiului F. Cosinusul
unghiului format de două variabile, în acest spaţiu, este egal cu r.
• Observaţiile se prezintă sub forma a doi nori de puncte:
– norul celor "n" indivizi în spaţiul E
– norul celor "p" variabile în spaţiul F.
• Studiul formei norului de indivizi permite diferenţierea acestora în grupe de
indivizi, după răspunsurile lor la ansamblul de variabile active.
• Forma norului de variabile descrie ansamblul corelaţiilor dintre ele.
Utilizarea a mai mult de trei dimensiuni îngreunează înţelegerea spaţiilor.
• Reprezentarea variabilelor este mai bogată în informaţie şi mai complexă.
– Pentru un individ se asociază un singur obiect matematic, un punct din E.
– O variabilă este mai întâi o listă de n valori - un vector din F, dar este de
asemenea o axă (direcţie) a spaţiului indivizilor, pe care aceştia se
proiectează.
– Coordonatele indivizilor pe această axă sunt valorile variabilei.
• Proiecţiile celor n indivizi ei, pe o axă oarecare ∆ a spaţiului E, constituie o
nouă variabilă, care este o combinaţie liniară a celor p variabile iniţiale.
Ansamblul celor p coeficienţi care descriu noua variabilă, se numeşte
factorul asociat variabilei.
Analiza componentelor principale (ACP)
Trei moduri de prezentare, în funcţie de contribuţiile în timp la dezvoltarea ei:
• K. Pearson (1901) a considerat inerţia ca fiind criteriul de identificare a
componentelor principale.
Inerţia totală este suma varianţelor celor p variabile. În cazul datelor
centrate şi reduse, inerţia totală este egală cu p. Se proiectează norul
de puncte al indivizilor pe un subspaţiu de dimensiune fixă, trecând
prin origine (punctul mediu, centrul de greutate, ale cărui coordonate
sunt mediile fiecărei variabile). Subspaţiile optimale verifică proprietatea
imbricării: subspaţiul optimal de dimensiune k conţine subspaţiul optimal
de dimensiune k-1 etc., ceea ce permite căutarea unei suite de axe
ortogonale numite axe principale ale norului de puncte.
• Căutarea variabilor care maximizează criteriile de dipersie sau de corelaţie.
Harold Hoteling - căutarea combinaţiilor liniare de varianţă maximă a
celor p variabile iniţiale. Suma pătratelor coeficienţilor acestor combinaţii
liniare este 1. Vectorii care cuprind cei p coeficienţi ai combinaţiilor
liniare, sunt factorii principali, sunt vectorii proprii ai matricei de corelaţie
R, (descrescător după valorile lor proprii). Aceste combinaţii se numesc
componente principale. Suma primelor k valori proprii este egală cu
inerţia norului proiectat pe subspaţiul de dimensiune k.
• De la p variabile cantitative, se caută noi variabile notate ck , necorelate între
ele, cât mai corelate cu cele p variabile iniţiale în sensul că:
max ∑j
2
rck ,xj .
ACP - etape
Indiferent de prezentarea utilizată, ACP este o metodă factorială prin care se
construiesc noi variabile, ca fiind combinaţii liniare ale celor p variabile
iniţiale, necorelate între ele şi de varianţă maximă.
Etapele analizei sunt:
1. identificarea observaţiilor "aberante" (indivizi cu valori extreme, care
afectează valoarea medie; nonrăspunsurile);
2. centrarea şi reducerea observaţiilor iniţiale - necesară datorită
eterogenităţii unităţilor de măsură;
3. calculul unei matrici de corelaţii între variabilele iniţiale;
4. calculul combinaţiilor liniare - rezultatul este un tabel cu varianţele
fiecărei componente principale şi gradul de determinaţie al fiecăreia;
5. alegerea componentelor principale - două criterii, curent utilizate:
• se reţin acele componente care au valoarea proprie > 1,
(criteriul lui Kaiser), pentru că aduc mai multe informaţii decât
variabilele iniţiale (centrate şi reduse);
• graficul-test, care reprezintă varianţele componentelor
principale; se aleg acele componente ale căror puncte
corespunzătoare nu se situează pe o dreaptă cu care se pot uni
celelalte. Numărul componentelor de reţinut poate fi diferit faţă
de cel ales prin criteriul anterior, dar acest ultim criteriu se
consideră mai eficient.
ACP - structurarea şi interpretarea
6. interpretarea componentelor principale - este facilitată de graficul cercul
corelaţiilor, care este proiecţia sferei unitate F, pe un plan delimitat de c1 şi
c2 - două componente principale în spaţiul F, ale căror coordonate reprezintă
coeficienţii de corelaţie ale variabilelor iniţiale cu componentele considerate
două câte două, . rck ,x j
7. vizualizarea indivizilor pe componentele principale, graficul indivizilor; se
reprezintă coordonatele indivizilor; se vizualizează astfel poziţia fiecăruia
faţă de componentele alese.

componenta 2
puternic
⋅ ⋅ ⋅ ⋅ ⋅

slab ⋅ ⋅ ⋅ ⋅ ⋅⋅ puternic
⋅ ⋅ ⋅ ⋅ componenta 1
⋅ ⋅ ⋅

slab

Vizualizarea indivizilor faţă de componentele principale


PRINCIPAL COMPONENTS ANALYSIS (APC) FOR
COUNTRIES POSITIONS, IN 2002

• 32 European countries,
• total expenditure in tourism (millions of U.S. $),
• arrivals of tourists (thousands),
• the weight of services in GDP (%),
• GDP per capita (U.S. $/inhabitant),
• inflation rate (%),
• Gini coefficient,
• Human Development Index (HDI),
• the rate of unemployment.
APC - The Circle of Correlations for 2002
Component Plot in Rotated Space
1.0 arrivals
tourism$

.5
services
unemploy
hdi
gdpcap
0.0 inflatio

gini
Component 2

-.5

-1.0
-1.0 -.5 0.0 .5 1.0

Component 1
PRINCIPAL COMPONENTS ANALYSIS (APC)
FOR COUNTRIES POSITIONS, IN 2002

• 32 European countries,
• expenditure in tourism (millions of U.S. $),
• arrivals of tourists (thousands)
• the overnight stays of foreigners,
• the weight of services in GDP (%),
• GDP per capita (U.S. $/inhabitant)
• inflation rate (%).
The Circle of Correlations between New
Variables and the Two Components in 2002

Component Plot in Rotated Space


1.0
gdp
serv

.5

exp_t
nights
arrivals

0.0
Component 2

-.5

infl

-1.0
-1.0 -.5 0.0 .5 1.0

Component 1
Countries' Position in 2002 face the Two Components

2
IS

DK
N NL
SZ
SW B A
IL UK
1
D
FL
P I
GR F
SL
HU
CH
0 S
1 REGR factor score 2 for analysis LV
ES
LT

SK CR

PL
-1 R
BG
UC

RO
T
-2

-3

-3 -2 -1 0 1 2 3 4

REGR factor score 1 for analysis 1


PRINCIPAL COMPONENTS ANALYSIS FOR
COUNTRIES POSITIONS, IN 1990
Component Plot in Rotated Space
1.0 gdpcap serv

.5
exp$
arrivals
nights

0.0
Component 2

-.5

inflatio

-1.0
-1.0 -.5 0.0 .5 1.0

Component 1
Countries' Position in 1990, face the Two Components

L
2

IS
DK
SW
N B NL SZ
FL
1
D A
IUK
ILGRP
S F
SL
0 CH
CRHU
SK
PL
ES
T
-1 LV R UK
LT

BG
RO
-2

-3

-3 -2 -1 0 1 2 3 4

REGR factor score 1 for analysis 2


23 countries

Few Countries' Position in 1990, face to the Two Components

2
L

IS DK
1
N BG
SW NL SZ
FL
A
D I
UK
F
ILGRP
S
0
analysis
for
score 2
factor
REGR
3

HU

PL
-1
T

-2
BG
RO

-3

-3 -2 -1 0 1 2 3 4

REGR factor score 1 for analysis 3


CONCLUSIONS
• The Romania’s position changed very little (from
more than two standard deviations face to the
average of the two components, in 1990, to less
than two standard deviations, in 2002).
• Some countries changed their positions from one
square to another or in the same square they
changed the amplitude of the deviations from
average.
• In general, the positions remained the same for the
majority, and Romania did not record any
significant changing position in the period 1990-
2002.

S-ar putea să vă placă și