Documente Academic
Documente Profesional
Documente Cultură
Anlise Multivariada
Anlise de Correspondncia
Piracicaba-SP
Julho, 2004
Anlise de Correspondncia
1. Introduo
O objetivo deste trabalho transmitir o conceito e idia inicial sobre anlise de
correspondncia e sua interpretao geomtrica, com base nos trabalhos de Greenacre &
Hastie (1987) e Barioni Jnior (1995).
1.1 Conceito e Objetivos da Anlise de Correspondncia
Anlise de correspondncia (AC) uma tcnica de anlise exploratria de dados
adequada para analisar tabelas de duas entradas ou tabelas de mltiplas entradas, levando
em conta algumas medidas de correspondncia entre linhas e colunas. A AC, basicamente,
converte uma matriz de dados no negativos em um tipo particular de representao grfica
em que as linhas e colunas da matriz so simultaneamente representadas em dimenso
reduzida, isto , por pontos no grfico. Este mtodo permite estudar as relaes e
semelhanas existentes entre:
a) as categorias de linhas e entre as categorias de colunas de uma tabela de
contingncia,
b) o conjunto de categorias de linhas e o conjunto categorias de colunas.
A AC mostra como as variveis dispostas em linhas e colunas esto relacionadas e
no somente se a relao existe. Embora seja considerada uma tcnica descritiva e
exploratria, a AC simplifica dados complexos e produz anlises exaustivas de informaes
que suportam concluses a respeito das mesmas.
A AC possui diversos aspectos que a distingue de outras tcnicas de anlise de
dados. A sua natureza multivariada permite revelar relaes que no seriam detectadas em
comparaes aos pares das variveis. altamente flexvel quanto a pressuposies sobre os
dados: o nico requisito o de uma matriz retangular com entradas no negativas. Observese que possvel transformar qualquer caracterstica quantitativa em qualitativa,
realizando-se uma partio de seu domnio de variao em classes. A AC mais efetiva se
a matriz de dados bastante grande, de modo que a inspeo visual ou anlise estatstica
simples no consegue revelar sua estrutura.
...
...
Total linha
n11
n12
...
n1j
...
n1J
n1+
n21
n22
...
n2j
...
n2J
n2+
...
...
...
...
...
...
...
ni1
ni2
...
nij
...
niJ
...
...
...
...
...
...
...
nI1
nI2
...
nIj
...
nIJ
nI+
Total coluna
n+1
n+2
...
N+j
...
n+J
ni+
onde:
nij a freqncia observada pela interseco da i-sima categoria da varivel A
com a j-sima categoria da varivel B;
ni+ freqncia total observada na i-sima categoria de A;
n+j freqncia total observada na j-sima categoria de B;
n total geral de freqncias observadas.
Seja N a matriz de freqncias absolutas, ou seja, N=[ nij ]IxJ . A matriz de
freqncias relativas ser P=(1/n) N e chamada de matriz de correspondncia. Cada
linha ou coluna de P pode ser considerada um vetor de propores (Quadro 2).
Quadro 2. Matriz de correspondncias.
B
A
...
...
Total linha
p11
p12
...
p1j
...
p1J
p1+
p21
p22
...
p2j
...
p2J
p2+
...
...
...
...
...
...
...
pi1
pi2
...
pij
...
piJ
...
...
...
...
...
...
...
pI1
pI2
...
pIj
...
pIJ
pI+
Total coluna
p+1
p+2
...
P+j
...
p+J
pi+
Analogamente, o vetor bj =[ n1j/n+j n2j/n+j ... nIj/n+j] =[ p1j/p+j p2j/p+j ... pIj/p+j],
j=1,...,J, chamado de perfil coluna.
Definem-se as distncias entre perfis linha no pela mtrica Euclidiana usual,
mas pela mtrica Euclidiana ponderada, chamada mtrica ou distncia qui-quadrado:
dc(ai ,ai) = (ai - ai)Dc-1(ai - ai)
(n ij /n i + - n i'j /n i'+ ) 2
j =1
(n + j /n)
ou seja, dc(ai ,ai) a distncia euclidiana entre ai e ai na mtrica Dc (ponderada por Dc),
onde Dc a matriz diagonal de elementos cj =n+j /n (j=1, ... ,J). O vetor c = [c1 c2 ... cJ ]
,
linha mdio ou centride dos perfis linha. Analogamente, as distncias entre perfis
colunas so obtidas na mtrica Dr (ponderada por Dr), que a matriz diagonal das
propores marginais de linhas ri = ni+/n (i=1,...,I), que compem o vetor r, o centride
dos perfis coluna ou vetor de massa de linhas.
3. A interpretao geomtrica da anlise de correspondncia simples
Para a abordagem de fundamentos tericos da AC e sua interpretao
geomtrica, ser considerado o exemplo apresentado por Greenacre & Hastie (1987)
que consiste em uma tabela de contingncia 5 x 3, representando a tabulao de 312
pessoas identificadas como leitores de um jornal, de acordo com cinco grupos
educacionais e trs categorias de leitura do jornal. Oportunamente, todas as definies
necessrias sero apresentadas com base neste exemplo numrico. Este exemplo tem a
vantagem de que sua geometria tri-dimensional, de modo que possvel observar
visualmente os conceitos e mecanismos da tcnica de AC sem abstraes.
Categoria de leitura
Totais
educacional
C1
C2
C3
E1
14
E2
18
46
20
84
E3
19
29
39
87
E4
12
40
49
101
E5
16
26
Totais
57
129
126
312
0,183
0,413
0,404
Totais
0,045
0,269
0,279
0,324
0,083
1
0,500
0,548
0,333
0,396
0,269
0,143]
0,238]
0,448]
0,485]
0,615]
e pode, cada um, ser representado como um vetor-ponto no espao Euclidiano tridimensional. O fato de existir dependncia linear entre as coordenadas dos vetores de
perfil (a soma igual a 1) significa, geometricamente, que os cinco pontos esto
contidos em um espao regular bi-dimensional denominado simplex, formado por um
tringulo com vrtices na unidade dos trs eixos de coordenadas. Os pontos podem ser
plotados diretamente neste tringulo conhecido como sistema de coordenadas
triangulares ou sistema de coordenadas baricntricas (Fig. 1).
a5
a3
a4
c
a2
a1
I
i=1
(nij ni + n + j / n) 2
( ni + n + j / n )
i =1 j =1
geometricamente como a diferena dos perfis linha (ou coluna) aos seus respectivos
centrides (c ou r). A significncia de
i=1
Ento, os perfis linha podem ser recalculados por i = Dc-1/2 ai , assim como os
eixos coordenados podem ser estendidos na proporo dos valores cj-1/2 tal que cada eixo
tem uma escala diferente. Na Figura 2 tem-se uma viso geomtrica dos perfis de linha
dos cinco grupos educacionais transformados i (i=1,...,5) no sistema de coordenadas
estendido.
A mdia ponderada dos quadrados das distncias entre os perfis linha e seu
centride c igual a estatstica
pelo total geral n. A quantidade
Para o exemplo obtm-se
/n = 25,977/312
= 0,0833.
Uma maneira de olhar a anlise de correspondncia consider-la como um
mtodo de decomposio da inrcia total, identificando um nmero reduzido de
dimenses que melhor representem uma nuvem de pontos. Levando esta idia para o
caso unidimensional abordado na Figura 2, o problema se resume em encontrar a linha
que melhor se ajusta aos cinco pontos (perfis). A melhor linha passa pelo centride c que
um resumo adimensional (um ponto). Se a origem do grfico transferida para c, ento
a linha que melhor se ajusta o autovetor principal da matriz assimtrica
Q=
i=1
onde Dr
,..., ou
Sada SAS:
Dados Greenacre & Hastie, 1987
The CORRESP Procedure
Inertia and Chi-Square Decomposition
Singular
Value
Principal
Inertia
ChiSquare
Percent
Cumulative
Percent
0.26527
0.11354
0.07037
0.01289
21.9550
4.0222
84.52
15.48
84.52
100.00
Total
0.08326
25.9772
100.00
17
34
51
68
85
----+----+----+----+----+--*************************
*****
Degrees of Freedom = 8
Row Coordinates
E1
E2
E3
E4
E5
Dim1
Dim2
0.5493
0.3331
-0.0805
-0.1730
-0.4305
0.2271
-0.0777
0.1446
-0.0975
0.0235
Column Coordinates
col1
col2
col3
Dim1
Dim2
0.2543
0.2016
-0.3215
0.2141
-0.1041
0.0098
_
T
Y
O P
b E
s _
c
a
t
l
i
n
Q
u
a
l
i
t
y
M
a
s
s
I
n
e
r
t
i
a
1
2
3
4
5
6
7
8
9
E1
E2
E3
E4
E5
col1
col2
col3
.
1
1
1
1
1
1
1
1
.
0.04487
0.26923
0.27885
0.32372
0.08333
0.18269
0.41346
0.40385
0.08326
0.19044
0.37841
0.09174
0.15334
0.18608
0.24247
0.25574
0.50179
INERTIA
OBS
OBS
OBS
OBS
OBS
VAR
VAR
VAR
C
o
n
t
r
2
S
q
C
o
s
1
S
q
C
o
s
2
B
e
s
t
2
B
e
s
t
.
.
0.07037 0.01289 .
.
. .
0.54934 0.22714 0.19243 0.17957 0.85400 0.14600 1 1
0.33315 -0.07768 0.42464 0.12603 0.94843 0.05157 1 0
-0.08053 0.14459 0.02570 0.45222 0.23675 0.76325 0 2
-0.17302 -0.09748 0.13772 0.23861 0.75906 0.24094 0 2
-0.43054 0.02352 0.21951 0.00358 0.99702 0.00298 1 0
0.25432 0.21407 0.16792 0.64939 0.58531 0.41469 0 2
0.20164 -0.10411 0.23891 0.34763 0.78953 0.21047 2 2
-0.32149 0.00975 0.59318 0.00298 0.99908 0.00092 1 0
.
1
1
2
2
1
2
2
1
D
i
m
1
D
i
m
2
Plot of Dim2*Dim1$catlin.
C
o
n
t
r
1
B
e
s
t
1
ANEXO
Utilizando-se o proc iml do SAS, apresenta-se o clculo das coordenadas dos pontos
que representam os perfis linha e os perfis coluna. Primeiramente, efetuada a anlise de
linhas (obteno das coordenadas para os perfis linha). As coordenadas correspondentes aos
perfis coluna sero obtidas repetindo-se o processo para a transposta da matriz de
freqncias absolutas F.
Programa SAS:
options nocenter nonumber nodate ps=200;
Title 'Dados Greenacre & Hastie, 1987';
proc iml;
/* matriz de frequencias absolutas */
F={ 5 7 2,
/*matriz F para a anlise de linhas*/
18 46 20,
19 29 39,
12 40 49,
3 7 16};
* F=t(F); /*matriz F para a anlise de colunas*/
y=nrow(F);
x=ncol(F);
NI=F[,+];
NJ=F[+,];
N=sum(NJ);
/* matriz de correspondncias */
P=j(y,x,0);
do i=1 to y;
do j=1 to x;
P[i,j]=F[i,j]/N;
end;
end;
R=P[,+]; DR=diag(R);
C=P[+,]; DC=diag(C);
A=j(y,x,0);
do i=1 to y;
do j=1 to x;
A[i,j]=P[i,j]*inv(root(DR[i,i])* root(DC[j,j]));
end;
end;
Q=A*t(A);
U=eigval(Q);
V=eigvec(Q);
print F NI; print NJ N; print P DR;
print DC; print A Q; print U V;
/* Obteno das dimenses de linhas ou de colunas */
G=j(y,y,0);
do j=1 to y;
do i=1 to y;
G[i,j]=sqrt(abs(U[j])/DR[i,i])*V[i,j];
end;
end;
print G;
quit;
run;
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
"
!
!
!
#
!
!
!
!
!
$
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
' !
' !
' !
!
' !
!
' !
!
!
' !
' !
!
!
' !
!
' !
' !
!
!
!
' !
' !
' !
!
' !
!
' !
!
!
' !
' !
!
!
!
!
' !
' !
('
('
&
('
('
('
('
('
' !
!
' !
' !
!
('
('
('
('
('
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
"
!
!
!
!
!
#
!
!
!
$
!
!
!
!
!
!
!
!
!
!
!
!
!
!
' !
!
' !
!
!
!
' !
!
' !
!
!
!
&
!
!
!
!
!
!
!
!
!
!
!
!