Documente Academic
Documente Profesional
Documente Cultură
Asignatura
Métodos Multivariados
Docente
Javier Ramı́rez Montoya
Universidad de Códoba
Facultad de Ciencias Básicas
Departamento de Matemáticas y Estadı́stica
Monterı́a - Córdoba
2017
1
Preguntas
1. Simular 5 variables categoricas con respectivamente (3,4,2,3,4) modalidades
por cada una.Luego mediante un ACM encuentre los valores propios, coorde-
nadas y contribuciones de este.
H0 : ΣY X = 0
vs
H1 : ΣY X 6= 0
Para ello se tiene el estadı́stico de prueba
p
|S11 ||S22 | Y
−2ln∧ = nln = −nln (1 − p̂2i ) (1,1)
|S| i=1
0.1. Solución
1.Simularemos nuestras variables de la siguiente forma
set.seed(4)
x1=sample(c("Blanco","Negro","Trigue~
no"),200,replace = T)#color de piel
x2=sample(c("E1","E2","E3","E4"),200,replace = T)#Estrato
2
x3=sample(c("prop","arren"),200,replace = T) #Vivienda
x4=sample(c("est","trab","nohn"),200,replace = T)#Ocupación
x5=sample(c("joven","ansi","adul","ni~
no"),200,replace = T)#Etapa de la edad
datos=cbind(x1,x2,x3,x4,x5)
datos=data.frame(datos)
3
## Cumulative % of var. 70.759 79.163 86.659 93.576 100.000
##
## Individuals (the 10 first)
## Dim.1 ctr cos2 Dim.2 ctr cos2 Dim.3 ctr
## 1 | 0.286 0.153 0.034 | -0.328 0.217 0.045 | 0.570 0.734
## 2 | 0.966 1.746 0.433 | -0.087 0.015 0.004 | -0.372 0.313
## 3 | 0.276 0.143 0.035 | 0.163 0.054 0.012 | 0.089 0.018
## 4 | -0.244 0.112 0.026 | 0.178 0.064 0.014 | 0.409 0.378
## 5 | 0.295 0.163 0.043 | 0.667 0.902 0.218 | -0.601 0.815
## 6 | -0.202 0.076 0.019 | -0.076 0.012 0.003 | -0.310 0.217
## 7 | -0.423 0.335 0.074 | 1.168 2.763 0.562 | -0.304 0.209
## 8 | -0.779 1.136 0.278 | 0.529 0.568 0.128 | 0.610 0.840
## 9 | 0.058 0.006 0.002 | -0.423 0.363 0.080 | -0.308 0.215
## 10 | -0.092 0.016 0.004 | -0.997 2.015 0.481 | -0.406 0.373
## cos2
## 1 0.136 |
## 2 0.064 |
## 3 0.004 |
## 4 0.074 |
## 5 0.176 |
## 6 0.044 |
## 7 0.038 |
## 8 0.170 |
## 9 0.043 |
## 10 0.080 |
##
## Categories (the 10 first)
## Dim.1 ctr cos2 v.test Dim.2 ctr cos2 v.test
## Blanco | -0.040 0.039 0.001 -0.394 | -0.618 10.050 0.184 -6.045 |
## Negro | 0.649 10.082 0.198 6.277 | 0.074 0.142 0.003 0.717 |
## Trigue~no | -0.548 7.978 0.165 -5.733 | 0.499 7.157 0.137 5.219 |
## E1 | -0.670 10.266 0.197 -6.265 | -0.688 11.691 0.207 -6.426 |
## E2 | -0.265 1.258 0.022 -2.097 | 1.005 19.636 0.319 7.964 |
## E3 | 0.225 0.870 0.015 1.733 | -0.379 2.672 0.043 -2.919 |
## E4 | 0.961 15.568 0.268 7.306 | 0.247 1.117 0.018 1.881 |
## arren | -0.733 18.304 0.449 -9.447 | 0.020 0.015 0.000 0.256 |
## prop | 0.612 15.282 0.449 9.447 | -0.017 0.012 0.000 -0.256 |
## est | -0.214 1.188 0.024 -2.196 | -0.115 0.372 0.007 -1.180 |
## Dim.3 ctr cos2 v.test
## Blanco -0.305 2.733 0.045 -2.987 |
## Negro 0.816 19.258 0.314 7.901 |
## Trigue~no -0.457 6.680 0.115 -4.778 |
## E1 -0.191 1.009 0.016 -1.789 |
## E2 -0.156 0.525 0.008 -1.234 |
4
## E3 0.190 0.752 0.011 1.467 |
## E4 0.231 1.084 0.015 1.755 |
## arren 0.411 6.934 0.141 5.295 |
## prop -0.343 5.789 0.141 -5.295 |
## est 0.470 6.895 0.117 4.817 |
##
## Categorical variables (eta2)
## Dim.1 Dim.2 Dim.3
## x1 | 0.242 0.214 0.318 |
## x2 | 0.373 0.433 0.037 |
## x3 | 0.449 0.000 0.141 |
## x4 | 0.217 0.010 0.122 |
## x5 | 0.054 0.576 0.490 |
Ahora los valores propios son los siguientes
mca$eig
## eigenvalue percentage of variance cumulative percentage of variance
## dim 1 0.2670846 12.140208 12.14021
## dim 2 0.2466982 11.213554 23.35376
## dim 3 0.2215091 10.068594 33.42236
## dim 4 0.2176203 9.891834 43.31419
## dim 5 0.2083475 9.470343 52.78453
## dim 6 0.2012072 9.145783 61.93032
## dim 7 0.1942247 8.828396 70.75871
## dim 8 0.1849032 8.404689 79.16340
## dim 9 0.1649125 7.496024 86.65943
## dim 10 0.1521563 6.916197 93.57562
## dim 11 0.1413363 6.424378 100.00000
5
## adul 1.25026694 1.825717e-01 31.9601078 0.467255357 3.56806610
## ansi 2.05533714 4.267907e-02 2.5146237 20.703192287 3.00185322
## joven 0.10136252 2.058267e+01 7.3140278 12.054971563 3.03793628
## ni~
no 0.66574486 2.589518e+01 2.4111812 1.034452743 5.55580917
head(mca$ind$contrib)
## Dim 1 Dim 2 Dim 3 Dim 4 Dim 5
## 1 0.15285725 0.21738515 0.73359470 0.007427992 0.02953402
## 2 1.74611701 0.01543396 0.31280129 0.657756724 0.51494453
## 3 0.14287912 0.05402090 0.01779216 0.034036318 0.03703071
## 4 0.11163586 0.06415318 0.37779442 0.038919370 0.06036152
## 5 0.16286808 0.90193222 0.81485312 0.051714848 0.16191560
## 6 0.07624029 0.01171459 0.21722968 0.079440368 0.18996760
6
Ahora veamos un grafico para tener una mejor interpretación de estos
plot.MCA(mca,invisible="ind",col.var="brown")
Ahora note que las personas de estrado 2 tiende hacer trigeños y niños ademas las
personas de estrato 4 tiende a no estudiar ni trabajar son de color negro y ansianos.
2.Realizaremos un analisis de correlacion canonica (ACC), utilizaremos los datos
de n = 25 familias para las variables X1 = long. cabeza primer hijo, X2 = anchura
cabeza primer hijo, Y1 = long. cabeza segundo hijo, Y2 = anchura cabeza segundo
hijo. Leamos los datos
7
## 14 202 160 190 159
## 15 194 154 188 151
## 16 163 137 161 130
## 17 195 155 183 158
## 18 186 153 173 148
## 19 181 145 182 146
## 20 175 140 165 137
## 21 192 154 185 152
## 22 174 143 178 147
## 23 176 139 176 143
## 24 197 167 200 158
## 25 190 153 187 150
Hallemos la matriz de correlacion de los datos para ver que tan relacionadas estan
nuestras variables
cor(datos)
## X1 X2 Y1 Y2
## X1 1.0000000 0.8163652 0.7006183 0.7640071
## X2 0.8163652 1.0000000 0.6208005 0.8210222
## Y1 0.7006183 0.6208005 1.0000000 0.7683026
## Y2 0.7640071 0.8210222 0.7683026 1.0000000
library(yacca)
acc<-cca(dx,dy,standardize.scores=TRUE)
summary(acc)
##
## Canonical Correlation Analysis - Summary
##
##
## Canonical Correlations:
##
## CV 1 CV 2
## 0.8385767 0.3255722
##
## Shared Variance on Each Canonical Variate:
##
## CV 1 CV 2
## 0.7032109 0.1059973
##
## Bartlett’s Chi-Squared Test:
##
8
## rho^2 Chisq df Pr(>X)
## CV 1 0.70321 28.52577 4 9.758e-06 ***
## CV 2 0.10600 2.40900 1 0.1206
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
####
## Canonical Variate Coefficients:
##
## X Vars:
## CV 1 CV 2
## X1 -0.03755443 -0.1665663
## X2 -0.09229038 0.2220210
##
## Y Vars:
## CV 1 CV 2
## Y1 -0.01077149 -0.1574657
## Y2 -0.13466947 0.1861408
##
##
## Structural Correlations (Loadings):
##
## X Vars:
## CV 1 CV 2
## X1 -0.9233990 -0.3838414
## X2 -0.9755131 0.2199415
##
## Y Vars:
## CV 1 CV 2
## Y1 -0.8101946 -0.58616106
## Y2 -0.9976685 0.06824581
##
##
## Fractional Variance Deposition on Canonical Variates:
##
## X Vars:
## CV 1 CV 2
## X1 0.8526658 0.14733420
## X2 0.9516257 0.04837426
##
## Y Vars:
## CV 1 CV 2
## Y1 0.6564152 0.343584785
## Y2 0.9953425 0.004657491
Canonical Communalities (Fraction of Total Variance
9
## Explained for Each Variable, Within Sets):
##
## X Vars:
## X1 X2
## 1 1
##
## Y Vars:
## Y1 Y2
## 1 1
##
##
## Canonical Variate Adequacies (Fraction of Total Variance
## Explained by Each CV, Within Sets):
##
##
## X Vars:
## CV 1 CV 2
## 0.90214577 0.09785423
##
## Y Vars:
## CV 1 CV 2
## 0.8258789 0.1741211
##
##
## Redundancy Coefficients (Fraction of Total Variance
## Explained by Each CV, Across Sets):
##
##
## X | Y:
## CV 1 CV 2
## 0.63439878 0.01037228
##
## Y | X:
## CV 1 CV 2
## 0.58076706 0.01845637
##
##
## Aggregate Redundancy Coefficients (Total Variance
## Explained by All CVs, Across Sets):
##
## X | Y: 0.6447711
## Y | X: 0.5992234
• Ahora hallemos la correlaciones canonicas de la siguiente manera
acc["corr"]
10
## $corr
## CV 1 CV 2
## 0.8385767 0.3255722
acc["xcoef"]
## $xcoef
## CV 1 CV 2
## X1 -0.03755443 -0.1665663
## X2 -0.09229038 0.2220210
acc["ycoef"]
## $ycoef
## CV 1 CV 2
## Y1 -0.01077149 -0.1574657
## Y2 -0.13466947 0.1861408
11
Para tener otros graficos y una interpretacion mas amplia de nuestro ACC vamos a
usar la librerya Vegan para que nos brinda unos graficos BIPLOT asi,
library(vegan)
salida<-CCorA(dx,dy)
biplot(salida, "v",cex=c(0.7,0.6))
12
Ahora miremos el grafico anterior desde un mismo plano
13
biplot(salida, plot.type="biplots", xlabs = NULL)
14
98,72057,232 67,51250,576
Asi note que S11 = , S12 = ,
57,23249,785
42,48138,596
67,51242,481 94,05749,644
S21 = ,S22 =
50,57638,596 49,64444,390
Ahora bien las raices de la ecuación cuadratica
−1
|S12 S22 S21 − λS11 | = 0
Las raices son λ = 0,7032, λ = 0,1060 luego las correlaciones canonicas seran r1 =
0,8386, r2 = 0,3256 Los vectores canonicos normalizados segun a0 S11 a = 1 y b0 S22 b =
1, son: a1 = (0,0376, 0,0923)0 , a2 = (0,1666, −0,2220)0 , b1 = (0,0108, 0,1347)0 , b2 =
(0,1575, −0,1861) Las variables canonicas con varinza 1 son
|S|
Λ= = 0,2653 ∼ Λ(2, 22, 2)
|S11 ||S22 |
Ahora bien transformemos a Λ en una F, esta transformacion nos da como resultado
9.88 con 4 y 42 g.l Rechazamos la la hipotesis de independencia. La prueba de
sigficación de las correlaciones canonicas da:
H0 : ΣY X = 0
vs
H1 : ΣY X 6= 0
Para ello se tiene el estadı́stico de prueba
p
|S11 ||S22 | Y
−2ln∧ = nln = −nln (1 − p̂2i ) (1,1)
|S| i=1
15
S11 S12
R=
S21 S22
Para n muy grande la estadistica (1.1) tiene una distribbución chi-cuadrado con
pq grados de libertad.
0.1.1. Demostración
La estadistica de razón de verosilmilitud (*) compara la varianza ggeneral de la
muestra bajo H0
S11 0
0 S22 = |S11 ||S22 |
vs
16
p
(p + q + 1) Y
= −(n − ( )ln (1 − p̂∗2 2
i ) > χ(p−k)(q−k) (α) (1)
2 i=k+1
17