Sunteți pe pagina 1din 17

Parcial 2 Metodos Mutivariados

Pacheco Manchego Katy

Asignatura
Métodos Multivariados

Docente
Javier Ramı́rez Montoya

Universidad de Códoba
Facultad de Ciencias Básicas
Departamento de Matemáticas y Estadı́stica
Monterı́a - Córdoba
2017

1
Preguntas
1. Simular 5 variables categoricas con respectivamente (3,4,2,3,4) modalidades
por cada una.Luego mediante un ACM encuentre los valores propios, coorde-
nadas y contribuciones de este.

2. Realizar un ACC y pruebe la hipotesis de significancia del coefiente de corre-


lacion canonica (seleccion de datos libre)

3. Realizar un analisis de componentes principales por separado para barones y


mujeres en los datos psicologicos de la tabla 5.1 comparar los resultados de los
dos grupos

4. Demuestre que si los dos conjuntos de variables X e Y no estan correlacionados,


es decir se desea llevar a cabo el siguiente juego de hipótesis:

H0 : ΣY X = 0
vs

H1 : ΣY X 6= 0
Para ello se tiene el estadı́stico de prueba
  p
|S11 ||S22 | Y
−2ln∧ = nln = −nln (1 − p̂2i ) (1,1)
|S| i=1

Donde la matriz de correlacón viene dado por


 
S11 S12
R=
S21 S22

Para n muy grande la estadistica (1.1) tiene una distribbución chi-cuadrado


con pq grados de libertad.

0.1. Solución
1.Simularemos nuestras variables de la siguiente forma

set.seed(4)
x1=sample(c("Blanco","Negro","Trigue~
no"),200,replace = T)#color de piel

x2=sample(c("E1","E2","E3","E4"),200,replace = T)#Estrato

2
x3=sample(c("prop","arren"),200,replace = T) #Vivienda

x4=sample(c("est","trab","nohn"),200,replace = T)#Ocupación

x5=sample(c("joven","ansi","adul","ni~
no"),200,replace = T)#Etapa de la edad

datos=cbind(x1,x2,x3,x4,x5)
datos=data.frame(datos)

#numero de modalidades de cada variable


cats = apply(datos, 2,function(x) nlevels(as.factor(x)));cats
## x1 x2 x3 x4 x5
## 3 4 2 3 4
Los datos son los siguientes
head(datos)
## x1 x2 x3 x4 x5
## 1 Negro E4 arren est joven
## 2 Blanco E4 prop nohn ansi
## 3 Blanco E2 prop nohn adul
## 4 Blanco E2 arren nohn adul
## 5 Trigue~
no E2 prop nohn ansi
## 6 Blanco E1 prop est ni~ no
A continuación se realizara con la función MCA() de la libreria FactoMineR, el
análisis de correspondencia multiple de los datos
require(FactoMineR)
mca = MCA(datos, graph = FALSE)
Mediante la funcion summary obtenemos un resumen de este análisis
summary(mca)
##
## Call:
## MCA(X = datos, graph = FALSE)
##
##
## Eigenvalues
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6
## Variance 0.267 0.247 0.222 0.218 0.208 0.201
## % of var. 12.140 11.214 10.069 9.892 9.470 9.146
## Cumulative % of var. 12.140 23.354 33.422 43.314 52.785 61.930
## Dim.7 Dim.8 Dim.9 Dim.10 Dim.11
## Variance 0.194 0.185 0.165 0.152 0.141
## % of var. 8.828 8.405 7.496 6.916 6.424

3
## Cumulative % of var. 70.759 79.163 86.659 93.576 100.000
##
## Individuals (the 10 first)
## Dim.1 ctr cos2 Dim.2 ctr cos2 Dim.3 ctr
## 1 | 0.286 0.153 0.034 | -0.328 0.217 0.045 | 0.570 0.734
## 2 | 0.966 1.746 0.433 | -0.087 0.015 0.004 | -0.372 0.313
## 3 | 0.276 0.143 0.035 | 0.163 0.054 0.012 | 0.089 0.018
## 4 | -0.244 0.112 0.026 | 0.178 0.064 0.014 | 0.409 0.378
## 5 | 0.295 0.163 0.043 | 0.667 0.902 0.218 | -0.601 0.815
## 6 | -0.202 0.076 0.019 | -0.076 0.012 0.003 | -0.310 0.217
## 7 | -0.423 0.335 0.074 | 1.168 2.763 0.562 | -0.304 0.209
## 8 | -0.779 1.136 0.278 | 0.529 0.568 0.128 | 0.610 0.840
## 9 | 0.058 0.006 0.002 | -0.423 0.363 0.080 | -0.308 0.215
## 10 | -0.092 0.016 0.004 | -0.997 2.015 0.481 | -0.406 0.373
## cos2
## 1 0.136 |
## 2 0.064 |
## 3 0.004 |
## 4 0.074 |
## 5 0.176 |
## 6 0.044 |
## 7 0.038 |
## 8 0.170 |
## 9 0.043 |
## 10 0.080 |
##
## Categories (the 10 first)
## Dim.1 ctr cos2 v.test Dim.2 ctr cos2 v.test
## Blanco | -0.040 0.039 0.001 -0.394 | -0.618 10.050 0.184 -6.045 |
## Negro | 0.649 10.082 0.198 6.277 | 0.074 0.142 0.003 0.717 |
## Trigue~no | -0.548 7.978 0.165 -5.733 | 0.499 7.157 0.137 5.219 |
## E1 | -0.670 10.266 0.197 -6.265 | -0.688 11.691 0.207 -6.426 |
## E2 | -0.265 1.258 0.022 -2.097 | 1.005 19.636 0.319 7.964 |
## E3 | 0.225 0.870 0.015 1.733 | -0.379 2.672 0.043 -2.919 |
## E4 | 0.961 15.568 0.268 7.306 | 0.247 1.117 0.018 1.881 |
## arren | -0.733 18.304 0.449 -9.447 | 0.020 0.015 0.000 0.256 |
## prop | 0.612 15.282 0.449 9.447 | -0.017 0.012 0.000 -0.256 |
## est | -0.214 1.188 0.024 -2.196 | -0.115 0.372 0.007 -1.180 |
## Dim.3 ctr cos2 v.test
## Blanco -0.305 2.733 0.045 -2.987 |
## Negro 0.816 19.258 0.314 7.901 |
## Trigue~no -0.457 6.680 0.115 -4.778 |
## E1 -0.191 1.009 0.016 -1.789 |
## E2 -0.156 0.525 0.008 -1.234 |

4
## E3 0.190 0.752 0.011 1.467 |
## E4 0.231 1.084 0.015 1.755 |
## arren 0.411 6.934 0.141 5.295 |
## prop -0.343 5.789 0.141 -5.295 |
## est 0.470 6.895 0.117 4.817 |
##
## Categorical variables (eta2)
## Dim.1 Dim.2 Dim.3
## x1 | 0.242 0.214 0.318 |
## x2 | 0.373 0.433 0.037 |
## x3 | 0.449 0.000 0.141 |
## x4 | 0.217 0.010 0.122 |
## x5 | 0.054 0.576 0.490 |
Ahora los valores propios son los siguientes

mca$eig
## eigenvalue percentage of variance cumulative percentage of variance
## dim 1 0.2670846 12.140208 12.14021
## dim 2 0.2466982 11.213554 23.35376
## dim 3 0.2215091 10.068594 33.42236
## dim 4 0.2176203 9.891834 43.31419
## dim 5 0.2083475 9.470343 52.78453
## dim 6 0.2012072 9.145783 61.93032
## dim 7 0.1942247 8.828396 70.75871
## dim 8 0.1849032 8.404689 79.16340
## dim 9 0.1649125 7.496024 86.65943
## dim 10 0.1521563 6.916197 93.57562
## dim 11 0.1413363 6.424378 100.00000

Las contribuciones de las categorias son


mca$var$contrib
## Dim 1 Dim 2 Dim 3 Dim 4 Dim 5
## Blanco 0.03943941 1.005012e+01 2.7332813 13.825577017 1.50345970
## Negro 10.08199370 1.422436e-01 19.2581771 1.927693222 0.11831594
## Trigue~no 7.97843827 7.156734e+00 6.6801852 5.015374254 0.71678067
## E1 10.26567199 1.169068e+01 1.0086770 3.152693568 15.95553417
## E2 1.25806468 1.963639e+01 0.5246796 0.038208388 1.17872018
## E3 0.87025575 2.672129e+00 0.7515136 0.498086243 39.20465975
## E4 15.56783790 1.117206e+00 1.0835740 6.650992347 7.84665528
## arren 18.30421649 1.450885e-02 6.9336211 0.004811547 0.07984854
## prop 15.28150184 1.211289e-02 5.7886194 0.004016980 0.06666254
## est 1.18808679 3.717304e-01 6.8947213 3.128131272 11.67604290
## nohn 10.60738564 4.322018e-01 0.6967977 22.867329400 4.66795197
## trab 4.48439607 8.422394e-04 3.4462123 8.627213813 1.82170357

5
## adul 1.25026694 1.825717e-01 31.9601078 0.467255357 3.56806610
## ansi 2.05533714 4.267907e-02 2.5146237 20.703192287 3.00185322
## joven 0.10136252 2.058267e+01 7.3140278 12.054971563 3.03793628
## ni~
no 0.66574486 2.589518e+01 2.4111812 1.034452743 5.55580917

Hallemos las contribuciones de los individuos

head(mca$ind$contrib)
## Dim 1 Dim 2 Dim 3 Dim 4 Dim 5
## 1 0.15285725 0.21738515 0.73359470 0.007427992 0.02953402
## 2 1.74611701 0.01543396 0.31280129 0.657756724 0.51494453
## 3 0.14287912 0.05402090 0.01779216 0.034036318 0.03703071
## 4 0.11163586 0.06415318 0.37779442 0.038919370 0.06036152
## 5 0.16286808 0.90193222 0.81485312 0.051714848 0.16191560
## 6 0.07624029 0.01171459 0.21722968 0.079440368 0.18996760

Las coordeadas de las categorias vienen dadas por

# coordenadas de las categorias


mca$var$coord
## Dim 1 Dim 2 Dim 3 Dim 4 Dim 5
## Blanco -0.04025621 -0.617606684 -0.3051977 -0.680353611 0.21952471
## Negro 0.64864584 0.074047316 0.8164195 0.256022841 -0.06206201
## Trigue~no -0.54784056 0.498667693 -0.4565211 0.392077787 -0.14503010
## E1 -0.67042961 -0.687603334 -0.1913846 0.335371152 -0.73821853
## E2 -0.26457894 1.004600038 -0.1556045 -0.041620614 0.22619288
## E3 0.22478584 -0.378558292 0.1902327 0.153505202 1.33255185
## E4 0.96124104 0.247481844 0.2309504 -0.567135335 -0.60274028
## arren -0.73295834 0.019832557 0.4108234 0.010726830 -0.04275698
## prop 0.61191935 -0.016557456 -0.3429810 -0.008955427 0.03569619
## est -0.21444896 -0.115284907 0.4704674 -0.314099814 0.59376895
## nohn 0.66019452 0.128076535 -0.1540964 0.874985357 -0.38681268
## trab -0.42599493 -0.005610852 -0.3400907 -0.533350925 -0.23980657
## adul -0.25341021 -0.093067507 1.1668048 0.139838003 -0.37810199
## ansi 0.30247558 0.041890430 -0.3046889 -0.866548295 -0.32285929
## joven 0.07589518 -1.039405126 -0.5871177 0.747108893 0.36697340
## ni~
no -0.20825066 1.248246963 -0.3609265 0.234322040 0.53134417
# coordenadas de los individuos
head(mca$ind$coord)
## Dim 1 Dim 2 Dim 3 Dim 4 Dim 5
## 1 0.2857475 -0.32750121 0.57008400 0.05685916 0.1109355
## 2 0.9657753 -0.08726431 -0.37225885 -0.53505372 -0.4632222
## 3 0.2762637 0.16325966 0.08878204 0.12171274 -0.1242196
## 4 -0.2441975 0.17791275 0.40910853 0.13015104 -0.1585949
## 5 0.2949561 0.66709076 -0.60082836 0.15002802 -0.2597488
## 6 -0.2018049 -0.07602588 -0.31022039 -0.18594537 0.2813513

6
Ahora veamos un grafico para tener una mejor interpretación de estos

plot.MCA(mca,invisible="ind",col.var="brown")

Ahora note que las personas de estrado 2 tiende hacer trigeños y niños ademas las
personas de estrato 4 tiende a no estudiar ni trabajar son de color negro y ansianos.
2.Realizaremos un analisis de correlacion canonica (ACC), utilizaremos los datos
de n = 25 familias para las variables X1 = long. cabeza primer hijo, X2 = anchura
cabeza primer hijo, Y1 = long. cabeza segundo hijo, Y2 = anchura cabeza segundo
hijo. Leamos los datos

datos <- read.csv("C:/Users/Matematicas01/Desktop/DATOS.csv", sep=";")


datos
## X1 X2 Y1 Y2
## 1 191 155 179 145
## 2 195 149 201 152
## 3 181 148 185 149
## 4 183 153 188 149
## 5 176 144 171 142
## 6 208 157 192 152
## 7 189 150 190 149
## 8 197 159 189 152
## 9 188 152 197 159
## 10 192 150 187 151
## 11 186 161 179 158
## 12 179 147 183 147
## 13 195 153 174 150

7
## 14 202 160 190 159
## 15 194 154 188 151
## 16 163 137 161 130
## 17 195 155 183 158
## 18 186 153 173 148
## 19 181 145 182 146
## 20 175 140 165 137
## 21 192 154 185 152
## 22 174 143 178 147
## 23 176 139 176 143
## 24 197 167 200 158
## 25 190 153 187 150

Hallemos la matriz de correlacion de los datos para ver que tan relacionadas estan
nuestras variables

cor(datos)
## X1 X2 Y1 Y2
## X1 1.0000000 0.8163652 0.7006183 0.7640071
## X2 0.8163652 1.0000000 0.6208005 0.8210222
## Y1 0.7006183 0.6208005 1.0000000 0.7683026
## Y2 0.7640071 0.8210222 0.7683026 1.0000000

Ahora usando la libreria YACCA de R-studio y haciendo un summary de nuestro


acc tenemos los siguientes resultados

library(yacca)
acc<-cca(dx,dy,standardize.scores=TRUE)
summary(acc)
##
## Canonical Correlation Analysis - Summary
##
##
## Canonical Correlations:
##
## CV 1 CV 2
## 0.8385767 0.3255722
##
## Shared Variance on Each Canonical Variate:
##
## CV 1 CV 2
## 0.7032109 0.1059973
##
## Bartlett’s Chi-Squared Test:
##

8
## rho^2 Chisq df Pr(>X)
## CV 1 0.70321 28.52577 4 9.758e-06 ***
## CV 2 0.10600 2.40900 1 0.1206
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
####
## Canonical Variate Coefficients:
##
## X Vars:
## CV 1 CV 2
## X1 -0.03755443 -0.1665663
## X2 -0.09229038 0.2220210
##
## Y Vars:
## CV 1 CV 2
## Y1 -0.01077149 -0.1574657
## Y2 -0.13466947 0.1861408
##
##
## Structural Correlations (Loadings):
##
## X Vars:
## CV 1 CV 2
## X1 -0.9233990 -0.3838414
## X2 -0.9755131 0.2199415
##
## Y Vars:
## CV 1 CV 2
## Y1 -0.8101946 -0.58616106
## Y2 -0.9976685 0.06824581
##
##
## Fractional Variance Deposition on Canonical Variates:
##
## X Vars:
## CV 1 CV 2
## X1 0.8526658 0.14733420
## X2 0.9516257 0.04837426
##
## Y Vars:
## CV 1 CV 2
## Y1 0.6564152 0.343584785
## Y2 0.9953425 0.004657491
Canonical Communalities (Fraction of Total Variance

9
## Explained for Each Variable, Within Sets):
##
## X Vars:
## X1 X2
## 1 1
##
## Y Vars:
## Y1 Y2
## 1 1
##
##
## Canonical Variate Adequacies (Fraction of Total Variance
## Explained by Each CV, Within Sets):
##
##
## X Vars:
## CV 1 CV 2
## 0.90214577 0.09785423
##
## Y Vars:
## CV 1 CV 2
## 0.8258789 0.1741211
##
##
## Redundancy Coefficients (Fraction of Total Variance
## Explained by Each CV, Across Sets):
##
##
## X | Y:
## CV 1 CV 2
## 0.63439878 0.01037228
##
## Y | X:
## CV 1 CV 2
## 0.58076706 0.01845637
##
##
## Aggregate Redundancy Coefficients (Total Variance
## Explained by All CVs, Across Sets):
##
## X | Y: 0.6447711
## Y | X: 0.5992234
• Ahora hallemos la correlaciones canonicas de la siguiente manera
acc["corr"]

10
## $corr
## CV 1 CV 2
## 0.8385767 0.3255722

• Coeficientes canonicos planos para X

acc["xcoef"]
## $xcoef
## CV 1 CV 2
## X1 -0.03755443 -0.1665663
## X2 -0.09229038 0.2220210

• Coeficientes canonicos planos para Y

acc["ycoef"]
## $ycoef
## CV 1 CV 2
## Y1 -0.01077149 -0.1574657
## Y2 -0.13466947 0.1861408

Realizemos Unos graficos de nuestro analisis para tener mayor interpretación

Vemos como el grafico con las correlaciones canonicas r1 y r2 para la variable 1


presenta una tendencia lineal mientras que para la varible 2 vemos que los datos no
estan presentando una tendencia lineal

11
Para tener otros graficos y una interpretacion mas amplia de nuestro ACC vamos a
usar la librerya Vegan para que nos brinda unos graficos BIPLOT asi,

library(vegan)
salida<-CCorA(dx,dy)

• proyeccion de los individuos sobre el plano canonico biplot(salida, “ob”),proyeccion


de las variables sobre el correspondiente el plano canonico con circulo de co-
rrelaciones

biplot(salida, "v",cex=c(0.7,0.6))

12
Ahora miremos el grafico anterior desde un mismo plano

biplot(salida, "ov", cex=c(0.7,0.6))


13

Ahora miremos el siguiente grafico donde vemos proyección de individuos y variables


sobre el plano formado por las variables canonicas

biplot(salida, "b", cex=c(0.7,0.6))

13
biplot(salida, plot.type="biplots", xlabs = NULL)

Ahora bien note que la matriz de covarinza es


 
x1 x2 x3 x4
 x1 98,720 57,232 67,512 50,576 
 
S=  x2 57,232 49,785 42,481 38,596 

 x3 67,512 42,481 94,057 49,644 
x4 50,576 38,596 49,644 44,390

14
   
98,72057,232 67,51250,576
Asi note que S11 = , S12 = ,
  57,23249,785
  42,48138,596
67,51242,481 94,05749,644
S21 = ,S22 =
50,57638,596 49,64444,390
Ahora bien las raices de la ecuación cuadratica
−1
|S12 S22 S21 − λS11 | = 0

Las raices son λ = 0,7032, λ = 0,1060 luego las correlaciones canonicas seran r1 =
0,8386, r2 = 0,3256 Los vectores canonicos normalizados segun a0 S11 a = 1 y b0 S22 b =
1, son: a1 = (0,0376, 0,0923)0 , a2 = (0,1666, −0,2220)0 , b1 = (0,0108, 0,1347)0 , b2 =
(0,1575, −0,1861) Las variables canonicas con varinza 1 son

U1 = 0,0376X1 + 0,0923X2, V1 = 0,008Y1 + 0,1347Y2 , (r1 = 0,8386)


U2 = 0,1666X1 − 0,2220X2 , V2 = 0,1575Y1 − 0,1861Y2 , (r2 = 0,3256)

Ahora hallemos el test de independencia entre (X1 , X2 )y (Y1 , Y2 )

|S|
Λ= = 0,2653 ∼ Λ(2, 22, 2)
|S11 ||S22 |
Ahora bien transformemos a Λ en una F, esta transformacion nos da como resultado
9.88 con 4 y 42 g.l Rechazamos la la hipotesis de independencia. La prueba de
sigficación de las correlaciones canonicas da:

H0 : ρ0 = 1 > ρ1 = ρ2 = 0 L0 = 28,52 con (4gl)

H1 : ρ1 > 1ρ2 = 0 L1 = 2,41con (2gl)


asi Podemos rechazar H0 y aceptar H1 . en conclusion solamente la primera correla-
cion canonica es significativa.
4. Ahora probaremos si los dos conjuntos de variables X e Y no estan correlacionados,
es decir se desea llevar a cabo el siguiente juego de hipótesis:

H0 : ΣY X = 0
vs

H1 : ΣY X 6= 0
Para ello se tiene el estadı́stico de prueba
  p
|S11 ||S22 | Y
−2ln∧ = nln = −nln (1 − p̂2i ) (1,1)
|S| i=1

Donde la matriz de correlacón viene dado por

15
 
S11 S12
R=
S21 S22
Para n muy grande la estadistica (1.1) tiene una distribbución chi-cuadrado con
pq grados de libertad.

0.1.1. Demostración
La estadistica de razón de verosilmilitud (*) compara la varianza ggeneral de la
muestra bajo H0

S11 0
0 S22 = |S11 ||S22 |

Con varianza generalizada sinrestriccion |S| sustituyendo el factor miltiplicativo n


en la relación de verosimilitud n − 1 − 21 (p + q + 1) la distribución χ2 de muestreo
de −2ln∧ ası́ para n y n − (p + q) grande.
Ası́ rechazamos H0 : Σ12 = 0 (p∗1 = p∗2 = ... = p∗2 = 0) con un nivel de
significancia α
k
1 Y
−(n − 1 − (p + q + 1))ln (1 − p̂∗2 2
1 ) > χpq (α)
2 i=1
k
(p + q + 1) Y
= −(n − ( )ln (1 − p̂∗2 2
1 ) > χpq (α)
2 i=1

Donde χ2pq(α) es el percentil superior (100 %) de una distribución chi-cuadrado


pq gl.
En este caso se rechaza la hipótesis Ho : Σ12 = 0(p∗1 = p∗2 = ... = p∗p = 0) Es
natural examinar la (significancia) de la corrrelacion canonica se ordena desde la
mas grande a la mas pequeña . suponiendo que la primera corrrelacion canonica es
distinta de cero y que la correlacion canonica restante es cero.
Las correlaciones canonicas p − 1 restantes son ceros si se rechaza esta hipote-
sis suponemos que las dos primeras correlaciones canonicas son distintas de cero,
pero las restantes correlaciones canonicas p − 2 son cero, asi sucesivamente. Sea la
secuencia implicita de hipotesis

H0k : p∗1 6= 0, p∗2 6= 0, ..., pk ∗ 6= 0, ..., pk + 1∗ = ... = p∗k = 0

vs

H1∗ : p∗i 6= 0, i≥k+1


En conclusion con un nivel de significancia α rechazamos H0K si
p
1 Y
−(n − 1 − (p + q + 1))ln (1 − p̂∗2 2
i ) > χ(p−k)(q−k) (α)
2 i=k+1

16
p
(p + q + 1) Y
= −(n − ( )ln (1 − p̂∗2 2
i ) > χ(p−k)(q−k) (α) (1)
2 i=k+1

Donde χ2(p−k)(q−k) (α) es el percentil 100*α % de una distribucion chi-cuadrado (p −


q)(q − k)gl
Donde la estadistica de prueba (1) involucra pi=k+1 (1 − p̂∗2
Q
i ) el residual despues
de la primera k muestra de correlaciones canonicas.

17

S-ar putea să vă placă și