Sunteți pe pagina 1din 5

PROFESOR: Ing.

Luis Snchez Alvarado


INTEGRANTES:
Julio Rojas Vento
Julissa Castillo Verstegui

2012
PRESENTACIN
El presente trabajo tiene por objetivo evaluar la normalidad
multivariada y la matriz de correlacin en una base de datos con catorce
variables antes y despus de la deteccin, y eliminacin, de outliers.

Para probar la normalidad se emplearon trs tcnicas: La tcnica


chi-cuadrado, la de componentes principales y tambin los indicadores
de Mardia. Se dar al final una opinin de cul consideramos fue la
mejor para evaluar la normalidad en la base datos.

Para la deteccin de outliers se emplearon la distancia de


Mahalanobis, los componentes principales, la distancia extrema de Wilks
y una cuarta usando clustering. Tambin damos una opinin final al
respecto.

Los software empleados han sido el SPSS, el R-Project y el


Microsoft Excel usando VBA.
DISTRIBUCIN NORMAL MULTIVARIADA
Durante la preparacin de la data se encontraron celdas vacas en
algunas variables. Las mismas fueron reemplazadas por la media
muestral de la variable correspondiente.

Se encontraron celdas vacas en:

Variable X8 Observacin 32.


Variable X4 Observaciones 40 y 604.
Variable X3 Observaciones 275, 445 y 604.
Variable X6 Observacin 451.
Variable X11 Observacin 491.
Variable X10 Observacin 749.
Variable X7 Observacin 768.
Variable X14 Observacin 1675.

Al final fueron necesarios 11 reemplazos.

PRUEBAS DE NORMALIDAD ANTES DE LA ELIMINACIN DE


OUTLIERS

1. Q-Q PLOT (Tcnica Chi-Cuadrado)

BREVE DESCRIPCIN:

Mediante esta tcnica analizaremos la normalidad de


nuestros datos teniendo en cuenta a la distancia de cada
xj
observacin (que es un vector de p variado) al centro de

gravedad x . Esta distancia tendr la siguiente forma:

d 2j =( x j x ) s1 ( x j x )

Asi mismo para poder graficar el qq-plot se necesita saber sobre:


2
q c, p (( j0.5)/n) X(n j+0.5)/ n

PROCEDIMIENTO:

Para graficar esta tcnica utilizaremos el programa R para


que nos pueda graficar estos pares ordenados.
Nuestra base de datos la guardaremos en un nuevo archivo de
Excel con la extensin Variables.csv. Esta extensin permite
agrupar las celdas de una misma fila en una sola nueva celda
separando la informacin de cada celda anterior por comas.

En R ejecutamos las siguientes sentencias las cuales permiten


importar la data del archivo Variables.csv.

data1<-read.csv("C:/Variables.csv",header=T)
# se manda a llamar la base
data2=data.matrix(data1)
# luego se guarda en una matriz para poder trabajarlo

Las siguientes sentencias son para obtener el QQ-Plot.

x.bar <- cbind(apply(data2, 2, mean))


# el vector de media
S.inv <- solve(var(data2))
# la matriz inversa de covarianza
n <- dim(data2)[1]
p <- dim(data2)[2]
d2 <- rep(0,n)
for(i in 1:n){
xi <- cbind(data2[i,])
d2[i] <- t(xi - x.bar) %*% S.inv %*% (xi - x.bar)}
q <- qchisq((1:n-0.5)/n, df=p)
qqplot(q, d2, main="Chi-Square Q-Q Plot")
text(q,d2,1:n)

La idea del QQ-Plot es mostrar si nuestra data es normal o no.


2. Se puede observar que existen datos atpicos los cuales ocasionan
que no exista una normalidad deseada.

S-ar putea să vă placă și