Sunteți pe pagina 1din 61

Estadstica Multivariada Herramientas Informticas

Visualizacin, Inferencia, Clasificacin


Estadstica Exploratoria Multidimensional para datos numricos
Para el anlisis de una tabla de datos haciendo uso de mtodos multivariados, Lebart et al. (1995) presentan una estrategia que consiste en realizar primero un anlisis factorial segn la naturaleza de los datos y luego una clasicacin basada en un algoritmo mixto: clasicacin jerrquica con el mtodo de Ward y agregacin alrededor de centros mviles (K-medias) Finalmente se obtiene una particin del conjunto de datos y la caracterizacin de cada una de las clases, segn las variables activas e ilustrativas, ya sean cuantitativas o cualitativas. Para la caracterizacin de las clases se utilizan los valores test, que son ndices descriptivos construidos siguiendo la metodologa de pruebas de hiptesis, pero sin el objetivo de hacer inferencias. La ordenacin de los valores test dentro de cada clase permite obtener las variables continuas que la caracterizan positivamente, en el sentido de que la media de la clase es sucientemente mayor de la media global, o negativamente cuando la media de la clase es inferior. Para las categoras de variables nominales, la ordenacin permite obtener aquellas categoras cuya proporcin dentro de la clase se diferencia lo suciente de la proporcin global, ya sea porque es mayor (valor test positivo) o menor (valor test negativo). La utilizacin de las coordenadas factoriales permite tener un marco comn en el proceso de formacin de conglomerados. Para el proceso de clasicacin el anlisis factorial previo se constituye en un pretratamiento, que transforma los datos originales en variables continuas no correlacionadas. Tomar todos los factores para la formacin de conglomerados es equivalente a efectuar una clasicacin de las las de la tabla de datos utilizando las variables originales. Tomar menos factores implica realizar un ltrado: se supone que los ejes utilizados para la clasicacin tienen la informacin relevante y que los desechados se deben a las uctuaciones aleatorias que constituyen el ruido. El diagrama de valores propios orienta la decisin del nmero de ejes que se utilizan en la clasicacin. Algunas veces, sobre todo en tablas pequeas, se usan todos los ejes. (Campo, 2007).
ASPECTOS ESPECFICOS:

Complementariedad de las tcnicas de visualizacin (Anlisis en componentes principales, Anlisis de las correspondencias simples y mltiples) y de la clasificacin automtica (mtodo mixto que combina clasificacin jerrquica [criterio de Ward] . Validacin de las tcnicas de visualizacin: Anlisis discriminante de Fisher, Re-muestreo (bootstrap, bootstrap parcial, bootstrap total, bootstrap sobre variables). Caracterizacin de clases a travs del DECLA (valor de test).
HERRAMIENTAS:
-

DtmVic (Datos y Text Mining: Visualizacin, inferencia, clasificacin), producto puesto al servicio acadmico de los estudiantes de doctorado y de la investigacin. Tratamiento de archivos de encuestas por medio de mtodos estadsticos multidimensionales. XLSTAT producto principal desarrollado por Addinsoft. Fue desarrollada desde 1993 con el fin de permitir a los usuarios de MS Excel de hacer anlisis de datos y modelizacin. Funciones que hacen de Excel una herramienta potente y de acceso fcil para satisfacer a la mayora de sus necesidades en anlisis de datos
http://www.xlstat.com/es/download/

Para bajar de Internet Xlstat (versin evaluativa 2009.1), acceder a la pgina de Xlstat:
Versin 2005 7.53 con parche de reinicio del conteo de evaluacin:
http://ai.frm.utn.edu.ar/micesari//files/XLStat%202005.rar

Para bajar de Internet DTM (versin 4.3), acceder a la pgina de Lebart:


http://ses.telecom-paristech.fr/lebart/ 1a. del Software - inst_dtm.zip (2200 K) http://ses.telecom-paristech.fr/lebart/DEA/inst_dtm.zip 1b. Software portable2 dtm_software.zip (1400 K) no necesita instalar http://ses.telecom-paristech.fr/lebart/DEA/dtm_software.zip 2. Ejemplos - dtm_examples.zip (1200 K) http://ses.telecom-paristech.fr/lebart/DEA/DtmVic-Examples.zip 3. Gua de Instalacin - Install_dtm.pdf (1400 K) http://ses.telecom-paristech.fr/lebart/DEA/Install_DtmVic.pdf Instalador1

1 2

Descargar: "inst_dtm.zip", descomprimir, clicar: "Setup.exe" y seguir las instrucciones Descargar: dtm_software.zip ", descomprimir, clicar: DtmVic_43.exe. No se instala se ejecuta directo

Tutorial enriquecido por Matilde CSARI

Estadstica Multivariada Herramientas Informticas Desde hace una treintena de aos, los mtodos de anlisis multivariante de datos han probado su eficacia en el estudio de grandes masas de informacin compleja. Se trata de mtodos llamados multidimensionales, por oposicin a los mtodos de estadstica descriptiva que tratan nicamente una o dos variables. Actualmente, los mtodos factoriales se enmarcan en las tcnicas de Data Mining (o minera de datos). Estos permiten confrontar numerosas informaciones, lo cul es ms rico que anlisis separados. Las representaciones simplificadas de grandes tablas de datos se han manifestado como un instrumento de sntesis notable, debido a su capacidad para reducir la dimensionalidad. Permiten extraer las tendencias ms destacadas, jerarquizarlas y eliminar los efectos marginales o puntuales que perturban la percepcin global de los hechos recogidos en los datos. El desarrollo de algoritmos de clasificacin resulta ser en muchas ocasiones un complemento ideal a los mtodos factoriales y permiten describir tipologas de individuos segn las variables en estudio. Estos mtodos nacidos en la universidad se han aplicado a todo tipo de dominios cientficos como la ecologa, ingeniera, medio ambiente, la lingstica, la psicometra, el anlisis de mercados, la arqueologa,... Tambin han experimentado un gran xito en ramas de la banca y seguros donde deben analizarse grandes ficheros de datos. ESTRATEGIA COMBINADA DE UN MTODO FACTORIAL Y FORMACIN DE CONGLOMERADOS La estrategia descrita en Lebart et al. (1995) sigue los pasos que se muestran en la gura 1.

Figura 1: Diagrama de ujo de la estrategia combinada de anlisis factorial y mtodos de clasicacin. Si el nmero n de elementos por clasicar sobrepasan el umbral nmax, se realiza un agrupamiento antes de la clasicacin jerrquica.

Para la puesta en prctica de la estrategia mencionada se han desarrollado distintos paquetes estadsticos, como por ejemplo: utilizando el lenguaje R (R Development Core Team 2007a) se programa el paquete denominado 3FactoClass, el cual utiliza funciones de ade4 (Chessel et al. 2004) para realizar el anlisis factorial de los datos y de stats para los mtodos de clasicacin, FactoClass permite obtener salidas similares a las que aparecen en los programas estadsticos SPAD (Lebart et al. 1999) y DTM (Lebart 2007).
3

El paquete FactoClass se instala en R (versin 2.4.1 en adelante) a partir del zip disponible en la pgina: http://www.docentes.unal.edu.co/cepardot/docs/

Tutorial enriquecido por Matilde CSARI

Estadstica Multivariada Herramientas Informticas CLASICACIN A PARTIR DE LOS FACTORES La utilizacin de las coordenadas factoriales permite tener un marco comn en el proceso de formacin de conglomerados. Para el proceso de clasicacin el anlisis factorial previo se constituye en un pretratamiento, que transforma los datos originales en variables continuas no correlacionadas. Tomar todos los factores para la formacin de conglomerados es equivalente a efectuar una clasicacin de las las de la tabla de datos utilizando las variables originales. Tomar menos factores implica realizar un ltrado: se supone que los ejes utilizados para la clasicacin tienen la informacin relevante y que los desechados se deben a las uctuaciones aleatorias que constituyen el ruido. El diagrama de valores propios orienta la decisin del nmero de ejes que se utilizan en la clasicacin. Algunas veces, sobre todo en tablas pequeas, se usan todos los ejes. El mtodo de Ward utiliza la distancia entre clases que cumple con el objetivo de unir, en cada paso del proceso de aglomeracin, las dos clases que incrementen menos la inercia intraclases. Sean A y B dos clases no vacas y disjuntas y sean pA, pB y gA, gB sus pesos y centros de gravedad, respectivamente. La distancia de Ward entre los dos grupos, en funcin de la distancia euclidiana cannica d, viene dada por:

(la deduccin se puede ver en Pardo 1992). En particular para dos individuos i y l, con pesos pi y pl , la distancia de Ward es:

El algoritmo K-medias4 para la obtencin de una particin directa de un conjunto de individuos por variables cuantitativas requiere el nmero de clases por obtener y de puntos iniciales para cada una de ellas. La propuesta de Lebart et al. (1995) es utilizarlo para obtener una particin que minimice la inercia intraclases. Esto se logra localmente (depende de los puntos iniciales) usando las coordendas (factores) de los individuos y los centros mviles utilizados para la agregacin de la particin elegida. En cada paso del algoritmo se actualizan los centros mviles calculando los centros de gravedad de la particin obtenida del paso anterior. Para una clase k, conformada por el conjunto de individuos Ik con pesos pi y coordenadas sobre el eje s notadas Fs(i), el trmino general de la coordenada de su centro de gravedad sobre un eje factorial s es:

y su inercia intra en el subespacio de los S primeros ejes factoriales es:

Pesos de las filas inuyen en los centros de gravedad y en las inercias intra de las clases. CARACTERIZACIN DE LAS CLASES Para seleccionar las variables continuas o las categoras de las variables nominales ms caractersticas de cada clase, se mide la desviacin entre los valores relativos a la clase y los valores globales, utilizando los valores test (Lebart et al. 1995,pp.181-184). Variable continua en una clase. Para una variable continua X, con media general X , el valor test asociado a la media X k de la clase k es:

algoritmo de Hartigan & Wong (1979)

Tutorial enriquecido por Matilde CSARI

Estadstica Multivariada Herramientas Informticas Categora en una clase. En una clase k conformada por nk individuos, de los n clasicados, nkj tienen la modalidad j. El valor test para j en la clase k se obtiene con un modelo hipergeomtrico: de una urna con n bolas, de las cuales nj son bolas negras, se extrae una muestra de nk bolas y se obtienen nkj bolas negras. Si N es la variable aleatoria que designa la cantidad de bolas negras en una muestra de tamao nk, el valor p asociado al supuesto de extraccin aleatoria, cuando la frecuencia relativa de la categora j en la clase es mayor que la frecuencia global, es:

donde h(x; n, nj , nk) es la distribucin de probabilidad hipergeomtrica de parmetros n, nj y nk calculada en x. Si la frecuencia relativa de la categora j dentro de la clase k es menor que la global, entonces el valor p es: Donde H(nkj ; n, nj, nk) es la funcin de distribucin de probabilidad hipergeomtrica acumulada, evaluada en nkj . El valor test se obtiene buscando el cuantil de la normal estndar correspondiente al valor p calculado mediante la primera o segunda formula. DTM (Lebart 2007). Identicacin de las clases sobre los planos factoriales Los centros de gravedad de las clases se pueden proyectar sobre los planos factoriales, y los individuos de cada clase se pueden diferenciar mediante signos o colores.

Tutorial enriquecido por Matilde CSARI

Estadstica Multivariada Herramientas Informticas

Anlisis Factorial con Xlstat


En este apartado presentamos los mtodos multivariantes simples de reduccin de datos que pueden realizarse con XLSTAT: anlisis de componentes principales (ACP), anlisis de correspondencias simples (AFC) y anlisis de correspondencias mltiples (ACM).

Anlisis de Componentes Principales (ACP)


El anlisis de componentes principales (ACP) consiste en expresar un conjunto de variables en un conjunto de combinaciones lineales de factores no correlacionados entre s, estos factores dando cuenta una fraccin cada vez ms dbil de la variabilidad de los datos. Este mtodo permite representar los datos originales (individuos y variables) en un espacio de dimensin inferior del espacio original, mientras limite al mximo la prdida de informacin. La representacin de los datos en espacios de dimensin dbil (aqu 2 dimensiones) le facilita considerablemente el anlisis. El Anlisis de Componentes Principales es a menudo utilizado ante una regresin ya que permite evitar el uso de variables redundantes, o ante una clasificacin ya que permite identificar la estructura de la poblacin y eventualmente determinar el nmero de grupos a construir. El ACP se utiliza cuando la matriz de datos est compuesta por un conjunto de variables continuas (activas). Igualmente puede ser de nuestro inters utilizar variables ilustrativas (continuas o categricas) que no participen en la creacin de los ejes pero que estemos interesados en proyectarlas en el espacio factorial creado.

Gastos de publicidad a Europa


En la siguiente tabla se muestra la reparticin (en porcentajes) de los gastos publicitarios segn el medio de comunicacin de 16 pases de Europa. Los datos corresponden al ao 1990 y se extrajeron de la revista Press Landscape update & Eur. Direct Marketing NTC, 1991.

Los datos se encuentran en el archivo PublicidadEuropa.xls Abrir la planilla de MS Excel con los datos.

Una vez que XLSTAT-Pro ste activado, haga clic en el men XLSTAT/Anlisis de datos/ Anlisis de Componentes Principales, o haga clic en el botn correspondiente de la barra "Anlisis de datos" (ver a continuacin).

Tutorial enriquecido por Matilde CSARI

Estadstica Multivariada Herramientas Informticas

Una vez seleccionada la opcin, aparece el cuadro de dilogo correspondiente al anlisis de componentes principales. Puede entonces seleccionar los datos en la hoja Excel. Hay varias manera de seleccionar los datos en los cuadros de dilogo XLSTAT (ver tutorial on-line).

Donde dice Tabla observaciones/variables debemos ingresar las variables Continuas activas, es decir los datos activos. Presionamos el botn a la derecha o directamente nos vamos a la hoja de Excel. Por defecto (a la derecha) hemos indicado tildando en Etiquetas de las Variables que parte de esta seleccin incluye una fila (la primera) con las etiquetas que identifican a las variables. En el ejemplo estudiado, los datos aparecen desde la primer fila/columna de la hoja. Siempre que debajo de la tabla no existan datos, podemos seleccionar las variables directamente sobre el identificador alfabtico de columna de la hoja de Excel, o seleccionar a mano con el Mouse los datos incluyendo la primer fila con etiquetas variable, pero sin incluir el identificador de ciudades (observaciones). A continuacin podemos ver en lneas punteadas la seleccin.

o
Tutorial enriquecido por Matilde CSARI

Estadstica Multivariada Herramientas Informticas

Seleccionamos las etiquetas para identificar las ciudades a la derecha del cuadro de dilogo, luego de tildar a opcin Etiquetas de las Observaciones.

Por defecto el tipo de ACP es Pearson (n), que es el algoritmo que hemos visto en la teora y los resultados se visualizar en una nueva hoja que se crea a la derecha de la hoja con los datos. En la pestaa Opciones podemos especificar algunas opciones de anlisis. Podramos realizar un anlisis normalizado o no normalizado para que el espacio factorial sea ortonormal o bien ortogonal, respectivamente. En la mayora de casos se utiliza la primera opcin para igualar las escalas en que estn medidas las variables. Tambin podemos indicar cuantos ejes factoriales se desean conservar (como mximo tantos como variables continuas activas), y cuantos queremos editar en los resultados de salida. Las opciones por defecto son en la mayora de casos suficientes

Tutorial enriquecido por Matilde CSARI

Estadstica Multivariada Herramientas Informticas


La pestaa Resultados nos permite elegir los resultados que deseamos que genere y el nivel de significacin para las pruebas de esfericidad del ACP. Los cosenos cuadrados permitirn asignar el tamao a los puntos para representar el nivel de significacin en la representacin en el plano. Las coordenadas permitirn rehacer los planos a travs de las funciones de visualizacin scatterplot, sin tener que volver a aplicar el algoritmo.

La pestaa Grficos permite configurar qu y cmo vamos a visualizar el Biplot. Si tenemos una tabla con muchas observaciones, podemos filtrar el numro a visualizar en el plano o no incluir las etiquetas que los identifican.

Una vez parametrizado, seleccionamos OK para ejecutar el algoritmo. La primer ventana (informativa) que surge presenta las opciones para la visualizacin de los planos, este cuadro de dilogo visualiza a travs de un grafico de barra la informacin obre los valores propios. Observamos que los dos primeros ejes factoriales conservan un 70,70% de la inercia.

Presionamos Terminar una vez seleccionado el plano conformado por los dos primeros factores. Podemos ver todos los resultados en la hoja etiquetada ACP.
Tutorial enriquecido por Matilde CSARI

Estadstica Multivariada Herramientas Informticas

El primer resultado interesante a analizar es la matriz de las correlaciones.

El valor del coeficiente de correlacin vara entre -1.00 y +1.00. Ambos extremos representan relaciones perfectas y 0.00 representa la ausencia de asociacin. Cuanto ms cercano sea a cero el coeficiente de correlacin, ms dbil ser la asociacin. Con la intencin de hacer una adecuada interpretacin de los ndices correlacin, se har uso de la clasificacin que aparece en figura:

Categoras del coeficiente de correlacin La siguiente tabla y el grfico asociado estn vinculados a un objeto matemtico, los valores propios, que son afortunadamente vinculados a un concepto muy simple: la calidad de la proyeccin cuando pasamos de N dimensiones (N siendo el nmero de variables, igual a 5) a un nmero ms dbil de dimensiones. En nuestro caso, observamos que el primer valor propio vale 2,70 representa 45% de la variabilidad. Eso significa que si representamos los datos en un slo eje, tendremos entonces siempre 45% de la variabilidad total que ser preservada.

Tutorial enriquecido por Matilde CSARI

Estadstica Multivariada Herramientas Informticas A cada valor propio corresponde un factor. Cada factor es en realidad una combinacin lineal de las variables de inicio. Los factores tienen la particularidad de no ser correlacionados entre ellos. Los valores propios y los factores son ordenados en orden descendente de variabilidad representada Idealmente, los dos primeros valores propios corresponden a un % elevado de la variabilidad, de manera que la representacin sobre los dos primeros ejes factoriales es de buena calidad. En nuestro ejemplo, tenemos el 70,7% de informacin en el plano formado por los dos primeros factores. El nmero de dimensiones "tiles" mximo es automticamente detectado por el mtodo utilizado. El primer grfico que se muestra el Biplot de correlacin (PLANO vectorial de las VARIABLES). Corresponde a una proyeccin de las variables iniciales sobre un plano de dos dimensiones constituido por los dos primeros factores.
Este grafico podemos editarlo con las herramientas de MS Excel y de Xlstat, eliminado los datos no relevantes del mismo, cambiando color, fuente, y tamao segn coseno cuadrando.

Las flechas deben interpretarse como direcciones de crecimiento de las variables en el espacio factorial. Observamos pues que los pases que utilizan mucha publicidad en Televisin tambin utilizan la Radio y muy poco el Cine. Por el otro lado los pases que utilizan Revistas como medio, suelen tambin utilizar ms recursos en publicidad Exterior. El centro representa la media de todas las variables, a partir de este los vectores crecen en un sentido y decrecen en el sentido opuesto. Dos variables estn relacionadas positivamente si su ngulo es de casi 0 (paralelas), dos variables estn relacionadas de manera negativa si su ngulo es de casi 180 (opuestas) y dos variables no estn asociadas si su ngulo es cercano a 90 (perpendicular). Mientras mas cerca del centro (vector pequeo) la variable no es relevante y si la eliminamos y volvemos a realizar el ACP, el plano no cambia. Cuando las variables estn relativamente cercas del centro del grfico, entonces cualquiera interpretacin es arriesgada, y es necesario referirse a la matriz de correlaciones o a otros planos factoriales para interpretar los resultados. En nuestro ejemplo, podemos deducir del grfico que las variables Revista y Exterior estn relacionadas positivamente, cuando una crece la otra tiende a crecer, TV y Radio tambin estn relacionadas positivamente, pero Cine y Diarios no estn relacionados, Cine est relacionado de manera opuesta con Radio, cuando una crece la otra tiende a decrecer. El crculo de las correlaciones es tambin til para interpretar la significacin de los ejes. En nuestro caso, el eje F1 es claramente vinculado al Cine, el eje F2 es esencialmente vinculado a los Diarios.
Tutorial enriquecido por Matilde CSARI

10

Estadstica Multivariada Herramientas Informticas


Para confirmar el hecho que una variable es fuertemente vinculada a un factor, debe consultar la tabla de los cosenos: mientras ms elevado es el coseno (en valor absoluto), ms vinculada est la variable al factor. Mientras ms cerca est el coseno de cero, menos vinculada est la variable al eje. En nuestro caso, vemos que en lo que se refiere a la Radio, ser mejor interpretada en los ejes F1/F3.

El grfico a continuacin corresponde a Bilplot de distancias (PLANO escalarde las OBSERVACIONES). Permite representar los individuos en un plano de dos dimensiones, e identificar tendencias. Podemos observar qu pases estn bien representados en los ejes, a partir de las contribuciones y los cosenos cuadrados. Los pases cercanos son pases que presentan distribuciones parecidas en el reparto de los gastos publicitarios. Observamos que podes pueden diferenciar claramente los pases latinos de los pases anglosajones. Estas tcnicas biplot permiten la representacin de los casos y las variables, de forma conjunta, en el subespacio factorial de dimensin reducida.

A continuacin se visualiza el Biplot simtrico con ambos planos de variables y observaciones juntos, Xlstat se encarga de normalizar las escalas. Muy a menudo se suelen interpretar estos grficos diferenciando en los cuatro cuadrantes. Los pases ms alejados del origen de coordenadas son los pases que presentan un perfil ms alejado del perfil medio. En este grfico podramos concluir lo siguiente: Portugal , Grecia, Italia y Espaa tienden a dedicar ms recursos publicitarios en televisin y radio y muy poco en el cine. Francia y Blgica dedican ms recursos en revistas y outdoor. Por el otro lado, pases nrdicos como Suiza, Noruega, Suecia, Dinamarca, Finlandia y Irlanda destinan ms recursos a los diarios. Suiza, Holanda y Alemania en concreto dedican ms recursos al cine

Tutorial enriquecido por Matilde CSARI

11

Estadstica Multivariada Herramientas Informticas


Los criterios de interpretacin de la representacin se ajustan a las normas siguientes:
-

Los vectores representativos de las variables identifican con su medida la dispersin de las mismas, estando por ello situados sus extremos sobre la hiperesfera de radio unidad en el caso de un ACP estandarizado. Este ltimo modelo es especialmente interesante, ya que el producto escalar de dos vectores variables se corresponde con su coeficiente de correlacin o coseno del ngulo que forman y, la proyeccin de cada vector variable sobre un eje, mide la correlacin existente entre dicha variable y la correspondiente componente principal. En el Anlisis de Componentes Principales (y tcnicas Biplots derivadas), la interpretacin correspondiente a variables (relaciones entre ellas y con las componentes principales) es distinta de la obtenida para individuos (comportamientos similares en funcin de la distancia existente entre ellos). De forma general la relacin entre variables se determinar mediante ngulos y la existente entre casos mediante distancias.

Las proyecciones sobre los ejes y sobre los planos factoriales sern muy buenas para algunos puntos pero tambin pueden ser de mala calidad para otros puntos. Se requiere entonces de un ndice que ponga en evidencia este hecho, que se denomina coseno cuadrado o contribucin relativa. Por lo tanto puede resultar interesante ponderar los puntos a partir de la contribucin de cada pas en el espacio factorial creado. Para ello debemos ejecutar las opciones de Visualizacin que nos permite realizar esta opcin y muchas otras, como zoon del grfico, tamao de smbolos,...

Para cambiar las escalas recortando los mnimos y mximos podemos hacer un zoon y visualizar mejor la nube de individuos. Seleccionamos el grafico e ingresamos en Visualizacin/AxesZoomer. Aparece un cuadro de dilogo donde podemos probar la escalas, cuando est conforme precione Terminar. Desde las opciones de grfico de eliminamos la visualizacin e las escalas. Excel,

A partir de la suma del coseno cuadrado de los dos primeros factores podemos representar con el tamao la importancia del punto y de la variable en su representacin en este plano, es decir nivel de significacin. De esta manera podemos corregir errores de proyeccin.
Tutorial enriquecido por Matilde CSARI

12

Estadstica Multivariada Herramientas Informticas


Para esto selecciono la serie de puntos de las observciones e ingreso en el men XLSTAT/Visualiacin/Eas yPoint. En el cuadro de dilogo le indicamos la columna con la suma de los cosenos cuadrados. Hacemos lo mismo para las 5variables.

Elementos suplementarios Es posible proyectar elementos suplementarios o ilustrativos (individuos, variables continuas y variables nominales) sobre los planos construidos en el ACP. Los elementos suplementarios permiten explorar asociaciones con los elementos activos o enriquecer los anlisis. Los elementos que participan en el anlisis se denominan activos, en el caso del ACP son variables continuas activas e individuos activos.
Individuos suplementarios Un individuo que tiene los valores para todas las variables activas pero que no particip en el ACP se puede proyectar sobre los ejes obtenidos de la misma forma que los individuos activos. Mediante este procedimiento se puede posicionar un nuevo individuo con respecto a todos los individuos activos para responder a objetivos preestablecidos, por ejemplo explorar su posible discriminacin entre grupos. Variables nominales ilustrativas Como una variable nominal representa un particin (divisin en clases) de los individuos lo que se proyecta son los centros de gravedad de cada subconjunto asociado a una modalidad Variables continuas En le ACP normado la proyeccin de una variable continua ilustrativa equivale a su correlacin con el eje, lo que da la clave para su interpretacin.
5

Primero seleccionar una variable y utilizar la tecla de fecha hacia abajo para encontrar la serie de las variables en los extremos de los vectores.

Tutorial enriquecido por Matilde CSARI

13

Estadstica Multivariada Herramientas Informticas

Anlisis Factorial de Correspondencias (AFC)


El anlisis de correspondencias simples se utiliza cuando queremos analizar dos variables categricas, que definen una tabla de contingencia. El inters recae en analizar las asociaciones entre las categoras de ambas variables, y su proyeccin en un biplot. Utilice el anlisis factorial de correspondencias con el fin de estudiar la conexin entre dos conjuntos de modalidades que constituyen las filas y columnas de una tabla de contingencia. Una tabla de contingencia (TC) se obtiene al clasicar dos variables cualitativas. El conjunto de las las representan a las categoras de una variable y el conjunto de las columnas, a las categoras de la otra variable. El valor de una celda representa al numero de unidades estadsticas = individuos, que poseen simultneamente las categoras de la la y de la columna que se cruzan. Al dividir la tabla sobre su total se obtiene la tabla de frecuencias relativas asociada a la TC, esta representa la distribucin conjunta de probabilidad bivariada de la poblacin en estudio, segn las dos variables cualitativas que dan origen a la tabla. La suma de las las (marginal la), representa la distribucin de probabilidad segn la variable la y la suma de las columnas (marginal columna), la distribucin de probabilidad asociada a la variable columna. La divisin de cada una de las las (respectivamente, columnas) por su marginal origina las distribuciones condicionales o perles la (columna). El anlisis de correspondencias simples (ACS) permite la descripcin de una TC, cumpliendo con tres objetivos: 1) obtener y comparar una tipologa de los perles la; 2) obtener y comparar una topologa de los perles columnas y 3) estudiar las asociaciones entre las dos variables. En aplicaciones ms complejas las las y las columnas pueden estar estructuradas mediante sendas particiones, denidas por otras variables cualitativas. En este documento se utiliza como ejemplo una tabla sobre marcas de ropa, en donde se valora a cada marca segn su asociacin con diferentes caractersticas como precio, calidad, prestigio, exclusividad, elegancia, vanguardia y complementos. Del archivo de datos deseamos caracterizar las distintas marcas segn su mayor relacin con determinadas caractersticas e identificar marcas comunes.

Tabla de contingencia cuya suma de marginales fila y columna son equivalentes

Una vez que XLSTAT est abierto, seleccionamos del men: XLSTAT/Anlisis de los datos/Anlisis factorial de correspondencias, o haga clic en el botn correspondiente de la barra de herramientas "Anlisis de los datos".

Tutorial enriquecido por Matilde CSARI

14

Estadstica Multivariada Herramientas Informticas

Aparece un cuadro de dilogo donde podemos ingresar la tabla de contingencia o crearla a partir de una tabla de datos cualitativos, con el cruce de dos variables.

Indicamos como formato de los datos Tabla cruzada (por defecto) y con el mouse seleccionamos de la hoja de MS Excel la tabla completa con etiquetas filas y columna (primer fila y primer columna) sin incluir los totales marginales. Asegurarse que est activada la opcin Etiquetas incluidas.

Tutorial enriquecido por Matilde CSARI

15

Estadstica Multivariada Herramientas Informticas


Los resultados son visualizados despus de especificar algunas opciones relativas a los grficos. Estn disponibles numerosos detalles, incluido la prueba del chi-cuadrado de independencia de filas y columnas. La calidad de la representacin grfica puede ser evaluada gracias al histograma o a la tabla de los valores propios. Si la suma de los dos primeros (o de los n primeros) valores propios representan una gran parte de la totalidad de la varianza, la calidad de los grficos es buena.

En nuestro caso esta calidad es buena en la medida en que los dos primeros valores propios totalizan el 77,41% de la varianza total.

Cuando la calidad del anlisis es buena el plano permite interpretar fcilmente los datos. Podemos observar que las marcas de ropa de mayor precio (ESCORPION, RODIER) no son las ms elegantes pero si de ms prestigio social. Elegancia, precio, vanguardia y complementos son las cuatro caractersticas importantes que mejor estn representadas en el plano y diferencian y caracterizan las distintas marcas. En el cuadrante superior izquierdo tenemos las marcas ms caras, en el superior derecho las de vanguardia, en el cuadrante inferior izquierdo las marcas consideradas de mayor elegancia y en el inferior derecho las que poseen ms complementos. Los criterios de interpretacin del Anlisis de Correspondencias se basan en los principios siguientes: La proximidad de perfiles fila de la variable X revela un comportamiento similar de esas categoras respecto a la otra variable Y (y a la inversa). La presencia de perfiles fila de la variable X, radicalmente opuestos a perfiles de Y, puede ser tambin interpretada como relacin inversa entre ellos. Los perfiles situados en las proximidades del centroide de la representacin son los que no expresan relacin alguna. La proximidad de un perfil a un cierto eje expresa su mayor contribucin en su definicin. Esta contribucin aumenta cuanto ms alejado se encuentre del centroide de la representacin.

Tutorial enriquecido por Matilde CSARI

16

Estadstica Multivariada Herramientas Informticas


Es decir, las asociaciones no sern ms que la cuantificacin numrica de la relacin existente entre categoras fila y columna: Mayor alejamiento del centroide y menor ngulo MAYOR ASOCIACIN Acercamiento al centroide y aumento del ngulo MENOR ASOCIACIN Puntos opuestos (/2 < ngulo < 3/2) ASOCIACIN NEGATIVA La variabilidad explicada por cada eje es proporcional al valor singular que lo define. En un ACS las modalidades aparecen repartidas a ambos lados de los ejes, lo que conlleva a la lectura de las contraposiciones ms importantes entre modalidades. En una tabla de contingencia de gran tamao se puede buscar las modalidades ms importantes sobre cada eje recurriendo a las denominadas contribuciones absolutas. Las proyecciones sobre los ejes y sobre los planos factoriales sern muy buenas para algunos puntos pero tambin pueden ser de mala calidad para otros puntos. Se requiere entonces de un ndice que ponga en evidencia este hecho, que se denomina coseno cuadrado o contribucin relativa. Proyeccin de elementos suplementarios Al igual que en ACP sobre los ejes factoriales se pueden proyectar filas y columnas que no hayan participando en el anlisis. Se hace mediante las relaciones cuasi-bibaricntricas y por lo tanto se interpreta de la misma forma, pero debe hacerse por cada modalidad ilustrativa con respecto a las modalidades activas. No es apropiado interpretar modalidades ilustrativas entre s pues no han participado en la construccin de los ejes. Para introducir filas o columnas suplementarias o ilustrativas con el Xlstat, en la pestaa de Opciones debemos activar el Anlisis avanzado Datos suplementarios e ingresar el nmero de filas columnas a considerar de la tabla seleccionada como suplementario.

Tutorial enriquecido por Matilde CSARI

17

Estadstica Multivariada Herramientas Informticas

Anlisis de Correspondencias Mltiples (ACM)


El anlisis de correspondencias mltiples (ACM) es una extensin del anlisis factorial de correspondencia (AFC) aplicada no a una tabla de contingencia, sino a una tabla disyuntiva completa. Este mtodo se adapta particularmente al anlisis de encuestas para las cuales las filan de la tabla son en general individuos y las columnas son modalidades de variables cualitativas, generalmente modalidades de respuesta a las preguntas. Utilice el anlisis de correspondencias mltiples con el fin de estudiar datos bajo la forma de una tabla de individuos descritos por varias variables cualitativas. El anlisis de correspondencias mltiples compara individuos a travs de las modalidades de las variables. Encuentra asociaciones entre variables a travs de las modalidades de ellas. Los datos de ejemplo corresponden a una encuesta efectuada ante 28 clientes por un concesionario, una semana despus que estos ltimos recuperaron su vehculo tras una reparacin mecnica. El cuestionario incluye cinco preguntas: - Est Ud. globalmente satisfecho de su visita al taller? (Si/ No) - Considera Ud. que la reparacin fue efectuada correctamente? (Si / No / No sabe) - Cmo juzga Ud. la calidad de la atencin? (de 1 a 5) - Le parece correcta la relacin de calidad precio? (Si / No) - Volver Ud. a este taller para una reparacin? (Si / No / No sabe) Efectuando un Anlisis de Correspondencias Mltiples (ACM), deseamos identificar las posibles relaciones entre las diferentes respuestas en las diferentes preguntas.

Una vez iniciado XLSTAT, elija el comando XLSTAT/Anlisis de datos/Anlisis de Correspondencias Mltiples o haga clic en el botn "Anlisis de Correspondencias Mltiples" de la barra de herramientas "Anlisis de los datos".

Aparece el cuadro de dilogo que corresponde al anlisis de Correspondencia Mltiples. En la primera pestaa seleccionamos los datos. La opcin "Etiquetas de variables" se deja activada ya que la primera fila de las columnas incluye el nombre de las variables. La opcin "Etiquetas de las observaciones" es activada y seleccionamos la columna de las etiquetas de las observaciones.
Tutorial enriquecido por Matilde CSARI

18

Estadstica Multivariada Herramientas Informticas

Selecciono las variables cualitativas nominales activas

Selecciono el identificador de individuos

Al igual que en correspondencias simples se pueden proyectar elementos ilustrativos: individuos, variables nominales (sus modalidades) y variables continuas. Los individuos y modalidades se proyectan utilizando las frmulas cuasibibaricntricas. Las variables continuas calculando la correlacin entre la variable y el eje. En la ficha Opciones activamos la opcin de datos suplementarios y despus vamos a la ficha correspondiente. La variable "Volver" se utiliza como "Variable adicional" ya que no deseamos que influya en los clculos; pero nos interesa a posteriori su ubicacin.

Tutorial enriquecido por Matilde CSARI

19

Estadstica Multivariada Herramientas Informticas

Elegimos la opcin 1/p para filtrar los valores propios: no sern exhibidos los resultados detallados que corresponden a los factores para los cuales el valor propio es menos que 1/p (donde p es el nmero de variables cualitativas activas).

Activamos las siguientes opciones de Resultados y de Grficos.

Tutorial enriquecido por Matilde CSARI

20

Estadstica Multivariada Herramientas Informticas

Una vez que haya pulsado en el botn "OK", empiezan los clculos y luego aparecen los resultados. XLSTAT empieza por visualizar tablas implicadas en los clculos (tabla disyuntiva completa y tabla de Burt). La gua para decidir cuntos ejes analizar en al ACM es la forma del histograma de los valores propios, Interesan los primeros ejes que se destaquen sobre los dems.

La inercia total vale 2. En ACM la inercia de la tabla representada no tiene significado estadstico, esta depende del nmero de modalidades y del nmero de variables. Por la manera como se desarrolla el mtodo (ACS de la tabla Z), el porcentaje de inercia no es un criterio para saber cuntos ejes retener en un ACM. La explicacin de este ltimo hecho se ve muy bien cuando se compara un ACM de dos variables con el ACS de la tabla de contingencia que las cruza. En la siguiente tabla se visualizan los 8 valores propios y el % de inercia correspondiente.

Tutorial enriquecido por Matilde CSARI

21

Estadstica Multivariada Herramientas Informticas


El primer plano factorial del ACM tiene la misma forma que el del ACS y produce los mismos resultados en trminos de las correspondencias entre las modalidades de las dos variables. De modo que los ejes adicionales del ACM se pueden considerar parsitos. En Lebart et al. (1995) aparecen las relaciones para dos variables entre los anlisis de correspondencias de la tabla de contingencia K, la tabla disyuntiva completa Z y la tabla de Burt B. Luego se visualizan las coordenadas de las categoras en el espacio factorial (las diferentes categoras de las variables cualitativas seleccionadas) y los cosenos cuadrados. Las coordenadas de las observaciones estn ms abajo.

El grfico (sin editar) a continuacin representa el mapa factorial que superpone categoras y observaciones.

Utilizando las herramientas de visualizacin de Xlstat y de edicin de grficos del Excel podemos modificar el grafico, eliminado titulos y escalas de los ejes, dispersando la visualizacin de las escalas, cambiando formato y color de etiquetas y puntos y cambiando el tamao de los puntos en funcin de la suma del coseno cuadrado de los dos primeros factores. Para esto ltimo, primero seleccionamos la serie de puntos de las observaciones, con un clic sobre cualquiera de los individuos (azul), accedemos a la herramienta EasyPoint el men de visualizacin del Xlstat y seleccionamos la suma de los cosenos cuadrados slo de las observaciones.

Ahora seleccionamos la serie de los puntos correspondientes a las modalidades de las variables cualitativas activas con un clic sobre cualquiera de ellas (rojo). Accedemos a la herramienta EasyPoint y seleccionamos la suma de los cosenos cuadrados slo de las modalidades activas. Por ltimo seleccionamos los tres puntos correspondientes a las modalidades suplementarias. Accedemos a la herramienta EasyPoint y seleccionamos las tres ltimas filas de la tabla de cos2.
Tutorial enriquecido por Matilde CSARI

22

Estadstica Multivariada Herramientas Informticas

Serie de puntos de las observaciones

Suma coseno cuadrado de individuos

Serie de puntos modalidades activas

Tutorial enriquecido por Matilde CSARI

23

Estadstica Multivariada Herramientas Informticas

Suma coseno cuadrado de las modalidades activas

Serie de puntos de las modalidades suplementarias

Suma coseno cuadrado de modalidades suplementarias El grafico quedara como sigue:

Tutorial enriquecido por Matilde CSARI

24

Estadstica Multivariada Herramientas Informticas

Confirmamos una evidencia: un cliente volver si est globalmente satisfecho de la prestacin, de la calidad de atencin, del precio y si tiene la impresin que la reparacin se efectu efectivamente. Tambin se observa que cuando la reparacin no se efectu satisfactoriamente coincide con una atencin no satisfactoria. Esto merece un amplio anlisis: La persona indic equivocadamente el problema porque no estaba satisfactoriamente atendida? o bien llam de nuevo para sealar que sigue el problema y que no fue atendida satisfactoriamente en aquel momento?. Sobre los planos factoriales se tienen tres claves para la lectura: Los individuos que aparecen cerca se parecen porque asumen mas o menos las mismas modalidades. Cada uno es el cuasibibaricentro de las modalidades que asume y las caractersticas se derivan de las modalidades que se proyectan cerca. Las modalidades de variables diferentes se parecen porque son asumidas mas o menos por los mismos individuos. Cada modalidad se sita en el cuasibibaricentro de los individuos que la asumen. Dos modalidades de una misma variable no pueden ser asumidas por los mismos individuos y si caen cerca se debe al parecido de los individuos por modalidades de otras variables. Las contribuciones y cosenos cuadrados tienen la misma interpretacin que en correspondencias simples. Se agrega la contribucin de una variable como suma de las contribuciones de sus modalidades.

Tutorial enriquecido por Matilde CSARI

25

Estadstica Multivariada Herramientas Informticas

Anlisis Cluster con Xlstat


El Anlisis Cluster, tambin conocido como Anlisis de Conglomerados, Taxonoma Numrica o Reconocimiento de Patrones, es una tcnica estadstica multivariante cuya finalidad es dividir un conjunto de objetos en grupos (cluster en ingls) de forma que los perfiles de los objetos en un mismo grupo sean muy similares entre s (cohesin interna del grupo) y los de los objetos de clusters diferentes sean distintos (aislamiento externo del grupo). Para llevar a cabo un anlisis de este tipo se deben los siguientes pasos: 1) Plantear el problema a resolver por un Anlisis Cluster 2) Establecer medidas de semejanza y de distancia entre los objetos a clasificar en funcin del tipo de datos analizado 3) Analizar algunos de los mtodos de clasificacin propuestos en la literatura haciendo especial nfasis en los mtodos jerrquicos aglomerativos y en el algoritmo de las k-medias, y determinar el nmero de grupos. 4) Interpretar los resultados obtenidos 5) Analizar la validez de la clasificacin obtenida Conviene hacer notar, finalmente, que es una tcnica eminentemente exploratoria cuya finalidad es sugerir ideas al analista a la hora de elaborar hiptesis y modelos que expliquen el comportamiento de las variables analizadas identificando grupos homogneos de objetos. Los resultados del anlisis deberan tomarse como punto de partida en la elaboracin de teoras que explicquen dicho comportamiento.

Algoritmo de clasicacin mixta La propuesta descrita en Lebart et al. (1995) aprovecha las ventajas del mtodo de Ward y las del K-medias, combinndolos de la manera siguiente:
1. Clasicacin inicial. Si la cantidad de individuos por clasicar es muy alta, es probable que la clasicacin jerrquica no se pueda ejecutar directamente. Entonces se efecta esta primera etapa, la cual busca obtener rpidamente y a bajo costo una particin de los individuos en s clases homogneas, donde s es mucho mayor que el nmero de clases deseado en la poblacin, y menor que la cantidad de individuos. Se emplea el algoritmo de agregacin alrededor de centros mviles (K-medias). Los centros iniciales se establecen al azar. 2. Agregacin jerrquica con el mtodo de Ward. Se efecta una clasicacin ascendente jerrquica donde los elementos terminales del rbol son las s clases de la particin inicial (calcular las distancias entre las o entre las clases previas obtenidas en 1) o los individuos directamente. El rbol correspondiente se construye segn el criterio de Ward, el cual une en cada paso de agregacin las dos clases que incrementen lo menos posible la inercia intraclases. 3. Corte del rbol. El rbol o dendrograma que resume el procedimiento de clasicacin permite ver la estructura de clases de los individuos que son objeto de anlisis. En el grco de ndices de nivel es ms fcil observar los cambios de inercia ms grandes (saltos) y decidir el nmero de clases K. Para el paso siguiente es necesario calcular los pesos y centros de gravedad de las clases obtenidas. 4. Consolidacin de la clasicacin. La particin obtenida en el paso anterior no es ptima siempre, debido a la estructura de particiones anidadas del dendrograma obtenido. Para mejorarla se utiliza de nuevo un procedimiento de agregacin alrededor de centros mviles (K-medias), utilizando los centros de gravedad de las clases obtenidas al cortar el rbol como centros iniciales.

Clasificacin Ascendente Jerrquica


Utilice la clasificacin ascendente jerrquica para constituir grupos de individuos similares (clases) sobre la base de su descripcin por un conjunto de variables cuantitativas, cualitativas binarias (0/1), o eventualmente de todos tipos. Nota: sobre todo para las variables cualitativas no binarias es preferible efectuar previamente un anlisis de correspondencias mltiples (ACM) y de considerar los datos de los individuos sobre los ejes factoriales como nuevas variables. EJEMPLO CLASIFICACIN SOBRE UN ACP Tomamos como ejemplo una tabla correspondiente a 200 muestras de caras o crneos, de las mismas se obtuvo 6 medidas, como se muestra en la siguiente figura. La idea es usar estas medidas para construir mascaras, pero no se pueden hacer 200 mscaras, sino que se trata de descubrir patrones o clases de crneos con medidas similares que permitirn disear una mascara que va bien para un grupo de personas.

Tutorial enriquecido por Matilde CSARI

26

Estadstica Multivariada Herramientas Informticas

Lo primero que debemos hacer es un anlisis de componentes principales para obtener los factores, abrimos el Xlstat y elegimos la opcin en el men XLSTAT/Anlisis de datos/ Anlisis de Componentes Principales, o haga clic en el botn correspondiente de la barra "Anlisis de datos". Los datos no tiene columna de identificacin de observaciones. Directamente seleccionamos toda la tabla incluyendo primer fila con identificador de variables.

En grfico indicamos que no figuren las etiquetas de las observaciones en los grficos, ya que son numerosos y no tenemos etiquetas y el programa asigna una por defecto.

Tutorial enriquecido por Matilde CSARI

27

Estadstica Multivariada Herramientas Informticas


A continuacin podemos visualizar el plano de los individuos y el plano de las variables, despus de editarlo con MS Excel y con las herramientas de Visualizacin del xlstat.

La muestra de datos medida es bastante dispersa y podemos encontrar varios patrones o clases de caretas. Para la clasificacin debemos 6seleccionar el nmero de factores a considerar, en este caso, los tres primeros. Se suele utilizar el subconjunto de los primeros k ejes factoriales tales que proyecten en conjunto un mnimo del 80% de la inercial original. El diagrama de valores propios orienta la decisin del nmero de ejes que se utilizan en la clasicacin. Algunas veces, sobre todo en tablas pequeas, se usan todos los ejes.

Cmo n = 200, es decir mayor de 30, comenzamos la clasificacin aplicando sobre los factores el mtodo de Clasificacin Jerarquica, ingresamos en el men Xlstat en XLSTAT/Anlisis de datos/Clasificacin Ascendente Jerrquica (CAJ).

En la hoja de resultados del ACP, buscamos las coordenada de las observaciones y seleccionamos los factores a considerar, podemos o no tomar la primer fila con identificador de factores o Axes, y podems o no seleccionar la columna con etiquetas de observaciones. En este caso no tenemos y tampoco nos interesa identificar los individuos pero si mantenemos la primer fila. Recordemos que la tabla observaciones/variables en este caso no es la tabla original sino la tabla de observaciones/factores.
6

Tomar todos los factores para la formacin de conglomerados es equivalente a efectuar una clasicacin de las las de la tabla de datos utilizando las variables originales. Tomar menos factores implica realizar un ltrado: se supone que los ejes utilizados para la clasicacin tienen la informacin relevante y que los desechados se deben a las uctuaciones aleatorias que constituyen el ruido.

Tutorial enriquecido por Matilde CSARI

28

Estadstica Multivariada Herramientas Informticas

El tipo de proximidad es por disimilitudes (buscamos grupos diferenciados) y para calcular la matriz disimilitud utilizamos la distancia euclidiana y el 7mtodo de Ward para la agregacin, segn lo visto en la teora. En Opciones indicamos qu vamos a clasificar, en este caso filas (las observaciones), y esta primera vez indicamos que Xlstat determine automticamente donde partir el dendograma. Esta decisin es recomendable hacerla sobre el grfico del dendograma.

Indicamos que se vean todos los resultados y para mejor visualizacin que el dendograma sea Horizontal.

El mtodo de Ward utiliza la distancia entre clases que cumple con el objetivo de unir, en cada paso del proceso de aglomeracin, las dos clases que incrementen menos la inercia intraclases. La distancia de Ward entre los dos grupos, en funcin de la distancia euclidiana cannica

Tutorial enriquecido por Matilde CSARI

29

Estadstica Multivariada Herramientas Informticas

Automticamente Xlstat selecciono la particin de 3 elementos.

Segn podemos ver en el Dendograma, la particin a elegir es de 4 clases, por lo cul volvemos a realizar la clasificacin e indicamos que el truncamiento no se automtico sino en 4 clases.

Tutorial enriquecido por Matilde CSARI

30

Estadstica Multivariada Herramientas Informticas

Vemos a continuacin el dendograma con la particin de 4 y la informacin sobre las inercias.

Tutorial enriquecido por Matilde CSARI

31

Estadstica Multivariada Herramientas Informticas

Mtodo de las k-medias


Este tipo de mtodo es conveniente utilizarlo cuando los datos a clasificar son muchos y/o para refinar una clasificacin obtenida utilizando un mtodo jerrquico. Supone que el nmero de grupos es conocido a priori. Existen varias formas de implementarlo pero todas ellas siguen, bsicamente, los siguientes pasos: 1) Se seleccionan k centroides o semillas donde k es el nmero de grupos deseado 2) Se asigna cada observacin al grupo cuya semilla es la ms cercana 3) Se calculan los puntos semillas o centroides de cada grupo 4) Se iteran los pasos 2) y 3) hasta que se satisfaga un criterio de parada como, por ejemplo, los puntos semillas apenas cambian o los grupos obtenidos en dos iteraciones consecutivas son los mismos. El mtodo suele ser muy sensible a la solucin inicial dada por lo que es conveniente utilizar una que sea buena. Una forma de construirla es mediante una clasificacin obtenida por un algoritmo jerrquico. Para 8optimizar esta particin vamos a aplicar sobre los factores el mtodo de clasificacin Kmeans, pero requiere el nmero de clases por obtener y de puntos iniciales para cada una de ellas, es decir usa los factores obtenidos en el ACP y los 9centros mviles utilizados para la agregacin de la particin elegida (en el ejemplo: 4 clases).

En el men buscamos el mtodo en Anlisis de Datos y seleccionamos los factores del ACP igual como se hizo en la Clasificacin Jerrquica, en nmero de clases indicar 4. En Opciones indicamos que la particin inicial se realiza a partir de Centros de Clase definidos por el usuario, es decir se lo damos nosotros.

8 9

La propuesta de Lebart et al. (1995) es utilizarlo para obtener una particin que minimice la inercia intraclases En cada paso del algoritmo se actualizan los centros mviles calculando los centros de gravedad de la particin obtenida del paso anterior

Tutorial enriquecido por Matilde CSARI

32

Estadstica Multivariada Herramientas Informticas

Debajo nos permite seleccionar de la hoja con los resultados de la clasificacin jerrquica (CAJ) la matriz con tantas filas como clases, en este caso 4 y tanta columnas como factores, incluir la primer fila con etiquetas pero no la primer columna con las clases.

En la hoja de resultados podemos ver que la inercia Intraclase ha sido minimizada y la Interclase maximizada.

Buscamos los resultados por objetos y seleccionamos la columna que indica para cada observacin su clase. La pegamos junta la las variables, de esta manera nos que una variable Tipolgica que clasifica a los crneos en 4 grupos o patrones diferentes.
Tutorial enriquecido por Matilde CSARI

33

Estadstica Multivariada Herramientas Informticas

Volvemos a realizar el ACP, pero esta vez, proyectamos de manera ilustrativa la variable cualitativa de clase. Esta tabla es utilizada para caracterizar las clases mediante el algoritmo DECLA. A continuacin visualizamos el cartografiado con los centro de clase proyectados sobre el plano.

Si armamos una tabla tomando las coordenadas y la suma de cosenos cuadrados de las observaciones, adems de la variable de clase podemos utilizar la herramienta de graficado del Xlstat Scatter plots para colorear las observaciones en funcin de los grupos o clases y darle un efecto burbuja (3D) y no slo el tamao, a travs del coseno cuadrado de los dos primeros factores.

Tutorial enriquecido por Matilde CSARI

34

Estadstica Multivariada Herramientas Informticas


Para realizar este grafico preparamos la siguiente tabla a partir de los resultados del ltimo ACP.

Luego buscamos la herramienta en el men de Visualizacin del Xlstat.

Seleccionamos en X el primer factor F1, en Y el factor F2, en Z la suma de los cosenos cuadrados y en Grupo la variable tipolgica. La opcin Z permite darle el tamao y la forma de burbuja y la opcin Grupo permite colorear las burbujas en funcin de una variable categrica o de clase. En el ejemplo no se toma la primer fila con identificador X e Y y tampoco se muestra en el grfico ttulos de ejes y grficos.

Al seleccionar OK se genera una nueva hoja en el libro de MS Excel (SCA) con el biplot o plano factorial. Cada grupo de puntos coloreados para cada clase representa una serie de datos para el grfico de Excel, por lo tanto basta seleccionar una vez cualquiera de los puntos pertenecientes a un grupo para cambiar el color de todas las observaciones de una clase.

Tutorial enriquecido por Matilde CSARI

35

Estadstica Multivariada Herramientas Informticas

El formato interno DTM para entrada de datos


La meta de los mtodos de importacin es transformar un archivo del texto preexistente en el "formato interno DTM". El conocimiento del formato interno DTM podra ser til para algunos usuarios adelantados; No es indispensable para los principiantes. En la configuracin ms general, dos archivos constituyen el SET (conjunto) interno de datos de DTM: 1) El archivo con diccionario, provee los nombres (o los identificadores) de las variables numricas y categricas (incluye10 los nombres de las modalidades correspondientes a cada variable categrica). 2) Los ficheros de datos, contiene los valores de estas variables para un SET de individuos (o las observaciones), conjuntamente con los identificadores de los mismos. "El formato" interno "DTM" Estos tres tipos de archivos estn en formato del texto simple (la extensin ".txt", legible a travs del Bloc de Notas u otro editor de texto, (o tambin con un procesador de texto, siempre que se tome como archivos del texto simples sin formato). Se suele colocar como extensin (en reemplazo del txt) para estos ficheros de texto dic para el diccionario y dat para los datos. Pueden grabarse directamente del teclado, o con la ayuda del men "DataCapture". En la mayora de los casos sin embargo, tienen que ser importados de (a menudo grandes) archivos preexistentes. Tabla 1 y 2 se muestra un ejemplo pequeo, implicando cuatro variables. Tabla 1: Ejemplo de un diccionario interno DTM para 4 variables:
Gnero (2 categoras); Edad (0 categoras es una variable = numrica); Edad dividida en 4 categoras; Nivel educativo (3 categoras). 2 ENGENDRAN (4 espacios; el nmero de categoras N; espacio vaco; ttulo de la variable)
MASC MASCULINO FEME FEMENINO 0 EDAD_num 4 EDAD_rango EDA1 18_24 EDA2 25_39 EDA3 40_59 EDA4 60 3 EDUCACIN EDUL Baja EDUM Media EDUH Alta
(identificador

corto de 4 caracteres; espacio vaco; identificador < 20 caracteres)

(identificador corto de 4 caracteres; espacio vaco; identificador < 20 caracteres) (4 espacios; el nmero de categoras 0; espacio vaco; nombre variable numrica) (4 espacios; el nmero de categoras N; espacio vaco; ttulo de la variable) (identificador corto de 4 caracteres; espacio vaco; identificador < 20 caracteres) (identificador corto de 4 caracteres; espacio vaco; identificador < 20 caracteres) (identificador corto de 4 caracteres; espacio vaco; identificador < 20 caracteres) (identificador corto de 4 caracteres; espacio vaco; identificador < 20 caracteres) (4 espacios; el nmero de categoras N; espacio vaco; ttulo de la variable)

Tabla 2: El ejemplo de un fichero de datos interno DTM para las 4 variables previas:
El gnero, la Edad numrica, la Edad en 4 categoras, el nivel Educativo. Tres encuestados (individuos, observaciones) ' 1006 ' 1 76 4 1 (Los identificadores de los individuos: entre comillas simples,
' 1007 ' 2 20 2 2 ' 1008 ' 2 29 3 2

sin espacio vaco, menos de 20 caracteres. Los separadores entre los valores: como mnimo un espacio en blanco)

10

Esta caracterstica es bastante rara en software estadstico, pero parece indispensable para explorar SETS datos categricos de muchas dimensionales.

Tutorial enriquecido por Matilde CSARI

36

Estadstica Multivariada Herramientas Informticas Para el anlisis de una tabla de datos haciendo uso de mtodos multivariados, Lebart et al. (1995) presenta una estrategia que consiste en realizar primero un anlisis factorial segn la naturaleza de los datos y luego una 11clasicacin basada en un algoritmo mixto: clasicacin jerrquica con el mtodo de Ward y agregacin alrededor de centros mviles (K-medias). Finalmente se obtiene una particin del conjunto de datos y la caracterizacin de cada una de las clases, segn las variables activas e ilustrativas, ya sean cuantitativas o cualitativas. Para la caracterizacin de las clases se utilizan los valores test, que son ndices descriptivos construidos siguiendo la metodologa de pruebas de hiptesis, pero sin el objetivo de hacer inferencias. La utilizacin de las coordenadas factoriales permite tener un marco comn en el proceso de formacin de conglomerados. Para el proceso de clasicacin el anlisis factorial previo se constituye en un pretratamiento, que transforma los datos originales en variables continuas no correlacionadas. Tomar todos los factores para la formacin de conglomerados es equivalente a efectuar una clasicacin de las las de la tabla de datos utilizando las variables originales. Tomar menos factores implica realizar un ltrado: se supone que los ejes utilizados para la clasicacin tienen la informacin relevante y que los desechados se deben a las uctuaciones aleatorias que constituyen el ruido. El diagrama de valores propios orienta la decisin del nmero de ejes que se utilizan en la clasicacin. Algunas veces, sobre todo en tablas pequeas, se usan todos los ejes. (Campo, 2007).
El mtodo de Ward utiliza la distancia entre clases que cumple con el objetivo de unir, en cada paso del proceso de aglomeracin, las dos clases que incrementen menos la inercia intraclases. El algoritmo K-medias para la obtencin de una particin directa de un conjunto de individuos por variables cuantitativas requiere el nmero de clases por obtener y de puntos iniciales para cada una de ellas. La propuesta de Lebart et al. (1995) es utilizarlo para obtener una particin que minimice la inercia intraclases. Esto se logra localmente (depende de los puntos iniciales) usando la distancia euclidiana cannica entre los individuos y los centros mviles utilizados para la agregacin. En cada paso del algoritmo se actualizan los centros mviles calculando los centros de gravedad de la particin obtenida del paso anterior. Para seleccionar las variables continuas o las categoras de las variables nominales ms caractersticas de cada clase, se mide la desviacin entre los valores relativos a la clase y los valores globales, utilizando los valores test.

Caracterizacin de Clases con DTM


Procedimiento DECAT (DEscripcin de CATegorias)
DECAT es una funcin que realiza la caracterizacin de las clases segn variables. Caracterizacin de una variable cualitativa. Realiza comparaciones mltiples entre medias y proporciones con el resto de variables para observar las relaciones ms evidentes. Caracterizacin de las clases o grupos teniendo en cuenta las variables en la tabla. Estas variables pueden ser cuantitativos, cualitativos o frecuencias. Permite ver qu variables caracterizan a cada una de las clases teniendo en cuenta los Valores Test. DTM ofrece un mtodo original y poco conocido para caracterizar una variable respuesta a partir de un conjunto de variables explicativas. Se aplica un algoritmo que realiza comparaciones mltiples entre medias y / o proporciones para hallar las variables explicativas relacionadas. Este mtodo permite, por ejemplo que sepamos que caractersticas diferencian a los clientes "buenos" de los clientes "malos", tomando como explicativas la edad, el nivel de estudios, los aos en la entidad bancaria,...Es un mtodo que se enmarca claramente entre las tcnicas ms recientes de Minera de datos (Data Mining). Ordena las caractersticas influyentes por el p-valor asociado a la prueba estadstica y adems incorpora un nuevo elemento, el valor-test. Este estadstico se distribuye segn una normal estandarizada, por lo que cuando sea superior a 2 o bien inferior a 2 se considerar que una caracterstica es influyente, con un nivel de significacin asociado de 0,05. Se puede caracterizar estadsticamente una variable cualitativa (nominal). Los elementos caractersticos pueden ser otras variables nominales o tambin variables continuas.

11

el trmino clasicacin se utiliza como sinnimo de anlisis o formacin de conglomerados o clasicacin no supervisada. En ningn momento hace referencia a la clasicacin supervisada o discriminacin

Tutorial enriquecido por Matilde CSARI

37

Estadstica Multivariada Herramientas Informticas Caracterizacin de una categora de una variable categrica respuesta a partir de una variable continua explicativa. En el caso que se desee caracterizar el subgrupo de individuos a partir de una variable explicativa continua se realiza un test de comparacin de medias entre la media del subgrupo respecto la media global ordena las caractersticas influyentes por el p-valor asociado a la prueba estadstica y adems incorpora un nuevo elemento, el valor-test. Este estadstico se distribuye segn una normal estandarizada, por lo que cuando sea superior a 2 o bien inferior a -2 se considerar que una caracterstica es influyente, con un nivel de significacin asociado de 0,05.
Siguiendo con el ejemplo de las 6 mediciones sobre 200 crneos, en el apartado anterior se obtuvieron 4 clases (patrones). Procedemos a caracteriza cada clase de manera de obtener las medidas tipologicas para cuatro mascaras. 1 paso Importar los datos al software DTM. Creamos una carpeta de trabajo donde trabajamos con el DTM. Copiamos la tabla con las 6 variables continuas y la variable de clase en un nuevo libro de Excel, insertamos un columna al principio y colocamos una etiqueta de identificacin de observaciones.

Restricciones importantes que hay que asegurar: Los nombres de variables deben tener menos de 20 caracteres, Estos nombres no deberan tener espacios en blanco (en todo caso, reemplcelos por lneas subrayadas). - La primer columna debe ser de etiquetas que identifiquen las observaciones, si no existe crearla. Guardamos como fichero CSV (delimitado por punto y coma).
-

Tutorial enriquecido por Matilde CSARI

38

Estadstica Multivariada Herramientas Informticas


Nota: es recomendable que el el Panel de control / configuracin Regional del sistema operativo, el smbolo decimal sea el . (punto) y el smbolo separador de miles sea la , (coma), de esta manera cuando creamos un fichero CSV, el mismo delimita las columna con ;. Podemos abrir el fichero para comprobar que las columnas estn delimitadas por punto y coma con el Block de Notas

Nota: Si no podemos, deseamos o no sabemos cambiar la Configuracin regional del sistema Operativo y el smbolo decimal es la , (coma), es recomendable guardar el fichero en formato TXT delimitado por tabulaciones, el mismo requiere un paso previo en la importacin del DTM para convertirlo a delimitado por punto y coma. Abrimos el DTM y seleccionamos la opcin DataCapture, Data importation, Preprocessing (importacin / captura / preprocesamiento de datos). Luego Importing Dictionary ,Data and Texts (Importar Diccionario, Datos y Textos)". Y por ltimo presione el primer botn habilitado a la izquierda: Excel Files (archivos de Excel). Se muestra la ventana Importing from an Excel (r) file.

Nota: Si el archivo Excel ha sido guardado con tabulaciones como separadores de columnas, se presiona el botn: 0. Change tabs into semi-colons (cambiar tabulaciones a puntos y comas). Seleccione el archivo con tabulaciones y convirtalo. Se crea un nuevo archivo New_ _clasescraneo.txt". Luego, haga clic en: 1. Add the types of variables (indicar tipos de variables ).

Ingrese a Select Data. (cargar fichero csv). Seleccione el archivo creado previamente "datbase_classical.csv" .

Tutorial enriquecido por Matilde CSARI

39

Estadstica Multivariada Herramientas Informticas

Un cuadro de dialogo confirma la seleccin. Debera aparecer la lista de variables.

Ingrese a Values and Counts. (analizar los valores) y luego a Show results (muestra los resultados).

Tutorial enriquecido por Matilde CSARI

40

Estadstica Multivariada Herramientas Informticas

Luego seleccionar uno o varios identificadores de variable, en la lista, y escoger, para cada atributo (cada variable), una palabra clave, en el ejemplo la primer columna es el identificador de individuos y siembre es de tipo textual TEXT, las variables de la 1 a la 6 son todas numricas, se coloca como NUM y la ltima de clase es nominal y el tipo es CHAR.

Una vez completado el que el ingreso del tipo de variable, d un clic sobre update the data file (actualizacin) para modificar el fichero.

Tutorial enriquecido por Matilde CSARI

41

Estadstica Multivariada Herramientas Informticas

El programa crea un nuevo archivo, en donde se agrego una fila despus de los identificadores de variables, con el tipo de dato. Este archivo es " New_typevar_clasescraneo.csv". Luego, haga clic en: Impor Data (importar). El proceso de importacin consiste en construir un diccionario DTM y un fichero de datos DTM a partir del fichero de datos creado en el paso anterior 1.

los nombres de las variables se extraen de la primera fila. el nmero de categoras para cada variable y los nombres de estas modalidades se obtienen al realizar un anlisis del fichero Para cada variable, son detectadas todas las diferentes secuencias de caracteres de importancia. Las modalidades son ordenadas alfabticamente por sus identificadores. el fichero de datos DTM comienza con el mismo identificador entre comillas simples, las modalidades de las variables categricas sern enteros consecutivos comenzando con el valor "1", en lugar de un smbolo alfanumrico. Los valores numricos sern idnticos al del fichero de datos original, excepto los valores perdidos reemplazados, en esta versin de DTM, por el valor estndar "999".

Se muestra la ventana: Format type XL . Finding the states of each categorical variables, frequencies . Clic en: Select Basic file New_typevar_clasescraneo.csv (Seleccionar archivo Bsico). Seleccione el archivo

Tutorial enriquecido por Matilde CSARI

42

Estadstica Multivariada Herramientas Informticas

Clic en Values and counts (Valores y recuentos). Anlisis de todas las variables nominales (el smbolo: "Achichrrese" en el diccionario) se forma de los dos archivos bsicos. Se muestra la lista de todas las modalidades encontraron en el fichero de datos, con las frecuencias correspondientes.

Clic en Create Dictionary and Data (crear el diccionario y los datos DTM).

Clic en Name for the new dictionary (nombre para el diccionario nuevo) para escoger un nombre para el diccionario en formato de DTM, siempre en el mismo directorio. (se recomienda la extensin ".DIC"). Por ejemplo craneo.DIC

Tutorial enriquecido por Matilde CSARI

43

Estadstica Multivariada Herramientas Informticas

Clic en Name for the new data file (nombre para el archivo de datos nuevo) para escoger un nombre del fichero de datos en formato del DTM, siempre en el mismo directorio. (se recomienda la extensin ".DAT"). Por ejemplo craneo.DAT

Tutorial enriquecido por Matilde CSARI

44

Estadstica Multivariada Herramientas Informticas


Clic en Create new dictionary (crear diccionario nuevo). Analiza las modalidades para las variables nominales. Es creado un diccionario en formato interno de DTM, el cul se visualiza en las notas a la derecha.

Clic en Create new data file (crear fichero de datos nuevo). Al cabo de un rato, un cuadro de mensajes muestra el nmero de individuos.

Clic sobre ese botn Create a DTM parameter file. (Crear un archivo de parmetros DTM). Se muestra la ventana Creating a starting parameter file. Clic en Create a first parameter file (crea un primer archivo de parmetro). Se muestra un archivo de comandos DTM en la ventana inferior. Los dems operaciones y comentarios son idnticos a la de la introduccin. El archivo de comandos es automticamente creado bajo el nombre: "Param start.txt".

Tutorial enriquecido por Matilde CSARI

45

Estadstica Multivariada Herramientas Informticas

Haga Clic en "Execute" (Responda No a la pregunta acerca de un formato posible XML para el archivo de salida). Lea los resultados haciendo clic en Main basic numerical results (principales resultados numricos bsicos) del men. Estos resultados son guardados bajo el nombre "imp.txt" en el mismo directorio de trabajo. 2 paso Implementar el mtodo DECAT Clic en Create a command file (crear fichero de parametros).

Una ventana muestra los mtodos disponibles en la herramienta.

Tutorial enriquecido por Matilde CSARI

46

Estadstica Multivariada Herramientas Informticas

Seleccionamos DECAT (Descripcin de CATegorias)

La siguiente ventana es para cargar los datos, nos pregunta por el diccionario y luego por los datos. Clic en Open a dictionary (abrir el diccionario).

Tutorial enriquecido por Matilde CSARI

47

Estadstica Multivariada Herramientas Informticas

Clic en Open a Data File (abrir el fichero de datos).

Clic en Continue (seleccionar la variable a describir y las variables explicativas).


Tutorial enriquecido por Matilde CSARI

48

Estadstica Multivariada Herramientas Informticas

La ltima variable es la que vamos a describir, va en el cuadro a la derecha arriba. Las otras variables numricas son las que van a caracterizar, las exploratorias y van en el cuadro a la derecha abajo. Clic en All the observations Hill be active (permite seleccionar los individuos activos).

Creamos el fichero de parmetros y lo ejecutamos.

La tabla de resultados describe cada clase, indicando media de clase y media global.
Tutorial enriquecido por Matilde CSARI

49

Estadstica Multivariada Herramientas Informticas


En el caso de las tablas para variables continuas caractersticas, las columnas representan: - CHARACTERISTIC VARIABLES Variable continua que resulta ser significativa. - MEANS Media general (para todos los crneos) y media definida por la clase (C!, C, C y C4) - STD.DESVIAT. Desviacin tpica general y desviacin tpica definida por la clase (C!, C, C y C4) - PROBA P-valor asociado a la prueba estadstica. - V.TEST Valor test asociado a la prueba estadstica

Interpretacin Si los elementos caractersticos son variables continas, para clasificar las ms caractersticas de la variable nominal, se efectan todos los anlisis de la variancia. El mejor analizas de variancia es el que corresponde al estadstico de Fisher mas significativo y corresponde al parmetro continuo mas previsible con ayuda del factor. Para cada estadstico de Fisher se calcula la probabilidad de ser sobrepasado. El valor test asociado es el valor de una variable nominal que tiene la misma probabilidad de ser sobrepasada. Entonces, se ordenan las variables caractersticas siguiendo el orden decreciente de los Valores Test.

Tutorial enriquecido por Matilde CSARI

50

Estadstica Multivariada Herramientas Informticas Caracterizacin de una categora de una variable categrica respuesta a partir de las categoras (A, B, C, ...) de una variable explicativa. La categora de la variable respuesta define implcitamente un subgrupo de individuos del conjunto global de individuos. El algoritmo realiza pruebas estadsticas para comparar las proporciones de individuos que presentan las categoras A, B, C, ... dentro del subgrupo respecto las proporciones en la muestra global.
En el siguiente ejemplo se tiene: 13 caractersticas del vino observadas a partir de tres lugares distintos dentro de la misma regin. Se obtuvo 178 observaciones. Las variables fueron discretizadas y se aplico AFCM para su anlisis.

Tutorial enriquecido por Matilde CSARI

51

Estadstica Multivariada Herramientas Informticas


Con los mtodos de clasificacin se obtuvo 8 patrones o grupos homogneos.

1 paso Importar los datos al software DTM. Creamos una carpeta de trabajo donde trabajamos con el DTM. Copiamos la tabla con 13 variables continuas y 13 variables nominales (discretizadas en rangos) a un nuevo libro de MS Excel, agregamos una primer columna con identificador de fila.

Guardamos como fichero CSV (delimitado por punto y coma).

Abrimos el DTM y seleccionamos la opcin DataCapture, Data importation, Preprocessing (importacin / captura / preprocesamiento de datos). Luego Importing Dictionary ,Data and Texts (Importar Diccionario, Datos y Textos)". Y por ltimo presione el primer botn habilitado a la izquierda: Excel Files (archivos de Excel). Se muestra la ventana Importing from an Excel (r) file.
Tutorial enriquecido por Matilde CSARI

52

Estadstica Multivariada Herramientas Informticas


Luego, haga clic en: 1. Add the types of variables (indicar tipos de variables ). Ingrese a Select Data. (cargar fichero csv). Seleccione el archivo creado previamente

Un cuadro de dialogo confirma la seleccin. Debera aparecer la lista de variables. Ingrese a Values and Counts. (analizar los valores) y luego a Show results (muestra los resultados). Luego seleccionar uno o varios identificadores de variable, en la lista, y escoger, para cada atributo (cada variable), una palabra clave, en el ejemplo la primer columna es el identificador de individuos y siembre es de tipo textual TEXT, las variables de la 1 a la 13 son todas numricas, se coloca como NUM y las ltimas 14 nominal de tipo es CHAR.

Una vez completado el que el ingreso del tipo de variable, d un clic sobre update the data file (actualizacin) para modificar el fichero. El programa crea un nuevo archivo, en donde se agrego una fila despus de los identificadores de variables, con el tipo de dato. Este archivo es " New_typevar_vino.csv". Luego, haga clic en: Impor Data (importar). Se muestra la ventana: Format type XL . Finding the states of each categorical variables, frequencies . Clic en: Select Basic file (Seleccionar archivo Bsico). Seleccione el archivo New_typevar_vino.csv. Clic en Values and counts (Valores y recuentos). Anlisis de todas las variables nominales (el smbolo: "Achichrrese" en el diccionario) se forma de los dos archivos bsicos. Se muestra la lista de todas las modalidades encontraron en el fichero de datos, con las frecuencias correspondientes.

Tutorial enriquecido por Matilde CSARI

53

Estadstica Multivariada Herramientas Informticas

Clic en Create Dictionary and Data (crear el diccionario y los datos DTM). Clic en Name for the new dictionary (nombre para el diccionario nuevo) para escoger un nombre para el diccionario en formato de DTM, siempre en el mismo directorio. (se recomienda la extensin ".DIC"). Por ejemplo vino.DIC Clic en Name for the new data file (nombre para el archivo de datos nuevo) para escoger un nombre del fichero de datos en formato del DTM, siempre en el mismo directorio. (se recomienda la extensin ".DAT"). Por ejemplo vino.DAT Clic en Create new dictionary (crear diccionario nuevo). Analiza las modalidades para las variables nominales. Es creado un diccionario en formato interno de DTM, el cul se visualiza en las notas a la derecha. Clic en Create new data file (crear fichero de datos nuevo). Al cabo de un rato, un cuadro de mensajes muestra el nmero de individuos. Clic sobre ese botn Create a DTM parameter file. (Crear un archivo de parmetros DTM). Se muestra la ventana Creating a starting parameter file. Clic en Create a first parameter file (crea un primer archivo de parmetro). Se muestra un archivo de comandos DTM en la ventana inferior. Los dems operaciones y comentarios son idnticos a la de la introduccin. El archivo de comandos es automticamente creado bajo el nombre: "Param start.txt". Haga Clic en "Execute" (Responda No a la pregunta acerca de un formato posible XML para el archivo de salida). Lea los resultados haciendo clic en Main basic numerical results (principales resultados numricos bsicos) del men. Estos resultados son guardados bajo el nombre "imp.txt" en el mismo directorio de trabajo. En ocasiones s necesario editar el diccionario, la importacin implica que el software enumere las variables y agregue una codificacin a las modalidades lo cual es necesario cambiar, por ejemplo si editamos con el block de notas el fichero VINO.DIC, podemos cambiar las etiquetas.

Tutorial enriquecido por Matilde CSARI

54

Estadstica Multivariada Herramientas Informticas

Con el fichero de datos siempre es necesario editarlo para eliminar una fila en blanco que se crea durante la importacin.

2 paso Implementar el mtodo DECLA Clic en Create a command file (crear fichero de parametros). Una ventana muestra los mtodos disponibles en la herramienta. Seleccionamos DECAT (Descripcin de CATegorias) La siguiente ventana es para cargar los datos, nos pregunta por el diccionario y luego por los datos. Clic en Open a dictionary (abrir el diccionario).

Tutorial enriquecido por Matilde CSARI

55

Estadstica Multivariada Herramientas Informticas


Clic en Open a Data File (abrir el fichero de datos).

Clic en Continue (seleccionar la variable a describir y las variables explicativas).

La ltima variable es la que vamos a describir, va en el cuadro a la derecha arriba. Las otras variables numricas son las que van a caracterizar, las exploratorias y van en el cuadro a la derecha abajo. Clic en All the observations Hill be active (permite seleccionar los individuos activos). Creamos el fichero de parmetros y lo ejecutamos. La tabla de resultados describe cada clase, indicando media de clase y media global.

Tutorial enriquecido por Matilde CSARI

56

Estadstica Multivariada Herramientas Informticas


Las columnas presentadas en las tablas representan: - CHARACTERISTIC CATEGORIES Variable nominal. Modalidades Caractersticas que resulta ser significativa. - V.TEST Valor test asociado a la prueba estadstica - CLA/MOD Porcentaje de individuos de la submuestra definida por la caracterstica explicativa que estn presentes en la submuestra definida por la clase. - MOD/CLA Porcentaje de individuos de la submuestra definida por la clase (C1, C2,) que presentan la caracterstica. - GLOBAL Porcentaje de individuos en la muestra que presentan la caracterstica - PROBA P-valor asociado a la prueba estadstica. Interpretacin - Si los elementos caractersticos son las modalidades de otras variables nominales se detectan las modalidades ms significativas. Los valores test se calculan para todas las modalidades de las variables nominales, ordenndoselas, por tanto, en funcin de estos valores decrecientes para caracterizar cada modalidad. La clasificacin proporcionada por los valores test ordena las modalidades a partir de un criterio estadstico el cual evala la importancia de la desviacin entre dos proporciones, la del grupo y la de la poblacin general, es decir evala la abundancia de la modalidad en el grupo, frente a la abundancia de la modalidad en la poblacin total. Mientras mayor sea el valor test, ms interesante ser la tabla de cruzamiento.(mayor asociacin entre las variables.). Los (valores test< 2), determinan independencia entre ambas variables, o sea ausencia de significacin estadstica. Podemos editar con MS Excel la tablado resultados de manera de presentar por cada grupo tanto las modalidades o rangos caractersticos como la media esperada para las variables continuas.

Este grupo de vinos son aquellos de Alto (no los ms altos) contenido de Magnesio, Flavanoids, color y Proline y grado Medio nivel de Matiz y Pronantocyanins. Tambien podemos decir que en general tienden a tener menos contenido (por debajo de la media global) de Alcalinidad de la ceniza y Fenol No Flavanoids. Los Valores de Test muestran una significacin estadstica de 99% de certeza en la asociacin de estas caractersticas con la clase 1.

Tutorial enriquecido por Matilde CSARI

57

Estadstica Multivariada Herramientas Informticas

Tutorial enriquecido por Matilde CSARI

58

Estadstica Multivariada Herramientas Informticas

Tutorial enriquecido por Matilde CSARI

59

Estadstica Multivariada Herramientas Informticas

Tutorial enriquecido por Matilde CSARI

60

Estadstica Multivariada Herramientas Informticas


Referencias - Cabarcas, G. y Pardo Campo Elas (2001), Mtodos estadsticos multivariados en investigacin social, Simposio de Estadstica - Cazes, P., Chessel, D. & Doledec, S. (1988), Lanalyse des correspondances internes dun tableau partitionn. Son usage en hydrobiologie, Revue de Statistique Applique 36(1), 3954. - Csari Matilde (2007), Estrategias de anlisis y exploracin de datos como soporte a la adquisicin de conocimiento para modelizacin de sistemas expertos bayesianos causales. Trabajo Final de Especialidad en Ingeniera de Sistemas Expertos. ITBA - Csari R., Csari M, Mtodos y Tcnicas de Investigacin Pofesional, U. Aconcagua, ISSPN, Mendoza, Argentina, (2005-2007). - Crivisky, Eduardo (1999), Presentacin de los Mtodos de Clasificacin. Programa PRESTA. http://www.ulb.ac.be/assoc/ presta/Cursos/cursos.html - Dalgaard, P. (2005), ISwR: Introductory Statistics with R. R package version 1.0-6. - Decisia (2003), SPAD Data Mining and Text Mining, http://www.decisia.com/ - Escofier B. y Pags J. (1994), Multiple factor analysis: AFMULT package. Comp. Statistics &. Data Analysis 18, 121-140 - Etxeberra, J.; Garca, E.; Gil J. Y Rodriguez G. (1995), Anlisis de datos y textos. Madrid, Editorial Ra-Ma - Fisher, D.H., Pazzani M.J. y Langley P. (1991), "Concept formation: knowledge and experience in unsupervised learning", Morgan Kaufmann - Friendly, M. (1994), Mosaic Displays for Multi-Way Contingency Tables, Journal of the American Statistical Association 89(425), 190200. - Hartigan, J. A. & Wong, M. A. (1979), A K-means Clustering Algorithm, Applied Statistics 28(100108). - Husson, F., L, S. & Mazet, J. (2007), FactoMineR: Factor Analysis and Data Mining with R. R package version 1.05. *http://factominer.free.fr, http://www.agrocampus-rennes.fr/math/ - Lebart, L. (2007), DTM. Data and Text Mining, Software. *http://ses.enst.fr/lebart/ - Lebart, L., Morineau, A. & Piron, M. (1995), Statisitique exploratoire multidimensionnelle, Dunod, Paris. - Lebart, L., Morineau, A., Lambert, T. & Pleuvret, P. (1999), SPAD. Systme Pour lAnalyse des Dones, Paris. *http://www.spad.eu - Ligges, U. & Murdoch, D. (2005), R Help Desk: Make R CMD Work Ander Windows an Example, R News 5(2), 2728. - Ligges, U. (2006), R Help Desk: Accessing the Sources, R News 6(4), 4345. - Ortiz, J. y Pardo, Campo Elas (2004), Anlisis multivariado de datos en R, in Simposio de Estadstica, Universidad Nacional de Colombia. Departamento de Estadstica, Cartagena. - Pardo Campo Elas (2005). Anlisis de correspondencias de tablas de contingencia estructuradas, in Memorias Coloquio Distrital de Matemticas y Estadstica, Universidad Distrital, pp. 6590. - Pardo, C. E. (1992), Anlisis de la aplicacin del mtodo de Ward de clasicacin jerrquica en el caso de variables cualitativas, Tesis de Maestra, Estadstica, Universidad Nacional de Colombia, Facultad de Ciencias, Departamento de Matemticas y Estadstica, Bogot. - Pinheiro, J., Bates, D., DebRoy, S. & the R Core team., D. S. (2007), nlme: Linear and Nonlinear Mixed Eects Models. R package version 3.1-83. - R Development Core Team (2007a), R: A Language and Environment for Statistical Computing, R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0. *http://www.R-project.org Herramientas para el anlisis de datos SPAD Versin 5.5. logiciels pour l'Analyse des Donnes - Data Mining - Analyse Prdictive - Statistique Dcisionnelle - Contrle & Gestion de la Qualit des Donnes. Pgina principal de sistema para anlisis de datos. http://www.spad.eu/ DTM. Data and Text Mining, Software desarrollado por Lebart, L. (2007), Estadstica Exploratoria Multidimensional para datos complejos que incluyen datos numricos y textuales. http://ses.enst.fr/lebart/ StatSoft, Inc. Programa de DataMining de Datos Textuales: STATISTICA: http://www.statsoft.com/ o www.statsoftiberica.com/es/soluciones/productos/pacstat_datatextaminer.html SPSS - proveedor de TextSmart, SPSS Text Analysis for Surveys y Clementine, productos que se pueden utilizar con otros de SPSS. http://www.spss.com/la/ SAS Enterprise Miner - software de minera de textos. http://www.sas.com/technologies/analytics/datamining/miner/

Tutorial enriquecido por Matilde CSARI

61

S-ar putea să vă placă și