Documente Academic
Documente Profesional
Documente Cultură
Complementariedad de las tcnicas de visualizacin (Anlisis en componentes principales, Anlisis de las correspondencias simples y mltiples) y de la clasificacin automtica (mtodo mixto que combina clasificacin jerrquica [criterio de Ward] . Validacin de las tcnicas de visualizacin: Anlisis discriminante de Fisher, Re-muestreo (bootstrap, bootstrap parcial, bootstrap total, bootstrap sobre variables). Caracterizacin de clases a travs del DECLA (valor de test).
HERRAMIENTAS:
-
DtmVic (Datos y Text Mining: Visualizacin, inferencia, clasificacin), producto puesto al servicio acadmico de los estudiantes de doctorado y de la investigacin. Tratamiento de archivos de encuestas por medio de mtodos estadsticos multidimensionales. XLSTAT producto principal desarrollado por Addinsoft. Fue desarrollada desde 1993 con el fin de permitir a los usuarios de MS Excel de hacer anlisis de datos y modelizacin. Funciones que hacen de Excel una herramienta potente y de acceso fcil para satisfacer a la mayora de sus necesidades en anlisis de datos
http://www.xlstat.com/es/download/
Para bajar de Internet Xlstat (versin evaluativa 2009.1), acceder a la pgina de Xlstat:
Versin 2005 7.53 con parche de reinicio del conteo de evaluacin:
http://ai.frm.utn.edu.ar/micesari//files/XLStat%202005.rar
1 2
Descargar: "inst_dtm.zip", descomprimir, clicar: "Setup.exe" y seguir las instrucciones Descargar: dtm_software.zip ", descomprimir, clicar: DtmVic_43.exe. No se instala se ejecuta directo
Estadstica Multivariada Herramientas Informticas Desde hace una treintena de aos, los mtodos de anlisis multivariante de datos han probado su eficacia en el estudio de grandes masas de informacin compleja. Se trata de mtodos llamados multidimensionales, por oposicin a los mtodos de estadstica descriptiva que tratan nicamente una o dos variables. Actualmente, los mtodos factoriales se enmarcan en las tcnicas de Data Mining (o minera de datos). Estos permiten confrontar numerosas informaciones, lo cul es ms rico que anlisis separados. Las representaciones simplificadas de grandes tablas de datos se han manifestado como un instrumento de sntesis notable, debido a su capacidad para reducir la dimensionalidad. Permiten extraer las tendencias ms destacadas, jerarquizarlas y eliminar los efectos marginales o puntuales que perturban la percepcin global de los hechos recogidos en los datos. El desarrollo de algoritmos de clasificacin resulta ser en muchas ocasiones un complemento ideal a los mtodos factoriales y permiten describir tipologas de individuos segn las variables en estudio. Estos mtodos nacidos en la universidad se han aplicado a todo tipo de dominios cientficos como la ecologa, ingeniera, medio ambiente, la lingstica, la psicometra, el anlisis de mercados, la arqueologa,... Tambin han experimentado un gran xito en ramas de la banca y seguros donde deben analizarse grandes ficheros de datos. ESTRATEGIA COMBINADA DE UN MTODO FACTORIAL Y FORMACIN DE CONGLOMERADOS La estrategia descrita en Lebart et al. (1995) sigue los pasos que se muestran en la gura 1.
Figura 1: Diagrama de ujo de la estrategia combinada de anlisis factorial y mtodos de clasicacin. Si el nmero n de elementos por clasicar sobrepasan el umbral nmax, se realiza un agrupamiento antes de la clasicacin jerrquica.
Para la puesta en prctica de la estrategia mencionada se han desarrollado distintos paquetes estadsticos, como por ejemplo: utilizando el lenguaje R (R Development Core Team 2007a) se programa el paquete denominado 3FactoClass, el cual utiliza funciones de ade4 (Chessel et al. 2004) para realizar el anlisis factorial de los datos y de stats para los mtodos de clasicacin, FactoClass permite obtener salidas similares a las que aparecen en los programas estadsticos SPAD (Lebart et al. 1999) y DTM (Lebart 2007).
3
El paquete FactoClass se instala en R (versin 2.4.1 en adelante) a partir del zip disponible en la pgina: http://www.docentes.unal.edu.co/cepardot/docs/
Estadstica Multivariada Herramientas Informticas CLASICACIN A PARTIR DE LOS FACTORES La utilizacin de las coordenadas factoriales permite tener un marco comn en el proceso de formacin de conglomerados. Para el proceso de clasicacin el anlisis factorial previo se constituye en un pretratamiento, que transforma los datos originales en variables continuas no correlacionadas. Tomar todos los factores para la formacin de conglomerados es equivalente a efectuar una clasicacin de las las de la tabla de datos utilizando las variables originales. Tomar menos factores implica realizar un ltrado: se supone que los ejes utilizados para la clasicacin tienen la informacin relevante y que los desechados se deben a las uctuaciones aleatorias que constituyen el ruido. El diagrama de valores propios orienta la decisin del nmero de ejes que se utilizan en la clasicacin. Algunas veces, sobre todo en tablas pequeas, se usan todos los ejes. El mtodo de Ward utiliza la distancia entre clases que cumple con el objetivo de unir, en cada paso del proceso de aglomeracin, las dos clases que incrementen menos la inercia intraclases. Sean A y B dos clases no vacas y disjuntas y sean pA, pB y gA, gB sus pesos y centros de gravedad, respectivamente. La distancia de Ward entre los dos grupos, en funcin de la distancia euclidiana cannica d, viene dada por:
(la deduccin se puede ver en Pardo 1992). En particular para dos individuos i y l, con pesos pi y pl , la distancia de Ward es:
El algoritmo K-medias4 para la obtencin de una particin directa de un conjunto de individuos por variables cuantitativas requiere el nmero de clases por obtener y de puntos iniciales para cada una de ellas. La propuesta de Lebart et al. (1995) es utilizarlo para obtener una particin que minimice la inercia intraclases. Esto se logra localmente (depende de los puntos iniciales) usando las coordendas (factores) de los individuos y los centros mviles utilizados para la agregacin de la particin elegida. En cada paso del algoritmo se actualizan los centros mviles calculando los centros de gravedad de la particin obtenida del paso anterior. Para una clase k, conformada por el conjunto de individuos Ik con pesos pi y coordenadas sobre el eje s notadas Fs(i), el trmino general de la coordenada de su centro de gravedad sobre un eje factorial s es:
Pesos de las filas inuyen en los centros de gravedad y en las inercias intra de las clases. CARACTERIZACIN DE LAS CLASES Para seleccionar las variables continuas o las categoras de las variables nominales ms caractersticas de cada clase, se mide la desviacin entre los valores relativos a la clase y los valores globales, utilizando los valores test (Lebart et al. 1995,pp.181-184). Variable continua en una clase. Para una variable continua X, con media general X , el valor test asociado a la media X k de la clase k es:
Estadstica Multivariada Herramientas Informticas Categora en una clase. En una clase k conformada por nk individuos, de los n clasicados, nkj tienen la modalidad j. El valor test para j en la clase k se obtiene con un modelo hipergeomtrico: de una urna con n bolas, de las cuales nj son bolas negras, se extrae una muestra de nk bolas y se obtienen nkj bolas negras. Si N es la variable aleatoria que designa la cantidad de bolas negras en una muestra de tamao nk, el valor p asociado al supuesto de extraccin aleatoria, cuando la frecuencia relativa de la categora j en la clase es mayor que la frecuencia global, es:
donde h(x; n, nj , nk) es la distribucin de probabilidad hipergeomtrica de parmetros n, nj y nk calculada en x. Si la frecuencia relativa de la categora j dentro de la clase k es menor que la global, entonces el valor p es: Donde H(nkj ; n, nj, nk) es la funcin de distribucin de probabilidad hipergeomtrica acumulada, evaluada en nkj . El valor test se obtiene buscando el cuantil de la normal estndar correspondiente al valor p calculado mediante la primera o segunda formula. DTM (Lebart 2007). Identicacin de las clases sobre los planos factoriales Los centros de gravedad de las clases se pueden proyectar sobre los planos factoriales, y los individuos de cada clase se pueden diferenciar mediante signos o colores.
Los datos se encuentran en el archivo PublicidadEuropa.xls Abrir la planilla de MS Excel con los datos.
Una vez que XLSTAT-Pro ste activado, haga clic en el men XLSTAT/Anlisis de datos/ Anlisis de Componentes Principales, o haga clic en el botn correspondiente de la barra "Anlisis de datos" (ver a continuacin).
Una vez seleccionada la opcin, aparece el cuadro de dilogo correspondiente al anlisis de componentes principales. Puede entonces seleccionar los datos en la hoja Excel. Hay varias manera de seleccionar los datos en los cuadros de dilogo XLSTAT (ver tutorial on-line).
Donde dice Tabla observaciones/variables debemos ingresar las variables Continuas activas, es decir los datos activos. Presionamos el botn a la derecha o directamente nos vamos a la hoja de Excel. Por defecto (a la derecha) hemos indicado tildando en Etiquetas de las Variables que parte de esta seleccin incluye una fila (la primera) con las etiquetas que identifican a las variables. En el ejemplo estudiado, los datos aparecen desde la primer fila/columna de la hoja. Siempre que debajo de la tabla no existan datos, podemos seleccionar las variables directamente sobre el identificador alfabtico de columna de la hoja de Excel, o seleccionar a mano con el Mouse los datos incluyendo la primer fila con etiquetas variable, pero sin incluir el identificador de ciudades (observaciones). A continuacin podemos ver en lneas punteadas la seleccin.
o
Tutorial enriquecido por Matilde CSARI
Seleccionamos las etiquetas para identificar las ciudades a la derecha del cuadro de dilogo, luego de tildar a opcin Etiquetas de las Observaciones.
Por defecto el tipo de ACP es Pearson (n), que es el algoritmo que hemos visto en la teora y los resultados se visualizar en una nueva hoja que se crea a la derecha de la hoja con los datos. En la pestaa Opciones podemos especificar algunas opciones de anlisis. Podramos realizar un anlisis normalizado o no normalizado para que el espacio factorial sea ortonormal o bien ortogonal, respectivamente. En la mayora de casos se utiliza la primera opcin para igualar las escalas en que estn medidas las variables. Tambin podemos indicar cuantos ejes factoriales se desean conservar (como mximo tantos como variables continuas activas), y cuantos queremos editar en los resultados de salida. Las opciones por defecto son en la mayora de casos suficientes
La pestaa Grficos permite configurar qu y cmo vamos a visualizar el Biplot. Si tenemos una tabla con muchas observaciones, podemos filtrar el numro a visualizar en el plano o no incluir las etiquetas que los identifican.
Una vez parametrizado, seleccionamos OK para ejecutar el algoritmo. La primer ventana (informativa) que surge presenta las opciones para la visualizacin de los planos, este cuadro de dilogo visualiza a travs de un grafico de barra la informacin obre los valores propios. Observamos que los dos primeros ejes factoriales conservan un 70,70% de la inercia.
Presionamos Terminar una vez seleccionado el plano conformado por los dos primeros factores. Podemos ver todos los resultados en la hoja etiquetada ACP.
Tutorial enriquecido por Matilde CSARI
El valor del coeficiente de correlacin vara entre -1.00 y +1.00. Ambos extremos representan relaciones perfectas y 0.00 representa la ausencia de asociacin. Cuanto ms cercano sea a cero el coeficiente de correlacin, ms dbil ser la asociacin. Con la intencin de hacer una adecuada interpretacin de los ndices correlacin, se har uso de la clasificacin que aparece en figura:
Categoras del coeficiente de correlacin La siguiente tabla y el grfico asociado estn vinculados a un objeto matemtico, los valores propios, que son afortunadamente vinculados a un concepto muy simple: la calidad de la proyeccin cuando pasamos de N dimensiones (N siendo el nmero de variables, igual a 5) a un nmero ms dbil de dimensiones. En nuestro caso, observamos que el primer valor propio vale 2,70 representa 45% de la variabilidad. Eso significa que si representamos los datos en un slo eje, tendremos entonces siempre 45% de la variabilidad total que ser preservada.
Estadstica Multivariada Herramientas Informticas A cada valor propio corresponde un factor. Cada factor es en realidad una combinacin lineal de las variables de inicio. Los factores tienen la particularidad de no ser correlacionados entre ellos. Los valores propios y los factores son ordenados en orden descendente de variabilidad representada Idealmente, los dos primeros valores propios corresponden a un % elevado de la variabilidad, de manera que la representacin sobre los dos primeros ejes factoriales es de buena calidad. En nuestro ejemplo, tenemos el 70,7% de informacin en el plano formado por los dos primeros factores. El nmero de dimensiones "tiles" mximo es automticamente detectado por el mtodo utilizado. El primer grfico que se muestra el Biplot de correlacin (PLANO vectorial de las VARIABLES). Corresponde a una proyeccin de las variables iniciales sobre un plano de dos dimensiones constituido por los dos primeros factores.
Este grafico podemos editarlo con las herramientas de MS Excel y de Xlstat, eliminado los datos no relevantes del mismo, cambiando color, fuente, y tamao segn coseno cuadrando.
Las flechas deben interpretarse como direcciones de crecimiento de las variables en el espacio factorial. Observamos pues que los pases que utilizan mucha publicidad en Televisin tambin utilizan la Radio y muy poco el Cine. Por el otro lado los pases que utilizan Revistas como medio, suelen tambin utilizar ms recursos en publicidad Exterior. El centro representa la media de todas las variables, a partir de este los vectores crecen en un sentido y decrecen en el sentido opuesto. Dos variables estn relacionadas positivamente si su ngulo es de casi 0 (paralelas), dos variables estn relacionadas de manera negativa si su ngulo es de casi 180 (opuestas) y dos variables no estn asociadas si su ngulo es cercano a 90 (perpendicular). Mientras mas cerca del centro (vector pequeo) la variable no es relevante y si la eliminamos y volvemos a realizar el ACP, el plano no cambia. Cuando las variables estn relativamente cercas del centro del grfico, entonces cualquiera interpretacin es arriesgada, y es necesario referirse a la matriz de correlaciones o a otros planos factoriales para interpretar los resultados. En nuestro ejemplo, podemos deducir del grfico que las variables Revista y Exterior estn relacionadas positivamente, cuando una crece la otra tiende a crecer, TV y Radio tambin estn relacionadas positivamente, pero Cine y Diarios no estn relacionados, Cine est relacionado de manera opuesta con Radio, cuando una crece la otra tiende a decrecer. El crculo de las correlaciones es tambin til para interpretar la significacin de los ejes. En nuestro caso, el eje F1 es claramente vinculado al Cine, el eje F2 es esencialmente vinculado a los Diarios.
Tutorial enriquecido por Matilde CSARI
10
El grfico a continuacin corresponde a Bilplot de distancias (PLANO escalarde las OBSERVACIONES). Permite representar los individuos en un plano de dos dimensiones, e identificar tendencias. Podemos observar qu pases estn bien representados en los ejes, a partir de las contribuciones y los cosenos cuadrados. Los pases cercanos son pases que presentan distribuciones parecidas en el reparto de los gastos publicitarios. Observamos que podes pueden diferenciar claramente los pases latinos de los pases anglosajones. Estas tcnicas biplot permiten la representacin de los casos y las variables, de forma conjunta, en el subespacio factorial de dimensin reducida.
A continuacin se visualiza el Biplot simtrico con ambos planos de variables y observaciones juntos, Xlstat se encarga de normalizar las escalas. Muy a menudo se suelen interpretar estos grficos diferenciando en los cuatro cuadrantes. Los pases ms alejados del origen de coordenadas son los pases que presentan un perfil ms alejado del perfil medio. En este grfico podramos concluir lo siguiente: Portugal , Grecia, Italia y Espaa tienden a dedicar ms recursos publicitarios en televisin y radio y muy poco en el cine. Francia y Blgica dedican ms recursos en revistas y outdoor. Por el otro lado, pases nrdicos como Suiza, Noruega, Suecia, Dinamarca, Finlandia y Irlanda destinan ms recursos a los diarios. Suiza, Holanda y Alemania en concreto dedican ms recursos al cine
11
Los vectores representativos de las variables identifican con su medida la dispersin de las mismas, estando por ello situados sus extremos sobre la hiperesfera de radio unidad en el caso de un ACP estandarizado. Este ltimo modelo es especialmente interesante, ya que el producto escalar de dos vectores variables se corresponde con su coeficiente de correlacin o coseno del ngulo que forman y, la proyeccin de cada vector variable sobre un eje, mide la correlacin existente entre dicha variable y la correspondiente componente principal. En el Anlisis de Componentes Principales (y tcnicas Biplots derivadas), la interpretacin correspondiente a variables (relaciones entre ellas y con las componentes principales) es distinta de la obtenida para individuos (comportamientos similares en funcin de la distancia existente entre ellos). De forma general la relacin entre variables se determinar mediante ngulos y la existente entre casos mediante distancias.
Las proyecciones sobre los ejes y sobre los planos factoriales sern muy buenas para algunos puntos pero tambin pueden ser de mala calidad para otros puntos. Se requiere entonces de un ndice que ponga en evidencia este hecho, que se denomina coseno cuadrado o contribucin relativa. Por lo tanto puede resultar interesante ponderar los puntos a partir de la contribucin de cada pas en el espacio factorial creado. Para ello debemos ejecutar las opciones de Visualizacin que nos permite realizar esta opcin y muchas otras, como zoon del grfico, tamao de smbolos,...
Para cambiar las escalas recortando los mnimos y mximos podemos hacer un zoon y visualizar mejor la nube de individuos. Seleccionamos el grafico e ingresamos en Visualizacin/AxesZoomer. Aparece un cuadro de dilogo donde podemos probar la escalas, cuando est conforme precione Terminar. Desde las opciones de grfico de eliminamos la visualizacin e las escalas. Excel,
A partir de la suma del coseno cuadrado de los dos primeros factores podemos representar con el tamao la importancia del punto y de la variable en su representacin en este plano, es decir nivel de significacin. De esta manera podemos corregir errores de proyeccin.
Tutorial enriquecido por Matilde CSARI
12
Elementos suplementarios Es posible proyectar elementos suplementarios o ilustrativos (individuos, variables continuas y variables nominales) sobre los planos construidos en el ACP. Los elementos suplementarios permiten explorar asociaciones con los elementos activos o enriquecer los anlisis. Los elementos que participan en el anlisis se denominan activos, en el caso del ACP son variables continuas activas e individuos activos.
Individuos suplementarios Un individuo que tiene los valores para todas las variables activas pero que no particip en el ACP se puede proyectar sobre los ejes obtenidos de la misma forma que los individuos activos. Mediante este procedimiento se puede posicionar un nuevo individuo con respecto a todos los individuos activos para responder a objetivos preestablecidos, por ejemplo explorar su posible discriminacin entre grupos. Variables nominales ilustrativas Como una variable nominal representa un particin (divisin en clases) de los individuos lo que se proyecta son los centros de gravedad de cada subconjunto asociado a una modalidad Variables continuas En le ACP normado la proyeccin de una variable continua ilustrativa equivale a su correlacin con el eje, lo que da la clave para su interpretacin.
5
Primero seleccionar una variable y utilizar la tecla de fecha hacia abajo para encontrar la serie de las variables en los extremos de los vectores.
13
Una vez que XLSTAT est abierto, seleccionamos del men: XLSTAT/Anlisis de los datos/Anlisis factorial de correspondencias, o haga clic en el botn correspondiente de la barra de herramientas "Anlisis de los datos".
14
Aparece un cuadro de dilogo donde podemos ingresar la tabla de contingencia o crearla a partir de una tabla de datos cualitativos, con el cruce de dos variables.
Indicamos como formato de los datos Tabla cruzada (por defecto) y con el mouse seleccionamos de la hoja de MS Excel la tabla completa con etiquetas filas y columna (primer fila y primer columna) sin incluir los totales marginales. Asegurarse que est activada la opcin Etiquetas incluidas.
15
En nuestro caso esta calidad es buena en la medida en que los dos primeros valores propios totalizan el 77,41% de la varianza total.
Cuando la calidad del anlisis es buena el plano permite interpretar fcilmente los datos. Podemos observar que las marcas de ropa de mayor precio (ESCORPION, RODIER) no son las ms elegantes pero si de ms prestigio social. Elegancia, precio, vanguardia y complementos son las cuatro caractersticas importantes que mejor estn representadas en el plano y diferencian y caracterizan las distintas marcas. En el cuadrante superior izquierdo tenemos las marcas ms caras, en el superior derecho las de vanguardia, en el cuadrante inferior izquierdo las marcas consideradas de mayor elegancia y en el inferior derecho las que poseen ms complementos. Los criterios de interpretacin del Anlisis de Correspondencias se basan en los principios siguientes: La proximidad de perfiles fila de la variable X revela un comportamiento similar de esas categoras respecto a la otra variable Y (y a la inversa). La presencia de perfiles fila de la variable X, radicalmente opuestos a perfiles de Y, puede ser tambin interpretada como relacin inversa entre ellos. Los perfiles situados en las proximidades del centroide de la representacin son los que no expresan relacin alguna. La proximidad de un perfil a un cierto eje expresa su mayor contribucin en su definicin. Esta contribucin aumenta cuanto ms alejado se encuentre del centroide de la representacin.
16
17
Una vez iniciado XLSTAT, elija el comando XLSTAT/Anlisis de datos/Anlisis de Correspondencias Mltiples o haga clic en el botn "Anlisis de Correspondencias Mltiples" de la barra de herramientas "Anlisis de los datos".
Aparece el cuadro de dilogo que corresponde al anlisis de Correspondencia Mltiples. En la primera pestaa seleccionamos los datos. La opcin "Etiquetas de variables" se deja activada ya que la primera fila de las columnas incluye el nombre de las variables. La opcin "Etiquetas de las observaciones" es activada y seleccionamos la columna de las etiquetas de las observaciones.
Tutorial enriquecido por Matilde CSARI
18
Al igual que en correspondencias simples se pueden proyectar elementos ilustrativos: individuos, variables nominales (sus modalidades) y variables continuas. Los individuos y modalidades se proyectan utilizando las frmulas cuasibibaricntricas. Las variables continuas calculando la correlacin entre la variable y el eje. En la ficha Opciones activamos la opcin de datos suplementarios y despus vamos a la ficha correspondiente. La variable "Volver" se utiliza como "Variable adicional" ya que no deseamos que influya en los clculos; pero nos interesa a posteriori su ubicacin.
19
Elegimos la opcin 1/p para filtrar los valores propios: no sern exhibidos los resultados detallados que corresponden a los factores para los cuales el valor propio es menos que 1/p (donde p es el nmero de variables cualitativas activas).
20
Una vez que haya pulsado en el botn "OK", empiezan los clculos y luego aparecen los resultados. XLSTAT empieza por visualizar tablas implicadas en los clculos (tabla disyuntiva completa y tabla de Burt). La gua para decidir cuntos ejes analizar en al ACM es la forma del histograma de los valores propios, Interesan los primeros ejes que se destaquen sobre los dems.
La inercia total vale 2. En ACM la inercia de la tabla representada no tiene significado estadstico, esta depende del nmero de modalidades y del nmero de variables. Por la manera como se desarrolla el mtodo (ACS de la tabla Z), el porcentaje de inercia no es un criterio para saber cuntos ejes retener en un ACM. La explicacin de este ltimo hecho se ve muy bien cuando se compara un ACM de dos variables con el ACS de la tabla de contingencia que las cruza. En la siguiente tabla se visualizan los 8 valores propios y el % de inercia correspondiente.
21
El grfico (sin editar) a continuacin representa el mapa factorial que superpone categoras y observaciones.
Utilizando las herramientas de visualizacin de Xlstat y de edicin de grficos del Excel podemos modificar el grafico, eliminado titulos y escalas de los ejes, dispersando la visualizacin de las escalas, cambiando formato y color de etiquetas y puntos y cambiando el tamao de los puntos en funcin de la suma del coseno cuadrado de los dos primeros factores. Para esto ltimo, primero seleccionamos la serie de puntos de las observaciones, con un clic sobre cualquiera de los individuos (azul), accedemos a la herramienta EasyPoint el men de visualizacin del Xlstat y seleccionamos la suma de los cosenos cuadrados slo de las observaciones.
Ahora seleccionamos la serie de los puntos correspondientes a las modalidades de las variables cualitativas activas con un clic sobre cualquiera de ellas (rojo). Accedemos a la herramienta EasyPoint y seleccionamos la suma de los cosenos cuadrados slo de las modalidades activas. Por ltimo seleccionamos los tres puntos correspondientes a las modalidades suplementarias. Accedemos a la herramienta EasyPoint y seleccionamos las tres ltimas filas de la tabla de cos2.
Tutorial enriquecido por Matilde CSARI
22
23
24
Confirmamos una evidencia: un cliente volver si est globalmente satisfecho de la prestacin, de la calidad de atencin, del precio y si tiene la impresin que la reparacin se efectu efectivamente. Tambin se observa que cuando la reparacin no se efectu satisfactoriamente coincide con una atencin no satisfactoria. Esto merece un amplio anlisis: La persona indic equivocadamente el problema porque no estaba satisfactoriamente atendida? o bien llam de nuevo para sealar que sigue el problema y que no fue atendida satisfactoriamente en aquel momento?. Sobre los planos factoriales se tienen tres claves para la lectura: Los individuos que aparecen cerca se parecen porque asumen mas o menos las mismas modalidades. Cada uno es el cuasibibaricentro de las modalidades que asume y las caractersticas se derivan de las modalidades que se proyectan cerca. Las modalidades de variables diferentes se parecen porque son asumidas mas o menos por los mismos individuos. Cada modalidad se sita en el cuasibibaricentro de los individuos que la asumen. Dos modalidades de una misma variable no pueden ser asumidas por los mismos individuos y si caen cerca se debe al parecido de los individuos por modalidades de otras variables. Las contribuciones y cosenos cuadrados tienen la misma interpretacin que en correspondencias simples. Se agrega la contribucin de una variable como suma de las contribuciones de sus modalidades.
25
Algoritmo de clasicacin mixta La propuesta descrita en Lebart et al. (1995) aprovecha las ventajas del mtodo de Ward y las del K-medias, combinndolos de la manera siguiente:
1. Clasicacin inicial. Si la cantidad de individuos por clasicar es muy alta, es probable que la clasicacin jerrquica no se pueda ejecutar directamente. Entonces se efecta esta primera etapa, la cual busca obtener rpidamente y a bajo costo una particin de los individuos en s clases homogneas, donde s es mucho mayor que el nmero de clases deseado en la poblacin, y menor que la cantidad de individuos. Se emplea el algoritmo de agregacin alrededor de centros mviles (K-medias). Los centros iniciales se establecen al azar. 2. Agregacin jerrquica con el mtodo de Ward. Se efecta una clasicacin ascendente jerrquica donde los elementos terminales del rbol son las s clases de la particin inicial (calcular las distancias entre las o entre las clases previas obtenidas en 1) o los individuos directamente. El rbol correspondiente se construye segn el criterio de Ward, el cual une en cada paso de agregacin las dos clases que incrementen lo menos posible la inercia intraclases. 3. Corte del rbol. El rbol o dendrograma que resume el procedimiento de clasicacin permite ver la estructura de clases de los individuos que son objeto de anlisis. En el grco de ndices de nivel es ms fcil observar los cambios de inercia ms grandes (saltos) y decidir el nmero de clases K. Para el paso siguiente es necesario calcular los pesos y centros de gravedad de las clases obtenidas. 4. Consolidacin de la clasicacin. La particin obtenida en el paso anterior no es ptima siempre, debido a la estructura de particiones anidadas del dendrograma obtenido. Para mejorarla se utiliza de nuevo un procedimiento de agregacin alrededor de centros mviles (K-medias), utilizando los centros de gravedad de las clases obtenidas al cortar el rbol como centros iniciales.
26
Lo primero que debemos hacer es un anlisis de componentes principales para obtener los factores, abrimos el Xlstat y elegimos la opcin en el men XLSTAT/Anlisis de datos/ Anlisis de Componentes Principales, o haga clic en el botn correspondiente de la barra "Anlisis de datos". Los datos no tiene columna de identificacin de observaciones. Directamente seleccionamos toda la tabla incluyendo primer fila con identificador de variables.
En grfico indicamos que no figuren las etiquetas de las observaciones en los grficos, ya que son numerosos y no tenemos etiquetas y el programa asigna una por defecto.
27
La muestra de datos medida es bastante dispersa y podemos encontrar varios patrones o clases de caretas. Para la clasificacin debemos 6seleccionar el nmero de factores a considerar, en este caso, los tres primeros. Se suele utilizar el subconjunto de los primeros k ejes factoriales tales que proyecten en conjunto un mnimo del 80% de la inercial original. El diagrama de valores propios orienta la decisin del nmero de ejes que se utilizan en la clasicacin. Algunas veces, sobre todo en tablas pequeas, se usan todos los ejes.
Cmo n = 200, es decir mayor de 30, comenzamos la clasificacin aplicando sobre los factores el mtodo de Clasificacin Jerarquica, ingresamos en el men Xlstat en XLSTAT/Anlisis de datos/Clasificacin Ascendente Jerrquica (CAJ).
En la hoja de resultados del ACP, buscamos las coordenada de las observaciones y seleccionamos los factores a considerar, podemos o no tomar la primer fila con identificador de factores o Axes, y podems o no seleccionar la columna con etiquetas de observaciones. En este caso no tenemos y tampoco nos interesa identificar los individuos pero si mantenemos la primer fila. Recordemos que la tabla observaciones/variables en este caso no es la tabla original sino la tabla de observaciones/factores.
6
Tomar todos los factores para la formacin de conglomerados es equivalente a efectuar una clasicacin de las las de la tabla de datos utilizando las variables originales. Tomar menos factores implica realizar un ltrado: se supone que los ejes utilizados para la clasicacin tienen la informacin relevante y que los desechados se deben a las uctuaciones aleatorias que constituyen el ruido.
28
El tipo de proximidad es por disimilitudes (buscamos grupos diferenciados) y para calcular la matriz disimilitud utilizamos la distancia euclidiana y el 7mtodo de Ward para la agregacin, segn lo visto en la teora. En Opciones indicamos qu vamos a clasificar, en este caso filas (las observaciones), y esta primera vez indicamos que Xlstat determine automticamente donde partir el dendograma. Esta decisin es recomendable hacerla sobre el grfico del dendograma.
Indicamos que se vean todos los resultados y para mejor visualizacin que el dendograma sea Horizontal.
El mtodo de Ward utiliza la distancia entre clases que cumple con el objetivo de unir, en cada paso del proceso de aglomeracin, las dos clases que incrementen menos la inercia intraclases. La distancia de Ward entre los dos grupos, en funcin de la distancia euclidiana cannica
29
Segn podemos ver en el Dendograma, la particin a elegir es de 4 clases, por lo cul volvemos a realizar la clasificacin e indicamos que el truncamiento no se automtico sino en 4 clases.
30
31
En el men buscamos el mtodo en Anlisis de Datos y seleccionamos los factores del ACP igual como se hizo en la Clasificacin Jerrquica, en nmero de clases indicar 4. En Opciones indicamos que la particin inicial se realiza a partir de Centros de Clase definidos por el usuario, es decir se lo damos nosotros.
8 9
La propuesta de Lebart et al. (1995) es utilizarlo para obtener una particin que minimice la inercia intraclases En cada paso del algoritmo se actualizan los centros mviles calculando los centros de gravedad de la particin obtenida del paso anterior
32
Debajo nos permite seleccionar de la hoja con los resultados de la clasificacin jerrquica (CAJ) la matriz con tantas filas como clases, en este caso 4 y tanta columnas como factores, incluir la primer fila con etiquetas pero no la primer columna con las clases.
En la hoja de resultados podemos ver que la inercia Intraclase ha sido minimizada y la Interclase maximizada.
Buscamos los resultados por objetos y seleccionamos la columna que indica para cada observacin su clase. La pegamos junta la las variables, de esta manera nos que una variable Tipolgica que clasifica a los crneos en 4 grupos o patrones diferentes.
Tutorial enriquecido por Matilde CSARI
33
Volvemos a realizar el ACP, pero esta vez, proyectamos de manera ilustrativa la variable cualitativa de clase. Esta tabla es utilizada para caracterizar las clases mediante el algoritmo DECLA. A continuacin visualizamos el cartografiado con los centro de clase proyectados sobre el plano.
Si armamos una tabla tomando las coordenadas y la suma de cosenos cuadrados de las observaciones, adems de la variable de clase podemos utilizar la herramienta de graficado del Xlstat Scatter plots para colorear las observaciones en funcin de los grupos o clases y darle un efecto burbuja (3D) y no slo el tamao, a travs del coseno cuadrado de los dos primeros factores.
34
Seleccionamos en X el primer factor F1, en Y el factor F2, en Z la suma de los cosenos cuadrados y en Grupo la variable tipolgica. La opcin Z permite darle el tamao y la forma de burbuja y la opcin Grupo permite colorear las burbujas en funcin de una variable categrica o de clase. En el ejemplo no se toma la primer fila con identificador X e Y y tampoco se muestra en el grfico ttulos de ejes y grficos.
Al seleccionar OK se genera una nueva hoja en el libro de MS Excel (SCA) con el biplot o plano factorial. Cada grupo de puntos coloreados para cada clase representa una serie de datos para el grfico de Excel, por lo tanto basta seleccionar una vez cualquiera de los puntos pertenecientes a un grupo para cambiar el color de todas las observaciones de una clase.
35
(identificador corto de 4 caracteres; espacio vaco; identificador < 20 caracteres) (4 espacios; el nmero de categoras 0; espacio vaco; nombre variable numrica) (4 espacios; el nmero de categoras N; espacio vaco; ttulo de la variable) (identificador corto de 4 caracteres; espacio vaco; identificador < 20 caracteres) (identificador corto de 4 caracteres; espacio vaco; identificador < 20 caracteres) (identificador corto de 4 caracteres; espacio vaco; identificador < 20 caracteres) (identificador corto de 4 caracteres; espacio vaco; identificador < 20 caracteres) (4 espacios; el nmero de categoras N; espacio vaco; ttulo de la variable)
Tabla 2: El ejemplo de un fichero de datos interno DTM para las 4 variables previas:
El gnero, la Edad numrica, la Edad en 4 categoras, el nivel Educativo. Tres encuestados (individuos, observaciones) ' 1006 ' 1 76 4 1 (Los identificadores de los individuos: entre comillas simples,
' 1007 ' 2 20 2 2 ' 1008 ' 2 29 3 2
sin espacio vaco, menos de 20 caracteres. Los separadores entre los valores: como mnimo un espacio en blanco)
10
Esta caracterstica es bastante rara en software estadstico, pero parece indispensable para explorar SETS datos categricos de muchas dimensionales.
36
Estadstica Multivariada Herramientas Informticas Para el anlisis de una tabla de datos haciendo uso de mtodos multivariados, Lebart et al. (1995) presenta una estrategia que consiste en realizar primero un anlisis factorial segn la naturaleza de los datos y luego una 11clasicacin basada en un algoritmo mixto: clasicacin jerrquica con el mtodo de Ward y agregacin alrededor de centros mviles (K-medias). Finalmente se obtiene una particin del conjunto de datos y la caracterizacin de cada una de las clases, segn las variables activas e ilustrativas, ya sean cuantitativas o cualitativas. Para la caracterizacin de las clases se utilizan los valores test, que son ndices descriptivos construidos siguiendo la metodologa de pruebas de hiptesis, pero sin el objetivo de hacer inferencias. La utilizacin de las coordenadas factoriales permite tener un marco comn en el proceso de formacin de conglomerados. Para el proceso de clasicacin el anlisis factorial previo se constituye en un pretratamiento, que transforma los datos originales en variables continuas no correlacionadas. Tomar todos los factores para la formacin de conglomerados es equivalente a efectuar una clasicacin de las las de la tabla de datos utilizando las variables originales. Tomar menos factores implica realizar un ltrado: se supone que los ejes utilizados para la clasicacin tienen la informacin relevante y que los desechados se deben a las uctuaciones aleatorias que constituyen el ruido. El diagrama de valores propios orienta la decisin del nmero de ejes que se utilizan en la clasicacin. Algunas veces, sobre todo en tablas pequeas, se usan todos los ejes. (Campo, 2007).
El mtodo de Ward utiliza la distancia entre clases que cumple con el objetivo de unir, en cada paso del proceso de aglomeracin, las dos clases que incrementen menos la inercia intraclases. El algoritmo K-medias para la obtencin de una particin directa de un conjunto de individuos por variables cuantitativas requiere el nmero de clases por obtener y de puntos iniciales para cada una de ellas. La propuesta de Lebart et al. (1995) es utilizarlo para obtener una particin que minimice la inercia intraclases. Esto se logra localmente (depende de los puntos iniciales) usando la distancia euclidiana cannica entre los individuos y los centros mviles utilizados para la agregacin. En cada paso del algoritmo se actualizan los centros mviles calculando los centros de gravedad de la particin obtenida del paso anterior. Para seleccionar las variables continuas o las categoras de las variables nominales ms caractersticas de cada clase, se mide la desviacin entre los valores relativos a la clase y los valores globales, utilizando los valores test.
11
el trmino clasicacin se utiliza como sinnimo de anlisis o formacin de conglomerados o clasicacin no supervisada. En ningn momento hace referencia a la clasicacin supervisada o discriminacin
37
Estadstica Multivariada Herramientas Informticas Caracterizacin de una categora de una variable categrica respuesta a partir de una variable continua explicativa. En el caso que se desee caracterizar el subgrupo de individuos a partir de una variable explicativa continua se realiza un test de comparacin de medias entre la media del subgrupo respecto la media global ordena las caractersticas influyentes por el p-valor asociado a la prueba estadstica y adems incorpora un nuevo elemento, el valor-test. Este estadstico se distribuye segn una normal estandarizada, por lo que cuando sea superior a 2 o bien inferior a -2 se considerar que una caracterstica es influyente, con un nivel de significacin asociado de 0,05.
Siguiendo con el ejemplo de las 6 mediciones sobre 200 crneos, en el apartado anterior se obtuvieron 4 clases (patrones). Procedemos a caracteriza cada clase de manera de obtener las medidas tipologicas para cuatro mascaras. 1 paso Importar los datos al software DTM. Creamos una carpeta de trabajo donde trabajamos con el DTM. Copiamos la tabla con las 6 variables continuas y la variable de clase en un nuevo libro de Excel, insertamos un columna al principio y colocamos una etiqueta de identificacin de observaciones.
Restricciones importantes que hay que asegurar: Los nombres de variables deben tener menos de 20 caracteres, Estos nombres no deberan tener espacios en blanco (en todo caso, reemplcelos por lneas subrayadas). - La primer columna debe ser de etiquetas que identifiquen las observaciones, si no existe crearla. Guardamos como fichero CSV (delimitado por punto y coma).
-
38
Nota: Si no podemos, deseamos o no sabemos cambiar la Configuracin regional del sistema Operativo y el smbolo decimal es la , (coma), es recomendable guardar el fichero en formato TXT delimitado por tabulaciones, el mismo requiere un paso previo en la importacin del DTM para convertirlo a delimitado por punto y coma. Abrimos el DTM y seleccionamos la opcin DataCapture, Data importation, Preprocessing (importacin / captura / preprocesamiento de datos). Luego Importing Dictionary ,Data and Texts (Importar Diccionario, Datos y Textos)". Y por ltimo presione el primer botn habilitado a la izquierda: Excel Files (archivos de Excel). Se muestra la ventana Importing from an Excel (r) file.
Nota: Si el archivo Excel ha sido guardado con tabulaciones como separadores de columnas, se presiona el botn: 0. Change tabs into semi-colons (cambiar tabulaciones a puntos y comas). Seleccione el archivo con tabulaciones y convirtalo. Se crea un nuevo archivo New_ _clasescraneo.txt". Luego, haga clic en: 1. Add the types of variables (indicar tipos de variables ).
Ingrese a Select Data. (cargar fichero csv). Seleccione el archivo creado previamente "datbase_classical.csv" .
39
Ingrese a Values and Counts. (analizar los valores) y luego a Show results (muestra los resultados).
40
Luego seleccionar uno o varios identificadores de variable, en la lista, y escoger, para cada atributo (cada variable), una palabra clave, en el ejemplo la primer columna es el identificador de individuos y siembre es de tipo textual TEXT, las variables de la 1 a la 6 son todas numricas, se coloca como NUM y la ltima de clase es nominal y el tipo es CHAR.
Una vez completado el que el ingreso del tipo de variable, d un clic sobre update the data file (actualizacin) para modificar el fichero.
41
El programa crea un nuevo archivo, en donde se agrego una fila despus de los identificadores de variables, con el tipo de dato. Este archivo es " New_typevar_clasescraneo.csv". Luego, haga clic en: Impor Data (importar). El proceso de importacin consiste en construir un diccionario DTM y un fichero de datos DTM a partir del fichero de datos creado en el paso anterior 1.
los nombres de las variables se extraen de la primera fila. el nmero de categoras para cada variable y los nombres de estas modalidades se obtienen al realizar un anlisis del fichero Para cada variable, son detectadas todas las diferentes secuencias de caracteres de importancia. Las modalidades son ordenadas alfabticamente por sus identificadores. el fichero de datos DTM comienza con el mismo identificador entre comillas simples, las modalidades de las variables categricas sern enteros consecutivos comenzando con el valor "1", en lugar de un smbolo alfanumrico. Los valores numricos sern idnticos al del fichero de datos original, excepto los valores perdidos reemplazados, en esta versin de DTM, por el valor estndar "999".
Se muestra la ventana: Format type XL . Finding the states of each categorical variables, frequencies . Clic en: Select Basic file New_typevar_clasescraneo.csv (Seleccionar archivo Bsico). Seleccione el archivo
42
Clic en Values and counts (Valores y recuentos). Anlisis de todas las variables nominales (el smbolo: "Achichrrese" en el diccionario) se forma de los dos archivos bsicos. Se muestra la lista de todas las modalidades encontraron en el fichero de datos, con las frecuencias correspondientes.
Clic en Create Dictionary and Data (crear el diccionario y los datos DTM).
Clic en Name for the new dictionary (nombre para el diccionario nuevo) para escoger un nombre para el diccionario en formato de DTM, siempre en el mismo directorio. (se recomienda la extensin ".DIC"). Por ejemplo craneo.DIC
43
Clic en Name for the new data file (nombre para el archivo de datos nuevo) para escoger un nombre del fichero de datos en formato del DTM, siempre en el mismo directorio. (se recomienda la extensin ".DAT"). Por ejemplo craneo.DAT
44
Clic en Create new data file (crear fichero de datos nuevo). Al cabo de un rato, un cuadro de mensajes muestra el nmero de individuos.
Clic sobre ese botn Create a DTM parameter file. (Crear un archivo de parmetros DTM). Se muestra la ventana Creating a starting parameter file. Clic en Create a first parameter file (crea un primer archivo de parmetro). Se muestra un archivo de comandos DTM en la ventana inferior. Los dems operaciones y comentarios son idnticos a la de la introduccin. El archivo de comandos es automticamente creado bajo el nombre: "Param start.txt".
45
Haga Clic en "Execute" (Responda No a la pregunta acerca de un formato posible XML para el archivo de salida). Lea los resultados haciendo clic en Main basic numerical results (principales resultados numricos bsicos) del men. Estos resultados son guardados bajo el nombre "imp.txt" en el mismo directorio de trabajo. 2 paso Implementar el mtodo DECAT Clic en Create a command file (crear fichero de parametros).
46
La siguiente ventana es para cargar los datos, nos pregunta por el diccionario y luego por los datos. Clic en Open a dictionary (abrir el diccionario).
47
48
La ltima variable es la que vamos a describir, va en el cuadro a la derecha arriba. Las otras variables numricas son las que van a caracterizar, las exploratorias y van en el cuadro a la derecha abajo. Clic en All the observations Hill be active (permite seleccionar los individuos activos).
La tabla de resultados describe cada clase, indicando media de clase y media global.
Tutorial enriquecido por Matilde CSARI
49
Interpretacin Si los elementos caractersticos son variables continas, para clasificar las ms caractersticas de la variable nominal, se efectan todos los anlisis de la variancia. El mejor analizas de variancia es el que corresponde al estadstico de Fisher mas significativo y corresponde al parmetro continuo mas previsible con ayuda del factor. Para cada estadstico de Fisher se calcula la probabilidad de ser sobrepasado. El valor test asociado es el valor de una variable nominal que tiene la misma probabilidad de ser sobrepasada. Entonces, se ordenan las variables caractersticas siguiendo el orden decreciente de los Valores Test.
50
Estadstica Multivariada Herramientas Informticas Caracterizacin de una categora de una variable categrica respuesta a partir de las categoras (A, B, C, ...) de una variable explicativa. La categora de la variable respuesta define implcitamente un subgrupo de individuos del conjunto global de individuos. El algoritmo realiza pruebas estadsticas para comparar las proporciones de individuos que presentan las categoras A, B, C, ... dentro del subgrupo respecto las proporciones en la muestra global.
En el siguiente ejemplo se tiene: 13 caractersticas del vino observadas a partir de tres lugares distintos dentro de la misma regin. Se obtuvo 178 observaciones. Las variables fueron discretizadas y se aplico AFCM para su anlisis.
51
1 paso Importar los datos al software DTM. Creamos una carpeta de trabajo donde trabajamos con el DTM. Copiamos la tabla con 13 variables continuas y 13 variables nominales (discretizadas en rangos) a un nuevo libro de MS Excel, agregamos una primer columna con identificador de fila.
Abrimos el DTM y seleccionamos la opcin DataCapture, Data importation, Preprocessing (importacin / captura / preprocesamiento de datos). Luego Importing Dictionary ,Data and Texts (Importar Diccionario, Datos y Textos)". Y por ltimo presione el primer botn habilitado a la izquierda: Excel Files (archivos de Excel). Se muestra la ventana Importing from an Excel (r) file.
Tutorial enriquecido por Matilde CSARI
52
Un cuadro de dialogo confirma la seleccin. Debera aparecer la lista de variables. Ingrese a Values and Counts. (analizar los valores) y luego a Show results (muestra los resultados). Luego seleccionar uno o varios identificadores de variable, en la lista, y escoger, para cada atributo (cada variable), una palabra clave, en el ejemplo la primer columna es el identificador de individuos y siembre es de tipo textual TEXT, las variables de la 1 a la 13 son todas numricas, se coloca como NUM y las ltimas 14 nominal de tipo es CHAR.
Una vez completado el que el ingreso del tipo de variable, d un clic sobre update the data file (actualizacin) para modificar el fichero. El programa crea un nuevo archivo, en donde se agrego una fila despus de los identificadores de variables, con el tipo de dato. Este archivo es " New_typevar_vino.csv". Luego, haga clic en: Impor Data (importar). Se muestra la ventana: Format type XL . Finding the states of each categorical variables, frequencies . Clic en: Select Basic file (Seleccionar archivo Bsico). Seleccione el archivo New_typevar_vino.csv. Clic en Values and counts (Valores y recuentos). Anlisis de todas las variables nominales (el smbolo: "Achichrrese" en el diccionario) se forma de los dos archivos bsicos. Se muestra la lista de todas las modalidades encontraron en el fichero de datos, con las frecuencias correspondientes.
53
Clic en Create Dictionary and Data (crear el diccionario y los datos DTM). Clic en Name for the new dictionary (nombre para el diccionario nuevo) para escoger un nombre para el diccionario en formato de DTM, siempre en el mismo directorio. (se recomienda la extensin ".DIC"). Por ejemplo vino.DIC Clic en Name for the new data file (nombre para el archivo de datos nuevo) para escoger un nombre del fichero de datos en formato del DTM, siempre en el mismo directorio. (se recomienda la extensin ".DAT"). Por ejemplo vino.DAT Clic en Create new dictionary (crear diccionario nuevo). Analiza las modalidades para las variables nominales. Es creado un diccionario en formato interno de DTM, el cul se visualiza en las notas a la derecha. Clic en Create new data file (crear fichero de datos nuevo). Al cabo de un rato, un cuadro de mensajes muestra el nmero de individuos. Clic sobre ese botn Create a DTM parameter file. (Crear un archivo de parmetros DTM). Se muestra la ventana Creating a starting parameter file. Clic en Create a first parameter file (crea un primer archivo de parmetro). Se muestra un archivo de comandos DTM en la ventana inferior. Los dems operaciones y comentarios son idnticos a la de la introduccin. El archivo de comandos es automticamente creado bajo el nombre: "Param start.txt". Haga Clic en "Execute" (Responda No a la pregunta acerca de un formato posible XML para el archivo de salida). Lea los resultados haciendo clic en Main basic numerical results (principales resultados numricos bsicos) del men. Estos resultados son guardados bajo el nombre "imp.txt" en el mismo directorio de trabajo. En ocasiones s necesario editar el diccionario, la importacin implica que el software enumere las variables y agregue una codificacin a las modalidades lo cual es necesario cambiar, por ejemplo si editamos con el block de notas el fichero VINO.DIC, podemos cambiar las etiquetas.
54
Con el fichero de datos siempre es necesario editarlo para eliminar una fila en blanco que se crea durante la importacin.
2 paso Implementar el mtodo DECLA Clic en Create a command file (crear fichero de parametros). Una ventana muestra los mtodos disponibles en la herramienta. Seleccionamos DECAT (Descripcin de CATegorias) La siguiente ventana es para cargar los datos, nos pregunta por el diccionario y luego por los datos. Clic en Open a dictionary (abrir el diccionario).
55
La ltima variable es la que vamos a describir, va en el cuadro a la derecha arriba. Las otras variables numricas son las que van a caracterizar, las exploratorias y van en el cuadro a la derecha abajo. Clic en All the observations Hill be active (permite seleccionar los individuos activos). Creamos el fichero de parmetros y lo ejecutamos. La tabla de resultados describe cada clase, indicando media de clase y media global.
56
Este grupo de vinos son aquellos de Alto (no los ms altos) contenido de Magnesio, Flavanoids, color y Proline y grado Medio nivel de Matiz y Pronantocyanins. Tambien podemos decir que en general tienden a tener menos contenido (por debajo de la media global) de Alcalinidad de la ceniza y Fenol No Flavanoids. Los Valores de Test muestran una significacin estadstica de 99% de certeza en la asociacin de estas caractersticas con la clase 1.
57
58
59
60
61