Sunteți pe pagina 1din 23

Indice general

5. An alisis de datos categ oricos 5.1. Tablas de contingencia . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2. Distribuciones marginales y condicionadas . . . . . . . . . . . . . . . . 5.3. Independencia. Test Chi-cuadrado. Tablas 2 2 . . . . . . . . . . . . . 5.3.1. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.2. Test Chi-cuadrado. Tablas 2 2 . . . . . . . . . . . . . . . . . . 5.4. Medidas de asociaci on: Coeciente Chi-cuadrado. Otros coecientes de 5.5. An alisis de datos categ oricos con STATGRAPHICS . . . . . . . . . . . 5.5.1. Tabulaci on Cruzada... . . . . . . . . . . . . . . . . . . . . . . . 5.5.2. Tablas de Contingencia... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . contingencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 4 6 6 6 7 9 9 18

DIPLOMADO EN RELACIONES LABORALES Estad stica Asistida por Ordenador

Curso 2008-2009

Cap tulo 5

An alisis de datos categ oricos


El an alisis de datos categ oricos se ocupa del estudio de variables que no son medibles (color, nacionalidad, enfermedades, sexo, aliaci on pol tica, etc.), denominadas tambi en atributos o caracteres cualitativos. Podemos distinguir entre datos en escala nominal (sexo, estado civil, distintas ramas de actividad econ omica, profesi on, ideolog a pol tica, ...) y datos en escala ordinal (nivel de estudios, estraticaci on de familias por su capacidad de consumo, nivel de autoestima, ..), cuando podemos establecer un determinado orden o rango entre las observaciones. En estos casos no tiene sentido el empleo de promedios, tales como la media aritm etica. Cuando las observaciones se nos ofrecen en una escala nominal, s olo la moda puede utilizarse como medida resumen; y si estas responden a una escala ordinal, podr a determinarse, adem as del valor modal, tambi en la mediana. Una cuesti on m as interesante es el estudio de la existencia o no de asociaci on entre dos atributos, y de medidas similares a las de correlaci on para los casos en que variables no num ericas est an relacionadas entre s . Para atributos en escala nominal estableceremos los llamados coecientes de contingencia. Cuando los caracteres estudiados pueden ordenarse de acuerdo con una cierta escala, es posible denir unos coecientes de correlaci on que midan el grado de asociaci on entre ellos de manera parecida a como se mide la asociaci on entre variables cuantitativas. Estos coecientes est an basados en los rangos u ordenes de las observaciones.

5.1.

Tablas de contingencia

Una variable cualitativa bidimensional est a dada por dos atributos que se observan simult aneamente sobre los individuos de una poblaci on. De forma an aloga al caso de dos variables num ericas, la distribuci on de frecuencias conjunta una variable cualitativa bidimensional (A, B ) est a denida por los pares de datos observados sobre los individuos de la poblaci on junto con sus frecuencias absolutas. Los datos pueden organizarse en serie o en una tabla de doble entrada. La tabla de doble entrada para caracteres cualitativos recibe el nombre de tabla de contingencia. 1. Los datos bidimensionales en serie se presentan en una tabla unidimensional con dos columnas, una 3

DIPLOMADO EN RELACIONES LABORALES Estad stica Asistida por Ordenador

Curso 2008-2009

para cada uno de los atributos. Los datos en una misma la se entiende que han sido observados sobre el mismo individuo. La siguiente tabla representa los pares de valores individuos. A A1 A2 . . . Ai . . . An (Ai , Bi ) de (A, B ) observados sobre un total de n B B1 B2 . . . Bi . . . Bn

2. Si organizamos los datos en una tabla de doble entrada, entonces mostraremos, por ejemplo, las modalidades del atributo A (valores distintos de A) por las en la primera columna de la tabla (A1 , A2 , . . . , Ak ), las modalidades del atributo B (valores distintos de B ) por columnas en la primera la de la tabla (B1 , B2 , . . . , Bp ), y las cantidades nij en el interior de la tabla indican el n umero de individuos de la poblaci on que presentan simult aneamente la modalidad i- esima de A y la modalidad j - esima de B , esto es, la frecuencia absoluta del par de valores (Ai , Bj ). As la representaci on t pica de una tabla de contingencia k p (k las y p columnas) es: A\ B A1 A2 . . . Ai . . . Ak B1 n11 n21 . . . ni 1 . . . nk 1 B2 n12 n22 . . . ni 2 . . . nk 2 Bj n 1j n 2j . . . nij . . . nkj Bp n 1p n 2p . . . nip . . . nkp n En este caso, el n umero total de individuos de la poblaci on, n, es la suma de todas las frecuencias nij del interior de la tabla.

5.2.

Distribuciones marginales y condicionadas

Las distribuciones marginales est an dadas por la distribuci on unidimensional de cada uno de los atributos independientemente de cu ales sean los valores del otro atributo. As , 1. La distribuci on marginal del atributo por las A, est a denida por las modalidades de dicho atributo, Ai , con frecuencias marginales
p

ni. =
j =1

nij , i = 1, . . . , k

es decir, con frecuencias marginales dadas por los totales de frecuencias por las de la tabla. 4

DIPLOMADO EN RELACIONES LABORALES Estad stica Asistida por Ordenador

Curso 2008-2009

2. La distribuci on marginal del atributo por columnas B , est a denida por las modalidades de dicho atributo, Bj , con frecuencias marginales
k

n.j =
i=1

nij , j = 1, . . . , p

es decir, con frecuencias marginales dadas por los totales de frecuencias por columnas de la tabla. Es habitual determinar las distribuciones marginales sobre la tabla de doble entrada a nadiendo una columna a la derecha con los totales por las, y una la en la parte inferior con los totales por columnas, como se indica a continuaci on: A\ B A1 A2 . . . Ai . . . B1 n11 n21 . . . ni1 . . . B2 n12 n22 . . . ni2 . . . nk2 n. 2
k

Bj n 1j n 2j . . . nij . . . nkj n.j


p

Bp n1p n2p . . . nip . . . nkp n.p

Totales n 1. n 2. . . . ni. . . . nk. n

nk1 Ak Totales n.1 Es inmediato que

ni. =
i=1 j =1

n.j = n

Las distribuciones condicionadas son las distribuciones unidimensionales de uno de los atributos dado que el otro atributo presenta determinadas modalidades. Las m as sencillas son las distribuciones de cada atributo condicionadas a cada una de las modalidades del otro atributo. As , 1. Las distribuciones del atributo por las A condicionadas a que el atributo por columnas B presenta el valor Bj , que notaremos A/B = Bj , est an denidas por las modalidades del atributo A con frecuencias condicionadas nij , i = 1, . . . , k . Hay p distribuciones de este tipo, y cada una de ellas no est a denida sobre el total de individuos, sino sobre la subpoblaci on de n.j individuos para los que B = Bj , j = 1, . . . , p. Obs ervese que las frecuencias de la distribuci on condicionada A/B = Bj est an dadas por las frecuencias de la j - esima columna de la tabla de contingencia. 2. Las distribuciones del atributo por las B condicionadas a que el atributo por columnas A presenta el valor Ai , que notaremos B/A = Ai , est an denidas por las modalidades del atributo B con frecuencias condicionadas nij , j = 1, . . . , p. Hay k distribuciones de este tipo, y cada una de ellas no est a denida sobre el total de individuos, sino sobre la subpoblaci on de ni. individuos para los que A = Ai , i = 1, . . . , k . Obs ervese que las frecuencias de la distribuci on condicionada B/A = Ai est an dadas por las frecuencias de la i- esima la de la tabla de contingencia.

DIPLOMADO EN RELACIONES LABORALES Estad stica Asistida por Ordenador

Curso 2008-2009

5.3.
5.3.1.

Independencia. Test Chi-cuadrado. Tablas 2 2


Independencia

Diremos que los atributos A y B son independientes si la proporci on de individuos que presentan conjuntamente los valores (Ai , Bj ) de (A, B ) entre los que presentan el valor Ai de A es la misma para cualquier valor de j ; o equivalentemente, la proporci on de individuos que presentan conjuntamente los valores (Ai , Bj ) de (A, B ) entre los que presentan el valor Bj de B es la misma para cualquier valor de i. Entonces, dos atributos A y B son estad sticamente independientes si y s olo si nij = ni. n.j , n i = 1, 2, . . . , k ; j = 1, 2, . . . , p

5.3.2.

Test Chi-cuadrado. Tablas 2 2

Existe un contraste formal para la hip otesis nula de independencia de los atributos A y B a un determinado nivel de signicaci on , a partir de la informaci on muestral recogida en la tabla de contingencia. La hip otesis alternativa es la existencia de asociaci on entre los atributos A y B . H0 : A y B son independientes H1 : A y B no son independientes Este test es conocido como test Chi-cuadrado y se basa en la distribuci on bajo la hip otesis nula del llamado coeciente de contingencia 2 (coeciente Chi-cuadrado). Si designamos nij a la frecuencia te orica que corresponder a al par de modalidades (Ai , Bj ) en el caso de que ambos atributos fueran independientes, conocida como frecuencia esperada (bajo independencia) del par (Ai , Bj ), esto es, nij = ni. n.j , n i = 1, 2, . . . , k ; j = 1, 2, . . . , p ;

se dene el coeciente de contingencia 2 como =


2

(nij nij )2 nij i=1 j =1

Algunos autores lo denominan cuadrado de contingencia, y puede expresarse de forma m as sencilla para el c alculo como sigue: p k n2 ij 2 = n n ij i=1 j =1 Puede demostrarse que, bajo la hip otesis nula de independencia de los atributos, el estad stico 2 se 2 distribuye seg un una (k1)(p1) . As , para realizar el contraste se halla el valor de una Chi cuadrado con (k 1)(p 1) grados de libertad que deja a la derecha una probabilidad , que denotaremos 2 stico 2 exp (k1)(p1), . Si el valor del estad 6

DIPLOMADO EN RELACIONES LABORALES Estad stica Asistida por Ordenador

Curso 2008-2009

para los datos observados es mayor que 2 otesis nula de independencia de los (k1)(p1), se rechaza la hip atributos A y B al nivel de signicaci on . O equivalentemente, c omo hace Statgraphics, podemos determinar la probabilidad que deja a la derecha el valor del estad stico 2 on 2 exp en una distribuci (k1)(p1) , conocida como p-valor del 2 2 contraste. Claramente exp > (k1)(p1), si y s olo si p-valor< . Por tanto, si p-valor< se rechaza la hip otesis nula de independencia de los atributos A y B al nivel de signicaci on , es decir, se acepta la hip otesis alternativa de existencia de asociaci on entre los atributos A y B al nivel de signicaci on . Antes de aplicar el test Chi-cuadrado debemos comprobar que se verican las siguientes condiciones: 1. Ninguna frecuencia esperada es menor que 1 2. Al menos el 80 % de las frecuencias esperadas son mayores que 5 Si estas condiciones no se cumplen, no se puede aplicar el test. En tales casos debemos agrupar las modalidades o aumentar el tama no muestral con el objetivo de que se cumplan las condiciones de validez del test. Para tablas 2 2, resultan m as adecuadas las siguientes condiciones: 1. Las frecuencias marginales son mayores que n 10

2. Todas las frecuencias esperadas son mayores que 5 Si no se cumplen estas condiciones debe aplicarse otro test conocido como test exacto de Fisher. Si el p-valor a 2 colas correspondiente a este test es menor que el nivel de signicaci on considerado se rechaza la hip otesis nula de independencia. Adem as, en las tablas 2 2 hay que hacer siempre una correcci on por continuidad (correcci on de Yates) del estad stico de la Chi-Cuadrado, tomando en su lugar el estad stico corregido de Yates, cuya expresi on es p k (|nij nij | 0.5)2 = 2 Y nij i=1 j =1

5.4.

Medidas de asociaci on: Coeciente Chi-cuadrado. Otros coecientes de contingencia

Como concepto contrario al de independencia tenemos el de asociaci on. Se dice que dos atributos A y B est an asociados cuando aparecen juntos en mayor n umero de casos que el que cabr a esperar si fuesen independientes. Seg un que esa tendencia a coincidir o no coincidir est e m as o menos marcada, tendremos distintos grados de asociaci on. Para medirlos se han ideado diversos coecientes de asociaci on. En la pr actica, una vez rechazada la independencia entre los atributos mediante el test Chi-cuadrado, utilizaremos dichos coecientes de asociaci on para medir la intensidad de la relaci on entre los atributos. 7

DIPLOMADO EN RELACIONES LABORALES Estad stica Asistida por Ordenador

Curso 2008-2009

Parecer a razonable que, puesto que el coeciente de contingencia 2 se emplea en el test Chi-cuadrado para determinar si dos atributos est an relacionados, dicho coeciente proporcionara una medida de asociaci on entre los atributos. Sin embargo, no es as . El problema radica en que dicho coeciente depende del tama no muestral n. En efecto, si todas las frecuencias absolutas bidimensionales de la tabla de contingencia se multiplican por un mismo n umero 2 k , entonces el nuevo valor de 2 resulta ser el anterior valor de multiplicado por k . Por tanto, la exp exp magnitud de 2 no es una indicaci o n del grado de asociaci o n de los atributos. Dicho de otra forma, el exp valor 2 indica u nicamente la evidencia de asociaci o n (si es distinto de 0), no su grado. exp Obviamente, si los atributos son independientes, entonces nij = nij es decir, las frecuencias esperadas coinciden con las observadas, y 2 = 0. No obstante, es posible denir a partir del coeciente de contingencia 2 una serie de coecientes de contingencia que s constituyen medidas de asociaci on y que presentamos a continuaci on. Podemos eliminar el efecto del tama no muestral sobre el coeciente de contingencia sin m as que considerar p k n2 2 1 ij 1 2 = = n n i=1 j =1 nij Esta medida de asociaci on es conocida como cuadrado medio de contingencia. Es un n umero comprendido entre 0 (asociaci on nula o independencia de los atributos) y 1 (asociaci on m axima o total), pudiendo interpretarse como un coeciente de correlaci on lineal. El coeciente 2 tambi en presenta una serie de inconvenientes. En general, para tablas k p se utiliza el coeciente de contingencia de Pearson, denido como C= 2 , n + 2

q1 (< 1) q (asociaci on m axima entre los caracteres) con q = min{k, p}. El coeciente se aproxima a 1 conforme crecen simult aneamente el n umero de modalidades de los dos atributos, pero s olo alcanzar a el valor 1 en el caso ideal de innitas modalidades. Este coeciente var a entre 0 (asociaci on nula o independencia entre los atributos) y En cualquier caso, el coeciente C nos revelar a un menor grado de asociaci on entre los atributos cuanto m as pr oximo est e a 0 y un mayor grado de asociaci on entre los atributos cuanto m as se aproxime q1 a . q A su vez, Tschuprow propuso un coeciente que depende nuevamente de 2 , del n umero de las y columnas, y del total de individuos, n. El coeciente de Tschuprow est a denido por T = 2 (k 1)(p 1) = 2 n (k 1)(p 1)

El coeciente var a entre 0 y 1 con la interpretaci on habitual, y alcanza el valor m aximo s olo cuando la tabla es cuadrada (k = p). 8

DIPLOMADO EN RELACIONES LABORALES Estad stica Asistida por Ordenador Los coecientes C y T est an relacionados por las expresiones C= y T = 2 (k 1)(p 1) = C2 (1 C 2) (k 1)(p 1) 2 = +1 T2 1+ T2 (k 1)(p 1) (k 1)(p 1)

Curso 2008-2009

Otro coeciente, que tambi en depende de 2 , es el coeciente V de Cramer, cuya expresi on es V = 2 = m 2 mn

donde m = min{k 1, p 1}. Se trata de un coeciente que toma el valor 1 cuando hay asociaci on perfecta entre los atributos, cualquiera que sea el tama no de la tabla de contingencia. Cuando la tabla es cuadrada V = T , y en caso contrario V > T .

Existen tambi en una serie de medidas de asociaci on utilizadas en el caso de atributos en escala ordinal. De ellas comentaremos u nicamente que adem as de evaluar el grado de asociaci on entre los atributos, indican la direcci on de dicha asociaci on seg un que la medida sea positiva o negativa. Suele haber tres casos extremos: asociaci on perfecta positiva, asociaci on perfecta negativa e independencia (ausencia de asociaci on).

5.5.

An alisis de datos categ oricos con STATGRAPHICS

Para resumir la distribuci on de frecuencias una variable bidimensional cualitativa Statgraphics proporciona dos subopciones dentro de la opci on Datos Cualitativos del men u Descripci on: La subopci on Tabulaci on Cruzada..., si los datos est an organizados en serie y queremos que Statgraphics los tabule generando la tabla de frecuencias bidimensional. La subopci on Tablas de Contingencia..., si los datos est an organizados en una tabla y nuestros datos son las propias frecuencias de la tabla de contingencia.

5.5.1.

Tabulaci on Cruzada...

Ejemplo 1 El archivo Emplea2.sf3 contiene los datos observados sobre 36 empleados de una empresa de la variable cualitativa bidimensional denida por los atributos Sexo y Categor a laboral (CatLab). El atributo Sexo presenta dos categor as: H (hombre) y M (mujer); y el atributo CatLab presenta 3 categor as: A (Administrativos), C (Comerciales) y T (T ecnicos) Haciendo click en la subopci on Tabulaci on Cruzada de la opci on Datos Cualitativos del men u Descripci on accedemos al cuadro de di alogo Tabulaci on Cruzada - Entrada de Datos: 9

DIPLOMADO EN RELACIONES LABORALES Estad stica Asistida por Ordenador

Curso 2008-2009

En el campo Variable Fila introduciremos el nombre del atributo cuyas modalidades van a aparecer por las (en la primera columna). Por ejemplo CatLab.

En el campo Variable Columna introduciremos el nombre del atributo cuyas modalidades van a aparecer por columnas (en la primera la). En nuestro caso, Sexo.

on:) es opcional y podemos introducir un operador de selecci on que acote el El campo (Selecci conjunto de valores de los atributos, lo que permite trabajar en subpoblaciones de la poblaci on total.

La opci on Ordenar permite ordenar las modalidades de los atributos alfab eticamente. Est a activada por defecto.

Al hacer click en el bot on Aceptar, se muestra la ventana del an alisis de tabulaci on cruzada: 10

DIPLOMADO EN RELACIONES LABORALES Estad stica Asistida por Ordenador

Curso 2008-2009

Podemos observar los siguientes elementos: El resumen del procedimiento, que indica los atributos la y columna, el n umero de observaciones y el tama no de la tabla de contingencia que se va a construir. La tabla de frecuencias del atributo por las seg un el atributo por columnas, con los totales por las y columnas que denen las distribuciones marginales de los atributos. Por defecto en cada celda el primer n umero que aparece es la frecuencia absoluta del par de modalidades correspondientes y el segundo n umero es el porcentaje de tabla que supone respecto al n umero total de datos. Por ejemplo, los datos de la celda intersecci on de la la C con la columna M nos indican que del total de 36 empleados, 7 son comerciales y mujeres, esto es, que un 19,44 % del total de empleados son comerciales y mujeres. Los totales por las denen las frecuencias absolutas marginales del atributo por las y el porcentaje del total que representan. En nuestro ejemplo, denen la distribuci on marginal de la categor a laboral de los 36 empleados, y nos indican que 10 son administrativos, 13 son comerciales y otros 13 son t ecnicos; o equivalentemente, el 27.78 % son administrativos, el 36.11 % son comerciales y el 36.11 % restante son t ecnicos. Y los totales por columnas denen las frecuencias absolutas marginales del atributo por columnas 11

DIPLOMADO EN RELACIONES LABORALES Estad stica Asistida por Ordenador

Curso 2008-2009

y el porcentaje del total que representan. En nuestro ejemplo, denen la distribuci on marginal del sexo de los 36 empleados, y nos indican que 17 son hombres y 19 son mujeres; o equivalentemente, el 47,22 % son hombres y el 52.78 % restantes son mujeres.

Si, estando situados sobre la tabla de frecuencias, hacemos click con el bot on derecho del rat on y elegimos la opci on Opciones de Ventana... del men u emergente que aparece, se abre el cuadro de di alogo Opciones Tabla de Frecuencias, en cuyo campo Incluir podemos elegir construir la tabla con porcentajes de tabla (opci on por defecto), con porcentajes de la y columna, con frecuencias esperadas, con desviaciones y/o con valores Chi-cuadrado.

Si activamos todas las opciones y hacemos click en el bot on Aceptar, se obtiene la siguiente tabla de frecuencias: 12

DIPLOMADO EN RELACIONES LABORALES Estad stica Asistida por Ordenador

Curso 2008-2009

Los porcentajes de la son los porcentajes que representan las frecuencias de tabla respecto del total de la. Son, por tanto, los porcentajes que representan las modalidades de la distribuci on del atributo por columnas condicionada a que el atributo por las presenta la modalidad correspondiente a la la considerada. En nuestro caso, por ejemplo, si consideramos la distribuci on del sexo condicionada a ser t ecnico, los porcentajes de la que aparecen en la la T nos indican que de los 13 t ecnicos que hay, el 53.85 % son hombres (7 de 13) y el 46,15 % restante son mujeres (6 de 13) Los porcentajes de columna son los porcentajes que representan las frecuencias de tabla respecto del total de columna. Son, por tanto, los porcentajes que representan las modalidades de la distribuci on del atributo por las condicionada a que el atributo por columnas presenta la modalidad correspondiente a la columna considerada. En nuestro caso, por ejemplo, si consideramos la distribuci on de la categor a laboral condicionada a ser hombre, los porcentajes de columna que aparecen en la columna H nos indican que de los 17 hombres que hay, el 23.53 % son administrativos (4 de 17), el 35,29 % son comerciales (6 de 17), y el 41,18 % restante son t ecnicos (7 de 17) a esperar en cada celda si los atributos Las frecuencias esperadas son las frecuencias que cabr fueran independientes. 13

DIPLOMADO EN RELACIONES LABORALES Estad stica Asistida por Ordenador

Curso 2008-2009

Por ejemplo, la frecuencia esperada bajo independencia de la celda intersecci on de la la C con la columna M est a dada por 13 19 = 6.86 36 Las desviaciones son las diferencias entre las frecuencias de tabla observadas y las esperadas. Las desviaciones positivas corresponden a individuos que se presentan en m as casos de los que cabr a esperar bajo independencia. Por el contrario, las desviaciones negativas corresponden a individuos que se presentan en menos casos de los que cabr a esperar bajo independencia. As , la desviaci on de la celda intersecci on de la la T con la columna M est a dada por 6 6.86 = 0.86 Los valores Chi-cuadrado muestran la contribuci on de cada celda al estad stico 2 que se utiliza para contrastar la independencia entre los atributos. Por ejemplo, la aportaci on al estad stico 2 de la celda intersecci on de la la A con la columna H est a dada por (0.72)2 = 0.11 4.72 un el atributo por columnas, que EL diagrama de barras adosadas para el atributo por las seg muestra un gr aco de barras m ultiples bidimensional sobre un mismo eje. Las longitudes de las barras son proporcionales a las frecuencias absolutas de la tabla de frecuencias; y las barras se agrupan, adosadas o apiladas, seg un el atributo por columnas para cada modalidad del atributo por las. Si, estando situados sobre este gr aco, hacemos click con el bot on derecho del rat on y elegimos la opci on Opciones de Ventana... del men u emergente que aparece, se abre el cuadro de di alogo Opciones Diagrama de Barras, que en el campo Tipo de Diagrama nos permite apilar las barras en lugar de adosarlas, en el campo Escala podemos elegir entre porcentajes o frecuencias, y en el campo Direcci on podemos determinar la direcci on horizontal o vertical para el gr aco.

14

DIPLOMADO EN RELACIONES LABORALES Estad stica Asistida por Ordenador

Curso 2008-2009

El diagrama de barras apiladas puede identicarse con el diagrama de barras de la distribuci on marginal del atributo por las sin m as que considerar cada grupo de barras apiladas como una sola barra.

El gr aco de mosaico para el atributo por las seg un el atributo por columnas, formado por un mosaico de rect angulos cuyas areas son proporcionales a las frecuencias absolutas de las celdas de la tabla de frecuencias, siendo la altura de los rect angulos para cada modalidad del atributo por las proporcional a los totales por las. De esta forma, la anchura de los rect angulos para cada modalidad del atributo por las es proporcional a los porcentajes de la.

Los rect angulos para una misma modalidad del atributo por las representan un diagrama de barras apiladas de la distribuci on del atributo por columnas condicionada a dicha modalidad del atributo por las.

Si, estando situados sobre este gr aco, hacemos click con el bot on derecho del rat on y elegimos la opci on Opciones de ventana... del men u emergente que aparece, se abre el cuadro de di alogo Opciones Gr aco de Mosaico, en cuyo campo Direcci on podemos elegir la direcci on vertical u horizontal para el gr aco. 15

DIPLOMADO EN RELACIONES LABORALES Estad stica Asistida por Ordenador

Curso 2008-2009

Como en todo an alisis de Statgraphics, el icono Opciones tabulares (segundo icono por la izquierda de la barra de herramientas de la ventana del an alisis de tabulaci on cruzada), abre el cuadro de di alogo Opciones Tabulares que permite manejar todas las opciones del an alisis:

La opci on tabular Contraste de Chi-cuadrado realiza el contraste cuya hip otesis nula es la independencia de los dos atributos. Se presenta en pantalla el valor del estad stico, los grados de libertad y el p-valor. Si el p-valor es menor que el nivel de signicaci on se rechaza la hip otesis nula de independencia a dicho nivel de signicaci on.

En nuestro caso, el valor del estad stico 2 es 2 stico se distribuye seg un exp = 0.44 y dicho estad una Chi-cuadrado con (3 1) (2 1) = 2 grados de libertad (2 ). Y el p-valor est a dado por 2 P (2 on habitual = 0.05 no hay evidencia para 2 > 0.44) = 0.8009. Entonces, al nivel de signicaci rechazar la independencia de los atributos, lo que nos indica que la categor a laboral de un empleado 16

DIPLOMADO EN RELACIONES LABORALES Estad stica Asistida por Ordenador

Curso 2008-2009

no tiene relaci on con su sexo, y, por tanto,la empresa no discrimina a sus empleados por razones de sexo. Es importante se nalar que Statgraphics nos avisa de que al menos una celda tiene una frecuencia esperada inferior a 5. Si observamos las frecuencias esperadas de la tabla de frecuencias es f acil ver que todas son mayores que 1 y que 5 de las 6 frecuencias son mayores que 5, es decir m as del 80 % de las frecuencias esperadas son mayores que 5. Por tanto, se cumplen las condiciones de validez del contraste de la Chi-cuadrado.

La opci on tabular Resumen Estad stico calcula diferentes medidas de asociaci on y correlaci on por rangos que permiten determinar el grado de asociaci on entre dos atributos. En nuestro caso, no tiene sentido utilizar esta opci on dado que los atributos son independientes. No obstante, si la utilizamos obtenemos la siguiente salida

Statgraphics nos muestra, entre otros, el coeciente de contingencia de Pearson C = 0.1104 y el coeciente V de Cramer V = 0.1111.

Por otra parte, el icono Opciones Gr acas (tercer icono por la izquierda de la barra de herramientas de la ventana del an alisis de tabulaci on cruzada), permite manejar todas las opciones gr acas del an alisis de tabulaci on cruzada a trav es de la ventana Opciones Gr acas. Por defecto est an seleccionadas las opciones Diagrama de barras y Gr aco de mosaico. 17

DIPLOMADO EN RELACIONES LABORALES Estad stica Asistida por Ordenador

Curso 2008-2009

La opci on Gr aco Tridimensional permite obtener un diagrama de barras tridimensional para la variable cualitativa bidimensional, en el que la altura de sus barras es proporcional a la frecuencia absoluta de cada celda de la tabla de frecuencias.

Si, estando situados sobre este gr aco, hacemos click con el bot on derecho del rat on y elegimos la opci on Opciones de ventana... del men u emergente que aparece, se abre el cuadro de di alogo Opciones Gr aco Tridimensional, en cuyo campo Gr aco podemos elegir la representaci on basada en frecuencias absolutas de celdas o en porcentajes.

5.5.2.

Tablas de Contingencia...

Ejemplo 2 La siguiente tabla clasica a un grupo de personas atendiendo a la frecuencia con que leen la prensa y si escuchan o no las tertulias de radio: 18

DIPLOMADO EN RELACIONES LABORALES Estad stica Asistida por Ordenador

Curso 2008-2009

Prensa

Siempre Alguna vez N unca

Tertulias de radio Si No 90 5 10 60 5 70

Estudia la asociaci on, si la hay, entre leer prensa y escuchar las tertulias de radio.

La primera tarea es introducir los datos de la tabla de contingencia en 2 columnas de la hoja de c alculo de Statgraphics, con nombres, por ejemplo, Tertulia SI y Tertulia N0. En la columna Tertulia SI introduciremos como valores las frecuencias de la columna Si de la tabla de contingencia. An alogamente, en la columna Tertulia N0 introduciremos como valores las frecuencias de la columna No de la tabla de contingencia. Aunque no es necesario, vamos a a nadir otra columna con nombre Prensa para almacenar las modalidades de la frecuencia con que se lee la prensa y as etiquetar m as adecuadamente las tablas de frecuencias y los gr acos del an alisis.

A continuaci on haremos click en la subopci on Tablas de Contingencia... de la opci on Datos Cualitativos del men u Descripci on para acceder al cuadro de di alogo Tablas de Contingencia de entrada de datos:

19

DIPLOMADO EN RELACIONES LABORALES Estad stica Asistida por Ordenador

Curso 2008-2009

En el campo Columnas: especicamos las columnas en las que hemos almacenado las columnas de frecuencias del atributo por columnas. En nuestro caso, Tertulia SI y Tertulia N0. El campo Etiquetas es opcional y en el podemos especicar las modalidades del atributo por las. Como nosotros las hemos almacenado en la columna Prensa, introduciremos dicha columna. El campo (Selecci on:) es opcional y podemos introducir un operador de selecci on que acote el conjunto de valores de los atributos, lo que permite trabajar en subpoblaciones de la poblaci on total. on Ordenar permite ordenar las modalidades de los atributos alfab eticamente. Est a activada La opci por defecto. Al hacer click en el bot on Aceptar, se muestra la ventana del an alisis de tablas de contingencia, que es completamente an aloga a la del an alisis de tabulaci on cruzada del Ejemplo 1. Como en aquel caso muestra por defecto: El resumen del procedimiento La tabla de frecuencias con recuentos y porcentajes de tabla. Si hacemos click con el bot on derecho del rat on sobre la tabla y elegimos la opci on Opciones de Ventana... del men u emergente que aparece, se abre el cuadro de di alogo Opciones Tabla de Frecuencias, y podemos seleccionar el contenido de la tabla: porcentajes de tabla, porcentajes de la y columna, frecuencias esperadas, desviaciones y/o valores Chi-cuadrado. El diagrama de barras multiple del atributo por las seg un el atributo por columnas. Si hacemos click con el bot on derecho del rat on sobre el gr aco y elegimos la opci on Opciones de Ventana... del men u emergente que aparece, se abre el cuadro de di alogo Opciones Diagrama de Barras, que nos permite apilar las barras en lugar de adosarlas, elegir entre porcentajes o frecuencias, y determinar la direcci on horizontal o vertical para el gr aco. aco de mosaico del atributo por las seg un el atributo por columnas. El gr 20

DIPLOMADO EN RELACIONES LABORALES Estad stica Asistida por Ordenador

Curso 2008-2009

Si hacemos click con el bot on derecho del rat on sobre el gr aco y elegimos la opci on Opciones de ventana... del men u emergente que aparece, se abre el cuadro de di alogo Opciones Gr aco de Mosaico, y podemos elegir la direcci on vertical u horizontal para el gr aco.

Para realizar el contraste de la hip otesis nula de independencia de los atributos haremos click en el icono Opciones tabulares de la barra de herramientas del an alisis y seleccionaremos la opci on tabular Test Chi-Cuadrado del cuadro de di alogo Opciones Tabulares, que proporciona la siguiente salida:

5 Ahora, el estad stico 2 toma el valor 2 , entonces exp = 166,96; y como el p-valor es del orden de 10

21

DIPLOMADO EN RELACIONES LABORALES Estad stica Asistida por Ordenador

Curso 2008-2009

es menor que el nivel de signicaci on habitual = 0.05 y hay evidencia estad stica para rechazar la independencia entre la frecuencia con que se lee la prensa y el que se escuche o no las tertulias de radio.

Statgraphics no nos advierte de que ninguna celda sea inferior a 5, por lo que el contraste Chi-cuadrado es v alido. No obstante podemos comprobar que las frecuencias esperadas bajo independencia son todas mayores que 1 y m as del 80 % de ellas son superiores a 5. Haciendo click con el bot on derecho del rat on sobre la ventana Tabla de Frecuencias del an alisis elegiremos la opci on Opciones de Ventana... del men u emergente que se despliega. As accedemos al cuadro de di alogo Opciones Tabla de Frecuencias y elegimos la opci on Frecuencias Esperadas. La ventana Tabla de Frecuencias del an alisis muestra ahora las frecuencias esperadas:

Dado que hay relaci on entre la frecuencia con que se lee la prensa y el que se escuche o no las tertulias de radio, el siguiente paso ser a cuanticar el grado de asociaci on mediante alg un coeciente de asociaci on. Para ello, haremos click sobre el icono Opciones tabulares de la barra de herramientas del an alisis y seleccionaremos la opci on tabular Resumen Estad stico del cuadro de di alogo Opciones Tabulares, que proporciona la siguiente salida: 22

DIPLOMADO EN RELACIONES LABORALES Estad stica Asistida por Ordenador

Curso 2008-2009

El coeciente de contingencia de Pearson es C = 0.6405, valor que se aproxima bastante al valor 21 m aximo de dicho coeciente en el caso de asociaci on total = 0.5 = 0.7071 1 Y el coeciente V de Cramer es V = 0.8341, que se aproxima tambi en bastante al valor 1 que corresponde a una asociaci on total. Luego, podemos armar que hay una asociaci on bastante alta entre la frecuencia con que se lee la prensa y el que se escuche o no las tertulias de radio.

23

S-ar putea să vă placă și