Sunteți pe pagina 1din 13

ANALISIS DE VARAIBLES CUALITATIVOS

INDICE

Introduccin. Teora bsica


Variables cualitativas
Tablas de contingencia
Introduccin al modelo log-linea

INTRUDUCCION

Denominamos variables cualitativas a aquellas cuyo resultado es un valor o


categora de entre un conjunto finito de respuestas posibles. El sexo, el estado
civil o el grupo sanguneo son ejemplos de variable cualitativas. Cuando se analizan
variables cualitativas es habitual representar en tablas las frecuencias de casos
observados para cada una de las diferentes categoras de las variables, las cuales
se denominan tablas de contingencia.

Por ejemplo: Para identificar relaciones de dependencia entre variables


cualitativas se utiliza un contraste estadstico basado en el estadstico 2 , cuyo
clculo nos permitir afirmar con un nivel de confianza estadstico determinado si
los niveles de una variable cualitativa influyen en los niveles de la otra variable
nominal analizada.
Siguiendo con el ejemplo propuesto, el clculo de la Chi-cuadrado nos permitira
saber si el sexo de una persona es un factor determinante en que dicha persona
fume o no fume.

MARCO TEORICO
DEFINICION
Son aquellas variables cuyos valores son un conjunto de cualidades no numricas a
las que se llama categoras o modalidades.

Cuando se trabaja con dos variables cualitativas podemos seguir empleando


grficos de barras o de sectores. Podemos querer determinar, por ejemplo, si en
una muestra dada, la frecuencia de sujetos que padecen una enfermedad coronaria
es ms frecuente en aquellos que tienen algn familiar con antecedentes cardiacos.
A partir de dicha muestra podemos representar, como se hace en la, dos grupos de
barras: uno para los sujetos con antecedentes cardiacos familiares y otro para los
que no tienen este tipo de antecedentes. En cada grupo, se dibujan dos barras
representando el porcentaje de pacientes que tienen o no alguna enfermedad
coronaria. No se debe olvidar que cuando los tamaos de las dos poblaciones son
diferentes, es conveniente utilizar las frecuencias relativas, ya que en otro caso el
grfico podra resultar engaoso.

Una variable cualitativa es aquella cuya escala de medida consiste de un conjunto


de categoras.
Por ejemplo: la orientacin poltica se mide como izquierda, centro o derecha.
Por ejemplo: el diagnstico de cncer de mama se mide como normal, benigno,
probablemente benigno, sospechoso o maligno.
Por ejemplo: las enfermedades mentales pueden ser clasificadas en esquizofrenia,
depresin o neurosis.
M
s Muchas de las herramientas estadsticas hacen una distincin entre la variable
respuesta (o dependiente) y variables explicativas (o independientes).
Por ejemplo: los modelos de regresin describen como la media de una variable
respuesta, como el precio de venta de una casa, cambia de acuerdo a los valores de
variables explicativas, como el rea total y la ubicacin.
En este curso el anlisis se enfoca al caso en que la variable respuesta es de tipo
cualitativa.

CLASIFICACIN DE VARIABLES CUALITATIVAS


Las variables se pueden clasificar:

Escala nominal: No se puede definir un orden natural entre sus categoras.


(Ejemplo: la raza, el color del pelo, o la religin)
Escala ordinal: Se pueden establecer relaciones de orden entre las
categoras.
(Ejemplo: el rango militar, la clase social o el nivel de estudios)
Por intervalos: Pueden tratarse como ordinales y se pueden calcular
distancias numricas entre dos niveles.
(Ejemplo: El nmero de aos de educacin recibidos (0, 1, 2, es una variable
cuantitativa que puede ser agrupada por intervalos)

TABLAS DE CONTINGENCIA

Una tabla de contingencia es una tabla bidimensional en la que las variables objeto
de estudio no son cuantitativas.
Tabla de contingencia para estudiar la asociacin entre color y fragancia de
las flores azaleas:

CONSTRUCCIN DE UNA TABLA DE CONTINGENCIA


Para analizar la relacin de dependencia o independencia entre dos variables
cualitativas nominales o factores, es necesario estudiar su distribucin conjunta o
tabla
de contingencia.
La tabla de contingencia es una tabla de doble entrada, donde en cada casilla
figurar el nmero de casos o individuos que poseen un nivel de uno de los factores
o
caractersticas analizadas y otro nivel del otro factor analizado.

La tabla de contingencia se define por el nmero de atributos o variables que se


analizan conjuntamente y el nmero de modalidades o niveles de los mismos.

2.CONTRASTACIN ESTADSTICA DE LA RELACIN DE DEPENDENCIA


PARA VARIABLES CUALITATIVAS
Para identificar relaciones de dependencia entre variables cualitativas se utiliza un
contraste estadstico basado en el estadstico 2 (Chi-cuadrado), cuyo clculo nos
permitir afirmar con un nivel de confianza estadstico determinado si los niveles
de
una variable cualitativa influyen en los niveles de la otra variable nominal analizada.
Siguiendo con el ejemplo propuesto, el clculo de la Chi-cuadrado nos permitira
saber si el sexo de una persona es un factor determinante en que dicha persona
fume
o no fume.

Dos variables son independientes si:

1.las frecuencias relativas condicionadas son iguales a las frecuencias relativas

2.O bien si se cumple que la frecuencia relativa conjunta es igual al produc to de


las frecuencias relativas marginales

De esta forma, comparando las frecuencias tericas esperadas en caso de


independencia entre los factores con las frecuencias observadas en la muestra,
podremos
concluir si existe una relacin de dependencia o independencia entre los factores o
atributos analizados.
Segn la notacin de la tabla inicial, y utilizando el concepto frecuentalista de
probabilidad, podemos estimar la probabilidad de que se de un suceso determinado
a
partir de sus frecuencias relativas.

En la siguiente figura se presenta un ejemplo de tabla de contigencia para dos


variables: en las filas se encuentra la variable ESTUDIOS, clasificada segn tres
categoras, y en las columnas representamos la variable HTA, segn la clasificacin
propuesta en el documento .Los datos corresponden a un conjunto de pacientes
diabticos.

Tabla 1

HTA II a IV * HTA I Normal alta Normal Optima Total

Sin estudios 30 117 94 49 11 301

1 grado 39 123 110 60 21 353

2 y 3 grado 11 35 58 39 24 167

Total 80 275 262 148 56 821

En este tipo de tablas habitualmente se desea conocer si existe asociacin entre


las dos variables, o si por el contrario se pueden considerar independientes. Dicho
de otra forma: queremos saber si la proporcin de casos para cada categora de
una de las variables es independiente del valor que toma la otra variable. En la
tabla del ejemplo nos interesa saber si la proporcin de sujetos en cada una de las
categoras de la variable HTA es diferente segn el nivel de estudios o si, por el
contrario, se pueden considerar independientes.

El razonamiento para contrastar si existe o no asociacin entre dos variables


cualitativas se basa en calcular cul seran los valores de frecuencia esperados
para cada una de las celdas en el caso de que efectivamente las variables fuesen
independientes, y compararlos con los valores realmente observados. Si no existe
mucha diferencia entre ambos, no hay razones para dudar de que las variables sean
independientes.

En el ejemplo, la proporcin de pacientes con HTA nivel I en nuestra muestra es


275 / 821 = 33.5%

Si las variables son independientes esta proporcin debiera mantenerse (al menos
de forma aproximada) en cada nivel de estudios. As como tenemos 167 pacientes
con estudios de 2 o 3 grado, el nmero de casos esperado con HTA nivel I es

167 x 0.335 = 55.9

mientras que el valor observado es slo 35.

De forma general la frecuencia esperada para cada una de las celdas, cumplindose
la hiptesis de independencia, se calcula multiplicando el total de la fila por el total
de la columna correspondientes, y dividindolo por el tamao global.

El contraste estadstico ms utilizado para evaluar si las diferencias entre las


frecuencias observadas y las esperadas pueden atribuirse al azar, bajo la hiptesis
de independencia, es el denominado chi de Pearson:

donde Fij representa la frecuencia esperada para la celda situada en la fila i


columna j, y fij representa la frecuencia efectivamente observada para esa celda.
En la hiptesis de independencia este estadstico se distribuye de forma
aproximada segn una chi con grados de libertad (I-1)(J-1), siendo I el nmero de
filas y J el nmero de columnas.

El estudio de la asociacin entre dos variables cualitativas en ocasiones puede ser


insuficiente, ya que la presencia de una tercera variable puede modificar las
conclusiones respecto a esa asociacin, e incluso puede interesar evaluar la
influencia de ms variables adicionales. En el ejemplo anterior si se calcula el valor
del chi obtenemos 35.6, que con 8 grados de libertad corresponde a un valor de
probabilidad de 0.00002, lo que indica que los datos obtenidos estn en clara
contradiccin con la hiptesis de independencia y debemos por lo tanto concluir, a
partir de la evidencia de nuestros datos, que existe asociacin entre el grado de
HTA y el nivel de estudios de los pacientes.

Sin embargo, por las caractersticas sociales de nuestro pas, sabemos que las
personas de edad avanzada no tienen el mismo perfil educativo que las ms jvenes,
siendo en general su nivel de estudios inferior. Si, por otro lado, la prevalencia de
la HTA aumenta con la edad, pudiera ser que la asociacin observada se explique
porque en las categoras con nivel de estudios inferiores se encuentran ms
personas de edad avanzada, mientras que en las categoras con mayor nivel de
estudios tengamos predominio de personas jvenes. Por ello nos puede interesar en
este caso incluir en nuestro anlisis una tercera variable que recoja la edad del
paciente, y que vamos a clasificar en los siguientes intervalos: Hasta 50 aos, entre
50 y 64, entre 65 y 74, ms de 74 aos.

Puesto que ahora tenemos tres variables, HTA, ESTUDIOS y EDAD, vamos a ver
cmo podemos analizar de forma conjunta la asociacin entre tres o ms variables
cualitativas y para ello empezaremos con un poco de teora. Estimado lector no se
asuste porque encuentre en el texto frmulas con letra grande, lo razn es para
que se vean mejor en el navegador, y adems son frmulas muy sencillas, donde lo
ms complicado que encontramos es la presencia de algn logaritmo.

INDEPENDENCIA DE VARIABLES CUALITATIVAS

Contrastamos

Estadstico de contraste

MEDIDAS EN ESCALA NOMINAL

En escala nominal podemos considerar las siguientes medidas de asociacin:

1) Coeficiente
2) Coeficiente de contingencia o C de Pearson (C)
3) Coeficiented
4) Coeficiente V de Cramer (V)
5) Coeficiente Lambda ()

En tablas de contingencia 2 2 el coeficiente y el coeficiente V de


Cramer toman valores entre 0 y 1:
Un valor 0 implica independencia de los atributos.
Un valor 1 denota asociacin perfecta.
Valores cercanos a 1 indican un grado de asociacin fuerte mientras que
valores prximos a 0 implican un grado de asociacin dbil.
El Coeficiente de contingencia o C de Pearson toma en tablas 22 valores
comprendidos entre 0 y, siendo:

El valor denota asociacin perfecta. Un valor 0 indica independencia.

Los valores del coeficiente lambda estn comprendidos entre 0 y 1 para


tablas p q, con p, q 2:
Valores prximos a 0 implican baja asociacin
Valores prximos a 1 denotan fuerte asociacin.
Sin embargo un valor = 0 no implica independencia de los atributos.

Los valores de estas medidas no dependen del nmero de filas ni de


columnas de la tabla, por lo que permiten la comparacin entre tablas.

Donde:

Los valores de y de C dependen de p y q, por lo que no permiten realizar


comparaciones entre tablas.

MEDIDAS EN ESCALA ORDINAL

Para variables en escala ordinal, puede considerarse adems del grado de


asociacin la direccin de sta.
Se dice que dos variables estn relacionadas positivamente si a valores
altos (bajos) de una de ellas le corresponden valores altos (bajos) en la otra.
Se dice que estn relacionadas negativamente si a valores altos (bajos) de
una de ellas le corresponden valores bajos (altos) en la otra.
Si A y B son medidas a escala ordinal pueden aplicarse las medidas de
asociacin vlidas para escala nominal.
Adems en escala ordinal pueden considerarse:
1) Coeficiente Gamma de Goodman y Kruskal ()
2) Coeficiente d de Somers (d)
3) Coeficiente TauB de Kendall (TauB)
4) Coeficiente TauC de Kendall (TauC)

EN GENERAL, PARA ESTAS MEDIDAS SE TIENE:

Cuanto ms prximos estn los valores de estas medidas a 0 ms dbil ser


la asociacin entre las variables.
Cuanto ms cercanos a 1 (o a 1) sean los valores de todas estas medidas
mayores ser la asociacin positiva (negativa) entre las variables.

En tablas no cuadradas la medida TauB de Kendall no alcanza los lmites.


Si las variables son independientes entonces = 0, sin embargo el recproco
no es cierto.
Adems || = 1 no implica asociacin perfecta.

Introduccin al modelo log-lineal

Vamos a empezar nuestro razonamiento a partir de una tabla para dos variables

con I filas y J columnas. Llamamos a la proporcin total de sujetos


clasificados como i en las filas y j en las columnas, y a la proporcin total de
sujetos en la categora i para la variable filas (olvidndonos de la otra variable,

como si no existiera, es decir juntando todas las columnas) y a la


proporcin total de sujetos en la categora j para la variable columnas (juntando
todas las filas). Hemos visto ms arriba que bajo la hiptesis de independencia la
proporcin de cada celda se estima como:

Y por lo tanto para estimar la frecuencia Fij multiplicaremos por el tamao global N

Si tomamos logaritmos obtenemos:

Vamos a llamar X a la variable representada en las filas, Y a la variable


correspondiente a las columnas. La frmula anterior, que representa el modelo
matemtico para estimar la frecuencia de cada celda en la hiptesis de
independencia, la reescribimos entonces como sigue:

donde cada sumando se corresponde directamente con los de la frmula anterior.

En este modelo podemos introducir un tercer trmino para considerar la presencia


de asociacin, y tendremos entonces un modelo en el que ya no se cumplira la
hiptesis de independencia:

Por lo tanto la hiptesis de independencia es equivalente a plantear


Si estuviramos analizando tres variables, aadimos una tercera con nombre Z,
podemos generalizar el modelo anterior:

Este tipo de modelos se conoce con el nombre de modelos log-lineales.

Antes de volver con nuestro ejemplo, en el que analizbamos las variables


hipertensin, nivel de estudios y edad, vamos a plantear otro ejemplo tambin con
3 dimensiones, pero ms sencillo en cuanto al nmero de categoras de cada
variable, en la que se estudia la proporcin de mujeres admitidas en una
determinada Universidad frente a la proporcin de hombres:

Tabla 2

NO ADMITIDOS SI ADMITIDOS % ADMITIDOS Total

HOMBRE 1493 1198 45 2691

MUJER 1278 557 30 1835

Total 2771 1755 4526

En base a estos datos se plantea una demanda a la citada Universidad acusndola


de sexista en las pruebas de admisin, que parecen favorecer claramente a los
hombres. Sin embargo los responsables de la Universidad presentaron los datos
distribuidos por facultades (vamos a denominar a las diferentes facultades de
forma genrica con las letras A hasta F):

Tabla 3

HOMBRES Total presentados % Admitidos

A 825 62

B 560 63

C 325 37
D 417 33

E 191 28

F 373 6

Total 2691

MUJERES Total presentadas % Admitidas

A 108 82

B 25 68

C 593 34

D 375 35

E 393 24

F 341 7

Total 1835

donde se puede ver que apenas hay diferencias en las tasas de admisin, salvo en la
facultad A donde el porcentaje de hombres admitidos es del 62% y el de mujeres
es del 82%! Tenemos aqu un ejemplo claro de cmo la asociacin entre dos
variables cualitativas resulta ser espuria cuando se considera los valores de una
tercera variable, situacin que se conoce como Paradoja de Simpson y que tambin
se puede dar en variables cuantitativas.

Para analizar este tipo de tablas multidimensionales utilizaremos los modelos log-
lineales planteados ms arriba. Para tres variables X,Y,Z podemos ajustar a
nuestros datos diferentes modelos:

Tabla 4

Modelo (X,Y,Z): todas las variables son mutuamente independientes, X Y


son idependientes, X Z son independientes, Y Z son independientes, no
existiendo asociacin entre ellas, por lo que el modelo queda reducido a
Modelo (X,YZ). En este modelo slo se considera la asociacin YZ. X es
independiente de las otras dos variables

Modelo (XY,YZ). X es independiente de Z para cada valor de Y.

Modelo (XY,YZ,XZ). Existe asociacin dos a dos entre todas las variables,
pero no se considera asociacin conjunta entre las tres, de tal manera que
la asociacin entre dos de las variables es homognea, no cambia, para cada
nivel de la otra variable.

Modelo (XYZ). Si el modelo anterior no se ajusta bien a los datos quiere


decir que hay que considerar la asociacin de las tres variables, de tal
manera que la asociacin entre dos de ellas no es homognea cuando cambia
el nivel de la otra variable.

CONCLUSIONES:

En ocasiones cuando se estudia la asociacin entre variables cualitativas,


una de ellas puede considerarse como variable respuesta y las otras como
variables o factores explicativos de la respuesta.
Los modelos log-lineales tratan todas las variables de forma simtrica, no
distinguiendo entre variable respuesta y el resto de variables, por ello en el
caso de que claramente se identifique una variable como respuesta puede
ser ms natural utilizar modelos logsticos, los cuales describen esa
dependencia.
La utilizacin es ms habitual sobre todo si la variable respuesta es
dicotmica
El modelo logstico nos permite cuantificar la asociacin mediante los odds
ratio correspondientes, que se pueden estimar directamente del modelo
Bibliografa :

1. AbadMontes, F. y Vargas Jimnez, M. (2002). Anlisis de datos para las


Ciencias Sociales. Ed.: Proyecto Sur.
2. Aguilera del Pino, A. M. (2001). Tablas de contingencia bidimensionales.
Ed.: La Muralla, S.A.
3. Agresti, A. (1996). An Introduction to Categorical Data Analysis. Wiley.

Collett, D.(2003). Modelling Binary Data, Second Edition. Chapman & Hall.