Sunteți pe pagina 1din 12

46

Ajuste e interpretacin de modelos de regresin logstica con variables categricas y continuas*


LUIS NAVA PUENTE1 SURENDRA PRADAD. SINHA2

Resumen
Se desarroll un procedimiento para ajustar un modelo de regresin logstica que relacionara la prevalencia de cardiomiopata clnica con las variables de sexo, consumo de chim, consumo de alcohol, fumar, seropositividad a Trypanosoma cruzi y edad. Se us la informacin referente a un grupo de 2.336 habitantes del Estado Trujillo. Los resultados de la investigacin indicaron que las variables relacionadas en forma significativa con la presencia de anormalidades electrocardiogrficas son sexo, consumo de chim, fumar y edad. El modelo apropiado incluye la interaccin entre las variables sexo y consumo de chim y un trmino cuadrtico de edad. El consumo de chim y la edad son variables que incrementan en forma significativa las posibilidades de cardiomiopata clnica. Podemos concluir con base en los resultados que los hombres tienen mayores posibilidades que las mujeres de presentar esta anomala. Palabras clave: Regresin logstica, modelo lineal generalizado, Trypanosoma cruzi, cardiomiopata, anormalidades electrocardiogrficas.

* 1 2

Este artculo corresponde a un resultado obtenido en el Seminario 2 del Doctorado en Estadstica de la Universidad de Los Andes, desarrollado por Luis Nava Puente y con la tutora de Surendra Sinha. Facultad de Economa, Escuela de Estadstica, Universidad de Los Andes, Mrida, Venezuela. Facultad de Economa, Instituto de Estadstica Aplicada y Computacin, Universidad de Los Andes. Recibido: 01-02-2007 Revisado: 05-03-2007 Aceptado: 12-05-2007

Nava L., Pradad S., Ajuste e interpretacin de modelos de regresin logstica con variables categricas y continuas

47 Tittle:
Adjustment and interpretation of logistic regression models with categorical and continuous variables

Abstract
A logistic regression model was fitted to establish the relation between the prevalence of clinic myocardiopathy with the variables gender, chim (a type of chewing tobacco consumption), alcohol consumption, smoking habits, seropositivity to Trypanosoma cruzi and age. The information was based on a group of 2336 persons from the state of Trujillo, Venezuela. The results of the research showed that the variables significantly related with the presence of electrocardiographic (ECG) abnormalities were gender, chim consumption, smoking and age. The best model included interactions between gender and chim consumption, and a quadratic term for age. Chim consumption and age were the variables that made significantly greater the risk of clinic myocardiopathy. We conclude also that males have a greater risk of developing this kind of abnormality. Key words: Logistic regression, generalized lineal model, Trypanosoma cruzi, cardiomyopathy, electrocardiographic anomalies.

diente y la combinacin lineal de factores de prediccin mediante una funcin adecuada del valor esperado de la misma. Un caso especial del modelo lineal generalizado es el modelo de regresin logstica, el cual se distingue del modelo de regresin lineal en que la variable respuesta es dicotmica. El modelo de regresin logstica nos permite, en este caso, estudiar la incidencia de cardiomiopata clsica en un grupo de pobladores del Estado Trujillo. Ilustramos el procedimiento para ajustar el mejor modelo de regresin logstica a los datos, determinar la importancia de las variables independientes bajo estudio en la prevalencia de anormalidades electrocardiogrficas, as como la forma de interpretar los resultados.

Los datos Introduccin


El modelo lineal generalizado propuesto inicialmente por Nelder y Wedderburn en 1972, es una extensin o generalizacin del modelo lineal clsico. Entre otras cosas, ofrece una mayor variedad de distribuciones para la variable respuesta, es decir, posibilita el ajuste de un modelo con diferentes distribuciones sin necesidad de realizar modificaciones en los datos. Adems, permite establecer una relacin entre la variable depenVarias investigaciones clnicoepidemiolgicas han sido realizadas por el Laboratorio Multidisciplinario de Investigacin Clnico-Epidemiolgicas de la Facultad de Medicina, coordinado por Daro Novoa M., en comunidades rurales del Estado Trujillo con diversos ndices de infestacin por chipo (triatomino) y con distintas tasas de prevalencia de seropositividad a Trypanosoma cruzi. Estos estudios fueron realizados entre 1978 y 1989, unos han sido publicados y otros estn en proceso.

Univ. Md. Bogot (Colombia), 49 (1): 46-57, enero-marzo de 2008

48

La informacin analizada en este proyecto se refiere a un estudio de prevalencia (1986-1987) de cardiomiopata clnica, realizado en un grupo de 2.336 habitantes del Estado Trujillo. A este conjunto de individuos se les registr, entre otras, las variables de sexo (masculino, femenino), consumo de chim (no, s), consumo de alcohol (no, s), fuma (s, no), seropositividad a Trypanosoma cruzi (positiva, negativa) y edad.

que incluye slo el intercepto). Este resultado se muestra en la tabla 1. En segundo lugar, se efectu la evaluacin de cada uno de los factores cualitativos de inters en el estudio y se construy la tabla 2. Tenemos, pues, que la tabla 2 presenta el deviance de cada modelo unifactorial y el efecto global de cada uno de estos factores. Este efecto global resulta de la diferencia entre las desviaciones ( deviance ) del modelo nulo y el de cada modelo de un factor. Debe sealarse, al comparar los resultados mostrados en la tabla 2 con

Resultados
Inicialmente se calcul el deviance asociado con el modelo nulo (modelo

Tabla 1 Clculo del deviance para el modelo nulo Estadsticos de Bondad de Ajuste Deviance y Pearson

Criterio Deviance Pearson

GL 28 28

Valor 247.7866 244.2682

Valor/GL 8.8495 8.7239

Pr > ChiSq <.0001 <.0001

GL: Grados de Libertad. Pr: Probabilidad. Chisq: Chi-Cuadrado.

Tabla 2 Clculo de deviance y efecto global para los modelos de un factor

Modelo Nulo Sexo Comechimo Fuma Toma Resultad

Deviance 247,7866 75,4344 202,0885 240,5551 229,8772 238,7436

GL 28 27 27 27 27 27

Efecto global 172,3522* 45,6981* 7,2315* 17,9094* 9,043*

GL 1 1 1 1 1

*Significativo al 5%. GL: Grados de Libertad.

Nava L., Pradad S., Ajuste e interpretacin de modelos de regresin logstica con variables categricas y continuas

49

c21;0.05 = 3.84146, que todos los efectos globales resultan significativos a un nivel de significacin del 5%. Por consiguiente, se considera apropiado correr un modelo aditivo que incluya los cinco factores cualitativos anteriormente evaluados. Los resultados obtenidos al ajustar este modelo se presentan en la tabla 3 y se puede observar que el modelo se ajusta a los datos (p=0,1005). Cabe considerar, por otra parte, que a un nivel del 5% todos los factores, excepto Toma (p=0,3879), resultan estads-

ticamente significativos. Este resultado es confirmado al utilizar el procedimiento de seleccin de variables hacia adelante; el mismo considera que el modelo debe incluir las variables sexo, come chim, fuma y resultado.

Inclusin de la variable edad


El anlisis precedente consider slo las variables cualitativas. Sin embargo, una variable cuantitativa que, por lo general, resulta de inters, es la variable edad; por lo tanto, debe ser incluida en nuestra construccin. Dado

Tabla 3 Ajuste de modelo aditivo

Criterio GL Deviance 23 Pearson 23 Number of unique profiles: Test Likelihood Ratio Score Wald Parmetro Intercept SEXO Comechimo FUMAACTU Toma RESULTAD

Valor 31.9818 30.9851 29 Chi-Square GL 215.8048 214.2951 200.7542 GL 1 1 1 1 1 1 Estimacin -1.2122 1.1911 0.4421 -0.4167 -0.1056 0.2718 Pr > 5 5 5 E.E. 0.0720 0.1027 0.1002 0.1132 0.1223 0.1370

Valor/GL 1.3905 1.3472

Pr > ChiSq 0.1005 0.1232

Contraste de la hiptesis nula global: BETA=0 ChiSq <.0001 <.0001 <.0001 ChiSq 283.0820 134.4210 19.4504 13.5436 0.7455 3.9368 Pr > ChiSq <.0001 <.0001 <.0001 0.0002 0.3879 0.0472

Anlisis de las estimaciones mximo verosmil

1 2 1 1 1

GL: Grados de Libertad. E.E. Error estndar. Pr: Probabilidad. Chisq: Chi-Cuadrado.

Univ. Md. Bogot (Colombia), 49 (1): 46-57, enero-marzo de 2008

50

que edad es cuantitativa, ella produce problemas en el cumplimiento del requisito de la disponibilidad de 10 observaciones por celda o, combinacin de niveles. Es claro, entonces, que esta variable no puede ser incorporada al modelo en la forma usual. Una forma diferente de lo usual sera la incorporacin de esta variable a travs de la construccin de grupos de edades, es decir, creando categoras de edades. Otra forma es mediante el uso del procedimiento propuesto por Stokes, Davis y Koch[4]. Este procedimiento consiste en seguir tres estrategias, las cuales deben coincidir en el modelo ideal. La estrategia 1 consiste en ajustar dos modelos; un primer modelo que incluye slo los factores cualitativos y un segundo modelo, que es el primero expandido por la variable cuantitativa. Tenemos pues que, al comparar estos modelos, evaluando la diferencia entre sus deviances, mostrados en la tabla 4, 1109.4104-1106.7611=2.6493, podemos concluir que el aporte de la variable edad no es significativo. Esta tabla tambin nos muestra el anlisis de las estimaciones de mximo verosmil. Podemos observar aqu que las variables toma, edad y resultado, no son estadsticamente significativas. Ahora bien, en la estrategia 2 se evala la ji al cuadrado residual propuesto por Breslow y Day (1980). El

modelo propuesto es el que incluye las variables sexo, come chim, fuma y edad. Dado que p=0,2001, a un nivel de significacin del 5%, se concluye que este modelo se ajusta adecuadamente a los datos. Dentro de ese marco, la estrategia 3 consiste en el clculo del estadstico de bondad de ajuste propuesto por Hosmer y Lemeshow (1989)[5]. Al comparar el valor de este estadstico, 42.6322, con un ji al cuadrado de 8 grados de libertad, podemos observar que esta medida no apoya lo adecuado del modelo para estos datos. Resulta, claro, una inconsistencia en los resultados obtenidos mediante las tres estrategias, es decir, no hay coincidencia en el modelo ideal.

Inclusin del trmino cuadrtico de la variable edad


Dada la importancia que representa la variable edad en esta investigacin y debido a los resultados obtenidos en la sesin anterior, se decidi incorporar al anlisis un trmino cuadrtico (edad 2) de esta variable al modelo. En la tabla 5 se muestran los resultados obtenidos al incorporar el trmino cuadrtico al modelo. El modelo no ajusta a los datos (p<0,001). Obsrvese que ahora la variable edad resulta significativa, mientras que las variables toma y resultado, se mantienen como no significativas.

Nava L., Pradad S., Ajuste e interpretacin de modelos de regresin logstica con variables categricas y continuas

51
Tabla 4 Ajuste de Modelo incluyendo la variable Edad

Estadsticos de Bondad de Ajuste Deviance y Pearson Criterio GL Valor Valor/GL Pr > ChiSq Deviance 827 1109.4104 1.3415 <.0001 Pearson 827 908.8145 1.0989 0.0247 Estadsticos de bondad de ajuste Deviance y Pearson Criterio GL Valor Valor/GL Pr > ChiSq Deviance 826 1106.7611 1.3399 <.0001 Pearson 826 903.2268 1.0935 0.0314 Contraste de la hiptesis nula global: BETA=0 Test Chi-Square GL Pr > ChiSq Likelihood Ratio 218.4542 6 <.0001 Score 216.7855 6 <.0001 Wald 202.6436 6 <.0001 Analysis of Maximum Likelihood estimates Parmetro GL Estimacin E.E. ChiSq Pr > ChiSq Intercept 1 -1.3633 0.1181 133.2993 <.0001 SEXO 1 1 1.1918 0.1028 134.2673 <.0001 Comechimo 2 1 0.3853 0.1061 13.1816 0.0003 Fumaactu 1 1 -0.4132 0.1132 13.3182 0.0003 toma 1 1 -0.0975 0.1225 0.6339 0.4259 Edad 1 0.00456 0.00280 2.6556 0.1032 Resultad 1 1 0.2205 0.1406 2.4596 0.1168
GL: Grados de Libertad. E.E. Error estndar. Pr: Probabilidad. Chisq: Chi-Cuadrado.

En la tabla 6 se muestran los resultados obtenidos al seguir el procedimiento de las tres estrategias planteado en la sesin anterior, incluyendo el trmino cuadrtico para la variable edad. El modelo no se ajusta a los datos (p<0,001). Obsrvese que ahora la variable edad resulta significativa,

mientras que las variables toma y resultado, se mantienen como no significativas. Por consiguiente, podemos indicar que el modelo propuesto es Log it ( ijk ) = 0.094 + 1.121 sexo +0.427 comechimo 0.323 fumaactu 0.070edad + 0.00087edad 2

Univ. Md. Bogot (Colombia), 49 (1): 46-57, enero-marzo de 2008

52

Tabla 5 Ajuste de modelo incluyendo el trmino Cuadrtico para la variable Edad

Estadsticos de bondad de ajuste Deviance y Pearson Criterio GL Valor Valor/GL Pr > ChiSq Deviance 825 1069.6080 1.2965 <.0001 Pearson 825 882.9096 1.0702 0.0793 Contraste de la hiptesis nula global: BETA=0 Test Chi-Square GL Pr > ChiSq Likelihood Ratio 255.6073 7 <.0001 Score 252.8066 7 <.0001 Wald 229.0238 7 <.0001 Analysis of maximum Likelihood estimates Parmetro GL Estimacin E.E. ChiSq Pr > ChiSq Intercept 1 -0.0665 0.2412 0.0760 0.7828 SEXO 1 1 1.1206 0.1040 116.0274 <.0001 Comechimo 2 1 0.4096 0.1077 14.4639 0.0001 Fumaactu 1 1 -0.3223 0.1151 7.8333 0.0051 toma 1 1 0.00803 0.1244 0.0042 0.9485 Edad 1 -0.0715 0.0129 30.7440 <.0001 Edad 2 1 0.000884 0.000147 36.1823 <.0001 Resultad 1 1 0.2556 0.1432 3.1870 0.0742
GL: Grados de Libertad. E.E. Error estndar Pr: Probabilidad. Chisq: Chi-Cuadrado

Tabla 6 Ajuste de modelo incluyendo el trmino Cuadrtico para la variable Edad usando las tres estrategias Contraste de la hiptesis nula global: BETA=0

Test Likelihood Ratio Score Wald

Chi-Square 252.4506 249.8648 226.7564

GL 5 5 5

Pr > ChiSq <.0001 <.0001 <.0001

Nava L., Pradad S., Ajuste e interpretacin de modelos de regresin logstica con variables categricas y continuas

53

Anlisis de las estimaciones mximo verosmil

Parmetro Intercept SEXO 1 Comechimo 2 FUMAACTU 1 EDAD EDAD 2 Chi-Square 3.1957

GL 1 1 1 1 1 1

Estimacin -0.0937 1.1212 0.4266 -0.3227 -0.0695 0.000874 GL 2

E.E. 0.2395 0.0940 0.1071 0.1127 0.0127 0.000145

ChiSq 0.1532 142.3389 15.8683 8.1943 29.8656 36.2290

Pr > ChiSq 0.6955 <.0001 <.0001 0.0042 <.0001 <.0001

Test residual chi-cuadrado

Pr > ChiSq 0.2023 ekg1 = 2 Observado Esperado 193 195.57 192 190.97 187 183.02 182 181.32 179 169.96 154 158.36 145 137.73 111 127.29 104 114.72 86 74.07

Particin para el test de Hosmer y Lemeshow

Grupo 1 2 3 4 5 6 7 8 9 10 Chi-Square GL 13.0244 8

Total 233 236 231 238 233 234 234 240 246 211

ekg1 = 1 Observado Esperado 40 37.43 44 45.03 44 47.98 56 56.68 54 63.04 80 75.64 89 96.27 129 112.71 142 131.28 125 136.93

Test de bondad de ajuste de Hosmer y Lemeshow

Pr > ChiSq 0.1110

GL: Grados de libertad. E.E. Error estndar Pr: Probabilidad. Chisq: Chi-cuadrado

Comparando los deviances de los modelos lineal y cuadrtico en la variable edad, 1106.7611-1069.6080 =37.1531, podemos indicar que este trmino es significativo.

Un modelo con interaccin


Con base en el resultado obtenido en la sesin anterior, se propone el

estudio de un modelo que considere las interacciones entre los factores cualitativos, es decir, un modelo que considere las interacciones dobles entre los factores sexo, come chim y fuma actualmente, as como su interaccin triple. Mediante el uso del SAS, se obtienen los resultados mostrados en la tabla 7.

Univ. Md. Bogot (Colombia), 49 (1): 46-57, enero-marzo de 2008

54

Tabla 7 Ajuste de modelo con interaccin Contraste de la hiptesis nula global: BETA=0

Test Likelihood ratio Score Wald Parmetro GL Intercept 1 Sexo 1 1 Comechimo 2 1 Fumaactu 1 1 Sexo*Comechimo 1 2 1 Edad 1 Edad 2 1

Chi-Square 260.0263 254.8781 232.3186 Estimacin -0.1614 1.2969 0.7119 -0.3018 -0.5466 -0.0699 0.000875

GL 6 6 6 Error Chi-Square 0.2418 0.4454 0.1140 129.3352 0.1476 23.2673 0.1128 7.1536 0.1979 7.6317 0.0128 30.0554 0.000145 36.2049 95% Wald Confidence 0.593 0.909 1.001 Pr > ChiSq 0.5833

Pr > ChiSq <.0001 <.0001 <.0001 Pr > ChiSq 0.5045 <.0001 <.0001 0.0075 0.0057 <.0001 <.0001

Anlisis de las estimaciones mximo verosmil

Estimaciones de las razones de posibilidades3

Effect Fumaactu 1 vs 2 Edad Edad 2 Chi-Square 1.9477 Paso 1 2 3 4 5 6

Point Estimacin 0.740 0.932 1.001 GL 3 GL 1 1 1 1 1 1 In 1 2 3 4 5 6

Limits 0.923 0.956 1.001

Test residual chi-cuadrado

Resumen de la seleccin hacia delante

Efecto Entrante Sexo Edad2 Edad Comechimo Sexo*Comechimo Fumaactu GL 8

ChiSq 173.5261 25.1850 31.6636 15.4864 8.7434 7.1774

Pr > ChiSq <.0001 <.0001 <.0001 <.0001 0.0031 0.0074

Etiqueta Sexo Edad2 Edad

umaactu

Test de bondad de ajuste de Hosmer y Lemeshow

Chi-Square 7.8173

Pr > 0.4515

ChiSq

GL: Grados de libertad. E.E. Error estndar Pr: Probabilidad. Chisq: Chi-Cuadrado 3 Razn de posibilidades es la traduccin del trmino Odds Ratio, el cual no tiene traduccin directa en castellano. Odds indica P/(1-P), donde P representa la probabilidad de un evento de inters.

Nava L., Pradad S., Ajuste e interpretacin de modelos de regresin logstica con variables categricas y continuas

55

El procedimiento de seleccin de variables hacia adelante propone como modelo apropiado aqul que involucra las variables sexo, come chim, fuma actualmente, los trminos lineal y cuadrtico de edad y la interaccin sexo*come chim. Esto es, el modelo a considerar est dado por Log it ( ijk ) = 0.161 + 1.297 sexo+0.712 comechimo 0.302 fumaactu 0.547sexo*comechimo 0.070edad + 0.000 8 7edad 2 Ahora bien, lo adecuado de este modelo a los datos es sustentado por la prueba ji al cuadrado residual (p=0,5833) comparado con un ji al cuadrado de tres grados de libertad y la prueba de bondad de ajuste de Hosmer y Lemeshow (p=0,4515) comparado con una ji al cuadrado de ocho grados de libertad. Por lo tanto, este modelo representa el modelo definitivo.

lo apropiado. El valor 0,3018 (e-0.3018 = 0.7395) asociado con la variable fuma actualmente, indica que el no fumar disminuye la posibilidad de tener problemas electrocardiogrficos en un 26,05%. Dado que la interaccin sexo*come chim result significativa, carece de sentido interpretar los coeficientes de sexo y come chim por separado. La forma de actuar es comparar los niveles de una variable manteniendo constante la otra en un nivel determinado. De esta forma, se tiene que: En el grupo de individuos que no consumen chim, los hombres tienen casi cuatro veces ( e 1.2969 = 3.658) ms posibilidades de presentar problemas electrocardiogrficos que las mujeres. En el grupo de individuos que consumen chim, las posibilidades de que los hombres presenten problemas electrocardiogrficos se incrementa en un 111,76% (e1.29690.5466 = 2.1176) con respecto a las de las mujeres. Esto es, las posibilidades de que un hombre presente problemas electrocardiogrficos es ms de dos veces de las posibilidades que las presente una mujer. En el grupo de las mujeres, el consumir chim incrementa en un 103,4% (e0.7119 = 2.034) las posibilidades de tener problemas electrocardiogrficos. En el grupo de los hombres, el consumo de chim incrementa las

Interpretacin de los coeficientes del modelo


Para interpretar los resultados obtenidos es necesario indicar que los niveles sexo=femenino, come chim=no y fuma actualmente=no, representan los niveles de referencia usados para las variables cualitativas. Comenzaremos con la interpretacin de los coeficientes de aquellas variables cualitativas que no estn involucradas en la interaccin, como es

Univ. Md. Bogot (Colombia), 49 (1): 46-57, enero-marzo de 2008

56

posibilidades de presentar alteraciones electrocardiogrficas en un 17,98% ( e0.7119-0.5466 = 1.1798). Para interpretar los coeficientes relacionados con la edad, debemos usar un mecanismo que permita medir el cambio que ocurre en los logit o en las posibilidades, por cada unidad en la que se incrementa la edad. Una forma es derivando, otra forma es obteniendo el cociente entre las posibilidades en edad y edad+1. Esta segunda resulta, por lo general, ms sencilla. En nuestro caso este cociente es equivalente a:
e log it (ijk)
= e0.0699 + 0.000875 + 2*0.00087edad = e0.069025 + 0.001edad

3. Entre los hombres, el grupo con mayores posibilidades de presentar cardiomiopata clnica es el que consume chim: 17,98% ms que los que no consumen chim. 4. El consumo de chim afecta en mayor grado a las mujeres que a los hombres. 5. Las posibilidades de presentar problemas electrocardiogrficos es una funcin creciente de la edad. 6. El consumo de chim, la edad y el sexo son variables de gran importancia en la explicacin de la presencia de cardiomiopata clnica, mientras que el consumo de alcohol y la seropositividad a Trypanosoma cruzi son irrelevantes.

e log it (ijk)

Podemos ver, entonces, que las posibilidades de presentar problemas electrocardiogrficos es una funcin creciente de la edad, es decir, a medida que se incrementa la edad, mayor es esa posibilidad.

Bibliografa
1. Dumett MA. Modelos lineales generalizados. Bogot: Universidad Nacional de Colombia, Departamento de Matemticas y Estadstica; (1995). Hosmer DW, Lemeshow S. Applied logistic regression . Second edition. New York: John Wiley & Sons; 2000. Lpez LA, Rincn LF. Modelo lineal. Bogot: Universidad Nacional de Colombia, Departamento de Matemticas y Estadstica; 1999. Rodrguez G. Generalized lnear models . Princeton: Princeton University; 2002.

2.

Conclusiones
1. El fumar incrementa las posibilidades de presentar anormalidades electrocardiogrficas en un 26,1%. 2. El hombre tiene ms posibilidades que la mujer de presentar cardiomiopata clnica.
3.

4.

Nava L., Pradad S., Ajuste e interpretacin de modelos de regresin logstica con variables categricas y continuas

57
5. Solomon PR. Gua para redactar informes de investigacin. Mxico: Editorial Trillas; 1998. 6. Stokes ME, Davis CS, Koch GG. Categorical data analysis using the SAS system. Cary, N.C.: SAS Institute, U.S.A.; 2000.

Univ. Md. Bogot (Colombia), 49 (1): 46-57, enero-marzo de 2008

S-ar putea să vă placă și