Documente Academic
Documente Profesional
Documente Cultură
MODELIZACIÓN
ESTADÍSTICA BÁSICA CON
DEDUCER
Manual de Introducción a la
Modelización Estadística Básica con Deducer
______________________________________________________________________
Este documento puede ser copiado y libremente distribuido, siempre y cuando sea
preservada su integridad, referenciado su origen y comunicado su uso al Servei
d’Estadística Aplicada de la UAB. No está permitido añadir, borrar o cambiar ninguna de
sus partes, o extraer páginas para su uso en otros documentos.
______________________________________________________________________
______________________________________________________________________
CONTENIDOS
1 PRESENTACIÓN ............................................................................................... 6
2 MODELO DE REGRESIÓN LINEAL .............................................................. 7
2.1 Introducción ......................................................................................................................... 7
2.2 Inferencia en regresión lineal simple............................................................................... 13
2.3 Descomposición de la variabilidad.................................................................................. 14
2.4 Análisis de los residuos ..................................................................................................... 16
2.5 Transformaciones .............................................................................................................. 21
2.6 Modelo de regresión lineal múltiple ................................................................................ 22
2.7 Colinealidad ........................................................................................................................ 24
3 MODELO ANOVA ............................................................................................ 26
3.1 Introducción al modelo ANOVA ................................................................................... 26
3.2 Estimación de parámetros ................................................................................................ 28
3.3 Estimación de medias e IC............................................................................................... 29
3.4 Comparaciones 2 a 2 ......................................................................................................... 29
3.5 Ajuste por multiplicidad de contrastes ........................................................................... 30
3.6 Validación del modelo ...................................................................................................... 32
3.7 ANOVA de dos factores .................................................................................................. 32
3.8 Interacciones ...................................................................................................................... 33
4 MODELO LINEAL GENERAL (GLM) .......................................................... 36
4.1 Introducción al GLM ........................................................................................................ 36
4.2 Sumas de cuadrados .......................................................................................................... 40
4.3 Estimación de parámetros ................................................................................................ 44
4.4 Validación del modelo ...................................................................................................... 45
4.5 Otros conceptos ................................................................................................................ 46
4.6 Metodología GLM............................................................................................................. 47
5 MODELO DE REGRESIÓN LOGÍSTICA...................................................... 48
5.1 Introducción ....................................................................................................................... 48
5.2 Modelo de regresión logística .......................................................................................... 48
5.3 Ajuste del modelo .............................................................................................................. 52
5.4 Interpretación de los coeficientes ................................................................................... 54
5.5 Bondad del ajuste del modelo .......................................................................................... 58
6 BIBLIOGRAFÍA .................................................................................................61
______________________________________________________________________
1 PRESENTACIÓN
http://www.deducer.org
Este manual de “Modelización Estadística Básica con Deducer” pretende ser una primera
aproximación a la aplicación genérica de técnicas de modelización estadística empleando el
programa Deducer. Este manual sólo trata aquellas técnicas más comunes, repasando los
conceptos teóricos relacionados con las mismas. Es necesario disponer de ciertos
conocimientos previos de Deducer para leer, gestionar y resumir datos, aunque además es
útil haber tenido contacto previo con R y su lenguaje de programación. En cierto sentido,
este manual constituye una continuación al manual “Introducción a la Estadística Básica con
Deducer” del Servei d’Estadística Aplicada de la UAB.
______________________________________________________________________
2.1 Introducción
El modelo de regresión lineal simple es un método estadístico para evaluar la relación entre
dos variables cuantitativas: la variable respuesta (o dependiente) y la variable explicativa (o
independiente).
Yi = β 0 + β1 X i + ε i
donde,
Y: variable respuesta
X: variable explicativa
β 0 : término independiente. Representa el valor esperado de Y cuando X=0
β 1 : pendiente de la recta. Representa el cambio esperado en Y cuando X varía en una
unidad
ε i corresponde a la perturbación aleatoria no explicada (se asume ε i ~ N (0, σ 2 )
ei = yi − yˆi
______________________________________________________________________
El método de Mínimos Cuadrados Ordinarios (MCO u OLS, siglas en inglés) tiene como
objetivo encontrar una estimación de los parámetros β 0 y β 1 de manera que se minimice las
distancias entre los puntos y la recta:
N 2
Min ∑ (Yi − β 0 − β1 X i )
β 0 , β1
i =1
Los estimadores mínimos cuadrados son los mejores que se pueden conseguir (insesgados,
eficientes y consistentes) si se cumplen las hipótesis sobre los errores.
N
∧ ∑(X i − X )(Yi − Y ) ∧ ∧
β1 = β 0 = Y − β1 X
sxy
Yˆi = βˆ 0 + βˆ 1 Xi i =1
N
=
∑(X
sxx
i − X )2
i =1
______________________________________________________________________
cov( X , Y )
ρ X ,Y =
σ XσY
______________________________________________________________________
Pearson's correlation
Dias
Edad cor 0.2731
N 325
CI* (0.1693,0.3709)
stat** 5.102 (323)
p-value 0.0000
-----------
** t (df)
* 95% percent interval
HA: two.sided
______________________________________________________________________
La siguiente ventana que aparece permite personalizar las variables explicativas que se
incluirán en el modelo (Regression Model Builder). Podemos simplemente comprobar
qué modelo es el propuesto y Continuar:
______________________________________________________________________
1 DeducerRichOutput es un paquete que permite obtener los resultados en formato html. Se instala con la
siguiente instrucción: install.packages("DeducerRichOutput", repos="http://R-Forge.R-
project.org").
______________________________________________________________________
H0: β 0 = 0 H0: β 1 = 0
H1: β 0 ≠ 0 H1: β 1 ≠ 0
______________________________________________________________________
SST = ∑ (Yi − Y )
2
( )
donde SSR = ∑ Yˆi − Y , SSE = ∑ Yi − Yˆi y
2 2
( )
i i
______________________________________________________________________
Ejemplo:
El coeficiente de determinación:
Estimador de σ2:
______________________________________________________________________
Tipos de residuos:
o No tipificados. Diferencia entre un valor observado y el valor pronosticado por el
modelo. Proporciona el residuo bruto: ei = Yi − Yˆi
o Tipificados (de Pearson o estandarizados). El residuo dividido por una estimación
de su error típico. De este modo tienen una media de 0 y una desviación típica de 1.
o Estudentizados. Residuo dividido por una estimación de su desviación típica que
varía de caso en caso, dependiendo de la distancia entre el valor de la variable
independiente y su media.
El estudio de los residuos se realiza básicamente a partir del diagrama de dispersión entre
los valores residuales y los valores predichos, representando las parejas de puntos: ( ei , Yˆi )
______________________________________________________________________
La conclusión es que el modelo subyacente no es realmente lineal y por lo tanto está mal
especificado. En realidad el modelo es cuadrático. Gráficos de residuos similares (o
invertidos) se obtendrían si el modelo subyacente fuera cúbico, de otro orden de potencia,
exponencial o logarítmico.
Caso 2: Heterocedasticidad
La conclusión es que el modelo subyacente aunque sea lineal está mal especificado. Sería
necesario estudiar la naturaleza de los datos. A veces es suficiente realizar algún tipo de
transformación a la variable respuesta con el objetivo de estabilizar la variabilidad del error
(logaritmos, raíz cuadrada). Gráficos similares se obtienen cuando la variable respuesta es
en realidad un conteo, un porcentaje o el tiempo transcurrido hasta cierto evento. Tales
variables respuesta suelen provocar residuos no normales.
______________________________________________________________________
Caso 3: Outliers
El modelo de regresión lineal no sería válido. Sin embargo, se puede buscar una
interpretación alternativa, ya que de hecho, se observan dos poblaciones distintas. Si estas
dos poblaciones pueden ser identificadas por una tercera variable, esto indicaría que el
modelo no está bien especificado ya que omite dicha variable. El modelo de regresión lineal
sería válido si se incluye esta tercera variable en el modelo.
Existen otras situaciones distintas en que se puede intuir el origen del incumplimiento de
las suposiciones, pero son más inusuales.
Como regla general para validar el modelo de regresión mediante el estudio de los residuos
es recomendable asegurarse de que no hay ningún tipo de patrón en el gráfico de Residuos
vs. Predicciones y comprobar cada una de las suposiciones del modelo:
El análisis de los residuos se puede hacer a partir de los resultados que aparecen en la
pestaña Diagnostics:
______________________________________________________________________
También se pueden guardar como variables los residuos desde la pestaña Export.
Valores influyentes
Todos los estadísticos pueden ser seriamente distorsionados por un único valor incorrecto.
Los valores influyentes son valores que tienen un peso relevante en el modelo resultante, y
la eliminación de estos provoca cambios sensibles en los coeficientes. Por este motivo, es
necesario comprobar la validez de la observación en cuestión.
Pueden detectarse estudiando los residuos de cada observación, o bien a partir del gráfico
de la distancia de Cook.
Diagrama Scale-Location: este diagrama representa la raíz cuadrada del valor absoluto de
los residuos del modelo y permite validar la hipótesis de homocedasticidad.
______________________________________________________________________
2.5 Transformaciones
La hipótesis básica del modelo de regresión lineal simple es que la relación entre X e Y es
lineal, pero en muchos casos en el gráfico de la variable respuesta frente a la variable
explicativa puede verse que la relación no es de otra naturaleza.
A pesar de ello, el modelo de regresión lineal continúa siendo válido en muchas situaciones
porque la relación puede convertirse en lineal por medio de una transformación simple en
la variable respuesta Y (trabajando con log(Y), 1/Y, √Y... ), o en la variable explicativa, X, o
en ambas.
Trans X Trans Y
______________________________________________________________________
Yi = β 0 + β1 X i1 + β 2 X i 2 + ... + β k X ik ε i
Y variable respuesta
X j variables explicativas, j = 1, … , k
β 0 término independiente. Representa el valor esperado de Y cuando todas las variables
explicativas son 0
β j coeficiente de regresión de la variable j-ésima Representa el cambio esperado en Y
cuando X j varía en una unidad
ε corresponde a la perturbación aleatoria no explicada (se asume, ε i ~ N (0, σ 2 ))
El objetivo del modelo de regresión es poder estimar los parámetros β 0 , β 1 ,…, β k y σ2, que
representa la variación de ε.
Al aplicar esta técnica se asume que se cumplen los mismos criterios que en el caso de la
regresión simple.
El coeficiente de determinación:
Ahora, R2 mide la explicación conjunta conseguida con todas las variables independientes
introducidas en el modelo de regresión. No existe un criterio definido para decidir si el
valor observado de R2 es grande o pequeño; depende del contexto del estudio.
______________________________________________________________________
R2 corregido: Si se introduce una nueva variable en el modelo, R2 siempre aumenta (ya que
se consigue explicar algo más, aunque sea muy poco). De la misma manera, al quitar una
variable R2 siempre disminuye. Como nos interesa saber si es conveniente introducir/quitar
una variable en el modelo, se ajusta R2 según los grados de libertad (el número de variables
consideradas en el modelo):
2 k −1
R = R2 − (1 − R 2 )
n−k
2
De esta manera, un aumento en R indica que el modelo ha mejorado al añadir/quitar una
variable.
Tabla ANOVA:
Como en el caso del modelo de Regresión Lineal Simple, se resumen los cálculos en la tabla
ANOVA:
______________________________________________________________________
2.7 Colinealidad
Cuando se desee interpretar y comparar los diferentes coeficientes del modelo, es necesario
que las variables independientes no estén correlacionadas entre sí. En tal caso, el efecto de
cada variable viene dado directamente por su coeficiente. En caso contrario, no será fácil
interpretar el modelo.
Tolerancia = 1 / FIV
De este modo, una variable explicativa con un valor FIV elevado indicaría que está
altamente explicada por el resto de variables predictivas y por lo tanto una situación
incorrecta.
Un criterio habitual para declarar que el valor FIV j (FIV asociada a la variable j-ésima del
modelo) es elevado es comparar con el término:
FIV j = 1/(1-R2)
Efectos de la colinealidad:
______________________________________________________________________
Niveles de colinealidad:
No hay criterios claros para determinar si un índice FIV es elevado o no. No obstante
algunas referencias podrían ser:
0,1 < Toler < 0,3 10 > FIV > 3,33 Elevada
Ejemplo:
______________________________________________________________________
3 MODELO ANOVA
______________________________________________________________________
Tabla ANOVA:
Como en los modelos de regresión anteriores, se resumen los cálculos en la tabla ANOVA:
______________________________________________________________________
Variable
V1 (A) V2 (B) V3 (C)
original
A 1 0 0
B 0 1 0
A 1 0 0
C 0 0 1
A 1 0 0
B 0 1 0
A 1 0 0
C 0 0 1
Se debe eliminar una variable cuya categoría actuará como categoría de referencia, por
ejemplo, la categoría C (V3).
De este modo, incluir en el modelo una variable categórica con tres categorías es
equivalente a incluir las variables indicadoras V1 y V2.
Y = β 0 + β1V1 + β 2V2 + ε
Ejemplo:
______________________________________________________________________
3.4 Comparaciones 2 a 2
Muchas veces el interés real del estudio reside en saber qué medias difieren entre sí después
de realizar la prueba ANOVA. Las comparaciones se realizan mediante sucesivas pruebas t
comparando todos los posibles pares de medias 2 a 2. Cada una de estas pruebas utiliza la
estimación de la variabilidad conjunta proporcionada por el modelo con todos los grupos,
mejorando así el resultado de los contrastes independientes.
______________________________________________________________________
Existen diversos métodos para ajustar este tipo de error y conseguir que efectivamente el
error conjunto no sea superior al 5%.
Existen otros métodos para controlar el error de cada comparación, entre ellos la
corrección de Scheffé (Scheffé, 1953) y el método HSD (Honestly Significant Difference)
de Tukey (Tukey, 1953), el más adecuado cuando se desea realizar todas las posibles
comparaciones por parejas de grupos.
______________________________________________________________________
Cuando todas las diferencias que se quieren estudiar son respecto a un mismo grupo
control, es habitual realizar el ajuste de Dunnett (Dunnett, 1955). También existen
métodos de comparación de grupos de medias que permiten detectar grupos homogéneos
de medias cómo el ajuste de Duncan y la corrección SNK (Student-Newman-Keuls), que
son adecuados cuando los grupos están equilibrados y el interés reside en obtener una
comparación global.
Puede darse la situación que la prueba ANOVA no permita concluir diferencias entre
grupos y sin embargo se detecten diferencias en las comparaciones múltiples. Normalmente
esta situación es provocada por la consideración de demasiados grupos.
______________________________________________________________________
Para estudiar la validez del modelo es necesario confirmar estas hipótesis mediante el
estudio de los residuos (valores predichos - valores observados): normalidad, tendencias,
etc. y la realización de un contraste de homocedasticidad (homogeneidad de varianzas entre
los grupos, es decir variabilidad común).
En caso de que las varianzas no sean iguales podemos seleccionar la opción Robust to:
Unequal Variance del botón Options.
______________________________________________________________________
Tabla ANOVA:
La tabla ANOVA se actualiza para añadir una nueva fila de información correspondiente al
factor secundario.
3.8 Interacciones
La interacción entre dos variables se produce cuando el efecto en la respuesta de una de
ellas depende de los niveles de la otra.
______________________________________________________________________
______________________________________________________________________
Se puede calcular el efecto de la variable “Factores de riesgo” en cada uno de los grupos de
edad. Para ello se debe instalar el paquete phia, cargarlo desde el menú Package Manager
y utilizar la función: testInteractions(model, fixed=, across=):
______________________________________________________________________
o Regresión simple
o Regresión múltiple
o Análisis de la varianza (especialmente para datos no equilibrados)
o Análisis de la covarianza
o Regresión y ANOVA simultáneamente
o Existe una relación lineal entre las variables explicativas y la variable respuesta:
Y = β 0 + β 1 X 1 + β 2 X 2 + ... + β k X k + ε
o El modelo está bien especificado (no falta ninguna variable importante).
o ε ij ~ N (0, σ 2 ) son independientes entre sí.
______________________________________________________________________
______________________________________________________________________
Resultados:
______________________________________________________________________
Resultados:
Interacción:
______________________________________________________________________
______________________________________________________________________
DISEÑO NO EQUILIBRADO
(SIN INTERACCIONES)
______________________________________________________________________
DISEÑO NO EQUILIBRADO
(CON INTERACCIONES)
Observación: En Deducer se utiliza las SS tipo II. Se calculan igual que las de tipo
III pero sin tener en cuenta las interacciones.
______________________________________________________________________
En la tabla ANOVA del modelo GLM aparecen todas las fuentes de variabilidad
consideradas.
En las SS3, el contraste presentado para cada variable corresponde a: “La variable aporta
información al modelo teniendo en cuenta que el resto de variables ya están incluidas”.
Esto equivale a pensar que tras eliminar el efecto de las variables complementarias, se
evalúa la contribución de la variable en cuestión.
En las SS1, el contraste presentado para cada variable corresponde a: “La variable aporta
información al modelo que incluye las variables que aparecen antes”.
El modelo GLM mide la aportación de cada variable al modelo formado por otras
variables. Por este motivo se debe distinguir entre diferentes tipologías de estudios en
función del objetivo:
La interacción mide si el efecto de una variable varía en función de los distintos niveles de
otra variable.
Ante la presencia de una interacción, los efectos principales son difíciles de interpretar.
Cuando una interacción no es significativa, debe eliminarse del modelo ya que puede
producir problemas interpretativos.
Ante la posible existencia de variables asociadas entre sí, deben realizarse pruebas previas
de COLINEALIDAD u HOMEGENEIDAD BASAL.
______________________________________________________________________
Las estimaciones de los parámetros se interpretan del mismo modo y las significaciones de
los coeficientes corresponden a la hipótesis nula habitual:
H0: β 1 = 0
H1: β 1 ≠ 0
Resultados:
______________________________________________________________________
Al igual que en el modelo de regresión, la validación del modelo ajustado suele realizarse
mediante el estudio del gráfico de los valores residuales y los valores predichos.
______________________________________________________________________
Variables ordinales
En los modelos GLM, las variables ordinales suelen ser consideradas categóricas, sin
embargo, también pueden ser consideradas continuas bajo los siguientes supuestos:
Las variables binarias (SI/NO) codificadas como (1/0) pueden ser introducidas
directamente en el modelo como variables cuantitativas, ya que la misma variable
representa la variable indicadora (dummy) asociada.
______________________________________________________________________
______________________________________________________________________
5.1 Introducción
El modelo de regresión lineal múltiple permite predecir o explicar una variable respuesta
continua a través de un conjunto de variables explicativas cuantitativas y/o categóricas.
Los modelos de regresión logística son modelos de regresión que permiten estudiar si una
variable binaria depende, o no, de otra u otras variables (no necesariamente binarias).
Ejemplos:
______________________________________________________________________
Las únicas propiedades que se deben comprobar para aplicar la técnica de regresión
logística son que la variable dependiente tome exactamente dos valores y que el modelo
esté bien especificado.
Si el interés recae en estudiar la relación entre aprobar un examen y las horas de estudio,
podríamos establecer:
P(aprobar) = β 0 + β1horas_de_estudio + ε
y utilizando el Deducer obtendríamos:
𝛽̂0= 0,032
𝛽̂1= 0,026
De donde se concluiría que 1 hora de estudio adicional hace aumentar en media un 2,6% la
probabilidad de aprobar.
Pero ¿cuál sería la probabilidad predicha por el modelo para alguien que ha
estudiado 100 horas?
Cabe tener en cuenta, que además de una predicción sin sentido, hay dos problemas más
sutiles en el uso de un modelo de regresión lineal para una probabilidad:
1 𝑠𝑖 é𝑥𝑖𝑡𝑜
𝑌=�
0 𝑠𝑖 𝑓𝑟𝑎𝑐𝑎𝑠𝑜
______________________________________________________________________
se desea modelizar:
𝑝 = 𝑃(𝑌 = 1/𝑋)
p = β 0 + X 1β1 + ... + X q β q
Problema: la probabilidad p está siempre restringida a valores del intervalo [0,1] y en este
modelo esta propiedad no queda garantizada.
La segunda propuesta vendría a partir de establecer un modelo para el odds, esto es, el éxito
respecto al fracaso, a partir del cociente:
𝑝
𝑜𝑑𝑑𝑠 =
1−𝑝
Cabe observar que el odds es el concepto que está detrás de muchas apuestas cuando se
habla de “la apuesta es de 2 a 4” lo que significa tener un odds de 2/4=0.5, esto es el éxito
es la mitad del fracaso.
𝑝
= 𝑒 𝛽0 +𝛽1𝑋1 +𝛽2 𝑋2+⋯+𝛽𝑞𝑋𝑞
1−𝑝
Lo que es equivalente a:
𝑝
𝑙𝑛 � � = 𝛽0 +𝛽1 𝑋1 + 𝛽2 𝑋2 + ⋯ + 𝛽𝑞 𝑋𝑞
1−𝑝
𝑒 𝛽0 +𝛽1𝑋1+𝛽2 𝑋2 +⋯+𝛽𝑞𝑋𝑞
𝑝=
1 + 𝑒 𝛽0 +𝛽1𝑋1 +𝛽2 𝑋2+⋯+𝛽𝑞𝑋𝑞
______________________________________________________________________
Una primera aproximación seria a partir del gráfico de dispersión entre las dos variables:
______________________________________________________________________
Para obtener las estimaciones de los coeficientes ( 𝛽̂ ) no es posible aplicar el método de los
mínimos cuadrados como en el modelo clásico de regresión lineal. Cuando se aplica el
método de los mínimos cuadrados ordinarios en un modelo con una variable respuesta
binaria las estimaciones así obtenidas no mantienen las propiedades deseadas.
______________________________________________________________________
𝑝
𝑙𝑛 � � = 𝛽0 +𝛽1 𝑋1 = −5,69 + 0,0856 𝐸𝑑𝑎𝑑
1−𝑝
______________________________________________________________________
El cociente entre odds de dos grupos de observaciones diferentes se llama Odds Ratio (OR).
Para una variable explicativa binaria con valores 0/1:
Y=0 Y=1
1 𝑒 𝛽0
X=0 1 − 𝑝/𝑥=0 = 1 − 𝑝/𝑥=0 =
1 + 𝑒𝛽0 1 + 𝑒𝛽0
1 𝑒 𝛽0 +𝛽1
X=1 𝑝/𝑥=1 = 𝑝/𝑥=1 =
1 + 𝑒 𝛽0 +𝛽1 1 + 𝑒𝛽0 +𝛽1
Si en el modelo se ha incluido una variable explicativa binaria X codificada con los valores
0 y 1, el correspondiente coeficiente (𝛽1) en el modelo tiene la siguiente interpretación:
OR X 1 vs X0 = e β1
y mide el cociente entre las proporciones de éxito respecto de las de fracaso de la variable
respuesta para los dos grupos definidos por la variable explicativa.
Significación de los OR
Debido a que la distribución de los OR tiende a ser bastante sesgada, y por lo tanto a pesar
de que para muestras grandes en teoría tiene una distribución normal, esta hipótesis no es
cierta para muestras pequeñas.
Por ello el cálculo de los intervalos de confianza para los OR se hace a partir de los
extremos de los intervalos para los coeficientes del modelo.
La significación de los coeficientes del modelo se mide a través del estadístico de Wald,
calculado para cada coeficiente del siguiente modo:
2
βˆi
wi =
SE βˆ
i( )
donde SE significa error estándar.
______________________________________________________________________
Este estadístico sigue una distribución Ji-Cuadrado con 1 grado de libertad si la hipótesis
nula de que el parámetro es 0 es cierta. Sin embargo, el estadístico de Wald no es
demasiado fiable si 𝑆𝐸(𝛽̂𝑖 ) es muy grande respecto a lo que puede ocurrir precisamente
para valores grandes de 𝛽̂𝑖 .
Los coeficientes obtenidos para estas variables dummy tienen una interpretación muy
interesante en forma de Odds Ratio entre categorías.
Ejemplo (continuación): Las estimaciones del modelo logístico con la variable Edad
categorizada son:
______________________________________________________________________
Con lo cual los pacientes con edades entre 60 y 67 años tienen un riesgo de reingreso 1,7
veces mayor que los pacientes con edades entre 42-59:
=e = 1,45
0 , 37
ORˆ Edad ( 60−67 ) vs Edad ( 42 −59 )
Para obtener los OR así como sus intervalos de confianza se debe instalar el paquete
epiDisplay y cargarlo desde el menú Package Manager.
Esto es:
40/78
� =
𝑂𝑅 = 1,45
29/82
67/29
� =
𝑂𝑅 = 6,53
29/82
=e = 1,089
0 , 0856
ORˆ Edad _ t vs Edat _ t +1
Por lo tanto, el riesgo de reingreso aumenta 1,089 veces con el paso de un año de edad.
______________________________________________________________________
En este caso, en Deducer para obtener los OR se realiza mediante la siguiente sintaxis que
pondremos en la parte inferior de la consola: exp(coef(model.glm)) (siendo model.glm
el nombre del modelo estimado). El resultado obtenido es:
La prueba compara la verosimilitud de los datos observados bajo un modelo nulo (sin
variables explicativas) y bajo el modelo propuesto (con las variables explicativas).
Se comparan las log-verosimilitud multiplicadas por -2. Esta diferencia sigue una
distribución Ji-Cuadrado con q grados de libertad (q es el número de variables incluidas en
el modelo) si la hipótesis nula de que el modelo propuesto es equivalente al modelo nulo es
cierta.
Coeficiente de determinación
o Coeficiente R2 de Cox-Snell
o Coeficiente R2 de Nagelkerke
library(descr)
LogRegR2(model.glm)
______________________________________________________________________
En regresión logística hay diferentes maneras de definir la diferencia entre los valores
observados de los datos y los ajustados por el modelo.
o Residuos de Pearson
o Deviance (tiene el mismo papel que la suma de los cuadrados de los residuos (SSE)
en un modelo clásico de regresión)
Test de Hosmer-Lemeshow
Es otra prueba para evaluar la bondad del ajuste de un modelo de regresión logística (grado
en que la probabilidad predicha coincide con la probabilidad observada).
Se trata de calcular para cada observación del conjunto de datos la p que predice el modelo,
agruparlas y calcular, a partir de ellas, las frecuencias esperadas, y compararlas con las
observadas mediante la prueba chi-cuadrado.
Para ello se debe instalar el paquete ResourceSelection, cargarlo desde el menú Package
Manager y utilizar la función: hoslem.test(model.glm$y, fitted(model.glm)).
Tablas de clasificación
Los resultados del ajuste de un modelo de regresión logística se pueden expresar mediante
una tabla de clasificación: la variable respuesta versus los valores de una nueva variable
binaria con valores obtenidos a partir de las probabilidades estimadas mediante el modelo
logístico.
A partir del modelo estimado, se define como pronosticado =1 cuando el valor predicho
de la probabilidad excede un valor fijado previamente (‘cutpoint’) y 0 en otro caso.
______________________________________________________________________
Observación:
• Las tablas de clasificación son apropiadas cuando el objetivo es la
clasificación y no sólo la bondad de un modelo de regresión logística.
• En la tabla de clasificación presenta la probabilidad estimada del evento
para cada una de las categorías de la variable explicativa
Curvas ROC
Una descripción más completa de la precisión de la clasificación viene dada por el área bajo
la curva ROC (Receiver Operating Characteristic curve).
Una curva ROC se obtiene mediante un gráfico de dispersión entre la sensibilidad (eje
vertical) y (1-especificidad o “falsos positivos”) en el eje horizontal, para un rango de
posibles cutpoints.
El área bajo la curva (valores de 0 a 1) es una medida de la capacidad que tiene el modelo
para discriminar entre individuos con variable respuesta = “éxito” respecto de individuos
con variable respuesta = “fracaso”.
______________________________________________________________________
Para el ejemplo del modelo anterior, el área bajo la curva (AUC) es 0,62 y la representación
gráfica de esta curva es:
______________________________________________________________________
6 BIBLIOGRAFÍA
Fellows I (2012). Deducer: An R Graphical User Interface (GUI) for Everyone. Version
2012-01-05, URL www.Deducer.org/manual.html
Jobson J. (2013). Applied Multivariate Data Analysis: Regression and Experimental Design.
Springer.
Hosmer, D.W and Lemeshow, S. (2013). Applied Logistic Regression. 3rd ed. Wiley.
Wickham H (2009). ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag, New
York.
En la siguiente página web se puede encontrar ayuda sobre ejemplos de código en R para
usuarios de R que se pueden implementar en Deducer.
www.statmethods.net
______________________________________________________________________