Manual Curso Modelización

CURSO DE
MODELIZACIÓN
ESTADÍSTICA BÁSICA CON
DEDUCER
Llorenç Badiella. Director del Servei d’Estadística Aplicada

Anabel Blasco. Asesora estadística del Servei d’Estadística Aplicada
Ester Boixadera. Asesora estadística del Servei d’Estadística Aplicada
Anna Espinal. Asesora estadística del Servei d’Estadística Aplicada
Oliver Valero. Asesor estadístico del Servei d’Estadística Aplicada
Ana Vázquez. Asesora estadística del Servei d’Estadística Aplicada
Modelización Estadística Básica con Deducer
_______________________________________________________________
Manual de Introducción a la
Servei d’Estadística Aplicada

Universitat Autònoma de Barcelona
Campus UAB - Edifici CM7

08193 Cerdanyola del Vallès
(Barcelona)
Tel. 93.581.13.47
s.estadistica@uab.es
http://serveis.uab.cat/estadistica
______________________________________________________________________
Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 2 de 61

_______________________________________________________________
Publicado por el Servei d’Estadística Aplicada de la UAB
6ª edición, Mayo 2017
Este documento puede ser copiado y libremente distribuido, siempre y cuando sea
preservada su integridad, referenciado su origen y comunicado su uso al Servei
d’Estadística Aplicada de la UAB. No está permitido añadir, borrar o cambiar ninguna de
sus partes, o extraer páginas para su uso en otros documentos.
______________________________________________________________________

_______________________________________________________________
______________________________________________________________________

_______________________________________________________________
CONTENIDOS
1 PRESENTACIÓN ............................................................................................... 6
2 MODELO DE REGRESIÓN LINEAL .............................................................. 7
2.1 Introducción ......................................................................................................................... 7
2.2 Inferencia en regresión lineal simple............................................................................... 13
2.3 Descomposición de la variabilidad.................................................................................. 14
2.4 Análisis de los residuos ..................................................................................................... 16
2.5 Transformaciones .............................................................................................................. 21
2.6 Modelo de regresión lineal múltiple ................................................................................ 22
2.7 Colinealidad ........................................................................................................................ 24
3 MODELO ANOVA ............................................................................................ 26
3.1 Introducción al modelo ANOVA ................................................................................... 26
3.2 Estimación de parámetros ................................................................................................ 28
3.3 Estimación de medias e IC............................................................................................... 29
3.4 Comparaciones 2 a 2 ......................................................................................................... 29
3.5 Ajuste por multiplicidad de contrastes ........................................................................... 30
3.6 Validación del modelo ...................................................................................................... 32
3.7 ANOVA de dos factores .................................................................................................. 32
3.8 Interacciones ...................................................................................................................... 33
4 MODELO LINEAL GENERAL (GLM) .......................................................... 36
4.1 Introducción al GLM ........................................................................................................ 36
4.2 Sumas de cuadrados .......................................................................................................... 40
4.3 Estimación de parámetros ................................................................................................ 44
4.4 Validación del modelo ...................................................................................................... 45
4.5 Otros conceptos ................................................................................................................ 46
4.6 Metodología GLM............................................................................................................. 47
5 MODELO DE REGRESIÓN LOGÍSTICA...................................................... 48
5.1 Introducción ....................................................................................................................... 48
5.2 Modelo de regresión logística .......................................................................................... 48
5.3 Ajuste del modelo .............................................................................................................. 52
5.4 Interpretación de los coeficientes ................................................................................... 54
5.5 Bondad del ajuste del modelo .......................................................................................... 58
6 BIBLIOGRAFÍA .................................................................................................61
______________________________________________________________________

_______________________________________________________________
1 PRESENTACIÓN
Deducer es un programa libre diseñado como alternativa al software comercial para el

análisis de datos tales como SPSS, JMP y Minitab. Cuenta con un sistema de menús para
gestionar y manipular bases de datos y analizarlas, así como con un editor de datos tipo
Excel para ver y editar bases de datos. El objetivo del proyecto es doble:
1. Provee una interfaz gráfica para usuarios de R (GUI) para la investigación,

alentando a los usuarios no técnicos para aprender y realizar análisis sin necesidad
de conocer el lenguaje de programación de R.
2. Aumentar la eficiencia de los usuarios expertos de R al realizar las tareas comunes

mediante la sustitución de cientos de combinaciones de teclas con unos pocos clics
del ratón, además de permitir utilizar el lenguaje de programación.
El programa se puede descargar gratuitamente desde la página web de Deducer:
http://www.deducer.org
Seleccionar el sistema operativo (Windows, MacOS X o Linux) y seguir las instrucciones

correspondientes.
Este manual de “Modelización Estadística Básica con Deducer” pretende ser una primera
aproximación a la aplicación genérica de técnicas de modelización estadística empleando el
programa Deducer. Este manual sólo trata aquellas técnicas más comunes, repasando los
conceptos teóricos relacionados con las mismas. Es necesario disponer de ciertos
conocimientos previos de Deducer para leer, gestionar y resumir datos, aunque además es
útil haber tenido contacto previo con R y su lenguaje de programación. En cierto sentido,
este manual constituye una continuación al manual “Introducción a la Estadística Básica con
Deducer” del Servei d’Estadística Aplicada de la UAB.
En este manual se profundiza en las técnicas estadísticas más habituales en modelización y

se detalla como implementarlas mediante los menús de Deducer pero también se
introducen algunos comandos de R requeridos por alguna de las técnicas estadísticas.
El manual está dividido en diferentes apartados en función de las técnicas estadísticas

descritas: Modelo de Regresión Lineal, Modelo ANOVA, Modelo Lineal General y Modelo
de Regresión Logística. A medida que se introducen aspectos Estadísticos, también se
incluyen algunos aspectos relativos a Deducer y a la programación en R: diagnóstico del
modelo, colinealidad, interacciones, etc. Por este motivo es recomendable seguir el manual
de forma lineal y consecutiva.
______________________________________________________________________

_______________________________________________________________
2 MODELO DE REGRESIÓN LINEAL
2.1 Introducción
El modelo de regresión lineal simple es un método estadístico para evaluar la relación entre
dos variables cuantitativas: la variable respuesta (o dependiente) y la variable explicativa (o
independiente).
Conociendo los valores de la variable independiente podremos realizar predicciones sobre

la variable respuesta.
El modelo de regresión lineal simple se expresa como:
Yi = β 0 + β1 X i + ε i
donde,
Y: variable respuesta
X: variable explicativa
β 0 : término independiente. Representa el valor esperado de Y cuando X=0
β 1 : pendiente de la recta. Representa el cambio esperado en Y cuando X varía en una
unidad
ε i corresponde a la perturbación aleatoria no explicada (se asume ε i ~ N (0, σ 2 )
El objetivo de la regresión es estimar los parámetros β 0 , β 1 y σ2, que representa la variación

de ε para encontrar la recta que ajuste mejor los datos:
ei = yi − yî
______________________________________________________________________

_______________________________________________________________
Antes de ajustar un modelo de regresión lineal deberíamos asegurar que:
o Existe una relación lineal entre la variable respuesta y la variable explicativa.

o Los errores están centrados, su varianza se mantiene constante y no están
correlacionados.
o Se puede asumir la hipótesis de que la variable respuesta sigue una distribución
normal (para inferencia).
Ajuste de la recta de regresión por mínimos cuadrados:
El método de Mínimos Cuadrados Ordinarios (MCO u OLS, siglas en inglés) tiene como
objetivo encontrar una estimación de los parámetros β 0 y β 1 de manera que se minimice las
distancias entre los puntos y la recta:
N 2
Min ∑ (Yi − β 0 − β1 X i )
β 0 , β1
i =1
Los estimadores mínimos cuadrados son los mejores que se pueden conseguir (insesgados,
eficientes y consistentes) si se cumplen las hipótesis sobre los errores.
N
∧ ∑(X i − X )(Yi − Y ) ∧ ∧
β1 = β 0 = Y − β1 X
sxy
Yî = βˆ 0 + βˆ 1 Xi i =1
N
=
∑(X
sxx
i − X )2
i =1
Diagrama de dispersión y coeficiente de correlación:
Antes de realizar un modelo de regresión lineal es muy recomendable realizar una

exploración inicial de la relación, mediante:
- Un diagrama de dispersión: sirve para representar gráficamente la relación que

existe entre dos variables cuantitativas. Es una herramienta útil para detectar outliers
______________________________________________________________________

_______________________________________________________________
- El Coeficiente de correlación lineal de Pearson:
cov( X , Y )
ρ X ,Y =
σ XσY
o Cuantifica la magnitud de la asociación lineal entre dos variables.

o Es adimensional y toma valores entre -1 y 1.
o Valora el sentido de la asociación lineal (correlación positiva o negativa).
o Un valor 0 indica ausencia de correlación lineal.
o La existencia de correlación entre X e Y no implica causalidad.
El coeficiente de correlación de Pearson se ve afectado por valores extremos (outliers),

asimetría u otras desviaciones respecto la distribución normal. En estos casos no es una
medida adecuada. Alternativas:
o Eliminar valores extremos.

o Realizar transformaciones sobre los datos.
o Utilizar coeficientes de correlación no paramétricos (Spearman).
Ejemplo: Asociación entre los días de hospitalización y la edad.
Para analizar la asociación entre variables cuantitativas primero realizamos un gráfico de

dispersión (Plot  Plot Builder  Scatter). Para añadir la recta de regresión
seleccionaremos Scatter smooth y en Smoothing indicaremos Linear model:
______________________________________________________________________

_______________________________________________________________
Después, si procede, podemos calcular el coeficiente de correlación (Analyis 

Correlation):
Pearson's correlation
Dias
Edad cor 0.2731
N 325
CI* (0.1693,0.3709)
stat** 5.102 (323)
p-value 0.0000
-----------
** t (df)
* 95% percent interval
HA: two.sided
El modelo de regresión se encuentra en el menú Analysis  Linear Model. En Outcome

indicaremos la variable respuesta y en As Numeric la variable explicativa (cuantitativa):
______________________________________________________________________

_______________________________________________________________
La siguiente ventana que aparece permite personalizar las variables explicativas que se
incluirán en el modelo (Regression Model Builder). Podemos simplemente comprobar
qué modelo es el propuesto y Continuar:
Aparece una nueva ventana donde se pueden previsualizar los resultados:
______________________________________________________________________

_______________________________________________________________
La correspondiente recta de regresión es:
Diaˆsi = 5,4585 + 0,2363 Edad i
Observación: El explorador de modelos no es compatible con

DeducerRichOutput 1. Para poder visualizar los resultados correctamente debemos
deshabilitar el paquete del menú Package Manager y reiniciar el programa.
Desde la pestaña Added Variable podemos ver gráficamente el modelo ajustado:
Observación: En este gráfico las variables aparecen centradas, es decir, se ha

restado el valor medio a todos los casos.
1 DeducerRichOutput es un paquete que permite obtener los resultados en formato html. Se instala con la
siguiente instrucción: install.packages("DeducerRichOutput", repos="http://R-Forge.R-
project.org").
______________________________________________________________________

_______________________________________________________________
2.2 Inferencia en regresión lineal simple

Las pruebas de hipótesis más frecuentes consisten en contrastar los parámetros de la recta
de regresión:
H0: β 0 = 0 H0: β 1 = 0
H1: β 0 ≠ 0 H1: β 1 ≠ 0
La prueba estadística viene dada por:

βî
t=
s.e.( βî )
Donde s.e. corresponde al error estándar asociado al parámetro β i y t ~ t n-2 (distribución t
de Student con n-2 grados de libertad).
o Una variable explicativa no informativa, es equivalente a pensar que la pendiente de

la recta de regresión es nula.
o Una variable explicativa informativa será aquella cuyo cociente sea distinto del valor
0, ya sea negativo o positivo. Es decir, el valor de la variable explicativa puede
explicar en parte el valor observado en la variable respuesta.
Intervalos de confianza para los parámetros de regresión
Intervalo de confianza del 100(1 – α) % para el parámetro β 1 :

 ∧ ∧

β ∈  β 1 ± t n −2,1− α × s.e.( β 1)
 
1
2
o El error estándar (SE) es una medida de precisión del estimador.

o Para obtener el IC para los parámetros del modelo lineal, se puede utilizar la
función de R confint(nombre_modelo).
Observación: Para trabajar con sintaxis es recomendable trabajar desde un

documento de sintaxis (File – New document).
______________________________________________________________________

_______________________________________________________________
2.3 Descomposición de la variabilidad

El objetivo del modelo de regresión es el de explicar la variabilidad observada en la variable
respuesta. Para ello, se intentará descomponer la variabilidad total en dos componentes: la
variabilidad explicada y la variabilidad residual.
La variabilidad total observada viene representada por la suma de las desviaciones al

cuadrado entre los valores observados y el promedio total:
SST = ∑ (Yi − Y )
2
La suma de cuadrados total (SST) se descompone en la suma de cuadrados de la regresión

(SSR) y la suma de los cuadrados de los errores (SSE):
SST = SSR + SSE
( )
donde SSR = ∑ Yî − Y , SSE = ∑ Yi − Yî y
2 2
( )
i i
• Y Corresponde al valor observado para la observación i

i
∧
• Y i Corresponde al valor predicho para la observación i

• Y Corresponde al promedio global
Ejemplo gráfico de la descomposición:
SST = SSR + SSE
Todo el planteamiento anterior permite formular la prueba F para contrastar si el modelo

es válido. Los cálculos que conducen a la obtención del valor F de la prueba y a su
significación estadística habitualmente se presentan en formato de tabla, recibiendo el
nombre de tabla ANOVA:
______________________________________________________________________

_______________________________________________________________
Fuentes de Grados de Suma de Cuadrados F

Variación Libertad Cuadrados Medios
Debido a la 1 SSR MSR=SSR/1 MSR/MSE

regresión
Debido al n-2 SSE MSE=SSE/n-2
Error
Total n-1 SST
Ejemplo:
El coeficiente de determinación:
El coeficiente de determinación, R2, representa la proporción de la variabilidad total de la

muestra que es explicada por la relación lineal entre X e Y. Se calcula como:
SSR
R2 =
SST
El coeficiente de Determinación varía entre 0 y 1. Para el modelo de regresión lineal
simple, coincide con el coeficiente de correlación lineal de Pearson al cuadrado.
Estimador de σ2:
Finalmente, se puede obtener la estimación de la variabilidad residual como:

SSE
σˆ 2 =
n−2
Ejemplo:
______________________________________________________________________

_______________________________________________________________
2.4 Análisis de los residuos

El residuo es la diferencia entre el valor observado y el valor predicho por la recta de
regresión. Puede ser considerado como el error aleatorio observado.
Tipos de residuos:
o No tipificados. Diferencia entre un valor observado y el valor pronosticado por el
modelo. Proporciona el residuo bruto: ei = Yi − Yî
o Tipificados (de Pearson o estandarizados). El residuo dividido por una estimación
de su error típico. De este modo tienen una media de 0 y una desviación típica de 1.
o Estudentizados. Residuo dividido por una estimación de su desviación típica que
varía de caso en caso, dependiendo de la distancia entre el valor de la variable
independiente y su media.
El estudio de los residuos se realiza básicamente a partir del diagrama de dispersión entre
los valores residuales y los valores predichos, representando las parejas de puntos: ( ei , Yî )
Observación: Es recomendable analizar con detalle las observaciones con residuos

tipificados (o estudentizados) fuera del rango [-2,2].
A continuación, se muestran algunas situaciones en las que se detectan incumplimientos en

las suposiciones del modelo.
Caso 1: Errores no independientes
Y vs. X Residuos vs. Predichos
En el gráfico de dispersión Y vs. X se observa una aparentemente buena asociación lineal,

sin embargo en el gráfico de residuos se observa un claro patrón. Inicialmente los errores
son positivos, luego negativos y posteriormente positivos de nuevo. Esto es sinónimo de
errores no independientes.
______________________________________________________________________

_______________________________________________________________
La conclusión es que el modelo subyacente no es realmente lineal y por lo tanto está mal
especificado. En realidad el modelo es cuadrático. Gráficos de residuos similares (o
invertidos) se obtendrían si el modelo subyacente fuera cúbico, de otro orden de potencia,
exponencial o logarítmico.
El modelo de regresión lineal no sería válido.
Caso 2: Heterocedasticidad
En el gráfico de dispersión Y vs. X se observa una cierta asociación lineal, no obstante, en

el gráfico de residuos se observa de nuevo un claro patrón. A medida que los valores
predichos son mayores, la variabilidad del error aumenta. Esto es sinónimo de errores que
no cumplen la condición de igualdad de varianza (homocedasticidad).
La conclusión es que el modelo subyacente aunque sea lineal está mal especificado. Sería
necesario estudiar la naturaleza de los datos. A veces es suficiente realizar algún tipo de
transformación a la variable respuesta con el objetivo de estabilizar la variabilidad del error
(logaritmos, raíz cuadrada). Gráficos similares se obtienen cuando la variable respuesta es
en realidad un conteo, un porcentaje o el tiempo transcurrido hasta cierto evento. Tales
variables respuesta suelen provocar residuos no normales.
______________________________________________________________________

_______________________________________________________________
Caso 3: Outliers
En el gráfico de dispersión Y vs. X se observa de nuevo cierta asociación lineal, pero se

detecta la presencia de un valor extraño. En el diagrama de residuos se puede comprobar
cómo el residuo para esta observación es desmesuradamente grande. De hecho, la recta de
regresión está ligeramente desplazada hacia arriba y no pasa por el centro de la nube de
puntos. La recta ajustada pierde consistencia:
- Los valores influyentes son valores que tienen un peso relevante en el modelo
resultante, y la eliminación de estos provoca cambios sensibles en los coeficientes.
- Todos los estadísticos pueden ser seriamente distorsionados por una única
observación incorrecta.
Caso 4: Variables ocultas
En el gráfico de dispersión Y vs. X se observa de nuevo cierta asociación lineal, pero se

detecta un comportamiento de los residuos sumamente curioso. Para un gran grupo de
______________________________________________________________________

_______________________________________________________________
observaciones el residuo es positivo y para el resto de observaciones es negativo.

Prácticamente no hay observaciones con residuo próximo a 0. La distribución de los
residuos no es normal ya que siguen una distribución bimodal.
El modelo de regresión lineal no sería válido. Sin embargo, se puede buscar una
interpretación alternativa, ya que de hecho, se observan dos poblaciones distintas. Si estas
dos poblaciones pueden ser identificadas por una tercera variable, esto indicaría que el
modelo no está bien especificado ya que omite dicha variable. El modelo de regresión lineal
sería válido si se incluye esta tercera variable en el modelo.
Existen otras situaciones distintas en que se puede intuir el origen del incumplimiento de
las suposiciones, pero son más inusuales.
Como regla general para validar el modelo de regresión mediante el estudio de los residuos
es recomendable asegurarse de que no hay ningún tipo de patrón en el gráfico de Residuos
vs. Predicciones y comprobar cada una de las suposiciones del modelo:
o Modelo correctamente especificado.

o Normalidad de los residuos (muestras pequeñas).
o Independencia de los residuos.
o Homogeneidad de varianza (constante e independiente de los valores predichos).
o No existencia de valores anómalos.
El análisis de los residuos se puede hacer a partir de los resultados que aparecen en la
pestaña Diagnostics:
______________________________________________________________________

_______________________________________________________________
También se pueden guardar como variables los residuos desde la pestaña Export.
Valores influyentes
Todos los estadísticos pueden ser seriamente distorsionados por un único valor incorrecto.
Los valores influyentes son valores que tienen un peso relevante en el modelo resultante, y
la eliminación de estos provoca cambios sensibles en los coeficientes. Por este motivo, es
necesario comprobar la validez de la observación en cuestión.
Pueden detectarse estudiando los residuos de cada observación, o bien a partir del gráfico
de la distancia de Cook.
Diagrama Scale-Location: este diagrama representa la raíz cuadrada del valor absoluto de
los residuos del modelo y permite validar la hipótesis de homocedasticidad.
Diagrama Residuals vs Leverage: permite detectar los valores influyentes y anómalos,

que se determinan a partir de la distancia de Cook.
______________________________________________________________________

_______________________________________________________________
2.5 Transformaciones
La hipótesis básica del modelo de regresión lineal simple es que la relación entre X e Y es
lineal, pero en muchos casos en el gráfico de la variable respuesta frente a la variable
explicativa puede verse que la relación no es de otra naturaleza.
A pesar de ello, el modelo de regresión lineal continúa siendo válido en muchas situaciones
porque la relación puede convertirse en lineal por medio de una transformación simple en
la variable respuesta Y (trabajando con log(Y), 1/Y, √Y... ), o en la variable explicativa, X, o
en ambas.
Algunos de los ejemplos de transformaciones más interesantes son los siguientes:
Trans X Trans Y
Exponencial t(x)=x t(y)=ln(y)
Recíproca Y t(x)=x t(y)=1/y
Recíproca X t(x)=1/x t(y)=y
Doble rec. t(x)=1/x t(y)=1/y
Logaritmo X t(x)=ln(x) t(y)=y
Multiplicativo t(x)=ln(x) t(y)=ln(y)
Raíz c. X t(x)= √x t(y)=y
Raíz c. Y t(x)=x t(y)= √y
Curva S t(x)=1/x t(y)=ln(/y)
Ejercicio: Calcular la variable LogDias y volver a ajustar el modelo.
______________________________________________________________________

_______________________________________________________________
2.6 Modelo de regresión lineal múltiple

Como hemos visto, la regresión lineal simple permite explorar la naturaleza de la relación
entre dos variables continuas. Podemos intuir que añadiendo otras variables al modelo, se
podrá predecir con mayor precisión la variable respuesta.
Habitualmente se utiliza la regresión múltiple de modo exploratorio con el objetivo de

encontrar relaciones empíricas entre las variables disponibles. Dichas relaciones pueden
ayudar a predecir la respuesta, pero no necesariamente su relación será causal.
Yi = β 0 + β1 X i1 + β 2 X i 2 + ... + β k X ik ε i
Y variable respuesta
X j variables explicativas, j = 1, … , k
β 0 término independiente. Representa el valor esperado de Y cuando todas las variables
explicativas son 0
β j coeficiente de regresión de la variable j-ésima Representa el cambio esperado en Y
cuando X j varía en una unidad
ε corresponde a la perturbación aleatoria no explicada (se asume, ε i ~ N (0, σ 2 ))
El objetivo del modelo de regresión es poder estimar los parámetros β 0 , β 1 ,…, β k y σ2, que
representa la variación de ε.
Observación: El modelo no será eficiente si incluye variables que no sean

estadísticamente significativas.
Al aplicar esta técnica se asume que se cumplen los mismos criterios que en el caso de la
regresión simple.
Cuando el objetivo del análisis es explicativo (confirmatorio) en lugar de predictivo

(exploratorio), es imprescindible certificar la confirmación de las hipótesis para aplicar el
modelo.
El coeficiente de determinación:
Ahora, R2 mide la explicación conjunta conseguida con todas las variables independientes
introducidas en el modelo de regresión. No existe un criterio definido para decidir si el
valor observado de R2 es grande o pequeño; depende del contexto del estudio.
______________________________________________________________________

_______________________________________________________________
R2 corregido: Si se introduce una nueva variable en el modelo, R2 siempre aumenta (ya que
se consigue explicar algo más, aunque sea muy poco). De la misma manera, al quitar una
variable R2 siempre disminuye. Como nos interesa saber si es conveniente introducir/quitar
una variable en el modelo, se ajusta R2 según los grados de libertad (el número de variables
consideradas en el modelo):
2 k −1
R = R2 − (1 − R 2 )
n−k
2
De esta manera, un aumento en R indica que el modelo ha mejorado al añadir/quitar una
variable.
Tabla ANOVA:
Como en el caso del modelo de Regresión Lineal Simple, se resumen los cálculos en la tabla
ANOVA:

Debido a la K-1 SSR MSR=SSR/(k-1) MSR/MSE
regresión
Debido al Error n-k SSE MSE=SSE/(n-k)
Total n-1 SST
Ejercicio: Añadir el Peso ingreso como variable explicativa en el modelo.
______________________________________________________________________

_______________________________________________________________
2.7 Colinealidad
Cuando se desee interpretar y comparar los diferentes coeficientes del modelo, es necesario
que las variables independientes no estén correlacionadas entre sí. En tal caso, el efecto de
cada variable viene dado directamente por su coeficiente. En caso contrario, no será fácil
interpretar el modelo.
Para comprobar la existencia de colinealidad, se analiza la correlación entre las variables

explicativas y se calculan diversos índices de colinealidad: FIV (factor de incremento de la
varianza) o Tolerancia:
Tolerancia = 1 / FIV
El índice FIV se calcula para cada variable independiente y mide la proporción de

variabilidad de dicha variable que ya está explicada por el resto de variables independientes
incluidas en el modelo.
De este modo, una variable explicativa con un valor FIV elevado indicaría que está
altamente explicada por el resto de variables predictivas y por lo tanto una situación
incorrecta.
Un criterio habitual para declarar que el valor FIV j (FIV asociada a la variable j-ésima del
modelo) es elevado es comparar con el término:
FIV j = 1/(1-R2)
siendo R2 el coeficiente de determinación del modelo.
Efectos de la colinealidad:
o Las desviaciones estándar de los coeficientes de regresión están sobreestimadas,

con lo que aparecen como no significativos coeficientes que en realidad sí lo son.
o Puede suceder que ninguno de los coeficientes de regresión sean distintos de cero
(no significativos) y que, a nivel conjunto, sí lo sean.
o Los coeficientes de regresión estimados no son consistentes, es decir, pueden
cambiar al modificar la muestra o al introducir nuevas variables en el modelo.
______________________________________________________________________

_______________________________________________________________
Niveles de colinealidad:
No hay criterios claros para determinar si un índice FIV es elevado o no. No obstante
algunas referencias podrían ser:
Tolerancia FIV Colinealidad

Toler >= 1 FIV <= 1 No existe
0,3 < Toler < 1 3,33 > FIV > 1 Poca
0,1 < Toler < 0,3 10 > FIV > 3,33 Elevada
0,01 < Toler < 100 > FIV > 10 Excesiva

0,1
Toler < 0,01 FIV > 100 Colinealidad perfecta
Los estadísticos de colinealidad se pueden obtener desde la pestaña de Options – Model

Diagnostics – Variance Inflation Factors:
Ejemplo:
Ejercicio: Añadir la Talla y el IMC como variables explicativas en el modelo.
______________________________________________________________________

_______________________________________________________________
3 MODELO ANOVA
3.1 Introducción al modelo ANOVA

Es posible expresar en términos de modelo estadístico un análisis ANOVA. Admitiendo
que los valores observados y ij fluctúan alrededor de un valor medio μ j que caracteriza a cada
grupo, el modelo es de la forma:
yij = µ j + eij
donde eij ~ N (0, σ 2 ) son independientes entre sí.
En el menú del modelo de regresión (Analysis  Linear Model) indicaremos la variable

respuesta en Outcome y en As Factor la variable explicativa categórica:
Observación: Es recomendable que la variable esté definida como Factor en la

base de datos.
______________________________________________________________________

_______________________________________________________________
En la ventana de Linear Regression Model Explorer se pueden previsualizar los

resultados:
Tabla ANOVA:
Como en los modelos de regresión anteriores, se resumen los cálculos en la tabla ANOVA:

Entre Grupos A GLA SSA MSA FA
Debido al Error GLE SSE MSE
Total GLT SST
______________________________________________________________________

_______________________________________________________________
3.2 Estimación de parámetros

Para incluir variables categóricas en el modelo, se utilizan las transformaciones a variables
indicadoras (dummy). La transformación más habitual es la siguiente:
Variable
V1 (A) V2 (B) V3 (C)
original
A 1 0 0
B 0 1 0
A 1 0 0
C 0 0 1
A 1 0 0
B 0 1 0
A 1 0 0
C 0 0 1
Siempre se cumple que V1+V2+V3=1, por lo tanto, no es posible considerarlas todas

juntas dentro del modelo ya que están auto-explicadas.
Se debe eliminar una variable cuya categoría actuará como categoría de referencia, por
ejemplo, la categoría C (V3).
De este modo, incluir en el modelo una variable categórica con tres categorías es
equivalente a incluir las variables indicadoras V1 y V2.
El modelo para esta variable categórica quedaría como:
Y = β 0 + β1V1 + β 2V2 + ε
Observación: En Deducer, la categoría de referencia es siempre la primera. Esta se

puede cambiar desde el Editor de Factores.
Ejemplo:
El correspondiente modelo es:
Dias = 17,74 + 2,61 * Edad[ 60−67 ) + a,93 * Edad[ 67−86 ]
______________________________________________________________________

_______________________________________________________________
3.3 Estimación de medias e IC

Aunque en el análisis de la varianza el objetivo primordial es comparar grupos, también es
posible estimar los promedios y obtener intervalos de confianza. Esto puede permitir
aportar márgenes a la estimación de las magnitudes estudiadas.
Para obtener la estimación de los parámetros debemos seleccionar la casilla Estimate

confidence intervals del botón Means:
3.4 Comparaciones 2 a 2
Muchas veces el interés real del estudio reside en saber qué medias difieren entre sí después
de realizar la prueba ANOVA. Las comparaciones se realizan mediante sucesivas pruebas t
comparando todos los posibles pares de medias 2 a 2. Cada una de estas pruebas utiliza la
estimación de la variabilidad conjunta proporcionada por el modelo con todos los grupos,
mejorando así el resultado de los contrastes independientes.
Para realizar todas las comparaciones 2 a 2 debemos seleccionar el tipo de comparación

Tukey en el botón Post Hoc. En caso de no estar interesados en realizar todas las
comparaciones podríamos seleccionar otro método (por ejemplo, Dunnet cuando
queremos comparar todos los grupos frente a uno de referencia).
______________________________________________________________________

_______________________________________________________________
Sin embargo, este procedimiento conduce habitualmente a un elevado número de

comparaciones. Por ejemplo, si se desea comparar las medias de 5 grupos, será necesario
realizar 10 comparaciones 2 a 2.
Si el nivel de significación o error de tipo I (probabilidad de rechazar la hipótesis nula

cuando en realidad es cierta) de cada prueba se fija en el 5%, se puede comprobar que al
realizar 10 pruebas (independientes entre sí) cada una al 5%, la probabilidad de rechazar al
menos una de las hipótesis nulas es aproximadamente ¡del 40%! de manera que con un
40% de probabilidades se obtendría alguna conclusión falsa.
Existen diversos métodos para ajustar este tipo de error y conseguir que efectivamente el
error conjunto no sea superior al 5%.
3.5 Ajuste por multiplicidad de contrastes

Una primera aproximación al tratamiento de este problema es debida a Fisher, quién
propuso que sólo se compararan las diferencias entre medias 2 a 2 si el precedente
ANOVA ha resultado significativo. Estas comparaciones a posteriori se realizan sin
corrección alguna (No Correction).
El método de Bonferroni es extremadamente conservador, pero no depende de la

muestra, sólo del número de comparaciones. Consiste en sustituir el nivel de significación α
considerado en cada prueba por α /nc siendo nc el número de comparaciones. El método
de Sidak sustituye α por 1 - (1 - α)1/nc, siendo utilizado cuando el investigador sólo está
interesado en analizar un número reducido de todos los posibles contrastes.
Existen otros métodos para controlar el error de cada comparación, entre ellos la
corrección de Scheffé (Scheffé, 1953) y el método HSD (Honestly Significant Difference)
de Tukey (Tukey, 1953), el más adecuado cuando se desea realizar todas las posibles
comparaciones por parejas de grupos.
______________________________________________________________________

_______________________________________________________________
Cuando todas las diferencias que se quieren estudiar son respecto a un mismo grupo
control, es habitual realizar el ajuste de Dunnett (Dunnett, 1955). También existen
métodos de comparación de grupos de medias que permiten detectar grupos homogéneos
de medias cómo el ajuste de Duncan y la corrección SNK (Student-Newman-Keuls), que
son adecuados cuando los grupos están equilibrados y el interés reside en obtener una
comparación global.
Puede darse la situación que la prueba ANOVA no permita concluir diferencias entre
grupos y sin embargo se detecten diferencias en las comparaciones múltiples. Normalmente
esta situación es provocada por la consideración de demasiados grupos.
En Deducer, para poder realizar las correcciones clásicas seleccionaremos la opción

single-step method. Otras opciones corresponden a estrategias de ajuste por
multiplicidad de contrastes de mayor grado de complejidad.
______________________________________________________________________

_______________________________________________________________
3.6 Validación del modelo

La variación observada en la respuesta se asume que es debida al efecto de los factores y a
cierto error aleatorio independiente que explica la variación residual. Se asume también que
dicho error aleatorio sigue una distribución normal con media 0 y desviación constante
(igual en todas las observaciones).
Para estudiar la validez del modelo es necesario confirmar estas hipótesis mediante el
estudio de los residuos (valores predichos - valores observados): normalidad, tendencias,
etc. y la realización de un contraste de homocedasticidad (homogeneidad de varianzas entre
los grupos, es decir variabilidad común).
En caso de que las varianzas no sean iguales podemos seleccionar la opción Robust to:
Unequal Variance del botón Options.
En la pestaña Diagnostics podemos visualizar los gráficos de diagnóstico: histograma de

los residuos y QQ Plot para evaluar la normalidad, gráficos de dispersión para evaluar la
homocedasticidad y la independencia, y el gráfico de Cook para identificar valores
influyentes.
3.7 ANOVA de dos factores

La prueba ANOVA de dos factores permite comparar las medias de los r 1 grupos que
define una variable categórica de interés principal al mismo tiempo que se analiza el efecto
en la respuesta de otra variable categórica secundaria con r 2 grupos.
La prueba de hipótesis principal de la prueba ANOVA de dos factores es:
H 0 : Eliminando el efecto del factor secundario, no existen diferencias entre los

grupos del factor principal
H 1 : Eliminando el efecto del factor secundario, existen diferencias entre los grupos
del factor principal
______________________________________________________________________

_______________________________________________________________
Tabla ANOVA:
La tabla ANOVA se actualiza para añadir una nueva fila de información correspondiente al
factor secundario.

Entre Grupos B GLB SSB MSB FB
Entre Grupos A GLA SSA MSA FA
Debido al Error GLE SSE MSE
Total GLT SST
Ejercicio: Añadir la variable Factores de riesgo en el modelo agrupándola previamente en 4

categorías: 0, 1, 2 y 3-4.
3.8 Interacciones
La interacción entre dos variables se produce cuando el efecto en la respuesta de una de
ellas depende de los niveles de la otra.
En el caso de añadir la interacción al modelo, también se calculan las correspondientes

sumas de cuadrados y grados de libertad y se añade una nueva fila a la tabla ANOVA. Las
sumas de cuadrados residuales y sus grados de libertad varían ya que se añade más
información al modelo. Finalmente, todos los estadísticos F deben ser recalculados.
Para incluir una interacción en el modelo en Deducer seleccionaremos la opción “ : ” en la

ventana donde se especifica el modelo:
______________________________________________________________________

_______________________________________________________________
Para interpretar el efecto de una interacción se puede estudiar el gráfico de interacciones,

seleccionando la interacción en el botón Plots:
______________________________________________________________________

_______________________________________________________________
Si no se observan líneas paralelas entonces se podría considerar la existencia de la

interacción. En este caso podemos observar que el hecho de tener más factores de riesgo
afecta especialmente a los pacientes de mayor edad.
Se puede calcular el efecto de la variable “Factores de riesgo” en cada uno de los grupos de
edad. Para ello se debe instalar el paquete phia, cargarlo desde el menú Package Manager
y utilizar la función: testInteractions(model, fixed=, across=):
model.lm <- lm(formula=Dias~Edad.cat+FR.cat+Edad.cat:FR.cat,data=ADL)

testInteractions(model.lm, fixed="Edad.cat", across="FR.cat")
______________________________________________________________________

_______________________________________________________________
4 MODELO LINEAL GENERAL (GLM)
4.1 Introducción al GLM

El Modelo Lineal General (GLM) es una generalización de los modelos de regresión y del
análisis de la varianza. En particular algunas de las técnicas que permite implementar son:
o Regresión simple
o Regresión múltiple
o Análisis de la varianza (especialmente para datos no equilibrados)
o Análisis de la covarianza
o Regresión y ANOVA simultáneamente
El Modelo Lineal General (GLM) se aplica cuando se desea analizar simultáneamente el

efecto de diversas variables de naturaleza distinta en una variable respuesta cuantitativa. Por
ejemplo:
o Estudiar posibles factores de riesgo/pronóstico de tener hipertensión.

o Predecir el nivel de gasto a partir de variables socio-económicas.
o Analizar la satisfacción de los usuarios en función de los productos que utilizan.
o Comparar diversas pautas de tratamiento para el tratamiento del Alzheimer
teniendo en cuenta la edad y el sexo.
o Evaluar el efecto conjunto de administrar diuréticos y antihipertensivos en la
reducción de la tensión arterial.
Las suposiciones del modelo son las siguientes:
o Existe una relación lineal entre las variables explicativas y la variable respuesta:
Y = β 0 + β 1 X 1 + β 2 X 2 + ... + β k X k + ε
o El modelo está bien especificado (no falta ninguna variable importante).
o ε ij ~ N (0, σ 2 ) son independientes entre sí.
______________________________________________________________________

_______________________________________________________________
Ejemplo: Evaluar el número de días de hospitalización según el grupo de tratamiento,

ajustando por el sexo, la edad, la diabetes y la interacción entre grupo y diabetes.
Añadimos la interacción entre el grupo y la diabetes:
______________________________________________________________________

_______________________________________________________________
Resultados:
En el botón Plots podemos seleccionar las variables para representarlas gráficamente:
______________________________________________________________________

_______________________________________________________________
Resultados:
Interacción:
______________________________________________________________________

_______________________________________________________________
4.2 Sumas de cuadrados

La información contenida en un problema de análisis de datos se puede reinterpretar a
partir de la variabilidad subyacente en la variable respuesta. Una variable constante no
contiene información. Una variable con elevada dispersión contiene mucha información
que potencialmente podría ser explicada. Esta variabilidad se puede cuantificar mediante la
suma de cuadrados total. Los grados de libertad representan unidades de información
disponibles.
DISEÑO EQUILIBRADO DISEÑO EQUILIBRADO

(SIN INTERACCIONES) (CON INTERACCIONES)
Información total: SST Información total: SST
o En los diseños equilibrados, la información aportada por cada factor es

complementaria.
o Si un factor aporta poca información, puede ser recomendable eliminarlo del
modelo.
o Si la interacción no es significativa, es recomendable eliminarla del modelo.
o En los diseños equilibrados incompletos, no es posible evaluar la interacción.
______________________________________________________________________

_______________________________________________________________
DISEÑO NO EQUILIBRADO
(SIN INTERACCIONES)
Información total: SST
o En diseños no equilibrados, parte de la información aportada por cada fuente de

variación es compartida.
o Es necesario decidir alguna forma de asignar la información explicada a cada factor.
o Si la interacción es relativamente grande, diremos que los factores son colineales o
que los grupos no son homogéneos.
SS TIPO I SS TIPO III
o En SS tipo I los factores se ajustan de forma secuencial. Primero A y después B. El

factor principal del estudio se ajusta en último lugar, después de eliminar el efecto
de los factores “pronóstico”.
o En SS tipo III los factores se ajustan mutuamente, provocando equívocos si la
intersección es muy grande. Permite identificar qué factores contribuyen en el
modelo constituido por el resto de variables.
______________________________________________________________________

_______________________________________________________________
DISEÑO NO EQUILIBRADO
(CON INTERACCIONES)
Información total: SST
o Parte de la información aportada por cada fuente de variación es compartida.

Incluso por la interacción.
SS TIPO I SS TIPO III
o En SS tipo I la interacción se ajusta en último lugar, de esta forma se analiza la

contribución real de la interacción al modelo con los efectos principales.
o En SS tipo III, si la interacción no es significativa se debe eliminar del modelo
inmediatamente, ya que elimina una parte de la información de los factores
principales.
Observación: En Deducer se utiliza las SS tipo II. Se calculan igual que las de tipo
III pero sin tener en cuenta las interacciones.
______________________________________________________________________

_______________________________________________________________
En la tabla ANOVA del modelo GLM aparecen todas las fuentes de variabilidad
consideradas.
En las SS3, el contraste presentado para cada variable corresponde a: “La variable aporta
información al modelo teniendo en cuenta que el resto de variables ya están incluidas”.
Esto equivale a pensar que tras eliminar el efecto de las variables complementarias, se
evalúa la contribución de la variable en cuestión.
En las SS1, el contraste presentado para cada variable corresponde a: “La variable aporta
información al modelo que incluye las variables que aparecen antes”.
El modelo GLM mide la aportación de cada variable al modelo formado por otras
variables. Por este motivo se debe distinguir entre diferentes tipologías de estudios en
función del objetivo:
o Predictivos: El único objetivo es realizar predicciones de la variable respuesta.

Cuantas más variables mejor.
o Exploratorios: Pretenden evaluar el efecto de diversos factores simultáneamente,
distinguiendo la contribución de cada uno. Si dos factores están asociados, ambos
aparecerán como no significativos.
o Comparativos: El interés reside en comparar grupos, ajustando la variable
respuesta por otras variables influyentes. Únicamente importa la variable que
identifica los grupos (tratamiento), siempre debe permanecer en el modelo. Si existe
falta de homogeneidad basal respecto cierta variable, esta debe permanecer en el
modelo para evitar interpretaciones erróneas.
La interacción mide si el efecto de una variable varía en función de los distintos niveles de
otra variable.
Ante la presencia de una interacción, los efectos principales son difíciles de interpretar.
Cuando una interacción es significativa, debe explorarse cuidadosamente qué niveles

producen un efecto diferenciado.
Cuando una interacción no es significativa, debe eliminarse del modelo ya que puede
producir problemas interpretativos.
Si dos variables miden lo mismo (o están asociadas) su interpretación suele ser

problemática.
Ante la posible existencia de variables asociadas entre sí, deben realizarse pruebas previas
de COLINEALIDAD u HOMEGENEIDAD BASAL.
______________________________________________________________________

_______________________________________________________________
4.3 Estimación de parámetros

El modelo se ajusta empleando el mismo método que en el modelo de regresión múltiple.
Las estimaciones de los parámetros se interpretan del mismo modo y las significaciones de
los coeficientes corresponden a la hipótesis nula habitual:
H0: β 1 = 0
H1: β 1 ≠ 0
Resultados:
El correspondiente modelo es:
Diâs = 8,01186 + 0,20132*Edad – 2,02438*Grupo Tratamiento – 0,09479*Sexo Mujer +

4,57229*Diabetes Sí – 4,51206*Grupo Tratamiento *Diabetes Sí
______________________________________________________________________

_______________________________________________________________
4.4 Validación del modelo

A priori, basándose en el conocimiento del ámbito en estudio, el investigador debe
contemplar las precauciones necesarias para asegurar un modelo adecuado:
o Transformar variables, centrarlas u homogeneizarlas con el objetivo de prever

relaciones lineales.
o Recoger información de todas las variables “importantes”.
Al igual que en el modelo de regresión, la validación del modelo ajustado suele realizarse
mediante el estudio del gráfico de los valores residuales y los valores predichos.
Cualquier tipo de anomalía indica que el modelo no es adecuado.
______________________________________________________________________

_______________________________________________________________
4.5 Otros conceptos

SEPARACIÓN DE MEDIAS: El procedimiento empleado en GLM es idéntico al
ANOVA.
AJUSTES POR MULTIPLICIDAD DE CONTRASTES: Igual que en ANOVA. Los

ajustes por multiplicidad de contrastes deben realizarse siempre en base a los contrastes de
interés para el investigador.
Variables ordinales
En los modelos GLM, las variables ordinales suelen ser consideradas categóricas, sin
embargo, también pueden ser consideradas continuas bajo los siguientes supuestos:
o El efecto en la variable respuesta es lineal.

o La “distancia” entre categorías adyacentes es similar.
o La codificación debería empezar desde el valor 0 y añadiendo una unidad para cada
nueva categoría.
Las variables binarias (SI/NO) codificadas como (1/0) pueden ser introducidas
directamente en el modelo como variables cuantitativas, ya que la misma variable
representa la variable indicadora (dummy) asociada.
______________________________________________________________________

_______________________________________________________________
4.6 Metodología GLM

1. Validación de la base de datos
2. Resumen descriptivo
3. Análisis de la asociación entre variables explicativas
4. Colinealidad
5. Homogeneidad basal
6. Ajuste del modelo
7. Efectos principales
8. Interacciones
9. Validación
10. Gráfico Residuos vs Predichos
11. Valores influyentes
12. Contrastes a posteriori
13. Predicciones
______________________________________________________________________

_______________________________________________________________
5 MODELO DE REGRESIÓN LOGÍSTICA
5.1 Introducción
El modelo de regresión lineal múltiple permite predecir o explicar una variable respuesta
continua a través de un conjunto de variables explicativas cuantitativas y/o categóricas.
Sin embargo, en muchas situaciones (por ejemplo en epidemiología) la mayoría de variables

respuesta de interés sólo nos proporciona información sobre la ocurrencia o no de cierto
evento (remisión de síntomas, fallecimiento, etc.). Este tipo de variables reciben el nombre
de variables categóricas dicotómicas o binarias.
Generalmente se identifica la categoría “éxito” con el valor 1 y el valor 0 se asocia a

la categoría “fracaso”. De esta manera, la proporción de unos de esta nueva variable
binaria numérica (con valores 0 ó 1) representa la proporción de éxitos.
5.2 Modelo de regresión logística

El principal objetivo de un modelo de regresión logístico es el mismo que el de ajustar un
modelo a unos datos: encontrar el mejor modelo (con sentido y parsimonioso) para
explicar la relación entre una variable dependiente y un conjunto de covariables.
Los modelos de regresión logística son modelos de regresión que permiten estudiar si una
variable binaria depende, o no, de otra u otras variables (no necesariamente binarias).
La regresión logística es una adaptación de las técnicas de regresión clásicas y permite

obtener un modelo para calcular la probabilidad de ocurrencia de un evento. Esto es, el
interés recae en predecir la ocurrencia de un evento dado un conjunto de
información.
Ejemplos:
o En ciencias políticas, un modelo de regresión logística podría ser usado para

analizar los factores que determinan si un individuo participará o no en unas
elecciones generales.
o En medicina, un modelo de regresión logística se podría utilizar para predecir la
probabilidad de éxito de un tratamiento.
o En economía, un modelo de regresión logística podría modelar la probabilidad de
estar en paro más de 6 meses.
______________________________________________________________________

_______________________________________________________________
Las únicas propiedades que se deben comprobar para aplicar la técnica de regresión
logística son que la variable dependiente tome exactamente dos valores y que el modelo
esté bien especificado.
Al igual que en el modelo de regresión múltiple, se pueden incorporar variables categóricas

explicativas al modelo mediante el uso de las correspondientes variables dummy.
Antes de aplicar el modelo, también es interesante analizar la asociación de las variables

explicativas y de este modo poder interpretar los coeficientes obtenidos de forma adecuada.
¿Por qué no podemos utilizar un modelo de regresión simple?
Consideremos el siguiente ejemplo.
Si el interés recae en estudiar la relación entre aprobar un examen y las horas de estudio,
podríamos establecer:
P(aprobar) = β 0 + β1horas_de_estudio + ε
y utilizando el Deducer obtendríamos:
𝛽̂0= 0,032
𝛽̂1= 0,026
De donde se concluiría que 1 hora de estudio adicional hace aumentar en media un 2,6% la
probabilidad de aprobar.
Pero ¿cuál sería la probabilidad predicha por el modelo para alguien que ha
estudiado 100 horas?
Conclusión: la relación lineal entre la probabilidad de aprobar y las horas de estudio no es

apropiada.
Cabe tener en cuenta, que además de una predicción sin sentido, hay dos problemas más
sutiles en el uso de un modelo de regresión lineal para una probabilidad:
o La distribución de ε no es Normal como se asume en la regresión lineal.

o La variancia de ε no es constante: existe heterocedasticidad.
A partir de aquí, podemos establecer el modelo de regresión logística paso a paso:
Objetivo: modelizar la probabilidad de “éxito”, p, en función de un conjunto de

covariables, esto es, considerando la variable respuesta:
1 𝑠𝑖 é𝑥𝑖𝑡𝑜
𝑌=�
0 𝑠𝑖 𝑓𝑟𝑎𝑐𝑎𝑠𝑜
______________________________________________________________________

_______________________________________________________________
se desea modelizar:
𝑝 = 𝑃(𝑌 = 1/𝑋)
La primera propuesta podría ser:
p = β 0 + X 1β1 + ... + X q β q
Problema: la probabilidad p está siempre restringida a valores del intervalo [0,1] y en este
modelo esta propiedad no queda garantizada.
La segunda propuesta vendría a partir de establecer un modelo para el odds, esto es, el éxito
respecto al fracaso, a partir del cociente:
𝑝
𝑜𝑑𝑑𝑠 =
1−𝑝
Lo que es una magnitud no negativa siendo el 1 el valor de referencia que se interpreta

como “tanto éxito como fracaso”. Si el cociente es mayor que 1, representa más éxito que
fracaso; y si el cociente es menor que 1, significa más fracaso qué éxito.
Cabe observar que el odds es el concepto que está detrás de muchas apuestas cuando se
habla de “la apuesta es de 2 a 4” lo que significa tener un odds de 2/4=0.5, esto es el éxito
es la mitad del fracaso.
Segunda propuesta para la probabilidad de éxito, p:
𝑝
= 𝑒 𝛽0 +𝛽1𝑋1 +𝛽2 𝑋2+⋯+𝛽𝑞𝑋𝑞
1−𝑝
Lo que es equivalente a:
𝑝
𝑙𝑛 � � = 𝛽0 +𝛽1 𝑋1 + 𝛽2 𝑋2 + ⋯ + 𝛽𝑞 𝑋𝑞
1−𝑝
Cabe destacar que, este es un ejemplo de uso de transformaciones. Concretamente se ha

utilizado la transformación logit para relacionar la probabilidad de éxito con las covariables,
de manera que:
𝑒 𝛽0 +𝛽1𝑋1+𝛽2 𝑋2 +⋯+𝛽𝑞𝑋𝑞
𝑝=
1 + 𝑒 𝛽0 +𝛽1𝑋1 +𝛽2 𝑋2+⋯+𝛽𝑞𝑋𝑞
______________________________________________________________________

_______________________________________________________________
Ejemplo: Explorar la relación entre el reingreso y la edad.
Una primera aproximación seria a partir del gráfico de dispersión entre las dos variables:
No obstante no pone de manifiesto la relación deseada. Si en cambio, calculamos y

representamos las proporciones de individuos que reingresan correspondientes a distintos
grupos de edad:
Total en cada grupo Reingreso No Reingreso

Grupos de edad
N N (%) N (%)
<50 25 4 (16.0 %) 21 (84.0 %)
50-54 43 11 (25.6 %) 32 (74.4 %)
55-59 43 14 (32.6 %) 29 (67.4 %)
60-64 85 24 (28.2 %) 61 (71.8 %)
65-69 72 45 (62.5 %) 27 (37.5 %)
70-74 36 24 (66.7 %) 12 (33.3 %)
75+ 21 14 (66.7 %) 7 (33.3 %)
Total 325 75 (23.1 %) 225 (76.9 %)
En la gráfica se representa la relación entre la variable independiente (edad) y la proporción

de individuos que reingresan:
______________________________________________________________________

_______________________________________________________________
5.3 Ajuste del modelo
Para obtener las estimaciones de los coeficientes ( 𝛽̂ ) no es posible aplicar el método de los
mínimos cuadrados como en el modelo clásico de regresión lineal. Cuando se aplica el
método de los mínimos cuadrados ordinarios en un modelo con una variable respuesta
binaria las estimaciones así obtenidas no mantienen las propiedades deseadas.
El método general de estimación es el de máxima verosimilitud. Para poder aplicar este

método se debe construir la función de verosimilitud (L). Esta función representa la
probabilidad condicionada de haber observado la muestra obtenida. La técnica consiste en
encontrar los valores para los parámetros que maximicen esta probabilidad.
En Deducer lo realizamos mediante el menú Analysis  Logistic Model:
Observación: En la pestaña Split podemos modificar la categoría de referencia.
______________________________________________________________________

_______________________________________________________________
Las estimaciones de los parámetros son:
De donde el modelo estimado es:
𝑝
𝑙𝑛 � � = 𝛽0 +𝛽1 𝑋1 = −5,69 + 0,0856 𝐸𝑑𝑎𝑑
1−𝑝
______________________________________________________________________

_______________________________________________________________
5.4 Interpretación de los coeficientes

Objetivo: ¿Qué aportan los coeficientes del modelo en las respuestas a las preguntas que
motivaron el análisis?
Como se ha definido anteriormente, un odds se define como la probabilidad de éxito

dividida por la probabilidad de fracaso.
El cociente entre odds de dos grupos de observaciones diferentes se llama Odds Ratio (OR).
Para una variable explicativa binaria con valores 0/1:
Y=0 Y=1
1 𝑒 𝛽0
X=0 1 − 𝑝/𝑥=0 = 1 − 𝑝/𝑥=0 =
1 + 𝑒𝛽0 1 + 𝑒𝛽0
1 𝑒 𝛽0 +𝛽1
X=1 𝑝/𝑥=1 = 𝑝/𝑥=1 =
1 + 𝑒 𝛽0 +𝛽1 1 + 𝑒𝛽0 +𝛽1
Si en el modelo se ha incluido una variable explicativa binaria X codificada con los valores
0 y 1, el correspondiente coeficiente (𝛽1) en el modelo tiene la siguiente interpretación:
OR X 1 vs X0 = e β1
y mide el cociente entre las proporciones de éxito respecto de las de fracaso de la variable
respuesta para los dos grupos definidos por la variable explicativa.
Significación de los OR
Debido a que la distribución de los OR tiende a ser bastante sesgada, y por lo tanto a pesar
de que para muestras grandes en teoría tiene una distribución normal, esta hipótesis no es
cierta para muestras pequeñas.
Por ello el cálculo de los intervalos de confianza para los OR se hace a partir de los
extremos de los intervalos para los coeficientes del modelo.
Significación de los coeficientes
La significación de los coeficientes del modelo se mide a través del estadístico de Wald,
calculado para cada coeficiente del siguiente modo:
2
 βî 
wi =  
 SE βˆ
 i( ) 

donde SE significa error estándar.
______________________________________________________________________

_______________________________________________________________
Este estadístico sigue una distribución Ji-Cuadrado con 1 grado de libertad si la hipótesis
nula de que el parámetro es 0 es cierta. Sin embargo, el estadístico de Wald no es
demasiado fiable si 𝑆𝐸(𝛽̂𝑖 ) es muy grande respecto a lo que puede ocurrir precisamente
para valores grandes de 𝛽̂𝑖 .
Variables explicativas categóricas
Cuando se dispone de variables explicativas categóricas y se desea incluirlas en el modelo,

es necesario llevar a cabo las transformaciones en variables dummy del mismo modo que en
el modelo de regresión múltiple. En el Deducer debemos definirlas como Factor.
Los coeficientes obtenidos para estas variables dummy tienen una interpretación muy
interesante en forma de Odds Ratio entre categorías.
Ejemplo (continuación): Las estimaciones del modelo logístico con la variable Edad
categorizada son:
______________________________________________________________________

_______________________________________________________________
Con lo cual los pacientes con edades entre 60 y 67 años tienen un riesgo de reingreso 1,7
veces mayor que los pacientes con edades entre 42-59:
=e = 1,45
0 , 37
ORˆ Edad ( 60−67 ) vs Edad ( 42 −59 )
Para obtener los OR así como sus intervalos de confianza se debe instalar el paquete
epiDisplay y cargarlo desde el menú Package Manager.
Para obtener los OR y sus correspondientes intervalos de confianza, se debe ejecutar la

siguiente sintaxis:
model.glm <- glm(Reingreso ~

Edad.cat,family=binomial(),data=ADL,na.action=na.omit)
logistic.display(model.glm)
Observación: El código que genera Deducer debe modificarse ligeramente para

poder utilizar esta función.
Observación: Una estimación del OR para una variable categórica se puede

calcular directamente a partir de la tabla de contingencia.
Esto es:
40/78
� =
𝑂𝑅 = 1,45
29/82
67/29
� =
𝑂𝑅 = 6,53
29/82
En el caso de considerar la variable Edad (cuantitativa), a partir de las estimaciones de los

parámetros, se pueden obtener los OR como sigue:
=e = 1,089
0 , 0856
ORˆ Edad _ t vs Edat _ t +1
Por lo tanto, el riesgo de reingreso aumenta 1,089 veces con el paso de un año de edad.
______________________________________________________________________

_______________________________________________________________
En este caso, en Deducer para obtener los OR se realiza mediante la siguiente sintaxis que
pondremos en la parte inferior de la consola: exp(coef(model.glm)) (siendo model.glm
el nombre del modelo estimado). El resultado obtenido es:
Observación: Este cambio puede no ser significativo.
Test de razón de verosimilitud
Para analizar si el modelo es significativo, es decir, si el modelo es significativamente

diferente del modelo vacío (modelo nulo o sin variables explicativas) se utiliza el Test de la
Razón de Verosimilitud (prueba RV). Esta prueba se interpreta de la misma manera que la
tabla ANOVA del modelo.
La prueba compara la verosimilitud de los datos observados bajo un modelo nulo (sin
variables explicativas) y bajo el modelo propuesto (con las variables explicativas).
Se comparan las log-verosimilitud multiplicadas por -2. Esta diferencia sigue una
distribución Ji-Cuadrado con q grados de libertad (q es el número de variables incluidas en
el modelo) si la hipótesis nula de que el modelo propuesto es equivalente al modelo nulo es
cierta.
Coeficiente de determinación
No es posible calcular el coeficiente de determinación del mismo modo en que se calcula

en los modelos de regresión lineal.
Existen dos versiones de este coeficiente cuya interpretación es equivalente:
o Coeficiente R2 de Cox-Snell
o Coeficiente R2 de Nagelkerke
La sintaxis en Deducer es:
library(descr)
LogRegR2(model.glm)
______________________________________________________________________

_______________________________________________________________
5.5 Bondad del ajuste del modelo

En el modelo clásico de regresión el ajuste del modelo se realiza a partir de los residuos
definidos como la diferencia entre los datos y los valores predichos por el modelo.
En regresión logística hay diferentes maneras de definir la diferencia entre los valores
observados de los datos y los ajustados por el modelo.
Dos medidas de estas diferencias son:
o Residuos de Pearson
o Deviance (tiene el mismo papel que la suma de los cuadrados de los residuos (SSE)
en un modelo clásico de regresión)
Dos estadísticos con distribución chi-cuadrado con J-(q+1) grados de libertad (q es el

número de covariables y J es el número total de combinaciones de valores de las
covariables).
Test de Hosmer-Lemeshow
Es otra prueba para evaluar la bondad del ajuste de un modelo de regresión logística (grado
en que la probabilidad predicha coincide con la probabilidad observada).
La idea es si el ajuste es bueno, un valor alto de la p predicha se asociará con el resultado 1

de la variable respuesta.
Se trata de calcular para cada observación del conjunto de datos la p que predice el modelo,
agruparlas y calcular, a partir de ellas, las frecuencias esperadas, y compararlas con las
observadas mediante la prueba chi-cuadrado.
Para ello se debe instalar el paquete ResourceSelection, cargarlo desde el menú Package
Manager y utilizar la función: hoslem.test(model.glm$y, fitted(model.glm)).
Observación: El modelo debe incluir dos o más variables explicativas.
Tablas de clasificación
Los resultados del ajuste de un modelo de regresión logística se pueden expresar mediante
una tabla de clasificación: la variable respuesta versus los valores de una nueva variable
binaria con valores obtenidos a partir de las probabilidades estimadas mediante el modelo
logístico.
A partir del modelo estimado, se define como pronosticado =1 cuando el valor predicho
de la probabilidad excede un valor fijado previamente (‘cutpoint’) y 0 en otro caso.
______________________________________________________________________

_______________________________________________________________
A partir de la tabla de clasificación también es posible calcular las siguientes medidas:
o sensibilidad: P(pronosticado = 1 condicionada a Y=1 )

o especificidad: P(pronosticado = 0 condicionada a Y=0 )
Observación:
• Las tablas de clasificación son apropiadas cuando el objetivo es la
clasificación y no sólo la bondad de un modelo de regresión logística.
• En la tabla de clasificación presenta la probabilidad estimada del evento
para cada una de las categorías de la variable explicativa
Curvas ROC
Una descripción más completa de la precisión de la clasificación viene dada por el área bajo
la curva ROC (Receiver Operating Characteristic curve).
Una curva ROC se obtiene mediante un gráfico de dispersión entre la sensibilidad (eje
vertical) y (1-especificidad o “falsos positivos”) en el eje horizontal, para un rango de
posibles cutpoints.
El área bajo la curva (valores de 0 a 1) es una medida de la capacidad que tiene el modelo
para discriminar entre individuos con variable respuesta = “éxito” respecto de individuos
con variable respuesta = “fracaso”.
______________________________________________________________________

_______________________________________________________________
Para el ejemplo del modelo anterior, el área bajo la curva (AUC) es 0,62 y la representación
gráfica de esta curva es:
También podemos obtener el intervalo de confianza del AUC. Previamente debemos

instalar el paquete “pROC”. El código para obtener la curva ROC con el intervalo de
confianza es:
plot.roc(Reingreso ~ as.integer(Edad.cat), main="Curva ROC",

percent=TRUE, ci=TRUE, print.auc=TRUE, data=ADL)
______________________________________________________________________

_______________________________________________________________
6 BIBLIOGRAFÍA
Fellows I (2012). Deducer: An R Graphical User Interface (GUI) for Everyone. Version
2012-01-05, URL www.Deducer.org/manual.html
Jobson J. (2013). Applied Multivariate Data Analysis: Regression and Experimental Design.
Springer.
Hosmer, D.W and Lemeshow, S. (2013). Applied Logistic Regression. 3rd ed. Wiley.
Wickham H (2009). ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag, New
York.
En la siguiente página web se puede encontrar ayuda sobre ejemplos de código en R para
usuarios de R que se pueden implementar en Deducer.
www.statmethods.net
______________________________________________________________________

Manual Curso Modelización

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Manual Curso Modelización

Încărcat de

Drepturi de autor:

Formate disponibile

CURSO DE

Llorenç Badiella. Director del Servei d’Estadística Aplicada

Servei d’Estadística Aplicada

Campus UAB - Edifici CM7

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 2 de 61

Publicado por el Servei d’Estadística Aplicada de la UAB

6ª edición, Mayo 2017

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 3 de 61

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 4 de 61

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 5 de 61

Deducer es un programa libre diseñado como alternativa al software comercial para el

1. Provee una interfaz gráfica para usuarios de R (GUI) para la investigación,

2. Aumentar la eficiencia de los usuarios expertos de R al realizar las tareas comunes

El programa se puede descargar gratuitamente desde la página web de Deducer:

Seleccionar el sistema operativo (Windows, MacOS X o Linux) y seguir las instrucciones

En este manual se profundiza en las técnicas estadísticas más habituales en modelización y

El manual está dividido en diferentes apartados en función de las técnicas estadísticas

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 6 de 61

2 MODELO DE REGRESIÓN LINEAL

Conociendo los valores de la variable independiente podremos realizar predicciones sobre

El modelo de regresión lineal simple se expresa como:

El objetivo de la regresión es estimar los parámetros β 0 , β 1 y σ2, que representa la variación

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 7 de 61

Antes de ajustar un modelo de regresión lineal deberíamos asegurar que:

o Existe una relación lineal entre la variable respuesta y la variable explicativa.

Ajuste de la recta de regresión por mínimos cuadrados:

Diagrama de dispersión y coeficiente de correlación:

Antes de realizar un modelo de regresión lineal es muy recomendable realizar una

- Un diagrama de dispersión: sirve para representar gráficamente la relación que

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 8 de 61

- El Coeficiente de correlación lineal de Pearson:

o Cuantifica la magnitud de la asociación lineal entre dos variables.

El coeficiente de correlación de Pearson se ve afectado por valores extremos (outliers),

o Eliminar valores extremos.

Ejemplo: Asociación entre los días de hospitalización y la edad.

Para analizar la asociación entre variables cuantitativas primero realizamos un gráfico de

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 9 de 61

Después, si procede, podemos calcular el coeficiente de correlación (Analyis 

El modelo de regresión se encuentra en el menú Analysis  Linear Model. En Outcome

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 10 de 61

Aparece una nueva ventana donde se pueden previsualizar los resultados:

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 11 de 61

La correspondiente recta de regresión es:

Diaˆsi = 5,4585 + 0,2363 Edad i

Observación: El explorador de modelos no es compatible con

Desde la pestaña Added Variable podemos ver gráficamente el modelo ajustado:

Observación: En este gráfico las variables aparecen centradas, es decir, se ha

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 12 de 61

2.2 Inferencia en regresión lineal simple

La prueba estadística viene dada por:

o Una variable explicativa no informativa, es equivalente a pensar que la pendiente de

Intervalos de confianza para los parámetros de regresión

Intervalo de confianza del 100(1 – α) % para el parámetro β 1 :

o El error estándar (SE) es una medida de precisión del estimador.

Observación: Para trabajar con sintaxis es recomendable trabajar desde un

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 13 de 61

2.3 Descomposición de la variabilidad

La variabilidad total observada viene representada por la suma de las desviaciones al

La suma de cuadrados total (SST) se descompone en la suma de cuadrados de la regresión

SST = SSR + SSE

• Y Corresponde al valor observado para la observación i

• Y i Corresponde al valor predicho para la observación i

Ejemplo gráfico de la descomposición: