Sunteți pe pagina 1din 61

CURSO DE

MODELIZACIÓN
ESTADÍSTICA BÁSICA CON
DEDUCER

Llorenç Badiella. Director del Servei d’Estadística Aplicada


Anabel Blasco. Asesora estadística del Servei d’Estadística Aplicada
Ester Boixadera. Asesora estadística del Servei d’Estadística Aplicada
Anna Espinal. Asesora estadística del Servei d’Estadística Aplicada
Oliver Valero. Asesor estadístico del Servei d’Estadística Aplicada
Ana Vázquez. Asesora estadística del Servei d’Estadística Aplicada
Modelización Estadística Básica con Deducer
_______________________________________________________________

Manual de Introducción a la
Modelización Estadística Básica con Deducer

Servei d’Estadística Aplicada


Universitat Autònoma de Barcelona

Campus UAB - Edifici CM7


08193 Cerdanyola del Vallès
(Barcelona)
Tel. 93.581.13.47
s.estadistica@uab.es
http://serveis.uab.cat/estadistica

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 2 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

Publicado por el Servei d’Estadística Aplicada de la UAB

6ª edición, Mayo 2017

Este documento puede ser copiado y libremente distribuido, siempre y cuando sea
preservada su integridad, referenciado su origen y comunicado su uso al Servei
d’Estadística Aplicada de la UAB. No está permitido añadir, borrar o cambiar ninguna de
sus partes, o extraer páginas para su uso en otros documentos.

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 3 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 4 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

CONTENIDOS
1 PRESENTACIÓN ............................................................................................... 6
2 MODELO DE REGRESIÓN LINEAL .............................................................. 7
2.1 Introducción ......................................................................................................................... 7
2.2 Inferencia en regresión lineal simple............................................................................... 13
2.3 Descomposición de la variabilidad.................................................................................. 14
2.4 Análisis de los residuos ..................................................................................................... 16
2.5 Transformaciones .............................................................................................................. 21
2.6 Modelo de regresión lineal múltiple ................................................................................ 22
2.7 Colinealidad ........................................................................................................................ 24
3 MODELO ANOVA ............................................................................................ 26
3.1 Introducción al modelo ANOVA ................................................................................... 26
3.2 Estimación de parámetros ................................................................................................ 28
3.3 Estimación de medias e IC............................................................................................... 29
3.4 Comparaciones 2 a 2 ......................................................................................................... 29
3.5 Ajuste por multiplicidad de contrastes ........................................................................... 30
3.6 Validación del modelo ...................................................................................................... 32
3.7 ANOVA de dos factores .................................................................................................. 32
3.8 Interacciones ...................................................................................................................... 33
4 MODELO LINEAL GENERAL (GLM) .......................................................... 36
4.1 Introducción al GLM ........................................................................................................ 36
4.2 Sumas de cuadrados .......................................................................................................... 40
4.3 Estimación de parámetros ................................................................................................ 44
4.4 Validación del modelo ...................................................................................................... 45
4.5 Otros conceptos ................................................................................................................ 46
4.6 Metodología GLM............................................................................................................. 47
5 MODELO DE REGRESIÓN LOGÍSTICA...................................................... 48
5.1 Introducción ....................................................................................................................... 48
5.2 Modelo de regresión logística .......................................................................................... 48
5.3 Ajuste del modelo .............................................................................................................. 52
5.4 Interpretación de los coeficientes ................................................................................... 54
5.5 Bondad del ajuste del modelo .......................................................................................... 58
6 BIBLIOGRAFÍA .................................................................................................61

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 5 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

1 PRESENTACIÓN

Deducer es un programa libre diseñado como alternativa al software comercial para el


análisis de datos tales como SPSS, JMP y Minitab. Cuenta con un sistema de menús para
gestionar y manipular bases de datos y analizarlas, así como con un editor de datos tipo
Excel para ver y editar bases de datos. El objetivo del proyecto es doble:

1. Provee una interfaz gráfica para usuarios de R (GUI) para la investigación,


alentando a los usuarios no técnicos para aprender y realizar análisis sin necesidad
de conocer el lenguaje de programación de R.

2. Aumentar la eficiencia de los usuarios expertos de R al realizar las tareas comunes


mediante la sustitución de cientos de combinaciones de teclas con unos pocos clics
del ratón, además de permitir utilizar el lenguaje de programación.

El programa se puede descargar gratuitamente desde la página web de Deducer:

http://www.deducer.org

Seleccionar el sistema operativo (Windows, MacOS X o Linux) y seguir las instrucciones


correspondientes.

Este manual de “Modelización Estadística Básica con Deducer” pretende ser una primera
aproximación a la aplicación genérica de técnicas de modelización estadística empleando el
programa Deducer. Este manual sólo trata aquellas técnicas más comunes, repasando los
conceptos teóricos relacionados con las mismas. Es necesario disponer de ciertos
conocimientos previos de Deducer para leer, gestionar y resumir datos, aunque además es
útil haber tenido contacto previo con R y su lenguaje de programación. En cierto sentido,
este manual constituye una continuación al manual “Introducción a la Estadística Básica con
Deducer” del Servei d’Estadística Aplicada de la UAB.

En este manual se profundiza en las técnicas estadísticas más habituales en modelización y


se detalla como implementarlas mediante los menús de Deducer pero también se
introducen algunos comandos de R requeridos por alguna de las técnicas estadísticas.

El manual está dividido en diferentes apartados en función de las técnicas estadísticas


descritas: Modelo de Regresión Lineal, Modelo ANOVA, Modelo Lineal General y Modelo
de Regresión Logística. A medida que se introducen aspectos Estadísticos, también se
incluyen algunos aspectos relativos a Deducer y a la programación en R: diagnóstico del
modelo, colinealidad, interacciones, etc. Por este motivo es recomendable seguir el manual
de forma lineal y consecutiva.

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 6 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

2 MODELO DE REGRESIÓN LINEAL

2.1 Introducción
El modelo de regresión lineal simple es un método estadístico para evaluar la relación entre
dos variables cuantitativas: la variable respuesta (o dependiente) y la variable explicativa (o
independiente).

Conociendo los valores de la variable independiente podremos realizar predicciones sobre


la variable respuesta.

El modelo de regresión lineal simple se expresa como:

Yi = β 0 + β1 X i + ε i

donde,
Y: variable respuesta
X: variable explicativa
β 0 : término independiente. Representa el valor esperado de Y cuando X=0
β 1 : pendiente de la recta. Representa el cambio esperado en Y cuando X varía en una
unidad
ε i corresponde a la perturbación aleatoria no explicada (se asume ε i ~ N (0, σ 2 )

El objetivo de la regresión es estimar los parámetros β 0 , β 1 y σ2, que representa la variación


de ε para encontrar la recta que ajuste mejor los datos:

ei = yi − yˆi

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 7 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

Antes de ajustar un modelo de regresión lineal deberíamos asegurar que:

o Existe una relación lineal entre la variable respuesta y la variable explicativa.


o Los errores están centrados, su varianza se mantiene constante y no están
correlacionados.
o Se puede asumir la hipótesis de que la variable respuesta sigue una distribución
normal (para inferencia).

Ajuste de la recta de regresión por mínimos cuadrados:

El método de Mínimos Cuadrados Ordinarios (MCO u OLS, siglas en inglés) tiene como
objetivo encontrar una estimación de los parámetros β 0 y β 1 de manera que se minimice las
distancias entre los puntos y la recta:
N 2

Min ∑ (Yi − β 0 − β1 X i )
β 0 , β1
i =1

Los estimadores mínimos cuadrados son los mejores que se pueden conseguir (insesgados,
eficientes y consistentes) si se cumplen las hipótesis sobre los errores.
N

∧ ∑(X i − X )(Yi − Y ) ∧ ∧

β1 = β 0 = Y − β1 X
sxy
Yˆi = βˆ 0 + βˆ 1 Xi i =1
N
=
∑(X
sxx
i − X )2
i =1

Diagrama de dispersión y coeficiente de correlación:

Antes de realizar un modelo de regresión lineal es muy recomendable realizar una


exploración inicial de la relación, mediante:

- Un diagrama de dispersión: sirve para representar gráficamente la relación que


existe entre dos variables cuantitativas. Es una herramienta útil para detectar outliers

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 8 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

- El Coeficiente de correlación lineal de Pearson:

cov( X , Y )
ρ X ,Y =
σ XσY

o Cuantifica la magnitud de la asociación lineal entre dos variables.


o Es adimensional y toma valores entre -1 y 1.
o Valora el sentido de la asociación lineal (correlación positiva o negativa).
o Un valor 0 indica ausencia de correlación lineal.
o La existencia de correlación entre X e Y no implica causalidad.

El coeficiente de correlación de Pearson se ve afectado por valores extremos (outliers),


asimetría u otras desviaciones respecto la distribución normal. En estos casos no es una
medida adecuada. Alternativas:

o Eliminar valores extremos.


o Realizar transformaciones sobre los datos.
o Utilizar coeficientes de correlación no paramétricos (Spearman).

Ejemplo: Asociación entre los días de hospitalización y la edad.

Para analizar la asociación entre variables cuantitativas primero realizamos un gráfico de


dispersión (Plot  Plot Builder  Scatter). Para añadir la recta de regresión
seleccionaremos Scatter smooth y en Smoothing indicaremos Linear model:

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 9 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

Después, si procede, podemos calcular el coeficiente de correlación (Analyis 


Correlation):

Pearson's correlation

Dias
Edad cor 0.2731
N 325
CI* (0.1693,0.3709)
stat** 5.102 (323)
p-value 0.0000
-----------
** t (df)
* 95% percent interval

HA: two.sided

El modelo de regresión se encuentra en el menú Analysis  Linear Model. En Outcome


indicaremos la variable respuesta y en As Numeric la variable explicativa (cuantitativa):

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 10 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

La siguiente ventana que aparece permite personalizar las variables explicativas que se
incluirán en el modelo (Regression Model Builder). Podemos simplemente comprobar
qué modelo es el propuesto y Continuar:

Aparece una nueva ventana donde se pueden previsualizar los resultados:

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 11 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

La correspondiente recta de regresión es:

Diaˆsi = 5,4585 + 0,2363 Edad i

Observación: El explorador de modelos no es compatible con


DeducerRichOutput 1. Para poder visualizar los resultados correctamente debemos
deshabilitar el paquete del menú Package Manager y reiniciar el programa.

Desde la pestaña Added Variable podemos ver gráficamente el modelo ajustado:

Observación: En este gráfico las variables aparecen centradas, es decir, se ha


restado el valor medio a todos los casos.

1 DeducerRichOutput es un paquete que permite obtener los resultados en formato html. Se instala con la
siguiente instrucción: install.packages("DeducerRichOutput", repos="http://R-Forge.R-
project.org").
______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 12 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

2.2 Inferencia en regresión lineal simple


Las pruebas de hipótesis más frecuentes consisten en contrastar los parámetros de la recta
de regresión:

H0: β 0 = 0 H0: β 1 = 0
H1: β 0 ≠ 0 H1: β 1 ≠ 0

La prueba estadística viene dada por:


βˆi
t=
s.e.( βˆi )
Donde s.e. corresponde al error estándar asociado al parámetro β i y t ~ t n-2 (distribución t
de Student con n-2 grados de libertad).

o Una variable explicativa no informativa, es equivalente a pensar que la pendiente de


la recta de regresión es nula.
o Una variable explicativa informativa será aquella cuyo cociente sea distinto del valor
0, ya sea negativo o positivo. Es decir, el valor de la variable explicativa puede
explicar en parte el valor observado en la variable respuesta.

Intervalos de confianza para los parámetros de regresión

Intervalo de confianza del 100(1 – α) % para el parámetro β 1 :


 ∧ ∧

β ∈  β 1 ± t n −2,1− α × s.e.( β 1)
 
1
2

o El error estándar (SE) es una medida de precisión del estimador.


o Para obtener el IC para los parámetros del modelo lineal, se puede utilizar la
función de R confint(nombre_modelo).

Observación: Para trabajar con sintaxis es recomendable trabajar desde un


documento de sintaxis (File – New document).

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 13 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

2.3 Descomposición de la variabilidad


El objetivo del modelo de regresión es el de explicar la variabilidad observada en la variable
respuesta. Para ello, se intentará descomponer la variabilidad total en dos componentes: la
variabilidad explicada y la variabilidad residual.

La variabilidad total observada viene representada por la suma de las desviaciones al


cuadrado entre los valores observados y el promedio total:

SST = ∑ (Yi − Y )
2

La suma de cuadrados total (SST) se descompone en la suma de cuadrados de la regresión


(SSR) y la suma de los cuadrados de los errores (SSE):

SST = SSR + SSE

( )
donde SSR = ∑ Yˆi − Y , SSE = ∑ Yi − Yˆi y
2 2
( )
i i

• Y Corresponde al valor observado para la observación i


i

• Y i Corresponde al valor predicho para la observación i


• Y Corresponde al promedio global

Ejemplo gráfico de la descomposición:

SST = SSR + SSE

Todo el planteamiento anterior permite formular la prueba F para contrastar si el modelo


es válido. Los cálculos que conducen a la obtención del valor F de la prueba y a su
significación estadística habitualmente se presentan en formato de tabla, recibiendo el
nombre de tabla ANOVA:

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 14 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

Fuentes de Grados de Suma de Cuadrados F


Variación Libertad Cuadrados Medios

Debido a la 1 SSR MSR=SSR/1 MSR/MSE


regresión
Debido al n-2 SSE MSE=SSE/n-2
Error
Total n-1 SST

Ejemplo:

El coeficiente de determinación:

El coeficiente de determinación, R2, representa la proporción de la variabilidad total de la


muestra que es explicada por la relación lineal entre X e Y. Se calcula como:
SSR
R2 =
SST
El coeficiente de Determinación varía entre 0 y 1. Para el modelo de regresión lineal
simple, coincide con el coeficiente de correlación lineal de Pearson al cuadrado.

Estimador de σ2:

Finalmente, se puede obtener la estimación de la variabilidad residual como:


SSE
σˆ 2 =
n−2
Ejemplo:

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 15 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

2.4 Análisis de los residuos


El residuo es la diferencia entre el valor observado y el valor predicho por la recta de
regresión. Puede ser considerado como el error aleatorio observado.

Tipos de residuos:
o No tipificados. Diferencia entre un valor observado y el valor pronosticado por el
modelo. Proporciona el residuo bruto: ei = Yi − Yˆi
o Tipificados (de Pearson o estandarizados). El residuo dividido por una estimación
de su error típico. De este modo tienen una media de 0 y una desviación típica de 1.
o Estudentizados. Residuo dividido por una estimación de su desviación típica que
varía de caso en caso, dependiendo de la distancia entre el valor de la variable
independiente y su media.

El estudio de los residuos se realiza básicamente a partir del diagrama de dispersión entre
los valores residuales y los valores predichos, representando las parejas de puntos: ( ei , Yˆi )

Observación: Es recomendable analizar con detalle las observaciones con residuos


tipificados (o estudentizados) fuera del rango [-2,2].

A continuación, se muestran algunas situaciones en las que se detectan incumplimientos en


las suposiciones del modelo.

Caso 1: Errores no independientes

Y vs. X Residuos vs. Predichos

En el gráfico de dispersión Y vs. X se observa una aparentemente buena asociación lineal,


sin embargo en el gráfico de residuos se observa un claro patrón. Inicialmente los errores
son positivos, luego negativos y posteriormente positivos de nuevo. Esto es sinónimo de
errores no independientes.

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 16 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

La conclusión es que el modelo subyacente no es realmente lineal y por lo tanto está mal
especificado. En realidad el modelo es cuadrático. Gráficos de residuos similares (o
invertidos) se obtendrían si el modelo subyacente fuera cúbico, de otro orden de potencia,
exponencial o logarítmico.

El modelo de regresión lineal no sería válido.

Caso 2: Heterocedasticidad

Y vs. X Residuos vs. Predichos

En el gráfico de dispersión Y vs. X se observa una cierta asociación lineal, no obstante, en


el gráfico de residuos se observa de nuevo un claro patrón. A medida que los valores
predichos son mayores, la variabilidad del error aumenta. Esto es sinónimo de errores que
no cumplen la condición de igualdad de varianza (homocedasticidad).

La conclusión es que el modelo subyacente aunque sea lineal está mal especificado. Sería
necesario estudiar la naturaleza de los datos. A veces es suficiente realizar algún tipo de
transformación a la variable respuesta con el objetivo de estabilizar la variabilidad del error
(logaritmos, raíz cuadrada). Gráficos similares se obtienen cuando la variable respuesta es
en realidad un conteo, un porcentaje o el tiempo transcurrido hasta cierto evento. Tales
variables respuesta suelen provocar residuos no normales.

El modelo de regresión lineal no sería válido.

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 17 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

Caso 3: Outliers

Y vs. X Residuos vs. Predichos

En el gráfico de dispersión Y vs. X se observa de nuevo cierta asociación lineal, pero se


detecta la presencia de un valor extraño. En el diagrama de residuos se puede comprobar
cómo el residuo para esta observación es desmesuradamente grande. De hecho, la recta de
regresión está ligeramente desplazada hacia arriba y no pasa por el centro de la nube de
puntos. La recta ajustada pierde consistencia:
- Los valores influyentes son valores que tienen un peso relevante en el modelo
resultante, y la eliminación de estos provoca cambios sensibles en los coeficientes.
- Todos los estadísticos pueden ser seriamente distorsionados por una única
observación incorrecta.

El modelo de regresión lineal no sería válido.

Caso 4: Variables ocultas

Y vs. X Residuos vs. Predichos

En el gráfico de dispersión Y vs. X se observa de nuevo cierta asociación lineal, pero se


detecta un comportamiento de los residuos sumamente curioso. Para un gran grupo de
______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 18 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

observaciones el residuo es positivo y para el resto de observaciones es negativo.


Prácticamente no hay observaciones con residuo próximo a 0. La distribución de los
residuos no es normal ya que siguen una distribución bimodal.

El modelo de regresión lineal no sería válido. Sin embargo, se puede buscar una
interpretación alternativa, ya que de hecho, se observan dos poblaciones distintas. Si estas
dos poblaciones pueden ser identificadas por una tercera variable, esto indicaría que el
modelo no está bien especificado ya que omite dicha variable. El modelo de regresión lineal
sería válido si se incluye esta tercera variable en el modelo.

Existen otras situaciones distintas en que se puede intuir el origen del incumplimiento de
las suposiciones, pero son más inusuales.

Como regla general para validar el modelo de regresión mediante el estudio de los residuos
es recomendable asegurarse de que no hay ningún tipo de patrón en el gráfico de Residuos
vs. Predicciones y comprobar cada una de las suposiciones del modelo:

o Modelo correctamente especificado.


o Normalidad de los residuos (muestras pequeñas).
o Independencia de los residuos.
o Homogeneidad de varianza (constante e independiente de los valores predichos).
o No existencia de valores anómalos.

El análisis de los residuos se puede hacer a partir de los resultados que aparecen en la
pestaña Diagnostics:

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 19 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

También se pueden guardar como variables los residuos desde la pestaña Export.

Valores influyentes

Todos los estadísticos pueden ser seriamente distorsionados por un único valor incorrecto.
Los valores influyentes son valores que tienen un peso relevante en el modelo resultante, y
la eliminación de estos provoca cambios sensibles en los coeficientes. Por este motivo, es
necesario comprobar la validez de la observación en cuestión.

Pueden detectarse estudiando los residuos de cada observación, o bien a partir del gráfico
de la distancia de Cook.

Diagrama Scale-Location: este diagrama representa la raíz cuadrada del valor absoluto de
los residuos del modelo y permite validar la hipótesis de homocedasticidad.

Diagrama Residuals vs Leverage: permite detectar los valores influyentes y anómalos,


que se determinan a partir de la distancia de Cook.

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 20 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

2.5 Transformaciones
La hipótesis básica del modelo de regresión lineal simple es que la relación entre X e Y es
lineal, pero en muchos casos en el gráfico de la variable respuesta frente a la variable
explicativa puede verse que la relación no es de otra naturaleza.

A pesar de ello, el modelo de regresión lineal continúa siendo válido en muchas situaciones
porque la relación puede convertirse en lineal por medio de una transformación simple en
la variable respuesta Y (trabajando con log(Y), 1/Y, √Y... ), o en la variable explicativa, X, o
en ambas.

Algunos de los ejemplos de transformaciones más interesantes son los siguientes:

Trans X Trans Y

Exponencial t(x)=x t(y)=ln(y)

Recíproca Y t(x)=x t(y)=1/y

Recíproca X t(x)=1/x t(y)=y

Doble rec. t(x)=1/x t(y)=1/y

Logaritmo X t(x)=ln(x) t(y)=y

Multiplicativo t(x)=ln(x) t(y)=ln(y)

Raíz c. X t(x)= √x t(y)=y

Raíz c. Y t(x)=x t(y)= √y

Curva S t(x)=1/x t(y)=ln(/y)

Ejercicio: Calcular la variable LogDias y volver a ajustar el modelo.

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 21 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

2.6 Modelo de regresión lineal múltiple


Como hemos visto, la regresión lineal simple permite explorar la naturaleza de la relación
entre dos variables continuas. Podemos intuir que añadiendo otras variables al modelo, se
podrá predecir con mayor precisión la variable respuesta.

Habitualmente se utiliza la regresión múltiple de modo exploratorio con el objetivo de


encontrar relaciones empíricas entre las variables disponibles. Dichas relaciones pueden
ayudar a predecir la respuesta, pero no necesariamente su relación será causal.

Yi = β 0 + β1 X i1 + β 2 X i 2 + ... + β k X ik ε i

Y variable respuesta
X j variables explicativas, j = 1, … , k
β 0 término independiente. Representa el valor esperado de Y cuando todas las variables
explicativas son 0
β j coeficiente de regresión de la variable j-ésima Representa el cambio esperado en Y
cuando X j varía en una unidad
ε corresponde a la perturbación aleatoria no explicada (se asume, ε i ~ N (0, σ 2 ))

El objetivo del modelo de regresión es poder estimar los parámetros β 0 , β 1 ,…, β k y σ2, que
representa la variación de ε.

Observación: El modelo no será eficiente si incluye variables que no sean


estadísticamente significativas.

Al aplicar esta técnica se asume que se cumplen los mismos criterios que en el caso de la
regresión simple.

Cuando el objetivo del análisis es explicativo (confirmatorio) en lugar de predictivo


(exploratorio), es imprescindible certificar la confirmación de las hipótesis para aplicar el
modelo.

El coeficiente de determinación:

Ahora, R2 mide la explicación conjunta conseguida con todas las variables independientes
introducidas en el modelo de regresión. No existe un criterio definido para decidir si el
valor observado de R2 es grande o pequeño; depende del contexto del estudio.

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 22 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

R2 corregido: Si se introduce una nueva variable en el modelo, R2 siempre aumenta (ya que
se consigue explicar algo más, aunque sea muy poco). De la misma manera, al quitar una
variable R2 siempre disminuye. Como nos interesa saber si es conveniente introducir/quitar
una variable en el modelo, se ajusta R2 según los grados de libertad (el número de variables
consideradas en el modelo):
2 k −1
R = R2 − (1 − R 2 )
n−k
2
De esta manera, un aumento en R indica que el modelo ha mejorado al añadir/quitar una
variable.

Tabla ANOVA:

Como en el caso del modelo de Regresión Lineal Simple, se resumen los cálculos en la tabla
ANOVA:

Fuentes de Grados de Suma de Cuadrados F


Variación Libertad Cuadrados Medios
Debido a la K-1 SSR MSR=SSR/(k-1) MSR/MSE
regresión
Debido al Error n-k SSE MSE=SSE/(n-k)

Total n-1 SST

Ejercicio: Añadir el Peso ingreso como variable explicativa en el modelo.

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 23 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

2.7 Colinealidad
Cuando se desee interpretar y comparar los diferentes coeficientes del modelo, es necesario
que las variables independientes no estén correlacionadas entre sí. En tal caso, el efecto de
cada variable viene dado directamente por su coeficiente. En caso contrario, no será fácil
interpretar el modelo.

Para comprobar la existencia de colinealidad, se analiza la correlación entre las variables


explicativas y se calculan diversos índices de colinealidad: FIV (factor de incremento de la
varianza) o Tolerancia:

Tolerancia = 1 / FIV

El índice FIV se calcula para cada variable independiente y mide la proporción de


variabilidad de dicha variable que ya está explicada por el resto de variables independientes
incluidas en el modelo.

De este modo, una variable explicativa con un valor FIV elevado indicaría que está
altamente explicada por el resto de variables predictivas y por lo tanto una situación
incorrecta.

Un criterio habitual para declarar que el valor FIV j (FIV asociada a la variable j-ésima del
modelo) es elevado es comparar con el término:

FIV j = 1/(1-R2)

siendo R2 el coeficiente de determinación del modelo.

Efectos de la colinealidad:

o Las desviaciones estándar de los coeficientes de regresión están sobreestimadas,


con lo que aparecen como no significativos coeficientes que en realidad sí lo son.
o Puede suceder que ninguno de los coeficientes de regresión sean distintos de cero
(no significativos) y que, a nivel conjunto, sí lo sean.
o Los coeficientes de regresión estimados no son consistentes, es decir, pueden
cambiar al modificar la muestra o al introducir nuevas variables en el modelo.

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 24 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

Niveles de colinealidad:

No hay criterios claros para determinar si un índice FIV es elevado o no. No obstante
algunas referencias podrían ser:

Tolerancia FIV Colinealidad


Toler >= 1 FIV <= 1 No existe

0,3 < Toler < 1 3,33 > FIV > 1 Poca

0,1 < Toler < 0,3 10 > FIV > 3,33 Elevada

0,01 < Toler < 100 > FIV > 10 Excesiva


0,1
Toler < 0,01 FIV > 100 Colinealidad perfecta

Los estadísticos de colinealidad se pueden obtener desde la pestaña de Options – Model


Diagnostics – Variance Inflation Factors:

Ejemplo:

Ejercicio: Añadir la Talla y el IMC como variables explicativas en el modelo.

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 25 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

3 MODELO ANOVA

3.1 Introducción al modelo ANOVA


Es posible expresar en términos de modelo estadístico un análisis ANOVA. Admitiendo
que los valores observados y ij fluctúan alrededor de un valor medio μ j que caracteriza a cada
grupo, el modelo es de la forma:
yij = µ j + eij
donde eij ~ N (0, σ 2 ) son independientes entre sí.

En el menú del modelo de regresión (Analysis  Linear Model) indicaremos la variable


respuesta en Outcome y en As Factor la variable explicativa categórica:

Observación: Es recomendable que la variable esté definida como Factor en la


base de datos.

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 26 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

En la ventana de Linear Regression Model Explorer se pueden previsualizar los


resultados:

Tabla ANOVA:

Como en los modelos de regresión anteriores, se resumen los cálculos en la tabla ANOVA:

Fuentes de Grados de Suma de Cuadrados F


Variación Libertad Cuadrados Medios

Entre Grupos A GLA SSA MSA FA

Debido al Error GLE SSE MSE

Total GLT SST

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 27 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

3.2 Estimación de parámetros


Para incluir variables categóricas en el modelo, se utilizan las transformaciones a variables
indicadoras (dummy). La transformación más habitual es la siguiente:

Variable
V1 (A) V2 (B) V3 (C)
original
A 1 0 0
B 0 1 0
A 1 0 0
C 0 0 1
A 1 0 0
B 0 1 0
A 1 0 0
C 0 0 1

Siempre se cumple que V1+V2+V3=1, por lo tanto, no es posible considerarlas todas


juntas dentro del modelo ya que están auto-explicadas.

Se debe eliminar una variable cuya categoría actuará como categoría de referencia, por
ejemplo, la categoría C (V3).

De este modo, incluir en el modelo una variable categórica con tres categorías es
equivalente a incluir las variables indicadoras V1 y V2.

El modelo para esta variable categórica quedaría como:

Y = β 0 + β1V1 + β 2V2 + ε

Observación: En Deducer, la categoría de referencia es siempre la primera. Esta se


puede cambiar desde el Editor de Factores.

Ejemplo:

El correspondiente modelo es:

Dias = 17,74 + 2,61 * Edad[ 60−67 ) + a,93 * Edad[ 67−86 ]

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 28 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

3.3 Estimación de medias e IC


Aunque en el análisis de la varianza el objetivo primordial es comparar grupos, también es
posible estimar los promedios y obtener intervalos de confianza. Esto puede permitir
aportar márgenes a la estimación de las magnitudes estudiadas.

Para obtener la estimación de los parámetros debemos seleccionar la casilla Estimate


confidence intervals del botón Means:

3.4 Comparaciones 2 a 2
Muchas veces el interés real del estudio reside en saber qué medias difieren entre sí después
de realizar la prueba ANOVA. Las comparaciones se realizan mediante sucesivas pruebas t
comparando todos los posibles pares de medias 2 a 2. Cada una de estas pruebas utiliza la
estimación de la variabilidad conjunta proporcionada por el modelo con todos los grupos,
mejorando así el resultado de los contrastes independientes.

Para realizar todas las comparaciones 2 a 2 debemos seleccionar el tipo de comparación


Tukey en el botón Post Hoc. En caso de no estar interesados en realizar todas las
comparaciones podríamos seleccionar otro método (por ejemplo, Dunnet cuando
queremos comparar todos los grupos frente a uno de referencia).

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 29 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

Sin embargo, este procedimiento conduce habitualmente a un elevado número de


comparaciones. Por ejemplo, si se desea comparar las medias de 5 grupos, será necesario
realizar 10 comparaciones 2 a 2.

Si el nivel de significación o error de tipo I (probabilidad de rechazar la hipótesis nula


cuando en realidad es cierta) de cada prueba se fija en el 5%, se puede comprobar que al
realizar 10 pruebas (independientes entre sí) cada una al 5%, la probabilidad de rechazar al
menos una de las hipótesis nulas es aproximadamente ¡del 40%! de manera que con un
40% de probabilidades se obtendría alguna conclusión falsa.

Existen diversos métodos para ajustar este tipo de error y conseguir que efectivamente el
error conjunto no sea superior al 5%.

3.5 Ajuste por multiplicidad de contrastes


Una primera aproximación al tratamiento de este problema es debida a Fisher, quién
propuso que sólo se compararan las diferencias entre medias 2 a 2 si el precedente
ANOVA ha resultado significativo. Estas comparaciones a posteriori se realizan sin
corrección alguna (No Correction).

El método de Bonferroni es extremadamente conservador, pero no depende de la


muestra, sólo del número de comparaciones. Consiste en sustituir el nivel de significación α
considerado en cada prueba por α /nc siendo nc el número de comparaciones. El método
de Sidak sustituye α por 1 - (1 - α)1/nc, siendo utilizado cuando el investigador sólo está
interesado en analizar un número reducido de todos los posibles contrastes.

Existen otros métodos para controlar el error de cada comparación, entre ellos la
corrección de Scheffé (Scheffé, 1953) y el método HSD (Honestly Significant Difference)
de Tukey (Tukey, 1953), el más adecuado cuando se desea realizar todas las posibles
comparaciones por parejas de grupos.

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 30 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

Cuando todas las diferencias que se quieren estudiar son respecto a un mismo grupo
control, es habitual realizar el ajuste de Dunnett (Dunnett, 1955). También existen
métodos de comparación de grupos de medias que permiten detectar grupos homogéneos
de medias cómo el ajuste de Duncan y la corrección SNK (Student-Newman-Keuls), que
son adecuados cuando los grupos están equilibrados y el interés reside en obtener una
comparación global.

Puede darse la situación que la prueba ANOVA no permita concluir diferencias entre
grupos y sin embargo se detecten diferencias en las comparaciones múltiples. Normalmente
esta situación es provocada por la consideración de demasiados grupos.

En Deducer, para poder realizar las correcciones clásicas seleccionaremos la opción


single-step method. Otras opciones corresponden a estrategias de ajuste por
multiplicidad de contrastes de mayor grado de complejidad.

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 31 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

3.6 Validación del modelo


La variación observada en la respuesta se asume que es debida al efecto de los factores y a
cierto error aleatorio independiente que explica la variación residual. Se asume también que
dicho error aleatorio sigue una distribución normal con media 0 y desviación constante
(igual en todas las observaciones).

Para estudiar la validez del modelo es necesario confirmar estas hipótesis mediante el
estudio de los residuos (valores predichos - valores observados): normalidad, tendencias,
etc. y la realización de un contraste de homocedasticidad (homogeneidad de varianzas entre
los grupos, es decir variabilidad común).

En caso de que las varianzas no sean iguales podemos seleccionar la opción Robust to:
Unequal Variance del botón Options.

En la pestaña Diagnostics podemos visualizar los gráficos de diagnóstico: histograma de


los residuos y QQ Plot para evaluar la normalidad, gráficos de dispersión para evaluar la
homocedasticidad y la independencia, y el gráfico de Cook para identificar valores
influyentes.

3.7 ANOVA de dos factores


La prueba ANOVA de dos factores permite comparar las medias de los r 1 grupos que
define una variable categórica de interés principal al mismo tiempo que se analiza el efecto
en la respuesta de otra variable categórica secundaria con r 2 grupos.

La prueba de hipótesis principal de la prueba ANOVA de dos factores es:

H 0 : Eliminando el efecto del factor secundario, no existen diferencias entre los


grupos del factor principal
H 1 : Eliminando el efecto del factor secundario, existen diferencias entre los grupos
del factor principal

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 32 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

Tabla ANOVA:

La tabla ANOVA se actualiza para añadir una nueva fila de información correspondiente al
factor secundario.

Fuentes de Grados de Suma de Cuadrados F


Variación Libertad Cuadrados Medios

Entre Grupos B GLB SSB MSB FB

Entre Grupos A GLA SSA MSA FA

Debido al Error GLE SSE MSE

Total GLT SST

Ejercicio: Añadir la variable Factores de riesgo en el modelo agrupándola previamente en 4


categorías: 0, 1, 2 y 3-4.

3.8 Interacciones
La interacción entre dos variables se produce cuando el efecto en la respuesta de una de
ellas depende de los niveles de la otra.

En el caso de añadir la interacción al modelo, también se calculan las correspondientes


sumas de cuadrados y grados de libertad y se añade una nueva fila a la tabla ANOVA. Las
sumas de cuadrados residuales y sus grados de libertad varían ya que se añade más
información al modelo. Finalmente, todos los estadísticos F deben ser recalculados.

Para incluir una interacción en el modelo en Deducer seleccionaremos la opción “ : ” en la


ventana donde se especifica el modelo:

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 33 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

Para interpretar el efecto de una interacción se puede estudiar el gráfico de interacciones,


seleccionando la interacción en el botón Plots:

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 34 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

Si no se observan líneas paralelas entonces se podría considerar la existencia de la


interacción. En este caso podemos observar que el hecho de tener más factores de riesgo
afecta especialmente a los pacientes de mayor edad.

Se puede calcular el efecto de la variable “Factores de riesgo” en cada uno de los grupos de
edad. Para ello se debe instalar el paquete phia, cargarlo desde el menú Package Manager
y utilizar la función: testInteractions(model, fixed=, across=):

model.lm <- lm(formula=Dias~Edad.cat+FR.cat+Edad.cat:FR.cat,data=ADL)


testInteractions(model.lm, fixed="Edad.cat", across="FR.cat")

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 35 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

4 MODELO LINEAL GENERAL (GLM)

4.1 Introducción al GLM


El Modelo Lineal General (GLM) es una generalización de los modelos de regresión y del
análisis de la varianza. En particular algunas de las técnicas que permite implementar son:

o Regresión simple
o Regresión múltiple
o Análisis de la varianza (especialmente para datos no equilibrados)
o Análisis de la covarianza
o Regresión y ANOVA simultáneamente

El Modelo Lineal General (GLM) se aplica cuando se desea analizar simultáneamente el


efecto de diversas variables de naturaleza distinta en una variable respuesta cuantitativa. Por
ejemplo:

o Estudiar posibles factores de riesgo/pronóstico de tener hipertensión.


o Predecir el nivel de gasto a partir de variables socio-económicas.
o Analizar la satisfacción de los usuarios en función de los productos que utilizan.
o Comparar diversas pautas de tratamiento para el tratamiento del Alzheimer
teniendo en cuenta la edad y el sexo.
o Evaluar el efecto conjunto de administrar diuréticos y antihipertensivos en la
reducción de la tensión arterial.

Las suposiciones del modelo son las siguientes:

o Existe una relación lineal entre las variables explicativas y la variable respuesta:
Y = β 0 + β 1 X 1 + β 2 X 2 + ... + β k X k + ε
o El modelo está bien especificado (no falta ninguna variable importante).
o ε ij ~ N (0, σ 2 ) son independientes entre sí.

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 36 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

Ejemplo: Evaluar el número de días de hospitalización según el grupo de tratamiento,


ajustando por el sexo, la edad, la diabetes y la interacción entre grupo y diabetes.

Añadimos la interacción entre el grupo y la diabetes:

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 37 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

Resultados:

En el botón Plots podemos seleccionar las variables para representarlas gráficamente:

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 38 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

Resultados:

Interacción:

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 39 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

4.2 Sumas de cuadrados


La información contenida en un problema de análisis de datos se puede reinterpretar a
partir de la variabilidad subyacente en la variable respuesta. Una variable constante no
contiene información. Una variable con elevada dispersión contiene mucha información
que potencialmente podría ser explicada. Esta variabilidad se puede cuantificar mediante la
suma de cuadrados total. Los grados de libertad representan unidades de información
disponibles.

DISEÑO EQUILIBRADO DISEÑO EQUILIBRADO


(SIN INTERACCIONES) (CON INTERACCIONES)

Información total: SST Información total: SST

o En los diseños equilibrados, la información aportada por cada factor es


complementaria.
o Si un factor aporta poca información, puede ser recomendable eliminarlo del
modelo.
o Si la interacción no es significativa, es recomendable eliminarla del modelo.
o En los diseños equilibrados incompletos, no es posible evaluar la interacción.

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 40 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

DISEÑO NO EQUILIBRADO
(SIN INTERACCIONES)

Información total: SST

o En diseños no equilibrados, parte de la información aportada por cada fuente de


variación es compartida.
o Es necesario decidir alguna forma de asignar la información explicada a cada factor.
o Si la interacción es relativamente grande, diremos que los factores son colineales o
que los grupos no son homogéneos.

SS TIPO I SS TIPO III

Información total: SST Información total: SST

o En SS tipo I los factores se ajustan de forma secuencial. Primero A y después B. El


factor principal del estudio se ajusta en último lugar, después de eliminar el efecto
de los factores “pronóstico”.
o En SS tipo III los factores se ajustan mutuamente, provocando equívocos si la
intersección es muy grande. Permite identificar qué factores contribuyen en el
modelo constituido por el resto de variables.

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 41 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

DISEÑO NO EQUILIBRADO
(CON INTERACCIONES)

Información total: SST

o Parte de la información aportada por cada fuente de variación es compartida.


Incluso por la interacción.

SS TIPO I SS TIPO III

Información total: SST Información total: SST

o En SS tipo I la interacción se ajusta en último lugar, de esta forma se analiza la


contribución real de la interacción al modelo con los efectos principales.
o En SS tipo III, si la interacción no es significativa se debe eliminar del modelo
inmediatamente, ya que elimina una parte de la información de los factores
principales.

Observación: En Deducer se utiliza las SS tipo II. Se calculan igual que las de tipo
III pero sin tener en cuenta las interacciones.

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 42 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

En la tabla ANOVA del modelo GLM aparecen todas las fuentes de variabilidad
consideradas.

En las SS3, el contraste presentado para cada variable corresponde a: “La variable aporta
información al modelo teniendo en cuenta que el resto de variables ya están incluidas”.
Esto equivale a pensar que tras eliminar el efecto de las variables complementarias, se
evalúa la contribución de la variable en cuestión.

En las SS1, el contraste presentado para cada variable corresponde a: “La variable aporta
información al modelo que incluye las variables que aparecen antes”.

El modelo GLM mide la aportación de cada variable al modelo formado por otras
variables. Por este motivo se debe distinguir entre diferentes tipologías de estudios en
función del objetivo:

o Predictivos: El único objetivo es realizar predicciones de la variable respuesta.


Cuantas más variables mejor.
o Exploratorios: Pretenden evaluar el efecto de diversos factores simultáneamente,
distinguiendo la contribución de cada uno. Si dos factores están asociados, ambos
aparecerán como no significativos.
o Comparativos: El interés reside en comparar grupos, ajustando la variable
respuesta por otras variables influyentes. Únicamente importa la variable que
identifica los grupos (tratamiento), siempre debe permanecer en el modelo. Si existe
falta de homogeneidad basal respecto cierta variable, esta debe permanecer en el
modelo para evitar interpretaciones erróneas.

La interacción mide si el efecto de una variable varía en función de los distintos niveles de
otra variable.

Ante la presencia de una interacción, los efectos principales son difíciles de interpretar.

Cuando una interacción es significativa, debe explorarse cuidadosamente qué niveles


producen un efecto diferenciado.

Cuando una interacción no es significativa, debe eliminarse del modelo ya que puede
producir problemas interpretativos.

Si dos variables miden lo mismo (o están asociadas) su interpretación suele ser


problemática.

Ante la posible existencia de variables asociadas entre sí, deben realizarse pruebas previas
de COLINEALIDAD u HOMEGENEIDAD BASAL.

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 43 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

4.3 Estimación de parámetros


El modelo se ajusta empleando el mismo método que en el modelo de regresión múltiple.

Las estimaciones de los parámetros se interpretan del mismo modo y las significaciones de
los coeficientes corresponden a la hipótesis nula habitual:

H0: β 1 = 0
H1: β 1 ≠ 0

Resultados:

El correspondiente modelo es:

Diâs = 8,01186 + 0,20132*Edad – 2,02438*Grupo Tratamiento – 0,09479*Sexo Mujer +


4,57229*Diabetes Sí – 4,51206*Grupo Tratamiento *Diabetes Sí

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 44 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

4.4 Validación del modelo


A priori, basándose en el conocimiento del ámbito en estudio, el investigador debe
contemplar las precauciones necesarias para asegurar un modelo adecuado:

o Transformar variables, centrarlas u homogeneizarlas con el objetivo de prever


relaciones lineales.
o Recoger información de todas las variables “importantes”.

Al igual que en el modelo de regresión, la validación del modelo ajustado suele realizarse
mediante el estudio del gráfico de los valores residuales y los valores predichos.

Cualquier tipo de anomalía indica que el modelo no es adecuado.

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 45 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

4.5 Otros conceptos


SEPARACIÓN DE MEDIAS: El procedimiento empleado en GLM es idéntico al
ANOVA.

AJUSTES POR MULTIPLICIDAD DE CONTRASTES: Igual que en ANOVA. Los


ajustes por multiplicidad de contrastes deben realizarse siempre en base a los contrastes de
interés para el investigador.

Variables ordinales

En los modelos GLM, las variables ordinales suelen ser consideradas categóricas, sin
embargo, también pueden ser consideradas continuas bajo los siguientes supuestos:

o El efecto en la variable respuesta es lineal.


o La “distancia” entre categorías adyacentes es similar.
o La codificación debería empezar desde el valor 0 y añadiendo una unidad para cada
nueva categoría.

Las variables binarias (SI/NO) codificadas como (1/0) pueden ser introducidas
directamente en el modelo como variables cuantitativas, ya que la misma variable
representa la variable indicadora (dummy) asociada.

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 46 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

4.6 Metodología GLM


1. Validación de la base de datos
2. Resumen descriptivo
3. Análisis de la asociación entre variables explicativas
4. Colinealidad
5. Homogeneidad basal
6. Ajuste del modelo
7. Efectos principales
8. Interacciones
9. Validación
10. Gráfico Residuos vs Predichos
11. Valores influyentes
12. Contrastes a posteriori
13. Predicciones

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 47 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

5 MODELO DE REGRESIÓN LOGÍSTICA

5.1 Introducción
El modelo de regresión lineal múltiple permite predecir o explicar una variable respuesta
continua a través de un conjunto de variables explicativas cuantitativas y/o categóricas.

Sin embargo, en muchas situaciones (por ejemplo en epidemiología) la mayoría de variables


respuesta de interés sólo nos proporciona información sobre la ocurrencia o no de cierto
evento (remisión de síntomas, fallecimiento, etc.). Este tipo de variables reciben el nombre
de variables categóricas dicotómicas o binarias.

Generalmente se identifica la categoría “éxito” con el valor 1 y el valor 0 se asocia a


la categoría “fracaso”. De esta manera, la proporción de unos de esta nueva variable
binaria numérica (con valores 0 ó 1) representa la proporción de éxitos.

5.2 Modelo de regresión logística


El principal objetivo de un modelo de regresión logístico es el mismo que el de ajustar un
modelo a unos datos: encontrar el mejor modelo (con sentido y parsimonioso) para
explicar la relación entre una variable dependiente y un conjunto de covariables.

Los modelos de regresión logística son modelos de regresión que permiten estudiar si una
variable binaria depende, o no, de otra u otras variables (no necesariamente binarias).

La regresión logística es una adaptación de las técnicas de regresión clásicas y permite


obtener un modelo para calcular la probabilidad de ocurrencia de un evento. Esto es, el
interés recae en predecir la ocurrencia de un evento dado un conjunto de
información.

Ejemplos:

o En ciencias políticas, un modelo de regresión logística podría ser usado para


analizar los factores que determinan si un individuo participará o no en unas
elecciones generales.
o En medicina, un modelo de regresión logística se podría utilizar para predecir la
probabilidad de éxito de un tratamiento.
o En economía, un modelo de regresión logística podría modelar la probabilidad de
estar en paro más de 6 meses.

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 48 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

Las únicas propiedades que se deben comprobar para aplicar la técnica de regresión
logística son que la variable dependiente tome exactamente dos valores y que el modelo
esté bien especificado.

Al igual que en el modelo de regresión múltiple, se pueden incorporar variables categóricas


explicativas al modelo mediante el uso de las correspondientes variables dummy.

Antes de aplicar el modelo, también es interesante analizar la asociación de las variables


explicativas y de este modo poder interpretar los coeficientes obtenidos de forma adecuada.

¿Por qué no podemos utilizar un modelo de regresión simple?

Consideremos el siguiente ejemplo.

Si el interés recae en estudiar la relación entre aprobar un examen y las horas de estudio,
podríamos establecer:
P(aprobar) = β 0 + β1horas_de_estudio + ε
y utilizando el Deducer obtendríamos:

𝛽̂0= 0,032
𝛽̂1= 0,026

De donde se concluiría que 1 hora de estudio adicional hace aumentar en media un 2,6% la
probabilidad de aprobar.

Pero ¿cuál sería la probabilidad predicha por el modelo para alguien que ha
estudiado 100 horas?

Conclusión: la relación lineal entre la probabilidad de aprobar y las horas de estudio no es


apropiada.

Cabe tener en cuenta, que además de una predicción sin sentido, hay dos problemas más
sutiles en el uso de un modelo de regresión lineal para una probabilidad:

o La distribución de ε no es Normal como se asume en la regresión lineal.


o La variancia de ε no es constante: existe heterocedasticidad.

A partir de aquí, podemos establecer el modelo de regresión logística paso a paso:

Objetivo: modelizar la probabilidad de “éxito”, p, en función de un conjunto de


covariables, esto es, considerando la variable respuesta:

1 𝑠𝑖 é𝑥𝑖𝑡𝑜
𝑌=�
0 𝑠𝑖 𝑓𝑟𝑎𝑐𝑎𝑠𝑜
______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 49 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

se desea modelizar:

𝑝 = 𝑃(𝑌 = 1/𝑋)

La primera propuesta podría ser:

p = β 0 + X 1β1 + ... + X q β q

Problema: la probabilidad p está siempre restringida a valores del intervalo [0,1] y en este
modelo esta propiedad no queda garantizada.

La segunda propuesta vendría a partir de establecer un modelo para el odds, esto es, el éxito
respecto al fracaso, a partir del cociente:
𝑝
𝑜𝑑𝑑𝑠 =
1−𝑝

Lo que es una magnitud no negativa siendo el 1 el valor de referencia que se interpreta


como “tanto éxito como fracaso”. Si el cociente es mayor que 1, representa más éxito que
fracaso; y si el cociente es menor que 1, significa más fracaso qué éxito.

Cabe observar que el odds es el concepto que está detrás de muchas apuestas cuando se
habla de “la apuesta es de 2 a 4” lo que significa tener un odds de 2/4=0.5, esto es el éxito
es la mitad del fracaso.

Segunda propuesta para la probabilidad de éxito, p:

𝑝
= 𝑒 𝛽0 +𝛽1𝑋1 +𝛽2 𝑋2+⋯+𝛽𝑞𝑋𝑞
1−𝑝

Lo que es equivalente a:

𝑝
𝑙𝑛 � � = 𝛽0 +𝛽1 𝑋1 + 𝛽2 𝑋2 + ⋯ + 𝛽𝑞 𝑋𝑞
1−𝑝

Cabe destacar que, este es un ejemplo de uso de transformaciones. Concretamente se ha


utilizado la transformación logit para relacionar la probabilidad de éxito con las covariables,
de manera que:

𝑒 𝛽0 +𝛽1𝑋1+𝛽2 𝑋2 +⋯+𝛽𝑞𝑋𝑞
𝑝=
1 + 𝑒 𝛽0 +𝛽1𝑋1 +𝛽2 𝑋2+⋯+𝛽𝑞𝑋𝑞

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 50 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

Ejemplo: Explorar la relación entre el reingreso y la edad.

Una primera aproximación seria a partir del gráfico de dispersión entre las dos variables:

No obstante no pone de manifiesto la relación deseada. Si en cambio, calculamos y


representamos las proporciones de individuos que reingresan correspondientes a distintos
grupos de edad:

Total en cada grupo Reingreso No Reingreso


Grupos de edad
N N (%) N (%)
<50 25 4 (16.0 %) 21 (84.0 %)
50-54 43 11 (25.6 %) 32 (74.4 %)
55-59 43 14 (32.6 %) 29 (67.4 %)
60-64 85 24 (28.2 %) 61 (71.8 %)
65-69 72 45 (62.5 %) 27 (37.5 %)
70-74 36 24 (66.7 %) 12 (33.3 %)
75+ 21 14 (66.7 %) 7 (33.3 %)
Total 325 75 (23.1 %) 225 (76.9 %)

En la gráfica se representa la relación entre la variable independiente (edad) y la proporción


de individuos que reingresan:

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 51 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

5.3 Ajuste del modelo

Para obtener las estimaciones de los coeficientes ( 𝛽̂ ) no es posible aplicar el método de los
mínimos cuadrados como en el modelo clásico de regresión lineal. Cuando se aplica el
método de los mínimos cuadrados ordinarios en un modelo con una variable respuesta
binaria las estimaciones así obtenidas no mantienen las propiedades deseadas.

El método general de estimación es el de máxima verosimilitud. Para poder aplicar este


método se debe construir la función de verosimilitud (L). Esta función representa la
probabilidad condicionada de haber observado la muestra obtenida. La técnica consiste en
encontrar los valores para los parámetros que maximicen esta probabilidad.

En Deducer lo realizamos mediante el menú Analysis  Logistic Model:

Observación: En la pestaña Split podemos modificar la categoría de referencia.

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 52 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

Las estimaciones de los parámetros son:

De donde el modelo estimado es:

𝑝
𝑙𝑛 � � = 𝛽0 +𝛽1 𝑋1 = −5,69 + 0,0856 𝐸𝑑𝑎𝑑
1−𝑝

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 53 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

5.4 Interpretación de los coeficientes


Objetivo: ¿Qué aportan los coeficientes del modelo en las respuestas a las preguntas que
motivaron el análisis?

Como se ha definido anteriormente, un odds se define como la probabilidad de éxito


dividida por la probabilidad de fracaso.

El cociente entre odds de dos grupos de observaciones diferentes se llama Odds Ratio (OR).
Para una variable explicativa binaria con valores 0/1:

Y=0 Y=1
1 𝑒 𝛽0
X=0 1 − 𝑝/𝑥=0 = 1 − 𝑝/𝑥=0 =
1 + 𝑒𝛽0 1 + 𝑒𝛽0
1 𝑒 𝛽0 +𝛽1
X=1 𝑝/𝑥=1 = 𝑝/𝑥=1 =
1 + 𝑒 𝛽0 +𝛽1 1 + 𝑒𝛽0 +𝛽1

Si en el modelo se ha incluido una variable explicativa binaria X codificada con los valores
0 y 1, el correspondiente coeficiente (𝛽1) en el modelo tiene la siguiente interpretación:

OR X 1 vs X0 = e β1

y mide el cociente entre las proporciones de éxito respecto de las de fracaso de la variable
respuesta para los dos grupos definidos por la variable explicativa.

Significación de los OR

Debido a que la distribución de los OR tiende a ser bastante sesgada, y por lo tanto a pesar
de que para muestras grandes en teoría tiene una distribución normal, esta hipótesis no es
cierta para muestras pequeñas.

Por ello el cálculo de los intervalos de confianza para los OR se hace a partir de los
extremos de los intervalos para los coeficientes del modelo.

Significación de los coeficientes

La significación de los coeficientes del modelo se mide a través del estadístico de Wald,
calculado para cada coeficiente del siguiente modo:

2
 βˆi 
wi =  
 SE βˆ
 i( ) 

donde SE significa error estándar.
______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 54 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

Este estadístico sigue una distribución Ji-Cuadrado con 1 grado de libertad si la hipótesis
nula de que el parámetro es 0 es cierta. Sin embargo, el estadístico de Wald no es
demasiado fiable si 𝑆𝐸(𝛽̂𝑖 ) es muy grande respecto a lo que puede ocurrir precisamente
para valores grandes de 𝛽̂𝑖 .

Variables explicativas categóricas

Cuando se dispone de variables explicativas categóricas y se desea incluirlas en el modelo,


es necesario llevar a cabo las transformaciones en variables dummy del mismo modo que en
el modelo de regresión múltiple. En el Deducer debemos definirlas como Factor.

Los coeficientes obtenidos para estas variables dummy tienen una interpretación muy
interesante en forma de Odds Ratio entre categorías.

Ejemplo (continuación): Las estimaciones del modelo logístico con la variable Edad
categorizada son:

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 55 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

Con lo cual los pacientes con edades entre 60 y 67 años tienen un riesgo de reingreso 1,7
veces mayor que los pacientes con edades entre 42-59:
=e = 1,45
0 , 37
ORˆ Edad ( 60−67 ) vs Edad ( 42 −59 )

Para obtener los OR así como sus intervalos de confianza se debe instalar el paquete
epiDisplay y cargarlo desde el menú Package Manager.

Para obtener los OR y sus correspondientes intervalos de confianza, se debe ejecutar la


siguiente sintaxis:

model.glm <- glm(Reingreso ~


Edad.cat,family=binomial(),data=ADL,na.action=na.omit)
logistic.display(model.glm)

Observación: El código que genera Deducer debe modificarse ligeramente para


poder utilizar esta función.

Observación: Una estimación del OR para una variable categórica se puede


calcular directamente a partir de la tabla de contingencia.

Esto es:
40/78
� =
𝑂𝑅 = 1,45
29/82
67/29
� =
𝑂𝑅 = 6,53
29/82

En el caso de considerar la variable Edad (cuantitativa), a partir de las estimaciones de los


parámetros, se pueden obtener los OR como sigue:

=e = 1,089
0 , 0856
ORˆ Edad _ t vs Edat _ t +1

Por lo tanto, el riesgo de reingreso aumenta 1,089 veces con el paso de un año de edad.

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 56 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

En este caso, en Deducer para obtener los OR se realiza mediante la siguiente sintaxis que
pondremos en la parte inferior de la consola: exp(coef(model.glm)) (siendo model.glm
el nombre del modelo estimado). El resultado obtenido es:

Observación: Este cambio puede no ser significativo.

Test de razón de verosimilitud

Para analizar si el modelo es significativo, es decir, si el modelo es significativamente


diferente del modelo vacío (modelo nulo o sin variables explicativas) se utiliza el Test de la
Razón de Verosimilitud (prueba RV). Esta prueba se interpreta de la misma manera que la
tabla ANOVA del modelo.

La prueba compara la verosimilitud de los datos observados bajo un modelo nulo (sin
variables explicativas) y bajo el modelo propuesto (con las variables explicativas).

Se comparan las log-verosimilitud multiplicadas por -2. Esta diferencia sigue una
distribución Ji-Cuadrado con q grados de libertad (q es el número de variables incluidas en
el modelo) si la hipótesis nula de que el modelo propuesto es equivalente al modelo nulo es
cierta.

Coeficiente de determinación

No es posible calcular el coeficiente de determinación del mismo modo en que se calcula


en los modelos de regresión lineal.

Existen dos versiones de este coeficiente cuya interpretación es equivalente:

o Coeficiente R2 de Cox-Snell
o Coeficiente R2 de Nagelkerke

La sintaxis en Deducer es:

library(descr)
LogRegR2(model.glm)

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 57 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

5.5 Bondad del ajuste del modelo


En el modelo clásico de regresión el ajuste del modelo se realiza a partir de los residuos
definidos como la diferencia entre los datos y los valores predichos por el modelo.

En regresión logística hay diferentes maneras de definir la diferencia entre los valores
observados de los datos y los ajustados por el modelo.

Dos medidas de estas diferencias son:

o Residuos de Pearson
o Deviance (tiene el mismo papel que la suma de los cuadrados de los residuos (SSE)
en un modelo clásico de regresión)

Dos estadísticos con distribución chi-cuadrado con J-(q+1) grados de libertad (q es el


número de covariables y J es el número total de combinaciones de valores de las
covariables).

Test de Hosmer-Lemeshow

Es otra prueba para evaluar la bondad del ajuste de un modelo de regresión logística (grado
en que la probabilidad predicha coincide con la probabilidad observada).

La idea es si el ajuste es bueno, un valor alto de la p predicha se asociará con el resultado 1


de la variable respuesta.

Se trata de calcular para cada observación del conjunto de datos la p que predice el modelo,
agruparlas y calcular, a partir de ellas, las frecuencias esperadas, y compararlas con las
observadas mediante la prueba chi-cuadrado.

Para ello se debe instalar el paquete ResourceSelection, cargarlo desde el menú Package
Manager y utilizar la función: hoslem.test(model.glm$y, fitted(model.glm)).

Observación: El modelo debe incluir dos o más variables explicativas.

Tablas de clasificación

Los resultados del ajuste de un modelo de regresión logística se pueden expresar mediante
una tabla de clasificación: la variable respuesta versus los valores de una nueva variable
binaria con valores obtenidos a partir de las probabilidades estimadas mediante el modelo
logístico.

A partir del modelo estimado, se define como pronosticado =1 cuando el valor predicho
de la probabilidad excede un valor fijado previamente (‘cutpoint’) y 0 en otro caso.

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 58 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

A partir de la tabla de clasificación también es posible calcular las siguientes medidas:

o sensibilidad: P(pronosticado = 1 condicionada a Y=1 )


o especificidad: P(pronosticado = 0 condicionada a Y=0 )

Observación:
• Las tablas de clasificación son apropiadas cuando el objetivo es la
clasificación y no sólo la bondad de un modelo de regresión logística.
• En la tabla de clasificación presenta la probabilidad estimada del evento
para cada una de las categorías de la variable explicativa

Curvas ROC

Una descripción más completa de la precisión de la clasificación viene dada por el área bajo
la curva ROC (Receiver Operating Characteristic curve).

Una curva ROC se obtiene mediante un gráfico de dispersión entre la sensibilidad (eje
vertical) y (1-especificidad o “falsos positivos”) en el eje horizontal, para un rango de
posibles cutpoints.

El área bajo la curva (valores de 0 a 1) es una medida de la capacidad que tiene el modelo
para discriminar entre individuos con variable respuesta = “éxito” respecto de individuos
con variable respuesta = “fracaso”.
______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 59 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

Para el ejemplo del modelo anterior, el área bajo la curva (AUC) es 0,62 y la representación
gráfica de esta curva es:

También podemos obtener el intervalo de confianza del AUC. Previamente debemos


instalar el paquete “pROC”. El código para obtener la curva ROC con el intervalo de
confianza es:

plot.roc(Reingreso ~ as.integer(Edad.cat), main="Curva ROC",


percent=TRUE, ci=TRUE, print.auc=TRUE, data=ADL)

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 60 de 61


Modelización Estadística Básica con Deducer
_______________________________________________________________

6 BIBLIOGRAFÍA

Fellows I (2012). Deducer: An R Graphical User Interface (GUI) for Everyone. Version
2012-01-05, URL www.Deducer.org/manual.html

Jobson J. (2013). Applied Multivariate Data Analysis: Regression and Experimental Design.
Springer.

Hosmer, D.W and Lemeshow, S. (2013). Applied Logistic Regression. 3rd ed. Wiley.

Wickham H (2009). ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag, New
York.

En la siguiente página web se puede encontrar ayuda sobre ejemplos de código en R para
usuarios de R que se pueden implementar en Deducer.

www.statmethods.net

______________________________________________________________________

Servei d’Estadística Aplicada, Universitat Autònoma de Barcelona Página 61 de 61

S-ar putea să vă placă și