Sunteți pe pagina 1din 51

MODELOS DE REGRESION CON

RESPUESTA POISSON

Ysela Agüero Palacios


Docente Principal /FCM-UNMSM
DISTRIBUCIÓN DE PROBABILIDAD
POISSON
La distribución poisson propuesta por el
matemático S.D. Poisson (1837), surge como
una aproximación de la distribución binomial
para el caso en que la probabilidad de éxito
() tiende a cero (evento raro) y el tamaño de
muestra es grande (n).
El modelo de probabilidad es dado por :
e (n )
 n y

P (Y  y )  ; y  0,1, 2,...
y!
n= y corresponde al número promedio de éxitos (eventos) que
ocurren en un número muy grande de repeticiones del experimento.
La distribución de Poisson es el modelo de referencia para datos
de recuento (Lindsey, 1998).
La ley de eventos raros establece que el número total de eventos
seguirá, aproximadamente, una distribución de Poisson si un
evento puede ocurrir en cualquier punto del tiempo o del espacio
bajo observación, pero la probabilidad de ocurrencia en un punto
determinado es pequeña (Cameron y Trivedi, 1998).
Es decir, los datos de recuento de fenómenos con una baja
probabilidad de ocurrencia (sucesos raros) siguen una
distribución de probabilidad conocida, denominada distribución
de Poisson.
La distribución de Poisson permite obtener la probabilidad de que
se produzca un número determinado k de ocurrencias de un
evento:
Este modelo también es válido cuando se tiene un intervalo de
tiempo (h), un área o un volumen, entonces se define el modelo
de probabilidad como :

e (h )
 h y

P(Y  y )  ; y  0,1, 2,... ; h  (0, t)


y!

h= y corresponde al número promedio de éxitos (eventos) que


ocurren en un intervalo de tiempo.
Esta distribución de probabilidades es de utilidad en la
epidemiología, por ejemplo, para modelar la incidencia de una
enfermedad en una población en un periodo de tiempo o en un
territorio determinados.
SUPUESTOS

La variable aleatoria número de eventos que ocurren en un intervalo


temporal o espacial de tamaño dado (h) tiene distribución de Poisson si
se cumplen las siguientes condiciones:
El número de eventos que ocurren en un intervalo es independiente
del número de eventos que ocurren en otro intervalo.
Existe un intervalo lo suficientemente pequeño, de tamaño h, para el
cual la probabilidad de que en el mismo ocurra un sólo evento es
proporcional al tamaño del intervalo, es decir es h. Si el intervalo tiene
tamaño igual a la unidad (h=1), entonces,  (constante) es en número
esperado de eventos en un intervalo de longitud unitaria
La probabilidad de que en cualquier intervalo de longitud h ocurran
dos o más eventos, es prácticamente cero.
DISTRIBUCIÓN DE PROBABILIDAD POISSON
La distribución de poisson se aplica cuando el interés es
modelar la ocurrencia de eventos (Y: Número de eventos ) en
un periodo de tiempo, en un área, volumen, etc.
La forma general del modelo es :
e 
 y

P(Y  y )  ; y  0,1, 2,... ;  >0


y!

Este modelo de probabilidades se caracteriza por que su


esperanza y varianza son iguales:

E (Y )   ; V (Y )  
Existe un famoso ejemplo de un libro de 1898 publicado por
Ladislao Von Bortkiewicz que modela «el número de soldados
muertos por patadas de mulas cada año en la caballería prusiana»
, mediante una distribución de Poisson. El título del libro era
“La ley de los números pequeños”.
DISTRIBUCIÓN DE PROBABILIDAD POISSON ( )
DISTRIBUCIÓN DE PROBABILIDAD POISSON ( )
RELACION ENTRE LAS DISTRIBUCIONES DE
PROBABILIDADES POISSON ( ) Y
EXPONENCIAL (1/ )
La distribución de poisson surge naturalmente cuando el tiempo
(T) entre eventos es independiente e idénticamente distribuida
como una Exponencial
t  Exponencial (1/)
Si este es el caso, el número de eventos (y) contabilizados en
cada intervalo tiene distribución poisson con parámetro 
La distribución exponencial entre dos eventos va a resultar de la
suposición, que la ocurrencia de un evento en el intervalo de
tiempo es constante e independiente de la ocurrencia de otro
evento.
MODELO LINEAL
GENERALIZADO
POISSON
MODELO DE REGRESIÓN POISSON

Objetivos :
Predecir una respuesta a partir de un perfil de variables
explicativas (regresores).
Estimar el efecto de uno o más variables sobre una respuesta
que puede ser medida como conteos (Enteros positivos).
Calcular riesgos relativos ajustados de ocurrencia de un
evento (Ej. enfermedad) entre dos grupos de individuos
(expuestos y no expuestos a un factor de riesgo)
MODELO DE REGRESIÓN POISSON
El modelo de regresión poisson se utiliza para explicar una variable
respuesta,
Y: Número de ocurrencias de un evento en un intervalo h
en un periodo de tiempo, un área, o un volumen a partir de un
conjunto de k variables que se supone que explican la variación de
la variable Y, las cuales se denotan como X1,X2,…,Xk. El modelo
se expresa como:
E (Y / X )   ( x)  Exp  X  

El uso de la función exponencial en el modelo asegura que el lado


derecho en la ecuación es siempre positivo, como lo es, el valor
esperado de la variable de conteo, Yi, en el lado izquierdo de la
ecuación.
MODELO DE REGRESIÓN POISSON
El modelo de regresión poisson múltiple se expresa como:
 0   1 X 1 ...  k X
E (Y / X1  x1,..., X k  xk )   ( X )  e k

Supuestos :
1. Las respuestas (yi : i=1,2,…,n) son independientes
2. El número promedio de eventos es constante en cada intervalo
de tiempo o espacio.
3. Las variables explicativas (X1, X2,…, XK) son independientes
4. La variable respuesta tiene distribución Yi  Poisson(i);
i=1,...,n
5. La media y la varianza de la variable aleatoria son iguales,
E(Yi) = V(Yi ) =  i ; i=1,2,...,n (Heterocedasticidad)
6. Dado que V(Y)=V=, entonces, si =1, no existe sobre ni sub dispersión,
pues: E(Y)=V(Y)=
MODELO DE REGRESIÓN POISSON
La variable respuesta Y, puede representar :
El número de accidentes de tráfico que la persona i tiene
durante los últimos 5 años;
el número de hijos de la familia i;
el número de huelgas en la empresa i en los últimos 3 años;
el número de adultos que desarrollan una enfermedad en un
periodo de 3 años.
La abundancia de una especie de ave en un parque
El modelo de regresión de Poisson pretende explicar esta
variable de conteo Y utilizando variables explicativas X1,
…,XK.
MODELO DE REGRESIÓN POISSON
El modelo lineal generalizado poisson también se utiliza
cuando se tiene una variable respuesta binaria pero el tamaño
de muestra es muy grande y la probabilidad de ocurrencia del
evento de interés es muy pequeña.
Por ejemplo, el número de casos de sarampión en una muestra
de 500 000 niños menores de 5 años en el Perú.
La principal bondad del modelo de regresión poisson es que es
capaz de capturar la naturaleza discreta y no negativa de los
datos de recuento en especial cuando tales datos de recuento
proceden de eventos raros.
MODELO DE REGRESIÓN POISSON
Los tres componentes del modelo de regresión poisson (MRP)
son:
• Componente sistemático: El predictor lineal
  X
expresa la combinación lineal de las variables explicativas y
proporciona el valor predicho.
• Componente aleatorio: el componente aleatorio ε , recoge la
variabilidad de Y no explicada por el predictor lineal η
• Función de enlace: En el modelo de regresión de Poisson, la
función que enlaza el componente sistemático η con el valor
esperado μ es la función logarítmica, ya que
η = log(μ )
VARIABLE DE EXPOSICIÓN (OFFSET)

En algunos casos es necesario incluir un término adicional al


modelo, denominado “variable de exposición”, variable offset,
“multiplicador de tasa”, el cual se simboliza por t.
En aquellos casos en los que los recuentos de observaciones se
basan en periodos de tiempo, tamaños poblacionales o tamaños
espaciales no homogéneos, es aconsejable incluir en el modelo
este término adicional.
(i (x)/ti)= exp (0 + 1 x1+....+k xk); i=1,2,...n.

De manera equivalente

ln(i /ti))= ln(ti )+ (0 + 1 x1+....+ k xk); i=1,2,...,n


VARIABLE DE EXPOSICIÓN (OFFSET)

log ( ( x))  log( E (Y / X  x)   0  1 x


  ( x) 
  0  1 x
* *
log 
 tx 
log ( ( x))  log t x   0*   1* x

tx es el número de años/persona

log(tx) juega el rol de variable offset.


Diseños de investigación

Estudios longitudinales (cohortes).

En este tipo de estudio las unidades muestrales son clasificadas


según los niveles de un conjunto de características tales como sexo,
grupo de edad, tipo de tratamiento, estadío de la enfermedad, etc. y
son acompañados por un periodo pre establecido de tiempo desde
que se inicia la observación, hasta el momento que se observa el
evento de interés, (0, t), o hasta que finaliza el estudio (0, To).
La variable:
Y: Número de ocurrencias del evento en el intervalo (0, T 0 )
Tiene distribución poisson con parámetro  = número promedio de
ocurrencias
Estudio longitudinal de cohorte).

Leyenda
Evento
7
Censura
6
5
4
3
2
1

t=0 t=1 t=2 t=3 t=To T


Estudio longitudinal de cohorte).
Los datos observados a partir del estudio de cohortes puede
resumirse en la tabla siguiente:
Exposición al Número de Personas-tiempo)
factor de eventos (T)
riesgo (Y)
Presente y1 t1
Ausente y2 t2
En este caso la variable respuesta es:
Y: Número de eventos en el periodo de tiempo
T: Es el tiempo vivido por la cohorte desde el inicio de la
observación hasta que finaliza el estudio. (Esta es la variable
offset).
EJEMPLO: ESTUDIO DE GERIATRIA
En una investigación acerca de accidentes sufridos por adultos mayores,
se realizó un estudio prospectivo de 6 mese de duración (Estudio de
intervención) con 100 individuos de 65 a más años de edad en buenas
condiciones físicas. Se dividió a los adultos en dos grupos.
Grupo I : Recibió sólo charlas ;
Grupo II : Recibió charlas y se les enseño ejercicios para evitar caídas.
El objetivo del estudio es construir un modelo de predicción para la
variable respuesta:
Y: número medio de caídas en el periodo de 6 meses.
a partir de un conjunto de variables explicativas:
a) El género (1=masculino, 0=femenino),
b) Puntaje en un test de equilibrio
c) Puntaje en un test de balance (mayor puntuación menor balance)
MODELO DE REGRESIÓN POISSON
El modelo de regresión poisson se expresa como:
 0   1 X 1 ...  k X
E (Y / X1  x1 ,..., X k  xk )   ( X )  e k

Supuestos :
Los respuestas (yi : i=1,2,…,n) son independientes
1. a() =1, no existe sobre ni sub dispersión (=1)
2. El número promedio de eventos es constante en todos los intervalos
de tiempo o espacio,
3. Las variables explicativas (X1, X2,…, XK) son independientes entre si.

4. La variable respuesta tiene distribución Yi  Poisson(i); i=1,2,...,n


5. La esperanza y la varianza de la variable aleatoria son iguales, esto es
E(Yi) = V(Yi ) =  i ; i=1,2,...,n (Heterocedasticidad)
MODELO DE REGRESIÓN POISSON

Aplicando el logaritmo natural a ambos miembros del modelo


se tiene ;
ln( E (Y / X ))  ln( ( X ))   0  1 x1  ...   k x k

Donde:
0=ln (): Ocurrencia de un evento en un intervalo de longitud
unitaria, cuando todas las variables independientes son
cero.
j : Cambio en ln() cuando la variable explicativa Xj varia en
una unidad, manteniendo fijadas las demás variables.
INTERPRETACIÓN DE LOS COEFICIENTES
DEL MODELO
Existe una relación entre el exponencial del coeficiente del
modelo de regresión expresado como:
 0   1 X 1 ...  k X k
E (Y / X1  x1 ,..., X k  xk )   ( X )  e

y el riesgo relativo (RR), el cual es una medida de asociación


entre un factor de riesgo y el evento de interés.

El exponencial del coeficiente de regresión j asociado con la j-ésima


variable explicativa es igual al riesgo relativo ajustado entre la
respuesta y el predictor.
ˆ j
RRajustado, j  e
RIESGO RELATIVO (RR)

Recordar que el RR en el caso bivariado se calcula como:

Factor de Enfermedad Total


Riesgo Presente (+) Ausente (-) a
(a  b )
RR 
c
Presente (+) a b a+b (c  d )
Ausente (-) c d c+d
Total a+c b+d a+b+c+d
RR=1 : El evento es independiente del factor de riesgo
0<RR<1 : La exposición al factor es protector
RR>1 : La exposición al factor aumenta el riesgo de que ocurra el
evento
EJEMPLO: ESTUDIO DE GERIATRIA
En una investigación acerca de accidentes sufridos por adultos mayores,
se realizó un estudio prospectivo de 6 mese de duración (Estudio de
intervención) con 100 individuos de 65 a más años de edad en buenas
condiciones físicas. Se dividió a los adultos en dos grupos.
Grupo I : Recibió solo charlas ;
Grupo II : Recibió charlas y se les enseño ejercicios para evitar caídas.
El objetivo del estudio es construir un modelo de predicción para la
variable respuesta:
Y: número medio de caídas en el periodo de 6 meses.
Uno de los objetivos del estudio es determinar la eficacia de la
intervención controlando algunos factores tales como:
 El género (1=masculino, 0=femenino),
 Puntaje en un test de fuerza (mayor puntuación menor fuerza)
 Puntaje en un test de balance (mayor puntuación menor balance)
EJEMPLO: ESTUDIO DE GERIATRIA

Definimos las variables: Datos


Y: Número de caídas Caídas Sexo Interven. Balanc Fuerza
1 0 1 45 70
1 Masculino
X1   1 0 1 62 66
0 Femenino 2 1 1 43 64
0 1 1 76 48
0 Charlas
X2   2 0 1 51 72
 1 Charlas y ejercicios
:::: ::: ::: ::: ::::
X3: Puntaje en el test de balance 0 0 1 66 37
X4: Puntaje en el test de fuerza 2 1 1 80 81
2 1 1 56 60
El predictor lineal es igual a: 2 1 1 59 64

  0  1x1   2 x2  3 x3   4 x4
20

15
Número de individuos

10

0
0 1 2 3 4 5 6 7 8 9 10 11
Número de caidas

Figura 1. Distribución del número de caídas.


EJEMPLO: ESTUDIO DE GERIATRIA
El modelo poisson para explicar el número medio de caídas en un
periodo de 6 meses (Estudio longitudinal), a partir de las 4
variables explicativas es :

E (Y / X1  x1 ,..., X 4  x4 )   ( X )  e 0  1 X1   2 X 2  3 X 3   4 X 4

Aplicando la transformación inversa se tiene el modelo lineal


generalizado con respuesta poisson

ln( E (Y / X1  x1 ,..., X 4  x4 ))  ln( ( X ))  0  1 X1  2 X 2  3 X 3  4 X 4


ESTIMACIÓN DE PARÁMETROS

Dado que el modelo de regresión poisson es un miembro de la


familia de modelos lineales generalizados, la estimación de
los parámetros se realiza por el método de mínimos
cuadrados, iterativamente reponderados.
Los parámetros se estiman utilizando el método de Newton
Raphson

.
ˆ  ( X tW 1X )1 X tW 1Y
INTERPRETACIÓN DE COEFICIENTES
ESTIMADOS
Para facilitar la interpretación consideremos un modelo con una sola variable
explicativa numérica.
Ejemplo: En el estudio del número de caídas en un periodo de 6 meses consideremos
la variable explicativa X3 : Balance

El modelo será:

ln   ( x3 )    i ( x3 )  ˆo  ˆ 3 x 3
El modelo ajustado será:

 
ln ˆ ( x3 )  ˆ i ( x3 )  0.6074  0.0093 x 3
La estadística G= 9.60 p=0.0019
INTERPRETACIÓN DE PARÁMETROS

Dado que la variable es numérica se tiene que:


La tasa de incidencia estimada para una puntuación x3=a

 
ln ˆ(a)  ˆ i (a)  0.6074  0.0093 a

La tasa de incidencia estimada para una puntuación x3=a+1

 
ln ˆ(a  1)  ˆ i (a  1)  0.6074  0.0093( a  1)

La tasa de incidencia estimada para X3= a +1


INTERPRETACIÓN DE PARÁMETROS

La diferencia entre los valores ajustados será:

ˆi (a  1)  ˆi (a)  ln( Incidencia(a  1))  ln(Incidencia(a))


 0.0093(a  1  a)  0.0093

El logaritmo del cociente de incidencias (cociente de riesgos)

 ˆ(a  1)  ˆ
ln  
   1  0.0093
ˆ
  (a) 
INTERPRETACIÓN DE PARÁMETROS

Recordar la relación entre el RR y los coeficientes estimados del


modelo de regresión.
Incidencia( xi  1) ˆ1
RREstimado  e
Incidencia( xi )

Por lo tanto en el ejemplo se tiene:


Incidencia(a  1) 0.0093
RREstimado  e  1.009
Incidencia(a)
El RR se puede interpretar como el incremento en el riesgo por
cada punto adicional en la prueba de balance de los adultos
mayores.
EJEMPLO: NÚMERO DE CAÍDAS EXPLICADO POR LA
INTERVENCIÓN

Supongamos que el número de caídas será explicado únicamente


por la el tipo de intervención (Charlas/ charlas y ejercicios). El
modelo poisson ajustado será:

ln(ˆ ( X ))  ˆ0  ˆ1Intervención  1.509  1.064 Intervención

Aplicando la transformación inversa se tiene:

ˆ ( x)  e1.5091.064 Intervención
EJEMPLO: NÚMERO DE CAÍDAS EXPLICADO
POR LA INTERVENCIÓN

La estimación del coeficiente de regresión 1 asociado con la intervención


es (-1.064) . Para facilitar la interpretación calculamos el exponencial
Incidencia(Charlas y ejercicios) 1.064
RREstimado  e  0.345
Incidencia(Sólo charlasi )

El RR estimado indica que la intervención con ejercicios además de las


charlas aumenta la probabilidad de reducir el número de caídas en
personas de la tercer edad.
EVALUACIÓN DEL MODELO AJUSTADO

Para evaluar la bondad del ajuste de un modelo con k variables


explicativas se calcula la estadística G a partir del cálculo de la
diferencia de desvianzas del modelo ajustado con k variables y el
modelo nulo (modelo sin variables):

D1 (ˆ ( x), y )  2 ln L(modelo saturado)-ln(L(ˆ )    n2 ( K 1)

D1 (ˆ, y )  2 ln L(modelo saturado)-ln(L(ˆ0 )    n21

G  2( D0 ( , y )  D1 ( ( x), y )   k2
EVALUACIÓN DEL MODELO AJUSTADO

Una desvianza igual a cero indicaría que el modelo con


p=k+1 parámetros, se ajusta a los datos igual que el modelo
saturado.

En la práctica, cuanto mayor es el valor de G mejor ajustado


estará el modelo.
Ejemplo:Número de caídas
Comparación de un modelo nulo con el modelo saturado.
Modelo nulo:

E  Y / X  x    ( x )  e 0
La desvianza para el modelo nulo es 199.194 con 99 gl.

Modelo propuesto
E  Y / X  x    ( x)  e 0  1Intervención

La desvianza para el modelo propuesto es 123.985 con 98 gl.


La ganancia al incorporar la intervención es
G= 199.194 - 123.985 = 75.209
TABLA SIMILAR AL ANOVA PARA EVALUAR LA
BONDAD DEL AJUSTE DEL MODELO

Fuente Deviance gl P-Valor


Total (Nulo.) 199.194 99
Residual (M. propuesto) 123.985 98
Model (G; Residual) 75.205 1 0.000

La verificación de la bondad del ajuste indica que la


intervención explica significativamente el número de caídas.
La estadística G tiene distribución chi cuadrado con 99-98=1 gl.
Comparándolo con el valor de una tabla chi cuadrado para 1 gl.
(3.841), se puede concluir que la intervención explica
significativamente el número de caídas de las personas de 65 a
más años de la población estudiada.
EVALUACIÓN DE LOS COEFICIENTES DEL MODELO AJUSTADO

Para muestras grandes, la distribución del estimador de máxima


verosimilitud tiene una distribución aproximadamente normal
con un sesgo muy pequeño (teoría asintótica de los estimadores
máximo verosímiles).
Además, las varianzas y covarianzas de los estimadores
máximo verosímiles se pueden determinar a partir de las
segundas derivadas parciales del logaritmo de la función de
verosimilitud (Inverso de la matriz de información (matriz
hessiana o de Hess)).

1
Var ( ˆ )   1    I ( ˆ ) 
EVALUACIÓN DE LOS COEFICIENTES DEL MODELO AJUSTADO

Las raíces cuadradas de los elementos de la diagonal de la


matriz anterior corresponden a los errores estándar de los
coeficientes estimados , que serán utilizados para construir
intervalos de confianza, y realizar test de hipótesis
EVALUACIÓN DE LOS COEFICIENTES INDIVIDUALES DEL
MODELO AJUSTADO

Sean las hipótesis:


H0 : j = 0 H1 : j  0

Estadística de prueba (Estadística de Wald)


2
 ˆ j 
w   12
 Se( ˆ j ) 
 

Estadística de prueba (Estadística Z)


ˆ j
Z  N (0,1)
Se( ˆ j )
Ejemplo: Numero de caídas

Hipótesis :

H0 : 0 = 0 H1 : 0  0 W= 5140288 con 1 gl. P=0.000

H0 : 1 = 0 H1 : 1  0 W= 65.625 con 1 gl. P=0.000

Estimaciones de los parámetros

Contraste de hipótesis
Chi-cuadrado
Parámetro B Error típico de Wald gl Sig.
(Intersección) 1,509 ,0665 514,288 1 ,000
[interven=1] -1,064 ,1313 65,625 1 ,000
[interven=0] 0 . . . .
(Escala) 1
RELACIÓN ENTRE LOS MODELOS LOGIT Y POISSON.

Si  = n y n  , entonces

La distribución B(n, ) va a estar bien aproximada por una


distribución Poisson (=n).
Esto se verifica por que, para valores pequeños de 
(prevalencia)
  
log it ( )  ln    ln( )
1   

Por lo tanto, la función de enlace g-1(.)=ln(.) es comparable al


enlace logit en la binomial.
LIMITACIONES DEL MODELO POISSON

El modelo de regresión de Poisson (MRP) presenta una


estructura simple y puede ser fácilmente estimado.
Sin embargo, esta simplicidad es el resultado, de algunas
limitaciones en sus asunciones, el incumplimiento de las
cuales tienen efectos sustanciales en la eficiencia de los
coeficientes del modelo.
La crítica más notable al modelo de regresión de Poisson es la
asunción de que la media de la variable respuesta es igual a su
variancia, este supuesto en la mayoría de las ocasiones no es
realista.
LIMITACIONES DEL MODELO POISSON

Si la condición no se satisface, aparecen en general datos


sobredispersos (overdispersed data) aunque podrían ser
también datos infradispersos (underdispersed data).
En esta situación, al ajustar el modelo de regresión de Poisson
se obtiene una infraestimación de la matriz de covariancias de
los parámetros de regresión produciendo una sobreestimación
de los valores de la prueba de conformidad de los parámetros
y por tanto de su significación (Liao, 1994 ).
A lo largo de los años han ido apareciendo gran cantidad de
pruebas, con el objetivo de comprobar los supuestos de la
distribución de Poisson.
SOBREDISPERSIÓN

Lindsey propone utilizar el cociente entre la varianza estimada del


estimador y la respuesta como diagnóstico de sobre dispersión.
Var (i )
; i=1,2,...,n
i
Teóricamente para la distribución poisson la media es igual a la
varianza y el cociente debe ser igual a uno. Así las desviaciones de
uno se interpretarían como problemas de sobre dispersión (o sub
dispersión).
Un criterio propuesto por Cameron y Trivedi (1998) es :
Si el numerador de la razón es dos veces en valor del denominar,
entonces los datos presentan sobredispersión después de ajustar el
modelo.
Otra forma de evaluar la presencia de sobre dispersión
evaluando la relación entre la estadística 2 de Pearson o la
función desvíanza, D, y sus respectivos grados de libertad (gl),
es decir evaluar:

Si el cociente resultante es mayor de uno, entonces hay indicios


de sobredispersión.

S-ar putea să vă placă și