Sunteți pe pagina 1din 43

MODELOS MULTINIVEL (MIXED)

La organizacin de los datos en el mundo real no responde a un solo nivel de anlisis


En la realidad tenemos variables que describen individuos, pero individuos que se
agrupan en unidades mayores (clases, colegios, estatus socioeconmico, grupos de
terapia)
Esta estructura jerrquica afecta a los datos del primer nivel en el sentido de que
aquellos sujetos dentro de un grupo deben ser ms parecidos entre s
Pero cul es el fundamento de un mixed?
Si los sujetos dentro de un grupo se parecen entre s, asumimos que los datos dentro de
un grupo no son independientes entre s, esto viola un supuesto muy importante dentro
del MLG. Los datos tienen una cierta correlacin sus residuales tienen una cierta
correlacin y por tanto, no podemos estimar los parmetros del modelo a travs de OLS
(Mnimos Cuadrados Ordinarios)
Cmo manejamos esta dependencia de los datos?...
La correlacin intraclase (ICC) es una medida de la dependencia de los datos..
La puntuacin que obtiene un sujeto tiene una parte explicada por el grupo al que
pertenece algo as como la cantidad de varianza que de las puntuaciones explica la
variable grupo..sea mucha o poca .. cmo afecta?
Si la variable grupo tiene un peso importante entendemos que los sujetos dentro del
mismo tendrn puntuaciones similares (baja variabilidad intragrupo)... y entre grupos
habr grandes diferencias y por tanto una alta variabilidad. Esto significa una ICC
alta..
La ICC nos dice cun importante es el efecto de una variable contextual en la
puntuacin final
Empecemos por una regresin simple
Tenemos un modelo que nos genera predicciones sobre el rendimiento acadmico a
partir del CI. En este caso hemos centrado La variable predictora para dar sentido al
intercepto
i
Y
508 2,15
i i
Y X c = + +
Aadimos al modelo anterior una variable de agrupacin de segundo nivel, tipo de
centro y llevamos a cabo un modelo de regresin simple para cada centro
547 2, 5
privado privado
Y X c = + +
492 2, 2
pblico pblico
Y X c = + +
Sin embargo, no es necesario estimar modelos independientes en funcin de los J
niveles de la variable de segundo orden.es ms prctico tener una sola ecuacin
que tenga en cuenta los J niveles
El modelo permite tener a cada centro su propia interseccin y pendiente esta
variabilidad del segundo nivel (Tipo de centro) genera un modelo multinivel, permite
recoger la relacin de las unidades del primer nivel en cada grupo del segundo nivel. Por
tanto,
0j
y
ij
ahora no son constantes sino variables cuyo valor depende del centro:
0 0 0
1 1 1
j j
j j
b
b
| u
| u
= +
= +
0 0 0
1 1 1
j j
j j
| u
| u
= +
= +
=
0 1 ij j j ij ij
Y X | | c = + +
Parte fija o sistemtica que representa los
valores poblacionales de media y
pendiente.
Parte aleatoria que refleja la
variabilidad de cada centro
respecto a esa media
poblacional, y con respecto a
la pendiente poblacional
Un modelo con trminos aleatorios en intercepto y pendiente genera tres posibles
situaciones de estudio.. la representacin de estas tres ecuaciones son las
siguientes
0 1 1
0 1
( )
ij j ij ij
ij j ij ij
Y b b X
Y b b X
u c
c
= + + +
= + +
0 0 1
0 1
( )
ij j ij ij
ij j ij ij
Y b b X
Y b b X
u c
c
= + + +
= + +
0 0 1 1
0 1
( ) ( )
ij j j ij ij
ij j j ij ij
Y b b X
Y b b X
u u c
c
= + + + +
= + +
Intercepto
Aleatorio
Pendiente
Aleatoria
Intercepto
Pendientes
Aleatorias
Mismo intercepto
distintas pendientes
Misma pendiente
distinto intercepto
distinta pendiente
distinto intercepto
0 1 1
0 1 1
0 0 0
1 1 1
0 00 01 0
Modelo de Regresin Simple

Modelo Multinivel

trmino de intercepto aleatorio
trmino de pendiente aleatoria
variabilidad del interce
i i
i j j j ij
j j
j j
j j j
Y X e
Y X e
Z
| |
| |
| u
| u
| u
= + +
= + +
= +
= +
= + +
1 10 11 1
00 01 10 11 0 1
pto 2nivel
variabilidad pendientes 2nivel
Modelo Completo parte fija y aleatoria
( )
j j j
ij j ij j j j ij ij
Z
Y Z x Z x e
| u
u u
= + +
= + + + + + + +
Las distintas ecuaciones que caracterizan a un modelo multinivel son
Estructura de la matriz de varianzas-covarianzas .
1. Los efectos aleatorios generan distintos patrones de matrices de
varianzas-covarianzas.
2. Las matrices de varianzas-covarianzas permiten estimar los parmetros de
nuestro modelo.
3. La estructura adoptada depender de si tenemos medidas repetidas o no,
o si asumimos covarianzas .
4. Es recomendable llevar a cabo varios anlisis cambiado las estructuras de
covarianza y quedarnos con el modelo con mejor bondad de ajuste.
5. Las estructuras de covarianzas estn relacionadas con lo liberal o
conservador del modelo, y por tanto, el Error Tipo 1 y Tipo 2
Las estructuras de v-c adoptadas son las siguientes
2
1 21 31 41
2
21 2 32 42
2
31 32 3 43
2
41 42 43 4
o o o o
o o o o
o o o o
o o o o
| |
|
|
|
|
|
\ .
1 0 0 0
0 1 0 0
0 0 1 0
0 0 0 1
| |
|
|
|
|
\ .
2
2
2
2
0 0 0
0 0 0
0 0 0
0 0 0
o
o
o
o
| |
|
|
|
|
|
\ .
2 2
2
2
2 2
1
1
1
1
p p p
p p p
p p p
p p p
| |
|
|
|
|
|
\ .
Componentes de Varianza ( ajusta
cualquier modelo con interceptos
aleatorios
Diagonal (Medidas Repetidas)
AR(1) (curvas de crecimiento,
datos medidos en el tiempo)
No estructurado (asumimos interceptos
y pendientes aleatorios, es por defecto
el modelo del SPSS)
Cmo evaluamos la pertinencia o no de analizar los datos a travs de un modelo
multinivel?
El primer paso es evaluar un modelo incondicional o nulo. Este modelo nos permite
observar la variabilidad dentro de los grupos y la variabilidad entre los grupos. Este
modelo se define (Raudenbush and Bryk, 2009) como ANOVA de efectos aleatorios. En
nuestro ejemplo de colegios. y rendimiento
0 ij j ij
Y e | = +
0 00 0 j j
| u = +
Este modelo en el primer nivel nos indica que
un sujeto obtiene como pronstico en
rendimiento la media de su colegio ms una
variabilidad aleatoria o error alrededor de
esa media
Este modelo en el segundo nivel nos indica
que el rendimiento por colegio es la
combinacin del rendimiento para la
poblacin de colegios y la variacin de cada
colegio entorno a esa media
Estimar este modelo nulo nos permite valorar el ICC.
S el ICC nos dice el grado de variabilidad en rendimiento acadmico entre colegios con
respecto al grado de variabilidad dentro de cada colegio podemos hacernos una idea de
cunta de la variabilidad del rendimiento es explicado por una variable de segundo nivel
como es el colegio. Si encontramos que el ICC es de un 45% este porcentaje es lo que la
variable colegio explica del rendimiento
Cmo evaluamos la bondad de un modelo Multinivel?
Un Modelo Multinivel se da por bueno cuando hemos conseguido aquel que de manera
ms parsimoniosa explica mejor la variabilidad de los datos. Si bien tenemos distintos
indicadores de bondad AIC, BIC, etc el ms fiable es el contraste sobre la -2LL
(Logaritmo de la Verosimilitud/Verosimilitud restringida) donde la diferencia entre
modelos sigue una distribucin ji-cuadrado con grados de libertad como la diferencia de
nmero de parmetros evaluados en cada modelo.
2
2
1
1852, 5 1837, 49 15, 05
5 4 1
15, 05; 0, 05
cambio
cambio
df
p
;
;
= =
= =
= <
Imaginemos que hemos evaluado dos modelos y hemos obtenido para ambos los
siguientes valores de -2LL.
La bondad del segundo modelo se estima comparando con el primero modelo. Se
entiende que los modelos se van complejizando cada vez ms lo que implica
aumentar el nmero de parmetros a estimar.
Se estudio una poblacin de 379 pacientes con trastorno depresivo que haban recibido tratamiento
en 11 hospitales. Se midieron variables como la puntuacin en depresin con la escala de Hamilton,
sexo, tipo de centro (pblico vs. privado), edad media de los pacientes de cada centro, la VD es la
medida de recuperacin 6 semanas despus del tratamiento. (Pardo, Ruz y San Martn; 2007)
Empezamos estimando el modelo incondicional o nulo. Es en realidad un ANOVA de
efectos Aleatorios (AEA) para nuestro ejemplo tratamos la clnica como factor
aleatorio. La ecuacin que define este modelo sera
0 0 0 0 ij j ij j j
Y b e b b u = + = +
Cunto vara VD entre los centros (9,09)
y cunto vara dentro de los centros
(18,0)
La puntuacin media poblacional de los
11 centros en Recuperacin es 9,15
El modelo nulo nos cuenta dos cosas muy importantes
1. Cunta variabilidad hay entre los centros.
2. Cunta variabilidad hay dentro de los centros.
Atendiendo al coeficiente de correlacin intraclase, encontramos que el 34% de la
variabilidad en la variable Recuperacin se explica por las diferencias entre las medias
de los distintos clnicas o centros.
Un valor de uno indicara que toda la variabilidad es debida al factor centro (todos los
pacientes dentro de un centro puntan igual en recuperacin y entre centros la media
es distinta) y un valor de cero es que todos los centros tienen el mismo promedio de
recuperacin y la variabilidad est dentro de los centros.
9, 09

9, 09 18, 00
ICC = = 0. 34 34
+
Busquemos una variable de segundo nivel que nos explique esta diferencia en
recuperacin entre centros aqu incluimos una variable predictora de segundo nivel.
Elegimos la variable edad que nos da la edad promedio en cada centro por tanto es una
variable covariable a nivel 2. Podemos hipotetizar que la diferencia de edad puede
estar explicando el alivio de los sntomas depresivos
Observamos que el modelo de nivel 1 no cambia.
Es a nivel 2 donde incorporamos una variable predictora.
El modelo combinado final sera..
0 ij j ij
Y b e = +
00 01 0
( )
ij j j ij
Y b b Z e u = + + +
0 00 01 0 j j j
b b b Z u = + +
La varianza de los residuos no ha cambiado
mucho con respecto al modelo anterior por
tanto la inclusin de cedad no ha afectado a la
variabilidad del nivel 1. Sin embargo hemos
reducido la variabilidad del nivel 2 a 2,69
(antes 9,09)
Por cada ao que aumenta la edad la
recuperacin media (9,5) disminuye en
0,39
2, 69
1
2, 69 17, 99
ICC = = 0.13 3
+
La inclusin de la variable cedad a permitido reducir la ICC a 13%, es decir, aun queda
un 13% de variabilidad entre centros en recuperacin no explicado por la edad media
de los centros el modelo ha mejorado en su explicacin la diferencia entre modelos
de -2LL AIC nos muestra una mejora significativa.
Incluyamos una variable de nivel 1 para poder apresar ms la variabilidad de
recuperacin. En este caso incluimos la variable nivel basales de recuperacin. En este
caso el modelo cambia incorporando una variable de primer nivel
00 01 10 0
( )
ij j ij j ij
Y b b Z b x e u = + + + +
A nivel poblacional la recuperacin media es 9,05, la inclusin
de la pendiente cbasal nos dice que por cada unidad que
aumenta cbasal la recuperacin lo hace en 0,21.
Se reduce ligeramente la variabilidad entre centros (2,69 a
2,29). Sin embargo, se reduce de 18 a 16
Hasta ahora slo hemos considerado que el intercepto es aleatorio, es la variable centro
la nica que consideramos aleatoria.. Los dems efectos los hemos considerado fijos
bien sea la edad media de cada centro, como el nivel basal de depresin de los
pacientes. Estos modelos se llaman constantes
Estimemos un modelo que contempla tambin las pendientes como aleatorias.
En el caso anterior consideramos las puntuaciones basales eran homogneas en todos
los centros. Estimemos ahora una ecuacin de regresin para cada centro para
estimar cunto de la variabilidad intracentro es explicado por las puntuaciones
basales
Lo que estamos viviendo no slo es en cunto se diferencian los centros en el grado de
recuperacin sino que relacin existe entre el grado de recuperacin y las puntuaciones
basales es decir estimamos intercepto y pendiente aleatoria. Dado que asumimos
interceptos y pendientes aleatorias tenemos que cambiar la matriz de varianzas-
covarianzas a sin estructura en el SPSS
00 10 0 1
( )
ij ij j j ij ij
Y b b x x e u u = + + + +
A nivel poblacional la recuperacin media es 9,14, la
inclusin de la pendiente media cbasal cuyo valor es 0,37 y
dice que por cada punto de incremento a nivel poblacional
en cbasal la recuperacin poblacional aumenta 0,37
puntos.
Se reduce ligeramente la variabilidad intracentro (12,64)
la varianza de las medias (intersecciones) es significativa
(6,02) las varianza de las pendientes es significativa (0,11)
por tanto las pendientes son distintas en funcin del
centro la covarianza pendientes interceptos no es
significativa (0,21) parece que no hay relacin entre estas
NE(1,1) varianza de las medias o intersecciones
NE(2,2) varianza de las pendientes.. NE(2,1) covarianza
entre ambas
Resumiendo:
1. La varianza de los residuos nos dice que parece que incluyendo las puntuaciones basales la
variabilidad intracentro se reduce en un 30%
2. La varianza de las intersecciones (6,03) nos dice que la recuperacin media de los centros no
es la misma
3. La varianza de las pendientes (0,11) nos dice que las pendientes no son iguales en todos los
centros. La relacin entre puntuaciones basales y grado de recuperacin no es la misma en
todos los centros.
4. La relacin intracentro entre pendientes e interceptos no es significativa (0,21) por tanto la
relacin intracentro entre medias y pendientes no parece ir aumentando o disminuyendo
conforme lo hace el tamao de las medias.
(18, 00 125, 64)
0, 29 30%
18.00

=
Hemos visto que los interceptos y pendientes varan de centro a centro. la
recuperacin no es la misma en los centros, que la relacin entre las puntuaciones
basales y la recuperacin no es la misma en todos los centros bsicamente
observamos los interceptos por centros, las pendientes por centro y la relacin
intercepto pendientes por centro
Justamente un modelo multinivel lo que busca es relacionar precisamente los niveles
del diseo.. Encontramos que la variabilidad intercentros en recuperacin en un 70%
era explicada por la edad media de los centros (valores aleatorios de intercepto)....
Ahora nos faltara ver qu hace que las pendientes sean distintas entre centros qu
variable justifica la variabilidad de las pendientes observadas en este ltimo anlisis
.. para ello incluimos una variable que se llama sector (centro pblico o privado).. En
este caso incluimos una variable de 2 nivel como aleatoria.
00 01 ij ij ij
Y b b x = + +
a nivel 1..
0 00 01 02 0
1 10 11 12 1
j j j j
j j j j
b b z b w
b b z b w
| u
| u
= + + +
= + + +
a nivel 2 sera..
00 01 02 10 11 12
0 1
( )
ij j j ij ij j ij j
j j ij ij
Y b b z b w b x b x z b x w
x e u u
= + + + + +
+ + +
El modelo multinivel , o mixto de efectos fijos y aleatorios completamente
especificado sera
El modelo que interpreta las intersecciones y las pendientes como resultados es
00 01 02 10
11 12
0 1
( ) (sec ) ( )
( ) ( ) ( ) (sec )
( ( ) )
ij j j ij
ij j ij j
j j ij ij
Y b b cedad b tor b cbasal
b cbasal cedad b cbasal tor
cbasal e u u
= + + +
+ +
+ + +
Si incluimos las etiquetas de las variables en la ecuacin se ve ms claro
(espero!!)..
Interaccin 1: cbasal y cedad.
Se ve afectada la relacin
entre recuperacin y nivel
basal cuando cambia la edad
media del centro?
Interaccin 2: cbasal y
sector. Se ve afectada la
relacin entre recuperacin
y nivel basal cuando cambia
el tipo de centro?
Efectos principales cedad (N1), sector(N2) y cbasal(N1)
La recuperacin media poblacional sigue siendo la misma 9,91. Ahora controlando el tipo de centro(sector)
encontramos que la variable edad media del centro afecta al nivel de recuperacin en sentido negativopor cada
ao que aumenta disminuye la recuperacin en 0,25. Por otro lado controlando el efecto de la edad (cedad) no
parece que el tipo de centro afecte a la recuperacin (-1,20) las puntuaciones basales muestran que por cada
incremento de la puntuacin basal la recuperacin se incrementa en 0,58. La interaccin cedad*cbasal nos dice
que los cambios en edad no alteran las relaciones entre cbasal y recuperacin, las pendientes son muy parecidas
en los grficos de la siguiente transparencia. La interaccin sector*cbasal muestra que el tipo de centro se
relaciona negativamente con las pendientes. En los centros pblicos (valor cero en la dummy) es mayor que en los
centros privados
N
i
v
e
l

d
e

R
e
c
u
p
e
r
a
c
i

n
cedad
En los efectos aleatorios la varianza de los residuos es 12,73 muy parecido a la
anterior de modelo de coeficientes aleatorios. La varianza de las medias o
intersecciones es 3,45 (en el modelo anterior fue 6,03) .. La incorporacin de cedad y
sector y una vez contrado el efecto de la puntuacin basal, estas variables explican el
42,7% de la varianza entre las medias de los centros. Igual que en el modelo anterior
parece que las medias o intersecciones no estn relacionadas con las pendientes
(NE21).. Finalmente ahora las pendientes han dejado de ser distintas de cero
significativamente es decir una vez controlado el efecto de cedad y sector,
desaparecen las diferencias entres las pendientes de los distintos centros
Como conclusin y atendiendo al ndice -2LL AIC no parece que este modelo mejore
significativamente al modelo que no incluye pendientes aleatorias. Por tanto nos
quedaramos con dicho modelo dado que es ms parsimonioso..
Hasta ahora hemos visto un acercamiento al anlisis mixto o multinivel en el que
asumiendo la jerarqua de los datos comenzamos estimando un modelo nulo para
acabar por definir el modelo completamente aleatorizado en interceptos y pendientes
con trminos de interaccin entre niveles (Raudenbush y Bryk; 2002)
Sin embargo tal y como plantea Field (2010) quizs sea ms ilustrativo comenzar
pensando en que un anlisis multinivel no es ms que una extensin del MLG , en
realidad lo nico que cambia es que la estimacin de los parmetros de la recta no se
lleva a cabo por OLS sino por ML o MLRVeamos esta otra manera de acercarnos a
los modelos multinivel..
Veamos un ejemplo. (Field 2010). Se pretende modelar el efecto que la ciruga esttica
tiene sobre la calidad de vida del paciente medida despus de la intervencin (Field,
2010)
MixedTipo ANOVA
Hasta ahora hemos ignorado la estructura jerrquica de nuestros datos. Y por tanto
estamos violando un supuesto y es que las observaciones no son independientes entre
s. Por tanto asumamos esta violacin y analicemos los datos jerrquicamente.
Empezamos asumiendo interceptos aleatorios, es decir que hay una variable que agrupa
los datos. Esta variable es clinic una variable que est en el 2nivel
0 1 2 ij j ij ij ij
QoL b b Surgery b QoLbefore e = + + +
MixedTipo ANCOVA
Cunto vara la calidad de vida
dentro de cada clnica.. Variabilidad
intragrupos o error
Cunto vara la calidad de vida
entre las clnicas.. Variabilidad
intergrupos
9, 23
9, 23 42, 49
ICC = =17
+
Evaluacin de la bondad del modelo a travs de -2LL
AIC. Comparando con los anteriores ganamos en
explicacin contraste ji-cuadrado con gl = 1
el nivel de calidad de
vida no es el mismo
atendiendo a la clnica
Ahora generamos un modelo donde aadimos una pendiente aleatoriaque es la
covariable surgery manteniendo la variable clinic como aleatoria de 2nivel.. El modelo
queda especificado en la siguiente ecuacin.
0 1 2 ij j j ij ij ij
QoL b b Surgery b QoLbefore e = + + +
Evaluacin de la bondad del modelo a travs de -2LL
AIC. Comparando con los anteriores ganamos en
explicacin contraste ji-cuadrado con gl = 1
int
33,18
33,18 35, 00
29, 63
29, 63 35, 00
erceptos
pendientes
ICC
ICC
= = 50
+
= = 45
+
La variabilidad entre las pendientes
La variabilidad en los interceptos
Sin embargo en ese modelo no asumimos una estructura de covarianza que asuma
que los interceptos aleatorios y las pendientes aleatorias correlacionen. En este
caso lo que hacemos es cambiar la estructura de covarianzas en los factores
aleatorios a sin estructura.
Observamos como a mejorado la bondad del
modelo con la disminucin del ndice -2LL AIC.
Comparando con el anterior de 1816. Esta
diferencia es significativas con lo que estimamos
que este nuevo modelo mejora el anterior
La variabilidad entre las pendientes
La variabilidad en los interceptos
Covarianza interceptos-pendientes
37, 60 36, 68
Matriz de V-C
36, 68 38, 40

| |
|

\ .
El valor negativo de la covarianza interceptos pendientes (-36,68) indica que a travs
de las clnicas a medida que el intercepto (media) entre surgery y QoL aumenta la
pendiente decrece, lo que implica que observando el grfico a medida que aumenta
el valor del intercepto disminuye la pendiente de la recta
Finalmente incorporando el trmino interaccin. Para ello incorporamos la variable
reason for surgery.
0 1 2 3
4
Re
Re *
ij j ij ij ij
ij ij
QoL b b Surgery b QoLbefore b ason
b ason Surery e
= + + +
+ +
Observemos que el modelo sigue siendo de interceptos aleatorios y pendientes
aleatorias a lo que hemos aadido el trmino interaccin dado que Surgery es una
variable de 2nivel llevamos a cabo una interaccin permitimos la relacin de las
variables de primer y segundo nivel. Algo que es justamente la ventaja de los
modelos multinivel.poder modelar la influencia de variables de agrupacin jerrquica
sobre variable del sujeto
Interpreta el resultado
Gracias!!!!

S-ar putea să vă placă și