Sunteți pe pagina 1din 26

SEMINARIO DE POSGRADO

ESTRATEGIAS Y DISEOS AVANZADOS DE INVESTIGACIN SOCIAL Titular: Agustn Salvia


MDULO 3 D

ANLISIS DE MODELOS DE REGRESION LOGISTICA

La regresin logstica

El objetivo primordial que resuelve la regresin logstica es modelar cmo influye en la probabilidad de aparicin de un suceso, por lo general dicotmico, la presencia o no de diversos factores y el valor o nivel de los mismos.

La regresin logstica

Los modelos de regresin logstica son modelos de regresin que permiten estudiar si una variable binomial depende, o no, de otra u otras variables (no necesariamente binomiales): Si una variable binomial de parmetro p es independiente de otra variable X, se cumple p=p|X, por consiguiente, un modelo de regresin es una funcin de p en X que a travs del coeficiente de X permite investigar la relacin anterior.

La regresin logstica
Nota Metodolgica 1

Se dice que un proceso es binomial cuando slo tiene dos posibles resultados: "xito" y "fracaso. Un proceso binomial est caracterizado por la probabilidad de xito, representada por p, la probabilidad de fracaso se representa por q y, evidentemente, ambas probabilidades estn relacionadas por p+q=1. En ocasiones, se usa el cociente p/q, denominado "odds (RIESGO RELATIVO) y que indica cunto ms probable es el xito que el fracaso, como parmetro caracterstico de la distribucin binomial.

La regresin logstica
El odds asociado a un suceso es el cociente entre la probabilidad de que ocurra frente a la probabilidad de que no ocurra:

Una de las caractersticas que hace tan interesante la regresin logstica es la relacin que este modelo guarda con un parmetro de cuantificacin de riesgo conocido como "odds ratio" (razn de momios).

La regresin logstica
Si utilizamos cmo variable dependiente la probabilidad p de que ocurra un determinado suceso y construimos la siguiente funcin:

tenemos una variable que puede tomar cualquier valor a travs de una ecuacin bajo la forma: donde ln significa logaritmo neperiano, a0 y a1 son constantes y X es una variable que puede ser aleatoria o no, continua o discreta.

La regresin logstica
Nota Metodolgica 2

Si clasificamos el valor de la variable respuesta como 0 cuando no se presenta un suceso y con 1 cuando s est presente, y buscamos cuantificar la posible relacin entre ese suceso y alguna variable independiente, podramos caer en error de utilizar una regresin lineal: y = a + bx, y estimar, a partir de nuestros datos y por el procedimiento de mnimos cuadrados, los coeficientes a y b de la ecuacin. Sin embargo, y aunque esto es posible matemticamente, nos conduce a la obtencin de resultados absurdos, ya que cuando se calcule la funcin obtenida para diferentes valores de la variable X se obtendr resultados que, en general, sern diferentes de 0 y 1, ya que esa restriccin no se impone en la regresin lineal, en la que la respuesta puede tomar cualquier valor.

Funcin logstica

El modelo de regresin logstica modeliza la probabilidad de un proceso binomial como la funcin logstica de una combinacin lineal de la(s) variable(s) independiente(s).

La regresin logstica
Hay otras formas equivalentes de poner el modelo, que para ciertas aplicaciones son ms cmodas de usar:

Estas dos ltimas expresiones permiten calcular directamente la probabilidad del proceso binomial para los distintos valores de la variable X.

Anlisis de regresin logstica

La regresin logstica es un caso particular de regresin en donde la variable dependiente es categrica. La tcnica no impone restricciones tan fuertes sobre la distribucin de los errores. La estimacin de los coeficientes de regresin se hace a partir de los datos, pero no se aplica el mtodo de mnimos cuadrados sino de mxima verosimilitud. A igual que la regresin lineal, la regresin logstica a) Evala Modelos Explicativos; b) Estima fuerza y sentido de factores; y c) Predice probabilidades de que un determinado evento ocurra.

Anlisis de regresin logstica

Permite generar y evaluar un MODELO EXPLICATIVO a partir de una o varias variables independientes y una variable dicotmica o categrica ordinal o no ordinal con ms de dos categoras.

Ejemplos: En qu medida ciertas caractersticas socio-demogrficas influyen en que una poblacin vote a determinado partido, o venda su fuerza de trabajo en el mercado, o no sienta depresin psicolgica?

Anlisis de regresin logstica


REQUISITOS Y ETAPAS

Recodificacin de las variables independientes categricas u ordinales en variables dummy y de la variable dependientes en 0 y 1.
Evaluar efectos de confusin y de interaccin del modelo explicativo. Evaluacin de la bondad de ajuste de los modelos a travs de los Seudo R2 y la tabla de clasificacin de casos. Anlisis de la fuerza, sentido y significancia de los coeficientes, sus exponenciales y estadsticos de prueba (Wald).

Anlisis de regresin logstica


La interaccin y la confusin son dos conceptos importantes cuando se usa la tcnica de regresin con el objetivo de generar modelos explicativos, que tienen que ver con la interferencia que una o varias variables pueden realizar en la asociacin entre otras. Existe confusin cuando la asociacin entre dos variables difiere significativamente segn que se considere, o no, otra variable. Existe interaccin cuando la asociacin entre dos variables vara segn los diferentes niveles de otra u otras variables.

Anlisis de regresin logstica


El modelo ms sencillo que hace explcita la interaccin entre dos variables X1 y X2 es: ln(p/q) = a0 + a1 X1 + a2 X2 + a3 X1 X2 Contrastar la existencia de interaccin entre X1 y X2 es contrastar si el coeficiente a3 es cero (no hay interaccin), o distinto de cero (existe interaccin). Ntese que para poder interpretar as este contraste es necesario que en el modelo figuren las variables X1, X2 y X1X2.

Anlisis de regresin logstica


Contrastar la existencia de confusin requiere comparar los coeficientes de regresin obtenidos en dos modelos diferentes y si hay diferencia, existe la confusin. Para dicha comparacin no se precisa realizar un contraste de hiptesis estadstico ya que aunque la diferencia encontrada sea debida al azar, representa una distorsin que la estimacin ajustada corrige. Ser el investigador quin establezca el criterio para decidir cuando hay diferencia. Lo habitual es considerar que existe confusin cuando la exponencial del coeficiente (Exp (B)) cambia en ms del 10%.

Modelos de Regresin Logstica


ANLISIS DE UN EJEMPLO

La participacin en el mercado de trabajo est condicionada por diversos factores econmicos, sociales y culturales. [] La definicin de los roles masculinos y femeninos ubica a los varones como principales responsables del sostn econmico de los hogares y [] directamente asociados al mundo laboral [] Las mujeres [] como principales responsables de las tareas de reproduccin social en el mbito domstico.

Modelos de Regresin Logstica


ANLISIS DE UN EJEMPLO
Total number of cases: 16814 (Unweighted) Number of selected cases: 16814 Number of unselected cases: 0

Number of selected cases: 16814 Number rejected because of missing data: 1467 Number of cases included in the analysis: 15347

Modelos de Regresin Logstica


ANLISIS DE UN EJEMPLO
Dependent Variable Encoding: Original Internal Value Value 0,00 0 (ACTIVOS) 1,00 1 (INACTIVOS) Value

Freq

Parameter Coding (1) ,000 1,000 ,000 1,000

H13 Varn Mujer XMEN5 Sin menores de 5 aos al menos un menor

1 2 ,00 1,00

7232 8115 9487 5860

Interactions: INT_1 H13(1) by XMEN5(1)

Modelos de Regresin Logstica


ANLISIS DE UN EJEMPLO
Dependent Variable.. XCDEA Condicin de Actividad Beginning Block Number 0. Initial Log Likelihood Function

-2 Log Likelihood

16339,972

Beginning Block Number 1. Method: Enter Variable(s) Entered on Step Number

1. XMEN5 H13

Presencia de menores de 5 aos o menos Sexo

Estimation terminated at iteration number 4 because Log Likelihood decreased by less than ,01 percent.

-2 Log Likelihood Goodness of Fit Cox & Snell - R^2 Nagelkerke - R^2

14057,404 15645,491 ,138 ,211

Modelos de Regresin Logstica


ANLISIS DE UN EJEMPLO: INACTIVOS

Classification Table for XCDEA The Cut Value is ,78 Predicted

Observed

Activo A
A

Inactivo I 5.130

Percent Correct 56,91%

Activo

6.774

Inactivo

458

2.985
Overall

86,70%
63,59%
R ,3147 ,0434 Exp(B) 8,6251 1,2744

Variable

B 2,1547 ,2425 -2,7914

S.E. ,0535 ,0424 ,0516

Wald 1620,21 32,7129 2926,26

Df 1 1 1

Sig ,0000 ,0000 ,0000

H13(1) XMEN5(1
Constant

Modelos de Regresin Logstica


ANLISIS DE UN EJEMPLO: ACTIVOS

Classification Table for XCDEA The Cut Value is ,78 Predicted

Observed

Inactivo I
I

Activo A 458

Percent Correct 86,70%

Inactivo

2.985

Activo

5.130

6.774
Overall

56,91%
63,59%
R -,3147 -,0434 Exp(B) ,1159 ,7847

Variable

B -2,1547 -,2425 2,7914

S.E. ,0535 ,0424 ,0516

Wald 1620,21 32,7129 2926,26

Df 1 1 1

Sig ,0000 ,0000 ,0000

H13(1) XMEN5(1
Constant

Modelos de Regresin Logstica


ANLISIS DE UN EJEMPLO: INACTIVOS
Beginning Block Number 2. Method: Enter Variable(s) Entered on Step Number 1.. H13 * XMEN5
Variable

S.E.

Wald

Df

Sig

Exp(B)

H13(1)
XMEN5 INT_1
Constant

1,7112
-,8638 1,3302 -2,4388

,0626
,1170 ,1262 ,0549

746,165
54,4647 111,185 1974,89

1
1 1 1

,0000
,0000 ,0000 ,0000

,2301
-,0611 ,0881

5,5357
,4216 3,7818

Modelos de Regresin Logstica


ANLISIS DE UN EJEMPLO: ACTIVOS
Beginning Block Number 2. Method: Enter Variable(s) Entered on Step Number 1.. H13 * XMEN5

Variable

S.E.

Wald

Df

Sig

Exp(B)

H13(1)
XMEN5 INT_1
Constant

-1,7112
,8638 -1,3302 2,4388

,0626
,1170 ,1262 ,0549

746,165
54,4647 111,185 1974,89

1
1 1 1

,0000
,0000 ,0000 ,0000

-,2301
,0611 -,0881

,1806
2,3722 ,2644

Modelos de Regresin Logstica


ANLISIS DE UN EJEMPLO
Beginning Block Number 3. Method: Enter Variable(s) Entered on Step Number

1..

XQUINTIL XH12 XEDAD2

Quintiles de ingreso familair per cpita Edad Edad AL CUADRADO

Estimation terminated at iteration number 5 because Log Likelihood decreased by less than ,01 percent.

-2 Log Likelihood Goodness of Fit Cox & Snell - R^2 Nagelkerke - R^2

13507,734 15080,288 ,169 ,257

(14057,404) (15645,491) (,138) (,211)

Modelos de Regresin Logstica


ANLISIS DE UN EJEMPLO: INACTIVOS
Predicted
Observed Activo Inactivo B A I S.E. Wald Activo A 7.557 620 Df Inactivo I 4.347 2.823 Overall
Variable

Percent Correct 63,48% 81,99% 67,64% R Exp(B)

Sig

H13(1)
XMEN5 INT_1 XQUINTI XH12 XEDAD2
Constant

-1,7161
1,0891 -1,3462 ,3088 ,2411 -,0031 -2,8649

,0634
,1182 ,1270 ,0168 ,0451 ,0006 ,7656

732,350
84,8889 112,346 339,416 28,5608 23,1655 14,0034

1
1 1 1 1 1 1

,0000
,0000 ,0000 ,0000 ,0000 ,0000 ,0002

-,2290
,0771 -,0890 ,1556 ,0437 -,0390

,1798
2,9716 ,2602 1,3618 1,2726 ,9969

Modelos de Regresin Logstica


ANLISIS DE UN EJEMPLO: ACTIVOS
Predicted Observed Inactivo Activo I A Inactivo I 2.823 4.347 Activo A 620 7.557 Overall
Variable

Percent Correct 81,99% 63,48% 67,64% R ,2290 -,0771 ,0890 -,1556 -,0437 ,0390 Exp(B) 5,5626 ,3365 3,8428 ,7343 ,7858 1,0031

B 1,7161 -1,0891 1,3462 -,3088 -,2411 ,0031 2,8649

S.E. ,0634 ,1182 ,1270 ,0168 ,0451 ,0006 ,7656

Wald 732,350 84,8889 112,346 339,416 28,5608 23,1655 14,0034

Df 1 1 1 1 1 1 1

Sig ,0000 ,0000 ,0000 ,0000 ,0000 ,0000 ,0002

H13(1) XMEN5 INT_1 XQUINTI XH12 XEDAD2


Constant

S-ar putea să vă placă și