Stata Registros

Stata Registros. German Rodroguez Princeton University http://data.princeton.
edu/wws509/stata
Introduccin
Los "Registros de Stata" recoger las transcripciones de las seis sesiones utilizando el paquete estadstico Stata. Cada sesin recoge el resultado de (casi) todos los anlisis en uno de los captulos de mi notas de la conferencia sobre modelos lineales generalizados. El material est organizado por captulos y secciones con el mismo sistema de numeracin de las notas, por lo que la seccin 2.8 de los registros se ocupa del anlisis de los modelos de covarianza se describe en la seccin 2.8 de las notas. Las transcripciones se formatean las versiones de los registros de Stata real de ejecucin mediante la versin 11. Las cajas de texto que figura en una fuente de mquina de escribir contienen rdenes o instrucciones de Stata, seguido de la salida resultante. Usted puede decir los comandos separados, ya que aparecen en las lneas que comienzan con un punto, o en las lneas de continuacin a partir de un signo mayor que. El resto del texto que figura en la fuente estndar representa comentarios o anotaciones, a excepcin de las referencias a los comandos de Stata, que tambin se establecen en una fuente de estilo mquina de escribir. El formato general es similar a la utilizada en los manuales de Stata s mismos. La mejor manera de utilizar estas transcripciones est sentado en una computadora, tratando los diferentes comandos a medida que lee a lo largo, probablemente con una copia impresa de las notas al lado. Tambin le recomiendo que trate de responder a las preguntas y ejercicios planteados a lo largo del camino. Si sigue este procedimiento se dar cuenta que a veces uso el comentario continuacin / / / para indicar que un comando contina en otra lnea. Si est utilizando Stata interactivamente, slo seguir escribiendo en la misma lnea. Mientras que el uso interactivo es probablemente bueno para aprender, para un trabajo ms serio le recomiendo que prepare sus comandos en un "hacer archivo" y luego pedir Stata para ejecutarlo. Si nada ms, esto le ayudar a documentar su trabajo y asegurarse de que usted puede reproducir sus resultados. Estos registros fueron producidos utilizando los archivos de hacerlo.
Stata 8 introduce una interfaz grfica que le permite utilizar los mens y cuadros de dilogo para especificar su anlisis. Esta caracterstica puede ayudar a los principiantes aprender los comandos, pero te recomiendo que te acostumbras a escribir los comandos desde el principio, as que hacer una transicin fcil de hacer los archivos. En el mismo sentido, Stata 10 introdujo un editor de grficos que te permite modificar un grfico con un punto y hacer clic. Si bien esto es conveniente, una vez que haya editado un grfico interactivo que no puede reproducirlo. Stata 11 se movi en esta direccin mediante la introduccin de un administrador de variables que le permite modificar las etiquetas de variable y el valor y otras propiedades de las variables con un cuadro de dilogo. De una investigacin seria, sin embargo le recomiendo que haga todo el trabajo con los comandos almacenados en un archivo de hacerlo. El propsito de estas notas es para ilustrar el uso de Stata en el anlisis estadstico, no para proporcionar un manual o tutorial. Tengo, sin embargo, escribi un breve tutorial que se puede encontrar en http://data.princeton.edu/stata . Por favor, consulte la ayuda en lnea y los manuales de Stata para ms detalles.
Historial de revisiones
Los "Registros de Stata" se public por primera vez en enero de 1993 y dirigido la versin 3. Las revisiones se realizaron a las versiones ms recientes de destino ms o menos cada dos aos. La versin de los objetivos actuales de la versin 11.
Modelos lineales en Stata

Empezamos con los modelos lineales en el captulo 2 de los apuntes de clase, que muestra cmo utilizar el comando de regresin en Stata para ajuste de regresin, anlisis de varianza y anlisis de los modelos de covarianza.
2.1 Los datos del programa Esfuerzo

Para una breve descripcin de los datos del programa esfuerzo ver las notas de clase o dirija su navegador a la bases de datos de pgina. Todos los conjuntos de datos utilizados en el curso ya estn disponibles como archivos Stata y se pueden leer directamente desde la web:
. uso http://data.princeton.edu/wws509/datasets/effort (Familia datos relativos al esfuerzo de planificacin)
(Las bases de datos siguen estando disponibles como archivos de texto sin formato que se pueden leer con casi cualquier software. Por favor, consulte la pgina de bases de datos para obtener ms informacin. Los pasos que segu para crear esta base de datos particular, se documentan en mi tutorial de Stata .) Hagamos una lista de los datos para comprobar los tenemos en Aceptar:
pas list de esfuerzo de cambio, limpio 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. campestre esfuerzo de cambio Bolivia 46 0 1 Brasil 74 0 10 Chile 89 16 29 Colombia 77 16 25 CostaRica 84 21 29 Cuba 89 15 40 DominicanRep 68 14 21 Ecuador 70 6 0 ElSalvador 60 13 13 Guatemala 55 9 4 Hait 35 3 0 Honduras 51 7 7 Jamaica 87 23 21 Mxico 83 4 9 Nicaragua 68 0 7 Panam 84 19 22 Paraguay 74 3 6 Per 73 0 2 TrinidadTobago 84 15 29 Venezuela 91 7 11
Lo siguiente que quiero hacer es representar grficamente los datos para ver de cerca. La importancia de familiarizarse con sus datos antes de realizar sofisticados anlisis no puede ser sobre-enfatizada. El siguiente comando crea diagramas de dispersin de todos los pares de variables, la reproduccin de la figura 2.1 en las notas.
. grfico de cambio de matriz de ajuste de esfuerzo, / / / > Title ("Figura 2.1: Diagrama de dispersin Matrix") . fig21.png grfico de las exportaciones, reemplazar (Fig21.png archivo escrito en formato PNG) la anchura (400)
Despus de generar el grfico se puede imprimir utilizando el comando graph print , guardarlo en un formato propio de Stata con graph save , o exportarla a otros formatos
mediante grap export . He exportado el grfico de redes porttiles para raphics n RED g (PNG) para su inclusin en esta pgina web. Si desea importar el grfico en un programa de procesamiento de textos como Word que es mejor exportar a indows w m etafile f Ormat (WMF) o la variante mejorado (EMF). La ventaja de los formatos de metarchivo es que son los grficos vectoriales que pueden cambiar de tamao tras la inclusin en el documento. Los usuarios de Windows interactivo tambin puede imprimir el grfico, seleccione Archivo | Imprimir en el men grfico de Stata, o guardarlo en una variedad de formatos, seleccione Archivo | Guardar grfico. Alternativamente, usted puede elegir Editar | Copiar para copiar el grfico en el portapapeles y entonces Edicin | Pegar para insertarla en el procesador de textos favorito. Adems, el grfico puede verse un poco diferente a la ma, dependiendo del esquema que utilice. El valor por defecto se llama Stata s2color , pero lo ajustado un poco de usar un fondo blanco y con el color de los ttulos en esta pgina. Tipo de help scheme si usted est interesado en este tema.
2.4 Regresin lineal simple

Comencemos con el modelo ms simple, el modelo nulo, que se ajusta slo una constante
. regresin cambio
Fuente | SS df MS Nmero de obs = 20 -------------+------------------------------ F (0, 19) = 0.00 Modelo | 0 0. Prob> F =. Residual | 2650.2 19 139.4842 11 R-cuadrado = 0,0000 -------------+------------------------------ Adj R-cuadrado = 0,0000 Total | 2650.2 19 139.4842 11 Raz MSE = 11,81 -------------------------------------------------- --------------------------cambio | Coef. Enfermedades de transmisin sexual. Err. TP> | t | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------_cons | 14.3 2.640873 8.772589 19.82741 5.41 0.000 -------------------------------------------------- ---------------------------
Vemos que el descenso de la fecundidad promedio en estos pases entre 1965 y 1975 fue de 14,3%. Tambin recibimos los errores estndar y un intervalo de confianza. Si usted se est preguntando lo que estas estadsticas no significan que los 20 pases en cuestin no son en realidad una muestra aleatoria de los pases del mundo, ver la discusin del modelo de inferencia basada en las notas. En resumen, consideramos que los datos como una muestra del universo de todos los resultados que podran haber observado en estos pases en el perodo 1965-1970.
Montaje de un trmino lineal El siguiente paso es tratar de una regresin lineal de los cambios sobre la configuracin
. establecer una regresin cambio
Fuente | SS df MS Nmero de obs = 20 -------------+------------------------------ F (1, 18) = 14,92 Modelo | 1201.07756 1201.07756 un Prob> F = 0,0011 Residual | 1449.12244 18 80.5068025 R-cuadrado = 0,4532 -------------+------------------------------ Adj R-cuadrado = 0,4228 Total | 2650.2 19 139.4842 11 Raz ECM = 8.9726 -------------------------------------------------- --------------------------cambio | Coef. Enfermedades de transmisin sexual. Err. TP> | t | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------configuracin | .5052063 .1307975 3.86 0.001 .2304109 .7800018 _cons | -22.12538 9.641562 -2.29 0.034 -42.38155 -1.869208 -------------------------------------------------- ---------------------------
Vemos que cada punto de la escala de ajuste social se asocia con un descenso de la fecundidad de la mitad de un por ciento. Comparar las estimaciones de parmetros con los de la tabla 2.3 y la tabla de ANOVA con los resultados en la Tabla 2.4 en las notas de clase. Computing R-Squared. Vamos a calcular el R-cuadrado "a mano" como la relacin entre el modelo de la suma total de cuadrados:
. pantalla 1201.08/2650.2 .45320353
Vemos que casi la mitad de la variacin en el descenso de la fecundidad se puede expresar como un efecto lineal del entorno social. Stata almacena los resultados de varias de la regresin en el sistema de macros y escalares. Para ver una lista de todo lo que est almacenado despus de ejecutar una instruccin de estimacin como regress de tipo ereturn list . En particular, las sumas de cuadrados para el modelo residual y se guardan como e(mss) y e(rss) , y que podra haber calculado como R-cuadrado
. pantalla e (SMS) / (e (SMS) + e (rss)) .45320261
Recomiendo el uso de las cantidades almacenadas cuando sea posible, porque los resultados son ms precisos y el proceso es menos propenso a errores. Representando los valores observados y equipada.
Vamos a tratar de reproducir la figura 2.3. Queremos trazar cambio de la fecundidad en comparacin con ajuste de etiquetado de los puntos con los nombres de pases y la superposicin de la lnea de regresin. Esto se puede hacer utilizando el graph twoway de comandos para combinar dos tipos de grficos (el uso de parntesis para cada parcela): scatter de la dispersin, y lfit para la lnea de mnimos cuadrados. Para etiquetar los puntos se utiliza el diagrama de dispersin mlabel opcin, especificando la variable que tiene los nombres de pases. El nico problema que si se intenta el comando hasta el momento es que se pueden ver algunos de sobreimpresin. Para resolver este problema usamos el mlabv opcin para definir la posicin de las etiquetas, utilizando una variable que define la posicin de tres por defecto, once de TrinidadTobago, y nueve de Costa Rica. Esto produce el resultado que se muestra en la Figura 2.3:
. generacin pos = 3
. reemplazar pos = 11 si el pas == "TrinidadTobago" (1 cambio real se) . reemplazar pos = 9 si el pas == "CostaRica" (1 cambio real se) . grfico de dos vas (ajuste de dispersin cambio, mlabel (pas) mlabv (pos)) / / / > (Ajuste lfit cambio, la leyenda (off)) / / / > Title ("Figura 2.3: el cambio de fecundidad por entorno social") . fig23.png grfico de las exportaciones, reemplazar (Fig23.png archivo escrito en formato PNG) la anchura (400)
Ejercicio: Ejecutar el modelo de regresin lineal simple para el cambio de la fecundidad en funcin del esfuerzo del programa, y la trama de los resultados.
2.5 Regresin mltiple

Vamos a tratar de un modelo de regresin mltiple con efectos lineales y aditivos de entorno social y esfuerzo del programa:
. cambio de configuracin de regresin esfuerzo
Fuente | SS df MS Nmero de obs = 20 -------------+------------------------------ F (2, 17) = 23,96 Modelo | 1956.19433 2 978.097163 Prob> F = 0,0000 Residual | 17 40.8238632 694.005675 R-cuadrado = 0,7381 -------------+------------------------------ Adj R-cuadrado = 0,7073 Total | 2650.2 19 139.4842 11 Raz ECM = 6.3894 -------------------------------------------------- --------------------------cambio | Coef. Enfermedades de transmisin sexual. Err. TP> | t | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------configuracin | .2705885 .1079405 2.51 0.023 0.042854 0.498323 esfuerzo | .9677137 .2250074 .4929895 4.30 0.000 1.442438 _cons | 7.093841 -14.4511 -29.41779 -2,04 0,058 0,5155975 -------------------------------------------------- ---------------------------
Comparar los coeficientes de la Tabla 2.5 y el anlisis de varianza con la Tabla 2.7. Las estimaciones sugieren que el descenso de la fecundidad aumenta con el entorno social, alrededor de un cuarto de punto porcentual por cada punto de ajuste, cuando se comparan pases con el mismo esfuerzo. Del mismo modo, la disminucin de la fertilidad de un punto porcentual por cada punto ms de esfuerzo del programa, cuando se comparan pases con el mismo medio social. Es importante tener en cuenta que ambas conclusiones se basan en el modelo, que asume la linealidad y aditividad. De hecho, no podemos comparar a los pases que difieren exactamente en un punto en el esfuerzo y tener el mismo valor, por lo que la bondad del ajuste ser una preocupacin central. Tambin es posible que tenga en cuenta que yo trato de evitar el uso de lenguaje causal para describir los datos de observacin. Las correlaciones parciales. Asegrese de que sabe cmo reproducir el anlisis de varianza jerrquico en la Tabla 2.8 en las notas. Vamos a ver la correlacin parcial que aparece en la pgina 27. Aqu est el coeficiente o el cambio y controlar el esfuerzo de ajuste:
. pantalla "correlacin parcial =" sqrt ((1.449,1 a 694) / 1449.1) correlacin parcial = .72186013
Cuadratura este coeficiente, vemos que los esfuerzos del programa se asocia con la mitad de la variacin de la izquierda en el descenso de la fecundidad en los pases con un mismo medio social. (Es comn decir que "despus de controlar el entorno social", pero por supuesto que no son capaces de manipular cualquiera de estas variables.)
Podramos haber calculado la correlacin parcial con Stata pcor comandos, lo que es posible que desee para tratar de verificar nuestro resultado, pero el clculo anterior muestra ms claramente lo que estamos haciendo. Tambin, podramos haber utilizado cantidades almacenadas, si tan slo tuviramos almacenada la suma de los cuadrados residual del modelo anterior en un escalar.
2.6 Una forma de anlisis de varianza

Vamos a grupo de ajustes sociales en categoras. Primero haremos una copia, que voy a llamar setting_g de entorno social agrupado. (Cada uno tiene sus propias convenciones para nombrar variables. Trato de mantener los nombres de variable a corto, en minsculas, y esperemos que no sea demasiado crptica. Debido a que estamos recin empezando me har hincapi en la "no muy crptica" parte, de lo contrario podra haber utilizado ssg . Stata permite a los nombres de las variables a tener hasta 32 caracteres, pero la mayora de los comandos de impresin slo 12, as que lo mejor es ceirse a un mximo de 12.)
. generar setting_g ajuste =
Entonces lo recodifican en las categoras <70, 70-79 y 80 +, creando as un factor discreto, con tres niveles.
. recode setting_g min/69 70/79 = 1 = 2 = 3 80/max (Setting_g: 20 los cambios realizados)
Podra ser buena idea etiquetar la nueva variable y sus categoras. Voy a definir un nuevo conjunto de etiquetas llamado setting_g y la asigna a los valores de la variable. Los nombres de la variable y la etiqueta no tiene que ser el mismo. Por ejemplo, uno podra tener una etiqueta llamada yesno asignados a los valores de todas las variables que "S" y "No" los valores. En este caso, tiene sentido utilizar el mismo nombre.
. . . var etiqueta setting_g "Ajuste Social (agrupadas) definir una etiqueta setting_g "baja" 2 "Medium" 3 "de alta" valores de la etiqueta setting_g setting_g
Por el camino se puede acortar este proceso con las opciones de la recode de comandos como se muestra en la seccin 2.7 de este registro, pero creo que es bueno ver todos los pasos una vez. Echemos un vistazo a la respuesta media a nivel de entorno social
. tabular setting_g, resumen (cambiar)
Social | Resumen de cambios% en CBR entre Entorno | 1965 y 1975 (Agrupados) | estndar promedio. Prog. Freq. ------------+-----------------------------------Baja | 7.5714286 7.3452284 7 Mediano | 8.6 9.9398189 5
De alta | 23.75 10.264363 8 ------------+-----------------------------------Total | 14,3 11.810343 20
Vemos declive mucho ms la fertilidad en los pases con mayor ajuste, pero slo una pequea diferencia entre las categoras de baja y media. Las variables dummy Stata cuenta con un anova de comandos que se pueden ajustar modelos lineales con factores distintos como predictores. Vamos a utilizar regress en su lugar, hacer hincapi en que todos estos modelos son en realidad modelos de regresin. Esto nos ayudar a lo largo de cuando pasamos a logit y modelos de Poisson, que ya no hacen esta distincin. Esto significa que tenemos que el factor de cdigo con variables dicotmicas. Esto se puede hacer de tres maneras diferentes:
Stata 11 introdujeron las variables de factor, de una manera muy poderosa de especificar los efectos principales y las interacciones en los modelos de regresin. Esto sustituye a la xi: prefijo que podra ser utilizado con comandos como regress en las versiones 10 y anteriores. Esta es la forma ms sencilla y rpida de proceder, pero los resultados no estn etiquetados. Vamos a tener un ejemplo muy pronto. Una segunda forma es la generacin de los maniques con la gen opciones de la tabulate comandos. Esto genera un maniqu o una variable indicador para cada categora del factor. Se especifica una "madre" o el prefijo de los nombres y Stata aade un nmero de secuencia. Esto hace que sea muy fcil de generar muecos llamados setting_g1, setting_g2, etc Mi forma preferida es la generacin de los maniques "a mano" con gen , aprovechando el hecho de que en las expresiones de Stata lgicas toman el valor 1 cuando es verdadera y 0 cuando es falsa. Esto conduce a un cdigo muy legible. Slo una palabra de precaucin: hay que tener cuidado con las expresiones abiertas como if x > 100 ya las tiendas de Stata faltan valores como nmeros muy grandes, por lo que la expresin es verdadera si x = 200 , pero tambin es cierto si x es falta. La manera segura de cdigo esta condicin es if x > 100 & !missing(x) .
Comencemos con la tercera va. Para representar un factor de tres categoras slo necesitamos dos variables dummy. Voy a elegir nivel bajo (<70) como categora de referencia y crear muecos de medio (70-79) y alta (80 +):
. generacin setting_med = setting_g == 2 / / o configuracin de> = 70 y ajuste de <80 . generacin setting_high = setting_g == 3 / / o configuracin de> = 80 &! falta (de ajuste)
Podramos haber codificado las condiciones en trminos de la variable original como se muestra en los comentarios anteriores, con exactamente el mismo resultado.
Probablemente me habra utilizado ese enfoque si los maniques fueron llamados setting70to79 y setting80plus . Ahora estamos listos para ajustar el modelo de un factor:
. regresin setting_high cambio setting_med
Fuente | SS df MS Nmero de obs = 20 -------------+------------------------------ F (2, 17) = 6,97 Modelo | 1193.78571 2 596.892857 Prob> F = 0,0062 Residual | 1456.41429 17 85.6714286 R-cuadrado = 0,4505 -------------+------------------------------ Adj R-cuadrado = 0,3858 Total | 2650.2 19 139.4842 11 Raz ECM = 9.2559 -------------------------------------------------- --------------------------cambio | Coef. Enfermedades de transmisin sexual. Err. T P> | t | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------setting_med | 1.028571 5.419692 0.19 0.852 -10.40598 12.46312 setting_high | 16.17857 4.790376 6.071761 26.28538 3.38 0.004 _cons | 7.571429 3.498396 2.16 0.045 0.1904579 14.9524 -------------------------------------------------- ---------------------------
Vemos que en pases con una fecundidad alta configuracin disminuido, en promedio, 16 puntos porcentuales ms que en pases con nivel bajo. Puede obtener estas estimaciones de los medios calculado anteriormente? Comparar las estimaciones de parmetros con los valores en la tabla 2.11 y el anlisis de varianza con la Tabla 2.12 en las notas. La test comando se puede utilizar para generar la prueba de Wald en la pgina 32 de las notas. Stata convierte automticamente el criterio de un F-test para los modelos lineales. El resultado es, por supuesto, el mismo que en la tabla de ANOVA: las diferencias mediante el establecimiento son significativas al nivel del uno por ciento.
. prueba setting_med setting_high (1) setting_med = 0 (2) setting_high = 0 F (2, 17) = 6,97 Prob> F = 0,0062
Variables Factor Vamos a demostrar cmo obtener los mismos resultados que el uso de variables de Stata factor. La idea aqu es utilizar un i. prefijo en la lista de regresores decir Stata en un factor de prediccin es de hecho un factor discreto, que tiene cdigos de nmeros enteros, tales como 0,1,2, ..., y debe ser entendido como un conjunto de maniques en vez de un efecto lineal. Stata entonces el ajuste del modelo escoger el cdigo ms bajo como la celda de referencia. Usted puede cambiar la categora de base con ib#. en lugar de i. como
prefijo, donde # es el cdigo de la categora de referencia. Por lo tanto, i.setting_g trata agrupados entorno como un factor de baja como lnea de base, mientras que ib3.setting_g conjuntos de alta como lnea de base. Esta es la regresin a la celda de referencia por defecto:
. cambio de regresin i.setting_g
Fuente | SS df MS Nmero de obs = 20 -------------+------------------------------ F (2, 17) = 6,97 Modelo | 1193.78571 2 596.892857 Prob> F = 0,0062 Residual | 1456.41429 17 85.6714286 R-cuadrado = 0,4505 -------------+------------------------------ Adj R-cuadrado = 0,3858 Total | 2650.2 19 139.4842 11 Raz ECM = 9.2559 -------------------------------------------------- --------------------------cambio | Coef. Enfermedades de transmisin sexual. Err. T P> | t | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------setting_g | 2 | 1.028571 5.419692 0.19 0.852 -10.40598 12.46312 3 | 16.17857 4.790376 6.071761 26.28538 3.38 0.004 | _cons | 7.571429 3.498396 2.16 0.045 0.1904579 14.9524 -------------------------------------------------- ---------------------------
Como usted puede ver los resultados son exactamente los mismos que antes. El precio a pagar por este servicio extraordinario es que usted tiene que recordar cules son los cdigos 2 y 3 de soporte. Aqu es fcil porque las categoras estn ordenadas, pero las cosas pueden ser ms difciles con variables tales como la etnia o el tipo de proveedor de atencin mdica. Usted puede incluso hacer la prueba de Wald con bastante facilidad, pero hay un giro. No se puede test i.setting_g , que es lo que intent por primera vez, porque i.setting_g no es un trmino (o variable) en el modelo. Hay, sin embargo, un comando alternativo llamado testparm que le permite especificar una lista de variables y luego las pruebas de todos los coeficientes correspondientes (se lee como "prueba de los parmetros de ..."). As que la solucin es
. testparm i.setting_g (1) 2.setting_g = 0 (2) 3.setting_g = 0 F (2, 17) = 6,97 Prob> F = 0,0062
Como se puede ver en la salida, Stata los nombres de los coeficientes de un factor variable con el nmero del nivel seguido de un punto y el nombre del factor, como en 2.setting_g . Usted puede reproducir este F-test con el comando test 2.setting_g 3.setting_g , que funciona muy bien porque se trata de trminos (variables individuales) en el modelo.
En un asunto relacionado, Stata almacena los coeficientes en una matriz llamada e(b) , y se puede utilizar la lista mat list e(b) . As es como descubr por primera vez los nombres de los coeficientes que representan las variables de factor. Ejercicio: Obtener los parmetros estimados y la tabla de ANOVA para el modelo con el esfuerzo de planificacin familiar agruparse en tres categoras: 0-4, 5-14 y 15 +, con la etiqueta dbil, moderado y fuerte.
2.7 de dos vas de anlisis de varianza

Comencemos por crear una copia de esfuerzo del programa, y la agrupacin en categoras 0-4, 5-14 y 15 +. Esta vez vamos a hacer la copia, grabacin y etiquetado en un solo comando, utilizando effort_g por el esfuerzo en grupo.
. esfuerzo de recodificacin (0 / 4 = 1 "dbil") (5 / 14 = 2 "moderado") / / / > (15/max = 3 "fuerte"), oxgeno (effort_g) etiqueta (effort_g) (20 diferencias entre el esfuerzo y effort_g)
Aqu hay una tabla que muestra cadas ms pronunciadas en los pases con programas slidos, con una diferencia menor entre dbiles y moderadas:
. tabular effort_g, resumen (cambiar)
RECODE de | esfuerzo | Resumen de cambios de RBC% entre (Programa | 1965 y 1975 Esfuerzo) | media estndar. Prog. Freq. ------------+-----------------------------------Dbil | 5 4 7 Moderado | 9.3333333 7.393691 6 Fuerte | 27.857143 6.3358391 7 ------------+-----------------------------------Total | 14,3 11.810343 20
Un modelo aditivo Vamos a crear las variables dumy para los programas de moderada y fuerte.
. generacin effort_mod = effort_g == 2 / / o el esfuerzo> = 5 y el esfuerzo <15 . generacin effort_str = effort_g == 3 / / o el esfuerzo> = 15 &! falta (el esfuerzo)
Los comentarios muestran cmo podemos crear estos muecos directamente de la variable original, sin pasar por la creacin de los factores agrupados. Ahora estamos listos para ajustar el modelo aditivo con programas dbiles de los pases en temperatura baja como la celda de referencia:
. cambio de regresin setting_med setting_high effort_mod effort_str Fuente | SS df MS Nmero de obs = 20
-------------+------------------------------ F (4, 15) = 13,55 Modelo | 2075.80829 4 518.952073 Prob> F = 0,0001 Residual | 574.39171 15 38.2927807 R-cuadrado = 0,7833 -------------+------------------------------ Adj R-cuadrado = 0,7255 Total | 2650.2 19 139.4842 11 Raz ECM = 6.1881 -------------------------------------------------- --------------------------cambio | Coef. Enfermedades de transmisin sexual. Err. T P> | t | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------setting_med | -1.680829 3.854967 6.535839 -9.897497 0.669 -0,44 setting_high | 2.387565 4.45653 0.54 0.600 -7.111304 11.88643 effort_mod | 3.836269 3.574561 1.07 0.300 -3.782727 11.45527 effort_str | 20.6715 4.339232 11.42265 29.92036 4.76 0.000 _cons | 5.379275 3.10526 1.73 0.104 -1.23943 11.99798 -------------------------------------------------- ---------------------------
Comparar estas estimaciones con los resultados de la Tabla 2.15 y el anlisis de varianza con la Tabla 2.16. Los pases con fuertes programas de planificacin familiar muestran cadas ms pronunciadas que en los pases con programas dbiles en el mismo nivel de entorno social, en promedio 21 puntos porcentuales ms. Esta afirmacin se basa en el supuesto de aditividad, es decir, que la diferencia en los resultados de la mayora de categoras de esfuerzo del programa es el mismo en todos los niveles de ajuste. Vamos a probar esta hiptesis a continuacin . Variables Factor Antes de hacer eso, vamos a mostrar cmo se puede obtener los mismos resultados, y admitedly con menos esfuerzo, utilizando las variables de factor. Basta con utilizar las versiones categrica de la prediccin con la i. prefijo para instruir a Stata para el tratamiento de los factores:
. regresin cambio i.setting_g i.effort_g
Fuente | SS df MS Nmero de obs = 20 -------------+------------------------------ F (4, 15) = 13,55 Modelo | 2075.80829 4 518.952073 Prob> F = 0,0001 Residual | 574.39171 15 38.2927807 R-cuadrado = 0,7833 -------------+------------------------------ Adj R-cuadrado = 0,7255 Total | 2650.2 19 139.4842 11 Raz ECM = 6.1881 -------------------------------------------------- --------------------------cambio | Coef. Enfermedades de transmisin sexual. Err. T P> | t | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------setting_g | 2 | -1.680829 3.854967 6.535839 -9.897497 0.669 -0,44 3 | 2.387565 4.45653 0.54 0.600 -7.111304 11.88643 |
effort_g | 2 | 3.836269 3.574561 1.07 0.300 -3.782727 11.45527 3 | 20.6715 4.339232 11.42265 29.92036 4.76 0.000 | _cons | 5.379275 3.10526 1.73 0.104 -1.23943 11.99798 -------------------------------------------------- ---------------------------
Slo tienes que recordar que la posicin 2 y 3 son de media y alta, y el esfuerzo 2 y 3 son los programas de moderada y fuerte. Valores ajustados Vamos a reproducir la Tabla 2.17 en las notas, que muestran los medios provistos por el establecimiento y el esfuerzo. Voy a utilizar predict la generacin de los valores ajustados, y luego simplemente tabular por los dos factores relevantes:
. predecir anovafit (Xb opcin supone, los valores ajustados) . . etiqueta var anovafit "de dos vas en forma anova" tabular effort_g setting_g, resumen (anovafit) significa Medios de ajuste de dos vas ANOVA Sociales | RECODE de esfuerzo (Programa de Entorno | Esfuerzo) (Agrupados) | Dbil Fuerte Moderado | Total -----------+---------------------------------+---- -----Baja | 5.3792748 9.2155437. | 7.5714285 Mediano | 3.6984456 7.5347152 24.369947 | 8.5999999 De alta | 7.7668395 11.603108 28.438341 | 23.749999 -----------+---------------------------------+---- -----Total | 5.0000001 9.3333331 27.857142 | 14,3
Se puede contraer la clula falta en la esquina superior derecha? Qu hay de los mrgenes? Una interaccin de dos factores Consideremos ahora un modelo con una interaccin entre el entorno social y esfuerzo del programa, por lo que las diferencias en el descenso de la fecundidad por el esfuerzo vara segn la configuracin. Para hacer esto "a mano" que necesitamos para crear cuatro variables dummy. En este punto se hace difcil crear nombres razonable en 12 caracteres o menos. Voy a utilizar un carcter para cada variable y tres para cada categora. Una alternativa es utilizar camelCasing, lo que ahorra el espacio utilizado por el relieve.
. . . . generacin se_med_mod = setting_med * effort_mod generacin se_med_str = setting_med * effort_str generacin se_hi_mod = setting_high * effort_mod generacin se_hi_str = setting_high * effort_str
cambio de regresin setting_med setting_high effort_mod effort_str / / / > Se_med_mod se_med_str se_hi_mod se_hi_str Nota: se_hi_str omitido debido a la colinealidad Fuente | SS df MS Nmero de obs = 20 -------------+------------------------------ F (7, 12) = 8,15 Modelo | 2189.45 7 312.778571 Prob> F = 0,0009 Residual | 460.75 12 38.3958333 R-cuadrado = 0,8261 -------------+------------------------------ Adj R-cuadrado = 0,7247 Total | 2650.2 19 139.4842 11 Raz ECM = 6.1964 -------------------------------------------------- --------------------------cambio | Coef. Enfermedades de transmisin sexual. Err. T P> | t | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------setting_med | 3.333333 5.05937 0.66 0.522 -7.690086 14.35675 setting_high | 6.333333 7.155029 0.89 0.393 21.9228 -9.256136 effort_mod | 8.583333 4.732607 1.81 0.095 18.8948 -1.728132 effort_str | 19.33333 6.692917 2.89 0.014 4.75072 33.91595 se_med_mod | -14.58333 8.578579 4.107784 -33.27445 -1,70 0,115 se_med_str | -. 3333333 9.797427 -0.03 0.973 -21.68009 21.01343 se_hi_mod | -6.583333 9.959379 -0.66 0.521 -28.28296 15.11629 se_hi_str | (se omite) _cons | 2.666667 3.577515 0.75 0.470 10.4614 -5.128068 -------------------------------------------------- ---------------------------
. .
Vaya, Stata cay un trmino. Por qu? Debido a que no hay pases con programas slidos en entornos de bajos, as que tenemos slo ocho grupos, pero estn tratando de representar a sus medios utilizando nueve parmetros, que es obviamente demasiado. Afortunadamente esto no afecta a las pruebas. Podemos utilizar la suma de los cuadrados para construir el anlisis de varianza jerrquico en la Tabla 2.21 y Stata puede probar la interaccin para nosotros, bajando automticamente el trmino redundante:
. prueba se_med_mod se_med_str se_hi_mod se_hi_str (1) (2) (3) (4) se_med_mod = 0 se_med_str = 0 se_hi_mod = 0 o.se_hi_str = 0 La restriccin 4 cay F (3, 12) = 0,99 Prob> F = 0,4318
No tenemos ninguna evidencia de que las diferencias por el esfuerzo vara con la configuracin social. Esto hace que el tema de la interpretacin de los parmetros discutibles, pero vale la pena sealar brevemente los problemas causados por la celda vaca. En la actualidad, el coeficiente de esfuerzo moderado moderado compara con la debilidad en el nivel bajo,
pero el coeficiente de gran esfuerzo se compara con una fuerte debilidad en el valor alto. (Cuadro 2.20 en las notas puede ayudar a ver este punto. Cuando el plazo para la alta y fuerte se ha cado, la nica diferencia entre los programas fuertes y dbiles en valor alto es el coeficiente de fuerte.) La parametrizacin que ms me gusta de este problema combina los efectos principales de los esfuerzos de las interacciones, por lo que obtener las diferencias entre fuertes y dbiles, y entre los programas moderados y dbiles, en cada nivel de ajuste. Esto nos permite omitir la diferencia entre los programas fuertes y dbiles en el nivel bajo, que es la que no podemos identificar. No voy a seguir este rumbo en este momento, pero volver a la idea de que tenemos que interpretar una interaccin significativa. Interacciones de los factores Podemos poner el mismo modelo con las variables de factor, slo tenemos que utilizar el i. prefijo para indicar que el establecimiento de agruparse y el esfuerzo debe ser entendido como factores que no, las covariables, combinado con una almohadilla # para indicar las interacciones. Stata comprende un hash simple o doble, escrito sin espacios despus de una especificacin de los factores: Un hash nico, como en i.setting#i.effort , toma la primera celda de la tabulacin cruzada de ajuste y los grupos de esfuerzo como la lnea de base y se crean ocho maniques, uno para cada una de las otras clulas. En esta parametrizacin cada combinacin de niveles se compara directamente con la lnea de base. Un hash doble, como en i.setting##i.effort , creaes efectos principales e interacciones, y corresponde a la parametrizacin se utiliz anteriormente. Recordemos que en este caso "principales" efectos son realmente las diferencias entre las categoras de un factor cuando el otro factor que est en la lnea de base, y la "interaccin" diferencias adicionales cuando el otro factor que no est en la lnea de base. En nuestro ejemplo, tenemos el agravante de que una de las celdas, (1,3) est vaca. Stata detecta y cae el ltimo trmino:
. regresin cambio i.setting_g # # i.effort_g Nota: 1b.setting_g # 3.effort_g identifica ninguna observacin en la muestra Nota: 3.setting_g # 3.effort_g omitido debido a la colinealidad Fuente | SS df MS Nmero de obs = 20 -------------+------------------------------ F (7, 12) = 8,15 Modelo | 2189.45 7 312.778571 Prob> F = 0,0009 Residual | 460.75 12 38.3958333 R-cuadrado = 0,8261 -------------+------------------------------ Adj R-cuadrado = 0,7247 Total | 2650.2 19 139.4842 11 Raz ECM = 6.1964 -------------------------------------------------- --------------------------cambio | Coef. Enfermedades de transmisin sexual. Err. T P> | t | Conf. [95%. Intervalo]
-------------+------------------------------------ --------------------------setting_g | 2 | 3.333333 5.05937 0.66 0.522 -7.690086 14.35675 3 | 6.333333 7.155029 0.89 0.393 21.9228 -9.256136 | effort_g | 2 | 8.583333 4.732607 1.81 0.095 18.8948 -1.728132 3 | 19.33333 6.692917 2.89 0.014 4.75072 33.91595 | setting_g # | effort_g | 1 3 | (vaco) 2 2 | -14.58333 8.578579 4.107784 -33.27445 -1,70 0,115 2 3 | -. 3333333 9.797427 -0.03 0.973 -21.68009 21.01343 3 2 | -6.583333 9.959379 -0.66 0.521 -28.28296 15.11629 3 3 | (se omite) | _cons | 2.666667 3.577515 0.75 0.470 10.4614 -5.128068 -------------------------------------------------- ---------------------------
Lamentablemente no podemos controlar cul de los muecos se ha cado. Todo lo que podemos hacer es cambiar la lnea de base, o combinar categoras, pero eso no es particularmente til.
2.8 Anlisis de los modelos de covarianza

El anova de comandos en Stata tambin cabe el anlisis de covarianza, pero vamos a seguir utilizando la regresin con variables ficticias a travs de regress . Aqu est el modelo de tratamiento de la situacin social como una covariable con un efecto lineal y esfuerzo del programa, como un factor con tres categoras representadas por dos variables dummy
. cambiar el ajuste de regresin effort_mod effort_str
Fuente | SS df MS Nmero de obs = 20 -------------+------------------------------ F (3, 16) = 21,55 Modelo | 2124.50633 3 708.168776 Prob> F = 0,0000 Residual | 16 32.8558546 525.693673 R-cuadrado = 0,8016 -------------+------------------------------ Adj R-cuadrado = 0,7644 Total | 2650.2 19 139.4842 11 Raz MSE = 5.732 -------------------------------------------------- --------------------------cambio | Coef. Enfermedades de transmisin sexual. Err. T P> | t | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------configuracin | .1692677 .1055505 1.60 0.128 -. 0544894 .3930247 effort_mod | 4.143915 3.191179 1.30 0.213 -2.621082 10.90891 effort_str | 3.729295 19.44761 11.54186 27.35336 5.21 0.000 _cons | -5.954036 7.16597 -0.83 0.418 -21.14521 9.237141 -------------------------------------------------- ---------------------------
. estimaciones tienda ANCOVA / / guardar los resultados para su uso posterior
Exactamente el mismo modelo se puede montar utilizando las variables de factor. Acabamos de decir que effort_g Stata es un factor y, por omisin, que el establecimiento es una covariable. (Hay una c. prefijo para las covariables, pero est implcito en los comandos de regresin.)
. cambio de configuracin de regresin i.effort_g
Fuente | SS df MS Nmero de obs = 20 -------------+------------------------------ F (3, 16) = 21,55 Modelo | 2124.50633 3 708.168776 Prob> F = 0,0000 Residual | 16 32.8558546 525.693673 R-cuadrado = 0,8016 -------------+------------------------------ Adj R-cuadrado = 0,7644 Total | 2650.2 19 139.4842 11 Raz MSE = 5.732 -------------------------------------------------- --------------------------cambio | Coef. Enfermedades de transmisin sexual. Err. T P> | t | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------configuracin | .1692677 .1055505 1.60 0.128 -. 0544894 .3930247 | effort_g | 2 | 4.143915 3.191179 1.30 0.213 -2.621082 10.90891 3 | 19.44761 3.729295 11.54186 27.35336 5.21 0.000 | _cons | -5.954036 7.16597 -0.83 0.418 -21.14521 9.237141 -------------------------------------------------- ---------------------------
Los resultados estn de acuerdo con las tablas 2.23 y 2.24. Vemos que los pases con fuertes programas muestran cadas ms pronunciadas, en promedio 19 puntos porcentuales ms, que los pases con programas dbil y el entorno social mismo. Este anlisis se ha ajustado por los efectos lineales de ajuste, mientras que el anlisis de la seccin 2.7 ajustado por la diferencia mediante el establecimiento de agruparse en tres categoras. Como es el caso, tanto los anlisis de plomo a estimaciones similares de la diferencia entre los programas fuertes y dbiles en el mismo nivel de ajuste. Trazado observados y amueblada Vamos a hacer la figura 2.5, una parcela de cambio frente al establecimiento de identificar el nivel de esfuerzo del programa correspondiente a cada punto. Tambin voy a superponer las tres lneas paralelas que corresponden a la modelo ajustado. Esto se hace fcilmente utilizando el graph twoway de comando - que puede ser reducido a twoway - para combinar una scatter parcela con tres line parcelas, una para cada categora de esfuerzo.
. predecir ancovafit (Xb opcin supone, los valores ajustados)
. . dos vas (ajuste de dispersin cambio, mlabel (effort_g)) / / / > (Lnea de ajuste ancovafit si el esfuerzo <5, ms o menos) / / / > (Lnea ancovafit opcin si effort_mod, ms o menos) / / / > (Lnea ancovafit opcin si effort_str, ms o menos) / / / > > / / / Title> ("Figura 2.5: Cambiar la fertilidad mediante establecimiento y esfuerzo") / / / > Subttulo ("El anlisis de ajuste de covarianza") leyenda (off) . fig25.png grfico de las exportaciones, reemplazar (Fig25.png archivo escrito en formato PNG) la anchura
el
(500)
Observe cmo cada subparcela puede tener su propio if condicin. Tambin especifica el sort de opcin, que determina el orden en que los puntos se dibujan, muy importante cuando se les unirn las lneas. (Trate de line change setting para ver qu puede suceder si usted hace una grfica lineal en los datos sin clasificar. Con un ajuste lineal como en la Figura 2.5 la consecuencia de dejar fuera a sort no es evidente porque todos los puntos estn en una lnea recta.) Si usted quisiera etiquetar los puntos con las letras w, m y s para el dbil, moderado y fuerte, como se hace en las notas, se tendra que definir una nueva etiqueta para effort_g . Medios ajustados y no ajustados Volvamos a la comparacin de la disminucin ajustados y no ajustados en la Tabla 2.26, una manera til de presentar los resultados de la regresin a una audiencia no tcnica.
Empezamos por la restauracin de las estimaciones de ANCOVA y predecir descenso de la fecundidad en cada pas en su nivel observado de esfuerzo, pero la media de entorno social establecido en 72.1, que es la muestra:
. estimaciones restaurar ANCOVA (ANCOVA resultados estn activos ahora) . generacin adj_change = _b [_cons] + effort_mod * _b [effort_mod] + / / / > Effort_str * _b [effort_str] + 72,1 * _b [Configuracin] . var etiqueta adj_change "El cambio principal ajustado en posicin media"
Aqu tenemos acceso los coeficientes de la regresin pasado como _b[ varname ] , pero _coef[ varname ] tambin funciona. Esto es mejor que teclearlo todo a partir de la salida debido a que es menos propenso a errores y no perder precisin. A continuacin se tabulan los datos por nivel de esfuerzo y un resumen de los cambios observados y previstos. Usamos la tabstat comando porque el tabulate, summarize comando utilizado ealier calcula las estadsticas de resumen para una sola variable:
. adj_change tabstat cambio, por (effort_g) estadsticas (media) (RECODE de esfuerzo (Esfuerzo del
Resumen estadsticas: media por categoras de: effort_g Programa)) effort_g | cambio adj_ch ~ e ---------+-------------------Dbil | 5 6.250163 Moderado | 9.333333 10.39408 fuerte | 27.85714 25.69777 ---------+-------------------Total | 14,3 14,3 ------------------------------
Los pases con un promedio de fuerte programa de una disminucin del 28% de la fecundidad, pero tambin tienden a tener mayores opciones, se estima una cada ligeramente menor de alrededor del 26% en el entorno social media. La estimacin se basa en el modelo, que ajusta de forma lineal para el ajuste y se supone que la pendiente es el mismo en todos los niveles de esfuerzo. El siguiente paso ser examinar esta hiptesis. Por cierto Stata puede automatizar este tipo de clculo utilizando el margins de comandos en la versin 11, o el adjust de comandos en las versiones anteriores. Se procedi de los primeros principios, porque los clculos son fciles de hacer y se puede ver exactamente lo que es ser uno. Por otro lado, una vez que te acostumbras a los margins de comandos que usted aprecia su poder. Entiende las variables de factor, y tiene la ventaja adicional de producir los errores estndar de las predicciones ajustadas. As que aqu est la manera de predecir el descenso de la fecundidad por niveles de esfuerzo en posicin media:
. .
establecimiento de cambio de silencio regresan i.effort_g mrgenes i.effort_g, al ((media) de ajuste)
Predicciones nmero ajustado de obs = 20 Modelo VCE: MCO Expresin: prediccin lineal, predecir () en: ajuste = 72,1 (media) -------------------------------------------------- --------------------------| Delta-mtodo | Margen estndar. Err. Z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------effort_g | 1 | 6.250162 2.30248 2.71 0.007 1.737384 10.76294 2 | 10.39408 2.431767 5.627901 15.16025 4.27 0.000 3 | 25.69777 2.550846 10.07 0.000 20.6982 30.69734 -------------------------------------------------- ---------------------------
No era tan fcil? Me vuelva a ejecutar la regresin con las variables de factor, utilizando en silencio para suprimir la salida, y luego le pregunt por el margen de los esfuerzos en posicin media ... literalmente. La Asuncin de Paralelismo Ahora vamos a permitir que la relacin lineal entre el cambio y el establecimiento de variar con el nivel de esfuerzo mediante la introduccin de una interaccin entre el entorno y los indicadores de esfuerzo. Antes de hacer eso nos centramos el ndice de entorno social, restando la media, una prctica que recomiendo para simplificar la interpretacin de los "principales" efectos en el modelo las interacciones:
. . silencio resumen ajuste generacin setting_c = ajuste - r (media)
Aqu hemos utilizado el hecho de que la media se encuentra disponible como r(mean) despus de summarize . (Para ver todos los resultados que se puede extraer este tipo de forma de return list .) Ahora podemos generar variables para representar la configuracin lineal de la interaccin con el esfuerzo centrado en la variable, y ejecutar la regresin:
. . . generacin se_c_mod = setting_c * effort_mod generacin se_c_str = setting_c * effort_str regresin cambio setting_c effort_mod effort_str se_c_mod se_c_str
Fuente | SS df MS Nmero de obs = 20 -------------+------------------------------ F (5, 14) = 12,13 Modelo | 2153.09941 5 430.619882 Prob> F = 0,0001
Residual | 497.10059 14 35.507185 R-cuadrado = 0,8124 -------------+------------------------------ Adj R-cuadrado = 0,7454 Total | 2650.2 19 139.4842 11 Raz ECM = 5.9588 -------------------------------------------------- --------------------------cambio | Coef. Enfermedades de transmisin sexual. Err. T P> | t | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------setting_c | .1835741 .1396981 1.31 0.210 -. 1160486 .4831968 effort_mod | 3.583729 3.662354 0.98 0.344 11.4387 -4.271239 effort_str | 13.3332 8.209163 1.62 0.127 30.9401 -4.273701 se_c_mod | -. 0868366 .2325831 -0.37 0.714 -. 5856776 .4120045 se_c_str | .4567037 .6039241 0.76 0.462 -. 8385847 1.751992 _cons | 6.355826 2.477298 2.57 0.022 1.04255 11.6691 -------------------------------------------------- ---------------------------
Comparar las estimaciones de parmetros con la Tabla 2.27 en las notas. Usted tambin tiene toda la informacin necesaria para producir el anlisis de varianza jerrquico en la Tabla 2.28. Debido a que centra ajuste, los coeficientes para los programas de moderada y fuerte resumir las diferencias por el esfuerzo en la posicin media, en lugar de en la puesta a cero (lo que est bien fuera del alcance de los datos). Por lo tanto, los promedios de disminucin de la fecundidad de 13 puntos porcentuales ms fuerte que en el marco de programas en pases con dbil entorno social media. Los trminos de interaccin se puede utilizar para calcular cmo estas diferencias varan conforme nos alejamos de la media. Por ejemplo, en pases que son diez puntos por encima del entorno social media, la gran diferencia frente al dbil es casi cinco puntos porcentuales ms que en la media. Estas diferencias, sin embargo, no son significativos, ya que no podemos rechazar la hiptesis de que los tres pendientes son iguales:
. prueba se_c_mod se_c_str (1) se_c_mod = 0 (2) se_c_str = 0 F (2, 14) = 0,40 Prob> F = 0,6761
Variables factor en Ancova Podemos reproducir estos resultados con exactitud el uso de variables de los factores, utilizando el hash doble ## convencin para solicitar los efectos principales e interacciones, y la i. prefijo para especificar que el esfuerzo de agruparse debe ser tratada como un factor. Descubr que tambin tenemos que utilizar el c. prefijo para recordar que el establecimiento de Stata centrado debe ser tratada como una covariable. (Esto no era necesaria en la seccin anterior, pero aqu Stata intento de construir indicadores para cada valor de ajuste centrada si lo omite.)
. regresin cambio c.setting_c # # i.effort_g
Fuente | SS df MS Nmero de obs = 20 -------------+------------------------------ F (5, 14) = 12,13 Modelo | 2153.09941 5 430.619882 Prob> F = 0,0001 Residual | 497.10059 14 35.507185 R-cuadrado = 0,8124 -------------+------------------------------ Adj R-cuadrado = 0,7454 Total | 2650.2 19 139.4842 11 Raz ECM = 5.9588 -------------------------------------------------- --------------------------cambio | Coef. Enfermedades de transmisin sexual. Err. T P> | t | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------setting_c | .1835741 .1396981 1.31 0.210 -. 1160486 .4831968 | effort_g | 2 | 3.583729 3.662354 0.98 0.344 11.4387 -4.271239 3 | 13.3332 8.209163 1.62 0.127 30.9401 -4.273701 | effort_g # | c.setting_c | 2 | -. 0868366 .2325831 -0.37 0.714 -. 5856776 .4120045 3 | 0,4567037 0,6039241 0,76 0.462 -. 8385847 1.751992 | _cons | 6.355826 2.477298 2.57 0.022 1.04255 11.6691 -------------------------------------------------- ---------------------------
El testparm presentado anteriormente es muy til para probar el trmino de interaccin

. testparm c.setting_c # i.effort_g (1) 2.effort_g # c.setting_c = 0 (2) 3.effort_g # c.setting_c = 0 F (2, 14) = 0,40 Prob> F = 0,6761
Ejercicio. Represente los datos y las lneas de regresin que implica el modelo con un ajuste lineal por la interaccin esfuerzo. Ntese cmo la diferencia entre los programas fuertes y los dbiles se incrementa con la configuracin social. La interaccin no es significativa, sin embargo, por lo que no tenemos evidencia de que las lneas no estn en paralelo hecho.
2.9 Diagnstico de regresin

Todas las medidas de diagnstico discutido en las notas de clase se puede calcular en Stata, algunos en ms de una forma. En particular, puede que quiera leer sobre el comando predict despus de regress en el manual de Stata. En esta seccin vamos a trabajar con el anlisis de aditivos de covarianza de la seccin anterior. Para salvar a escribir el modelo cada vez que lo necesitamos, podemos definir una macro locales
. predictores locales "configuracin effort_mod effort_str"
Ahora podemos ajustar nuestro modelo con el siguiente comando

. regresin cambio `prediccin '
Fuente | SS df MS Nmero de obs = 20 -------------+------------------------------ F (3, 16) = 21,55 Modelo | 2124.50633 3 708.168776 Prob> F = 0,0000 Residual | 16 32.8558546 525.693673 R-cuadrado = 0,8016 -------------+------------------------------ Adj R-cuadrado = 0,7644 Total | 2650.2 19 139.4842 11 Raz MSE = 5.732 -------------------------------------------------- --------------------------cambio | Coef. Enfermedades de transmisin sexual. Err. T P> | t | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------configuracin | .1692677 .1055505 1.60 0.128 -. 0544894 .3930247 effort_mod | 4.143915 3.191179 1.30 0.213 -2.621082 10.90891 effort_str | 3.729295 19.44761 11.54186 27.35336 5.21 0.000 _cons | -5.954036 7.16597 -0.83 0.418 -21.14521 9.237141 -------------------------------------------------- ---------------------------
Comencemos con los residuos. La manera ms fcil de conseguirlos es que las opciones de la predict de comandos. Especificar la opcin de res de los residuos de crudo, rstand de los residuos estandarizados, y rstud de Student (o dobl) los residuos. Vamos a obtener los tres:
. . . . predecir ri, res predecir si, RSTA predecir ti, rstu etiqueta var ti "Jack-acuchillado residuos"
Para obtener el sombrero de la matriz y la distancia de Cook se utilizan dos opciones ms de predict , hat y cook :
. . predecir HII, sombrero predecir di, cocinar
Ahora estamos listos para imprimir la tabla 2.29 en las notas

. lista de pases ri ti si HII di, limpio 1. 2. 3. 4. 5. 6. 7. 8. 9. pas si ri ti HII di Bolivia -. 8322767 -. 1689738 -. 1637543 .2616128 0.002529 Brasil 3.428229 0.645213 .6573142 .1720945 .0224529 Chile .4416054 .0834989 .0808651 .1486769 .0003044 Colombia -1.527183 -. 2913581 -. 2828576 .1637904 .0041569 CostaRica 1.287944 0.242732 0.2354582 0.1431063 0.0024599 Cuba 11.44161 2.163383 2.490349 0.1486769 0.2043412 DominicanRep 11.29992 2.161597 2.487445 0.1682585 0.2363079 Ecuador -10.03862 -1.925296 -2.126719 0.1725536 0.1932498 ElSalvador 4.654061 0.178205 .8956616 .8898143 .0434895
10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20.
Guatemala -3.4996 -. 6853749 -. 6735727 0.206462 0.030554 Hait .0296676 .0069303 .0067103 .4422478 9.52e-06 Honduras .1774703 .0355449 .0344175 .2412746 .0001004 Jamaica -7.219859 -1.361729 -1.402245 0.1444142 0.0782469 Mxico 0,90482 0,1830367 0,1774104 0,2562359 0,0028855 Nicaragua 1.443835 .2726553 .2646128 .1465179 .0031905 Panam -5.712056 -1.076521 -1.082269 0.1431063 0.0483857 Paraguay -. 5717711 -. 109629 -. 1061877 .1720945 .0006246 Per -4.402503 -. 8410965 -. 8330122 .1661363 .0352372 1.287944 0.242732 0.2354582 TrinidadTobago 0,1431063 0,0024599 Venezuela -2.593236 -. 5752294 -. 5628135 .3814295 0.051009
Aqu est una manera fcil de encontrar los casos expuestos en la Tabla 2.29, con los residuos estandarizados o dobl superior a 2 en magnitud:
. lista de pases ri ti si HII di si abs (si)> 2 | abs (ti)> 2, limpio 6. 7. 8. pas si ri ti HII di Cuba 11.44161 2.163383 2.490349 0.1486769 0.2043412 DominicanRep 11.29992 2.161597 2.487445 0.1682585 0.2363079 Ecuador -10.03862 -1.925296 -2.126719 0.1725536 0.1932498
Vamos a utilizar un escalar para calcular el apalancamiento mximo aceptable, lo cual es 2p / n, en general, a continuacin, la lista de casos que supere ese valor (si existe).
. . escalar hiimax = 2 * 4.20 lista de pases ri ti si HII di si HII> hiimax, limpio 11. pas si ri ti HII di Hait .0296676 .0069303 .0067103 .4422478 9.52e-06
Por lo tanto, Hait tiene una gran cantidad de apalancamiento, pero la influencia real de muy poco. Hagamos una lista de los seis pases ms influyentes. Voy a hacer esto por clasificar los datos en orden descendente de influencia y una lista de los seis primeros. Regulares de Stata sort tipo comando slo en orden ascendente, pero gsort puede hacer descender si se especifica -di .
. . gsort dilista de pases di en 1 / 6, limpia 1. 2. 3. 4. 5. 6. pas di DominicanRep .2363079 Cuba .2043412 Ecuador .1932498 Jamaica .0782469 Venezuela 0.051009 Panam .0483857
Por lo tanto, la Repblica Dominicana, Cuba y Ecuador son observaciones muy influyente. Trate de volver a montar el modelo sin el DR para verificar lo que digo en la pgina 57 de los apuntes de clase. Los grficos de residuos
En las parcelas! Esta es la trama estndar residual en la figura 2.6, producidos con los siguientes comandos:
. predecir yhat (Xb opcin supone, los valores ajustados) . etiqueta var yhat "valores ajustados"
. dispersin de ti yhat, ttulo ("Figura 2.6: Parcela residual para Ancova Modelo") . fig26.png grfico de las exportaciones, reemplazar (Fig26.png archivo escrito en formato PNG) la anchura (500)
QQ Parcelas Ahora, para que hermosa QQ-plot de la Figura 2.7 de las notas:
. qnorm ti, el ttulo ("Figura 2.7: QQ plot de residuales de Ancova Modelo") . fig27.png grfico de las exportaciones, reemplazar (Fig27.png archivo escrito en formato PNG) la anchura (500)
No era tan fcil? Stata qnorm evala la inversa cdf normal en i / (n +1) en lugar de a (i3.8) / (n +1 / 4) o algunas de las otras aproximaciones discutidas en las notas. Por supuesto, usted puede utilizar cualquier aproximacin que desea, a costa de hacer el trabajo un poco ms. Voy a ilustrar la idea general mediante el clculo de aproximacin Filliben a las estadsticas de orden esperado o rankits, utilizando una funcin de variables del sistema de Stata _n para el nmero de observacin y _N para el nmero de casos.
. . especie si generacin pi = (_n-0.3175) / (_N 0.365)
. sustituir pi = 1-0,5 ^ (1/_N) si _n == 1 (1 cambio real se) . sustituir pi = 0.5 ^ (1/_N) si _n == _N (1 cambio real se) . generacin filliben invNorm = (pi)
. corr si filliben (Obs = 20) | Si filliben -------------+-----------------Si | 1,0000 filliben | 0,9655 1,0000
Como puede ver, la correlacin Filliben est de acuerdo con el valor de las notas: 0,9655. Me saltar el grfico, ya que parece casi idntica a la producida por qnorm .
2.10 La transformacin de los datos
En la ltima seccin de este captulo se refiere a Cox Box-transformaciones Para evitar problemas con los valores negativos de la variable de respuesta, se aade 1 / 2 a todas las observaciones:
. Generacin Y = cambio + 0,5
Stata cuenta con un potente boxcox comando que puede caber en los modelos tanto de la respuesta y, opcionalmente, (un subconjunto de) los predictores se transforman. (Las versiones anteriores slo se podra transformar el resultado, pero a cambio proporciona unas cuantas opciones adicionales, incluyendo un complot que ahora vamos a hacer "a mano".) La transformacin de Box-Cox Vamos a determinar la transformacin ptima para el anlisis de covarianza de la seccin 2.8 . Si est ejecutando esto en una sesin diferente tendr que redefinir la macro local con los predictores:
. predictores locales ajuste effort_mod effort_str
Estamos interesados en la transformacin de los resultados o 'de la izquierda del lado del' solamente. Voy a especificar la opcin de model(lhs) para dejar esto claro, a pesar de que es el valor predeterminado y puede ser omitida. Tambin se especificarn nolog para suprimir el registro de iteracin:
. boxcox y `prediccin ', el modelo (izda.) nolog Modelo de comparacin apropiado Modelo completo montaje Nmero de obs = 20 LR chi2 (3) = 29,29 Registro de probabilidad = -59.245917 Prob> chi2 = 0,000 -------------------------------------------------- --------------------------y | Coef. Enfermedades de transmisin sexual. Err. Z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------/ Theta | .6686079 0.167689 3.99 0.000 0,3399435 0,9972724 -------------------------------------------------- --------------------------Las estimaciones de los parmetros de la variante de escala ---------------------------| Coef. -------------+-------------Notrans | configuracin | .0945824 effort_mod | 1.957216 effort_str | 7.661322 _cons | -3.247024 -------------+-------------/ Sigma | 2.282724 ----------------------------
-------------------------------------------------- ------Prueba restringida estadstico LR P-valor H0: verosimilitud chi2 Prob> chi2 -------------------------------------------------- ------theta = -1 -100.56379 82.64 0.000 theta = 0 -67.15625 15.82 0.000 theta = 1 -61.068635 3,65 0.056 -------------------------------------------------- ------. escalar maxlogL = e (ll)
Como puede ver, Stata sugiere una potencia de 0,6686, que es un buen acuerdo con lo que uno podra esperar de la Figura 2.8 en las notas. Vamos a ver cmo hacer esta figura a continuacin. Por ahora, tenga en cuenta que nos ahorramos el mximo diario de probabilidad, que estaba disponible como e(ll) , en un escalar llamado maxlogL . (Para ver una lista de todas las cantidades disponibles para la extraccin despus de una instruccin de estimacin de tipo ereturn list .) Stata tambin encaja en el modelo mediante la transformacin ptima y muestra los coeficientes resultantes, pero no los errores estndar. Este ltimo se suprimi debido a que no tienen en cuenta el hecho de que la estimacin de la propia transformacin introduce una incertidumbre adicional. Para probar la importancia de un coeficiente que se pueden comparar los modelos con y sin la variable correspondiente mediante una prueba de razn de verosimilitud. Ntese, sin embargo, que la eliminacin de una variable puede cambiar la transformacin que se utiliza. Mi mtodo preferido es utilizar el procedimiento de Box-Cox como una gua general sobre si la transformacin es necesaria y, si es as, que el valor de la "escalera de los poderes" sera hacer un buen trabajo. Habindose establecido en algo as como tomar las races cuadradas, los registros, o recprocos, uno puede entonces proceder condicional en la transformacin elegida. Stata pueden ayudar a implementar este enfoque de dos maneras. En primer lugar, Stata muestra pruebas de razn de verosimilitud de la hiptesis de que el parmetro de Box-Cox es -1, 0 y 1, que se corresponden con el registro, la reciprocidad, y sin transformacin alguna. La ltima posibilidad no puede ser rechazada en el nivel convencional de cinco por ciento, lo que indica que no hay evidencia de que tenemos que transformar la respuesta. El registro y las transformaciones recprocas son a la vez rechazado con firmeza. Si se insiste en la transformacin de los datos, tomando races cuadradas, probablemente sera lo mejor. En segundo lugar, podemos trazar un perfil de riesgo que muestra el mrito relativo de las diversas transformaciones. Stata 6 utiliza para hacer una grfica similar a lo que necesitamos como una opcin de la boxcox comando, pero la opcin no est disponible en versiones posteriores. Esto nos brinda la oportunidad de hacer un ejercicio de programacin poco. (Podramos, por supuesto, el tipo de version 6 y han Stata acte como lo haca en aquel entonces. Una desventaja de este enfoque es que no tenemos ningn control sobre el rango de las transformaciones de trazado. Adems, la versin 6 utiliza para omitir una constante desde el registro de de la verosimilitud, por lo que los valores reportados deben ser ajustados por comparacin con las versiones posteriores.)
El perfil de log-verosimilitud Resulta que se puede calcular el Box-Cox log-verosimilitud para cualquier valor del parmetro con dos opciones de la boxcox comando que se refieren al procedimiento de maximizacin. Se especifica la transformacin como un valor a partir de la opcin from( value , copy) , y establecer el nmero mximo de iteraciones a cero con iterate(0) , por lo que Stata simplemente calcula el logaritmo de la verosimilitud, que puede recuperar a partir de e(ll) . Un truco, en realidad, pero es mejor que tener que programar su propia funcin. A continuacin escribimos un pequeo bucle para calcular el logaritmo de la verosimilitud de los valores exponente entre -1 y 2 en pasos de 0,5. Tambin creamos dos nuevas variables, p para almacenar los exponentes, y logL para almacenar el registro de las verosimilitudes. (Si desea obtener ms informacin sobre macros Stata y bucles ver la parte 4 de mi tutorial de Stata .)
. gen p =. (20 valores perdidos generados) . generacin logL =. (20 valores perdidos generados) . . (0) 3. 4. 5. 6. tranquilamente sustituir p = `p 'en el` I' tranquilamente sustituir logL = e (ll) en el Ì ' locales I = 'I' + 1 } locales I = 1 forvalues p = -1 (0.5) 2 { 2. en silencio y boxcox `prediccin ', de (' p ', copia) repetir
El grfico que sigue utiliza una tira para unirse a los puntos con una curva suave. Tambin dibuja una lnea horizontal para identificar los poderes que no son significativamente diferentes de los mejores. Esto ocurre cuando el doble de la diferencia en las verosimilitudes log es inferior a 3,84, el valor crtico del 95% para una chi-cuadrado con un df en la escala de logL esto hace que la lnea de 3,84 / 2 unidades por debajo del punto ms alto de la curva.
. Gen CB = maxlogL - 3.84 / 2 si p> -0,5 y p <2 (16 valores perdidos generados) . / Title> ("Figura 2.8: Box-Cox perfil de log-verosimilitud") / / / > XTitle ("lambda") ytitle ("log-verosimilitud") leyenda (off) . fig28.png grfico de las exportaciones, reemplazar (Fig28.png archivo escrito en formato PNG) la anchura (500) grfico de dos vas (mspline logL p, bandas (7)) (lnea CB p), / /
Prueba de Atkinson Puntuacin Nuestro clculo final consiste en la prueba de puntuacin de Atkinson, que requiere ajuste de la variable auxiliar dada por la ecuacin 2.31 en las notas. Se calcula la media geomtrica, gurdelo en un escalar llamado gmean , usar esto para calcular la variable auxiliar atkinson , y luego ajustar el modelo ampliado:
. . . . . generacin loga = ln (y) loga en silencio resumen escalar gmean = exp (r (media)) generacin de Atkinson y * = (ln (y / gmean) - 1) regresin cambio Àtkinson predictores"
Fuente | SS df MS Nmero de obs = 20 -------------+------------------------------ F (4, 15) = 23,67 Modelo | 2287.80568 4 571.951421 Prob> F = 0,0000 Residual | 15 24.159621 362.394315 R-cuadrado = 0,8633 -------------+------------------------------ Adj R-cuadrado = 0,8268 Total | 2650.2 19 139.4842 11 Raz ECM = 4.9152 -------------------------------------------------- --------------------------cambio | Coef. Enfermedades de transmisin sexual. Err. T P> | t | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------configuracin | .1969659 .0911353 2.16 0.047 .0027155 .3912163 effort_mod | 3.785032 2.739944 1.38 0.187 9.625084 -2.05502 effort_str | 11.66637 4.380003 2.330614 21.00212 2.66 0.018 Atkinson | .5916301 .2275638 .1065895 2.60 0.020 1.076671
_cons | -3.858157 6.197538 9.351583 -17.0679 -0,62 0,543 -------------------------------------------------- ---------------------------
El coeficiente de la variable auxiliar es de 0,59, por lo que la potencia ptima es de aproximadamente 1-0,59 = 0,41, lo que sugiere una vez ms que algo as como una transformacin de raz cuadrada pueden ser indicados. Los asociados estadstico t es significativo al nivel del dos por ciento, pero la relacin ms precisa la probabilidad estadstica de prueba calculada anteriormente era slo marginal. Por lo tanto, no tenemos una fuerte evidencia en contra de mantener la respuesta en la escala original. Ejercicio 1: Pruebe el procedimiento de Box-Tidwell de la ecuacin 2.32 en las notas para ver si una transformacin del entorno social estara indicada. Ejercicio 2: Ejecutar boxcox de estimacin ptima (y posiblemente diferentes) las transformaciones de cambio y ajuste, pero obviamente no es de los dos maniques que representan los niveles de esfuerzo.
3 Modelos Logit en Stata

Stata tiene varios comandos que se pueden utilizar para ajustar modelos de regresin logstica de mxima verosimilitud. Los comandos bsicos son logit para datos individuales y blogit para datos agrupados. Tambin hay una logistic de comandos que se presentan los resultados en trminos de nmero impar de ratios en lugar de log odds y puede producir una variedad de resumen y las estadsticas de diagnstico. Finalmente, se puede ajustar un modelo de regresin logstica como un caso especial de un modelo lineal generalizado con Bernoulli o errores logit binomial y enlace, utilizando el glm comando. Tendremos ocasin de utilizar todos estos comandos, pero se har hincapi en los dos primeros.
3.3 La comparacin de dos grupos

A raz de las notas de clase vamos a considerar comparando dos grupos y luego pasar a ms de dos. Una tabla de 2 por 2 Considere los datos sobre el uso de anticonceptivos por el deseo de tener ms hijos en la tabla 3.2 (pgina 14 de las notas). Podemos leer estos datos en Stata como dos observaciones binomial. Para hacer la vida ms fcil que se introduzca el deseo de tener ms hijos como una variable dicotmica que toma el valor 1 para las mujeres que desean tener ms hijos y 0 en caso contrario
. los usuarios de entrada nomore n 1. 2. 3. nomore n usuarios 0 219 972 1 288 635 final
Pruebas Homegeneity vamos a empezar por el ajuste del modelo nulo. Con blogit se especifica el resultado en trminos de el nmero de 'xitos' y el denominador binomial, aqu users y n :
. usuarios BlogIt n
Nmero de regresin logstica para datos agrupados de obs = 1607 LR chi2 (0) = 0,00 Prob> chi2 =. Registro de probabilidad = -1001.8468 Pseudo R2 = 0,0000 -------------------------------------------------- --------------------------_outcome | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------_cons | -. 7745545 .0536794 -14,43 0.000 -. 8797641 -. 6693448 -------------------------------------------------- ---------------------------
La estimacin de la constante no es ms que el logit de la proporcin global de uso de anticonceptivos, por ejemplo S / N, y el error estndar es la raz cuadrada de 1 / y + 1 / (NY). Es posible que desee comprobar estos resultados con la mano. Stata blogit no calcula la desviacin del modelo, pero podemos obtener "a mano" con predict para obtener cargos instalar:
. predecir pusers (Opcin n asumidos; E (casos)) . generacin de di = 2 * (* log usuarios (usuarios / pusers) + (nusuarios) * log ((n-usuarios) / (n-pusers))) . generacin de DI = suma (di)
. pantalla "Desviacin =" DI [_N] Desviacin = 91.674393
Por lo que la desviacin es de un 91,67 grados de libertad, proporcionando pruebas de que el modelo nulo no se ajusta a los datos. Por lo tanto, rechazamos la hiptesis de que la probabilidad de uso de anticonceptivos es el mismo en los dos grupos. Pruebe con un mtodo similar para calcular Pearson chi-cuadrado, usted debe obtener 92,64. Alternativamente, usted puede ajustar el modelo utilizando glm , que depende tanto de la desviacin y de Pearson chi-cuadrado por defecto. Voy a hacer esto en silencio y slo informe de los resultados correspondientes almacenados, e(deviance) de la desviacin y la e(deviance_p) para la estadstica de Pearson.
. los usuarios en silencio glm, la familia (binomial n)
. pantalla e (desviacin), e (deviance_p) 91.674397 92.644243
El Odds Ratio Veamos ahora el ajuste del modelo con 'quiero ms' los nios como el predictor. Este modelo est saturado de este conjunto de datos, utilizando dos parmetros de modelo de dos probabilidades:
. usuarios BlogIt n nomore
Nmero de regresin logstica para datos agrupados de obs = 1607 LR chi2 (1) = 91,67 Prob> chi2 = 0.0000 Registro de probabilidad = -956.00957 Pseudo R2 = 0,0458 -------------------------------------------------- --------------------------_outcome | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------nomore | 1.048629 0.110672 1.265542 9.48 0.000 .8317159 _cons | 0.0767739 -1.234993 -1.385468 -1.084519 0.000 -16,09 -------------------------------------------------- --------------------------. di exp (_b [nomore]) 2.8537363
La constante corresponde a la probabilidad de inicio de sesin de uso de anticonceptivos entre whomen que desean tener ms hijos, y el coeficiente de nomore es la diferencia en el diario de probabilidades entre los dos grupos. Exponentiating este coeficiente se obtiene un odds ratio de alrededor de tres. Contrariamente a la creencia popular, esto no significa que "las mujeres que quieren tener ms hijos tienen tres veces ms probabilidades de usar anticonceptivos". Hay dos errores en esta interpretacin. En primer lugar, y lo ms importante, es la probabilidad de uso de anticonceptivos entre las mujeres que no desean ms hijos que son tres veces superiores a las de las mujeres que quieren ms, no la probabilidad, que es lo que generalmente se entiende por "probabilidad". La interpretacin sera aproximadamente correcto si el caso objeto de estudio era raro, ya que si p es pequeo, entonces 1-p est cerca de uno y el odds ratio es aproximadamente el mismo que el riesgo relativo. Aqu las proporciones observadas son 0,454 y 0,225, y la proporcin es de 2,01, por lo que las mujeres que no desean ms hijos tienen el doble de probabilidades de usar mtodos anticonceptivos como los que quieren ms. En segundo lugar, aun cuando la probabilidad se triplic, que hara que las mujeres tres veces ms probabilidades, o dos veces ms probablemente, a usar anticonceptivos, no tres veces ms probable. En este caso, la probabilidad se duplica, y que hace a las mujeres dos veces ms probable es que no, dos veces ms probable. Pruebas de significacin El estadstico z es como se informa en la pgina 16 de las notas. Vamos a plaza:
. di (_b [nomore] / _se [nomore]) ^ 2 89.777623
Esta es la chi-cuadrado de Wald estadstica para la hiptesis de que el coeficiente de nomore es cero, o equivalentemente que el odds-ratio es uno, y se puede calcular ms el simple uso de Stata test comando:
. prueba nomore (1) [_outcome] nomore = 0 chi2 (1) = 89,78 Prob> chi2 = 0.0000
La chi2 estadstica reportada por Stata en la segunda lnea de salida es el cociente de probabilidad chi-cuadrado comparando el modelo actual con el modelo nulo. Puede usted explicar por qu nos 91.67, que es la desviacin del modelo nulo Pista: Cul es la desviacin de este modelo? Una tercera prueba del efecto de la escasez no est dada por la chi-cuadrado de Pearson, que se calcul anteriormente como 92,64. Esto es equivalente a la norma de prueba z para comparar dos proporciones si se utiliza la proporcin en comn para estimar el error estndar. Los tres estadsticas son diferentes, pero son asintticamente equivalentes. En nuestro ejemplo, que estn muy cerca en valor y dar lugar al rechazo misma mayora de la hiptesis de que la probabilidad de uso de anticonceptivos es el mismo en los dos grupos. Intervalos de confianza Stata es tan amable de darnos un intervalo de confianza del 95% de los coeficientes logit. Podemos convertir el intervalo para el coeficiente de nomore en un IC del 95% para el odds ratio por exponentiating los lmites de confianza:
. exp di (0.831716) "-" exp (1.265542) 2.2972575-3.5450136
Una manera ms fcil es escribir blogit, or . El blogit comando sin ningn tipo de variables, como todos los comandos de estimacin, simplemente recupera los resultados del ajuste anterior. La opcin or es la abreviatura de o dds-r ATIO y las causas de Stata para informar coeficientes exponentes (y omitir la constante):
. BlogIt, o
Nmero de regresin logstica para datos agrupados de obs = 1607 LR chi2 (1) = 91,67 Prob> chi2 = 0.0000 Registro de probabilidad = -956.00957 Pseudo R2 = 0,0458 -------------------------------------------------- --------------------------_outcome | cuotas estndar Ratio. Err. z P> | z | Conf. [95%. Intervalo]
-------------+------------------------------------ --------------------------nomore | 2.853736 .3158288 9.48 0.000 2.297257 3.545015 -------------------------------------------------- ---------------------------
El error estndar de la odds ratio se calcula por el mtodo delta, pero los lmites de confianza se calcula como el exponentiating de los lmites en la escala logit, no por Addding y restando dos veces el error estndar de la odds ratio. Esto se hace porque la aproximacin normal es ms preciso (y tiene ms sentido) en la escala logit, que no tiene restricciones de rango. Ejercicio. Calcular la convencional prueba z para comparar las proporciones de uso de anticonceptivos en los dos grupos y verificar que el cuadrado coincide con la chicuadrado de Pearson.
3.4 La comparacin de varios grupos

Las ideas se extienden fcilmente a ms de dos grupos. Vamos a ilustrar el uso de los datos sobre el uso de anticonceptivos por edad, donde se comparan los cuatro grupos. Una tabla k por dos Estos son los datos en la pgina 18 de las notas, entr en cuatro grupos de edad
. clara. los usuarios de entrada n AGEG usuarios AGEG n 1. 1 72 397 2. 2 105 404 3. 3 237 612 4. 4 93 194 5. finales. definir una etiqueta AGEG "<25" 2 "25-29" 3 "30-39" 4 "40-49". valores de la etiqueta AGEG AGEG
Tambin ser necesario variables ficticias para representar a los grupos de edad. Podramos generar estas usando tab(ageg), gen(age) , pero los vamos a calcular explcitamente el uso de nombres ms descriptivos. Tambin podemos utilizar las variables de factor, y se ilustran este enfoque en la actualidad.
. . . generacin age2529 = AGEG == 2 generacin age30s = AGEG == 3 generacin age40s = AGEG == 4
El modelo de un factor Aqu est el modelo de tratamiento de la edad como un factor con cuatro niveles, que es, por supuesto, saturadas de los datos:
. usuarios BlogIt n age2529 age40s age30s
Nmero de regresin logstica para datos agrupados de obs = 1607 LR chi2 (3) = 79,19 Prob> chi2 = 0.0000 Registro de probabilidad = -962.25091 Pseudo R2 = 0,0395
-------------------------------------------------- --------------------------_outcome | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------age2529 | 0,4606758 0,1727255 0,1221401 0,7992116 2,67 0.008 age30s | 1.048293 0.1544406 0.7455952 1.350991 6.79 0.000 age40s | 1.424638 1.044488 0.1939574 7.35 0.000 1.804788 _cons | -1.507159 0.1302529 -11.57 0.000 -1.76245 -1.251868 -------------------------------------------------- ---------------------------
Comparar las estimaciones de parmetros con los de la Tabla 3.5. Puede obtener estas estimaciones a mano directamente de las frecuencias absolutas? Vemos que las posibilidades de uso de anticonceptivos aumentar constantemente, pasando de un grupo de edad a la siguiente. Puedes escribir blogit, or para convertir coeficientes logit de los odds ratios. La chi2 estadstica reportada por Stata es el cociente de probabilidad chi-cuadrado comparando el modelo a mano con el modelo nulo. El valor de 79.19 en tres grados de libertad nos permite rechazar la hiptesis de que la probabilidad de uso de anticonceptivos es el mismo en los cuatro grupos de edad. Stata es test comando hace que el clculo de las pruebas de Wald fcil. Aqu est la prueba para el efecto de la edad en la pgina 20 de las notas:
. prueba age2529 age30s age40s (1) [_outcome] age2529 = 0 (2) [_outcome] age30s = 0 (3) [_outcome] age40s = 0 chi2 (3) = 74,36 Prob> chi2 = 0.0000
Una vez ms la razn de verosimilitud y la prueba de Wald son similares pero no idnticos. Vamos a guardar los resultados para su uso posterior. Stata puede almacenar en la memoria de las estimaciones utilizando estimates store name o guardarlos en el disco utilizando estimtes save filename . Vamos a guardarlos en la memoria como
ageg . estimaciones tienda AGEG
Por ltimo, vamos a calcular el logits equipada, que vamos a necesitar ms adelante. Podemos hacer esto con la predict de comandos, con la xb opcin para hacer predicciones en la escala del predictor lineal, que en este caso es la escala logit. (El valor predeterminado es en la escala de la respuesta, en este recuento de casos.). Tambien tenemos que mencionar la prediccin obslogit porque corresponde a los logits de las proporciones observadas
. predecir obslogit, xb
Variables Factor Antes de dejar este conjunto de datos, vamos a verificar que se pueden obtener los mismos resultados que el uso de variables nuevas de Stata factor. Todo lo que necesitamos es la i. prefijo para solicitar los indicadores de los grupos de edad:
. usuarios BlogIt n i.ageg
Nmero de regresin logstica para datos agrupados de obs = 1607 LR chi2 (3) = 79,19 Prob> chi2 = 0.0000 Registro de probabilidad = -962.25091 Pseudo R2 = 0,0395 -------------------------------------------------- --------------------------_outcome | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------AGEG | 2 | 0,4606758 0,1727255 0,1221401 0,7992116 2,67 0.008 3 | 1.048293 0.1544406 0.7455952 1.350991 6.79 0.000 4 | 1.424638 1.044488 0.1939574 7.35 0.000 1.804788 | _cons | -1.507159 0.1302529 -11.57 0.000 -1.76245 -1.251868 -------------------------------------------------- ---------------------------
Perdemos el etiquetado de los grupos de edad, pero no tiene que preocuparse por la creacin de muecos. Hay que recordar que se puede obtener la prueba de Wald con testparm :
. testparm i.ageg (1) [_outcome] 2.ageg = 0 (2) [_outcome] 3.ageg = 0 (3) [_outcome] 4.ageg = 0 chi2 (3) = 74,36 Prob> chi2 = 0.0000
Tenemos exactamente el mismo resultado que antes. Un modelo de una variable aleatoria Ahora vamos a tratar la edad como covariable, usando los puntos medios de los cuatro grupos de edad, por lo que tratar el grupo de 15-24 en 20, 25 a 29 como 27,5, 30-39 y 40-49 del 35 al 45. (Si estas no se parecen a mediados de los puntos a usted, tenga en cuenta que la edad generalmente se inform en aos cumplidos, por lo que significa entre 15 a 24 15.0 y 25.0, y el punto medio es de 20,0.) La manera ms fcil de codificar los puntos medios en este ejemplo es a travs de la recode de comandos
. recode AGEG 1 = 20 2 = 27.5 3 = 35 4 = 45, el general (AGEM) (4 diferencias entre AGEG y AGEM)
Ahora podemos ajustar el modelo en la pgina 20 de las notas, que tiene un efecto lineal de la edad:
. usuarios BlogIt n agem
Nmero de regresin logstica para datos agrupados de obs = 1607 LR chi2 (1) = 76,79 Prob> chi2 = 0.0000 Registro de probabilidad = -963.45258 Pseudo R2 = 0,0383 -------------------------------------------------- --------------------------_outcome | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------agem | 0,060671 0,0071034 0,0467486 0,0745934 8,54 0.000 _cons | 0.2332492 -2.672667 -3.129827 -2.215507 0.000 -11,46 -------------------------------------------------- --------------------------. di exp (_b [agem]) 1.0625493
Vemos que las mujeres mayores tienen ms probabilidades de utilizar un mtodo anticonceptivo, y que las probabilidades de uso de anticonceptivos son cerca de seis por ciento ms por cada ao de edad. (Esto viene de exponentiating el coeficiente de edad, que ahora se mide en aos.) Formalmente se puede probar la hiptesis de linealidad mediante una prueba de razn de verosimilitud para comparar este modelo con el modelo saturado de la seccin anterior. La prueba se puede calcular utilizando Stata lrtest comando, que utiliza un punto de referencia para el modelo actual
. lrtest. AGEG
La razn de verosimilitud prueba LR chi2 (2) = 2,40 (Asuncin:. Anidado en AGEG) Prob> chi2 = 0.3007
La estadstica de 2.4 en una df no es significativo, lo que indica que no tenemos ninguna evidencia en contra de la suposicin de linealidad, y felizmente se puede salvar a dos grados de libertad. Esta estadstica es, por supuesto, la desviacin del modelo con un efecto lineal de la edad, el cual se puede calcular utilizando glm
. silencio glm usuarios agem, la familia (binomial n)
. pantalla e (desviacin) 2.4033519
o "a mano" a partir de primeros principios utilizando la "suma del registro de los tiempos observados (observada / esperada) 'frmula. Slo recuerde que usted necesita utilizar recuentos observados y esperados
. predecir pusers (Mu opcin supone, predijo usuarios media)
. generacin de di = 2 * (* log usuarios (usuarios / pusers) + (nusuarios) * log ((n-usuarios) / (n-pusers))) . generacin de DI = suma (di)
. pantalla "Desviacin =" DI [_N] Desviacin = 2.4033537
Logits observados y amueblada El siguiente paso ser calcular logits instalado sobre la base de este modelo, y utilizarlos junto con los logits observados calculado antes de examinar visualmente la adecuacin de la especificacin lineal, reproduciendo eficazmente la Figura 3.2 en las notas. De medida adicional que tambin tendr en cuenta un modelo con un trmino cuadrtico, centrado alrededor de 30 aos antes de elevarlo al cuadrado, por lo que el trmino lineal refleja la pendiente de 30.
. . . predecir lfit1, xb generacin agemcsq = (AGEM-30) ^ 2 usuarios BlogIt n agemcsq agem
Nmero de regresin logstica para datos agrupados de obs = 1607 LR chi2 (2) = 78,32 Prob> chi2 = 0.0000 Registro de probabilidad = -962.68877 Pseudo R2 = 0,0391 -------------------------------------------------- --------------------------_outcome | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------agem | .0648033 .0079525 .0492167 8.15 0.000 0.08039 agemcsq | -. 0010131 .0008214 -1.23 0.217 -. 002623 .0005968 _cons | 0.2434262 -2.740736 -3.217842 -2.263629 0.000 -11,26 -------------------------------------------------- --------------------------. predecir lfit2, xb
. grfico de dos vas (dispersin obslogit AGEM) (lnea lfit1 AGEM) / / / > (Funcin f = _b [_cons] + _b [agem] * x + _b [agemcsq] * (x-30) 2 ^, / / / Rango> (20 45)) / / / >, El ttulo ("Figura 3.2: logits observados y ajustado por edad") / / / > XTitle ("edad") ytitle ("logit") leyenda (off) . fig32.png grfico de las exportaciones, reemplazar (Fig32.png archivo escrito en formato PNG) la anchura (500)
El grfico muestra que la especificacin lineal era adecuado. Hay un indicio de que un modelo cuadrtico podra ser mejor, sobre todo en funcin de la adecuacin para el grupo de mayor edad, pero el trmino cuadrtico no es significativa. (Usted puede preguntarse por qu he usado el tipo de grfico de funcin para el modelo cuadrtico. Yo podra haber previsto y trazar los logits como yo lo hice para el modelo lineal, pero con slo cuatro puntos unidos por lneas rectas se pierde la curvilinearidad. Esto tambin ayuda a muestran cmo utilizar los resultados de la estimacin de una parcela.) Este anlisis nos da una indicacin rpida de si se podra tratar la edad de forma lineal si se trabaja con datos individuales y tena la edad real de la mujer 1607. No es equivalente, sin embargo, porque hemos agrupado la edad, y por lo tanto, tratar a todos los hombres mujeres de 25-29 aos como si se tratara de edad 27.5. Con los datos individuales de algunos sera de 25, unos 26, etc Tambin puede preguntarse por qu hemos sido capaces de hacer una prueba de razn de verosimilitud, cuando un modelo de tratamiento de la edad no suele ser lineal anidados en un modelo que lo trata como un factor. La respuesta es que en este caso las dos especificaciones se aplican a los datos agrupados. Usted puede ver el modelo lineal como la imposicin de restricciones en las diferencias Transcurrir los grupos de edad son proporcionales a la diferencia en aos entre sus puntos medios. Alternativamente, usted puede ver el modelo que trata a la edad de cuatro grupos, equivalente a tener trminos lineales, cuadrticas y cbicas.
3.5 Los modelos con dos variables predictoras

Pasamos ahora a los modelos de regresin logstica con dos o ms predictores.
Los datos de uso de anticonceptivos El resto de los anlisis en este captulo se utiliza un pequeo conjunto de datos que muestra el uso de anticonceptivos por edad (<25, 35-29, 30-39 y 40-49), educacin (ninguno, algunos de ellos) y el deseo de tener ms hijos (s, no ). El conjunto de datos se describe en la pgina 31 de las notas y est disponible en los conjuntos de datos de la seccin del sitio web del curso, as que voy a leer directamente desde la web
. claro
. uso http://data.princeton.edu/wws509/datasets/cuse (Datos de uso de anticonceptivos (Fiyi, 1976)) . lista, limpia nolabel 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 edad 0 0 0 0 0 1 0 1 1 0 1 0 1 1 1 1 0 0 0 0 0 1 0 1 1 0 1 0 1 1 1 1 0 0 0 0 0 1 0 1 1 0 1 0 1 1 1 1 0 0 0 0 0 1 0 1 1 0 1 0 1 1 1 1 educ deseo Cuse n 0 53 1 6 0 10 1 4 0 212 1 52 0 50 1 10 0 60 1 14 0 19 1 10 0 155 1 54 0 65 1 27 0 112 1 33 0 77 1 80 0 118 1 46 0 68 1 78 0 35 1 6 0 46 1 48 0 8 1 8 0 12 1 31
He omitido las etiquetas para que pueda ver los cdigos numricos reales utilizados. Edad se cifra 1-4 para los cuatro grupos, la educacin se codifica como una variable dicotmica con una de algunos, el deseo es codificado como una variable dicotmica con una de 'no quiere saber nada ms ", y el uso de anticonceptivos se codifica para un' S .
El diseo simula los datos individuales, con una fila para cada combinacin de valores de los indicadores y los resultados. La ltima columna es el nmero de mujeres en esa combinacin de categoras, y se puede utilizar como un peso en la frecuencia de Stata. Para mayor claridad y coherencia con el trabajo antes voy a crear una nueva variable llamada nomore .
. generacin nomore = deseo == 1
La edad de los modelos Empecemos por el ajuste de un modelo tratar la edad como factor, la construccin de los muecos "a mano", y el ahorro de las estimaciones para su uso posterior con el nombre de "edad"
. . . . generacin age2529 = == 2 aos generacin age30s = edad == 3 generacin age40s = edad == 4 logit Cuse age2529 age30s age40s [fw = n] 0: 1: 2: 3: 4: log = probabilidad -1001,8468 log = probabilidad -962.76243 registro de probabilidad = -962.25132 probabilidad log = -962.25091 log = probabilidad -962.25091
Iteracin Iteracin Iteracin Iteracin Iteracin
Nmero de regresin logstica de obs = 1607 LR chi2 (3) = 79,19 Prob> chi2 = 0.0000 Registro de probabilidad = -962.25091 Pseudo R2 = 0,0395 -------------------------------------------------- --------------------------Cuse | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------age2529 | 0,4606758 0,1727255 0,1221401 0,7992116 2,67 0.008 age30s | 1.048293 0.1544406 0.7455952 1.350991 6.79 0.000 age40s | 1.424638 1.044488 0.1939574 7.35 0.000 1.804788 _cons | -1.507159 0.1302529 -11.57 0.000 -1.76245 -1.251868 -------------------------------------------------- --------------------------. estimaciones de la edad tienda
. pantalla 2 * e (ll) 1924.5018
Tenga en cuenta que las estimaciones de parmetros, errores estndar, y el modelo de chi-cuadrado son exactamente los mismos que en la seccin 3.4, cuando trabajamos con slo cuatro observaciones binomial, que muestran que los grupos de datos no afecta a ninguna de estas estadsticas.
La desviacin del modelo, sin embargo, es diferente. En la seccin 3.4 de la desviacin fue de cero, porque el modelo se ajustaba exactamente a los cuatro grupos. En los apuntes de clase con la que trabajo ocho grupos y obtener una desviacin de 66,48. Aqu estamos trabajando bsicamente con los datos personales y la desviacin no es ms que negativo el doble de la verosimilitud, en este caso en 1603 1.924,5 DF con datos individuales ya no la desviacin ser utilizado como una prueba de bondad de ajuste, pero vamos a considerar enfoques alternativos ms tarde. Es posible que desee comprobar que tambin obtienen los mismos resultados para el modelo con "no quiere ms childre 'como el nico predictor. El modelo aditivo Ahora estamos listos para considerar un modelo con la edad y el deseo de tener ms hijos:
. logit Cuse age2529 age30s age40s nomore [fw = n] 0: 1: 2: 3: 4: log = probabilidad -1001,8468 log = probabilidad -938.32767 registro de probabilidad = -937.40556 probabilidad log = -937.40449 log = probabilidad -937.40449 LR 128,88 Prob> chi2 = 0.0000 Registro de probabilidad = -937.40449 Pseudo R2 = 0,0643 -------------------------------------------------- --------------------------Cuse | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------age2529 | 0,3678306 0,1753677 0,0241163 0,711545 2,10 0.036 age30s | 0,8077888 0,1597537 0,4946773 5,06 0,000 1,1209 age40s | 1.022618 0.2039339 0.6229153 1.422322 5.01 0.000 nomore | 0.824092 0.1171128 0.5945551 1.053629 7.04 0.000 _cons | 0.1352307 -1.693933 -1.958981 -1.428886 0.000 -12,53 -------------------------------------------------- --------------------------. di exp (_b [nomore]) 2.2798098 . estimaciones aditivo tienda chi2 (4) =
Nmero de regresin logstica de obs = 1607
Comparar los resultados con la Tabla 3.9 en la pgina 26 de las notas. Exponentiating el coeficiente de "nomore" tenemos una odds ratio de 2,28. Esto significa que las probabilidades de uso de anticonceptivos entre las mujeres que no desean ms hijos son el doble de probabilidades de las mujeres en el mismo grupo de edad que desean tener ms hijos. El modelo asume que la razn de probabilidad es la misma para todas las edades, un supuesto que se necesita para poner a prueba.
Para probar la importancia de la razn de posibilidades que podemos usar la prueba de Wald da en la salida, un z-estadstico de 7,04 (que puede ser ajustado para obtener una estadstica de chi-cuadrado en una df) La razn de verosimilitud que compara el modelo aditivo con el modelo de edad, lo que nos salv para que pudiramos hacer esta prueba. Aqu estn las dos pruebas:
. prueba nomore (1) [Cuse] nomore = 0 chi2 (1) = 49,52 Prob> chi2 = 0.0000 . lrtest edad.
La razn de verosimilitud prueba LR chi2 (1) = 49,69 (Asuncin: la edad anidado en aditivos) Prob> chi2 = 0.0000
Se obtiene de chi-cuadrado estadsticas de 49,5 y 49,7 grados de libertad en una, por lo que no hay duda de que las probabilidades de uso de anticonceptivos en cualquier grupo de edad varan segn si las mujeres desean tener ms hijos. Se verifica rpidamente que podramos obtener los mismos resultados utilizando las variables de factor:
. logit Cuse i.age nomore [fw = n] 0: 1: 2: 3: 4: log = probabilidad -1001,8468 log = probabilidad -938.32767 registro de probabilidad = -937.40556 probabilidad log = -937.40449 log = probabilidad -937.40449 LR 128,88 Prob> chi2 = 0.0000 Registro de probabilidad = -937.40449 Pseudo R2 = 0,0643 -------------------------------------------------- --------------------------Cuse | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------edad | 2 | 0,3678306 0,1753677 0,0241163 0,711545 2,10 0.036 3 | 0,8077888 0,1597537 0,4946773 5,06 0,000 1,1209 4 | 1.022618 0.2039339 0.6229153 1.422322 5.01 0.000 | nomore | 0.824092 0.1171128 0.5945551 1.053629 7.04 0.000 _cons | 0.1352307 -1.693933 -1.958981 -1.428886 0.000 -12,53 -------------------------------------------------- --------------------------chi2 (4) =
Usted podra utilizar i.nomore y Stata que reconocer que 'no ms' es una variable ficticia y el informe del coeficiente como 1.more , pero dejando de lado la i. produce ms limpio de salida. Un modelo con una interaccin Ahora aadimos una interaccin entre la edad y el deseo de tener ms hijos. Como de costumbre, calculamos nuestros propios muecos y luego se ajustan al modelo:
. . . generacin nom_age2529 = nomore * age2529 nom_age30s gen = nomore * age30s nom_age40s gen = nomore * age40s
. logit Cuse age2529 age30s age40s nomore / / / > Nom_age2529 nom_age30s nom_age40s [fw = n] Iteracin Iteracin Iteracin Iteracin Iteracin 0: 1: 2: 3: 4: log = probabilidad -1001,8468 log = probabilidad -930.01061 registro de probabilidad = -929.01056 probabilidad log = -929.01009 log = probabilidad -929.01009 LR 145,67 Prob> chi2 = 0.0000 Registro de probabilidad = -929.01009 Pseudo R2 = 0,0727 -------------------------------------------------- --------------------------Cuse | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------age2529 | 0,3681565 0,2009279 1,83 0.067 -. 0256549 .7619679 age30s | 0,4506554 0,1949898 0,0684824 0,8328283 2,31 0.021 age40s | 0.397144 .3401461 1.17 0.243 -. 26.953 1.063818 nomore | .0639996 .3303183 0.19 0.846 -. 5834125 .7114116 nom_age2529 | 0,2672319 0,4091443 0,65 0.514 -. 5346762 1.06914 nom_age30s | 1.090493 0.3732853 0.3588674 1.822119 2.92 0.003 nom_age40s | 1.367148 0.4834193 0.4196637 2.314632 2.83 0.005 _cons | -1.519287 0.1449654 -10.48 0.000 -1.803414 -1.23516 -------------------------------------------------- --------------------------chi2 (7) =
Podra haber usado nom_age* como taquigrafa para los tres maniques, pero el uso de comodines pueden ser peligrosos si posteriormente se aade una variable con un prefijo smilar. Las estimaciones muestran una diferencia por el deseo de tener ms hijos de 0,06 en la escala logit para las mujeres menores de 25 aos, con diferencias de ms de 0,27 para las mujeres 25-29, 1,09 para las mujeres en sus treinta aos y de 1,38 para las mujeres en sus cuarentas. Es evidente que la diferencia es mayor cuanto mayor es el grupo de edad. (Es posible que desee tener cuidado con decir "aumenta con la edad", ya que es un corte transversal, pero tal vez es lo suficientemente claro por el contexto.)
Exponentiating estas cifras se obtiene un odds ratio de 1,07 (o 7% ms probabilidades de utilizar anticonceptivos para aquellos que quieren tener ms hijos) entre las mujeres menores de 25 aos, que se multiplica por 1,3 para las mujeres 25-29, en cerca de 3 para las mujeres en sus treinta y un 4 para las mujeres en sus cuarentas. Por lo tanto, la odds ratio entre las mujeres en sus cuarenta aos es cuatro veces la razn de posibilidades para las mujeres menores de 25 aos. Podemos probar la significacin del trmino de interaccin mediante una prueba de Wald o calcular una razn de verosimilitud que compara este modelo con el modelo aditivo guardado anteriormente:
. prueba nom_age2529 nom_age30s nom_age40s (1) [Cuse] nom_age2529 = 0 (2) [Cuse] nom_age30s = 0 (3) [Cuse] nom_age40s = 0 chi2 (3) = 16,03 Prob> chi2 = 0.0011 . lrtest aditivo.
La razn de verosimilitud prueba LR chi2 (3) = 16,79 (Asuncin: aditivo anidado en.) Prob> chi2 = 0.0008
nos encontramos con la interaccin a ser significativa, con un valor de p <0,001, por lo que la razn de las ventajas del uso de anticonceptivos entre las mujeres que lo hacen y no quieren otro hijo vara segn la edad. Esto no es lo mismo que las pruebas para el efecto de las preferencias de tener ms hijos. Una prueba de la "principal" efecto de nomore acaba de prueba para las mujeres menores de 25 aos y que no encuentran diferencias. Para poner a prueba a todas las edades juntos podemos comparar este modelo con el modelo de edad, o hacer una prueba de Wald para todos los trminos que las preferencias:
. prueba nomore nom_age2529 nom_age30s nom_age40s (1) (2) (3) (4) [Cuse] [Cuse] [Cuse] [Cuse] nomore = 0 nom_age2529 = 0 nom_age30s = 0 nom_age40s = 0
chi2 (4) = 62,45 Prob> chi2 = 0.0000 . lrtest edad.
La razn de verosimilitud prueba LR chi2 (4) = 66,48 (Asuncin:. Anidado en edad) Prob> chi2 = 0.0000
Antes de salir de esta seccin observamos que podemos obtener exacly los mismos resultados utilizando las variables de factor. Es evidente que tenemos que utilizar el i. prefijo de edad. Si usted no dice nada acerca de "no ms", sino incluir el hash de la interaccin Stata lo trata como un factor. Creo que la salida se ve un poco ms limpia, si recordamos a Stata que este es un maniqu con el c. prefijo:
logit Cuse i.age # # c.nomore [fw = n] 0: 1: 2: 3: 4: log = probabilidad -1001,8468 log = probabilidad -930.01061 registro de probabilidad = -929.01056 probabilidad log = -929.01009 log = probabilidad -929.01009 LR chi2 (7) =
Nmero de regresin logstica de obs = 1607 145,67 Prob> chi2 = 0.0000 Registro de probabilidad = -929.01009 Pseudo R2 = 0,0727 -------------------------------------------------- --------------------------Cuse | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------edad | 2 | 0,3681565 0,2009279 1,83 0.067 -. 0256549 .7619679 3 | 0,4506554 0,1949898 0,0684824 0,8328283 2,31 0.021 4 | 0.397144 .3401461 1.17 0.243 -. 26.953 1.063818 | nomore | .0639996 .3303183 0.19 0.846 -. 5834125 .7114116 | edad # c.nomore | 2 | 0,2672319 0,4091443 0,65 0.514 -. 5346762 1.06914 3 | 1.090493 0.3732853 0.3588674 1.822119 2.92 0.003 4 | 1.367148 0.4834193 0.4196637 2.314632 2.83 0.005 | _cons | -1.519287 0.1449654 -10.48 0.000 -1.803414 -1.23516 -------------------------------------------------- ---------------------------
Podemos probar la importancia de la interaccin con nuestro viejo amigo testparm con un solo hash:
. testparm i.age # c.nomore (1) [Cuse] 2.age # c.nomore = 0 (2) [Cuse] 3.age # c.nomore = 0 (3) [Cuse] 4.age # c.nomore = 0 chi2 (3) = 16,03 Prob> chi2 = 0.0011
Puede reproducir el test de Wald para todos los trminos que las preferencias? Interacciones Reparametrizing Puede ser ms fcil de presentar el resultado de este modelo en trminos de cociente de posibilidades por el deseo de tener ms hijos en los grupos de edad diferentes, como se explica en la pgina 27 de las notas, vase tambin el Cuadro 3.10. Con este fin se aade una variable ficticia para la interaccin en la edad <25 aos, y omitir el "principal" efecto de querer no ms:
generacin nom_agelt25 = nomore * (edad == 1)
. logit Cuse age2529 age30s age40s / / / > Nom_agelt25 nom_age2529 nom_age40s nom_age30s [fw = n] Iteracin Iteracin Iteracin Iteracin Iteracin 0: 1: 2: 3: 4: log = probabilidad -1001,8468 log = probabilidad -930.01061 registro de probabilidad = -929.01056 probabilidad log = -929.01009 log = probabilidad -929.01009 LR 145,67 Prob> chi2 = 0.0000 Registro de probabilidad = -929.01009 Pseudo R2 = 0,0727 -------------------------------------------------- --------------------------Cuse | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------age2529 | 0,3681565 0,2009279 1,83 0.067 -. 0256549 .7619679 age30s | 0,4506554 0,1949898 0,0684824 0,8328283 2,31 0.021 age40s | 0.397144 .3401461 1.17 0.243 -. 26.953 1.063818 nom_agelt25 | 0,0639996 0,3303183 0,19 0.846 -. 5834125 .7114116 nom_age2529 | 0,3312314 0,2414308 1,37 0.170 -. 1419642 .8044271 nom_age30s | 1.154493 0.1738727 0.8137085 1.495277 6.64 0.000 nom_age40s | 1.431148 0.3529646 0.7393498 2.122945 4.05 0.000 _cons | -1.519287 0.1449654 -10.48 0.000 -1.803414 -1.23516 -------------------------------------------------- --------------------------. Mata exp (st_matrix ("e (b)") [4 .. 7]) 1 2 3 4 +------------------------------------------------- --------+ 1 | 1,066091954 1,392682073 3,172413793 4,183497537 | +------------------------------------------------- --------+ chi2 (7) =
Los parmetros representan en la actualidad las diferencias en la escala logit entre las mujeres que no desean tener ms hijos y quienes lo hacen en cada uno de los cuatro grupos de edad. Exponentiating los coeficientes (que tambin se puede hacer con el or opcin) nos encontramos con que las probabilidades de utilizar anticonceptivos para mujeres que desean tener ms hijos, en comparacin con aquellos que lo hacen, son un 7% superior a la edad de menores de 25 aos, un 39% superior a la edad de 25-29, tres veces mayor a la edad de 30 a 39, y cuatro veces mayor a la edad de 40 a 49. La parametrizacin se utiliza aqu combina de forma efectiva el "principal" efecto de querer tener ms hijos con el "adicional" efecto cuando se pasa a los grupos de mayor edad en un nmero nico para cada grupo de edad. Esto lleva a una presentacin ms directa de los resultados. Una tabla Desviacin El desviaciones en la Tabla 3.8 en las notas de clase se basan en una tabla con el uso de anticonceptivos por edad y el deseo que tiene ocho grupos. Los anlisis de este registro se basa en una tabla en la que tambin se rompe por el uso de la educacin, con un total
de diecisis grupos. Sin embargo, podemos fcilmente calcular las desviaciones mediante la comparacin de cada modelo de inters con el modelo que acabamos de encajar.
. . . estimaciones tienda ageXnom silencio logit Cuse [fw = n] lrtest. ageXnom
La razn de verosimilitud prueba LR chi2 (7) = 145,67 (Asuncin:. Anidado en ageXnom) Prob> chi2 = 0.0000 . . silencio logit Cuse i.age [fw = n] lrtest. ageXnom
La razn de verosimilitud prueba LR chi2 (4) = 66,48 (Asuncin:. Anidado en ageXnom) Prob> chi2 = 0.0000 . . silencio logit Cuse nomore [fw = n] lrtest. ageXnom
La razn de verosimilitud prueba LR chi2 (6) = 54.00 (Asuncin:. Anidado en ageXnom) Prob> chi2 = 0.0000 . . silencio logit Cuse i.age nomore [fw = n] lrtest. ageXnom
La razn de verosimilitud prueba LR chi2 (3) = 16,79 (Asuncin:. Anidado en ageXnom) Prob> chi2 = 0.0008
Usted tambin puede verificar los resultados de las probabilidades de registro impreso de los diferentes modelos. Usted debe ser capaz de reproducir las pruebas para el efecto bruto de la edad, el efecto neto de querer tener ms hijos de edad determinado, y el trmino de interaccin, de estas desviaciones. Anlisis de los modelos de covarianza Ahora tratar la edad como covariable, usando los puntos medios de los grupos de edad tal como lo hicimos antes:
. recodificar la edad de 1 = 20 2 = 27.5 3 = 35 4 = 45, el general (AGEM) (32 diferencias entre la edad y AGEM)
El primer modelo de inters tiene un efecto lineal de la edad, y es anlogo a la regresin lineal simple:
. logit Cuse agem [fw = n] 0: 1: 2: 3: log = probabilidad -1001,8468 log = probabilidad -963.7238 registro de probabilidad = -963.45262 probabilidad log = -963.45258
Iteracin Iteracin Iteracin Iteracin
Nmero de regresin logstica de obs = 1607 LR chi2 (1) = 76,79 Prob> chi2 = 0.0000 Registro de probabilidad = -963.45258 Pseudo R2 = 0,0383 -------------------------------------------------- --------------------------Cuse | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------agem | 0,060671 0,0071034 0,0467486 0,0745934 8,54 0.000 _cons | 0.2332492 -2.672667 -3.129827 -2.215507 0.000 -11,46 -------------------------------------------------- --------------------------. lrtest. ageXnom
La razn de verosimilitud prueba LR chi2 (6) = 68.88 (Asuncin:. Anidado en ageXnom) Prob> chi2 = 0.0000 . estimaciones tienda agem
La pendiente estimada muestra que las probabilidades de utilizar anticonceptivos aumento del seis por ciento por ao de edad. El segundo modelo de inters se incluyen los efectos aditivos de la edad y el deseo de tener ms hijos, y es anlogo a un modelo de anlisis de covarianza:
. logit Cuse agem nomore [fw = n] 0: 1: 2: 3: 4: log = probabilidad -1001,8468 log = probabilidad -939.19023 registro de probabilidad = -938.50429 probabilidad log = -938.50406 log = probabilidad -938.50406 LR 126.69 Prob> chi2 = 0.0000 Registro de probabilidad = -938.50406 Pseudo R2 = 0,0632 -------------------------------------------------- --------------------------Cuse | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------agem | .0441062 0.007529 5.86 0.000 0,0293497 0,0588627 nomore | .8258978 0.11711 1.055429 7.05 0.000 .5963664 _cons | 0.2365293 -2.516654 -2.980243 -2.053065 0.000 -10,64 -------------------------------------------------- --------------------------. di exp (_b [nomore]) 2.2839303 . lrtest. ageXnom chi2 (2) =
La razn de verosimilitud prueba LR chi2 (5) = 18,99 (Asuncin:. Anidado en ageXnom) Prob> chi2 = 0.0019
Vemos que las posibilidades de uso de anticonceptivos son 128% mayor entre las mujeres que no desean tener ms hijos que las mujeres que quieren ms y tienen la misma edad. La diferencia estimada en el diario de probabilidades cuando se ajuste lineal para la edad es muy similar a la obtenida por el tratamiento de la edad como un factor (0.826 vs 0.824). Ninguno de estos modelos se ajusta a los datos muy bien, as que le aadimos una interaccin entre la edad y el deseo de tener ms hijos. Como es habitual, el centro edad antes de construir la interaccin
. . . generacin AGEC = AGEM - 30,6 generacin nomXagec = nomore * AGEC logit Cuse AGEC nomore nomXagec [fw = n] 0: 1: 2: 3: 4: log = probabilidad -1001,8468 log = probabilidad -934,311 registro de probabilidad = -933.57774 probabilidad log = -933.57756 log = probabilidad -933.57756 LR 136,54 Prob> chi2 = 0.0000 Registro de probabilidad = -933.57756 Pseudo R2 = 0,0681 -------------------------------------------------- --------------------------Cuse | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------AGEC | .0218229 .0103662 2.11 0.035 .0015055 .0421403 nomore | 0.757509 0.121842 0.518703 0.996315 6.22 0.000 nomXagec | .0479913 0.015438 3.11 0.002 0,0177334 0,0782493 _cons | 0.0785969 -1.194371 -1.348418 -1.040323 0.000 -15,20 -------------------------------------------------- --------------------------. exp mata (st_matrix ("e (b )"))[ 1 .. 3] 1 2 3 +-------------------------------------------+ 1 | 1,022062801 2,132956375 1,049161578 | +-------------------------------------------+ prueba nomXagec (1) [Cuse] nomXagec = 0 chi2 (1) = 9,66 Prob> chi2 = 0.0019 chi2 (3) =
Las estimaciones de acuerdo con los resultados de la Tabla 3.12. Vemos que las posibilidades de uso de anticonceptivos entre las mujeres que desean tener ms hijos son alrededor de dos por ciento superior al ao de edad. Las probabilidades de las mujeres que quieren tener ms hijos es el doble de mujeres que quieren ms en la edad media (30,6). Esta proporcin es de alrededor del cinco por ciento superior al ao de edad por encima de la media (y, por supuesto, un cinco por ciento inferior al ao por debajo de la media). Otra forma de ver este resultado es tener en cuenta que las posibilidades de uso de anticonceptivos entre las mujeres que no desean ms hijos son alrededor de 7 por ciento ms por ao de edad. Esto puede verse ms claramente si parametrizar el modelo con dos constantes y pendientes dos
. . . generacin de ms = 1-nomore generacin moreXagec = ms * AGEC logit Cuse ms moreXagec nomore nomXagec [fw = n], noconstant 0: 1: 2: 3: log = probabilidad -1113,8875 log = probabilidad -933.72582 registro de probabilidad = -933.57757 probabilidad log = -933.57756 (4) =
Nmero de regresin logstica de obs = 1607 Wald chi2 300,69 Registro de probabilidad = -933.57756 Prob> chi2 = 0.0000
-------------------------------------------------- --------------------------Cuse | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------ms | 0.0785969 -1.194371 -1.348418 -1.040323 0.000 -15,20 moreXagec | .0218229 .0103662 2.11 0.035 .0015055 .0421403 nomore | -. 4368615 .0931021 -4.69 0.000 -. 6193383 -. 2543847 nomXagec | .0698143 0.01144 6.10 0.000 0,0473923 0,0922362 -------------------------------------------------- ---------------------------
que es el cuerpo principal de la tabla 3.12. Las pruebas para la igualdad de las pendientes es equivalente a probar el trmino de interaccin en la especificacin anterior
. prueba moreXagec = nomXagec (1) [Cuse] moreXagec - [Cuse] nomXagec = 0 chi2 (1) = 9,66 Prob> chi2 = 0.0019
Trazado de logits observados y amueblada
Tiempo para una parcela. Vamos a reproducir la Figura 3.3 en las notas, comparando el modelo de anlisis de covarianza que acabamos de cocina equipada, un modelo con un efecto cuadrtico de la edad en que se supone que la curvatura de la misma para los dos grupos definidos por las preferencias y el tipo de modelo anova que estaba saturado por la edad a la tabla de preferencias y por lo tanto representa logits observados.
. . . . predecir lfit, xb generacin agecsq AGEC = ^ 2 silencio logit Cuse AGEC agecsq nomore nomXagec [fw = n] predecir qfit, xb
. estimaciones restaurar nomXage (NomXage resultados estn activos ahora) . predecir obs, xb
. grfico de dos vas (dispersin obs AGEM) / / / > (Lnea lfit agem si hay ms) (lin lfit agem si nomore) / / / > (Mspline qfit agem si son ms, las bandas (4)) / / / > (Mspline qfit agem si nomore, bandas (4)) / / / >, El ttulo (Figura 3.3: el uso de anticonceptivos por edad y el deseo) / / / > XTitle (edad) ytitle (logit) leyenda (off) . fig33.png grfico de las exportaciones, reemplazar (Fig33.png archivo escrito en formato PNG) la anchura (500)
Visualmente el modelo con cierta curvatura proporciona un mejor ajuste, pero no tenemos evidencia de que en realidad es mejor que el modelo con dos lneas rectas con diferentes pendientes.
Para efectos de presentacin que puede considerar hacer un diagrama equivalente en la escala de probabilidad. No olvides que una relacin lineal en la escala logit se no lineal en la escala de probabilidad, por lo que probablemente tendr que usar la function o mspline tipos de grficos para reflejar la curvatura.
3.6 Multi-factor de modelos: seleccin de modelo

Pasamos ahora a un anlisis utilizando los tres predictores: edad, el deseo de tener ms hijos, y la educacin. Se empieza por considerar los modelos que tratan todas las variables como factores. Debido a que slo tenemos tres variables que son capaces de todos los modelos posibles, lo que proporciona un control bueno de la seleccin siempre hacia adelante o hacia atrs las estrategias de eliminacin. La tabla de desviacin Vamos a reproducir el cuadro 3.13, que se compara es posible una, dos y modelos de tres factores. Voy a tomar ventaja de las variables de factor de Stata para simplificar la especificacin de estos modelos. Tambin se suprimen todas las salidas para ahorrar espacio, ya que slo estamos interesados en el desviaciones. (Si est utilizando una versin anterior de Stata puedes probar el xi prefijo, o construir las variables ficticias para los dos y tres factores-las interacciones con la mano. Le recomiendo que utilice macros para almacenar los nombres de los maniques que corresponde a cada interaccin plazo, tanto por razones de brevedad y claridad.) El primer paso ser ajustar el modelo con la interaccin de tres factores, que est saturada de la tabla de 2x4x2x2 del uso de anticonceptivos por edad, educacin, y el deseo de tener ms hijos. Vamos a guardar el log de la verosimilitud y el DF en dos escalares, y guardar los valores ajustados para su posterior trazado
. . . . silencio i.age Cuse logit # # # # c.nomore c.educ [fw = n] escalar slogL = e (ll) escalar sdf = e (df_m) predecir obs3, xb / / 3-way modelo
A continuacin vamos a caber 16 modelos diferentes. Dada la naturaleza repetitiva de los clculos que vale la pena planificar con antelacin. Voy a crear tres variables para almacenar el nombre, la desviacin y el DF de cada modelo, con una cadena de hasta 36 caracteres para el nombre del modelo
. gen modelo str36 = "" (32 valores perdidos generados) . generacin de desviacin =. (32 valores perdidos generados) . generacin df =. (32 valores perdidos generados)
Entonces se escribe un comando simple que toma como argumentos el nombre y la especificacin del modelo, se adapta y almacena el nombre, la desviacin y el DF en las tres variables que acabamos de definir, mediante una macro global n para realizar un seguimiento del nmero de la fila en la que los resultados se guardarn
programa define MFit 1. la versin 11 2. args modelo de frmula 3. silencio Cuse logit `frmula '[fw = n] 4. mundial n = $ n + 1 5. tranquilamente reemplazar el modelo = "` modelo '", en $ n 6. tranquilamente sustituir a la desviacin = 2 * (slogL-e (ll)) en $ n 7. tranquilamente sustituir gl = sdf - e (df_m) en $ n 8. final .
Por ltimo, me inicializar el nmero de fila a 0 y el ajuste de los modelos, teniendo cuidado de incluir el nombre del modelo y la frmula entre comillas para que se les trata como a dos argumentos en lugar de dividir en palabras
. . . . . . . . . . . . . . . . . . . mundial n = 0 / / Un factor de modelos MFit i.age Edad MFit Educacin educ MFit "NoMore" nomore / / Dos factores modelos aditivos MFit "Edad + Educacin", "i.age educ" MFit "Edad + NoMore" "i.age nomore" MFit "Educacin + NoMore" "educ nomore" / / Interacciones de dos factores MFit "Edad * Educacin", "i.age # # c.educ" MFit "Edad * NoMore" "i.age # # c.nomore" MFit "Educacin NoMore *" "# # c.educ c.nomore" / / De tres factores modelo aditivo MFit "Edad + Educacin + NoMore" "i.age c.educ c.nomore" / / Una interaccin MFit "Edad * Educacin NoMore +" "# # i.age c.educ nomore" MFit "Edad * NoMore + Educacin", "i.age # # c.nomore educ" MFit "Edad + Educacin * NoMore" "i.age c.nomore # # c.educ"
. / / Dos interacciones . MFit "Edad * (Educacin + NoMore)" "i.age i.age # # # # c.educ c.nomore" . MFit "La educacin * (Edad + NoMore)" "i.age # # # # c.educ c.educ c.nomore"
. MFit "NoMore * (Edad + Educacin)", "i.age # # # # c.nomore c.educ c.nomore" . / / Tres interacciones . MFit "Edad * Edad * Educ + + NoMore Educ * NoMore" "i.age # # # c.nomore c.educ i.age c.educ c >. Educ # c.nomore "
Hecho, vamos a imprimir los resultados, con slo dos decimales para el desviaciones
. . desviacin de formato% 6.2f modelo de lista df desviacin si! falta (desviacin), limpieza 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. modelo de desviacin df Edad 12 86,58 Educacin 165.07 14 NoMore 74.10 14 Edad 11 + 80,42 Educacin Edad 11 + 36,89 NoMore Educacin + NoMore 73.87 13 * Edad Educacin 73.03 8 * La edad NoMore 20.10 8 * La educacin NoMore 67.64 12 Edad + Educacin + NoMore 29.92 10 * Edad Educacin NoMore + 23,15 7 * La edad NoMore + Educacin 12.63 7 Edad + Educacin * NoMore 23.02 9 * La edad (educacin + NoMore) 5,80 4 * Educacin (Edad + NoMore) 13.76 6 NoMore * (Edad + Educacin) 10.82 6 Edad * Edad * Educ + + NoMore Educ * NoMore 2,44 3
Por favor, consulte las notas de varias pruebas basadas en estos modelos. Usted debe ser capaz de probar los efectos netos de cada factor en particular que los otros dos, prueba de cada una de las interacciones, y poner a prueba la bondad de ajuste de cada modelo. Pasamos ahora a examinar tres modelos de inters. Los tres factores modelo aditivo Vamos a encajar de nuevo el modelo aditivo de tres factores para que podamos mostrar los parmetros estimados que reflejan el efecto neto de cada factor. Los efectos graves de la edad y el deseo o ms hijos se han mostrado anteriormente en este registro. Puedo seguir usando las variables de factor
. logit Cuse i.age educ nomore [fw = n] 0: 1: 2: 3: 4: log = probabilidad -1001,8468 log = probabilidad -934.92579 registro de probabilidad = -933.92045 probabilidad log = -933.9192 log = probabilidad -933.9192 LR 135,86 Prob> chi2 = 0.0000 chi2 (5) =
Registro de probabilidad = -933.9192 Pseudo R2 = 0,0678 -------------------------------------------------- --------------------------Cuse | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------edad | 2 | 0,3893816 0,1758501 0,0447219 0,7340414 2,21 0.027 3 | 0,9086135 0,1646211 0,5859621 1,231265 5,52 0.000 4 | 1.189239 0.21443 1.609514 5.55 0.000 .7689639 | educ | .3249947 .1240355 2.62 0.009 .0818894 .5680999 nomore | .8329548 .1174705 .6027169 7.09 0.000 1.063193 _cons | 0.1720307 -1.966169 -2.303343 -1.628995 0.000 -11,43 -------------------------------------------------- --------------------------. di exp (_b [educ]) 1.3840232
El uso de anticonceptivos es diferente por cada uno de estos factores, incluso cuando se comparan mujeres que estn en las mismas categoras de los otros dos. Por ejemplo, la probabilidad de uso de anticonceptivos son un 38% mayor entre las mujeres con algn tipo de educacin que entre las mujeres sin educacin en el mismo grupo de edad y la categora del deseo de ms hijos. La desviacin de 29,92 a 10 grados de libertad nos dice que este modelo no se ajusta a los datos, por lo que la suposicin de que las diferencias logit por una variable son las mismas en categoras de los otros dos es sospechoso. El modelo de interaccin Efecto Uno De los tres modelos con un trmino de interaccin, la que logra la mayor mejora en el ajuste en comparacin con el modelo aditivo es el modelo con una edad de no ms interaccin, donde la diferencia de logits entre las mujeres que quieren y no desean tener ms hijos vara por la edad. El estndar de referencia de clulas parametrizacin se puede obtener fcilmente utilizando las variables de factor:
. logit i.age Cuse # # c.nomore educ [fw = n] 0: 1: 2: 3: 4: log = probabilidad -1001,8468 log = probabilidad -926.33767 registro de probabilidad = -925.27593 probabilidad log = -925.27536 log = probabilidad -925.27536 LR 153,14 Prob> chi2 = 0.0000 Registro de probabilidad = -925.27536 Pseudo R2 = 0,0764 chi2 (8) =
-------------------------------------------------- --------------------------Cuse | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------edad | 2 | 0,3946039 0,2014504 1,96 0.050 -. 0002315 .7894394 3 | 0,5466635 0,1984206 0,1577663 0,9355607 2,76 0.006 4 | 0,5795235 0,3474172 1,67 0.095 -. 1014017 1.260449 | nomore | .0662197 .3307064 0.20 0.841 -. 5819529 .7143922 | edad # c.nomore | 2 | 0.25918 0.4097504 0.63 0.527 -. 5439161 1.062276 3 | 1.112662 0.3740433 0.3795507 1.845773 2.97 0.003 4 | 1.361674 0.4843256 0.4124134 2.310935 2.81 0.005 | educ | .3406479 .1257653 2.71 0.007 .0941525 .5871432 _cons | 0.1801786 -1.803172 -2.156315 -1.450028 0.000 -10,01 -------------------------------------------------- --------------------------. di exp (_b [nomore]), exp (_b [4.age # c.nomore]), / / / > Exp (_b [nomore] + _b [4.age # c.nomore]) 1.0684614 3.902721 4.1699068
Asegrese de saber cmo interpretar todos estos coeficientes. Por ejemplo, la razn de las ventajas del uso de anticonceptivos entre las mujeres que quieren tener ms hijos con respecto a aquellos que quieren ms en la misma categora de la educacin es de 1,07 entre las mujeres menores de 25 aos, pero 3,9 veces ms (dando una odds ratio de 4,1) entre los las mujeres en sus cuarentas. Para ayudar en la interpretacin y la crtica modelo que puede representar la logits observados y equipada, reproduciendo eficazmente la Figura 3.4. Porque vamos a necesitar ms de una parcela que se encapsulan los clculos en un comando de pof , por mucho bserved o p y f equipado. As que aqu est el comando:
. . capturar pof programa cada
programa define pof 1. args obs ajuste ms 2. dos vas / / / > (Dispersin 'obs' agem (verde)) / / / > (Dispersin 'obs' agem (rojo)) / / / > (Dispersin 'obs' agem (verde)) / / / > (Dispersin 'obs' agem (rojo)) / / / > (Lnea 'ajuste' agem si (verde)) / / / > (Lnea 'ajuste' agem si (rojo)) / / / > (Lnea 'ajuste' agem si moneda local (verde)) / / / > (Lnea 'ajuste' agem si moneda local (rojo)) / / /
si educ == 0 & nomore == 0, ms (D) mc si educ == 0 & nomore == 1, ms (T) mc si educ == 1 & nomore == 0, ms (C) mc si educ == 1 & nomore == 1, ms (S) mc educ == 0 & nomore == 0, lp (guin) lc educ == 0 & nomore == 1, lp (guin) lc educ == 1 & nomore == 0, lp (slido) en educ == 1 & nomore == 1, lp (slido) en
>, El ttulo ("el uso de anticonceptivos por edad, educacin, y las preferencias") / / / > XTitle (edad) ytitle (logit) leyenda (filas (2) / / / Para> (1 "UNED /" 2 "UNED /" 3 "educ /" 4 "educ /" / / / > 5 "ms" 6 "no ms" 7 "ms" 8 "no ms")) `more ' 3. final
La trama combina cuatro diagramas de dispersin y cuatro trazos de lnea, uno para cada subgrupo definido por la educacin y el deseo de ms hijos. El comando toma como argumentos los nombres de las variables con el valor observado y ajustado y una cadena opcional que se pasa a lo largo como una opcin para el comando de dos vas grfico. Utiliza los mismos marcadores como en las notas, pero con lo que espero sea una leyenda ms As que aqu est nuestra primera parcela
. predecir lfit31, xb
. pof obs3 lfit31 "subttulo (modelo con la edad por la interaccin Preferencias)" (Nota: el estilo llamado C no se encuentran en smbolo de la clase, atributos por defecto utilizado . fig34.png grfico de las exportaciones, reemplazar (Fig34.png archivo escrito en formato PNG) la anchura (500)
A menudo me encuentro la interpretacin de las interacciones es ms directo si los combina con los efectos principales. Aqu est el mismo modelo que muestra la diferencia en logits por el deseo de tener ms hijos en cada grupo de edad, reproducir los resultados en la Tabla 3.15
. generacin nomo_at1524 = nomore * (edad == 1)
. . . .
generacin nomo_at2529 = nomore * (edad == 2) generacin nomo_at3039 = nomore * (edad == 3) generacin nomo_at4049 = nomore * (edad == 4) logit Cuse i.age educ nomo_at * [fw = n] 0: 1: 2: 3: 4: log = probabilidad -1001,8468 log = probabilidad -926.33767 registro de probabilidad = -925.27593 probabilidad log = -925.27536 log = probabilidad -925.27536 LR chi2 (8) =
Nmero de regresin logstica de obs = 1607 153,14 Prob> chi2 = 0.0000 Registro de probabilidad = -925.27536 Pseudo R2 = 0,0764 -------------------------------------------------- --------------------------Cuse | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------edad | 2 | 0,3946039 0,2014504 1,96 0.050 -. 0002315 .7894394 3 | 0,5466635 0,1984206 0,1577663 0,9355607 2,76 0.006 4 | 0,5795235 0,3474172 1,67 0.095 -. 1014017 1.260449 | educ | .3406479 .1257653 2.71 0.007 .0941525 .5871432 nomo_at1524 | 0,0662197 0,3307064 0,20 0.841 -. 5819529 .7143922 nomo_at2529 | 0,3253996 0,2419217 1,35 0,179 -. 1.487.581 0.7995574 nomo_at3039 | 1.178882 0.836247 0.1748169 6.74 0.000 1.521517 nomo_at4049 | 1.427894 0.3538467 0.7343668 2.121421 4.04 0.000 _cons | 0.1801786 -1.803172 -2.156315 -1.450028 0.000 -10,01 -------------------------------------------------- --------------------------. di exp (_b [educ]) 1.4058581 . Mata exp (st_matrix ("e (b)") [6 .. 9]) 1 2 3 4 +------------------------------------------------- --------+ 1 | 1,068461402 1,384583879 3,250737129 4,169906768 | +------------------------------------------------- --------+
Tenga en cuenta la forma en que libremente se puede mezclar variables de factor de la edad con maniques codificados a mano por los efectos de querer tener ms hijos en cada edad. Nos encontramos con probabilidades del 34% ms alto de uso de anticonceptivos entre las mujeres con algn tipo de educacin en comparacin con las mujeres sin educacin en el mismo grupo de edad y la categora del deseo. Tambin vemos que las posibilidades de uso de anticonceptivos entre las mujeres que no desean ms hijos son mayores que entre las mujeres que desean tener ms hijos en la misma edad y categora de la educacin, 7% ms alto en 25 aos de edad, un 38% superior a la edad de 25 a 29, tres veces mayor para las mujeres en sus treinta y cuatro veces ms alta entre las mujeres en sus cuarentas.
(En caso de que usted se est preguntando por qu los coeficientes de no ms de diversas edades se encuentran en las posiciones 6-9 en lugar de 5 a 8, cuenta que cuando se utilizan variables del factor de Stata almacena el coeficiente de la celda de referencia, con un valor de cero, como parte de e(b) .) Este modelo pasa por la bondad convencional de pruebas de ajuste y por lo tanto proporciona una descripcin razonable de uso de anticonceptivos por edad, educacin, y el deseo de tener ms hijos. Todas las tres interacciones de dos factores Como se explica en las notas, hay alguna evidencia de que la educacin puede interactuar con las otras dos variables. El modelo con las tres interacciones de dos factores proporciona el mejor ajuste, con una desviacin de 2,44 en tres grados de libertad, pero es mucho ms complejo. En lugar de estimaciones de los parmetros actuales, voy a reproducir la figura 3.5, que ofrece algunas pistas sobre cmo el modelo puede ser simplificado. Gracias a nuestra pof mando es ahora una tarea fcil:
. silencio logit Cuse i.age educ nomore / / / > I.age # # c.educ i.age c.nomore c.educ # c.nomore [fw = n] . predecir lfit32, xb
. pof obs3 lfit32 "subttulos (Todas las interacciones de dos factores)" (Nota: el estilo llamado C no se encuentran en smbolo de la clase, atributos por defecto utilizado . fig35.png grfico de las exportaciones, reemplazar (Fig35.png archivo escrito en formato PNG) la anchura (500)
Una imagen realmente vale ms que mil palabras. Vemos que entre las mujeres que no desean tener ms hijos el uso de anticonceptivos aumenta casi linealmente con la edad (en la escala logit), sin diferencias por educacin, excepto en el grupo de mayor edad donde el uso se aplana para las mujeres sin educacin. Entre las mujeres que desean tener ms hijos el uso de anticonceptivos es generalmente ms bajo, aumenta ms lentamente con la edad, hay algunas diferencias en la educacin, y estos son ms altas entre las mujeres mayores. Tambin hay una pista de curvatura por edad para las mujeres sin educacin que desean tener ms hijos. Un modelo parsimonioso Estas observaciones sugieren maneras de simplificar el modelo. Las interacciones de edad son muy simples: el aumento con la edad es ms pronunciada entre las mujeres que no desean ms hijos, y la diferencia por la educacin es mayor entre las mujeres en sus cuarentas. Del mismo modo, la diferencia de educacin es mayor en el uso de espacio y entre las mujeres mayores. Una forma de capturar estas caractersticas es el uso de una ecuacin cuadrtica de la edad, permitir que la pendiente (pero no la curvatura) que varan segn el deseo de ms hijos, e introducir efectos de la educacin slo por espacio y despus de los 40 (y no tanto para limitar antes de 40 aos de edad). Para facilitar la interpretacin de los parmetros resultantes de edad que se centran alrededor de 30:
. . . . generacin agemc = AGEM-30 generacin agemcsq agemc = ^ 2 generacin educ_spacing = educ * (1-nomore) generacin educ_at40p = educ * (edad == 4)
As que aqu es un modelo ms parsimonioso

. logit Cuse c.agemc # # c.nomore agemcsq c.educ_spacing educ_at40p [fw = n] Iteracin Iteracin Iteracin Iteracin Iteracin 0: 1: 2: 3: 4: log = probabilidad -1001,8468 log = probabilidad -923.04064 registro de probabilidad = -921.89423 probabilidad log = -921.89297 log = probabilidad -921.89297 LR 159,91 Prob> chi2 = 0.0000 Registro de probabilidad = -921.89297 Pseudo R2 = 0,0798 -------------------------------------------------- --------------------------Cuse | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------agemc | .0247552 .0118884 2.08 0.037 .0014543 .0480561 nomore | .9804174 .1790475 .6294907 5.48 0.000 1.331344 chi2 (6) =
| c.agemc # | c.nomore | 0,058961 0,0183799 0,0229371 0,0949849 3,21 0.001 | agemcsq | -. 0034306 .0010318 -3.32 0.001 -. 0054529 -. 0014083 educ_spacing | 0,432112 0,1808991 0,0775563 0,7866677 2,39 0.017 educ_at40p | 0,9798156 0,3462926 0,3010945 1,658537 2,83 0.005 _cons | 0.1578254 -1.339265 -1.648597 -1.029933 0.000 -8,49 -------------------------------------------------- --------------------------. di "desviacin =" 2 * (slogL - e (ll)) "en" (SDF-e (df_m)) "df" desviacin = 5.8647683, el 9 de df
Este modelo tiene slo siete parmetros y una desviacin de 5,9 a 9 grados de libertad, por lo que es mucho ms simple que el modelo anterior y se ajusta bastante bien. Obviamente no podemos tomar el examen en serio, porque no especificamos estos trminos por adelantado, pero el ejercicio muestra cmo se puede simplificar un modelo de captura de sus caractersticas esenciales. Antes de interpretar los coeficientes nos dejaron registrarnos los valores ajustados
. predecir lfit33, xb
. pof obs3 lfit33 "subttulo (un modelo simplificado)" (Nota: el estilo llamado C no se encuentran en smbolo de la clase, atributos por defecto utilizado . fig35b.png grfico de las exportaciones, reemplazar (Fig35b.png archivo escrito en formato PNG) la anchura (500)
Vemos que el modelo proporciona casi el mismo ajuste que el modelo mucho ms complejo de la subseccin anterior. Volviendo a las estimaciones de los parmetros, vemos que el uso de anticonceptivos en general, aumenta con la edad, con un
incremento en la probabilidad de alrededor del 2,5 por ciento a los 30 aos (menos en las edades jvenes y mayores, con las diferencias se indican a continuacin despus de 40 aos de edad). Uso es mucho mayor entre las mujeres que desean tener ms hijos, con un odds ratio de 2,7 a los 30 aos, el aumento de seis por ciento por ao de edad. Las mujeres con algn tipo de educacin tienen ms probabilidades de utilizar anticonceptivos para fines de espaciado, con un odds ratio de 1,5, y tambin son ms propensos a utilizar, ya sea para espaciar o limitar despus de 40 aos de edad, con un odds ratio de 2,7 (lo que hace que el odds ratio de la educacin para separadores despus de los 40 justo por encima de cuatro). Simplificaciones modelo alternativo se dan en las notas.
3.7 Otras opciones de Enlace

Dos notas breves sobre la formulacin de variables latentes de los modelos de respuesta binaria y el uso de enlaces alternativos. En primer lugar, diagrama en tres diferentes eslabones de una escala estandarizada. En segundo lugar se comparan las estimaciones logit y probit para un modelo de uso de anticonceptivos. Tres Funciones de enlace Vamos a reproducir la figura 3.7, que muestra el logit, probit y log-log complementario vnculo despus de la normalizacin de la variable latente por lo que tiene media 0 y varianza 1. El enlace probit se basa en la distribucin normal estndar que ya est estandarizado. El enlace logit se basa en la distribucin estndar de logstica, que tiene media 0 y varianza 2 / 3. El enlace C-log-registro se basa en el valor extremo (log de Weibull) de distribucin con una media de 0,577 y la varianza 2 / 6.
. / > | | Funcin y = invlogit (x * _pi / sqrt (3)), el rango (-2 2) LPAT (punto) / / / > | | La funcin y = 1-exp (-exp (-0,577 + x * _pi / sqrt (6))), el rango (-2 2) LPAT (guin) / / / >, El ttulo ("Figura 3.7: Probit, Logit y enlaces C-log-log") / / / > Subttulos (estandarizados) / / / > Leyenda (para (1 "probit" 2 "logit" 3 "cloglog") cols (1) anillo (0) puntos de venta (5)) . fig37.png grfico de las exportaciones, reemplazar (Fig37.png archivo escrito en formato PNG) la anchura (500) dos vas funcin y = normal (x), alcance (-2 2) LPAT (slidos) / /
Como usted puede ver los enlaces de logit y probit son prcticamente indistinguibles. El enlace C-log-log se ve diferente, pero an se necesitan tamaos de muestra muy grande para ser capaz de distinguir de los dems. Un modelo Probit Vamos a ajustar un modelo probit de los datos sobre el uso de anticonceptivos por edad y deseo de ms hijos. Siguiendo las notas vamos a recoger el pliego de condiciones donde la edad es tratada de forma lineal y que incluyen un itneraction entre la edad y el deseo de tener ms hijos. Para simplificar la interpretacin de la interaccin nos centramos en la edad de 30 aos.
. probit Cuse agemc nomore nomoreXagemc [fw = n] Iteracin 0: probabilidad log = -1001,8468 Iteracin 1: probabilidad log = 933.53639 Iteracin 2: Las probabilidades log = -933.46331 Iteracin 3: probabilidad log = -933.46331 Nmero de regresin probit de obs = 1607 LR chi2 (3) = 136,77 Prob> chi2 = 0.0000 verosimilitud = 933.46331 Pseudo R2 = 0.0683 ------------------------------ ----------------------------------------------- Cuse | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] ------------+---------------------------------- ----------------------------- agemc | .0128686 .0060884 2.11 0.035 .0009356 .0248017 nomore | 0,4389759 0,0744411 5,90 0.000 0.293074 0.5848777 nomoreXagemc | 0,0304807 0,0092269 0,0123963 0,0485651 3,30 0,001 _cons | -. 7374078 .0453175 -16,27 0.000 -. 8262284 -. 6485872 ------------------ ------------------------------------------------- ----------. b_probit mat = e (b)
Coeficientes probit se puede interpretar en trminos de una variable latente estandarizados que representan una tendencia a utilizar mtodos anticonceptivos, o la diferencia de utilidades esperadas entre usar y no usar mtodos anticonceptivos.
Vemos que la tendencia entre las mujeres que desean tener ms hijos aumenta con la edad a una tasa de poco ms de una dcima parte de una desviacin estndar por ao. Ms interesante an, la tendencia es de 0,44 desviaciones estndar ms alto entre las mujeres que no desean ms hijos que entre aquellos que quieren ms a los 30 aos. Esta diferencia se incrementa en 0,03 desviaciones estndar por ao de edad, por lo que es de 0,13 desviaciones estndar a los 20 aos, pero 0,74 desviaciones estndar a los 40 aos. Como resultado, la propensin al uso de anticonceptivos entre las mujeres que quieren tener ms hijos es de 0,04 desviaciones estndar superior al ao de edad. Puede ser interesante comparar los coeficientes logit y probit. Una forma de comparar es dividir los coeficientes logit de / &sqrt; (3) = 1,8. Esto normaliza la variable latente de logstica a tener una variacin, por lo que los coeficientes tienen la misma interpretacin. Las dos primeras columnas de la tabla a continuacin muestra que los dos conjuntos de coeficientes son, de hecho, muy similares
. . . . silencio logit Cuse agemc nomore nomoreXagemc [fw = n] estera b_logit = e (b) ' estera tanto b_probit =, b_logit * sqrt (3) / _pi, b_logit/1.6 estera lista tanto
ambos [4,3] y1 y1 y1 Cuse: .01286865 .01203162 .01363934 agemc Cuse: .43897587 .40176119 .45544636 nomore Cuse: .02645902 .02999459 .0304807 nomoreXagemc Cuse: _cons -. -. 73740779 66570995 75466518 -.
Gelman y Hill, despus de Amemiya, recomienda dividir por 1,6. Este factor fue elegido por ensayo y error para hacer la aproximacin de logstica transformado la distribucin normal estndar en un amplio dominio. Como se muestra en la tercera columna anterior, se da una aproximacin un poco ms cerca de los coeficientes probit en nuestro ejemplo, sobre todo para el trmino de interaccin. Por supuesto, la diferencia entre dividir por 1,8 o 1,6 no va a ser grande.
3.8 Diagnstico de regresin para datos binarios

Consideremos ahora el diagnstico de regresin para datos binarios, se centra en modelos de regresin logstica. Vamos a trabajar con el modelo aditivo de uso de anticonceptivos por edad, educacin, y el deseo de tener ms hijos, que sabemos que es insuficiente. Patrones en las covariables Stata ofrece varias herramientas como parte de la predict y estat estimacin postcomandos. Estos estn disponibles despus de la emisin de un logit o logistic de comandos, con opciones ms restringidas (valores esencialmente slo hay) despus de blogit .
Cuando se trabaja con datos individuales de Stata se apoya fuertemente en el concepto de patrones en las covariables, que agrupa a todas las observaciones que comparten los mismos valores de las covariables. En particular, se define como un modelo saturado que tiene un parmetro diferente para cada patrn en las covariables, no para cada observacin. En cuanto a los datos sobre el uso de anticonceptivos por edad, la educacin y el deseo de tener ms hijos, se podra trabajar con blogit y 16 grupos, pero tendra que calcular la mayora de los diagnsticos con la mano. En su lugar vamos a seguir trabajando con el conjunto de datos ponderados simulacin de los datos individuales y el uso de la logit de comandos. Como es el caso obtenemos la misma respuesta, porque los grupos coinciden con los patrones en las covariables. Para aclarar este punto vamos a encajar: (1) un modelo con un parmetro diferente para cada patrn en las covariables y (2) el modelo aditivo
. . . . silencio logit i.age Cuse # # # # c.educ c.nomore [fw = n] predecir pobs, pr sb escalar = e (ll) logit Cuse i.age educ nomore [fw = n] 0: 1: 2: 3: 4: log = probabilidad -1001,8468 log = probabilidad -934.92579 registro de probabilidad = -933.92045 probabilidad log = -933.9192 log = probabilidad -933.9192 LR 135,86 Prob> chi2 = 0.0000 Registro de probabilidad = -933.9192 Pseudo R2 = 0,0678 -------------------------------------------------- --------------------------Cuse | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------edad | 2 | 0,3893816 0,1758501 0,0447219 0,7340414 2,21 0.027 3 | 0,9086135 0,1646211 0,5859621 1,231265 5,52 0.000 4 | 1.189239 0.21443 1.609514 5.55 0.000 .7689639 | educ | .3249947 .1240355 2.62 0.009 .0818894 .5680999 nomore | .8329548 .1174705 .6027169 7.09 0.000 1.063193 _cons | 0.1720307 -1.966169 -2.303343 -1.628995 0.000 -11,43 -------------------------------------------------- --------------------------. di -2 * e (ll) 1867.8384 . di 2 * (sat-e (ll)) 29.917222 chi2 (5) =
El modelo aditivo tiene una desviacin de 1867,8 cuando se define el modelo saturado en trminos de las observaciones individuales, y una desviacin de 29,92, cuando se define el modelo saturado en trminos de patrones en las covariables o, equivalentemente, los 16 grupos de mujeres. Desviacin y residuos de Pearson La predict comando se puede utilizar para obtener probabilidades estimadas, residuos de desviacin y residuos de Pearson, con los dos ltimos se define como la raz cuadrada de la contribucin de un determinado patrn de covarianza para la desviacin del modelo o estadstica de Pearson Chi cuadrado
. . . predecir pfit, pr / / probabilidad predecir dr, / dev / desviacin residual predecir pr, res / / Pearson residual
Vamos a verificar que si elevamos al cuadrado y la suma de estos residuos que en los patrones en las covariables se obtiene la desviacin y las estadsticas de Pearson chicuadrado. (Recordemos que tenemos dos filas para cada patrn en las covariables, uno con los usuarios y una con las no usuarias. Los residuos de las dos filas de cada par son idnticos y que necesita sumar slo uno de ellos.)
. . generacin drsq = dr ^ 2 en silencio suma drsq si Cuse == 1
. di r (suma) 29.917221 . . generacin prsq = pr ^ 2 en silencio suma prsq si Cuse == 1
. di r (suma) 28.288336
Por lo que la desviacin es 29.9 como se seal al principio, y de Pearson chi-cuadrado es de 28,3. Ahora lista de todas las celdas con residuos de desviacin al cuadrado por encima de 3,84 (igual que los valores absolutos por encima de 1,96).
. Lista edad educ nomore pobs pfit pr dr si Cuse == 1 & pr ^ 2> 3,84
+------------------------------------------------- -------------------+ | Edad educ nomore pobs pfit pr dr | |------------------------------------------------- -------------------| 8. | <25 alrededor de 1 0,1666667 0,3082699 -2,375281 -2,514795 | 16. | 25-29 Algunos 0,2934783 0,3967947 un -2.025574 -2.06526 | 26. | 40-49 Ninguno 0 0,1463415 0,3149818 -2,324661 -2,491414 | +------------------------------------------------- -------------------+
Vemos que una parte sustancial de la desviacin de 29,92 proviene de tres grupos, donde el modelo sobreestima la probabilidad de usar mtodos anticonceptivos: las mujeres <25 y 25-29, con algn tipo de educacin que quieren tener ms hijos, y las mujeres en sus cuarenta aos con primer ciclo de primaria o menos que desean tener ms hijos. El apalancamiento y la influencia Pregibon extendido diagnsticos de regresin de GLM y present una matriz ponderada sombrero. Los elementos de la diagonal se aprovecha y se puede calcular con los lev de la opcin de predict comando.
. . predecir niveles, sombrero suma niveles si Cuse == 1
Variable | Obs media estndar. Prog. Min Max -------------+------------------------------------ ------------------Lev | 16 0,1788555 0,0902827 0,6696332 0.375 . . gsort-lev lista de n aos educ nomore niveles dr si Cuse == 1 de 1 / 6 +------------------------------------------------- - + | N edad educ nomore niveles dr | |------------------------------------------------- - | 1. | 52 <25 0 Algunas 0.6696332 1.487477 | 3. | 54 25-29 Algunos 0 0,5774811 1,22864 | 6. | 48 40-49 Ninguno 1 0.5601446 -. 0652542 | +------------------------------------------------- - +
Las tres clulas con las de mayor potencial influencia en el ajuste son mujeres jvenes con algn tipo de educacin que desean tener ms hijos y las mujeres mayores sin educacin que quieren tener ms hijos. Los elementos de la matriz del sombrero puede ser utilizado para estandarizar Pearson (o desviacin) y los residuos para calcular las estadsticas de influencia. El rs de la opcin predict comando calcula estandarizados residuos de Pearson. Residuos estandarizados desviacin se puede calcular "a mano":
. . . . . predecir ps, rs / / estandarizada Pearson residual generacin ds = dr / sqrt (1-lev) / / Desviacin estndar residual generacin sc = ps ^ 2 gsort-sc Lista edad educ nomore ps ds si Cuse == 1 en 06.01 +-----------------------------------------------+ | Edad educ nomore ps ds | |-----------------------------------------------|
1. 3. 5.
| <25 alrededor de 1 -2.887789 -3.057405 | | 40-49 Ninguno 0 -2.720763 -2.91593 | | 25-29 Algunos -2.687572 -2.740228 1 | +-----------------------------------------------+
Identificamos los mismos tres observaciones recogidas por los residuos no estandarizados, pero los valores absolutos son ahora ms cerca de tres aos, destacando la falta de ajuste a estos grupos. El db opcin de predict comando calcula la aproximacin de un paso de distancia de Cook. (Esta estadstica se llama estadstica Pregibon su influencia en la documentacin de Stata, y su clculo difiere de la frmula en la pgina 49 de las notas en que se deja de lado el nmero de parmetros p).
. . predecir cocinar, db suma cocinar si Cuse == 1
Variable | Obs media estndar. Prog. Min Max -------------+------------------------------------ ------------------cocinar | 16 2.827582 3.841448 .0123296 14,3152 . gsort - cocinero
. lista de n aos educ nomore niveles dr cocinar si Cuse == 1 en 01.06 +------------------------------------------------- ------------+ | N edad educ nomore niveles Dr. Cook | |------------------------------------------------- ------------| 1. | 52 <25 0 Algunas 0.6696332 1.487477 14.3152 | 3. | 80 30-39 Ninguno 1 0,5422943 1,645289 7,056133 | 6. | 27 25-29 Algunos un 0,4319641 5,492778 -2,06526 | +------------------------------------------------- ------------+
El patrn covaraite con el mayor apalancamiento result ser tambin el ms influyente: las mujeres menores de 25 aos con primaria superior o ms que desean tener ms hijos. Bondad de ajuste El estat gof comando implementa Hosmer y Lemeshow es goodnes de prueba de ajuste. Por defecto, el comando funciona con patrones en las covariables, que en este caso es una buena idea porque slo tenemos 16 grupos. La prueba compara las frecuencias observadas y una puerta en cada grupo con la frmula de Pearson y, por tanto, los rendimientos del mismo valor que el de Pearson chi-cuadrado calculado anteriormente:
. estat gof
Modelo logstico para Cuse, de bondad de ajuste de prueba nmero de observaciones = 1607 nmero de patrones en las covariables = 16 Pearson chi2 (10) = 28,29 Prob> chi2 = 0.0016
La prueba tiene 10 grados de libertad, porque tenemos 16 patrones en las covariables y el modelo cuenta con 6 parmetros. Usted puede obtener una salida ms detallada utilizando la table de opciones. Con los datos verdaderamente individual se encuentra patrones en las covariables demasiados, especialmente si usted tiene un predictores continuos pocos, y la aproximacin de chi-cuadrado no ser vlida. En estos casos, debe agrupar los datos utilizando el group(#) opcin, que se basa en el predictor lineal de las observaciones se agrupan con similares valores de covarianza. Por lo general, alrededor de 10 grupos se utilizan. Los grupos se basan en los cuantiles para que tengan el mismo tamao. Una prueba con grupos de g es tratado como (aproximadamente) de chi-cuadrado con g-2 grados de libertad La Tabla de Clasificacin La estat class ification comando produce una crostabulation de los resultados observados y previstos, donde se prev un resultado positivo si la probabilidad es de 0.5 o ms y un resultado negativo de otra manera.
. estat clasif
Modelo logstico para Cuse -------- -------- Verdad Clasificados | D ~ D | Total -----------+--------------------------+----------+ | 157 126 | 283 - | 350 974 | 1324 -----------+--------------------------+----------Total | 507 1100 | 1607 Clasificados + si predijo Pr (D)> = 0.5 Es cierto D se define como Cuse! = 0 -------------------------------------------------Sensibilidad Pr (+ | D) 30,97% Especificidad Pr (- | ~ D) 88.55% Valor predictivo positivo Pr (D | +) 55,48% Valor predictivo negativo Pr (~ D | -) 73.56% -------------------------------------------------+ Tasa de falsa verdad para ~ D Pr (+ | ~ D) 11,45% Falso - tasa por cierto D Pr (- | D) 69,03% Falso + tasa de clasificados + Pr (~ D | +) 44,52% Falso - tasa de clasificados - Pr (D | -) 26.44% -------------------------------------------------Clasificados correctamente 70,38% --------------------------------------------------
En nuestra aplicacin podemos predecir correctamente el 70,4% de los casos. Para poner esto en perspectiva, tenga en cuenta que la anticoncepcin slo el 31,5% de uso, por lo que si nos limitamos a todo el mundo predijo que un usuario no obtendramos 68,5% de respuestas correctas. Por lo tanto, teniendo la edad, la educacin y el deseo de tener ms hijos en cuenta reducir los errores de clasificacin 0,315 a 0,296, una reduccin de seis por ciento de error. (Podemos hacerlo un poco mejor la adicin de la interaccin entre la edad y el
deseo.) No es raro encontrar grandes probabilidades de clasificacin errnea, incluso cuando las covariables en el modelo de tener efectos significativos. Otros ndices de inters, particularmente en la investigacin epidemiolgica, se
la sensibilidad, o la probabilidad de la prediccin del uso entre los usuarios, aqu el 31%. Piense en esto como la probabilidad de detectar una enfermedad entre las personas que la padecen. El complemento de esta probabilidad es la tasa de falsos negativos. la especificidad o probabilidad de predecir la falta de uso entre los no usuarios, aqu el 89%. Piense en ello como la probabilidad de dar un certificado de buena salud a las personas que no tienen una enfermedad. El complemento de esta probabilidad es la tasa de falsos positivos.
Stata puede representar la sensibilidad y especificidad contra el punto de corte con el lsens comando. Otro grfico de inters en los problemas de clasificacin es el r eceiver o PERACIN c haracteristic curva (ROC), implementado en la lroc comando. Se trata de una parcela de especificidad frente a una sensibilidad generada por la variacin de la punto de corte. Un modelo sin poder de prediccin tiene una lnea de 45 grados ROC. Los mejores modelos tienen cncava curvas ROC que se encuentran por encima de la diagonal. Una medida resumen del poder de prediccin es el rea bajo la lnea de ROC, que oscila entre 0,5 y 1,0. Nuestro modelo tiene una superficie de 0,67. Ejercicios: 1. Para calcular las estadsticas para el diagnstico de uno de los modelos con una edad por la interaccin y el deseo de comparar los resultados de los tres patrones covaraite que haba residuos de gran tamao. 2. Refundicin de los datos de uso de anticonceptivos en 16 grupos (por ejemplo usando el archivo cuse.dat en la seccin de conjuntos de datos), el ajuste del modelo aditivo que se utiliza aqu, y calcular la desviacin y residuos de Pearson de los primeros principios.
4 modelos de Poisson en Stata

Esta unidad muestra el uso de regresin de Poisson para datos de recuento de modelado. Vamos a utilizar el poisson de comandos, a menudo seguida por estat gof para calcular la desviacin del modelo, que podemos utilizar como una prueba de bondad de ajuste con los datos individuales y agrupados. Una forma alternativa de ajuste de estos modelos es el uso de la glm comando para adaptarse a los modelos lineales generalizados en la familia de Poisson con registro de enlace. Una ventaja de este comando es que los informes de la desviacin y la estadstica de Pearson Chi cuadrado. Tambin hay una opcin para ajustar los errores estndar para extra-Poisson variacin. Vamos a ilustrar su uso en el contexto de modelos para datos de recuento overdispersed.
4.3 Un modelo de Poisson para la Cuenta

Vamos a utilizar los datos procedentes de Fiyi sobre los hijos nacidos que aparecen en la tabla 4.1 de los apuntes de clase. Los datos estn disponibles en nuestra pgina de bases de datos en http://data.princeton.edu/wws509/datasets tanto en texto plano y Formatos de Stata. Vamos a leer el archivo de Stata:
. uso http://data.princeton.edu/wws509/datasets/ceb, claro (Los nios nacidos de datos, Fiyi, 1976)
El archivo consta de 70 observaciones, una para cada celda de la tabla. Cada observacin tiene un nmero de secuencia, los cdigos numricos para la duracin del matrimonio, la residencia y la educacin, la media y la varianza de los nios nacidos y el nmero de mujeres en la celda. Media-varianza relacin Empezamos haciendo la figura 4.1, trazando las variaciones de clulas en comparacin con la clula que consiste en utilizar un log-log-escala para celulares con al menos 20 casos. Debido a que Stata tiene la opcin de utilizar escalas logartmicas no es necesario tomar los registros de nosotros mismos:
. dos vas (var dispersin decir que si n> 20) / / / > (La funcin y = x, rango (0,7 7,8)) / / / >, XScale (log) Yscale (log) leyenda (off) / / / > XTitle (media CEB) ytitle (variacin de la Junta) / / / Title> ("Figura 4.1. Media y la varianza de Relacin") / / / > Subttulo ("Los nios nacidos en Fiyi, 1976") . c4fig1.png grfico de las exportaciones, reemplazar (C4fig1.png archivo escrito en formato PNG) la anchura (500)
Es evidente que la diferencia aumenta con la media. La mayora de los puntos se encuentran por debajo de la lnea de 45 grados, lo que indica que la variacin no es exactamente igual a la media. Sin embargo, el supuesto de proporcionalidad trae como mucho ms cerca de los datos que el supuesto de varianza constante. Respuesta, Compensacin y predictores El conjunto de datos no tiene informacin sobre el nmero de hijos nacidos (CEB) a cada mujer, pero resulta que todava podemos decir con el modelo de trabajo con los totales de la clula y la introduccin del registro de la cantidad de mujeres en la clula como una offset. Si el nmero de CEB a una mujer en una clula dada es una variable aleatoria de Poisson con una media (y la varianza) , entonces el nmero de nacidos a todas las mujeres en la celda n es una variable aleatoria de Poisson con una media (y la varianza) n . El registro de la suma esperada es log (n) + log (), y consiste en un desplazamiento conocido y la cantidad que est interesado en el modelado. Consulte las notas para obtener ms detalles Por lo tanto, empezar por el clculo del resultado, el total de la Junta en cada clula, y el desplazamiento:
. . Generacin Y = round (media * n, 1) generacin os = log (n)
Tambin necesitamos variables dummy para los predictores. Voy a utilizar macros local para almacenar los nombres de los muecos que van con cada predictor:
. . . . . . . . . . . . . . . / / Duracin (de referencia 0-4) generacin dur0509 = durante == 2 generacin dur1014 = durante == 3 generacin dur1519 = durante == 4 generacin dur2024 = durante == 5 generacin dur2529 = == durante 6 locales durante dur0509 dur1014 dur1519 dur2024 dur2529 / / Residencia (de referencia es Fiyi) generacin urbana = res == 2 gen rural = res == 3 res locales rurales o urbanas / / La educacin (de referencia es None) generacin lowerPri educ = == 2 generacin upperPri educ = == 3 generacin secPlus educ = == 4
locales educ lowerPri upperPri secPlus
El modelo nulo Estamos listos para el ajuste del modelo nulo, que tiene un desplazamiento, pero no predecir.
. poisson y, offset (os)
Iteracin 0: log = probabilidad -2080,664 Iteracin 1: log = probabilidad -2080,664 Nmero de regresin de Poisson de obs = 70 LR chi2 (0) = -0.00 Prob> chi2 =. Registro de probabilidad = -2080.664 Pseudo R2 = -0.0000 -------------------------------------------------- --------------------------y | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------_cons | 1.376346 .0097119 141,72 0,000 1,357311 1,395381 os | (offset) -------------------------------------------------- --------------------------. di exp (_b [_cons]) 3.9604033 . en silencio suma media [fw = n]
. di r (media) 3.9604968 . estat gof La bondad de ajuste chi2 = 3731.851 Prob> chi2 (69) = 0,0000
La constante es el logaritmo de la media del nmero de hijos nacidos vivos. Exponentiating vemos que la media estimada es casi cuatro hijos por mujer. La estimacin coincide con la media de la muestra, como se comprob por el promedio de la celda significa que el nmero de mujeres como un peso de frecuencia. La desviacin de 3.732 en 69 grados de libertad da una clara indicacin de que el modelo no se ajusta a los datos. La hiptesis de que el nmero esperado de la Junta es el mismo para todas las mujeres independientemente de la duracin del matrimonio, la residencia y la educacin, es rechazado con firmeza, En los modelos de la tasa de compensacin por lo general representan el registro de la exposicin, y el Stata nos permite especificar directamente con el offset() la opcin con el nombre de la variable que representa el desplazamiento, o el uso de la exposure() la opcin con el nombre de la variable que representa la exposicin , en cuyo caso toma el registro de Stata.
Factor de un Modelos A continuacin se ajustan los tres factores de una modelo, a partir de residencia:
. poisson y 'res', que se compensan (os) 0: 1: 2: 3: log = probabilidad log = probabilidad log = probabilidad probabilidad log = -2051,3779 -2044,3868 -2044,3778 -2044,3778
Nmero de regresin de Poisson de obs = 70 LR chi2 (2) = 72,57 Prob> chi2 = 0.0000 Registro de probabilidad = -2044.3778 Pseudo R2 = 0,0174 -------------------------------------------------- --------------------------y | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------urbano | .1442896 0.032448 4.45 0.000 .0806926 .2078866 rural | .2280596 .0278321 8.19 0.000 .1735097 .2826095 _cons | 1.204598 .0249922 48.20 0.000 1.155614 1.253581 os | (offset) -------------------------------------------------- --------------------------. di exp (_b [urbano]), exp (_b [rural]) 1.1552186 1.2561602 . estat gof La bondad de ajuste chi2 = 3659.279 Prob> chi2 (67) = 0,0000
Las estimaciones muestran que las mujeres en las zonas urbanas y rurales tienen un promedio de 16 nios y 26% ms que las mujeres en Suva. El modelo de chi-cuadrado de 73, el 2 de df nos dice que este modelo es una mejora significativa sobre el valor nulo. La desviacin, an en los miles, nos dice que este modelo est lejos de ajuste de los datos. Ahora para la educacin
. poisson y èduc, offset (os) 0: 1: 2: 3: log = probabilidad log = probabilidad log = probabilidad probabilidad log = -1588,3352 -1545,4751 -1545,2371 -1545,2371 LR 1.070,85 Prob> chi2 = 0.0000 Registro de probabilidad = -1545.2371 Pseudo R2 = 0,2573 chi2 (3) =
Nmero de regresin de Poisson de obs = 70
-------------------------------------------------- --------------------------y | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------lowerPri | -. 2117869 .0216769 -9.77 0.000 -. 2542729 -. 1693008 upperPri | -. 6160532 .0288581 -21,35 0.000 -. 6726141 -. 5594922 secPlus | -1.224676 0.0514108 -23.82 0.000 -1.32544 -1.123913 _cons | 1.647278 .0146932 112,11 0.000 1.61848 1.676076 os | (offset) -------------------------------------------------- --------------------------. Mata exp (st_matrix ("e (b)")) 1 2 3 4 +------------------------------------------------- --------+ 1 | 0.8091371376 0.5400718104 0.2938527957 5.192824803 | +------------------------------------------------- --------+ estat gof La bondad de ajuste chi2 = 2660.998 Prob> chi2 (66) = 0,0000
Las estimaciones muestran que el nmero de CEB disminuye sustancialmente con la educacin. Las mujeres con educacin secundaria o ms tienen 71% menos hijos que las mujeres sin educacin (o slo el 29% como muchos). El diferencial educativo es muy importante, pero este modelo no se ajusta a los datos. Finalmente, aqu est la duracin:
. poisson y 'durante', que se compensan (os) 0: 1: 2: 3: log = probabilidad -315.2481 log = probabilidad -297.80021 registro de probabilidad = -297.77426 probabilidad log = -297.77426 LR 3.565,78 Prob> chi2 = 0.0000 Registro de probabilidad = -297.77426 Pseudo R2 = 0,8569 -------------------------------------------------- --------------------------y | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------dur0509 | 1.044886 0.0523975 0.9421893 1.147584 19.94 0.000 dur1014 | 1.444947 1.346479 0.0502397 1.543416 28.76 0.000 dur1519 | 1,706756 1,609253 0,0497474 1,80426 34,31 0,000 dur2024 | 1.877474 1.780164 0.0496492 1.974785 37.81 0.000 dur2529 | 2.078855 0.047507 1.985743 2.171967 43.76 0.000 _cons | -. 1036046 .0441511 -2.35 0.019 -. 1901391 -. 01707 os | (offset) -------------------------------------------------- --------------------------chi2 (5) =
estat gof La bondad de ajuste chi2 = 166.072 Prob> chi2 (64) = 0,0000
No es sorprendente que el nmero de la Junta es mucho mayor para las mujeres que han estado casados por ms tiempo. Este es por lejos el ms importante predictor de la Junta, con una chi-cuadrado de 3.566 a slo 5 grados de libertad De hecho, un demgrafo no tendra ni siquiera mir a los modelos que no incluyen un control de la duracin del matrimonio. Es agradable ver que la regresin de Poisson se puede descubrir lo obvio:) Tenga en cuenta que este modelo no se ajusta a los datos. El desviaciones que figuran en esta seccin estn bastante cerca de las desviaciones en el cuadro 4.3 de las notas. Usted se dar cuenta de las pequeas diferencias debido a la utilizacin de procedimientos de redondeo diferentes. En las notas se multiplic la CEB decir con el nmero de mujeres y mantuvo unas dcimas. Aqu redondeado el nmero total de la Junta al entero ms cercano. Si se omite el redondeo que se reproducen los resultados en las notas con exactitud. Modelos de dos factores Consideremos ahora los modelos que tienen dos de los tres factores en cuenta. A raz de las notas que consideramos nicos modelos que incluyen la duracin del matrimonio, un control esencial cuando se estudia la fecundidad acumulada. Esto deja dos modelos con los principales efectos de dos factores, y otros dos modelos que aaden una interaccin. Debido a que slo estamos interesados en desviaciones que se ejecutan los comandos de estimacin en silencio. Tambin voy a usar las variables de factor, ya que simplifica la especificacin de los modelos. Siempre se puede construir los muecos de los primeros principios. As que aqu estn los modelos aditivos
. . en silencio y poisson i.dur i.res, offset (os) estat gof La bondad de ajuste chi2 = 120,6806 Prob> chi2 (62) = 0,0000 . . en silencio y poisson i.dur i.educ, offset (os) estat gof La bondad de ajuste chi2 = 100,1919 Prob> chi2 (61) = 0,0012
Y aqu estn los modelos con una interaccin

. . en silencio y poisson i.dur # i.res, offset (os) estat gof
La bondad de ajuste chi2 = 108,8968 Prob> chi2 (52) = 0,0000 . . en silencio y poisson i.dur # i.educ, offset (os) estat gof La bondad de ajuste chi2 = 84.53072 Prob> chi2 (46) = 0,0005
La mejor opcin hasta ahora es el modelo que incluye la duracin y la educacin, sino que muestra significativa falta de ajuste con una chi-cuadrado de 84,5 a 46 grados de libertad Los tres factores modelo aditivo Ahora estamos listos para ver los modelos que incluyen los tres factores. Empezamos con el modelo aditivo. Voy a utilizar variables ficticias ya que hace que la salida de una clara poco, pero podemos obtener el mismo resultado con las variables de factor.
. poisson y 'durante' `cosa '` educ, offset (os) 0: 1: 2: 3: 4: log = probabilidad -623.59688 log = probabilidad -252.64903 registro de probabilidad = -250.07248 probabilidad log = -250.07108 log = probabilidad -250.07108 LR 3.661,19 Prob> chi2 = 0.0000 Registro de probabilidad = -250.07108 Pseudo R2 = 0,8798 -------------------------------------------------- --------------------------y | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------dur0509 | 0,9969348 0,0527437 0,8935591 1,100311 18,90 0.000 dur1014 | 1.369395 1.269302 0.0510688 1.469488 26.81 0.000 dur1519 | 1.613757 1.513417 0.0511949 1.714097 31.52 0.000 dur2024 | 1.784911 1.684534 0.0512138 1.885288 34.85 0.000 dur2529 | 1,976405 0,0500341 1,87834 2,07447 39,50 0.000 urbano | .1124186 .0324963 3.46 0.001 0.048727 0.1761102 rural | .1516602 .0283292 5.35 0.000 0.096136 0.2071845 lowerPri | .0229728 .0226563 1.01 0.311 -. 0214327 .0673783 upperPri | -. 1012738 .0309871 -3.27 0.001 -. 1620073 -. 0405402 secPlus | -. 3101495 .0552107 -5.62 0.000 -. 4183605 -. 2019386 _cons | -. 1170972 .0549118 -2.13 0.033 -. 2247222 -. 0094721 os | (offset) -------------------------------------------------- --------------------------. estat gof La bondad de ajuste chi2 = 70.66559 Prob> chi2 (59) = 0,1421 chi2 (10) =
Este modelo pasa por la bondad de la barrera en forma, con una desviacin de 70,67 a 59 grados de libertad y su correspondiente P-valor de 0,14, por lo que no tenemos ninguna evidencia en contra de este modelo. Para exponenciar las estimaciones de parmetros que puede volver a emitir con poisson de comandos con la irr opcin, que es la abreviatura de ncidence i-r r comi Atios.
. poisson, irr LR 3.661,19 Prob> chi2 = 0.0000 Registro de probabilidad = -250.07108 Pseudo R2 = 0,8798 -------------------------------------------------- --------------------------y | TIR estndar. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------dur0509 | 2.709963 2.443812 0.1429334 3.005099 18.90 0.000 dur1014 | 3,932972 3,558369 0,2008521 4,34701 26,81 0,000 dur1519 | 5.021644 4.542226 0.2570824 5.551663 31.52 0.000 dur2024 | 5.95905 5.389938 0.3051855 6.588254 34.85 0.000 dur2529 | 7.216753 6.542636 0.3610835 7.960327 39.50 0.000 urbano | 1.118981 .0363628 3.46 0.001 1.049934 1.192569 rural | 1.163765 .0329685 5.35 0.000 1.100909 1.230209 lowerPri | 1.023239 .0231828 1.01 0.311 1.0697 0.9787954 upperPri | .9036856 .0280026 -3.27 0.001 0.850435 0.9602706 secPlus | .7333373 -5.62 0.000 0,040488 0,6581249 0,8171451 os | (offset) -------------------------------------------------- --------------------------chi2 (10) =
En resumen, los clculos indican que el nmero de la Junta aumenta rpidamente con la duracin del matrimonio, en cada categora de las mujeres de residencia y la educacin se cas con 15 a 19 aos tienen cinco veces ms nios que las personas casadas menos de cinco aos. Las mujeres que viven en zonas urbanas y rurales tienen un 12% y los nios 16% ms que las mujeres que viven en Suva y tienen la misma duracin del matrimonio y la educacin. Por ltimo, las mujeres ms educadas tienen menos hijos, las mujeres con educacin secundaria o ms informacin 27% menos hijos que las mujeres sin educacin que viven en el mismo tipo de lugar de residencia y se han casado el mismo tiempo. Factor de tres modelos con interacciones Ahora ponemos el modelo aditivo de algunas "pruebas de tensin" teniendo en cuenta todas las posibles interacciones. Voy a utilizar las variables de factor para la simplicidad y quietly para ahorrar espacio.
. . en silencio y poisson i.dur i.educ # i.res, offset (os) estat gof
La bondad de ajuste chi2 = 59.92104 Prob> chi2 (53) = 0,2391 . . en silencio y poisson i.dur # i.res i.educ, offset (os) estat gof La bondad de ajuste chi2 = 57.13525 Prob> chi2 (49) = 0,1986 . . en silencio y poisson i.dur # i.educ i.res, offset (os) estat gof La bondad de ajuste chi2 = 54.80171 Prob> chi2 (44) = 0,1274 . . en silencio y poisson (i.dur i.res) # i.educ, offset (os) estat gof La bondad de ajuste chi2 = 44.52355 Prob> chi2 (38) = 0,2163 . . en silencio y poisson (i.dur i.educ) # i.res, offset (os) estat gof La bondad de ajuste chi2 = 44.31134 Prob> chi2 (43) = 0,4161 . . en silencio y poisson i.dur # (i.res i.educ), desplazamiento (os) estat gof La bondad de ajuste chi2 = 42.65186 Prob> chi2 (34) = 0,1467 . en silencio y poisson i.dur i.educ i.res / / / > I.dur # # i.educ i.dur i.res i.res # i.educ, offset (os) . estat gof La bondad de ajuste chi2 = 30.85619 Prob> chi2 (28) = 0,3235
Estos clculos se completa el cuadro 4.3 en las notas. Me inform de la desviaciones de la coherencia con las notas, pero podra tambin han informado de las pruebas de razn de verosimilitud comparando cada uno de estos modelos para el modelo aditivo. Asegrese de que sabe cmo utilizar la salida de la prueba, por ejemplo, si tenemos que aadir una duracin por la interaccin de la educacin. Debe quedar claro en la lista de desviaciones que no es necesario aadir cualquiera de estos trminos. Llegamos a la conclusin de que el modelo aditivo hace un buen trabajo hecho. es importante tener en cuenta que la necesidad de interaccin depende exactamente de lo que est siendo modelado. Aqu se utiliza el enlace de registro, de modo que todos los efectos son relativos. En esta escala no se esperan necesario. Si usamos el vnculo de identidad que se modelar el nmero real de hijos nacidos y todos los efectos sera
absoluta. En esa escala que se necesita, al menos, las interacciones con la duracin del matrimonio. Consulte las notas para su discusin. Nota 1: algunos de estos modelos puede fallar en las versiones anteriores de Stata, que por defecto permite hasta 40 parmetros de cada modelo. La solucin es aumentar al mximo el uso del comando set matsize 60 . Stata 9 aumentaron el valor por defecto a 200, lo que es ms de lo necesario para todos estos modelos. Nota 2: Si est utilizando el xi prefijo y ver la salida detallada ver que Stata gotas algunas variables debido a la multicolinealidad. Esto suele ser motivo de alarma. El xi prefijo no es muy inteligente en el manejo de los factores que intervienen en ms de una interaccin y tratar de incluir los principales efectos en dos ocasiones. Cuando esto sucede, las variables se caen las copias y los originales ya estn incluidos en el modelo, como se puede verificar mediante la inspeccin de la lista.
Modelos 4.a de exceso de datos dispersos Conde

Nosotros utilizamos los datos de largo (1990) sobre el nmero de publicaciones producidas por Ph.D. bioqumicos para ilustrar la aplicacin de Poisson, ms dispersasPoisson, binomial negativo modelos Poisson y cero inflado. Las variables en el conjunto de datos se arte: los artculos en los ltimos tres aos de doctorado fem: un cdigo para las mujeres mar: un cdigo de si est casado kid5: nmero de nios menores de seis aos Doctorado: el prestigio de doctorado programa cin: los artculos de mentor en los tres ltimos aos Estos datos han sido analizados por Long y Freese (2001), y estn disponibles en el sitio web de Stata:
. uso claro http://www.stata-press.com/data/lf2/couart2, (Bioqumicos Acadmico / S larga) . resumen de arte ------------------
Variable | Obs media estndar. Prog. Min Max -------------+------------------------------------Arte | 915 1.692896 1.926069 0 19 . di r (Var) 3.7097416
El nmero medio de artculos es de 1,69 y la varianza es 3,71, un poco ms del doble de la media. Los datos son ms dispersos, pero por supuesto que no hemos considerado todava ninguna covariables. Un modelo de Poisson
Vamos a ajustar el modelo utilizado por Long y Freese (2001), un modelo aditivo simple usando los cinco predictores. Podramos usar poisson para obtener las estimaciones y estat gof para obtener la desviacin, pero se utiliza en cambio los glm comando para obtener tanto la desviacin y las estadsticas de Pearson chi-cuadrado de inmediato. Tambin vamos a guardar las estimaciones para su uso posterior.
. glm arte fem mar kid5 phd ambiente, de la familia (poisson) nolog
No. Los modelos lineales generalizados de obs = 915 Optimizacin: df = 909 ML residual Parmetro escala = 1 Desviacin = 1634.370984 (1/df) Desviacin = 1.797988 Pearson = 1662.54655 (1/df) Pearson = 1.828984 Funcin de la varianza: V (u) = u [Poisson] Funcin de enlace: g (u) = ln (u) [Entrar] AIC = 3.621981 Registro de probabilidad = -1651,056316 BIC = -4564,031 -------------------------------------------------- --------------------------| OIM art | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------fem | -. 2245942 .0546138 -4.11 0.000 -. 3316352 -. 1175532 mar | .1552434 .0613747 2.53 0.011 .0349512 .2755356 kid5 | -. 1848827 .0401272 -4.61 0.000 -. 2635305 -. 1062349 phd | .0128226 .0263972 0.49 0.627 -. 038 915 0,0645601 cin | .0255427 .0020061 .0216109 .0294746 12.73 0.000 _cons | .3046168 .1029822 2.96 0.003 .1027755 .5064581 -------------------------------------------------- --------------------------. estimaciones tienda de poisson de
Vemos que el modelo, obviamente, no se ajusta a los datos. El valor del cinco por ciento crtico para una chi-cuadrado con 909 grados de libertad es
. di invchi2tail (909,0.05) 980.25178
y la desviacin y de Pearson chi-cuadrado son a la vez en el 1600. Extra-Poisson Variacin Supongamos ahora que la variacin es proporcional y no igual a la media, y estimar el parmetro de escala divisin de Pearson chi-cuadrado por sus grados de libertad:
. escalar phi = e (deviance_p) / e (df)
. di phi 1.8289841
. di sqrt (phi) 1.3523994
Vemos que la variacin es de un 83% mayor que la media. Esto significa que debemos ajustar los errores estndar de multiplicar por 1,35, la raz cuadrada de 1,83. El glm comando puede hacer esto por nosotros a travs de la scale() opcin, que toma como argumento un valor numrico, en este caso, 1,8289841, o, simplemente, x2 para indicar que el ajuste debe estar basada en Pearson chi-cuadrado:
. glm arte fem mar kid5 phd ambiente, de la familia (poisson) escala (x2) nolog No. Los modelos lineales generalizados de obs = 915 Optimizacin: df = 909 ML residual Parmetro escala = 1 Desviacin = 1634.370984 (1/df) Desviacin = 1.797988 Pearson = 1662.54655 (1/df) Pearson = 1.828984 Funcin de la varianza: V (u) = u [Poisson] Funcin de enlace: g (u) = ln (u) [Entrar] AIC = 3.621981 Registro de probabilidad = -1651,056316 BIC = -4564,031 -------------------------------------------------- --------------------------| OIM art | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------fem | -. 2245942 .0738596 -3.04 0.002 -. 3693564 -. 079832 mar | .1552434 .0830031 1.87 0.061 -. 0074397 .3179265 kid5 | -. 1848827 0.054268 -3.41 0.001 -. 291246 -. 0785194 phd | .0128226 .0356995 0.36 0.719 -. 0571472 .0827924 cin | .0255427 0.002713 9.41 0.000 0,0202253 0,0308602 _cons | .3046168 0.139273 2.19 0.029 0,0316468 0,5775869 -------------------------------------------------- --------------------------(Los errores estndar a escala con la raz cuadrada de Pearson X2basada en la dispersin.) . estimaciones tienda overdisp de
Puedes verificar que estos errores estndar son un 35% ms grande que antes. El uso de este procedimiento que hemos atribuido esencialmente a todos la falta de ajuste a un error puro. Usted puede tratar de poisson con el de la robust opcin para calcular los errores estndar mediante el estimador robusto o "sndwich". Usted obtendr resultados muy similares. En cualquier caso, todas las pruebas han de llevarse a cabo mediante el estadstico de Wald. Las pruebas de razn de verosimilitud no es posible porque no estamos haciendo
suposiciones de distribucin completa acerca de los resultados, confiando en cambio en las hiptesis sobre la media y la varianza. Regresin binomial negativa Ahora ajustar un modelo binomial negativa con los mismos predictores:
. nbreg arte fem mar kid5 phd ambiente, nolog
Nmero de regresin binomial negativa de obs = 915 LR chi2 (5) = 97,96 Dispersin = Prob media> chi2 = 0.0000 Registro de probabilidad = -1560.9583 Pseudo R2 = 0,0304 -------------------------------------------------- --------------------------art | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------fem | -. 2164184 .0726724 -2.98 0.003 -. 3588537 -. 0739832 mar | .1504895 .0821063 1.83 0.067 -. 0104359 .3114148 kid5 | -. 1764152 .0530598 -3.32 0.001 -. 2804105 -. 07242 phd | .0152712 .0360396 0.42 0.672 -. 0553652 .0859075 cin | .0290823 .0034701 8.38 0.000 .0222811 .0358836 _cons | 0.256144 .1385604 1.85 0.065 -. 0154294 .5277174 -------------+------------------------------------ --------------------------/ Lnalpha | -. 8173044 .1199372 -1.052377 -. 5822318 -------------+------------------------------------ --------------------------alfa | .4416205 .0529667 .3491069 .5586502 -------------------------------------------------- --------------------------La razn de verosimilitud de la prueba alfa = 0: chibar2 (01) = 180,20 Prob> = = 0,000 chibar2 . . estimaciones tienda nbreg escalar sigma2 = E (alfa)
2
Stata alpha es la varianza del efecto multiplicador al azar y corresponde a notas. Se estima que 0,44 y es muy significativo (distinto de cero).
en las
Para probar la importancia de este parmetro, se puede pensar de la computacin doble de la diferencia en las verosimilitudes log entre este modelo y el modelo de Poisson, 180.2, y tratarlo como una chi-cuadrado con un df El asinttica normal no se aplican, sin embargo, debido a la hiptesis nula es en un lmite del espacio de parmetros. Hay algunos trabajos que muestran que una mejor aproximacin es tratar a la estadstica como en una mezcla de 50:50 de cero y una chi-cuadrado con un df y Stata implementa este procedimiento, informando de la estadstica como chi2bar . Por otra parte, el tratamiento de la estadstica como una chi-cuadrado da una prueba conservadora. De cualquier manera, tenemos evidencia abrumadora de sobredispersin.
Para las pruebas de hiptesis sobre los coeficientes de regresin que puede utilizar cualquiera de las pruebas de Wald o pruebas de razn de verosimilitud, que son posibles porque hemos hecho completa los supuestos de distribucin. Comparacin de las estimaciones y los errores estndar Las estimaciones de parmetros basados en el modelo binomial negativa no son muy diferentes de las basadas en el modelo de regresin de Poisson. Vamos a comparar los productos seleccionados
. estimaciones de la tabla de Poisson overdisp nbreg, s
-------------------------------------------------- --Variable | poisson overdisp nbreg -------------+------------------------------------ --art | fem | -. -. 22459423 22459423 21641842 -. | .05461376 .07385961 .07267238 mar | .15524338 .15524338 .15048945 | .06137469 .08300309 .08210628 kid5 | -. 1848827 -. 1848827 -. 17641524 | .04012717 .05426796 .05305978 phd | .01282258 .01282258 .01527116 | .02639719 .03569955 .03603961 cin | .02554275 .02554275 .02908234 | .00200608 .00271302 .00347007 _cons | .30461683 .30461683 .25614402 | 0.139273 0.1385604 .10298215 -------------+------------------------------------ --lnalpha | _cons | 81730442 -. | .11993723 -------------------------------------------------- --leyenda: b / se
Ambos conjuntos de estimaciones de los parmetros que conducen a las mismas conclusiones. En cuanto a los errores estndar reportados justo por debajo de los coeficientes, vemos que ambos enfoques para llevar sobre-dispersin de estimaciones muy similares y que el comn de regresin de Poisson subestima los errores estndar Bondad de ajuste Una forma de calcular la desviacin del modelo binomial negativo es para alimentar a la estimacin de la varianza en glm , que pueden encajar estos modelos para un valor fijo del parmetro de escala
. locales v = e (alfa)
. glm arte fem mar kid5 phd ambiente, de la familia (nota: `v ') nolog No. Los modelos lineales generalizados de obs = 915 Optimizacin: df = 909 ML residual
Parmetro escala = 1 Desviacin = 1004.2815 (1/df) Desviacin = 1,10482 Pearson = 944.5494622 (1/df) Pearson = 1.039108
de
Funcin de la varianza: V (u) = u + (0.4416000000000001) u ^ 2 [Neg. Binomio] Funcin de enlace: g (u) = ln (u) [Entrar] AIC = 3.425046 Registro de probabilidad = -1560,958338 BIC = -5.194,12 -------------------------------------------------- --------------------------| OIM art | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------fem | -. 2164184 .0726706 -2.98 0.003 -. 3588501 -. 0739867 mar | .1504895 .0821062 1.83 0.067 -. 0104358 .3114147 kid5 | -. 1764152 .0530587 -3.32 0.001 -. 2804084 -. 0724221 phd | .0152712 .0360382 0.42 0.672 -. 0553624 .0859047 cin | .0290823 .0034657 8.39 0.000 .0222896 .0358751 _cons | 0.256144 .1385256 1.85 0.064 -. 0153613 .5276493 -------------------------------------------------- ---------------------------
Vemos que el modelo binomial negativo se ajusta mucho mejor que el de Poisson, pero todava tiene una desviacin (slo) por encima del valor crtico del cinco por ciento. La funcin de varianza La distribucin de Poisson sobre-dispersos y modelos binomiales negativos tienen diferentes funciones de la varianza. Una forma de comprobar que uno puede ser ms apropiado es el de crear grupos basados en la prediccin lineal, calcular la media y la varianza para cada grupo, y, finalmente, trazar la relacin media-varianza. stos son los grupos basados en la prediccin negativa binomial lineal, creado con egen con el cut() y el subcomando group() la opcin de crear 20 grupos de igual tamao aproximado
. predecir xb (Mu opcin asumida; media prevista de arte) . egen grupo de corte = (xb), grupo (20)
Ahora que el colapso de un conjunto de datos de los medios y las desviaciones estndar ( collapse no hace diferencias, pero siempre podemos cuadrado de la desviacin estndar). Tambin calcular la distribucin de Poisson ms dispersos y negativos funciones de varianza binomial y la trama todo
. . preservar colapso (media) arte (sd) sart = arte, por el (grupo)
. . .
generacin Vart sart = ^ 2 generacin v_p = arte * phi generacin v_nb = arte * (1 + * sigma2 arte)
. dos vas (dispersin Vart arte) (lnea v_p arte, lp (guin)) / / / > (Mspline v_nb arte, bandas (10)) / / / >, XTitle (Media) ytitle (varianza) del ttulo ("media-varianza de Relacin") / / / > Subttulo ("Artculos publicados por bioqumicos Ph.D.") / / / > Leyenda (para (2 "Poisson" 3 "Neg.Bin.") Anillo (0) puntos de venta (5) cols (1)) . c4afig1.png grfico de las exportaciones, reemplazar (C4afig1.png archivo escrito en formato PNG) . restaurar la anchura (500)
La funcin de la variacin de Poisson hace un trabajo bastante bueno para la mayor parte de los datos, pero no logra captar las variaciones de alta de los acadmicos ms productivos. La funcin de la variacin negativa del binomio no es muy diferente, pero, siendo una de segundo grado, puede llegar ms rpido y hace un mejor trabajo en la parte alta. Llegamos a la conclusin de que el modelo binomial negativo ofrece una mejor descripcin de los datos que el modelo ms disperso Poisson. Cero inflado Poisson Un fenmeno frecuente con los datos de recuento es un exceso de ceros en comparacin con lo que se espera en un modelo de Poisson. Esto es realmente un problema con nuestros datos:
. zobs gen = arte == 0
. estimaciones restaurar poisson (Resultados de Poisson se activa ahora) . predecir MUP (Mu opcin asumida; media prevista de arte) . . generacin zfitp = exp (-MUP) suma zobs zfitp
Variable | Obs media estndar. Prog. Min Max -------------+------------------------------------ ------------------zobs | 915 .3005464 .4587464 0 1 zfitp | 915 .2092071 .0794247 .0000659 .4113403
Vemos que el 30,0% de los cientficos en la muestra no public artculos en los ltimos tres aos de su doctorado, pero el modelo de Poisson predice que slo el 20,9% no tendra publicaciones. Es evidente que el modelo subestima la probabilidad de cero que cuenta. Una forma de modelo de este tipo de situaciones es asumir que los datos provienen de una mezcla de dos poblaciones, una en la que cuenta es siempre cero, y otro en la cuenta tiene una distribucin de Poisson con media. En este modelo cuenta con cero puede venir de la poblacin, mientras que los valores positivos provienen slo de la segunda. En el contexto de las publicaciones de doctorado bioqumicos podemos imaginar que algunos tenan en mente puestos de trabajo en las publicaciones no sera importante, mientras que otros tenan como objetivo para los trabajos acadmicos, donde se esperaba un registro de las publicaciones. Los miembros del primer grupo est dispuesto a publicar artculos de cero, mientras que los miembros del segundo grupo est dispuesto a publicar 0,1,2 ,..., un recuento que se puede suponer que tiene una distribucin de Poisson. La distribucin de los resultados puede ser modelado en funcin de dos parmetros, la probabilidad de que 'siempre cero, y , la media del nmero de publicaciones que no estn en el' siempre cero 'del grupo. Una forma natural de introducir covariables es el modelo logit de la probabilidad de siempre cero y el registro de la significa para aquellos que no en la clase siempre cero. Stata implementa esta combinacin en el zip comando cuando el recuento se supone Poisson. Un desarrollo paralelo usando un modelo binomial negativa para la cuenta en el segundo grupo lleva a la zinb comando. En ambos casos el modelo de la probabilidad de cero siempre se especifica en el inflate() opcin. He aqu un modelo cero inflado de Poisson con todas las covariables en ambas ecuaciones:
. zip arte fem mar kid5 phd ambiente, inflar (fem mar kid5 phd cin) nolog Cero inflado Poisson Nmero de regresin de obs = 915
Distinto obs = 640
de
cero
Cero obs = 275 La inflacin modelo logit = LR chi2 (5) = 78,56 Registro de probabilidad = -1604.773 Prob> chi2 = 0.0000 -------------------------------------------------- --------------------------art | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------art | fem | -. 2091446 .0634047 -3.30 0.001 -. 3334155 -. 0848737 mar | 0.103751 0.071111 1.46 0.145 -. 035624 .243126 kid5 | -. 1433196 .0474293 -3.02 0.003 -. 2362793 -. 0503599 phd | -. 0061662 .0310086 -0.20 0.842 -. 066942 .0546096 cin | .0180977 .0022948 7.89 0.000 .0135999 .0225955 _cons | 0,640839 0,1213072 0,4030814 0,8785967 5,28 0.000 -------------+------------------------------------ --------------------------inflar | fem | .1097465 .2800813 0.39 0.695 -. 4392028 .6586958 mar | -. 3540107 .3176103 -1.11 0.265 -. 9765155 .2684941 kid5 | 0.2171001 0.196481 1.10 0.269 -. 1679956 .6021958 phd | .0012702 .1452639 0.01 0.993 -. 2834418 .2859821 cin | -. 134111 .0452461 -2.96 0.003 -. 2227918 -. 0454302 _cons | -. 5770618 .5093853 -1.13 0.257 -1.575439 0.421315 -------------------------------------------------- --------------------------. estimaciones zip tienda
En cuanto a la ecuacin de inflar vemos que el nico predictor significativo de estar en el 'siempre cero' de clase es el nmero de artculos publicados por el tutor, con cada artculo por el mentor asoci con un 12,6% menor de no publicar. En cuanto a la ecuacin de la media o artculos entre los que no en la clase siempre es cero, nos encontramos con importantes desventajas para las mujeres y los cientficos con los nios menores de cinco aos, y un efecto positivo significativo en el nmero de publicaciones realizadas por el tutor, con cada artculo asociado con un aumento del 1,8% en el nmero previsto de publicaciones. Para verificar que el modelo resuelve el problema de exceso de ceros podemos predecir y , y calcular la probabilidad combinada de ninguna publicacin. Stata predict calcula la probabilidad de cero siempre con la opcin de pr y el predictor lineal de Poisson utilizando la opcin de xb . Una tercera opcin no vamos a utilizar, n , predice el nmero como se esperaba (1-pr)*exp(xb) . As es como predecir y
. . . predecir pz, pr predecir xbz, xb generacin muz = exp (xbz)
. .
generacin zfitz = pz + (1-pz) * exp (-muz) suma zfitz
Variable | Obs media estndar. Prog. Min Max -------------+------------------------------------ ------------------zfitz | 915 .2985684 .1280144 .0007119 .5815108
As que el modelo resuelve el problema de exceso de ceros, la prediccin de que el 29,9% de los bioqumicos no se publicarn artculos, mucho ms cerca del valor observado del 30,0%. Comparacin con el modelo de AIC Como es el caso, por estos datos, la distribucin binomial negativa resuelve el problema tambin. Aqu est la probablity de cero artculos en la binomial negativa
. estimaciones restaurar nbreg (Nbreg resultados estn activos ahora) . predecir MUNB (Opcin n asumidos; predecir el nmero de eventos) . . . escalar tau = 1/sigma2 generacin zfitnb = (tau / (MUNB + tau)) ^ tau suma zfitnb
Variable | Obs media estndar. Prog. Min Max -------------+------------------------------------ ------------------zfitnb | 915 .3035957 .0781645 .4801816 0.015145
El modelo predice que el 30,4% de los bioqumicos se publicar ningn artculo en los tres ltimos aos de su doctorado, muy cerca del valor observado del 30,0%. Para elegir entre los modelos negativos y cero inflado binomial tenemos que recurrir a otros criterios. Una forma muy sencilla de comparar modelos con diferente nmero de parmetros para calcular el Criterio Akaike de Informacin (AIC), que definimos como AIC =-2logL + 2p donde p es el nmero de parmetros en el modelo. El primer trmino es esencialmente la desviacin y la pena de un segundo para el nmero de parmetros. Para nuestros datos
. di "binomial negativa", 2 * e (ll) 2 * e (rango) Binomial negativa 3135.9167 . estimaciones restaurar zip (Zip resultados estn activos ahora) . di "Zip", 2 * e (ll) 2 * e (rango) Zip 3233.5457
Para este conjunto de datos del modelo binomial negativo es un claro ganador en trminos de la parsimonia y la bondad de ajuste. Otros criterios de diagnstico que se poda mirar a la distribucin marginal de cargos previsto y observado y las funciones de la varianza. Cero-truncada y modelos de vallas Otros modelos que no hemos cubierto es el de Poisson cero truncado y binomial negativa, diseada para datos que no incluyen ceros. Un ejemplo comn es el tiempo de estancia en un hospital, que es al menos un da. Un enfoque sensato es instalar un modelo de Poisson o binomial negativa que excluye a cero y cambia la escala de las probabilidades de otros para sumar a uno. Hay que tener cuidado, porque la interpretacin de estos modelos no es el resultado esperado, pero la media de una distribucin subyacente, que incluye los ceros. Estos modelos se implementan en el Stata comandos ztp y ztnb . Un enfoque alternativo en exceso (o falta) de ceros es utilizar un proceso de dos etapas, con un modelo logit para distinguir entre el conteo de cero y positivo y luego un modelo de cero truncada de Poisson o binomial negativa para los recuentos positivos. En nuestro ejemplo, podra usar un modelo logit para diferenciar aquellos que publican en los que no, y luego una truncada de Poisson o un modelo binomial negativa para el nmero de artculos de los que se publicarn al menos una. Estos modelos son a menudo llamados modelos de obstculo. Que puede ser instalado en Stata con el logit y poisson o nbreg comandos, simplemente agregando el registro de las verosimilitudes de cada etapa. Comparando obstculo y modelos cero inflado me parece la distincin entre cero y uno o ms para ser ms claro con los modelos de vallas, pero la interpretacin de la media es ms clara con cero inflado modelos.
6 modelos de respuesta multinomial en Stata

Esta seccin trata de los modelos de regresin para datos discretos con ms de dos categoras de respuesta, en el supuesto de una distribucin multinomial es la adecuada. Llenamos se centran en tres comandos de Stata, mlogit de logits multinomiales, ologit de logits orden, y oprobit para los modelos probit ordenado, con una breve mencin de asclogit de alternativas especficas de los modelos logit condicional. Tambin tendremos la oportunidad de utilizar un viejo amigo, logit , para ajustar modelos de logit secuencial. (En lnea con el plan de estudios vigente que est saltando modelos log-lineales para tablas de contingencia y por lo tanto su relacin con los modelos logit multinomial.)
6.1 La naturaleza de los datos multinomiales
Comenzamos con la lectura de los datos sobre la eleccin de anticonceptivos por edad, que se encuentra en la tabla 6.1 de los apuntes de clase. Vamos a leer el 7 por 3 tabla como 21 observaciones y si el recuento de los pesos de frecuencia:
. . claro entrada AGEG casos Cuse 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. AGEG casos Cuse 1 1 3 1 2 61 1 3 232 2 1 80 2 2 137 2 3 400 3 1 216 3 2 131 3 3 301 4 1 268 4 2 76 4 3 203 5 1 197 5 2 50 5 3 188 6 1 150 6 2 24 6 3 164 7 1 91 7 2 10 7 3 183 final
. definir una etiqueta Cuse "esterilizacin" 2 "otro mtodo" 3 "no existe un mtodo" . valores de la etiqueta Cuse Cuse
. definir una etiqueta AGEG "15-19" 2 "20-24" 3 "25-29" 4 "30-34" 5 "35-39" / / / > 6 "40 a 44" 7 "45-49" . valores de la etiqueta AGEG AGEG
Con slo un predictor este ejemplo ofrece oportunidades limitadas para la interpretacin de los coeficientes, pero nos va a permitir centrarse en los resultados y las comparaciones que subyace en cada tipo de modelo.
6.2 El modelo logit multinomial

Empezamos con los modelos logit multinomial el tratamiento de la edad como un factor de prediccin y el uso de anticonceptivos como el resultado. La edad como factor
Obviamente, el modelo que trata la edad como factor de 7 niveles est saturado de estos datos. Podemos obtener fcilmente el logaritmo de la verosimilitud, y predijo que si los valores necesarios, utilizando las variables de factor
. . . silencio mlogit Cuse i.ageg [fw = casos] tienda estimaciones sb escalar ll_sat = e (ll)
Efectos lineales y cuadrticas A raz de las notas que se considere un modelo con efectos lineales y cuadrticas de edad. Con este fin se definen los puntos medios de la edad y su cuadrado. Por coherencia con las notas que no era el centro antes de calcular la plaza, aunque general, recomiendo que. Usamos la baseoutcome() la opcin de definir "ningn mtodo", como la lnea de base o de referencia los resultados:
. . . gen de edad = 12,5 + 5 * AGEG generacin agesq = edad ^ 2 mlogit edad Cuse agesq [fw = casos], baseoutcome (3) 0: 1: 2: 3: 4: log = probabilidad log = probabilidad log = probabilidad probabilidad log = log = probabilidad -3133,4504 -2892,9822 -2883,158 -2883,1364 -2883,1364 LR 500,63 Prob> chi2 = 0.0000 Registro de probabilidad = -2883.1364 Pseudo R2 = 0,0799 -------------------------------------------------- --------------------------Cuse | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------sterilizat ~ n | edad | .7097186 .0455074 .6205258 .7989114 15.60 0.000 agesq | -. 0097327 .0006588 0.000 -14,77 -. 011024 -. 0084415 _cons | 0.7574065 -12.61816 -14.10265 -11.13367 0.000 -16,66 -------------+------------------------------------ --------------------------other_method | edad | .2640719 .0470719 5.61 0.000 .1718127 .3563311 agesq | -. 004758 .0007596 -6.26 0.000 -. 0062469 -. 0032692 _cons | 0.6938498 -4.549798 -5.909718 -3.189877 0.000 -6,56 -------------+------------------------------------ --------------------------no_method | (resultado de base) -------------------------------------------------- --------------------------chi2 (4) =
. di -0,5 * _b [esterilizacin: edad] / _b [esterilizacin: agesq] 36,46038 . di -0,5 * _b [other_method: edad] / _b [other_method: agesq] 27.750071
Comparar las estimaciones de parmetros con la Tabla 6.2 en las notas. Como es habitual con cuadrticas es ms fcil trazar los resultados, lo que hacemos a continuacin. Las probabilidades de inicio de sesin de la utilizacin de la esterilizacin en vez de ningn mtodo aumenta rpidamente con la edad hasta alcanzar un mximo de 36.5. Las probabilidades de inicio de sesin de la utilizacin de un mtodo que no sea la esterilizacin en lugar del mtodo sin aumentar ligeramente hasta alcanzar un mximo a la edad de 28,5 para luego reducirse. (Los puntos de inflexin se calcularon mediante el establecimiento de los derivados a cero.) El modelo de chi-cuadrado, que como siempre se comparan los modelos actuales y nulo, indica que la hiptesis de no diferencias de edad en eleccin de anticonceptivos es rechazado con firmeza con una chi-cuadrado de 500,6, el 4 de DF para ver dnde estn los grados de libertad vienen, tenga en cuenta que el modelo actual tiene seis parmetros (dos cuadrticas con tres parmetros de cada uno) y el modelo nulo, por supuesto, tiene slo dos (las dos constantes). No recibimos una desviacin, pero Stata se imprime el diario de probabilidad. Para los datos individuales de la desviacin es-2logL, y para los datos agrupados en la tabla original de la desviacin es el doble de la diferencia en las verosimilitudes log entre los cidos grasos saturados y este modelo
. lrtest. sb
La razn de verosimilitud prueba LR chi2 (8) = 20.47 (Asuncin:. Anidado en sat) Prob> chi2 = 0.0087
La desviacin de 20,47, el 8 de df es significativo al nivel del 1%, por lo que tenemos pruebas de que este modelo no se ajusta a los datos. Exploramos la falta de ajuste mediante un grfico. Trazado de logits observados y amueblada Vamos a hacer la figura 6.1, comparando observado y equipado logits. Comenzamos con la predict despus de la estimacin de comandos, que pueden evaluar logits, con la xb opcin, o probabilidades, con la p r opcin, el valor predeterminado. Si usted es predecir las probabilidades que suelen especificar una variable de salida para cada resultado posible. Si especifica slo una variable de Stata predice que el primer resultado, a menos que utilice el outcome() para especificar que el resultado que usted desea predecir. Si usted es la prediccin de logits que debe hacer uno a la vez, por lo que suelen especificar el resultado que desea. Aqu calculamos el logit para la esterilizacin vs ningn mtodo y otro mtodo vs ningn mtodo:
. predecir fit1, el resultado (1) xb
predecir fit2, el resultado (2) xb
Para los valores observados se podra restaurar el modelo saturado y seguir el mismo procedimiento, pero tambin podemos hacer el clculo "a mano" aprovechando el hecho de que los datos estn ordenados por el uso de anticonceptivos dentro de cada grupo de edad:
. generacin OBS1 = log (casos [_n] / de los casos [_n 2]) si Cuse == 1 (14 valores perdidos generados) . generacin obs2 = log (casos [_n] / de los casos [_n 1]) si Cuse == 2 (14 valores perdidos generados)
Finalmente trazamos observado frente a logits equipada, el uso de marcadores para los valores observados y las suaves curvas de las cuadrticas.
. grfico de dos vas (dispersin OBS1 edad, mc (verde)) / / / > (Dispersin obs2 edad, mc (rojo) m (t)) / / / > (Mspline fit1 edad, las bandas (7) lc (verde) pl (medthick)) / / / > (Mspline fit2 edad, las bandas (7) lc (rojo) pl (medthick)) / / / >, Ytitle ("log-odds (no existe un mtodo de base)") / / / Title> ("Figura 6.1: el uso de anticonceptivos por edad") / / / > Leyenda (para (1 "esterilizacin" 2 "Otro mtodo") anillo (0) puntos de venta (5)) . fig61.png grfico de las exportaciones, reemplazar (Fig61.png archivo escrito en formato PNG) la anchura (500)
El grfico sugiere que la mayor parte de la falta de ajuste viene de la sobreestimacin de las probabilidades relativas de la esterilizacin en comparacin con el uso de ningn
mtodo en las edades de 15-19 aos. Adicin de un maniqu para este grupo de edad se confirma el resultado:
. . . generacin age1519 = AGEG == 1 silencio mlogit edad Cuse agesq age1519 [fw = casos] lrtest. sb
La razn de verosimilitud prueba LR chi2 (6) = 12.10 (Asuncin:. Anidado en sat) Prob> chi2 = 0.0599
La desviacin es ahora slo 12,10 el 6 grados de libertad, por lo que pasar la prueba de bondad de ajuste. (En realidad no necesita el chupete en la ecuacin de otros mtodos, por lo que la ganancia proviene de un solo df) Una advertencia importante con los modelos logit multinomial es que son las probabilidades de modelado o probabilidades relativas, y siempre es posible que las probabilidades de una categora a aumentar mientras que la probabilidad de que la disminucin de categora, simplemente porque las probabilidades de otra categora aumentar ms. Para examinar esta posibilidad siempre se puede calcular probabilidades predichas.
6.3 El modelo logit condicional

Stata tambin es capaz de ajustar el modelo de McFadden ms general logit condicional discutido en las notas, un modelo al azar de utilidad en la utilidad esperada de una eleccin puede depender de las caractersticas de las alternativas, las caractersticas de las personas que toman las decisiones, y las variables que se especfico para una combinacin de persona y alternativas, como la distancia a un cine. El caso especial de que todos los predictores son las caractersticas individuales es el modelo logit multinomial de la seccin anterior. Stata 10 introdujo la asclogit comando, corto para un lternative logit s ESPECFICAS c onditional, lo que simplifica en gran medida adaptacin de este modelo. El modelo tambin puede estar en forma, aunque con algo ms de trabajo, el uso de Stata clogit comando, que est diseado para casos y controles o modelos de efectos fijos logit, y era la nica opcin en las versiones anteriores. Nosotros proveemos una breve ilustracin utilizando los datos de la eleccin de anticonceptivos. Aqu no tenemos ninguna variable alternativa especfico, pero usted ver cmo se podra aadir. El primer paso es ampliar el conjunto de datos por lo que tenemos un registro para cada combinacin de factores individuales y alternativas. En nuestro ejemplo, el 3 mujeres de 15-19 aos que se esterilizan a ser tres registros, uno para la esterilizacin, uno de los otros mtodos y uno por ningn mtodo, que una variable binaria que indica que el primero de ellos fue elegido. Esta estructura es lo que hace Posible adicin de alternativas especficas de predictores. Empezamos por el ahorro del conjunto de datos, la creacin de un identificador, amplindola, la codificacin de las alternativas disponibles y el elegido
. preservar
gen id = _n
. ampliar 3 (42 observaciones creado) . . Identificacin del tipo por id: gen elegido = Cuse == _n
. por id: reemplazar Cuse = _n (42 cambios reales realizados)
Para ajustar el modelo se especifica la variable ficticia que indica la eleccin como resultado, seguido por los predictores que varan segn la alternativa, de los cuales no tenemos ninguno. Los predictores que slo varan segn la persona, en nuestro caso la edad y la edad al cuadrado, se especifican mediante la casevars() opcin. La estructura de los datos se define mediante dos opciones, case() especifica una variable de identificacin de cada individuo y alt ernatives() especifica una variable de identificacin de las alternativas. La alternativa de referencia o de base se especifica mediante la base alternative() opcin. Nuestro ltimo paso es recuperar los datos originales.
. / > Alternativas (Cuse) basealternative (3) Iteracin Iteracin Iteracin Iteracin Iteracin 0: 1: 2: 3: 4: log = probabilidad log = probabilidad log = probabilidad probabilidad log = log = probabilidad -2962,4334 -2886,4722 -2883,148 -2883,1364 -2883,1364 asclogit elegido [fw = casos], caso (id) casevars (edad agesq) / /
Alternativa especfica Nmero logit condicional de obs = 9495 Variable de caso: Nmero de Identificacin de los casos = 3165 Alternativa variable: Alts Cuse por caja: min = 3 media 3,0 max = 3 Wald chi2 351,79 Registro de probabilidad = -2883.1364 Prob> chi2 = 0.0000 (4) = =
-------------------------------------------------- --------------------------elegidos | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------sterilizat ~ n | edad | .7097186 .0455074 .6205258 .7989114 15.60 0.000 agesq | -. 0097327 .0006588 0.000 -14,77 -. 011024 -. 0084415 _cons | 0.7574065 -12.61816 -14.10265 -11.13367 0.000 -16,66 -------------+------------------------------------ --------------------------other_method | edad | .2640719 .0470719 5.61 0.000 .1718127 .3563311
agesq | -. 004758 .0007596 -6.26 0.000 -. 0062469 -. 0032692 _cons | 0.6938498 -4.549798 -5.909718 -3.189877 0.000 -6,56 -------------+------------------------------------ --------------------------no_method | (base alternativa) -------------------------------------------------- --------------------------. restaurar
Como puede ver, los resultados son idnticos a los obtenidos con el mlogit comando.
6.4 El modelo logit secuencial

Ahora el ajuste del modelo logit jerrquico descrito en las notas. Debido a que el plazo jerrquico ha llegado a estar estrechamente relacionada con los modelos multinivel, que ahora prefieren llamar a este modelo, el modelo logit secuencial, lo que refleja el hecho de que el modelo procede como si las decisiones se tomaban en una secuencia de etapas. Este modelo no debe ser confundido con el modelo logit anidado, un trmino usado en econometra para referirse a un modelo de utilidad aleatoria, donde los errores dentro de los subgrupos de opciones estn correlacionados y los predictores son alternativas variables especficas. El modelo logit anidado se lleva a cabo en Stata nlogit comando. Nuestro enfoque es mucho ms simple, pero no tiene una interpretacin estricta maximizacin de la utilidad. Suponemos que las mujeres en primer lugar decidir si utilizar un mtodo o no, y el modelo de su eleccin mediante un modelo logit convencional. A continuacin, se centran exclusivamente en las mujeres que usan un mtodo y modelo de su eleccin de la esterilizacin o cualquier otro mtodo de otro modelo logit convencional. (Te dije que esto sera ms sencillo:) La decisin de usar Seguimos usando el mismo conjunto de datos, as que todo lo que necesitas para empezar es una variable para identificar a los usuarios de anticonceptivos. A continuacin, el modelo logit de la probabilidad de usar mtodos anticonceptivos como una funcin cuadrtica de edad:
. . generacin de uso = Cuse <3 edad logit uso agesq [fw = casos] 0: 1: 2: 3: log = probabilidad log = probabilidad log = probabilidad probabilidad log = -2188,859 -2082,7995 -2082,4993 -2082,4993 LR 212.72 Prob> chi2 = 0.0000 Registro de probabilidad = -2082.4993 Pseudo R2 = 0,0486 chi2 (2) =
-------------------------------------------------- --------------------------uso | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------edad | .4397399 .0330984 .3748683 .5046115 13.29 0.000 agesq | -. 0063448 .0004992 -12,71 0.000 -. 0073231 -. 0053664 _cons | 0.5215582 -7.180362 -8.202598 -6.158127 0.000 -13,77 -------------------------------------------------- --------------------------. di -0,5 * _b [edad] / _b [agesq] 34.653835 . . escalar ll_u = e (ll) predecir fit_u, xb
Hemos guardado el log de la verosimilitud y predecir la probabilidad de usar un mtodo anticonceptivo para cada grupo de edad para su uso posterior. Las estimaciones indican que las probabilidades de uso de anticonceptivos (u otro mtodo de esterilizacin en comparacin con ningn mtodo) aumentan con la edad hasta alcanzar un mximo en 34,7 para luego reducirse. Esto es ms fcil de apreciar en un grfico, lo que haremos a continuacin. La eleccin del mtodo entre los usuarios Para la segunda etapa nos fijamos slo en los usuarios actuales, y el modelo logit de la probabilidad condicionada de ser esterilizada, dado que la mujer usa anticonceptivos como una funcin cuadrtica de edad:
. . generacin ster = Cuse == 1 edad logit ster agesq [fw = casos], si el uso 0: 1: 2: 3: 4: log = probabilidad -944.59148 log = probabilidad -800.66624 registro de probabilidad = -798.84996 probabilidad log = -798.84632 log = probabilidad -798.84632 LR 291.49 Prob> chi2 = 0.0000 Registro de probabilidad = -798.84632 Pseudo R2 = 0,1543 -------------------------------------------------- --------------------------ster | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------edad | .4942454 .0667965 7.40 0.000 .3633266 .6251642 agesq | -. 0056737 .0010108 -5.61 0.000 -. 0076548 -. 0036926 _cons | -8.868692 1.065769 -8.32 0.000 -10.95756 -6.779822 chi2 (2) =
----------------------------------------------------------. di -0,5 * _b [edad] / _b [agesq] 43.555674 . . ll_s escalar = e (ll) predecir fit_s, xb
------------------
Una vez ms hemos guardado el log de la verosimilitud y predecir las probabilidades condicionales para cada grupo de edad para su uso posterior. Las estimaciones indican que las probabilidades de comenzar a esterilizar entre los usuarios (de esterilizacin en comparacin con otro mtodo) aumentan con la edad, pero a una tasa decreciente, alcanzando un mximo en 43,6. Una vez ms, una imagen vale ms que las palabras tousand y trazar las curvas ms adelante. Comparacin de probabilidades de modelo y desviaciones Agregando el registro de las verosimilitudes de las dos etapas que obtener el total de log-verosimilitud
. di ll_s + ll_u -2881.3456
que es un poco mejor (mayor) que para el modelo logit multinomial. Alternativamente, se puede calcular una desviacin con el almacenado de log-verosimilitud para el modelo de tratamiento de los datos de siete multinomios:
. escalar dev = 2 * (ll_sat - ll_u - ll_s)
. di dev, chi2tail (8, dev) 16.892981 .03124295
Vemos que la desviacin es un poco mejor (menor) que para el modelo logit multinomial, aunque tambin revela significativa falta de ajuste. Vamos a construir un plan para estudiar en la falta de ajuste viene. Trazado de logits observados y amueblada Ahora producimos una cifra similar a 6.1, pero para el modelo logit secuencial. Fcilmente podramos producir "observada" logits ajuste de un modelo tratamiento de la edad como factor de siete niveles, pero podemos fcilmente calcular estas "a mano"
. generacin obs_u = log ((casos [_n] + casos [_n +1]) / de los casos [_n 2]) si Cuse == 1 (14 valores perdidos generados) . obs_s gen = log (casos [_n] / de los casos [_n 1]) si Cuse == 1 (14 valores perdidos generados)
A continuacin, puede trazar estas en contra de la logits equipado guardado anteriormente:
. grfico de dos vas (dispersin edad obs_u, mc (verde)) / / / > (Dispersin edad obs_s, mc (rojo) m (t)) / / / > (Mspline edad fit_u, bandas (7) lc (verde) pl (medthick)) / / / > (Mspline edad fit_s, bandas (7) lc (rojo) pl (medthick)) / / / >, El ttulo ("Figura 6.2: el uso de anticonceptivos por edad") / / / > Subttulo ("logit secuencial") ytitle (logit) / / / > Leyenda (para (1 "Uso" 2 "Esterilizacin | Uso") del anillo (0) puntos de venta (5)) . fig62.png grfico de las exportaciones, reemplazar (Fig62.png archivo escrito en formato PNG) la anchura (500)
Vemos que las dos cuadrticas en forma razonablemente bien, excepto por sobreestimar la probabilidad de esterilizacin entre las usuarias de anticonceptivos en edades de 15 a 19, un problema similar al que se seala en el modelo logit multinomial. Es fcil poner remedio a esta deficiencia mediante la adicin de una variable ficticia para los adolescentes en el modelo de la segunda etapa. Ejercicio. En la siguiente seccin vamos a estudiar modelos logit ordenados. Usted puede tratar de ajustar un modelo logit ordenado para el tratamiento de este conjunto de datos de las tres opciones segn lo ordenado en trminos de eficacia anticonceptiva.
6.5 Modelos logit ordenado

Ahora dirigimos nuestra atencin a los modelos de orden los resultados categricos. Es evidente que los modelos logit multionmial y secuencial se puede aplicar tambin, pero no hacen uso explcito de que las categoras estn ordenadas. Los modelos considerados aqu se han diseado especficamente para los datos solicitados. Condiciones de la vivienda en Copenhague
Vamos a utilizar los datos de 1681 los residentes de los doce mbitos en Copenhague, clasificadas en funcin del tipo de vivienda que tienen (los bloques de pisos, apartamentos, casas de atrio y adosados), su sentimiento de influencia en la gestin de apartamentos (bajo, medio, alto) , su grado de contacto con los vecinos (bajo, alto), y su satisfaccin con las condiciones de vivienda (bajo, medio, alto). Los datos estn disponibles en la pgina de bases de datos y se pueden leer directamente desde all:
. uso http://data.princeton.edu/wws509/datasets/copen, claro (Condiciones de la vivienda en Copenhague)
Vamos a tratar de satisfaccin como el resultado y el tipo de vivienda, el sentimiento de la influencia y el contacto con los vecinos como predictores categricos. Ser de gran utilidad para fines de comparacin para ajustar el modelo saturado logit multinomial, donde cada una de las 24 combinaciones de tipo de vivienda, la influencia y el contacto, tiene su propia distribucin. El cdigo de grupo puede ser generado a partir del nmero de observacin, y la manera ms fcil de ajustar el modelo es para tratar el cdigo como una variable de factor. Si est ejecutando una versin anterior de Stata probar el xi: prefijo.
. . . gen grupo = int ((_n-1) / 3) 1 satisfaccin en silencio mlogit i.group [fw = n] tienda estimaciones sb
. di e (ll) -1715.7108
La probabilidad de registro es -1715.7. Las probabilidades de modelo proporcional La siguiente tarea consiste en ajustar el aditivo modelo logit ordenado de la Tabla 6.5 en las notas. Podramos utilizar las variables de factor de simplicidad, pero va a construir variables ficticias en lugar
. . . . . . . . generacin, aparte de viviendas = 2 == generacin atrio = vivienda == 3 generacin terraza cubierta = == 4 locales de vivienda, aparte del atrio terraza generacin influenceMed = influencia == 2 generacin influenceHi = influencia == 3 locales en la influenceMed influenceHi generacin contactHi = contacto == 2
Una vez hecho esto, aqu est el modelo aditivo

. . . locales de vivienda, aparte del atrio terraza locales en la influenceMed influenceHi ologit satisfaccin 'vivienda' 'influencia' contactHi [fw = n] 0: 1: 2: 3: log = probabilidad log = probabilidad log = probabilidad probabilidad log = -1824,4388 -1739,8163 -1739,5747 -1739,5746
Nmero de orden de regresin logstica de obs = 1681 LR chi2 (6) = 169,73 Prob> chi2 = 0.0000 Registro de probabilidad = -1739.5746 Pseudo R2 = 0,0465 -------------------------------------------------- --------------------------satisfaccin | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------aparte | -. 5723499 .119238 -4.80 0.000 -. 8060521 -. 3386477 atrio | -. 3661863 .1551733 -2.36 0.018 -. 6703205 -. 0620522 terraza | -1.091015 0.151486 -1.387922 -7.20 0.000 -. 7941074 influenceMed | .5663937 .1046528 5.41 0.000 0.361278 0.7715093 influenceHi | 1.288819 .1271561 10.14 0.000 1.53804 1.039597 contactHi | 0,360284 0,0955358 0,1730372 0,5475307 3,77 0.000 -------------+------------------------------------ --------------------------/ Cut1 | -. 496135 -. 7408311 0.1248472 -. 2514389 / Cut2 | 0,6907081 0,1254719 0,4447876 0,9366286 -------------------------------------------------- --------------------------. . estimaciones aditivo tienda lrtest. sb, la fuerza
La razn de verosimilitud prueba LR chi2 (40) = 47,73 (Asuncin: aditivo anidado en sat) Prob> chi2 = 0.1874
La verosimilitud es -1739,6, por lo que la desviacin de este modelo en comparacin con el modelo multinomial saturada es 47,7 a 40 grados de libertad Esta es una prueba perfectamente vlida porque los modelos estn anidados, pero Stata es cauteloso y si escribe lrtest . sat lrtest . sat que se quejan de que la prueba consiste en diferentes estimadores: mlogit ologit vs. Afortunadamente, podemos insistir con la force opcin, que es lo que he hecho. Debe usarse con precaucin! La conclusin es que la desviacin no es mucho ms de lo que cabra esperar cuando el ahorro de 40 parmetros, por lo que no tenemos ninguna prueba contra el modelo aditivo. Para ser completa, sin embargo, vamos a explorar las interacciones individuales en caso de que la desviacin se concentra en una pocas df Los modelos con interacciones
El siguiente paso es explorar la interaccin de dos factores. Podemos utilizar las variables de factor para simplificar la bsqueda:
. silencio i.housing satisfaccin ologit # i.influence i.contact [fw = n] . lrtest. sb, la fuerza
La razn de verosimilitud prueba LR chi2 (34) = 25,22 (Asuncin:. Anidado en sat) Prob> chi2 = 0.8623 . silencio ologit satisfaccin i.housing # i.contact i.influence [fw = n] . lrtest. sb, la fuerza
La razn de verosimilitud prueba LR chi2 (37) = 39,06 (Asuncin:. Anidado en sat) Prob> chi2 = 0.3773 . en voz baja satisfaccin ologit i.housing i.influence # i.contact [fw = n] . lrtest. sb, la fuerza
La razn de verosimilitud prueba LR chi2 (38) = 47,52 (Asuncin:. Anidado en sat) Prob> chi2 = 0.1385
La interaccin entre la vivienda y su influencia se reduce la desviacin a la mitad, a expensas de los seis grados de libertad, por lo que vale la pena un segundo vistazo. La interaccin entre la vivienda y el contacto hace un hueco mucho ms pequea, y la interaccin entre la influencia y el contacto aade prcticamente nada. (Que podra haber comparado cada uno de estos modelos para el modelo aditivo, poniendo as a prueba la interaccin directa. Obtendramos chi2 de 22.51 a 6 grados de libertad, el 3 de 8,67 y 0,21 grados de libertad el 2 de df) Es evidente que la interaccin a aadir es la primera de ellas, lo que permite la asociacin entre la satisfaccin con la vivienda y una sensacin de influencia en la red de gestin de contacto con los vecinos a depender del tipo de vivienda. Para examinar las estimaciones de parmetros podemos construir las variables dummy y volver a montar el modelo:
. . . . . . . generacin apartXinfMed = distancia * influenceMed generacin apartXinfHi = distancia * influenceHi generacin atriuXinfMed = atrio * influenceMed generacin atriuXinfHi = atrio * influenceHi generacin terrXinfMed = terraza * influenceMed generacin terrXinfHi = terraza * influenceHi locales housingXinf apartXinfMed-terrXinfHi 'vivienda' 'influencia' `housingXinf
. ologit satisfaccin 'contactHi [fw = n]
0: 1: 2: 3:
log = probabilidad log = probabilidad log = probabilidad probabilidad log =
-1824,4388 -1728,6182 -1728,3201 -1.728,32
Nmero de orden de regresin logstica de obs = 1681 LR chi2 (12) = 192,24 Prob> chi2 = 0.0000 Registro de probabilidad = -1728,32 Pseudo R2 = 0,0527 -------------------------------------------------- --------------------------satisfaccin | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------aparte | -1.188494 0.1972418 -6.03 0.000 -1.575081 -. 8019072 atrio | -. 6067061 .2445664 -2.48 0.013 -1.086047 -. 1273647 terraza | 0.2409971 -1.606231 -2.078576 -1.133885 0.000 -6,66 influenceMed | -. 1390175 .2125483 -0.65 0.513 -. 5556044 .2775694 influenceHi | .8688638 .2743369 .3311733 3.17 0.002 1.406554 apartXinfMed | 1.080868 .2658489 4.07 0.000 1.601922 0.5598135 apartXinfHi | .7197816 .3287309 .0754809 2.19 0.029 1.364082 atriuXinfMed | 0.65111 0.3450048 1.89 0.059 -. 0250869 1.327307 atriuXinfHi | -. 1555515 .4104826 -0.38 0.705 -. 9600826 .6489795 terrXinfMed | .8210056 .3306666 2.48 0.013 1.4691 0.172911 terrXinfHi | .8446195 .4302698 .0013062 1.96 0.050 1.687933 contactHi | 0,372082 0,0959868 0,1839514 0,5602126 3,88 0.000 -------------+------------------------------------ --------------------------/ Cut1 | -. 8881686 .1671554 -1.215787 -. 56055 / Cut2 | 0,3126319 0,1656627 0,6373249 012061 -. -------------------------------------------------- --------------------------. lrtest. sb, la fuerza
La razn de verosimilitud prueba LR chi2 (34) = 25,22 (Asuncin:. Anidado en sat) Prob> chi2 = 0.8623 . lrtest aditivo.
La razn de verosimilitud prueba LR chi2 (6) = 22.51 (Asuncin: aditivo anidado en.) Prob> chi2 = 0.0010
La desviacin del modelo de 25,2 a 34 grados de libertad no es significativo. Para probar el efecto de la interaccin que comparar este modelo con el aditivo, la obtencin de una estadstica de chi-cuadrado de 22,5 en los seis grados de libertad, lo cual es significativo en el nivel de 0.001. En este punto se podra considerar la adicin de una segunda interaccin. La eleccin obvia es permitir que la asociacin entre la satisfaccin y el contacto con los vecinos a depender del tipo de vivienda. Esto reducira la desviacin de 7,95 a expensas de los tres grados de libertad, una ganancia que slo hace que el lmite convencional del 5% con un valor de p de 0,047. En aras de la simplicidad que no proseguir con esta adicin.
Interpretacin de los parmetros estimados Las estimaciones indican que los encuestados que tienen un contacto de alto con sus vecinos estn ms satisfechos que los encuestados con un contacto de baja que viven en el mismo tipo de vivienda y tienen el mismo sentimiento de influencia en la gestin. La diferencia se calcula como 0.372 unidades en la escala de logstica subyacente. Dividiendo por la desviacin estndar de la distribucin (de serie) se obtiene logstica
. pantalla _b [contactHi] / (_pi / sqrt (3)) .20513955
As que la diferencia en la satisfaccin entre el contacto de alta y baja con los vecinos entre los encuestados con la misma carcasa y la influencia es 0,205 desviaciones estndar. Alternativamente, se puede exponenciar el coeficiente:
. di exp (_b [contactHi]) 1.4507519
Las probabilidades de que la presentacin de informes de satisfaccin alto (en relacin a medio o bajo), son 45% ms alto entre los encuestados que tienen un contacto de alto con los vecinos que entre en contacto con los inquilinos de baja en el mismo tipo de vivienda y la influencia. Las probabilidades de que la presentacin de informes de satisfaccin media o alta (en lugar de a menor) son tambin un 45% mayor en este grupo. Interpretacin de los efectos del tipo de vivienda y la influencia hay que tener en cuenta el efecto de la interaccin. En las notas que describen las diferencias por tipo de vivienda entre los que sienten que tienen poca influencia en la gestin, y los efectos de la influencia de cada tipo de vivienda. En resumen, entre los inquilinos que sienten que tienen poca influencia los ms satisfechos son aquellos en los bloques de pisos, seguidos de los residentes de las casas de atrio, apartamentos y casas adosadas, en ese orden. Sensacin de que uno tiene cierta influencia en la gestin se asocia con una mayor satisfaccin, excepto en los bloques de pisos en el que no tiene ningn efecto. Sensacin de que uno tiene una influencia alta se asocia con una mayor satisfaccin en todas partes, excepto tal vez en las casas de atrio. Estimacin de las probabilidades Vamos a considerar las probabilidades pronosticadas. Al igual que en los modelos logit multinomial, la predict de comandos calcula probabilidades estimadas (por defecto) o logits. Con las probabilidades que usted tiene que especificar una variable de salida para cada categora de respuesta. Con logits se especifica slo una variable que almacena el x' predictor lineal, sin los puntos de corte. Vamos a predecir las probabilidades para todos
. predecir pSatHigh pSatLow pSatMed (Opcin pr supuesto, predecir las probabilidades)
Vamos a ver estos resultados para los habitantes de bloque de la torre, con poca influencia y con el contacto de alta y baja con los vecinos. El primero de estos grupos es, por supuesto, la celda de referencia. En la lista que agregar la condicin sat==1 a la lista de las probabilidades de una sola vez para cada grupo:
. lista de contactos pSatLow pSatMed pSatHigh / / / > Si la vivienda == 1 & 1 y la influencia == == 1 sb, limpio 1. 4. pngase en contacto con pSatLow pSatMed pSatHigh .2914879 .2860397 .4224724 baja .2209308 .2642111 .5148581 alta
Vemos que entre los inquilinos torre con poca influencia, las personas con alto contacto con sus vecinos tienen una mayor probabilidad de satisfaccin alto y una menor probabilidad de satisfaccin media o baja, que aquellos con bajo contacto con los vecinos. Es instructivo para reproducir estos clculos "a mano". Para la celda de referencia todo lo que necesitamos son los puntos de corte. Recuerde que el modelo predice probabilidades acumuladas, es por eso que diferencia los resultados.
. . escalares c1 = _b [/ cut1] escalares c2 = _b [/ cut2]
. di invlogit (c1), invlogit (c2)-invlogit (c1) ,1-invlogit (c2) .2914879 .28603966 .42247244
Para el grupo de contacto de alto tenemos que restar el coeficiente correspondiente a los puntos de corte. El cambio de signo que se necesita para convertir coeficientes de la variable latente a las formulaciones probabilidad acumulada (o de un extremo a la cruz).
. . escalar h1 = c1 - _b [contactHi] escalar h2 = c2 - _b [contactHi]
. di invlogit (h1), invlogit (h2)-invlogit (h1) ,1-invlogit (h2) .22093075 .26421111 .51485814
Los resultados coinciden exactamente con el outpout de la predict de comandos. El modelo Probit Ordenado Consideremos ahora modelos probit ordenados, comenzando con el modelo aditivo en la tabla 6.6:
. oprobit satisfaccin 'vivienda' 'influencia' contactHi [fw = n] 0: 1: 2: 3: log = probabilidad log = probabilidad log = probabilidad probabilidad log = -1824,4388 -1739,9254 -1739,8444 -1739,8444
Probit ordenado Nmero de regresin de obs = 1681
LR 169,19
chi2
(6)
Prob> chi2 = 0.0000 Registro de probabilidad = -1739.8444 Pseudo R2 = 0,0464 -------------------------------------------------- --------------------------satisfaccin | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------aparte | -. 3475367 .0722909 -4.81 0.000 -. 4892244 -. 2058491 atrio | -. 2178875 .0947661 -2.30 0.021 -. 4036256 -. 0321495 terraza | -. 6641735 .0918 -7.24 0.000 -. 8440983 -. 4842487 influenceMed | .3464228 .0641371 5.40 0.000 .2207164 .4721291 influenceHi | .7829146 .0764262 10.24 0.000 0.633122 0.9327072 contactHi | .2223858 .0581227 3.83 0.000 .1084675 .3363042 -------------+------------------------------------ --------------------------/ Cut1 | -. 2998279 .0761537 -. 4490865 -. 1505693 / Cut2 | 0,4267208 0,0764043 0,2769711 0,5764706 -------------------------------------------------- --------------------------. lrtest. sb, la fuerza
El modelo tiene un log de la verosimilitud de -1739,8, un poco por debajo del aditivo orden logit. Esto tambin se refleja en la desviacin ligeramente superior. A continuacin aadimos la vivienda por la interaccin de la influencia
. oprobit satisfaccin 'contactHi [fw = n] Iteracin Iteracin Iteracin Iteracin 0: 1: 2: 3: 'vivienda' -1824,4388 -1728,7767 -1728,6654 -1728,6654 LR 191,55 Prob> chi2 = 0.0000 Registro de probabilidad = -1728.6654 Pseudo R2 = 0,0525 -------------------------------------------------- --------------------------satisfaccin | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------aparte | -. 7280621 .1205029 -6.04 0.000 -. 9642434 -. 4918808 atrio | -. 3720768 .1510259 -2.46 0.014 -. 6680821 -. 0760716 terraza | -. 9789998 .1455862 -6.72 0.000 -1.264343 -. 6936561 influenceMed | -. 0863672 .130327 -0.66 0.508 -. 3418033 0.169069 influenceHi | .5164514 .1639345 3.15 0.002 .1951457 .8377571 apartXinfMed | .6600102 .1625787 4.06 0.000 .3413618 .9786586 chi2 (12) = 'influencia' `housingXinf
log = probabilidad log = probabilidad log = probabilidad probabilidad log =
Probit ordenado Nmero de regresin de obs = 1681
apartXinfHi | .4479134 .1970667 .0616698 2.27 0.023 0.834157 atriuXinfMed | .4108389 .2133778 1.93 0.054 -. 007374 .8290517 atriuXinfHi | -. 0779656 .2496472 -0.31 0.755 -. 5672652 .4113339 terrXinfMed | 0,496378 0,2016362 0,1011783 0,8915777 2,46 0.014 terrXinfHi | .5216698 .2587276 .0145731 2.02 0.044 1.028767 contactHi | .2284567 .0583151 3.92 0.000 .1141612 .3427522 -------------+------------------------------------ --------------------------/ Cut1 | -. 5439821 .1023487 -. 7445818 -. 3433824 / Cut2 | 0.189167 0.1018442 0.3887779 -. 0104438 -------------------------------------------------- --------------------------. lrtest. sb, la fuerza
Ahora tenemos un log de la verosimilitud de -1728,7 y una desviacin de 25,9. que es casi indistinguible de la del modelo logit ordenado correspondiente. Las estimaciones indican que los inquilinos con alto contacto con los vecinos son 0.228 las desviaciones estndar ms alto en la escala de satisfaccin latente de que los propietarios de contacto baja, que viven en el mismo tipo de vivienda y tener el mismo sentimiento de influencia en la gestin. Hay que recordar que la estimacin logit comparable fue 0,205. Las probabilidades de los dos grupos de comparacin anterior puede ser calculada utilizando la predict de comandos o ms instructiva "a mano", utilizando exactamente el mismo cdigo que antes, pero con la normal() cdf en lugar de la logstica cdf
invlogit() . . escalar z1 = _b [/ cut1] escalar z2 = _b [/ cut2]
. di normal (z1), normal (z2), normal (z1) ,1-normal (z2) .29322689 .28179216 .42498095 . . h1 = escalar z1 - _b [contactHi] escalar h2 = z2 - _b [contactHi]
. di normal (h1), normal (h2), normal (h1) ,1-normal (h2) .21992729 .26440244 .51567027
Lo principal a destacar aqu es que los resultados son muy similares a las predicciones correspondientes a partir del modelo logit ordenado. El modelo de riesgos proporcionales El tercer modelo se menciona en las notas de clase utiliza un log-log complementario enlace y tiene una interpretacin de riesgos proporcionales. Desafortunadamente, este modelo no puede estar en forma para datos ordenados multinomial utilizando Stata. Es, por supuesto, la posibilidad de montar c-log-log los modelos a los datos binarios, y
modelos de riesgo proporcional de los datos de supervivencia, como veremos en el prximo captulo.
7 modelos de supervivencia en Stata

Stata cuenta con amplias instalaciones para los modelos de supervivencia de montaje. Vamos a discutir slo el uso de la regresin de Poisson para encajar piezas sabio modelos de supervivencia exponencial.
7,5 mortalidad infantil en Colombia

La pgina de bases de datos tiene la tabulacin original de los nios por sexo, cohorte, edad y supervivencia (muerto o vivo en la entrevista), segn el anlisis de Somoza (1980). Como suele ocurrir con los datos de supervivencia, una buena parte del esfuerzo es la de convertir los datos en bruto en la cuenta de los hechos y la exposicin necesaria para el anlisis. Preparacin de datos Vamos a empezar por la lectura de los datos y el colapso en torno al sexo, y luego calcular los eventos y la exposicin a la Tabla 7.1 se reproducen en las notas de clase.
. uso claro http://data.princeton.edu/wws509/datasets/somoza, (La supervivencia infantil en Colombia, 1976) . colapso (suma) vivo (suma) muertos, por (edad de la cohorte)
Nos aseguramos de que los datos estn ordenados por cohorte y edad, el uso egen para contar el nmero total de nios en cada cohorte, y luego usar replace con una by cohort prefijo de [re] calcular el nmero de hijos vivos al inicio de cada grupo de edad, calculada como el nmero que comenz el grupo de edad anterior, menos los que estn vivos todava en el grupo de edad anterior, y menos los que murieron en el grupo de edad anterior. Una vez hecho esto podemos omitir los nios mayores de 10 aos, ya que slo estamos interesados en la supervivencia a diez aos de edad.
. . tipo cohorte de edad / / hacer que los datos estn ordenados egen start = total (vivos + muertos), por (cohorte)
. por cohorte: reemplazar start = / / / > Inicio [_n-1] - vivo [_n-1] - muertos [_n-1] si _n> 1 (21 cambios reales realizados) . cada de si la edad> 7 (3 observaciones suprimido)
El siguiente paso es utilizar recode para generar una variable que representa el ancho de los intervalos de edad en meses. A continuacin, utilizamos generate para calcular la exposicin, asumiendo que todos estamos expuestos a todo lo ancho del intervalo, excepto los censurados o que mueren en el intervalo, que estn expuestos en la mitad de la media del intervalo. Dividimos por 12 para expresar la exposicin en aos-persona.
. recodificar la edad de 4 = 6 5 = 12 6 = 36 7 = 60, el general (ancho) / ancho / intervalo en meses (12 diferencias entre la edad y el ancho) . generacin de la exposicin = ancho * (start - 0,5 * (vivos + muertos)) / 12 / / en el ao
Finalmente, la lista de resultados. Por conveniencia, cambiar el nombre de muertos de deaths y establecer un formato para exposure se imprime con un decimal. Los resultados coinciden con la Tabla 7.1 en las notas.
. . . cambiar el nombre de muertes muertos formato de exposicin 8.1f% lista de muertes por grupo de edad de la Expo, septiembre (7) +-------------------------------------------+ | Grupo de edad muertes exposicin | |-------------------------------------------| | 1941 a 1959 0-1 meses 168 278,4 | | 1941-1959 1-3 meses 48 538,8 | | 1941 a 1959 6.3 63 meses 794,4 | | 1941-1959 6-12 meses 89 1550.8 | | 1-2 aos 1941 a 1959 102 3006,0 | | 1941 a 1959 2.5 81 aos 8743,5 | | 1941-1959 5-10 aos 40 14270.0 | |-------------------------------------------| | 1960-67 0-1 meses 197 403,2 | | 1960-1967 1-3 meses 48 786,0 | | 1960-67 6.3 meses 62 1165.3 | | 1960-1967 6-12 meses 81 2294.8 | | 1-2 aos 1960 a 1967 97 4500.5 | | 2-5 aos 1960 a 1967 103 13201.5 | | 1960-1967 5-10 aos 39 19525.0 | |-------------------------------------------| | 1968-76 0-1 meses 195 495,3 | | 1968-1976 1-3 meses 55 956,7 | | 1968-76 6.3 meses 58 1381.4 | | 1968-1976 6-12 meses 85 2604.5 | | 1968-76 1-2 aos 87 4618.5 | | 1968-76 2-5 aos 70 9814.5 | | 1968-1976 ao 5 al 10 10 5802.5 | +-------------------------------------------+
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21.
Llamamos el conjunto de datos y guardarlo. El archivo resultante est disponible en la seccin de bases de datos como somoza2 .
. datos de la etiqueta "de la mortalidad infantil en Colombia, 1976"
. seala: "Los acontecimientos y la exposicin en el cuadro 7.1, WWS 509 Notas" . ahorrar ../datasets/somoza2, reemplace archivo guardado ../datasets/somoza2.dta
Offset y predictores En preparacin para el modelado vamos a calcular el logaritmo del tiempo de exposicin, que se emplea como un desplazamiento. Tambin vamos a crear las variables dummy habitual para la edad y la cohorte. En realidad, no necesita estos dada la conveniencia de las variables de factor en Stata 11, pero vamos a calcular todos modos, para obtener una salida ms bien etiquetados
. . . . . . . generacin logexp = log (exposicin) generacin age_1_3m = == 2 aos generacin age_3_6m = edad == 3 generacin age_6_12m = edad == 4 generacin age_1_2y = == 5 aos generacin age_2_5y = edad == 6 generacin age_5_10y = edad == 7 la edad age_1_3m age_3_6m age_6_12m age_1_2y age_2_5y
. local, age_5_10y . . .
generacin cohort_60_67 = cohorte == 2 generacin cohort_68_76 = cohorte == 3 cohorte locales cohort_60_67 cohort_68_76
La supervivencia exponencial Vamos a ajustar el modelo nulo, lo que equivale a un modelo de supervivencia exponencial simple. Tambin vamos a guardar las estimaciones para su uso en pruebas posteriores
. poisson muertes, desplazamiento (logexp)
Iteracin 0: log = probabilidad -2184,107 Iteracin 1: log = probabilidad -2184,107 (copia de seguridad) Nmero de regresin de Poisson de obs = 21 LR chi2 (0) = 0,00 Prob> chi2 =. Registro de probabilidad = -2184.107 Pseudo R2 = 0,0000 ----------------------------------------------------------------------------
muertes | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------_cons | 0.0237156 -3.996449 -3.949967 -4.04293 0.000 -168,52 logexp | (offset) -------------------------------------------------- --------------------------. estat gof La bondad de ajuste chi2 = 4239.871 Prob> chi2 (20) = 0,0000 . estimaciones nula tienda
Tenga en cuenta la desviacin astronmicos. La estimacin de la constante resulta ser el logaritmo de la tasa general de mortalidad. Vamos a verificar este hecho
. di "tasa Equipada =" exp (_b [_cons]) Tasa equipados = .0183808 . . . silencio resumen muertes ndeaths escalar r = (suma) silencio resumir la exposicin
. di ", observ Tasa =" ndeaths / r (suma) Tasa observada = .0183808
Tenemos una tasa global de mortalidad de 18,4 muertes por cada mil nios-ao de exposicin. Tres Exponenciales En los modelos de un factor. Empezamos con el modelo de cohorte, lo que equivale a un modelo de supervivencia exponencial separado para cada cohorte:
. poisson muertes 'cohorte', que se compensan (logexp) 0: 1: 2: 3: log = probabilidad log = probabilidad log = probabilidad probabilidad log = -2160,0647 -2159,5266 -2159,5264 -2159,5264
Nmero de regresin de Poisson de obs = 21 LR chi2 (2) = 49,16 Prob> chi2 = 0.0000 Registro de probabilidad = -2159.5264 Pseudo R2 = 0,0113 -------------------------------------------------- --------------------------muertes | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo]
-------------+------------------------------------ --------------------------cohort_60_67 | -. 3020391 .0573319 -5.27 0.000 -. 4144075 -. 1896707 cohort_68_76 | 0,0742177 0,0589726 1,26 0.208 -. 0413664 .1898017 _cons | 0.0411345 -3.899487 -3.980109 -3.818865 0.000 -94,80 logexp | (offset) -------------------------------------------------- --------------------------. di exp (_b [cohort_60_67]), exp (_b [cohort_68_76]) .73930913 1.0770412 . estat gof La bondad de ajuste chi2 = 4.190,71 Prob> chi2 (18) = 0,0000
Comparar estos resultados con las estimaciones del efecto bruto en la Tabla 7.3. Tenga en cuenta que la tasa de riesgo se redujo 26% entre 1941-59 y 1960-67 cohortes, pero parece haber aumentado en casi un 8% para la cohorte 1968-1976 en comparacin con la cohorte 1941-1959. (Volveremos a este tema.) La desviacin astronmicas muestran que este modelo no proporciona una descripcin razonable de los datos. Es, sin embargo, mejor que el modelo en el que todos los grupos siguen la misma curva de supervivencia exponencial, como lo demuestra el modelo de chi-cuadrado o la prueba de Wald
. lrtest nulo.
La razn de verosimilitud prueba LR chi2 (2) = 49,16 (Asuncin: null anidado en.) Prob> chi2 = 0.0000 . prueba de `grupo de edad (1) [muertes] cohort_60_67 = 0 (2) [muertes] cohort_68_76 = 0 chi2 (2) = 48,00 Prob> chi2 = 0.0000
Ambas pruebas son altamente significativos que indican que las tasas globales de mortalidad no son las mismas que en las cohortes. Pieza-Wise supervivencia exponencial Ahora tenemos en cuenta el modelo de la era, donde el riesgo depende de la edad del nio:
. poisson muertes 'edad', que se compensan (logexp) 0: 1: 2: 3: log = probabilidad -100.89918 log = probabilidad -100.49174 registro de probabilidad = -100.49167 probabilidad log = -100.49167
Nmero de regresin de Poisson de obs = 21 LR 4.167,23 Prob> chi2 = 0.0000 Registro de probabilidad = -100.49167 Pseudo R2 = 0,9540 -------------------------------------------------- --------------------------muertes | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------age_1_3m | 0.0916964 -1.972627 -2.152349 -1.792906 0.000 -21,51 age_3_6m | 0.0851481 -2.161858 -2.328745 -1.994971 0.000 -25,39 age_6_12m | 0.0755466 -2.487891 -2.635959 -2.339822 0.000 -32,93 age_1_2y | 0.0726789 -3.004351 -3.146799 -2.861904 0.000 -41,34 age_2_5y | -4.085932 0.0756487 -54.01 0.000 -4.2342 -3.937663 age_5_10y | -5.355204 0.1141125 -46.93 0.000 -5.57886 -5.131547 _cons | -. 7426813 .0422577 -17,58 0.000 -. 8255049 -. 6598577 logexp | (offset) -------------------------------------------------- --------------------------. . estimaciones de la edad tienda Mata exp (st_matrix ("e (b)")) 1 2 3 4 5 6 7 0.0830850445 0.0495708909 chi2 (6) =
1 | 0.1390909507 0.1151110572 0.0168074734 0.0047235073 0.4758363547 | . estat gof
La bondad de ajuste chi2 = 72.64056 Prob> chi2 (14) = 0,0000
El modelo de edad es equivalente a un modelo de supervivencia pieza sabio exponencial sin los efectos de cohorte. Comparar los resultados con los efectos graves en la Tabla 7.3. Tenga en cuenta la dramtica disminucin en el riesgo con la edad. A la edad de un riesgo de muerte es slo el 5% de lo que est en el primer mes de vida. Este modelo todava no se ajusta a los datos, como lo demuestra que la desviacin o la bondad de ajuste chi-cuadrado. Es, sin embargo, una mejora notable en la hiptesis nula, como se indica en el modelo chi-cuadrado o la prueba de Wald
. lrtest nulo.
La razn de verosimilitud prueba LR chi2 (6) = 4.167,23 (Asuncin: null anidado en edad) Prob> chi2 = 0.0000 . `test edad" (1) (2) (3) (4) (5) [muertes] [muertes] [muertes] [muertes] [muertes] age_1_3m = 0 age_3_6m = 0 age_6_12m = 0 age_1_2y = 0 age_2_5y = 0
(6) [muertes] age_5_10y = 0 c2 (6) = 4.689,27 Prob> chi2 = 0.0000
Usted puede ver por qu prefieren los demgrafos de edad las tasas de mortalidad. El modelo de riesgos proporcionales Ahora vamos con el modelo aditivo con los principales efectos de la edad y de cohorte, lo que equivale a un modelo de riesgos proporcionales:
. poisson muertes 'edad' `grupo de edad, que se compensan (logexp) 0: 1: 2: 3: log = probabilidad log = probabilidad log = probabilidad probabilidad log = -67.794175 -67.263248 -67.263109 -67.263109 LR 4.233,69 Prob> chi2 = 0.0000 Registro de probabilidad = -67.263109 Pseudo R2 = 0,9692 -------------------------------------------------- --------------------------muertes | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------age_1_3m | 0.0916965 -1.972688 -2.152409 -1.792966 0.000 -21,51 age_3_6m | -2.16332 0.0851488 -25.41 0.000 -2.330208 -1.996431 age_6_12m | -2.491674 0.075551 -2.639752 -2.343597 0.000 -32,98 age_1_2y | 0.0727035 -3.014052 -3.156548 -2.871556 0.000 -41,46 age_2_5y | 0.0758262 -4.115382 -4.263999 -3.966766 0.000 -54,27 age_5_10y | -5.435887 0.114768 -5.660828 -5.210945 0.000 -47,36 cohort_60_67 | -. 3242407 .0573352 -5.66 0.000 -. 4366156 -. 2118657 cohort_68_76 | -. 4783589 .0593256 -8.06 0.000 -. 594635 -. 3620828 _cons | -. 4484824 .0545389 -8.22 0.000 -. 5553767 -. 341588 logexp | (offset) -------------------------------------------------- --------------------------. di exp (_b [cohort_60_67]), exp (_b [cohort_68_76]) .72307619 .61979973 . estat gof La bondad de ajuste chi2 = 6.183445 Prob> chi2 (12) = 0,9066 chi2 (8) =
Tenga en cuenta que este modelo se ajusta razonablemente bien, con una desviacin de 6,18 sobre 12 grados de libertad, por lo que la asuncin de riesgos proporcionales es consistente con los datos.
Comparar los resultados con las estimaciones del efecto neto en la Tabla 7.3, y tenga en cuenta que la anomala con la cohorte ms joven se ha enderezado. Las estimaciones actuales indican una disminucin constante de la mortalidad en las cohortes. Tomando la cohorte 1941-1959 como referencia, la mortalidad en todas las edades de cero a diez fue 28% menor para la cohorte 1960-1967 y 36% menor en el ms reciente de 19681976 cohorte. Puede usted explicar por qu esta tendencia no surgi hasta que control la edad Sugerencia: la encuesta se realiz en 1976. He aqu una prueba de cociente de probabilidad para el efecto de cohorte ajustadas por edad. Tenga en cuenta que se compara el modelo de edad (lo que nos ahorramos) con el modelo aditivo que tiene la edad y la cohorte. Que es seguido por el test de Wald.
. lrtest edad.
La razn de verosimilitud prueba LR chi2 (2) = 66,46 (Asuncin:. Anidado en edad) Prob> chi2 = 0.0000 . prueba de `grupo de edad (1) [muertes] cohort_60_67 = 0 (2) [muertes] cohort_68_76 = 0 chi2 (2) = 68,59 Prob> chi2 = 0.0000
Las diferencias de cohorte en los grupos de edad son altamente significativas. Estimar las probabilidades de supervivencia Vamos a calcular la tabla de vida equipado muestra en la Tabla 7.4 de los apuntes de clase. La predict de comandos despus de una regresin de Poisson calcula el nmero esperado de los acontecimientos, por lo que tenemos que dividir por la exposicin para obtener tasas equipado. Una alternativa es utilizar el xb y nooffset opciones (necesita ambos) para obtener el predictor lineal o log-riesgo, que luego se puede exponenciar para obtener la tasa de riesgo ajustada.
. predecir eventos (Opcin n asumidos; predecir el nmero de eventos) . generacin de eventos de riesgo = / exposicin
En este punto recordar que los intervalos de edad tienen diferentes anchos. Nos guardaron las anchuras de meses en el ancho variable. Ahora vamos a convertir a los aos, por lo que est en las mismas unidades que la exposicin.
. tranquilamente sustituir width = width/12
Ahora vamos a ordenar los datos por edad dentro de cada cohorte y el clculo del riesgo acumulado para cada cohorte como una suma continua de los tiempos de peligro de la amplitud del intervalo. A continuacin, utilizamos el hecho de que S (t) = exp {- (t)} para obtener la funcin de supervivencia.
. . .
tipo cohorte de edad por cohorte: gen cumhaz = suma (peligro de ancho *) supervivencia gen = exp (-cumhaz)
La ltima cosa que hacer es imprimir nuestro trabajo prctico. Voy a utilizar la tabulate comandos en lugar de list para obtener un adecuado diseo de dos vas. Puedo especificar la "media" a la lista el valor nico de cada combinacin de edad y de cohorte.
. edad pestaa de cohortes, la suma (de supervivencia) significa Medios de subsistencia Edad (en | Ao de nacimiento (cohorte) grupos) | 1941-1959 1968-1976 1960-1967 | Total -----------+---------------------------------+---- -----0-1 meses | 0,94817483 0,96225142 0,96755451 | 0,95932692 1-3 meses | 0,93424243 0,95200676 0,95871794 | 0,94832238 3-6 meses | 0,91725492 0,93945819 0,94787562 | 0,93486291 06.12-Mont | 0,89333057 0,92167562 0,93247539 | 0,91582719 1-2 aos | 0,8657589 0,90101755 0,91453147 | 0.8937693 2-5 aos | 0,83910966 0,88087672 0,89698023 | 0.8723222 5-10 aos | 0,8275159 0,8720594 0,88927853 | 0,86295128 -----------+---------------------------------+---- -----Total | .88934103 .91847795 .92963053 | .91248317
Vemos que la probabilidad de sobrevivir a un ao de edad aument de 89,3% a 92,2% y 93,2% a travs de las cohortes. El complemento de la probabilidad de sobrevivir hasta la edad de un ao se conoce como la tasa de mortalidad infantil (aunque es una probabilidad, no una tasa) y se expresa generalmente por cada mil nacimientos, se redujo de 106.7 to 78,3 a 67,5 entre las cohortes. Otros mtodos Stata tiene comandos para dotar a algunos de los modelos paramtricos discutidos en las notas bibliogrficas, como el modelo de Weibull. Tambin cuenta con mtodos no paramtricos, incluyendo los procedimientos para el clculo de Kaplan-Meier y para ajustar modelos de regresin de Cox de verosimilitud parcial. Finalmente, Stata cuenta con instalaciones para la generacin de archivos de persona y ao.
La construccin de Ao Persona-Files
Se discute cmo preparar los datos para el modelado de exponencial a trozos. Asumimos el tiempo o la duracin se divide en intervalos de tal manera que el peligro es constante en cada intervalo. Para ajustar el modelo que tenemos que ampliar la informacin para que cada individuo aporta un registro separado para cada categora de duracin. Estos tipos de archivos a menudo son llamados aos-persona los archivos, aunque los intervalos no tiene que pasar aos.
Duracin Recividivism
Vamos a utilizar los datos sobre la reincidencia utilizados en el texto de Wooldridge y se acredita a Chung, Schmidt y Witte (1991). Los datos se refieren a una muestra aleatoria de los presos puestos en libertad entre el 01 de julio 1977 y 30 de junio de 1978. De inters es el tiempo hasta que regresen a la crcel. La informacin se obtuvo a posteriori por estudiar los expedientes en abril de 1984, por lo que la longitud mxima posible de la observacin es de 81 meses. Los datos estn disponibles en el sitio web de Stata y se puede acceder usando el comando
. uso http://www.stata.com/data/jwooldridge/eacsap/recid
Vamos a mantener slo diez observaciones en tres variables (negro, DURAT, CENS) para que podamos ver exactamente lo que est pasando. Tambin generar un identificador, y asegrese de que es la primera variable en el conjunto de datos. Por ltimo, generar una variable llamada fail para indicar que volver a la crcel. Tenemos una lista de los 10 casos y comprobar que tenemos 4 fracasos en 601 meses de exposicin.
. mantener en 1 / 10 (1435 observaciones suprimido) . . . . mantener CENS negro DURAT gen id = _n Identificacin del movimiento negro gen no = 1 - CENS
. salvar a diez, reemplace archivo guardado ten.dta . . / / La lista tabstat no DURAT, estadsticas (suma)
Estadsticas | no DURAT ---------+-------------------suma | 4 601 ------------------------------
A partir de primeros principios

Nuestro primer acercamiento a hacer todos los clculos "a mano" para que pueda obtener una mejor apreciacin de lo que est involucrado. Vamos a tiempo en el grupo de 61-81 aos la combinacin de meses en la ltima categora, por lo que los intervalos son 1-12, 13-24, 25-36, 37-48, 49-60 y 61 +. A continuacin, repetir cada observacin por lo que tenemos un registro por ao:
. generacin nyears = int ((DURAT-1) / 12) + 1
. reemplazar nyears = 6 si nyears> 6 (5 cambios reales realizados) . ampliar nyears (40 observaciones creado) . / / La lista
Stata aade las nuevas copias al final de la datase. Vamos a ordenar por id y aadir una nueva variable para realizar un seguimiento de todo el ao. Tambin fijar nuestras copias de fallar (slo la ltima entrada para cada individuo puede ser un fracaso) y calcular el tiempo de exposicin de cada ao (que siempre estn expuestos 12 meses, excepto posiblemente en el ltimo ao de observacin para cada individuo):
. . Identificacin del tipo en silencio por id: aos gen = _n
. no reemplazar = 0 si el ao <nyears (10 cambios reales realizados) . generacin de exposicin = 12
. reemplazar expo = DURAT - 12 * (ao-1) si el ao == nyears (8 cambios reales realizados) . . / / La lista tabstat no expo, estadsticas (suma) de (ao)
Resumen estadsticas: suma por categoras de: aos aos | no expo ---------+-------------------1 | 1 117 2 | 0 108 3 | 1 97 4 | 0 96 5 | 2 90 6 | 0 93 ---------+-------------------Total | 4 601 ------------------------------
No est mal para ocho lneas de cdigo de Stata. Ahora vamos a reducir eso a tres.
Utilizando el mtodo de Stata

Stata cuenta con instalaciones para la gestin de los datos de supervivencia y "sabe" cmo crear pseudo-observaciones o "episodios". En primer lugar, el uso stset decir Stata que tenemos los datos de supervivencia, la definicin de la variable tiempo y el indicador de falla, y luego usar stsplit para crear los episodios al ao:
. . . claro uso de diez stset DURAT, insuficiencia (falla) (id)
Identificacin: Identificacin caso de fracaso: no = 0 y no <!. obs. intervalo de tiempo: (DURAT [_n-1], DURAT] en o antes de la salida: el fracaso ----------------------------------------------------------Un total de 10 obs. ------------------
0 exclusiones -------------------------------------------------- --------------------------10 obs. restante, que representa 10 sujetos 4 fallas en un solo fallo-por-titular de los datos 601 tiempo total de anlisis de riesgo, en situacin de riesgo a partir de t = 0 antes la entrada observado t = 0 observado por ltima vez la salida t = 81 . stsplit aos, en (12 24 36 48 60 100) (40 observaciones (episodios), creado) . . . / / La lista generacin de exposicin = _t - _t0 tabstat _d exposicin, estadsticas (suma) de (ao)
Resumen estadsticas: suma por categoras de: aos ao | _d expo ---------+-------------------0 | 1 117 12 | 0 108 24 | 1 97 36 | 0 96 48 | 2 90 60 | 0 93 ---------+-------------------Total | 4 601 ------------------------------
Y eso es todo. Se obtienen los mismos resultados en tres lneas de cdigo.
Modelos para datos de panel agrupados y

Vamos a ilustrar el anlisis de clster o de datos de panel con tres ejemplos, dos se ocupan de los modelos lineales y con los modelos logit. Los ejemplos del modelo lineal utilizacin de datos agrupados de la escuela en el coeficiente intelectual y la capacidad de lenguaje y longitudinal datos a nivel estatal sobre la Ayuda a Familias con Hijos Dependientes (AFDC).
Ejemplo 1: IQ y de preparacin en idiomas

Snijders y Boskers (1999), el anlisis multinivel, con datos de 2287 nios de los grados 8 en 131 escuelas en los Pases Bajos. Los datos estn disponibles en http://stat.gamma.rug.nl/snijders , siga el enlace al libro de ML. Los datos estn en la MLBOOK1.DAT archivo, que incluye los nombres de variables, as como los datos. I divisin que en dos archivos separados e hizo todo en minsculas los nombres de variables.
. INFILE schoolnr pupilnr iq_verb iq_perf sexo minoritario repeatgr / / / > Aritpret classnr aritpost langpret langpost ses denominador schoolses / / / > Satiprin natitest reuniones currmeet mixedgra percmino aritdiff / / / > Tareas classsiz groupsiz con snijders.dat (2287 observaciones leer)
OLS Estamos interesados en la relacin entre el CI verbal y la puntuacin en una prueba de idioma. MCO da un coeficiente muy significativo de 2,65 con un error estndar de 0,072:
. reg langpost iq_verb
Fuente | SS df MS Nmero de obs = 2287 -------------+------------------------------ F (1, 2285) = 1.352,84 Modelo | 1 68915.7639 68915.7639 Prob> F = 0,0000 Residual | 116401.529 2285 50.941588 R-cuadrado = 0,3719 -------------+------------------------------ Adj R-cuadrado = 0,3716 Total | 185317.293 2286 81.0661822 raz MSE = 7.1373 -------------------------------------------------- --------------------------langpost | Coef. Enfermedades de transmisin sexual. Err. t P> | t | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------iq_verb | 2.653896 .0721541 36.78 0.000 2.79539 2.512401 _cons | 9.528484 .8668206 10.99 0.000 7.828646 11.22832 -------------------------------------------------- ---------------------------
De efectos aleatorios Consideramos que el hecho de que las observaciones son probablemente correlacionados en cada escuela debido a las caractersticas de la escuela no observadas que afectan a las puntuaciones del lenguaje (por ejemplo, un profesor de idiomas bueno).
. xtreg langpost iq_verb, i (schoolnr) macho
Ajuste constante de slo modelo: Iteracin 0: log = probabilidad -8259,3698 Iteracin 1: log = probabilidad -8143,3601 Iteracin 2: log = probabilidad -8127,2437 Iteracin 3: probabilidad log = -8126,6128 Iteracin 4: log = probabilidad -8126,6092 Modelo completo de montaje: Iteracin 0: log = probabilidad Iteracin 1: log = probabilidad Iteracin 2: log = probabilidad Iteracin 3: probabilidad log = -7629,2356 -7625,8966 -7625,8865 -7625,8865
De efectos aleatorios ML Nmero de regresin de obs = 2287
Variable de grupo (i): Nmero de grupos schoolnr = 131 De efectos aleatorios u_i ~ Gauss Obs por grupo: min = 4 media = 17,5 max 35 LR chi2 1.001,45 Registro de probabilidad = -7625.8865 Prob> chi2 = 0.0000 (1) = =
-------------------------------------------------- --------------------------langpost | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------iq_verb | 2.488094 .0705261 35.28 0.000 2.349865 2.626323 _cons | 0.8822371 11.16511 12.89426 9.435956 12.66 0.000 -------------+------------------------------------ --------------------------/ Sigma_u | 3.081719 .2552303 12.07 0.000 2.581476 3.581961 / Sigma_e | 6.498244 .0991428 65.54 0.000 6.69256 6.303928 -------------+------------------------------------ --------------------------rho | .1836084 .0255577 0.137803 0.237875 -------------------------------------------------- --------------------------La razn de verosimilitud de la prueba sigma_u = 0: chibar2 (01) = 225,92 Prob> = = 0,000 chibar2
El coeficiente de inteligencia verbal es de 2,49 con un error estndar de 0,071 y sigue siendo muy importante. Tambin hemos aprendido que las puntuaciones de lenguaje estn relacionados en las escuelas, de hecho, el 18,3% de la variacin en las puntuaciones de lenguaje neto de CI verbal se puede atribuir a las escuelas (el resto se debe a los alumnos). La correlacin intra-clase es muy importante, como lo demuestra la estadstica de prueba de 225.9 (conservadoramente una chi-cuadrado con 1 gl) De efectos fijos (dentro) Consideremos ahora un modelo de efectos fijos, que permite la posibilidad de una correlacin entre las caractersticas de la escuela no observadas y el coeficiente intelectual verbal (la escuela con el buen maestro atrae a los estudiantes ms brillantes):
. xtreg langpost iq_verb, i (schoolnr) Fe
De efectos fijos (dentro de) la regresin Nmero de obs = 2287 Variable de grupo (i): Nmero de grupos schoolnr = 131 R-cuadrado: = 0,3452 en Obs por grupo: min = 4 entre 0,5985 = media = 17,5 total = 0,3719 max = 35 F (1,2155) = 1135,95 corr (u_i, Xb) = 0,1463 Prob> F = 0,0000
-------------------------------------------------- --------------------------langpost | Coef. Enfermedades de transmisin sexual. Err. t P> | t | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------iq_verb | 2.414772 .0716466 33.70 0.000 2.274269 2.555276 _cons | 0.858667 12.35828 10.67438 14.04219 14.39 0.000 -------------+------------------------------------ --------------------------sigma_u | 3.7161754 sigma_e | 6.4913354 rho | .2468383 (fraccin de la varianza debido a u_i) -------------------------------------------------- --------------------------F prueba de que todos los u_i = 0: F (130, 2155) = 4,67 Prob> F = 0,0000
Nuestros resultados son muy robustos, el coeficiente de inteligencia verbal es 2,41 con un error estndar de 0,071. Nos sentimos muy confiados en nuestras conclusiones. Tenga en cuenta que tenemos una prueba F para efectos de la escuela, que son muy importantes. Grupo de Medios (entre) Si no son disuadidos por la falacia ecolgica que podra haber analizado las medias de grupos. Stata facilita esta tarea con el be opcin. Tambin utilizamos wls a las escuelas de peso en proporcin al nmero de estudiantes (no es que hace una gran diferencia):
. xtreg langpost iq_verb, i (schoolnr) se wls
Entre la regresin (regresin de las medias de grupo) Nmero de obs = 2287 Variable de grupo (i): Nmero de grupos schoolnr = 131 R-cuadrado: = 0,3452 en Obs por grupo: min = 4 entre 0,5137 = media = 17,5 total = 0,3719 max = 35 F (1,129) = 136.29 sd (u_i + avg (e_i.)) = 3.173519 Prob> F = 0,0000 -------------------------------------------------- --------------------------langpost | Coef. Enfermedades de transmisin sexual. Err. t P> | t | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------iq_verb | 3.899369 .3340076 11.67 0.000 3.238527 4.560211 _cons | -5.210525 3.962379 -13.05019 2.62914 -1.31 0.191 -------------------------------------------------- ---------------------------
Esto le da un coeficiente mucho mayor de 3,90, aunque con un error estndar mayor de 0,334. Es evidente que trabajar con datos agregados que sobreestimar la relacin entre el CI verbal y las puntuaciones de lenguaje. Tenga en cuenta que la estimacin de efectos aleatorios es entre las estimaciones dentro y entre los (siempre lo es).
La siguiente figura (lo que hice en investigacin, porque no poda encontrar la manera de hacerlo en Stata sin mucho trabajo) se muestran los datos, regresin por separado se ajusta para cada una de las 131 escuelas, y entre lo interior, y al azar Estimaciones con efectos.
La lnea roja es la estimacin entre grupos, que exagera la relacin entre el CI y las puntuaciones de lenguaje. La lnea azul es la intra-grupos de estimador de efectos fijos. La lnea verde es el estimador de efectos aleatorios, que siempre es un promedio de entre y dentro, y en este caso est muy cerca de las regresiones dentro de los grupos.
Ejemplo 2: Ayuda a Familias con Hijos Dependientes (AFDC)

He aqu un ejemplo interesante en el de efectos fijos da una respuesta muy diferente de la MCO y modelos de efectos aleatorios. Los datos provienen de texto Wooldridge y los datos de inters a nivel estatal en el porcentaje de nacimientos clasificados como bajo peso al nacer y el porcentaje de la poblacin en el programa de bienestar AFDC en 1987 y 1990. Los datos estn disponibles en el sitio web de Stata.
. . claro uso http://www.stata.com/data/jwooldridge/eacsap/lowbirth
OLS
Aqu hay una regresin de bajo peso al nacer en AFDC con un maniqu de 1990 (tendencias en el tiempo) y los controles de registro de los mdicos por habitante, registro de camas por habitante, el ingreso per cpita de registro, y la poblacin de registro.
. reg lowbrth d90 afdcprc lphypc lbedspc lpcinc lpopul
Fuente | SS df MS Nmero de obs = 100 -------------+------------------------------ F (6, 93) = 5,19 Modelo | 6 5.6285149 33.7710894 Prob> F = 0,0001 Residual | 100.834005 93 1.08423661 R-cuadrado = 0,2509 -------------+------------------------------ Adj R-cuadrado = 0,2026 Total | 134.605095 99 1.35964742 raz MSE = 1.0413 -------------------------------------------------- --------------------------lowbrth | Coef. Enfermedades de transmisin sexual. Err. t P> | t | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------D90 | 0,5797136 0,2761244 0,0313853 1,128042 2,10 0.038 afdcprc | .0955932 .0921802 1.04 0.302 -. 0874584 .2786448 lphypc | .3080648 0.71546 0.43 0.668 1.728827 -1.112697 lbedspc | .2790041 .5130275 0.54 0.588 -. 7397668 1.297775 lpcinc | -2.494685 0.9783021 -2.55 0.012 -4.437399 -. 5519712 lpopul | 0.739284 .7023191 1.05 0.295 -. 6553825 2.133951 _cons | 7.158022 26.57786 12.36344 40.79227 3.71 0.000 -------------------------------------------------- ---------------------------
Parece como si AFDC tiene un efecto pernicioso sobre el peso al nacer: cada uno por ciento en AFDC se asocia con un 1/10-th adicional del uno por ciento con bajo peso al nacer. Un diagrama de dispersin muestra una correlacin positiva:
. dos vas (dispersin lowbrth afdcprc si el ao == 1987, mcolor (azul)) / / / > (Dispersin lowbrth afdcprc si el ao == 1990, mcolor (rojo)), / / / > Leyenda (de laboratorio (1 "1987") laboratorio (2 "1990") anillo (0) puntos de venta (5)) . grfico afdc1.png exportacin (Afdc1.png archivo escrito en formato PNG)
De efectos aleatorios: Ajuste de un modelo de efectos aleatorios no resuelve el problema. (La primera vez que encode la abreviatura del estado, porque xtreg requiere variables numricas id.)
. codificar stateabb, gen (stateid) d90 afdcprc lphypc lbedspc lpcinc lpopul, i
. xtreg lowbrth (stateid) macho
Ajuste constante de slo modelo: Iteracin 0: log = probabilidad -108.24542 Iteracin 1: log = probabilidad -107.11904 Iteracin 2: registro de probabilidad = -107.04455 Iteracin 3: probabilidad log = -107.04404 Modelo completo de montaje: Iteracin 0: log = probabilidad Iteracin 1: log = probabilidad Iteracin 2: log = probabilidad Iteracin 3: probabilidad log = -99.608575 -99.37118 -99.370515 -99.370515
De efectos aleatorios ML Nmero de regresin de obs = 100 Grupo variable (i): Nmero de grupos stateid = 50 De efectos aleatorios u_i ~ Gauss Obs por grupo: min = 2 media = 2,0 max 2 LR chi2 (6) = 15.35 Registro de probabilidad = -99.370515 Prob> chi2 = 0.0177 =
-------------------------------------------------- --------------------------lowbrth | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------D90 | 0,5683237 0,2432568 0,0915491 1,045098 2,34 0.019 afdcprc | .0308556 .1102612 0.28 0.780 -. 1852524 .2469636 lphypc | 0.283817 .9252746 0.31 0.759 2.097322 -1.529688 lbedspc | .3520403 0.641116 0.55 0.583 1.608605 904524 -. lpcinc | 1.218653 -2.269859 -4.658374 0.1186558 0.063 -1,86 lpopul | .7373689 .9039096 0.82 0.415 2.508999 -1.034261 _cons | 24.99926 9.132684 7.099529 42.89899 2.74 0.006 -------------+------------------------------------ --------------------------/ Sigma_u | .9453257 0.105888 0.737789 1.152862 8.93 0.000 / Sigma_e | 0,4471777. . . . . -------------+------------------------------------ --------------------------rho | 0,8171486. . . -------------------------------------------------- --------------------------La razn de verosimilitud de la prueba sigma_u = 0: chibar2 (01) = 85,88 Prob> = = 0,000 chibar2
El efecto de AFDC es mucho ms cercano a cero y, afortunadamente, no es significativo, pero todava tiene el signo equivocado. La correlacin intra-estado en los dos aos es un notable 0,817; estado persistente en cuenta las caractersticas de un 82% de la variacin en el porcentaje con bajo peso al nacer despus de controlar por la participacin de AFDC y todas las dems variables. De efectos fijos: Ajuste de un modelo de efectos fijos, da resultados mucho ms razonable:
. xtreg lowbrth (stateid) Fe d90 afdcprc lphypc lbedspc lpcinc lpopul, i
De efectos fijos (dentro de) la regresin Nmero de obs = 100 Grupo variable (i): Nmero de grupos stateid = 50 R-cuadrado: = 0,3839 en Obs por grupo: min = 2 entre 0,1741 = media = 2,0 total = 0,1679 max = 2 F (6,44) = 4,57 corr (u_i, Xb) = -0.9394 Prob> F = 0,0011 -------------------------------------------------- --------------------------lowbrth | Coef. Enfermedades de transmisin sexual. Err. t P> | t | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------D90 | 0,1060158 0,3090664 0,34 0.733 -. 5168667 .7288983 afdcprc | -. 1760763 .0903733 -1.95 0.058 -. 3582116 0.006059 lphypc | 5.894509 2.816689 2.09 0.042 0.2178453 11.57117 lbedspc | -1.576195 0.8852111 -1.78 0.082 -3.36022 0.2078308 lpcinc | -. 8455268 1.356773 1.88887 -0.62 0.536 -3.579924
lpopul | 3.441116 2.872175 9.229604 1.20 0.237 -2.347372 _cons | -4.0138 22.97888 42.29708 -50.32468 -0,17 0,862 -------------+------------------------------------ --------------------------sigma_u | 3.0975315 sigma_e | .18464547 rho | .99645917 (fraccin de la varianza debido a u_i) -------------------------------------------------- --------------------------F prueba de que todos los u_i = 0: F (49, 44) = 59,46 Prob> F = 0,0000
Ahora, cada porcentaje de aumento en AFDC se asocia con una disminucin de casi 2/10-th de un punto porcentual en el peso al nacer. El coeficiente de registro mdicos por habitante es altamente sospechoso, esto es debido a la alta correlacin con los otros predictores, sobre todo en el registro de la poblacin. De hecho, una vez que hemos estado de efectos fijos que realmente no necesita el resto de controles:
. xtreg lowbrth d90 afdcprc, i (stateid) Fe
De efectos fijos (dentro de) la regresin Nmero de obs = 100 Grupo variable (i): Nmero de grupos stateid = 50 R-cuadrado: = 0,2602 en Obs por grupo: min = 2 entre 0,0948 = media = 2,0 total = 0,0694 max = 2 F (2,48) = 8,44 corr (u_i, Xb) = -0.4366 Prob> F = 0,0007 -------------------------------------------------- --------------------------lowbrth | Coef. Enfermedades de transmisin sexual. Err. t P> | t | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------D90 | 0,2124736 0,0542377 0,1034214 0,3215258 3,92 0.000 afdcprc | -. 168598 .0907986 -1.86 0.069 -. 3511609 .0139649 _cons | 7.267396 .3411409 21.30 0.000 6.581486 7.953306 -------------+------------------------------------ --------------------------sigma_u | 1.2476272 sigma_e | .19372976 rho | .97645624 (fraccin de la varianza debido a u_i) -------------------------------------------------- --------------------------F prueba de que todos los u_i = 0: F (49, 48) = 65,53 Prob> F = 0,0000
Una forma de ver lo que est pasando es calcular las diferencias y trama. Nos podra cambiar de ancho, pero se mantienen los datos en formato largo:
. . . . ao Ordenar stateid por stateid (aos): gen dlowbrth lowbrth = [2]-lowbrth [1] por stateid (aos): gen dafdcprc afdcprc = [2]-afdcprc [1] reemplazar dlowbrth =. si el ao 1987 ==
(50 cambios reales realizados, el 50 de desaparecidos) . reemplazar dafdcprc =. si el ao 1987 == (50 cambios reales realizados, el 50 de desaparecidos) . dos vas (dispersin dlowbrth dafdcprc) (lfit dlowbrth dafdcprc), / / / > Leyenda (off) xTitle (Cambio en el AFDC) ytitle (Cambio en el bajo peso al nacer) . grfico afdc2.png exportacin (Afdc2.png archivo escrito en formato PNG)
FE y de diferenciacin: Puede comprobar que se obtiene el mismo resultado utilizando una regresin en las diferencias. La constante es el coeficiente de d90 y la pendiente es el coeficiente de afdcprc :
. reg dlowb dafdc
Fuente | SS df MS Nmero de obs = 50 -------------+------------------------------ F (1, 48) = 3,45 Modelo | 0,258802651 0,258802651 un Prob> F = 0,0695 Residual | 3.60299693 48 0.075062436 R-cuadrado = 0,0670 -------------+------------------------------ Adj R-cuadrado = 0,0476 Total | 3.86179958 49 0.078812236 raz ECM = 0.27398 -------------------------------------------------- --------------------------dlowbrth | Coef. Enfermedades de transmisin sexual. Err. t P> | t | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------dafdcprc | -. 168598 .0907986 -1.86 0.069 -. 3511609 .0139649 _cons | .2124736 .0542377 3.92 0.000 .1034214 .3215258
-----------------------------------------------------------
------------------
FE y variables ficticias: Usted tambin puede verificar que obtener los mismos resultados utilizando maniques estado. Slo asegrese de matsize es lo suficientemente grande:
. . . conjunto matsize 100 silencio ficha stateid, gen (statedummy) reg lowbrth afdcprc d90 statedummy2-statedummy50
Fuente | SS df MS Nmero de obs = 100 -------------+------------------------------ F (51, 48) = 69,38 Modelo | 132.803596 51 2.60399208 Prob> F = 0,0000 Residual | 1.80149846 48 0.037531218 R-cuadrado = 0,9866 -------------+------------------------------ Adj R-cuadrado = 0,9724 Total | 134.605095 99 1.35964742 raz ECM = 0.19373 -------------------------------------------------- --------------------------lowbrth | Coef. Enfermedades de transmisin sexual. Err. t P> | t | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------afdcprc | -. 168598 .0907986 -1.86 0.069 -. 3511609 .0139649 D90 | 0,2124736 0,0542377 0,1034214 0,3215258 3,92 0.000 statedummy2 | 3.274314 2.861703 0.2052142 3.686925 15.96 0.000 statedummy3 | 2.974756 2.541473 0.2154956 3.408039 13.80 0.000 statedummy4 | 1.483325 1.073829 0.2036652 7.28 0.000 1.892821 ... salida suprimida ... statedummy50 | 2.597225 2.174031 0.2104775 3.020418 12.34 0.000 _cons | 5.367278 .3705424 14.48 0.000 4.622252 6.112303 -------------------------------------------------- ---------------------------
Las parcelas de Alternativa Aqu hay una alternativa para el primer grfico que muestra tanto entre como dentro de la variacin del estado de bajo peso al nacer y AFDC:
preservar mantener stateid d90 afdcprc lowbrth remodelar todo el lowbrth afdcprc, i (stateid) j (d90) dos vas (pcspike lowbrth0 afdcprc0 lowbrth1 afdcprc1) / / / (Dispersin lowbrth0 afdcprc0, color (azul)) / / / (Dispersin lowbrth1 afdcprc1, mcolor (rojo)) / / / , La leyenda (orden (2 "1987" 3 "1990") anillo (0) puntos de venta (5)) / / / xTitle ("% AFDC") ytitle ("% en peso bajo al nacer") / / / ttulo ("Bajo peso al nacer y AFDC por el Estado y el Periodo") restaurar afdc3.png grfico de las exportaciones, la anchura (500) reemplazar
Como puede ver, la tendencia predominante en todos los estados es una pendiente positiva: los estados con mayor porcentaje de AFDC tienden a tener un porcentaje ms alto con el bajo peso al nacer. Las lneas especficas del estado muestran una mayor variabilidad, con algunos suben y otros bajando, pero la pendiente media es negativa: los estados donde mayor AFDC tienden a mostrar una disminucin en el porcentaje con bajo peso al nacer.
Ejemplo 3: Asociacin de Unin

Se trata de un conjunto de datos utilizados en los manuales de Stata y en mi propio papel en la correlacin intra-clase para los datos binarios. Se trata de una submuestra de la Encuesta Longitudinal Nacional de la Juventud (NLSY) y tiene informacin de afiliacin sindical desde 1970 hasta 88 de 4.434 mujeres de 14 a 26 en 1968. Los datos estn disponibles en los sitios web de Stata y OPR
. claro
. uso http://opr.princeton.edu/stata/union (NLS Mujeres 14-24 en 1968)
Logits He aqu un modelo logit

. logit unin edad de grado not_smsa sur southXt 0: 1: 2: 3: log = probabilidad -13.864,23 log = probabilidad -13550,511 registro de probabilidad = -13.545,74 probabilidad log = -13545,736
Logit estimaciones Nmero de obs = 26200 LR 636,99 Prob> chi2 = 0.0000 Registro de probabilidad = -13545,736 Pseudo R2 = 0,0230 -------------------------------------------------- --------------------------Unin | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------edad | .0099931 .0026737 3.74 0.000 .0047527 .0152335 grado | .0483487 .0064259 7.52 0.000 .0357541 .0609432 not_smsa | -. 2214908 .0355831 -6.22 0.000 -. 2912324 -. 1517493 Sur | -. 7144461 .0612145 -11,67 0.000 -. 8344244 -. 5944678 southXt | .0068356 .0052258 1.31 0.191 -. 0034067 .0170779 _cons | -1.888256 0.113141 -2.110009 -1.666504 0.000 -16,69 -------------------------------------------------- --------------------------. estimaciones logit tienda chi2 (5) =
De efectos fijos Vamos a tratar de un modelo de efectos fijos primera

. xtlogit unin edad de grado not_smsa sur southXt, i (id) Fe
Nota: varios resultados positivos dentro de los grupos encontrados. Nota: 2744 grupos (14.165 obs) se redujo debido a todos positivos o todos los resultados negativos. Iteracin 0: log = probabilidad -4541,9044 Iteracin 1: log = probabilidad -4511,1353 Iteracin 2: log = probabilidad -4511,1042 Condicional de efectos fijos de logstica Nmero de regresin de obs = 12035 Variable de grupo (i): Nmero de grupos idcode = 1690 Obs por grupo: min = 2 media = 7,1 max 12 LR chi2 (5) = 78,16 Registro de probabilidad = -4511.1042 Prob> chi2 = 0.0000 -------------------------------------------------- --------------------------Unin | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+------------------------------------ --------------------------edad | .0079706 .0050283 1.59 0.113 -. 0018848 .0178259 grado | .0811808 .0419137 1.94 0.053 -. 0009686 .1633302 not_smsa | 0.113154 .0210368 0.19 0.853 -. 2007411 .2428146 =
en el sur | -1.007318 0.1500491 -6.71 0.000 -1.301409 -. 7132271 southXt | .0263495 .0083244 3.17 0.002 0.010034 0.0426649 -------------------------------------------------- --------------------------. estimaciones tienda fija
Tenga en cuenta cmo hemos perdido el 63% de nuestra muestra (2744 de 4434). Estas son las mujeres que no tienen una variacin de la afiliacin sindical. Vamos a comparar las estimaciones ms tarde. De efectos aleatorios Ahora que ajustar un modelo de efectos aleatorios:
. xtlogit unin edad de grado not_smsa sur southXt, i (id) modelo de comparacin de montaje: Iteracin 0: probabilidad log = -13.864,23 Iteracin 1: probabilidad log = -13550,511 Iteracin 2: Las probabilidades log = -13.545,74 Iteracin 3: probabilidad log = 13545,736 montaje completo modelo: tau = 0,0 probabilidad de registro = -13545,736 tau = 0,1 probabilidad de registro = -12926,225 tau = 0,2 probabilidad de registro = -12419,526 tau = 0,3 probabilidad de registro = -12003,162 tau = 0,4 probabilidad log = -11656,844 tau = 0,5 probabilidad de registro = -11.367,53 tau = 0,6 probabilidad log = -11129,716 tau = 0,7 probabilidad log = -10947,266 tau = 0,8 probabilidad log = -10845,532 Iteracin 0: probabilidad log = 10947,266 Iteracin 1: probabilidad log = -10604,628 Iteracin 2: Las probabilidades log = -10557,905 Iteracin 3 : probabilidad log = 10556,297 Iteracin 4: log = probabilidad -10556,294 de efectos aleatorios Nmero de regresin logstica de obs = 26200 Grupo variable (i): Nmero de grupos idcode = 4.434 efectos aleatorios u_i ~ Gauss Obs por grupo: min = 1 = avg 5.9 max = 12 Wald chi2 (5) = 221.95 = verosimilitud -10556,294 Prob> chi2 = 0.0000 ---------------------------- ------------------------------------------------- unin | Coef. Enfermedades de transmisin sexual. Err. z P> | z | Conf. [95%. Intervalo] -------------+---------------------------------- ----------------------------- edad | .0092401 .0044368 .0005441 .0179361 2.08 0.037 grados | 0,0840066 0,0181622 4,63 0.000 .0484094 .1196038 not_smsa | -. 2574574 .0844771 -3.05 0.002 -. 4230294 -. 0918854 sur | -1.152854 0.1108294 -10.40 0.000 -1.370075 -. 9356323 southXt | 0,0237933 0,0078548 0,0083982 0,0391884 3,03 0,002 _cons | -3.25016 .2622898 -12,39 0.000 -3.764238 -2.736081 -------------+-------------------------------------------------------------/ lnsig2u | 1.669888 1.585607 1.75417 0.0430016 ----- --------+---------------------------------------- ----------------------- sigma_u | 2.304685 2.209582 2.403882 .0495526 rho | .6175213 .0101565 .5974278 .6372209 --------- -------------------------------------------------- ----------------- la razn de verosimilitud de la prueba de rho = 0: chibar2 (01) = 5.978,89 Prob> = chibar2 = 0,000. estimaciones tienda al azar
Comparaciones He aqu un cuadro comparativo de las estimaciones (se utiliza la equation opcin para Stata pueden encontrar las estimaciones correctas).
. tabla de estimaciones logit aleatoria ecuacin fija, (1)
-------------------------------------------------- --Variable | fijos logit aleatoria -------------+------------------------------------ --# 1 | edad | .00999311 .00924011 .00797058 grado | .04834865 .08400659 .08118077 not_smsa | -. 22149081 25745741 .02103677 -. en el sur | 71444608 -. -1.1528539 -1.0073178 southXt | .0068356 .02379331 .02634948 _cons | -1.8882564 -3.2501596 -------------+------------------------------------ --lnsig2u | _cons | 1.6698883 -------------------------------------------------- ---
El principal cambio est en el coeficiente de not_smsa . Se podra pensar que esto indica algo malo con el logit y modelos de efectos aleatorios, pero tenga en cuenta que slo las mujeres que han pasado entre la norma reas estadsticas metropolitanas y otros lugares contribuir a la estimacin de efectos fijos. Parece razonable pensar que estas mujeres se diferencian del resto. Los coeficientes de efectos aleatorios son mayores en magnitud que los coeficientes logit ordinarias. Esto es casi siempre el caso. La omisin de los sesgos de efectos aleatorios de los coeficientes a cero. Correlacin intraclase La estimacin de efectos aleatorios muestra una correlacin intra-clase de 0,6175, lo que indica una alta correlacin entre la propensin de la mujer a ser miembro de un sindicato en los distintos aos despus de controlar por la educacin y la residencia. Mi papel con Elo en la revista Stata, 2003, muestra cmo se puede interpretar en trminos de una razn de posibilidades y se traducen en medidas de correlacin manifiesta con xtrho , un comando en el sitio web OPR (tipo net from http://opr.princeton.edu/stata ). Para la mujer promedio de la correlacin entre la afiliacin sindical real en cualquiera de los dos aos es 0,408 con r de Pearson y 0.769 con Q. de Yule

Stata Registros

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Stata Registros

Încărcat de

Drepturi de autor:

Formate disponibile

Stata Registros. German Rodroguez Princeton University http://data.princeton.

Modelos lineales en Stata

2.1 Los datos del programa Esfuerzo

2.4 Regresin lineal simple

2.5 Regresin mltiple

2.6 Una forma de anlisis de varianza

De alta | 23.75 10.264363 8 ------------+-----------------------------------Total | 14,3 11.810343 20

2.7 de dos vas de anlisis de varianza

2.8 Anlisis de los modelos de covarianza

. estimaciones tienda ANCOVA / / guardar los resultados para su uso posterior

establecimiento de cambio de silencio regresan i.effort_g mrgenes i.effort_g, al ((media) de ajuste)

El testparm presentado anteriormente es muy til para probar el trmino de interaccin

2.9 Diagnstico de regresin

Ahora podemos ajustar nuestro modelo con el siguiente comando

Ahora estamos listos para imprimir la tabla 2.29 en las notas

2.10 La transformacin de los datos

_cons | -3.858157 6.197538 9.351583 -17.0679 -0,62 0,543 -------------------------------------------------- ---------------------------

3 Modelos Logit en Stata

3.3 La comparacin de dos grupos

. pantalla "Desviacin =" DI [_N] Desviacin = 91.674393

. pantalla e (desviacin), e (deviance_p) 91.674397 92.644243

. di (_b [nomore] / _se [nomore]) ^ 2 89.777623

3.4 La comparacin de varios grupos

. pantalla e (desviacin) 2.4033519

. pantalla "Desviacin =" DI [_N] Desviacin = 2.4033537

3.5 Los modelos con dos variables predictoras

Iteracin Iteracin Iteracin Iteracin Iteracin

. pantalla 2 * e (ll) 1924.5018

Iteracin Iteracin Iteracin Iteracin Iteracin

Nmero de regresin logstica de obs = 1607

Iteracin Iteracin Iteracin Iteracin Iteracin

Nmero de regresin logstica de obs = 1607

Nmero de regresin logstica de obs = 1607

chi2 (4) = 62,45 Prob> chi2 = 0.0000 . lrtest edad.

Iteracin Iteracin Iteracin Iteracin Iteracin

generacin nom_agelt25 = nomore * (edad == 1)

Nmero de regresin logstica de obs = 1607

Iteracin Iteracin Iteracin Iteracin

Iteracin Iteracin Iteracin Iteracin Iteracin

Nmero de regresin logstica de obs = 1607

Iteracin Iteracin Iteracin Iteracin Iteracin

Nmero de regresin logstica de obs = 1607

Iteracin Iteracin Iteracin Iteracin

Trazado de logits observados y amueblada

3.6 Multi-factor de modelos: seleccin de modelo

Iteracin Iteracin Iteracin Iteracin Iteracin

Nmero de regresin logstica de obs = 1607

Iteracin Iteracin Iteracin Iteracin Iteracin

Nmero de regresin logstica de obs = 1607

Iteracin Iteracin Iteracin Iteracin Iteracin

As que aqu es un modelo ms parsimonioso

Nmero de regresin logstica de obs = 1607

3.7 Otras opciones de Enlace

3.8 Diagnstico de regresin para datos binarios

Iteracin Iteracin Iteracin Iteracin Iteracin

Nmero de regresin logstica de obs = 1607

. di r (suma) 29.917221 . . generacin prsq = pr ^ 2 en silencio suma prsq si Cuse == 1

4 modelos de Poisson en Stata

4.3 Un modelo de Poisson para la Cuenta

locales educ lowerPri upperPri secPlus

Iteracin Iteracin Iteracin Iteracin

Iteracin Iteracin Iteracin Iteracin

Nmero de regresin de Poisson de obs = 70

Iteracin Iteracin Iteracin Iteracin