Modelos Lineales Generalizados-1glm

Diario de Planificacin e Inferencia Estadstica
139 volumen, nmero 9 , 1 de septiembre de 2009, pginas 2970-2987
Modelos lineales generalizados transformadas

M. Gauss Cordeiro una , Marinho G. de Andrade
un
, b
Departamento de Estatstica e Informtica, Universidad Federal Rural de Pernambuco, 52171-900, Recife, PE,
Brasil
b
Departamento de Matemtica Aplicada y Estadstica, Instituto de Ciencias Matemticas e de Computao,
Universidade de So Paulo, CP668, 13560-970, So Carlos, SP, Brasil
Abstracto
La estimacin de la transformacin de datos es muy til para producir variables de respuesta que cumplan estrechamente un modelo lineal normal. Los modelos lineales generalizados permiten el ajuste de modelos para una amplia gama de tipos de datos. Estos modelos se basan en modelos de dispersin exponenciales.Proponemos una nueva clase de modelos lineales generalizados transformadas para extender el modelo de Cox y caja y los modelos lineales generalizados. Usamos el marco del modelo lineal generalizado para adaptarse a estos modelos y discutir estimacin de mxima verosimilitud e inferencia. Damos una frmula simple para estimar el parmetro de que el ndice de la transformacin de la variable de respuesta para una subclase de modelos. Tambin damos una frmula sencilla para calcular el r th momento de la variable dependiente originales. Exploramos la posibilidad de utilizar estos modelos para series temporales de datos para extender los modelos autorregresivos de medias mviles generalizados a nalizados por Benjamin et al.[Modelos de media mvil autorregresiva generalizada. J. Amer. Estatista. Assoc. 98, 214-223]. La utilidad de estos modelos se ilustra en un estudio de simulacin y en aplicaciones a tres conjuntos de datos reales.
Palabras clave
Parmetro de dispersin ; Familia exponencial ; Familia de transformaciones ; Modelo lineal generalizado; Modelo ARMA generalizada ; Razn de verosimilitud ; Perfil de riesgo
1. Introduccin
El uso de las transformaciones en el anlisis de regresin es muy comn y puede ser til cuando el modelo original no satisface los supuestos habituales. La familia de transformacin de la energa propuesto por caja y Cox (1964) se utiliza a menudo para la transformacin de un modelo lineal normal. Los modelos de Box-Cox aaden herramientas tiles para la estadstica aplicada, relacionada con los aspectos separables de homogeneidad de varianza, el modelo de aditividad y la distribucin normal. Modelos lineales generalizados (GLM), introducidos por primera vez por Nelder y Wedderburn (1972) , han demostrado su utilidad en la ampliacin de los modelos normales clsicos. Consideramos el problema de extender los modelos de Box-Cox para un marco no gaussiana con heterocedasticidad y una posible funcin de los parmetros de regresin no lineal. Se define una nueva clase de modelos lineales generalizados transformadas (TGLMs) para extender los modelos de Box-Cox y GLM simultneamente. Mostramos cmo se extiende la clase de GLM, manteniendo la mayor sencillez posible, y tambin demuestran cmo utilizar un nico algoritmo para el montaje de todos los modelos de esta clase. Trabajamos con una familia en general paramtrica de las transformaciones de la variable respuesta Y a ecuacin( 1 )
= ( Y , ),
Gire MathJaxen
donde es un parmetro escalar que define una transformacin en particular. Se requiere generalmente que para cada , Y transformamos Y a Y
( (
es una funcin monotnica de Y . Si

)
entonces Y
(
tendr un coeficiente de asimetra mayor o menor
que Y en funcin de si ( Y , ) es convexa o cncava. Con mucho, la ms comn de las transformaciones de la familia es la Caja y (1964) Coxtransformacin poder dado por S
(
( S - 1 ) / cuando l a m b d a 0 o S
= l o g ( Y ) cuando = 0 . Por lo general, se
supone que existe un valor para la variable de respuesta tal que Y ( es cierto. En la familia de Box-Cox, Y
sigue un modelo de
regresin lineal = X con errores normales y varianza constante. En la prctica esto rara vez
(
es convexa para > 1 y cncava para < 1 . La
informacin correcta asimtricos son ms comunes que la izquierda sesgada, y esto explica por qu es tpicamente menos de uno de cada prctica. Se supone con frecuencia en relacin con la transformacin de la energa que Y es positivo, y si Y podra forma: Y haber muchos valores negativos de sera claramente inadmisible. Manly (1976) propuso la transformacin exponencial para ser utilizado con el negativo Y 's de la
(
( e S -1)
/ cuandol a m b d a
0 oS
= Y cuando =
0 . Esta
transformacin parece ser eficaz en el torneado de distribuciones unimodales sesgar en casi simtricas distribuciones normales-como. Transformaciones alternativos para la transformacin de la energa y las pautas para elegir la transformacin (1) , en la prctica son discutidos por Sakia (1992) y Yeo y Johnson (2002) . El tipo Box-Cox de las transformaciones de energa ha generado un gran inters, tanto en el trabajo terico y aplicaciones prcticas. Procedimientos de inferencia de los coeficientes de regresin y de los parmetros de transformacin bajo este modelo de ajuste han sido ampliamente estudiados. Es evidente que no todos los datos se podran poder -transformaron a la normalidad. Mientras Draper y Cox (1969) han demostrado que la estimacin de es bastante robusto para no normalidad, siempre y cuando la variable tiene una distribucin razonablemente simtrica, esto puede no ser el caso cuando se encuentra asimetra. Ellos estudiaron este problema y concluyen en un ejemplo de que si los datos en bruto siguen una distribucin exponencial, los valores de cerca de su estimacin, de hecho, el rendimiento de las distribuciones que son, de hecho, Weibull transformado pero se ven muy parecidas a las distribuciones simtricas. Entonces, las transformaciones de energa pueden ser tiles incluso en situaciones en las que no pueden producir la normalidad exactamente. Bickel y Doksum (1981) estudiaron la estimacin conjunta de y y demostr que la varianza asinttica marginal (incondicional) de la estimacin de mxima verosimilitud (MLE) de pueden ser inflados por un gran factor sobre la varianza condicional fija . Aunque no parece haber ningn resultado definitivo, la mayora de los investigadores coinciden en que si bien hay un efecto en no conocer el verdadero valor de , su coste no puede ser lo suficientemente grande como para desacreditar a la aplicacin convencional basada en el condicionamiento. Lawrence (1987) dio una expresin para la variacin estimada de la EMV de . Guerrero y Johnson (1982) sugirieron una transformacin de la energa aplicada a la razn de posibilidades de generalizar el modelo logstico. Para proporciones continuas, que definen la transformacin l o g { Y / ( 1 - Y ) } aplicado a Y en la transformacin de Box y Cox. Otra transformacin propuesto por Aranda-Ordaz (1981) para las proporciones continuas se define por
Gire MathJaxen
que se reduce a la transformacin logstica cuando = 0 y para la transformacin lineal cuando = 1 . GLM se basan en distribuciones que son los modelos de dispersin exponenciales, que se analizan en gran detalle en Jorgensen (1997) , extender el modelo lineal normal, incluir un algoritmo general para MLEs de computacin y permitir el montaje de diferentes tipos de modelos para una amplia gama de tipos de datos . A pesar de la transformacin de la energa se ha utilizado ampliamente, una cosa est clara que rara vez se hace esta transformacin cumplan los supuestos bsicos de la linealidad, normalidad y homocedasticidad simultneamente. Esta transformacin ha encontrado utilidad ms prctica en la determinacin emprica de las relaciones funcionales en una variedad de campos, especialmente en la econometra. En vista de ello, trabajamos con una familia general de transformacion es montonas (1) (que se basa datos) y combinamos la idea de transformar la variable de respuesta con el marco GLM. TGLMs asumen que existe algn valor de de tal manera que las variables aleatorias transformadas puede ser tratado como distribuido de forma independiente despus
de los supuestos bsicos GLM. La exactitud de estos supuestos puede no ser importante en las aplicaciones. Por consiguiente, consideramos la posibilidad de una variacin heteroscedastic, una familia ms general de la distribucin de la variable de respuesta y una funcin no lineal de los parmetros de regresin. El valor ptimo de puede conducir a una ms cerca GLM ajustada a los datos transformados. Las fuertes suposiciones dentro de los modelos de Box-Cox que la transformacin de la energa se obtiene un modelo ms casi lineal, la estabilizacin de la varianza del error con un error de distribucin normal, entonces se relajaron. En la Seccin 2 se definen los TGLMs y un resumen de los principales resultados. La estimacin de mxima verosimilitud se discute en la Seccin 3 y algunos modelos especiales se consideran en la seccin 4 . En la Seccin 5 le damos frmulas generales para los momentos de la variable aleatoria no transformada. En la Seccin 6 se discute el modelo de inferencia. En la Seccin 7 se considera el problema de extender nuestro enfoque para hacer frente a los modelos no gaussianos de series de tiempo mediante la propuesta de una extensin de la media mvil autorregresiva generalizada (GARMA) modelos definidos por Benjamin y otros.(2003) . En la seccin 8 , se presentan estudios de simulacin para ilustrar la metodologa de ajuste de los TGLMs. En la Seccin 9 , se analizan tres conjuntos de datos reales. El artculo termina con algunas conclusiones en la Seccin 10 .
2. Definicin del modelo

Deje que y = ( y
1
, . . . , y n ) T el vector de observaciones y mediante el uso de (1) se

. Asumir las variables aleatorias que tiene un modelo de
obtienen las observaciones transformadas transformadas en Y

(
sea independiente y cada una
dispersin exponencial continua con la funcin de densidad de probabilidad (con respecto a la medida de Lebesgue) de la forma ecuacin( 2 )
Gire MathJaxen
donde b ( x ) y c ( x , ) se conocen las funciones correspondientes. Algunas de las distribuciones estadsticas son ms tiles dentro de la forma (2) . El parmetro se llama el parmetro de dispersin y es la misma para todas las observaciones, aunque posiblemente desconocida. La idea de un modelo de dispersin exponencial se remonta a Tweedie (1947) , que se percat de muchas de las propiedades matemticas importantes y los casos especiales de los modelos de dispersin exponencial. Un estudio sistemtico de las propiedades de estos modelos fue presentado por Jorgensen (1997) . No consideramos que los miembros de (2) que son distribuciones discretas tales como Poisson, binomial, binomial negativa y compuestos distribucin de Poisson, pero podemos trabajar con proporciones respectivamente, continuas. La media y y la , varianza de son,
Donde V = V ( ) es un conocido uno-
= d / d es la funcin de la varianza. El parmetro
a-uno la funcin de . El modelo de dispersin exponencial (2) se caracteriza de forma nica por su funcin de la varianza V , que desempea un papel clave en el estudio de sus propiedades matemticas y en la estimacin. Para los modelos de gamma, el parmetro de dispersin es el recproco del ndice; para los modelos normales e inversas de Gauss, es la varianza y , Respectivamente. Estos son los modelos continuos ms importantes en (2) . Nuestro objetivo es hacer una transformacin paramtrica Y manera que Y
( (
de una respuesta variable Y de los GLM. Nuestra forma
satisface
los
supuestos
habituales
de
generalizada (1) se utiliza para determinar la forma especfica dentro de una clase particular de funciones de transformacin que es ptima por referencia a un criterio de mxim a verosimilitud. Se define la TGLM por las familias de transformaciones(1) y distribuciones de (2) y el componente sistemtica ecuacin( 3 )
g ( ) = = X ,
Gire MathJaxen
donde g ( ) es un conocido uno-a-una funcin continuamente diferenciable dos veces -, X es un especificada n p modelo de matriz de rango completo p < n y = (
1
, . . . , p ) T es
un conjunto de a estimar los parmetros desconocidos lineales. La funcin de enlace se supone que es monotnica y diferenciable. Los p 2 parmetros de los TGLMs a estimar son entonces el vector y los escalares y . TGLM formaliza la nocin de que una cierta forma de la GLM sera apropiado para una transformacin de la respuesta, en los que no se conoce la transformacin necesaria para lograr la forma GLM antes de recoger los datos. El objetivo de la transformacin (1) es para asegurar que los supuestos habituales (2) y (3) para los GLM se mantienen para la variable transformada Y
(
. Para ajustar la gamma transformado y modelos es positiva.
gaussianos inversas para algunos tipos de datos, a veces es necesario tener en cuenta dentro de unos valores lmite para garantizar que Y
(
Por consiguiente, podemos resumir los TGLMs en la forma de tres componentes de importancia estructural: una familia general de transformaciones, una forma ms general para la distribucin de la respuesta transformada y una posible funcin de enlace no lineal para los parmetros de regresin. TGLMs luego son una extensin de los GLM y tienen algunos c asos especiales importantes: los modelos de Box-Cox para que la transformacin (1) es la caja y el poder de la familia Cox, la distribucin en (2) es normal y el componente sistemtico es = = X ; los GLM clsicos para el que la funcin de transformacin es independiente de dado por ( Y , ) = Y , y los modelos lineales generalizados de potencia (PGLMs) definidos aqu cuando (1) es simple Y
(
la
transformacin
de
Box-Cox
el
poder
de
transformacin
= Y adems de las Ecs. (2) y (3) .
La funcin C ( x , ) juega un papel fundamental en el proceso de montaje TGLMs pero se puede dejar sin especificar sin afectar a la estimacin de probabilidad basada en los parmetros lineales. No tiene por simples expresiones de forma cerrada para varios modelos de dispersin exponencial; ver, la dispersin de los modelos continuos exponenciales con funciones de varianza de poder discutidos por modelo secante hiperblica generalizada (GHS) y Jorgensen (1997) . Sin embargo, cuando (2) es un modelo exponencial de dos parmetros completo con los parmetros cannicos 1 / y / , c ( x , ) tiene la siguiente descomposicin: ecuacin( 4 )
Gire MathJaxen
Eq. (4) tiene para el normal, gamma y modelos gaussianos inversos pero no se sostiene, en general, para los modelos de dispersin exponenciales.
3. Guarnicin modelo
Nosotros observamos el modelo de matriz X y los datos en bruto y y suponemos que la respuesta transformada Y
(
para algunos desconocidos parmetro de transformacin en (1) satisface . El mtodo de
las suposiciones GLM habituales (2) y (3) . El objetivo principal en el anlisis de los TGLMs es hacer la inferencia de probabilidad sobre los parmetros del modelo logartmica para podra ser difcil de calcular en algunos casos. Deje J ( , y ) sea el jacobiano de la transformacin de Y a Y
(
mxima verosimilitud se utiliza ya que es conceptualmente fcil, aunque el perfil de verosimilitud . El diario de probabilidad
para los parmetros del modelo puede escribirse en trminos del vector de las observaciones transformadas ecuacin( 5 ) como
Gire MathJaxen
donde
Gire MathJaxen
Para maximizar la probabilidad logartmica (5) , asumimos primero que es fijo y a continuacin, obtener las ecuaciones de probabilidad para estimar y . El vector puede estimarse sin conocimiento de . Dada la transformacin de parmetros , y mucho , y sern los MLEs de , , y , respectivamente. La estimacin
(
se
puede obtener fcilmente a partir de la instalacin de la GLM (2) y (3) a y reponderados mnimos cuadrados. La iteracin es ecuacin( 6 )
por iterativamente
Gire MathJaxen
donde W = d i a g { w y
, . . . , w n } es una matriz diagonal con los

es el vector de trabajo con los componentes
Gire MathJaxen
Dada una primera aproximacin
, Evaluamos
de la cual la ecuacin. (6) se
puede utilizar para obtener el siguiente estimacin y
. Este nuevo valor se puede actualizar
, Y por lo que las iteraciones continan hasta que se observa la convergencia.
Estimacin del parmetro de dispersin es un problema ms difcil que la estimacin de y la complejidad depende de la forma funcional de c ( x , ) . En principio, tambin podra ser estimado por mxima verosimilitud, aunque puede haber dificultades prcticas para algunas distribuciones en (2) . El MLE ecuacin( 7 ) de para fija es
Gire MathJaxen
donde y
. , Y luego calcular la desviacin D del TGLM, acondicionado en , que
Para una varianza dada la funcin V ( x ) , podemos obtener fcilmente

(
se define como el doble de la diferencia del logaritmo de la verosimilitud correspondiente al modelo saturado y el mximo de la log-verosimilitud para el modelo investigado mximo. Esta estadstica para dado slo depende de los datos y no sobre cualquiera de los parmetros des conocidos y se puede escribir como ecuacin( 8 )
Gire MathJaxen
donde ecuacin( 9 )
Gire MathJaxen
es el componente de la desviacin de la i observacin calculado de la manera habitual y e ( x ) = x q ( x ) - b ( q ( x ) ) . Ejemplos de funciones de desviacin para algunos modelos de dispersin exponenciales se dan por Jorgensen (1997) . El MLE es una funcin de la desviacin (8) del modelo. Usando (7) obtenemos
ecuacin( 10 )
Gire MathJaxen
Eq. (10) es en general no lineal, excepto para los modelos gaussianos normales e inversas y requiere el uso de un algoritmo numrico no lineal para la estimacin de . Colocacin de las MLEs y en (5) da el perfil de log-verosimilitud para
ecuacin( 11 )
Gire MathJaxen
La expresin resultante l P ( ) en trminos de la desviacin de la TGLM es ecuacin( 12 )
Gire MathJaxen
Para poner en prctica las ecuaciones (10) y (12) para cualquier TGLM necesitamos la funcin e ( x ) y c ( x , ) , la desviacin D numricamente el valor del MLE . Una vez
(
y el Jacobiano. La trama del perfil de log-
verosimilitud l P ( ) en (12)en contra de para una serie de prueba de valores determina se obtiene a partir de la trama, que puede ser
sustituido en el algoritmo (6) y (10) para producir las estimaciones incondicionales y . El proceso de estimacin de , y puede llevarse a cabo por el software
estadstico estndar tales como MATLAB, S-PLUS, R y SAS.
Para algunos modelos de dispersin exponencial, el EMV del parmetro de dispersin en (10) puede ser muy complicada y podemos usar un mtodo de momentos estimador para obtener una estimacin consistente de directamente del MLE Pearson de . Tenemos la estimacin de
Gire MathJaxen
Esta estimacin podra ser insertado en (12) para producir un perfil modificado de verosimilitud logartmica para que se maximiza en la forma habitual. Otra alternativa para la estimacin sencilla que podra ser utilizado en (12) es la estimacin basada en la desviacin obtenida a partir de sobre la base de que el valor esperado de D
(
/ es
aproximadamente n - p . Para los modelos gamma transformadas, el MLE de se debe preferir. Para dos parmetros completos distribuciones de la familia exponencial, ponemos la descomposicin (4) en la expresin (10) para producir la ecuacin no lineal para ecuacin( 13 )
Gire MathJaxen
donde t ( x ) = x q ( x ) - b ( q ( x ) ) + u n ( x ) . Tapar (7) en (11) , encontramos que ecuacin( 14 )
Gire MathJaxen
donde v ( x ) = x d
'
( x ) + d ( x ) . Es muy fcil para trabajar con las Ecs. (13) y (14) . <? ( x ) para algunos TGLMs que nos permiten calcular
MCtwidthcolumnwidth> Tabla 1 proporciona las funciones d ( x ) , t ( x ) , v ( x ) y d

1
en (13) y el perfil de verosimilitud logartmica (14) , donde ( ) y ( ) son las funciones digamma gamma y, respectivamente. Para los modelos normales transformadas, (14) es idntica a la ecuacin. (8) dada por caja y Cox (1964) y puede ser visto como una generalizacin de esta ecuacin para algunos otros modelos continuos.
Tabla 1. Algunos modelos transformadas especiales.
Modelo Normal Gama
d ( x )
t ( x )
0
v ( x )
( x )
-1
0
- log ( x )
IG
Opciones de tabla
TGLMs pueden ser extendido al permitir que el parmetro de dispersin de la respuesta tiene una estructura definida por su propio conjunto de covariables y mediante el uso de un predictor lineal para la media de la forma g ( ) = = ( X ; ) . Todas estas extensiones se deben examinar en una futura investigacin.
4. Modelos especiales
Para los modelos Gaussianos normales e inversas transformadas, (13) los rendimientos ecuacin( 15 )
Gire MathJaxen
y el perfil de log-verosimilitud para en (14) se reduce a ecuacin( 16 )
Gire MathJaxen
Para maximizar el perfil diario de probabilidad (16) , slo tenemos que encontrar un valor que minimiza la relacin siguiente ecuacin( 17 )
Gire MathJaxen
donde donde
son las medias geomtricas de los
y J ( , y i ) para i = 1 , , En
. . . , n , respectivamente. Para PGLMs con la transformacin Box-Cox,
es la media geomtrica de los datos originales y, en particular, para los modelos de Box -
Cox ( V = 1 ), la frmula(17) se obtiene un resultado conocido propuesta por Yang y Abeysinghe (2002) . Para transformado modelos gamma, usando un resultado dado por Cordeiro y McCullagh (1991) , la ec. (13)se reduce a ecuacin( 18 )
Gire MathJaxen
Una solucin aproximada para los
en (18) para la pequea es
Gire MathJaxen
La suma de los dos primeros trminos en (16) se sustituye por
, En donde
Gire MathJaxen
Cuando es suficientemente pequeo, podemos obtener para ordenar O (
Gire MathJaxen
lo que da ecuacin( 19 )
Gire MathJaxen
Claramente, (19) converge a la forma (16) cuando P h i 0 . De hecho, el perfil de verosimilitud logartmica para para todos los TGLMs tiene la misma forma (16) para los valores de los
parmetros de dispersin muy pequeos. Este hecho se deduce ya que, cuando tiende a cero, el modelo de dispersin exponencial(2) se puede escribir en el lmite, cuando
Gire MathJaxen
donde caso asinttico,
es la i cierto componente de desviacin correspondiente a (9) . Para este se acaba de obtener a partir de (15) . Esta expresin se puede justificar en
cierta medida como una aproximacin punto de silla de (2) siempre que y todos cumulantes de orden superior son lo suficientemente pequeas y es exacta slo para los modelos Gaussianos normales e inversas. Est claro que la ecuacin. (17) para el MLE de es vlido para cualquier TGLM con el parmetro de dispersin muy pequea.
5. Los momentos retransformados

En primer lugar, se estima la media de la variable dependiente no transformada Y i mediante el uso de un mtodo anlogo
la
pequea- mtodo
dado
en Draper
Cox
(1969) . Cuando l a m b d a 0 , podemos escribir
Y = (1 + lambda mu )
1 /
{1 + ( Y - )}
1 /
,
Gire MathJaxen
donde = / ( 1 + l a m b d a m u ) . A partir de la expansin binomial, obtenemos
Gire MathJaxen
Tambin tenemos ecuacin( 20 )
Gire MathJaxen
donde
y i es el i th momento central de Y
. Los momentos centrales
del modelo de dispersin exponencial se obtienen fcilmente a partir de la relacin de recurrencia de sus cumulantes. Nosotros y as sucesivamente, en donde V
(
= d r V / d r . Eq. (20) generaliza la expansin dada por Pankratz y Dudley

-1
(1987) para el factor de no polarizacin obtenida cuando
es un nmero entero positivo y los
datos transformados es normal ( V = 1 ). Si tenemos en cuenta slo el primer trmino en (20) se obtiene una generalizacin de las expresiones dadas en Taylor (1986) yGuerrero (1993)
Gire MathJaxen
que es vlida slo para datos normales transformadas. El factor de correccin entre llaves es mayor que uno si < 1 y menor que uno si > 1 . Adems, podemos obtener el r momento ordinaria de Y mediante la expansin del binomio { 1
+ ( Y - )} r
ecuacin( 21 )
de la misma manera. Tenemos
Gire MathJaxen
donde
. Claramente,
. Combinando (21) y (20) podemos obtener

-
todos los cumulantes de Y hasta un orden de ( 1 + l a m b d a m u ) la varianza deY a fin de ( 1 + l a m b d a m u )

-4
v de
v 2 . En especial,
puede ser escrito como
Gire MathJaxen
Una estimacin evidente de E ( Y r ) sigue utilizando los MLEs de los parmetros , y . La idoneidad de esta expresin en trminos de y debe ser investigado en simulaciones de Monte Carlo. Cuando = 0 , podemos obtener de E ( Y r ) = e r E { e r
(
( 0 )
Gire MathJaxen
Para los modelos bien equipados, las cantidades varianza deY como sigue
para i > 2 por lo general ser pequea. La
Gire MathJaxen
Tabla 10. Una comparacin de los modelos de armarios. Datos 1 Modelo Gama 1 25.2380 14.3412 -77.8956 1.6076 1 10.6890 16.2125 -123,836 20.6574 1 4.7802 6.7269 -267.4472 9.2220 0.2580 2.9769 3.4955 -262.8362 0.4070 1.6230 3.3961 -113.5073 0.272 20.3860 6.4130 -77.0918 Inversa de Gauss 1 47.5060 16.6307 -83.9105 7.7602 1 50.8540 34.6076 -137.5813 46.5794 1 19.508 380.0793 -442.7164 223.2902 Opciones de tabla -0.223 5.1389 2.5561 -331.0713 0.1260 1.2870 1.5402 -114.2916 -0,0660 21.9504 3.9665 -80.0304
MSE (%) MAPE (%)
w
MSE (%) MAPE (%)
w
MSE (%) MAPE (%)
Ahora ilustraremos grficamente algunos PGLMs armarios. Fig. 2 , la fig. 3 y la fig. 4 se refieren al modelo de Gauss inversa de potencia instalada en el primer conjunto de datos (tasa de analfabetismo en comparacin con el ingreso familiar). Fig. 2 muestra la curva de log-verosimilitud perfil representa frente a la transformacin de parmetros . Su mximo de - 8 0 , 0 3 0 4 se produce cerca de =
- 0 . 0 6 6 0 y existe una gama considerable de valores compatibles
para incluyendo el cero, que corresponde a la transformacin logartmica. figura. 3 muestra que el modelo de Gauss inversa de alimentacin est bien equipado. Fig. 4 muestra que las medias estimadas de las observaciones originales, predijeron usando slo el primer trmino de (20) estn muy bien volver a transformarse.
. Figura 2. La curva de log-verosimilitud perfil para para el modelo de Gauss inversa de potencia instalado en el conjunto de datos 1. Opciones Figura
. Figura 3. Parcela de conjunto de datos 1.
versus
para el modelo de Gauss inversa de potencia instalado en el Opciones Figura
. Figura 4. no transformado los valores Y y medios estimados del modelo de IG potencia instalado en el conjunto de datos 1.
en comparacin con los resultados Opciones Figura
. Figura 5 , la fig. 6 y la fig. 7 muestran el modelo de Gauss inversa de potencia instalado en el segundo conjunto de datos (cantidad de horas-hombre frente al nmero de casos quirrgicos). El perfil de log-verosimilitud en la figura. 5 es bimodal y la maximizacin del valor global de las se transformadas produce cerca . En la fig. 6 que trazan las observaciones contra los medios de armarios . Este grfico es aproximadamente lineal y
claramente da un indicativo de que el modelo de Gauss inversa de alimentacin proporciona un ajuste razonablemente bueno para el conjunto de datos 2.Fig. 7 parcelas de los datos originales y los valores esperados estimados en comparacin con el nmero de casos quirrgicos que confirman que el modelo de Gauss inversa de potencia da tambin una buena prediccin en la escala original. figura. 8 , fig. 9 y fig. 10 se refieren al modelo gamma de energa instalada en el tercer conjunto de datos (pesos y longitudes de los camarones). Fig. 8 muestra el perfil de log-verosimilitud representaron frente a dando el valor ptimo parmetro de transformacin. Un aproximado d e l para el de confianza se
9 5 % intervalo
para es ( 0 . 0 8 3 0 , 0 . 4 3 0 0 ) . Fig. 9muestra una buena concordancia entre la respuesta transformada y la media ajustada. En la fig. 10 , los valores originales y predicho y medios produce medios estimados exactos para las observaciones originales. trazan contra las longitudes ( x ) de los camarones que muestran que el modelo gamma de energa
. Figura 5. La curva de log-verosimilitud perfil para para el modelo de Gauss inversa de potencia instalado en el conjunto de datos 2. Opciones Figura
. Figura 6. Parcela de conjunto de datos 2.
versus
para el modelo de Gauss inversa de potencia instalado en el Opciones Figura
. Figura 7. Parcelas de y y
frente a los casos quirrgicos para el modelo de Gauss inversa de Opciones Figura
potencia montado en el conjunto de datos 2.
. Figura 8. Perfil log-verosimilitud para para el modelo gamma de energa instalado en el conjunto de datos 3. Opciones Figura
. Figura 9. Parcela de 3.
versus
para el modelo gamma de energa instalado en el conjunto de datos Opciones Figura
. Figura 10. Los grficos de los valores de no transformado y medio y unos el modelo gamma de energa instalado en el conjunto de datos 3.
frente a la longitud para Opciones Figura
Por ltimo, estas aplicaciones muestran que los TGLMs podran ser tcnica prctica, eficaz y til para el anlisis de conjuntos de datos reales.
10. Conclusin
El punto de partida en el desarrollo de los modelos lineales generalizados transformadas (TGLMs) es la idea de un modelo lineal generalizado (GLM). Definimos TGLMs como una sntesis de dos
clases de modelos existentes utilizados: modelos de Box-Cox y GLM. La generalizacin tiene como objetivo hacer un uso ms amplio de GLM, s un sub-modelo de TGLMs. La eleccin de los componentes para un TGLM es una tarea muy importante en el desarrollo y la construccin de un modelo adecuado. TGLMs son muy eficaces en el modelado de una respuesta media de regresin de los datos continuos. Le damos un algoritmo comn para la estimacin de los parmetros por mxima verosimilitud que utiliza re-mnimos cuadrados ponderados con una variable dependiente ajustado. Los MLEs de todos los parmetros de esta nueva clase de modelos se pueden obtener fcilmente. Condicional en el parmetro de transformacin, TGLM puede ser visto como un GLM estndar y que puede utilizar todas las herramientas de GLM para la inferencia . Tambin podemos calcular los momentos de la variable dependiente transformada utilizando frmulas simples que generalizar algunos resultados previos en la literatura. Se presenta una idea de extender TGLMs para hacer frente a los datos de series de tiempo. Ofrecemos algunos ejemplos de datos reales modelados por TGLMs para mostrar las ventajas de los TGLMs sobre GLM clsicos. De hecho, hemos montado (no transformados y transformados) gamma y los modelos inversos de Gauss a tres datos reales conjuntos de datos y los modelos transformados damos un mejor ajuste en cinco de los seis modelos ajustados. Algunos otros modelos continuos se pueden unificar y extenderse an ms por el uso de TGLMs.
Reconocimiento
Estamos muy agradecidos a dos rbitros para tiles comentarios que mejoraron considerablemente el papel.Agradecemos el apoyo financiero del CNPq.
Referencias
1. o o o o o 2. o o o o o Benjamin et al., 2003 MA Benjamin, RA Rigby, DM Stasinopoulos Modelos de media mvil autorregresiva generalizada
J. Amer. Estatista. Assoc., 98 (2003), pp 214-223
Aranda-Ordaz, 1981 FJ Aranda-Ordaz En dos familias de transformaciones a la aditividad de los datos de respuesta binaria
Biometrika, 68 (1981), pp 357-363
Ver Registro de Scopus
| El texto completo a travs de CrossRef | Citado por en Scopus (39) 3. o o o o o Bickel y Doksum, 1981 PJ Bickel, KA Doksum Un anlisis de las transformaciones revisited
J. Amer. Estatista. Assoc., 76 (1981), pp 296-311
Ver Registro de Scopus | El texto completo a travs de CrossRef | Citado por en Scopus (107)
4. o o o o o 5. o o o o o 6. o o o o o 7. o o Draper y Cox, 1969 Draper NR, DR Cox Cox, 1975 DR Cox Probabilidad parcial
Biometrika, 62 (1975), pp 69-76
Caja y Cox, 1964 GEP Box DR Cox Un anlisis de la transformacin

J. Roy. Estatista. Soc. B, 26 (1964), pp 211-252
Ver Registro de Scopus | Citado por en Scopus (2) Cordeiro y McCullagh, 1991 GM Cordeiro, P. McCullagh Correccin de sesgo en los modelos lineales generalizados
o o o 8. o o o
En las distribuciones y su transformacin a la normalidad

Ver Registro de Scopus | Citado por en Scopus (32) Guerrero, 1993 VM Guerrero Anlisis de series de tiempo con el apoyo de las transforma

Modelos Lineales Generalizados-1glm

Încărcat de

Informații document

Descriere originală:

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Modelos Lineales Generalizados-1glm

Încărcat de

Drepturi de autor:

Formate disponibile

Diario de Planificacin e Inferencia Estadstica

139 volumen, nmero 9 , 1 de septiembre de 2009, pginas 2970-2987

Modelos lineales generalizados transformadas

Departamento de Matemtica Aplicada y Estadstica, Instituto de Ciencias Matemticas e de Computao,

Universidade de So Paulo, CP668, 13560-970, So Carlos, SP, Brasil

es una funcin monotnica de Y . Si

tendr un coeficiente de asimetra mayor o menor

= l o g ( Y ) cuando = 0 . Por lo general, se

es convexa para > 1 y cncava para < 1 . La

2. Definicin del modelo

, . . . , y n ) T el vector de observaciones y mediante el uso de (1) se

obtienen las observaciones transformadas transformadas en Y

sea independiente y cada una

Donde V = V ( ) es un conocido uno-

= d / d es la funcin de la varianza. El parmetro

de una respuesta variable Y de los GLM. Nuestra forma

. Para ajustar la gamma transformado y modelos es positiva.

= Y adems de las Ecs. (2) y (3) .

para algunos desconocidos parmetro de transformacin en (1) satisface . El mtodo de

, . . . , w n } es una matriz diagonal con los

Dada una primera aproximacin

de la cual la ecuacin. (6) se

puede utilizar para obtener el siguiente estimacin y

. Este nuevo valor se puede actualizar

, Y por lo que las iteraciones continan hasta que se observa la convergencia.

. , Y luego calcular la desviacin D del TGLM, acondicionado en , que

Para una varianza dada la funcin V ( x ) , podemos obtener fcilmente

La expresin resultante l P ( ) en trminos de la desviacin de la TGLM es ecuacin( 12 )

y el Jacobiano. La trama del perfil de log-

estadstico estndar tales como MATLAB, S-PLUS, R y SAS.

donde t ( x ) = x q ( x ) - b ( q ( x ) ) + u n ( x ) . Tapar (7) en (11) , encontramos que ecuacin( 14 )

MCtwidthcolumnwidth> Tabla 1 proporciona las funciones d ( x ) , t ( x ) , v ( x ) y d

Modelo Normal Gama

y el perfil de log-verosimilitud para en (14) se reduce a ecuacin( 16 )

son las medias geomtricas de los

. . . , n , respectivamente. Para PGLMs con la transformacin Box-Cox,

Una solucin aproximada para los

en (18) para la pequea es

La suma de los dos primeros trminos en (16) se sustituye por

Cuando es suficientemente pequeo, podemos obtener para ordenar O (

donde caso asinttico,

5. Los momentos retransformados

(1969) . Cuando l a m b d a 0 , podemos escribir

donde = / ( 1 + l a m b d a m u ) . A partir de la expansin binomial, obtenemos

Tambin tenemos ecuacin( 20 )

. Los momentos centrales

= d r V / d r . Eq. (20) generaliza la expansin dada por Pankratz y Dudley

(1987) para el factor de no polarizacin obtenida cuando

es un nmero entero positivo y los

de la misma manera. Tenemos

. Combinando (21) y (20) podemos obtener

todos los cumulantes de Y hasta un orden de ( 1 + l a m b d a m u ) la varianza deY a fin de ( 1 + l a m b d a m u )

puede ser escrito como

para i > 2 por lo general ser pequea. La

MSE (%) MAPE (%)

- 0 . 0 6 6 0 y existe una gama considerable de valores compatibles

. Figura 3. Parcela de conjunto de datos 1.

para el modelo de Gauss inversa de potencia instalado en el Opciones Figura

en comparacin con los resultados Opciones Figura

. Figura 6. Parcela de conjunto de datos 2.

para el modelo de Gauss inversa de potencia instalado en el Opciones Figura

potencia montado en el conjunto de datos 2.

para el modelo gamma de energa instalado en el conjunto de datos Opciones Figura