Sunteți pe pagina 1din 16

Modelos Lineales Generalizados

Danny Samuel Mart nez Lobo 2117718


Resumen En el presente trabajo se realizara un estudio de la pesca un el litoral de Sao Paulo, a un tipo de pez muy apetecido en el mercado. La variable respuesta es carga por unidad de fuerza, dicha variable sigue una distribucin Gamma respecto a un grupo de variables de inters. Se o e comenzara con un analisis descriptivo de los datos. Luego se ajustaran dos a modelos lineales generales, primero ajustando a la distribucin Gamma con o funcin de enlace Logit. Despus se ajustara el modelo a una distribucin o e o Gamma con funcin de enlace Inverse. A cada una de los ajustes se le o aplicara el mtodo AIC para escoger un modelo bien ajustado que tenga un e n mero reducido de parmetros. Al modelo ajustado le realizaremos un u a diagnostico de la inuencia que puedan tener cada uno de los elementos de la muestra. Se seleccionaran aquellos que inuyan en la estimacin del o modelo y se realizara un contraste del modelo ajustado con y sin el elemento inuyente, nalmente se eliminaran los datos que por el diagnostico se consideren at picos.

1.

Anlisis Descriptivo a

Se realizar el anlisis descriptivo para la variable captura por unidad de a a fuerza para los peces capturados en el litoral de Sao Paulo. En la gura ?? se observan los diagramas de cajas para cada uno de los trimestres del a o, los a os en la que se realizo la actividad y el tipo de ota, n n donde la variable carga por unidad de fuerza se encuentra estandarizada.

scale(cpue)

scale(cpue)

scale(cpue) 1995 1997 Ao 1999

Santos Flota

Ubatuba

Trimestre

Figura 1: Diagramas de cajas del 2009 Se observa que en los diagramas de cajas para cada una de las diferentes Flotas, se observan dos datos muy alejados del centro de los datos. En los diagramas de cajas por tipo de la ota Santos tiene 2 datos a ms de 3 a desviaciones estndar de la media. Por a o se puede observar que en 1997 se a n encuentra un dato a ms de 3 desviaciones estndar de la media. Finalmente a a por trimestre en el tercer trimestre, se puede observar otro dato a ms de 3 a desviaciones estndar. a

En la tabla ?? se observan las correlaciones entre las variables medidas. Tabla 1: Correlaciones entre las Variables
latitud longitud cpue latitud 1.00 longitud 0.78 1.00 cpue 0.29 0.12 1.00

Se observa que la carga por unidad de fuerza est muy poco correlacioa nada con las dems variables. a En la gura ?? se observan los diagrams de iteracin de ota por trimestre o y a o. n
Iteracin Flota y Trimestre
250

Iteracin Flota y Ao

Flota

250

Flota

Santos Ubatuba 200

Santos Ubatuba

Promedio de CPUE

Promedio de CPUE 1 2 3 Trimestre 4

150

100

50

50 1995

100

150

200

1996

1997

1998 Ao

1999

Figura 2: Iteracines Flota con Unidades de Tiempo o Se observa que la ota Santos obtuvo un mayor promedio de carga por unidad de esfuerzo comparado con la ota de Ubatuba, en las dos unidades de tiempo del estudio.

2.

Modelo Ajustado con la funcin Log o

Se ajusta los datos de pesca a un modelo lineal general con una distribucin Gamma, con funcin de enlace Logit o o cpue.inicial <- glm(cpue ~ Flota + Ano + Trimestre + latitud + longitud + latitud:Ano + Flota:Ano + Flota:latitud + latitud:Trimestre + Flota:Trimestre, family=Gamma(link=log)) Se usa el criterio de Akaike para medir la bondad de ajuste del modelo, el modelo que mejor se ajusta es el que tiene el m nimo AIC. En el software R la funcin AIC ajusta el modelo eliminando variables o que poca informacin aportan al modelo. Por lo tanto, al nal muestra el o modelo que con el menor n mero de variables explican de mejor manera el u modelo. > stepAIC(cpue.inicial) Start: AIC=1864.85 cpue ~ Flota + Ao + Trimestre + latitud + longitud + latitud:Ao + Flota:Ao + Flota:latitud + latitud:Trimestre + Flota:Trimestre Df Deviance AIC - Flota:Ao 4 37.864 1859.9 - Ao:latitud 4 38.025 1860.5 - Flota:latitud 1 36.954 1862.9 - Trimestre:latitud 3 38.429 1863.8 - Flota:Trimestre 3 38.626 1864.5 <none> 36.948 1864.8 - longitud 1 38.260 1867.3 Step: AIC=1860.82 cpue ~ Flota + Ao + Trimestre + latitud + longitud + Ao:latitud + Flota:latitud + Trimestre:latitud + Flota:Trimestre Df Deviance AIC - Ao:latitud 4 39.104 1857.1 - Flota:latitud 1 38.359 1860.5 <none> 37.864 1860.8 - Trimestre:latitud 3 39.865 1861.7 - longitud 1 39.055 1862.9 4

- Flota:Trimestre

41.596 1867.7

Step: AIC=1858.05 cpue ~ Flota + Ao + Trimestre + latitud + longitud + Flota:latitud + Trimestre:latitud + Flota:Trimestre Df Deviance AIC - Flota:latitud 1 39.591 1857.7 - Ao 4 41.389 1857.9 <none> 39.104 1858.0 - Trimestre:latitud 3 40.888 1858.2 - longitud 1 39.932 1858.9 - Flota:Trimestre 3 45.447 1873.8 Step: AIC=1858.06 cpue ~ Flota + Ao + Trimestre + latitud + longitud + Trimestre:latitud + Flota:Trimestre

Call: glm(formula = cpue ~ Flota + Ao + Trimestre + latitud + longitud + Trimestre:latitud + Flota:Trimestre, family = Gamma(link = log)) Coefficients: (Intercept) 8.43800 Ao1997 0.20886 Trimestre2 -6.17502 latitud 0.08978 Trimestre3:latitud 0.07548 FlotaUbatuba:Trimestre3 1.86936

FlotaUbatuba -1.73225 Ao1998 0.03385 Trimestre3 -2.42432 longitud -0.11300 Trimestre4:latitud 0.21016 FlotaUbatuba:Trimestre4 1.48462

Ao1996 -0.36102 Ao1999 -0.03984 Trimestre4 -5.84862 Trimestre2:latitud 0.22444 FlotaUbatuba:Trimestre2 1.77153

Degrees of Freedom: 155 Total (i.e. Null); Null Deviance: 59.36 5

139 Residual

Residual Deviance: 39.59

AIC: 1858

El mejor modelo ajustado segn el criterio AIC, es u cpue.final <- glm(cpue ~ Flota + Ano + latitud + longitud latitud:Ao, family=Gamma(link=log)) +

Call: glm(formula = cpue ~ Flota + Ao + latitud + longitud + latitud:Ao, family = Gamma(link = log)) Coefficients: (Intercept) FlotaUbatuba Ao1996 Ao1997 0.04032 -0.28618 6.30842 7.93003 Ao1998 Ao1999 latitud longitud 8.79538 9.50532 0.44710 -0.14427 Ao1996:latitud Ao1997:latitud Ao1998:latitud Ao1999:latitud -0.24027 -0.28399 -0.32556 -0.35471 Degrees of Freedom: 155 Total (i.e. Null); Null Deviance: 59.36 Residual Deviance: 44.32 AIC: 1866 Resumen del modelo ajustado Call: glm(formula = cpue ~ Flota + Ao + latitud + longitud + latitud:Ao, family = Gamma(link = log)) Deviance Residuals: Min 1Q Median -1.1241 -0.4446 -0.1332 Coefficients: (Intercept) FlotaUbatuba Ao1996 Ao1997 Ao1998 Ao1999 latitud longitud Estimate Std. Error t value Pr(>|t|) 0.04032 2.72831 0.015 0.988230 -0.28618 0.12990 -2.203 0.029175 * 6.30842 4.15579 1.518 0.131211 7.93003 3.90736 2.030 0.044248 * 8.79538 2.85361 3.082 0.002463 ** 9.50532 2.68568 3.539 0.000541 *** 0.44710 0.10533 4.245 3.9e-05 *** -0.14427 0.07577 -1.904 0.058914 . 6 144 Residual

3Q 0.2090

Max 1.2608

Ao1996:latitud Ao1997:latitud Ao1998:latitud Ao1999:latitud --Signif. codes:

-0.24027 -0.28399 -0.32556 -0.35471

0.16012 0.14736 0.10794 0.10165

-1.501 -1.927 -3.016 -3.490

0.135653 0.055931 . 0.003027 ** 0.000642 *** 1

0 *** 0.001 ** 0.01 * 0.05 . 0.1

(Dispersion parameter for Gamma family taken to be 0.3151854) Null deviance: 59.362 Residual deviance: 44.316 AIC: 1866.4 on 155 on 144 degrees of freedom degrees of freedom

Number of Fisher Scoring iterations: 12 Se realizar un diagnstico del modelo ajustado para identicar puntos a o que inuyan de manera negativa en la estimacin del modelo. En la gura o ?? se observan dichos diagramas.
Puntos de Palanca
0.5 2 6

Puntos Influyentes
142

142 Distancia de Cook 4 3 2 2 8 0 1 0 5

Medida h

0.3 0.2

0.4 1 4 3 6 10 143 93 145 0.0 0 0.1

50 ndice

100

150

50 ndice

100

150

Puntos Aberrantes
Residuo Componente del Desvo Residuo Componente del Desvo 3 3

Funcin de Enlace

8 17 72

83 142

50 ndice

100

150

4.5

5.0 Preditor Linear

5.5

Figura 3: Diagramas de Diagnstico o

Se observa que la observacin 142 se destaca en todos los grcos, de mao a nera que inuye en la estimacin del modelo, en todos los grcos se destaca. o a En la gura ?? se observa el diagrama de bandas de conanza.
Bandas de confianza de percentiles tericos vs. ajustados

Componentes del desvo normalizados

Percentiles tericos de la N(0,1)

Figura 4: Bandas de Conanza Se observa que existen dos puntos en la parte inferior del grco que se a encuentran fuera de la bandas de conanza de grco. Por lo tanto, se debe a ajustar de nuevo el modelo que excluya dichas observaciones que me permitan una mejor estimacin de los prametros del modelo ajustado. o a La desviacin del modelo ajustado sin el dato 1 es o deviance(fit.cpue.m1) [1] 41.87562

El cambio en los parmetros del modelo respecto al modelo original es a impcoef1 (Intercept) FlotaUbatuba Ao1996 -47.990751 -10.769783 16.678496 Ao1997 Ao1998 Ao1999 -2103.496377 16.443799 9.588639 latitud longitud FlotaUbatuba:Ao1996 5.541733 -5.555859 -32.262857 FlotaUbatuba:Ao1997 FlotaUbatuba:Ao1998 FlotaUbatuba:Ao1999 -7.705829 -9.868640 -17.459027 Ao1996:latitud Ao1997:latitud Ao1998:latitud 16.308408 -399.125569 16.107992 Ao1999:latitud 9.377172 Ahora relizemos el mismo ajuste pero sin la observacin 2, el cambio en a o los parmetros del modelo respecto al modelo inicial es a

(Intercept) FlotaUbatuba Ao1996 Ao1997 -16.76776713 0.02460572 -32.88157749 278.23285286 Ao1998 Ao1999 latitud longitud -0.25919234 -1.14308854 -3.39860633 -9.66557555 FlotaUbatuba:Ao1996 FlotaUbatuba:Ao1997 FlotaUbatuba:Ao1998 FlotaUbatuba:Ao1999 19.58497940 -0.94198010 -1.36538107 -0.60046319 Ao1996:latitud Ao1997:latitud Ao1998:latitud Ao1999:latitud -32.51817747 54.15573958 -0.24748044 -1.09136350 Los parmetros para los a os 1996 y 1997 con la latitud cambian de maa n nera abrupta en casi 33 y 55 unidades respectivamente.Este modelo sin dicho dato aberrante es candidato fuerte a ser el mejor ajustado. Ahora relizamos el ajuste del modelo excluyendo la observacin 42 a o

(Intercept) FlotaUbatuba Ao1996 Ao1997 -37.4909978 0.1040131 138.3542643 631.6614225 Ao1998 Ao1999 latitud longitud -0.5410153 -2.5603587 -7.6539054 -21.6920199 FlotaUbatuba:Ao1996 FlotaUbatuba:Ao1997 FlotaUbatuba:Ao1998 FlotaUbatuba:Ao1999 67.6784377 -2.0856987 -3.0803488 -1.3053073 Ao1996:latitud Ao1997:latitud Ao1998:latitud Ao1999:latitud 148.1499807 122.8809590 -0.5141700 -2.4436800 9

Se puede observar que las variables a o1996:latitud y a o1997:latitud n n tienen un cambio drstico en sus estimaciones al excluir el dato n mero 42 a u de nuestro modelo. Finalmente, mostramos las salidas de desviacin de cada modelo respecto al o modelo original. impdev1 [1] -0.08076422 > impdev2 [1] -0.2048335 > impdev142 [1] -2.778171 A partir de las respuestas anteriores, se puede concluir que el mejor modelo ajustado, que sigue una distribucin Gamma con funcin o o de ajuste logit, es aquel que excluye el dato n mero 42. u

10

3.

Modelo Ajustado con la funcin Inverse o

El modelo lineal general con la distribucin gamma y la funcin de enlace o o Inverse se ajusta a continuacin o cpue.inicial <- glm(cpue ~ Flota + Ao + Trimestre + latitud + longitud + latitud:Ao + Flota:Ao + Flota:latitud + latitud:Trimestre + Flota:Trimestre, family=Gamma(link=inverse)) Utilizando el mtodo AIC se selecciona el nuevo modelo que es e Call: glm(formula = cpue ~ Flota + Trimestre + latitud + longitud + Flota:Trimestre, family = Gamma(link = inverse)) Deviance Residuals: Min 1Q Median -1.16568 -0.43729 -0.07239 Coefficients: Estimate Std. Error t value (Intercept) -0.0011202 0.0102316 -0.109 FlotaUbatuba 0.0165359 0.0059287 2.789 Trimestre2 0.0005087 0.0006949 0.732 Trimestre3 0.0018718 0.0006886 2.718 Trimestre4 0.0008227 0.0006139 1.340 latitud -0.0011416 0.0003340 -3.418 longitud 0.0007619 0.0003535 2.155 FlotaUbatuba:Trimestre2 -0.0151732 0.0060057 -2.526 FlotaUbatuba:Trimestre3 -0.0176938 0.0060309 -2.934 FlotaUbatuba:Trimestre4 -0.0120856 0.0063711 -1.897 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Pr(>|t|) 0.912972 0.005990 0.465365 0.007358 0.182279 0.000818 0.032786 0.012588 0.003889 0.059811

3Q 0.26918

Max 1.33488

** ** *** * * ** .

(Dispersion parameter for Gamma family taken to be 0.3001626) Null deviance: 59.362 Residual deviance: 43.764 AIC: 1860.4 on 155 on 146 degrees of freedom degrees of freedom

Number of Fisher Scoring iterations: 5 11

El resumen muestra los coecientes que son signicativos en la estimain o del modelo. Se puede observar que las variables Trimestre 2 y Trimestre 4 no son signicativas en la estimacin del modelo. o En la gura ?? se observan los diagramas de dignostico. a
Puntos de Palanca
0.4 0.6 4 Distancia de Cook 17 8 77 83 144 143 0.2

Puntos Influyentes

0.3

Medida h

0.2

6 3 14

32 38 67

93 142 135 146 144

0.1

50 ndice

100

150

0.0 0

0.4

50 ndice

100

150

Puntos Aberrantes
Residuo Componente del Desvo 83 77 17 88 Residuo Componente del Desvo

Funcin de Enlace

1 0

47 3

65 92

95

118

50 ndice

100

150

1 0

0.005

0.010

0.015

0.020

Preditor Linear

Figura 5: Diagramas de Dignostico a En los diagramas se hacen evidentes varios puntos que inuyen en la estimacin de los parmetros del modelo. El 17, 8 y 83 destacan entre todos o a los datos que inuyen en la estimacin de los parmtros. Se observa que o a dichos puntos son los que tienen una mayor distancia de Cook.

12

En la gura ?? se observa el grco de bandas de conanza a


Bandas de confianza de percentiles tericos vs. ajustados

Componentes del desvo normalizados

Percentiles tericos de la N(0,1)

Figura 6: Grco de Bandas de Conanza a Se observan dos datos que se pueden considerar inuyentes en la estimacin del modelo. En la cola inferior de los datos y en la parte superior, se o encuentra un punto fuera de las bandas de conanza. Ahora nalmente ajustaremos el modelo sin los datos que inuyen al parecer de manera signicativa en el modelo. El cambio en los coecientes estimados del modelo sin el dato n mero 17 es u (Intercept) FlotaUbatuba Ao1996 -26.8013396 0.7190704 -7.1957495 Ao1997 Ao1998 Ao1999 3.8761630 -8.2232768 -11.9963930 latitud longitud FlotaUbatuba:Ao1996 6.5182604 24.9102686 2.7867999 FlotaUbatuba:Ao1997 FlotaUbatuba:Ao1998 FlotaUbatuba:Ao1999 1.4909986 2.5017337 4.1059333 13

Ao1996:latitud -7.4910365 Ao1999:latitud -11.8081679

Ao1997:latitud 4.3065652

Ao1998:latitud -8.1843550

La estimacin del parmetro A o1999:latitud cambia en 11 unidades, o a n A o1999 igual cambia en casi 12 unidades, otras variables cambian de man nera signicativa en la estimacin del modelo. o Ahora ajustemos el modelo sin el dato n mero 8 u (Intercept) FlotaUbatuba Ao1996 2.707077e-11 -3.276385e-12 2.232577e-11 Ao1997 Ao1998 Ao1999 4.738442e-11 1.901445e-11 1.090772e-11 latitud longitud FlotaUbatuba:Ao1996 5.626051e-12 -6.892715e-12 -5.015390e-12 FlotaUbatuba:Ao1997 FlotaUbatuba:Ao1998 FlotaUbatuba:Ao1999 -3.023486e-12 -1.360890e+01 -3.842197e-12 Ao1996:latitud Ao1997:latitud Ao1998:latitud 2.192535e-11 5.071275e-11 1.844546e-11 Ao1999:latitud 1.057293e-11 No hay ning cambio dentro de las estimaciones del modelo que se pueda n considerar alarmante. Algunos parmetros no cambian y otros lo hacen de a manera muy poco signicativa. Finalmente, ajustemos el modelo sin el dato 83. Los cambios en los coecientes respecto a los ajustados es: (Intercept) FlotaUbatuba Ao1996 -12.7080523 0.3526985 -3.3879145 Ao1997 Ao1998 Ao1999 1.7029733 -31.1540522 -1.0988689 latitud longitud FlotaUbatuba:Ao1996 3.0490671 11.7498218 1.3215219 FlotaUbatuba:Ao1997 FlotaUbatuba:Ao1998 FlotaUbatuba:Ao1999 0.7136445 7.3969368 0.8157941 Ao1996:latitud Ao1997:latitud Ao1998:latitud -3.5279858 1.8986268 -29.3553257 Ao1999:latitud -1.1305627 14

La estimacin del parmetro a o1998:latitud es la unica que cambia de o a n manera drstica, en 11 puntos. a Finalmente para poder elegir entre cuales de los tres de los tres puntos inuye de manera ms signicativa en el modelo se comparan las desviaciones a de los modelos ajustados respecto al modelo inicial. > impdev17 [1] -3.266406 > impdev8 [1] -2.209082 > impdev83 [1] -5.192189 El dato que inuye de manera ms signicativa en la estimacin de mi a o modelo nal es el 83, por lo tanto nalmente excluyo el dato 83 del modelo.

15

Referencias
[1] G. Paula, Modelos de Regresso, com apoio computacional, Universidaa des de So Paulo, So Paulo, Brazil, 2012. http://www.ime.usp.br/ giaa a paula/texto2012.pdf.

16

S-ar putea să vă placă și