Documente Academic
Documente Profesional
Documente Cultură
Presidente Prudente
2014
Agradecimentos
No poderia deixar de agradecer em primeiro lugar a Deus, aquele que me confere poder
para que eu tenha foras para enfrentar todas as coisas (Filipenses 4:13), e que me faz pisar no
caminho em que devo andar (Isaas 48:17).
Agradeo tambm minha famlia, principalmente aos meus pais, que sempre me incentivaram
o meu gosto pelos estudos, embora eles mesmos no tenham tido oportunidades.
Ao meu namorado, Jorge, pela pacincia e conforto fornecido nos momentos difceis.
professora Aparecida Doniseti Pires de Souza, pela orientao.
professora Vilma Mayumi Tachibana, por sempre ser prestativa e paciente em suas contribuies.
Aos membros da banca, pela disposio em dispor de seu tempo e energia pra contribuir com
correes e enriquecimento deste trabalho.
Ao professor Srgio Minoru Oikawa, pelas sugestes e contribuies no exame de qualicao.
todos aqueles que de alguma forma me ajudaram direta ou indiretamente, tanto no decorrer
do mestrado, para o meu crescimento prossional, quanto no decorrer da minha vida, para o meu
crescimento pessoal.
Resumo
Modelagem de dados de rea tem sido tema de diversas pesquisas em Estatstica nas ltimas dcadas. Modelos espao-temporais tm sido utilizados para lidar com esse tipo de dados de
um modo natural, uma vez que muitas vezes envolvem processos que tm transies no tempo e
no espao. O avano da tecnologia e, simultaneamente, de mtodos estatsticos, tm permitido a
elaborao de modelos cada vez mais estruturados para a descrio de fenmenos aleatrios complexos, cuja ideia descrever, de forma realista, a estrutura de correlao presente nos dados, o que
pode ser feito atravs do uso de modelos hierrquicos. Dada a importncia atual da modelagem
de fenmenos espao-temporais, neste trabalho so estudadas propostas recentes apresentadas na
literatura para dados espaciais de rea, envolvendo modelos autorregressivos condicionais multivariados para capturar a estrutura espacial e modelos dinmicos para capturar a estrutura temporal.
Como aplicao da metodologia estudada a distribuio espacial da mortalidade pelos cnceres de maior importncia quantitativa, segundo as microrregies administrativas do estado de So
Paulo, considerando o perodo 1998 at 2010. Os resultados da aplicao de um modelo bayesiano
hierrquico para os dados evidenciaram quais as regies de maior risco de mortalidade no estado
de So Paulo para cada um dos cnceres estudados, alm de mostrar que existe forte correlao
espacial entre algumas das doenas, o que constitui um resultado muito importante para os rgos
do sistema de sade, que tm como funo direcionar e alocar recursos para o tratamento e diagnstico de tais doenas. Na aplicao de um modelo bayesiano hierrquico dinmico, com passeio
aleatrio de ordem um assumido como distribuio a priori para os efeitos espaciais, tais efeitos
no se mostraram signicativos na aplicao do modelo aos dados em estudo. No entanto, a incluso do domnio temporal proporcionou a produo de informao acerca das doenas ano a ano
do perodo, levando a concluses similares ao modelo sem efeito temporal, alm da produo de
estimativas mais suaves e de mais fcil interpretao para o risco relativo do que as obtidas atravs
do modelo clssico.
Palavras-chave: Modelo Hierrquico Bayesiano Dinmico, Razo de Mortalidade Padronizada,
MVCAR.
Abstract
Data modeling area has been the subject of several studies in Statistics in recent decades.
Spatio-temporal models have been used to deal with this kind of data in a natural way, since they
often involve processes that have transitions in time and space. The advancement of technology
and simultaneously statistical methods have allowed the development of increasingly structured
models for the description of complex random phenomena, whose idea is to describe realistically,
the structure of this correlation in the data, which can be done through the use of hierarchical
models. Given the current importance of modeling spatio-temporal phenomena, the aim of this
work is study recent paper that involve multivariate conditional autoregressive models to capture
the spatial and dynamic structure models to capture the temporal structure. As an application of
the methodology is the spatial distribution of mortality for cancers of greater quantitative importance studied, according to the administrative microregions of the state of So Paulo, considering
the period 1998 to 2010. The results of the application of a Bayesian hierarchical model to the
data showed that the regions of greatest risk of mortality in So Paulo for each one of the cancers
studied, and show that there is a strong spatial correlation between some of the diseases, which is
a very important result for the organs of the health system, whose function is to direct and allocate
resources for the treatment and diagnosis of such diseases. In the application of a dynamic Bayesian hierarchical model with random walk of order as an assumed prior distribution for spatial
effects, such effects were not signicant in applying the model to the data in the study. However,
the inclusion of the temporal domain provides the production of information about the disease
every year in the period, leading to similar model without the time effect conclusions, as well as
producing smoother estimates and easier to interpret than the relative risk those obtained through
the classical model.
Keywords: Dynamic Bayesian Hierarchical Model, Standardized Mortality Ratio, MVCAR.
Lista de Figuras
5.1
Dendrogramas do agrupamento das SMRs referentes aos bitos por cncer de tra-
5.2
32
tos das SMRs referentes aos bitos por cncer de traqueia, brnquios e pulmo de
1998 a 2010. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Boxplots dos grupos da anlise de agrupamentos das SMRs referentes aos bitos
33
33
5.4
34
5.5
2010. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Boxplots da distribuio das SMRs em todas as microrregies do estado de So
Paulo referentes aos bitos por cncer de traqueia, brnquios e pulmo de 1998 a
2010. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Razes de Mortalidade Padronizadas (SMRs) para a mortalidade por cncer de
34
5.3
5.6
35
36
37
37
38
39
40
LISTA DE FIGURAS
vi
41
5.14 Microrregies do estado de So Paulo segundo os grupos da anlise de agrupamentos das SMRs referentes aos bitos por cncer de lbios, cavidade oral e faringe,
de 1998 a 2010. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
5.15 Boxplots dos grupos da anlise de agrupamentos das SMRs referentes aos bitos
por cncer de lbios, cavidade oral e faringe, de 1998 a 2010. . . . . . . . . . . .
5.16 Dendrograma do agrupamento das SMRs referentes aos bitos por cncer de l-
42
43
45
46
47
5.20 Microrregies do estado de So Paulo segundo os grupos da anlise de agrupamentos das SMRs referentes aos bitos por cncer de estmago, de 1998 a 2010.
5.21 Boxplots dos grupos da anlise de agrupamentos das SMRs referentes aos bitos
48
48
5.22 Boxplots dos grupos da anlise de agrupamentos das SMRs referentes aos bitos
por cncer de estmago, de 1998 a 2010. . . . . . . . . . . . . . . . . . . . . . .
5.23 Razes de Mortalidade Padronizadas (SMRs) para a mortalidade por cncer de
estmago nas microrregies do estado de So Paulo, de 1998 a 2010. . . . . . . .
5.24 Boxplots da distribuio das SMRs em todas as microrregies do estado de So
Paulo referentes aos bitos por cncer de clon, de 1998 a 2010. . . . . . . . . .
5.25 Dendrograma do agrupamento das SMRs referentes aos bitos por cncer de clon, de 1998 a 2010. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.26 Microrregies do estado de So Paulo segundo os grupos da anlise de agrupamentos das SMRs referentes aos bitos por cncer de clon, de 1998 a 2010. . . .
5.27 Boxplots dos grupos da anlise de agrupamentos das SMRs referentes aos bitos
por cncer de clon, de 1998 a 2010. . . . . . . . . . . . . . . . . . . . . . . . .
5.28 Razes de Mortalidade Padronizadas (SMRs) para a mortalidade por cncer de
clon nas microrregies do estado de So Paulo, de 1998 a 2010. . . . . . . . . .
5.29 Boxplots dos grupos da anlise de agrupamentos das SMRs referentes aos bitos
por cncer de clon, de 1998 a 2010. . . . . . . . . . . . . . . . . . . . . . . . .
6.1
Risco a posteriori obtido para o modelo referente aos bitos por cncer de traqueia,
brnquios e pulmo nas microrregies do estado de So Paulo, de 1998 a 2010. .
49
50
51
52
53
53
54
55
62
LISTA DE FIGURAS
6.2
6.3
6.4
vii
63
Risco a posteriori obtido para o modelo referente aos bitos por cncer feminino
de mama nas microrregies do estado de So Paulo, de 1998 a 2010. . . . . . . .
64
64
6.5
Risco a posteriori obtido para o modelo referente aos bitos por cncer de lbios,
65
6.6
65
6.7
66
6.8
6.9
6.10 Boxplots para as distribuies a posteriori dos riscos relativos associados ao cncer
de clon, para cada microrregio do estado de So Paulo. . . . . . . . . . . . . .
6.11 Risco a posteriori obtido para o modelo 2 referente aos bitos por cncer de traqueia, brnquios e pulmo nas microrregies do estado de So Paulo, de 1998 a
2010. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.12 Risco a posteriori obtido para o modelo 2 referente aos bitos por cncer de mama
feminino nas microrregies do estado de So Paulo, de 1998 a 2010. . . . . . . .
6.13 Risco a posteriori obtido para o modelo 2 referente aos bitos por cncer de lbios,
cavidade oral e faringe nas microrregies do estado de So Paulo, de 1998 a 2010.
6.14 Risco a posteriori obtido para o modelo 2 referente aos bitos por cncer de estmago nas microrregies do estado de So Paulo, de 1998 a 2010. . . . . . . . . .
6.15 Risco a posteriori obtido para o modelo 2 referente aos bitos por cncer de clon
nas microrregies do estado de So Paulo, de 1998 a 2010. . . . . . . . . . . . .
1
66
67
67
72
73
74
75
76
88
89
90
91
91
90
92
10
Risco a posteriori obtido para o modelo 2 referente aos bitos por cncer de mama
feminino segundo as microrregies do estado de So Paulo, para trs anos do perodo. 93
Grcos da trajetria, autocorrelao, e densidade a posteriori da cadeia para o
11
Risco a posteriori obtido para o modelo 2 referente aos bitos por cncer de lbios,
cavidade oral e faringe segundo as microrregies do estado de So Paulo, para trs
anos do perodo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Grcos da trajetria, autocorrelao, e densidade a posteriori da cadeia para o
12
13
Risco a posteriori obtido para o modelo 2 referente aos bitos por cncer de estmago segundo as microrregies do estado de So Paulo, para trs anos do perodo.
Grcos da trajetria, autocorrelao, e densidade a posteriori da cadeia para o
Risco a posteriori obtido para o modelo 2 referente aos bitos por cncer de clon
segundo as microrregies do estado de So Paulo, para trs anos do perodo. . . .
Mapa do Estado de So Paulo segundo microrregies. . . . . . . . . . . . . . . .
92
93
94
94
98
Sumrio
1
Introduo
3
3
2.2
2.3
10
13
13
15
18
3.2.1
3.2.2
3.2.3
19
20
21
3.2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
ix
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
24
24
25
26
26
26
27
28
.
.
.
.
.
.
.
29
30
30
36
41
46
51
55
SUMRIO
57
6.1
Procedimentos de Inferncia . . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
6.2
61
62
6.2.2
6.2.3
63
64
6.2.4
Cncer de estmago . . . . . . . . . . . . . . . . . . . . . . . . . . . .
66
6.2.5
6.2.6
Cncer de Clon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Correlao a posteriori para as doenas . . . . . . . . . . . . . . . . . .
67
68
6.3
6.4
7
79
Referncias Bibliogrcas
81
85
88
Apndice D - Estimativas dos efeitos temporais do modelo dinmico para cada doena
95
98
Captulo 1
Introduo
Modelagem de dados de rea tem sido tema de diversas pesquisas em Estatstica nas ltimas
dcadas. Modelos espao-temporais tm sido utilizados para lidar com esse tipo de dados de um
modo natural, uma vez que muitas vezes envolvem processos ambientais, epidemiolgicos, ecolgicos, entre outros que tm, em geral, transies no tempo e no espao. O avano da tecnologia e,
simultaneamente, de mtodos estatsticos, tm permitido a elaborao de modelos cada vez mais
estruturados para a descrio de fenmenos aleatrios complexos. A ideia descrever, de forma realista, a estrutura de correlao presente nos dados, o que pode ser feito atravs do uso de modelos
hierrquicos bayesianos.
Dada a importncia atual da modelagem de fenmenos espao-temporais, este trabalho tem
por objetivo o estudo de modelos propostos na literatura para analisar dados espaciais de rea, os
modelo hierrquicos bayesianos, que envolvem o uso de modelos autorregressivos condicionais
multivariados para capturar a estrutura espacial dos dados, e modelos dinmicos lineares generalizados para capturar a estrutura temporal. Devido complexidade dos modelos em estudo e o uso da
abordagem Bayesiana como procedimento de inferncia, mtodos de Monte Carlo via Cadeias de
Markov (MCMC) so utilizados na estimao dos parmetros de interesse. Para a implementao
destes modelos foi utilizado o Software OpenBUGS (Bayesian Analysis Using Gibbs Sampler)
(Lunn et al. (2009)), e o seu mdulo GeoBUGS, que permite o mapeamento das amostras a posteriori de parmetros de interesse.
Para a aplicao dessa metodologia considera-se a distribuio espacial da mortalidade pelos
cnceres de maior importncia quantitativa, segundo as microrregies administrativas do estado de
So Paulo, englobando o perodo compreendido de 1998 at 2010. O objetivo na aplicao vericar a existncia de padres na distribuio espao-temporal dos bitos, a presena de correlao
entre os diferentes tipos da doena e, por consequncia, determinar regies de maior risco.
A diviso deste trabalho encontra-se de modo que, no segundo Captulo so considerados
modelos apropriados para o mapeamento de doenas, o que inclui o Modelo Clssico de Riscos
Relativos, o Modelo Hierrquico Bayesiano, e o Modelo Hierrquico Bayesiano Dinmico, quanto
s suas caractersticas e aplicabilidade a dados de rea. No terceiro Captulo apresenta-se uma
introduo sobre Campos Aleatrios Markovianos Gaussianos (CAMG), uma vez que estes esto
1.0
Captulo 2
Modelos para o mapeamento de doenas
O termo mapeamento de doenas utilizado para denominar uma rea da epidemiologia que
tem por objetivo estudar o padro espacial do risco de uma doena em determinada regio geogrca, de modo que as reas de alto risco possam ser identicadas. A maior parte dos mapas so
temticos ou coroplticos, nos quais um conjunto de reas so sombreadas de acordo com seus
valores na varivel de interesse. A varivel a ser modelada geralmente a taxa de mortalidade
para a doena, ou o risco associado mesma. Mapas de taxas de incidncia constituem a principal
ferramenta na anlise da disperso do risco de uma doena, pois alm de permitir a visualizao
da distribuio espacial do fenmeno, so importantes instrumentos em apontar fatores etiolgicos
desconhecidos e potenciais fontes de contaminao, resultantes da presena de evidentes reas de
risco elevado.
Apesar do atrativo, Stern e Cressie (2000) discutem que os mapas de taxas de mortalidade
no so conveis, devido varincia no constante associada heterogeneidade do tamanho
da populao, que em algumas reas podem ser muito pequenas. Sendo assim, uma anlise mais
dedigna leva em conta no s o tamanho da populao, como tambm a sua estrutura, e considera
o mapeamento do risco a partir de medidas mais condizentes com a realidade do fenmeno, o que
pode ser feito atravs de uma modelagem adequada para os riscos relativos de cada regio.
Na sequncia so consideradas duas abordagens para a estimativa do risco relativo a ser mapeado: o modelo clssico de riscos relativos e o modelo hierrquico bayesiano. Por m, o modelo
hierrquico bayesiano dinmico denido para incluir o domnio temporal na anlise.
2.1
2.1
maior do que 1 em determinada rea, ento dito haver mortes em excesso em sua populao.
Essas razes tambm so as estimativas de mxima verossimilhana do risco relativo de mortalidade da doena nas reas, considerando que a contagem dos bitos segue o modelo de Poisson.
Mais formalmente, seja o nmero de bitos devido uma determinada doena em n reas de uma
regio geogrca denotado por Y = (Y1 ,Y2 , ...,Yn ), sendo Yi o nmero de casos na rea i, para
i = 1, ..., n. Isto ,
Yi Poisson(i ),
i = 1, ..., n,
exp(i )i i
,
L(i ; yi ) =
yi !
i = 1, ..., n.
i
i
verica-se facilmente que o estimador de mxima verossimilhana de i dado por
i = yi
Isto ,
Ei Ri = yi Ri =
yi
= SMRi ,
Ei
i = 1, ..., n.
Portanto, a SMR o EMV para o risco. Levando-se em conta que se trata de uma razo padronizada, necessrio esclarecer que a padronizao ocorre durante o clculo do vetor esperado E.
Isso permite que a estrutura demogrca das reas sejam levadas em considerao, e, portanto, le-
2.1
vem a uma interpretao mais realstica dos riscos relativos, o que especialmente importante nas
reas cujas populaes incluem uma grande parcela de idosos ou de indivduos do sexo masculino,
uma vez que, conhecidamente, tais fatores aumentam o risco para determinadas doenas.
Para a padronizao indireta, considere i o ndice da rea e j o ndice da classe de idade-sexo.
Por exemplo, j = 1 indica os bitos femininos na faixa etria de menores de 1 ano de idade, j = 2
indica os bitos femininos na faixa etria de 1 a 4 anos de idade, e assim por diante. Atente para
uma determinada classe j, por exemplo, j = 5, que signica mulheres de 15 a 19 anos de idade.
Seja yi j o nmero de bitos que ocorreram entre pessoas da classe j na rea i, e Ni j a respectiva
populao na classe j e rea i. O risco global em todo o mapa referente apenas classe de idadesexo j dado por
rj =
i yi j
i Ni j
E i = Ei j .
j
Com isso, a SMR calculada como a razo entre o nmero observado de bitos e o nmero
esperado, se o risco fosse constante no espao. Isto ,
yi
SMRi = R i =
Ei
Assim, na hiptese de que o risco seja constante no espao em cada classe de idade-sexo, temos
que Yi Poisson(Ei Ri ), sendo Ei calculado de acordo com a explicao anterior.
Uma das crticas associada ao uso da SMR como estimador do risco relativo a utuao
aleatria associada a reas com pequenas populaes. Observe que este estimador possui varincia
inversamente proporcional ao nmero esperado de eventos Ei . Assim, quando este nmero for
pequeno, o que geralmente acontece para regies pequenas, a variabilidade do estimador pode ser
muito grande. Da o motivo de se evitar o uso de unidades territoriais pequenas, como diviso
por bairros ou municpios (o que abrange grande parte dos dados epidemiolgicos e demogrcos
disponveis). Neste caso, as populaes de tais reas so pequenas, gerando valores pequenos
para Ei . Como consequncia, os valores extremos de R i tendem a ocorrer nestas reas. O erro
de interpretao a que isso induz que aquilo que mais chamar a ateno no mapa, que so os
seus valores extremos, ser o menos precisamente estimado. Assim, as maiores oscilaes do risco
relativo, em geral, no estaro associadas ao verdadeiro risco da doena subjacente populao,
2.2
mas sim mera utuao aleatria. Alm disso, esse tipo de estimativa no leva em considerao
a possvel dependncia espacial entre as reas, presente em muitas situaes.
Uma alternativa para lidar com esse problema a abordagem Bayesiana, atravs dos modelos
hierrquicos bayesianos. A proposta, feita inicialmente por Clayton e Kaldor (1987), modelar
o logaritmo do risco relativo por meio de uma regresso linear. A ideia dos autores era impor
uma estrutura de relao espacial plausvel entre as reas, por meio da modelagem conjunta dos
riscos como um processo espacial. Em outras palavras, usar a informao das reas vizinhas para
estimar o risco relativo de uma unidade territorial. Isso tambm pode ser visto no trabalho de
Assuno e Castro (2004), que estimaram o risco para os seis tipos de cncer mais comuns em
homens e mulheres, em 18 cidades brasileiras do estado de So Paulo no ano de 1991, por meio da
SIR (Standardized Incidence Rate) - estimativa similar SMR, porm, referente incidncia da
doena, e no mortalidade - e alternativamente, atravs de um modelo bayesiano multivariado.
Seus resultados mostraram que as estimativas obtidas pelas taxas de incidncia padronizadas indiretas usuais tinham intervalos de conana muito grandes para muitos tipos de cncer e cidades,
devido ao pequeno nmero de casos esperados. O uso do mtodo bayesiano levou a estimativas
mais precisas.
Justicada a importncia do mtodo bayesiano em relao ao clssico, considere a seguir uma
possvel estrutura para um modelo nesse contexto.
2.2
Como j mencionado, o modelo clssico de riscos relativos, que usa a SMR como estimador
do risco, assume uma densidade Poisson com risco de mortalidade constante sobre as reas e
independentes entre delas. Na prtica, porm, Congdon (2007) alerta que os riscos variam tanto
dentro como entre as reas, de modo que as contagens nas reas tem mais variabilidade do que a
densidade que a Poisson estipula, o que conhecido como variabilidade extra-Poisson.
Uma alternativa para contornar tal problema seria modelar as contagens de acordo com uma
distribuio Binomial negativa, visto que ela apresenta um parmetro adicional, chamado parmetro de heterogeneidade ou superdisperso (Hilbe (2011)). Alm disso, a distribuio Binomial
negativa generaliza a distribuio de Poisson quando esse parmetro tende a zero.
Outra possibilidade para modelar a variao extra incluir efeitos aleatrios no modelo para o
risco relativo de doena ou mortalidade. Tais efeitos podem ou no ser estruturados espacialmente,
sendo que os ltimos tm sido denotados como excesso de heterogeneidade, segundo Best et al.
(1999). Os autores ainda armam que, por outro lado, tambm pode ocorrer sobredisperso devido
a efeitos espacialmente correlacionados, uma vez que tais efeitos espaciais frequentemente procuram capturar fatores de risco no observados, os quais variam suavemente no espao.
Mesmo assim, o contnuo uso de tal abordagem em suas mais diversas variaes por inmeros pesquisadores em todo o mundo revela que ainda constitui-se um bom mtodo de anlise,
alm de evidentemente ser mais realstica que a abordagem clssica considerada anteriormente,
2.2
devido aos motivos j mencionados. Dentre trabalhos interessantes neste contexto encontra-se o
de Waller et al. (1997), que estende os modelos hierrquicos espaciais para explicar os efeitos
temporais e interaes espao-temporais, e ilustra a abordagem usando um conjunto de dados de
taxas de cncer de pulmo em Ohio, EUA. No mesmo contexto est o artigo de Xia et al. (1997),
que relaciona a incidncia de determinada doena com variveis scio-demogrcas. Song et al.
(2006) consideram um modelo bayesiano espacial hierrquico para estimar taxas de acidentes no
Texas, EUA. Isso apenas para citar alguns trabalhos de destaque nessa rea de pesquisa to ampla
e crescente.
Na modelagem Bayesiana os parmetros de um modelo seguem distribuies. Tais distribuies controlam sua forma e so especicadas pelo pesquisador baseado, geralmente, nas suas
crenas a priori sobre seu comportamento. A ideia de que os valores dos parmetros ocorrem a
partir de distribuies (a priori) leva naturalmente ao uso de modelos nos quais os parmetros surgem dentro de hierarquias - os Modelos Hierrquicos Bayesianos. O princpio nesses modelos
dividir a especicao da distribuio a priori em estgios. Alm de facilitar a especicao, essa
abordagem natural em determinadas situaes experimentais.
Seja o parmetro de interesse, e os valores dos hiperparmetros - denominao que se
d aos parmetros pertencentes distribuio a priori especicada para . Como a distribuio a
priori de depende dos valores de , possvel especicar p(|) em vez de p(). Alm disso, ao
invs de xar valores para os hiperparmetros, possvel especicar uma distribuio a priori p()
para eles, completando a especicao do segundo estgio da hierarquia. E ento, a distribuio a
priori marginal de pode ser obtida por integrao
p() =
p(, )d =
p(|)p()d.
Voltando ao contexto dos dados de interesse, no mapeamento de doenas o modelo mais comumente utilizado para dados de contagem em pequenas reas o modelo de Poisson. Segundo
Lawson (2008), este modelo apropriado quando existe uma contagem relativamente baixa da
doena e a populao relativamente grande nas reas. A contagem da doena Yi nas i = 1, ..., n
reas assumida como tendo uma mdia i e sendo independentemente distribuda como
Yi |Ri Poisson (i ) ,
em que i = Ei Ri .
Assim como anteriormente, a mdia considerada consistindo em dois componentes: i) um
componente representando o efeito da populao (valores esperados), e ii) um componente representando o excesso de risco na rea (risco relativo). O clculo dos valores esperados se d como
explicado na seo anterior. Assim, os dados so independentemente distribudos com esperana
2.2
E(Yi |Ri ) = i = Ei Ri
em que Ei o valor esperado para a i-sima rea, e Ri o respectivo risco relativo. Como o interesse desenvolver um modelo bayesiano hierrquico, Yi considerado independente dado o
conhecimento de Ri .
A abordagem mais comum para a modelagem do risco relativo assumir funo de ligao
logartmica para o preditor linear, isto ,
log(Ri ) = i .
Diferentes especicaes para i podem ser adotadas. Denir efeitos aleatrios com distribuies a priori Gama ou Beta para o risco relativo pode ser til, mas tm uma srie de inconvenientes.
Primeiro, a distribuio Gama no permite que se obtenha facilmente adaptaes para a incluso
de covariveis no modelo, e, segundo, no h generalizao simples e adaptvel de tal distribuio
para parmetros espacialmente correlacionados. Best et al. (2005) fornecem um exemplo do uso
de modelos Gama correlacionados, mas esses modelos mostraram ter um desempenho ruim num
estudo de simulao. Alm disso, de acordo com Lawson (2008), as vantagens de incorporar uma
especicao Gaussiana so muitas. A principal que um efeito aleatrio com distribuio Gaussiana se comporta de maneira similar a um com distribuio Gama, mas o modelo gaussiano pode
incluir uma estrutura de correlao. Assim, para o caso em que suspeita-se que os efeitos aleatrios
so correlacionados espacialmente (o que bastante razovel), o mais comum especicar uma
forma Gaussiana para qualquer variao extra presente. Uma alternativa considerar componentes
aditivos descrevendo diferentes aspectos da variao que se presume haver nos dados, e atribuir
a um desses componentes distribuio a priori Gaussiana. Enm, existem muitas maneiras de se
incorporar tal heterogeneidade no modelo, e uma dessas apresentada a seguir.
Besag et al. (1991) primeiramente sugeriram a seguinte forma para i
i = + x i + i
em que um termo comum a todas as reas, x i = (xi1 , ..., xip ) um conjunto de p covariveis
associadas yi , e i o efeito aleatrio estruturalmente espacial, que tem por nalidade capturar
a dependncia espacial da regio e a variabilidade devido ausncia de algum fator de risco no
modelo.
A incluso do termo de intercepto no modelo exige que seja atribuda a este distribuio a
priori Uniforme na reta real, conhecida como distribuio at (Thomas et al. (2004)). Para o vetor
de parmetros de regresso = (1 , ..., p ) atribu-se, em geral, distribuio a priori Normal Multivariada com baixa preciso e vetor de mdias 0. Para modelar os efeitos aleatrios i , geralmente
2.3
i |i N i + ci j ( j j ), 2 mii ,
(2.1)
ji
em que i = (1 , ...i1 , i+1 , ..., n ) o vetor de efeitos aleatrios sem o elemento i , e 2 > 0
um termo de varincia. C = (ci j ), uma matriz de associao espacial com zeros na diagonal
(isto , cii = 0), M = (mii ) uma matriz diagonal conhecida; e um parmetro que mede a
fora da dependncia espacial de i nos seus vizinhos. Ci j e Mi j so denidas de modo que a
C )1 M seja simtrica e positiva-denida, tornando o modelo vlido. Observe que
matriz (II C
C )1 M simtrica somente se ci j m j j = c ji mii , i, j = 1, ..., n. E para que esta matriz seja
(II C
positiva-denida, o parmetro deve pertencer ao intervalo (min , max ), em que 1/min e 1/max
1
1
so o menor e maior autovalores da matriz M 2 C M 2 . Mais detalhes sobre a especicao deste
modelo so apresentados no prximo Captulo.
Resumindo, o modelo hierrquico bayesiano denido tal que
Yi |i Poisson (i )
i = Ei Ri
log(Ri ) = + xi + i
(2.2)
U (, +)
N(0, 2 )
i CAR(2 ).
Dada a importncia da modelagem dos efeitos aleatrios estruturados, no Captulo 3 so apresentados mais detalhadamente o modelo Condicional Autorregressivo Intrnseco (ICAR), e o modelo de convoluo, que assume priori ICAR para um de seus efeitos aleatrios. Tambm abordado o CAR multivariado, que acomoda a especicao do CAR para o caso multivariado, e
utilizado nos dados de aplicao deste trabalho mais frente, no Captulo 5.
2.3
2.3
10
Suponha que, alm de analisar a ocorrncia dos riscos relativos no espao, tambm exista
interesse em compreender a sua dinmica ao longo do tempo. Talvez a ideia mais intuitiva seja
modelar os riscos como uma srie temporal, cujo comportamento futuro analisado com base em
um conjunto de informaes j existentes. Um dos principais objetivos de uma anlise de sries
temporais o entendimento de seu mecanismo gerador, e tambm a predio para tempos futuros.
O conhecimento sobre o mecanismo de gerao da srie possibilita uma melhor descrio destas,
enquanto que a previso contribui para a tomada de decises.
Uma possibilidade de modelagem para uma srie temporal, seguindo o enfoque bayesiano, so
os modelos dinmicos lineares generalizados (MDLGs), propostos por West et al. (1985) como
uma generalizao dos modelos dinmicos lineares (MDLs), introduzidos por Harrison e Stevens
(1976). Ambos esto bem documentados em West e Harrison (1997).
Os MDLs, tambm conhecidos como modelos de espao de estados, tem por objetivo analisar
uma varivel latente com base em uma varivel observvel que segue distribuio Normal. No
caso dos MDLGs a ideia a mesma, com a vantagem de que a varivel resposta no precisa ser
normalmente distribuda, mas apenas pertencer famlia exponencial de distribuies. Um dos
modelos dinmicos lineares generalizados mais simples o passeio aleatrio de primeira ordem.
O princpio bsico que rege tal modelo a utuao aleatria dos valores da srie temporal em
torno de um ponto mdio, sendo este tambm sujeito a variaes ao longo do tempo. Basicamente,
atribui-se s observaes {yt |t } uma distribuio pertencente famlia exponencial. Ento, para
t = 1, 2, ..., T , t segue um passeio aleatrio tal que
t = t1 + t ,
(2.3)
com t N(0, ).
Apesar de ser relativamente simples, esse modelo incorpora o conceito de evoluo temporal
de forma que a mdia possa variar ao longo do tempo, o que o torna bastante atrativo.
Agora, suponha que a varivel Y seja observada no tempo e no espao, e que para i = 1, 2, ..., n
e t = 1, 2, ..., T
(2.4)
2.3
it = Eit Rit ,
11
(2.5)
com Eit representando o valor esperado para a rea i no tempo t, e Rit o respectivo risco relativo.
Aplicando o log nessa expresso, que funo de ligao natural para o modelo de Poisson,
obtm-se
(2.6)
Como os valores para Eit so conhecidos, a modelagem da mdia acerca do log(it ) se resume
especicao do log(Rit ). Utilizando a hierarquia do modelo proposto em (2.2), e com a adio
de um parmetro para capturar a dinmica temporal da mdia, os riscos relativos denidos so tais
que
log(Rit ) = + xit + t + i ,
(2.7)
no qual tanto os parmetros como tambm poderiam variar no tempo. No entanto, a incluso
do domnio temporal em tais parmetros tem se mostrado pouco vantajosa no sentido de custo
computacional e de no apresentar signicncia no modelo. Alm disso, nem sempre faz sentido
que estes variem no tempo.
A distribuio especicada para t , de modo similar (2.3), possui estrutura dinmica dada
por
t = t1 + t ,
(2.8)
t N(0, ).
Em outras palavras, o nvel da srie modelado como um passeio aleatrio, no qual o valor
inicial
0 N(0, ).
(2.9)
Usando termos dos modelos dinmicos lineares, a equao 2.7 conhecida como equao de
observao, a equao 2.8 como equao do sistema, e t como o estado. Para completar a modelagem do log(Rit ), especica-se uma distribuio a priori para os efeitos aleatrios estruturados
espacialmente i . Como j mencionado, essa distribuio pertence classe dos Modelos Condicionais Autorregressivos, apresentada com mais detalhes no prximo Captulo. Desta forma est
2.3
12
especicado um modelo espao-temporal para anlise de dados de rea, cujos resultados de uma
aplicao em dados reais pode ser vista mais a frente, no Captulo 6.
No prximo Captulo, apresenta-se uma introduo sobre Campos Aleatrios Markovianos
Gaussianos, utilizados no desenvolvimento do CAR, bem como aspectos da formulao condicional para modelos Gaussianos espaciais, de modo a tornar vlida a sua estrutura. Em seguida,
considera-se algumas formas de especicao para um modelo Condicional Autorregressivo.
Captulo 3
Campos Aleatrios Markovianos
Gaussianos (CAMG) e os Modelos CAR
Seja D R2 a regio geogrca em estudo e s1 , s2 , ..., sn D as n reas amostrais sobre as
quais observada a varivel aleatria y(s). possvel escrever
i = 1, 2, ..., n,
(3.1)
com = ((s1 ), (s2 ), ..., (sn )) representando as mdias gerais que podem ou no depender dos
locais de observao si , para i = 1, ..., n, e = ((s1 ), (s2 ), ..., (sn )) os erros aleatrios, isto , o
componente estocstico do modelo.
Se for modelado como num modelo de regresso linear (simples ou mltipla), explicada
por uma ou mais covariveis, ento assume-se que os erros so independentes, caso em que no
existe autocorrelao espacial. Por outro lado, se o componente estocstico apresenta uma estrutura espacial (que o caso de interesse neste estudo), ento no possvel assumir independncia
entre tais erros, e torna-se necessrio denir no modelo uma estrutura que acomode essa dependncia espacial. Neste caso, uma alternativa utilizar os Campos Aleatrios Markovianos (CAM)
(Molli (1996)) para denir a distribuio a priori para os efeitos, assunto que tratado a seguir.
Na sequncia so apresentados alguns aspectos da modelagem condicional e sua relao com os
modelos CAR.
3.1
A principal soluo para o problema de se determinar a existncia e especicao da distribuio conjunta associada com as distribuies condicionais foi encontrada na dcada de 70 por
Hammersley e Clifford. Eles descobriram uma ligao fundamental entre o problema terico da
especicao de uma distribuio via suas condicionais e os campos aleatrios de Markov, embora
eles mesmos no tenham publicado a prova de seu teorema, que s veio a ser conhecida no meio
13
3.1
14
CAMG(, P ),
(3.2)
em que representa um vetor de mdias = (1 , ..., n ) e P uma matriz de precises, tal que
1
p() exp ( ) P ( ).
2
(3.3)
Os modelos propostos por Besag et al. (1991) so um caso particular deste modelo, obtidos
fazendo P = M , com
i= j
mi ,
Mi j =
i j
wi j ,
0,
caso contrrio
em que i j denota que as reas si e s j so vizinhas, para i, j = 1, ..., n; mi o nmero de vizinhos
da regio i e wi j > 0 uma medida de similaridade entre si e s j . Uma das escolhas mais comuns
para wi j baseado em fronteiras, fazendo wi j = 1 se si faz fronteira com s j e wi j = 0 caso contrrio.
Outro critrio bastante utilizado para wi j o inverso da distncia entre os centroides das reas si e
s j.
Observe que, como a matriz M especicada singular, sua inversa, a matriz de covarincias,
no existe. Em resultado disso, a distribuio conjunta de no prpria nestes modelos. Nos
tpicos seguintes considera-se como lidar com este problema.
Antes de introduzir os modelos condicionais autorregressivos de Besag et al. (1991), porm,
so abordados alguns aspectos importantes da modelagem condicional.
3.1
3.1.1
15
Como anteriormente, assuma que (s) : s D, com (si ); i = 1, ..., n, representa o vetor de
efeitos espaciais denido sobre a regio geogrca em estudo. Utilizando a notao de Cressie
(1993), seja NM(0, ) uma distribuio conjunta (n-dimensional) com mdia 0 e matriz de covarincias diagonal (por exemplo, = 2 I), sendo que os elementos de tambm so indexados
de acordo com suas localizaes {si : i = 1, ..., n}.
Seja B = (bi j ) a matriz que acomoda a dependncia espacial. possvel armar, mesmo atravs
de um pensamento intuitivo, que, se existe a crena de que (s1 ) correlacionado espacialmente
com (s2 ), por exemplo, ento o elemento b12 > 0, mas, se esses efeitos so pensados como sendo
independentes no espao, ento b12 = 0. Alm disso, assume-se que bii = 0 para i = 1, ..., n, e que
(II B )1 existe (Ripley (2005)). No um requisito para o modelo que bi j = b ji .
Ento, uma maneira de denir = ((s1 ), ..., (sn )), atravs de uma especicao simultnea,
seria utilizar o fato de que
(II B)( ) = .
(3.4)
(3.5)
(si ) = i + bi j ((s j ) j ) + i ,
i = 1, ..., n.
(3.6)
j=1
(2)
n2
|
|
12
1
1
(II B )( ) .
|II B | exp ( ) (II B )
2
(3.7)
3.1
16
Assim, para dados Gaussianos, Cressie (1993) mostrou que a distribuio condicional pode ser
escrita como
f ((si )|(s j ) : j i, j
1
i) = (22i ) 2
=
2
1
exp 2 (si ) i ((s j ))
,
2i
i = 1, ..., n, (3.8)
em que f denota a densidade condicional de (si ) dado (s j ) : j i, j = i, j = 1, ..., n e i e 2i
so sua mdia e varincia condicionais, respectivamente. Sob uma condio de regularidade de
dependncia somente aos pares entre as reas, possvel escrever
n
i ((s j ) : j i, j = i) = i + ci j ((s j ) j ),
i = 1, ..., n,
(3.9)
j=1
C )1 M ),
NM(, (II C
(3.10)
C ) invertvel e (II C
C )1 M simtrica e positiva denida. Aqui, = ((s1 ), ..., (sn )) ,
em que (II C
= (1 , ..., n ) , C = (ci j ) uma matriz n n na qual o (i, j)-simo elemento ci j , e M =
diag(21 , ..., 2n ) uma matriz diagonal tambm n n.
Apenas para constar, a verossimilhana passa a ser
2n
(2)
M|
|M
12
1
1
C | exp ( ) M (II C
C )( ) .
|II C
2
1
2
C )1 M = (II B )1 (II B )1
(II C
elas produzem o mesmo modelo, mas evidente que bi j e ci j no podem ter a mesma interpretao.
Para mostrar que a distribuio conjunta dos efeitos aleatrios segue a distribuio em (3.10)
e satisfaz as condies mencionadas, antes enunciado um teorema que deve ser satisfeito por
qualquer especicao condicional - o Teorema da Fatorao.
3.1
17
Teorema da Fatorao (Besag (1974)) Suponha que as variveis {Z(si ) : i = 1, ..., n} tem
funo densidade de probabilidade conjunta Pr(.) cujo suporte satisfaz a condio de positividade, isto , de que P(zi ) > 0 P(zi , ..., zn ) > 0 i. Ento,
n
Pr(z)
Pr(z(si )|z(s1 ), ..., z(si1 ), y(si+1 ), ..., y(sn ))
=
, z, y ,
Pr(y) i=1 Pr(y(si )|z(s1 ), ..., z(si1 ), y(si+1 ), ..., y(sn ))
(3.11)
em que y = (y(s1 ), ..., y(sn )) , z = (z(s1 ), ..., z(sn )) so possveis realizaes de Z.
Prova
Para y(sn ) n ,
Pr(z) = Pr z(sn )| z(s j ) : j = n Pr z(s j ) : j = n
Pr z(sn )| z(s j ) : j = n Pr z(s j ) : j = n , y(sn )
=
,
Pr y(sn )| z(s j ) : j = n
Sob a condio de positividade, o denominador desta expresso positivo. Agora,
Pr
z(s j ) : j = n , y(sn ) = Pr (z(sn1 | {z(si ) : i = n 1, n} , y(sn )) Pr ({z(si ) : i = n 1, n} , y(sn ))
Pr (z(sn1 )|z(s1 ), ..., z(sn2 ), y(sn )) Pr (z(s1 ), ..., z(sn2 ), y(sn1 ), y(sn ))
,
=
Pr (y(sn1 )|z(s1 ), ..., z(sn2 ), y(sn ))
para algum y(sn1 ) n1 . Novamente, a condio de positividade usada para garantir que a
ltima expresso esteja bem denida. Prosseguindo desta maneira, o teorema est provado.
Proposio A especicao condicional em (3.8) e (3.9) implicam que
C )1 M ,
Z NM , (II C
C ) invertvel e (II C
C )1 M simtrica e positiva-denida.
sendo (II C
3.2
18
Prova
Usando o teorema da fatorao para densidades e fazendo y = em (3.11), obtm-se
2
i1
1 n
log( f (zz)/ f ()) = 2 z(si ) (si ) ci j z(s j ) (s j )
2i i=1
j=1
2
n
i1
1
+
ci j z(s j ) (s j )
22i i=1 j=1
=
+
1 n
(z(si) (si))2
22i i=1
1 n i1
c
(z(s
)
(s
))
z(s
)
(s
)
i
j
i
i
j
j
2i i=1 j=1
1
C )(zz ).
= (zz ) M 1 (II C
2
O lado direito da equao o expoente de uma distribuio Gaussiana n-dimensional com mC )1 M .
dia e matriz de varincias (II C
O teorema da fatorao mostra o quo severas as condies de consistncia para probabilidades
condicionais podem ser. Uma vez que existem n! maneiras de se ordenar as reas, existem n!
fatoraes para Pr(zz)/Pr(yy), que devem ser todas iguais.
Toda essa formulao serve de auxlio para a denio das distribuies dos modelos condicionais autorregressivos na prxima Seo.
3.2
O conceito de modelo condicional autorregressivo para dados de rea foi introduzido por
Besag (1974), que mostrou que a abordagem de probabilidade condicional para a especicao
e anlise da interao espacial mais atraente do que a abordagem de probabilidade conjunta
alternativa. A base de seu desenvolvimento vem do modelo de rede de Knsch (1987), que usa
a denio de distribuio espacial em termos de diferenas e permite o uso de uma distribuio conjunta Normal singular. Veio a ser explorada mais profundamente pela primeira vez por
Besag e Kooperberg (1995), com a abordagem do modelo Condicional Autorregressivo Intrnseco (ICAR, Intrinsic Conditional Autoregressive) para anlise Bayesiana de imagens, mostrando
as restries necessrias para se obter distribuio a posteriori prpria. Este modelo apresentado no prximo tpico. Em seguida, considerado o Modelo de Convoluo, que utiliza como
distribuio a priori para um de seus efeitos o modelo CAR.
3.2
3.2.1
19
Utilizando notao semelhante de Stern e Cressie (2000), num modelo CAR, o vetor dos
efeitos aleatrio espaciais i , i = 1, ..., n segue distribuio Normal multivariada
C)
NM , (II C
M ,
(3.12)
em que C = ci j uma matriz de associao espacial com zeros na diagonal; o parmetro que
mede a fora da dependncia espacial de nos seus vizinhos; I a matriz Identidade n n; M
C )1 M
uma matriz diagonal conhecida, escolhida de modo que a matriz de covarincias = (II C
seja positiva-denida.
Sendo M = (mii ) e por inspeo na matriz 1 , conclui-se que simtrica quando m j jCi j =
miiC ji . Observe tambm que a matriz de covarincias pode ser expressa como
1
1
1 1
1
M 2 CM 2
= M 2 I M
M 2.
(3.13)
Ento, ela ser denida-positiva quando (min , max ), sendo que 1/min e 1/max so o
1
1
menor e maior autovalores de M 2 C M 2 , respectivamente.
importante ressaltar que a incluso de no modelo - o parmetro que mede a fora da
dependncia de nos seus vizinhos - no faz com que se perca a generalidade do resultado em
(3.10) e, portanto, a distribuio conjunta de e as distribuies condicionais dos efeitos esto
garantidas por este.
Assim, as condicionais completas para o modelo CAR podem ser expressas como
i |i N i + ci j ( j j ), 2 mii ,
(3.14)
ji
em que j i indica que j pertence vizinhana de i (j faz fronteira com i, se esse for o critrio
adotado).
A escolha de = 0 implica em independncia espacial dos efeitos aleatrios, ao passo que ao
se escolher = 1 admite-se mxima autocorrelao espacial. Esta ltima opo leva ao modelo
CAR intrnseco (ICAR, do ingls Intrinsic Conditional Autoregressive).
Assim, a distribuio a priori ICAR dada por Besag et al. (1991) para
i |i N
em que ni o nmero de vizinhos da rea i.
1
ni
2
j , ni
ji
,
(3.15)
3.2
20
Note que esse modelo uma variao de (3.14). Neste caso, considera-se que i = 0; mii =
1
1
; ci j =
se as reas i e j forem adjacentes e 0 se no forem; e por m, = 1. O fato de
ni
ni
= 1 o que leva ao termo intrnseco utilizado para se referir ao modelo, pois ele faz com
que exista correlao espacial mxima entre os efeitos. Dessa forma, uma crtica associada a este
modelo que ele adequado apenas quando existe forte autocorrelao espacial. Observe que,
nessa formulao, a esperana condicional de i igual a mdia dos efeitos aleatrios das reas
vizinhas de i, enquanto a varincia condicional inversamente proporcional ao nmero de vizinhos
ni . O parmetro de varincia 2 controla a variao entre os efeitos aleatrios.
Essa uma distribuio imprpria, com uma mdia geral indenida para i , uma vez que possvel adicionar uma constante para cada i sem alterar a distribuio. Segundo Congdon (2007),
isso pode resultar em problemas na convergncia e de identicabilidade na estimao Bayesiana
baseada em amostras repetidas. Eberly et al. (2000) armam que uma maneira de se obter distribuio prpria impor ao modelo a restrio de que i = 0. Os autores trabalham, ainda, com
i
a relao entre identicabilidade e as taxas de convergncia do MCMC, de modo a fornecer orientao sobre a seleo de priori e melhoria no algoritmo. Adicionalmente, Besag e Kooperberg
(1995) demonstraram que impondo que a soma dos efeitos aleatrios seja igual a zero, e especicando um intercepto com locao invariante, e priori Uniforme (,+), que equivalente a
uma nova parametrizao do modelo incluindo um intercepto, garante-se a identicabilidade do
modelo. No OpenBUGS, as distribuies car.normal e mv.car utilizadas para denir o modelo CAR intrnseco univariado e multivariado, respectivamente, so parametrizadas para incluir
a restrio de soma a zero sobre os efeitos aleatrios. Isso signica que o usurio deve incluir
um termo de intercepto separado no modelo, ao qual deve-se atribuir uma distribuio a priori
Uniforme imprpria, usando a distribuio dat() denida no programa.
Com respeito especicao da estrutura da matriz de vizinhanas C , apesar de o mais comum
ser atribuir pesos normalizados, existem diversas maneiras de se construir tal estrutura, como por
exemplo, criando elaboraes de pesos como funes do comprimento das fronteiras. Muitos autores criticam a especicao da matriz de adjacncias utilizando apenas 0 s e 1 s como no sendo
consistente no caso em que o nmero de vizinhos varia (que o caso da maioria das grades irregulares).
3.2.2
Modelo de Convoluo
O modelo de convoluo, tambm proposto por Besag et al. (1991), bastante atrativo do
ponto de vista prtico. Basicamente, consiste num modelo CAR com dois efeitos aleatrios, um
com estrutura espacial e priori ICAR, e outro para capturar a variabilidade dos dados que no tem
relao com sua distribuio espacial. O modelo dado por
i = i + i ,
3.2
21
i |2 N(0, 2 ),
(3.16)
com
W , 2 ICAR(W
W , 2 ).
= (1 , ..., n )|W
O termo tem priori ICAR descrita em (3.15), na seo anterior. O segundo conjunto de efeitos aleatrios = (1 , ..., n ) independente entre as reas, e diferentes intensidades de correlao
podem ser representadas por variar os tamanhos relativos das duas componentes (, ). A convoluo entre as funes densidades de probabilidade para e resulta na densidade dos efeitos
aleatrios. Do ponto de vista prtico, bastante atrativo usar dois efeitos aleatrios, sendo que, ao
passo que um deles capta a estrutura de autocorrelao da regio, o outro permite deter variabilidade oriunda de outras fontes de variao. Por outro lado, de acordo com Eberly et al. (2000),
o uso de tais efeitos resulta num problema de identicabilidade, pois somente a soma dos erros
identicada pelos dados. Os autores mencionam que esse problema pode ser corrigido por incluir
um termo de intercepto no preditor linear, ou por impor que a soma dos efeitos i seja igual a zero.
Xie e Carlin (2006) exploram medidas de resolver esse tipo de problema de identicabilidade com
base em diferenas na preciso e na medida de divergncia de Kullback-Leibler.
De acordo com Rodrigues e Assuno (2012), o termo convoluo est ligado a este modelo
porque a densidade conjunta do vetor de efeitos aleatrios obtida como uma convoluo das
densidades conjuntas dos vetores dos efeitos e . Lembrando que, por denio, em Estatstica,
convoluo a distribuio de probabilidade da funo soma de duas variveis aleatrias.
3.2.3
3.2
22
Assim como nos modelos CAR univariados, a sua verso multivariada, que pode ser utilizada para modelar efeitos aleatrios, uma distribuio imprpria. No entanto, de acordo com
Xie e Carlin (2006), isso na maioria das vezes no visto como uma limitao para os bayesianos, uma vez que a distribuio a posteriori para geralmente prpria.
O modelo MVCAR proposto por Gelfand e Vounatsou (2003) para K variveis, utilizado
como distribuio a priori para os efeitos espaciais no caso multivariado, para o modelo
k = 1, ..., K,
especica uma matriz n K de efeitos aleatrios , denida com a restrio de que os efeitos
espaciais, separados em efeitos no espaciais e espacialmente estruturados especicada como
NnK (00, H 1 ),
(D
D W
W )]1 , com denotando o produto de Kronecker, D uma matriz n n
em que H 1 = [
diagonal cujos elementos so o nmero de vizinhos da i-sima regio, e W = wi j a matriz
de adjacncias, com wii = 0 e wi j = 1 se as reas i e j so adjacentes, (isto , i j), e 0 em
outros casos. Aqui, uma matriz K K positiva-denida de precises no espaciais, denindo
a relao entre as doenas, e um parmetro comum de autocorrelao. Isso denotado como o
modelo MVCAR (, ). Segundo Lawson (2008), este modelo pode ser estendido para permitir a
separao da autocorrelao para cada doena, fazendo
NnK (00, H 2 ),
1
I nn )Q
Q
D lW ), l = 1, ..., L,
em que H 2 = Q(
e Q = diag(R1 , ..., RL ), sendo Rl = chol(D
na qual chol() denota a decomposio de Cholesky.
Suponha que deseja-se utilizar o MVCAR como distribuio a priori para os efeitos aleatrios
de um modelo semelhante ao especicado em (2.2), mas sem considerar a presena de covariveis,
de modo que os riscos relativos sejam tais que
log (Rik ) = k + ik + ik ,
em que
NM (00, ) ,
(3.17)
3.2
23
MVCAR (1, ) .
O primeiro efeito, que no possui estrutura espacial, tem mdia igual a zero e matriz de covarincias diagonal = diag (1 , ..., K ). Para o segundo termo assumido um modelo CAR intrnseco
R, n) com matriz
usando a distribuio MVCAR. Para assume-se distribuio a priori Wishart(R
de parmetros R . A matriz de covarincias obtida, ento, como 1 . Outras suposies so feitas
acerca dos parmetros do modelo, as quais so distribuio a priori Wishart para as precises dos
1 ), e Uniforme (at) para os termos de intercepto k . No Openefeitos no correlacionados (
BUGS a distribuio MVCAR est denida, permitindo ao usurio utiliz-la como priori para os
efeitos aleatrios de um modelo multivariado similar ao apresentado. Neste trabalho, utiliza-se o
MVCAR como distribuio a priori para os efeitos aleatrios de um modelo para os bitos decorrentes de cinco tipos de cncer de maior importncia quantitativa no estado de So Paulo, para o
perodo de 1998 a 2010, cujos resultados constam no Captulo 6.
Captulo 4
Mtodos Computacionais Intensivos
Como j mencionado no decorrer deste texto, na maioria dos casos, a distribuio a posteriori
do vetor de parmetros do modelo no pode ser obtida por meio de um mtodo analtico devido
sua complexidade. Nessas situaes, necessrio apelar para mtodos numricos que, graas
evoluo computacional do ltimo sculo, se tornaram facilmente disponveis, implementveis, e
de obteno de resultados em um perodo de tempo relativamente curto. O Mtodo de Monte Carlo
via Cadeias de Markov (MCMC), especicamente, o amostrador de Gibbs, est implementado no
software OpenBUGS, utilizado neste trabalho.
Os mtodos de MCMC so uma alternativa aos mtodos no iterativos em problemas complexos (nos mtodos no iterativos, os valores so gerados de forma independente e no h preocupao com a convergncia do algoritmo, bastando que o tamanho da amostra seja sucientemente
grande). A ideia obter uma amostra da distribuio a posteriori e calcular estimativas amostrais
de caractersticas de interesse desta distribuio. A diferena que, neste caso, so usadas tcnicas
de simulao iterativa, baseadas em cadeias de Markov, implicando em que os valores gerados
sejam dependentes, diferente do que acontece nos mtodos no iterativos . Considere a seguir uma
breve descrio sobre dois dos mtodos de MCMC.
4.1
Algoritmo de Metropolis-Hastings
24
4.3
AMOSTRADOR DE GIBBS
25
( )q( j | )
, = min 1,
,
( j )q( | j )
t+1 = ;
5. Incremente o contador de t para t + 1 e volte ao passo 2.
O algoritmo deve ser executado at a convergncia da cadeia. Feito isso, a cadeia resultante,
isto , os pontos gerados, podem ser considerados como uma amostra da distribuio a posteriori.
4.2
Amostrador de Gibbs
(i |i ) =
()
.
() di
Sabe-se que, na maioria das situaes, gerar uma amostra diretamente de () pode ser difcil
ou mesmo impossvel. Felizmente, se as distribuies condicionais completas so conhecidas,
ento pode-se utilizar o amostrador de Gibbs, denido pelo seguinte esquema:
0
;
1. Faa t = 0, i = 1, e especique um valor inicial
t+1
2. Gere um novo valor i da distribuio i |i , que a densidade condicional completa
de i ;
3. Se i < d faa i = i + 1 e retorne ao passo 3;
4. Incremente o contador de t para t + 1 e volte ao passo 2.
Pode-se mostrar que aps a convergncia, os valores resultantes formam uma amostra de ().
4.4
DIAGNSTICO DE CONVERGNCIA
4.3
26
Diagnstico de Convergncia
Como visto, a partir da convergncia, os pontos gerados da cadeia resultante passam a ser encarados como pontos gerados da distribuio a posteriori de interesse. Assim, so necessrios alguns
cuidados para vericar a convergncia da cadeia. Primeiro, existe um perodo de aquecimento para
a cadeia, denominado burn-in. Nesse perodo, a cadeia ainda no atingiu convergncia, e, portanto,
os pontos gerados at ento devem ser descartados. Para saber quantas iteraes so necessrias
para o perodo de aquecimento, utilizam-se diagnsticos de convergncia, tais como o de Raftery
Lewis e Heidelberger Welch. Alm disso, muitas vezes possvel vericar a indicao de convergncia por meio de uma inspeo visual dos histogramas e densidades Kernel da estimativa da
distribuio a posteriori do parmetro de interesse, ainda assim altamente recomendvel que se
utilize pelo menos um mtodo de diagnstico.
Outra questo importante a vericao de uma possvel autocorrelao na cadeia, nos pontos
obtidos a partir do burn-in, pois cadeias autocorrelacionadas podem levar a subestimao da varincia do parmetro. Para corrigir esse problema, observamos o lag da autocorrelao e, a partir
deste, selecionamos um ponto a cada k iteraes para fazer parte da cadeia. Na prxima Seo,
considerado um pouco sobre o OpenBUGS, que utiliza os algoritmos de Metropolis-Hastings e o
Amostrador de Gibbs para a obteno de amostras da distribuio a posteriori do vetor de parmetros de interesse, e permite monitorao da convergncia atravs dos mtodos citados, a partir do
uso do pacote CODA.
4.4
OpenBUGS e CODA
BUGS (Bayesian Using Gibbs Sampler) um pacote que permite a realizao de inferncia
Bayesiana usando o amostrador de Gibbs. O usurio especica um modelo estatstico de complexidade arbitrria, simplesmente expondo as relaes entre as variveis relacionadas. O software
inclui um sistema especialista que determina um algoritmo adequado de MCMC para analisar
o modelo especicado. Em seguida, o usurio pode controlar a execuo do mecanismo e livre
para escolher entre uma vasta gama de tipos de sada. Considere um pouco sobre sua histria e
uma de suas ferramentas mais teis - o pacote CODA.
4.4.1
O projeto BUGS foi desenvolvido a partir de um trabalho sobre inteligncia articial em 1980.
A ideia para seu desenvolvimento surgiu a partir da compreenso de que os mtodos de simulao
poderiam ser usados para inferncia, e do reconhecimento de que a programao orientada a objetos poderia ser explorada para generalizar o algoritmo de simulao. O programa BUGS iniciou-se
em 1989 tendo como chefe programador Andrew Thomas, trabalhando com David Spiegelhalter
para a Unidade de Bioestatstica da MRC (Medical Research Council, em ingls, ou Conselho
de Pesquisa Mdica), em Cambridge. Coincidentemente, ao mesmo tempo, o relevante trabalho
4.4
OPENBUGS E CODA
27
de Gelfand e Smith (1990) estava sendo realizado em Nottingham, Reino Unido, mas de forma
totalmente diferente e de um ponto de partida bem diferente.
Inicialmente, o BUGS s usou algoritmos especializados para a rea do ambiente no qual se
desenvolveu. Em 1996, no entanto, o projeto mudou-se para o Imperial College, Londres (liderado
por Nicky Best, que j estava envolvida no projeto h alguns anos em Cambridge) e a capacidade
do software passou a ser expandida. Em particular, Jon Wakeeld e Dave Lunn aderiram ao projeto
nessa fase, para trabalhar na implementao de modelos no-lineares, e o desenvolvimento de uma
verso do software para Windows ganhou impulso. Nos anos seguintes, uma srie de outros tipos
de modelos desaadores foram abordados, incluindo modelos espaciais, modelos dinmicos (envolvendo equaes diferenciais) e os modelos de dimenso varivel (montados usando o algoritmo
reversible jump).
Em 2004, Andrew Thomas mudou-se para Helsinki, Finlndia, para comear a trabalhar no
OpenBUGS, enquanto Dave Lunn e Nicky Best permaneceram no Imperial College continuando
na manuteno e desenvolvimento do WinBUGS. Com isso, os dois pacotes divergiram um pouco,
cada um com suas prprias caractersticas avanadas no disponveis no outro. No entanto, agora
que o OpenBUGS progrediu de experimental para um pacote estvel e convel, todos os esforos
de desenvolvimento esto concentrados sobre ele.
4.4.2
4.4
OPENBUGS E CODA
4.4.3
28
CODA
CODA (Convergence Diagnostic and Output Analysis) um software direcionado para a anlise de convergncia das cadeias geradas via MCMC. orientado por meio de funes na linguagem do S-Plus (mesma utilizada pelo R), e serve como um processador dos resultados de MCMC
do BUGS. Nele esto implementados os principais diagnsticos de convergncia, como os j citados Geweke e Gelman e Rubin, alm dos de Raftery Lewis e Heidelberger Welch.
Tambm pode ser usado em conjunto com a sada do MCMC a partir do pacote CODA do
R atravs do comando read.openbugs, que l os resultados do MCMC no formato do CODA
produzido pelo OpenBUGS. A partir disso, o usurio se depara com uma grande facilidade em
utilizar os diagnsticos de convergncia citados na Seo anterior, que j esto includos no pacote,
bem como na produo de uma variedade de grcos das amostras a posteriori de parmetros
de interesse do modelo, permitindo uma anlise da trajetria da cadeia, e consequentemente, da
convergncia do algoritmo.
Captulo 5
Anlise Exploratria dos dados de
aplicao: bitos por cncer
Nas ltimas dcadas, o aumento do cncer se deu de tal modo que converteu-se em um evidente problema de sade pblica mundial. A Organizao Mundial da Sade (OMS) estima que,
em 2030, haver 27 milhes de casos incidentes de cncer no mundo, 17 milhes de mortes, e 75
milhes de pessoas vivas com a doena. No Brasil, o problema ganha relevncia pelo seu perl
epidemiolgico. Segundo o Instituto Nacional do Cncer (INCA), ao m de 2012 foram registrados cerca 518.000 casos novos de cncer no pas e mais de 50.000 bitos. O Instituto ressalta ainda
que, a preveno e o controle do cncer precisam adquirir o mesmo foco e a mesma ateno que a
rea de servios assistenciais, pois, quando o nmero de casos novos aumentar rapidamente, no
haver recursos sucientes para suprir as necessidades de diagnstico, tratamento e acompanhamento. Dessa forma, as consequncias podero ser devastadoras nos aspectos social e econmico.
O cncer pode se tornar um grande obstculo para o desenvolvimento socioeconmico de pases emergentes como o Brasil. Em face dimenso do problema, prossionais de diversas reas
se empenham tanto em sugerir formas de tratamento e diagnstico, como em fornecer informao de qualidade para subsidiar o conhecimento sobre a ocorrncia da doena. No que tange a
produzir informao, a Estatstica pode valer-se de ferramentas poderosas para que as entidades
de sade pblica possam estabelecer prioridades e alocar recursos de forma direcionada, modicando positivamente esse cenrio na populao brasileira. Como ponto de partida, o Ministrio
da Sade fornece, atravs do Sistema de Informaes sobre Mortalidade (SIM) (DATASUS (Visitada em junho/2013)), bases de dados geradas pelos Registros de Cncer de Base Populacional
(RCBP). Esses so disponibilizados como dados de rea e podem ser bitos na pgina do Datasus
(www.datasus.gov.br) segundo critrios denidos pelo usurio. Neste trabalho so considerados
dados para as microrregies do estado de So Paulo, para o perodo de 1998 a 2010, segundo local
de residncia, para os tipos de cncer de maior importncia quantitativa. Neste Captulo, a anlise
para os dados se d com mtodos exploratrios, buscando compreender as principais caractersticas da mortalidade decorrente dessas doenas no estado.
29
5.1
5.1
30
5.1.1
Sobre a doena: De acordo com o INCA (Instituto Nacional do Cncer), este o mais comum
de todos os tumores malignos, apresentando aumento de 2% por ano na sua incidncia mundial.
Em 90% dos casos diagnosticados, o cncer de pulmo est associado ao consumo de derivados
de tabaco. No Brasil, foi responsvel por 20.622 mortes em 2008, sendo o tipo que mais fez
vtimas. Altamente letal, a sobrevida mdia cumulativa total em cinco anos varia entre 13 e 21%
em pases desenvolvidos e entre 7 e 10% nos pases em desenvolvimento. No m do sculo XX, o
5.1
31
cncer de pulmo se tornou uma das principais causas de morte evitveis. Alm disso, evidncias
na literatura mostram que pessoas que tm cncer de pulmo apresentam risco aumentado para
o aparecimento de outros cnceres e que familiares primrios de pessoas que tiveram cncer de
pulmo apresentam risco levemente aumentado para o desenvolvimento dessa doena. Entretanto,
ainda difcil mesmo para a rea mdica estabelecer o quanto desse maior risco decorre de fatores
hereditrios e quanto por conta do hbito de fumar tanto ativa como passivamente.
A Figura 5.1 apresenta os 5 grupos de microrregies resultantes da anlise de agrupamentos
feita no software Minitab com base nas SMRs para os 13 anos do perodo. Para a utilizao da
tcnica, optou-se por escolher como medida de distncia a distncia euclidiana, e como procedimento de aglomerao o mtodo de Ward. Tambm chamado de Mnima Varincia, este mtodo
utiliza uma distncia que leva em conta a diferena dos tamanhos dos conglomerados que esto sendo comparados e, com isso, produz grupos mais homogneos e com aproximadamente o
mesmo nmero de elementos.
evidente que, a microrregio de Barretos, por conter um hospital de referncia no tratamento
de cncer, comportou-se como outlier. Isso se explica pelo fato de que, embora o clculo das SMRs
leve em conta a estrutura demogrca da microrregio, a quantidade de bitos registrados no local
no condiz apenas com a populao residente, mas tambm acaba incluindo a populao que migra
para este local, e reside temporariamente em abrigos fornecidos pelo prprio hospital, mas que, ao
falecer em meio ao tratamento, incrementa o registro de bitos por residncia da localidade.
No mapa da Figura 5.2 possvel visualizar a distribuio geogrca dos grupos formados.
Para compreender as particularidades de cada grupo, observe os boxplots da Figura 5.3.
Os grupos predominantes no mapa foram o grupo 1 (vermelho) e o grupo 2 (verde). O grupo
2 refere-se s microrregies que apresentaram baixos valores para a SMR em todo o perodo,
geralmente abaixo de 1, indicando que a mortalidade em tais regies foi abaixo do que o esperado.
No caso do grupo 1, os valores foram baixos no comeo do perodo, mas sofreram crescimento de
2002 em diante, chegando a ter mortalidade at 3 vezes maior do que o esperado.
Os grupos 3 (azul) e 4 (amarelo) se concentraram no centro e centro-norte da regio. Nota-se
que o grupo 3, cujos valores para a SMR foram maiores que 1 em praticamente todo o perodo,
encontra-se prximo ao grupo 5 (Barretos), que pode ser visualizado na Figura 4. O grupo 4,
por outro lado, apresentou decrscimo dos valores no decorrer do perodo, alm de uma aparente
tendncia de 4 em 4 anos.
Com respeito microrregio de Barretos (Figura5.4), vlido chamar a ateno de que de
2008 em diante os valores se mostraram mais baixos, muito provavelmente devido consolidao
do sistema de informao.
Pode-se chamar a ateno para a importncia de analisar as microrregies segundo grupos
especcos atravs dos boxplots da Figura 5.5. Observe que ca difcil detectar padres ao olhar
diretamente para o comportamento geral das SMRs. Nesses boxplots, as SMRs parecem apresentar
variao suave no decorrer do perodo, enquanto que, atravs da anlise de agrupamentos, pode
ser visto que isso no verdade para determinados grupos de microrregies.
5.1
32
Figura 5.1: Dendrogramas do agrupamento das SMRs referentes aos bitos por cncer de traqueia, brnquios e pulmo de 1998 a 2010.
5.1
33
Figura 5.2: Microrregies do estado de So Paulo segundo os grupos da anlise de agrupamentos das
SMRs referentes aos bitos por cncer de traqueia, brnquios e pulmo de 1998 a 2010.
Figura 5.3: Boxplots dos grupos da anlise de agrupamentos das SMRs referentes aos bitos por cncer
de traqueia, brnquios e pulmo de 1998 a 2010.
5.1
34
Figura 5.4: Boxplots do grupo 5 (microrregio de Barretos) da anlise de agrupamentos das SMRs referentes aos bitos por cncer de traqueia, brnquios e pulmo de 1998 a 2010.
Figura 5.5: Boxplots da distribuio das SMRs em todas as microrregies do estado de So Paulo referentes
aos bitos por cncer de traqueia, brnquios e pulmo de 1998 a 2010.
Na Figura 5.6 pode ser observado o comportamento das SMRs nas microrregies em cada
ano do perodo. Note que a anlise de agrupamentos auxilia muito na compreenso de padres na
mortalidade ao longo do tempo, j que ca difcil observar tendncias ou mudanas apenas por
observao dos mapas para cada ano do perodo. Ainda assim, possvel notar que, na maior parte
do perodo, os baixos valores para a SMR se distriburam por todo o entorno do estado, enquanto
as altas taxas, quase sempre estiveram apenas no centro e norte de So Paulo.
5.1
35
Figura 5.6: Razes de Mortalidade Padronizadas (SMRs) para a mortalidade por cncer de traqueia,
brnquios e pulmo nas microrregies do estado de So Paulo, de 1998 a 2010.
5.1
5.1.2
36
Sobre a doena: o cncer mais comum entre as mulheres, e o segundo tipo mais frequente
no mundo, correspondendo a 22% dos casos novos a cada ano. Por ser diagnosticado em estgios
avanados, pelo menos no Brasil, as taxas de mortalidade por cncer de mama continuam elevadas,
e, segundo o INCA, na populao mundial, a sobrevida mdia aps cinco anos de 61%.
Antes de passar para os resultados da anlise de agrupamentos, atente para o grco da Figura
5.7. Note que a linha demarcando o valor 1 para a SMR passa por todas as caixas, sendo que a
maioria delas tem sua maior parte abaixo desta, o que poderia levar erroneamente concluso
de que a mortalidade por esse cncer foi constante na regio de estudo, exceto pela presena de
vrios outliers, cuja interpretao s seria possvel atravs da observao dos mapas com as SMRs
para cada ano do perodo, relacionando referente outlier sua microrregio no mapa. Tal maneira
de analisar os dados seria tanto mais difcil quanto suscetvel a maiores erros de interpretao,
dicultando compreender o comportamento real do fenmeno na regio em estudo.
Figura 5.7: Boxplots da distribuio das SMRs em todas as microrregies do estado de So Paulo referentes
aos bitos por cncer feminino de mama, de 1998 a 2010.
A anlise de agrupamento das microrregies para este tipo de cncer resultou na formao de
grupos conforme o mapa da Figura 5.8. Na Figura 5.9 consta o respectivo dendrograma.
Analisando os boxplots das SMRs segundo os grupos ao longo do tempo para essa doena (Figura 5.10), possvel fazer algumas consideraes. O grupo 1 (vermelho) corresponde s microrregies cujo comportamento das SMRs oscilou no decorrer do perodo em estudo, mantendo-se,
porm, abaixo de 1 em sua maior parte. O grupo 2 (verde) comportou-se de maneira muito similar
ao mesmo na anlise para o cncer de traqueia, brnquios e pulmo. Com as menores SMRs, geralmente abaixo de 1, tal grupo registrou menos bitos do que o esperado para as microrregies que
o compem. Ressalta-se, ainda, uma evidente semelhana na distribuio espacial deste quando
comparado ao do cncer de traqueia, brnquios e pulmo.
O grupo 3 (azul), que distribuiu-se por todo o estado, apresentou os maiores valores para as
5.1
37
Figura 5.8: Microrregies do estado de So Paulo segundo os grupos da anlise de agrupamentos das
SMRs referentes aos bitos por cncer feminino de mama, de 1998 a 2010.
Figura 5.9: Dendrogramas do agrupamento das SMRs referentes aos bitos por cncer feminino de mama
de 1998 a 2010.
SMRs, e uma aparente tendncia de 4 em 4 anos, sendo que 2002 a 2006 foi o perodo de pico
responsvel por este grupo ser o de mais altas SMRs (veja no mapa da Figura (5.12)). Nos demais
anos do perodo em estudo, as microrregies deste grupo tiveram SMR em torno de 1, caracterizando que os bitos registrados corresponderam ao esperado para a regio.
5.1
38
Figura 5.10: Boxplots dos grupos da anlise de agrupamentos das SMRs referentes aos bitos por cncer
feminino de mama de 1998 a 2010.
5.1
39
Figura 5.11: Boxplots do grupo 5 (microrregio de Barretos) da anlise de agrupamentos das SMRs referentes aos bitos por cncer feminino de mama de 1998 a 2010.
Apesar de ser possvel formar grupos bastante especcos para essa doena, ao atentar para o
mapa da Figura 5.8, fcil ver que, de modo geral, os grupos se distriburam de modo homogneo
pelo estado, sem a formao de reas com grandes aglomerados de microrregies pertencentes
a um mesmo grupo. Verica-se, portanto, grande variabilidade espacial para a mortalidade por
cncer de mama, talvez devido forte inuncia do fator hereditrio na manifestao dessa doena.
Um exame nos mapas da Figura 5.12 indica que a interpretao dos grupos formados na anlise
de agrupamentos parece razovel, j que o comportamento espacial das SMRs nos mapas, como
um todo, bastante semelhante ao dos grupos no mapa da Figura 5.8.
5.1
40
Figura 5.12: Razes de Mortalidade Padronizadas (SMRs) para a mortalidade por cncer feminino de
mama nas microrregies do estado de So Paulo, de 1998 a 2010.
5.1
5.1.3
41
Sobre a doena: A Classicao Estatstica Internacional de Doenas e Problemas Relacionados Sade - Dcima Reviso (CID-10) agrupa as neoplasias malignas nos lbios, cavidade oral
e faringe em uma nica categoria. Esta inclui os tumores malignos em toda glndula e tecido da
boca (exceto a pele do lbio), at a faringe. Segundo o INCA, os principais fatores de risco para o
cncer da cavidade oral so o tabagismo, o alcoolismo e as infeces pelo HPV (do ingls, human
papiloma virus, vrus do papiloma humano), sendo que o hbito de fumar e beber aumenta em 30
vezes o risco para o desenvolvimento deste tipo de cncer. O Instituto aponta que 42% dos bitos
por essa neoplasia se devem ao fumo, enquanto 16% ao alcoolismo. A deteco precoce por inspeo visual pode descobrir anormalidades pr-malignas do cncer da cavidade oral que, quando
diagnosticado precocemente, apresenta bom prognstico.
A Figura 5.13 leva a ateno novamente diculdade de se interpretar os valores das SMRs
na regio em estudo levando em conta todas as microrregies. Torna-se difcil vericar comportamentos especcos e, assim como no caso do cncer feminino de mama, o fato de a maior parte
das caixas car abaixo da linha demarcadora para SMR = 1 pode levar concluso de que os
bitos por essa doena foram menores do que o esperado na regio em estudo para o perodo considerado, quando, na realidade, isso no verdade, como mostraro os resultados da anlise de
agrupamento. A quantidade de outliers tambm diculta a identicao de padres.
Figura 5.13: Boxplots da distribuio das SMRs em todas as microrregies do estado de So Paulo referentes aos bitos por cncer de lbios, cavidade oral e faringe, de 1998 a 2010.
5.1
42
Figura 5.14: Microrregies do estado de So Paulo segundo os grupos da anlise de agrupamentos das
SMRs referentes aos bitos por cncer de lbios, cavidade oral e faringe, de 1998 a 2010.
Os dendrogramas da Figura 5.16 especicam as regies pertencentes a cada grupo, e a hierarquia na diviso de alguns deles pela anlise. O que se nota que, os grupos 3 (azul) e 4 (amarelo)
foram considerados semelhantes de alguma forma, e o grupo 5 (rosa) semelhante a ambos. O grupo
2 (verde) se destacou como o mais particular, alm de ser o mais volumoso.
Os boxplots da Figura 5.15 podem ajudar a elucidar o signicado de cada grupo.
Figura 5.15: Boxplots dos grupos da anlise de agrupamentos das SMRs referentes aos bitos por cncer
de lbios, cavidade oral e faringe, de 1998 a 2010.
5.1
43
Figura 5.16: Dendrograma do agrupamento das SMRs referentes aos bitos por cncer de lbios, cavidade
oral e faringe, de 1998 a 2010.
5.1
44
cujo nmero de bitos observados se mostrou prximo ao esperado, em quase todos os anos do
perodo, exceto pela presena de alguns outliers de microrregies que chegaram a ter at 5 vezes
mais mortes que o esperado para essa doena em algum momento.
O grupo 3 (azul) teve valores altos para a SMR, assim como os grupos 4 (amarelo) e 5 (rosa),
registrou mortalidades mais altas que o esperado, porm, decrescentes. Esses trs grupos possuem
poucas microrregies, o que talvez explique parte da alta variabilidade observada em alguns deles
(como no 4). Enquanto o grupo 3 teve mortalidade alta, porm decrescente, o grupo 4 teve altas
SMRs em todo o perodo, o que se justica uma vez que se verica que duas de suas microrregies - Barretos e Ja - possuem hospitais de referncia no tratamento de cncer. Com isso, recebe
destaque a microrregio de Ribeiro Preto, que se alocou num grupo de SMRs to altas. No mapa
da Figura 5.14 visvel a proximidade desses trs grupos, que, concentrados no centro e norte do
estado, indicam que essas regies so as mais afetadas em decorrncia da mortalidade por essa neoplasia. Os mapas da Figura 5.17 conrmam essa distribuio espacial. Observou-se esse mesmo
padro de ocorrncia das SMRs para o cncer de traqueias, brnquios e pulmo. E, levando em
conta que, de acordo com o SILVA et al. (2011), 90% dos casos de cncer de pulmo no Brasil so
decorrentes do tabagismo, esta varivel tambm deve ser importante em explicar parte dos bitos
por cncer de lbios, cavidade oral e faringe, e, portanto, a similaridade na distribuio espacial
dos riscos associados a tais doenas.
5.1
45
Figura 5.17: Razes de Mortalidade Padronizadas (SMRs) para a mortalidade por cncer de lbios, cavidade oral e faringe nas microrregies do estado de So Paulo, de 1998 a 2010.
5.1
5.1.4
46
Cncer de estmago
Sobre a doena: Tambm denominado cncer gstrico, os tumores do estmago tem seu pico
de incidncia na populao masculina, por volta dos 70 anos. De acordo com o INCA, cerca de
65% dos pacientes diagnosticados com cncer de estmago tm mais de 50 anos. No Brasil, esses
tumores aparecem em terceiro lugar na incidncia entre homens e em quinto, entre as mulheres. A
nvel mundial, o maior nmero de casos ocorre no Japo, onde so encontrados 780 doentes por
100.000 habitantes. Congura-se como a segunda causa de morte por cncer no mundo, sendo os
mais afetados pases em desenvolvimento. Apesar disso, as taxas de incidncia tem decrescido na
maioria dos pases. O INCA assegura que, boa parte disso se deve ao aumento do uso de refrigeradores para uma melhor conservao alimentar, aliado a modicaes no hbito alimentar da
populao (aumento da ingesto de frutas, legumes e verduras frescas). Essa mudana no padro
alimentar, junto com melhorias no saneamento bsico, tambm explica a reduo na prevalncia
de infeces pela Helicobacter pylori (H. pylori), responsvel por 63% dos casos de cncer gstrico. O cncer do estmago um tipo de tumor que no possui um bom prognstico, apresentando
sobrevida relativa considerada baixa, de apenas cinco anos.
Na Figura 5.18 esto dispostos os boxplots das SMRs referentes aos bitos por cncer de
estmago no estado de So Paulo, para cada ano do perodo em estudo. Observe que o nmero de
bitos por essa neoplasia chegou a ser 4 vezes maior que o esperado em algumas microrregies. A
elevada quantidade de outliers indica a existncia de muitas microrregies com alta mortalidade.
Figura 5.18: Boxplots da distribuio das SMRs em todas as microrregies do estado de So Paulo referentes aos bitos por cncer de estmago, de 1998 a 2010.
5.1
47
Figura 5.19: Dendrograma do agrupamento das SMRs referentes aos bitos por cncer de estmago, de
1998 a 2010.
5.1
48
No grupo 2 (verde) foram alocadas as microrregies com os maiores valores para a SMR,
geralmente com maior nmero de bitos do que o esperado para sua estrutura demogrca. Ao
observar o mapa, vemos que essas microrregies se distribuem sem nenhum padro aparente,
tal qual as do grupo 4 (amarelo), com grande variabilidade nas SMRs e quedas ou crescimentos
bruscos em seus valores no decorrer do perodo.
Figura 5.20: Microrregies do estado de So Paulo segundo os grupos da anlise de agrupamentos das
SMRs referentes aos bitos por cncer de estmago, de 1998 a 2010.
Figura 5.21: Boxplots dos grupos da anlise de agrupamentos das SMRs referentes aos bitos por cncer
de estmago, de 1998 a 2010.
5.1
49
Tambm possvel acompanhar as SMRs para Barretos, dispostas nos boxplots da seguinte
gura. Os valores altos no surpreendem, mas a semelhana com os respectivos boxplots para as
demais doenas, em que se observa queda e estabilidade nas SMRs para o m do perodo, aponta
para uma melhoria no sistema de coleta de dados.
Figura 5.22: Boxplots dos grupos da anlise de agrupamentos das SMRs referentes aos bitos por cncer
de estmago, de 1998 a 2010.
5.1
50
Figura 5.23: Razes de Mortalidade Padronizadas (SMRs) para a mortalidade por cncer de estmago nas
microrregies do estado de So Paulo, de 1998 a 2010.
5.1
5.1.5
51
Cncer de clon
Sobre a doena: O Instituto Nacional do Cncer classica o cncer de clon como o terceiro
tipo de cncer mais comum entre os homens, e o segundo para as mulheres, com 60% dos casos
localizados em regies mais desenvolvidas. Os padres geogrcos so bem semelhantes em relao ao sexo, embora o masculino apresente maior incidncia na maioria das populaes. Essa
neoplasia considerada de bom prognstico se a doena for diagnosticada em estgio inicial. Seu
desenvolvimento, assim como o de vrias formas comuns de cncer resultado da interao entre
fatores hereditrios e ambientais, sendo que, deste ltimo, o mais notvel a dieta. O consumo
excessivo de carne vermelha, embutidos e bebidas alcolicas, o tabagismo e distrbios de peso
favorecem o desenvolvimento dessa doena. Mas os fatores de risco mais relevantes so a histria
familiar e a predisposio gentica ao desenvolvimento de doenas crnicas do intestino. A idade
tambm considerada um fator de risco, uma vez que tanto a incidncia como a mortalidade aumentam com a idade. A histria natural dessa neoplasia propicia condies ideais sua deteco
precoce. A pesquisa de sangue oculto nas fezes e mtodos endoscpicos so considerados meios
de deteco precoce ecientes para esse cncer, pois so capazes de diagnosticar plipos adenomatosos colorretais (precursores do cncer do clon e reto), bem como tumores em estgios bem
iniciais. Mas, mesmo em pases com maiores recursos, a relao custo-benefcio em investimentos para estratgias apropriadas de preveno e deteco precoce do cncer do clon e reto tem
impossibilitado a implantao de rastreamento populacional.
Iniciando a anlise para os bitos por essa doena no estado de So Paulo, considere a Figura
5.24 com informao de todas as microrregies, para cada ano do perodo de 1998 a 2010. Com
base nessa gura, pode-se dizer que as microrregies tiveram nmero de bitos por cncer de clon bem prximo do esperado, sendo 1998 a 2001 o sub-perodo com os menores, mas ao mesmo
tempo tambm os maiores, nmeros de mortes registradas, devido a quantidade de outliers, que
continua sendo um problema na anlise deste grco.
Figura 5.24: Boxplots da distribuio das SMRs em todas as microrregies do estado de So Paulo referentes aos bitos por cncer de clon, de 1998 a 2010.
5.1
52
De acordo com as guras 5.26 e 5.27, os grupos 2 (verde) e 4 (amarelo) foram os que tiveram
as maiores SMRs, atentando para que, no grupo 2, apesar disso, as microrregies tiveram SMR
prxima de 1 na maior parte do perodo. J no grupo 4, isso no aconteceu, uma vez que a varincia
dessas razes nas microrregies deste grupo se mostrou-se alta, fazendo com que essa distribuio
oscilasse em boa parte do incio do perodo em diante. Esses grupos apareceram notoriamente no
centro e norte do estado, regies de maior risco, em geral, para a marioria dos cnceres considerados neste trabalho. Os grupos 1 (vermelho) e 3 (azul) tiveram as menores SMRs, entretanto,
vlido ressaltar o comportamento temporal crescente dessas razes no grupo 3, que visivelmente
sofreu mudanas nas SMRs em sub-perodos de 4 ou 5 anos.
A microrregio de Barretos (Figura 5.29) se comportou novamente como um caso anmalo,
porm, com decrescimento evidente nas razes de mortalidade padronizadas.
Nos mapas individuais das SMRs para cada ano do perodo, pode-se conrmar as concluses
tiradas com base na anlise de agrupamentos. Note que os mapas foram cando mais escuros no
decorrer do perodo, e aparentemente mais preenchidos, ou seja, com menos microrregies com
pequenas SMRs e mais regies com altas SMRs. Ao comparar esses mapas com o mapa do agrupamento na Figura 5.26, possvel identicar que isso acontece devido mudanas principalmente
nas microrregies pertencentes aos grupos 2 (verde) e 3 (azul), cujo comportamento temporal,
como j mencionado, bem evidente em seu boxplot da Figura 5.27.
Figura 5.25: Dendrograma do agrupamento das SMRs referentes aos bitos por cncer de clon, de 1998
a 2010.
5.1
53
Figura 5.26: Microrregies do estado de So Paulo segundo os grupos da anlise de agrupamentos das
SMRs referentes aos bitos por cncer de clon, de 1998 a 2010.
Figura 5.27: Boxplots dos grupos da anlise de agrupamentos das SMRs referentes aos bitos por cncer
de clon, de 1998 a 2010.
5.1
54
Figura 5.28: Razes de Mortalidade Padronizadas (SMRs) para a mortalidade por cncer de clon nas
microrregies do estado de So Paulo, de 1998 a 2010.
5.2
55
Figura 5.29: Boxplots dos grupos da anlise de agrupamentos das SMRs referentes aos bitos por cncer
de clon, de 1998 a 2010.
5.2
Embora no seja conclusiva, atravs do que fora apresentado nas sees anteriores, ca evidente que a anlise exploratria contribui muito para um conhecimento prvio dos dados. E, resumindo os pontos mais importantes da anlise feita, conclui-se o seguinte para cada doena:
Cncer de traqueia, brnquios e pulmo
Os altos valores para as SMRs se concentraram no centro e norte do estado. Destaque pode
ser dado ao grupo azul da anlise de agrupamentos, em que chamam ateno as microrregies de Araraquara, So Carlos, Jaboticabal, Catanduva, So Joaquim da Barra e Ituverava.
A exceo a microrregio de Ja, que possui altas taxas devido a conter um hospital de
referncia.
Cncer feminino de mama
Esse tipo de doena manifestou maior aleatoriedade na distribuio espacial das razes de
mortalidade, de modo que a interpretao da ocorrncia dos bitos nas microrregies no
se mostrou to clara quanto para a doena anterior. Ainda assim, podem ser destacadas as
microrregies do grupo azul, para o sub-perodo de 2002 a 2005. Microrregies com altos
valores para os bitos foram Araatuba, So Jos do Rio Preto, Assis e Marlia. Tambm se
destacaram nos mapas duas faixas de microrregies, uma que vai de So Joaquim da Barra
at Sorocaba, e outra de Santos a Guaratinguet, que se localizam, respectivamente, do norte
para o centro, e no leste do estado.
Cncer de lbios cavidade oral e faringe
A visualizao da ocorrncia de bitos importantes nesta doena pde ser melhor observada
atravs do mapa da SMR para o ano de 2010, pois as razes de mortalidade encontram-se
5.2
56
mais suaves neste mapa e resumem bem a informao produzida pela anlise de agrupamentos. Numa viso geral, o grupo azul recebe destaque pelas ocorrncias dos bitos entre 1998
e 2001, na faixa de microrregies que inclui Adamantina, Birigui, Auriama e Nhandeara,
que cam no oeste do estado. Outra regio de microrregies que se destacaram foi a que se
localiza no centro-norte da regio, e vai de Barretos at Ja, passando por Lins.
Cncer de estmago
Recebem destaque neste tipo de doena as microrregies do grupo verde: Registro, So Carlos, Marlia, Fernandpolis, Catanduva e So Joaquim da Barra, que, embora aparentem ter
uma distribuio espacial aleatria, se alocaram adjacentes ou prximas ao grupo vermelho, que, por ter uma grande quantidade de outliers, possui microrregies que tiveram altos
valores para a SMR em vrios anos do perodo.
Cncer de clon
A distribuio espacial das SMRs para esta doena se mostrou bastante semelhante da
doena anterior, cncer de estmago. Novamente, um aglomerado de microrregies no centro e norte do estado se mostraram importantes. A anlise de agrupamentos no se mostrou
muito elucidativa neste caso, uma vez que a variabilidade entre os grupos foi relativamente
pequena, no permitindo evidenciar claramente diferenas entre suas microrregies.
Com respeito intensidade das SMRs para as doenas, uma anlise visual dos mapas apresentados indica que a ordem de importncia (das maiores taxas para as menores) foi a seguinte:
Tabela 5.1: Ranking das doenas de acordo com os resultados da anlise exploratria dos dados
Posio
Doena
1o
2o
3o
Cncer de mama
4o
Cncer de estmago
5o
Cncer de clon
Captulo 6
Aplicao dos modelos hierrquicos
Bayesianos em dados de rea multivariados
O Captulo anterior forneceu uma viso geral sobre o comportamento dos dados e as regies
do estado com maiores riscos de bitos, baseado nas SMRs. A partir das suposies que a anlise
exploratria proporcionou, o prximo passo compreender melhor os dados a partir da construo
de um modelo apropriado.
Neste Captulo encontram-se os resultados da aplicao de modelos semelhantes aos considerados no Captulo 2, levando em conta primeiramente apenas o domnio espacial, e posteriormente,
tambm o domnio temporal. So apresentadas as regies de maior risco a posteriori para cada um
dos modelos, e, por m, uma comparao entre eles realizada atravs do DIC. Antes, porm,
vlido descrever os procedimentos de inferncia utilizados para a obteno de tais resultados.
6.1
Procedimentos de Inferncia
p(|x) =
p(x|)p()
p(, x) p(x|)p()
=
=
p(x|)p()
p(x)
p(x)
p(, x)d
(6.1)
57
6.1
PROCEDIMENTOS DE INFERNCIA
58
segundo de um modelo similar ao em (2.7), porm, ambos em uma verso multivariada e sem
a presena de covariveis. Para i = 1, ..., N reas, t = 1, ..., T tempos, e k = 1, ..., K doenas, os
modelos so, respectivamente:
Modelo 1: Modelo Hierrquico Bayesiano
Yik |Rik Poisson(Eik Rik ),
log(Rik ) = k + ik ,
k U (, +) ,
k MVCAR(1, ).
p(|2 )
p(t |t1, 2)
t=2
6.1
PROCEDIMENTOS DE INFERNCIA
59
1 T
2
exp 2 t t1
2 t=2
1 T
exp 2 nt t t t2
2 t=1
,
t = 1,
,
t+1
2
t1 + t+1
p(t |t , 2 )
N
,
, t = 2, ..., T 1,
2
2
N , 2 ,
t = T.
t1
(6.2)
Ct j j , 2Mtt
, para t = 1, ..., T,
Wt j
, Wt+ = Wt j e Wt j = 1 se j = (t 1) ou j = (t + 1) e 0 caso contrrio.
Wt+
j
1
Tambm, Mtt =
. Por isso, no OpenBUGS, pode-se ajustar como distribuio a priori um
Wt+
passeio aleatrio de ordem um (denotada por RW(1)) atravs da distribuio car.normal, ou,
analogamente, da distribuio mv.car para dados multivariados, que o caso dos dados de aplicao deste trabalho. Neste contexto, Shaddick e Wakeeld (2002) utilizaram uma modelagem
espao-temporal para quatro poluentes medidos diariamente em oito pontos de monitorizao, na
cidade de Londres, ao longo de quatro anos. A modelagem foi conduzida de modo a investigar o
efeito da poluio do ar na sade, e para os efeitos aleatrios temporais dos poluentes foi atribuda
como distribuio a priori um passeio aleatrio, sendo que a implementao de parte deste modelo
encontra-se disponvel no mdulo GeoBUGS, do OpenBUGS.
Considere como sendo a coleo de todos os parmetros desconhecidos do modelo e Y a
matriz de observaes para a varivel Y em cada caso. Em ambos os modelos N = 63, microrregies, e K = 5 doenas. Para o segundo modelo T = 13 anos de um perodo. Assim, a dimenso da
matriz de observaes Y no primeiro modelo 63 5 e no segundo 63 5 13. A diferena bsica
entre eles a incluso do domnio temporal no segundo modelo. Segue a descrio da inferncia
para um deles.
em que Ct j =
, , ), sendo que = (1 , 2 , 3 , 4 , 5 ) e =
Inferncia sob o Modelo 1: Aqui, = (
6.1
PROCEDIMENTOS DE INFERNCIA
60
|yy)
p(
i=1 k=1
k=1
exp [yik log(Eik Rik ) Eik Rik log(yik !)] p(k )p(k |)
i=1 k=1
).
p(
k=1
, , , ), sendo que = (1 , 2 , 3 , 4 , 5 ) , =
Inferncia sob o Modelo 2: Aqui, = (
(1,1 , ..., 5,13 ) e = (1 , 2 , 3 , 4 , 5 ). Pelo teorema de Bayes,
|yy) p(yy|
)p(
)
p(
|yy)
p(
exp [yitk log(Eitk Ritk ) Eitk Ritk log(yitk !)] p(k , kt , k ,Wk , )
i=1 t=1 k=1
N T K
t=1 k=1
K
k=1
).
p(
t=1 k=1
As distribuies a posteriori sob os modelos 1 e 2 apresentados possuem forma complexa e desconhecida. Assim, necessria a utilizao de mtodos computacionalmente intensivos para fazer
inferncia a respeito dos parmetros desconhecidos destes modelos. Neste trabalho utilizado o
mtodo de MCMC, apresentado no Captulo 4. O software utilizado foi o OpenBUGS. Este pacote
estatstico j tem implementado internamente as rotinas para estimar os parmetros via MCMC,
cabendo ao usurio a especicao do modelo, das distribuies a priori e de valores iniciais para
os hiperparmetros. A partir de tais denies, e da construo das distribuies condicionais
completas, o amostrador de Gibbs implementado no OpenBUGS permite o uso de diversas rotinas
para amostrar de forma eciente as distribuies condicionais. Caso no seja possvel construir as
distribuies condicionais completas, o software utiliza o algoritmo de Metropolis-Hastings com
a distribuio proposta sendo Gaussiana e centrada no valor atual do parmetro. Nos Apndices
A e B encontram-se, respectivamente, os cdigos utilizados no OpenBUGS para realizar inferncia acerca dos modelos 1 e 2 acima. importante ressaltar que no OpenBUGS est disponvel o
cdigo de um modelo para o mapeamento de duas doenas no oeste de Yorkshire, Reino Unido:
cncer de cavidade oral e cncer de pulmo (Thomas et al. (2004)). Este cdigo foi ampliado para
implementar os modelos 1 e 2 considerados aqui.
Os dados de aplicao so referentes aos bitos por 5 tipos de doenas: cncer de traqueia,
brnquios e pulmo; cncer feminino de mama; cncer de estmago; cncer de lbios, cavidade
oral e faringe; e cncer de clon nas 63 microrregies do estado de So Paulo, no decorrer do
6.2
61
perodo de 1998 a 2010. No modelo 1, que no leva em conta os espaos de tempo, o dado consiste
na soma dos bitos para todo o perodo em cada microrregio; no modelo 2 consiste na quantidade
anual de bitos para cada microrregio. Assim, no primeiro modelo Y uma matriz composta de
63 5 = 315 valores, enquanto no segundo modelo Y tridimensional, com 63 5 13 = 4095
valores. Em ambos os casos tambm necessrio fornecer ao OpenBUGS os respectivos valores
esperados para Y , que corresponde mesma quantidade de valores deste vetor.
Para a estimao, foram realizadas 15000 iteraes, sendo descartadas as 5000 iteraes iniciais e armazenadas as 10000 posteriores, com um salto de 10 observaes para melhorar a convergncia. Esta foi monitorada atravs da anlise da trajetria da cadeia, dos grcos das autocorrelaes, e de funes disponveis no pacote CODA, que encontram-se no Apndice C apenas
para alguns dos parmetros monitorados, uma vez que os demais possuem grcos semelhantes e,
portanto, levam indicao de convergncia de modo semelhante.
6.2
Mdia
Erro Padro
ICr(95%)
-0,1769
0,01939
(-0,2194; -0,1388)
-0,2439
0,02277
(-0,2890; -0,1977)
-0,0057
0,02211
(-0,0489; -0,0377)
-0,0973
0,00171
(-0,1319; -0,0637)
-0,0978
0,02033
(-0,1377; -0,0585)
0,9432
0,0937
(0,7802; 1,1470)
0,804
0,0865
(0,6533; 1,0991)
0,9581
0,0973
(0,7887; 1,1640)
0,6734
0,0715
(0,5481; 0,8281)
0,6699
0,0740
(0,5402; 0,8307)
Com respeito ao intercepto k para as doenas, atente para que o clculo do risco relativo se
6.2
62
d tal que RRik = exp (k + ik ), de modo que exp (1 ) = 0, 84, exp (2 ) = 0, 78, exp (3 ) = 0, 99,
exp (4 ) = 0, 91 e exp (5 ) = 0, 91 o quanto cada intercepto aumenta no risco relativo de cada
doena. Sendo que o desejvel que os riscos no ultrapassem 1, o que indicaria que os bitos
esto ocorrendo de acordo com o esperado, conclui-se que estes termos so importantes para o
risco e, portanto, relevantes ao modelo. Observe que tais termos so signicativos, uma vez que
seus intervalos de credibilidade no contm o valor 0.
Em relao aos termos de desvio dos efeitos k , os maiores foram observados para o cncer
de lbios, cavidade oral e faringe (3 = 0, 9581) e para cncer de traqueia, brnquios e pulmo
(1 = 0, 9432), respectivamente. Essas ltimas estimativas so obtidas das colunas da matriz de
covarincias da distribuio MVCAR, que, embora sejam calculadas de modo conjunto, podem
ser isoladas para a interpretao individual dos efeitos para cada doena. Assim, as doenas que
tiveram maior variabilidade devido sua estrutura espacial foram cncer de lbios, cavidade oral
e faringe e cncer de traqueia, brnquios e pulmo.
6.2.1
Como se pode ver na Figura 6.1, o mapa indica que o risco de se morrer devido cncer de
traqueia, brnquios e pulmo no estado de So Paulo maior no centro e no norte, pois nessas
regies que se concentram as microrregies pertencentes s classes de riscos mais altos do mapa,
o que coerente com os resultados obtidos na anlise exploratria.
Figura 6.1: Risco a posteriori obtido para o modelo referente aos bitos por cncer de traqueia, brnquios
e pulmo nas microrregies do estado de So Paulo, de 1998 a 2010.
Com exceo das microrregies que contm hospitais de referncia no tratamento do cncer
(onde os riscos tendem a ser altos), destacam-se como tendo valores altos para o risco de mortalidade por cncer de traqueia, brnquios e pulmo a microrregio de Araatuba, uma faixa no norte
do estado que vai da microrregio de So Jos do Rio Preto at a de Ituverava, e uma faixa que
vai das microrregies de Santos at Guaratinguet. Ao todo, 21 microrregies apresentaram risco
a posteriori maior que 1, e, destas, 9 tiveram as estimativas acima de 1,5.
6.2
63
Em comparao com as SMRs obtidas para a mesma doena, apresentadas no Captulo anterior, percebe-se uma suavizao nas estimativas obtidas pelo modelo bayesiano, o que facilita a
compreenso dos riscos na regio de estudo, bem como uma melhor identicao das microrregies e de reas com maior risco de bito.
A Figura 6.2 apresenta os boxplots para as distribuies a posteriori dos riscos relativos associados a cada microrregio em estudo.
Figura 6.2: Boxplots para as distribuies a posteriori dos riscos relativos associados ao cncer de traqueia, brnquios e pulmo, para cada microrregio do estado de So Paulo.
6.2.2
No caso desta doena, o resultado do modelo aponta para a existncia de maior risco de bito
tambm no centro e norte do estado, e em algumas nos extremos da regio, como mostra o mapa da
Figura 6.3. Observe que esse padro espacial foi identicado na anlise exploratria. No entanto,
este mapa bem mais informativo do que o resultante da anlise de agrupamentos, na Figura 5.8,
cuja disperso dos grupos dicultou um pouco a compreenso da dinmica espacial.
Nota-se que a distribuio espacial dos riscos aqui semelhante do cncer de traqueia, brnquios e pulmo. No entanto, estas diferem na intensidade, sendo que o risco para o cncer de mama
bem menor, alm de que nesta doena as estimativas do risco parecem estar distribudas de modo
mais aleatrio. Naturalmente, o fator hereditrio est fortemente ligado manifestao desta doena, o que explica o fato da distribuio espacial de seus bitos no estar to bem denida quanto
nas demais doenas consideradas aqui, que possivelmente sofrem maior interferncia de fatores
etiolgicos encontrados no ambiente.
Ao todo, 19 microrregies tiveram risco acima de 1, sendo que apenas Ja e Barretos apresentaram estimativa maior que 1,5, risco este que no deve ser levado to seriamente em conta, uma
vez que ambas microrregies possuem hospital de referncia ao tratamento de cncer. Destacam-se
as microrregies de Assis e Marlia, que tiveram risco maior que o esperado, bem como uma faixa
de microrregies que vai de Campinas at Santos, e as microrregies de Araatuba e Votuporanga
tambm apresentaram riscos maior que o esperado.
6.2
64
A Figura 6.4 apresenta os boxplots para as distribuies a posteriori dos riscos relativos associados a cada microrregio em estudo.
Figura 6.3: Risco a posteriori obtido para o modelo referente aos bitos por cncer feminino de mama nas
microrregies do estado de So Paulo, de 1998 a 2010.
Figura 6.4: Boxplots para as distribuies a posteriori dos riscos relativos associados ao cncer feminino
de mama, para cada microrregio do estado de So Paulo.
6.2.3
Note que para essa doena, a dinmica espacial dos riscos a posteriori obtida bastante semelhante do cncer de traqueia, brnquios e pulmo, porm, com intensidade ainda maior do que
aquela. Analisando o mapa a seguir, fcil observar a presena de um grande grupo de microrregies, presentes no centro e norte do estado com alto risco de bito por cncer de lbios, cavidade
oral e faringe. Dentro deste grande grupo, destacam-se ainda dois subgrupos mais agravantes, de
microrregies com risco mais de 50% maior do que o esperado. Merece ateno especial o grupo
a esquerda do mapa, do qual fazem parte as microrregies de Andradina, Araatuba, Birigui, Auriama e Fernandpolis, que para as demais doenas em estudo no tiveram riscos to altos. Isso
tambm se aplica s microrregies de Jundia, Moji Mirim e Caraguatatuba, que isoladamente
6.2
65
apresentaram riscos elevados. Ao todo, 29 microrregies tiveram risco maior que o esperado, das
quais, 18 apresentaram risco maior que 1,5.
A Figura 6.6 apresenta os boxplots para as distribuies a posteriori dos riscos relativos associados a cada microrregio em estudo.
Figura 6.5: Risco a posteriori obtido para o modelo referente aos bitos por cncer de lbios, cavidade
oral e faringe nas microrregies do estado de So Paulo, de 1998 a 2010.
Figura 6.6: Boxplots para as distribuies a posteriori dos riscos relativos associados ao cncer de lbios,
cavidade oral e faringe, para cada microrregio do estado de So Paulo.
6.2
6.2.4
66
Cncer de estmago
Como se pode ver no mapa da Figura 6.7, a distribuio espacial do risco para esta doena
abrange altos riscos numa faixa que vai do norte ao sul do estado, sendo que das microrregies
que encontram-se na faixa de maiores riscos no mapa, destaca-se a de Guaratinguet, uma vez que
as demais microrregies pertencentes a esta classe possuem hospitais de referncia no tratamento
do cncer (Barretos e Ja) ou fazem fronteira com microrregies com tal caracterstica (So Carlos
e So Joaquim da Barra). Esta distribuio espacial no se parece com a de nenhuma das outras
doenas consideradas at aqui. Numa anlise geral, 22 microrregies apresentaram risco a posteriori maior que o esperado para sua estrutura demogrca e caractersticas de sua populao, das
quais 6 tiveram estimativa maior que 1,5.
A Figura 6.8 apresenta os boxplots para as distribuies a posteriori dos riscos relativos associados a cada microrregio em estudo.
Figura 6.7: Risco a posteriori obtido para o modelo referente aos bitos por cncer de estmago nas
microrregies do estado de So Paulo, de 1998 a 2010.
Figura 6.8: Boxplots para as distribuies a posteriori dos riscos relativos associados ao cncer de estmago, para cada microrregio do estado de So Paulo.
6.2
6.2.5
67
Cncer de Clon
Ao comparar este mapa com o mapas das gura 6.7 possvel notar que a distribuio espacial
do risco por cncer de clon possui a rea de maior risco quase que idntica obtida para o
cncer de estmago, alm de que as microrregies pertencentes ltima classe do mapa so as
mesmas para as duas doenas. Isto , alm do centro e norte do estado apresentar altos riscos de
bito, microrregies do sul e das extremidades do estado tambm estiveram na classe de riscos
maiores que o esperado. A diferena entre as duas doenas consiste basicamente num conjunto de
aproximadamente 5 microrregies no noroeste do estado que tiveram risco maior que o esperado
para esta doena, e para cncer de estmago no. Desta forma, espera-se que os bitos por esses
dois tipos de cnceres estejam correlacionados no espao, ou seja, ocorrendo de forma semelhante
no decorrer do estado, devido a algum fator de risco em comum entre as doenas.
A Figura 6.10 apresenta os boxplots para as distribuies a posteriori dos riscos relativos associados a essa doena, para cada microrregio em estudo.
Figura 6.9: Risco a posteriori obtido para o modelo 1 referente aos bitos por cncer de clon nas microrregies do estado de So Paulo, de 1998 a 2010.
Figura 6.10: Boxplots para as distribuies a posteriori dos riscos relativos associados ao cncer de clon,
para cada microrregio do estado de So Paulo.
Considere agora como a ocorrncia dos bitos decorrentes das doenas em estudo esto corre-
6.2
68
lacionados no decorrer do estado de So Paulo. Apenas para resumir, 31 microrregies apresentaram risco relativo de bito para cncer de clon acima do esperado para sua estrutura demogrca,
das quais 6 tiveram estimativa acima de 1,5.
Levando em conta os resultados para cada doena, estabelecido o seguinte ranking, segundo
a importncia dos riscos, devido a quantidade de microrregies com valores maiores que 1 e que
1,5 para o risco relativo. Observe que esse ranking difere do estabelecido na anlise exploratria,
pois os cnceres de clon e de mama trocam as posies, sendo que da anlise realizada aqui ca
evidente que a colocao do cncer de clon acima do de mama muito mais condizente com a
informao fornecida pelos dados.
Tabela 6.2: Ranking das doenas de acordo com os resultados do modelo hierrquico bayesiano
6.2.6
Posio
Doena
RR > 1
RR > 1,5
1o
29
18
2o
21
3o
Cncer de clon
31
4o
Cncer de estmago
22
5o
Cncer de mama
19
1 =
1, 0000
0, 7704
0, 3093
0, 8392
0, 8348
0, 7704
1, 0000
0, 2985
0, 7362
0, 7213
0, 3093
0, 2985
1, 0000
0, 3804
0, 319
0, 8392
0, 7362
0, 3804
1, 0000
0, 9775
0, 8348
0, 7213
0, 3190
0, 9775
1, 0000
Nota-se forte correlao entre cncer de traqueia, brnquios e pulmo versus cncer de estmago (0,8392); cncer de traqueia, brnquios e pulmo versus cncer de clon (0,8348), e cncer
de estmago versus cncer de clon (0,9775), sendo que este ltimo resultado no surpreende,
dada a semelhana notada entre os mapas para tais doenas, como mencionado no tpico anterior.
Estes resultados so intrigantes, levando hiptese de existncia de fatores de risco em comum
para tais doenas. Uma perspectiva futura para continuidade deste trabalho inserir covariveis no
modelo, com o objetivo de identicar caractersticas das regies com maiores riscos.
6.3
69
De acordo com o artigo de Guerra et al. (2005), todos os tipos de cncer estudados neste
trabalho tem sua manifestao associada exposio a um grande nmero de fatores de riscos
ambientais relacionados ao processo de industrializao - agentes qumicos, fsicos e biolgicos
- e de exposio a outros fatores relacionados s disparidades sociais, o que explicaria parte das
correlaes observadas entre estas doenas. Segundo os autores, o tabagismo, por exemplo, contribui no somente para o aumento da ocorrncia de cncer de traqueia, brnquios e pulmo no pas,
mas tambm para a incidncia de outros tipos de cncer, tais como cncer de estmago e cncer
de lbios, cavidade oral e faringe, principalmente se associado a consumo de lcool e precrias
condies de sade, outros fatores de risco muito comuns no Brasil.
Por outro lado, tanto cncer de estmago, como cncer de mama, e de clon relacionam-se
a hbitos dietticos, e a um status scio-econmico elevado, observado principalmente na regio
sudeste do pas, indicando a possvel importncia de uma varivel como o IDH (ndice de Desenvolvimento Humano) em explicar parte da dependncia entre tais doenas.
Ainda segundo os autores, no Brasil, o aumento de doenas relacionadas ao hbito do fumo
pode ser explicado, em parte, pela acelerao no consumo do tabaco no decorrer dos anos e a
difuso do tabagismo na populao feminina. Sendo esta uma das principais causas associadas aos
bitos pelos cnceres estudados neste trabalho, um interesse que pode surgir acerca dos dados diz
respeito sua ocorrncia no decorrer do tempo. Uma anlise desta natureza pode elucidar quais
momentos no decorrer de um perodo em estudo se mostraram determinantes na manifestao de
altos riscos para determinada doena. Assim, na prxima seo so apresentados os resultados da
aplicao do Modelo Hierrquico Bayesiano Dinmico, como instrumento para estudar os dados
ao longo do tempo.
6.3
6.3
70
Tabela 6.3: Estimativas a posteriori dos parmetros, erros padro, e intervalos de credibilidade de 95%
Parmetro
Mdia
Erro Padro
ICr(95%)
-0,1776
0,01953
(-0,2165; -0,1396)
-0,2450
0,02239
(-0,2892; -0,2016)
-0,0060
0,02223
(-0,0489; -0,0369)
-0,0983
0,01769
(-0,1336; -0,0642)
-0,0979
0,02105
(-0,1397; -0,0572)
0,9420
0,0937
(0,7779; 1,1460)
0,8043
0,0865
(0,6514; 0,9930)
0,9567
0,0981
(0,7842; 1,1700)
0,6749
0,0728
(0,5489; 0,8321)
0,6679
0,0743
(0,5385; 0,8269)
0,07714
0,0177
(0,05124; 0,1192)
0,07859
0,0177
(0,05222; 0,1199)
0,07982
0,0184
(0,05291; 0,1240)
0,07747
0,0175
(0,05152; 0,1186)
0,08084
0,0189
(0,05280; 0,1260)
indica que a incluso de um efeito aleatrio temporal distribudo segundo um passeio aleatrio de
ordem um no importante para explicar os riscos, o que leva concluso de que ou o perodo de
tempo considerado neste estudo no grande o suciente para que a variao temporal possa ser
capturada desta forma, ou os bitos em questo variam segundo outro tipo de distribuio.
Referente s correlaes entre as doenas obtidas neste modelo, considere a matriz 2 . Observe
que os valores das correlaes no diferem signicativamente dos obtidos para o modelo anterior.
Isto mais um indicativo de que este modelo no est capturando mais informao a respeito da
ocorrncia simultnea dos bitos pelas doenas em estudo. No entanto, ainda existe a vantagem
de que ele possibilita obter as estimativas do risco em cada nvel de tempo pertencente ao perodo
em estudo, isto , torna possvel observar o risco de morte no estado de So Paulo em cada ano do
perodo, o que pode ser visto nas Figuras 6.11 a 6.15.
Note que agora possvel compreender quando determinadas microrregies tiveram riscos
altos, j que para algumas delas isso no aconteceu em todo o perodo. Por exemplo, na Figura
6.11 possvel observar que a microrregio de Araraquara teve risco bastante alto apenas em
2003 e 2004, mantendo estabilidade nos demais anos do perodo. Assim, os altos riscos foram
atpicos nesse local, no devendo ser de sria preocupao sua ocorrncia; exceto se manifestada
novamente.
De modo geral, os riscos se comportaram da mesma maneira que no modelo anterior, apenas
6.3
71
neste caso tem-se a vantagem de analis-los individualmente ano a ano, como j mencionado. Em
relao s SMRs, visvel, atravs dessas Figuras, que as estimativas dos riscos obtidas por este
modelo so mais suaves e de maior facilidade de interpretao do que as estimativas clssicas
apresentadas no captulo anterior.
Novamente, possvel estabelecer um ranking de gravidade das doenas, com base nos riscos
obtidos a posteriori.
Tabela 6.4: Ranking das doenas de acordo com os resultados do modelo hierrquico bayesiano dinmico
Posio
Doena
1o
2o
3o
Cncer de clon
4o
Cncer de estmago
5o
Cncer de mama
Observe que este ranking coincide com o que fora obtido no modelo anterior (Tabela 6.2),
reforando a concluso de que ambos os modelos capturam a estrutura dos riscos relativos de
modo similar.
2 =
1, 0000
0, 7677
0, 3089
0, 8384
0, 8356
0, 7677
1, 0000
0, 2977
0, 7358
0, 7195
0, 3089
0, 2977
1, 0000
0, 3757
0, 3198
0, 8384
0, 7358
0, 3757
1, 0000
0, 9779
0, 8356
0, 7195
0, 3198
0, 9779
1, 0000
6.3
72
Figura 6.11: Risco a posteriori obtido para o modelo 2 referente aos bitos por cncer de traqueia, brnquios e pulmo nas microrregies do estado de So Paulo, de 1998 a 2010.
6.3
73
Figura 6.12: Risco a posteriori obtido para o modelo 2 referente aos bitos por cncer de mama feminino
nas microrregies do estado de So Paulo, de 1998 a 2010.
6.3
74
Figura 6.13: Risco a posteriori obtido para o modelo 2 referente aos bitos por cncer de lbios, cavidade
oral e faringe nas microrregies do estado de So Paulo, de 1998 a 2010.
6.3
75
Figura 6.14: Risco a posteriori obtido para o modelo 2 referente aos bitos por cncer de estmago nas
microrregies do estado de So Paulo, de 1998 a 2010.
6.3
76
Figura 6.15: Risco a posteriori obtido para o modelo 2 referente aos bitos por cncer de clon nas
microrregies do estado de So Paulo, de 1998 a 2010.
6.4
77
6.4
O critrio DIC (Deviance Information Criterion (Spiegelhalter et al. (2002))) uma generalizao dos critrios AIC (Akaike information criterion) e BIC (Bayesian information criterion).
particularmente til em problemas de seleo de modelos bayesianos nos quais as distribuies
a posteriori so obtidas atravs de simulao via MCMC. Assim como os critrios AIC e BIC,
consiste em uma aproximao assinttica e s vlido quando a distribuio a posteriori aproximadamente Normal multivariada. Gelman et al. (2013b) apresentam o estado da arte no contexto
de seleo bayesiana de modelos e concluem que os critrios propostos at o momento no so
sucientemente ecientes. Comparam resultados para o AIC, Deviance e WAIC (Watanabe AIC)
em trs exemplos. Embora o DIC seja criticado por no ser adequado para casos em que a distribuio a posteriori assimtrica, pois seu clculo envolve a mdia a posteriori, est a medida
utilizada neste trabalho.
Para o clculo do DIC, dena o desvio D() = 2 log (p(yy|)) + c, em que y o vetor de
dados, o vetor de parmetros de interesse sob determinado modelo, p (yy|) a funo de
verossimilhana, e c uma constante cancelada nos clculos que comparam diferentes modelos
e, portanto, no precisa ser conhecida. A esperana D = E|yy [D] uma medida de quo bem o
modelo se ajusta aos dados. Quanto maior esta for, pior o ajuste.
Existem dois clculos utilizados comumente para encontrar a quantidade efetiva de parmetros
em
do modelo. O primeiro, conforme descrito em Spiegelhalter et al. (2002) pD = D D(),
que a esperana de . O segundo, tal como descrito em Gelman et al. (2013a) pD = pV =
1
var (D()). Quanto maior o nmero efetivo de parmetros , mais fcil para o modelo ajustar
2
os dados, com isso o desvio tem de ser penalizado.
O DIC ento calculado como
DIC = pD + D,
ou, equivalentemente como
+ 2pD .
DIC = D()
A ideia que os modelos com menor DIC devem ser preferidos modelos com maiores valores
o que favorece um bom
para essa estatstica. Os modelos so penalizados tanto pelo valor de D,
ajuste, como tambm (em comum com AIC e BIC) pelo nmero efetivo de parmetros pD . Uma
vez que D diminui medida que o nmero de parmetros em um modelo aumenta, pD compensa
este efeito, favorecendo modelos com um nmero menor de parmetros.
A vantagem do DIC em relao a outros critrios para a seleo de um modelo que este
facilmente calculado a partir das amostras geradas por uma simulao de MCMC, ao passo que o
AIC e o BIC exigem o clculo do mximo da verossimilhana sobre , que no est prontamente
6.4
78
disponvel a partir da simulao MCMC. Por outro lado, para calcular DIC basta simplesmente
como o valor de D
calcular D como sendo a mdia de D() sobre as amostras de , e D()
avaliado na mdia das amostras de . Por m, o DIC segue a partir dessas aproximaes.
Os valores para o DIC fornecidos pelo OpenBUGS para os modelos estudados neste trabalho
foram de 2186 para o modelo 1 e 19510 para o modelo 2, induzindo a que deve-se preferir o
modelo 1 ao modelo 2 para ajustar os dados de cncer considerados. A discrepncia entre tais
valores da estatstica evidencia que o modelo 2, devido incluso dos efeitos temporais kt ,
penalizado por um excesso de parmetros que no melhoram signicativamente o conhecimento
acerca dos riscos. Apesar disso, a discusso realizada na seo anterior vlida.
Captulo 7
Concluses e perspectivas futuras
Como j mencionado, a proposta de trabalho para esta dissertao consistiu no estudo da classe
de modelos hierrquicos dinmicos aplicados a dados de rea multivariados. Isto , a proposta envolveu o estudo de modelos que permitem incorporar em sua estrutura as dimenses espao e
tempo. Neste contexto, este relatrio apresenta uma introduo sobre os modelos clssico de riscos relativos, de Poisson com efeitos aleatrios associados estrutura espacial e com evoluo
temporal dos parmetros. Para o procedimento de inferncia, no modelo clssico de riscos relativos utiliza-se estimadores de mxima verossimilhana e para o modelo de Poisson a abordagem
Bayesiana. Neste ltimo caso, a distribuio a posteriori conjunta no apresenta forma fechada e
mtodos numricos so necessrios. Nesta etapa do trabalho utilizou-se o amostrador de Gibbs
implementado atravs do Software OpenBUGS.
Os dados escolhidos para a aplicao foram os bitos pelos cinco cnceres de maior letalidade
nas microrregies do estado de So Paulo, registrados para o perodo de 1998 a 2010. Inicialmente,
apresentou-se uma anlise exploratria dos dados, consistindo no mapeamento das estimativas de
mxima verossimilhana obtidas atravs do modelo clssico de riscos relativos (SMRs) e numa
anlise de agrupamento das microrregies de acordo com estas. Ao agrupar as SMRs, percebeu-se
a presena de grupos de microrregies com comportamentos particulares. Observando seu comportamento no tempo, cou evidente que, para algumas doenas, e alguns grupos de microrregies,
houve tendncia temporal na ocorrncia dos bitos no decorrer do perodo em estudo.
Alm disso, aplicou-se o modelo de Poisson nos dados agrupados para todo o perodo, especicando como distribuio a priori para os efeitos aleatrios o modelo CAR intrnseco, uma
alternativa da classe de modelos condicionais autorregressivos (CAR) proposta por Besag (1974),
que inclui tambm o Modelo de convoluo, sendo que este ltimo, embora tenha sido apresentado no Captulo 3, no foi implementado devido ao fato de no ser considerado superior ao CAR
intrnseco para a estimao dos riscos. Quanto a estes, ao longo do texto foram consideradas suas
caractersticas e atrativos. Como os dados utilizados na aplicao so multivariados, a verso multivariada do modelo ICAR (Besag e Kooperberg (1995)), o MVCAR, foi aplicada para modelar
os efeitos aleatrios espaciais dos dados. Os resultados evidenciaram forte autocorrelao entre os
efeitos espaciais de cncer de pulmo e cncer de estmago, cncer de pulmo e cncer de clon;
79
7.0
80
e cncer de estmago e cncer de clon. Numa segunda etapa do trabalho foi aplicado o Modelo
Hierrquico Bayesiano Dinmico, que possibilitou aprofundar o conhecimento dos riscos relativos
das doenas em estudo, com respeito sua ocorrncia no decorrer do tempo. De um modo geral,
as estimativas obtidas no diferiram signicativamente das obtidas para o modelo sem a dimenso temporal. Com isso, apesar de a proposta para este trabalho poder ser considerada cumprida,
uma perspectiva futura para aprofundar o conhecimento nos modelos em estudo trabalhar com
a incluso de covariveis neste modelo, bem como nas implicaes tericas a que tal mudana
leva, e nas vantagens de tal abordagem com respeito capturar a estrutura espacial comum entre
as doenas.
Referncias Bibliogrcas
Assuno e Krainski (2009) Renato Assuno e Elias Krainski. Neighborhood dependence in
bayesian spatial models. Biometrical Journal, 51(5):851869. Citado na pg. 21
Assuno e Castro (2004) Renato M Assuno e Mnica SM Castro. Multiple cancer sites incidence rates estimation using a multivariate bayesian model. International journal of epidemiology, 33(3):508516. Citado na pg. 6
Besag (1974) Julian Besag. Spatial interaction and the statistical analysis of lattice systems. Journal of the Royal Statistical Society. Series B (Methodological), pginas 192236. Citado na pg. 9,
14, 17, 18, 79
Besag e Kooperberg (1995) Julian Besag e Charles Kooperberg. On conditional and intrinsic
autoregressions. Biometrika, 82(4):733746. Citado na pg. 18, 20, 79
Besag et al. (1991) Julian Besag, Jeremy York e Annie Molli. Bayesian image restoration, with
two applications in spatial statistics. Annals of the Institute of Statistical Mathematics, 43(1):
120. Citado na pg. 8, 14, 19, 20
Best et al. (2005) Nicky Best, Sylvia Richardson e Andrew Thomson. A comparison of bayesian
spatial models for disease mapping. Statistical methods in medical research, 14(1):3559. Citado
na pg. 8
Best et al. (1999) Nicola G Best, Katja Ickstadt e Robert L Wolpert. Spatial poisson regression for
health and exposure data measured at disparate resolutions. Journal of the American statistical
association, 95(452):10761088. Citado na pg. 6
Carlin e Banerjee (2003) Bradley P Carlin e Sudipto Banerjee. Hierarchical multivariate car
models for spatio-temporally correlated survival data. Bayesian statistics, 7:4563. Citado na pg.
21
Clayton e Kaldor (1987) David Clayton e John Kaldor. Empirical bayes estimates of agestandardized relative risks for use in disease mapping. Biometrics, pginas 671681. Citado na
pg. 6
Congdon (2007) Peter Congdon. Bayesian statistical modelling, volume 704. Wiley. com. Citado na
pg. 6, 20
Cressie (1993) Noel AC Cressie. Statistics for Spatial Data, revised edition. Wiley, New York.
Citado na pg. 15, 16
DATASUS (Visitada em junho/2013) DATASUS. Sistema de informaao de mortalidade (sim).
URL http://200.214.130.44/sim/default.asp. Citado na pg. 29
81
7.0
REFERNCIAS BIBLIOGRFICAS
82
Eberly et al. (2000) Lynn E Eberly, Bradley P Carlin et al. Identiability and convergence issues
for markov chain monte carlo tting of spatial models. Statistics in Medicine, 19(1718):2279
2294. Citado na pg. 20, 21
Fahrmeir e Lang (2001) Ludwig Fahrmeir e Stefan Lang. Bayesian inference for generalized
additive mixed models based on markov random eld priors. Journal of the Royal Statistical
Society: Series C (Applied Statistics), 50(2):201220. Citado na pg. 59
Gelfand e Smith (1990) Alan E Gelfand e Adrian FM Smith. Sampling-based approaches to
calculating marginal densities. Journal of the American statistical association, 85(410):398
409. Citado na pg. 27
Gelfand e Vounatsou (2003) Alan E Gelfand e Penelope Vounatsou. Proper multivariate conditional autoregressive models for spatial data analysis. Biostatistics, 4(1):1115. Citado na pg.
22
Gelman et al. (2013a) Andrew Gelman, John B Carlin, Hal S Stern, David B Dunson, Aki Vehtari
e Donald B Rubin. Bayesian data analysis. CRC press. Citado na pg. 77
Gelman et al. (2013b) Andrew Gelman, Jessica Hwang e Aki Vehtari. Understanding predictive
information criteria for bayesian models. Statistics and Computing, pginas 120. Citado na pg. 77
Geman e Geman (1984) Stuart Geman e Donald Geman. Stochastic relaxation, gibbs distributions, and the bayesian restoration of images. Pattern Analysis and Machine Intelligence, IEEE
Transactions on, (6):721741. Citado na pg. 25
Guerra et al. (2005) Maximiliano Ribeiro Guerra, CV de M Gallo, GAS Mendona e GA Silva.
Risco de cncer no brasil: tendncias e estudos epidemiolgicos mais recentes. Rev bras cancerol, 51(3):22734. Citado na pg. 69
Harrison e Stevens (1976) P Jeffrey Harrison e Colin F Stevens. Bayesian forecasting. Journal
of the Royal Statistical Society. Series B (Methodological), pginas 205247. Citado na pg. 10
Hastings (1970) W Keith Hastings. Monte carlo sampling methods using markov chains and their
applications. Biometrika, 57(1):97109. Citado na pg. 24
Hilbe (2011) Joseph M Hilbe. Negative binomial regression. Cambridge University Press. Citado na
pg. 6
Kramer e Williamson (2013) Michael R. Kramer e Rebecca Williamson. Multivariate bayesian
spatial model of preterm birth and cardiovascular disease among georgia women: Evidence for
life course social determinants of health. Spatial and Spatio-temporal Epidemiology, 6(0):25
35. Citado na pg. 21
Knsch (1987) Hans R Knsch. Intrinsic autoregressions and related models on the twodimensional lattice. Biometrika, 74(3):517524. Citado na pg. 18
Lang e Brezger (2000) Stefan Lang e Andreas Brezger. Bayesx-software for bayesian inference
based on markov chain monte carlo simulation techniques. Citado na pg. 9
Lawson (2008) Andrew B Lawson. Bayesian disease mapping: hierarchical modeling in spatial
epidemiology, volume 32. CRC Press. Citado na pg. 7, 8, 22
7.0
REFERNCIAS BIBLIOGRFICAS
83
Lunn et al. (2009) David Lunn, David Spiegelhalter, Andrew Thomas e Nicky Best. The bugs
project: Evolution, critique and future directions. Statistics in medicine, 28(25):30493067.
Citado na pg. 1
Lunn et al. (2000) David J Lunn, Andrew Thomas, Nicky Best e David Spiegelhalter. Winbugs-a
bayesian modelling framework: concepts, structure, and extensibility. Statistics and computing,
10(4):325337. Citado na pg. 9
Metropolis et al. (1953) Nicholas Metropolis, Arianna W Rosenbluth, Marshall N Rosenbluth,
Augusta H Teller e Edward Teller. Equation of state calculations by fast computing machines.
The journal of chemical physics, 21:1087. Citado na pg. 24
Molli (1996) Annie Molli. Bayesian mapping of disease. Markov chain Monte Carlo in practice,
1:359379. Citado na pg. 13
Ripley (2005) Brian D Ripley. Spatial statistics, volume 575. Wiley. com. Citado na pg. 15
Rodrigues e Assuno (2012) Erica Castilho Rodrigues e R Assuno. Bayesian spatial models
with a mixture neighborhood structure. Journal of Multivariate Analysis, 109:88102. Citado na
pg. 21
Shaddick e Wakeeld (2002) Gavin Shaddick e Jon Wakeeld. Modelling daily multivariate
pollutant data at multiple sites. Journal of the Royal Statistical Society: Series C (Applied
Statistics), 51(3):351372. Citado na pg. 58, 59
SILVA et al. (2011) APR de SILVA, CP Noronha, JLO Silva et al. Estimativa 2012: incidncia de
cncer no brasil. Rio de Janeiro: Instituto Nacional de Cncer Jos Alencar Gomes da Silva.
Citado na pg. 44
Song et al. (2006) J.J. Song, M. Ghosh, S. Miaou e B. Mallick. Bayesian multivariate spatial
models for roadway trafc crash mapping. Journal of Multivariate Analysis, 97(1):246 273.
Citado na pg. 7, 21
Spiegelhalter et al. (2002) David J Spiegelhalter, Nicola G Best, Bradley P Carlin e Angelika Van
Der Linde. Bayesian measures of model complexity and t. Journal of the Royal Statistical
Society: Series B (Statistical Methodology), 64(4):583639. Citado na pg. 77
Stern e Cressie (2000) Hal S Stern e Noel Cressie. Posterior predictive model checks for disease
mapping models. Statistics in medicine, 19(17-18):23772397. Citado na pg. 3, 19
Thomas et al. (2004) Andrew Thomas, Nicky Best, Dave Lunn, Richard Arnold e David Spiegelhalter. Geobugs user manual. < www. mrc-bsu. cam. ac. uk/bugs/winbugs/geobugs. shtml.
Citado na pg. 8, 60
Waller et al. (1997) Lance A Waller, Bradley P Carlin, Hong Xia e Alan E Gelfand. Hierarchical
spatio-temporal mapping of disease rates. Journal of the American Statistical Association, 92
(438):607617. Citado na pg. 7
West e Harrison (1997) Mike West e Jeff Harrison. Bayesian Forecasting and Dynamic Models.
Springer, New York. Citado na pg. 10
West et al. (1985) Mike West, P Jeff Harrison e Helio S Migon. Dynamic generalized linear
models and bayesian forecasting. Journal of the American Statistical Association, 80(389):
7383. Citado na pg. 10
REFERNCIAS BIBLIOGRFICAS
84
Xia et al. (1997) Hong Xia, BRADLEY P Carlin e Lance A Waller. Hierarchical models for
mapping ohio lung cancer rates. Environmetrics, 8(2):107120. Citado na pg. 7
Xie e Carlin (2006) Yang Xie e Bradley P. Carlin. Measures of bayesian learning and identiability in hierarchical models. Journal of Statistical Planning and Inference, 136(10):3458 3477.
Citado na pg. 21, 22
85
Figura 1: Grcos da trajetria, autocorrelao, e densidade a posteriori da cadeia para o Risco Relativo
obtido para o modelo 1 referente aos bitos por cada doena em estudo segundo as microrregies do estado
de So Paulo, de 1998 a 2010.
88
89
90
Figura 3: Grcos da trajetria, autocorrelao, e densidade a posteriori da cadeia para , obtido para
o modelo 2 referente aos bitos por cncer de traqueia, brnquios e pulmo segundo as microrregies do
estado de So Paulo, de 1998 a 2010.
Figura 4: Grcos da trajetria, autocorrelao, e densidade a posteriori da cadeia para , obtido para
o modelo 2 referente aos bitos por cncer de mama feminino segundo as microrregies do estado de So
Paulo, de 1998 a 2010.
91
Figura 5: Grcos da trajetria, autocorrelao, e densidade a posteriori da cadeia para , obtido para o
modelo 2 referente aos bitos por cncer de lbios, cavidade oral e faringe as microrregies do estado de
So Paulo, de 1998 a 2010.
Figura 6: Grcos da trajetria, autocorrelao, e densidade a posteriori da cadeia para , obtido para o
modelo 2 referente aos bitos por cncer de estmago segundo as microrregies do estado de So Paulo,
de 1998 a 2010.
92
Figura 7: Grcos da trajetria, autocorrelao, e densidade a posteriori da cadeia para , obtido para
o modelo 2 referente aos bitos por cncer de clon segundo as microrregies do estado de So Paulo, de
1998 a 2010.
Figura 8: Grcos da trajetria, autocorrelao, e densidade a posteriori da cadeia para o Risco a posteriori obtido para o modelo 2 referente aos bitos por cncer de traqueia, brnquios e pulmo segundo as
microrregies do estado de So Paulo, para trs anos do perodo.
93
Figura 9: Grcos da trajetria, autocorrelao, e densidade a posteriori da cadeia para o Risco a posteriori obtido para o modelo 2 referente aos bitos por cncer de mama feminino segundo as microrregies
do estado de So Paulo, para trs anos do perodo.
Figura 10: Grcos da trajetria, autocorrelao, e densidade a posteriori da cadeia para o Risco a
posteriori obtido para o modelo 2 referente aos bitos por cncer de lbios, cavidade oral e faringe segundo
as microrregies do estado de So Paulo, para trs anos do perodo.
94
Figura 11: Grcos da trajetria, autocorrelao, e densidade a posteriori da cadeia para o Risco a
posteriori obtido para o modelo 2 referente aos bitos por cncer de estmago segundo as microrregies
do estado de So Paulo, para trs anos do perodo.
Figura 12: Grcos da trajetria, autocorrelao, e densidade a posteriori da cadeia para o Risco a
posteriori obtido para o modelo 2 referente aos bitos por cncer de clon segundo as microrregies do
estado de So Paulo, para trs anos do perodo.
Mdia
Erro Padro
ICr(95%)
1,1
-0.00658
0.03442
(-0.07436, 0.06058)
1,2
-0.004817
0.03382
(-0.07219, 0.06075)
1,3
-0.002662
0.03211
(-0.06527, 0.06058)
1,4
-0.001656
0.03109
(-0.06282, 0.05927)
1,5
-2.81E-01
0.02907
(-0.05692, 0.05712)
1,6
6.19E-01
0.03011
(-0.05873, 0.05893)
1,7
3.04E-01
0.02813
(-0.05520, 0.05532)
1,8
7.16E-01
0.02736
(-0.05352, 0.05482)
1,9
0.001727
0.02703
(-0.05045, 0.05430)
1,10
0.003061
0.02687
(-0.05029, 0.05639)
1,11
0.002471
0.02727
(-0.05227, 0.05564)
1,12
0.002646
0.02561
(-0.04783, 0.05298)
1,13
0.004452
0.02732
(-0.05019, 0.05849)
95
Tabela 2: Estimativas dos parmetros, erros padres, e intervalos de credibilidade de 95% para os efeitos
temporais do modelo 2 referente cncer de mama feminino
Parmetro
Mdia
Erro Padro
ICr(95%)
2,1
-0.004763
0.03635
(-0.07611, 0.06698)
2,2
-0.003798
0.0349
(-0.07308, 0.06395)
2,3
-0.003181
0.0327
(-0.06888, 0.06133)
2,4
-0.002319
0.03323
(-0.06680, 0.06239)
2,5
-9.93E-01
0.03418
(-0.06866, 0.06635)
2,6
-0.001243
0.03584
(-0.07344, 0.06910)
2,7
-5.41E-01
0.03337
(-0.06533, 0.06425)
2,8
0.001287
0.0306
(-0.05956, 0.06126)
2,9
0.002156
0.02937
(-0.05506, 0.05914)
2,10
0.003566
0.02863
(-0.05266, 0.05993)
2,11
0.003551
0.02867
(-0.05246, 0.06000)
2,12
0.003234
0.0277
(-0.05064, 0.05779)
2,13
0.003044
0.02872
(-0.05345, 0.05903)
Tabela 3: Estimativas dos parmetros, erros padres, e intervalos de credibilidade de 95% para os efeitos
temporais do modelo 2 referente cncer de lbio, cavidade oral e faringe
Parmetro
Mdia
Erro Padro
ICr(95%)
3,1
-1.64E-01
0.04485
(-0.08856 0.08746)
3,2
-5.78E-01
0.03989
(-0.07857 0.07657)
3,3
0.001101
0.03776
(-0.07255 0.07438)
3,4
5.98E-04
0.03648
(-0.07029 0.07288)
3,5
7.61E-01
0.03424
(-0.06795 0.06794)
3,6
4.69E-01
0.03318
(-0.06608 0.06538)
3,7
-0.001282
0.03192
(-0.06416 0.06182)
3,8
-1.38E-01
0.03223
(-0.06369 0.06295)
3,9
-4.41E-01
0.02952
(-0.05810 0.05717)
3,10
4.70E-01
0.02924
(-0.05633 0.05705)
3,11
-0.002196
0.03212
(-0.06638 0.06078)
3,12
-0.001938
0.03186
(-0.06415 0.05986)
3,13
0.003338
0.03504
(-0.06507 0.07229)
Tabela 4: Estimativas dos parmetros, erros padres, e intervalos de credibilidade de 95% para os efeitos
temporais do modelo 2 referente cncer de estmago
Parmetro
Mdia
Erro Padro
ICr(95%)
4,1
-0.003098
0.0357
(-0.07399, 0.06685)
4,2
-0.002974
0.03469
(-0.07246, 0.06446)
4,3
-0.001789
0.03264
(-0.06446, 0.06185)
4,4
-0.001411
0.03189
(-0.06417, 0.06058)
4,5
-7.87E-01
0.02969
(-0.05992, 0.05828)
4,6
-3.56E-01
0.02885
(-0.05669, 0.05612)
4,7
-3.61E-01
0.02739
(-0.05444, 0.05231)
4,8
9.00E-01
0.02796
(-0.05476, 0.05562)
4,9
9.55E-04
0.02757
(-0.05348, 0.05523)
4,10
0.001722
0.02693
(-0.05214, 0.05349)
4,11
9.77E-01
0.02881
(-0.05548, 0.05724)
4,12
0.002516
0.02731
(-0.05098, 0.05606)
4,13
0.003706
0.02848
(-0.05297, 0.05858)
Tabela 5: Estimativas dos parmetros, erros padres, e intervalos de credibilidade de 95% para os efeitos
temporais do modelo 2 referente cncer de clon
Parmetro
Mdia
Erro Padro
ICr(95%)
5,1
-0.004759
0.04869
(-0.10110, 0.09020)
5,2
-0.003865
0.04116
(-0.08498, 0.07785)
5,3
-0.002746
0.03988
(-0.08106, 0.07482)
5,4
-0.00156
0.03887
(-0.07896, 0.07475)
5,5
-7.62E-01
0.03654
(-0.07280, 0.07078)
5,6
3.92E-01
0.03424
(-0.06695, 0.06763)
5,7
4.89E-01
0.03394
(-0.06566, 0.06603)
5,8
9.83E-01
0.03296
(-0.06390, 0.06620)
5,9
0.001335
0.03283
(-0.06381, 0.06542)
5,10
0.002110
0.03104
(-0.05898, 0.06311)
5,11
0.001411
0.03153
(-0.06037, 0.06398)
5,12
0.002349
0.03053
(-0.05725, 0.06262)
5,13
0.004623
0.0321
(-0.05817, 0.06713)
98