Sunteți pe pagina 1din 112

Universidade Estadual Paulista - UNESP

Faculdade de Cincias e Tecnologia

Suelen Umbelino da Silva

Modelo dinmico bayesiano multivariado


para anlise espao-temporal
de dados de rea

Presidente Prudente
2014

Universidade Estadual Paulista - UNESP


Faculdade de Cincias e Tecnologia

Suelen Umbelino da Silva

Modelo dinmico bayesiano multivariado


para anlise espao-temporal
de dados de rea

Relatrio nal para obteno do ttulo de


Mestre em Matemtica Aplicada e Computacional pela Universidade Estadual Paulista, sob
orientao da Profa. Dra. Aparecida Doniseti
Pires de Souza

Programa de Ps Graduao em Matemtica Aplicada e Computacional

Orientadora: Profa. Dra. Aparecida Doniseti Pires de Souza


Presidente Prudente
2014

Silva, Suelen Umbelino da.


S583m

Modelo dinmico bayesiano multivariado para anlise espao-temporal


de dados de rea / Suelen Umbelino da Silva. - Presidente Prudente : [s.n],
2014
x, 111 f. : il.
Orientador: Aparecida Doniseti Pires de Souza
Dissertao (mestrado) - Universidade Estadual Paulista, Faculdade de
Cincias e Tecnologia
Inclui bibliograa
1. Modelo Hierrquico Bayesiano Dinmico. 2. Razo de Mortalidade
Padronizada. 3. MVCAR. I. Souza, Aparecida Doniseti Pires de. II
Universidade Estadual Paulista. Faculdade de Cincias e Tecnologia. III.
Ttulo.

Agradecimentos
No poderia deixar de agradecer em primeiro lugar a Deus, aquele que me confere poder
para que eu tenha foras para enfrentar todas as coisas (Filipenses 4:13), e que me faz pisar no
caminho em que devo andar (Isaas 48:17).
Agradeo tambm minha famlia, principalmente aos meus pais, que sempre me incentivaram
o meu gosto pelos estudos, embora eles mesmos no tenham tido oportunidades.
Ao meu namorado, Jorge, pela pacincia e conforto fornecido nos momentos difceis.
professora Aparecida Doniseti Pires de Souza, pela orientao.
professora Vilma Mayumi Tachibana, por sempre ser prestativa e paciente em suas contribuies.
Aos membros da banca, pela disposio em dispor de seu tempo e energia pra contribuir com
correes e enriquecimento deste trabalho.
Ao professor Srgio Minoru Oikawa, pelas sugestes e contribuies no exame de qualicao.
todos aqueles que de alguma forma me ajudaram direta ou indiretamente, tanto no decorrer
do mestrado, para o meu crescimento prossional, quanto no decorrer da minha vida, para o meu
crescimento pessoal.

D a um homem um peixe, e voc o alimentar por um dia.


Ensine-o a pescar, e voc o alimentar por toda a vida.
Provrbio Chins.

Resumo
Modelagem de dados de rea tem sido tema de diversas pesquisas em Estatstica nas ltimas dcadas. Modelos espao-temporais tm sido utilizados para lidar com esse tipo de dados de
um modo natural, uma vez que muitas vezes envolvem processos que tm transies no tempo e
no espao. O avano da tecnologia e, simultaneamente, de mtodos estatsticos, tm permitido a
elaborao de modelos cada vez mais estruturados para a descrio de fenmenos aleatrios complexos, cuja ideia descrever, de forma realista, a estrutura de correlao presente nos dados, o que
pode ser feito atravs do uso de modelos hierrquicos. Dada a importncia atual da modelagem
de fenmenos espao-temporais, neste trabalho so estudadas propostas recentes apresentadas na
literatura para dados espaciais de rea, envolvendo modelos autorregressivos condicionais multivariados para capturar a estrutura espacial e modelos dinmicos para capturar a estrutura temporal.
Como aplicao da metodologia estudada a distribuio espacial da mortalidade pelos cnceres de maior importncia quantitativa, segundo as microrregies administrativas do estado de So
Paulo, considerando o perodo 1998 at 2010. Os resultados da aplicao de um modelo bayesiano
hierrquico para os dados evidenciaram quais as regies de maior risco de mortalidade no estado
de So Paulo para cada um dos cnceres estudados, alm de mostrar que existe forte correlao
espacial entre algumas das doenas, o que constitui um resultado muito importante para os rgos
do sistema de sade, que tm como funo direcionar e alocar recursos para o tratamento e diagnstico de tais doenas. Na aplicao de um modelo bayesiano hierrquico dinmico, com passeio
aleatrio de ordem um assumido como distribuio a priori para os efeitos espaciais, tais efeitos
no se mostraram signicativos na aplicao do modelo aos dados em estudo. No entanto, a incluso do domnio temporal proporcionou a produo de informao acerca das doenas ano a ano
do perodo, levando a concluses similares ao modelo sem efeito temporal, alm da produo de
estimativas mais suaves e de mais fcil interpretao para o risco relativo do que as obtidas atravs
do modelo clssico.
Palavras-chave: Modelo Hierrquico Bayesiano Dinmico, Razo de Mortalidade Padronizada,
MVCAR.

Abstract
Data modeling area has been the subject of several studies in Statistics in recent decades.
Spatio-temporal models have been used to deal with this kind of data in a natural way, since they
often involve processes that have transitions in time and space. The advancement of technology
and simultaneously statistical methods have allowed the development of increasingly structured
models for the description of complex random phenomena, whose idea is to describe realistically,
the structure of this correlation in the data, which can be done through the use of hierarchical
models. Given the current importance of modeling spatio-temporal phenomena, the aim of this
work is study recent paper that involve multivariate conditional autoregressive models to capture
the spatial and dynamic structure models to capture the temporal structure. As an application of
the methodology is the spatial distribution of mortality for cancers of greater quantitative importance studied, according to the administrative microregions of the state of So Paulo, considering
the period 1998 to 2010. The results of the application of a Bayesian hierarchical model to the
data showed that the regions of greatest risk of mortality in So Paulo for each one of the cancers
studied, and show that there is a strong spatial correlation between some of the diseases, which is
a very important result for the organs of the health system, whose function is to direct and allocate
resources for the treatment and diagnosis of such diseases. In the application of a dynamic Bayesian hierarchical model with random walk of order as an assumed prior distribution for spatial
effects, such effects were not signicant in applying the model to the data in the study. However,
the inclusion of the temporal domain provides the production of information about the disease
every year in the period, leading to similar model without the time effect conclusions, as well as
producing smoother estimates and easier to interpret than the relative risk those obtained through
the classical model.
Keywords: Dynamic Bayesian Hierarchical Model, Standardized Mortality Ratio, MVCAR.

Lista de Figuras
5.1

Dendrogramas do agrupamento das SMRs referentes aos bitos por cncer de tra-

5.2

queia, brnquios e pulmo de 1998 a 2010. . . . . . . . . . . . . . . . . . . . .


Microrregies do estado de So Paulo segundo os grupos da anlise de agrupamen-

32

tos das SMRs referentes aos bitos por cncer de traqueia, brnquios e pulmo de
1998 a 2010. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Boxplots dos grupos da anlise de agrupamentos das SMRs referentes aos bitos

33
33

5.4

por cncer de traqueia, brnquios e pulmo de 1998 a 2010. . . . . . . . . . . . .


Boxplots do grupo 5 (microrregio de Barretos) da anlise de agrupamentos das
SMRs referentes aos bitos por cncer de traqueia, brnquios e pulmo de 1998 a

34

5.5

2010. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Boxplots da distribuio das SMRs em todas as microrregies do estado de So
Paulo referentes aos bitos por cncer de traqueia, brnquios e pulmo de 1998 a
2010. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Razes de Mortalidade Padronizadas (SMRs) para a mortalidade por cncer de

34

5.3

5.6

traqueia, brnquios e pulmo nas microrregies do estado de So Paulo, de 1998


a 2010. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.7 Boxplots da distribuio das SMRs em todas as microrregies do estado de So
Paulo referentes aos bitos por cncer feminino de mama, de 1998 a 2010. . . . .
5.8 Microrregies do estado de So Paulo segundo os grupos da anlise de agrupamentos das SMRs referentes aos bitos por cncer feminino de mama, de 1998 a
2010. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.9 Dendrogramas do agrupamento das SMRs referentes aos bitos por cncer feminino de mama de 1998 a 2010. . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.10 Boxplots dos grupos da anlise de agrupamentos das SMRs referentes aos bitos
por cncer feminino de mama de 1998 a 2010. . . . . . . . . . . . . . . . . . . .
5.11 Boxplots do grupo 5 (microrregio de Barretos) da anlise de agrupamentos das
SMRs referentes aos bitos por cncer feminino de mama de 1998 a 2010. . . . .
5.12 Razes de Mortalidade Padronizadas (SMRs) para a mortalidade por cncer feminino de mama nas microrregies do estado de So Paulo, de 1998 a 2010. . . . .

35
36

37
37
38
39
40

LISTA DE FIGURAS

vi

5.13 Boxplots da distribuio das SMRs em todas as microrregies do estado de So


Paulo referentes aos bitos por cncer de lbios, cavidade oral e faringe, de 1998
a 2010. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

41

5.14 Microrregies do estado de So Paulo segundo os grupos da anlise de agrupamentos das SMRs referentes aos bitos por cncer de lbios, cavidade oral e faringe,
de 1998 a 2010. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

42

5.15 Boxplots dos grupos da anlise de agrupamentos das SMRs referentes aos bitos
por cncer de lbios, cavidade oral e faringe, de 1998 a 2010. . . . . . . . . . . .
5.16 Dendrograma do agrupamento das SMRs referentes aos bitos por cncer de l-

42

bios, cavidade oral e faringe, de 1998 a 2010. . . . . . . . . . . . . . . . . . . .


5.17 Razes de Mortalidade Padronizadas (SMRs) para a mortalidade por cncer de

43

lbios, cavidade oral e faringe nas microrregies do estado de So Paulo, de 1998


a 2010. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.18 Boxplots da distribuio das SMRs em todas as microrregies do estado de So
Paulo referentes aos bitos por cncer de estmago, de 1998 a 2010. . . . . . . .
5.19 Dendrograma do agrupamento das SMRs referentes aos bitos por cncer de estmago, de 1998 a 2010. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

45
46
47

5.20 Microrregies do estado de So Paulo segundo os grupos da anlise de agrupamentos das SMRs referentes aos bitos por cncer de estmago, de 1998 a 2010.
5.21 Boxplots dos grupos da anlise de agrupamentos das SMRs referentes aos bitos

48

por cncer de estmago, de 1998 a 2010. . . . . . . . . . . . . . . . . . . . . . .

48

5.22 Boxplots dos grupos da anlise de agrupamentos das SMRs referentes aos bitos
por cncer de estmago, de 1998 a 2010. . . . . . . . . . . . . . . . . . . . . . .
5.23 Razes de Mortalidade Padronizadas (SMRs) para a mortalidade por cncer de
estmago nas microrregies do estado de So Paulo, de 1998 a 2010. . . . . . . .
5.24 Boxplots da distribuio das SMRs em todas as microrregies do estado de So
Paulo referentes aos bitos por cncer de clon, de 1998 a 2010. . . . . . . . . .
5.25 Dendrograma do agrupamento das SMRs referentes aos bitos por cncer de clon, de 1998 a 2010. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.26 Microrregies do estado de So Paulo segundo os grupos da anlise de agrupamentos das SMRs referentes aos bitos por cncer de clon, de 1998 a 2010. . . .
5.27 Boxplots dos grupos da anlise de agrupamentos das SMRs referentes aos bitos
por cncer de clon, de 1998 a 2010. . . . . . . . . . . . . . . . . . . . . . . . .
5.28 Razes de Mortalidade Padronizadas (SMRs) para a mortalidade por cncer de
clon nas microrregies do estado de So Paulo, de 1998 a 2010. . . . . . . . . .
5.29 Boxplots dos grupos da anlise de agrupamentos das SMRs referentes aos bitos
por cncer de clon, de 1998 a 2010. . . . . . . . . . . . . . . . . . . . . . . . .
6.1

Risco a posteriori obtido para o modelo referente aos bitos por cncer de traqueia,
brnquios e pulmo nas microrregies do estado de So Paulo, de 1998 a 2010. .

49
50
51
52
53
53
54
55

62

LISTA DE FIGURAS

6.2
6.3
6.4

vii

Boxplots para as distribuies a posteriori dos riscos relativos associados ao cncer


de traqueia, brnquios e pulmo, para cada microrregio do estado de So Paulo.

63

Risco a posteriori obtido para o modelo referente aos bitos por cncer feminino
de mama nas microrregies do estado de So Paulo, de 1998 a 2010. . . . . . . .

64

Boxplots para as distribuies a posteriori dos riscos relativos associados ao cncer


feminino de mama, para cada microrregio do estado de So Paulo. . . . . . . .

64

6.5

Risco a posteriori obtido para o modelo referente aos bitos por cncer de lbios,
65

6.6

cavidade oral e faringe nas microrregies do estado de So Paulo, de 1998 a 2010.


Boxplots para as distribuies a posteriori dos riscos relativos associados ao cncer

65

6.7

de lbios, cavidade oral e faringe, para cada microrregio do estado de So Paulo.


Risco a posteriori obtido para o modelo referente aos bitos por cncer de estmago nas microrregies do estado de So Paulo, de 1998 a 2010. . . . . . . . . .

66

6.8

Boxplots para as distribuies a posteriori dos riscos relativos associados ao cncer

6.9

de estmago, para cada microrregio do estado de So Paulo. . . . . . . . . . . .


Risco a posteriori obtido para o modelo 1 referente aos bitos por cncer de clon
nas microrregies do estado de So Paulo, de 1998 a 2010. . . . . . . . . . . . .

6.10 Boxplots para as distribuies a posteriori dos riscos relativos associados ao cncer
de clon, para cada microrregio do estado de So Paulo. . . . . . . . . . . . . .
6.11 Risco a posteriori obtido para o modelo 2 referente aos bitos por cncer de traqueia, brnquios e pulmo nas microrregies do estado de So Paulo, de 1998 a
2010. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.12 Risco a posteriori obtido para o modelo 2 referente aos bitos por cncer de mama
feminino nas microrregies do estado de So Paulo, de 1998 a 2010. . . . . . . .
6.13 Risco a posteriori obtido para o modelo 2 referente aos bitos por cncer de lbios,
cavidade oral e faringe nas microrregies do estado de So Paulo, de 1998 a 2010.
6.14 Risco a posteriori obtido para o modelo 2 referente aos bitos por cncer de estmago nas microrregies do estado de So Paulo, de 1998 a 2010. . . . . . . . . .
6.15 Risco a posteriori obtido para o modelo 2 referente aos bitos por cncer de clon
nas microrregies do estado de So Paulo, de 1998 a 2010. . . . . . . . . . . . .
1

Grcos da trajetria, autocorrelao, e densidade a posteriori da cadeia para o


Risco Relativo obtido para o modelo 1 referente aos bitos por cada doena em
estudo segundo as microrregies do estado de So Paulo, de 1998 a 2010. . . . .
Grcos da trajetria, autocorrelao, e densidade a posteriori da cadeia para o
parmetro de intercepto a posteriori obtido para o modelo 2 referente aos bitos
por cada doena em estudo segundo as microrregies do estado de So Paulo, de
1998 a 2010. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Grcos da trajetria, autocorrelao, e densidade a posteriori da cadeia para ,
obtido para o modelo 2 referente aos bitos por cncer de traqueia, brnquios e
pulmo segundo as microrregies do estado de So Paulo, de 1998 a 2010. . . . .

66
67
67

72
73
74
75
76

88

89

90

Grcos da trajetria, autocorrelao, e densidade a posteriori da cadeia para ,


obtido para o modelo 2 referente aos bitos por cncer de mama feminino segundo
as microrregies do estado de So Paulo, de 1998 a 2010. . . . . . . . . . . . . .

Grcos da trajetria, autocorrelao, e densidade a posteriori da cadeia para ,


obtido para o modelo 2 referente aos bitos por cncer de lbios, cavidade oral e
faringe as microrregies do estado de So Paulo, de 1998 a 2010. . . . . . . . . .

91

Grcos da trajetria, autocorrelao, e densidade a posteriori da cadeia para ,


obtido para o modelo 2 referente aos bitos por cncer de clon segundo as microrregies do estado de So Paulo, de 1998 a 2010. . . . . . . . . . . . . . . . .

91

Grcos da trajetria, autocorrelao, e densidade a posteriori da cadeia para ,


obtido para o modelo 2 referente aos bitos por cncer de estmago segundo as
microrregies do estado de So Paulo, de 1998 a 2010. . . . . . . . . . . . . . .

90

92

Grcos da trajetria, autocorrelao, e densidade a posteriori da cadeia para o


Risco a posteriori obtido para o modelo 2 referente aos bitos por cncer de tra-

queia, brnquios e pulmo segundo as microrregies do estado de So Paulo, para


trs anos do perodo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Grcos da trajetria, autocorrelao, e densidade a posteriori da cadeia para o

10

Risco a posteriori obtido para o modelo 2 referente aos bitos por cncer de mama
feminino segundo as microrregies do estado de So Paulo, para trs anos do perodo. 93
Grcos da trajetria, autocorrelao, e densidade a posteriori da cadeia para o

11

Risco a posteriori obtido para o modelo 2 referente aos bitos por cncer de lbios,
cavidade oral e faringe segundo as microrregies do estado de So Paulo, para trs
anos do perodo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Grcos da trajetria, autocorrelao, e densidade a posteriori da cadeia para o

12

13

Risco a posteriori obtido para o modelo 2 referente aos bitos por cncer de estmago segundo as microrregies do estado de So Paulo, para trs anos do perodo.
Grcos da trajetria, autocorrelao, e densidade a posteriori da cadeia para o
Risco a posteriori obtido para o modelo 2 referente aos bitos por cncer de clon
segundo as microrregies do estado de So Paulo, para trs anos do perodo. . . .
Mapa do Estado de So Paulo segundo microrregies. . . . . . . . . . . . . . . .

92

93

94

94
98

Sumrio
1

Introduo

Modelos para o mapeamento de doenas


2.1 Modelo Clssico de Riscos Relativos . . . . . . . . . . . . . . . . . . . . . . . .

3
3

2.2

Modelo Hierrquico Bayesiano para dados de rea . . . . . . . . . . . . . . . .

2.3

Modelo Hierrquico Bayesiano Dinmico para dados de rea . . . . . . . . . . .

10

Campos Aleatrios Markovianos Gaussianos (CAMG) e os Modelos CAR


3.1 Campos Aleatrios Markovianos Gaussianos . . . . . . . . . . . . . . . . . . .

13
13

3.1.1 Modelos Gaussianos Espaciais especicados condicionalmente . . . . .


Modelos Condicionais Autorregressivos (CAR) . . . . . . . . . . . . . . . . . .

15
18

3.2.1
3.2.2
3.2.3

19
20
21

3.2

Modelo CAR intrnseco (ICAR) . . . . . . . . . . . . . . . . . . . . . .


Modelo de Convoluo . . . . . . . . . . . . . . . . . . . . . . . . . . .
Modelo CAR Multivariado (MVCAR) . . . . . . . . . . . . . . . . . . .

Mtodos Computacionais Intensivos


4.1 Algoritmo de Metropolis-Hastings . . . . . . . .
4.2 Amostrador de Gibbs . . . . . . . . . . . . . . .
4.3 Diagnstico de Convergncia . . . . . . . . . . .
4.4 OpenBUGS e CODA . . . . . . . . . . . . . . .
4.4.1 Histria do projeto BUGS . . . . . . . .
4.4.2 Diferenas entre WinBUGS e OpenBUGS
4.4.3 CODA . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

Anlise Exploratria dos dados de aplicao: bitos por cncer


5.1 Anlise Exploratria de dados . . . . . . . . . . . . . . . .
5.1.1 Cncer de traqueia, brnquios e pulmo . . . . . . .
5.1.2 Cncer feminino de mama . . . . . . . . . . . . . .
5.1.3 Cncer de lbios, cavidade oral e faringe . . . . . .
5.1.4 Cncer de estmago . . . . . . . . . . . . . . . . .
5.1.5 Cncer de clon . . . . . . . . . . . . . . . . . . . .
5.2 Resumo da Anlise Exploratria . . . . . . . . . . . . . . .

ix

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

24
24
25
26
26
26
27
28

.
.
.
.
.
.
.

29
30
30
36
41
46
51
55

SUMRIO

Aplicao dos modelos hierrquicos Bayesianos em dados de rea multivariados

57

6.1

Procedimentos de Inferncia . . . . . . . . . . . . . . . . . . . . . . . . . . . .

57

6.2

Aplicao do Modelo Hierrquico Bayesiano . . . . . . . . . . . . . . . . . . .


6.2.1 Cncer de traqueia, brnquios e pulmo . . . . . . . . . . . . . . . . . .

61
62

6.2.2
6.2.3

Cncer de mama feminino . . . . . . . . . . . . . . . . . . . . . . . . .


Cncer de lbios, cavidade oral e faringe . . . . . . . . . . . . . . . . .

63
64

6.2.4

Cncer de estmago . . . . . . . . . . . . . . . . . . . . . . . . . . . .

66

6.2.5
6.2.6

Cncer de Clon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Correlao a posteriori para as doenas . . . . . . . . . . . . . . . . . .

67
68

6.3
6.4
7

Aplicao do Modelo Hierrquico Bayesiano Dinmico . . . . . . . . . . . . . .


69
Comparao dos modelos atravs do Critrio DIC (Deviance Information Criterion) 77

Concluses e perspectivas futuras

79

Referncias Bibliogrcas

81

Apndice A - Cdigo do OpenBUGS para aplicao do Modelo Hierrquico Bayesiano

85

Apndice B - Cdigo do OpenBUGS para aplicao do Modelo Hierrquico Bayesiano


Dinmico
86
Apndice C - Grcos para anlise de convergncia dos modelos

88

Apndice D - Estimativas dos efeitos temporais do modelo dinmico para cada doena

95

Apndice E - Mapa do estado de So Paulo segundo as microrregies do IBGE

98

Captulo 1
Introduo
Modelagem de dados de rea tem sido tema de diversas pesquisas em Estatstica nas ltimas
dcadas. Modelos espao-temporais tm sido utilizados para lidar com esse tipo de dados de um
modo natural, uma vez que muitas vezes envolvem processos ambientais, epidemiolgicos, ecolgicos, entre outros que tm, em geral, transies no tempo e no espao. O avano da tecnologia e,
simultaneamente, de mtodos estatsticos, tm permitido a elaborao de modelos cada vez mais
estruturados para a descrio de fenmenos aleatrios complexos. A ideia descrever, de forma realista, a estrutura de correlao presente nos dados, o que pode ser feito atravs do uso de modelos
hierrquicos bayesianos.
Dada a importncia atual da modelagem de fenmenos espao-temporais, este trabalho tem
por objetivo o estudo de modelos propostos na literatura para analisar dados espaciais de rea, os
modelo hierrquicos bayesianos, que envolvem o uso de modelos autorregressivos condicionais
multivariados para capturar a estrutura espacial dos dados, e modelos dinmicos lineares generalizados para capturar a estrutura temporal. Devido complexidade dos modelos em estudo e o uso da
abordagem Bayesiana como procedimento de inferncia, mtodos de Monte Carlo via Cadeias de
Markov (MCMC) so utilizados na estimao dos parmetros de interesse. Para a implementao
destes modelos foi utilizado o Software OpenBUGS (Bayesian Analysis Using Gibbs Sampler)
(Lunn et al. (2009)), e o seu mdulo GeoBUGS, que permite o mapeamento das amostras a posteriori de parmetros de interesse.
Para a aplicao dessa metodologia considera-se a distribuio espacial da mortalidade pelos
cnceres de maior importncia quantitativa, segundo as microrregies administrativas do estado de
So Paulo, englobando o perodo compreendido de 1998 at 2010. O objetivo na aplicao vericar a existncia de padres na distribuio espao-temporal dos bitos, a presena de correlao
entre os diferentes tipos da doena e, por consequncia, determinar regies de maior risco.
A diviso deste trabalho encontra-se de modo que, no segundo Captulo so considerados
modelos apropriados para o mapeamento de doenas, o que inclui o Modelo Clssico de Riscos
Relativos, o Modelo Hierrquico Bayesiano, e o Modelo Hierrquico Bayesiano Dinmico, quanto
s suas caractersticas e aplicabilidade a dados de rea. No terceiro Captulo apresenta-se uma
introduo sobre Campos Aleatrios Markovianos Gaussianos (CAMG), uma vez que estes esto

1.0

diretamente ligados construo da estrutura dos modelos Condicionais Autorregressivos (CAR),


sendo estes apresentados na sequncia, na qual tambm considerada sua verso multivariada.
No Captulo 4, relata-se alguns dos algoritmos da classe MCMC, implementados no Software
OpenBUGS, utilizados na obteno de amostras da distribuio a posteriori de parmetros de
interesse, bem como diagnsticos para a software OpenBUGS. No Captulo 5 esto dispostos os
resultados de uma anlise exploratria til para a compreenso dos resultados do modelo. No
Captulo 6 constam os resultados da aplicao do Modelo Hierrquico Bayesiano para os dados de
cncer agrupados, seguidos da aplicao do Modelo Hierrquico Bayesiano Dinmico, ajustado
aos dados ano a ano. As reas de maior risco para as doenas so apresentadas, e a correlao
entre elas discutida.
Finalmente, no Captulo 7 so expostos os resultados e as concluses obtidas neste estudo, em
conexo com perspectivas futuras ligadas este trabalho.

Captulo 2
Modelos para o mapeamento de doenas
O termo mapeamento de doenas utilizado para denominar uma rea da epidemiologia que
tem por objetivo estudar o padro espacial do risco de uma doena em determinada regio geogrca, de modo que as reas de alto risco possam ser identicadas. A maior parte dos mapas so
temticos ou coroplticos, nos quais um conjunto de reas so sombreadas de acordo com seus
valores na varivel de interesse. A varivel a ser modelada geralmente a taxa de mortalidade
para a doena, ou o risco associado mesma. Mapas de taxas de incidncia constituem a principal
ferramenta na anlise da disperso do risco de uma doena, pois alm de permitir a visualizao
da distribuio espacial do fenmeno, so importantes instrumentos em apontar fatores etiolgicos
desconhecidos e potenciais fontes de contaminao, resultantes da presena de evidentes reas de
risco elevado.
Apesar do atrativo, Stern e Cressie (2000) discutem que os mapas de taxas de mortalidade
no so conveis, devido varincia no constante associada heterogeneidade do tamanho
da populao, que em algumas reas podem ser muito pequenas. Sendo assim, uma anlise mais
dedigna leva em conta no s o tamanho da populao, como tambm a sua estrutura, e considera
o mapeamento do risco a partir de medidas mais condizentes com a realidade do fenmeno, o que
pode ser feito atravs de uma modelagem adequada para os riscos relativos de cada regio.
Na sequncia so consideradas duas abordagens para a estimativa do risco relativo a ser mapeado: o modelo clssico de riscos relativos e o modelo hierrquico bayesiano. Por m, o modelo
hierrquico bayesiano dinmico denido para incluir o domnio temporal na anlise.

2.1

Modelo Clssico de Riscos Relativos

Na abordagem clssica, um procedimento comumente utilizado para lidar espacialmente com


taxas de mortalidade de doenas consiste em mapear as Razes de Mortalidade Padronizadas
(Standardized Mortality Ratio - SMR, em ingls). A SMR a razo entre o nmero observado
de mortes na populao em estudo e o nmero de mortes que seria de se esperar nesta baseado na
distribuio de idade e sexo da respectiva populao ou de uma populao padro com a qual se
deseja comparar a regio em estudo. Se a proporo de mortes observadas em relao s esperadas
3

2.1

MODELO CLSSICO DE RISCOS RELATIVOS

maior do que 1 em determinada rea, ento dito haver mortes em excesso em sua populao.
Essas razes tambm so as estimativas de mxima verossimilhana do risco relativo de mortalidade da doena nas reas, considerando que a contagem dos bitos segue o modelo de Poisson.
Mais formalmente, seja o nmero de bitos devido uma determinada doena em n reas de uma
regio geogrca denotado por Y = (Y1 ,Y2 , ...,Yn ), sendo Yi o nmero de casos na rea i, para
i = 1, ..., n. Isto ,

Yi Poisson(i ),

i = 1, ..., n,

com i = Ei Ri , sendo Ei o elemento do vetor E = (E1 , E2 , ..., En ) correspondente rea i, assumido


conhecido, e que representa o nmero esperado de casos de acordo com as caractersticas da rea
em questo e Ri o risco relativo de bito na rea i a ser modelado.
A funo de verossimilhana de i dado yi dada por
y

exp(i )i i
,
L(i ; yi ) =
yi !

i = 1, ..., n.

Aplicando o logaritmo nessa funo, obtm-se

l(i , yi ) = log(L(i , yi )) = i + yi log(i ) log(yi !).


Como
yi
l(i , yi )
= 1 + ,

i
i
verica-se facilmente que o estimador de mxima verossimilhana de i dado por

i = yi
Isto ,

Ei Ri = yi Ri =

yi
= SMRi ,
Ei

i = 1, ..., n.

Portanto, a SMR o EMV para o risco. Levando-se em conta que se trata de uma razo padronizada, necessrio esclarecer que a padronizao ocorre durante o clculo do vetor esperado E.
Isso permite que a estrutura demogrca das reas sejam levadas em considerao, e, portanto, le-

2.1

MODELO CLSSICO DE RISCOS RELATIVOS

vem a uma interpretao mais realstica dos riscos relativos, o que especialmente importante nas
reas cujas populaes incluem uma grande parcela de idosos ou de indivduos do sexo masculino,
uma vez que, conhecidamente, tais fatores aumentam o risco para determinadas doenas.
Para a padronizao indireta, considere i o ndice da rea e j o ndice da classe de idade-sexo.
Por exemplo, j = 1 indica os bitos femininos na faixa etria de menores de 1 ano de idade, j = 2
indica os bitos femininos na faixa etria de 1 a 4 anos de idade, e assim por diante. Atente para
uma determinada classe j, por exemplo, j = 5, que signica mulheres de 15 a 19 anos de idade.
Seja yi j o nmero de bitos que ocorreram entre pessoas da classe j na rea i, e Ni j a respectiva
populao na classe j e rea i. O risco global em todo o mapa referente apenas classe de idadesexo j dado por

rj =

i yi j
i Ni j

Ento, Ei j = r j Ni j o nmero esperado de bitos na classe j e rea i se o risco na classe j fosse


constante no espao. Consequentemente, o nmero total esperado de bitos na rea i para o risco
de cada classe de idade-sexo constante no espao dado por

E i = Ei j .
j

Com isso, a SMR calculada como a razo entre o nmero observado de bitos e o nmero
esperado, se o risco fosse constante no espao. Isto ,

yi
SMRi = R i =
Ei
Assim, na hiptese de que o risco seja constante no espao em cada classe de idade-sexo, temos
que Yi Poisson(Ei Ri ), sendo Ei calculado de acordo com a explicao anterior.
Uma das crticas associada ao uso da SMR como estimador do risco relativo a utuao
aleatria associada a reas com pequenas populaes. Observe que este estimador possui varincia
inversamente proporcional ao nmero esperado de eventos Ei . Assim, quando este nmero for
pequeno, o que geralmente acontece para regies pequenas, a variabilidade do estimador pode ser
muito grande. Da o motivo de se evitar o uso de unidades territoriais pequenas, como diviso
por bairros ou municpios (o que abrange grande parte dos dados epidemiolgicos e demogrcos
disponveis). Neste caso, as populaes de tais reas so pequenas, gerando valores pequenos
para Ei . Como consequncia, os valores extremos de R i tendem a ocorrer nestas reas. O erro
de interpretao a que isso induz que aquilo que mais chamar a ateno no mapa, que so os
seus valores extremos, ser o menos precisamente estimado. Assim, as maiores oscilaes do risco
relativo, em geral, no estaro associadas ao verdadeiro risco da doena subjacente populao,

2.2

MODELO HIERRQUICO BAYESIANO PARA DADOS DE REA

mas sim mera utuao aleatria. Alm disso, esse tipo de estimativa no leva em considerao
a possvel dependncia espacial entre as reas, presente em muitas situaes.
Uma alternativa para lidar com esse problema a abordagem Bayesiana, atravs dos modelos
hierrquicos bayesianos. A proposta, feita inicialmente por Clayton e Kaldor (1987), modelar
o logaritmo do risco relativo por meio de uma regresso linear. A ideia dos autores era impor
uma estrutura de relao espacial plausvel entre as reas, por meio da modelagem conjunta dos
riscos como um processo espacial. Em outras palavras, usar a informao das reas vizinhas para
estimar o risco relativo de uma unidade territorial. Isso tambm pode ser visto no trabalho de
Assuno e Castro (2004), que estimaram o risco para os seis tipos de cncer mais comuns em
homens e mulheres, em 18 cidades brasileiras do estado de So Paulo no ano de 1991, por meio da
SIR (Standardized Incidence Rate) - estimativa similar SMR, porm, referente incidncia da
doena, e no mortalidade - e alternativamente, atravs de um modelo bayesiano multivariado.
Seus resultados mostraram que as estimativas obtidas pelas taxas de incidncia padronizadas indiretas usuais tinham intervalos de conana muito grandes para muitos tipos de cncer e cidades,
devido ao pequeno nmero de casos esperados. O uso do mtodo bayesiano levou a estimativas
mais precisas.
Justicada a importncia do mtodo bayesiano em relao ao clssico, considere a seguir uma
possvel estrutura para um modelo nesse contexto.

2.2

Modelo Hierrquico Bayesiano para dados de rea

Como j mencionado, o modelo clssico de riscos relativos, que usa a SMR como estimador
do risco, assume uma densidade Poisson com risco de mortalidade constante sobre as reas e
independentes entre delas. Na prtica, porm, Congdon (2007) alerta que os riscos variam tanto
dentro como entre as reas, de modo que as contagens nas reas tem mais variabilidade do que a
densidade que a Poisson estipula, o que conhecido como variabilidade extra-Poisson.
Uma alternativa para contornar tal problema seria modelar as contagens de acordo com uma
distribuio Binomial negativa, visto que ela apresenta um parmetro adicional, chamado parmetro de heterogeneidade ou superdisperso (Hilbe (2011)). Alm disso, a distribuio Binomial
negativa generaliza a distribuio de Poisson quando esse parmetro tende a zero.
Outra possibilidade para modelar a variao extra incluir efeitos aleatrios no modelo para o
risco relativo de doena ou mortalidade. Tais efeitos podem ou no ser estruturados espacialmente,
sendo que os ltimos tm sido denotados como excesso de heterogeneidade, segundo Best et al.
(1999). Os autores ainda armam que, por outro lado, tambm pode ocorrer sobredisperso devido
a efeitos espacialmente correlacionados, uma vez que tais efeitos espaciais frequentemente procuram capturar fatores de risco no observados, os quais variam suavemente no espao.
Mesmo assim, o contnuo uso de tal abordagem em suas mais diversas variaes por inmeros pesquisadores em todo o mundo revela que ainda constitui-se um bom mtodo de anlise,
alm de evidentemente ser mais realstica que a abordagem clssica considerada anteriormente,

2.2

MODELO HIERRQUICO BAYESIANO PARA DADOS DE REA

devido aos motivos j mencionados. Dentre trabalhos interessantes neste contexto encontra-se o
de Waller et al. (1997), que estende os modelos hierrquicos espaciais para explicar os efeitos
temporais e interaes espao-temporais, e ilustra a abordagem usando um conjunto de dados de
taxas de cncer de pulmo em Ohio, EUA. No mesmo contexto est o artigo de Xia et al. (1997),
que relaciona a incidncia de determinada doena com variveis scio-demogrcas. Song et al.
(2006) consideram um modelo bayesiano espacial hierrquico para estimar taxas de acidentes no
Texas, EUA. Isso apenas para citar alguns trabalhos de destaque nessa rea de pesquisa to ampla
e crescente.
Na modelagem Bayesiana os parmetros de um modelo seguem distribuies. Tais distribuies controlam sua forma e so especicadas pelo pesquisador baseado, geralmente, nas suas
crenas a priori sobre seu comportamento. A ideia de que os valores dos parmetros ocorrem a
partir de distribuies (a priori) leva naturalmente ao uso de modelos nos quais os parmetros surgem dentro de hierarquias - os Modelos Hierrquicos Bayesianos. O princpio nesses modelos
dividir a especicao da distribuio a priori em estgios. Alm de facilitar a especicao, essa
abordagem natural em determinadas situaes experimentais.
Seja o parmetro de interesse, e os valores dos hiperparmetros - denominao que se
d aos parmetros pertencentes distribuio a priori especicada para . Como a distribuio a
priori de depende dos valores de , possvel especicar p(|) em vez de p(). Alm disso, ao
invs de xar valores para os hiperparmetros, possvel especicar uma distribuio a priori p()
para eles, completando a especicao do segundo estgio da hierarquia. E ento, a distribuio a
priori marginal de pode ser obtida por integrao

p() =

p(, )d =

p(|)p()d.

Voltando ao contexto dos dados de interesse, no mapeamento de doenas o modelo mais comumente utilizado para dados de contagem em pequenas reas o modelo de Poisson. Segundo
Lawson (2008), este modelo apropriado quando existe uma contagem relativamente baixa da
doena e a populao relativamente grande nas reas. A contagem da doena Yi nas i = 1, ..., n
reas assumida como tendo uma mdia i e sendo independentemente distribuda como

Yi |Ri Poisson (i ) ,
em que i = Ei Ri .
Assim como anteriormente, a mdia considerada consistindo em dois componentes: i) um
componente representando o efeito da populao (valores esperados), e ii) um componente representando o excesso de risco na rea (risco relativo). O clculo dos valores esperados se d como
explicado na seo anterior. Assim, os dados so independentemente distribudos com esperana

2.2

MODELO HIERRQUICO BAYESIANO PARA DADOS DE REA

E(Yi |Ri ) = i = Ei Ri
em que Ei o valor esperado para a i-sima rea, e Ri o respectivo risco relativo. Como o interesse desenvolver um modelo bayesiano hierrquico, Yi considerado independente dado o
conhecimento de Ri .
A abordagem mais comum para a modelagem do risco relativo assumir funo de ligao
logartmica para o preditor linear, isto ,

log(Ri ) = i .
Diferentes especicaes para i podem ser adotadas. Denir efeitos aleatrios com distribuies a priori Gama ou Beta para o risco relativo pode ser til, mas tm uma srie de inconvenientes.
Primeiro, a distribuio Gama no permite que se obtenha facilmente adaptaes para a incluso
de covariveis no modelo, e, segundo, no h generalizao simples e adaptvel de tal distribuio
para parmetros espacialmente correlacionados. Best et al. (2005) fornecem um exemplo do uso
de modelos Gama correlacionados, mas esses modelos mostraram ter um desempenho ruim num
estudo de simulao. Alm disso, de acordo com Lawson (2008), as vantagens de incorporar uma
especicao Gaussiana so muitas. A principal que um efeito aleatrio com distribuio Gaussiana se comporta de maneira similar a um com distribuio Gama, mas o modelo gaussiano pode
incluir uma estrutura de correlao. Assim, para o caso em que suspeita-se que os efeitos aleatrios
so correlacionados espacialmente (o que bastante razovel), o mais comum especicar uma
forma Gaussiana para qualquer variao extra presente. Uma alternativa considerar componentes
aditivos descrevendo diferentes aspectos da variao que se presume haver nos dados, e atribuir
a um desses componentes distribuio a priori Gaussiana. Enm, existem muitas maneiras de se
incorporar tal heterogeneidade no modelo, e uma dessas apresentada a seguir.
Besag et al. (1991) primeiramente sugeriram a seguinte forma para i

i = + x i + i


em que um termo comum a todas as reas, x i = (xi1 , ..., xip ) um conjunto de p covariveis
associadas yi , e i o efeito aleatrio estruturalmente espacial, que tem por nalidade capturar
a dependncia espacial da regio e a variabilidade devido ausncia de algum fator de risco no
modelo.
A incluso do termo de intercepto no modelo exige que seja atribuda a este distribuio a
priori Uniforme na reta real, conhecida como distribuio at (Thomas et al. (2004)). Para o vetor
de parmetros de regresso = (1 , ..., p ) atribu-se, em geral, distribuio a priori Normal Multivariada com baixa preciso e vetor de mdias 0. Para modelar os efeitos aleatrios i , geralmente

2.3

MODELO HIERRQUICO BAYESIANO PARA DADOS DE REA

usa-se como distribuio a priori a classe de modelos condicionais autorregressivos (Conditional


Autoregressive - CAR, em ingls). Em praticamente todas as vezes, o seu uso como priori requer
o uso de mtodos numricos, incluindo tcnicas de Monte Carlo via Cadeia de Markov (ou do
ingls Monte Carlo via Markov Chain - MCMC) para obter amostras da distribuio a posteriori.
Apenas em poucos casos particulares possvel encontrar distribuies a posteriori conhecidas
(por exemplo, quando Y gaussiano). Atualmente, vrios modelos considerando o modelo CAR
como distribuio a priori foram implementados e esto disponveis em programas computacionais populares, tais como OpenBUGS (e seu mdulo GeoBUGS) [Lunn et al. (2000)], e BayesX,
[Lang e Brezger (2000)].
O modelo CAR (Besag (1974)), denido para modelar os efeitos aleatrios estruturados,
dado por


i |i N i + ci j ( j j ), 2 mii ,

(2.1)

ji

em que i = (1 , ...i1 , i+1 , ..., n ) o vetor de efeitos aleatrios sem o elemento i , e 2 > 0
um termo de varincia. C = (ci j ), uma matriz de associao espacial com zeros na diagonal
(isto , cii = 0), M = (mii ) uma matriz diagonal conhecida; e um parmetro que mede a
fora da dependncia espacial de i nos seus vizinhos. Ci j e Mi j so denidas de modo que a
C )1 M seja simtrica e positiva-denida, tornando o modelo vlido. Observe que
matriz (II C
C )1 M simtrica somente se ci j m j j = c ji mii , i, j = 1, ..., n. E para que esta matriz seja
(II C
positiva-denida, o parmetro deve pertencer ao intervalo (min , max ), em que 1/min e 1/max
1
1
so o menor e maior autovalores da matriz M 2 C M 2 . Mais detalhes sobre a especicao deste
modelo so apresentados no prximo Captulo.
Resumindo, o modelo hierrquico bayesiano denido tal que

Yi |i Poisson (i )
i = Ei Ri


log(Ri ) = + xi + i

(2.2)

U (, +)
N(0, 2 )
i CAR(2 ).
Dada a importncia da modelagem dos efeitos aleatrios estruturados, no Captulo 3 so apresentados mais detalhadamente o modelo Condicional Autorregressivo Intrnseco (ICAR), e o modelo de convoluo, que assume priori ICAR para um de seus efeitos aleatrios. Tambm abordado o CAR multivariado, que acomoda a especicao do CAR para o caso multivariado, e
utilizado nos dados de aplicao deste trabalho mais frente, no Captulo 5.

2.3

MODELO HIERRQUICO BAYESIANO DINMICO PARA DADOS DE REA

2.3

10

Modelo Hierrquico Bayesiano Dinmico para dados de


rea

Suponha que, alm de analisar a ocorrncia dos riscos relativos no espao, tambm exista
interesse em compreender a sua dinmica ao longo do tempo. Talvez a ideia mais intuitiva seja
modelar os riscos como uma srie temporal, cujo comportamento futuro analisado com base em
um conjunto de informaes j existentes. Um dos principais objetivos de uma anlise de sries
temporais o entendimento de seu mecanismo gerador, e tambm a predio para tempos futuros.
O conhecimento sobre o mecanismo de gerao da srie possibilita uma melhor descrio destas,
enquanto que a previso contribui para a tomada de decises.
Uma possibilidade de modelagem para uma srie temporal, seguindo o enfoque bayesiano, so
os modelos dinmicos lineares generalizados (MDLGs), propostos por West et al. (1985) como
uma generalizao dos modelos dinmicos lineares (MDLs), introduzidos por Harrison e Stevens
(1976). Ambos esto bem documentados em West e Harrison (1997).
Os MDLs, tambm conhecidos como modelos de espao de estados, tem por objetivo analisar
uma varivel latente com base em uma varivel observvel que segue distribuio Normal. No
caso dos MDLGs a ideia a mesma, com a vantagem de que a varivel resposta no precisa ser
normalmente distribuda, mas apenas pertencer famlia exponencial de distribuies. Um dos
modelos dinmicos lineares generalizados mais simples o passeio aleatrio de primeira ordem.
O princpio bsico que rege tal modelo a utuao aleatria dos valores da srie temporal em
torno de um ponto mdio, sendo este tambm sujeito a variaes ao longo do tempo. Basicamente,
atribui-se s observaes {yt |t } uma distribuio pertencente famlia exponencial. Ento, para
t = 1, 2, ..., T , t segue um passeio aleatrio tal que

t = t1 + t ,

(2.3)

com t N(0, ).
Apesar de ser relativamente simples, esse modelo incorpora o conceito de evoluo temporal
de forma que a mdia possa variar ao longo do tempo, o que o torna bastante atrativo.
Agora, suponha que a varivel Y seja observada no tempo e no espao, e que para i = 1, 2, ..., n
e t = 1, 2, ..., T

Yit |it Poisson(it ).

(2.4)

Sabe-se que a distribuio de Poisson pertence famlia exponencial, portanto, a modelagem


proposta para a mdia em (2.3) vlida. Neste caso, porm, o modelo hierrquico, sendo que

2.3

MODELO HIERRQUICO BAYESIANO DINMICO PARA DADOS DE REA

it = Eit Rit ,

11

(2.5)

com Eit representando o valor esperado para a rea i no tempo t, e Rit o respectivo risco relativo.
Aplicando o log nessa expresso, que funo de ligao natural para o modelo de Poisson,
obtm-se

log(it ) = log(Eit ) + log(Rit ).

(2.6)

Como os valores para Eit so conhecidos, a modelagem da mdia acerca do log(it ) se resume
especicao do log(Rit ). Utilizando a hierarquia do modelo proposto em (2.2), e com a adio
de um parmetro para capturar a dinmica temporal da mdia, os riscos relativos denidos so tais
que

log(Rit ) = + xit + t + i ,

(2.7)

no qual tanto os parmetros como tambm poderiam variar no tempo. No entanto, a incluso
do domnio temporal em tais parmetros tem se mostrado pouco vantajosa no sentido de custo
computacional e de no apresentar signicncia no modelo. Alm disso, nem sempre faz sentido
que estes variem no tempo.
A distribuio especicada para t , de modo similar (2.3), possui estrutura dinmica dada
por

t = t1 + t ,

(2.8)

t N(0, ).
Em outras palavras, o nvel da srie modelado como um passeio aleatrio, no qual o valor
inicial

0 N(0, ).

(2.9)

Usando termos dos modelos dinmicos lineares, a equao 2.7 conhecida como equao de
observao, a equao 2.8 como equao do sistema, e t como o estado. Para completar a modelagem do log(Rit ), especica-se uma distribuio a priori para os efeitos aleatrios estruturados
espacialmente i . Como j mencionado, essa distribuio pertence classe dos Modelos Condicionais Autorregressivos, apresentada com mais detalhes no prximo Captulo. Desta forma est

2.3

MODELO HIERRQUICO BAYESIANO DINMICO PARA DADOS DE REA

12

especicado um modelo espao-temporal para anlise de dados de rea, cujos resultados de uma
aplicao em dados reais pode ser vista mais a frente, no Captulo 6.
No prximo Captulo, apresenta-se uma introduo sobre Campos Aleatrios Markovianos
Gaussianos, utilizados no desenvolvimento do CAR, bem como aspectos da formulao condicional para modelos Gaussianos espaciais, de modo a tornar vlida a sua estrutura. Em seguida,
considera-se algumas formas de especicao para um modelo Condicional Autorregressivo.

Captulo 3
Campos Aleatrios Markovianos
Gaussianos (CAMG) e os Modelos CAR
Seja D R2 a regio geogrca em estudo e s1 , s2 , ..., sn D as n reas amostrais sobre as
quais observada a varivel aleatria y(s). possvel escrever

y(si ) = (si ) + (si ),

i = 1, 2, ..., n,

(3.1)

com = ((s1 ), (s2 ), ..., (sn )) representando as mdias gerais que podem ou no depender dos
locais de observao si , para i = 1, ..., n, e = ((s1 ), (s2 ), ..., (sn )) os erros aleatrios, isto , o
componente estocstico do modelo.
Se for modelado como num modelo de regresso linear (simples ou mltipla), explicada
por uma ou mais covariveis, ento assume-se que os erros so independentes, caso em que no
existe autocorrelao espacial. Por outro lado, se o componente estocstico apresenta uma estrutura espacial (que o caso de interesse neste estudo), ento no possvel assumir independncia
entre tais erros, e torna-se necessrio denir no modelo uma estrutura que acomode essa dependncia espacial. Neste caso, uma alternativa utilizar os Campos Aleatrios Markovianos (CAM)
(Molli (1996)) para denir a distribuio a priori para os efeitos, assunto que tratado a seguir.
Na sequncia so apresentados alguns aspectos da modelagem condicional e sua relao com os
modelos CAR.

3.1

Campos Aleatrios Markovianos Gaussianos

A principal soluo para o problema de se determinar a existncia e especicao da distribuio conjunta associada com as distribuies condicionais foi encontrada na dcada de 70 por
Hammersley e Clifford. Eles descobriram uma ligao fundamental entre o problema terico da
especicao de uma distribuio via suas condicionais e os campos aleatrios de Markov, embora
eles mesmos no tenham publicado a prova de seu teorema, que s veio a ser conhecida no meio

13

3.1

14

CAMPOS ALEATRIOS MARKOVIANOS GAUSSIANOS

estatstico atravs de Besag (1974). Para compreender a demonstrao, no entanto, necessrio


conhecimento sobre conceitos da teoria dos grafos.
Os campos aleatrios de Markov so uma generalizao das cadeias de Markov, substituindo o
espao-ndice do tempo por um espao mais genrico, como o espao geogrco. Trata-se de um
conjunto de variveis aleatrias contendo a propriedade de Markov, que est associada com distribuies condicionais. Assim, em Estatstica Espacial, essa propriedade implica que a distribuio
condicional de uma rea (em qualquer estado) dado todo o restante do mapa depende apenas de
suas reas vizinhas, e no dos valores de reas mais distantes.
A distribuio mais utilizada sobre os CAMs para a Normal, levando aos Campos Aleatrios Markovianos Gaussianos (CAMG), que tem a seguinte notao:

CAMG(, P ),

(3.2)

em que representa um vetor de mdias = (1 , ..., n ) e P uma matriz de precises, tal que


1
p() exp ( ) P ( ).
2


(3.3)

Os modelos propostos por Besag et al. (1991) so um caso particular deste modelo, obtidos
fazendo P = M , com

i= j
mi ,
Mi j =
i j
wi j ,

0,
caso contrrio
em que i j denota que as reas si e s j so vizinhas, para i, j = 1, ..., n; mi o nmero de vizinhos
da regio i e wi j > 0 uma medida de similaridade entre si e s j . Uma das escolhas mais comuns
para wi j baseado em fronteiras, fazendo wi j = 1 se si faz fronteira com s j e wi j = 0 caso contrrio.
Outro critrio bastante utilizado para wi j o inverso da distncia entre os centroides das reas si e
s j.
Observe que, como a matriz M especicada singular, sua inversa, a matriz de covarincias,
no existe. Em resultado disso, a distribuio conjunta de no prpria nestes modelos. Nos
tpicos seguintes considera-se como lidar com este problema.
Antes de introduzir os modelos condicionais autorregressivos de Besag et al. (1991), porm,
so abordados alguns aspectos importantes da modelagem condicional.

3.1

CAMPOS ALEATRIOS MARKOVIANOS GAUSSIANOS

3.1.1

15

Modelos Gaussianos Espaciais especicados condicionalmente

Como anteriormente, assuma que (s) : s D, com (si ); i = 1, ..., n, representa o vetor de
efeitos espaciais denido sobre a regio geogrca em estudo. Utilizando a notao de Cressie
(1993), seja NM(0, ) uma distribuio conjunta (n-dimensional) com mdia 0 e matriz de covarincias diagonal (por exemplo, = 2 I), sendo que os elementos de tambm so indexados
de acordo com suas localizaes {si : i = 1, ..., n}.
Seja B = (bi j ) a matriz que acomoda a dependncia espacial. possvel armar, mesmo atravs
de um pensamento intuitivo, que, se existe a crena de que (s1 ) correlacionado espacialmente
com (s2 ), por exemplo, ento o elemento b12 > 0, mas, se esses efeitos so pensados como sendo
independentes no espao, ento b12 = 0. Alm disso, assume-se que bii = 0 para i = 1, ..., n, e que
(II B )1 existe (Ripley (2005)). No um requisito para o modelo que bi j = b ji .
Ento, uma maneira de denir = ((s1 ), ..., (sn )), atravs de uma especicao simultnea,
seria utilizar o fato de que

(II B)( ) = .

(3.4)

evidente que E() = e var() = E[( )( ) ] = (II B )1 (II B  )1 . Observe que,


como ( ) uma combinao linear de , que Normal multivariado, ento

NM(, (II B )1 (II B  )1 ).

(3.5)

Com isso, a equao (3.4) pode ser escrita equivalentemente como


n

(si ) = i + bi j ((s j ) j ) + i ,

i = 1, ..., n.

(3.6)

j=1

A respectiva verossimilhana , ento,

(2)

n2

|
|

12


1
1


(II B )( ) .
|II B | exp ( ) (II B )
2

(3.7)

Na abordagem clssica, essa funo maximizada a m de estimar os parmetros , B e . O


interesse aqui, no entanto, obter a distribuio condicional dos efeitos aleatrios espacialmente
estruturados, ao passo que no decorrer de todo o trabalho utiliza-se mtodos bayesianos para a
obteno das estimativas de interesse.
Apesar de existir a possibilidade de modelar atravs da especicao simultnea, como j
mencionado na seo anterior, foi descoberto que realizaes de uma varivel aleatria espacial
com a propriedade de Markov so mais satisfatoriamente modeladas via abordagem condicional.

3.1

CAMPOS ALEATRIOS MARKOVIANOS GAUSSIANOS

16

Assim, para dados Gaussianos, Cressie (1993) mostrou que a distribuio condicional pode ser
escrita como

f ((si )|(s j ) : j i, j

1
 i) = (22i ) 2
=


2
1
exp 2 (si ) i ((s j ))
,
2i

i = 1, ..., n, (3.8)



em que f denota a densidade condicional de (si ) dado (s j ) : j i, j = i, j = 1, ..., n e i e 2i
so sua mdia e varincia condicionais, respectivamente. Sob uma condio de regularidade de
dependncia somente aos pares entre as reas, possvel escrever
n

i ((s j ) : j i, j = i) = i + ci j ((s j ) j ),

i = 1, ..., n,

(3.9)

j=1

em que ci j 2j = c ji 2i , cii = 0 e cik = 0 se no houver dependncia entre os efeitos das reas i e k.


Ser mostrado que, a partir dessa formulao, a distribuio conjunta dos efeitos aleatrios
estruturados tal que

C )1 M ),
NM(, (II C

(3.10)

C ) invertvel e (II C
C )1 M simtrica e positiva denida. Aqui, = ((s1 ), ..., (sn )) ,
em que (II C
= (1 , ..., n ) , C = (ci j ) uma matriz n n na qual o (i, j)-simo elemento ci j , e M =
diag(21 , ..., 2n ) uma matriz diagonal tambm n n.
Apenas para constar, a verossimilhana passa a ser

2n

(2)

M|
|M

12



1
 1
C | exp ( ) M (II C
C )( ) .
|II C
2
1
2

A matriz de varincias em (3.10) no a mesma de (3.5). claro que, quando

C )1 M = (II B )1 (II B  )1
(II C

elas produzem o mesmo modelo, mas evidente que bi j e ci j no podem ter a mesma interpretao.
Para mostrar que a distribuio conjunta dos efeitos aleatrios segue a distribuio em (3.10)
e satisfaz as condies mencionadas, antes enunciado um teorema que deve ser satisfeito por
qualquer especicao condicional - o Teorema da Fatorao.

3.1

CAMPOS ALEATRIOS MARKOVIANOS GAUSSIANOS

17

Teorema da Fatorao (Besag (1974)) Suponha que as variveis {Z(si ) : i = 1, ..., n} tem
funo densidade de probabilidade conjunta Pr(.) cujo suporte satisfaz a condio de positividade, isto , de que P(zi ) > 0 P(zi , ..., zn ) > 0 i. Ento,
n
Pr(z)
Pr(z(si )|z(s1 ), ..., z(si1 ), y(si+1 ), ..., y(sn ))
=
, z, y ,
Pr(y) i=1 Pr(y(si )|z(s1 ), ..., z(si1 ), y(si+1 ), ..., y(sn ))

(3.11)

em que y = (y(s1 ), ..., y(sn )) , z = (z(s1 ), ..., z(sn )) so possveis realizaes de Z.
Prova
Para y(sn ) n ,


 

Pr(z) = Pr z(sn )| z(s j ) : j = n Pr z(s j ) : j = n

 



Pr z(sn )| z(s j ) : j = n Pr z(s j ) : j = n , y(sn )



=
,
Pr y(sn )| z(s j ) : j = n
Sob a condio de positividade, o denominador desta expresso positivo. Agora,

Pr




z(s j ) : j = n , y(sn ) = Pr (z(sn1 | {z(si ) : i = n 1, n} , y(sn )) Pr ({z(si ) : i = n 1, n} , y(sn ))
Pr (z(sn1 )|z(s1 ), ..., z(sn2 ), y(sn )) Pr (z(s1 ), ..., z(sn2 ), y(sn1 ), y(sn ))
,
=
Pr (y(sn1 )|z(s1 ), ..., z(sn2 ), y(sn ))

para algum y(sn1 ) n1 . Novamente, a condio de positividade usada para garantir que a
ltima expresso esteja bem denida. Prosseguindo desta maneira, o teorema est provado. 
Proposio A especicao condicional em (3.8) e (3.9) implicam que


C )1 M ,
Z NM , (II C
C ) invertvel e (II C
C )1 M simtrica e positiva-denida.
sendo (II C

3.2

MODELOS CONDICIONAIS AUTORREGRESSIVOS (CAR)

18

Prova
Usando o teorema da fatorao para densidades e fazendo y = em (3.11), obtm-se


2
i1


1 n
log( f (zz)/ f ()) = 2 z(si ) (si ) ci j z(s j ) (s j )
2i i=1
j=1

2
n
i1


1
+
ci j z(s j ) (s j )
22i i=1 j=1
=
+

1 n
(z(si) (si))2
22i i=1



1 n i1
c
(z(s
)

(s
))
z(s
)

(s
)
i
j
i
i
j
j

2i i=1 j=1

1
C )(zz ).
= (zz ) M 1 (II C
2
O lado direito da equao o expoente de uma distribuio Gaussiana n-dimensional com mC )1 M . 
dia e matriz de varincias (II C
O teorema da fatorao mostra o quo severas as condies de consistncia para probabilidades
condicionais podem ser. Uma vez que existem n! maneiras de se ordenar as reas, existem n!
fatoraes para Pr(zz)/Pr(yy), que devem ser todas iguais.
Toda essa formulao serve de auxlio para a denio das distribuies dos modelos condicionais autorregressivos na prxima Seo.

3.2

Modelos Condicionais Autorregressivos (CAR)

O conceito de modelo condicional autorregressivo para dados de rea foi introduzido por
Besag (1974), que mostrou que a abordagem de probabilidade condicional para a especicao
e anlise da interao espacial mais atraente do que a abordagem de probabilidade conjunta
alternativa. A base de seu desenvolvimento vem do modelo de rede de Knsch (1987), que usa
a denio de distribuio espacial em termos de diferenas e permite o uso de uma distribuio conjunta Normal singular. Veio a ser explorada mais profundamente pela primeira vez por
Besag e Kooperberg (1995), com a abordagem do modelo Condicional Autorregressivo Intrnseco (ICAR, Intrinsic Conditional Autoregressive) para anlise Bayesiana de imagens, mostrando
as restries necessrias para se obter distribuio a posteriori prpria. Este modelo apresentado no prximo tpico. Em seguida, considerado o Modelo de Convoluo, que utiliza como
distribuio a priori para um de seus efeitos o modelo CAR.

3.2

MODELOS CONDICIONAIS AUTORREGRESSIVOS (CAR)

3.2.1

19

Modelo CAR intrnseco (ICAR)

Utilizando notao semelhante de Stern e Cressie (2000), num modelo CAR, o vetor dos
efeitos aleatrio espaciais i , i = 1, ..., n segue distribuio Normal multivariada


C)
NM , (II C

M ,

(3.12)

 
em que C = ci j uma matriz de associao espacial com zeros na diagonal; o parmetro que
mede a fora da dependncia espacial de nos seus vizinhos; I a matriz Identidade n n; M
C )1 M
uma matriz diagonal conhecida, escolhida de modo que a matriz de covarincias = (II C
seja positiva-denida.
Sendo M = (mii ) e por inspeo na matriz 1 , conclui-se que simtrica quando m j jCi j =
miiC ji . Observe tambm que a matriz de covarincias pode ser expressa como


1
1
1 1
1
M 2 CM 2
= M 2 I M
M 2.

(3.13)

Ento, ela ser denida-positiva quando (min , max ), sendo que 1/min e 1/max so o
1
1
menor e maior autovalores de M 2 C M 2 , respectivamente.
importante ressaltar que a incluso de no modelo - o parmetro que mede a fora da
dependncia de nos seus vizinhos - no faz com que se perca a generalidade do resultado em
(3.10) e, portanto, a distribuio conjunta de e as distribuies condicionais dos efeitos esto
garantidas por este.
Assim, as condicionais completas para o modelo CAR podem ser expressas como


i |i N i + ci j ( j j ), 2 mii ,

(3.14)

ji

em que j i indica que j pertence vizinhana de i (j faz fronteira com i, se esse for o critrio
adotado).
A escolha de = 0 implica em independncia espacial dos efeitos aleatrios, ao passo que ao
se escolher = 1 admite-se mxima autocorrelao espacial. Esta ltima opo leva ao modelo
CAR intrnseco (ICAR, do ingls Intrinsic Conditional Autoregressive).
Assim, a distribuio a priori ICAR dada por Besag et al. (1991) para

i |i N
em que ni o nmero de vizinhos da rea i.

1
ni

2
j , ni
ji


,

(3.15)

3.2

MODELOS CONDICIONAIS AUTORREGRESSIVOS (CAR)

20

Note que esse modelo uma variao de (3.14). Neste caso, considera-se que i = 0; mii =
1
1
; ci j =
se as reas i e j forem adjacentes e 0 se no forem; e por m, = 1. O fato de
ni
ni
= 1 o que leva ao termo intrnseco utilizado para se referir ao modelo, pois ele faz com
que exista correlao espacial mxima entre os efeitos. Dessa forma, uma crtica associada a este
modelo que ele adequado apenas quando existe forte autocorrelao espacial. Observe que,
nessa formulao, a esperana condicional de i igual a mdia dos efeitos aleatrios das reas
vizinhas de i, enquanto a varincia condicional inversamente proporcional ao nmero de vizinhos
ni . O parmetro de varincia 2 controla a variao entre os efeitos aleatrios.
Essa uma distribuio imprpria, com uma mdia geral indenida para i , uma vez que possvel adicionar uma constante para cada i sem alterar a distribuio. Segundo Congdon (2007),
isso pode resultar em problemas na convergncia e de identicabilidade na estimao Bayesiana
baseada em amostras repetidas. Eberly et al. (2000) armam que uma maneira de se obter distribuio prpria impor ao modelo a restrio de que i = 0. Os autores trabalham, ainda, com
i

a relao entre identicabilidade e as taxas de convergncia do MCMC, de modo a fornecer orientao sobre a seleo de priori e melhoria no algoritmo. Adicionalmente, Besag e Kooperberg
(1995) demonstraram que impondo que a soma dos efeitos aleatrios seja igual a zero, e especicando um intercepto com locao invariante, e priori Uniforme (,+), que equivalente a
uma nova parametrizao do modelo incluindo um intercepto, garante-se a identicabilidade do
modelo. No OpenBUGS, as distribuies car.normal e mv.car utilizadas para denir o modelo CAR intrnseco univariado e multivariado, respectivamente, so parametrizadas para incluir
a restrio de soma a zero sobre os efeitos aleatrios. Isso signica que o usurio deve incluir
um termo de intercepto separado no modelo, ao qual deve-se atribuir uma distribuio a priori
Uniforme imprpria, usando a distribuio dat() denida no programa.
Com respeito especicao da estrutura da matriz de vizinhanas C , apesar de o mais comum
ser atribuir pesos normalizados, existem diversas maneiras de se construir tal estrutura, como por
exemplo, criando elaboraes de pesos como funes do comprimento das fronteiras. Muitos autores criticam a especicao da matriz de adjacncias utilizando apenas 0 s e 1 s como no sendo
consistente no caso em que o nmero de vizinhos varia (que o caso da maioria das grades irregulares).

3.2.2

Modelo de Convoluo

O modelo de convoluo, tambm proposto por Besag et al. (1991), bastante atrativo do
ponto de vista prtico. Basicamente, consiste num modelo CAR com dois efeitos aleatrios, um
com estrutura espacial e priori ICAR, e outro para capturar a variabilidade dos dados que no tem
relao com sua distribuio espacial. O modelo dado por

i = i + i ,

3.2

21

MODELOS CONDICIONAIS AUTORREGRESSIVOS (CAR)

i |2 N(0, 2 ),

(3.16)

com
W , 2 ICAR(W
W , 2 ).
= (1 , ..., n )|W
O termo tem priori ICAR descrita em (3.15), na seo anterior. O segundo conjunto de efeitos aleatrios = (1 , ..., n ) independente entre as reas, e diferentes intensidades de correlao
podem ser representadas por variar os tamanhos relativos das duas componentes (, ). A convoluo entre as funes densidades de probabilidade para e resulta na densidade dos efeitos
aleatrios. Do ponto de vista prtico, bastante atrativo usar dois efeitos aleatrios, sendo que, ao
passo que um deles capta a estrutura de autocorrelao da regio, o outro permite deter variabilidade oriunda de outras fontes de variao. Por outro lado, de acordo com Eberly et al. (2000),
o uso de tais efeitos resulta num problema de identicabilidade, pois somente a soma dos erros
identicada pelos dados. Os autores mencionam que esse problema pode ser corrigido por incluir
um termo de intercepto no preditor linear, ou por impor que a soma dos efeitos i seja igual a zero.
Xie e Carlin (2006) exploram medidas de resolver esse tipo de problema de identicabilidade com
base em diferenas na preciso e na medida de divergncia de Kullback-Leibler.
De acordo com Rodrigues e Assuno (2012), o termo convoluo est ligado a este modelo
porque a densidade conjunta do vetor de efeitos aleatrios obtida como uma convoluo das
densidades conjuntas dos vetores dos efeitos e . Lembrando que, por denio, em Estatstica,
convoluo a distribuio de probabilidade da funo soma de duas variveis aleatrias.

3.2.3

Modelo CAR Multivariado (MVCAR)

O modelo CAR multivariado uma extenso multivariada do modelo CAR j apresentado.


uma tima ferramenta no estudo de morbidades, uma vez que permite modelar vrias doenas simultaneamente, alm de possibilitar a obteno dos coecientes de correlao entre estas,
ajudando a elucidar possveis relaes entre bitos decorrentes de duas ou mais doenas. Este resultado importante aos sistemas de assistncia em sade, que podem melhor direcionar recursos
para a preveno e tratamento de tais doenas, bem como identicar maneiras de combater fatores
de riscos relacionados ao ambiente.
Este modelo tem sido usado amplamente, e dentre os inmeros trabalhos da literatura que o
utilizam, podem ser citados Kramer e Williamson (2013), que utilizou o MVCAR (Multivariate
Conditional Autoregressive, em ingls) num modelo espacial bayesiano multivariado cujo interesse era compreender a ocorrncia e a relao entre a ocorrncia de partos prematuros e doenas
cardiovasculares em mulheres na Gergia. Carlin e Banerjee (2003) utilizaram o CAR multivariado para modelar dados multivariados da rea de anlise de sobrevivncia. Song et al. (2006)
utilizaram MVCAR para explicar o efeito espacial na modelagem multivariada de taxas de acidentes no Texas, EUA. Assuno e Krainski (2009) zeram uso do modelo na anlise de dados de
cncer, entre outros.

3.2

MODELOS CONDICIONAIS AUTORREGRESSIVOS (CAR)

22

Assim como nos modelos CAR univariados, a sua verso multivariada, que pode ser utilizada para modelar efeitos aleatrios, uma distribuio imprpria. No entanto, de acordo com
Xie e Carlin (2006), isso na maioria das vezes no visto como uma limitao para os bayesianos, uma vez que a distribuio a posteriori para geralmente prpria.
O modelo MVCAR proposto por Gelfand e Vounatsou (2003) para K variveis, utilizado
como distribuio a priori para os efeitos espaciais no caso multivariado, para o modelo

Yik |Rik Poisson (Eik Rik ) ,




Rik = exp k + xik k + ik , i = 1, ..., n,


k = 1, ..., K,

especica uma matriz n K de efeitos aleatrios , denida com a restrio de que os efeitos
espaciais, separados em efeitos no espaciais e espacialmente estruturados especicada como

NnK (00, H 1 ),
(D
D W
W )]1 , com denotando o produto de Kronecker, D uma matriz n n
em que H 1 = [
 
diagonal cujos elementos so o nmero de vizinhos da i-sima regio, e W = wi j a matriz
de adjacncias, com wii = 0 e wi j = 1 se as reas i e j so adjacentes, (isto , i j), e 0 em
outros casos. Aqui, uma matriz K K positiva-denida de precises no espaciais, denindo
a relao entre as doenas, e um parmetro comum de autocorrelao. Isso denotado como o
modelo MVCAR (, ). Segundo Lawson (2008), este modelo pode ser estendido para permitir a
separao da autocorrelao para cada doena, fazendo

NnK (00, H 2 ),


 1
I nn )Q
Q
D lW ), l = 1, ..., L,
em que H 2 = Q(
e Q = diag(R1 , ..., RL ), sendo Rl = chol(D
na qual chol() denota a decomposio de Cholesky.
Suponha que deseja-se utilizar o MVCAR como distribuio a priori para os efeitos aleatrios
de um modelo semelhante ao especicado em (2.2), mas sem considerar a presena de covariveis,
de modo que os riscos relativos sejam tais que

log (Rik ) = k + ik + ik ,
em que

NM (00, ) ,

(3.17)

3.2

MODELOS CONDICIONAIS AUTORREGRESSIVOS (CAR)

23

MVCAR (1, ) .
O primeiro efeito, que no possui estrutura espacial, tem mdia igual a zero e matriz de covarincias diagonal = diag (1 , ..., K ). Para o segundo termo assumido um modelo CAR intrnseco
R, n) com matriz
usando a distribuio MVCAR. Para assume-se distribuio a priori Wishart(R
de parmetros R . A matriz de covarincias obtida, ento, como 1 . Outras suposies so feitas
acerca dos parmetros do modelo, as quais so distribuio a priori Wishart para as precises dos
1 ), e Uniforme (at) para os termos de intercepto k . No Openefeitos no correlacionados (
BUGS a distribuio MVCAR est denida, permitindo ao usurio utiliz-la como priori para os
efeitos aleatrios de um modelo multivariado similar ao apresentado. Neste trabalho, utiliza-se o
MVCAR como distribuio a priori para os efeitos aleatrios de um modelo para os bitos decorrentes de cinco tipos de cncer de maior importncia quantitativa no estado de So Paulo, para o
perodo de 1998 a 2010, cujos resultados constam no Captulo 6.

Captulo 4
Mtodos Computacionais Intensivos
Como j mencionado no decorrer deste texto, na maioria dos casos, a distribuio a posteriori
do vetor de parmetros do modelo no pode ser obtida por meio de um mtodo analtico devido
sua complexidade. Nessas situaes, necessrio apelar para mtodos numricos que, graas
evoluo computacional do ltimo sculo, se tornaram facilmente disponveis, implementveis, e
de obteno de resultados em um perodo de tempo relativamente curto. O Mtodo de Monte Carlo
via Cadeias de Markov (MCMC), especicamente, o amostrador de Gibbs, est implementado no
software OpenBUGS, utilizado neste trabalho.
Os mtodos de MCMC so uma alternativa aos mtodos no iterativos em problemas complexos (nos mtodos no iterativos, os valores so gerados de forma independente e no h preocupao com a convergncia do algoritmo, bastando que o tamanho da amostra seja sucientemente
grande). A ideia obter uma amostra da distribuio a posteriori e calcular estimativas amostrais
de caractersticas de interesse desta distribuio. A diferena que, neste caso, so usadas tcnicas
de simulao iterativa, baseadas em cadeias de Markov, implicando em que os valores gerados
sejam dependentes, diferente do que acontece nos mtodos no iterativos . Considere a seguir uma
breve descrio sobre dois dos mtodos de MCMC.

4.1

Algoritmo de Metropolis-Hastings

Seja = (1 , ..., d ) o vetor (ou coleo) de parmetros desconhecidos a estimar no modelo.


A ideia bsica simular um passeio aleatrio no espao de que converge para uma distribuio
estacionria - a distribuio de interesse. Seguindo este princpio, os algoritmos de MetropolisHastings (Metropolis et al. (1953), Hastings (1970)) utilizam uma distribuio auxiliar para a
gerao de uma cadeia de pontos, que so aceitos ou rejeitados com uma determinada probabilidade. Isso garante que a cadeia convirja para uma distribuio de equilbrio, que neste caso a
distribuio a posteriori de , sobre a qual se tem interesse.


A partir de uma distribuio proposta q .| j , suponha que a cadeia esteja no estado j , e que
um valor  gerado a partir dela. Este novo valor aceito com probabilidade

24

4.3

AMOSTRADOR DE GIBBS

25



( )q( j | )
, = min 1,
,
( j )q( | j )


em que () denota a densidade a posteriori de .


Finalmente, o algoritmo de Metropolis-Hastings pode ser especicado pelos seguintes passos:
1. Inicialize o contador de iteraes t = 0 e especique um valor inicial 0 ;

2. Gere um novo valor  da distribuio q(.|
  );
3. Calcule a probabilidade de aceitao ,  e gere u U (0, 1);
  
4. Se u ,  , ento aceite o novo valor e faa t+1 =  , caso contrrio, rejeite e faa


t+1 = ;
5. Incremente o contador de t para t + 1 e volte ao passo 2.
O algoritmo deve ser executado at a convergncia da cadeia. Feito isso, a cadeia resultante,
isto , os pontos gerados, podem ser considerados como uma amostra da distribuio a posteriori.

4.2

Amostrador de Gibbs

O amostrador de Gibbs, popularizado dentro de um contexto de reconstruo de imagens


(Geman e Geman (1984)), um caso especial do algoritmo de Metropolis-Hastings, mas com
duas particularidades: todos os pontos gerados so aceitos, e so gerados a partir das distribuies
condicionais completas (i |i ), onde i = {1 , ..., i1 , i+1 , ..., d }. Essa distribuio pode
ser obtida a partir da distribuio conjunta, fazendo

(i |i ) = 

()
.
() di

Sabe-se que, na maioria das situaes, gerar uma amostra diretamente de () pode ser difcil
ou mesmo impossvel. Felizmente, se as distribuies condicionais completas so conhecidas,
ento pode-se utilizar o amostrador de Gibbs, denido pelo seguinte esquema:
0
;
1. Faa t = 0, i = 1, e especique um valor inicial



t+1
2. Gere um novo valor i da distribuio i |i , que a densidade condicional completa
de i ;
3. Se i < d faa i = i + 1 e retorne ao passo 3;
4. Incremente o contador de t para t + 1 e volte ao passo 2.
Pode-se mostrar que aps a convergncia, os valores resultantes formam uma amostra de ().

4.4

DIAGNSTICO DE CONVERGNCIA

4.3

26

Diagnstico de Convergncia

Como visto, a partir da convergncia, os pontos gerados da cadeia resultante passam a ser encarados como pontos gerados da distribuio a posteriori de interesse. Assim, so necessrios alguns
cuidados para vericar a convergncia da cadeia. Primeiro, existe um perodo de aquecimento para
a cadeia, denominado burn-in. Nesse perodo, a cadeia ainda no atingiu convergncia, e, portanto,
os pontos gerados at ento devem ser descartados. Para saber quantas iteraes so necessrias
para o perodo de aquecimento, utilizam-se diagnsticos de convergncia, tais como o de Raftery
Lewis e Heidelberger Welch. Alm disso, muitas vezes possvel vericar a indicao de convergncia por meio de uma inspeo visual dos histogramas e densidades Kernel da estimativa da
distribuio a posteriori do parmetro de interesse, ainda assim altamente recomendvel que se
utilize pelo menos um mtodo de diagnstico.
Outra questo importante a vericao de uma possvel autocorrelao na cadeia, nos pontos
obtidos a partir do burn-in, pois cadeias autocorrelacionadas podem levar a subestimao da varincia do parmetro. Para corrigir esse problema, observamos o lag da autocorrelao e, a partir
deste, selecionamos um ponto a cada k iteraes para fazer parte da cadeia. Na prxima Seo,
considerado um pouco sobre o OpenBUGS, que utiliza os algoritmos de Metropolis-Hastings e o
Amostrador de Gibbs para a obteno de amostras da distribuio a posteriori do vetor de parmetros de interesse, e permite monitorao da convergncia atravs dos mtodos citados, a partir do
uso do pacote CODA.

4.4

OpenBUGS e CODA

BUGS (Bayesian Using Gibbs Sampler) um pacote que permite a realizao de inferncia
Bayesiana usando o amostrador de Gibbs. O usurio especica um modelo estatstico de complexidade arbitrria, simplesmente expondo as relaes entre as variveis relacionadas. O software
inclui um sistema especialista que determina um algoritmo adequado de MCMC para analisar
o modelo especicado. Em seguida, o usurio pode controlar a execuo do mecanismo e livre
para escolher entre uma vasta gama de tipos de sada. Considere um pouco sobre sua histria e
uma de suas ferramentas mais teis - o pacote CODA.

4.4.1

Histria do projeto BUGS

O projeto BUGS foi desenvolvido a partir de um trabalho sobre inteligncia articial em 1980.
A ideia para seu desenvolvimento surgiu a partir da compreenso de que os mtodos de simulao
poderiam ser usados para inferncia, e do reconhecimento de que a programao orientada a objetos poderia ser explorada para generalizar o algoritmo de simulao. O programa BUGS iniciou-se
em 1989 tendo como chefe programador Andrew Thomas, trabalhando com David Spiegelhalter
para a Unidade de Bioestatstica da MRC (Medical Research Council, em ingls, ou Conselho
de Pesquisa Mdica), em Cambridge. Coincidentemente, ao mesmo tempo, o relevante trabalho

4.4

OPENBUGS E CODA

27

de Gelfand e Smith (1990) estava sendo realizado em Nottingham, Reino Unido, mas de forma
totalmente diferente e de um ponto de partida bem diferente.
Inicialmente, o BUGS s usou algoritmos especializados para a rea do ambiente no qual se
desenvolveu. Em 1996, no entanto, o projeto mudou-se para o Imperial College, Londres (liderado
por Nicky Best, que j estava envolvida no projeto h alguns anos em Cambridge) e a capacidade
do software passou a ser expandida. Em particular, Jon Wakeeld e Dave Lunn aderiram ao projeto
nessa fase, para trabalhar na implementao de modelos no-lineares, e o desenvolvimento de uma
verso do software para Windows ganhou impulso. Nos anos seguintes, uma srie de outros tipos
de modelos desaadores foram abordados, incluindo modelos espaciais, modelos dinmicos (envolvendo equaes diferenciais) e os modelos de dimenso varivel (montados usando o algoritmo
reversible jump).
Em 2004, Andrew Thomas mudou-se para Helsinki, Finlndia, para comear a trabalhar no
OpenBUGS, enquanto Dave Lunn e Nicky Best permaneceram no Imperial College continuando
na manuteno e desenvolvimento do WinBUGS. Com isso, os dois pacotes divergiram um pouco,
cada um com suas prprias caractersticas avanadas no disponveis no outro. No entanto, agora
que o OpenBUGS progrediu de experimental para um pacote estvel e convel, todos os esforos
de desenvolvimento esto concentrados sobre ele.

4.4.2

Diferenas entre WinBUGS e OpenBUGS

Ao longo do tempo foram aparecendo inmeras pequenas diferenas entre o OpenBUGS e o


WinBUGS medida em que foram ampliadas as suas possibilidades de aplicaes, como a incluso de novas distribuies ou a correo no modo de leitura de outras j existentes. Uma diferena
fundamental entre os software, porm, a maneira em que o sistema seleciona o algoritmo de
atualizao a ser usado para a classe de distribuio condicional completa de cada n. Enquanto o
WinBUGS dene um algoritmo para cada classe possvel, o OpenBUGS permite ao usurio escolher entre as possibilidades disponveis em cada caso, permitindo, assim, uma maior exibilidade
e extensibilidade em aplicaes. O usurio pode selecionar o atualizador a ser utilizado para cada
n logo aps a compilao.
Outro atrativo na diferena entre os programas que o OpenBUGS pode ser executado de
uma forma totalmente interativa a partir do R, atravs do pacote Brugs do R, permitindo maior
manipulao e anlise dos resultados obtidos pelo BUGS. Alm disso, no mdulo para anlise de
dados geogrcos do programa, o GeoBUGS, a consistncia do comprimento do vetor de pesos
para o CAR com a dimenso dos dados agora vericada, o que antes seria um problema no
WinBUGS, que executaria o cdigo do modelo com sucesso mesmo se o vetor de pesos fosse mais
longo.

4.4

OPENBUGS E CODA

4.4.3

28

CODA

CODA (Convergence Diagnostic and Output Analysis) um software direcionado para a anlise de convergncia das cadeias geradas via MCMC. orientado por meio de funes na linguagem do S-Plus (mesma utilizada pelo R), e serve como um processador dos resultados de MCMC
do BUGS. Nele esto implementados os principais diagnsticos de convergncia, como os j citados Geweke e Gelman e Rubin, alm dos de Raftery Lewis e Heidelberger Welch.
Tambm pode ser usado em conjunto com a sada do MCMC a partir do pacote CODA do
R atravs do comando read.openbugs, que l os resultados do MCMC no formato do CODA
produzido pelo OpenBUGS. A partir disso, o usurio se depara com uma grande facilidade em
utilizar os diagnsticos de convergncia citados na Seo anterior, que j esto includos no pacote,
bem como na produo de uma variedade de grcos das amostras a posteriori de parmetros
de interesse do modelo, permitindo uma anlise da trajetria da cadeia, e consequentemente, da
convergncia do algoritmo.

Captulo 5
Anlise Exploratria dos dados de
aplicao: bitos por cncer
Nas ltimas dcadas, o aumento do cncer se deu de tal modo que converteu-se em um evidente problema de sade pblica mundial. A Organizao Mundial da Sade (OMS) estima que,
em 2030, haver 27 milhes de casos incidentes de cncer no mundo, 17 milhes de mortes, e 75
milhes de pessoas vivas com a doena. No Brasil, o problema ganha relevncia pelo seu perl
epidemiolgico. Segundo o Instituto Nacional do Cncer (INCA), ao m de 2012 foram registrados cerca 518.000 casos novos de cncer no pas e mais de 50.000 bitos. O Instituto ressalta ainda
que, a preveno e o controle do cncer precisam adquirir o mesmo foco e a mesma ateno que a
rea de servios assistenciais, pois, quando o nmero de casos novos aumentar rapidamente, no
haver recursos sucientes para suprir as necessidades de diagnstico, tratamento e acompanhamento. Dessa forma, as consequncias podero ser devastadoras nos aspectos social e econmico.
O cncer pode se tornar um grande obstculo para o desenvolvimento socioeconmico de pases emergentes como o Brasil. Em face dimenso do problema, prossionais de diversas reas
se empenham tanto em sugerir formas de tratamento e diagnstico, como em fornecer informao de qualidade para subsidiar o conhecimento sobre a ocorrncia da doena. No que tange a
produzir informao, a Estatstica pode valer-se de ferramentas poderosas para que as entidades
de sade pblica possam estabelecer prioridades e alocar recursos de forma direcionada, modicando positivamente esse cenrio na populao brasileira. Como ponto de partida, o Ministrio
da Sade fornece, atravs do Sistema de Informaes sobre Mortalidade (SIM) (DATASUS (Visitada em junho/2013)), bases de dados geradas pelos Registros de Cncer de Base Populacional
(RCBP). Esses so disponibilizados como dados de rea e podem ser bitos na pgina do Datasus
(www.datasus.gov.br) segundo critrios denidos pelo usurio. Neste trabalho so considerados
dados para as microrregies do estado de So Paulo, para o perodo de 1998 a 2010, segundo local
de residncia, para os tipos de cncer de maior importncia quantitativa. Neste Captulo, a anlise
para os dados se d com mtodos exploratrios, buscando compreender as principais caractersticas da mortalidade decorrente dessas doenas no estado.

29

5.1

ANLISE EXPLORATRIA DE DADOS

5.1

30

Anlise Exploratria de dados

No meio Estatstico um fato de comum aceitao que, o primeiro passo no conhecimento


de um conjunto de dados, aps a sua coleta, a anlise exploratria destes. Esta tcnica, lanada
em 1977 por John Wilder Tukey em seu livro Exploratory Data Analysis (sigla EDA, em ingls),
emprega grande variedade de tcnicas grcas e quantitativas, visando obter informaes sobre a
estrutura dos dados, descobrir variveis importantes em explicar sua variabilidade e tendncias,
deteco de comportamentos anmalos do fenmeno (outliers), testar se so vlidas hipteses
assumidas, escolha de modelos ou determinao do nmero de variveis a se utilizar.
Quando os dados so georreferenciados, porm, explorar os dados vai alm de analisar grcos
e medidas quantitativas, mas inclui principalmente o mapeamento do fenmeno.
Quando o objeto de estudo uma doena, tal mapeamento consiste em descrever a distribuio
espacial, com o objetivo de avaliar a variao geogrca do processo, para identicar fatores de
risco, levantar hipteses sobre possveis fatores etiolgicos, e ainda, sugerir a escolha de modelos
apropriados para uma compreenso mais profunda da varivel de interesse.
Este mapeamento informativo medida que o mapa produzido estiver livre do rudo gerado
pela utuao aleatria de pequenas populaes, ou de diferenas na estrutura demogrca da
regio.
A seguir esto dispostos os resultados de uma breve anlise exploratria para cada uma das
doenas em estudo, que incluem o mapeamento das SMRs para cada doena em cada ano do
perodo em estudo, e uma anlise de agrupamentos dessas razes para melhor compreender grupos
de microrregies com comportamento de bitos semelhantes no decorrer da rea em estudo. Num
primeiro instante, os dados foram agrupados para todo o perodo, a m de fornecer uma ideia geral
sobre a mortalidade, mas o comportamento no decorrer do tempo tambm explorado em busca de
possveis tendncias. O clculo das SMRs segue o procedimento descrito na Seo 2.1, bem como
o clculo dos valores esperados. Estes foram calculados atravs de um programa elaborado no
R que coleta os dados diretamente do DATASUS, calcula os valores e os armazena em planilhas
devidamente identicadas pelo usurio, diminuindo, assim, o risco de erro humano facilmente
presente quando se trabalha apenas com planilhas. No Apndice E encontra-se o mapa do estado
de So Paulo, segundo as microrregies denidas pelo IBGE, para consulta do leitor quanto aos
resultados seguintes.

5.1.1

Cncer de traqueia, brnquios e pulmo

Sobre a doena: De acordo com o INCA (Instituto Nacional do Cncer), este o mais comum
de todos os tumores malignos, apresentando aumento de 2% por ano na sua incidncia mundial.
Em 90% dos casos diagnosticados, o cncer de pulmo est associado ao consumo de derivados
de tabaco. No Brasil, foi responsvel por 20.622 mortes em 2008, sendo o tipo que mais fez
vtimas. Altamente letal, a sobrevida mdia cumulativa total em cinco anos varia entre 13 e 21%
em pases desenvolvidos e entre 7 e 10% nos pases em desenvolvimento. No m do sculo XX, o

5.1

ANLISE EXPLORATRIA DE DADOS

31

cncer de pulmo se tornou uma das principais causas de morte evitveis. Alm disso, evidncias
na literatura mostram que pessoas que tm cncer de pulmo apresentam risco aumentado para
o aparecimento de outros cnceres e que familiares primrios de pessoas que tiveram cncer de
pulmo apresentam risco levemente aumentado para o desenvolvimento dessa doena. Entretanto,
ainda difcil mesmo para a rea mdica estabelecer o quanto desse maior risco decorre de fatores
hereditrios e quanto por conta do hbito de fumar tanto ativa como passivamente.
A Figura 5.1 apresenta os 5 grupos de microrregies resultantes da anlise de agrupamentos
feita no software Minitab com base nas SMRs para os 13 anos do perodo. Para a utilizao da
tcnica, optou-se por escolher como medida de distncia a distncia euclidiana, e como procedimento de aglomerao o mtodo de Ward. Tambm chamado de Mnima Varincia, este mtodo
utiliza uma distncia que leva em conta a diferena dos tamanhos dos conglomerados que esto sendo comparados e, com isso, produz grupos mais homogneos e com aproximadamente o
mesmo nmero de elementos.
evidente que, a microrregio de Barretos, por conter um hospital de referncia no tratamento
de cncer, comportou-se como outlier. Isso se explica pelo fato de que, embora o clculo das SMRs
leve em conta a estrutura demogrca da microrregio, a quantidade de bitos registrados no local
no condiz apenas com a populao residente, mas tambm acaba incluindo a populao que migra
para este local, e reside temporariamente em abrigos fornecidos pelo prprio hospital, mas que, ao
falecer em meio ao tratamento, incrementa o registro de bitos por residncia da localidade.
No mapa da Figura 5.2 possvel visualizar a distribuio geogrca dos grupos formados.
Para compreender as particularidades de cada grupo, observe os boxplots da Figura 5.3.
Os grupos predominantes no mapa foram o grupo 1 (vermelho) e o grupo 2 (verde). O grupo
2 refere-se s microrregies que apresentaram baixos valores para a SMR em todo o perodo,
geralmente abaixo de 1, indicando que a mortalidade em tais regies foi abaixo do que o esperado.
No caso do grupo 1, os valores foram baixos no comeo do perodo, mas sofreram crescimento de
2002 em diante, chegando a ter mortalidade at 3 vezes maior do que o esperado.
Os grupos 3 (azul) e 4 (amarelo) se concentraram no centro e centro-norte da regio. Nota-se
que o grupo 3, cujos valores para a SMR foram maiores que 1 em praticamente todo o perodo,
encontra-se prximo ao grupo 5 (Barretos), que pode ser visualizado na Figura 4. O grupo 4,
por outro lado, apresentou decrscimo dos valores no decorrer do perodo, alm de uma aparente
tendncia de 4 em 4 anos.
Com respeito microrregio de Barretos (Figura5.4), vlido chamar a ateno de que de
2008 em diante os valores se mostraram mais baixos, muito provavelmente devido consolidao
do sistema de informao.
Pode-se chamar a ateno para a importncia de analisar as microrregies segundo grupos
especcos atravs dos boxplots da Figura 5.5. Observe que ca difcil detectar padres ao olhar
diretamente para o comportamento geral das SMRs. Nesses boxplots, as SMRs parecem apresentar
variao suave no decorrer do perodo, enquanto que, atravs da anlise de agrupamentos, pode
ser visto que isso no verdade para determinados grupos de microrregies.

5.1

ANLISE EXPLORATRIA DE DADOS

32

Figura 5.1: Dendrogramas do agrupamento das SMRs referentes aos bitos por cncer de traqueia, brnquios e pulmo de 1998 a 2010.

5.1

ANLISE EXPLORATRIA DE DADOS

33

Figura 5.2: Microrregies do estado de So Paulo segundo os grupos da anlise de agrupamentos das
SMRs referentes aos bitos por cncer de traqueia, brnquios e pulmo de 1998 a 2010.

Figura 5.3: Boxplots dos grupos da anlise de agrupamentos das SMRs referentes aos bitos por cncer
de traqueia, brnquios e pulmo de 1998 a 2010.

5.1

ANLISE EXPLORATRIA DE DADOS

34

Figura 5.4: Boxplots do grupo 5 (microrregio de Barretos) da anlise de agrupamentos das SMRs referentes aos bitos por cncer de traqueia, brnquios e pulmo de 1998 a 2010.

Figura 5.5: Boxplots da distribuio das SMRs em todas as microrregies do estado de So Paulo referentes
aos bitos por cncer de traqueia, brnquios e pulmo de 1998 a 2010.

Na Figura 5.6 pode ser observado o comportamento das SMRs nas microrregies em cada
ano do perodo. Note que a anlise de agrupamentos auxilia muito na compreenso de padres na
mortalidade ao longo do tempo, j que ca difcil observar tendncias ou mudanas apenas por
observao dos mapas para cada ano do perodo. Ainda assim, possvel notar que, na maior parte
do perodo, os baixos valores para a SMR se distriburam por todo o entorno do estado, enquanto
as altas taxas, quase sempre estiveram apenas no centro e norte de So Paulo.

5.1

ANLISE EXPLORATRIA DE DADOS

35

Figura 5.6: Razes de Mortalidade Padronizadas (SMRs) para a mortalidade por cncer de traqueia,
brnquios e pulmo nas microrregies do estado de So Paulo, de 1998 a 2010.

5.1

ANLISE EXPLORATRIA DE DADOS

5.1.2

36

Cncer feminino de mama

Sobre a doena: o cncer mais comum entre as mulheres, e o segundo tipo mais frequente
no mundo, correspondendo a 22% dos casos novos a cada ano. Por ser diagnosticado em estgios
avanados, pelo menos no Brasil, as taxas de mortalidade por cncer de mama continuam elevadas,
e, segundo o INCA, na populao mundial, a sobrevida mdia aps cinco anos de 61%.
Antes de passar para os resultados da anlise de agrupamentos, atente para o grco da Figura
5.7. Note que a linha demarcando o valor 1 para a SMR passa por todas as caixas, sendo que a
maioria delas tem sua maior parte abaixo desta, o que poderia levar erroneamente concluso
de que a mortalidade por esse cncer foi constante na regio de estudo, exceto pela presena de
vrios outliers, cuja interpretao s seria possvel atravs da observao dos mapas com as SMRs
para cada ano do perodo, relacionando referente outlier sua microrregio no mapa. Tal maneira
de analisar os dados seria tanto mais difcil quanto suscetvel a maiores erros de interpretao,
dicultando compreender o comportamento real do fenmeno na regio em estudo.

Figura 5.7: Boxplots da distribuio das SMRs em todas as microrregies do estado de So Paulo referentes
aos bitos por cncer feminino de mama, de 1998 a 2010.

A anlise de agrupamento das microrregies para este tipo de cncer resultou na formao de
grupos conforme o mapa da Figura 5.8. Na Figura 5.9 consta o respectivo dendrograma.
Analisando os boxplots das SMRs segundo os grupos ao longo do tempo para essa doena (Figura 5.10), possvel fazer algumas consideraes. O grupo 1 (vermelho) corresponde s microrregies cujo comportamento das SMRs oscilou no decorrer do perodo em estudo, mantendo-se,
porm, abaixo de 1 em sua maior parte. O grupo 2 (verde) comportou-se de maneira muito similar
ao mesmo na anlise para o cncer de traqueia, brnquios e pulmo. Com as menores SMRs, geralmente abaixo de 1, tal grupo registrou menos bitos do que o esperado para as microrregies que
o compem. Ressalta-se, ainda, uma evidente semelhana na distribuio espacial deste quando
comparado ao do cncer de traqueia, brnquios e pulmo.
O grupo 3 (azul), que distribuiu-se por todo o estado, apresentou os maiores valores para as

5.1

ANLISE EXPLORATRIA DE DADOS

37

Figura 5.8: Microrregies do estado de So Paulo segundo os grupos da anlise de agrupamentos das
SMRs referentes aos bitos por cncer feminino de mama, de 1998 a 2010.

Figura 5.9: Dendrogramas do agrupamento das SMRs referentes aos bitos por cncer feminino de mama
de 1998 a 2010.

SMRs, e uma aparente tendncia de 4 em 4 anos, sendo que 2002 a 2006 foi o perodo de pico
responsvel por este grupo ser o de mais altas SMRs (veja no mapa da Figura (5.12)). Nos demais
anos do perodo em estudo, as microrregies deste grupo tiveram SMR em torno de 1, caracterizando que os bitos registrados corresponderam ao esperado para a regio.

5.1

ANLISE EXPLORATRIA DE DADOS

38

Figura 5.10: Boxplots dos grupos da anlise de agrupamentos das SMRs referentes aos bitos por cncer
feminino de mama de 1998 a 2010.

O grupo 4 (amarelo) teve crescimento na mortalidade nos 3 primeiros anos do perodo. Em


seguida, sofreu queda nas SMRs, que cresceram lentamente, at se estabilizar em torno de 1 de
2008 a 2010. O grupo parece ter tendncia de comportamento de 5 em 5 anos.
O grupo 5 (microrregio de Barretos) (Figura 5.11), como de se esperar, registrou alto nmero
de mortes, atingindo o pico do perodo em 2004, ano em que o nmero de bitos chegou a ser 6
vezes maior que o esperado. Apesar disso, notvel que os valores tenham se tornado mais baixos
e sem grandes saltos ao m do perodo, que, como mencionado, pode se dever no s a uma queda
na mortalidade, mas tambm numa otimizao no sistema de informao que coleta os dados.
Ainda possvel vericar o comportamento das SMRs referente aos bitos por cncer de mama
para cada ano do perodo. A Figura 5.12 dispe os mapas.

5.1

ANLISE EXPLORATRIA DE DADOS

39

Figura 5.11: Boxplots do grupo 5 (microrregio de Barretos) da anlise de agrupamentos das SMRs referentes aos bitos por cncer feminino de mama de 1998 a 2010.

Apesar de ser possvel formar grupos bastante especcos para essa doena, ao atentar para o
mapa da Figura 5.8, fcil ver que, de modo geral, os grupos se distriburam de modo homogneo
pelo estado, sem a formao de reas com grandes aglomerados de microrregies pertencentes
a um mesmo grupo. Verica-se, portanto, grande variabilidade espacial para a mortalidade por
cncer de mama, talvez devido forte inuncia do fator hereditrio na manifestao dessa doena.
Um exame nos mapas da Figura 5.12 indica que a interpretao dos grupos formados na anlise
de agrupamentos parece razovel, j que o comportamento espacial das SMRs nos mapas, como
um todo, bastante semelhante ao dos grupos no mapa da Figura 5.8.

5.1

ANLISE EXPLORATRIA DE DADOS

40

Figura 5.12: Razes de Mortalidade Padronizadas (SMRs) para a mortalidade por cncer feminino de
mama nas microrregies do estado de So Paulo, de 1998 a 2010.

5.1

ANLISE EXPLORATRIA DE DADOS

5.1.3

41

Cncer de lbios, cavidade oral e faringe

Sobre a doena: A Classicao Estatstica Internacional de Doenas e Problemas Relacionados Sade - Dcima Reviso (CID-10) agrupa as neoplasias malignas nos lbios, cavidade oral
e faringe em uma nica categoria. Esta inclui os tumores malignos em toda glndula e tecido da
boca (exceto a pele do lbio), at a faringe. Segundo o INCA, os principais fatores de risco para o
cncer da cavidade oral so o tabagismo, o alcoolismo e as infeces pelo HPV (do ingls, human
papiloma virus, vrus do papiloma humano), sendo que o hbito de fumar e beber aumenta em 30
vezes o risco para o desenvolvimento deste tipo de cncer. O Instituto aponta que 42% dos bitos
por essa neoplasia se devem ao fumo, enquanto 16% ao alcoolismo. A deteco precoce por inspeo visual pode descobrir anormalidades pr-malignas do cncer da cavidade oral que, quando
diagnosticado precocemente, apresenta bom prognstico.
A Figura 5.13 leva a ateno novamente diculdade de se interpretar os valores das SMRs
na regio em estudo levando em conta todas as microrregies. Torna-se difcil vericar comportamentos especcos e, assim como no caso do cncer feminino de mama, o fato de a maior parte
das caixas car abaixo da linha demarcadora para SMR = 1 pode levar concluso de que os
bitos por essa doena foram menores do que o esperado na regio em estudo para o perodo considerado, quando, na realidade, isso no verdade, como mostraro os resultados da anlise de
agrupamento. A quantidade de outliers tambm diculta a identicao de padres.

Figura 5.13: Boxplots da distribuio das SMRs em todas as microrregies do estado de So Paulo referentes aos bitos por cncer de lbios, cavidade oral e faringe, de 1998 a 2010.

A distribuio espacial dos grupos de microrregies resultantes da anlise de agrupamentos


encontra-se na Figura 5.14.

5.1

ANLISE EXPLORATRIA DE DADOS

42

Figura 5.14: Microrregies do estado de So Paulo segundo os grupos da anlise de agrupamentos das
SMRs referentes aos bitos por cncer de lbios, cavidade oral e faringe, de 1998 a 2010.

Os dendrogramas da Figura 5.16 especicam as regies pertencentes a cada grupo, e a hierarquia na diviso de alguns deles pela anlise. O que se nota que, os grupos 3 (azul) e 4 (amarelo)
foram considerados semelhantes de alguma forma, e o grupo 5 (rosa) semelhante a ambos. O grupo
2 (verde) se destacou como o mais particular, alm de ser o mais volumoso.
Os boxplots da Figura 5.15 podem ajudar a elucidar o signicado de cada grupo.

Figura 5.15: Boxplots dos grupos da anlise de agrupamentos das SMRs referentes aos bitos por cncer
de lbios, cavidade oral e faringe, de 1998 a 2010.

O grupo 2 (verde), predominante no mapa, o que contm as microrregies com nmero de


bitos inferior ao esperado para praticamente todo o perodo em estudo. No mapa, observa-se que
tais microrregies esto por todo o estado. Ao grupo 1 (vermelho) pertencem as microrregies

5.1

ANLISE EXPLORATRIA DE DADOS

43

Figura 5.16: Dendrograma do agrupamento das SMRs referentes aos bitos por cncer de lbios, cavidade
oral e faringe, de 1998 a 2010.

5.1

ANLISE EXPLORATRIA DE DADOS

44

cujo nmero de bitos observados se mostrou prximo ao esperado, em quase todos os anos do
perodo, exceto pela presena de alguns outliers de microrregies que chegaram a ter at 5 vezes
mais mortes que o esperado para essa doena em algum momento.
O grupo 3 (azul) teve valores altos para a SMR, assim como os grupos 4 (amarelo) e 5 (rosa),
registrou mortalidades mais altas que o esperado, porm, decrescentes. Esses trs grupos possuem
poucas microrregies, o que talvez explique parte da alta variabilidade observada em alguns deles
(como no 4). Enquanto o grupo 3 teve mortalidade alta, porm decrescente, o grupo 4 teve altas
SMRs em todo o perodo, o que se justica uma vez que se verica que duas de suas microrregies - Barretos e Ja - possuem hospitais de referncia no tratamento de cncer. Com isso, recebe
destaque a microrregio de Ribeiro Preto, que se alocou num grupo de SMRs to altas. No mapa
da Figura 5.14 visvel a proximidade desses trs grupos, que, concentrados no centro e norte do
estado, indicam que essas regies so as mais afetadas em decorrncia da mortalidade por essa neoplasia. Os mapas da Figura 5.17 conrmam essa distribuio espacial. Observou-se esse mesmo
padro de ocorrncia das SMRs para o cncer de traqueias, brnquios e pulmo. E, levando em
conta que, de acordo com o SILVA et al. (2011), 90% dos casos de cncer de pulmo no Brasil so
decorrentes do tabagismo, esta varivel tambm deve ser importante em explicar parte dos bitos
por cncer de lbios, cavidade oral e faringe, e, portanto, a similaridade na distribuio espacial
dos riscos associados a tais doenas.

5.1

ANLISE EXPLORATRIA DE DADOS

45

Figura 5.17: Razes de Mortalidade Padronizadas (SMRs) para a mortalidade por cncer de lbios, cavidade oral e faringe nas microrregies do estado de So Paulo, de 1998 a 2010.

5.1

ANLISE EXPLORATRIA DE DADOS

5.1.4

46

Cncer de estmago

Sobre a doena: Tambm denominado cncer gstrico, os tumores do estmago tem seu pico
de incidncia na populao masculina, por volta dos 70 anos. De acordo com o INCA, cerca de
65% dos pacientes diagnosticados com cncer de estmago tm mais de 50 anos. No Brasil, esses
tumores aparecem em terceiro lugar na incidncia entre homens e em quinto, entre as mulheres. A
nvel mundial, o maior nmero de casos ocorre no Japo, onde so encontrados 780 doentes por
100.000 habitantes. Congura-se como a segunda causa de morte por cncer no mundo, sendo os
mais afetados pases em desenvolvimento. Apesar disso, as taxas de incidncia tem decrescido na
maioria dos pases. O INCA assegura que, boa parte disso se deve ao aumento do uso de refrigeradores para uma melhor conservao alimentar, aliado a modicaes no hbito alimentar da
populao (aumento da ingesto de frutas, legumes e verduras frescas). Essa mudana no padro
alimentar, junto com melhorias no saneamento bsico, tambm explica a reduo na prevalncia
de infeces pela Helicobacter pylori (H. pylori), responsvel por 63% dos casos de cncer gstrico. O cncer do estmago um tipo de tumor que no possui um bom prognstico, apresentando
sobrevida relativa considerada baixa, de apenas cinco anos.
Na Figura 5.18 esto dispostos os boxplots das SMRs referentes aos bitos por cncer de
estmago no estado de So Paulo, para cada ano do perodo em estudo. Observe que o nmero de
bitos por essa neoplasia chegou a ser 4 vezes maior que o esperado em algumas microrregies. A
elevada quantidade de outliers indica a existncia de muitas microrregies com alta mortalidade.

Figura 5.18: Boxplots da distribuio das SMRs em todas as microrregies do estado de So Paulo referentes aos bitos por cncer de estmago, de 1998 a 2010.

No mapa da Figura 5.20, notvel a predominncia dos grupos 1 (vermelho) e 3 (azul), e,


atentando a seus respectivos boxplots na Figura 5.21 isso se torna compreensvel, j que eles tem
comportamentos bastante semelhantes, a no ser pela locao das SMRs, que, no primeiro grupo
concentrou-se em torno de 1, enquanto que no terceiro, caram abaixo. Isso revela que a maior
parte das microrregies do estado, para a maior parte do perodo em estudo, tiveram mortalidade
compatvel ou abaixo do esperado.

5.1

ANLISE EXPLORATRIA DE DADOS

47

Figura 5.19: Dendrograma do agrupamento das SMRs referentes aos bitos por cncer de estmago, de
1998 a 2010.

5.1

ANLISE EXPLORATRIA DE DADOS

48

No grupo 2 (verde) foram alocadas as microrregies com os maiores valores para a SMR,
geralmente com maior nmero de bitos do que o esperado para sua estrutura demogrca. Ao
observar o mapa, vemos que essas microrregies se distribuem sem nenhum padro aparente,
tal qual as do grupo 4 (amarelo), com grande variabilidade nas SMRs e quedas ou crescimentos
bruscos em seus valores no decorrer do perodo.

Figura 5.20: Microrregies do estado de So Paulo segundo os grupos da anlise de agrupamentos das
SMRs referentes aos bitos por cncer de estmago, de 1998 a 2010.

Figura 5.21: Boxplots dos grupos da anlise de agrupamentos das SMRs referentes aos bitos por cncer
de estmago, de 1998 a 2010.

5.1

ANLISE EXPLORATRIA DE DADOS

49

Tambm possvel acompanhar as SMRs para Barretos, dispostas nos boxplots da seguinte
gura. Os valores altos no surpreendem, mas a semelhana com os respectivos boxplots para as
demais doenas, em que se observa queda e estabilidade nas SMRs para o m do perodo, aponta
para uma melhoria no sistema de coleta de dados.

Figura 5.22: Boxplots dos grupos da anlise de agrupamentos das SMRs referentes aos bitos por cncer
de estmago, de 1998 a 2010.

Na sequncia, os mapas individuais para cada ano do perodo revelam as particularidades de


cada um deles na Figura 5.23. Novamente, as regies centro e norte aparecem com destaque para
altos valores da razo de mortalidade padronizada, mesmo que de maneira suave, o que talvez
explique isso no ter cado explcito na anlise de agrupamentos.
Como a anlise exploratria neste trabalho se concentra nos valores para as SMRs, importante lembrar que altos valores para essa estimativa no necessariamente esto associados a altos
valores absolutos de bitos. Assim, uma microrregio que apresentou um nmero absoluto de bitos menor do que outra, pode ter um valor para a SMR maior. Isso acontece, por exemplo, em
regies onde a estrutura da populao majoritariamente masculina e/ou idosa. J foi citado que
reas com tais caractersticas possuem maior incidncia de cncer, assim como isto tambm se d
em populaes com maior densidade demogrca, por motivos bvios. No entanto, neste caso, o
que est sendo considerado a busca da resposta seguinte pergunta: Esto ocorrendo mais bitos
nessa populao do que o esperado, levando em conta sua estrutura demogrca? Se a resposta
for sim, ento cabe s autoridades responsveis pela sade pblica implementar medidas mais ecientes de diagnstico, preveno e tratamento dessas doenas, alm de prosseguir investigando
fatores etiolgicos que possam ser evitveis ou reduzidos. Por outro lado, se a resposta for no,
isso quer dizer que os bitos esto ocorrendo dentro do que esperado para a estrutura demogrca da microrregio.

5.1

ANLISE EXPLORATRIA DE DADOS

50

Figura 5.23: Razes de Mortalidade Padronizadas (SMRs) para a mortalidade por cncer de estmago nas
microrregies do estado de So Paulo, de 1998 a 2010.

5.1

ANLISE EXPLORATRIA DE DADOS

5.1.5

51

Cncer de clon

Sobre a doena: O Instituto Nacional do Cncer classica o cncer de clon como o terceiro
tipo de cncer mais comum entre os homens, e o segundo para as mulheres, com 60% dos casos
localizados em regies mais desenvolvidas. Os padres geogrcos so bem semelhantes em relao ao sexo, embora o masculino apresente maior incidncia na maioria das populaes. Essa
neoplasia considerada de bom prognstico se a doena for diagnosticada em estgio inicial. Seu
desenvolvimento, assim como o de vrias formas comuns de cncer resultado da interao entre
fatores hereditrios e ambientais, sendo que, deste ltimo, o mais notvel a dieta. O consumo
excessivo de carne vermelha, embutidos e bebidas alcolicas, o tabagismo e distrbios de peso
favorecem o desenvolvimento dessa doena. Mas os fatores de risco mais relevantes so a histria
familiar e a predisposio gentica ao desenvolvimento de doenas crnicas do intestino. A idade
tambm considerada um fator de risco, uma vez que tanto a incidncia como a mortalidade aumentam com a idade. A histria natural dessa neoplasia propicia condies ideais sua deteco
precoce. A pesquisa de sangue oculto nas fezes e mtodos endoscpicos so considerados meios
de deteco precoce ecientes para esse cncer, pois so capazes de diagnosticar plipos adenomatosos colorretais (precursores do cncer do clon e reto), bem como tumores em estgios bem
iniciais. Mas, mesmo em pases com maiores recursos, a relao custo-benefcio em investimentos para estratgias apropriadas de preveno e deteco precoce do cncer do clon e reto tem
impossibilitado a implantao de rastreamento populacional.
Iniciando a anlise para os bitos por essa doena no estado de So Paulo, considere a Figura
5.24 com informao de todas as microrregies, para cada ano do perodo de 1998 a 2010. Com
base nessa gura, pode-se dizer que as microrregies tiveram nmero de bitos por cncer de clon bem prximo do esperado, sendo 1998 a 2001 o sub-perodo com os menores, mas ao mesmo
tempo tambm os maiores, nmeros de mortes registradas, devido a quantidade de outliers, que
continua sendo um problema na anlise deste grco.

Figura 5.24: Boxplots da distribuio das SMRs em todas as microrregies do estado de So Paulo referentes aos bitos por cncer de clon, de 1998 a 2010.

5.1

ANLISE EXPLORATRIA DE DADOS

52

De acordo com as guras 5.26 e 5.27, os grupos 2 (verde) e 4 (amarelo) foram os que tiveram
as maiores SMRs, atentando para que, no grupo 2, apesar disso, as microrregies tiveram SMR
prxima de 1 na maior parte do perodo. J no grupo 4, isso no aconteceu, uma vez que a varincia
dessas razes nas microrregies deste grupo se mostrou-se alta, fazendo com que essa distribuio
oscilasse em boa parte do incio do perodo em diante. Esses grupos apareceram notoriamente no
centro e norte do estado, regies de maior risco, em geral, para a marioria dos cnceres considerados neste trabalho. Os grupos 1 (vermelho) e 3 (azul) tiveram as menores SMRs, entretanto,
vlido ressaltar o comportamento temporal crescente dessas razes no grupo 3, que visivelmente
sofreu mudanas nas SMRs em sub-perodos de 4 ou 5 anos.
A microrregio de Barretos (Figura 5.29) se comportou novamente como um caso anmalo,
porm, com decrescimento evidente nas razes de mortalidade padronizadas.
Nos mapas individuais das SMRs para cada ano do perodo, pode-se conrmar as concluses
tiradas com base na anlise de agrupamentos. Note que os mapas foram cando mais escuros no
decorrer do perodo, e aparentemente mais preenchidos, ou seja, com menos microrregies com
pequenas SMRs e mais regies com altas SMRs. Ao comparar esses mapas com o mapa do agrupamento na Figura 5.26, possvel identicar que isso acontece devido mudanas principalmente
nas microrregies pertencentes aos grupos 2 (verde) e 3 (azul), cujo comportamento temporal,
como j mencionado, bem evidente em seu boxplot da Figura 5.27.

Figura 5.25: Dendrograma do agrupamento das SMRs referentes aos bitos por cncer de clon, de 1998
a 2010.

5.1

ANLISE EXPLORATRIA DE DADOS

53

Figura 5.26: Microrregies do estado de So Paulo segundo os grupos da anlise de agrupamentos das
SMRs referentes aos bitos por cncer de clon, de 1998 a 2010.

Figura 5.27: Boxplots dos grupos da anlise de agrupamentos das SMRs referentes aos bitos por cncer
de clon, de 1998 a 2010.

5.1

ANLISE EXPLORATRIA DE DADOS

54

Figura 5.28: Razes de Mortalidade Padronizadas (SMRs) para a mortalidade por cncer de clon nas
microrregies do estado de So Paulo, de 1998 a 2010.

5.2

RESUMO DA ANLISE EXPLORATRIA

55

Figura 5.29: Boxplots dos grupos da anlise de agrupamentos das SMRs referentes aos bitos por cncer
de clon, de 1998 a 2010.

5.2

Resumo da Anlise Exploratria

Embora no seja conclusiva, atravs do que fora apresentado nas sees anteriores, ca evidente que a anlise exploratria contribui muito para um conhecimento prvio dos dados. E, resumindo os pontos mais importantes da anlise feita, conclui-se o seguinte para cada doena:
Cncer de traqueia, brnquios e pulmo
Os altos valores para as SMRs se concentraram no centro e norte do estado. Destaque pode
ser dado ao grupo azul da anlise de agrupamentos, em que chamam ateno as microrregies de Araraquara, So Carlos, Jaboticabal, Catanduva, So Joaquim da Barra e Ituverava.
A exceo a microrregio de Ja, que possui altas taxas devido a conter um hospital de
referncia.
Cncer feminino de mama
Esse tipo de doena manifestou maior aleatoriedade na distribuio espacial das razes de
mortalidade, de modo que a interpretao da ocorrncia dos bitos nas microrregies no
se mostrou to clara quanto para a doena anterior. Ainda assim, podem ser destacadas as
microrregies do grupo azul, para o sub-perodo de 2002 a 2005. Microrregies com altos
valores para os bitos foram Araatuba, So Jos do Rio Preto, Assis e Marlia. Tambm se
destacaram nos mapas duas faixas de microrregies, uma que vai de So Joaquim da Barra
at Sorocaba, e outra de Santos a Guaratinguet, que se localizam, respectivamente, do norte
para o centro, e no leste do estado.
Cncer de lbios cavidade oral e faringe
A visualizao da ocorrncia de bitos importantes nesta doena pde ser melhor observada
atravs do mapa da SMR para o ano de 2010, pois as razes de mortalidade encontram-se

5.2

RESUMO DA ANLISE EXPLORATRIA

56

mais suaves neste mapa e resumem bem a informao produzida pela anlise de agrupamentos. Numa viso geral, o grupo azul recebe destaque pelas ocorrncias dos bitos entre 1998
e 2001, na faixa de microrregies que inclui Adamantina, Birigui, Auriama e Nhandeara,
que cam no oeste do estado. Outra regio de microrregies que se destacaram foi a que se
localiza no centro-norte da regio, e vai de Barretos at Ja, passando por Lins.
Cncer de estmago
Recebem destaque neste tipo de doena as microrregies do grupo verde: Registro, So Carlos, Marlia, Fernandpolis, Catanduva e So Joaquim da Barra, que, embora aparentem ter
uma distribuio espacial aleatria, se alocaram adjacentes ou prximas ao grupo vermelho, que, por ter uma grande quantidade de outliers, possui microrregies que tiveram altos
valores para a SMR em vrios anos do perodo.
Cncer de clon
A distribuio espacial das SMRs para esta doena se mostrou bastante semelhante da
doena anterior, cncer de estmago. Novamente, um aglomerado de microrregies no centro e norte do estado se mostraram importantes. A anlise de agrupamentos no se mostrou
muito elucidativa neste caso, uma vez que a variabilidade entre os grupos foi relativamente
pequena, no permitindo evidenciar claramente diferenas entre suas microrregies.
Com respeito intensidade das SMRs para as doenas, uma anlise visual dos mapas apresentados indica que a ordem de importncia (das maiores taxas para as menores) foi a seguinte:
Tabela 5.1: Ranking das doenas de acordo com os resultados da anlise exploratria dos dados
Posio

Doena

1o

Cncer de lbios, cavidade oral e faringe

2o

Cncer de traqueia, brnquios e pulmo

3o

Cncer de mama

4o

Cncer de estmago

5o

Cncer de clon

Captulo 6
Aplicao dos modelos hierrquicos
Bayesianos em dados de rea multivariados
O Captulo anterior forneceu uma viso geral sobre o comportamento dos dados e as regies
do estado com maiores riscos de bitos, baseado nas SMRs. A partir das suposies que a anlise
exploratria proporcionou, o prximo passo compreender melhor os dados a partir da construo
de um modelo apropriado.
Neste Captulo encontram-se os resultados da aplicao de modelos semelhantes aos considerados no Captulo 2, levando em conta primeiramente apenas o domnio espacial, e posteriormente,
tambm o domnio temporal. So apresentadas as regies de maior risco a posteriori para cada um
dos modelos, e, por m, uma comparao entre eles realizada atravs do DIC. Antes, porm,
vlido descrever os procedimentos de inferncia utilizados para a obteno de tais resultados.

6.1

Procedimentos de Inferncia

A partir da especicao do modelo e da escolha das distribuies a priori apropriadas, o


objetivo do pesquisador a obteno das distribuies a posteriori dos parmetros de interesse.
Tais distribuies podem ser obtidas pela abordagem Bayesiana atravs do Teorema de Bayes, que
diz o seguinte:
Seja o parmetro de interesse num modelo. Aps observar uma amostra x de um vetor
aleatrio X relacionado com , o conhecimento a respeito desse parmetro pode ser atualizado
atravs da expresso

p(|x) =

p(x|)p()
p(, x) p(x|)p()
=
=
p(x|)p()
p(x)
p(x)
p(, x)d

(6.1)

O objetivo deste tpico descrever os procedimentos de inferncia para os modelos utilizados


na aplicao em dados de cncer, que so adaptaes dos modelos abordados do Captulo 2. So
considerados dois modelos: o primeiro trata-se de um modelo similar ao descrito em (2.2), e o

57

6.1

PROCEDIMENTOS DE INFERNCIA

58

segundo de um modelo similar ao em (2.7), porm, ambos em uma verso multivariada e sem
a presena de covariveis. Para i = 1, ..., N reas, t = 1, ..., T tempos, e k = 1, ..., K doenas, os
modelos so, respectivamente:
Modelo 1: Modelo Hierrquico Bayesiano
Yik |Rik Poisson(Eik Rik ),
log(Rik ) = k + ik ,
k U (, +) ,
k MVCAR(1, ).

Modelo 2: Modelo Hierrquico Bayesiano Dinmico


Yitk |Ritk Poisson(Eitk Ritk ),
log(Ritk ) = k + kt + ik ,
k U (, +) ,
k MVCAR(1, ),
kt = k,t1 + kt ,
W K ),
com k0 N(0,W
W K ).
t N(0,W
Em ambos os modelos a matriz contm os parmetros de preciso para os efeitos espaciais, e
R, n), em que n = K = 5 escolhido, de modo que
assume-se para ela distribuio a priori Wishart(R
R, n)
a priori seja pouco informativa (Shaddick e Wakeeld (2002)). A mdia a priori da Wishart(R
R, o que sugere que uma escolha razovel para R 1 pode ser n0 , em que 0 a crena
igual a nR
a priori acerca da matriz de covarincias.
Com respeito matriz W K especicada para t = (1t , ..., Kt ) no segundo modelo, esta
contm as varincias 2k , que permitem que diferentes doenas tenham diferentes quantidades de
dependncia temporal, e K(K 1)/2 termos de covarincia reetindo a dependncia entre cada
doena, condicional aos valores dos tempos anteriores.
Agora, para a descrio da distribuio a priori atribuda aos efeitos temporais kt , por simplicidade de notao considere uma doena genrica. Seu vetor de efeitos aleatrios espaciais
= (1 , ..., T ) , cujo respectivo termo de varincia 2 . Esta distribuio pode ser escrita como

p(|2 )

p(t |t1, 2)

t=2

6.1

PROCEDIMENTOS DE INFERNCIA

59



1 T 
2
exp 2 t t1
2 t=2




1 T
exp 2 nt t t t2
2 t=1


em que nt indica o nmero de vizinhos de t e t a mdia destes, isto , de t1 e t+1 . Observe


que esta distribuio pode ser expressa como


2

,
t = 1,
,

t+1



2
t1 + t+1
p(t |t , 2 )
N
,
, t = 2, ..., T 1,

2
2




N , 2 ,
t = T.
t1

(6.2)

em que t representa o vetor de todos os elementos de , exceto t .


Isso mostra que, em uma dimenso, o passeio aleatrio Gaussiano se reduz distribuio CAR
intrnseca (ver Fahrmeir e Lang (2001)). Dessa forma, a especicao em 6.2 equivalente a

(t |t , 2 ) N

Ct j j , 2Mtt

, para t = 1, ..., T,

Wt j
, Wt+ = Wt j e Wt j = 1 se j = (t 1) ou j = (t + 1) e 0 caso contrrio.
Wt+
j
1
Tambm, Mtt =
. Por isso, no OpenBUGS, pode-se ajustar como distribuio a priori um
Wt+
passeio aleatrio de ordem um (denotada por RW(1)) atravs da distribuio car.normal, ou,
analogamente, da distribuio mv.car para dados multivariados, que o caso dos dados de aplicao deste trabalho. Neste contexto, Shaddick e Wakeeld (2002) utilizaram uma modelagem
espao-temporal para quatro poluentes medidos diariamente em oito pontos de monitorizao, na
cidade de Londres, ao longo de quatro anos. A modelagem foi conduzida de modo a investigar o
efeito da poluio do ar na sade, e para os efeitos aleatrios temporais dos poluentes foi atribuda
como distribuio a priori um passeio aleatrio, sendo que a implementao de parte deste modelo
encontra-se disponvel no mdulo GeoBUGS, do OpenBUGS.
Considere como sendo a coleo de todos os parmetros desconhecidos do modelo e Y a
matriz de observaes para a varivel Y em cada caso. Em ambos os modelos N = 63, microrregies, e K = 5 doenas. Para o segundo modelo T = 13 anos de um perodo. Assim, a dimenso da
matriz de observaes Y no primeiro modelo 63 5 e no segundo 63 5 13. A diferena bsica
entre eles a incluso do domnio temporal no segundo modelo. Segue a descrio da inferncia
para um deles.
em que Ct j =

, , ), sendo que = (1 , 2 , 3 , 4 , 5 ) e =
Inferncia sob o Modelo 1: Aqui, = (

6.1

PROCEDIMENTOS DE INFERNCIA

60

(1 , 2 , 3 , 4 , 5 ). Pelo teorema de Bayes,


|yy) p(yy|
)p(
)
p(
K

exp [yik log(Eik Rik ) Eik Rik log(yik !)] p(k , k , )

|yy)
p(

i=1 k=1

k=1


exp [yik log(Eik Rik ) Eik Rik log(yik !)] p(k )p(k |)

i=1 k=1

).
p(

k=1

, , , ), sendo que = (1 , 2 , 3 , 4 , 5 ) , =
Inferncia sob o Modelo 2: Aqui, = (
(1,1 , ..., 5,13 ) e = (1 , 2 , 3 , 4 , 5 ). Pelo teorema de Bayes,
|yy) p(yy|
)p(
)
p(
|yy)
p(

exp [yitk log(Eitk Ritk ) Eitk Ritk log(yitk !)] p(k , kt , k ,Wk , )
i=1 t=1 k=1
N T K

t=1 k=1
K

exp [yitk log(Eitk Ritk ) Eitk Ritk log(yitk !)] p(k )

i=1 t=1 k=1



T

k=1

p(kt |k,t1,Wk )p(k |)

).
p(

t=1 k=1

As distribuies a posteriori sob os modelos 1 e 2 apresentados possuem forma complexa e desconhecida. Assim, necessria a utilizao de mtodos computacionalmente intensivos para fazer
inferncia a respeito dos parmetros desconhecidos destes modelos. Neste trabalho utilizado o
mtodo de MCMC, apresentado no Captulo 4. O software utilizado foi o OpenBUGS. Este pacote
estatstico j tem implementado internamente as rotinas para estimar os parmetros via MCMC,
cabendo ao usurio a especicao do modelo, das distribuies a priori e de valores iniciais para
os hiperparmetros. A partir de tais denies, e da construo das distribuies condicionais
completas, o amostrador de Gibbs implementado no OpenBUGS permite o uso de diversas rotinas
para amostrar de forma eciente as distribuies condicionais. Caso no seja possvel construir as
distribuies condicionais completas, o software utiliza o algoritmo de Metropolis-Hastings com
a distribuio proposta sendo Gaussiana e centrada no valor atual do parmetro. Nos Apndices
A e B encontram-se, respectivamente, os cdigos utilizados no OpenBUGS para realizar inferncia acerca dos modelos 1 e 2 acima. importante ressaltar que no OpenBUGS est disponvel o
cdigo de um modelo para o mapeamento de duas doenas no oeste de Yorkshire, Reino Unido:
cncer de cavidade oral e cncer de pulmo (Thomas et al. (2004)). Este cdigo foi ampliado para
implementar os modelos 1 e 2 considerados aqui.
Os dados de aplicao so referentes aos bitos por 5 tipos de doenas: cncer de traqueia,
brnquios e pulmo; cncer feminino de mama; cncer de estmago; cncer de lbios, cavidade
oral e faringe; e cncer de clon nas 63 microrregies do estado de So Paulo, no decorrer do

6.2

APLICAO DO MODELO HIERRQUICO BAYESIANO

61

perodo de 1998 a 2010. No modelo 1, que no leva em conta os espaos de tempo, o dado consiste
na soma dos bitos para todo o perodo em cada microrregio; no modelo 2 consiste na quantidade
anual de bitos para cada microrregio. Assim, no primeiro modelo Y uma matriz composta de
63 5 = 315 valores, enquanto no segundo modelo Y tridimensional, com 63 5 13 = 4095
valores. Em ambos os casos tambm necessrio fornecer ao OpenBUGS os respectivos valores
esperados para Y , que corresponde mesma quantidade de valores deste vetor.
Para a estimao, foram realizadas 15000 iteraes, sendo descartadas as 5000 iteraes iniciais e armazenadas as 10000 posteriores, com um salto de 10 observaes para melhorar a convergncia. Esta foi monitorada atravs da anlise da trajetria da cadeia, dos grcos das autocorrelaes, e de funes disponveis no pacote CODA, que encontram-se no Apndice C apenas
para alguns dos parmetros monitorados, uma vez que os demais possuem grcos semelhantes e,
portanto, levam indicao de convergncia de modo semelhante.

6.2

Aplicao do Modelo Hierrquico Bayesiano

Atravs do GeoBUGS, possvel mapear qualquer varivel especicada para o modelo, de


modo a visualizar sua dinmica espacial. Aqui, no entanto, como o interesse principal compreender a distribuio espacial dos riscos de cada doena, foram construdos os mapas para a mdia
a posteriori do risco relativo associado a cada doena. Para averiguar a localizao das microrregies no estado de So Paulo mencionadas no decorrer desta seo, recorra ao mapa do Apndice
E. Antes de analisar os riscos relativos, porm, considere um resumo dos resultados obtidos a
posteriori na Tabela 6.1.
Tabela 6.1: Estimativas a posteriori dos parmetros, erros padro, e intervalos de credibilidade de 95%
Parmetro

Mdia

Erro Padro

ICr(95%)

-0,1769

0,01939

(-0,2194; -0,1388)

-0,2439

0,02277

(-0,2890; -0,1977)

-0,0057

0,02211

(-0,0489; -0,0377)

-0,0973

0,00171

(-0,1319; -0,0637)

-0,0978

0,02033

(-0,1377; -0,0585)

0,9432

0,0937

(0,7802; 1,1470)

0,804

0,0865

(0,6533; 1,0991)

0,9581

0,0973

(0,7887; 1,1640)

0,6734

0,0715

(0,5481; 0,8281)

0,6699

0,0740

(0,5402; 0,8307)

Com respeito ao intercepto k para as doenas, atente para que o clculo do risco relativo se

6.2

APLICAO DO MODELO HIERRQUICO BAYESIANO

62

d tal que RRik = exp (k + ik ), de modo que exp (1 ) = 0, 84, exp (2 ) = 0, 78, exp (3 ) = 0, 99,
exp (4 ) = 0, 91 e exp (5 ) = 0, 91 o quanto cada intercepto aumenta no risco relativo de cada
doena. Sendo que o desejvel que os riscos no ultrapassem 1, o que indicaria que os bitos
esto ocorrendo de acordo com o esperado, conclui-se que estes termos so importantes para o
risco e, portanto, relevantes ao modelo. Observe que tais termos so signicativos, uma vez que
seus intervalos de credibilidade no contm o valor 0.
Em relao aos termos de desvio dos efeitos k , os maiores foram observados para o cncer
de lbios, cavidade oral e faringe (3 = 0, 9581) e para cncer de traqueia, brnquios e pulmo
(1 = 0, 9432), respectivamente. Essas ltimas estimativas so obtidas das colunas da matriz de
covarincias da distribuio MVCAR, que, embora sejam calculadas de modo conjunto, podem
ser isoladas para a interpretao individual dos efeitos para cada doena. Assim, as doenas que
tiveram maior variabilidade devido sua estrutura espacial foram cncer de lbios, cavidade oral
e faringe e cncer de traqueia, brnquios e pulmo.

6.2.1

Cncer de traqueia, brnquios e pulmo

Como se pode ver na Figura 6.1, o mapa indica que o risco de se morrer devido cncer de
traqueia, brnquios e pulmo no estado de So Paulo maior no centro e no norte, pois nessas
regies que se concentram as microrregies pertencentes s classes de riscos mais altos do mapa,
o que coerente com os resultados obtidos na anlise exploratria.

Figura 6.1: Risco a posteriori obtido para o modelo referente aos bitos por cncer de traqueia, brnquios
e pulmo nas microrregies do estado de So Paulo, de 1998 a 2010.

Com exceo das microrregies que contm hospitais de referncia no tratamento do cncer
(onde os riscos tendem a ser altos), destacam-se como tendo valores altos para o risco de mortalidade por cncer de traqueia, brnquios e pulmo a microrregio de Araatuba, uma faixa no norte
do estado que vai da microrregio de So Jos do Rio Preto at a de Ituverava, e uma faixa que
vai das microrregies de Santos at Guaratinguet. Ao todo, 21 microrregies apresentaram risco
a posteriori maior que 1, e, destas, 9 tiveram as estimativas acima de 1,5.

6.2

APLICAO DO MODELO HIERRQUICO BAYESIANO

63

Em comparao com as SMRs obtidas para a mesma doena, apresentadas no Captulo anterior, percebe-se uma suavizao nas estimativas obtidas pelo modelo bayesiano, o que facilita a
compreenso dos riscos na regio de estudo, bem como uma melhor identicao das microrregies e de reas com maior risco de bito.
A Figura 6.2 apresenta os boxplots para as distribuies a posteriori dos riscos relativos associados a cada microrregio em estudo.

Figura 6.2: Boxplots para as distribuies a posteriori dos riscos relativos associados ao cncer de traqueia, brnquios e pulmo, para cada microrregio do estado de So Paulo.

6.2.2

Cncer de mama feminino

No caso desta doena, o resultado do modelo aponta para a existncia de maior risco de bito
tambm no centro e norte do estado, e em algumas nos extremos da regio, como mostra o mapa da
Figura 6.3. Observe que esse padro espacial foi identicado na anlise exploratria. No entanto,
este mapa bem mais informativo do que o resultante da anlise de agrupamentos, na Figura 5.8,
cuja disperso dos grupos dicultou um pouco a compreenso da dinmica espacial.
Nota-se que a distribuio espacial dos riscos aqui semelhante do cncer de traqueia, brnquios e pulmo. No entanto, estas diferem na intensidade, sendo que o risco para o cncer de mama
bem menor, alm de que nesta doena as estimativas do risco parecem estar distribudas de modo
mais aleatrio. Naturalmente, o fator hereditrio est fortemente ligado manifestao desta doena, o que explica o fato da distribuio espacial de seus bitos no estar to bem denida quanto
nas demais doenas consideradas aqui, que possivelmente sofrem maior interferncia de fatores
etiolgicos encontrados no ambiente.
Ao todo, 19 microrregies tiveram risco acima de 1, sendo que apenas Ja e Barretos apresentaram estimativa maior que 1,5, risco este que no deve ser levado to seriamente em conta, uma
vez que ambas microrregies possuem hospital de referncia ao tratamento de cncer. Destacam-se
as microrregies de Assis e Marlia, que tiveram risco maior que o esperado, bem como uma faixa
de microrregies que vai de Campinas at Santos, e as microrregies de Araatuba e Votuporanga
tambm apresentaram riscos maior que o esperado.

6.2

APLICAO DO MODELO HIERRQUICO BAYESIANO

64

A Figura 6.4 apresenta os boxplots para as distribuies a posteriori dos riscos relativos associados a cada microrregio em estudo.

Figura 6.3: Risco a posteriori obtido para o modelo referente aos bitos por cncer feminino de mama nas
microrregies do estado de So Paulo, de 1998 a 2010.

Figura 6.4: Boxplots para as distribuies a posteriori dos riscos relativos associados ao cncer feminino
de mama, para cada microrregio do estado de So Paulo.

6.2.3

Cncer de lbios, cavidade oral e faringe

Note que para essa doena, a dinmica espacial dos riscos a posteriori obtida bastante semelhante do cncer de traqueia, brnquios e pulmo, porm, com intensidade ainda maior do que
aquela. Analisando o mapa a seguir, fcil observar a presena de um grande grupo de microrregies, presentes no centro e norte do estado com alto risco de bito por cncer de lbios, cavidade
oral e faringe. Dentro deste grande grupo, destacam-se ainda dois subgrupos mais agravantes, de
microrregies com risco mais de 50% maior do que o esperado. Merece ateno especial o grupo
a esquerda do mapa, do qual fazem parte as microrregies de Andradina, Araatuba, Birigui, Auriama e Fernandpolis, que para as demais doenas em estudo no tiveram riscos to altos. Isso
tambm se aplica s microrregies de Jundia, Moji Mirim e Caraguatatuba, que isoladamente

6.2

APLICAO DO MODELO HIERRQUICO BAYESIANO

65

apresentaram riscos elevados. Ao todo, 29 microrregies tiveram risco maior que o esperado, das
quais, 18 apresentaram risco maior que 1,5.
A Figura 6.6 apresenta os boxplots para as distribuies a posteriori dos riscos relativos associados a cada microrregio em estudo.

Figura 6.5: Risco a posteriori obtido para o modelo referente aos bitos por cncer de lbios, cavidade
oral e faringe nas microrregies do estado de So Paulo, de 1998 a 2010.

Figura 6.6: Boxplots para as distribuies a posteriori dos riscos relativos associados ao cncer de lbios,
cavidade oral e faringe, para cada microrregio do estado de So Paulo.

6.2

APLICAO DO MODELO HIERRQUICO BAYESIANO

6.2.4

66

Cncer de estmago

Como se pode ver no mapa da Figura 6.7, a distribuio espacial do risco para esta doena
abrange altos riscos numa faixa que vai do norte ao sul do estado, sendo que das microrregies
que encontram-se na faixa de maiores riscos no mapa, destaca-se a de Guaratinguet, uma vez que
as demais microrregies pertencentes a esta classe possuem hospitais de referncia no tratamento
do cncer (Barretos e Ja) ou fazem fronteira com microrregies com tal caracterstica (So Carlos
e So Joaquim da Barra). Esta distribuio espacial no se parece com a de nenhuma das outras
doenas consideradas at aqui. Numa anlise geral, 22 microrregies apresentaram risco a posteriori maior que o esperado para sua estrutura demogrca e caractersticas de sua populao, das
quais 6 tiveram estimativa maior que 1,5.
A Figura 6.8 apresenta os boxplots para as distribuies a posteriori dos riscos relativos associados a cada microrregio em estudo.

Figura 6.7: Risco a posteriori obtido para o modelo referente aos bitos por cncer de estmago nas
microrregies do estado de So Paulo, de 1998 a 2010.

Figura 6.8: Boxplots para as distribuies a posteriori dos riscos relativos associados ao cncer de estmago, para cada microrregio do estado de So Paulo.

6.2

APLICAO DO MODELO HIERRQUICO BAYESIANO

6.2.5

67

Cncer de Clon

Ao comparar este mapa com o mapas das gura 6.7 possvel notar que a distribuio espacial
do risco por cncer de clon possui a rea de maior risco quase que idntica obtida para o
cncer de estmago, alm de que as microrregies pertencentes ltima classe do mapa so as
mesmas para as duas doenas. Isto , alm do centro e norte do estado apresentar altos riscos de
bito, microrregies do sul e das extremidades do estado tambm estiveram na classe de riscos
maiores que o esperado. A diferena entre as duas doenas consiste basicamente num conjunto de
aproximadamente 5 microrregies no noroeste do estado que tiveram risco maior que o esperado
para esta doena, e para cncer de estmago no. Desta forma, espera-se que os bitos por esses
dois tipos de cnceres estejam correlacionados no espao, ou seja, ocorrendo de forma semelhante
no decorrer do estado, devido a algum fator de risco em comum entre as doenas.
A Figura 6.10 apresenta os boxplots para as distribuies a posteriori dos riscos relativos associados a essa doena, para cada microrregio em estudo.

Figura 6.9: Risco a posteriori obtido para o modelo 1 referente aos bitos por cncer de clon nas microrregies do estado de So Paulo, de 1998 a 2010.

Figura 6.10: Boxplots para as distribuies a posteriori dos riscos relativos associados ao cncer de clon,
para cada microrregio do estado de So Paulo.

Considere agora como a ocorrncia dos bitos decorrentes das doenas em estudo esto corre-

6.2

APLICAO DO MODELO HIERRQUICO BAYESIANO

68

lacionados no decorrer do estado de So Paulo. Apenas para resumir, 31 microrregies apresentaram risco relativo de bito para cncer de clon acima do esperado para sua estrutura demogrca,
das quais 6 tiveram estimativa acima de 1,5.
Levando em conta os resultados para cada doena, estabelecido o seguinte ranking, segundo
a importncia dos riscos, devido a quantidade de microrregies com valores maiores que 1 e que
1,5 para o risco relativo. Observe que esse ranking difere do estabelecido na anlise exploratria,
pois os cnceres de clon e de mama trocam as posies, sendo que da anlise realizada aqui ca
evidente que a colocao do cncer de clon acima do de mama muito mais condizente com a
informao fornecida pelos dados.
Tabela 6.2: Ranking das doenas de acordo com os resultados do modelo hierrquico bayesiano

6.2.6

Posio

Doena

RR > 1

RR > 1,5

1o

Cncer de lbios, cavidade oral e faringe

29

18

2o

Cncer de traqueia, brnquios e pulmo

21

3o

Cncer de clon

31

4o

Cncer de estmago

22

5o

Cncer de mama

19

Correlao a posteriori para as doenas

Como mencionado, um dos atrativos do uso da priori MVCAR a possibilidade de modelar


a correlao entre as variveis, neste caso, os riscos das doenas. Seja 1 a matriz de correlao
para os riscos deste modelo, obtida a partir da respectiva matriz do modelo. Os valores obtidos
pelo modelo para esta matriz foram

1 =

1, 0000
0, 7704
0, 3093
0, 8392
0, 8348

0, 7704
1, 0000
0, 2985
0, 7362
0, 7213

0, 3093
0, 2985
1, 0000
0, 3804
0, 319

0, 8392
0, 7362
0, 3804
1, 0000
0, 9775

0, 8348
0, 7213
0, 3190
0, 9775
1, 0000

Nota-se forte correlao entre cncer de traqueia, brnquios e pulmo versus cncer de estmago (0,8392); cncer de traqueia, brnquios e pulmo versus cncer de clon (0,8348), e cncer
de estmago versus cncer de clon (0,9775), sendo que este ltimo resultado no surpreende,
dada a semelhana notada entre os mapas para tais doenas, como mencionado no tpico anterior.
Estes resultados so intrigantes, levando hiptese de existncia de fatores de risco em comum
para tais doenas. Uma perspectiva futura para continuidade deste trabalho inserir covariveis no
modelo, com o objetivo de identicar caractersticas das regies com maiores riscos.

6.3

APLICAO DO MODELO HIERRQUICO BAYESIANO DINMICO

69

De acordo com o artigo de Guerra et al. (2005), todos os tipos de cncer estudados neste
trabalho tem sua manifestao associada exposio a um grande nmero de fatores de riscos
ambientais relacionados ao processo de industrializao - agentes qumicos, fsicos e biolgicos
- e de exposio a outros fatores relacionados s disparidades sociais, o que explicaria parte das
correlaes observadas entre estas doenas. Segundo os autores, o tabagismo, por exemplo, contribui no somente para o aumento da ocorrncia de cncer de traqueia, brnquios e pulmo no pas,
mas tambm para a incidncia de outros tipos de cncer, tais como cncer de estmago e cncer
de lbios, cavidade oral e faringe, principalmente se associado a consumo de lcool e precrias
condies de sade, outros fatores de risco muito comuns no Brasil.
Por outro lado, tanto cncer de estmago, como cncer de mama, e de clon relacionam-se
a hbitos dietticos, e a um status scio-econmico elevado, observado principalmente na regio
sudeste do pas, indicando a possvel importncia de uma varivel como o IDH (ndice de Desenvolvimento Humano) em explicar parte da dependncia entre tais doenas.
Ainda segundo os autores, no Brasil, o aumento de doenas relacionadas ao hbito do fumo
pode ser explicado, em parte, pela acelerao no consumo do tabaco no decorrer dos anos e a
difuso do tabagismo na populao feminina. Sendo esta uma das principais causas associadas aos
bitos pelos cnceres estudados neste trabalho, um interesse que pode surgir acerca dos dados diz
respeito sua ocorrncia no decorrer do tempo. Uma anlise desta natureza pode elucidar quais
momentos no decorrer de um perodo em estudo se mostraram determinantes na manifestao de
altos riscos para determinada doena. Assim, na prxima seo so apresentados os resultados da
aplicao do Modelo Hierrquico Bayesiano Dinmico, como instrumento para estudar os dados
ao longo do tempo.

6.3

Aplicao do Modelo Hierrquico Bayesiano Dinmico

A Tabela 6.3 apresenta os resultados obtidos para um conjunto de parmetros do modelo 2.


Nota-se que os valores obtidos para os interceptos foram muito prximos aos obtidos no modelo
anterior, o que, consequentemente, leva s mesmas interpretaes. A variabilidade dos efeitos
aleatrios espaciais, monitorada atravs dos valores de k , se mostrou maior tambm para cncer
de lbios, cavidade oral e faringe (0,9567), seguido pelo cncer de traqueia, brnquios e pulmo
(0,942), sendo que estes, bem como os demais valores de k tambm caram muito parecidos
com os obtidos no modelo 1.
Note que o valor obtido para este parmetro referente a cncer de clon foi o menor entre as
doenas (0,6679), indicando que a variabilidade dos bitos se deve menos sua estrutura espacial
nesta doena do que nas outras.
Com respeito aos efeitos temporais, que o que difere este modelo do anterior, todos os valores para k caram em torno de 0, 07, e se mostraram signicativos. No entanto, nenhum dos
valores obtidos para os prprios k (ver Apndice D) foi signicativo para explicar os riscos relativos. Este fato, somado semelhana entre os demais parmetros monitorados nos dois modelos

6.3

APLICAO DO MODELO HIERRQUICO BAYESIANO DINMICO

70

Tabela 6.3: Estimativas a posteriori dos parmetros, erros padro, e intervalos de credibilidade de 95%
Parmetro

Mdia

Erro Padro

ICr(95%)

-0,1776

0,01953

(-0,2165; -0,1396)

-0,2450

0,02239

(-0,2892; -0,2016)

-0,0060

0,02223

(-0,0489; -0,0369)

-0,0983

0,01769

(-0,1336; -0,0642)

-0,0979

0,02105

(-0,1397; -0,0572)

0,9420

0,0937

(0,7779; 1,1460)

0,8043

0,0865

(0,6514; 0,9930)

0,9567

0,0981

(0,7842; 1,1700)

0,6749

0,0728

(0,5489; 0,8321)

0,6679

0,0743

(0,5385; 0,8269)

0,07714

0,0177

(0,05124; 0,1192)

0,07859

0,0177

(0,05222; 0,1199)

0,07982

0,0184

(0,05291; 0,1240)

0,07747

0,0175

(0,05152; 0,1186)

0,08084

0,0189

(0,05280; 0,1260)

indica que a incluso de um efeito aleatrio temporal distribudo segundo um passeio aleatrio de
ordem um no importante para explicar os riscos, o que leva concluso de que ou o perodo de
tempo considerado neste estudo no grande o suciente para que a variao temporal possa ser
capturada desta forma, ou os bitos em questo variam segundo outro tipo de distribuio.
Referente s correlaes entre as doenas obtidas neste modelo, considere a matriz 2 . Observe
que os valores das correlaes no diferem signicativamente dos obtidos para o modelo anterior.
Isto mais um indicativo de que este modelo no est capturando mais informao a respeito da
ocorrncia simultnea dos bitos pelas doenas em estudo. No entanto, ainda existe a vantagem
de que ele possibilita obter as estimativas do risco em cada nvel de tempo pertencente ao perodo
em estudo, isto , torna possvel observar o risco de morte no estado de So Paulo em cada ano do
perodo, o que pode ser visto nas Figuras 6.11 a 6.15.
Note que agora possvel compreender quando determinadas microrregies tiveram riscos
altos, j que para algumas delas isso no aconteceu em todo o perodo. Por exemplo, na Figura
6.11 possvel observar que a microrregio de Araraquara teve risco bastante alto apenas em
2003 e 2004, mantendo estabilidade nos demais anos do perodo. Assim, os altos riscos foram
atpicos nesse local, no devendo ser de sria preocupao sua ocorrncia; exceto se manifestada
novamente.
De modo geral, os riscos se comportaram da mesma maneira que no modelo anterior, apenas

6.3

APLICAO DO MODELO HIERRQUICO BAYESIANO DINMICO

71

neste caso tem-se a vantagem de analis-los individualmente ano a ano, como j mencionado. Em
relao s SMRs, visvel, atravs dessas Figuras, que as estimativas dos riscos obtidas por este
modelo so mais suaves e de maior facilidade de interpretao do que as estimativas clssicas
apresentadas no captulo anterior.
Novamente, possvel estabelecer um ranking de gravidade das doenas, com base nos riscos
obtidos a posteriori.

Tabela 6.4: Ranking das doenas de acordo com os resultados do modelo hierrquico bayesiano dinmico
Posio

Doena

1o

Cncer de lbios, cavidade oral e faringe

2o

Cncer de traqueia, brnquios e pulmo

3o

Cncer de clon

4o

Cncer de estmago

5o

Cncer de mama

Observe que este ranking coincide com o que fora obtido no modelo anterior (Tabela 6.2),
reforando a concluso de que ambos os modelos capturam a estrutura dos riscos relativos de
modo similar.

2 =

1, 0000
0, 7677
0, 3089
0, 8384
0, 8356

0, 7677
1, 0000
0, 2977
0, 7358
0, 7195

0, 3089
0, 2977
1, 0000
0, 3757
0, 3198

0, 8384
0, 7358
0, 3757
1, 0000
0, 9779

0, 8356
0, 7195
0, 3198
0, 9779
1, 0000

6.3

APLICAO DO MODELO HIERRQUICO BAYESIANO DINMICO

72

Figura 6.11: Risco a posteriori obtido para o modelo 2 referente aos bitos por cncer de traqueia, brnquios e pulmo nas microrregies do estado de So Paulo, de 1998 a 2010.

6.3

APLICAO DO MODELO HIERRQUICO BAYESIANO DINMICO

73

Figura 6.12: Risco a posteriori obtido para o modelo 2 referente aos bitos por cncer de mama feminino
nas microrregies do estado de So Paulo, de 1998 a 2010.

6.3

APLICAO DO MODELO HIERRQUICO BAYESIANO DINMICO

74

Figura 6.13: Risco a posteriori obtido para o modelo 2 referente aos bitos por cncer de lbios, cavidade
oral e faringe nas microrregies do estado de So Paulo, de 1998 a 2010.

6.3

APLICAO DO MODELO HIERRQUICO BAYESIANO DINMICO

75

Figura 6.14: Risco a posteriori obtido para o modelo 2 referente aos bitos por cncer de estmago nas
microrregies do estado de So Paulo, de 1998 a 2010.

6.3

APLICAO DO MODELO HIERRQUICO BAYESIANO DINMICO

76

Figura 6.15: Risco a posteriori obtido para o modelo 2 referente aos bitos por cncer de clon nas
microrregies do estado de So Paulo, de 1998 a 2010.

COMPARAO DOS MODELOS ATRAVS DO CRITRIO DIC (DEVIANCE INFORMATION CRITERION)

6.4

77

6.4

Comparao dos modelos atravs do Critrio DIC (Deviance Information Criterion)

O critrio DIC (Deviance Information Criterion (Spiegelhalter et al. (2002))) uma generalizao dos critrios AIC (Akaike information criterion) e BIC (Bayesian information criterion).
particularmente til em problemas de seleo de modelos bayesianos nos quais as distribuies
a posteriori so obtidas atravs de simulao via MCMC. Assim como os critrios AIC e BIC,
consiste em uma aproximao assinttica e s vlido quando a distribuio a posteriori aproximadamente Normal multivariada. Gelman et al. (2013b) apresentam o estado da arte no contexto
de seleo bayesiana de modelos e concluem que os critrios propostos at o momento no so
sucientemente ecientes. Comparam resultados para o AIC, Deviance e WAIC (Watanabe AIC)
em trs exemplos. Embora o DIC seja criticado por no ser adequado para casos em que a distribuio a posteriori assimtrica, pois seu clculo envolve a mdia a posteriori, est a medida
utilizada neste trabalho.
Para o clculo do DIC, dena o desvio D() = 2 log (p(yy|)) + c, em que y o vetor de
dados, o vetor de parmetros de interesse sob determinado modelo, p (yy|) a funo de
verossimilhana, e c uma constante cancelada nos clculos que comparam diferentes modelos
e, portanto, no precisa ser conhecida. A esperana D = E|yy [D] uma medida de quo bem o
modelo se ajusta aos dados. Quanto maior esta for, pior o ajuste.
Existem dois clculos utilizados comumente para encontrar a quantidade efetiva de parmetros
em
do modelo. O primeiro, conforme descrito em Spiegelhalter et al. (2002) pD = D D(),
que a esperana de . O segundo, tal como descrito em Gelman et al. (2013a) pD = pV =
1
var (D()). Quanto maior o nmero efetivo de parmetros , mais fcil para o modelo ajustar
2
os dados, com isso o desvio tem de ser penalizado.
O DIC ento calculado como

DIC = pD + D,
ou, equivalentemente como
+ 2pD .
DIC = D()
A ideia que os modelos com menor DIC devem ser preferidos modelos com maiores valores
o que favorece um bom
para essa estatstica. Os modelos so penalizados tanto pelo valor de D,
ajuste, como tambm (em comum com AIC e BIC) pelo nmero efetivo de parmetros pD . Uma
vez que D diminui medida que o nmero de parmetros em um modelo aumenta, pD compensa
este efeito, favorecendo modelos com um nmero menor de parmetros.
A vantagem do DIC em relao a outros critrios para a seleo de um modelo que este
facilmente calculado a partir das amostras geradas por uma simulao de MCMC, ao passo que o
AIC e o BIC exigem o clculo do mximo da verossimilhana sobre , que no est prontamente

COMPARAO DOS MODELOS ATRAVS DO CRITRIO DIC (DEVIANCE INFORMATION CRITERION)

6.4

78

disponvel a partir da simulao MCMC. Por outro lado, para calcular DIC basta simplesmente
como o valor de D
calcular D como sendo a mdia de D() sobre as amostras de , e D()
avaliado na mdia das amostras de . Por m, o DIC segue a partir dessas aproximaes.
Os valores para o DIC fornecidos pelo OpenBUGS para os modelos estudados neste trabalho
foram de 2186 para o modelo 1 e 19510 para o modelo 2, induzindo a que deve-se preferir o
modelo 1 ao modelo 2 para ajustar os dados de cncer considerados. A discrepncia entre tais
valores da estatstica evidencia que o modelo 2, devido incluso dos efeitos temporais kt ,
penalizado por um excesso de parmetros que no melhoram signicativamente o conhecimento
acerca dos riscos. Apesar disso, a discusso realizada na seo anterior vlida.

Captulo 7
Concluses e perspectivas futuras
Como j mencionado, a proposta de trabalho para esta dissertao consistiu no estudo da classe
de modelos hierrquicos dinmicos aplicados a dados de rea multivariados. Isto , a proposta envolveu o estudo de modelos que permitem incorporar em sua estrutura as dimenses espao e
tempo. Neste contexto, este relatrio apresenta uma introduo sobre os modelos clssico de riscos relativos, de Poisson com efeitos aleatrios associados estrutura espacial e com evoluo
temporal dos parmetros. Para o procedimento de inferncia, no modelo clssico de riscos relativos utiliza-se estimadores de mxima verossimilhana e para o modelo de Poisson a abordagem
Bayesiana. Neste ltimo caso, a distribuio a posteriori conjunta no apresenta forma fechada e
mtodos numricos so necessrios. Nesta etapa do trabalho utilizou-se o amostrador de Gibbs
implementado atravs do Software OpenBUGS.
Os dados escolhidos para a aplicao foram os bitos pelos cinco cnceres de maior letalidade
nas microrregies do estado de So Paulo, registrados para o perodo de 1998 a 2010. Inicialmente,
apresentou-se uma anlise exploratria dos dados, consistindo no mapeamento das estimativas de
mxima verossimilhana obtidas atravs do modelo clssico de riscos relativos (SMRs) e numa
anlise de agrupamento das microrregies de acordo com estas. Ao agrupar as SMRs, percebeu-se
a presena de grupos de microrregies com comportamentos particulares. Observando seu comportamento no tempo, cou evidente que, para algumas doenas, e alguns grupos de microrregies,
houve tendncia temporal na ocorrncia dos bitos no decorrer do perodo em estudo.
Alm disso, aplicou-se o modelo de Poisson nos dados agrupados para todo o perodo, especicando como distribuio a priori para os efeitos aleatrios o modelo CAR intrnseco, uma
alternativa da classe de modelos condicionais autorregressivos (CAR) proposta por Besag (1974),
que inclui tambm o Modelo de convoluo, sendo que este ltimo, embora tenha sido apresentado no Captulo 3, no foi implementado devido ao fato de no ser considerado superior ao CAR
intrnseco para a estimao dos riscos. Quanto a estes, ao longo do texto foram consideradas suas
caractersticas e atrativos. Como os dados utilizados na aplicao so multivariados, a verso multivariada do modelo ICAR (Besag e Kooperberg (1995)), o MVCAR, foi aplicada para modelar
os efeitos aleatrios espaciais dos dados. Os resultados evidenciaram forte autocorrelao entre os
efeitos espaciais de cncer de pulmo e cncer de estmago, cncer de pulmo e cncer de clon;

79

7.0

80

e cncer de estmago e cncer de clon. Numa segunda etapa do trabalho foi aplicado o Modelo
Hierrquico Bayesiano Dinmico, que possibilitou aprofundar o conhecimento dos riscos relativos
das doenas em estudo, com respeito sua ocorrncia no decorrer do tempo. De um modo geral,
as estimativas obtidas no diferiram signicativamente das obtidas para o modelo sem a dimenso temporal. Com isso, apesar de a proposta para este trabalho poder ser considerada cumprida,
uma perspectiva futura para aprofundar o conhecimento nos modelos em estudo trabalhar com
a incluso de covariveis neste modelo, bem como nas implicaes tericas a que tal mudana
leva, e nas vantagens de tal abordagem com respeito capturar a estrutura espacial comum entre
as doenas.

Referncias Bibliogrcas
Assuno e Krainski (2009) Renato Assuno e Elias Krainski. Neighborhood dependence in
bayesian spatial models. Biometrical Journal, 51(5):851869. Citado na pg. 21
Assuno e Castro (2004) Renato M Assuno e Mnica SM Castro. Multiple cancer sites incidence rates estimation using a multivariate bayesian model. International journal of epidemiology, 33(3):508516. Citado na pg. 6
Besag (1974) Julian Besag. Spatial interaction and the statistical analysis of lattice systems. Journal of the Royal Statistical Society. Series B (Methodological), pginas 192236. Citado na pg. 9,
14, 17, 18, 79
Besag e Kooperberg (1995) Julian Besag e Charles Kooperberg. On conditional and intrinsic
autoregressions. Biometrika, 82(4):733746. Citado na pg. 18, 20, 79
Besag et al. (1991) Julian Besag, Jeremy York e Annie Molli. Bayesian image restoration, with
two applications in spatial statistics. Annals of the Institute of Statistical Mathematics, 43(1):
120. Citado na pg. 8, 14, 19, 20
Best et al. (2005) Nicky Best, Sylvia Richardson e Andrew Thomson. A comparison of bayesian
spatial models for disease mapping. Statistical methods in medical research, 14(1):3559. Citado
na pg. 8
Best et al. (1999) Nicola G Best, Katja Ickstadt e Robert L Wolpert. Spatial poisson regression for
health and exposure data measured at disparate resolutions. Journal of the American statistical
association, 95(452):10761088. Citado na pg. 6
Carlin e Banerjee (2003) Bradley P Carlin e Sudipto Banerjee. Hierarchical multivariate car
models for spatio-temporally correlated survival data. Bayesian statistics, 7:4563. Citado na pg.
21
Clayton e Kaldor (1987) David Clayton e John Kaldor. Empirical bayes estimates of agestandardized relative risks for use in disease mapping. Biometrics, pginas 671681. Citado na
pg. 6
Congdon (2007) Peter Congdon. Bayesian statistical modelling, volume 704. Wiley. com. Citado na
pg. 6, 20
Cressie (1993) Noel AC Cressie. Statistics for Spatial Data, revised edition. Wiley, New York.
Citado na pg. 15, 16
DATASUS (Visitada em junho/2013) DATASUS. Sistema de informaao de mortalidade (sim).
URL http://200.214.130.44/sim/default.asp. Citado na pg. 29

81

7.0

REFERNCIAS BIBLIOGRFICAS

82

Eberly et al. (2000) Lynn E Eberly, Bradley P Carlin et al. Identiability and convergence issues
for markov chain monte carlo tting of spatial models. Statistics in Medicine, 19(1718):2279
2294. Citado na pg. 20, 21
Fahrmeir e Lang (2001) Ludwig Fahrmeir e Stefan Lang. Bayesian inference for generalized
additive mixed models based on markov random eld priors. Journal of the Royal Statistical
Society: Series C (Applied Statistics), 50(2):201220. Citado na pg. 59
Gelfand e Smith (1990) Alan E Gelfand e Adrian FM Smith. Sampling-based approaches to
calculating marginal densities. Journal of the American statistical association, 85(410):398
409. Citado na pg. 27
Gelfand e Vounatsou (2003) Alan E Gelfand e Penelope Vounatsou. Proper multivariate conditional autoregressive models for spatial data analysis. Biostatistics, 4(1):1115. Citado na pg.
22
Gelman et al. (2013a) Andrew Gelman, John B Carlin, Hal S Stern, David B Dunson, Aki Vehtari
e Donald B Rubin. Bayesian data analysis. CRC press. Citado na pg. 77
Gelman et al. (2013b) Andrew Gelman, Jessica Hwang e Aki Vehtari. Understanding predictive
information criteria for bayesian models. Statistics and Computing, pginas 120. Citado na pg. 77
Geman e Geman (1984) Stuart Geman e Donald Geman. Stochastic relaxation, gibbs distributions, and the bayesian restoration of images. Pattern Analysis and Machine Intelligence, IEEE
Transactions on, (6):721741. Citado na pg. 25
Guerra et al. (2005) Maximiliano Ribeiro Guerra, CV de M Gallo, GAS Mendona e GA Silva.
Risco de cncer no brasil: tendncias e estudos epidemiolgicos mais recentes. Rev bras cancerol, 51(3):22734. Citado na pg. 69
Harrison e Stevens (1976) P Jeffrey Harrison e Colin F Stevens. Bayesian forecasting. Journal
of the Royal Statistical Society. Series B (Methodological), pginas 205247. Citado na pg. 10
Hastings (1970) W Keith Hastings. Monte carlo sampling methods using markov chains and their
applications. Biometrika, 57(1):97109. Citado na pg. 24
Hilbe (2011) Joseph M Hilbe. Negative binomial regression. Cambridge University Press. Citado na
pg. 6
Kramer e Williamson (2013) Michael R. Kramer e Rebecca Williamson. Multivariate bayesian
spatial model of preterm birth and cardiovascular disease among georgia women: Evidence for
life course social determinants of health. Spatial and Spatio-temporal Epidemiology, 6(0):25
35. Citado na pg. 21
Knsch (1987) Hans R Knsch. Intrinsic autoregressions and related models on the twodimensional lattice. Biometrika, 74(3):517524. Citado na pg. 18
Lang e Brezger (2000) Stefan Lang e Andreas Brezger. Bayesx-software for bayesian inference
based on markov chain monte carlo simulation techniques. Citado na pg. 9
Lawson (2008) Andrew B Lawson. Bayesian disease mapping: hierarchical modeling in spatial
epidemiology, volume 32. CRC Press. Citado na pg. 7, 8, 22

7.0

REFERNCIAS BIBLIOGRFICAS

83

Lunn et al. (2009) David Lunn, David Spiegelhalter, Andrew Thomas e Nicky Best. The bugs
project: Evolution, critique and future directions. Statistics in medicine, 28(25):30493067.
Citado na pg. 1
Lunn et al. (2000) David J Lunn, Andrew Thomas, Nicky Best e David Spiegelhalter. Winbugs-a
bayesian modelling framework: concepts, structure, and extensibility. Statistics and computing,
10(4):325337. Citado na pg. 9
Metropolis et al. (1953) Nicholas Metropolis, Arianna W Rosenbluth, Marshall N Rosenbluth,
Augusta H Teller e Edward Teller. Equation of state calculations by fast computing machines.
The journal of chemical physics, 21:1087. Citado na pg. 24
Molli (1996) Annie Molli. Bayesian mapping of disease. Markov chain Monte Carlo in practice,
1:359379. Citado na pg. 13
Ripley (2005) Brian D Ripley. Spatial statistics, volume 575. Wiley. com. Citado na pg. 15
Rodrigues e Assuno (2012) Erica Castilho Rodrigues e R Assuno. Bayesian spatial models
with a mixture neighborhood structure. Journal of Multivariate Analysis, 109:88102. Citado na
pg. 21
Shaddick e Wakeeld (2002) Gavin Shaddick e Jon Wakeeld. Modelling daily multivariate
pollutant data at multiple sites. Journal of the Royal Statistical Society: Series C (Applied
Statistics), 51(3):351372. Citado na pg. 58, 59
SILVA et al. (2011) APR de SILVA, CP Noronha, JLO Silva et al. Estimativa 2012: incidncia de
cncer no brasil. Rio de Janeiro: Instituto Nacional de Cncer Jos Alencar Gomes da Silva.
Citado na pg. 44
Song et al. (2006) J.J. Song, M. Ghosh, S. Miaou e B. Mallick. Bayesian multivariate spatial
models for roadway trafc crash mapping. Journal of Multivariate Analysis, 97(1):246 273.
Citado na pg. 7, 21
Spiegelhalter et al. (2002) David J Spiegelhalter, Nicola G Best, Bradley P Carlin e Angelika Van
Der Linde. Bayesian measures of model complexity and t. Journal of the Royal Statistical
Society: Series B (Statistical Methodology), 64(4):583639. Citado na pg. 77
Stern e Cressie (2000) Hal S Stern e Noel Cressie. Posterior predictive model checks for disease
mapping models. Statistics in medicine, 19(17-18):23772397. Citado na pg. 3, 19
Thomas et al. (2004) Andrew Thomas, Nicky Best, Dave Lunn, Richard Arnold e David Spiegelhalter. Geobugs user manual. < www. mrc-bsu. cam. ac. uk/bugs/winbugs/geobugs. shtml.
Citado na pg. 8, 60
Waller et al. (1997) Lance A Waller, Bradley P Carlin, Hong Xia e Alan E Gelfand. Hierarchical
spatio-temporal mapping of disease rates. Journal of the American Statistical Association, 92
(438):607617. Citado na pg. 7
West e Harrison (1997) Mike West e Jeff Harrison. Bayesian Forecasting and Dynamic Models.
Springer, New York. Citado na pg. 10
West et al. (1985) Mike West, P Jeff Harrison e Helio S Migon. Dynamic generalized linear
models and bayesian forecasting. Journal of the American Statistical Association, 80(389):
7383. Citado na pg. 10

REFERNCIAS BIBLIOGRFICAS

84

Xia et al. (1997) Hong Xia, BRADLEY P Carlin e Lance A Waller. Hierarchical models for
mapping ohio lung cancer rates. Environmetrics, 8(2):107120. Citado na pg. 7
Xie e Carlin (2006) Yang Xie e Bradley P. Carlin. Measures of bayesian learning and identiability in hierarchical models. Journal of Statistical Planning and Inference, 136(10):3458 3477.
Citado na pg. 21, 22

Apndice A - Cdigo do OpenBUGS para


aplicao do Modelo Hierrquico Bayesiano
model {
for (i in 1 : Nareas) {
for (k in 1 : Ndiseases) {
Y[i, k] ~ dpois(mu[i, k])
log(mu[i, k]) <- log(E[i, k]) + alpha[k] + S[k, i]
RR1[i] <- exp(alpha[1] + S[1, i])
RR2[i] <- exp(alpha[2] + S[2, i])
RR3[i] <- exp(alpha[3] + S[3, i])
RR4[i] <- exp(alpha[4] + S[4, i])
RR5[i] <- exp(alpha[5] + S[5, i])
}
S[1:Ndiseases, 1 : Nareas] ~ mv.car(adj[], weights[], num[], omega[ , ])
for (i in 1:sumNumNeigh) {weights[i] <- 1 }
# Outras prioris
for (k in 1 : Ndiseases) {alpha[k] ~ dflat()}
omega[1 : Ndiseases, 1 : Ndiseases] ~ dwish(R[ , ], Ndiseases)
sigma2[1 : Ndiseases, 1 : Ndiseases] <- inverse(omega[ , ])
# Quantidades de interesse
sigma[1] <- sqrt(sigma2[1, 1])
sigma[2] <- sqrt(sigma2[2, 2])
sigma[3] <- sqrt(sigma2[3, 3])
sigma[4] <- sqrt(sigma2[4, 4])
sigma[5] <- sqrt(sigma2[5, 5])
corr12 <- sigma2[1, 2] / (sigma[1] * sigma[2])
corr13 <- sigma2[1, 3] / (sigma[1] * sigma[3])
corr14 <- sigma2[1, 4] / (sigma[1] * sigma[4])
corr15 <- sigma2[1, 5] / (sigma[1] * sigma[5])
corr23 <- sigma2[2, 3] / (sigma[2] * sigma[3])
corr24 <- sigma2[2, 4] / (sigma[2] * sigma[4])
corr25 <- sigma2[2, 5] / (sigma[2] * sigma[5])
corr34 <- sigma2[3, 4] / (sigma[3] * sigma[4])
corr35 <- sigma2[3, 5] / (sigma[3] * sigma[5])
corr45 <- sigma2[4, 5] / (sigma[4] * sigma[5])
mean1 <- mean(S[1,])
mean2 <- mean(S[2,])
mean3 <- mean(S[3,])
mean4 <- mean(S[4,])
mean5 <- mean(S[5,]) }

85

Apndice B - Cdigo do OpenBUGS para


aplicao do Modelo Hierrquico Bayesiano
Dinmico
model {
for (i in 1 : Nareas) {
for (k in 1 : Ndiseases) {
for (t in 1:T) {
Y[k,i, t] ~ dpois(mu[k,i, t])
log(mu[k,i, t]) <- log(E[k,i, t]) + alpha[k] + theta[k,t] + S[k, i]
RR[k,i, t]<- exp(alpha[k] + theta[k,t] + S[k, i])
}}}
# Distribuies a priori
for (k in 1 : Ndiseases) {
alpha[k] ~ dflat()}
S[1:Ndiseases, 1:Nareas] ~ mv.car(adj[], weights[], num[], omega[ , ])
for (i in 1:sumNumNeigh) {
weights[i] <- 1 }
omega[1 : Ndiseases, 1 : Ndiseases] ~ dwish(R[ , ], Ndiseases)
sigma2[1 : Ndiseases, 1 : Ndiseases] <- inverse(omega[ , ])
theta[1:Ndiseases,1:T] ~ mv.car(adjt[], weightst[], numt[], omegat[ , ])
# Especificar a matrizes de peso e de adjacncia correspondentes a priori RW(1)
for(t in 1:1) {
weightst[t] <- 1;
adjt[t] <- t+1;
numt[t] <- 1
}
for(t in 2:(T-1)) {
weightst[2+(t-2)*2] <- 1;
adjt[2+(t-2)*2] <- t-1
weightst[3+(t-2)*2] <- 1;
adjt[3+(t-2)*2] <- t+1;
numt[t] <- 2
}
for(t in T:T) {
weightst[(T-2)*2 + 2] <- 1;
adjt[(T-2)*2 + 2] <- t-1;
numt[t] <- 1
}
omegat[1 : Ndiseases, 1 : Ndiseases] ~ dwish(Rt[ , ], Ndiseases)
86

APNDICE B - CDIGO DO OPENBUGS PARA APLICAO DO MODELO HIERRQUICO BAYESIANO


DINMICO
87

sigmat2[1 : Ndiseases, 1 : Ndiseases] <- inverse(omegat[ , ])


# Valores de interesse
for(k in 1:Ndiseases) {
sigma[k] <- sqrt(sigma2[k, k])
}
for (j in 1 : Ndiseases) {
for(k in 1:Ndiseases) {
corr[j,k]<-sigma2[j,k] / (sigma[j] * sigma[k])}}
for (k in 1:Ndiseases) {
meanS[k] <- mean(S[k,])}
for(k in 1:Ndiseases) {
sigmat[k] <- sqrt(sigmat2[k, k])}
for (j in 1 : Ndiseases) {
for(k in 1:Ndiseases) {
corrt[j,k]<-sigmat2[j,k] / (sigmat[j] * sigmat[k])}}
for(k in 1:Ndiseases) {
meant[k] <- mean(theta[k,])}}

Apndice C - Grcos para anlise de


convergncia dos modelos

Figura 1: Grcos da trajetria, autocorrelao, e densidade a posteriori da cadeia para o Risco Relativo
obtido para o modelo 1 referente aos bitos por cada doena em estudo segundo as microrregies do estado
de So Paulo, de 1998 a 2010.

88

APNDICE C - GRFICOS PARA ANLISE DE CONVERGNCIA DOS MODELOS

89

Figura 2: Grcos da trajetria, autocorrelao, e densidade a posteriori da cadeia para o parmetro de


intercepto a posteriori obtido para o modelo 2 referente aos bitos por cada doena em estudo segundo as
microrregies do estado de So Paulo, de 1998 a 2010.

APNDICE C - GRFICOS PARA ANLISE DE CONVERGNCIA DOS MODELOS

90

Figura 3: Grcos da trajetria, autocorrelao, e densidade a posteriori da cadeia para , obtido para
o modelo 2 referente aos bitos por cncer de traqueia, brnquios e pulmo segundo as microrregies do
estado de So Paulo, de 1998 a 2010.

Figura 4: Grcos da trajetria, autocorrelao, e densidade a posteriori da cadeia para , obtido para
o modelo 2 referente aos bitos por cncer de mama feminino segundo as microrregies do estado de So
Paulo, de 1998 a 2010.

APNDICE C - GRFICOS PARA ANLISE DE CONVERGNCIA DOS MODELOS

91

Figura 5: Grcos da trajetria, autocorrelao, e densidade a posteriori da cadeia para , obtido para o
modelo 2 referente aos bitos por cncer de lbios, cavidade oral e faringe as microrregies do estado de
So Paulo, de 1998 a 2010.

Figura 6: Grcos da trajetria, autocorrelao, e densidade a posteriori da cadeia para , obtido para o
modelo 2 referente aos bitos por cncer de estmago segundo as microrregies do estado de So Paulo,
de 1998 a 2010.

APNDICE C - GRFICOS PARA ANLISE DE CONVERGNCIA DOS MODELOS

92

Figura 7: Grcos da trajetria, autocorrelao, e densidade a posteriori da cadeia para , obtido para
o modelo 2 referente aos bitos por cncer de clon segundo as microrregies do estado de So Paulo, de
1998 a 2010.

Figura 8: Grcos da trajetria, autocorrelao, e densidade a posteriori da cadeia para o Risco a posteriori obtido para o modelo 2 referente aos bitos por cncer de traqueia, brnquios e pulmo segundo as
microrregies do estado de So Paulo, para trs anos do perodo.

APNDICE C - GRFICOS PARA ANLISE DE CONVERGNCIA DOS MODELOS

93

Figura 9: Grcos da trajetria, autocorrelao, e densidade a posteriori da cadeia para o Risco a posteriori obtido para o modelo 2 referente aos bitos por cncer de mama feminino segundo as microrregies
do estado de So Paulo, para trs anos do perodo.

Figura 10: Grcos da trajetria, autocorrelao, e densidade a posteriori da cadeia para o Risco a
posteriori obtido para o modelo 2 referente aos bitos por cncer de lbios, cavidade oral e faringe segundo
as microrregies do estado de So Paulo, para trs anos do perodo.

APNDICE C - GRFICOS PARA ANLISE DE CONVERGNCIA DOS MODELOS

94

Figura 11: Grcos da trajetria, autocorrelao, e densidade a posteriori da cadeia para o Risco a
posteriori obtido para o modelo 2 referente aos bitos por cncer de estmago segundo as microrregies
do estado de So Paulo, para trs anos do perodo.

Figura 12: Grcos da trajetria, autocorrelao, e densidade a posteriori da cadeia para o Risco a
posteriori obtido para o modelo 2 referente aos bitos por cncer de clon segundo as microrregies do
estado de So Paulo, para trs anos do perodo.

Apndice D - Estimativas dos efeitos


temporais do modelo dinmico para cada
doena
Tabela 1: Estimativas dos parmetros, erros padres, e intervalos de credibilidade de 95% para os efeitos
temporais do modelo 2 referente cncer de traqueia, brnquios e pulmo
Parmetro

Mdia

Erro Padro

ICr(95%)

1,1

-0.00658

0.03442

(-0.07436, 0.06058)

1,2

-0.004817

0.03382

(-0.07219, 0.06075)

1,3

-0.002662

0.03211

(-0.06527, 0.06058)

1,4

-0.001656

0.03109

(-0.06282, 0.05927)

1,5

-2.81E-01

0.02907

(-0.05692, 0.05712)

1,6

6.19E-01

0.03011

(-0.05873, 0.05893)

1,7

3.04E-01

0.02813

(-0.05520, 0.05532)

1,8

7.16E-01

0.02736

(-0.05352, 0.05482)

1,9

0.001727

0.02703

(-0.05045, 0.05430)

1,10

0.003061

0.02687

(-0.05029, 0.05639)

1,11

0.002471

0.02727

(-0.05227, 0.05564)

1,12

0.002646

0.02561

(-0.04783, 0.05298)

1,13

0.004452

0.02732

(-0.05019, 0.05849)

95

APNDICE D - ESTIMATIVAS DOS EFEITOS TEMPORAIS DO MODELO DINMICO PARA CADA


DOENA
96

Tabela 2: Estimativas dos parmetros, erros padres, e intervalos de credibilidade de 95% para os efeitos
temporais do modelo 2 referente cncer de mama feminino
Parmetro

Mdia

Erro Padro

ICr(95%)

2,1

-0.004763

0.03635

(-0.07611, 0.06698)

2,2

-0.003798

0.0349

(-0.07308, 0.06395)

2,3

-0.003181

0.0327

(-0.06888, 0.06133)

2,4

-0.002319

0.03323

(-0.06680, 0.06239)

2,5

-9.93E-01

0.03418

(-0.06866, 0.06635)

2,6

-0.001243

0.03584

(-0.07344, 0.06910)

2,7

-5.41E-01

0.03337

(-0.06533, 0.06425)

2,8

0.001287

0.0306

(-0.05956, 0.06126)

2,9

0.002156

0.02937

(-0.05506, 0.05914)

2,10

0.003566

0.02863

(-0.05266, 0.05993)

2,11

0.003551

0.02867

(-0.05246, 0.06000)

2,12

0.003234

0.0277

(-0.05064, 0.05779)

2,13

0.003044

0.02872

(-0.05345, 0.05903)

Tabela 3: Estimativas dos parmetros, erros padres, e intervalos de credibilidade de 95% para os efeitos
temporais do modelo 2 referente cncer de lbio, cavidade oral e faringe
Parmetro

Mdia

Erro Padro

ICr(95%)

3,1

-1.64E-01

0.04485

(-0.08856 0.08746)

3,2

-5.78E-01

0.03989

(-0.07857 0.07657)

3,3

0.001101

0.03776

(-0.07255 0.07438)

3,4

5.98E-04

0.03648

(-0.07029 0.07288)

3,5

7.61E-01

0.03424

(-0.06795 0.06794)

3,6

4.69E-01

0.03318

(-0.06608 0.06538)

3,7

-0.001282

0.03192

(-0.06416 0.06182)

3,8

-1.38E-01

0.03223

(-0.06369 0.06295)

3,9

-4.41E-01

0.02952

(-0.05810 0.05717)

3,10

4.70E-01

0.02924

(-0.05633 0.05705)

3,11

-0.002196

0.03212

(-0.06638 0.06078)

3,12

-0.001938

0.03186

(-0.06415 0.05986)

3,13

0.003338

0.03504

(-0.06507 0.07229)

APNDICE D - ESTIMATIVAS DOS EFEITOS TEMPORAIS DO MODELO DINMICO PARA CADA


DOENA
97

Tabela 4: Estimativas dos parmetros, erros padres, e intervalos de credibilidade de 95% para os efeitos
temporais do modelo 2 referente cncer de estmago
Parmetro

Mdia

Erro Padro

ICr(95%)

4,1

-0.003098

0.0357

(-0.07399, 0.06685)

4,2

-0.002974

0.03469

(-0.07246, 0.06446)

4,3

-0.001789

0.03264

(-0.06446, 0.06185)

4,4

-0.001411

0.03189

(-0.06417, 0.06058)

4,5

-7.87E-01

0.02969

(-0.05992, 0.05828)

4,6

-3.56E-01

0.02885

(-0.05669, 0.05612)

4,7

-3.61E-01

0.02739

(-0.05444, 0.05231)

4,8

9.00E-01

0.02796

(-0.05476, 0.05562)

4,9

9.55E-04

0.02757

(-0.05348, 0.05523)

4,10

0.001722

0.02693

(-0.05214, 0.05349)

4,11

9.77E-01

0.02881

(-0.05548, 0.05724)

4,12

0.002516

0.02731

(-0.05098, 0.05606)

4,13

0.003706

0.02848

(-0.05297, 0.05858)

Tabela 5: Estimativas dos parmetros, erros padres, e intervalos de credibilidade de 95% para os efeitos
temporais do modelo 2 referente cncer de clon
Parmetro

Mdia

Erro Padro

ICr(95%)

5,1

-0.004759

0.04869

(-0.10110, 0.09020)

5,2

-0.003865

0.04116

(-0.08498, 0.07785)

5,3

-0.002746

0.03988

(-0.08106, 0.07482)

5,4

-0.00156

0.03887

(-0.07896, 0.07475)

5,5

-7.62E-01

0.03654

(-0.07280, 0.07078)

5,6

3.92E-01

0.03424

(-0.06695, 0.06763)

5,7

4.89E-01

0.03394

(-0.06566, 0.06603)

5,8

9.83E-01

0.03296

(-0.06390, 0.06620)

5,9

0.001335

0.03283

(-0.06381, 0.06542)

5,10

0.002110

0.03104

(-0.05898, 0.06311)

5,11

0.001411

0.03153

(-0.06037, 0.06398)

5,12

0.002349

0.03053

(-0.05725, 0.06262)

5,13

0.004623

0.0321

(-0.05817, 0.06713)

Apndice E - Mapa do estado de So Paulo


segundo as microrregies do IBGE

Figura 13: Mapa do Estado de So Paulo segundo microrregies.

98

S-ar putea să vă placă și