Documente Academic
Documente Profesional
Documente Cultură
Julho, 2015
Empresa Brasileira de Pesquisa Agropecuria
Embrapa Amaznia Oriental
Ministrio da Agricultura, Pecuria e Abastecimento
Documentos 412
Uma Breve Introduo
Estatstica Bayesiana Aplicada
ao Melhoramento Gentico
Animal
Vivian Dagnesi Timpani
Thialla Emille Costa do Nascimento
Embrapa 2015
Autores
Agradecimentos
Apresentao
Sumrio
Inferncia bayesiana.......................................................................34
Varivel Aleatria............................................................................34
Densidade de Probabilidade.............................................................36
Intervalo de credibilidade.................................................................37
Distribuio a posteriori...................................................................38
Distribuies que compem a distribuio a posteriori.....................39
Distribuio de probabilidade conjunta..............................................39
Distribuio de probabilidade marginal..............................................39
Distribuio de probabilidade condicional..........................................40
Referncias.......................................................................................55
Introduo
Quando comecei a estudar a estatstica bayesiana em virtude da minha
tese de doutorado, como zootecnista, senti uma falta muito grande de
literatura que explicasse no o matematiqus do assunto, mas sim
os princpios, definies e interpretaes que deveriam ser entendidos
e usados. Quando me propuseram a realizar um curso sobre o assunto,
pensei: por que no transformar toda aquela estatstica dos livros de
estatstica bayesiana em um material que pudesse ser utilizado por
profissionais da rea de Agrrias com simplicidade? Assim, coloquei-me
na frente do meu computador e de uma montanha de livros e artigos
para produzir este material, que um apanhado mais um resumo de
vrios trabalhos, em que tentei traduzir a beleza e funcionalidade dessa
teoria.
Foi ento que tive a oportunidade de ler um livro muito interessante,
chamado Uma senhora toma ch..., que iniciava contando uma histria.
Diz a histria que, numa tarde de vero na Inglaterra, um grupo de
professores tomava ch (lembrem-se: os ingleses tomam ch com leite
todas as tardes) e uma senhora afirmou que o ch servido sobre o leite
tinha um gosto diferente do leite servido sobre o ch. Um homenzinho
(porque ele era baixinho!), chamado Ronald Fischer (com certeza
12
13
14
OBSERVAO
Nunca podemos determinar realmente esses parmetros; podemos
apenas estim-los pelos dados.
As inferncias baseiam-se no nmero de estimativas que esto
distribudas ao redor do valor parmetro e espera-se que o intervalo
contenha, em certa proporo das amostras (repeties), o valor real
do parmetro. Dessa forma, o resultado dado em probabilidade e a
estimativa do parmetro em estudo uma distribuio de densidade
probabilstica, em um determinado conjunto de dados (BLASCO, 2001).
Na metodologia bayesiana, o conceito de repetio no existe. A
informao do parmetro estudado resumida pela maior probabilidade
de o parmetro assumir um determinado valor ou pela probabilidade de
o valor do parmetro estar dentro de certo intervalo (BLASCO, 2001;
FARIA et al., 2007).
Para a estatstica clssica, o valor real do parmetro sempre fixo e as
repeties ou amostras so aleatrias e a incerteza sobre o valor real
do parmetro (erro) ignorada (BLASCO, 2001).
Para a estatstica bayesiana, a amostra (conjunto de dados) fixa
e o parmetro aleatrio (BLASCO, 2001; FARIA et al., 2007).
A inferncia bayesiana tem como caracterstica essencial o uso
da probabilidade para quantificar as incertezas, ou seja, o grau de
confiana que o pesquisador tem sobre o valor do parmetro (SAVIAN,
2008).
A estatstica clssica representada, atualmente, no processo de
seleo das espcies animais de interesse zootcnico, pelo modelo
misto. No entanto, essa metodologia tem apresentado algumas
limitaes, tais como a necessidade de grande recurso computacional,
a pressuposio da normalidade (nem todas as caractersticas avaliadas
tm esse tipo de distribuio) e a construo de intervalos de confiana
15
16
QUADRO COMPARATIVO
1.
A estatstica bayesiana utiliza o conhecimento prvio do pesquisador
(informao a priori) adicionalmente aos dados na anlise estatstica. A
informao a priori na estatstica clssica no usada porque considerada,
na maioria dos casos, subjetiva. A estatstica clssica tem menos informaes
disponveis para a anlise, j a estatstica bayesiana tem concluses mais
fortes para o mesmo conjunto de dados analisado.
2.
Na estatstica clssica, considerado que h apenas um valor para o
parmetro estudado. Na estatstica bayesiana, considera-se a existncia de
vrios valores possveis para o parmetro, originando assim uma distribuio
de probabilidades desses valores para os dados estudados.
3. Na estatstica clssica, as inferncias so feitas com base na verossimilhana e
tratam os parmetros como fixos e desconhecidos e os dados como aleatrios
e conhecidos. Na estatstica bayesiana, as inferncias so provenientes da
distribuio a posteriori (conhecimento prvio do pesquisador + dados do
experimento) e os parmetros so aleatrios e desconhecidos; e os dados so
fixos e conhecidos.
4.
Ambas as escolas, clssica e bayesiana, utilizam a verossimilhana na
realizao de suas inferncias. De um lado, a verossimilhana assume
um papel central na inferncia bayesiana, como a funo que expressa
toda a informao proveniente dos dados. Por outro lado, o mtodo da
Mxima Verossimilhana ou ML (Maximum Likelihood) possui interessantes
propriedades usadas pelos estatsticos clssicos.
5. No melhoramento gentico animal, as inferncias obtidas em ambas as escolas
no so sempre coincidentes, particularmente para amostras pequenas e
quando a anlise bayesiana utiliza informaes a priori muito informativas.
Porm, quando o conjunto de dados suficientemente grande, os resultados
so bastante similares na maioria dos casos.
Fonte: Leandro (2001); Memria (2004).
17
18
Probabilidade: o paradigma
bayesiano
Quando um pesquisador planeja um experimento, ele deve levar em
considerao as informaes que existem nos dados utilizados e a
presena de um elemento de incerteza ou erro (FERREIRA, 2005).
Paradigma: Termo com o qual Thomas Kuhn designou as realizaes
cientficas que geram modelos que, por perodo mais ou menos longo
e de modo mais ou menos explcito, orientam o desenvolvimento
posterior das pesquisas exclusivamente na busca da soluo para os
problemas por elas suscitados (DICIONRIO...,2009).
O conceito de probabilidade na estatstica bayesiana extremamente
importante e est ligado ideia de grau de confiana (afinal o erro
est interferindo na anlise) ou veracidade de uma hiptese testada
(PAULINO et al., 2003).
Hiptese: Suposio que orienta uma investigao por antecipar
caractersticas provveis do fenmeno estudado.
Sob o ponto de vista da estatstica clssica, a definio mais
interessante sobre probabilidade diz que a Probabilidade de um
dado evento a proporo de vezes que esse evento ocorre em
um determinado perodo de tempo (SALSBURG, 2009). Em outras
palavras, um evento (por exemplo, tirar 6 no lanamento de um dado)
tem uma probabilidade x ligada ao nmero de vezes que o evento
(nmero 6) aparece numa sequncia de lanamentos seguidos do dado.
O conceito de probabilidade de um fenmeno obtido realizando um
experimento n vezes e anotando o nmero de vezes (r) que o fenmeno
de interesse ocorre (FERREIRA, 2005).
P(A) = r/n
Onde:
r o resultado obtido da ocorrncia do evento estudado.
n o nmero de repeties realizadas no experimento.
Do ponto de vista bayesiano, todos os parmetros estudados em
um fenmeno so desconhecidos e incertos e essa incerteza deve
ser quantificada em termos de probabilidade (PAULINO et al., 2003;
SORENSEN; GIANOLA, 2002).
Assim, a probabilidade representa o grau de crena (no caso, a opinio
do pesquisador) condicionado informao existente sobre o fenmeno
estudado. uma medida subjetiva e pode variar de pesquisador para
pesquisador, pois a experincia e a fonte dessa informao que cada
um possui so diferenciadas.
OBSERVAO
Essa informao prvia que o pesquisador possui sobre o fenmeno na
estatstica bayesiana chamada de informao a priori.
Para os estatsticos bayesianos, cada problema estudado nico, com
caractersticas e valores para os parmetros estimados exclusivos. Com
isso, o grau de conhecimento varia de problema para problema (mesmo
que o objetivo de cada problema seja o mesmo, como por exemplo,
estimar herdabilidade para peso a desmame na raa Nelore).
Assim, a informao a priori possui uma variabilidade que s pode ser
interpretada em termos de distribuio de probabilidade, chamada de
distribuio a priori (PAULINO et al., 2003).
No entanto, essa informao a priori est condicionada a certas
condies experimentais de onde ela foi obtida. Segundo Salsburg
(2009), a informao a priori pode ser explicada por meio da seguinte
analogia:
19
20
...No sculo 18, a cidade de Veneza era governada por um grupo de famlias nobres que tinha como chefe de estado um membro de uma destas famlias doge que era escolhido por eleio. Nesta eleio,
inicialmente, um pequeno grupo de membros das famlias reinantes era
escolhido como eleitor. Esta escolha era feita atravs de um sorteio,
onde, apenas, nove membros (dos 30 que compunham o grupo) seriam
aceitos como eleitor e assim poderiam votar. Eram usadas 30 bolas de
cera, com e sem uma tira de papel escrito eleitor dentro. Cada membro
do grupo de candidatos a eleitor tirava (um por vez) uma bola.
Antes que o primeiro candidato tirasse a sua bola, a chance (probabilidade) de cada membro do grupo ser eleitor era de 9/30. Se a primeira
bola estivesse com o papel em branco, cada um dos remanescentes
tinha a probabilidade 9/29 de ser eleitor. Porm, se a primeira bola estivesse com a tira de papel escrita, cada um dos remanescentes tinha
a probabilidade 8/29 de ser eleitor. A cada bola tirada, a chance de o
prximo membro ser eleito, diminua ou aumentava, dependendo do
resultado obtido anteriormente.
OBSERVAO
A ideia da probabilidade condicional est baseada no fato de que um
evento pode assumir diferentes valores e todos eles estarem corretos
(FERREIRA, 2005).
Assim, a probabilidade condicional representa, em termos
probabilsticos, a possibilidade de os eventos serem observados quando
se impem condies para que o experimento ou as anlises sejam
realizadas (SORENSEN; GIANOLA, 2002).
Porm, na ltima dcada do sculo 18, o Reverendo Thomas Bayes
descobriu que poderamos calcular a probabilidade do evento B (antes)
condicionada probabilidade do evento A (depois). Bayes inverteu o
conceito de probabilidade e essa teoria foi chamada de probabilidade
inversa.
Um exemplo para ajudar a entender a ideia de Bayes:
Probabilidade clssica: Qual a probabilidade de um fumante ter cncer
no pulmo?
DO ANTES PARA O DEPOIS
DA CAUSA PARA O EFEITO
Probabilidade de Bayes: Qual a probabilidade de um paciente com
cncer no pulmo ser fumante?
DO DEPOIS PARA O ANTES
DO EFEITO PARA A CAUSA
21
22
Fundamentos da inferncia
bayesiana
Teorema de Bayes
Com base na probabilidade condicional, a inferncia bayesiana
utiliza o Teorema de Bayes como uma ferramenta de atualizao da
opinio do pesquisador (SILVA, 2006) por meio da aprendizagem
com a experincia. Em outras palavras, o conhecimento inicial sobre
o parmetro estudado modificado depois que o experimento foi
realizado (PAULINO et al., 2003; SAVIAN, 2008).
Em termos de probabilidade, esse teorema mostra como essas
probabilidades mudam quando novos conhecimentos so usados na
anlise, pois essa informao est disponvel antes e separadamente
dos dados obtidos pelo experimento (LEANDRO, 2001).
onde:
B1 o evento estudado no experimento.
A o conjunto de repeties realizadas no experimento.
Bj so todos os eventos possveis de ocorrer no experimento.
Porm, esse teorema mais comumente representado pela expresso:
onde:
p(|x) a distribuio a posteriori.
p() a distribuio a priori do parmetro.
p(x|) a funo de verossimilhana obtida pelos dados (condicional).
23
24
Preto (AA)
AA x aa
Aa x aa
1/2
1/2
Aa x Aa
1/4
1/2
1/4
Preto (Aa)
Marrom (aa)
25
26
1x0.33
0.42
= 0.80
P(y=3 pretos)=1
P(AA)=1/3=0,33
P(Aa|y=3 black)=1-P(AA|y=3 black) = 1-0.80 = 0.20
P(y=3 pretos)=1
P(Aa)=2/3=0,77
prior P(AA)=0.33
prior P(AA|y)=0.80
prior P(Aa)=0.67
prior P(Aa|y)=0.20
Fonte: Blasco (2008); Leandro (2001).
Informao a priori
A informao a priori (expressa em termos de distribuio de
probabilidade) a informao sobre os parmetros estudados obtidos
ou existentes antes da realizao do experimento e serve, na estatstica
bayesiana, para expressar tanto conhecimento como ignorncia sobre
esses parmetros (LEANDRO, 2001).
Quando um fenmeno estudado, vrias hipteses sobre os valores
dos parmetros podem ser formuladas pelo pesquisador. A informao
a priori a hiptese que o pesquisador fixa como sendo o valor
verdadeiro do parmetro estudado. Essa priori pode ser extrada de
fundamentos subjetivos, consideraes particulares ou informaes
anteriores disponveis na literatura. Em outras palavras, a informao a
priori pode ser interpretada como o grau de convico sobre o valor do
parmetro estudado, antes do experimento ou observao dos dados,
e esse conhecimento pode ser formalmente incorporado na anlise
(SORENSEN; GIANOLA, 2002).
O uso desse tipo de informao traz tona uma questo que todo
pesquisador deve fazer antes de iniciar suas anlises.
27
28
29
30
OBSERVAO
Como a distribuio a priori influencia no resultado ou distribuio a
posteriori: ver exemplo do fumante no item Probabilidade: o paradigma
bayesiano.
Existem alguns mtodos para se fazer essa transformao:
a) Mtodo estrutural
Nesse mtodo, a escolha da priori baseada em questes relacionadas
diretamente ao parmetro estudado. Em outras palavras, uma
pesquisa que se realiza sobre o parmetro estudado. Essas questes
sero usadas para que se determine qual a distribuio que o
parmetro possui com base nos conhecimentos do pesquisador ou
especialista.
Trs princpios devem ser considerados nesse mtodo:
1. Fazer as perguntas para que sejam entendidas pelo pesquisador numa
linguagem simples e familiar (termos tcnicos).
2. Identificar os principais efeitos que influenciam o problema estudado.
3. Combinar as informaes recebidas pelo questionrio.
b) Mtodo do histograma
Esse mtodo um processo iterativo no qual o pesquisador monta
intervalos dos possveis valores que o parmetro possa ter e avalia
(para cada intervalo) a probabilidade de esses valores ocorrerem. Com
base nessa informao, o pesquisador monta um histograma (grfico de
barras) para estimar a densidade da probabilidade.
Processo iterativo: a repetio do processo de estimao do
parmetro at o valor estimado convergir para um valor prximo ao
valor real.
c) Mtodo da verossimilhana
Esse mtodo utiliza as verossimilhanas de possveis valores dos
parmetros estudados e constri, por meio de uma anlise de
regresso, uma funo que passa por todos esses pontos. Essa funo
, ento, usada como priori.
31
32
Para que uma priori seja considerada como prpria, a equao abaixo
deve ser sempre igual a 1.
33
34
Inferncia bayesiana
Varivel aleatria
Define-se varivel aleatria como um nmero real xi associado ao
evento Ei e esse nmero est ligado s caractersticas que descrevem o
parmetro estudado (YORIYAZ, 2010).
a. Varivel aleatria discreta: contm um nmero definido e exato de pontos
amostrais. So observaes contadas. Ex: sexo do animal (macho ou
fmea), diagnstico positivo de prenhes em bovinos (sim ou no).
b. Varivel aleatria contnua: os pontos amostrais so contnuos, podendo
assumir qualquer valor. So observaes medidas. Ex: produo de leite,
peso ao desmame, peso da carcaa.
EXPERIMENTO
Uma vaca ter 2 diagnsticos positivos de prenhez consecutivos
S = sim
N = no
Evento
SS
SN
NS
NN
0
P(X=0)=P(NN)=25%
P(X=1)=P(SN NS)=50%
P(X=2)=P(SS)=25%
35
36
Densidade de Probabilidade
Na estatstica, a distribuio de densidade de probabilidade uma
funo utilizada para representar a distribuio de probabilidade de
uma varivel aleatria contnua. Utiliza o clculo de integral como
ferramenta.
OBSERVAO
Somente sero utilizadas na inferncia as probabilidades relacionadas
aos valores do parmetro que esto dentro do intervalo.
Intervalo de credibilidade
O intervalo de credibilidade entre os pontos a e b (chamado pelos
estatsticos clssicos de intervalo de confiana) contm o verdadeiro
valor do parmetro, com uma probabilidade de 95% e que so
facilmente construdos pelos mtodos iterativos usados na estatstica
bayesiana (BLASCO, 2008).
37
38
Distribuio a posteriori
Do ponto de vista bayesiano, fazer a inferncia da anlise utilizar a
distribuio a posteriori. Na abordagem bayesiana, a forma de estudar
os parmetros consiste em esboar o grfico da distribuio a posteriori
que mostra o intervalo no qual o valor real do parmetro est e calcula
as caractersticas dessa distribuio (mdia, varincia, moda, etc.),
obtendo assim toda a informao desse parmetro (LEANDRO, 2001).
Inferncia a passagem da hiptese para a concluso.
A distribuio a posteriori a descrio completa e a atualizao
do conhecimento sobre o parmetro obtido a partir da informao a
priori e da informao dos dados (PAULINO et al., 2003). Ou seja,
o pesquisador observa os dados aps o experimento e esses dados
so usados para modificar as probabilidades anteriores dos valores do
parmetro, produzindo um conjunto de probabilidades posteriores ao
experimento (SALSBURG, 2009).
PROBABILIDADE ANTERIOR DADOS
PROBABILIDADE POSTERIOR
39
40
41
42
43
44
Algoritmo Metropolis-Hastings
Nesse algoritmo, a cada iterao realizada no processo, escolhido um
valor inicial (um ponto candidato y) para os parmetros da distribuio
a posteriori (LEANDRO, 2001).
Se esse ponto candidato for aceito pelo sistema como sendo o valor
aproximado do parmetro estudado, o processo de simulao continua
ocorrendo at a convergncia. Caso contrrio, o processo para e um
novo valor inicial deve ser utilizado (LEANDRO, 2001).
Para que o sistema identifique e aceite o valor gerado, no algoritmo
Metropolis-Hastings, obtm-se para cada valor dado a probabilidade
de transio para o prximo estado (CARNEIRO JUNIOR, 2001).
Um sistema exerce estado de transio (e isso ocorre com certa
probabilidade), quando ocorre a troca do valor do parmetro de uma
iterao (ou estado) para outro valor, na iterao seguinte.
Amostrador de Gibbs
O Amostrador de Gibbs um algoritmo do tipo Metropolis-Hastings,
da famlia do mtodo Monte Carlo da Cadeia de Markov (POLICARPO,
2001) e o mais utilizado no melhoramento gentico animal.
O Amostrador de Gibbs um procedimento que obtm amostras da
distribuio conjunta ou marginal de todos os parmetros estudados
(por exemplo, os componentes de varincia que descrevem uma
caracterstica) por meio de repetidas amostragens, formando uma
Cadeia de Markov. Essa cadeia corresponde a uma sequncia de
amostras de possveis valores atribudos aos parmetros estudados
(POLICARPO, 2001).
medida que o nmero de iteraes aumenta, a sequncia de valores
gerados (cadeia) aproxima-se da distribuio de equilbrio, ou seja, da
densidade marginal e, quando esse equilbrio atingido, diz-se que
ocorreu a convergncia (SAVIAN, 2008; SILVA, 2006; TIMPANI,
2011).
Para iniciar o processo de amostragem, um valor inicial de Y0
assumido e os demais valores da cadeia so gerados de forma iterativa
a partir das distribuies condicionais dos parmetros (POLICARPO,
2001).
Assim, a ideia desse algoritmo gerar uma cadeia nica e longa a partir
de um estado inicial [(0)=(1(0),..... k(0))] e com comprimento m=l+kn,
em que m o nmero de iteraes; l o nmero inicial de iteraes
necessrias para que a cadeia atinja a convergncia; n o nmero
de iteraes que vo ser utilizadas na aplicao do MCMC e k o
intervalo amostral utilizado para eliminar a correlao entre as iteraes
sucessivas (SAVIAN, 2008; TIMPANI, 2011).
No processo de amostragem de Gibbs, o nmero de total de iteraes
que a anlise deve realizar determinado pelo nmero de iteraes
necessrias para a convergncia, para o descarte inicial (burn-in) e o
intervalo amostral (thining interval) (TIMPANI, 2011).
45
46
Diagnstico de convergncia
Os mtodos de MCMC so uma tima ferramenta para resoluo
de muitos problemas prticos na metodologia bayesiana. Porm, as
questes ligadas convergncia da cadeia ainda so uma incgnita na
utilizao dessa metodologia (ABANTO-VALLE, 2005).
A convergncia da cadeia de Markov ocorre quando se percebe certa
estabilidade, ou seja, os valores gerados no processo se mantm os
mesmo de iterao para iterao (LEANDRO, 2001; POLICARPO, 2001).
Para verificar a convergncia, necessrio examinar certas
caractersticas da cadeia produzida. Nesse caso, existem vrios
mtodos (estatsticos e grficos) que podem ser utilizados com esse
fim. No entanto, dois pontos devem ser considerados na escolha do
mtodo de avaliao da convergncia (LEANDRO, 2001):
1. Nenhum mtodo infalvel e a recomendao da convergncia pode ser
feita mesmo quando a cadeia ainda no se estabilizou.
2. conveniente para uma maior acurcia do processo que vrios mtodos
sejam usados em conjunto na determinao da convergncia.
47
48
Fator de Bayes
O Fator de Bayes (FB) usado para comparar a probabilidade a
posteriori ao testar duas hipteses diferentes. Em outras palavras,
corresponde relao entre as probabilidades das diferentes prioris que
podem ser utilizadas no experimento.
O Fator de Bayes assim definido, segundo Kass e Raftery (1995):
FBij=
P(y|Mi)
P(y|Mj)
Em que:
P(y|Mi) a probabilidade da posteriori que expressa a premissa
representada pela hiptese alternativa (H1).
a probabilidade da posteriori que expressa a premissa
P(y|Mj)
representada pela hiptese alternativa (H0).
Como exemplo, considerando que voc queira determinar a existncia
de genes de efeito principal (GEP) na caracterstica Idade ao primeiro
parto em bovinos da raa Nelore (TIMPANI, 2011).
49
50
FBij=
H1
H0
0,0 a 2,0
Baixa
2,1 a 5,0
Positiva
5,1 a 10,0
Forte
> 10,0
Decisiva
Fator de Bayes
1/0
2/1
3/2
4/3
4/5
0,98
0,02
na
29,0
-5,3
na
na
51
52
53
54
Referncias
55
56
57
CGPE 12080