Documente Academic
Documente Profesional
Documente Cultură
pos-genomicos
Projeto de Pesquisa Cientfica
Proponente: Adriano Velasque Werhli
Redes Bayesianas sao modelos probabilsticos representados por grafos onde os nodos repre-
sentam variaveis e as arestas dependencias estatsticas. Elas sao muito flexveis, e por serem
probabilsticas, conseguem lidar com o rudo que e inerente aos sistemas biologicos e as medicoes
biologicas. Outra vantagem das redes Bayesianas e o tratamento da inferencia da rede regula-
toria de uma forma sistemica, conseguindo distinguir interacoes diretas de interacoes que sao
causadas por elementos intermediarios.
Inferir uma rede Bayesiana significa, a partir de um conjunto de dados de treinamento D,
encontrar um grafo acclico direcionado que melhor explica as relacoes entre as variaveis que
geraram estes dados. Definindo M como o espaco de todos os modelos possveis o objetivo e
encontrar o modelo M M com maior aderencia aos dados D:
3
encontrados atraves de:
q = argmaxq {P (q|M , D)} (2)
onde os termos P (D|Mnew ) e P (D|Mold) sao obtidos com a Equacao (4), os termos P (Mnew ) e
P (Mold) sao as probabilidades a priori do modelo e os termos Q(Mold |Mnew ) e Q(Mnew |Mold )
sao as probabilidades de transicao entre um modelo e outro.
A Equacao (5) proporciona um metodo de se amostrar modelos (redes Bayesianas) que es-
tao em melhor concordancia com os dados. Esta e a maneira classica como redes Bayesianas
foram utilizadas em varios trabalhos entre os quais podemos citar Madigan and York (1995);
Werhli et al. (2006); Husmeier (2003).
4
Modelos Graficos Gaussianos
Modelos Graficos Gaussianos (GGMs) sao modelos graficos probabilsticos nao direcionados que
permitem a identificacao de relacoes de independencia condicional entre os nos de uma rede
assumindo uma distribuicao Gaussiana multivariada dos dados. A inferencia de GGMs e baseada
na estimacao estavel da matriz de covariancia da distribuicao.
Um elemento Cik da matriz de covariancia C e relacionado com o coeficiente de correlacao
entre os nos Xi e Xk . Um alto coeficiente de correlacao entre dois nos podem indicar uma
interacao direta, uma interacao indireta ou a regulacao conjunta por um fator comum. Entre-
tanto, somente as interacoes diretas sao de interesse para a construcao das redes regulatorias.
A intensidade destas interacoes diretas e medida pelos coeficientes de correlacao parcial ik , os
quais descrevem a correlacao entre os nos Xi e Xk condicionado a todos os outros nos da rede.
Seguindo a teoria da distribuicao normal e sabido que a matriz de correlacao parcial com
coeficientes de correlacao parcial ik e obtida do inverso da matriz de covariancia C, C1 (com
1
elementos Cik ) (Edwards, 2000):
1
Cik
ik = q (6)
Cii1 Ckk
1
Redes de Relevancia
O metodo de redes de relevancia originalmente proposto em Butte and Kohane (2000, 2003), e
baseado em pontuacoes de associacao de pares de variaveis. Estas pontuacoes sao computadas
para todos os pares possveis de variaveis. Os autores propoe Informacao Mutua (MI) e correlacao
de Pearson como pontuacoes adequadas.
Os coeficientes de Pearson sao computados a partir de dados contnuos e podem capturar
somente relacoes que estao proximas a relacoes lineares. Se x = (x1 , . . . , xk ) e y = (y1 , . . . , yk )
sao a k-dimensao observacoes das variaveis x and y a correlacao de Pearson entre estas variaveis
e dada por: Pk
1
k i=1 (xi x)(yi y)
corr(x, y) = q q (7)
1
Pk 2 1
Pk 2
k i=1 (xi x) k i=1 (yi y)
Apos computar as pontuacoes (correlacoes de Pearson ou MI) para todos os pares de variaveis
presentes um limiar e definido e as interacoes que estao acima deste limiar sao preservadas para
compor a rede inferida. O metodo de redes de relevancia e de facil implementacao e possui
custos computacionais bastante baixos mas fornece somente as relacoes entre as variaveis sem
indicacao da direcao das relacoes.
Redes Booleanas
Redes Booleanas tem sido amplamente utilizadas para a modelagem de redes regulatorias geneti-
cas. Apesar da sua simplicidade, o comportamento dinamico obtido com sua aplicacao representa
com grande acuracia os comportamentos de redes regulatorias reais. Para a inferencia de Redes
Booleanas utilizaremos os metodos apresentados em Lahdesmaki et al. (2003), bem como outros
metodos a serem desenvolvidos no ambito deste projeto de pesquisa. Seguindo a linha de redes
Bayesianas, a ideia e desenvolver um metodo que permita a aplicacao de todos os procedimen-
tos utilizados para a inferencia destas redes, conservando assim as vantagens introduzidas pelas
mesmas. No contexto de redes Booleanas a integral da Equacao 4 nao possui uma solucao ana-
ltica como quando aplicada a redes Bayesianas. Para contornar este problema sera utilizado o
algoritmo ABC (Plagnol and Tavare, 2004), o qual permite o calculo aproximado da integral sem
a necessidade de uma solucao analtica. Este algoritmo ja foi aplicado com sucesso em varios
problemas diferentes, veja (Plagnol and Tavare, 2004; Marjoram et al., 2003; Toni and Stumpf,
2009), e sua principal caracterstica e eliminar a necessidade do calculo mencionado acima. Im-
portante notar que o metodo ABC, apesar de varias aplicacoes, ainda nao foi explorado no
ambito da inferencia de estrutura de redes Booleanas. A inferencia de redes Booleanas com o
modelo ABC e muito promissor em varios aspectos, e um dos mais importantes e a natureza
probabilstica que sera conferida a estas redes. A aplicacao do algoritmo ABC produzira como
resultado uma colecao de redes Booleanas igualmente representativas dos dados. Esta e uma ca-
racterstica muito importante uma vez que, devido a qualidade dos dados biologicos normalmente
esparsos e ruidosos, uma so estrutura nao representa apropriadamente as relacoes existentes en-
tre os seus componentes. Uma vez que a inferencia de redes Booleanas com o metodo ABC seja
bem sucedida podemos explorar a inclusao de conhecimento adicional na inferencia, como foi
realizado em Werhli and Husmeier (2007). E importante ressaltar que o metodo ABC contorna
o problema de calcular a integral da Equacao 4 e introduz outros desafios. A referida integral,
6
quando calculada analiticamente como em redes Bayesianas, elimina a influencia dos parametros
do modelo na inferencia. Ja no modelo ABC, essa influencia nao sera eliminada, introduzindo
um componente a mais na inferencia, que sera a determinacao destes parametros. O cenario
mais provavel e que para a inferencia de redes regulatorias Booleanas de tamanho comparavel as
redes Bayesianas o tempo computacional sera mais elevado. Para perpassar este problema serao
exploradas possibilidades de paralelizacao dos algoritmos de inferencia de redes Booleanas.
Paralelamente, tem-se como objetivo o estudo da aplicacao de algoritmos geneticos para
a inferencia da estrutura de redes Booleanas. Algoritmos geneticos vem sendo amplamente
aplicados a problemas de otimizacao em geral em razao de sua capacidade em explorar de
forma global amplos espacos de solucoes. No entanto, no contexto de reconstrucao de redes
regulatorias modeladas como redes Booleanas, ainda sao poucas as aplicacoes envolvendo este
metodo de busca, havendo, portanto, espaco para proposicao de novas solucoes. Adicionalmente,
o metodo possui um importante grau de paralelismo implcito. Desta forma, assim como o
metodo ABC, algoritmos geneticos provem uma colecao de solucoes potenciais para o domnio
em questao, o que viabiliza a descoberta de mais de uma rede representativa e consequentemente
o manejo de dados ruidosos. Entretanto, diferentemente do metodo ABC, estas solucoes nao
sao igualmente representativas dos dados e estao associadas a uma medida quantitativa que
traduz o quao bem cada rede descreve as relacoes implcitas nos dados biologicos. Isto introduz
um desafio que diz respeito a como selecionar ou combinar estas solucoes a fim de compor a
solucao final para o problema. Ademais, algoritmos geneticos tambem possuem a necessidade de
ajuste de parametros. Pretende-se, portanto, explorar este cenario, o qual mostrou-se bastante
promissor para a aplicacao especfica de inferencia de redes regulatorias em Mendoza and Bazzan
(2011), e posteriormente comparar seu desempenho ao metodo ABC e demais formalismos citados
anteriormente.
6 Resultados esperados
Espera-se obter uma comparacao justa entre diversos metodos de inferencia, a formacao de dois
mestres, orientacao de tres alunos de iniciacao cientfica, publicacoes cientficas relevantes na
area, fortalecimento da parceria com o instituto de pesquisa BioSS, consolidacao da parceria
entre os programas de Pos-Graduacao em Modelagem Computacional da FURG e o programa
de Pos-Graduacao em Computacao da UFRGS e afirmacao da area de pesquisa em biologia
computacional junto ao Programa de Pos-Graduacao em Modelagem Computacional - FURG.
Referencias
Butte, A. J. and Kohane, I. S. (2000). Mutual information relevance networks: functional genomic
clustering using pairwise entropy measurements. Pac Symp Biocomput, pages 418429.
Butte, A. S. and Kohane, I. S. (2003). Relevance networks: A first step toward finding genetic regulatory
networks within microarray data. In Parmigiani, G., Garett, E. S., Irizarry, R. A., and Zeger, S. L.,
editors, The Analysis of Gene Expression Data, pages 428446, New York. Springer.
De Jong, H. (2002). Modeling and simulation of genetic regulatory systems: A literature review. Journal
of Computational Biology, 9(1):67103.
Dhaeseleer, P., Liang, S., and Somogyi, R. (2000). Genetic network inference: from co-expression
clustering to reverse engineering. Bioinformatics, 16(8):707726.
Friedman, N. and Koller, D. (2000.). Being bayesian about network structure. In In Proc. Sixteenth
Conf. on Uncertainty in Artificial Intelligence (UAI),.
8
Friedman, N., Linial, M., Nachman, I., and Peer, D. (2000). Using Bayesian networks to analyze
expression data. Journal of Computational Biology, 7(3/4):601620.
Hastings, W. K. (1970). Monte Carlo sampling methods using Markov chains and their applications.
Biometrika, 57:97109.
Heckerman, D. (1995). A tutorial on learning with Bayesian networks. Technical Report MSR-TR-95-
06, Microsoft Research, Redmond, Washington,.
Husmeier, D. (2003). Sensitivity and specificity of inferring genetic regulatory interactionsfrom micro-
array experiments with dynamic Bayesian networks. Bioinformatics, 19:22712282.
Husmeier, D., Dybowski, R., and Roberts, S. (2004). Probabilistic Modelling in Bioinformatics and
Medical Informatics. Springer-Verlag New York, Inc.
Lahdesmaki, H., SHMULEVICH, I., and YLI-HARJA, O. (2003). On learning gene regulatory networks
under the Boolean network model. Machine Learning, 52:147167.
Madigan, D. and York, J. (1995). Bayesian graphical models for discrete data. International Statistical
Review, 63:215232.
Marjoram, P., Molitor, J., Plagnol, V., and Tavare, S. (2003). Markov chain monte carlo without
likelihoods. In Proceedings of the National Academy of Sciences of the United States of America,
pages 1532415328.
Mendoza, M. R. and Bazzan, A. L. C. (2011). Evolving random boolean networks with genetic al-
gorithms for regulatory networks reconstruction. In Proceedings of the Genetic and Evolutionary
Computation Conference (GECCO11). ACM.
Metropolis, N., Rosenbluth, A. W., Rosenbluth, M. N., Teller, A. H., and Teller, E. (1953). Equation
of state calculations by fast computing machines. Journal of Chemical Physics, 21:10871092.
Opgen-Rhein, R. and Strimmer, K. (2006). Inferring gene dependency networks from genomic longitu-
dinal data: a functionaldata approach. REVSTAT, 4:5365.
Plagnol, V. and Tavare, S. (2004). Approximate bayesian computation and mcmc. In Niederreiter,
H., editor, Proceedings of the 5th International Conference on Monte Carlo and Quasi-Monte Carlo
Methods in Scientific Computing. Springer.
Prill, R., Marbach, D., Saez-Rodriguez, J., Sorger, P., Alexopoulos, L., Xue, X., Clarke, N., Altan-
Bonnet, G., and Stolovitzky, G. (2010). Towards a rigorous assessment of systems biology models:
the DREAM3 challenges. PLoS One, 5.
9
Schafer, J. and Strimmer, K. (2004). An empirical bayes approach to inferring large graphical gaussian
modelsfrom microarray data. Bioinformatics, 1:113.
Schafer, J. and Strimmer, K. (2005). A shrinkage approach to large-scale covariance matrix estimation
and implications for functional genomics. Statistical Applications in Genetics and Molecular Biology,
4. Article 32.
Toni, T. and Stumpf, M. P. H. (2009). Simulation-based model selection for dynamical systems in
systems and population biology. Bioinformatics, 26(1):104110.
Werhli, A. V., Grzegorczyk, M., and Husmeier, D. (2006). Comparative evaluation of reverse engineering
gene regulatory networks withrelevance networks, graphical Gaussian models and Bayesian networks.
Bioinformatics, 22(20):25232531.
Werhli, A. V. and Husmeier, D. (2007). Reconstructing gene regulatory networks with Bayesian
networks by combiningexpression data with multiple sources of prior knowledge. Statistical Ap-
plications in Genetics and Molecular Biology, 6(1):Article 15.
10