2011PIBIC

Inferencia de vias biologicas a partir de dados
pos-genomicos
Projeto de Pesquisa Cientfica
Proponente: Adriano Velasque Werhli
1 Qualificacao do principal problema a ser abordado

Ultimamente temos testemunhado um rapido desenvolvimento de diferentes tecnicas para a me-
dicao de grandes quantidades de dados biologicos. Tambem, e cada vez mais claro que nao sao os
componentes biologicos isolados, mas sim sua combinacao em intrincadas redes, os responsaveis
por funcoes biologicas complexas como, por exemplo, o desenvolvimento e a manutencao da vida.
Em todos os organismos vivos os componentes biologicos trabalham de maneira orquestrada
e cooperativa para promover o desenvolvimento e a sustentabilidade. Estes componentes atuam
harmonicamente atraves de conjuntos de redes regulatorias e caminhos biologicos. A descoberta
de caminhos biologicos ou redes regulatorias abre um grande espectro de possveis aplicacoes. Por
exemplo, o conhecimento de caminhos biologicos relacionados com doencas podem revelar como
estas doencas agem e apresentar novas maneiras de combate-las com possveis novos alvos para
drogas. Outra possibilidade como a criacao de modelos biologicos acurados a partir das redes
regulatorias descobertas pode ajudar a predizer a resposta de organismos a doencas e podem
ser muito uteis no desenvolvimento de novas drogas e tratamentos. Alem das possibilidades
apresentadas acima, a descoberta de caminhos biologicos em plantas pode tambem ser muito
benefica uma vez que, com novas opcoes para o combate de doencas em plantas, e possvel
reduzir o uso de pesticidas.
Estas observacoes mudaram a atencao da comunidade cientfica de uma visao reducionista em
direcao a um entendimento holstico dos sistemas moleculares biologicos. Para melhorar o nosso
conhecimento sobre estes sistemas, aproveitando ao maximo a quantidade e a qualidade dos
dados obtidos, e imprescindvel o aperfeicoamento de metodos matematicos e computacionais.
O processo de pesquisar manualmente e individualmente os elementos de uma rede regulatoria
e lento e demanda um grande numero de experimentos. Devido aos motivos apresentados acima,
dentre outros, a descoberta automatica, ou inferencia, de redes regulatorias a partir de dados
de expressao genica e um campo muito atrativo, pois reduz-se o tempo necessario e o custo
envolvido na obtencao da estrutura de uma rede regulatoria. Muitas tem sido as tentativas de se
reconstruir automaticamente redes regulatorias geneticas a partir de dados de expressao genica,
para uma revisao destes metodos veja De Jong (2002); Dhaeseleer et al. (2000).
1
Nesta proposta de pesquisa estamos especificamente interessados na investigacao da perfor-
mance de diferentes tecnicas de reconstrucao de redes regulatorias biologicas. Em particular,
pretendemos propor novos metodos de inferencia de Redes Booleanas e compara-los com alguns
metodos ja existentes: Redes Bayesianas, Redes de Relevancia e Modelos Graficos Gaussianos.
2 Objetivos, metas e indicadores a serem alcancados

Sao dois os principais objetivos deste projeto de pesquisa: (I) desenvolvimento de metodos de
inferencia de Redes Booleanas a partir de dados pos-genomicos; (II) estudar de forma sistematica
as potencialidades e fraquezas de diferentes metodos para a reconstrucao de redes regulatorias
biologicas.
Hoje em dia nao ha um consenso sobre qual modelo deve ser utilizado para melhor representar
uma rede biologica. A comparacao sistematica entre os diferentes metodos devera facilitar esta
escolha quando novos dados, sobre uma rede ainda desconhecida, estiverem disponveis.
Mais especificamente pretendemos comparar:
Redes Bayesianas (Friedman and Koller, 2000; Friedman et al., 2000; Husmeier et al., 2004;
Grzegorczyk and Husmeier, 2011).
Modelos Graficos Gaussianos (Opgen-Rhein and Strimmer, 2006; Schafer and Strimmer, 2004)
.
Redes de Relevancia (Butte and Kohane, 2000).
Redes Booleanas (Lahdesmaki et al., 2003; Mendoza and Bazzan, 2011), com novos metodos
a serem propostos neste projeto de pesquisa.
Cada um dos metodos apresentados na lista anterior possui vantagens e desvantagens e as
mesmas nao sao plenamente conhecidas. Alguns, como Redes Bayesianas por exemplo, possuem
mais de uma possibilidade de configuracao como modelo de rede regulatoria. Veja que podemos
escolher entre uma rede Bayesiana estatica ou dinamica, discreta ou contnua. Tambem, com
Redes Bayesianas, e possvel utilizar-se de conhecimento a priori enriquecendo assim as redes
inferidas. Ja as redes Booleanas, por sua vez, sao mais similares a redes regulatorias reais,
uma vez que suas interacoes de conjuncao, disjuncao e negacao sao facilmente traduzidas para
o contexto biologico. Para redes Booleanas proporemos novos metodos de inferencia a fim de
tornar este processo mais robusto.
Para comparar os diferentes metodos utilizaremos dados simulados e dados reais, de modo
a capturar as potencialidades e fraquezas de cada metodo quando da sua utilizacao em dados
obtidos de redes ainda desconhecidas.
Este projeto tem como metas:
Formacao de dois alunos de mestrado.
Orientacao de tres alunos de iniciacao cientfica.
Publicacao dos resultados em revistas nacionais e internacionais.
Divulgacao dos resultados em conferencias nacionais e internacionais.
2
Criacao de repositorio digital com todos os dados gerados e metodos utilizados possibilitando
a utilizacao dos mesmos por outros grupos de pesquisa.
Fortalecer a parceria entre o Programa de Pos-Graduacao em Modelagem Computacional da
FURG (PPGMC) e o Programa de Pos-Graduacao em Computacao (PPGC) da UFRGS.
Consolidar a pesquisa em Biologia Computacional junto ao PPGMC.
Oportunizar a possibilidade de novas parcerias e o interesse de outros departamentos da FURG
pela area de Biologia Computacional.
Continuar a colaboracao internacional com Dr. Dirk Husmeier, e colaboradores ligados ao
instituto de pesquisa BioSS (Biomathematics & Statistics Scotland) em Edimburgo, Escocia.
3 Metodologia a ser empregada

3.1 Geracao de dados
Os dados serao principalmente de dois tipos: simulados e reais. Os dados simulados serao gerados
de acordo com os principais modelos a serem estudados, teremos entao dados simulados de Redes
Bayesianas e dados simulados de Redes Booleanas.
Serao criados varios conjuntos de dados para cada tipo de dado simulado. Como dados reais
utilizaremos diferentes fontes. Pretendemos usar principalmente dados gerados recentemente
no BioSS e outros conjuntos de dados reais, os quais serao obtidos do repositorio do projeto
DREAM (Prill et al., 2010).
3.2 Metodos de inferencia

Redes Bayesianas
Redes Bayesianas sao modelos probabilsticos representados por grafos onde os nodos repre-
sentam variaveis e as arestas dependencias estatsticas. Elas sao muito flexveis, e por serem
probabilsticas, conseguem lidar com o rudo que e inerente aos sistemas biologicos e as medicoes
biologicas. Outra vantagem das redes Bayesianas e o tratamento da inferencia da rede regula-
toria de uma forma sistemica, conseguindo distinguir interacoes diretas de interacoes que sao
causadas por elementos intermediarios.
Inferir uma rede Bayesiana significa, a partir de um conjunto de dados de treinamento D,
encontrar um grafo acclico direcionado que melhor explica as relacoes entre as variaveis que
geraram estes dados. Definindo M como o espaco de todos os modelos possveis o objetivo e
encontrar o modelo M M com maior aderencia aos dados D:
M = argmaxM {P(M|D)} (1)
De posse de tal estrutura, M , e dos dados D, os parametros q da distribuicao podem ser
3
encontrados atraves de:
q = argmaxq {P (q|M , D)} (2)
Se aplicamos a regra de Bayes a Equacao (1), obtemos:
P (M|D) P (D|M)P (M) (3)
onde a integracao se da em todo o espaco de parametros:

Z
P (D|M) = P (D|q, M)P (q|M)dq. (4)
A integral na Equacao (4) e analiticamente tratavel quando o conjunto de dados e completo e os

termos P (q|M) e P (D|q, M) satisfazem algumas condicoes de regularidade, com isso podemos
calcular os scores BGe (Heckerman, 1994) e BDe (Heckerman, 1995). Em resumo, a Equacao (4)
nos fornece um modo de atribuir um score para os modelos em face dos dados disponveis. A
maneira mais simples de encontrar o melhor modelo seria listar todos os modelos e proceder o
calculo deste score de acordo com a Equacao (4). Existem dois problemas com este procedimento.
O primeiro e que o numero de modelos cresce super exponencialmente com o numero de variaveis
e a listagem de todos os modelos e inviavel mesmo para um numero modesto de variaveis. O
outro problema e relacionado com o tamanho do conjunto de dados. Normalmente os dados
de expressao genica sao obtidos para milhares de variaveis com apenas algumas dezenas de
medicoes. Como estas medidas sao muito esparsas a certeza sobre um modelo que explica
estes dados e muito pequena. Em geral varios modelos provem medidas de score que sao muito
similares. Conhecendo-se estas limitacoes, que sao intrnsicas ao problema, optamos por amostrar
modelos que melhor explicam os dados com o metodo Monte Carlo via Cadeias de Markov
(MCMC). Com este metodo ao inves de encontrar um unico melhor modelo, encontramos uma
distribuicao de modelos, redes Bayesianas, que melhor explicam os dados. O MCMC e criado
como foi proposto por Metropolis et al. (1953); Hastings (1970) e aplicado em redes Bayesianas
por Madigan and York (1995). Seguindo estes trabalhos o MCMC para amostrar modelos de
redes Bayesianas tem o seguinte criterio de aceitacao:

P (D|Mnew )P (Mnew )Q(Mold |Mnew )
A(Mnew |Mold) = min ,1 (5)
P (D|Mold)P (Mold)Q(Mnew |Mold )
onde os termos P (D|Mnew ) e P (D|Mold) sao obtidos com a Equacao (4), os termos P (Mnew ) e
P (Mold) sao as probabilidades a priori do modelo e os termos Q(Mold |Mnew ) e Q(Mnew |Mold )
sao as probabilidades de transicao entre um modelo e outro.
A Equacao (5) proporciona um metodo de se amostrar modelos (redes Bayesianas) que es-
tao em melhor concordancia com os dados. Esta e a maneira classica como redes Bayesianas
foram utilizadas em varios trabalhos entre os quais podemos citar Madigan and York (1995);
Werhli et al. (2006); Husmeier (2003).
4
Modelos Graficos Gaussianos
Modelos Graficos Gaussianos (GGMs) sao modelos graficos probabilsticos nao direcionados que
permitem a identificacao de relacoes de independencia condicional entre os nos de uma rede
assumindo uma distribuicao Gaussiana multivariada dos dados. A inferencia de GGMs e baseada
na estimacao estavel da matriz de covariancia da distribuicao.
Um elemento Cik da matriz de covariancia C e relacionado com o coeficiente de correlacao
entre os nos Xi e Xk . Um alto coeficiente de correlacao entre dois nos podem indicar uma
interacao direta, uma interacao indireta ou a regulacao conjunta por um fator comum. Entre-
tanto, somente as interacoes diretas sao de interesse para a construcao das redes regulatorias.
A intensidade destas interacoes diretas e medida pelos coeficientes de correlacao parcial ik , os
quais descrevem a correlacao entre os nos Xi e Xk condicionado a todos os outros nos da rede.
Seguindo a teoria da distribuicao normal e sabido que a matriz de correlacao parcial com
coeficientes de correlacao parcial ik e obtida do inverso da matriz de covariancia C, C1 (com
1
elementos Cik ) (Edwards, 2000):

1
Cik
ik = q (6)
Cii1 Ckk
1
A inferencia de uma GGM e obtida geralmente atraves do seguinte procedimento. A partir

dos dados disponveis uma matriz de covariancia emprica e obtida e invertida e as correlacoes
parciais ik sao calculadas conforme a Equacao (6). A distribuicao de |ik | e verificada e conexoes
(i, k) correspondendo a significantemente pequenos valores de |ik | sao removidos do grafo. O
passo crtico deste procedimento e a estimacao da matriz de covariancia e sua inversao. Neste
projeto utilizaremos o metodo proposto em Schafer and Strimmer (2005), o qual se baseia na
estimacao regularizada da matriz de covariancia.
Redes de Relevancia
O metodo de redes de relevancia originalmente proposto em Butte and Kohane (2000, 2003), e
baseado em pontuacoes de associacao de pares de variaveis. Estas pontuacoes sao computadas
para todos os pares possveis de variaveis. Os autores propoe Informacao Mutua (MI) e correlacao
de Pearson como pontuacoes adequadas.
Os coeficientes de Pearson sao computados a partir de dados contnuos e podem capturar
somente relacoes que estao proximas a relacoes lineares. Se x = (x1 , . . . , xk ) e y = (y1 , . . . , yk )
sao a k-dimensao observacoes das variaveis x and y a correlacao de Pearson entre estas variaveis
e dada por: Pk
1
k i=1 (xi x)(yi y)
corr(x, y) = q q (7)
1
Pk 2 1
Pk 2
k i=1 (xi x) k i=1 (yi y)
onde x e y sao as medias estimadas de x e y respectivamente.

5
As pontuacoes MI sao computadas a partir de variaveis discretizadas. A necessidade por
discretizacao pode ser vista como uma desvantagem uma vez que geralmente ha alguma perda
de informacao. Por outro lado as pontuacoes MI podem lidar com dependencias nao lineares
entre as variaveis. Supondo que temos as variaveis discretizadas x e y em r nveis a informacao
mutua (MI) entre estas variaveis e definida como:
r
r X
X P (x = i, y = j)
MI(x, y) = P (x = i, y = j) log (8)
i=1 j=1
P (x = i)P (y = j)
Apos computar as pontuacoes (correlacoes de Pearson ou MI) para todos os pares de variaveis
presentes um limiar e definido e as interacoes que estao acima deste limiar sao preservadas para
compor a rede inferida. O metodo de redes de relevancia e de facil implementacao e possui
custos computacionais bastante baixos mas fornece somente as relacoes entre as variaveis sem
indicacao da direcao das relacoes.
Redes Booleanas
Redes Booleanas tem sido amplamente utilizadas para a modelagem de redes regulatorias geneti-
cas. Apesar da sua simplicidade, o comportamento dinamico obtido com sua aplicacao representa
com grande acuracia os comportamentos de redes regulatorias reais. Para a inferencia de Redes
Booleanas utilizaremos os metodos apresentados em Lahdesmaki et al. (2003), bem como outros
metodos a serem desenvolvidos no ambito deste projeto de pesquisa. Seguindo a linha de redes
Bayesianas, a ideia e desenvolver um metodo que permita a aplicacao de todos os procedimen-
tos utilizados para a inferencia destas redes, conservando assim as vantagens introduzidas pelas
mesmas. No contexto de redes Booleanas a integral da Equacao 4 nao possui uma solucao ana-
ltica como quando aplicada a redes Bayesianas. Para contornar este problema sera utilizado o
algoritmo ABC (Plagnol and Tavare, 2004), o qual permite o calculo aproximado da integral sem
a necessidade de uma solucao analtica. Este algoritmo ja foi aplicado com sucesso em varios
problemas diferentes, veja (Plagnol and Tavare, 2004; Marjoram et al., 2003; Toni and Stumpf,
2009), e sua principal caracterstica e eliminar a necessidade do calculo mencionado acima. Im-
portante notar que o metodo ABC, apesar de varias aplicacoes, ainda nao foi explorado no
ambito da inferencia de estrutura de redes Booleanas. A inferencia de redes Booleanas com o
modelo ABC e muito promissor em varios aspectos, e um dos mais importantes e a natureza
probabilstica que sera conferida a estas redes. A aplicacao do algoritmo ABC produzira como
resultado uma colecao de redes Booleanas igualmente representativas dos dados. Esta e uma ca-
racterstica muito importante uma vez que, devido a qualidade dos dados biologicos normalmente
esparsos e ruidosos, uma so estrutura nao representa apropriadamente as relacoes existentes en-
tre os seus componentes. Uma vez que a inferencia de redes Booleanas com o metodo ABC seja
bem sucedida podemos explorar a inclusao de conhecimento adicional na inferencia, como foi
realizado em Werhli and Husmeier (2007). E importante ressaltar que o metodo ABC contorna
o problema de calcular a integral da Equacao 4 e introduz outros desafios. A referida integral,
6
quando calculada analiticamente como em redes Bayesianas, elimina a influencia dos parametros
do modelo na inferencia. Ja no modelo ABC, essa influencia nao sera eliminada, introduzindo
um componente a mais na inferencia, que sera a determinacao destes parametros. O cenario
mais provavel e que para a inferencia de redes regulatorias Booleanas de tamanho comparavel as
redes Bayesianas o tempo computacional sera mais elevado. Para perpassar este problema serao
exploradas possibilidades de paralelizacao dos algoritmos de inferencia de redes Booleanas.
Paralelamente, tem-se como objetivo o estudo da aplicacao de algoritmos geneticos para
a inferencia da estrutura de redes Booleanas. Algoritmos geneticos vem sendo amplamente
aplicados a problemas de otimizacao em geral em razao de sua capacidade em explorar de
forma global amplos espacos de solucoes. No entanto, no contexto de reconstrucao de redes
regulatorias modeladas como redes Booleanas, ainda sao poucas as aplicacoes envolvendo este
metodo de busca, havendo, portanto, espaco para proposicao de novas solucoes. Adicionalmente,
o metodo possui um importante grau de paralelismo implcito. Desta forma, assim como o
metodo ABC, algoritmos geneticos provem uma colecao de solucoes potenciais para o domnio
em questao, o que viabiliza a descoberta de mais de uma rede representativa e consequentemente
o manejo de dados ruidosos. Entretanto, diferentemente do metodo ABC, estas solucoes nao
sao igualmente representativas dos dados e estao associadas a uma medida quantitativa que
traduz o quao bem cada rede descreve as relacoes implcitas nos dados biologicos. Isto introduz
um desafio que diz respeito a como selecionar ou combinar estas solucoes a fim de compor a
solucao final para o problema. Ademais, algoritmos geneticos tambem possuem a necessidade de
ajuste de parametros. Pretende-se, portanto, explorar este cenario, o qual mostrou-se bastante
promissor para a aplicacao especfica de inferencia de redes regulatorias em Mendoza and Bazzan
(2011), e posteriormente comparar seu desempenho ao metodo ABC e demais formalismos citados
anteriormente.
4 Principais contribuicoes cientficas

Investigacao de novos metodos para inferencia de redes Booleanas.
Comparacao de varios metodos e modelos para a inferencia de redes Biologicas.
Disponibilizacao de dados obtidos de simulacao para possibilitar comparacao de metodos de
inferencia.
Disponibilizacao dos metodos de inferencia investigados.
Formacao de alunos de mestrado.
Fortalecimento da area de Biologia Computacional na FURG.
Alem disso o desenvolvimento do projeto proporcionara a continuidade da colaboracao ja
estabelecida com o BioSS. Este importante instituto de pesquisa possui uma producao relevante
de dados e investiga novos metodos computacionais e estatsticos para a analise dos mesmos. A
parceria com esta instituicao ja esta estabelecida mas sera muito beneficiada com a realizacao
deste projeto.
7
Demais participantes
Nome Instituicao Formacao
Karina Machado FURG Doutorado
5 Disponibilidade efetiva de infraestrutura e de apoio

tecnico para o desenvolvimento do projeto
As instituicoes envolvidas no projeto dispoe da infraestrutura necessaria para a realizacao deste
projeto. Esta previsto no projeto gastos com equipamentos de informatica pois a realizacao
das simulacoes descritas necessitam de um grande poder computacional. Pretendemos adquirir
computadores multiprocessados com grande quantidade de memoria e processamento o que per-
mitira a execucao das varias simulacoes necessarias. O local de realizacao do projeto possui a
estrutura basica para a instalacao dos novos equipamentos e o pessoal tecnico necessario para a
utilizacao dos mesmos.
6 Resultados esperados
Espera-se obter uma comparacao justa entre diversos metodos de inferencia, a formacao de dois
mestres, orientacao de tres alunos de iniciacao cientfica, publicacoes cientficas relevantes na
area, fortalecimento da parceria com o instituto de pesquisa BioSS, consolidacao da parceria
entre os programas de Pos-Graduacao em Modelagem Computacional da FURG e o programa
de Pos-Graduacao em Computacao da UFRGS e afirmacao da area de pesquisa em biologia
computacional junto ao Programa de Pos-Graduacao em Modelagem Computacional - FURG.
Referencias
Butte, A. J. and Kohane, I. S. (2000). Mutual information relevance networks: functional genomic
clustering using pairwise entropy measurements. Pac Symp Biocomput, pages 418429.
Butte, A. S. and Kohane, I. S. (2003). Relevance networks: A first step toward finding genetic regulatory
networks within microarray data. In Parmigiani, G., Garett, E. S., Irizarry, R. A., and Zeger, S. L.,
editors, The Analysis of Gene Expression Data, pages 428446, New York. Springer.
De Jong, H. (2002). Modeling and simulation of genetic regulatory systems: A literature review. Journal
of Computational Biology, 9(1):67103.
Dhaeseleer, P., Liang, S., and Somogyi, R. (2000). Genetic network inference: from co-expression
clustering to reverse engineering. Bioinformatics, 16(8):707726.
Edwards, D. M. (2000). Introduction to Graphical Modelling. Springer Verlag, New York.
Friedman, N. and Koller, D. (2000.). Being bayesian about network structure. In In Proc. Sixteenth
Conf. on Uncertainty in Artificial Intelligence (UAI),.
8
Friedman, N., Linial, M., Nachman, I., and Peer, D. (2000). Using Bayesian networks to analyze
expression data. Journal of Computational Biology, 7(3/4):601620.
Grzegorczyk, M. and Husmeier, D. (2011). Improvements in the reconstruction of time-varying gene

regulatory networks: dynamic programming and regularization by information sharing among genes.
Bioinformatics, 27:693699.
Hastings, W. K. (1970). Monte Carlo sampling methods using Markov chains and their applications.
Biometrika, 57:97109.
Heckerman, D. (1994). Learning Gaussian networks. Technical Report MSR-TR-94-10, Microsoft

Research, Redmond, Washington.
Heckerman, D. (1995). A tutorial on learning with Bayesian networks. Technical Report MSR-TR-95-
06, Microsoft Research, Redmond, Washington,.
Husmeier, D. (2003). Sensitivity and specificity of inferring genetic regulatory interactionsfrom micro-
array experiments with dynamic Bayesian networks. Bioinformatics, 19:22712282.
Husmeier, D., Dybowski, R., and Roberts, S. (2004). Probabilistic Modelling in Bioinformatics and
Medical Informatics. Springer-Verlag New York, Inc.
Lahdesmaki, H., SHMULEVICH, I., and YLI-HARJA, O. (2003). On learning gene regulatory networks
under the Boolean network model. Machine Learning, 52:147167.
Madigan, D. and York, J. (1995). Bayesian graphical models for discrete data. International Statistical
Review, 63:215232.
Marjoram, P., Molitor, J., Plagnol, V., and Tavare, S. (2003). Markov chain monte carlo without
likelihoods. In Proceedings of the National Academy of Sciences of the United States of America,
pages 1532415328.
Mendoza, M. R. and Bazzan, A. L. C. (2011). Evolving random boolean networks with genetic al-
gorithms for regulatory networks reconstruction. In Proceedings of the Genetic and Evolutionary
Computation Conference (GECCO11). ACM.
Metropolis, N., Rosenbluth, A. W., Rosenbluth, M. N., Teller, A. H., and Teller, E. (1953). Equation
of state calculations by fast computing machines. Journal of Chemical Physics, 21:10871092.
Opgen-Rhein, R. and Strimmer, K. (2006). Inferring gene dependency networks from genomic longitu-
dinal data: a functionaldata approach. REVSTAT, 4:5365.
Plagnol, V. and Tavare, S. (2004). Approximate bayesian computation and mcmc. In Niederreiter,
H., editor, Proceedings of the 5th International Conference on Monte Carlo and Quasi-Monte Carlo
Methods in Scientific Computing. Springer.
Prill, R., Marbach, D., Saez-Rodriguez, J., Sorger, P., Alexopoulos, L., Xue, X., Clarke, N., Altan-
Bonnet, G., and Stolovitzky, G. (2010). Towards a rigorous assessment of systems biology models:
the DREAM3 challenges. PLoS One, 5.
9
Schafer, J. and Strimmer, K. (2004). An empirical bayes approach to inferring large graphical gaussian
modelsfrom microarray data. Bioinformatics, 1:113.
Schafer, J. and Strimmer, K. (2005). A shrinkage approach to large-scale covariance matrix estimation
and implications for functional genomics. Statistical Applications in Genetics and Molecular Biology,
4. Article 32.
Toni, T. and Stumpf, M. P. H. (2009). Simulation-based model selection for dynamical systems in
systems and population biology. Bioinformatics, 26(1):104110.
Werhli, A. V., Grzegorczyk, M., and Husmeier, D. (2006). Comparative evaluation of reverse engineering
gene regulatory networks withrelevance networks, graphical Gaussian models and Bayesian networks.
Bioinformatics, 22(20):25232531.
Werhli, A. V. and Husmeier, D. (2007). Reconstructing gene regulatory networks with Bayesian
networks by combiningexpression data with multiple sources of prior knowledge. Statistical Ap-
plications in Genetics and Molecular Biology, 6(1):Article 15.
10

2011PIBIC

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

2011PIBIC

Încărcat de

Drepturi de autor:

Formate disponibile

Inferencia de vias biologicas a partir de dados

1 Qualificacao do principal problema a ser abordado

2 Objetivos, metas e indicadores a serem alcancados

3 Metodologia a ser empregada

3.2 Metodos de inferencia

M = argmaxM {P(M|D)} (1)

De posse de tal estrutura, M , e dos dados D, os parametros q da distribuicao podem ser

Se aplicamos a regra de Bayes a Equacao (1), obtemos:

P (M|D) P (D|M)P (M) (3)

onde a integracao se da em todo o espaco de parametros:

A integral na Equacao (4) e analiticamente tratavel quando o conjunto de dados e completo e os

A inferencia de uma GGM e obtida geralmente atraves do seguinte procedimento. A partir

onde x e y sao as medias estimadas de x e y respectivamente.

4 Principais contribuicoes cientficas

5 Disponibilidade efetiva de infraestrutura e de apoio

Edwards, D. M. (2000). Introduction to Graphical Modelling. Springer Verlag, New York.

Grzegorczyk, M. and Husmeier, D. (2011). Improvements in the reconstruction of time-varying gene

Heckerman, D. (1994). Learning Gaussian networks. Technical Report MSR-TR-94-10, Microsoft

S-ar putea să vă placă și