Autores

6206
1994,250,2828
6207
1994,250,2828
6208
1994,250,2828

Informações:

Publicações do PESC

Título
Aplicando TILDECRF na Detecção de Homologias Distantes
Linha de pesquisa
Inteligência Artificial
Tipo de publicação
Dissertação de Mestrado
Número de registro
Data da defesa
30/9/2008
Resumo

Existe hoje em dia uma quantidade significativa de pesquisa envolvendo a detecção de homologias distantes entre sequências de proteínas, um importante problema em Biologia Molecular Computacional. Os melhores resultados são obtidos com o uso de um método probabilístico denominado profile hidden Markou models (pHMM) . Bernardes mostrou que a sensibilidade desses modelos aumenta significativamente ao adicionarmos informações estruturais no momento do treinamento.

Por outro lado, muitos trabalhos têm adotado modelos discriminativos, como os Condztzonal Random Fields (CRF), no lugar de generativos, como são os hidden Markou models (HMM), na solução de problemas de aprendizado de dados sequencias. Em trabalho recente Gutniann e Kersting propuseram unia extensão de CRF, TildeCRF, onde as sequências são formadas por átomos lógicos, incorporando toda a expressividade da lógica de primeira ordem às vantagens dos modelos discriminativos. Os resultados iniciais na predição de estruturas secundárias de proteínas foram promissores.

A principal contribuição desse trabalho foi desenvolver uma metodologia para usar o TildeCRF no problema de detecção de homologias distantes. Três tipos de experimentos foram feitos, cada um com um nível de informação diferente no treinamento. Os resultados foram comparados entre si, confirmando o aumento de acertividade também para o modelo discriminativo quando este dispõe de mais informações. Na comparação com programas específicos para o problema, a saber HMMER e HMMER-STRUCT, o TildeCRF não foi competitivo, mostrando que ainda muitos ajustes são necessários.

Abstract

Recently There has been a significant amount of research involving the detection of remote homologies between sequences of proteins, a major problem in Computational Molecular Biology. The best results are obtained using a method known as probabilistic profile hidden Markov models (pHMM). Bernardes showed that greater sensitivity can be achieved by using structural information when available.

In context, other fields of research have adopted discriminative models, such as Conditional Random Field (CRF), instead of generative ones, such as hidden Markov model (HMM), in the solution of problems of sequential data learning. In recent work Gutmann and Kersting proposed an extension of CRF, TildeCRF, where the sequences are formed by logical atoms, combining the expressiveness of the first order logic with the advantages of discriminative models. Initial results in predicting the secondary structures of proteins have been promising.

The main contribution of this work was to develop a methodology to use TildeCRF in the problem of detecting remote homologies. Three types of experiments were made, each with a different level of infornation in training. The results were compared with each other, confirming the increase of accuracy also for the discriminative model when it has more information. In comparison with specific programmes to the problem, namely HMMER and HMMER-STRUCT, the TildeCRF was not competitive, showing that many adjustments are still necessary. 

Arquivo
Topo