Autores

5674
Rômulo Barroso Victor
2607,250
5675
2607,250

Informações:

Publicações do PESC

Título
Profile TildeCRF: A New Tool for Protein Homology Detection
Linha de pesquisa
Inteligência Artificial
Tipo de publicação
Dissertação de Mestrado
Número de registro
Data da defesa
3/10/2014
Resumo
A detecção de proteínas homólogas tem sido uma das questões mais importantes no campo da bioinformática. O profile hidden Markov model tem sido bem-sucedido na resolução desse problema, porém ele permanece um classificador do tipo generativo, o que é hipoteticamente menos preciso que modelos discriminativos, tais como Conditional Random Fields. Esforços para combinar profile HMM com CRF têm sido sugeridos na literatura, porém nenhuma implementação prática ou nenhum resultado experimental foram disponibilizados até então. A fim de testar a superioridade do CRF sobre o HMM na detecção de homologias de proteínas, nós implementamos o profile TildeCRF, uma nova ferramenta que combina o desenho do profile HMM com a abordagem discriminativa do CRF e com o poder de expressão das Árvores de Regressão Lógicas. Nós executamos experimentos do tipo leave-one-family-out em um conjunto de sequências de proteínas para mensurar a acurácia do método proposto e compará-lo ao profile HMM. Ao contrário das expectativas, os resultados mostraram que o profile TildeCRF é menos preciso que o profile HMM. De fato, o CRF é mais adequado para problemas de rotulagem de sequências do que para a detecção de homologias entre proteínas, porque ele mede a probabilidade de uma sequência de rótulos dada uma sequência de observações e não, a probabilidade de uma observação ter sido gerada pelo modelo treinado, como faz o HMM.
Abstract
Protein homology detection has been one of the major issues in the field of bioinformatics. Profile hidden Markov models have been successful in tackling this problem, but it remains a generative classifier, which is hypothetically less accurate than discriminative models like Conditional Random Fields. Efforts in combining profile HMM with CRF have been suggested in the literature, but no practical implementation or experimental results have been made available. In order to test the superiority of CRF over HMM in protein homology detection, we implemented profile TildeCRF, a new tool that combines the design of profile HMM with the discriminative approach of CRF and the expressiveness of Logical Regression Trees. We ran leave-one-family-out experiments on a dataset of protein sequences to measure the accuracy of the proposed method and compare it to profile HMM. Contrary to expectation, results showed that profile TildeCRF is less accurate than profile HMM. In fact, CRF is more suitable for sequence labeling tasks than for protein homology detection, because it measures the probability of a label sequence given the observation sequence, rather than the probability of the observation being generated by the trained model, as HMM does.
Topo