Autores

6314
2349,1994,250
6315
2349,1994,250
6316
2349,1994,250

Informações:

Publicações do PESC

Título
Detecção de Homologias Distantes Utilizando HMMs e Informações Estruturais
Linha de pesquisa
Inteligência Artificial
Tipo de publicação
Dissertação de Mestrado
Número de registro
Data da defesa
19/12/2005
Resumo

Detecção de homologias distantes, entre sequências de proteínas, tem se tornado um componente central na análise de dados genômicos. Para detectar homologias distantes, profiles hidden Markov rnodels (pHMMs) produzem melhores resultados do que métodos baseados em similaridades de sequências. Para aumentar a sensibilidade dos métodos voltados à detecção de homólogos distantes, informações sobre a estrutura tridimensional de proteínas tem sido amplamente empregadas.

Inicialmente, comparamos o uso de alinhamento estrutural com alinhamento primário nos sistemas de pHMMs, HMMER e SAM. O uso de alinhamento estrutural produziu resultados significativos, o que nos levou a modificar o algoritmo de atribuição de pesos à sequências, da fase de treinamento do HMMER. Nossa abordagem constrói um conjunto de pI-IMMs, atribuindo mais pesos aos aminoácidos, considerando cada uma das seguintes propriedades estruturais: estrutura primária, secundária e terciária, abordadas em trabalhos prévios, e acessibilidade e empacotamento de aminoácidos, usadas pela primeira vez no treinamento de pHMMs. A classificação de novas sequências combina a classificação dos diferentes pHMMs. Uma das principais vantagens do nosso trabalho é que embora informações estruturais sejam usadas no treinamento de pHMMs, inferências continuam sendo a nível de sequências primárias. Nosso método foi implementado estendendo o pacote HMMER, e os resultados mostraram melhorias significativas sobre outros métodos comumente usados.

Abstract

The detection of remote homologies between protein sequences has become a central problem in genome analysis. Profile hidden Marltov Models (pHMMs) are probabilistic models that have been widely used in tacltling this problem. pHMMs construct models of protein families based on sequence information. Recent work has shown that remote homology detection can be further improved by considering their three-dimensional structure.

Initially, we compared the use of structural alignments versus the use of primary alignments to train the two pHMMs system, HMMER and SAM. We show that the use of structural alignrnents can produce significantly better results. Next, we modify the sequence weighting algorithm in the HMMER training phase to consider structural information. Our approach builds different pHMMs, and each pHMM weights is based on structural properties. We consider primary, secondary, and tertiary structure, as used in previous methods. Further, we used solvent accessibility and residue paclting properties, that have not been used before to train pHMMs. The classification of a new sequence combines the classification from the several pHMMs. The main advantage of our method is that structural information is only used to train the pHMMs, search is still performed using sequence data. Our method has been implemented by extending the HMMER package, aud showed a signifkant improvement over other commonly used methods.

Arquivo
Topo