Informações:

Publicações do PESC

Título
Comparação e Classificação de Sequências de Proteínas Utilizando Mineração de Textos
Linha de pesquisa
Otimização
Tipo de publicação
Tese de Doutorado
Número de registro
Data da defesa
11/7/2011
Resumo

O objetivo deste trabalho busca avaliar as ferramentas de mineração de textos para categorização de cadeias de caracteres utilizando exemplos reais, no caso sequências de aminoácidos. Para atender este propósito foi desenvolvida uma metodologia capaz de treinar um classificador de textos sobre algumas das sequências de proteínas, e utilizarmos este classificador treinado para prever a categoria para as demais sequências não identificadas. Ou seja, identificar padrões de ordenação dos aminoácidos para algumas das sequências, os quais, considerando sua ocorrência por repetidas vezes, consigam representar uma categoria ou classe. Em seguida, o classificador é projetado sobre as sequências originais para determinar as regiões similares das sequências. A partir deste ponto, demonstra-se eficácia na abordagem de predição da localização de regiões específicas dessas proteínas que justifiquem os alinhamentos possíveis entre as sequências, uma vez que os classificadores identificam e categorizam com sucesso as sequências que compartilham regiões similares. Os resultados experimentais observados corroboram os resultados previstos analiticamente.

Abstract

This study aims to evaluate the text mining tools for categorizing character strings using real examples like amino acid sequences. For this purpose we developed a methodology capable of training a text classifier on some of sequences of proteins, and use this classifier trained to predict the category for the remaining unidentified sequences. That is, identify patterns of ordering of the amino acids for some sequences, which, considering its occurrence for several times, able to represent a category or class. Then, the classifier was designed on the original sequences to determine the similar regions of the sequences. From this point, it demonstrated effectiveness in addressing the prediction of the location of specific regions of these proteins to justify the possible alignments between the sequences, since classifiers successfully identify and categorize the sequences that share similar regions. The result is a sequence of learning classifier, which can be used to identify regions in proteins specific to the class. The experimental results agree with those predicted analytically.

Arquivo
Topo