Informações:

Publicações do PESC

Título
CoppeTER - Reconhecimento e Normalização de Expressões Temporais em Português
Linha de pesquisa
Engenharia de Dados e Conhecimento
Tipo de publicação
Dissertação de Mestrado
Número de registro
Data da defesa
27/9/2011
Resumo

Este trabalho faz uma revisão das áreas de extração de informação, reconhecimento de entidades mencionadas e reconhecimento de expressões temporais para propor um padrão de anotação temporal, acompanhado de uma sugestão de arquitetura, para a língua portuguesa. A partir disso, implementamos o CoppeTER – Coppe Temporal Expression Recognizer, um sistema híbrido, baseado em uma gramática de regras desenvolvidas manualmente e em aprendizado de máquina (mais especificamente, etiquetadores gramaticais e classificadores de máxima entropia), para reconhecimento e normalização de expressões temporais em português. A abordagem é validada em dois momentos, sendo o primeiro através de uma série de experimentos que avaliam a precisão dos classificadores estatísticos empregados. A validação do desempenho do sistema como um todo é levada a cabo em cima do arcabouço de avaliação do Segundo HAREM. Diante do bom desempenho do CoppeTER na tarefa, comparado com as abordagens existentes, os resultados atestam que ainda há bastante espaço para avançar o atual estado da arte em processamento temporal no idioma.

Abstract

This work surveys the fields of information extraction, named entity recognition and temporal expression recognition in order to develop a temporal annotation scheme, along with suggested system architecture, for the Portuguese language. Taking that into account, we implement CoppeTER – Coppe Temporal Expression Recognizer, a hybrid system, based on a grammar of manually developed rules and machine learning (specifically, part-of-speech taggers and maximum entropy classifiers), for Portuguese temporal expression recognition and normalization.. The approach is evaluated in two steps, the first being though a series of experiments that measure the accuracy of the statistical classifiers employed in the system. The end-to-end system evaluation is carried on top of the evaluation framework used in Segundo HAREM. With the good performance achieved by the CoppeTER system in mind, as compared with existing approaches, the results attest that there is significant room for improvement in the current state of the art for temporal processing in Portuguese.

Arquivo
Topo