

Person role Person
Júlia Ferreira de Almeida


Pesc publication

BlogMiner: Representação temporal de assuntos através de modelagem de tópicos
Research area
Data and Knowledge Engineering
Publication type
Master's thesis
Identification Number

Postagens em blogs estão proliferando e se tornando grandes influenciadores de opinião na web. Blogueiros postam sobre diversos assuntos, como análises de produtos, opiniões políticas e tendências tecnológicas. Com essa influência em expansão, monitorá-las de forma contínua, e extrair informações úteis sobre a "opinião pública" ganha grande importância. Blogs apresentam suas informações com uma dimensão temporal bem definida que não está presente em conteúdo web mais tradicional. Além disto, um post de blog pode desencadear novos posts pelo mesmo blogueiro ou por outros, levando a uma discussão na blogosfera. Estes fatores tornam informações em blogs e sua dinâmica, significativamente diferentes do conteúdo tradicional da web, ocasionando uma necessidade de tecnologias especializadas de pesquisa e análise sobre esses textos, diferentes das utilizadas hoje. Muitos dos trabalhos encontrados focam em análises de termos presentes nestes textos, mas poucos se focam em análises dos textos como um todo e no relacionamento com outros. Aqui procuramos viabilizar análises temporais sobre o conteúdo destas postagens e mostrar como algumas entidades podem influenciar a popularidade de outras. Propõe-se também que a ferramenta sirva com um agregador multifacetado de informações relevantes para uma determinada área e que não sofra grande interferência das fontes mais tradicionais de notícias.


Blog posts are proliferating and are now great opinion leaders on the web. Blog authors post about various topics such as product reviews, political and technology trends. With their expanding influence, it is of great importance to monitor them and continuously extract useful information about the "public opinion". Blogs present their information with a well-defined temporal dimension that does not exist in any other traditional web content. Furthermore, a blog post is able to spark new posts, by the same author or others, leading to discussion over the blogosphere. These factors make information on blogs and their dynamics significantly different from traditional web content, and thus rises the need for specialized technologies, different from those used today, in order to research and analyze these texts. Many of the studies are focused on analysis of terms present in these texts, but few focus on analysis of texts as a whole and in their relationship with other texts. This work seeks viable temporal analysis on the content of these posts and shows how some entities can influence the popularity of others. It is also proposed a tool that serves a multifaceted aggregator of information relevant to a particular area and does not suffer major interference from more traditional news sources.