Tarefas
Realizar um trabalho prático envolvendo um problema típico de Big Data e utilizando o Apache Spark como principal ferramenta de processamento de dados. Exemplos de problemas são Análise de Sentimentos, Análise de Redes Sociais, Processamento de Dados de Sensores, Cidades Inteligentes e Mineração de Dados e/ou Inteligência Computacional para Apoio à Decisão. Esta é apenas uma lista de exemplos. Outras propostas podem ser feitas. É importante que pelo menos uma três das características de problemas de processamento de Big Data a seguir esteja presente: Volume, Variedade ou Velocidade. Neste sentido, pode-se optar por uma das alternativas a seguir:
Desenvolvimento de sistema.
Um sistema com interface gráfica (web ou não) deve ser implementado. O Spark pode ser utilizado como ferramenta de preparação dos dados a serem utilizados pelo sistema (e. g., ETL) ou como ferramenta para processamento de dados on-line. Se utilizado para preparação, esta deve ser pensada como parte do dia-a-dia de utilização do sistema.
Implementação de algoritmo.
Um algoritmo para processamento de Big Data deve ser implementado utilizando o Apache Spark. O Spark já possui bibliotecas com algoritmos prontos. A implementação a ser desenvolvida pode ser destinada a um dos problemas já abordados por algum deles, como classificação, regressão logística, etc. No entanto, o algoritmo deve ser diferente. Neste caso, uma análise comparativa deve ser realizada. A comparação pode levar em conta desempenho (velocidade de processamento) e/ou qualidade dos resultados.
Elaborar, escrever e entregar um artigo científico descrevendo o trabalho realizado.
Formato: padrão (template) especificado pela SBC. Os arquivos do padrão podem ser obtidos em http://www.sbc.org.br/documentos-da-sbc/summary/169-templates-para-artigos-e-capitulos-de-livros/878-modelosparapublicaodeartigos
Os alunos de Mestrado poderão elaborar o trabalho individualmente ou em dupla. Os alunos de Doutorado deverão elaborar o trabalho individualmente.
Datas Importantes
18/07/2017 - Apresentação oral da proposta de trabalho descrevendo seu objetivo, as tecnologias utilizadas e as estratégias para obtenção dos dados a serem utilizados. Tempo de apresentação: 10 minutos.
22/08/2017 - Apresentação oral do trabalho. Se um sistema foi desenvolvido, sua execução deve ser parte da apresentação. Se a opção foi a implementação de um algoritmo, seus detalhes devem ser descritos, bem como os resultados comparativos. Tempo de apresentação: 20 minutos.
Serão considerados pontos de destaque