Autores

4356
Camille de Souza Furtado
790,51,1950
4357
790,51,1950
4358
790,51,1950

Informações:

Publicações do PESC

Título
Fragmentação Física e Virtual de Dados em Um Agrupamento de Banco de Dados
Linha de pesquisa
Engenharia de Dados e Conhecimento
Tipo de publicação
Dissertação de Mestrado
Número de registro
Data da defesa
21/12/2006
Resumo

Um agrupamento de banco de dados é uma camada de software que visa explorar o processamento paralelo de consultas usando SGBDs seqüências sobre um agrupamento de PCs. Consideramos seu uso visando o alto desempenho de aplicações OLAP (Online analytical processing), as quais tipicamente usam consultas ad-hoc de alto custo. Para tais aplicações o paralelismo intra-consulta pode ajudar a reduzir o tempo de execução individual das consultas e pode ser obtido através da fragmentação das tabelas do banco de dados pelos nós do agrupamento de PC. Entretanto, tanto o esquema de fragmentação física como virtual, possuem vantagens e desvantagens em termos de necessidade de espaço em disco e balanceamento de carga. Nesta dissertação, propomos a combinação de ambos em um novo esquema de fragmentação chamado Fragmentação Híbrida Adaptativa (AHP – Adaptive Hybrid Partitioning). AHP provê o paralelismo intra-consulta otimizando a utilização de espaço em disco. Para validar AHP, desenvolvemos o SmaQSS, um protótipo para processamento paralelo de consultas de alto custo em agrupamento de banco de dados. Nossos experimentos apresentam desempenho com aceleração linear e super linear. Os resultados mostram que AHP reduz significativamente o tempo de execução das consultas OLAP, ao mesmo tempo em que não sobrecarrega a ocupação do espaço em disco.

Abstract

We consider the use of a database cluster for high performance support of On-line analytical processing (OLAP) applications. For such applications, which typically use ad-hoc heavy-weight queries, intra-query parallelism can help reduce much the execution times of individual queries, thereby improving overall performance. Intraquery parallelism can be obtained by partitioning the database tables across cluster nodes. However, both physical and virtual partitioning schemes have advantages and drawbacks in terms of disk space requirements and load balancing. In this dissertation, we propose to combine both schemes into a new partitioning scheme called Adaptive Hybrid Partitioning (AHP). AHP provides much flexibility in intra-query parallelism while optimizing disk space usage and data availability. To validate AHP, we developed SmaQSS, a prototype for OLAP parallel query processing in database clusters. Our experiments on a 32-node database cluster using the TPC-H benchmark demonstrate linear and super-linear speedup. Thus, AHP can reduce significantly the execution time of typical OLAP heavy-weight queries.

Arquivo
Topo