Fragmentação Física e Virtual de Dados em Um Agrupamento de Banco de Dados
Autores
4356 |
Camille de Souza Furtado
|
790,51,1950
|
4357 |
790,51,1950
|
|
4358 |
790,51,1950
|
Informações:
Publicações do PESC
Um agrupamento de banco de dados é uma camada de software que visa explorar o processamento paralelo de consultas usando SGBDs seqüências sobre um agrupamento de PCs. Consideramos seu uso visando o alto desempenho de aplicações OLAP (Online analytical processing), as quais tipicamente usam consultas ad-hoc de alto custo. Para tais aplicações o paralelismo intra-consulta pode ajudar a reduzir o tempo de execução individual das consultas e pode ser obtido através da fragmentação das tabelas do banco de dados pelos nós do agrupamento de PC. Entretanto, tanto o esquema de fragmentação física como virtual, possuem vantagens e desvantagens em termos de necessidade de espaço em disco e balanceamento de carga. Nesta dissertação, propomos a combinação de ambos em um novo esquema de fragmentação chamado Fragmentação Híbrida Adaptativa (AHP – Adaptive Hybrid Partitioning). AHP provê o paralelismo intra-consulta otimizando a utilização de espaço em disco. Para validar AHP, desenvolvemos o SmaQSS, um protótipo para processamento paralelo de consultas de alto custo em agrupamento de banco de dados. Nossos experimentos apresentam desempenho com aceleração linear e super linear. Os resultados mostram que AHP reduz significativamente o tempo de execução das consultas OLAP, ao mesmo tempo em que não sobrecarrega a ocupação do espaço em disco.
We consider the use of a database cluster for high performance support of On-line analytical processing (OLAP) applications. For such applications, which typically use ad-hoc heavy-weight queries, intra-query parallelism can help reduce much the execution times of individual queries, thereby improving overall performance. Intraquery parallelism can be obtained by partitioning the database tables across cluster nodes. However, both physical and virtual partitioning schemes have advantages and drawbacks in terms of disk space requirements and load balancing. In this dissertation, we propose to combine both schemes into a new partitioning scheme called Adaptive Hybrid Partitioning (AHP). AHP provides much flexibility in intra-query parallelism while optimizing disk space usage and data availability. To validate AHP, we developed SmaQSS, a prototype for OLAP parallel query processing in database clusters. Our experiments on a 32-node database cluster using the TPC-H benchmark demonstrate linear and super-linear speedup. Thus, AHP can reduce significantly the execution time of typical OLAP heavy-weight queries.