O Apache Hive, software direcionado para data warehouses que permite a consulta e o gerenciamento de gigantescos conjuntos de dados, implementou na última versão (0.14.0) melhorias como a otimização de consultas baseadas em custo.
Com o crescimento exponencial de informações geradas a cada minuto, as ferramentas pertencentes ao ecossistema Hadoop necessitam a cada versão, implementar melhorias que sejam capaz de em tempo hábil processar este gigantesco volume de dados.
Na nova versão do Apache Hive (0.14.0) a comunidade responsável pelo desenvolvimento implementou correções e novas funcionalidades, conseguindo fechar um total de 1.015 solicitações de melhorias e correções.
Dentre as principais melhorias que foram implementadas nesta nova versão, destacam-se:
- Transações ACID (HIVE-5317);
- Consultas com base em otimização por custo (HIVE-5775);
- Uso de tabelas temporárias (HIVE-7090);
- Suporte aos filtros HBase (HIVE-6132);
- Possibilidade da utilização de múltiplas sessões concorrentes no Apache Tez (HIVE-6325);
- Suporte para a replicação de tabelas através de instâncias HCatalog (HIVE-7341).
- Habilidade da leitura de scripts de qualquer sistema de arquivo pertencente ao ecossistema Hadoop (HIVE-7136);
- Execução síncrona/assíncrona através de clientes JDBC (HIVE-6899).
A comunidade está trabalhando para que na próxima versão do Apache Hive sejam incluídas as funcionalidades de sub-queries, análise SQL:2011 e a integração entre o Hive e o Spark para operações envolvendo aprendizado de máquina.
A nova versão e informações sobre as melhorias podem ser encontradas na página do projeto.