A MapR Technologies Inc., uma das principais distribuidoras de implementações Hadoop para o Big Data, anunciou recentemente a adição do Apache Drill 0.5 para a nova geração de consultas ANSI SQL, como parte de sua distribuição Hadoop.
Segundo Matt Aslett, diretor de pesquisas da 451 Research:
As organizações querem fornecer acesso aos dados armazenados em bancos de dados Hadoop e NoSQL para um amplo conjunto de usuários com habilidades de análise SQL já existentes. O Apache Drill habilita e fornece o acesso aos dados do Hadoop sem a necessidade de esquemas centralizados e também de um conjuntos de dados NoSQL com uma complexa estrutura de dados, incluindo campos aninhados e repetidos, se diferenciando assim das abordagens tradicionais SQL sobre o Hadoop.
O Apache Drill permite a execução de consultas sobre arquivos auto-descritivos ou semi-estruturados com por exemplo arquivos no formato JSON, Parquet e HBase e suporta o padrão ANSI SQL. Essa compatibilidade é extremamente benéfica a todos os desenvolvedores que já possuem conhecimentos de SQL diminuindo assim drasticamente a sua curva de aprendizado.
Os benefícios para as organizações com o uso do Apache Drill, são listados a seguir:
- Alto desempenho na análise de arquivos com formatos nativos incluindo arquivos com dados auto-descritivos como Parquet, arquivos JSON e tabelas Hbase.
- Consulta direta de dados em tabelas do HBase sem a definição e manutenção de um esquema paralelo / sobreposto na metastore do Hive.
- Consultas SQL intuitivas com extensões para trabalhos em arquivos semi-estruturados e dados aninhados como, por exemplo: dados utilizados em NoSQL ou online por APIs REST.
- Consultas simultâneas combinando diferentes fontes de dados Hadoop como arquivos, tabelas HBase e tabelas Hive.
- Para os desenvolvedores, analistas de negócios ede inteligência de negócios (BI), os benefícios são os seguintes:
- A utilização de instruções no padrão ANSI SQL, permitem a imediata adoção da tecnologia sem uma grande e custosa curva de aprendizado.
- Permite a utilização de ferramentas já existentes e conhecidas de análise de inteligência de negócio e a utilização de drivers padrões para conexão com fontes de dados como por exemplo ODBC/JDBC.
- Habilita consultas ad-hoc e de baixa latência em tabelas já existentes Hive, a reutilização dos meta dados, a utilização de centenas de formatos de arquivos e de funções definidas pelos usuários (UDFs) que não fazem parte das implementações padrões.
Para experimentar e testar o Apache Drill 0.5 Beta faça o download que encontra-se disponível no site da MapR, assim como também encontra-se disponível o download do MapR SandBox com o Apache Drill.