Início Hadoop no InfoQ Brasil
Notícias
Feed RSS-
Engenharia de dados no Badoo: lidando com 20 bilhões de eventos por dia
O Badoo é uma rede social para solteiros que atualmente lida com bilhões de eventos por dia, explica Vladimir Kazanov, líder de engenharia de plataforma de dados. Na Skills Matter, Kazanov falou sobre alguns dos desafios de operar nessa escala e quais ferramentas o Badoo usa para processar e relatar esses dados.
-
Keynote do ApacheCon 2019: Google Cloud aprimora o processamento de big data com o Kubernetes
Na ApacheCon América do Norte, Christopher Crosbie palestrou sobre "Mais um negociador de recursos para Big Data? Como o Google Cloud está aprimorando o processamento do Data Lake com o Kubernetes", destacando os esforços do Google para tornar o software de big data Apache "nativo na nuvem", desenvolvendo operadores opensource para fornecer planos de controle para a execução do software Apache.
-
Combinando sql server e hadoop usando polybase
Com o recente lançamento do SQL Server 2016, podemos utilizar consultas SQL nos ambientes Hadoop e Azure blob storage. Agora, além de não precisarmos mais escrever operações map/reduce, também podemos associar dados relacionais e não relacionais em uma única consulta.
-
MemSQL 4: edição comunitária, inteligência geoespacial e integração com o Spark
A última versão do MemSQL, um banco de dados em memória com suporte para transações e dados analíticos, inclui a nova Community Edition para utilização gratuita por organizações. Essa edição oferece suporte para processamento de dados em memória em tempo real para diferentes formatos como relacional, JSON e dados geoespacial.
-
Apache HBase chega à versão 1.0
Depois de três previews, seis versões candidatas e mais de 1500 tickets fechados, a fundação Apache anunciou a versão 1.0 do HBase, um dos principais banco de dados NoSQL do ecossistema Hadoop. Depois de mais de 7 anos de ativo desenvolvimento, a equipe por trás HBase sentiu que o projeto tinha amadurecido e se estabilizado o suficiente para justificar uma versão 1.0.
-
Parquet se torna Projeto Apache Top-Level
O Apache Parquet, formato de armazenamento em colunas de código aberto para Hadoop, recentemente passou de um Apache Software Foundation Incubator para um projeto top-level. Inicialmente, criado pela Cloudera e pelo Twitter em 2012 para acelerar o processamento analítico, o Parquet está agora aberto e disponível para o Apache Spark, Apache Hive, Apache Pig, Impala, MapReduce nativo, etc.
-
Hortonworks obtém certificação no Google Cloud Platform
Recentemente a Horthonworks anunciou que sua solução para Big Data o Hortonworks Data Plataform (HDP) está certificado no Google Cloud Platform.
-
Cloudera disponibiliza sua nova versão empresarial
A Cloudera, uma das principais fornecedoras de soluções, suporte e serviços de software com base no Apache Hadoop, recentemente anunciou sua nova versão empresarial, o Cloudera Enterprise 5.3, contendo o CDH 5.3, o Cloudera Manager 5.3 e o Cloudera Navigator 2.2. Com esta nova versão, muitas melhorias foram adicionadas, principalmente relacionadas com segurança envolvendo criptografia.
-
Apache Slider agora se integra ao Hadoop Yarn e Ambari
O Apache Slider está com uma nova versão (0.60.0) contendo diversas melhorias e correções de bugs. Entre as principais melhorias com relação a versão anterior destaca-se a integração do Apache Slider com o serviço de registros do Apache Hadoop Yarn, agregação de logs, integração com o Apache Ambari, entre outras.
-
Apache Hive: otimização com base em custo e transações ACID
O Apache Hive, software direcionado para data warehouses que permite a consulta e o gerenciamento de gigantescos conjuntos de dados, implementou na última versão (0.14.0) melhorias como a otimização de consultas baseadas em custo.
-
Apache Storm agora integrado ao Hadoop File System, HBase e Kafka
Recentemente foi anunciada a nova versão do Apache Storm (0.9.3) que a partir de agora se integra com o Hadoop File System (HDFS), HBase e o Apache Kafka. A comunidade responsável pela evolução do Apache Storm conseguiu nesta nova versão fechar o total de 100 itens abertos no Jira, desenvolvendo assim novos recursos e diversas correções.
-
Gobblin, a Plataforma para Consumo Unificado de Dados do LinkedIn
Na conferência QCon San Francisco 2014, Lin Qiao do LinkedIn fez uma apresentação sobre o projeto Gobblin (que também foi resumida em um blog post) que é um sistema para consumo unificado de dados provenientes de fontes internas e externas.
-
Hortonworks obtém certificação no Microsoft Azure
Recentemente a Horthonworks anunciou que sua solução para Big Data o Hortonworks Data Plataform (HDP) está certificado no Microsoft Azure sendo a primeira plataforma Hadoop certificada para executar tarefas em uma infraestrutura como serviço (IaaS).
-
MapR certifica o conector MongoDB para Hadoop
A MapR anunciou a certificação do conector do MongoDB para Hadoop em suas distribuições de soluções para o Big Data com um conector que fornece acesso bidirecional entre o MongoDB e ambientes Hadoop.
-
MapR anuncia o Apache Drill para a nova geração de consultas ANSI SQL sobre o Hadoop
A MapR Technologies Inc., uma das principais distribuidoras de implementações Hadoop para o Big Data, anunciou hoje a adição do Apache Drill 0.5 para a nova geração de consultas ANSI SQL, como parte de sua distribuição Hadoop.