Databricks anuncia desempenho recorde em Big Data

A empresa Databricks, principal mantenedora do Apache Spark, apresentou recentemente o que pode se tratar de um novo recorde em Big Data: a ordenação de 100TB de dados (1 trilhão de registros) em apenas 23 minutos. O record anterior, estabelecido pelo Yahoo com Hadoop e Map Reduce, era de 72 minutos. O feito foi submetido para avaliação do Sort Benchmark na categoria Daytona Grey e, quando confirmado, poderá estabelecer o Spark como um dos principais projetos em Big Data.

A ordenação de dados em grande escala é uma operação relevante para benchmarks em Big Data. Ao contrário de outras operações, como filtragem e agregação, a ordenação não reduz o conjunto de dados. Isso coloca grande carga na rede durante a fase de shuffle, na qual os dados são redistribuídos entre as máquinas do cluster.

O desempenho anunciado foi possível graças a melhorias no Apache Spark, tanto na aplicação executada, quanto na sua infraestrutura. No Spark, um novo algoritmo de shuffle reduziu drasticamente a utilização de memória, o módulo de rede foi remodelado e o novo serviço de shuffle externo consegue entregar arquivos mesmo durante pausas de coleta de lixo da JVM. Na aplicação, a troca de QuickSort para TimSort e o melhor uso de do cache foram os principais destaques. A execução foi realizada em 206 instâncias i2.8xlarge do Amazon Elastic Compute Cloud, que contribuíram com rede de 10Gbps, Single-root IO Virtualization e discos SSDs.

Apesar de notável, o recorde trouxe algumas controvérsias. As diferenças de infraestrutura tornam difícil avaliar quanto da diferença de desempenho se deve ao software e quanto é relativo a simplesmente uma melhor infraestrutura. O record anterior foi estabelecido em 2100 nós, cada um com dois processadores hexacore Xeon E5-2630, com discos magnéticos e em data center dedicado, o que pode distorcer significativamente a comparação.

Além do recorde na ordenação de 100TB, também foi anunciado a ordenação de 1PB em 234 minutos usando 190 servidores. Apesar de não haver benchmark para esta escala, o último registro público de ordenação de petabyte foi o do Google em 2011, que alcançou a marca de 33 minutos, mas com 8000 computadores.

O Apache Spark têm sido adotado por grandes nomes na indústria de Big Data, como nos casos da Cloudera e do Yahoo. O recorde anunciado, mesmo com as ressalvas, é um marco importante no projeto e pode consagrar o Spark e seu ecossistema como uma das principais ferramentas para os cientistas de dados.

Unlock the full InfoQ experience

Não tem uma conta no InfoQ?

Tópicos

Crank, o novo framework frontend com renderização assíncrona integrada - Bate papo com Brian Kim

APIs em tempo real no contexto do Apache Kafka

COVID-19 e Mineração de Redes Sociais - Habilitando Cargas de Trabalho de Aprendizado de Máquina com Big Data

Entendendo Os Valores e Princípios Ágeis

Bate papo sobre o livro “De pé sobre os ombros: Um guia para líderes na transformação digital"

Links úteis

Escolha a região

Avalie esse artigo

Conteúdo publicado no tópico Performance

Tópicos Relacionados:

Conteúdo editorial relacionado

Conteúdo relacionado de patrocinadores

Conteúdo educacional

Crank, o novo framework frontend com renderização assíncrona integrada - Bate papo com Brian Kim

Blockchain Empresarial: Jornada de uma rede multi-organização à produção

PHP 7 - Melhorias na biblioteca padrão

O último conteúdo do InfoQ Brasil

APIs em tempo real no contexto do Apache Kafka

Sete duras lições aprendidas na migração de um monólito para microservices

Adquira leads qualificados no mercado de desenvolvimento de software com a eMag InfoQ

Entendendo Os Valores e Princípios Ágeis

Somente empresas ágeis sobrevivem ao ambiente de negócios em constante mudança

COVID-19 e Mineração de Redes Sociais - Habilitando Cargas de Trabalho de Aprendizado de Máquina com Big Data

A inteligência artificial estaria mais próxima do bom senso?

Desafios na avaliação postural humana em aplicativos de condicionamento físico baseados em IA

Bate papo sobre o livro “De pé sobre os ombros: Um guia para líderes na transformação digital"

Arquitetura de Microservices Multi-Runtime

Armadilhas de design NoSQL com Java

QCon London

QCon AI Boston

QCon San Francisco