BT

Disseminando conhecimento e inovação em desenvolvimento de software corporativo.

Contribuir

Tópicos

Escolha a região

Início Notícias Databricks anuncia desempenho recorde em Big Data

Databricks anuncia desempenho recorde em Big Data

A empresa Databricks, principal mantenedora do Apache Spark, apresentou recentemente o que pode se tratar de um novo recorde em Big Data: a ordenação de 100TB de dados (1 trilhão de registros) em apenas 23 minutos. O record anterior, estabelecido pelo Yahoo com Hadoop e Map Reduce, era de 72 minutos. O feito foi submetido para avaliação do Sort Benchmark na categoria Daytona Grey e, quando confirmado, poderá estabelecer o Spark como um dos principais projetos em Big Data.

A ordenação de dados em grande escala é uma operação relevante para benchmarks em Big Data. Ao contrário de outras operações, como filtragem e agregação, a ordenação não reduz o conjunto de dados. Isso coloca grande carga na rede durante a fase de shuffle, na qual os dados são redistribuídos entre as máquinas do cluster.

O desempenho anunciado foi possível graças a melhorias no Apache Spark, tanto na aplicação executada, quanto na sua infraestrutura. No Spark, um novo algoritmo de shuffle reduziu drasticamente a utilização de memória, o módulo de rede foi remodelado e o novo serviço de shuffle externo consegue entregar arquivos mesmo durante pausas de coleta de lixo da JVM. Na aplicação, a troca de QuickSort para TimSort e o melhor uso de do cache foram os principais destaques. A execução foi realizada em 206 instâncias i2.8xlarge do Amazon Elastic Compute Cloud, que contribuíram com rede de 10Gbps, Single-root IO Virtualization e discos SSDs.

Apesar de notável, o recorde trouxe algumas controvérsias. As diferenças de infraestrutura tornam difícil avaliar quanto da diferença de desempenho se deve ao software e quanto é relativo a simplesmente uma melhor infraestrutura. O record anterior foi estabelecido em 2100 nós, cada um com dois processadores hexacore Xeon E5-2630, com discos magnéticos e em data center dedicado, o que pode distorcer significativamente a comparação.

Além do recorde na ordenação de 100TB, também foi anunciado a ordenação de 1PB em 234 minutos usando 190 servidores. Apesar de não haver benchmark para esta escala, o último registro público de ordenação de petabyte foi o do Google em 2011, que alcançou a marca de 33 minutos, mas com 8000 computadores.

O Apache Spark têm sido adotado por grandes nomes na indústria de Big Data, como nos casos da Cloudera e do Yahoo. O recorde anunciado, mesmo com as ressalvas, é um marco importante no projeto e pode consagrar o Spark e seu ecossistema como uma das principais ferramentas para os cientistas de dados.

Avalie esse artigo

Relevância
Estilo/Redação

Conteúdo educacional

BT