Início Apache Spark no InfoQ Brasil
Artigos
Feed RSS-
Big Data com Apache Spark - Parte 6: Análise de grafos com Spark GraphX
Este artigo apresenta o GraphX do Apache Spark usado para o processamento e análise de grafos, com exemplos de algoritmos de grafo como: PageRank, Componentes Conectados e Contagem de triângulos.
-
Big Data com Apache Spark - Parte 5: Spark ML
Nessa quinta parte da série sobre Apache Spark, o autor Srini Penchikala explica o pacote Spark ML e como usá-lo para criar e administrar pipelines de dados de machine learning.
-
Big Data com Apache Spark - Parte 4: Spark Machine Learning
Neste quarto artigo da série Apache Spark, o autor Srini Penchikala explica os conceitos de machine learning e a biblioteca Spark MLlib para criar uma aplicação de análise preditiva.
-
Automatizando a execução de Spark Notebooks
O uso de notebooks para explorar um dataset facilita muito o trabalho do desenvolvedor, mas possui desafios para serem publicados em produção ou para os usuários finais visualizarem seus resultados, veja nesse artigo como a Tail fez para automatizar o uso dos Spark Notebooks.
-
Estendendo o OutputStream do Apache Spark Structured Streaming
Nem sempre o suporte padrão de saída do processamento de streams do Apache Spark Structured Streaming pode atender suas necessidades, por isso esse artigo mostra como estender a saída do stream e implementar sua própria integração externa. Apresento como estender o OutputStream com um exemplo completo de integração, persistindo o resultado do processamento em banco de dados relacional.
-
Processamento de Dados em "Tempo Real" com Apache Spark na Wavy: Parte 3
Grandes volumes de dados para processar? Necessidade de informação em "tempo real"? Essas são as necessidades que temos de processamento de dados na Wavy, mais de 100 milhões de transações por dia. Esse artigo mostra como utilizamos o Apache Spark para processar grandes influxos de dados de forma contínua, ao final vamos compartilhar dicas e lições aprendidas no uso dessa ferramenta.
-
Processamento de Dados em "Tempo Real" com Apache Spark Structured Streaming: Parte 2
O Apache Spark provê uma nova API de manipulação e processamento de streams de dados chamada Structured Streaming. Foi desenvolvida para ser altamente escalável e resiliente. Nesse artigo mostro em detalhes sua forma de funcionamento e suas principais configurações por meio de um exemplo prático, efetuando o processamento e agregação contínua de arquivos de dados.
-
Processamento de Dados em "Tempo Real" com Apache Spark: Parte 1
Nessa série de artigos vou abordar como utilizar o processador de streams do Apache Spark para criar uma aplicação de processamento de dados em "tempo real". Além de aprofundar na nova API de streams, o Structured Streaming, vou dar mais detalhes da arquitetura e mostrar a implementação da nossa solução para processar altos volumes de dados na Wavy.
-
Um comparativo entre MapReduce e Spark para analise de Big Data
MapReduce e Spark são os dois frameworks mais populares existentes atualmente para computação em cluster e análise de dados de larga escala (Big Data). Este artigo, apresenta a avaliação dos principais componentes arquiteturais do MapReduce e do Spark incluindo: shuffle, modelo de execução e cache por meio de um conjunto de dados a serem processados.