Início Big Data no InfoQ Brasil
Artigos
Feed RSS-
Série de artigos: Entendendo data science
Nesta série, exploramos maneiras de compreensão de data science, incluindo o entendimento de onde sua aplicação é ou não é necessária e como torná-la um ativo para você. O conteúdo dessa série é produzido por pessoas que já viveram e resolveram muitos dos desafios da aplicação de data science.
-
Big Data com Apache Spark Part 3: Spark Streaming
Este é o terceiro artigo da série Big Data com Apache Spark. Nos 2 primeiros artigos abordamos o processamento de dados estáticos. Neste artigo trataremos do processamento de dados em streaming e em tempo real. O artigo busca mostrar como podemos usar o Apache Spark para realizar análises sob informações em cenários onde os dados são gerados continuamente.
-
O papel de um cientista de dados em 2016
O papel do Cientista de Dados está ganhando muita atenção ultimamente, devido ao fato das organizações começarem a utilizar Big Data e análise de dados para adquirir insights a respeito de seus dados. Este artigo apresenta uma visão sobre o papel do Cientista de Dados para o ano de 2016.
-
Big Data com Apache Spark Parte 2: Spark SQL
O Spark SQL, é parte integrante do framework de Big Data Apache Spark, utilizado para processamento de dados estruturados, que permite executar consultas SQL no conjunto de dados do Spark. É possível realizar tarefas ETL sobre os dados em diferentes formatos, como por exemplo JSON, Parquet, banco de dados e com isto, executar consultas ad-hoc.
-
Big Data com Apache Spark - Parte 1: Introdução
O Apache Spark é um framework de big data construído para ser veloz, fácil de usar e com analises sofisticadas. Nesse artigo, Srini Penchikala mostra como o Spark ajuda no processamento e analise de Big Data com sua API padrão. Também compara o Spark com a implementação tradicional de MapReduce do Apache Hadoop.
-
Um comparativo entre MapReduce e Spark para analise de Big Data
MapReduce e Spark são os dois frameworks mais populares existentes atualmente para computação em cluster e análise de dados de larga escala (Big Data). Este artigo, apresenta a avaliação dos principais componentes arquiteturais do MapReduce e do Spark incluindo: shuffle, modelo de execução e cache por meio de um conjunto de dados a serem processados.
-
Aprendizado de Máquina e Computação Cognitiva
Baseado em um webinar sobre análise de dados, este artigo compreende tópicos sobre aprendizado de máquina e computação cognitiva, e como essas áreas estão relacionadas à Inteligência Artificial. Os palestrantes discutem como estas tecnologias estão sendo aplicadas no segmento de marketing digital e quais as preocupações que as organizações possuem para prover serviços de aprendizado de máquina.
-
Hadoop na nuvem
Os provedores de soluções Hadoop, atualmente dentre as mais populares tecnologias de Big Data em ambientes de nuvem pública ou privada evoluíram. Há diversos fornecedores de soluções baseadas em Hadoop no mercado, como Cloudera, HortonWorks e MapR, provendo variadas soluções em nuvem. Este artigo, apresenta uma análise deste novo panorama.
-
O estado do NoSQL
Stefan Edlich, professor acadêmico da universidade Beuth Hochschule de Tecnologia de Berlim, Alemanha, fez uma análise do NoSQL, considerando sua evolução, impacto financeiro, os padrões ou a falta deles, o cenário atual, os livros, os líderes e alguns recém-chegados, concluindo que NoSQL veio para ficar.
-
PostgreSQL: Armazenamento de dados em formato "schemaless"
No mundo NoSQL, schemaless é um recurso largamente anunciado como vantagem competitiva. Basicamente, significa não se preocupar com normalização de dados. Em teoria, este recurso permite armazenar dados sem um conhecimento prévio de chaves ou tipos de dados. Este artigo apresenta uma solução ao utilizar o PostgreSQL para armazenar e tratar dados em formato schemaless usando o Hstore.