Accueil InfoQ Datageeks sur InfoQ
Anomaly Detection with Apache Spark
A Gentle Introduction to Apache Spark and Clustering for Anomaly Detection.
Storm at Criteo
Storm est un projet apache de calcul distribué orienté flux. Concrètement, cela permet de retravailler ses flux de données pratiquement en temps réel à travers de topologies de calcul.
Spark Streaming As Near Real Time ETL…and beyond !
L’objectif de cette session est de présenter Spark Streaming, les gênes communs avec Spark et les cas d’utilisation possibles.
InfluxDB - an open source distributed time series database
Talk about InfluxDB internals, the open source Time Series Database.
Algolia Search as a Service : Architecture d'un moteur de recherche realtime
Algolia Search as a Service : Architecture d'un moteur de recherche realtime.
Elian Carsenat nous présente l'Onomastique appliquée à travers un algorithme de réconnaissance de Genres.
MapR : Anomaly Detection
The basic ideas of anomaly detection are simple. You build a model and you look for data points that don’t match that model.
Parquet format de stockage Hadoop orienté colonnes : Théorie et Application
Parquet est un format de fichier orienté colonnes pour Hadoop développé par Cloudera et Twitter avec la contribution de Criteo.
Apache Spark : a practical feedback after implementing a data analysis workflow
Within a few months, we have rewritten the complete workflow for a data analysis engine: eXenGine. We'll give our feedback about using Apache Spark for implementing a matrix factorization method.