Accueil InfoQ Datageeks sur InfoQ
-
Anomaly Detection with Apache Spark
A Gentle Introduction to Apache Spark and Clustering for Anomaly Detection.
-
Storm at Criteo
Storm est un projet apache de calcul distribué orienté flux. Concrètement, cela permet de retravailler ses flux de données pratiquement en temps réel à travers de topologies de calcul.
-
Spark Streaming As Near Real Time ETL…and beyond !
L’objectif de cette session est de présenter Spark Streaming, les gênes communs avec Spark et les cas d’utilisation possibles.
-
InfluxDB - an open source distributed time series database
Talk about InfluxDB internals, the open source Time Series Database.
-
Algolia Search as a Service : Architecture d'un moteur de recherche realtime
Algolia Search as a Service : Architecture d'un moteur de recherche realtime.
-
Onomastique
Elian Carsenat nous présente l'Onomastique appliquée à travers un algorithme de réconnaissance de Genres.
-
MapR : Anomaly Detection
The basic ideas of anomaly detection are simple. You build a model and you look for data points that don’t match that model.
-
Parquet format de stockage Hadoop orienté colonnes : Théorie et Application
Parquet est un format de fichier orienté colonnes pour Hadoop développé par Cloudera et Twitter avec la contribution de Criteo.
-
Apache Spark : a practical feedback after implementing a data analysis workflow
Within a few months, we have rewritten the complete workflow for a data analysis engine: eXenGine. We'll give our feedback about using Apache Spark for implementing a matrix factorization method.