BT

Diffuser les Connaissances et l'Innovation dans le Développement Logiciel d'Entreprise

Contribuez

Sujets

Sélectionner votre région

Accueil InfoQ Actualités Spark, Storm et les analyses temps-réel

Spark, Storm et les analyses temps-réel

Les analyses Big Data ont évolué ces dernières années, en même temps qu'a explosé le volume d'informations à traiter. Hadoop est sans aucun doute une plate-forme de choix pour les analyses et les calculs Big Data. Pourtant, les volumes de données, leur variété et la vélocité augmentant, Hadoop, en tant que Framework de traitements en mode Batch, ne peut pas satisfaire les besoins d'analyse temps-réel.

Databricks, la société derrière Apache Spark, a récemment levé 14 millions de $ pour accélérer le développement de Spark et de Shark. Spark est un moteur pour le traitement des données à grande échelle, écrit en Scala. Shark est une variation de Spark, compatible avec Hive.

Tout comme Spark, Storm vise à contourner la nature "batch" d'Hadoop en proposant de l'event processing et des capacités de calculs distribués. L'architecte conçoit une topologie de transformations, sous forme de graphe orienté acyclique, et a la possibilité de réaliser des calculs aussi complexes qu'il le souhaite, en appliquant une transformation après l'autre.

Nathan Marz a expérimenté directement ce fonctionnement et a proposé le paradigme appelé architecture lambda pour résoudre ces problématiques fondamentales d'architecture. L'architecture lambda consiste en une couche de service, la serving layer, mise à jour de temps en temps par une batch layer et en une speed layer, qui calcule les analyses temps-réel pour compenser la lenteur de la batch layer. Essentiellement, Hadoop fait ses calculs d'analyse en batch et, entre l'exécution des batchs, la speed layer met à jour de façon incrémentale les métriques en observant le flux des événements.

Spark et Storm peuvent tous deux opérer sur un cluster Hadoop et accéder au stockage d'Hadoop. Storm-YARN est l'implémentation open source de Yahoo qui vise la convergence entre Storm et Hadoop. Spark fournit une intégration native à Hadoop, à travers YARN (NextGen MapReduce). Intégrer des analyses temps-réel à des systèmes basés sur Hadoop permet, grâce à l'élasticité, une meilleure utilisation des ressources des clusters et permet de minimiser les transferts réseaux, car tout se trouve sur un même cluster.

En termes de support commercial, Cloudera a déjà annoncé le support de Spark et l'a inclus dans la distribution CDH. Hortonworks prévoit d'inclure Apache Storm dans HDP (Hortonworks Data Platform) durant la première partie de l'année 2014.

Evaluer cet article

Pertinence
Style

Contenu Éducatif

BT