Conectar usuários em uma escala global durante o dia todo, todos os dias exige um grande esforço de gerenciamento de dados. Ao considerar centenas de operações e equipes de ciência de dados analisando grandes conjuntos de dados anônimos e agregados, utilizando diferentes ferramentas para melhor entender e manter a integridade de um mercado dinâmico, torna esse desafio ainda mais assustador.
Três anos atrás, o Uber adotou o framework open source Apache Hadoop como sua plataforma de dados, possibilitando o gerenciamento de petabytes de dados entre clusters de computadores. No entanto, considerando as muitas equipes, ferramentas e fontes de dados, foi preciso encontrar uma maneira de ingerir e dispersar dados de forma confiável em escala em toda a sua plataforma.
Nesta última Quarta-feira, 12/09, o time de engenharia do Uber lançou o projeto Marmaray, um framework e biblioteca para dispersão e ingestão de dados genéricos para o Apache Hadoop.
Construído e projetado pela equipe da Plataforma Hadoop do Uber, o Marmaray é uma estrutura baseada em plug-in, construída sobre o ecossistema Hadoop. Os usuários podem adicionar suporte para ingerir dados de qualquer origem e dispersar para qualquer destinatário aproveitando o uso do Apache Spark. O nome, Marmaray, vem de um túnel na Turquia que liga a Europa à Ásia. Da mesma forma, eles imaginaram o Marmaray dentro do Uber como um pipeline conectando dados de qualquer fonte a qualquer destinatário, dependendo da necessidade do cliente.
Estruturas de Data Lake geralmente contêm dados com qualidade muito questionável. O Marmaray garante que todos os dados brutos ingeridos estejam em conformidade com um esquema de fonte apropriado, mantendo um alto nível de qualidade para que os resultados analíticos sejam confiáveis. Desta forma, os cientistas de dados podem gastar seu tempo extraindo insights úteis desses dados, em vez de lidar com problemas de qualidade dos dados.
No Uber, o Marmaray conecta uma coleção de sistemas e serviços de maneira coesa para fazer as seguintes tarefas:
- Produzir dados em um formato esquematizado e com qualidade por meio da biblioteca e serviços de gerenciamento de esquemas que eles possuem;
- Transferir dados entre vários meios de armazenamento para o data lake utilizando a funcionalidade de ingestão do Marmaray;
- Criar pipelines utilizando o serviço interno de orquestração de fluxo de trabalho do Uber para analisar e processar os dados ingeridos, bem como armazenar e calcular métricas de negócios com base nos dados existentes em um Hive;
- Fornecer os resultados processados do Hive para uma estrutura de armazenamento de dados on-line onde os clientes internos podem consultar os dados e obter resultados quase instantâneos através do mecanismo de dispersão do Marmaray.
Figura 1: O Marmaray ingere dados no Data Lake Hadoop e dispersa os dados em estruturas para armazenamento de dados.
Enquanto o Marmaray provê uma visão compartilhada para toda a empresa de ter um fluxo de dados de qualquer fonte de origem para qualquer destinatário de dados, ele também possibilitou a descoberta da necessidade de construir uma plataforma completamente self-service, proporcionando aos usuários com conhecimentos variados, equipes e expertise técnicos diferentes uma experiência de integração sem atritos.
A natureza de código aberto do Hadoop permitiu à equipe do Uber integrar o Marmaray em sua plataforma para análise de dados em larga escala e conforme construíam o Marmaray para facilitar a ingestão e a dispersão de dados no Hadoop, consideraram que ele também deveria ser entregue à comunidade de código aberto.
O Uber espera que o Marmaray atenda às necessidades de dados de outras empresas e que os desenvolvedores de código aberto ampliem sua funcionalidade.
O código do Marmaray está disponível no Github e os criadores desta solução e esperam receber feedback e contribuições para que possam melhorar continuamente a plataforma Marmaray.