Há tutoriais disponíveis ja faz algum tempo detalhando como rodar o popular Apache Hadoop MapReduce framework no Amazon EC2. Hoje a Amazon adere de vez ao padrão oferecendo suporte oficial via Amazon Elastic MapReduce. Da página do produto:
O Amazon Elastic MapReduce automaticamente embute uma implementação do MapReduce framework nas instancias do Amazon EC2, sub-dividindo os dados de um fluxo de trabalho em pequenas partes, de forma que eles possam ser processados (a função "map") em paralelo e eventualmente recombinando os dados em uma solução final (a função "reduce"). O Amazon S3 serve como fonte para os dados sendo analisados e também como destino para o resultado final.
Para o Amazon Elastic MapReduce é cobrado 15% a mais, sobre o valor existente do EC2. A FAQ tem uma lista completa com detalhes de preço e utilização. O blog oficial do AWS também fez a cobertura:
...Processamente no Elastic MapReduce é centralizado no conceito de um Fluxo de Trabalho. Cada Fluxo de Trabalho pode conter um ou mais passos. Cada passo recebe um pacote de dados do Amazon S3, distribui os dados para um número específico de instâncias do EC2 que estajm rodando o Hadoop (aumentando as instâncias se necessário), faz todo o trabalho e então escreve os resultados de volta no S3. Cada passo deve referenciar um código "mapper" ou um "reducer" específico da aplicação (JARs ou código de script para uso via Streaming model). Nós também incluímos o Aggregate Package com suport built-in para várias operações comuns comoSum, Min, Max, Histogram e Count. Você pode fazer várias coisas antes mesmo de começar a escrever códig!Nós fornecemos tres rotas de acessos distintas para o Elastic MapReduce. Você tem total controle via Elastic MapReduce API, você pode usar as ferramentas de linha de comando do Elastic MapReduce ou você pode apontar-e-clicar na tab Elastic MapReduce no AWS Management Console! Vamos olhar cada um deles...
Dana Gardner do ZDNet especula sobre as implicações da nova oferta da Amazon para o mercado de Business Intelligence.