O Facebook abriu o código-fonte do projeto Corona, sua extensão para agendamento de processos MapReduce no Hadoop.
O Corona separa duas tarefas críticas de gerenciamento de clusters e rastreamento de tarefas. É conceitualmente similar ao Apache YARN, que também é uma versão melhorada do agendador e gerenciador de recursos do Hadoop. O time de engenheiros do Facebook publicou um artigo explicando o funcionamento interno do Corona, além de explicar o motivo de não reutilizar o YARN:
Consideramos utilizar o Apache YARN como alternativa ao Corona. Entretanto, depois de investigar o uso do projeto com nossa versão do HDFS (um requisito fundamental, devido aos nossos vários petabytes de dados históricos), descobrimos muitas incompatibilidades que seriam proibitivas em termos de tempo e que seriam arriscadas de corrigir. Além disso, também não se sabe se o YARN seria capaz de trabalhar com o volume de demanda exigido pelo Facebook.
Uma das principais diferenças na versão do Hadoop do Facebook é o AvatarNode, que cria um sistema de redundância hot-standby para cada nó no cluster. Isso proporciona um NameNode com alta disponibilidade e possibilita até mesmo atualizações de software sem indisponibilidade. É um aspecto crítico para a empresa, que atualmente executa centenas de processos de petabytes de dados em seu datawarehouse, com meio petabyte de novos dados chegando diariamente.
O Corona atualmente pode executar tarefas MapReduce, mas o Facebook também pretende utilizá-lo para agendar a execução de outros tipos de aplicações, como o Peregrine.