Sirius é um sistema de código aberto customizável que pode ser comandado via comando de voz. Ele foi construído por pesquisadores da Universidade de Michigan e é similar ao Siri da Apple, ao Microsoft Cortana e ao Google Now. Segundo a Universidade de Michigan, Sirius "foi projetado para iniciar uma nova geração de assistentes pessoais inteligentes para dispositivos de vestir e outros".
O Sirius é composto por duas partes:
- uma coleção de serviços que implementa um assistente pessoal inteligente (IPA, na sigla em inglês) pronto para ser implantado;
- um conjunto de componentes que alimentam o IPA e são conhecidos como Sirius-suite.
Sirius provê funcionalidades IPA fundamentais como reconhecimento de fala, correspondência de imagem e processamento natural de linguagem, incluindo capacidades de pergunta e resposta. Também recebe consultas na forma de fala ou de imagens e retorna resultados na forma de linguagem natural.
Segundo Jason Mars, co-diretor do Clarity Lab, graças ao Sirius, "ao invés, por exemplo, de fazer um aplicativo rodar no Apple Watch posso fazer o meu próprio relógio". Isso pode revolucionar a indústria dos dispositivos de vestir, parecido com o que o Linux fez no âmbito dos servidores, disse Mars. Outra dimensão na qual o Sirius pode ser importante, segundo Mars, é a pesquisa no desenvolvimento de serviços baseados em nuvem que processam comandos de voz e na forma como eles escalam. Dessa maneira é possível mostrar a necessidade de se redesenhar plataformas em nuvem para suportar especificamente cargas de trabalho baseadas em voz.
Uma vez que o Sirius foi construído localmente, seus três serviços podem ser iniciados e testados independentemente, fornecendo uma solução de reconhecimento de fala, de correspondência de imagens e de perguntas e respostas pronta para o uso.
A base do Sirius é a Sirius-Suite, uma coleção de três núcleos que alimentam as distintas capacidades do Sirius e que também estão disponíveis independente. Mais precisamente, os núcleos da Sirius-Suite trazem os seguintes algoritmos:
- Modelo de Misturas Gaussiano (GMM, na sigla em inglês), e Pontuação via Redes Neurais Profundas (DNN, na sigla em inglês) usadas para reconhecimento automático de fala (ASR, na sigla em inglês);
- Extração ou descrição de características, que pode ser usado para construir um pipeline de correspondência de imagens;
- Expressões regulares, derivação de palavras (Word Stemmer), e campos aleatórios condicionais, baseado no sistema de perguntas e respostas OpenEphyra, da Carnegie-Mellon.
Usuários do Sirius podem enviar suas dúvidas para o Sirius Users Google Group.