Em um post recente, a Microsoft anunciou uma prévia pública de seu recurso de conversão de texto em fala com tecnologia de rede neural, que faz parte da oferta do Azure Cognitive Services. Nesta versão, o serviço torna as vozes geradas por computador indistinguíveis das gravações reais. Esta tecnologia tem aplicações em chatbots, assistentes virtuais e conversão de texto digital, como e-books, em audiolivros.
A tecnologia foi revelada pela primeira vez na conferência Microsoft Ignite no fim de 2018, com melhorias feitas nas áreas de qualidade de voz aprimorada, desempenho de tempo de execução e maior disponibilidade de serviço.
A qualidade de voz foi melhorada como resultado de um grande treinamento supervisionado em um conjunto diversificado de alto-falantes. Além disso, mais recursos do pré-treinamento não supervisionado foram incluídos e o design do modelo neural é mais robusto. Xuedong Huang, um líder técnico na Microsoft, explica os benefícios dessas melhorias:
Nossa capacidade de conversão de texto em fala usa redes neurais profundas para superar os limites dos sistemas tradicionais de conversão de texto em fala, combinando os padrões de estresse e entonação da linguagem falada, denominados prosódia e sintetizando as unidades de fala em voz de computador.
Os sistemas de conversão de texto em fala não são novos, mas Huang explica as diferenças entre esses sistemas anteriores e o serviço mais recente da Microsoft:
Os sistemas tradicionais de conversão de texto em fala dividem a prosódia em análises linguísticas separadas e em etapas de previsão acústica que são governadas por modelos independentes. Isso pode resultar em síntese de voz abafada e chamativa. Nossa capacidade neural realiza predição de prosódia e síntese de voz simultaneamente. O resultado é uma voz mais fluida e natural.
O desempenho do mecanismo de conversão de texto em fala neural é agora seis vezes mais rápido que a versão anterior, como resultado da otimização de código, aceleração de hardware, aplicação de modelos de inferência paralela e simplificações de modelo. A Microsoft considera que o desempenho do tempo de execução é quase instantâneo, explica Huang sobre o impacto desses aprimoramentos no serviço:
O fator em tempo real foi melhorado da versão anterior para menos de 0,05x, o que significa que 1 segundo de áudio pode ser gerado em menos de 50 milissegundos.
A Microsoft forneceu alguns exemplos que demonstram que as vozes geradas por computador são "indistinguíveis das gravações reais":
Atualmente, o serviço em preview oferece duas vozes neurais de texto para fala pré-construídas em inglês, incluindo uma voz feminina chamada Jessa e uma voz masculina chamada Guy. Idiomas adicionais estarão disponíveis no futuro, bem como serviços de personalização para clientes que desejam construir suas próprias vozes de marca.
O Serviço Kubernetes do Azure (AKS) fornece a infraestrutura subjacente que ativa os serviços de conversão de texto em fala neural e está disponível em três data centers - nos EUA, na Europa e na Ásia.
Descontos para o serviço estão disponíveis durante a pré-visualização. Visite a página de preços do Azure para obter mais detalhes.