BT

Disseminando conhecimento e inovação em desenvolvimento de software corporativo.

Contribuir

Tópicos

Escolha a região

Início Notícias Microsoft apresenta Rede Neural com habilidade de Text-To-Speech

Microsoft apresenta Rede Neural com habilidade de Text-To-Speech

Em um post recente, a Microsoft anunciou uma prévia pública de seu recurso de conversão de texto em fala com tecnologia de rede neural, que faz parte da oferta do Azure Cognitive Services. Nesta versão, o serviço torna as vozes geradas por computador indistinguíveis das gravações reais. Esta tecnologia tem aplicações em chatbots, assistentes virtuais e conversão de texto digital, como e-books, em audiolivros.

A tecnologia foi revelada pela primeira vez na conferência Microsoft Ignite no fim de 2018, com melhorias feitas nas áreas de qualidade de voz aprimorada, desempenho de tempo de execução e maior disponibilidade de serviço.

A qualidade de voz foi melhorada como resultado de um grande treinamento supervisionado em um conjunto diversificado de alto-falantes. Além disso, mais recursos do pré-treinamento não supervisionado foram incluídos e o design do modelo neural é mais robusto. Xuedong Huang, um líder técnico na Microsoft, explica os benefícios dessas melhorias:

Nossa capacidade de conversão de texto em fala usa redes neurais profundas para superar os limites dos sistemas tradicionais de conversão de texto em fala, combinando os padrões de estresse e entonação da linguagem falada, denominados prosódia e sintetizando as unidades de fala em voz de computador.

Os sistemas de conversão de texto em fala não são novos, mas Huang explica as diferenças entre esses sistemas anteriores e o serviço mais recente da Microsoft:

Os sistemas tradicionais de conversão de texto em fala dividem a prosódia em análises linguísticas separadas e em etapas de previsão acústica que são governadas por modelos independentes. Isso pode resultar em síntese de voz abafada e chamativa. Nossa capacidade neural realiza predição de prosódia e síntese de voz simultaneamente. O resultado é uma voz mais fluida e natural.

O desempenho do mecanismo de conversão de texto em fala neural é agora seis vezes mais rápido que a versão anterior, como resultado da otimização de código, aceleração de hardware, aplicação de modelos de inferência paralela e simplificações de modelo. A Microsoft considera que o desempenho do tempo de execução é quase instantâneo, explica Huang sobre o impacto desses aprimoramentos no serviço:

O fator em tempo real foi melhorado da versão anterior para menos de 0,05x, o que significa que 1 segundo de áudio pode ser gerado em menos de 50 milissegundos.

A Microsoft forneceu alguns exemplos que demonstram que as vozes geradas por computador são "indistinguíveis das gravações reais":

Sentence Recording Text-To-Speech
The third type, a logarithm of the unsigned fold change, is undoubtedly the most tractable.
As the name suggests, the original submarines came from Yugoslavia.
This is easy enough if you have an unfinished attic directly above the bathroom.

Atualmente, o serviço em preview oferece duas vozes neurais de texto para fala pré-construídas em inglês, incluindo uma voz feminina chamada Jessa e uma voz masculina chamada Guy. Idiomas adicionais estarão disponíveis no futuro, bem como serviços de personalização para clientes que desejam construir suas próprias vozes de marca.

O Serviço Kubernetes do Azure (AKS) fornece a infraestrutura subjacente que ativa os serviços de conversão de texto em fala neural e está disponível em três data centers - nos EUA, na Europa e na Ásia.

Descontos para o serviço estão disponíveis durante a pré-visualização. Visite a página de preços do Azure para obter mais detalhes.

Avalie esse artigo

Relevância
Estilo/Redação

Conteúdo educacional

BT