Microsoft apresenta Rede Neural com habilidade de Text-To-Speech

Em um post recente, a Microsoft anunciou uma prévia pública de seu recurso de conversão de texto em fala com tecnologia de rede neural, que faz parte da oferta do Azure Cognitive Services. Nesta versão, o serviço torna as vozes geradas por computador indistinguíveis das gravações reais. Esta tecnologia tem aplicações em chatbots, assistentes virtuais e conversão de texto digital, como e-books, em audiolivros.

A tecnologia foi revelada pela primeira vez na conferência Microsoft Ignite no fim de 2018, com melhorias feitas nas áreas de qualidade de voz aprimorada, desempenho de tempo de execução e maior disponibilidade de serviço.

A qualidade de voz foi melhorada como resultado de um grande treinamento supervisionado em um conjunto diversificado de alto-falantes. Além disso, mais recursos do pré-treinamento não supervisionado foram incluídos e o design do modelo neural é mais robusto. Xuedong Huang, um líder técnico na Microsoft, explica os benefícios dessas melhorias:

Nossa capacidade de conversão de texto em fala usa redes neurais profundas para superar os limites dos sistemas tradicionais de conversão de texto em fala, combinando os padrões de estresse e entonação da linguagem falada, denominados prosódia e sintetizando as unidades de fala em voz de computador.

Os sistemas de conversão de texto em fala não são novos, mas Huang explica as diferenças entre esses sistemas anteriores e o serviço mais recente da Microsoft:

Os sistemas tradicionais de conversão de texto em fala dividem a prosódia em análises linguísticas separadas e em etapas de previsão acústica que são governadas por modelos independentes. Isso pode resultar em síntese de voz abafada e chamativa. Nossa capacidade neural realiza predição de prosódia e síntese de voz simultaneamente. O resultado é uma voz mais fluida e natural.

O desempenho do mecanismo de conversão de texto em fala neural é agora seis vezes mais rápido que a versão anterior, como resultado da otimização de código, aceleração de hardware, aplicação de modelos de inferência paralela e simplificações de modelo. A Microsoft considera que o desempenho do tempo de execução é quase instantâneo, explica Huang sobre o impacto desses aprimoramentos no serviço:

O fator em tempo real foi melhorado da versão anterior para menos de 0,05x, o que significa que 1 segundo de áudio pode ser gerado em menos de 50 milissegundos.

A Microsoft forneceu alguns exemplos que demonstram que as vozes geradas por computador são "indistinguíveis das gravações reais":

Sentence	Recording	Text-To-Speech
The third type, a logarithm of the unsigned fold change, is undoubtedly the most tractable.
As the name suggests, the original submarines came from Yugoslavia.
This is easy enough if you have an unfinished attic directly above the bathroom.

Atualmente, o serviço em preview oferece duas vozes neurais de texto para fala pré-construídas em inglês, incluindo uma voz feminina chamada Jessa e uma voz masculina chamada Guy. Idiomas adicionais estarão disponíveis no futuro, bem como serviços de personalização para clientes que desejam construir suas próprias vozes de marca.

O Serviço Kubernetes do Azure (AKS) fornece a infraestrutura subjacente que ativa os serviços de conversão de texto em fala neural e está disponível em três data centers - nos EUA, na Europa e na Ásia.

Descontos para o serviço estão disponíveis durante a pré-visualização. Visite a página de preços do Azure para obter mais detalhes.

Unlock the full InfoQ experience

Não tem uma conta no InfoQ?

Tópicos

Crank, o novo framework frontend com renderização assíncrona integrada - Bate papo com Brian Kim

APIs em tempo real no contexto do Apache Kafka

COVID-19 e Mineração de Redes Sociais - Habilitando Cargas de Trabalho de Aprendizado de Máquina com Big Data

Entendendo Os Valores e Princípios Ágeis

Bate papo sobre o livro “De pé sobre os ombros: Um guia para líderes na transformação digital"

Links úteis

Escolha a região

Avalie esse artigo

Conteúdo publicado no tópico Cloud

Tópicos Relacionados:

Conteúdo editorial relacionado

Conteúdo relacionado de patrocinadores

Conteúdo educacional

Crank, o novo framework frontend com renderização assíncrona integrada - Bate papo com Brian Kim

Blockchain Empresarial: Jornada de uma rede multi-organização à produção

PHP 7 - Melhorias na biblioteca padrão

O último conteúdo do InfoQ Brasil

APIs em tempo real no contexto do Apache Kafka

Sete duras lições aprendidas na migração de um monólito para microservices

Adquira leads qualificados no mercado de desenvolvimento de software com a eMag InfoQ

Entendendo Os Valores e Princípios Ágeis

Somente empresas ágeis sobrevivem ao ambiente de negócios em constante mudança

COVID-19 e Mineração de Redes Sociais - Habilitando Cargas de Trabalho de Aprendizado de Máquina com Big Data

A inteligência artificial estaria mais próxima do bom senso?

Desafios na avaliação postural humana em aplicativos de condicionamento físico baseados em IA

Bate papo sobre o livro “De pé sobre os ombros: Um guia para líderes na transformação digital"

Arquitetura de Microservices Multi-Runtime

Armadilhas de design NoSQL com Java

QCon London

QCon AI Boston

QCon San Francisco