BT

Disseminando conhecimento e inovação em desenvolvimento de software corporativo.

Contribuir

Tópicos

Escolha a região

Início Notícias Alexa logo oferecerá a voz de "apresentadores de notícias"

Alexa logo oferecerá a voz de "apresentadores de notícias"

A Amazon anunciou recentemente o desenvolvimento de uma voz personalizada da Alexa, adequada para ler as notícias. Em implementações anteriores, a funcionalidade de conversão de texto em fala era obtida pela concatenação de pequenos trechos de áudio para produzir o resultado completo da sentença. A Amazon está usando uma rede neural generativa para sintetizar uma voz que não é apenas mais natural, mas pode fornecer diferentes estilos de fala de acordo com o contexto do texto sendo convertido em fala.

A primeira aplicação deste sistema demonstrou uma voz que soa mais natural para ler as notícias. A Alexa da Amazon vai mudar para a nova voz nas próximas semanas. A voz que se assemelha a um apresentador de notícias foi possível capturando trechos de áudio dos canais de notícias e depois utilizando o aprendizado de máquina para detectar a maneira como eles lêem o texto. Essas nuances são difíceis de identificar em um algoritmo determinístico, então uma abordagem estatística é empregada para detectá-las e aplicá-las. A Amazon demorou apenas algumas horas de dados para ensinar ao algoritmo de Aprendizado de Máquina como soar como um apresentador, o que significa que diferentes estilos poderiam estar a caminho.

Para obter um locutor como a voz, uma abordagem é alistar talentos de voz para ler em seu próprio estilo, dividir suas gravações em pequenas amostras de voz e sintetizá-las na saída final. Isso é demorado e caro. A inovação do sistema Neural text-to-speech é que ele emprega um módulo de 'codificação de estilo' que identifica o estilo de fala da amostra de voz. Desta forma, o sistema combina uma grande quantidade de dados de fala de estilo neutro com algumas horas de dados suplementares no estilo desejado. Ele pode modelar aspectos da fala como nuances, prosódia e outras características, que são independentes do estilo de fala e as que são específicas para um único estilo de fala.

O anúncio segue a recente adição do modo sussurro no Alexa, que permite um tom de voz mais suave para conversas no modo noturno ou adiantado com o assistente digital. O Assistente do Google já está usando uma síntese de fala baseada no Aprendizado de Máquina desenvolvido por seu laboratório de IA que fica em Londres, o DeepMind. A Siri, da Apple, está usando a Aprendizagem de Máquina Oculta do Modelo de Markov para sintetizar a voz de até 20 horas de gravações profissionais.

Avalie esse artigo

Relevância
Estilo/Redação

Conteúdo educacional

BT