Pular para o conteúdo principal

Amazon Polly: Um guia completo para conversão de texto em fala na AWS

Dê voz aos seus aplicativos com o Amazon Polly! Saiba como converter texto em fala com som natural usando o poderoso serviço de conversão de texto em fala da AWS.
Atualizado 9 de mar. de 2025  · 15 min lido

Na era pós-GPT, a interação por voz está se tornando cada vez mais essencial, desde assistentes virtuais até recursos de acessibilidade que ajudam os usuários com deficiência visual a navegar pelo conteúdo digital. O Amazon Polly não apenas facilita a adição da funcionalidade de conversão de texto em fala, mas também permite uma experiência de usuário altamente personalizada e imersiva, com suporte a vários idiomas e uma ampla variedade de vozes. 

Este tutorial tem o objetivo de ensinar aos leitores como configurar o Amazon Polly e integrá-lo a aplicativos, liberando o potencial da interação por voz e abrindo caminho para experiências digitais mais dinâmicas e acessíveis.

O que é a Amazon Polly?

O Amazon Polly é um serviço de conversão de texto em fala (TTS) que usa tecnologias avançadas de aprendizagem profunda para sintetizar uma fala com som natural. Ele se destaca como um dos mais sofisticados serviços de TTS disponíveis, permitindo que os desenvolvedores criem aplicativos que podem "falar" de uma forma notavelmente humana. O serviço suporta mais de 60 vozes em mais de 30 idiomas, atendendo a um público global com diversas necessidades linguísticas.

Um dos principais recursos do Amazon Polly é o uso da tecnologia neural text-to-speech (NTTS), que fornece vozes mais expressivas e naturais em comparação com os sistemas tradicionais de síntese de fala. Isso inclui o ajuste de atributos de fala como tom, volume e velocidade de fala, oferecendo aos desenvolvedores um controle preciso sobre a saída de áudio. Por exemplo, os desenvolvedores podem tornar o discurso mais alegre, animado ou empático, aumentando a conexão emocional com os usuários.

O Amazon Polly também oferece suporte a recursos como marcas de fala, que permitem aos desenvolvedores sincronizar a fala com elementos visuais, como destacar o texto à medida que ele é falado ou animar os personagens para sincronizar os lábios com o áudio. Isso o torna uma solução ideal para contar histórias interativas, conteúdo educacional e ferramentas de acessibilidade.

Quer você esteja criando um assistente virtual ativado por voz, uma plataforma de audiolivros ou um dispositivo IoT com recursos de voz, o Amazon Polly oferece a flexibilidade e a escalabilidade necessárias para dar vida às suas ideias.

Configurando o Amazon Polly

Agora, vamos colocar a mão na massa e configurar o Amazon Polly! Esta seção fornece uma visão geral de como fazer isso.

Etapa 1: Criando uma conta do AWS

Para usar o Amazon Polly, primeiro você precisa de uma conta AWS. Se você ainda não tiver umne, acesse a página de inscrição da AWS e siga as etapas para criá-lo. Certifique-se de que você forneça informações de cobrança válidas, pois os serviços da AWS, incluindo a Polly, são cobrados com base no uso.

Configuração do IAM para permissões

Recomendo quevocê configure um usuário IAM (Identity and Access Management) com as permissões necessárias para gerenciar os recursos do Amazon Polly. Atribua a política AmazonPollyFullAccess para garantir que o usuário possa acessar todos os recursos do Polly.

Etapa 2: Navegando para o Amazon Polly

Depois de fazer login no AWS Management Console, procure por Polly na barra de pesquisa na parte superior.

Captura de tela da barra de pesquisa do AWS procurando pelo Amazon Polly

O menu de pesquisa menu de pesquisa no console do AWS.

Clique no serviço Amazon Polly para acessar a interface do Polly.

Usando o Amazon Polly para conversão de texto em fala

Normalmente, os desenvolvedores usam a API Amazon Polly para integrar a funcionalidade de conversão de texto em fala diretamente em seus aplicativos. No entanto, você também pode usar a interface do AWS Polly para experimentar rapidamente diferentes vozes e configurações sem escrever código. Para fazer isso, clique no botão Try Polly na interface do Polly. Esse botão permite que você experimente várias entradas de texto, tipos de voz e formatos de saída do Console da AWS, facilitando a exploração dos recursos do Polly antes de implementá-los de forma programática.

Conversão básica de texto para fala

Para realizar uma conversão básica de texto para fala, digite uma frase como "Hello, welcome to Amazon Polly!" na caixa de entrada. Você também pode escolher o tipo de mecanismo (por exemplo, generativo, de formato longo, neural ou padrão), o idioma e a voz. Clique em Listen para ouvir imediatamente o resultado ou clique em Download para baixá-lo como um arquivo .mp3.

Interface AWS Polly

A interface do Amazon Polly no console do AWS. 

Configurando o SDK do AWS para conversão de texto em fala

Você precisa configurar o AWS SDK para integrar o Amazon Polly aos seus aplicativos de forma programática. Isso permite que você interaja com o Amazon Polly diretamente do seu código, possibilitando funcionalidades de conversão de texto em fala mais dinâmicas e personalizáveis.

Neste tutorial, usaremoso Python SDK (boto3). Instale o boto3 via pip:

pip install boto3

Em seguida, configure suas credenciais do AWS usando a CLI do AWS:

aws configure

aws configure na CLI

O comando aws configure na CLI.

Geração de fala por meio do SDK

Aqui você encontra um script Python simples para converter texto em fala usando o Amazon Polly:

import boto3

polly = boto3.client('polly')
response = polly.synthesize_speech(
    Text='Hello, this is a test of Amazon Polly.',
    OutputFormat='mp3',
    VoiceId='Joanna'
)

with open('speech.mp3', 'wb') as file:
    file.write(response['AudioStream'].read())

Esse script gera fala a partir de texto e a salva como um arquivo mp3.

Recursos avançados do Amazon Polly

Embora o Amazon Polly seja amplamente conhecido por sua funcionalidade básica de conversão de texto em fala, ele também oferece uma série de recursos avançados que permitem aos desenvolvedores criar experiências de voz mais sofisticadas e interativas. 

Usando SSML (Speech Synthesis Markup Language)

A SSML (Speech Synthesis Markup Language) permite que os desenvolvedores controlem vários aspectos da fala, como tom, taxa, volume e ênfase, tornando a saída de áudio mais expressiva e natural.

Usando tags SSML, você pode adicionar pausas, ajustar estilos de fala e até mesmo soletrar acrônimos letra por letra. Essa flexibilidade é particularmente útil para cenários como narração de histórias, plataformas de e-learning e aplicativos de atendimento ao cliente, em que o tom e o estilo de apresentação afetam significativamente o envolvimento do usuário. 

Por exemplo, você pode enfatizar determinadas palavras para transmitir importância ou alterar a velocidade de fala do conteúdo instrucional para garantir a clareza.

Veja como você pode usar o SSML com o Polly SDK:

response = polly.synthesize_speech(
    Text="<speak><emphasis level='strong'>Important</emphasis> message!</speak>",
    TextType='ssml',
    OutputFormat='mp3',
    VoiceId='Matthew'
)

# Save the audio file
with open('speech_ssml.mp3', 'wb') as file:
    file.write(response['AudioStream'].read())

Este exemplo enfatiza a palavra "Importante" para que ela se destaque na mensagem falada, aumentando o impacto emocional sobre o ouvinte. O SSML também oferece suporte a recursos avançados, como pronúncia de fonemas, sussurros e adição de efeitos sonoros, proporcionando aos desenvolvedores controle total sobre a experiência de voz.

Marcas de fala para sincronização labial

As marcas de fala fornecem metadados alinhados ao tempo, permitindo que os desenvolvedores sincronizem a fala com animações, realce de texto ou movimentos labiais de personagens. 

Esse recurso é especialmente valioso para aplicativos interativos, como personagens virtuais, jogos educativos ou realce de texto no estilo karaokê. 

Ao solicitar marcas de fala juntamente com a síntese de fala, você obtém informações detalhadas sobre o tempo de cada palavra ou frase, o que permite criar experiências multimídia dinâmicas e sincronizadas. 

Por exemplo, você pode animar os movimentos da boca de um personagem em sincronia com as palavras faladas ou destacar o texto em tempo real à medida que ele é narrado. Veja como você pode solicitar marcas de fala:

response = polly.synthesize_speech(
    Text='Hello, world!',
    OutputFormat='json',
    VoiceId='Emma',
    SpeechMarkTypes=['word']
)

# Save the speech marks to a JSON file
with open('speech_marks.json', 'wb') as file:
    file.write(response['AudioStream'].read())

Saída JSON:

{"time":6,"type":"word","start":0,"end":5,"value":"Hello"}
{"time":714,"type":"word","start":7,"end":12,"value":"world"}

O exemplo acima solicita marcas de fala para cada palavra, retornando um objeto JSON com registros de data e hora e dados de texto. Os desenvolvedores podem então usar essas informações para sincronizar animações quadro a quadro, tornando a experiência audiovisual mais envolvente e realista.

Transmissão em tempo real com o Amazon Polly

Para aplicativos em tempo real, como assistentes de voz, comentários ao vivo ou chatbots interativos, o Amazon Polly suporta streaming usando o protocolo WebSocket ou players de mídia compatíveis com HLS (HTTP Live Streaming). 

Isso permite que os aplicativos comecem a reproduzir o áudio enquanto ele está sendo sintetizado, reduzindo a latência e criando uma experiência de usuário mais ágil. O streaming em tempo real é ideal para cenários em que o imediatismo é fundamental, como suporte ao cliente ao vivo ou IA de conversação. 

Os desenvolvedores podem aproveitar esse recurso para criar dispositivos ativados por voz, leitores de notícias ou aplicativos interativos de narração de histórias que respondem à entrada do usuário em tempo real.

Gerenciando recursos do Amazon Polly

O gerenciamento eficaz dos recursos do Amazon Polly é crucial para otimizar o desempenho, o custo e a escalabilidade. Ao armazenar estrategicamente os arquivos de fala e monitorar o uso, você pode garantir a utilização eficiente dos recursos e, ao mesmo tempo, manter uma experiência de usuário de alta qualidade. 

O Amazon Polly se integra perfeitamente a outros serviços da AWS, como o Amazon S3 para armazenamento e o AWS Billing Dashboard para monitoramento de custos, facilitando o gerenciamento de recursos. 

Criar e gerenciar arquivos de fala

O Amazon Polly permite que você armazene a fala sintetizada no Amazon S3 para armazenamento escalonável e fácil recuperação. Essa abordagem é especialmente útil para aplicativos com requisitos de áudio recorrentes, como plataformas de e-learning, audiolivros ou bots de suporte ao cliente, nos quais você pode reutilizar arquivos de áudio em vez de sintetizar a fala todas as vezes. 

Ao armazenar saídas de fala usadas com frequência no S3, você pode reduzir custos e melhorar o desempenho servindo arquivos de áudio em cache diretamente da nuvem.

s3 = boto3.client('s3')
s3.upload_file('speech.mp3', 'your-bucket-name', 'speech.mp3')

Monitoramento do uso e dos custos

Aproveite o painel de gerenciamento de custos e faturamento da AWS para monitorar com eficiência o uso e os custos. Esse painel fornece detalhamento de custos, relatórios de uso e a capacidade de configurar orçamentos e alertas para evitar cobranças inesperadas. 

O monitoramento dos custos é particularmente importante quando você usa vozes neurais, que são mais caras do que as vozes padrão. Você também pode acompanhar as métricas de uso, como o número de caracteres sintetizados e a frequência das chamadas à API, o que pode ajudá-lo a otimizar a utilização dos recursos.

Exemplo de painel do AWS

Exemplo de um painel de custos da AWS.

Práticas recomendadas para usar o Amazon Polly

Ao usar o Amazon Polly, a adoção das práticas recomendadas garante o desempenho ideal, a eficiência de custo e a experiência do usuário. Aqui estão algumas diretrizes importantes:

Escolhendo a voz certa

A escolha da voz certa depende da finalidade do aplicativo e do público-alvo. A Amazon Polly oferece uma variedade de vozes, incluindo vozes padrão e neurais, cada uma com tons e características exclusivos. 

  • Vozes neurais proporcionam um som mais natural e expressivo, mas são mais caras. Portanto, eles são ideais para aplicativos que exigem alto envolvimento emocional, como audiolivros ou narração de histórias. 
  • As vozes padrão oferecem uma solução econômica para aplicativos baseados em serviços públicos, como chatbots de suporte ao cliente. Testar diferentes vozes com o feedback do usuário ajuda a selecionar a voz mais adequada para as necessidades do seu aplicativo.

Otimização da saída de fala

Aproveite a SSML (Speech Synthesis Markup Language) para melhorar a qualidade da fala, ajustando os parâmetros de tom, taxa e volume. Você pode criar uma experiência de áudio mais dinâmica e envolvente ajustando essas configurações. 

Por exemplo, diminuir a velocidade da fala melhora a clareza do conteúdo instrucional, enquanto enfatizar frases-chave melhora a narrativa. Experimentar diferentes tags SSML ajuda você a obter a fala com o som mais natural.

Redução de custos

Estratégias como o gerenciamento da frequência de geração de fala e o armazenamento de arquivos de áudio usados com frequência no S3 para reutilização devem ser consideradas para otimizar os custos ao usar o Amazon Polly. Essa abordagem minimiza as chamadas repetitivas à API e reduz os custos de síntese. 

Além disso, o uso estratégico de uma combinação de vozes padrão e neurais pode equilibrar custo e qualidade. 

Por exemplo, use vozes neurais somente para pontos de contato críticos, como mensagens de boas-vindas, enquanto as vozes padrão lidam com conteúdo informativo. A configuração de limites de uso e alertas de custo no AWS Billing Dashboard ajuda a manter o controle do orçamento e a evitar despesas inesperadas.

Conclusão

O Amazon Polly é um poderoso serviço de conversão de texto em fala que utiliza tecnologias avançadas de aprendizagem profunda para converter texto em fala realista, aprimorando as experiências do usuário e a acessibilidade. 

Ao longo deste tutorial, exploramos os recursos fundamentais do Amazon Polly, desde a configuração do AWS SDK até a geração de discurso de forma programática. Também abordamos recursos avançados, como o uso de SSML para saída de fala personalizada, aproveitamento de marcas de fala para sincronização labial e animações e implementação de streaming em tempo real para aplicativos de voz dinâmicos. 

A integração do Amazon Polly aos seus aplicativos permite que você crie experiências de voz altamente interativas e personalizadas que atendam a um público global. Quer você esteja criando assistentes virtuais, audiolivros, plataformas educacionais ou ferramentas de acessibilidade, o Amazon Polly oferece a flexibilidade, a escalabilidade e os recursos avançados necessários para dar vida às suas ideias.

Se você é novo na AWS e deseja fortalecer suas habilidades em nuvem, considere explorar estes cursos relacionados:

Perguntas frequentes

Como o Amazon Polly se compara a outros serviços de TTS?

O Amazon Polly se destaca por sua avançada tecnologia neural de conversão de texto em fala (NTTS), que produz uma fala mais natural e expressiva em comparação com os sistemas TTS tradicionais. Ele também é compatível com SSML para personalização de fala, Speech Marks para sincronização labial e streaming em tempo real, o que o torna mais flexível e avançado do que muitas outras soluções TTS.

O Amazon Polly oferece suporte à criação de voz personalizada?

Não, o Amazon Polly atualmente não oferece suporte à criação de voz personalizada. No entanto, ele oferece uma ampla variedade de vozes neurais e padrão em vários idiomas, juntamente com SSML (Speech Synthesis Markup Language) para ajustar o tom, a velocidade, o volume e o estilo de fala. Se você precisar de uma voz altamente personalizada, talvez seja necessário explorar outras soluções de TTS, como o Google Cloud Text-to-Speech ou fornecedores de voz personalizada.

O Amazon Polly é adequado para gerar conteúdo de formato longo, como audiolivros ou podcasts?

Sim, o Amazon Polly oferece síntese de formato longo para gerar conteúdo de áudio estendido, como audiolivros ou podcasts. Ele é compatível com o uso do mecanismo NTTS (Neural Text-to-Speech), que oferece uma fala com som mais natural, adequada para aplicativos de narração de histórias e narrativas. Você também pode dividir scripts longos em segmentos gerenciáveis para manter o desempenho e a qualidade.

O Amazon Polly pode ser usado off-line?

Não, o Amazon Polly é um serviço baseado em nuvem e requer uma conexão ativa com a Internet para processar solicitações de conversão de texto em fala. No entanto, você pode gerar e baixar os arquivos de áudio para uso off-line após a síntese. Isso o torna conveniente para aplicativos que precisam de conteúdo de voz pré-gravado, como audiolivros, anúncios ou vídeos instrutivos.

Há algum limite de uso ou cota para o Amazon Polly?

Sim, o Amazon Polly tem cotas e limites de uso, como o número de caracteres que você pode sintetizar por solicitação e por conta. Os limites específicos variam dependendo de você estar usando a camada gratuita ou um plano pago. Para evitar interrupções, você pode monitorar seu uso e configurar alertas usando o AWS Billing and Cost Management Dashboard. Para aplicativos de alto volume, você pode solicitar um aumento de cota por meio do Centro de Suporte da AWS.


Moez Ali's photo
Author
Moez Ali
LinkedIn
Twitter

Cientista de dados, fundador e criador do PyCaret

Tópicos

Saiba mais sobre a AWS com estes cursos!

Programa

Profissional de nuvem da AWS (CLF-C02)

0 min
Prepare-se para o AWS Certified Cloud Practitioner (CLF-C02) da Amazon, aprendendo a usar e proteger os principais serviços de computação, banco de dados e armazenamento da AWS.
Ver detalhesRight Arrow
Iniciar curso
Ver maisRight Arrow
Relacionado

blog

AWS Certified Cloud Practitioner: um guia completo

Saiba mais sobre a certificação e o exame AWS Certified Cloud Practitioner com nosso guia completo. Descubra dicas, recursos e estratégias para garantir que você tenha sucesso.
Srujana Maddula's photo

Srujana Maddula

13 min

Tutorial

Como usar a API de conversão de texto em fala da OpenAI

A API TTS da OpenAI é um ponto de extremidade que permite que os usuários interajam com seu modelo de IA TTS que converte texto em linguagem falada com som natural.
Kurtis Pykes 's photo

Kurtis Pykes

Tutorial

O guia completo para machine learning na AWS com o Amazon SageMaker

Este tutorial abrangente ensina você a usar o AWS SageMaker para criar, treinar e implantar modelos de machine learning. Nós guiamos você por todo o fluxo de trabalho, desde a configuração do seu ambiente AWS e a criação de uma instância de notebook do SageMaker até a preparação de dados, modelos de treinamento e sua implementação como endpoints.
Bex Tuychiev's photo

Bex Tuychiev

Tutorial

Tutorial de armazenamento do AWS: Uma introdução prática ao S3 e ao EFS

O guia completo para armazenamento de arquivos no AWS com S3 e EFS.
Zoumana Keita 's photo

Zoumana Keita

Tutorial

Primeiros passos com o AWS Athena: Um guia prático para iniciantes

Este guia prático ajudará você a começar a usar o AWS Athena. Explore sua arquitetura e seus recursos e saiba como consultar dados no Amazon S3 usando SQL.
Tim Lu's photo

Tim Lu

Tutorial

Guia para iniciantes no uso da API do ChatGPT

Este guia o orienta sobre os conceitos básicos da API ChatGPT, demonstrando seu potencial no processamento de linguagem natural e na comunicação orientada por IA.
Moez Ali's photo

Moez Ali

Ver maisVer mais