Saltar al contenido principal

Amazon Polly: Guía completa de texto a voz en AWS

¡Da voz a tus aplicaciones con Amazon Polly! Aprende a convertir texto en habla natural utilizando el potente servicio de conversión de texto en habla de AWS.
Actualizado 9 mar 2025  · 15 min de lectura

En la era post-GPT, la interacción por voz es cada vez más esencial, desde los asistentes virtuales hasta las funciones de accesibilidad que ayudan a los usuarios con deficiencias visuales a navegar por los contenidos digitales. Amazon Polly no sólo facilita la adición de funciones de texto a voz, sino que también permite una experiencia de usuario altamente personalizada e inmersiva al admitir varios idiomas y una amplia gama de voces. 

Este tutorial pretende enseñar a los lectores cómo configurar Amazon Polly e integrarlo en las aplicaciones, liberando el potencial de la interacción por voz y allanando el camino para experiencias digitales más dinámicas y accesibles.

¿Qué es Amazon Polly?

Amazon Polly es un servicio de texto a voz (TTS) que utiliza tecnologías avanzadas de aprendizaje profundo para sintetizar voz con sonido natural. Destaca como uno de los servicios TTS más sofisticados que existen, ya que permite a los desarrolladores crear aplicaciones que pueden "hablar" de una forma extraordinariamente parecida a la humana. El servicio admite más de 60 voces en más de 30 lenguas, atendiendo a un público global con necesidades lingüísticas diversas.

Una de las características clave de Amazon Polly es el uso de la tecnología de conversión neural de texto a voz (NTTS), que proporciona voces más expresivas y naturales que los sistemas tradicionales de síntesis de voz. Esto incluye el ajuste de atributos del habla como el tono, el volumen y la velocidad del habla, dando a los desarrolladores un control preciso sobre la salida de audio. Por ejemplo, los desarrolladores pueden hacer que el discurso sea más alegre, emocionado o empático, mejorando la conexión emocional con los usuarios.

Amazon Polly también es compatible con funciones como las marcas de voz, que permiten a los desarrolladores sincronizar la voz con elementos visuales, como resaltar texto mientras se habla o animar personajes para sincronizar los labios con el audio. Esto la convierte en una solución ideal para la narración interactiva, los contenidos educativos y las herramientas de accesibilidad.

Tanto si estás construyendo un asistente virtual activado por voz, una plataforma de audiolibros o un dispositivo IoT con capacidades de voz, Amazon Polly proporciona la flexibilidad y escalabilidad necesarias para dar vida a tus ideas.

Configurar Amazon Polly

Ahora, ¡manos a la obra y a configurar Amazon Polly! Esta sección ofrece una visión general de cómo hacerlo.

Paso 1: Crear una cuenta AWS

Para utilizar Amazon Polly, primero necesitas una cuenta de AWS. Si aún no tienes one, ve a la página de registro de AWS yd sigue los pasos para crearlo. Asegúrate de proporcionar información de facturación válida, ya que los servicios de AWS, incluido Polly, se facturan en función del uso.

Configuración IAM para permisos

Te recomiendo queconfigures un usuario IAM (Identity and Access Management) conlos permisos necesarios para administrar los recursos de Amazon Polly. Asigna la política AmazonPollyFullAccess para garantizar que el usuario pueda acceder a todas las funciones de Polly.

Paso 2: Navegar a Amazon Polly

Tras iniciar sesión en la consola de administración de AWS, busca Polly en la barra de búsqueda de la parte superior.

Captura de pantalla de la barra de búsqueda de AWS buscando Amazon Polly

La página menú de búsqueda de la consola de AWS.

Haz clic en el servicio Amazon Polly para entrar en la interfaz Polly.

Uso de Amazon Polly para la conversión de texto a voz

Normalmente, los desarrolladores utilizan la API Polly de Amazon para integrar la funcionalidad de texto a voz directamente en sus aplicaciones. Sin embargo, también puedes utilizar la interfaz de AWS Polly para probar rápidamente diferentes voces y ajustes sin escribir código. Para ello, haz clic en el botón Prueba Polly de la interfaz de Polly. Este botón te permite experimentar con varias entradas de texto, tipos de voz y formatos de salida desde la consola de AWS, lo que facilita la exploración de las capacidades de Polly antes de implementarlas mediante programación.

Conversión básica de texto a voz

Para realizar una conversión básica de texto a voz, introduce una frase como "¡Hola, bienvenido a Amazon Polly!" en el cuadro de entrada. También puedes elegir el tipo de motor (por ejemplo, Generativo, de forma larga, neural o estándar), el idioma y la voz. Haz clic en Escuchar para escuchar inmediatamente el resultado o haz clic en Descargar para descargarlo como archivo .mp3.

Interfaz AWS Polly

La interfaz de Amazon Polly en la consola de AWS. 

Configurar el SDK de AWS para texto a voz

Necesitas configurar el SDK de AWS para integrar Amazon Polly en tus aplicaciones mediante programación. Esto te permite interactuar con Amazon Polly directamente desde tu código, permitiendo funcionalidades de texto a voz más dinámicas y personalizables.

En este tutorial, utilizaremosel SDK de Python (boto3). Instala boto3 mediante pip:

pip install boto3

A continuación, configura tus credenciales de AWS utilizando la CLI de AWS:

aws configure

aws configure en CLI

El comando comando aws configure en la CLI.

Generar voz mediante el SDK

Aquí tienes un sencillo script en Python para convertir texto en voz utilizando Amazon Polly:

import boto3

polly = boto3.client('polly')
response = polly.synthesize_speech(
    Text='Hello, this is a test of Amazon Polly.',
    OutputFormat='mp3',
    VoiceId='Joanna'
)

with open('speech.mp3', 'wb') as file:
    file.write(response['AudioStream'].read())

Este script genera voz a partir de texto y la guarda como un archivo mp3.

Funciones avanzadas de Amazon Polly

Aunque Amazon Polly es ampliamente conocido por su funcionalidad básica de texto a voz, también ofrece una serie de funciones avanzadas que permiten a los desarrolladores crear experiencias de voz más sofisticadas e interactivas. 

Utilizar SSML (Lenguaje de marcado de síntesis de voz)

SSML (Speech Synthesis Markup Language) permite a los desarrolladores controlar varios aspectos del habla, como el tono, la velocidad, el volumen y el énfasis, haciendo que la salida de audio sea más expresiva y natural.

Utilizando las etiquetas SSML, puedes añadir pausas, ajustar los estilos de habla e incluso deletrear acrónimos letra a letra. Esta flexibilidad es especialmente útil para escenarios como la narración de historias, las plataformas de aprendizaje electrónico y las aplicaciones de atención al cliente, donde el tono y el estilo de entrega influyen significativamente en el compromiso del usuario. 

Por ejemplo, puedes enfatizar ciertas palabras para transmitir importancia o alterar la velocidad de habla de los contenidos instructivos para garantizar la claridad.

A continuación te explicamos cómo utilizar SSML con el SDK de Polly:

response = polly.synthesize_speech(
    Text="<speak><emphasis level='strong'>Important</emphasis> message!</speak>",
    TextType='ssml',
    OutputFormat='mp3',
    VoiceId='Matthew'
)

# Save the audio file
with open('speech_ssml.mp3', 'wb') as file:
    file.write(response['AudioStream'].read())

Este ejemplo enfatiza la palabra "Importante" para que destaque en el mensaje hablado, aumentando el impacto emocional en el oyente. SSML también admite funciones avanzadas como la pronunciación de fonemas, susurrar y añadir efectos de sonido, lo que da a los desarrolladores un control total sobre la experiencia de voz.

Marcas de voz para la sincronización labial

Las marcas de voz proporcionan metadatos alineados con el tiempo, lo que permite a los desarrolladores sincronizar la voz con animaciones, resaltado de texto o movimientos labiales de los personajes. 

Esta función es especialmente valiosa para aplicaciones interactivas, como personajes virtuales, juegos educativos o resaltado de texto al estilo karaoke. 

Al solicitar marcas de voz junto con la síntesis de voz, obtienes información detallada de la sincronización de cada palabra o frase, lo que te permite crear experiencias multimedia dinámicas y sincronizadas. 

Por ejemplo, puedes animar los movimientos de la boca de un personaje en sincronía con las palabras habladas o resaltar texto en tiempo real mientras se narra. Aquí te explicamos cómo solicitar los signos de puntuación:

response = polly.synthesize_speech(
    Text='Hello, world!',
    OutputFormat='json',
    VoiceId='Emma',
    SpeechMarkTypes=['word']
)

# Save the speech marks to a JSON file
with open('speech_marks.json', 'wb') as file:
    file.write(response['AudioStream'].read())

Salida JSON:

{"time":6,"type":"word","start":0,"end":5,"value":"Hello"}
{"time":714,"type":"word","start":7,"end":12,"value":"world"}

El ejemplo anterior solicita marcas de voz para cada palabra, devolviendo un objeto JSON con marcas de tiempo y datos de texto. Los desarrolladores pueden utilizar esta información para sincronizar las animaciones fotograma a fotograma, haciendo que la experiencia audiovisual sea más atractiva y realista.

Streaming en tiempo real con Amazon Polly

Para aplicaciones en tiempo real como asistentes de voz, comentarios en directo o chatbots interactivos, Amazon Polly admite la transmisión mediante el protocolo WebSocket o reproductores multimedia compatibles con HLS (HTTP Live Streaming). 

Esto permite que las aplicaciones empiecen a reproducir audio a medida que se sintetiza, reduciendo la latencia y creando una experiencia de usuario más receptiva. El streaming en tiempo real es ideal para escenarios en los que la inmediatez es crítica, como la atención al cliente en directo o la IA conversacional. 

Los desarrolladores pueden aprovechar esta función para crear dispositivos activados por voz, lectores de noticias o aplicaciones de narración interactiva que respondan a las entradas del usuario sobre la marcha.

Gestión de los recursos de Amazon Polly

La administración eficaz de los recursos de Amazon Polly es crucial para optimizar el rendimiento, el coste y la escalabilidad. Almacenando estratégicamente los archivos de voz y supervisando su uso, puedes garantizar una utilización eficiente de los recursos, manteniendo al mismo tiempo una experiencia de usuario de alta calidad. 

Amazon Polly se integra perfectamente con otros servicios de AWS, como Amazon S3 para el almacenamiento y el Panel de facturación de AWS para la monitorización de costes, lo que facilita la gestión de recursos. 

Crear y gestionar archivos de voz

Amazon Polly te permite almacenar el habla sintetizada en Amazon S3 para un almacenamiento escalable y una fácil recuperación. Este enfoque es especialmente útil para aplicaciones con requisitos de audio recurrentes, como plataformas de aprendizaje electrónico, audiolibros o bots de atención al cliente, donde puedes reutilizar archivos de audio en lugar de sintetizar el habla cada vez. 

Al almacenar en S3 las salidas de voz utilizadas con frecuencia, puedes reducir costes y mejorar el rendimiento sirviendo archivos de audio almacenados en caché directamente desde la nube.

s3 = boto3.client('s3')
s3.upload_file('speech.mp3', 'your-bucket-name', 'speech.mp3')

Control del uso y los costes

Aprovecha el panel de facturación y gestión de costes de AWS para controlar eficazmente el uso y los costes. Este panel proporciona desgloses detallados de costes, informes de uso y la posibilidad de establecer presupuestos y alertas para evitar cargos inesperados. 

Controlar los costes es especialmente importante cuando se utilizan voces neuronales, que son más caras que las voces estándar. También puedes hacer un seguimiento de las métricas de uso, como el número de caracteres sintetizados y la frecuencia de las llamadas a la API, lo que puede ayudarte a optimizar la utilización de los recursos.

Ejemplo de panel de AWS

Ejemplo de panel de costes de AWS.

Buenas prácticas para utilizar Amazon Polly

Al utilizar Amazon Polly, la adopción de las mejores prácticas garantiza un rendimiento, una rentabilidad y una experiencia de usuario óptimos. He aquí algunas directrices clave:

Elegir la voz adecuada

Elegir la voz adecuada depende de la finalidad de la aplicación y del público al que vaya dirigida. Amazon Polly ofrece una variedad de voces, incluyendo voces estándar y neuronales, cada una con tonos y características únicas. 

  • Las voces neuronales proporcionan un sonido más natural y expresivo, pero son más caras. Por lo tanto, son ideales para aplicaciones que requieren un alto compromiso emocional, como los audiolibros o la narración de historias. 
  • Las voces estándar ofrecen una solución rentable para aplicaciones basadas en la utilidad, como los chatbots de atención al cliente. Probar distintas voces con los comentarios de los usuarios ayuda a seleccionar la voz más adecuada para las necesidades de tu aplicación.

Optimizar la salida de voz

Aprovecha el SSML (Speech Synthesis Markup Language) para mejorar la calidad del habla ajustando los parámetros de tono, velocidad y volumen. Puedes crear una experiencia de audio más dinámica y atractiva afinando estos ajustes. 

Por ejemplo, ralentizar la velocidad del habla mejora la claridad del contenido instructivo, mientras que enfatizar las frases clave mejora la narración. Experimentar con distintas etiquetas SSML te ayuda a conseguir el habla más natural.

Reducir costes

Para optimizar los costes al utilizar Amazon Polly, deben tenerse en cuenta estrategias como la gestión de la frecuencia de generación de voz y el almacenamiento en S3 de archivos de audio utilizados con frecuencia para su reutilización. Este enfoque minimiza las llamadas repetitivas a la API y reduce los costes de síntesis. 

Además, utilizar estratégicamente una mezcla de voces estándar y neurales puede equilibrar el coste y la calidad. 

Por ejemplo, utiliza voces neuronales sólo para los puntos de contacto críticos, como los mensajes de bienvenida, mientras que las voces estándar se encargan del contenido informativo. Establecer límites de uso y alertas de costes en el panel de facturación de AWS ayuda a mantener el control del presupuesto y a evitar gastos inesperados.

Conclusión

Amazon Polly es un potente servicio de conversión de texto a voz que aprovecha tecnologías avanzadas de aprendizaje profundo para convertir el texto en voz real, mejorando la experiencia del usuario y la accesibilidad. 

A lo largo de este tutorial, hemos explorado las características fundamentales de Amazon Polly, desde la configuración del SDK de AWS hasta la generación de habla mediante programación. También cubrimos funciones avanzadas, como el uso de SSML para una salida de voz personalizada, el aprovechamiento de las marcas de voz para la sincronización labial y las animaciones, y la implementación del streaming en tiempo real para aplicaciones de voz dinámicas. 

Integrar Amazon Polly en tus aplicaciones te permite crear experiencias de voz altamente interactivas y personalizadas que se adaptan a una audiencia global. Tanto si estás creando asistentes virtuales, audiolibros, plataformas educativas o herramientas de accesibilidad, Amazon Polly proporciona la flexibilidad, escalabilidad y características avanzadas necesarias para dar vida a tus ideas.

Si eres nuevo en AWS y quieres reforzar tus conocimientos sobre la nube, considera la posibilidad de explorar estos cursos relacionados:

Preguntas frecuentes

¿Cómo se compara Amazon Polly con otros servicios TTS?

Amazon Polly destaca por su avanzada tecnología neural de conversión de texto a voz (NTTS), que produce un habla más natural y expresiva que los sistemas TTS tradicionales. También es compatible con SSML para la personalización del habla, Speech Marks para la sincronización labial y la transmisión en tiempo real, lo que la hace más flexible y potente que muchas otras soluciones TTS.

¿Admite Amazon Polly la creación de voces personalizadas?

No, Amazon Polly no admite actualmente la creación de voces personalizadas. Sin embargo, proporciona una amplia gama de voces neuronales y estándar en varios idiomas, junto con SSML (Lenguaje de Marcado de Síntesis de Voz) para ajustar el tono, la velocidad, el volumen y el estilo al hablar. Si necesitas una voz muy personalizada, puede que tengas que explorar otras soluciones TTS como Google Cloud Text-to-Speech o proveedores de voz personalizada.

¿Es Amazon Polly adecuado para generar contenido de formato largo, como audiolibros o podcasts?

Sí, Amazon Polly ofrece síntesis de formato largo para generar contenido de audio extendido, como audiolibros o podcasts. Admite el uso del motor NTTS (Neural Text-to-Speech), que proporciona un habla con un sonido más natural, adecuada para la narración de historias y las aplicaciones narrativas. También puedes dividir guiones largos en segmentos manejables para mantener el rendimiento y la calidad.

¿Se puede utilizar Amazon Polly sin conexión?

No, Amazon Polly es un servicio basado en la nube y requiere una conexión activa a Internet para procesar las solicitudes de texto a voz. Sin embargo, puedes generar y descargar los archivos de audio para utilizarlos sin conexión después de la síntesis. Esto resulta práctico para aplicaciones que necesitan contenido de voz pregrabado, como audiolibros, anuncios o vídeos instructivos.

¿Existen límites o cuotas de uso para Amazon Polly?

Sí, Amazon Polly tiene cuotas y límites de uso, como el número de caracteres que puedes sintetizar por solicitud y por cuenta. Los límites específicos varían en función de si utilizas el nivel gratuito o un plan de pago. Para evitar interrupciones, puedes monitorizar tu uso y configurar alertas mediante el panel de facturación y gestión de costes de AWS. Para aplicaciones de gran volumen, puedes solicitar un aumento de cuota a través del Centro de soporte de AWS.


Moez Ali's photo
Author
Moez Ali
LinkedIn
Twitter

Científico de Datos, Fundador y Creador de PyCaret

Temas

Aprende más sobre AWS con estos cursos

curso

AWS Cloud Technology and Services Concepts

3 hr
8.2K
Master AWS cloud technology with hands-on learning and practical applications in the AWS ecosystem.
Ver detallesRight Arrow
Comienza el curso
Ver másRight Arrow
Relacionado

blog

AWS Certified Cloud Practitioner: guía completa

Comprende la certificación y el examen AWS Certified Cloud Practitioner con nuestra guía completa. Descubre consejos, recursos y estrategias para garantizar tu éxito.
Srujana Maddula's photo

Srujana Maddula

27 min

blog

Los 13 mejores proyectos de AWS: De principiante a profesional

Explora 13 proyectos prácticos de AWS para todos los niveles. Mejora tus conocimientos sobre la nube con aplicaciones prácticas del mundo real y la orientación de expertos.
Joleen Bothma's photo

Joleen Bothma

12 min

blog

Las 20 mejores preguntas y respuestas de la entrevista sobre AWS Lambda para 2024

AWS Lambda es un servicio de computación sin servidor y un tema cada vez más común en las entrevistas técnicas. Tanto si eres nuevo en la computación en la nube como si eres un profesional experimentado, comprender AWS Lambda es esencial.
Zoumana Keita 's photo

Zoumana Keita

12 min

tutorial

Cómo utilizar la API de conversión de texto a voz de OpenAI

La API TTS de OpenAI es un punto final que permite a los usuarios interactuar con su modelo de inteligencia artificial TTS, que convierte el texto en lenguaje hablado con sonido natural.
Kurtis Pykes 's photo

Kurtis Pykes

12 min

tutorial

Convertir voz en texto con la API Whisper de OpenAI

Descubra las potentes funciones de la API Python de OpenAI Whisper para transcripción y traducción. Dispone de soporte multilingüe y mejora rápida para una transcripción precisa.
Abid Ali Awan's photo

Abid Ali Awan

9 min

tutorial

Primeros pasos con AWS Athena: Guía práctica para principiantes

Esta guía práctica te ayudará a empezar a utilizar AWS Athena. Explora su arquitectura y características y aprende a consultar datos en Amazon S3 utilizando SQL.
Tim Lu's photo

Tim Lu

28 min

Ver másVer más