Accéder au contenu principal

Amazon Polly : Guide complet de la synthèse vocale dans AWS

Donnez une voix à vos applications avec Amazon Polly ! Apprenez à convertir du texte en paroles naturelles à l'aide du puissant service de synthèse vocale d'AWS.
Actualisé 9 mars 2025  · 15 min de lecture

Dans l'ère post-GPT, l'interaction vocale devient de plus en plus essentielle, qu'il s'agisse d'assistants virtuels ou de fonctions d'accessibilité qui aident les utilisateurs malvoyants à naviguer dans le contenu numérique. Amazon Polly facilite non seulement l'ajout de fonctionnalités de synthèse vocale, mais permet également une expérience utilisateur hautement personnalisée et immersive grâce à la prise en charge de plusieurs langues et d'un large éventail de voix. 

Ce tutoriel vise à enseigner aux lecteurs comment configurer Amazon Polly et l'intégrer dans des applications, afin de libérer le potentiel de l'interaction vocale et d'ouvrir la voie à des expériences numériques plus dynamiques et plus accessibles.

Qu'est-ce que Amazon Polly ?

Amazon Polly est un service de synthèse vocale qui utilise des technologies avancées d'apprentissage profond pour synthétiser des paroles à consonance naturelle. Il s'agit de l'un des services TTS les plus sophistiqués disponibles, qui permet aux développeurs de créer des applications capables de "parler" d'une manière remarquablement humaine. Le service prend en charge plus de 60 voix dans plus de 30 langues, ce qui permet de répondre aux besoins linguistiques d'un public mondial.

L'une des principales caractéristiques d'Amazon Polly est son utilisation de la technologie de synthèse vocale neuronale (NTTS), qui fournit des voix plus expressives et plus naturelles que les systèmes de synthèse vocale traditionnels. Il s'agit notamment d'ajuster les attributs de la parole tels que la hauteur, le volume et la vitesse d'élocution, ce qui permet aux développeurs de contrôler précisément la sortie audio. Par exemple, les développeurs peuvent rendre le discours plus gai, plus enthousiaste ou plus empathique, afin de renforcer le lien émotionnel avec les utilisateurs.

Amazon Polly prend également en charge des fonctions telles que les marques vocales, qui permettent aux développeurs de synchroniser la parole avec des éléments visuels, comme la mise en évidence du texte au fur et à mesure qu'il est prononcé ou l'animation de personnages en synchronisation labiale avec l'audio. Il s'agit donc d'une solution idéale pour les récits interactifs, les contenus éducatifs et les outils d'accessibilité.

Que vous construisiez un assistant virtuel à commande vocale, une plateforme de livres audio ou un appareil IoT doté de capacités vocales, Amazon Polly offre la flexibilité et l'évolutivité nécessaires pour donner vie à vos idées.

Configuration d'Amazon Polly

Passons maintenant à la pratique et configurons Amazon Polly ! Cette section donne un aperçu de la manière de procéder.

Étape 1 : Création d'un compte AWS

Pour utiliser Amazon Polly, vous devez d'abord disposer d'un compte AWS. Si vous n'avez pas encore dene, allez sur la page d' inscription à AWS etet suivez les étapes pour la créer. Assurez-vous de fournir des informations de facturation valides, car les services AWS, y compris Polly, sont facturés sur la base de l'utilisation.

Configuration IAM pour les autorisations

Je vous recommande decréer un utilisateur IAM (Identity and Access Management) avecles autorisations nécessaires pour gérer les ressources Amazon Polly. Attribuez la politique AmazonPollyFullAccess pour garantir que l'utilisateur peut accéder à toutes les fonctionnalités de Polly.

Étape 2 : Naviguer vers Amazon Polly

Après vous être connecté à la console de gestion AWS, recherchez Polly dans la barre de recherche située en haut de l'écran.

Capture d'écran de la barre de recherche AWS à la recherche d'Amazon Polly

Le menu dans la console AWS.

Cliquez sur le service Amazon Polly pour accéder à l'interface Polly.

Utiliser Amazon Polly pour la synthèse vocale

Normalement, les développeurs utilisent l'API Amazon Polly pour intégrer la fonctionnalité de synthèse vocale directement dans leurs applications. Cependant, vous pouvez également utiliser l'interface AWS Polly pour essayer rapidement différentes voix et différents paramètres sans écrire de code. Pour ce faire, cliquez sur le bouton Try Polly dans l'interface Polly. Ce bouton vous permet d'expérimenter différentes entrées de texte, types de voix et formats de sortie à partir de la console AWS, ce qui facilite l'exploration des capacités de Polly avant de les mettre en œuvre de manière programmatique.

Conversion de base du texte à la parole

Pour effectuer une conversion texte-parole de base, saisissez une phrase telle que "Bonjour, bienvenue sur Amazon Polly !" dans le champ de saisie. Vous pouvez également choisir le type de moteur (par exemple, génératif, long format, neuronal ou standard), la langue et la voix. Cliquez sur Listen pour écouter immédiatement le résultat ou cliquez sur Download pour le télécharger sous forme de fichier .mp3 .

Interface AWS Polly

L'interface Amazon Polly dans la console AWS. 

Configuration du SDK AWS pour la synthèse vocale

Vous devez configurer le SDK AWS pour intégrer Amazon Polly dans vos applications de manière programmatique. Cela vous permet d'interagir avec Amazon Polly directement à partir de votre code, ce qui permet des fonctionnalités de synthèse vocale plus dynamiques et personnalisables.

Dans ce tutoriel, nous utiliseronsle SDK Python (boto3). Installez boto3 via pip :

pip install boto3

Ensuite, configurez vos informations d'identification AWS à l'aide de la CLI AWS:

aws configure

aws configure sur CLI

La commande La commande aws configure sur le CLI.

Générer de la parole via le SDK

Voici un simple script Python pour convertir du texte en parole à l'aide d'Amazon Python :

import boto3

polly = boto3.client('polly')
response = polly.synthesize_speech(
    Text='Hello, this is a test of Amazon Polly.',
    OutputFormat='mp3',
    VoiceId='Joanna'
)

with open('speech.mp3', 'wb') as file:
    file.write(response['AudioStream'].read())

Ce script génère de la parole à partir d'un texte et l'enregistre sous forme de fichier mp3.

Fonctionnalités avancées d'Amazon Polly

Si Amazon Polly est largement connu pour sa fonctionnalité de synthèse vocale de base, il offre également une gamme de fonctions avancées qui permettent aux développeurs de créer des expériences vocales plus sophistiquées et interactives. 

Utilisation du SSML (Speech Synthesis Markup Language)

Le SSML (Speech Synthesis Markup Language) permet aux développeurs de contrôler divers aspects de la parole, tels que la hauteur, le débit, le volume et l'accentuation, ce qui rend la sortie audio plus expressive et naturelle.

Grâce aux balises SSML, vous pouvez ajouter des pauses, ajuster les styles d'élocution et même épeler les acronymes lettre par lettre. Cette flexibilité est particulièrement utile pour des scénarios tels que la narration, les plateformes d'apprentissage en ligne et les applications de service à la clientèle, où le ton et le style de présentation ont un impact significatif sur l'engagement de l'utilisateur. 

Par exemple, vous pouvez mettre l'accent sur certains mots pour en souligner l'importance ou modifier la vitesse d'élocution d'un contenu pédagogique pour en assurer la clarté.

Voici comment utiliser SSML avec le SDK Polly :

response = polly.synthesize_speech(
    Text="<speak><emphasis level='strong'>Important</emphasis> message!</speak>",
    TextType='ssml',
    OutputFormat='mp3',
    VoiceId='Matthew'
)

# Save the audio file
with open('speech_ssml.mp3', 'wb') as file:
    file.write(response['AudioStream'].read())

Cet exemple met l'accent sur le mot "Important" pour le faire ressortir dans le message parlé, ce qui renforce l'impact émotionnel sur l'auditeur. SSML prend également en charge des fonctions avancées telles que la prononciation des phonèmes, le chuchotement et l'ajout d'effets sonores, ce qui permet aux développeurs de contrôler totalement l'expérience vocale.

Marques vocales pour la synchronisation labiale

Les marques vocales fournissent des métadonnées temporelles, permettant aux développeurs de synchroniser la parole avec des animations, des surlignages de texte ou des mouvements des lèvres des personnages. 

Cette fonction est particulièrement utile pour les applications interactives telles que les personnages virtuels, les jeux éducatifs ou le surlignage de texte de type karaoké. 

En demandant des marques vocales en même temps que la synthèse vocale, vous obtenez des informations détaillées sur la synchronisation de chaque mot ou phrase, ce qui vous permet de créer des expériences multimédias dynamiques et synchronisées. 

Par exemple, vous pouvez animer les mouvements de la bouche d'un personnage en synchronisation avec les mots prononcés ou surligner un texte en temps réel au fur et à mesure qu'il est raconté. Voici comment demander des marques verbales :

response = polly.synthesize_speech(
    Text='Hello, world!',
    OutputFormat='json',
    VoiceId='Emma',
    SpeechMarkTypes=['word']
)

# Save the speech marks to a JSON file
with open('speech_marks.json', 'wb') as file:
    file.write(response['AudioStream'].read())

Sortie JSON :

{"time":6,"type":"word","start":0,"end":5,"value":"Hello"}
{"time":714,"type":"word","start":7,"end":12,"value":"world"}

L'exemple ci-dessus demande des marques vocales pour chaque mot et renvoie un objet JSON contenant des horodatages et des données textuelles. Les développeurs peuvent ensuite utiliser ces informations pour synchroniser les animations image par image, ce qui rend l'expérience audiovisuelle plus attrayante et plus réaliste.

Streaming en temps réel avec Amazon Polly

Pour les applications en temps réel telles que les assistants vocaux, les commentaires en direct ou les chatbots interactifs, Amazon Polly prend en charge la diffusion en continu à l'aide du protocole WebSocket ou de lecteurs multimédias prenant en charge le protocole HLS (HTTP Live Streaming). 

Cela permet aux applications de commencer à jouer le son au moment où il est synthétisé, réduisant ainsi la latence et créant une expérience utilisateur plus réactive. La diffusion en temps réel est idéale pour les scénarios où l'immédiateté est essentielle, comme le support client en direct ou l'IA conversationnelle. 

Les développeurs peuvent exploiter cette fonctionnalité pour créer des appareils à commande vocale, des lecteurs de nouvelles ou des applications de narration interactive qui réagissent à la volée aux données de l'utilisateur.

Gestion des ressources Amazon Polly

Une gestion efficace des ressources Amazon Polly est essentielle pour optimiser les performances, les coûts et l'évolutivité. En stockant stratégiquement les fichiers vocaux et en contrôlant leur utilisation, vous pouvez garantir une utilisation efficace des ressources tout en maintenant une expérience utilisateur de haute qualité. 

Amazon Polly s'intègre de manière transparente à d'autres services AWS, tels qu'Amazon S3 pour le stockage et AWS Billing Dashboard pour le suivi des coûts, ce qui facilite la gestion des ressources. 

Création et gestion de fichiers vocaux

Amazon Polly vous permet de stocker la parole synthétisée dans Amazon S3 pour un stockage évolutif et une récupération aisée. Cette approche est particulièrement utile pour les applications ayant des besoins audio récurrents, telles que les plateformes d'apprentissage en ligne, les livres audio ou les robots d'assistance à la clientèle, où vous pouvez réutiliser les fichiers audio au lieu de synthétiser la parole à chaque fois. 

En stockant les sorties vocales fréquemment utilisées dans S3, vous pouvez réduire les coûts et améliorer les performances en servant les fichiers audio mis en cache directement depuis le cloud.

s3 = boto3.client('s3')
s3.upload_file('speech.mp3', 'your-bucket-name', 'speech.mp3')

Contrôle de l'utilisation et des coûts

Utilisez le tableau de bord de facturation et de gestion des coûts AWS pour surveiller efficacement l'utilisation et les coûts. Ce tableau de bord fournit une ventilation détaillée des coûts, des rapports d'utilisation et la possibilité d'établir des budgets et des alertes pour éviter les frais imprévus. 

Le contrôle des coûts est particulièrement important lors de l'utilisation de voix neuronales, qui sont plus chères que les voix standard. Vous pouvez également curer les métriques d'utilisation comme le nombre de caractères synthétisés et la fréquence des appels à l'API, ce qui peut vous aider à optimiser l'utilisation des ressources.

Exemple de tableau de bord AWS

Exemple de tableau de bord des coûts AWS.

Bonnes pratiques pour l'utilisation d'Amazon Polly

Lorsque vous utilisez Amazon Polly, l'adoption de bonnes pratiques garantit des performances, une rentabilité et une expérience utilisateur optimales. Voici quelques lignes directrices :

Choisir la bonne voix

Le choix de la bonne voix dépend de l'objectif de l'application et du public cible. Amazon Polly offre une variété de voix, y compris des voix standard et neuronales, chacune avec des tonalités et des caractéristiques uniques. 

  • Les voix neurales offrent un son plus naturel et plus expressif, mais elles sont plus chères. Ils sont donc idéaux pour les applications nécessitant un engagement émotionnel fort, comme les livres audio ou les récits. 
  • Les voix standard offrent une solution rentable pour les applications basées sur les services publics, comme les chatbots d'assistance à la clientèle. Le test de différentes voix avec les commentaires des utilisateurs permet de sélectionner la voix la plus adaptée aux besoins de votre application.

Optimisation de la sortie vocale

Exploitez le SSML (Speech Synthesis Markup Language) pour améliorer la qualité de la parole en ajustant les paramètres de hauteur, de débit et de volume. Vous pouvez créer une expérience audio plus dynamique et attrayante en affinant ces réglages. 

Par exemple, le ralentissement du débit de parole améliore la clarté du contenu pédagogique, tandis que l'accentuation des phrases clés améliore la narration. L'expérimentation de différentes balises SSML vous permet d'obtenir la sonorité la plus naturelle possible.

Réduire les coûts

Des stratégies telles que la gestion de la fréquence de génération des discours et le stockage des fichiers audio fréquemment utilisés dans S3 en vue de leur réutilisation devraient être envisagées pour optimiser les coûts lors de l'utilisation d'Amazon Polly. Cette approche minimise les appels d'API répétitifs et réduit les coûts de synthèse. 

En outre, l'utilisation stratégique d'un mélange de voix standard et de voix neuronales permet d'équilibrer les coûts et la qualité. 

Par exemple, n'utilisez les voix neuronales que pour les points de contact critiques tels que les messages de bienvenue, tandis que les voix standard se chargent du contenu informatif. La mise en place de limites d'utilisation et d'alertes sur les coûts dans le tableau de bord de facturation AWS permet de garder le contrôle du budget et d'éviter les dépenses imprévues.

Conclusion

Amazon Polly est un puissant service de synthèse vocale qui s'appuie sur des technologies avancées d'apprentissage profond pour convertir le texte en une parole réaliste, améliorant ainsi l'expérience des utilisateurs et l'accessibilité. 

Tout au long de ce tutoriel, nous avons exploré les fonctionnalités fondamentales d'Amazon Polly, de la configuration du SDK AWS à la génération programmatique de discours. Nous avons également abordé des fonctionnalités avancées, telles que l'utilisation de SSML pour une sortie vocale personnalisée, l'exploitation de Speech Marks pour la synchronisation des lèvres et les animations, et la mise en œuvre d'un flux en temps réel pour les applications vocales dynamiques. 

L'intégration d'Amazon Polly dans vos applications vous permet de créer des expériences vocales hautement interactives et personnalisées qui s'adressent à un public mondial. Que vous créiez des assistants virtuels, des livres audio, des plateformes éducatives ou des outils d'accessibilité, Amazon Polly offre la flexibilité, l'évolutivité et les fonctionnalités avancées nécessaires pour donner vie à vos idées.

Si vous débutez sur AWS et souhaitez renforcer vos compétences en matière de cloud, pensez à explorer ces cours connexes :

FAQ

Comment Amazon Polly se situe-t-il par rapport aux autres services TTS ?

Amazon Polly se distingue par sa technologie avancée de synthèse vocale neuronale (NTTS), qui produit une parole plus naturelle et plus expressive que les systèmes de synthèse vocale traditionnels. Il prend également en charge SSML pour la personnalisation de la parole, Speech Marks pour la synchronisation des lèvres et le streaming en temps réel, ce qui le rend plus flexible et plus puissant que beaucoup d'autres solutions TTS.

Amazon Polly prend-il en charge la création de voix personnalisées ?

Non, Amazon Polly ne prend pas actuellement en charge la création de voix personnalisées. Cependant, il offre une large gamme de voix neuronales et standard dans plusieurs langues, ainsi que le SSML (Speech Synthesis Markup Language) pour ajuster la hauteur, le débit, le volume et le style d'élocution. Si vous avez besoin d'une voix hautement personnalisée, vous devrez peut-être explorer d'autres solutions TTS comme Google Cloud Text-to-Speech ou des fournisseurs de voix personnalisées.

Amazon Polly est-il adapté à la création de contenus de longue durée, tels que des livres audio ou des podcasts ?

Oui, Amazon Polly propose une synthèse longue durée permettant de générer des contenus audio étendus, tels que des livres audio ou des podcasts. Il prend en charge l'utilisation du moteur NTTS (Neural Text-to-Speech), qui offre une sonorité plus naturelle adaptée aux applications narratives. Vous pouvez également diviser les longs scripts en segments gérables afin de maintenir la performance et la qualité.

Amazon Polly peut-il être utilisé hors ligne ?

Non, Amazon Polly est un service basé sur le cloud et nécessite une connexion internet active pour traiter les demandes de synthèse vocale. Cependant, vous pouvez générer et télécharger les fichiers audio pour une utilisation hors ligne après la synthèse. Il est donc pratique pour les applications nécessitant un contenu vocal préenregistré, comme les livres audio, les annonces ou les vidéos d'instruction.

Y a-t-il des limites d'utilisation ou des quotas pour Amazon Polly ?

Oui, Amazon Polly a des quotas et des limites d'utilisation, comme le nombre de caractères que vous pouvez synthétiser par requête et par compte. Les limites spécifiques varient selon que vous utilisez le niveau gratuit ou un plan payant. Pour éviter les interruptions, vous pouvez surveiller votre consommation et définir des alertes à l'aide du tableau de bord de facturation et de gestion des coûts AWS. Pour les applications à fort volume, vous pouvez demander une augmentation de quota par l'intermédiaire du Centre d'assistance AWS.


Moez Ali's photo
Author
Moez Ali
LinkedIn
Twitter

Scientifique de données, fondateur et créateur de PyCaret

Sujets

Apprenez-en plus sur AWS grâce à ces cours !

Certification disponible

cours

Concepts de la technologie et des services du cloud AWS

3 hr
8.2K
Maîtrisez la technologie cloud AWS grâce à un apprentissage pratique et des applications concrètes dans l'écosystème AWS.
Afficher les détailsRight Arrow
Commencer le cours
Voir plusRight Arrow