Amazon Polly: Ein vollständiger Leitfaden für Text-to-Speech in AWS

Gib deinen Bewerbungen eine Stimme mit Amazon Polly! Lerne, wie du mit dem leistungsstarken Text-to-Speech-Service von AWS Text in natürlich klingende Sprache umwandeln kannst.

Aktualisiert 9. März 2025 · 15 Min. lesen

In der Post-GPT-Ära wird die Sprachinteraktion immer wichtiger, von virtuellen Assistenten bis hin zu Zugänglichkeitsfunktionen, die sehbehinderten Nutzern bei der Navigation durch digitale Inhalte helfen. Amazon Polly macht es nicht nur einfacher, Text-to-Speech-Funktionen hinzuzufügen, sondern ermöglicht auch ein sehr personalisiertes und immersives Nutzererlebnis, indem es mehrere Sprachen und eine breite Palette von Stimmen unterstützt.

In diesem Tutorial lernst du, wie du Amazon Polly einrichtest und in Anwendungen integrierst, um das Potenzial der Sprachinteraktion zu erschließen und den Weg für dynamischere und zugänglichere digitale Erlebnisse zu ebnen.

Was ist Amazon Polly?

Amazon Polly ist ein Text-to-Speech (TTS) Service, der fortschrittliche Deep-Learning-Technologien nutzt, um natürlich klingende Sprache zu synthetisieren. Er ist einer der ausgereiftesten TTS-Dienste auf dem Markt und ermöglicht es Entwicklern, Anwendungen zu erstellen, die auf bemerkenswert menschenähnliche Weise "sprechen" können. Der Dienst unterstützt über 60 Stimmen in mehr als 30 Sprachen und richtet sich an ein globales Publikum mit unterschiedlichen sprachlichen Bedürfnissen.

Eines der Hauptmerkmale von Amazon Polly ist die Verwendung der neuronalen Text-to-Speech-Technologie (NTTS), die im Vergleich zu herkömmlichen Sprachsynthese-Systemen ausdrucksstärkere und natürlichere Stimmen liefert. Dazu gehört auch das Anpassen von Sprachattributen wie Tonhöhe, Lautstärke und Sprechgeschwindigkeit, so dass die Entwickler eine präzise Kontrolle über die Audioausgabe haben. Die Entwickler können zum Beispiel die Sprache fröhlicher, aufgeregter oder einfühlsamer gestalten und so die emotionale Verbindung zu den Nutzern verbessern.

Amazon Polly unterstützt auch Funktionen wie Sprachmarkierungen, die es Entwicklern ermöglichen, Sprache mit visuellen Elementen zu synchronisieren, z. B. Text zu markieren, während er gesprochen wird, oder Figuren zu animieren, damit sie lippensynchron mit dem Ton sind. Das macht sie zu einer idealen Lösung für interaktives Storytelling, Bildungsinhalte und barrierefreie Tools.

Egal, ob du einen sprachgesteuerten virtuellen Assistenten, eine Hörbuchplattform oder ein IoT-Gerät mit Sprachfunktionen entwickelst, Amazon Polly bietet die Flexibilität und Skalierbarkeit, die du brauchst, um deine Ideen zum Leben zu erwecken.

Einrichtung von Amazon Polly

Also, lass uns loslegen und Amazon Polly einrichten! Dieser Abschnitt gibt dir einen Überblick darüber, wie du das machen kannst.

Schritt 1: Ein AWS-Konto erstellen

Um Amazon Polly zu nutzen, brauchst du zunächst ein AWS-Konto. Wenn du noch keinehast, gehe auf die AWS-Anmeldeseiteund folge den Schritten, um sie zu erstellen. Vergewissere dich, dass du gültige Rechnungsdaten angibst, denn AWS-Dienste, einschließlich Polly, werden nach Verbrauch abgerechnet.

IAM-Einrichtung für Berechtigungen

Ich empfehle,einen IAM-Benutzer (Identity and Access Management) einzurichten, derüber die notwendigen Berechtigungen verfügt, um Amazon Polly-Ressourcen zu verwalten. Weise die Richtlinie AmazonPollyFullAccess zu, um sicherzustellen, dass der Benutzer auf alle Polly-Funktionen zugreifen kann.

Schritt 2: Navigieren zu Amazon Polly

Nachdem du dich in der AWS Management Console angemeldet hast, suche in der Suchleiste oben nach Polly.

Die Suchmenü in der AWS-Konsole.

Klicke auf den Amazon Polly-Service, um die Polly-Oberfläche zu öffnen.

Amazon Polly für Text-to-Speech verwenden

Normalerweise verwenden Entwickler die Amazon Polly API, um Text-to-Speech-Funktionen direkt in ihre Anwendungen zu integrieren. Du kannst aber auch die AWS Polly-Schnittstelle nutzen, um schnell verschiedene Stimmen und Einstellungen auszuprobieren, ohne Code zu schreiben. Dazu klickst du auf die Schaltfläche Try Polly in der Polly-Oberfläche. Mit dieser Schaltfläche kannst du von der AWS-Konsole aus mit verschiedenen Texteingaben, Sprachtypen und Ausgabeformaten experimentieren und so die Möglichkeiten von Polly erkunden, bevor du sie programmatisch umsetzt.

Einfache Text-zu-Sprache-Umwandlung

Um eine einfache Text-zu-Sprache-Umwandlung durchzuführen, gib einen Satz wie "Hallo, willkommen bei Amazon Polly!" in das Eingabefeld ein. Du kannst auch die Art der Engine (z.B. Generativ, Langform, Neural oder Standard), die Sprache und die Stimme auswählen. Klicke auf Listen, um die Ausgabe sofort anzuhören oder klicke auf Download, um sie als .mp3 Datei herunterzuladen.

Die Amazon Polly-Schnittstelle in der AWS-Konsole.

Einrichten des AWS SDK für Text-to-Speech

Du musst das AWS SDK einrichten, um Amazon Polly programmatisch in deine Anwendungen zu integrieren. So kannst du direkt von deinem Code aus mit Amazon Polly interagieren und dynamischere und anpassbare Text-to-Speech-Funktionen ermöglichen.

In diesem Lernprogramm verwenden wirdas Python SDK (boto3). Installiere boto3 über pip:

pip install boto3

Konfigurieren Sie dann Ihre AWS-Anmeldedaten mit der AWS CLI:

aws configure

Der aws configure Befehl auf der CLI.

Sprache über das SDK generieren

Hier ist ein einfaches Python-Skript, das Text mit Amazon Polly in Sprache umwandelt:

import boto3

polly = boto3.client('polly')
response = polly.synthesize_speech(
    Text='Hello, this is a test of Amazon Polly.',
    OutputFormat='mp3',
    VoiceId='Joanna'
)

with open('speech.mp3', 'wb') as file:
    file.write(response['AudioStream'].read())

Dieses Skript erzeugt Sprache aus Text und speichert sie als mp3-Datei.

Erweiterte Funktionen von Amazon Polly

Amazon Polly ist zwar für seine grundlegende Text-to-Speech-Funktionalität bekannt, bietet aber auch eine Reihe fortschrittlicher Funktionen, mit denen Entwickler anspruchsvollere und interaktive Spracherlebnisse schaffen können.

SSML (Speech Synthesis Markup Language) verwenden

SSML (Speech Synthesis Markup Language) ermöglicht es Entwicklern, verschiedene Sprachaspekte wie Tonhöhe, Geschwindigkeit, Lautstärke und Betonung zu steuern, um die Audioausgabe ausdrucksstärker und natürlicher zu gestalten.

Mit SSML-Tags kannst du Pausen einfügen, den Sprechstil anpassen und sogar Akronyme Buchstabe für Buchstabe buchstabieren. Diese Flexibilität ist besonders nützlich für Szenarien wie Storytelling, E-Learning-Plattformen und Kundendienstanwendungen, bei denen der Ton und der Vortragsstil einen großen Einfluss auf das Engagement der Nutzer haben.

Du kannst zum Beispiel bestimmte Wörter betonen, um die Wichtigkeit zu vermitteln, oder die Sprechgeschwindigkeit für Unterrichtsinhalte ändern, um die Verständlichkeit zu gewährleisten.

Hier erfährst du, wie du SSML mit dem Polly SDK verwenden kannst:

response = polly.synthesize_speech(
    Text="<speak><emphasis level='strong'>Important</emphasis> message!</speak>",
    TextType='ssml',
    OutputFormat='mp3',
    VoiceId='Matthew'
)

# Save the audio file
with open('speech_ssml.mp3', 'wb') as file:
    file.write(response['AudioStream'].read())

In diesem Beispiel wird das Wort "wichtig" hervorgehoben, um es in der gesprochenen Nachricht hervorzuheben und die emotionale Wirkung auf den Zuhörer zu verstärken. SSML unterstützt auch fortgeschrittene Funktionen wie die Aussprache von Phonemen, Flüstern und das Hinzufügen von Soundeffekten und gibt Entwicklern die volle Kontrolle über das Spracherlebnis.

Sprachmarken für die Lippensynchronisation

Sprachmarkierungen liefern zeitlich abgestimmte Metadaten, die es Entwicklern ermöglichen, Sprache mit Animationen, Texthervorhebungen oder Lippenbewegungen von Figuren zu synchronisieren.

Diese Funktion ist besonders wertvoll für interaktive Anwendungen wie virtuelle Figuren, Lernspiele oder Karaoke-ähnliche Texthervorhebungen.

Wenn du neben der Sprachsynthese auch Sprachmarkierungen anforderst, erhältst du detaillierte Zeitangaben für jedes Wort oder jeden Satz und kannst so dynamische, synchronisierte Multimedia-Erlebnisse schaffen.

Du kannst zum Beispiel die Mundbewegungen eines Charakters synchron zu den gesprochenen Worten animieren oder Text in Echtzeit markieren, während er erzählt wird. Hier erfährst du, wie du Sprachmarken beantragen kannst:

response = polly.synthesize_speech(
    Text='Hello, world!',
    OutputFormat='json',
    VoiceId='Emma',
    SpeechMarkTypes=['word']
)

# Save the speech marks to a JSON file
with open('speech_marks.json', 'wb') as file:
    file.write(response['AudioStream'].read())

JSON ausgeben:

{"time":6,"type":"word","start":0,"end":5,"value":"Hello"}
{"time":714,"type":"word","start":7,"end":12,"value":"world"}

Das obige Beispiel fragt für jedes Wort Sprachmarken ab und gibt ein JSON-Objekt mit Zeitstempeln und Textdaten zurück. Die Entwickler können diese Informationen nutzen, um die Animationen Frame für Frame zu synchronisieren und so das audiovisuelle Erlebnis noch fesselnder und realistischer zu gestalten.

Streaming in Echtzeit mit Amazon Polly

Für Echtzeitanwendungen wie Sprachassistenten, Live-Kommentare oder interaktive Chatbots unterstützt Amazon Polly das Streaming über das WebSocket-Protokoll oder Media Player, die HLS (HTTP Live Streaming) unterstützen.

Dadurch können Anwendungen bereits während der Synthese mit der Audiowiedergabe beginnen, was die Latenzzeit verkürzt und ein schnelleres Nutzererlebnis ermöglicht. Echtzeit-Streaming ist ideal für Szenarien, in denen es auf Unmittelbarkeit ankommt, wie z.B. beim Live-Kundensupport oder bei der KI-Konversation.

Entwickler können diese Funktion nutzen, um sprachgesteuerte Geräte, Newsreader oder interaktive Storytelling-Anwendungen zu entwickeln, die auf Benutzereingaben reagieren.

Verwaltung von Amazon Polly Ressourcen

Eine effektive Verwaltung der Amazon Polly-Ressourcen ist entscheidend für die Optimierung von Leistung, Kosten und Skalierbarkeit. Indem du Sprachdateien strategisch speicherst und die Nutzung überwachst, kannst du eine effiziente Ressourcennutzung sicherstellen und gleichzeitig ein hochwertiges Nutzererlebnis gewährleisten.

Amazon Polly lässt sich nahtlos in andere AWS-Dienste wie Amazon S3 für die Speicherung und das AWS Billing Dashboard für die Kostenüberwachungintegrieren und erleichtert so die Ressourcenverwaltung.

Sprachdateien erstellen und verwalten

Mit Amazon Polly kannst du synthetisierte Sprache in Amazon S3 speichern, um sie skalierbar zu halten und einfach abzurufen. Dieser Ansatz ist besonders nützlich für Anwendungen mit wiederkehrenden Audioanforderungen, wie z. B. E-Learning-Plattformen, Hörbücher oder Kundensupport-Bots, bei denen du Audiodateien wiederverwenden kannst, anstatt jedes Mal Sprache zu synthetisieren.

Indem du häufig verwendete Sprachausgaben in S3 speicherst, kannst du Kosten senken und die Leistung verbessern, indem du Audiodateien direkt aus der Cloud bereitstellst.

s3 = boto3.client('s3')
s3.upload_file('speech.mp3', 'your-bucket-name', 'speech.mp3')

Überwachung von Nutzung und Kosten

Nutze das AWS Billing and Cost Management Dashboard, um Nutzung und Kosten effizient zu überwachen. Dieses Dashboard bietet detaillierte Kostenaufstellungen, Nutzungsberichte und die Möglichkeit, Budgets und Warnmeldungen einzurichten, um unerwartete Kosten zu vermeiden.

Die Überwachung der Kosten ist besonders wichtig, wenn neuronale Stimmen verwendet werden, die teurer sind als Standardstimmen. Du kannst auch Nutzungskennzahlen wie die Anzahl der synthetisierten Zeichen und die Häufigkeit der API-Aufrufe nachverfolgen, was dir helfen kann, die Ressourcennutzung zu optimieren.

Beispiel für ein AWS-Kosten-Dashboard.

Best Practices für die Verwendung von Amazon Polly

Bei der Verwendung von Amazon Polly sorgt die Anwendung von Best Practices für optimale Leistung, Kosteneffizienz und Benutzerfreundlichkeit. Hier sind einige wichtige Richtlinien:

Die Wahl der richtigen Stimme

Die Wahl der richtigen Stimme hängt vom Zweck der Anwendung und der Zielgruppe ab. Amazon Polly bietet eine Vielzahl von Stimmen, darunter Standard- und neuronale Stimmen, jede mit einzigartigen Tönen und Eigenschaften.

Neural Voices bieten einen natürlicheren und ausdrucksstärkeren Klang, sind aber auch teurer. Deshalb sind sie ideal für Anwendungen, die eine hohe emotionale Bindung erfordern, wie Hörbücher oder Geschichtenerzählen.
Standardstimmen bieten eine kostengünstige Lösung für nutzungsbasierte Anwendungen wie Chatbots für den Kundensupport. Das Testen verschiedener Stimmen mit Nutzerfeedback hilft bei der Auswahl der am besten geeigneten Stimme für die Anforderungen deiner Anwendung.

Optimierung der Sprachausgabe

Nutze SSML (Speech Synthesis Markup Language), um die Sprachqualität zu verbessern, indem du die Parameter Tonhöhe, Geschwindigkeit und Lautstärke anpasst. Du kannst ein dynamischeres und fesselnderes Klangerlebnis schaffen, indem du diese Einstellungen fein abstimmst.

Wenn du zum Beispiel das Sprechtempo verlangsamst, werden Unterrichtsinhalte klarer, während die Betonung von Schlüsselsätzen das Erzählen von Geschichten verbessert. Das Experimentieren mit verschiedenen SSML-Tags hilft dir, die am natürlichsten klingende Sprache zu erreichen.

Die Kosten senken

Strategien wie die Steuerung der Häufigkeit der Spracherzeugung und die Speicherung häufig verwendeter Audiodateien in S3 zur Wiederverwendung sollten in Betracht gezogen werden, um die Kosten beim Einsatz von Amazon Polly zu optimieren. Dieser Ansatz minimiert sich wiederholende API-Aufrufe und reduziert die Synthesekosten.

Außerdem kann der strategische Einsatz einer Mischung aus Standard- und neuronalen Stimmen ein Gleichgewicht zwischen Kosten und Qualität herstellen.

Verwende zum Beispiel neuronale Stimmen nur für kritische Touchpoints wie Willkommensnachrichten, während Standardstimmen für informativen Inhalt verwendet werden. Die Einrichtung von Nutzungsgrenzen und Kostenwarnungen im AWS Billing Dashboard hilft dabei, das Budget zu kontrollieren und unerwartete Ausgaben zu vermeiden.

Fazit

Amazon Polly ist ein leistungsstarker Text-to-Speech-Service, der fortschrittliche Deep-Learning-Technologien nutzt, um Text in lebensechte Sprache umzuwandeln und so das Nutzererlebnis und die Barrierefreiheit zu verbessern.

In diesem Lernprogramm haben wir die grundlegenden Funktionen von Amazon Polly kennengelernt, von der Einrichtung des AWS SDK bis zur programmgesteuerten Spracherzeugung. Wir haben auch fortgeschrittene Funktionen behandelt, wie die Verwendung von SSML für individuelle Sprachausgabe, die Nutzung von Speech Marks für Lippensynchronisation und Animationen und die Implementierung von Echtzeit-Streaming für dynamische Sprachanwendungen.

Die Integration von Amazon Polly in deine Anwendungen ermöglicht es dir, hochgradig interaktive und personalisierte Spracherlebnisse zu schaffen, die ein globales Publikum ansprechen. Egal, ob du virtuelle Assistenten, Hörbücher, Bildungsplattformen oder Tools für Barrierefreiheit entwickelst, Amazon Polly bietet die Flexibilität, Skalierbarkeit und fortschrittlichen Funktionen, die du brauchst, um deine Ideen zum Leben zu erwecken.

Wenn du neu bei AWS bist und deine Cloud-Kenntnisse vertiefen möchtest, solltest du diese Kurse in Betracht ziehen:

AWS-Konzepte - Lerne die grundlegenden Konzepte des AWS Cloud Computing kennen.
AWS Cloud-Technologie und -Services - Mach dich mit den wichtigsten AWS-Services und ihren praktischen Anwendungen vertraut.
AWS-Sicherheit und Kostenmanagement - Verstehe die besten Praktiken zur Sicherung von AWS-Ressourcen und zur Optimierung der Kosten.
AWS Cloud Practitioner Lernpfad - Bereite dich mit einem strukturierten Lernpfad auf die AWS Cloud Practitioner CLF-C02 Prüfung vor.

Wie ist Amazon Polly im Vergleich zu anderen TTS-Diensten?

Unterstützt Amazon Polly die Erstellung eigener Stimmen?

Ist Amazon Polly für die Erstellung von langen Inhalten wie Hörbüchern oder Podcasts geeignet?

Kann Amazon Polly auch offline genutzt werden?

Gibt es Nutzungsbeschränkungen oder Kontingente für Amazon Polly?

Ja, Amazon Polly hat Nutzungsquoten und Limits, wie zum Beispiel die Anzahl der Zeichen, die du pro Anfrage und pro Konto synthetisieren kannst. Die spezifischen Grenzen variieren, je nachdem, ob du den kostenlosen oder den kostenpflichtigen Tarif nutzt. Um Unterbrechungen zu vermeiden, kannst du über das AWS Billing and Cost Management Dashboard deine Nutzung überwachen und Warnmeldungen einrichten. Für Anwendungen mit hohem Volumen kannst du eine Quotenerhöhung über das AWS Support Center beantragen.

Author

Moez Ali

Themen

AWS

Cloud

Lerne mehr über AWS mit diesen Kursen!

Lernpfad

AWS Cloud Practitioner (CLF-C02)

10 Std.

Bereite dich auf Amazons AWS Certified Cloud Practitioner (CLF-C02) vor, indem du lernst, wie du die wichtigsten AWS-Rechen-, Datenbank- und Speicherdienste nutzen und sichern kannst.

Details anzeigen

Kurs starten

Kurs

Introduction to AWS Boto in Python

4 Std.

18.4K

Learn about AWS Boto and harnessing cloud technology to optimize your data workflow.

Details anzeigen

Kurs starten

Kurs

AWS: Cloud-Technologie und Servicekonzepte

3 Std.

19.3K

Lerne die AWS-Cloud-Technologie mit praktischen Übungen und Anwendungen im AWS-Ökosystem.

Details anzeigen

Kurs starten

Verwandt

Blog

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Bist du gerade auf der Suche nach einem Job, der Snowflake nutzt? Bereite dich mit diesen 20 besten Snowflake-Interview-Fragen vor, damit du den Job bekommst!

Nisha Arya Ahmed

15 Min.

Blog

Q2 2023 DataCamp Donates Digest

DataCamp Donates hat im zweiten Quartal 2023 über 20.000 Stipendien an unsere gemeinnützigen Partner vergeben. Erfahre, wie fleißige benachteiligte Lernende diese Chancen in lebensverändernde berufliche Erfolge verwandelt haben.

Nathaniel Taylor-Leach

Blog

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Keine Hacks, keine Tricks. Schüler/innen und Lehrer/innen, lest weiter, um zu erfahren, wie ihr die Datenerziehung, die euch zusteht, kostenlos bekommen könnt.

Nathaniel Taylor-Leach

4 Min.

Blog

2022-2023 DataCamp Classrooms Jahresbericht

Zu Beginn des neuen Schuljahres ist DataCamp Classrooms motivierter denn je, das Lernen mit Daten zu demokratisieren. In den letzten 12 Monaten sind über 7.650 neue Klassenzimmer hinzugekommen.

Nathaniel Taylor-Leach

8 Min.

Mehr anzeigen Mehr anzeigen

Was ist Amazon Polly?

Einrichtung von Amazon Polly

Schritt 1: Ein AWS-Konto erstellen

Schritt 2: Navigieren zu Amazon Polly

Amazon Polly für Text-to-Speech verwenden

Einfache Text-zu-Sprache-Umwandlung

Einrichten des AWS SDK für Text-to-Speech

Sprache über das SDK generieren

Erweiterte Funktionen von Amazon Polly

SSML (Speech Synthesis Markup Language) verwenden

Sprachmarken für die Lippensynchronisation

Streaming in Echtzeit mit Amazon Polly

Verwaltung von Amazon Polly Ressourcen

Sprachdateien erstellen und verwalten

Überwachung von Nutzung und Kosten

Best Practices für die Verwendung von Amazon Polly

Die Wahl der richtigen Stimme

Optimierung der Sprachausgabe

Die Kosten senken

Fazit

FAQs

Ist Amazon Polly für die Erstellung von langen Inhalten wie Hörbüchern oder Podcasts geeignet?

Kann Amazon Polly auch offline genutzt werden?

Gibt es Nutzungsbeschränkungen oder Kontingente für Amazon Polly?

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Q2 2023 DataCamp Donates Digest

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

2022-2023 DataCamp Classrooms Jahresbericht

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}AWS Cloud Practitioner (CLF-C02)

Introduction to AWS Boto in Python

AWS: Cloud-Technologie und Servicekonzepte

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Q2 2023 DataCamp Donates Digest

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

2022-2023 DataCamp Classrooms Jahresbericht

AWS Cloud Practitioner (CLF-C02)