Pular para o conteúdo principal

Um guia para iniciantes na API do ElevenLabs: Transforme texto e voz em experiências dinâmicas de áudio

Aproveite os recursos da API do ElevenLabs, um poderoso gerador de voz de IA. Saiba como transformar texto em fala e clonar vozes com essa tecnologia.
Actualizado 30 de jul. de 2024  · 9 min de leitura

Em uma era de inovação tecnológica, o poder dos aplicativos acionados por voz está transformando a forma como interagimos com o mundo. Desde o aprimoramento da acessibilidade para pessoas com deficiências visuais até a criação de experiências de usuário mais dinâmicas e envolventes, a versatilidade da tecnologia de voz é ampla e impactante.

O ElevenLabs, um dos principais geradores de voz com IA, oferece recursos de ponta em síntese de texto para fala e fala para fala.

Neste guia, exploraremos esses recursos e demonstraremos como você pode aproveitar o potencial deles para transformar texto escrito e gravações de voz em fala realista.

Se você é um desenvolvedor que deseja integrar a funcionalidade de voz aos seus aplicativos, um criador de conteúdo que busca produzir dublagens multilíngues ou uma empresa que deseja melhorar as interações com os clientes por meio de sistemas automatizados, este artigo fornecerá o conhecimento essencial para você começar.

O que são mecanismos de conversão de texto em fala?

Um mecanismo de conversão de texto em fala (TTS) é uma tecnologia sofisticada que recebe texto escrito como entrada e o transforma em áudio falado. Isso permite que os usuários ouçam em vez de ler o texto, tornando o conteúdo digital mais acessível e interativo. Se você estiver interessado em explorar mais os mecanismos TTS, poderá encontrar informações detalhadas neste guia sobre os melhores mecanismos de conversão de texto em fala.

O que é a ElevenLabs?

A ElevenLabs é uma das principais plataformas que oferecem síntese de texto para fala (TTS) e de fala para fala (STS). Essa tecnologia aproveita modelos avançados de machine learning para gerar áudio realista e com som natural a partir de texto escrito ou até mesmo de uma voz para outra.

Sua capacidade de fornecer áudio de alta qualidade faz com que seja a melhor escolha entre desenvolvedores, criadores de conteúdo e empresas que desejam aumentar o envolvimento do usuário por meio de experiências de áudio dinâmicas.

Neste tutorial, vamos nos concentrar em como usar a API da ElevenLabs em Python. Abordaremos tudo, desde a obtenção de suas chaves de API, configuração do ambiente de desenvolvimento, inicialização da biblioteca e uso de suas funções para produzir fala. Para ter uma ideia do que você pode conseguir, ouça este clipe de áudio que foi gerado usando sua funcionalidade. Vamos aprender a criar algo semelhante, passo a passo.

Se você deseja integrar locução em conteúdo multimídia ou desenvolver aplicativos acessíveis para usuários com deficiência visual, a ElevenLabs fornece as ferramentas necessárias para dar vida ao seu áudio. Ao final deste guia, você terá uma compreensão completa de como usar sua API para transformar texto em fala com clareza e realismo incomparáveis.

Conversão de texto em fala usando a API da ElevenLabs em Python

1. Criar uma chave de API

A primeira etapa é registrar-se em uma conta gratuita da ElevenLabs. Depois de fazer o login, você pode clicar no ícone do perfil e selecionar a opção "Profile + API key" (Perfil + chave de API). Aqui, nossa chave de API já será gerada para nós. Precisamos nos certificar de salvar essa chave, pois precisaremos dela para autenticar nossas solicitações.

2. Instale e importe o pacote Python da ElevenLabs

Para interagir com a API da ElevenLabs usando Python, você precisa instalar o pacote oficial. Você pode fazer isso usando o pip, o instalador de pacotes do Python:

$ pip install elevenlabs

Agora, podemos importar os componentes necessários do pacote para um novo arquivo Python.

from elevenlabs.client import ElevenLabs
from elevenlabs import play, save, stream, Voice, VoiceSettings

3. Geração de áudio

Quando nosso ambiente estiver configurado, poderemos gerar nosso primeiro clipe de áudio criando uma instância do cliente ElevenLabs usando nossa chave de API.

client = ElevenLabs(api_key="YOUR_API_KEY")

Em seguida, usamos o método .generate para converter o texto em áudio.

audio = client.generate(
   text="Welcome to Datacamp's beginner's guide to the ElevenLabs API",
   voice="Brian"
)

Você pode reproduzir imediatamente o áudio gerado:

play(audio)

Ou salve-o como um arquivo:

save(audio, "output.mp3")

4. Personalização de vozes

A ElevenLabs oferece várias opções de personalização para que você possa adaptar a voz às suas preferências. Podemos ajustar configurações como estabilidade, aumento de similaridade e estilo. Por exemplo:

audio = client.generate(
   text="Welcome to Datacamp's beginner's guide to the ElevenLabs API.",
   voice=Voice(
       voice_id='nPczCjzI2devNBz1zQrb',
       settings=VoiceSettings(
           stability=0.8, similarity_boost=0.6, style=0.2, use_speaker_boost=True)
   )
)

O endereço voice_id corresponde a vozes específicas pré-fabricadas pela ElevenLabs; uma lista completa, juntamente com detalhes como caso de uso, sotaque e descrições, pode ser encontrada na página de vozes da ElevenLabs.

5. Geração de fala multilíngue

A ElevenLabs oferece dois modelos principais: eleven_multilingual_v2 O modelo de geração de fala em inglês, capaz de gerar fala em 29 idiomas, e o modelo de geração de fala em inglês, otimizado especificamente para fala em inglês: eleven_monolingual_v1 O modelo de voz de inglês, que é otimizado especificamente para a fala em inglês. Veja como podemos utilizar o modelo multilíngue para produzir áudio em vários idiomas simultaneamente:

audio = client.generate(
   text="Hello! Hola! Hallo 你好! नमस्ते! Bonjour! こんにちは! مرحبا! 안녕하세요! Ciao!",
   voice="Arnold",
   model="eleven_multilingual_v2"
)

Geração de fala em fluxo contínuo

Embora o método .generate que discutimos processe e retorne toda a saída de fala depois que todo o texto tiver sido convertido, a API da ElevenLabs também oferece um poderoso recurso de streaming. Isso é particularmente útil para aplicativos que exigem geração de áudio em tempo real, pois permite que o áudio seja reproduzido quase imediatamente enquanto o restante do texto ainda está sendo processado.

OBSERVE: Para fazer streaming de áudio, precisamos ter o mpv media player instalado; no mac, você pode instalá-lo com o comando brew install mpv. Para Linux e Windows, você pode instalá-lo na página inicial do mpv.

Como funciona o streaming

Para utilizar o recurso de streaming, precisamos definir o parâmetro stream como True no método .generate. Isso sinaliza à API para começar a fornecer o áudio em partes assim que elas estiverem prontas:

audio_stream = client.generate(
   text="Welcome... I am speaking to you in real-time. Let’s get started!.",
   stream=True
)
stream(audio_stream)

Streaming com entrada de texto dinâmica

A vaporização não se limita apenas a textos estáticos. Ele também pode lidar com entrada dinâmica, em que os blocos de texto são alimentados na API à medida que se tornam disponíveis. Isso é especialmente útil para aplicativos interativos, como transmissão ao vivo ou criação de diálogos responsivos orientados por IA. Veja como podemos transmitir texto dinâmico:

def text_stream():
   yield "Hi! I'm Brian "
   yield "I'm an artificial voice made by ElevenLabs "


audio_stream = client.generate(
   text=text_stream(),
   voice="Brian",
   model="eleven_monolingual_v1",
   stream=True
)


stream(audio_stream)

Nessa configuração, text_stream() atua como uma função geradora que produz trechos de texto para a API. Cada trecho é processado imediatamente, o que ajuda a manter um fluxo natural da fala sem pausas ou atrasos incômodos. Esse recurso reflete as habilidades de conversação demonstradas por assistentes de voz avançados e dispositivos de tradução em tempo real.

Geração de fala para fala

Outro recurso avançado da plataforma ElevenLabs é a síntese STS, que é essencialmente uma clonagem de voz.

O fluxo de trabalho é semelhante ao que discutimos até agora para o TTS, com a principal diferença sendo o tipo de entrada. Em vez de texto, fornecemos arquivos de áudio da voz que queremos clonar.

Para a clonagem instantânea de voz, a ElevenLabs sugere que você use 60 segundos de conteúdo com dados livres de ruídos e efeitos de fundo; para a clonagem profissional de voz, recomenda-se um mínimo de 30 minutos de áudio limpo.

A adição de uma descrição não é necessária, mas pode ser útil para organizar e distinguir entre vários projetos ou modelos de voz.

Aqui está um exemplo de como podemos clonar uma voz.

voice = client.clone(
   name="Emily",
   description="A young British female voice with a clear, melodic tone, ideal for storytelling or educational content", 
   files=["./sample_1.mp3", "./sample_2.mp3", "./sample_3.mp3"],
)

Aplicativos da API da ElevenLabs em Python

A API da ElevenLabs oferece uma gama de recursos avançados de síntese de fala que podem transformar a maneira como as organizações e os indivíduos interagem com seu público. Ao converter texto em fala ou clonar vozes por meio da conversão de fala em fala, essa tecnologia oferece soluções inovadoras para vários campos.

Aqui estão três aplicativos importantes que demonstram o potencial dessa ferramenta:

Sistemas interativos de resposta de voz (IVR)

  • Suporte a vários idiomas: As organizações que operam em mercados multilíngues podem usar o sistema para oferecer suporte ao cliente em vários idiomas sem a necessidade de uma equipe multilíngue.
  • Atendimento ao cliente: As empresas podem implementar a API em suas operações de atendimento ao cliente para oferecer interações mais humanas em sistemas telefônicos automatizados, melhorando a experiência do cliente com respostas de voz personalizadas.

Recursos de acessibilidade em conteúdo digital

  • Ferramentas de leitura aprimoradas: A API pode ser usada para criar audiolivros a partir de material escrito, tornando a literatura mais acessível a pessoas com deficiências visuais ou de leitura
  • Navegação por voz: A integração em sites e aplicativos para navegação guiada por voz pode ajudar os usuários que precisam de assistência auditiva, melhorando a usabilidade das plataformas digitais.

Criação de conteúdo

  • Locuções automatizadas para vídeos: Os produtores de conteúdo digital, como criadores do YouTube e cineastas, podem aproveitar a tecnologia para gerar locuções com som natural em vários idiomas, reduzindo significativamente os custos e o tempo de produção.
  • Tutorial educacional e módulos de e-learning: Com o TTS e o STS, podemos dar voz ao conteúdo educacional, tornando o aprendizado mais interativo e acessível, especialmente em ambientes de aprendizado remoto.

Conclusão

A API da ElevenLabs é uma ferramenta robusta e versátil para quem deseja incorporar a síntese de fala avançada em seus aplicativos.

Seja para acessibilidade, criação de conteúdo ou aprimoramento das interações com os clientes, essa API oferece uma série de soluções para atender a diversas necessidades.

Com a opção de síntese de texto para fala e de fala para fala, ele facilita a criação de experiências de usuário mais inclusivas e envolventes.

Se você está entusiasmado com as possibilidades da tecnologia de fala e deseja aprofundar seus conhecimentos, considere fazer o curso Spoken Language Processing in Python no DataCamp. Este curso abrangente cobre tudo, desde os conceitos básicos de pré-processamento e manipulação de áudio até a conversão de fala em texto e a análise dos dados transcritos. Ao se inscrever, você ganhará experiência prática com aplicativos do mundo real, equipando-o com as habilidades necessárias para desenvolver sistemas sofisticados habilitados para fala e criar soluções inovadoras nesse campo dinâmico.

Perguntas frequentes

Você tem algum custo de uso associado à API da ElevenLabs?

O ElevenLabs oferece diferentes níveis de preços, incluindo um nível gratuito para uso básico, o que é ótimo para experimentos e pequenos projetos. Para uso extensivo, especialmente em aplicativos comerciais, há planos pagos que oferecem limites de uso mais altos e recursos adicionais.

Quais são as limitações da API da ElevenLabs?

As principais limitações incluem a dependência da qualidade dos dados de entrada (texto ou áudio), a conectividade com a Internet para chamadas de API e as nuances da fala sintetizada, que podem não capturar perfeitamente as inflexões emocionais da fala humana.

A API da ElevenLabs pode lidar com diferentes sotaques e dialetos?

Sim, a API da ElevenLabs oferece suporte a uma variedade de sotaques e dialetos em seus recursos TTS e STS, o que a torna versátil para aplicativos globais.

Posso usar a API da ElevenLabs para fins comerciais?

Sim, a API da ElevenLabs foi projetada para uso pessoal e comercial. Ele pode ser integrado a produtos e serviços, desde que você cumpra os termos de serviço e quaisquer contratos de licenciamento relevantes.

Como posso solucionar problemas com a API da ElevenLabs?

A ElevenLabs fornece documentação e suporte abrangentes. Para solucionar problemas, consulte a documentação oficial e as perguntas frequentes sobre problemas comuns. Se precisar de mais ajuda, a equipe de suporte pode ser contatada pelo site.

Temas

Saiba mais sobre como aproveitar as APIs hoje mesmo!

curso

Working with the OpenAI API

3 hr
17.6K
Start your journey developing AI-powered applications with the OpenAI API. Learn about the functionality that underpins popular AI applications like ChatGPT.
Ver DetalhesRight Arrow
Iniciar Curso
Ver maisRight Arrow
Relacionado

tutorial

Como usar a API de conversão de texto em fala da OpenAI

A API TTS da OpenAI é um ponto de extremidade que permite que os usuários interajam com seu modelo de IA TTS que converte texto em linguagem falada com som natural.

Kurtis Pykes

12 min

tutorial

Introdução ao Text Embeddings com a API OpenAI

Explore nosso guia sobre como usar a API OpenAI para criar incorporações de texto. Descubra suas aplicações na classificação de textos, recuperação de informações e detecção de similaridade semântica.
Zoumana Keita 's photo

Zoumana Keita

7 min

tutorial

Guia para iniciantes no uso da API do ChatGPT

Este guia o orienta sobre os conceitos básicos da API ChatGPT, demonstrando seu potencial no processamento de linguagem natural e na comunicação orientada por IA.
Moez Ali's photo

Moez Ali

11 min

tutorial

Primeiros passos com o Claude 3 e a API do Claude 3

Saiba mais sobre os modelos Claude 3, benchmarks de desempenho detalhados e como acessá-los. Além disso, descubra a nova API Python do Claude 3 para geração de texto, acesso a recursos de visão e streaming.
Abid Ali Awan's photo

Abid Ali Awan

tutorial

Tutorial da API de assistentes da OpenAI

Uma visão geral abrangente da API Assistants com nosso artigo, que oferece uma análise aprofundada de seus recursos, usos no setor, orientação de configuração e práticas recomendadas para maximizar seu potencial em vários aplicativos de negócios.
Zoumana Keita 's photo

Zoumana Keita

14 min

See MoreSee More