Pular para o conteúdo principal

Tutorial da API do GPT-4o: Primeiros passos com a API da OpenAI

Para se conectar por meio da API do GPT-4o, obtenha sua chave de API da OpenAI, instale a biblioteca Python da OpenAI e use-a para enviar solicitações e receber respostas dos modelos do GPT-4o.
Actualizado 21 de ago. de 2024  · 8 min de leitura

O GPT-4o da OpenAI representa um grande avanço em IA, integrando recursos de áudio, visão e texto em um único e avançado modelo de linguagem.

Esse desenvolvimento marca um avanço significativo em direção a uma interação humano-computador mais natural e intuitiva.

Neste tutorial, vamos nos aprofundar nos detalhes do GPT-4o, explorar seus possíveis casos de uso e fornecer um guia passo a passo para você usar o GPT-4o por meio da API da OpenAI.

Se você quiser ter uma visão geral do GPT-4o, consulte este artigo sobre O que é o GPT-4o da OpenAI.

O que é o GPT-4o?

O GPT-4o, abreviação de "omni", representa um avanço significativo em IA. Ao contrário do GPT-4, que só lida com texto, o GPT-4o é um modelo multimodal que processa e gera dados de texto, áudio e visuais.

Comparação do GPT-4o com o GPT-4 Turbo

Ao adotar dados visuais e de áudio junto com o texto, o GPT-4o se liberta das restrições dos modelos tradicionais que lidam somente com texto, criando interações mais naturais e intuitivas.

O GPT-4o tem um tempo de resposta mais rápido, é 50% mais barato que o GPT-4 Turbo e é melhor na compreensão de áudio e visão do que os modelos existentes.

Casos de uso do GPT-4o

Além de interagir com o GPT-4o por meio da interface do ChatGPT, os desenvolvedores podem interagir com o GPT-4o por meio da API da OpenAI, permitindo integrar os recursos do GPT-4o em seus aplicativos e sistemas.

A API do GPT-4o abre uma vasta gama de casos de uso em potencial, aproveitando seus recursos multimodais:

Modalidade

Casos de uso

Descrição

Texto

Geração de texto, resumo de texto, análise de dados e programação

Criação de conteúdo, resumos concisos, explicações de código e assistência na programação.

Áudio

Transcrição de áudio, tradução em tempo real, geração de áudio

Conversão de áudio em texto, tradução em tempo real, criação de assistentes virtuais ou aprendizado de idiomas.

Visão

Legendagem de imagens, análise e lógica de imagens, acessibilidade para deficientes visuais

Descrição de imagens, análise de informações visuais, acessibilidade para deficientes visuais.

Multi

Interações multimodais, cenários de interpretação de papéis

Combine perfeitamente as modalidades e crie experiências imersivas.

API do GPT-4o: Como se conectar à API da OpenAI

Vamos agora explorar como você pode usar o GPT-4o por meio da API da OpenAI.

Etapa 1: Gerar uma chave de API

Antes de usar a API do GPT-4o, você deve criar uma conta da OpenAI e obter uma chave de API. Você pode criar uma conta no site da API da OpenAI.

Depois de criar sua conta, você poderá navegar até a página de chaves de API:

API da OpenAI

Agora você pode gerar uma chave de API. Precisamos mantê-lo segura, pois não poderemos visualizá-la novamente. Mas sempre é possível gerar uma nova se a perdermos ou se precisarmos de uma para um projeto diferente.

API da OpenAI

Etapa 2: Importar a API da OpenAI para o Python

Para interagir com a API do GPT-4o de forma programática, você precisará instalar a biblioteca Python da OpenAI. Você pode fazer isso executando o seguinte comando:

Uma vez instalada, podemos importar os módulos necessários para o nosso script Python:

from openai import OpenAI

Etapa 3: Fazer uma chamada de API

Antes de poder fazer solicitações à API, é preciso se autenticar com a chave de API:

## Set the API keyclient = OpenAI(api_key="your_api_key_here")

Substitua "your_api_key_here" pela sua chave de API.

Depois de concluir a conexão com o cliente, podemos começar a gerar texto usando o GPT-4o:

MODEL="gpt-4o"completion = client.chat.completions.create(  model=MODEL,  messages=[    {"role": "system", "content": "You are a helpful assistant that helps me with my math homework!"},    {"role": "user", "content": "Hello! Could you solve 20 x 5?"}  ])print("Assistant: " + completion.choices[0].message.content)

Esse trecho de código usa a API de conclusão de bate-papo com o modelo GPT-4o, que aceita perguntas relacionadas à matemática como entrada e gera uma resposta:

Saída de código do GPT-4o

API do GPT-4o: Casos de uso de áudio

A transcrição e o resumo de áudio tornaram-se ferramentas essenciais em vários aplicativos, desde a melhoria da acessibilidade até o aumento da produtividade. Com a API do GPT-4o, podemos lidar com eficiência com tarefas como transcrição e resumo de conteúdo de áudio.

Embora o GPT-4o tenha o potencial de lidar diretamente com áudio, o recurso de entrada direta de áudio ainda não está disponível por meio da API. Por enquanto, podemos usar um processo de duas etapas com a API do GPT-4o para transcrever e resumir o conteúdo de áudio.

Etapa 1: Transcrever áudio para texto

Para transcrever um arquivo de áudio usando o GPT-4o, precisamos fornecer os dados de áudio para a API. Veja um exemplo:

# Transcribe the audioaudio_path = "path/to/audio.mp3"transcription = client.audio.transcriptions.create(    model="whisper-1",    file=open(audio_path, "rb"),)

Substitua "path/to/audio.mp3" pelo caminho real do arquivo de áudio. Este exemplo usa o modelo whisper-1 para transcrição.

Etapa 2: Resumir o texto de áudio

response = client.chat.completions.create(    model=MODEL,    messages=[    {"role": "system", "content":"""You are generating a transcript summary. Create a summary of the provided transcription. Respond in Markdown."""},    {"role": "user", "content": [        {"type": "text", "text": f"The audio transcription is: {transcription.text}"}        ],    }    ],    temperature=0,)print(response.choices[0].message.content)

API do GPT-4o: Casos de uso de visão

A análise visual de dados é fundamental em vários domínios, desde a área da saúde até a segurança e muito mais. Com a API do GPT-4o, você pode analisar imagens com perfeição, participar de conversas sobre conteúdo visual e extrair informações valiosas das imagens.

Etapa 1: Adicionar dados de imagem à API

Para analisar uma imagem usando o GPT-4o, primeiro precisamos fornecer os dados da imagem à API. Você pode fazer isso codificando uma imagem local como uma cadeia de caracteres base64 ou fornecendo um URL para uma imagem on-line:

import base64IMAGE_PATH = "image_path"# Open the image file and encode it as a base64 stringdef encode_image(image_path):    with open(image_path, "rb") as image_file:        return base64.b64encode(image_file.read()).decode("utf-8")base64_image = encode_image(IMAGE_PATH)
 "url": "<https://images.saymedia-content.com/.image/c_limit%2Ccs_srgb%2Cq_auto:eco%2Cw_538/MTczOTQ5NDQyMzQ3NTc0NTc5/compound-shapes-how-to-find-the-area-of-a-l-shape.webp>"

Etapa 2: Analisar os dados da imagem

Depois de processar a entrada da imagem, podemos passar os dados da imagem para a API para análise.

Vamos tentar analisar uma imagem para determinar a área de uma forma. Primeiro, vamos usar a imagem abaixo:

Forma para o GPT-4o calcular

Agora, pediremos ao GPT-4o que pergunte a área dessa forma. Observe que estamos usando uma entrada de imagem base64 abaixo:

response = client.chat.completions.create(    model=MODEL,    messages=[        {"role": "system", "content": "You are a helpful assistant that responds in Markdown. Help me with my math homework!"},        {"role": "user", "content": [            {"type": "text", "text": "What's the area of the shape in this image?"},            {"type": "image_url", "image_url": {                "url": f"data:image/png;base64,{base64_image}"}            }        ]}    ],    temperature=0.0,)print(response.choices[0].message.content)

Vamos agora considerar essa forma:

Forma para o GPT-4o calcular

Passaremos o URL da imagem para o GPT-4o para que ele encontre a área da forma:

response = client.chat.completions.create(    model=MODEL,    messages=[        {"role": "system", "content": "You are a helpful assistant that responds in Markdown. Help me with my math homework!"},        {"role": "user", "content": [            {"type": "text", "text": "What's the area of the shape in the image?"},            {"type": "image_url", "image_url": {                "url": "<https://images.saymedia-content.com/.image/c_limit%2Ccs_srgb%2Cq_auto:eco%2Cw_538/MTczOTQ5NDQyMzQ3NTc0NTc5/compound-shapes-how-to-find-the-area-of-a-l-shape.webp>"}            }        ]}    ],    temperature=0.0,)print(response.choices[0].message.content)

Observe que o GPT-4o mediu incorretamente a largura do retângulo vertical; deveria ser quatro centímetros, não dois. Essa discrepância decorre do desalinhamento entre os rótulos de medição e as proporções reais do retângulo. Isso destaca mais uma vez a importância da supervisão e da validação humana.

Preços da API do GPT-4o

A OpenAI introduziu uma estrutura de preços competitiva para a API do GPT-4o, tornando-a mais acessível e econômica do que os modelos anteriores.

Aqui você encontra um resumo dos preços dos modelos Claude da Anthropic e Gemini do Google (os preços estão em dólares americanos):

Comparação de preços do GPT-4o

Como você pode ver, o GPT-4o tem um preço significativamente mais baixo do que o GPT-4 Turbo e o GPT-4. Ele também tem um preço competitivo em comparação com outros modelos de linguagem de última geração, como o Claude Opus e o Gemini 1.5 Pro.

API do GPT-4o: Principais considerações

Ao trabalhar com a API do GPT-4o, é importante observar algumas considerações importantes para garantir o desempenho ideal, a relação custo-benefício e o alinhamento com cada caso de uso específico. Aqui estão três fatores cruciais que você deve considerar:

Preços e gerenciamento de custos

A API da OpenAI segue um modelo de pagamento por uso, em que os custos são incorridos com base no número de tokens processados.

Embora o GPT-4o seja mais barato do que o GPT-4 Turbo, planejar o uso adequadamente é fundamental para estimar e gerenciar os custos.

Para minimizar os custos, você pode considerar técnicas como criação de lotes e otimização de prompts para reduzir o número de chamadas de API e tokens processados.

Latência e desempenho

Embora o GPT-4o ofereça um desempenho impressionante e baixa latência, ele ainda é um modelo de linguagem grande, o que significa que o processamento de solicitações pode ser computacionalmente intensivo, levando a uma latência relativamente alta.

Precisamos otimizar nosso código e usar técnicas como armazenamento em cache e processamento assíncrono para atenuar os problemas de latência.

Além disso, podemos explorar o uso de instâncias dedicadas da OpenAI ou o ajuste fino do modelo para nosso caso de uso específico, o que pode melhorar o desempenho e reduzir a latência.

Alinhamento de casos de uso

O GPT-4o é um modelo geral poderoso com uma ampla gama de recursos, mas precisamos garantir que nosso caso de uso específico esteja alinhado com os pontos fortes do modelo.

Antes de confiar apenas no GPT-4o, devemos avaliar cuidadosamente nosso caso de uso e considerar se os recursos do modelo atendem às nossas necessidades.

Se necessário, podemos ajustar modelos menores ou explorar outros modelos que possam ser mais adequados para nossa tarefa específica.

Conclusão

Os recursos multimodais do GPT-4o abordam as limitações dos modelos anteriores, que se esforçavam para integrar e processar diferentes tipos de dados sem problemas.

Ao usar a API do GPT-4o, os desenvolvedores podem criar soluções inovadoras que integram perfeitamente dados de texto, áudio e visuais.

Se você quiser praticar mais com o GPT-4o, recomendo este code-along sobre a criação de assistentes de IA com o GPT-4o. Da mesma forma, se você quiser saber mais sobre como trabalhar com APIs, recomendo estes recursos:

Perguntas frequentes

O que é o GPT-4o e como ele difere dos modelos anteriores?

O GPT-4o é um modelo de linguagem multimodal desenvolvido pela OpenAI, capaz de processar e gerar dados de texto, áudio e visuais. Diferentemente dos modelos anteriores, como o GPT-4, que lidava apenas com texto, o GPT-4o integra informações visuais e de áudio, permitindo interações mais naturais e recursos aprimorados em todas as modalidades.

Como os desenvolvedores podem acessar o GPT-4o por meio da API da OpenAI?

Os desenvolvedores podem acessar o GPT-4o por meio da API da OpenAI, criando uma conta da OpenAI, obtendo uma chave de API e instalando a biblioteca Python da OpenAI.

Quais são os custos de uso da API do GPT-4o e como ele se compara a outros modelos?

A API do GPT-4o segue um modelo de pagamento por uso, com custos incorridos com base no número de tokens processados. Em comparação com os modelos anteriores, como o GPT-4, o GPT-4o oferece uma redução de 50% nos custos, tornando-o mais acessível. Uma comparação de preços com outros modelos é fornecida no artigo.

O GPT-4o pode ser ajustado para casos de uso ou setores específicos?

Sim, o GPT-4o pode ser ajustado para casos de uso ou setores específicos por meio de técnicas como a aprendizagem por transferência. Ao fazer o ajuste fino em dados ou tarefas específicos do domínio, os desenvolvedores podem aprimorar o desempenho do modelo e adaptá-lo aos seus requisitos exclusivos.

Quais recursos estão disponíveis para que você possa aprender e implementar a API do GPT-4o?

Vários recursos, incluindo tutoriais, cursos e exemplos práticos, estão disponíveis para que você possa aprender mais e implementar a API do GPT-4o. O artigo recomenda que você explore o curso Trabalhando com a API da OpenAI do DataCamp, o OpenAI Cookbook e a folha de dicas do DataCamp para obter referências rápidas e orientações práticas de implementação.

Temas

Aprenda IA com estes cursos!

programa

AI Fundamentals

10hrs hr
Discover the fundamentals of AI, dive into models like ChatGPT, and decode generative AI secrets to navigate the dynamic AI landscape.
Ver DetalhesRight Arrow
Iniciar Curso
Ver maisRight Arrow
Relacionado
An avian AI exits its cage

blog

12 Alternativas de código aberto ao GPT-4

GPT-4 alternativas de código aberto que podem oferecer desempenho semelhante e exigem menos recursos computacionais para serem executadas. Esses projetos vêm com instruções, fontes de código, pesos de modelos, conjuntos de dados e interface de usuário do chatbot.
Abid Ali Awan's photo

Abid Ali Awan

9 min

blog

A OpenAI anuncia o GPT-4 Turbo com visão: O que sabemos até o momento

Descubra a atualização mais recente da OpenAI, GPT-4 Turbo com visão, e seus principais recursos, incluindo o corte de conhecimento aprimorado, uma janela de contexto expandida, preço acessível e muito mais.
Richie Cotton's photo

Richie Cotton

7 min

tutorial

Guia para iniciantes no uso da API do ChatGPT

Este guia o orienta sobre os conceitos básicos da API ChatGPT, demonstrando seu potencial no processamento de linguagem natural e na comunicação orientada por IA.
Moez Ali's photo

Moez Ali

11 min

tutorial

Tutorial de chamada de função do OpenAI

Saiba como o novo recurso de Chamada de Função da OpenAI permite que os modelos GPT gerem saída JSON estruturada, resolvendo problemas comuns de desenvolvimento causados por saídas irregulares.
Abid Ali Awan's photo

Abid Ali Awan

12 min

tutorial

Como usar a API de conversão de texto em fala da OpenAI

A API TTS da OpenAI é um ponto de extremidade que permite que os usuários interajam com seu modelo de IA TTS que converte texto em linguagem falada com som natural.
Kurtis Pykes 's photo

Kurtis Pykes

12 min

tutorial

Tutorial da API de assistentes da OpenAI

Uma visão geral abrangente da API Assistants com nosso artigo, que oferece uma análise aprofundada de seus recursos, usos no setor, orientação de configuração e práticas recomendadas para maximizar seu potencial em vários aplicativos de negócios.
Zoumana Keita 's photo

Zoumana Keita

14 min

See MoreSee More