Blog

A OpenAI anuncia o GPT-4 Turbo com visão: O que sabemos até o momento

Descubra a atualização mais recente da OpenAI, GPT-4 Turbo com visão, e seus principais recursos, incluindo o corte de conhecimento aprimorado, uma janela de contexto expandida, preço acessível e muito mais.

abr. de 2024 · 7 min leer

No recente OpenAI DevDay, a organização fez um anúncio muito aguardado: a introdução do GPT-4 Turbo, um aprimoramento de seu modelo inovador de IA. Aqui, vamos dar uma olhada abrangente no que é o GPT-4 Turbo, seus principais recursos e como ele pode beneficiar desenvolvedores e usuários.

Em artigos separados, você pode ler mais sobre GPTs e a ChatGPT Store e a API Assistants, que também foram anunciadas no Dev Day.

O que é o GPT-4 Turbo?

O GPT-4 Turbo é uma atualização do modelo de linguagem grande GPT-4 existente. Ele traz vários aprimoramentos, incluindo uma janela de contexto bastante ampliada e acesso a conhecimentos mais atualizados. A OpenAI vem aprimorando gradualmente os recursos do GPT-4 no ChatGPT com a adição de instruções personalizadas, plug-ins do ChatGPT, DALL-E 3 e análise avançada de dados. Essa última atualização traz uma série de novos recursos interessantes.

O que é o GPT-4 Turbo With Vision?

O GPT-4 Turbo com visão é uma variante do GPT-4 Turbo que inclui um recurso de reconhecimento óptico de caracteres (OCR). Ou seja, você pode fornecer a ele uma imagem e ele pode retornar qualquer texto contido na imagem. Por exemplo, você pode inserir uma foto de um cardápio, e ele retornará as opções de alimentos escritas nessa foto. Da mesma forma, você pode fornecer uma foto de uma fatura e extrair automaticamente o nome do fornecedor e os detalhes do item.

Os recursos "com visão" estarão disponíveis no ChatGPT por padrão e estarão disponíveis para os desenvolvedores ao selecionar um modelo "gpt-4-vision" na API da OpenAI.

Principais recursos do GPT-4 Turbo

O GPT-4 Turbo tem várias melhorias em relação aos modelos anteriores, aprimorando seus recursos. Aqui estão alguns dos principais recursos que o fazem se destacar:

Limite de conhecimento aprimorado

Sam Altman promete garantir que o ChatGPT permaneça atualizado

As versões existentes do GPT-3.5 e GPT-4 tinham um limite de conhecimento de setembro de 2021. Isso significa que eles não podem responder a perguntas sobre eventos do mundo real que ocorreram após esse período, a menos que tenham acesso a fontes de dados externas.

O GPT-4 estende o limite de conhecimento em dezenove meses, até abril de 2023. Isso significa que o GPT-4 Turbo tem acesso a informações e eventos até essa data, o que o torna uma fonte de informações mais informada e confiável. Além disso, o CEO da OpenAI, Sam Altman, prometeu que "[a OpenAI] tentará nunca mais permitir que o [GPT] fique tão desatualizado".

Janela de contexto de 128K

A janela de contexto de um modelo de linguagem ampla (LLM) é uma medida da duração da memória da conversa. Se um modelo tiver uma janela de contexto de 4.000 tokens (cerca de 3.000 palavras), tudo o que estiver no bate-papo além dos 4.000 tokens anteriores será ignorado, e as respostas poderão se tornar menos precisas ou até mesmo contraditórias com as respostas anteriores. Isso é um problema para trabalhar com documentos mais longos ou para chatbots que mantêm conversas prolongadas.

O GPT-4 tem um comprimento máximo de contexto de 32k (32.000) tokens. O GPT-4 Turbo aumenta esse número para 128 mil tokens (cerca de 240 páginas com 400 palavras por página). Isso excede o contexto máximo de 100k do modelo Claude 2 da Anthropic e o alinha com o modelo YARN-MISTRAL-7b-128k da Nous Research.

Resta saber se a janela de contexto mais longa resulta em um desempenho satisfatório das respostas em toda a janela. Uma pesquisa recente da Universidade de Stanford mostrou que os modelos de contexto longo existentes só podiam fornecer respostas precisas ao recuperar informações próximas ao início ou ao final do documento.

Também vale a pena observar que 128k parece ser apenas um trampolim para o sonho do "contexto infinito". A pesquisa em estágio inicial da Microsoft e da Universidade de Xi'an Jiaotong tem como objetivo dimensionar os LLMs para um bilhão de tokens de contexto.

O GPT está à venda

A OpenAI reagiu ao aumento da concorrência no mercado de LLM e reduziu o preço do GPT-4 Turbo para que seja econômico para os desenvolvedores. Ao usar a API OpenAI, o preço dos tokens de entrada GPT-4 Turbo agora é um terço do preço anterior, de 3 centavos de dólar para 1 centavo de dólar por 1.000 tokens. Os tokens de saída agora estão pela metade do preço, de 6 centavos de dólar para 3 centavos de dólar por 1.000 tokens.

A mesma tendência continua com os modelos GPT-3.5 Turbo, oferecendo tokens de entrada 3 vezes mais baratos, a 0,1 centavos de dólar dos EUA por 1.000 tokens, e tokens de saída 2 vezes mais baratos, a 0,2 centavos de dólar dos EUA por 1.000 tokens.

Além disso, os tokens de entrada do modelo GPT-3.5 Turbo 4K com ajuste fino agora são 4 vezes mais acessíveis, com o preço caindo de 1,2 centavos de dólar para 0,3 centavos de dólar por 1.000 tokens, e os tokens de saída são 2,7 vezes mais baratos, caindo de 1,6 centavos de dólar para 0,6 centavos de dólar por 1.000 tokens. O preço do treinamento permanece o mesmo, 0,8 centavos de dólar americano por 1.000 tokens.

Esses ajustes de preço visam tornar os modelos avançados de IA mais econômicos para os desenvolvedores.

GPT torna-se multimodal: prompts de imagem e conversão de texto em fala

O "GPT-4 Turbo com visão" foi anunciado para breve. Em breve, você poderá solicitar ao GPT-4 Turbo o uso de imagens como prompts, inserindo-as diretamente na caixa de bate-papo. A ferramenta poderá então gerar legendas ou fornecer uma descrição do que a imagem representa. Ele também processará solicitações de conversão de texto em fala.

Atualizações de chamadas de funções

A chamada de função é um recurso para desenvolvedores que incorporam IA generativa em seus aplicativos. Ele permite que eles descrevam funções de seus aplicativos ou APIs externas para o GPT-4 Turbo. Com a capacidade de chamar várias funções em uma única mensagem, esse recurso simplifica a interação com o modelo. Por exemplo, os usuários podem enviar uma única mensagem solicitando várias ações, eliminando a necessidade de várias interações de ida e volta com o modelo.

Como acessar o GPT-4 Turbo

O acesso ao GPT-4 Turbo está disponível para "todos os desenvolvedores pagantes", ou seja, se você tiver acesso à API, poderá simplesmente passar "gpt-4-1106-preview" como o nome do modelo na API OpenAI. Da mesma forma, para o GPT-4 Turbo com visão, você pode passar "gpt-4-vision-preview" como o nome do modelo.

Observe que esses modelos de visualização ainda não são considerados adequados para uso em produção. No entanto, como parte do anúncio, Altman também prometeu que uma versão pronta para produção estará disponível nas próximas semanas.

Para os não desenvolvedores, o GPT-4 Turbo provavelmente estará disponível para os usuários do ChatGPT Plus e do ChatGPT Enterprise nas próximas semanas.

Limites de taxas

O acesso aos modelos GPt por meio da API OpenAI é limitado. Ou seja, você só pode fazer um número limitado de solicitações à API por mês. A OpenAI agora publicou diretrizes mais claras sobre como os limites de taxa funcionam, para que sua inscrição não seja cortada inesperadamente.

Além disso, os limites de taxa para GPT-4 dobraram

Como o GPT-4 Turbo está atualmente em fase de visualização, os limites de taxa do GPT-4 Turbo estão definidos em 20 solicitações por minuto e 100 solicitações por dia. A OpenAI indicou que não acomodará aumentos de limite de taxa para esse modelo no momento. No entanto, é provável que o façam quando uma versão pública estiver disponível.

Considerações finais

O anúncio do GPT-4 Turbo oferece um vislumbre empolgante do futuro da IA generativa, e mal podemos esperar para começar a usá-lo. Se estiver apenas começando com tudo relacionado a GPT, confira nosso curso Introdução ao ChatGPT. Para aqueles que procuram uma visão mais aprofundada, nosso tutorial sobre o uso do GPT-3.5 e do GPT-4 por meio da API OpenAI em Python tem muito a explorar.

Temas

Inteligência Artificial (IA)

padrão

Comece sua jornada com a OpenAI hoje mesmo!

Course

Working with the OpenAI API

3 hr

13.5K

Start your journey developing AI-powered applications with the OpenAI API. Learn about the functionality that underpins popular AI applications like ChatGPT.

See Details

Start Course

Course

Introduction to Embeddings with the OpenAI API

3 hr

2.6K

Unlock more advanced AI applications, like semantic search and recommendation engines, using OpenAI's embedding model!

See Details

Start Course

Course

ChatGPT Prompt Engineering for Developers

4 hr

6.5K

Dive deep into the principles and best practices of prompt engineering to leverage powerful language models like ChatGPT to solve real-world problems.

See Details

Start Course

Veja Mais

Relacionado

blog

25 exemplos práticos da transformação da IA nos setores

Desde a reformulação da saúde e do comércio eletrônico até a revolução da agricultura e das finanças, descubra exemplos reais de IA que impulsionam o crescimento, a eficiência e a inovação.

Nahla Davies

15 min

blog

O que é um algoritmo?

Aprenda algoritmos e sua importância no aprendizado de máquina. Entenda como os algoritmos resolvem problemas e executam tarefas com etapas bem definidas.

DataCamp Team

11 min

blog

O que são redes neurais?

As NNs são modelos computacionais inspirados no cérebro, usados no aprendizado de máquina para reconhecer padrões e tomar decisões.

Abid Ali Awan

7 min

tutorial

Um guia introdutório para aperfeiçoar os LLMs

O ajuste fino dos modelos de linguagem ampla (LLMs) revolucionou o processamento de linguagem natural (PLN), oferecendo recursos sem precedentes em tarefas como tradução de idiomas, análise de sentimentos e geração de texto. Essa abordagem transformadora aproveita modelos pré-treinados como o GPT-2, aprimorando seu desempenho em domínios específicos por meio do processo de ajuste fino.

Josep Ferrer

12 min

tutorial

Primeiros passos com o Claude 3 e a API do Claude 3

Saiba mais sobre os modelos Claude 3, benchmarks de desempenho detalhados e como acessá-los. Além disso, descubra a nova API Python do Claude 3 para geração de texto, acesso a recursos de visão e streaming.

Abid Ali Awan

tutorial

Como usar o Midjourney: Um guia abrangente para a criação de obras de arte geradas por IA

Descubra o poder do Midjourney, uma ferramenta de IA generativa para criar obras de arte impressionantes. Saiba como começar, escrever prompts eficazes e otimizar seu uso com nosso guia passo a passo.

Kurtis Pykes

12 min

See More See More

O que é o GPT-4 Turbo?

O que é o GPT-4 Turbo With Vision?

Principais recursos do GPT-4 Turbo

Limite de conhecimento aprimorado

Janela de contexto de 128K

O GPT está à venda

GPT torna-se multimodal: prompts de imagem e conversão de texto em fala

Atualizações de chamadas de funções

Como acessar o GPT-4 Turbo

Limites de taxas

Considerações finais

25 exemplos práticos da transformação da IA nos setores

O que é um algoritmo?

O que são redes neurais?

Um guia introdutório para aperfeiçoar os LLMs

Primeiros passos com o Claude 3 e a API do Claude 3

Como usar o Midjourney: Um guia abrangente para a criação de obras de arte geradas por IA

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Working with the OpenAI API

Introduction to Embeddings with the OpenAI API

ChatGPT Prompt Engineering for Developers

25 exemplos práticos da transformação da IA nos setores

O que é um algoritmo?

O que são redes neurais?

Um guia introdutório para aperfeiçoar os LLMs

Primeiros passos com o Claude 3 e a API do Claude 3

Como usar o Midjourney: Um guia abrangente para a criação de obras de arte geradas por IA

Working with the OpenAI API