Pular para o conteúdo principal

A OpenAI anuncia o GPT-4 Turbo com visão: O que sabemos até o momento

Descubra a atualização mais recente da OpenAI, GPT-4 Turbo com visão, e seus principais recursos, incluindo o corte de conhecimento aprimorado, uma janela de contexto expandida, preço acessível e muito mais.
23 de abr. de 2024  · 7 min de leitura

No recente OpenAI DevDay, a organização fez um anúncio muito aguardado: a introdução do GPT-4 Turbo, um aprimoramento de seu modelo inovador de IA. Aqui, vamos dar uma olhada abrangente no que é o GPT-4 Turbo, seus principais recursos e como ele pode beneficiar desenvolvedores e usuários.

Em artigos separados, você pode ler mais sobre GPTs e a ChatGPT Store e a API Assistants, que também foram anunciadas no Dev Day.

O que é o GPT-4 Turbo?

O GPT-4 Turbo é uma atualização do modelo de linguagem grande GPT-4 existente. Ele traz vários aprimoramentos, incluindo uma janela de contexto bastante ampliada e acesso a conhecimentos mais atualizados. A OpenAI vem aprimorando gradualmente os recursos do GPT-4 no ChatGPT com a adição de instruções personalizadas, plug-ins do ChatGPT, DALL-E 3 e análise avançada de dados. Essa última atualização traz uma série de novos recursos interessantes.

O que é o GPT-4 Turbo With Vision?

O GPT-4 Turbo com visão é uma variante do GPT-4 Turbo que inclui um recurso de reconhecimento óptico de caracteres (OCR). Ou seja, você pode fornecer a ele uma imagem e ele pode retornar qualquer texto contido na imagem. Por exemplo, você pode inserir uma foto de um cardápio, e ele retornará as opções de alimentos escritas nessa foto. Da mesma forma, você pode fornecer uma foto de uma fatura e extrair automaticamente o nome do fornecedor e os detalhes do item.

Os recursos "com visão" estarão disponíveis no ChatGPT por padrão e estarão disponíveis para os desenvolvedores ao selecionar um modelo "gpt-4-vision" na API da OpenAI.

Principais recursos do GPT-4 Turbo

O GPT-4 Turbo tem várias melhorias em relação aos modelos anteriores, aprimorando seus recursos. Aqui estão alguns dos principais recursos que o fazem se destacar:

Limite de conhecimento aprimorado

Sam Altman promete garantir que o ChatGPT permaneça atualizado

Sam Altman promete garantir que o ChatGPT permaneça atualizado

As versões existentes do GPT-3.5 e GPT-4 tinham um limite de conhecimento de setembro de 2021. Isso significa que eles não podem responder a perguntas sobre eventos do mundo real que ocorreram após esse período, a menos que tenham acesso a fontes de dados externas.

O GPT-4 estende o limite de conhecimento em dezenove meses, até abril de 2023. Isso significa que o GPT-4 Turbo tem acesso a informações e eventos até essa data, o que o torna uma fonte de informações mais informada e confiável. Além disso, o CEO da OpenAI, Sam Altman, prometeu que "[a OpenAI] tentará nunca mais permitir que o [GPT] fique tão desatualizado".

Janela de contexto de 128K

A janela de contexto de um modelo de linguagem ampla (LLM) é uma medida da duração da memória da conversa. Se um modelo tiver uma janela de contexto de 4.000 tokens (cerca de 3.000 palavras), tudo o que estiver no bate-papo além dos 4.000 tokens anteriores será ignorado, e as respostas poderão se tornar menos precisas ou até mesmo contraditórias com as respostas anteriores. Isso é um problema para trabalhar com documentos mais longos ou para chatbots que mantêm conversas prolongadas.

O GPT-4 tem um comprimento máximo de contexto de 32k (32.000) tokens. O GPT-4 Turbo aumenta esse número para 128 mil tokens (cerca de 240 páginas com 400 palavras por página). Isso excede o contexto máximo de 100k do modelo Claude 2 da Anthropic e o alinha com o modelo YARN-MISTRAL-7b-128k da Nous Research.

Resta saber se a janela de contexto mais longa resulta em um desempenho satisfatório das respostas em toda a janela. Uma pesquisa recente da Universidade de Stanford mostrou que os modelos de contexto longo existentes só podiam fornecer respostas precisas ao recuperar informações próximas ao início ou ao final do documento.

Também vale a pena observar que 128k parece ser apenas um trampolim para o sonho do "contexto infinito". A pesquisa em estágio inicial da Microsoft e da Universidade de Xi'an Jiaotong tem como objetivo dimensionar os LLMs para um bilhão de tokens de contexto.

O GPT está à venda

A OpenAI reagiu ao aumento da concorrência no mercado de LLM e reduziu o preço do GPT-4 Turbo para que seja econômico para os desenvolvedores. Ao usar a API OpenAI, o preço dos tokens de entrada GPT-4 Turbo agora é um terço do preço anterior, de 3 centavos de dólar para 1 centavo de dólar por 1.000 tokens. Os tokens de saída agora estão pela metade do preço, de 6 centavos de dólar para 3 centavos de dólar por 1.000 tokens.

A mesma tendência continua com os modelos GPT-3.5 Turbo, oferecendo tokens de entrada 3 vezes mais baratos, a 0,1 centavos de dólar dos EUA por 1.000 tokens, e tokens de saída 2 vezes mais baratos, a 0,2 centavos de dólar dos EUA por 1.000 tokens.

Além disso, os tokens de entrada do modelo GPT-3.5 Turbo 4K com ajuste fino agora são 4 vezes mais acessíveis, com o preço caindo de 1,2 centavos de dólar para 0,3 centavos de dólar por 1.000 tokens, e os tokens de saída são 2,7 vezes mais baratos, caindo de 1,6 centavos de dólar para 0,6 centavos de dólar por 1.000 tokens. O preço do treinamento permanece o mesmo, 0,8 centavos de dólar americano por 1.000 tokens.

Esses ajustes de preço visam tornar os modelos avançados de IA mais econômicos para os desenvolvedores.

GPT torna-se multimodal: prompts de imagem e conversão de texto em fala

O "GPT-4 Turbo com visão" foi anunciado para breve. Em breve, você poderá solicitar ao GPT-4 Turbo o uso de imagens como prompts, inserindo-as diretamente na caixa de bate-papo. A ferramenta poderá então gerar legendas ou fornecer uma descrição do que a imagem representa. Ele também processará solicitações de conversão de texto em fala.

Atualizações de chamadas de funções

A chamada de função é um recurso para desenvolvedores que incorporam IA generativa em seus aplicativos. Ele permite que eles descrevam funções de seus aplicativos ou APIs externas para o GPT-4 Turbo. Com a capacidade de chamar várias funções em uma única mensagem, esse recurso simplifica a interação com o modelo. Por exemplo, os usuários podem enviar uma única mensagem solicitando várias ações, eliminando a necessidade de várias interações de ida e volta com o modelo.

Como acessar o GPT-4 Turbo

O acesso ao GPT-4 Turbo está disponível para "todos os desenvolvedores pagantes", ou seja, se você tiver acesso à API, poderá simplesmente passar "gpt-4-1106-preview" como o nome do modelo na API OpenAI. Da mesma forma, para o GPT-4 Turbo com visão, você pode passar "gpt-4-vision-preview" como o nome do modelo.

Observe que esses modelos de visualização ainda não são considerados adequados para uso em produção. No entanto, como parte do anúncio, Altman também prometeu que uma versão pronta para produção estará disponível nas próximas semanas.

Para os não desenvolvedores, o GPT-4 Turbo provavelmente estará disponível para os usuários do ChatGPT Plus e do ChatGPT Enterprise nas próximas semanas.

Limites de taxas

O acesso aos modelos GPt por meio da API OpenAI é limitado. Ou seja, você só pode fazer um número limitado de solicitações à API por mês. A OpenAI agora publicou diretrizes mais claras sobre como os limites de taxa funcionam, para que sua inscrição não seja cortada inesperadamente.

Além disso, os limites de taxa para GPT-4 dobraram

Como o GPT-4 Turbo está atualmente em fase de visualização, os limites de taxa do GPT-4 Turbo estão definidos em 20 solicitações por minuto e 100 solicitações por dia. A OpenAI indicou que não acomodará aumentos de limite de taxa para esse modelo no momento. No entanto, é provável que o façam quando uma versão pública estiver disponível.

Considerações finais

O anúncio do GPT-4 Turbo oferece um vislumbre empolgante do futuro da IA generativa, e mal podemos esperar para começar a usá-lo. Se estiver apenas começando com tudo relacionado a GPT, confira nosso curso Introdução ao ChatGPT. Para aqueles que procuram uma visão mais aprofundada, nosso tutorial sobre o uso do GPT-3.5 e do GPT-4 por meio da API OpenAI em Python tem muito a explorar.

Temas

Comece sua jornada com a OpenAI hoje mesmo!

curso

Working with the OpenAI API

3 hr
20.4K
Start your journey developing AI-powered applications with the OpenAI API. Learn about the functionality that underpins popular AI applications like ChatGPT.
Ver DetalhesRight Arrow
Iniciar Curso
Ver maisRight Arrow
Relacionado

blog

Tudo o que sabemos sobre o GPT-5

Prever como será a próxima evolução da tecnologia de IA da OpenAI e quais avanços o modelo GPT-5 poderá ter.
Josep Ferrer's photo

Josep Ferrer

10 min

An avian AI exits its cage

blog

12 Alternativas de código aberto ao GPT-4

GPT-4 alternativas de código aberto que podem oferecer desempenho semelhante e exigem menos recursos computacionais para serem executadas. Esses projetos vêm com instruções, fontes de código, pesos de modelos, conjuntos de dados e interface de usuário do chatbot.
Abid Ali Awan's photo

Abid Ali Awan

9 min

blog

Os 10 melhores GPTs personalizados na GPT Store

Explore os melhores GPTs personalizados que vimos até agora na loja GPT, desde ferramentas de ciência de dados até assistentes de SEO e geração de imagens.
Nisha Arya Ahmed's photo

Nisha Arya Ahmed

10 min

blog

O que é o Sora da Open AI? Como funciona, casos de uso, alternativas e muito mais

Descubra o Sora da OpenAI: uma IA inovadora de texto para vídeo que revolucionará a IA multimodal em 2024. Explore seus recursos, inovações e impacto potencial.
Richie Cotton's photo

Richie Cotton

tutorial

Visão GPT-4: Um guia abrangente para iniciantes

Este tutorial apresentará tudo o que você precisa saber sobre o GPT-4 Vision, desde o acesso a ele, passando por exemplos práticos do mundo real, até suas limitações.
Arunn Thevapalan's photo

Arunn Thevapalan

12 min

tutorial

Como fazer o ajuste fino do GPT 3.5: Liberando todo o potencial da IA

Explore o GPT-3.5 Turbo e descubra o potencial transformador do ajuste fino. Saiba como personalizar esse modelo de linguagem avançado para aplicativos de nicho, aprimorar seu desempenho e entender os custos associados, a segurança e as considerações de privacidade.
Moez Ali's photo

Moez Ali

11 min

See MoreSee More