Pular para o conteúdo principal
InicioTutoriaisInteligência Artificial (IA)

GPT-4o Ajuste fino da visão: Um guia com exemplos

Saiba como ajustar o GPT-4o com imagens seguindo este tutorial passo a passo, onde você descobrirá como melhorar a capacidade do GPT-4o de reconhecer igrejas georgianas.
Actualizado 9 de out. de 2024  · 8 min leer

Até recentemente, o ajuste fino GPT-4o só era possível com texto. Agora, com o OpenAIo mais recente ajuste fino da OpenAI, também podemos personalizar o GPT-4o com imagens. Isso significa que podemos adaptar os recursos do GPT-4o ao nosso caso de uso.

Essa atualização abre novas possibilidades - imagine o ajuste fino do GPT-4o para pesquisas visuais mais precisas, detecção de objetos ou até mesmo análise de imagens médicas.

Neste tutorial, fornecerei orientações passo a passo sobre o ajuste fino do GPT-4o com imagens. Especificamente, ajustaremos o modelo para identificar corretamente as igrejas ortodoxas da Geórgia.

GPT-4o Preço de ajuste fino visual

A OpenAI está oferecendo um milhão de tokens gratuitos por dia até 31 de outubro para ajustar o modelo GPT-4o com imagens, o que é uma boa oportunidade para explorar os recursos de ajuste fino visual do GPT-4o.

Após 31 de outubro, os custos de treinamento passarão para um modelo de pagamento conforme o uso, com uma taxa de US$ 25 por milhão de tokens. Além disso, os custos de inferência serão incorridos para cada entrada (US$ 3,75 por milhão de tokens) e saída (US$ 15 por milhão de tokens).

É importante observar que essas informações estão corretas desde 10 de outubro, portanto, não deixe de consultar a página de preços da OpenAI para obter os detalhes mais atualizados sobre preços e disponibilidade.

Desafio do problema visual do GPT-4o

Vamos pular para a parte interessante. Como fazemos o ajuste fino visual para o GPT-4o?

Vamos começar avaliando se o GPT-4o reconhece bem essa igreja da Geórgia:

Desafio do problema visual do GPT-4o: Reconhecer as igrejas da Geórgia

Quando perguntado, o modelo pensou que a imagem era da Igreja de São Nicolau, na Geórgia, quando, na verdade, é o templo da Santa Anunciação de Kutaisi.

Claramente, há espaço para melhorias, e é aí que entra o ajuste fino.

Preparar o arquivo JSONL

Primeiro, precisamos preparar nosso conjunto de dados de treinamento para começar a fazer o ajuste fino. De acordo com a documentação oficial, precisamos de um arquivo JSONL estruturado desta forma:

{
  "messages": [
    {
      "role": "system",
      "content": "You are an assistant that identifies Georgian orthodox churches."
    },
    {
      "role": "user",
      "content": "What is this church called?"
    },
    {
      "role": "user",
      "content": [
        {
          "type": "image_url",
          "image_url": {
            "url": "https://upload.wikimedia.org/wikipedia/commons/e/e8/Khareba_church.jpg"
          }
        }
      ]
    },
    {
      "role": "assistant",
      "content": "Kutaisi Holy Annunciation temple"
    }
  ]
}

//second example

{
  "messages": [
    {
      "role": "system",
      "content": "You are an assistant that identifies Georgian orthodox churches."
    },
    {
      "role": "user",
      "content": "What is this church called?"
    },
    {
      "role": "user",
      "content": [
        {
          "type": "image_url",
          "image_url": {
            "url": "https://upload.wikimedia.org/wikipedia/en/a/af/Holy_Trinity_Cathedral_of_Tbilisi.jpg"
          }
        }
      ]
    },
    {
      "role": "assistant",
      "content": "Holy trinity cathedral"
    }
  ]
}

//other examples below

Por uma questão de legibilidade e espaço, incluí apenas um trecho do meu JSONL de treinamento com duas entradas; os outros exemplos de treinamento devem ser adicionados em uma linha separada.

Observe que precisamos de pelo menos 10 exemplos para executar o ajuste fino. Cada linha representa um objeto JSON independente com uma matriz messages.

Observe também que o JSONL não oferece suporte a comentários, portanto, decidi adicionar comentários após o // para o bem do guia. Certifique-se de removê-los antes do treinamento.

Você pode usar um editor de texto comum, como o Bloco de Notas, ou, se estiver trabalhando com muitos exemplos, é uma boa ideia automatizar a criação desse arquivo usando um script. Quando o arquivo JSONL estiver pronto, você poderá iniciar o processo de ajuste fino.

Desenvolver aplicativos de IA

Aprenda a criar aplicativos de IA usando a API OpenAI.
Comece a Treinar Gratuitamente

Ajuste fino do GPT-4o com imagens

Agora, com o JSONL pronto, precisamos fazer login em nosso painel do OpenAI e escolher a seção Criar que você pode criar:

Painel de ajuste fino da OpenAI para GPT-4o

No menu que aparece:

  1. Escolha o modelo gpt-4o-2024-08-06.
  2. Carregue o arquivo JSONL de treinamento.
  3. Você também pode definir os hiperparâmetros ou deixar tudo ativado automático.

Assim que criarmos o trabalho, o ajuste fino deverá começar automaticamente:

Menu de criação de trabalhos de ajuste fino do OpenAI GPT-4o

Minha rotina de ajuste fino levou aproximadamente 20 minutos (o número de épocas foi automaticamente definido como 9). Dependendo do tamanho do conjunto de dados e da complexidade do modelo, isso pode variar, mas você será notificado assim que for concluído.

Teste do modelo GPT-4o com ajuste fino

Quando terminar, você poderá acessar o agente ajustado por meio da API ou do Playground.

Para simplificar, usarei o Playground para testes. Vamos ver se o modelo consegue identificar corretamente a igreja dessa vez:

OpenAI Playground comparando os modelos GPT-4o com ajuste fino e GPT-4 normal

Como você pode ver, o agente com ajuste fino (à direita) identificou a igreja corretamente, embora essa imagem não estivesse no conjunto de dados de treinamento. O modelo normal (à esquerda) ainda está errado!

Conclusão

Neste tutorial, exploramos o processo de ajuste fino do GPT-4o com imagens.

Começamos destacando as limitações iniciais do modelo na identificação de um tipo específico de igreja. Para resolver esse problema, preparamos um arquivo JSONL contendo pares imagem-texto para treinamento. Em seguida, utilizamos a API de ajuste fino da OpenAI para criar um modelo personalizado.

Por fim, testamos o modelo ajustado e observamos sua maior precisão na identificação da igreja.

Embora este exemplo tenha se concentrado em um caso de uso específico, os princípios e técnicas subjacentes podem ser aplicados a uma ampla gama de tarefas relacionadas a imagens, demonstrando o potencial dos recursos de ajuste fino visual do GPT-4o. Recomendo que você leia os casos de uso no artigo de anúncio da OpenAI artigo de anúncio da OpenAI.

Para saber mais sobre como trabalhar com os produtos da OpenAI, recomendo estes recursos:


Photo of Dimitri Didmanidze
Author
Dimitri Didmanidze
LinkedIn
Eu sou Dimitri Didmanidze, um cientista de dados que atualmente está fazendo mestrado em matemática com foco em machine learning. Minha jornada acadêmica também incluiu pesquisas sobre os recursos de modelos baseados em transformadores e ensino em nível universitário, enriquecendo minha compreensão de conceitos teóricos complexos. Também trabalhei no setor bancário, onde apliquei esses princípios para enfrentar desafios de dados do mundo real.
Temas

Aprenda IA com estes cursos!

Track

Desenvolvimento de aplicativos de IA

23 horas hr
Aprenda a criar aplicativos com tecnologia de IA com as mais recentes ferramentas de desenvolvimento de IA, incluindo a API OpenAI, Hugging Face e LangChain.
See DetailsRight Arrow
Start Course
Certificação disponível

Course

Desenvolvimento de sistemas de IA com a API OpenAI

3 hr
3.3K
Aproveite a API OpenAI para deixar seus aplicativos de IA prontos para produção.
Ver maisRight Arrow
Relacionado
An avian AI exits its cage

blog

12 Alternativas de código aberto ao GPT-4

GPT-4 alternativas de código aberto que podem oferecer desempenho semelhante e exigem menos recursos computacionais para serem executadas. Esses projetos vêm com instruções, fontes de código, pesos de modelos, conjuntos de dados e interface de usuário do chatbot.
Abid Ali Awan's photo

Abid Ali Awan

9 min

blog

A OpenAI anuncia o GPT-4 Turbo com visão: O que sabemos até o momento

Descubra a atualização mais recente da OpenAI, GPT-4 Turbo com visão, e seus principais recursos, incluindo o corte de conhecimento aprimorado, uma janela de contexto expandida, preço acessível e muito mais.
Richie Cotton's photo

Richie Cotton

7 min

blog

Tudo o que sabemos sobre o GPT-5

Prever como será a próxima evolução da tecnologia de IA da OpenAI e quais avanços o modelo GPT-5 poderá ter.
Josep Ferrer's photo

Josep Ferrer

10 min

blog

Os 10 melhores GPTs personalizados na GPT Store

Explore os melhores GPTs personalizados que vimos até agora na loja GPT, desde ferramentas de ciência de dados até assistentes de SEO e geração de imagens.
Nisha Arya Ahmed's photo

Nisha Arya Ahmed

10 min

tutorial

Visão GPT-4: Um guia abrangente para iniciantes

Este tutorial apresentará tudo o que você precisa saber sobre o GPT-4 Vision, desde o acesso a ele, passando por exemplos práticos do mundo real, até suas limitações.
Arunn Thevapalan's photo

Arunn Thevapalan

12 min

tutorial

Como fazer o ajuste fino do GPT 3.5: Liberando todo o potencial da IA

Explore o GPT-3.5 Turbo e descubra o potencial transformador do ajuste fino. Saiba como personalizar esse modelo de linguagem avançado para aplicativos de nicho, aprimorar seu desempenho e entender os custos associados, a segurança e as considerações de privacidade.
Moez Ali's photo

Moez Ali

11 min

See MoreSee More