Pular para o conteúdo principal

Aprendizado Zero-Shot: Um guia com exemplos

Saiba o que é o aprendizado zero-shot, como ele funciona, suas aplicações e seus desafios na inteligência artificial.
Actualizado 20 de mar. de 2025  · 8 min de leitura

E se um modelo de IA pudesse funcionar com sucesso sem precisar de milhares de exemplos rotulados? 

A aprendizagem zero-shot (ZSL) é uma técnica que permite que os modelos façam isso, de modo que possam identificar e classificar novos conceitos sem nenhum exemplo rotulado durante o treinamento e lidar com tarefas para as quais não foram especificamente treinados.

Isso é ótimo porque permite que os sistemas de IA assumam novas tarefas, produtos ou mercados sem a necessidade constante de retreinamento. Ele reduz os custos de coleta e anotação de dados e melhora a capacidade de um modelo de aplicar o que aprendeu a situações nunca vistas antes.

Neste artigo, explicarei como a ZSL funciona, os desafios que ela enfrenta, seus principais aplicativos e alguns exemplos. Vamos nos aprofundar no assunto!

Torne-se um cientista de ML

Aperfeiçoe suas habilidades em Python para se tornar um cientista de aprendizado de máquina.
Comece a aprender de graça

O que é o aprendizado Zero-Shot?

O ZSL (Zero-shot learning) é uma técnica de machine learning que permite que os modelos lidem com tarefas ou reconheçam coisas que nunca encontraram antes. Ele faz isso usando o que já sabe e conectando-o a novas situações, mesmo sem treinamento específico para elas.

Suponha que um modelo seja treinado para reconhecer animais, mas nunca tenha aprendido sobre zebras em sua fase de treinamento. Com a ZSL, o modelo ainda poderia descobrir o que é uma zebra usando uma descrição. Mas como? Permita-me simplificar um pouco as coisas (entraremos em detalhes mais técnicos daqui a pouco) e deixe-me explicar:

  • O modelo conhece os animais e suas características, como "tem quatro patas", "vive na savana" ou "tem listras".
  • Você recebeu uma nova descrição: "Um animal semelhante a um cavalo com listras pretas e brancas que vive nas pastagens africanas."
  • Usando sua compreensão dos atributos dos animais e a descrição fornecida, o modelo pode deduzir que a imagem provavelmente representa uma zebra, mesmo que nunca tenha visto uma antes.
  • O modelo faz essa inferência conectando os pontos entre as características conhecidas do animal e a nova descrição.

Como funciona o Zero-Shot Learning?

O aprendizado zero-shot é um processo de dois estágios (treinamento e inferência) e usa três componentes principais: modelos pré-treinados, informações adicionais e transferência de conhecimento.

Modelos pré-treinados

A ZSL se baseia em modelos pré-treinados que foram treinados com muitos dados. Por exemplo, a família de GPTs (para idiomas) ou CLIP (para conexões imagem-texto). Esses modelos fornecem uma base sólida de conhecimento geral.

Informações adicionais

Informações adicionais ajudam o modelo a entender coisas novas. Isso pode incluir:

  • Descrições de texto.
  • Atributos ou recursos.
  • Associações de palavras ou vetores.

Transferência de conhecimento

A ZSL mapeia classes conhecidas e novas em um "espaço semântico" compartilhado, onde elas podem ser comparadas. Geralmente, ele usa técnicas como:

  • Semântica embeddings: Uma maneira compartilhada de representar categorias conhecidas e desconhecidas.
  • Aprendizagem por transferência: Reutilizar o conhecimento de tarefas semelhantes para lidar com novas tarefas.
  • Modelos generativos: Criar exemplos falsos de classes não vistas para ajudar o modelo a aprender.

Treinamento e inferência

A ZSL pode ser conceituada como um processo de dois estágios:

  1. Treinamento: O modelo adquire conhecimento sobre amostras de dados rotulados e seus atributos.
  2. Inferência: O conhecimento adquirido é estendido a novas classes usando as informações auxiliares fornecidas. Isso acontece em três etapas:
    • O modelo converte uma nova entrada (como uma imagem) em uma representação semântica.
    • Ele compara essa representação com as de classes ou descrições conhecidas.
    • Ele seleciona a correspondência mais próxima com base na similaridade.

Essa abordagem permite que os modelos ZSL reconheçam dinamicamente um conjunto aberto de novos conceitos ao longo do tempo, usando apenas descrições ou informações semânticas, sem a necessidade de dados de treinamento rotulados adicionais.

Vamos voltar ao nosso exemplo de classificação de animais.

Exemplo: Classificação de animais

Imagine que estamos usando o modelo CLIP, que é pré-treinado em um enorme conjunto de dados de pares imagem-texto. Esse modelo pré-treinado fornece uma base de conhecimento geral sobre animais, mesmo que não tenha sido treinado explicitamente em zebras.

Em nosso exemplo da zebra, os dados auxiliares (informações extras) incluem descrições de texto como: "Um animal parecido com um cavalo com listras pretas e brancas que vive nas pastagens africanas." e atributos como "tem quatro patas", "tem listras", "vive na savana". Essas descrições e atributos conectam o que o modelo conhece (características gerais dos animais) e a classe não vista (zebra).

Em seguida, o modelo mapeia as duas classes vistas (por exemplo, cavalo, tigre) e a classe não vista (zebra) em um espaço semântico compartilhado. O modelo codifica a descrição da zebra ("listras pretas e brancas, semelhante a um cavalo") no mesmo espaço que os animais conhecidos e usa sua compreensão de animais como cavalos e tigres para raciocinar sobre as zebras.

O modelo compara o embedding da zebra com embeddings de animais e descrições conhecidos (por exemplo, cavalo, tigre, "listras pretas e brancas"). Usando pontuações de similaridade, o modelo identifica a zebra que mais se aproxima da descrição: "Um animal semelhante a um cavalo com listras pretas e brancas que vive nas pastagens africanas."

Exemplo de aprendizado de disparo zero

Aprendizado Zero-Shot vs. Aprendizagem com poucos disparos

Aprendizagem com zero disparos (ZSL) e aprendizado de poucos disparos (FSL) são dois métodos que ajudam os modelos a lidar com novas tarefas ou objetos, mesmo quando há poucos ou nenhum dado disponível. No entanto, eles têm algumas diferenças. Vamos dar uma olhada em uma visão geral de ambas as técnicas e suas principais diferenças:

Aspecto

Aprendizado Zero-Shot (ZSL)

Aprendizagem com poucos tiros (FSL)

O que ele faz

Lida com novas tarefas sem dados de treinamento rotulados.

Aprende novas tarefas com alguns exemplos rotulados.

Como funciona

Infere novas categorias mapeando as descrições para o conhecimento conhecido.

Aprende padrões a partir de alguns exemplos para classificar novas instâncias.

Dados necessários

Requer zero exemplos rotulados para novas tarefas.

Requer de 1 a 5 exemplos rotulados para novas tarefas.

Conhecimento prévio

Baseia-se em relações aprendidas entre conceitos e descrições.

Usa o conhecimento prévio, mas também o atualiza com base nos exemplos fornecidos.

Adaptabilidade

Pode generalizar para tarefas completamente novas, mas pode ser menos preciso.

Adapta-se rapidamente a novas tarefas específicas e geralmente é mais preciso.

Exemplo 1

Detecção de spam: Identifica spam usando definições (por exemplo, "e-mails com links suspeitos") sem dados de spam previamente rotulados.

Detecção de intenção de suporte ao cliente: Aprende a detectar uma nova intenção (por exemplo, "cancelar assinatura") depois de ver algumas conversas rotuladas.

Exemplo 2

Classificação de texto na análise de sentimentos: Determina o sentimento (por exemplo, "satisfeito", "irritado") usando apenas definições.

Identificação do tipo de documento: Aprende a classificar novos tipos de documentos (por exemplo, "pedidos de compra") depois de ver alguns exemplos.

Qual deles você deve escolher?

A ZSL é melhor quando você não tem nenhum dado rotulado para trabalhar. É útil para situações em que aparecem novas categorias ou tarefas para as quais o modelo não foi treinado e não há tempo ou recursos para coletar exemplos rotulados.

Por exemplo, uma loja on-line pode adicionar novas categorias de produtos, e o modelo pode organizar esses itens com base em descrições sem precisar de exemplos rotulados.

A ZSL é perfeita quando você precisa de flexibilidade e a coleta de dados rotulados é muito cara, lenta ou impossível.

Por outro lado, o FSL funciona bem quando você pode fornecer um pequeno número de exemplos rotulados (geralmente de 1 a 5) e precisa que o modelo aprenda rapidamente com melhor precisão.

Por exemplo, se um chatbot receber um novo tipo de pergunta, como "Como faço para cancelar minha assinatura?", mostrar a ele apenas alguns exemplos desse tipo de consulta pode ajudá-lo a classificar perguntas semelhantes com precisão.

A FSL é excelente para situações em que você pode se dar ao luxo de fornecer alguns exemplos rotulados e precisa que o modelo tenha um bom desempenho, especialmente em tarefas em que a precisão é importante, como suporte ao cliente ou imagens médicas.

Aplicações do Zero-Shot Learning

Há muitas áreas em que a ZSL é útil. Vamos dar uma olhada em apenas alguns deles.

Processamento de texto e linguagem

A ZSL é amplamente usada na classificação de texto, permitindo que os modelos categorizem o texto em novos rótulos sem treinamento prévio.

Por exemplo, ele pode classificar e-mails como spam ou não spam com base em descrições dessas categorias, sem precisar de exemplos rotulados. Esse recurso também beneficia os chatbots, ajudando-os a entender as solicitações dos usuários sem precisar treinar todas as consultas possíveis.

Em análise de sentimentosa ZSL permite que os modelos determinem se uma avaliação é positiva ou negativa apenas interpretando os significados dos rótulos. Ele também desempenha um papel na moderação de mídia social, identificando conteúdo prejudicial ou enganoso com base em descrições de texto, como a detecção de desinformação rotulada como "disseminação de falsas alegações médicas", mesmo que o modelo nunca tenha encontrado esses casos antes.

Reconhecimento visual e de imagem

Na classificação de imagens, a ZSL permite que os modelos reconheçam objetos que nunca viram, vinculando imagens a descrições de texto. Ferramentas como o CLIP podem identificar objetos desconhecidos, como um "panda vermelho", e alinhar as imagens ao texto, tornando os mecanismos de pesquisa visual mais eficientes na recuperação de imagens com base nas descrições dos usuários.

A ZSL também é valiosa no monitoramento ambiental, onde detecta alterações em imagens de satélite sem dados de treinamento rotulados. Por exemplo, ele pode identificar a extração ilegal de madeira ao reconhecer áreas descritas como "perda significativa de dossel em regiões florestais", mesmo que o modelo nunca tenha sido explicitamente treinado em padrões de desmatamento.

Varejo e recomendações

No varejo, a ZSL ajuda a classificar novos produtos em categorias de estoque usando apenas descrições textuais. Um modelo pode atribuir automaticamente novos itens a rótulos como "materiais ecologicamente corretos", mesmo que essa categoria não tenha sido incluída durante o treinamento.

Ele também resolve o problema do cold-start em sistemas de recomendação, sugerindo produtos ou conteúdo sem dados prévios do usuário. Algoritmos como o ZESRec podem recomendar itens de um conjunto de dados completamente novo sem nenhuma sobreposição com dados vistos anteriormente.

Desafios do aprendizado zero

Embora a ZSL seja flexível e possa ser generalizada para novas tarefas, ela enfrenta vários desafios.

desafios do aprendizado zero shot

Representação do conhecimento

Os modelos da ZSL têm dificuldade para representar diferenças detalhadas ou sutis entre as coisas. Por exemplo, um modelo pode confundir um leopardo e um guepardo porque ambos são descritos como "grandes felinos malhados", e as descrições não captam as diferenças mais sutis.

Lacunas de domínio

Os modelos ZSL podem falhar quando a nova tarefa ou os dados são muito diferentes daqueles em que foram treinados. Por exemplo, um modelo treinado para reconhecer objetos domésticos pode não conseguir identificar ferramentas médicas porque elas são muito diferentes.

Desempenho

A ZSL costuma ser menos precisa do que a aprendizado supervisionado (em que o modelo é treinado com dados rotulados) para tarefas específicas. Uma solução para esse desafio é combinar a ZSL com algum ajuste fino em dados específicos para melhorar a precisão e, ao mesmo tempo, manter a flexibilidade.

Preconceito

A ZSL depende de dados pré-treinados, que podem conter vieses. Isso muitas vezes pode levar a previsões injustas. Geração de imagens de um modelo de contratação usando a ZSL. Ele pode favorecer determinados dados demográficos se os dados pré-treinados tiverem preconceitos raciais ou de gênero. Uma estratégia de atenuação é detectar e reduzir os vieses nos dados com antecedência ou usar métodos como o adversarial debiasing para tornar o modelo mais justo.

Interpretabilidade

Pode ser difícil entender como um modelo ZSL toma decisões, especialmente quando ele usa raciocínio complexo. Ao diagnosticar uma doença rara, pode não ficar claro por que o modelo escolheu esse diagnóstico sem exemplos de dados de treinamento, por exemplo. 

Escalabilidade

À medida que o número de novas tarefas ou categorias aumenta, os modelos ZSL podem se tornar lentos e ineficientes. Um sistema de recomendação baseado em ZSL pode ter dificuldades para lidar com milhões de novos produtos em diferentes categorias. O uso de métodos melhores para organizar e recuperar dados, como indexação eficiente ou agrupamento de tarefas semelhantes, pode resolver esse problema em alguns casos.

Conclusão

O aprendizado zero-shot evita a necessidade de conjuntos de dados grandes e rotulados, economiza tempo e dinheiro e funciona bem em muitas áreas, como classificação de texto, reconhecimento de imagens, diagnóstico de problemas de saúde e recomendações personalizadas.

Embora a ZSL não seja perfeita - às vezes ela tem dificuldades com ideias complexas ou precisão -, ela é excelente para cenários em que a flexibilidade é fundamental e os dados são muito caros ou escassos.


Dr Ana Rojo-Echeburúa's photo
Author
Dr Ana Rojo-Echeburúa
LinkedIn
Twitter

Ana Rojo Echeburúa é especialista em IA e dados, com doutorado em Matemática Aplicada. Ela adora transformar dados em insights acionáveis e tem ampla experiência na liderança de equipes técnicas. Ana gosta de trabalhar em estreita colaboração com os clientes para resolver seus problemas de negócios e criar soluções inovadoras de IA. Conhecida por suas habilidades de resolução de problemas e comunicação clara, ela é apaixonada por IA, especialmente IA generativa. Ana se dedica ao aprendizado contínuo e ao desenvolvimento ético de IA, além de simplificar problemas complexos e explicar a tecnologia de forma acessível.

Temas

Aprenda IA com estes cursos!

Programa

Fundamentos de IA

10 horas hr
Descubra os fundamentos da IA, mergulhe em modelos como o ChatGPT e decodifique os segredos da IA generativa para que você possa navegar no dinâmico cenário da IA.
Ver DetalhesRight Arrow
Iniciar curso
Ver maisRight Arrow
Relacionado

blog

Como aprender IA do zero em 2024: Um guia completo dos especialistas

Descubra tudo o que você precisa saber sobre o aprendizado de IA em 2024, desde dicas para começar, recursos úteis e insights de especialistas do setor.
Adel Nehme's photo

Adel Nehme

15 min

blog

Como aprender PNL do zero em 2024: Um guia especializado

Neste guia, você descobrirá como aprender Processamento de Linguagem Natural (NLP) do zero. Com um plano de aprendizado claro, semana a semana, você explorará conceitos essenciais de PNL, aplicações práticas e projetos práticos para desenvolver suas habilidades.
Laiba Siddiqui's photo

Laiba Siddiqui

13 min

Machine Learning

blog

25 projetos de aprendizado de máquina para todos os níveis

Projetos de aprendizado de máquina para iniciantes, estudantes do último ano e profissionais. A lista consiste em projetos guiados, tutoriais e exemplos de código-fonte.
Abid Ali Awan's photo

Abid Ali Awan

15 min

blog

8 modelos de aprendizado de máquina explicados em 20 minutos

Descubra tudo o que você precisa saber sobre os tipos de modelos de aprendizado de máquina, inclusive para que eles são usados e exemplos de como implementá-los.
Natassha Selvaraj's photo

Natassha Selvaraj

15 min

A tiny computer used for ML

blog

O que é o TinyML? Uma introdução ao aprendizado de máquina minúsculo

Saiba mais sobre o TinyML, seus aplicativos e benefícios, e como você pode começar a trabalhar com esse campo emergente de aprendizado de máquina.
Kurtis Pykes 's photo

Kurtis Pykes

8 min

Tutorial

Uma introdução ao Q-Learning: Um tutorial para iniciantes

Saiba mais sobre o algoritmo mais popular de aprendizado por reforço sem modelo com um tutorial em Python.
Abid Ali Awan's photo

Abid Ali Awan

11 min

Ver maisVer mais