O que são modelos de fundação?

Descubra a principal tecnologia que está impulsionando o boom da IA generativa

23 de abr. de 2024 · 9 min lido

BERT, GPT-3, DALL-E 2, LLaMA, BLOOM; esses modelos são algumas das estrelas da revolução da IA que estamos testemunhando desde o lançamento do ChatGPT. O que esses modelos têm em comum? Você adivinhou: todos eles são modelos de fundação.

Os modelos de fundação são um desenvolvimento recente em IA. Esses modelos são desenvolvidos a partir de algoritmos projetados para otimizar a generalidade e a versatilidade dos resultados. Eles se baseiam em redes neurais de grande escala que, muitas vezes, são treinadas em uma ampla gama de fontes de dados e em grandes quantidades de dados para realizar uma ampla gama de tarefas downstream, incluindo algumas para as quais não foram especificamente desenvolvidas e treinadas.

A popularização dos modelos de fundação está agitando o debate clássico entre IA estreita e Inteligência Geral Artificial (AGI), também conhecida como IA forte. A IA estreita refere-se a sistemas de IA projetados para tarefas específicas, mas que não são capazes de realizar tarefas fora do escopo planejado. Por outro lado, a AGI é um sistema de IA hipotético que pode entender, aprender e aplicar o conhecimento em uma ampla gama de tarefas, de forma muito semelhante a um ser humano.

Embora os modelos de fundação ainda sejam incapazes de pensar como os humanos, eles estão apresentando resultados inovadores que nos aproximam do limiar da AGI. É por isso que os profissionais e não especialistas em dados devem estar familiarizados com esses modelos.

Para os novatos no assunto, nosso AI Essentials Skill Track o ajudará a ter uma visão geral profunda dos modelos de IA de última geração. Para aqueles que já possuem habilidades, nosso artigo sobre projetos de IA generativa oferece a chance de colocar seu conhecimento à prova.

Vamos dar uma olhada mais de perto nos modelos de fundação!

O que são modelos de fundação? Entendendo os principais conceitos

Modelo de fundação é um termo relativamente recente que pode se sobrepor a outros conceitos populares, como IA generativa, transformador e modelos de linguagem grandes (LLMs).

No entanto, a terminologia da IA ainda é contestada. Aqui está uma lista de definições que o ajudarão a navegar no campo em rápida evolução da IA:

IA generativa. É um termo amplo usado para descrever sistemas de IA cuja função principal é gerar conteúdo, em contraste com outros sistemas de IA projetados para outras tarefas, como classificação e previsão.
Transformador. Os transformadores revolucionaram o campo da aprendizagem profunda. Eles oferecem uma arquitetura inovadora para lidar com dados sequenciais de forma mais eficiente. Os transformadores são particularmente adequados para o processamento de texto, e é por isso que se tornaram uma pedra angular no campo do processamento de linguagem natural (NLP) e da geração de linguagem natural (NLG). No entanto, os transformadores também foram usados com outros tipos de dados, como imagens, com resultados igualmente bem-sucedidos.
Modelo de idioma grande. Os LLMs são sistemas de IA usados para modelar e processar a linguagem humana. Os transformadores são as tecnologias subjacentes aos LLMs. Eles são chamados de "grandes" porque têm centenas de milhões ou até bilhões de parâmetros, que são pré-treinados usando um corpus maciço de dados de texto.
Modelo de fundação. É um termo amplo para definir modelos de IA projetados para produzir uma variedade ampla e geral de resultados. Eles são capazes de realizar uma série de tarefas e aplicativos possíveis, incluindo geração de texto, vídeo, imagem ou áudio. Uma característica singular desses modelos é que eles podem ser sistemas autônomos ou usados como uma "base" para outros aplicativos. Por exemplo, o LLM chamado GPT funciona como o modelo de base do ChatGPT.

Como funcionam os modelos de fundação?

A tecnologia subjacente dos modelos de base, independentemente da tarefa para a qual foram projetados e do tipo de dados que usam para treinamento, é o transformador.

Desenvolvidos por pesquisadores do Google em 2017, os transformadores oferecem uma alternativa às redes neurais recorrentes tradicionais (RNNs) e às redes neurais convolucionais (CNNs) para lidar com dados sequenciais, ou seja, texto.

Os Transformers funcionam prevendo a próxima palavra em uma sequência para formar uma resposta coerente. Esse processo é feito por meio de um mecanismo chamado atenção, que pondera a influência de diferentes palavras ao gerar uma resposta.

O treinamento de transformadores envolve duas etapas: pré-treinamento e ajuste fino.

Pré-treinamento

Nessa fase, os transformadores são treinados em grandes quantidades de dados brutos (texto), tendo a Internet como a principal fonte de dados.

O treinamento é feito usando o aprendizado autossupervisionado, um tipo inovador de treinamento que não exige ação humana para rotular os dados.

O objetivo do pré-treinamento é aprender os padrões estatísticos do idioma. Como a principal estratégia para obter um melhor desempenho dos transformadores é aumentar o tamanho do modelo (ou seja, aumentar os parâmetros) e a quantidade de dados usados durante o pré-treinamento, essa fase normalmente consome muito tempo e é cara.

Ajuste fino

O pré-treinamento permite que o transformador adquira uma compreensão básica do idioma, mas não é suficiente para realizar tarefas práticas específicas. É por isso que o modelo passa por uma fase de ajuste fino, em que é treinado em um conjunto de dados mais restrito e específico do domínio, gerado com a ajuda de revisores humanos que seguem determinadas diretrizes.

Modalidade

Outra característica importante dos modelos de fundação é a modalidade. Dependendo do tipo de dados que os modelos básicos podem receber como entrada, eles podem ser unimodais ou multimodais. O primeiro só pode aceitar um tipo de dados e gerar o mesmo tipo de saída, enquanto o segundo pode receber várias modalidades de tipo de entrada e gerar vários tipos de saídas (por exemplo, o GPT-4 pode aceitar entradas de imagem e texto e gerar saídas de texto).

Entender como os transformadores funcionam pode ser complicado e está fora do escopo deste artigo. Para obter uma explicação mais detalhada, consulte nosso artigo, What is ChatGPT, em que fizemos a pergunta diretamente ao ChatGPT e aprendemos sobre Transformers e Hugging Face para obter uma visão mais técnica.

Se você quiser obter mais detalhes sobre como os LLMs funcionam, nosso Curso de Conceitos de Modelos de Linguagem Grande (LLMs) é um ótimo ponto de partida.

Aplicações dos modelos de fundação

Os modelos Foundation podem ser usados como um sistema autônomo ou como base para inúmeros sistemas e aplicativos de IA downstream. Embora a maioria dos sistemas de fundação modernos seja projetada para gerar texto ou código e executar tarefas de PNL, há um número crescente de sistemas capazes de gerar outros tipos de resultados, como imagens ou música.

Abaixo, você encontra uma tabela com alguns dos modelos de fundação mais populares.

Modelo de fundação	Sistema de IA downstream	Aplicativos
LaMDA (Google)	Bardo	Serviço de bate-papo experimental, conversacional e com IA.
GPT-3.5 (OpenAI)	ChatGPT	Permite que você tenha conversas semelhantes às humanas.
GPT-4 (OpenAI)	Assistente de IA do DataLab	Permita que os usuários do DataLab codifiquem melhor e de forma mais inteligente.
Codex (OpenAI)	GitHub Copilot	Sugerir códigos e funções inteiras em tempo real.
AudioLM (Google)	MusicLM	Crie músicas com base em descrições de texto.
BLOOM (abraçando o rosto)	Nenhuma aplicação downstream. Pode ser usado diretamente	Várias tarefas de PNL. Treinada em 46 idiomas diferentes e 13 linguagens de programação.
LLaMA (Meta)	Nenhuma aplicação downstream. Pode ser usado diretamente	Ajude os pesquisadores a avançar em seu trabalho nesse subcampo da IA.
DALL-E 2 (OpenAI)	Nenhuma aplicação downstream. Pode ser usado diretamente	Crie imagens e arte realistas a partir de uma descrição em linguagem natural.

Desafios e preocupações com os modelos de fundação

Os modelos de base estão na vanguarda da IA e têm o potencial de alimentar inúmeros aplicativos. No entanto, é importante considerar seus possíveis riscos e desafios.

Aqui está uma lista não exaustiva de riscos que precisam ser associados à adoção generalizada de modelos de fundação:

Falta de transparência. A opacidade algorítmica é uma das principais preocupações associadas aos modelos de fundação, geralmente descritos como modelos de "caixa preta", ou seja, modelos tão complexos que é impossível rastrear seu raciocínio. Os provedores de IA geralmente relutam em fornecer informações sobre seus modelos com base na confidencialidade dos negócios. Entretanto, aumentar a transparência é essencial para conhecer o custo e o impacto dos modelos de fundação, bem como avaliar sua segurança e eficácia.
Preconceito e discriminação. Modelos de fundação tendenciosos podem resultar em decisões injustas que muitas vezes exacerbam a discriminação contra grupos minoritários. A IBM Research está explorando maneiras de minimizar esse viés.
Questões de privacidade. Os modelos de fundação são treinados com grandes quantidades de dados, muitas vezes incluindo dados pessoais. Isso pode levar a problemas e riscos relacionados à privacidade e à segurança dos dados.
Considerações éticas. Os modelos de fundação podem, às vezes, levar a decisões que têm sérias implicações em nossa vida, com impactos significativos em nossos direitos fundamentais. Exploramos a ética da IA generativa em uma postagem separada.

O futuro dos modelos de fundação

Os modelos básicos estão alimentando o atual boom da IA generativa. As possíveis aplicações são tão vastas que todos os setores e indústrias, inclusive a ciência de dados, provavelmente serão afetados pela adoção da IA no futuro próximo.

Embora ainda estejamos longe de alcançar a Inteligência Artificial Geral, o desenvolvimento de modelos básicos representa um marco importante na corrida da IA. As empresas, os órgãos reguladores e a sociedade, em geral, devem estar cientes do estado atual da IA, como condição prévia para garantir transparência, justiça e responsabilidade.

A DataCamp está trabalhando arduamente para fornecer recursos abrangentes e acessíveis para que todos se mantenham atualizados com o desenvolvimento da IA. Dê uma olhada neles:

Introdução ao LLaMA do Meta AI: Empowering AI Innovation - Esta postagem do blog apresenta o LLaMA, uma coleção de modelos de linguagem de base de última geração.
Introdução ao aprendizado estatístico de máquina - Este tutorial explica como as técnicas estatísticas sustentam os modelos de aprendizado de máquina, o que é uma base fundamental para a compreensão dos modelos básicos.
5 projetos que você pode criar com modelos de IA generativos (com exemplos) - Esta postagem do blog fornece ideias práticas de projetos que envolvem modelos de IA generativos, que são um tipo de modelo de base.
Como usar eticamente o aprendizado de máquina para tomar decisões - Esta postagem do blog discute a importância das considerações éticas ao usar modelos de aprendizado de máquina, incluindo os modelos Foundation.
Trilha de habilidades de fundamentos de IA - Esse curso de aprendizado oferece uma introdução abrangente à IA, incluindo modelos como o ChatGPT, que é um tipo de modelo básico.

Tópicos

Inteligência Artificial

Comece a aprender IA hoje mesmo!

Programa

Fundamentos de IA

0 min

Descubra os fundamentos da IA, mergulhe em modelos como o ChatGPT e decodifique os segredos da IA generativa para que você possa navegar no dinâmico cenário da IA.

Ver detalhes

Iniciar curso

Curso

Conceitos de IA Generativa

2 h

75K

Descubra como usar IA generativa de forma responsável e seu impacto futuro na sociedade.

Ver detalhes

Iniciar curso

Curso

Ética em IA

1 h

54.1K

Explore a ética da IA, com foco em princípios, justiça, redução de vieses e confiança no design de IA.

Ver detalhes

Iniciar curso

Ver mais

Relacionado

blog

O que é IA multimodal?

Descubra a IA multimodal, uma das tendências mais promissoras da IA generativa.

Javier Canales Luna

8 min

blog

O que é um modelo generativo?

Os modelos generativos usam o aprendizado de máquina para descobrir padrões nos dados e gerar novos dados. Saiba mais sobre sua importância e aplicações em IA.

Abid Ali Awan

11 min

blog

O que é IA? Um guia rápido para iniciantes

Descubra o que realmente é inteligência artificial com exemplos, opiniões de especialistas e todas as ferramentas de que você precisa para aprender mais.

Matt Crabtree

11 min

blog

A IA substituirá a programação?

Os programadores desaparecerão ou suas funções serão apenas interrompidas pela adoção de ferramentas de IA de última geração?

Javier Canales Luna

8 min

blog

25 exemplos práticos da transformação da IA nos setores

Desde a reformulação da saúde e do comércio eletrônico até a revolução da agricultura e das finanças, descubra exemplos reais de IA que impulsionam o crescimento, a eficiência e a inovação.

Nahla Davies

15 min

Ver mais Ver mais

O que são modelos de fundação? Entendendo os principais conceitos

Como funcionam os modelos de fundação?

Pré-treinamento

Ajuste fino

Modalidade

Aplicações dos modelos de fundação

Desafios e preocupações com os modelos de fundação