Pular para o conteúdo principal

O3 da OpenAI: Recursos, comparação do O1, data de lançamento e mais

Saiba mais sobre o o3 e o3 mini da OpenAI, incluindo as datas de lançamento, os principais recursos, os avanços do ARC AGI e as inovações de segurança, como o alinhamento deliberativo.
Actualizado 20 de dez. de 2024  · 8 min de leitura

A OpenAI encerrou seu evento de 12 dias com a apresentação do o3seu mais recente modelo de IA, juntamente com seu irmão mais econômico, o3 mini.

A decisão de ignorar o O2 não foi aleatória. Embora a OpenAI tenha feito referência à marca O2 da Telefônica como parte do raciocínio, suspeitamos que também tenha sido um movimento estratégico para sinalizar um avanço mais substancial. Sam Altman brincou durante o anúncio dizendo que nomear não é o forte deles, mas a escolha parece calculada.

O O3 se concentra muito no raciocínio, com recursos projetados para lidar com tarefas complexas de codificação, matemática e inteligência geral. A OpenAI está começando com testes de segurança pública em vez de um lançamento completo, o que, em nossa opinião, reflete uma abordagem cautelosa e transparente. Se os resultados iniciais se confirmarem, a o3 poderá marcar uma etapa notável na progressão dos modelos de IA.

Fundamentos da OpenAI

Comece a usar a API OpenAI e muito mais!

Comece agora

O que é o OpenAI O3?

O O3 é o modelo de fronteira mais recente da OpenAI, projetado para aprimorar os recursos de raciocínio em uma série de tarefas complexas. Anunciado juntamente com seu equivalente menor, o o3 mini, ele se concentra em enfrentar desafios de codificação, matemática e inteligência geral.

Consideramos o o3 notável por sua ênfase em benchmarks mais difíceis que testam o raciocínio de maneiras que os modelos anteriores não abordaram totalmente. A OpenAI destacou seus aprimoramentos em relação à o1, posicionando-a como um sistema mais capaz de lidar com a solução de problemas complexos.

O1 vs. o3 na codificação

O1 vs. o3 na codificação. Fonte: OpenAI

Atualmente, o O3 não está disponível para uso geral. A OpenAI está começando com testes de segurança pública, convidando pesquisadores a explorar seus pontos fortes e limitações. Acreditamos que essa abordagem colaborativa reflete um reconhecimento crescente da necessidade de uma avaliação cuidadosa à medida que os modelos de IA se tornam cada vez mais capazes.

O1 vs. O3

O O3 se baseia diretamente na fundação estabelecida pelo O1, mas as melhorias são significativas em áreas importantes. A OpenAI posicionou o o3 como um modelo projetado para lidar com tarefas de raciocínio mais complexas, com ganhos de desempenho refletidos em seus benchmarks.

Codificação

Notamos algumas diferenças claras entre os dois modelos (veja o gráfico acima). Em tarefas de codificação de software, o O3 obteve 71,7% de precisão no Bench Verified, uma melhoria significativa em relação ao O1.

Da mesma forma, na programação competitiva, o o3 atingiu uma pontuação ELO de 2.727, superando em muito o recorde anterior de 1.891 do o1. Esses números indicam um foco no avanço da capacidade do modelo de enfrentar os desafios de codificação do mundo real.

Matemática e ciências

As melhorias não se limitam à codificação. O o3 também se destacou em raciocínio matemático, com 96,7% de precisão no AIME 2024, em comparação com os 83,3% do o1. Esses ganhos sugerem um modelo que pode lidar com problemas mais matizados e difíceis, aproximando-se de padrões de referência tradicionalmente dominados por especialistas humanos.

O1 vs. o3 em matemática e ciências

O1 vs. o3 em matemática e ciências. Fonte: OpenAI

O salto é igualmente evidente nos benchmarks relacionados à ciência. No GPQA Diamond, que mede o desempenho em questões científicas de nível de doutorado, o o3 obteve uma precisão de 87,7%, acima dos 78% do o1. Esses ganhos demonstram um amplo aprimoramento da capacidade do modelo de resolver problemas tecnicamente exigentes em todas as disciplinas.

EpochAI Frontier Math

Uma área em que o progresso do o3 é especialmente notável é no benchmark EpochAI Frontier Math.

Esse é considerado um dos benchmarks mais desafiadores em IA, pois consiste em problemas novos e inéditos que são intencionalmente projetados para serem muito mais difíceis do que os conjuntos de dados padrão. Muitos desses problemas estão no nível da pesquisa matemática, muitas vezes exigindo horas ou até dias de matemáticos profissionais para resolver um único problema. Os sistemas de IA atuais normalmente pontuam menos de 2% nesse benchmark, o que destaca sua dificuldade.

O3 no EpochAI Frontier Math

O3 no EpochAI Frontier Math. Fonte: OpenAI

O Frontier Math da Epic AI é importante porque leva os modelos além da memorização mecânica ou da otimização de padrões familiares. Em vez disso, ele testa a capacidade de generalização, raciocínio abstrato e solução de problemas nunca antes encontrados - características essenciais para o avanço dos recursos de raciocínio da IA. A pontuação da o3 de 25,2% nesse benchmark parece ser um avanço significativo.

Avanço do O3 no ARC AGI

Uma das conquistas mais impressionantes do o3 é seu desempenho no benchmark ARC AGI, um teste amplamente considerado como padrão ouro para avaliar a inteligência geral em IA.

Desenvolvido em 2019 por François Chollet, o ARC (Abstraction and Reasoning Corpus) se concentra em avaliar a capacidade de uma IA de aprender e generalizar novas habilidades a partir de exemplos mínimos. Ao contrário dos benchmarks tradicionais, que geralmente testam o conhecimento pré-treinado ou o reconhecimento de padrões, as tarefas do ARC são projetadas para desafiar os modelos a inferir regras e transformações em tempo real - tarefas que os seres humanos podem resolver intuitivamente, mas com as quais a IA tem tido dificuldades historicamente.

O que torna o ARC AGI particularmente difícil é que cada tarefa exige habilidades de raciocínio distintas. Os modelos não podem confiar em soluções ou modelos memorizados; em vez disso, eles devem se adaptar a desafios totalmente novos em cada teste. Por exemplo, uma tarefa pode envolver a identificação de padrões em transformações geométricas, enquanto outra pode exigir raciocínio sobre sequências numéricas. Essa diversidade faz da ARC AGI uma medida poderosa de quão bem uma IA pode realmente pensar e aprender como um ser humano.

Exemplo de uma tarefa do teste ARC AGI

Você consegue adivinhar a lógica pela qual a entrada é transformada em saída? Fonte: OpenAI

O desempenho da o3 no ARC AGI é um marco significativo. Em configurações de baixa computação, o o3 obteve 76% no conjunto de holdout semiprivado, um número muito acima de qualquer modelo anterior.

Quando testado com configurações de alta computação, ele alcançou um índice ainda mais impressionante de 88%, ultrapassando o limite de 85% frequentemente citado como desempenho de nível humano. Essa é a primeira vez que uma IA supera os humanos nesse benchmark, estabelecendo um novo padrão para tarefas baseadas em raciocínio.

Desempenho da série O no ARC AGI

Desempenho da série O. Fonte: ArcPrize

Acreditamos que esses resultados são particularmente notáveis, pois demonstram a capacidade do o3 de lidar com tarefas que exigem adaptabilidade e generalização, em vez de conhecimento mecânico ou computação de força bruta. É uma indicação clara de que a o3 está se aproximando da verdadeira inteligência geral, indo além dos recursos específicos do domínio e entrando em áreas que antes eram consideradas território exclusivamente humano.

O que é o o3 Mini?

O o3 mini foi apresentado juntamente com o o3 como uma alternativa econômica projetada para levar recursos avançados de raciocínio a mais usuários, mantendo o desempenho. A OpenAI o descreveu como uma redefinição da "fronteira de custo-desempenho" em modelos de raciocínio, tornando-o acessível para tarefas que exigem alta precisão, mas precisam equilibrar as restrições de recursos.

Um dos recursos de destaque do o3 mini é o tempo de raciocínio adaptável, que permite aos usuários ajustar o esforço de raciocínio do modelo com base na complexidade da tarefa. Para problemas mais simples, os usuários podem selecionar raciocínio de baixo esforço para maximizar a velocidade e a eficiência.

Para tarefas mais desafiadoras, as opções de maior esforço de raciocínio permitem que o modelo funcione em níveis comparáveis aos do próprio o3, mas por uma fração do custo. Essa flexibilidade é particularmente interessante para desenvolvedores e pesquisadores que trabalham em diversos casos de uso.

Benchmarks do O3 mini

Benchmarks do O3 mini. Fonte: OpenAI

A demonstração ao vivo mostrou como o o3 mini cumpre sua promessa. Por exemplo, em uma tarefa de codificação, a o3 mini foi encarregada de gerar um script Python para criar um servidor local com uma interface de usuário interativa para testes. Apesar da complexidade da tarefa, o modelo teve um bom desempenho, demonstrando sua capacidade de lidar com desafios de programação sofisticados.

UI interativa criada com o o3 mini durante a demonstração ao vivo

UI interativa criada com o o3 mini durante a demonstração ao vivo. Fonte: OpenAI

Vemos o o3 mini como uma solução prática para cenários em que a relação custo-benefício e o desempenho devem estar alinhados.

Alinhamento deliberativo: Inovações em testes de segurança

A OpenAI adotou uma abordagem proativa para os testes de segurança do o3 e do o3 mini, abrindo o acesso a pesquisadores para avaliações de segurança pública antes do lançamento completo dos modelos.

Um recurso central da estratégia de segurança da OpenAI para o o3 é o alinhamento deliberativo, um método que vai além das abordagens tradicionais de segurança. O gráfico abaixo destaca como o alinhamento deliberativo difere de outros métodos, como o RLHF (Reinforcement Learning with Human Feedback), RLAIF (Reinforcement Learning with AI Feedback) e técnicas de refinamento em tempo de inferência, como o Self-REFINE.

alinhamento deliberativo vs rlhf vs rlaif vs técnicas de refinamento em tempo de inferência

Fonte: OpenAI

No alinhamento deliberativo, o modelo não se baseia simplesmente em regras estáticas ou conjuntos de dados de preferências para determinar se um prompt é seguro ou inseguro. Em vez disso, ele usa seus recursos de raciocínio para avaliar as solicitações em tempo real. O gráfico acima ilustra esse processo:

  1. Geração de dados de treinamento: Ao contrário do RLHF, em que a entrada humana informa diretamente o modelo, o alinhamento deliberativo usa um modelo de raciocínio para gerar cadeia de pensamento (CoT) para prompts específicos. Esses resultados de CoT fornecem padrões de raciocínio diferenciados que orientam o processo de treinamento, ajudando o modelo a entender o contexto e a intenção com mais eficiência.
  2. Tempo de inferência: Durante a inferência, o modelo de raciocínio avalia os prompts e fornece uma explicação de cadeia de pensamento juntamente com suas respostas. Essa etapa permite que o modelo avalie dinamicamente a intenção e o contexto de um prompt, identificando possíveis riscos ocultos ou ambiguidades que as regras estáticas podem deixar passar.

Data de lançamento do O3

Por enquanto, o o3 e o3 mini não estão amplamente disponíveis, mas a OpenAI abriu o acesso a pesquisadores por meio de seu programa de testes de segurança.

Quanto à disponibilidade pública, a OpenAI compartilhou um cronograma provisório. O lançamento do o3 mini está previsto para o final de janeiro, oferecendo uma opção econômica para tarefas de raciocínio. A versão completa do o3 será lançada logo em seguida, embora a OpenAI tenha enfatizado que seu cronograma depende do feedback e das percepções obtidas durante a fase de testes de segurança.

Consideramos essa abordagem cautelosa como um passo positivo, priorizando a avaliação completa e o alinhamento cuidadoso com as necessidades do usuário, mantendo a transparência em todo o processo de desenvolvimento.

Conclusão

O3 e o3 mini destacam a crescente complexidade dos sistemas de IA e os desafios de liberá-los de forma responsável. Embora os benchmarks sejam impressionantes, estamos mais interessados nas questões que esses modelos levantam: Qual será o desempenho deles em cenários do mundo real? As medidas de segurança são robustas o suficiente para lidar com casos extremos em escala?

A implementação cautelosa da OpenAI é uma abordagem, mas o fato de ela atingir o equilíbrio certo entre capacidade e responsabilidade dependerá de como esses modelos serão usados e avaliados no final.

Ainda assim, é difícil ignorar a promessa que o o3 demonstra em termos de raciocínio e adaptabilidade, oferecendo um vislumbre do que a próxima geração de IA poderá alcançar.

Se você estiver interessado em explorar os maiores e mais recentes lançamentos deste mês, recomendamos estes blogs:

Perguntas frequentes

O que é o OpenAI o3 e como ele difere do o1?

O o3 é a última iteração dos modelos de raciocínio da OpenAI. Em comparação com o OpenAI o1, os modelos o3 e o3-mini demonstram melhor desempenho em tarefas de raciocínio, incluindo codificação, análise científica e recursos inovadores para novas tarefas.

Quando o OpenAI o3 será lançado?

A partir de hoje, sexta-feira, 20 de dezembro, a OpenAI planeja lançar o o3-mini até o final de janeiro, seguido pelo o3 logo em seguida. No entanto, esses cronogramas podem mudar dependendo dos resultados dos testes de segurança.

O OpenAI o3 é multimodal?

Atualmente, não houve nenhum anúncio sobre recursos multimodais para o o3.

Como posso obter acesso ao OpenAI o3?

No momento, a OpenAI está oferecendo acesso antecipado ao o3 para testes de segurança. Você pode solicitar o acesso por meio do site oficial da OpenAI.

Como funciona o OpenAI o3?

Embora nenhuma descrição detalhada de como o o3 funciona tenha sido fornecida, é razoável supor que ele siga uma arquitetura semelhante ao modelo o1 da OpenAI. Isso inclui uma combinação de aprendizado por reforço, raciocínio em cadeia e uma estrutura baseada em transformadores.

Quanto custará o OpenAI o3?

Embora não tenha havido nenhuma discussão sobre o preço do OpenAI o3, é razoável supor que ele terá um preço semelhante ou superior ao do modo profissional do OpenAI o1.

Qual é a diferença entre o OpenAI o3 e o3-mini?

Assim como o OpenAI O1 e o O1-mini, espera-se que o OpenAI O3-mini tenha um desempenho ligeiramente inferior ao do O3, mas seja mais econômico para ser executado e utilizado. 


Alex Olteanu's photo
Author
Alex Olteanu
LinkedIn

Você é um especialista em Python, marketing e estratégia de conteúdo, SEO, edição e redação. Técnico - escrevi cursos sobre Python, estatística e probabilidade. Mas também publiquei um romance premiado. Edição de vídeo e gradação de cores no DaVinci.


Adel é educador de ciência de dados, palestrante e evangelista da DataCamp, onde lançou vários cursos e treinamentos ao vivo sobre análise de dados, aprendizado de máquina e engenharia de dados. Ele é apaixonado pela disseminação das habilidades e da alfabetização de dados nas organizações e pela interseção entre tecnologia e sociedade. Ele tem um mestrado em ciência de dados e análise de negócios. Em seu tempo livre, você pode encontrá-lo passeando com seu gato Louis.

Temas

Aprenda IA com estes cursos! 

programa

ChatGPT Fundamentals

3hrs hr
Explore the essentials of ChatGPT and prompt engineering. Master crafting prompts to maximize ChatGPT's capabilities.
Ver DetalhesRight Arrow
Iniciar curso
Ver maisRight Arrow
Relacionado

blog

A OpenAI anuncia o GPT-4 Turbo com visão: O que sabemos até o momento

Descubra a atualização mais recente da OpenAI, GPT-4 Turbo com visão, e seus principais recursos, incluindo o corte de conhecimento aprimorado, uma janela de contexto expandida, preço acessível e muito mais.
Richie Cotton's photo

Richie Cotton

7 min

blog

Stability AI anuncia a difusão estável 3: Tudo o que sabemos até agora

Saiba mais sobre as novas atualizações do Stable Diffusion e descubra os recursos do modelo de texto para imagem da versão 3.
Richie Cotton's photo

Richie Cotton

blog

O que é o Sora da Open AI? Como funciona, casos de uso, alternativas e muito mais

Descubra o Sora da OpenAI: uma IA inovadora de texto para vídeo que revolucionará a IA multimodal em 2024. Explore seus recursos, inovações e impacto potencial.
Richie Cotton's photo

Richie Cotton

8 min

blog

Tudo o que sabemos sobre o GPT-5

Prever como será a próxima evolução da tecnologia de IA da OpenAI e quais avanços o modelo GPT-5 poderá ter.
Josep Ferrer's photo

Josep Ferrer

10 min

tutorial

Tutorial da API de assistentes da OpenAI

Uma visão geral abrangente da API Assistants com nosso artigo, que oferece uma análise aprofundada de seus recursos, usos no setor, orientação de configuração e práticas recomendadas para maximizar seu potencial em vários aplicativos de negócios.
Zoumana Keita 's photo

Zoumana Keita

14 min

tutorial

Primeiros passos com o Claude 3 e a API do Claude 3

Saiba mais sobre os modelos Claude 3, benchmarks de desempenho detalhados e como acessá-los. Além disso, descubra a nova API Python do Claude 3 para geração de texto, acesso a recursos de visão e streaming.
Abid Ali Awan's photo

Abid Ali Awan

See MoreSee More