Pular para o conteúdo principal

Pesquisa profunda da OpenAI: Um guia com exemplos práticos

Saiba mais sobre a nova ferramenta Deep Research da OpenAI, que pode realizar pesquisas aprofundadas e em várias etapas.
Actualizado 5 de fev. de 2025  · 8 min de leitura

A OpenAI acaba de lançar o Deep Research, um agente de IA alimentado por uma versão do futuro modelo modelo o3. Ele foi projetado para navegar na Web, analisar várias fontes e sintetizar grandes quantidades de informações.

Você pode estar se perguntando: O ChatGPT já não faz isso?

Diferentemente de uma sessão normal do ChatGPT que gera respostas rápidas, o Deep Research pode conduzir investigações em várias etapas, fazer referência a várias fontes e produzir relatórios estruturados.

Por exemplo, se você já pesquisou o melhor carro para comprar - comparando avaliações, pesando custos, etc. - sabe que encontrar informações confiáveis exige tempo e muita navegação na Internet. O Deep Research foi criado exatamente para esse tipo de trabalho.

Eu testei o Deep Research e fiquei impressionado e desapontado. Ele demonstra grande potencial, mas também produz fatos e inferências incorretos. Neste blog, serei seu agente humano e resumirei tudo o que você precisa saber sobre o Deep Research. Eu o orientarei por meio de exemplos práticos, compartilharei dicas de estímulo e mostrarei onde a Pesquisa Profunda se destaca - e onde você precisa ser extremamente cuidadoso.

O que é a pesquisa profunda da OpenAI?

O Deep Research da OpenAI é um agente com tecnologia de IA projetado para realizar pesquisas aprofundadas e em várias etapas na Internet. Ao contrário dos recursos de navegação padrão do ChatGPT, que fornecem respostas rápidas, o Deep Research encontra, analisa e sintetiza de forma autônoma informações de centenas de fontes on-line.

O DeepResearch da OpenAI pode ser acessado pelo bate-papo

O Deep Research foi projetado para qualquer pessoa que precise de uma pesquisa abrangente e confiável, incluindo:

  • Profissionais de finanças, ciências, política e engenharia que precisam de relatórios estruturados e bem citados
  • Estrategistas de negócios que realizam análises competitivas ou previsões de tendências
  • Pesquisadores e alunos que coletam informações de várias fontes
  • Compradores e consumidores que tomam decisões de compra de alto risco (por exemplo, carros, eletrodomésticos, imóveis)
  • Escritores, jornalistas e analistas que precisam de insights verificados por fatos e com várias fontes

Basicamente, se uma tarefa envolver a pesquisa de várias fontes, a referência cruzada de dados e a síntese de informações em um formato útil, o Deep Research é a ferramenta ideal para o trabalho.

Como funciona a pesquisa profunda?

Alimentado por uma versão do futuro modelo o3, o Deep Research baseia-se nos avanços da OpenAI em modelos de raciocínio, mas é especificamente otimizado para navegação na Web e análise de dados do mundo real.

Para conseguir isso, a OpenAI treinou o Deep Research usando aprendizado por reforço em tarefas de navegação e raciocínio do mundo real. Isso permite que o modelo siga um processo de pesquisa iterativo e passo a passo, melhorando sua capacidade de sintetizar tópicos complexos em relatórios estruturados.

Benchmarks de pesquisa profunda

O último exame da humanidade

O último exame da humanidade é um benchmark recém-lançado projetado para testar a IA em perguntas de múltipla escolha e de resposta curta de nível especializado em mais de 100 assuntos, desde linguística e ciência de foguetes até ecologia e matemática. Essa avaliação mede a capacidade da IA de raciocinar entre disciplinas e buscar conhecimento especializado quando necessário - uma habilidade essencial para modelos orientados para a pesquisa.

O Deep Research atingiu um recorde de 26,6% de precisão, superando de longe os modelos anteriores, incluindo o o1 da OpenAI (9,1%), o DeepSeek-R1 (9,4%) e o Claude 3.5 Sonnet (4,3%). Notavelmente, as maiores melhorias em relação ao o1 da OpenAI foram observadas em química, ciências humanas e ciências sociais e matemática, onde a Deep Research demonstrou sua capacidade de analisar questões complexas e recuperar informações confiáveis.

Modelo

Precisão (%)

GPT-4o

3.3

Claude 3.5 Soneto

4.3

Pensamento geminiano

6.2

OpenAI o1

9.1

DeepSeek-R1*

9.4

OpenAI o3-mini (high)*

13.0

Pesquisa profunda da OpenAI (com ferramentas de navegação + Python)

26.6

* Modelos testados no subconjunto somente de texto do exame porque não são multimodais. Fonte: OpenAI

GAIA

O GAIA (General AI Agent benchmark) avalia a capacidade dos sistemas de IA de lidar com questões do mundo real, exigindo uma combinação de raciocínio, navegação na Web, fluência multimodal e proficiência no uso de ferramentas.

A Deep Research estabeleceu um novo recorde de estado da arte (SOTA), liderando a classificação externa do tabela de classificação do GAIA com forte desempenho em todos os níveis de dificuldade. O modelo mostrou uma precisão particularmente alta nas tarefas de Nível 3, que exigem pesquisa complexa e em várias etapas e síntese .

Avaliação GAIA

Nível 1

Nível 2

Nível 3

Média

SOTA anterior

67.92%

67.44%

42.31%

63.64%

Pesquisa profunda (pass@1)

74.29%

69.06%

47.6%

67.36%

Pesquisa profunda (cons@64)

78.66%

73.21%

58.03%

72.57%

Fonte: OpenAI

A alta pontuação pass@1do Deep Research mostra que até mesmo sua primeira tentativa de responder a uma pergunta do GAIA é mais precisa do que os modelos anteriores. Apontuação do cons@64 (que mede o desempenho com várias tentativas de resposta) destaca ainda mais sua capacidade de autocorreção e refinamento das respostas com base em novas informações.

Avaliações internas

A OpenAI também realizou avaliações internas, nas quais o Deep Research foi classificado por especialistas de domínio em tarefas de nível especializado. Achei as avaliações internas bastante interessantes!

O gráfico abaixo mostra que a taxa de aprovação do modelo aumenta à medida que você faz mais chamadas de ferramentas. Isso destaca a importância de permitir que ele navegue e analise as informações de forma iterativa - dar a ele mais tempo para pensar leva a melhores resultados.

taxa de aprovação versus gráfico de chamadas de ferramenta máxima para pesquisa profunda da openai

Fonte: OpenAI

Vamos dar uma olhada em outro gráfico - veja abaixo. O Deep Research tem melhor desempenho em tarefas com valor econômico estimado mais baixo, com a precisão caindo à medida que o impacto financeiro potencial da tarefa aumenta. Isso sugere que as tarefas economicamente mais significativas tendem a ser mais complexas ou dependem de conhecimento proprietário que não é amplamente acessível on-line.

gráfico de taxa de aprovação versus valor econômico estimado para a pesquisa profunda da openai

Fonte: OpenAI

O gráfico abaixo contrasta as taxas de aprovação com as horas estimadas que um ser humano levaria para concluir cada tarefa. O modelo tem o melhor desempenho em tarefas que levariam de uma a três horas para uma pessoa, mas o desempenho não diminui consistentemente com o tempo, indicando que o que a IA considera difícil nem sempre está alinhado com o que os humanos consideram demorado.

Fonte: OpenAI

Como usar a pesquisa profunda: Exemplos práticos

No momento da publicação deste artigo, o Deep Research só está disponível para usuários Pro, com um limite de 100 consultas por mês, mas a OpenAI planeja expandir o acesso para usuários Plus, Team e Enterprise em breve.

Na minha opinião, a Deep Research ainda está em sua fase inicial. Embora seja muito promissor, o primeiro exemplo abaixo destaca muitos de seus problemas. No entanto, o segundo exemplo demonstra seu imenso potencial.

Exemplo 1: Ecossistemas de IA

Eu me esforço constantemente para obter uma visão geral completa dos ecossistemas de IA de diferentes empresas. Veja o Google, por exemplo: eles têm o Gemini 2.0 Flash, o Imagen 3, o Veo 2, o Project Mariner, o Project Astra... o que mais está faltando? Para finalmente obter uma visão geral clara, pedi à Deep Research da OpenAI que fizesse esta solicitação.

Exemplo de bate-papo com o Deep Research da OpenAI 

Observe que o modelo não iniciou a pesquisa diretamente, mas pediu esclarecimentos. Em todos os meus testes, independentemente da especificidade da minha primeira solicitação, o modelo sempre tentou restringir sua pesquisa. Isso é útil, na minha opinião, porque muitas vezes acho que meu prompt é claro e específico, mas geralmente precisa de algum refinamento.

Respondi às perguntas do modelo e então a pesquisa começou. Um painel foi aberto no lado direito do navegador, mostrando a atividade e as origens do agente em tempo real:

Isso levou 11 minutos, e o modelo consultou 25 fontes. Observe que uma fonte é um site pai, e o modelo pode navegar por várias páginas desse site - para 25 fontes e uma média de quatro páginas por fonte, você pode esperar que o modelo tenha navegado por cerca de 100 páginas da Web.

O Deep Research da OpenAI levou 11 minutos para concluir a pesquisa

No geral, fiquei desapontado com o resultado - você pode ler a resposta da Deep Research aqui. Mas vamos começar com o que eu gostei nele:

  • Embora eu não tenha especificado uma estrutura, a resposta foi bem organizada, com seções claras, uso adequado de negrito, tamanho da fonte e marcadores.
  • As fontes estão bem posicionadas, aparecendo logo após as informações a que se referem, e esse sistema facilita a verificação dos fatos.
  • O relatório atingiu um bom equilíbrio entre detalhes e extensão - não foi superficial, mas também não foi uma leitura de uma hora. Sempre posso pedir mais detalhes se precisar saber mais.

No entanto, a resposta tinha vários problemas, e vou me concentrar nos principais:

  • Imprecisões: Ele confundiu o DeepSeek-V3 com DeepSeek-R1 (não se esqueça de que você mesmo pode ler a resposta aqui).
  • Informações desatualizadas: Embora eu tenha solicitado especificamente um relatório atualizado, a Deep Research afirmou que o modelo mais recente da Meta era o Llama 2 e o mais recente da Anthropic era o Claude 2, mencionando rumores sobre algo com "codinome" Sonnet e Haiku. No início, achei isso engraçado, mas depois pensei em quantas pessoas poderiam interpretar essas respostas pelo valor de face.
  • Baixa adesão imediata: Eu disse explicitamente ao Deep Research para excluir o GPT-4 e se concentrar nos modelos mais recentes, mas ele não seguiu essa instrução.
  • Respostas incompletas: A seção da OpenAI não mencionou modelos importantes como o o1 e, na seção do Google, omitiu completamente o Veo.

Esses problemas tornam difícil confiar na Deep Research da OpenAI. Eu o testei deliberadamente em um assunto sobre o qual tenho conhecimento, para que pudesse verificar a resposta - mas e se eu tivesse que confiar na Deep Research para um tópico sobre o qual não sei nada?

Exemplo 2:  Tópico permanente

Talvez o problema da pesquisa profunda seja que ela ainda não é tão boa em identificar as informações mais atualizadas. Por isso, decidi testá-lo em um tópico mais perene, que não dependa tanto de desenvolvimentos recentes.

Dirijo um carro fabricado em 2013 e, de vez em quando, penso em substituí-lo. Mas sempre me deparo com a mesma pergunta: devo comprar um novo ou um usado? Um carro novo se desvaloriza rapidamente, mas um carro velho pode significar custos de reparo mais altos. Quero saber o que os especialistas pensam sobre isso, portanto, essa foi uma excelente oportunidade para pedir à Deep Research que pesquisasse vários estudos e opiniões e compilasse um relatório.

Antes de prosseguir, deixe-me dar uma dica: antes de solicitar a pesquisa profunda, otimize sua solicitação usando seu LLM de referência. Comece com "Você é um engenheiro de prontidão. Ajude-me a otimizar este prompt: (seu prompt aqui)". Aqui está o prompt otimizado que usei para a Deep Research:

Assim como antes, a Deep Research pediu esclarecimentos antes de começar e concluiu a pesquisa em seis minutos, consultando várias páginas da Web em 12 fontes. Você pode ler o relatório completo aqui.

Dessa vez, o relatório foi bom - muito bom!

Nunca imaginei que você pudesse pensar sobre esse problema de tantos ângulos. A amplitude das informações foi impressionante e, segundo minhas estimativas, o Deep Research me poupou mais de 10 horas de navegação e pesquisa. Ele incluiu estudos acadêmicos, relatórios do setor, análises de tendências de mercado, comparações de custos de seguros, etc.

Não sou especialista nessa área, portanto não posso avaliar totalmente a precisão do relatório. Entretanto, do ponto de vista do consumidor, muitas das informações faziam sentido lógico e eram realmente úteis. Também verifiquei alguns detalhes com base nas fontes citadas e não encontrei nenhum problema.

Assim como no primeiro exemplo, a profundidade foi bem equilibrada e a estrutura de saída foi excelente. Gostei particularmente da tabela abaixo - basta olhar para esses valores de depreciação e você entenderá por que vou manter meu híbrido de 12 anos por um tempo.

exemplo de saída estruturada na pesquisa profunda da openai

Conclusão

A Deep Research da OpenAI é muito promissora e pode nos poupar muito tempo de pesquisa. No entanto, ele ainda não é confiável quando se trata de informações atualizadas, às vezes produzindo fatos incorretos ou inferências falhas.

Ainda acho que a Deep Research ainda está em sua fase inicial, e a equipe da OpenAI reconhece isso abertamente em seu artigo de anúncio.

Sinceramente, continuarei voltando ao Deep Research e espero que ele fique cada vez melhor.

Perguntas frequentes

O Deep Research está disponível em dispositivos móveis?

Atualmente, o Deep Research está disponível apenas na versão desktop do ChatGPT, mas a OpenAI anunciou o suporte para dispositivos móveis dentro de um mês.

A Deep Research pode trabalhar com tópicos altamente técnicos ou de nicho?

Sim, mas sua precisão depende da disponibilidade de fontes on-line confiáveis. Em campos de nicho com documentação limitada, ele pode ter dificuldades para produzir resultados de alta qualidade.

Como o Deep Research se compara à ferramenta de navegação padrão do ChatGPT?

Diferentemente da navegação normal, o Deep Research realiza investigações em várias etapas, referenciando várias fontes, analisando informações e gerando relatórios estruturados em vez de respostas rápidas.

O Deep Research estará disponível para usuários de nível gratuito?

A OpenAI não anunciou planos para disponibilizar o Deep Research para usuários de nível gratuito. No momento, ele é exclusivo para usuários Pro, com planos de expansão para contas Plus, Team e Enterprise.

Qual é a diferença entre o Deep Research da OpenAI e o Deep Research do Google?

O Deep Research da OpenAI e o Deep Research do Google realizam investigações na Web em várias etapas, mas diferem na execução. A versão da OpenAI, alimentada por um modelo baseado em o3, concentra-se em relatórios estruturados, raciocínio e análise de dados baseada em Python, mas tem tido dificuldades com a precisão atualizada. Isso leva de 5 a 30 minutos por relatório e, no momento, está limitado aos usuários Pro no ChatGPT. O Deep Research do Google, integrado ao Gemini, usa a Pesquisa do Google para recuperar informações em tempo real, concluindo a pesquisa em 5 a 10 minutos. Embora a versão da OpenAI se destaque em análises mais profundas, a do Google pode ser melhor para encontrar as fontes mais recentes e confiáveis.

Temas

Aprenda IA com estes cursos!

programa

AI Fundamentals

10hrs hr
Discover the fundamentals of AI, dive into models like ChatGPT, and decode generative AI secrets to navigate the dynamic AI landscape.
Ver DetalhesRight Arrow
Iniciar curso
Ver maisRight Arrow
Relacionado

blog

O que é IA? Um guia rápido para iniciantes

Descubra o que realmente é inteligência artificial com exemplos, opiniões de especialistas e todas as ferramentas de que você precisa para aprender mais.

Matt Crabtree

11 min

Machine Learning

blog

25 projetos de aprendizado de máquina para todos os níveis

Projetos de aprendizado de máquina para iniciantes, estudantes do último ano e profissionais. A lista consiste em projetos guiados, tutoriais e exemplos de código-fonte.
Abid Ali Awan's photo

Abid Ali Awan

15 min

tutorial

Tutorial da API de assistentes da OpenAI

Uma visão geral abrangente da API Assistants com nosso artigo, que oferece uma análise aprofundada de seus recursos, usos no setor, orientação de configuração e práticas recomendadas para maximizar seu potencial em vários aplicativos de negócios.
Zoumana Keita 's photo

Zoumana Keita

14 min

tutorial

Tutorial do DeepChecks: Automatizando os testes de machine learning

Saiba como realizar a validação de dados e modelos para garantir um desempenho robusto de machine learning usando nosso guia passo a passo para automatizar testes com o DeepChecks.
Abid Ali Awan's photo

Abid Ali Awan

12 min

tutorial

Introdução ao Text Embeddings com a API OpenAI

Explore nosso guia sobre como usar a API OpenAI para criar incorporações de texto. Descubra suas aplicações na classificação de textos, recuperação de informações e detecção de similaridade semântica.
Zoumana Keita 's photo

Zoumana Keita

7 min

tutorial

AI do cursor: Um guia com 10 exemplos práticos

Saiba como instalar o Cursor AI no Windows, macOS e Linux e descubra como usá-lo em 10 casos de uso diferentes.
François Aubry's photo

François Aubry

10 min

Ver maisVer mais