Programa
A OpenAI acaba de lançar o Deep Research, um agente de IA alimentado por uma versão do futuro modelo modelo o3. Ele foi projetado para navegar na Web, analisar várias fontes e sintetizar grandes quantidades de informações.
Você pode estar se perguntando: O ChatGPT já não faz isso?
Diferentemente de uma sessão normal do ChatGPT que gera respostas rápidas, o Deep Research pode conduzir investigações em várias etapas, fazer referência a várias fontes e produzir relatórios estruturados.
Por exemplo, se você já pesquisou o melhor carro para comprar - comparando avaliações, pesando custos, etc. - sabe que encontrar informações confiáveis exige tempo e muita navegação na Internet. O Deep Research foi criado exatamente para esse tipo de trabalho.
Eu testei o Deep Research e fiquei impressionado e desapontado. Ele demonstra grande potencial, mas também produz fatos e inferências incorretos. Neste blog, serei seu agente humano e resumirei tudo o que você precisa saber sobre o Deep Research. Eu o orientarei por meio de exemplos práticos, compartilharei dicas de estímulo e mostrarei onde a Pesquisa Profunda se destaca - e onde você precisa ser extremamente cuidadoso.
O que é a pesquisa profunda da OpenAI?
O Deep Research da OpenAI é um agente com tecnologia de IA projetado para realizar pesquisas aprofundadas e em várias etapas na Internet. Ao contrário dos recursos de navegação padrão do ChatGPT, que fornecem respostas rápidas, o Deep Research encontra, analisa e sintetiza de forma autônoma informações de centenas de fontes on-line.

O Deep Research foi projetado para qualquer pessoa que precise de uma pesquisa abrangente e confiável, incluindo:
- Profissionais de finanças, ciências, política e engenharia que precisam de relatórios estruturados e bem citados
- Estrategistas de negócios que realizam análises competitivas ou previsões de tendências
- Pesquisadores e alunos que coletam informações de várias fontes
- Compradores e consumidores que tomam decisões de compra de alto risco (por exemplo, carros, eletrodomésticos, imóveis)
- Escritores, jornalistas e analistas que precisam de insights verificados por fatos e com várias fontes
Basicamente, se uma tarefa envolver a pesquisa de várias fontes, a referência cruzada de dados e a síntese de informações em um formato útil, o Deep Research é a ferramenta ideal para o trabalho.
Como funciona a pesquisa profunda?
Alimentado por uma versão do futuro modelo o3, o Deep Research baseia-se nos avanços da OpenAI em modelos de raciocínio, mas é especificamente otimizado para navegação na Web e análise de dados do mundo real.
Para conseguir isso, a OpenAI treinou o Deep Research usando aprendizado por reforço em tarefas de navegação e raciocínio do mundo real. Isso permite que o modelo siga um processo de pesquisa iterativo e passo a passo, melhorando sua capacidade de sintetizar tópicos complexos em relatórios estruturados.
Benchmarks de pesquisa profunda
O último exame da humanidade
O último exame da humanidade é um benchmark recém-lançado projetado para testar a IA em perguntas de múltipla escolha e de resposta curta de nível especializado em mais de 100 assuntos, desde linguística e ciência de foguetes até ecologia e matemática. Essa avaliação mede a capacidade da IA de raciocinar entre disciplinas e buscar conhecimento especializado quando necessário - uma habilidade essencial para modelos orientados para a pesquisa.
O Deep Research atingiu um recorde de 26,6% de precisão, superando de longe os modelos anteriores, incluindo o o1 da OpenAI (9,1%), o DeepSeek-R1 (9,4%) e o Claude 3.5 Sonnet (4,3%). Notavelmente, as maiores melhorias em relação ao o1 da OpenAI foram observadas em química, ciências humanas e ciências sociais e matemática, onde a Deep Research demonstrou sua capacidade de analisar questões complexas e recuperar informações confiáveis.
|
Modelo |
Precisão (%) |
|
GPT-4o |
3.3 |
|
Claude 3.5 Soneto |
4.3 |
|
Pensamento geminiano |
6.2 |
|
OpenAI o1 |
9.1 |
|
DeepSeek-R1* |
9.4 |
|
OpenAI o3-mini (high)* |
13.0 |
|
Pesquisa profunda da OpenAI (com ferramentas de navegação + Python) |
26.6 |
* Modelos testados no subconjunto somente de texto do exame porque não são multimodais. Fonte: OpenAI
GAIA
O GAIA (General AI Agent benchmark) avalia a capacidade dos sistemas de IA de lidar com questões do mundo real, exigindo uma combinação de raciocínio, navegação na Web, fluência multimodal e proficiência no uso de ferramentas.
A Deep Research estabeleceu um novo recorde de estado da arte (SOTA), liderando a classificação externa do tabela de classificação do GAIA com forte desempenho em todos os níveis de dificuldade. O modelo mostrou uma precisão particularmente alta nas tarefas de Nível 3, que exigem pesquisa complexa e em várias etapas e síntese .
|
Avaliação GAIA |
Nível 1 |
Nível 2 |
Nível 3 |
Média |
|
SOTA anterior |
67.92% |
67.44% |
42.31% |
63.64% |
|
Pesquisa profunda (pass@1) |
74.29% |
69.06% |
47.6% |
67.36% |
|
Pesquisa profunda (cons@64) |
78.66% |
73.21% |
58.03% |
72.57% |
Fonte: OpenAI
A alta pontuação pass@1do Deep Research mostra que até mesmo sua primeira tentativa de responder a uma pergunta do GAIA é mais precisa do que os modelos anteriores. Apontuação do cons@64 (que mede o desempenho com várias tentativas de resposta) destaca ainda mais sua capacidade de autocorreção e refinamento das respostas com base em novas informações.
Avaliações internas
A OpenAI também realizou avaliações internas, nas quais o Deep Research foi classificado por especialistas de domínio em tarefas de nível especializado. Achei as avaliações internas bastante interessantes!
O gráfico abaixo mostra que a taxa de aprovação do modelo aumenta à medida que você faz mais chamadas de ferramentas. Isso destaca a importância de permitir que ele navegue e analise as informações de forma iterativa - dar a ele mais tempo para pensar leva a melhores resultados.

Fonte: OpenAI
Vamos dar uma olhada em outro gráfico - veja abaixo. O Deep Research tem melhor desempenho em tarefas com valor econômico estimado mais baixo, com a precisão caindo à medida que o impacto financeiro potencial da tarefa aumenta. Isso sugere que as tarefas economicamente mais significativas tendem a ser mais complexas ou dependem de conhecimento proprietário que não é amplamente acessível on-line.

Fonte: OpenAI
O gráfico abaixo contrasta as taxas de aprovação com as horas estimadas que um ser humano levaria para concluir cada tarefa. O modelo tem o melhor desempenho em tarefas que levariam de uma a três horas para uma pessoa, mas o desempenho não diminui consistentemente com o tempo, indicando que o que a IA considera difícil nem sempre está alinhado com o que os humanos consideram demorado.

Fonte: OpenAI
Como usar a pesquisa profunda: Exemplos práticos
No momento da publicação deste artigo, o Deep Research só está disponível para usuários Pro, com um limite de 100 consultas por mês, mas a OpenAI planeja expandir o acesso para usuários Plus, Team e Enterprise em breve.
Na minha opinião, a Deep Research ainda está em sua fase inicial. Embora seja muito promissor, o primeiro exemplo abaixo destaca muitos de seus problemas. No entanto, o segundo exemplo demonstra seu imenso potencial.
Exemplo 1: Ecossistemas de IA
Eu me esforço constantemente para obter uma visão geral completa dos ecossistemas de IA de diferentes empresas. Veja o Google, por exemplo: eles têm o Gemini 2.0 Flash, o Imagen 3, o Veo 2, o Project Mariner, o Project Astra... o que mais está faltando? Para finalmente obter uma visão geral clara, pedi à Deep Research da OpenAI que fizesse esta solicitação.
Observe que o modelo não iniciou a pesquisa diretamente, mas pediu esclarecimentos. Em todos os meus testes, independentemente da especificidade da minha primeira solicitação, o modelo sempre tentou restringir sua pesquisa. Isso é útil, na minha opinião, porque muitas vezes acho que meu prompt é claro e específico, mas geralmente precisa de algum refinamento.
Respondi às perguntas do modelo e então a pesquisa começou. Um painel foi aberto no lado direito do navegador, mostrando a atividade e as origens do agente em tempo real:
Isso levou 11 minutos, e o modelo consultou 25 fontes. Observe que uma fonte é um site pai, e o modelo pode navegar por várias páginas desse site - para 25 fontes e uma média de quatro páginas por fonte, você pode esperar que o modelo tenha navegado por cerca de 100 páginas da Web.

No geral, fiquei desapontado com o resultado - você pode ler a resposta da Deep Research aqui. Mas vamos começar com o que eu gostei nele:
- Embora eu não tenha especificado uma estrutura, a resposta foi bem organizada, com seções claras, uso adequado de negrito, tamanho da fonte e marcadores.
- As fontes estão bem posicionadas, aparecendo logo após as informações a que se referem, e esse sistema facilita a verificação dos fatos.
- O relatório atingiu um bom equilíbrio entre detalhes e extensão - não foi superficial, mas também não foi uma leitura de uma hora. Sempre posso pedir mais detalhes se precisar saber mais.
No entanto, a resposta tinha vários problemas, e vou me concentrar nos principais:
- Imprecisões: Ele confundiu o DeepSeek-V3 com DeepSeek-R1 (não se esqueça de que você mesmo pode ler a resposta aqui).
- Informações desatualizadas: Embora eu tenha solicitado especificamente um relatório atualizado, a Deep Research afirmou que o modelo mais recente da Meta era o Llama 2 e o mais recente da Anthropic era o Claude 2, mencionando rumores sobre algo com "codinome" Sonnet e Haiku. No início, achei isso engraçado, mas depois pensei em quantas pessoas poderiam interpretar essas respostas pelo valor de face.
- Baixa adesão imediata: Eu disse explicitamente ao Deep Research para excluir o GPT-4 e se concentrar nos modelos mais recentes, mas ele não seguiu essa instrução.
- Respostas incompletas: A seção da OpenAI não mencionou modelos importantes como o o1 e, na seção do Google, omitiu completamente o Veo.
Esses problemas tornam difícil confiar na Deep Research da OpenAI. Eu o testei deliberadamente em um assunto sobre o qual tenho conhecimento, para que pudesse verificar a resposta - mas e se eu tivesse que confiar na Deep Research para um tópico sobre o qual não sei nada?
Exemplo 2: Tópico permanente
Talvez o problema da pesquisa profunda seja que ela ainda não é tão boa em identificar as informações mais atualizadas. Por isso, decidi testá-lo em um tópico mais perene, que não dependa tanto de desenvolvimentos recentes.
Dirijo um carro fabricado em 2013 e, de vez em quando, penso em substituí-lo. Mas sempre me deparo com a mesma pergunta: devo comprar um novo ou um usado? Um carro novo se desvaloriza rapidamente, mas um carro velho pode significar custos de reparo mais altos. Quero saber o que os especialistas pensam sobre isso, portanto, essa foi uma excelente oportunidade para pedir à Deep Research que pesquisasse vários estudos e opiniões e compilasse um relatório.
Antes de prosseguir, deixe-me dar uma dica: antes de solicitar a pesquisa profunda, otimize sua solicitação usando seu LLM de referência. Comece com "Você é um engenheiro de prontidão. Ajude-me a otimizar este prompt: (seu prompt aqui)". Aqui está o prompt otimizado que usei para a Deep Research:

Assim como antes, a Deep Research pediu esclarecimentos antes de começar e concluiu a pesquisa em seis minutos, consultando várias páginas da Web em 12 fontes. Você pode ler o relatório completo aqui.
Dessa vez, o relatório foi bom - muito bom!
Nunca imaginei que você pudesse pensar sobre esse problema de tantos ângulos. A amplitude das informações foi impressionante e, segundo minhas estimativas, o Deep Research me poupou mais de 10 horas de navegação e pesquisa. Ele incluiu estudos acadêmicos, relatórios do setor, análises de tendências de mercado, comparações de custos de seguros, etc.
Não sou especialista nessa área, portanto não posso avaliar totalmente a precisão do relatório. Entretanto, do ponto de vista do consumidor, muitas das informações faziam sentido lógico e eram realmente úteis. Também verifiquei alguns detalhes com base nas fontes citadas e não encontrei nenhum problema.
Assim como no primeiro exemplo, a profundidade foi bem equilibrada e a estrutura de saída foi excelente. Gostei particularmente da tabela abaixo - basta olhar para esses valores de depreciação e você entenderá por que vou manter meu híbrido de 12 anos por um tempo.

Conclusão
A Deep Research da OpenAI é muito promissora e pode nos poupar muito tempo de pesquisa. No entanto, ele ainda não é confiável quando se trata de informações atualizadas, às vezes produzindo fatos incorretos ou inferências falhas.
Ainda acho que a Deep Research ainda está em sua fase inicial, e a equipe da OpenAI reconhece isso abertamente em seu artigo de anúncio.
Sinceramente, continuarei voltando ao Deep Research e espero que ele fique cada vez melhor.
Perguntas frequentes
O Deep Research está disponível em dispositivos móveis?
Atualmente, o Deep Research está disponível apenas na versão desktop do ChatGPT, mas a OpenAI anunciou o suporte para dispositivos móveis dentro de um mês.
A Deep Research pode trabalhar com tópicos altamente técnicos ou de nicho?
Sim, mas sua precisão depende da disponibilidade de fontes on-line confiáveis. Em campos de nicho com documentação limitada, ele pode ter dificuldades para produzir resultados de alta qualidade.
Como o Deep Research se compara à ferramenta de navegação padrão do ChatGPT?
Diferentemente da navegação normal, o Deep Research realiza investigações em várias etapas, referenciando várias fontes, analisando informações e gerando relatórios estruturados em vez de respostas rápidas.
O Deep Research estará disponível para usuários de nível gratuito?
A OpenAI não anunciou planos para disponibilizar o Deep Research para usuários de nível gratuito. No momento, ele é exclusivo para usuários Pro, com planos de expansão para contas Plus, Team e Enterprise.
Qual é a diferença entre o Deep Research da OpenAI e o Deep Research do Google?
O Deep Research da OpenAI e o Deep Research do Google realizam investigações na Web em várias etapas, mas diferem na execução. A versão da OpenAI, alimentada por um modelo baseado em o3, concentra-se em relatórios estruturados, raciocínio e análise de dados baseada em Python, mas tem tido dificuldades com a precisão atualizada. Isso leva de 5 a 30 minutos por relatório e, no momento, está limitado aos usuários Pro no ChatGPT. O Deep Research do Google, integrado ao Gemini, usa a Pesquisa do Google para recuperar informações em tempo real, concluindo a pesquisa em 5 a 10 minutos. Embora a versão da OpenAI se destaque em análises mais profundas, a do Google pode ser melhor para encontrar as fontes mais recentes e confiáveis.



