Saltar al contenido principal

Investigación profunda de OpenAI: Una guía con ejemplos prácticos

Conoce la nueva herramienta de Investigación Profunda de OpenAI, que puede realizar investigaciones en profundidad y en varios pasos.
Actualizado 5 feb 2025  · 8 min de lectura

OpenAI acaba de lanzar Deep Research, un agente de IA impulsado por una versión del próximo modelo o3. Está diseñado para navegar por Internet, analizar múltiples fuentes y sintetizar grandes cantidades de información.

Te estarás preguntando: ¿No lo hace ya ChatGPT?

A diferencia de una sesión normal de ChatGPT que genera respuestas rápidas, Deep Research puede realizar investigaciones de varios pasos, hacer referencia a múltiples fuentes y elaborar informes estructurados.

Por ejemplo, si alguna vez has investigado cuál es el mejor coche para comprar -comparando opiniones, sopesando costes, etc.-, sabes que encontrar información fiable lleva tiempo y mucha navegación por Internet. La Investigación Profunda está hecha exactamente para este tipo de trabajo.

He probado Deep Research, y me ha sorprendido y decepcionado a la vez. Muestra un gran potencial, pero también produce hechos e inferencias incorrectos. En este blog, seré tu agente humano y resumiré todo lo que necesitas saber sobre la Investigación Profunda. Te guiaré a través de ejemplos prácticos, compartiré consejos sobre cómo provocar y te mostraré dónde brilla la Investigación Profunda y dónde debes tener más cuidado.

¿Qué es la investigación profunda de OpenAI?

La Investigación Profunda de OpenAI es un agente potenciado por IA diseñado para realizar investigaciones en profundidad y en varios pasos en Internet. A diferencia de las capacidades de navegación estándar de ChatGPT, que proporcionan respuestas rápidas, Deep Research encuentra, analiza y sintetiza de forma autónoma información de cientos de fuentes en línea.

Se puede acceder a DeepResearch de OpenAI desde el chat

Deep Research está diseñado para cualquier persona que necesite una investigación exhaustiva y fiable, incluyendo:

  • Profesionales de las finanzas, la ciencia, la política y la ingeniería que necesiten informes bien citados y estructurados
  • Estrategas empresariales que realizan análisis competitivos o previsiones de tendencias
  • Investigadores y estudiantes que recopilan información de múltiples fuentes
  • Compradores y consumidores que toman decisiones de compra arriesgadas (por ejemplo, coches, electrodomésticos, bienes inmuebles)
  • Escritores, periodistas y analistas que necesitan información contrastada y de múltiples fuentes

Básicamente, si una tarea implica buscar en varias fuentes, cruzar datos y sintetizar la información en un formato útil, Deep Research es la herramienta adecuada.

¿Cómo funciona la investigación profunda?

Impulsada por una versión del próximo modelo o3, Deep Research se basa en los avances de OpenAI en modelos de razonamiento, pero está optimizada específicamente para la navegación web y el análisis de datos del mundo real.

Para lograrlo, OpenAI entrenó a Deep Research mediante aprendizaje por refuerzo en tareas reales de navegación y razonamiento. Esto permite al modelo seguir un proceso de investigación iterativo, paso a paso, mejorando su capacidad para sintetizar temas complejos en informes estructurados.

Puntos de referencia de investigación profunda

El último examen de la humanidad

El Último Examen de la Humanidad es una nueva prueba diseñada para poner a prueba a la IA en preguntas de opción múltiple y de respuesta corta de nivel experto sobre más de 100 temas, desde lingüística y cohetería hasta ecología y matemáticas. Esta evaluación mide la capacidad de una IA para razonar entre disciplinas y buscar conocimientos especializados cuando sea necesario, una habilidad fundamental para los modelos orientados a la investigación.

Deep Research logró una precisión récord del 26,6%, superando con creces a modelos anteriores, como el propio o1 de OpenAI (9,1%), DeepSeek-R1 (9,4%) y Sonnet de Claude 3.5 (4,3%). En particular, las mayores mejoras respecto a la o1 de OpenAI se observaron en química, humanidades y ciencias sociales, y matemáticas, donde Deep Research demostró su capacidad para desmenuzar preguntas complejas y recuperar información fidedigna.

Modelo

Precisión (%)

GPT-4o

3.3

Soneto Claude 3.5

4.3

Pensamiento Géminis

6.2

OpenAI o1

9.1

DeepSeek-R1*

9.4

OpenAI o3-mini (alta)*

13.0

Investigación Profunda OpenAI (con herramientas de navegación + Python)

26.6

* Modelos probados en el subconjunto de sólo texto del examen porque no son multimodales. Fuente: OpenAI

GAIA

GAIA (General AI Agent benchmark) evalúa lo bien que los sistemas de IA manejan las preguntas del mundo real, lo que requiere una combinación de razonamiento, navegación web, fluidez multimodal y destreza en el uso de herramientas.

Deep Research estableció un nuevo récord en el estado del arte (SOTA), liderando la tabla de clasificación externa de clasificación GAIA con un gran rendimiento en todos los niveles de dificultad. El modelo mostró una precisión especialmente alta en las tareas de Nivel 3, que requieren una investigación compleja de varios pasos y la síntesis de .

Evaluación GAIA

Nivel 1

Nivel 2

Nivel 3

Media

SOTA anterior

67.92%

67.44%

42.31%

63.64%

Investigación profunda (pass@1)

74.29%

69.06%

47.6%

67.36%

Investigación profunda (cons@64)

78.66%

73.21%

58.03%

72.57%

Fuente: OpenAI

La alta puntuación pass@1de Deep Research demuestra que incluso su primer intento de responder a una pregunta GAIA es más preciso que los modelos anteriores. Lapuntuación cons@64 (que mide el rendimiento con múltiples intentos de respuesta) destaca aún más su capacidad para autocorregirse y afinar sus respuestas basándose en nueva información.

Evaluaciones internas

OpenAI también realizó evaluaciones internas, en las que Deep Research fue valorada por expertos del dominio en tareas de nivel experto. Las evaluaciones internas me parecieron muy interesantes.

El gráfico siguiente muestra que el porcentaje de aprobados del modelo aumenta a medida que realiza más llamadas a la herramienta. Esto pone de relieve la importancia de dejar que explore y analice la información de forma iterativa: darle más tiempo para pensar conduce a mejores resultados.

índice de aprobados frente a la herramienta máxima llamadas gráfico para la investigación profunda de openai

Fuente: OpenAI

Echemos un vistazo a otro gráfico: véase más abajo. La Investigación Profunda funciona mejor en tareas con un valor económico estimado más bajo, y la precisión disminuye a medida que aumenta el impacto económico potencial de la tarea. Esto sugiere que las tareas más importantes desde el punto de vista económico suelen ser más complejas o depender de conocimientos patentados que no son ampliamente accesibles en línea.

gráfico de porcentaje de aprobados frente a valor económico estimado para la investigación profunda de openai

Fuente: OpenAI

El gráfico siguiente contrasta los porcentajes de aprobados con las horas estimadas que tardaría un humano en completar cada tarea. El modelo obtiene los mejores resultados en tareas que a una persona le llevarían entre 1 y 3 horas, pero el rendimiento no disminuye sistemáticamente con el tiempo, lo que indica que lo que la IA considera difícil no siempre coincide con lo que a los humanos les lleva tiempo.

Fuente: OpenAI

Cómo utilizar la Investigación Profunda: Ejemplos prácticos

En el momento de publicar este artículo, Deep Research sólo está disponible para los usuarios Pro, con un límite de 100 consultas al mes, pero OpenAI tiene previsto ampliar pronto el acceso a los usuarios Plus, Team y Enterprise.

En mi opinión, la Investigación Profunda está aún en su fase inicial. Aunque es muy prometedor, el primer ejemplo que sigue pone de manifiesto muchos de sus problemas. Sin embargo, el segundo ejemplo demuestra su inmenso potencial.

Ejemplo 1: Ecosistemas de IA

Constantemente me esfuerzo por tener una visión completa de los ecosistemas de IA de las distintas empresas. Mira Google, por ejemplo: tienen Gemini 2.0 Flash, Imagen 3, Veo 2, Project Mariner, Project Astra... ¿qué más me falta? Para obtener por fin una visión clara, solicité a la Investigación Profunda de OpenAI lo siguiente.

Ejemplo de chat con la Investigación Profunda de OpenAI 

Observa que el modelo no inició directamente la investigación, sino que pidió aclaraciones. En todas mis pruebas, por muy específica que fuera mi primera indicación, el modelo siempre ha intentado acotar su investigación. Esto es útil, en mi opinión, porque a menudo pienso que mi mensaje es claro y específico, pero normalmente se beneficia de algún refinamiento.

Respondí a las preguntas del modelo y entonces comenzó la investigación. Se abrió un panel en la parte derecha del navegador, que mostraba la actividad del agente y sus fuentes en tiempo real:

Tardó 11 minutos, y el modelo consultó 25 fuentes. Ten en cuenta que una fuente es un sitio web principal, y que el modelo puede navegar por varias páginas de ese sitio web: para 25 fuentes y una media de cuatro páginas por fuente, puedes esperar que el modelo haya navegado por unas 100 páginas web.

La Investigación Profunda de OpenAI tardó 11 minutos en completar la búsqueda

En general, me decepcionó el resultado; puedes leer la respuesta de Deep Research aquí. Pero empecemos por lo que me ha gustado:

  • Aunque no especifiqué una estructura, la respuesta estaba bien organizada, con secciones claras, uso adecuado de negritas, tamaño de letra y viñetas.
  • Las fuentes están bien colocadas, aparecen justo después de la información a la que se refieren, y este sistema facilita la comprobación de los hechos.
  • El informe lograba un buen equilibrio entre detalle y extensión: no era superficial, pero tampoco era una lectura de una hora. Siempre puedo pedir más detalles si necesito saber más.

Sin embargo, la respuesta tenía varios problemas, y me centraré en los principales:

  • Inexactitudes: Confundió DeepSeek-V3 con DeepSeek-R1 (no olvides que puedes leer la respuesta tú mismo aquí).
  • Información obsoleta: Aunque pedí específicamente un informe actualizado, Deep Research afirmó que el último modelo de Meta era Llama 2 y el último de Anthropic era Claude 2, mencionando rumores sobre algo con "nombre en clave" Soneto y Haiku. Al principio me hizo gracia, pero luego pensé en cuánta gente podría tomarse estas respuestas al pie de la letra.
  • Baja adherencia puntual: Le dije explícitamente a Deep Research que excluyera la GPT-4 y se centrara en los últimos modelos, pero no siguió esa instrucción.
  • Respuestas incompletas: La sección de OpenAI no mencionó modelos clave como o1, y en la sección de Google, omitió por completo a Veo.

Estos problemas hacen difícil confiar en la Investigación Profunda de OpenAI. Lo probé deliberadamente en un tema sobre el que tengo conocimientos, para poder comprobar los hechos de la respuesta, pero ¿y si tuviera que confiar en Deep Research para un tema sobre el que no sé nada?

Ejemplo 2:  Tema perenne

Quizá el problema de la Investigación Profunda es que todavía no es tan buena identificando la información más actualizada. Así que decidí probarlo con un tema más perenne, que no dependiera tanto de los acontecimientos recientes.

Conduzco un coche fabricado en 2013 y de vez en cuando pienso en sustituirlo. Pero siempre me atasco con la misma pregunta: ¿debo comprar nuevo o usado? Un coche nuevo se deprecia rápidamente, pero uno viejo puede suponer mayores costes de reparación. Quiero saber qué opinan los expertos al respecto, así que ésta era una oportunidad excelente para pedir a Deep Research que examinara diversos estudios y opiniones y elaborara un informe.

Antes de continuar, permíteme darte un consejo: antes de incitar a la Investigación Profunda, optimiza tu incitación utilizando tu LLM de referencia. Empieza con "Eres un ingeniero rápido. Ayúdame a optimizar este mensaje: (aquí tu mensaje)". Aquí tienes la indicación optimizada que utilicé para la Investigación Profunda:

Al igual que antes, Deep Research pidió aclaraciones antes de empezar y completó la investigación en seis minutos, consultando múltiples páginas web de 12 fuentes. Puedes leer el informe completo aquí.

Esta vez, el informe era bueno, ¡muy bueno!

Nunca imaginé que pudieras plantearte este problema desde tantos ángulos. La amplitud de la información era impresionante y, según mis cálculos, Deep Research me ahorró más de 10 horas de navegación e investigación. Recogió estudios académicos, informes del sector, análisis de tendencias del mercado, comparaciones de costes de seguros, etc.

No soy experto en este campo, por lo que no puedo evaluar plenamente la exactitud del informe. Sin embargo, desde la perspectiva del consumidor, mucha de la información tenía sentido lógico y era realmente útil. También he cotejado algunos detalles con las fuentes citadas y no he encontrado ningún problema.

Al igual que en el primer ejemplo, la profundidad estaba bien equilibrada, y la estructura de salida era excelente. Me ha gustado especialmente la tabla siguiente: basta con mirar esos valores de depreciación para entender por qué conservaré mi híbrido de 12 años durante un tiempo.

ejemplo de salida estructurada en la investigación profunda de openai

Conclusión

La Investigación Profunda de OpenAI es muy prometedora y puede ahorrarnos mucho tiempo de investigación. Sin embargo, sigue siendo poco fiable cuando se trata de información actualizada, y a veces produce hechos incorrectos o inferencias erróneas.

Sigo pensando que la Investigación Profunda está todavía en su fase inicial, y el equipo de OpenAI lo reconoce abiertamente en su artículo de anuncio.

Sinceramente, seguiré volviendo a Deep Research, y espero que sea cada vez mejor.

Preguntas frecuentes

¿Está disponible la Investigación Profunda en dispositivos móviles?

Actualmente, la Investigación Profunda sólo está disponible en la versión web de escritorio de ChatGPT, pero OpenAI ha anunciado su compatibilidad con móviles para dentro de un mes.

¿Puede trabajar Deep Research en temas muy técnicos o de nicho?

Sí, pero su exactitud depende de la disponibilidad de fuentes fiables en línea. En campos nicho con documentación limitada, puede tener dificultades para producir resultados de alta calidad.

¿Cómo se compara la Investigación Profunda con la herramienta de navegación estándar de ChatGPT?

A diferencia de la navegación habitual, la Investigación Profunda realiza investigaciones en varios pasos, consultando múltiples fuentes, analizando la información y generando informes estructurados en lugar de respuestas rápidas.

¿Estará disponible la Investigación Profunda para los usuarios de la capa gratuita?

OpenAI no ha anunciado planes para poner Deep Research a disposición de los usuarios de la capa gratuita. Actualmente es exclusivo para usuarios Pro, con planes de ampliarlo a cuentas Plus, Team y Enterprise.

¿Cuál es la diferencia entre la Investigación Profunda de OpenAI y la Investigación Profunda de Google?

Tanto la Investigación Profunda de OpenAI como la Investigación Profunda de Google realizan investigaciones web de varios pasos, pero difieren en la ejecución. La versión de OpenAI, impulsada por un modelo basado en o3, se centra en informes estructurados, razonamiento y análisis de datos basados en Python, pero ha tenido problemas con la precisión actualizada. Tarda entre 5 y 30 minutos por informe y actualmente está limitado a los usuarios Pro de ChatGPT. La Investigación Profunda de Google, integrada en Gemini, utiliza la Búsqueda de Google para recuperar información en tiempo real, completando la investigación en 5-10 minutos. Mientras que la versión de OpenAI destaca en análisis más profundos, la de Google puede ser mejor para encontrar las fuentes más recientes y autorizadas.

Temas

Aprende IA con estos cursos

programa

AI Fundamentals

10hrs hr
Discover the fundamentals of AI, dive into models like ChatGPT, and decode generative AI secrets to navigate the dynamic AI landscape.
Ver detallesRight Arrow
Comienza el curso
Ver másRight Arrow
Relacionado
An AI juggles tasks

blog

Cinco proyectos que puedes crear con modelos de IA generativa (con ejemplos)

Aprende a utilizar modelos de IA generativa para crear un editor de imágenes, un chatbot similar a ChatGPT con pocos recursos y una aplicación clasificadora de aprobación de préstamos y a automatizar interacciones PDF y un asistente de voz con GPT.

Abid Ali Awan

10 min

Machine Learning

blog

25 proyectos de aprendizaje automático para todos los niveles

Proyectos de aprendizaje automático para principiantes, estudiantes de último curso y profesionales. La lista consta de proyectos guiados, tutoriales y código fuente de ejemplo.
Abid Ali Awan's photo

Abid Ali Awan

15 min

tutorial

Guía para principiantes de la API de OpenAI: Tutorial práctico y prácticas recomendadas

Este tutorial te presenta la API de OpenAI, sus casos de uso, un enfoque práctico para utilizar la API y todas las prácticas recomendadas que debes seguir.
Arunn Thevapalan's photo

Arunn Thevapalan

13 min

tutorial

Tutorial de la API de OpenAI Assistants

Una visión completa de la API Assistants con nuestro artículo, que ofrece una mirada en profundidad a sus características, usos en la industria, guía de configuración y las mejores prácticas para maximizar su potencial en diversas aplicaciones empresariales.
Zoumana Keita 's photo

Zoumana Keita

14 min

tutorial

Tutorial de DeepChecks: Automatizar las pruebas de aprendizaje automático

Aprende a realizar la validación de datos y modelos para garantizar un sólido rendimiento del aprendizaje automático utilizando nuestra guía paso a paso para automatizar las pruebas con DeepChecks.
Abid Ali Awan's photo

Abid Ali Awan

12 min

tutorial

Ajuste fino de GPT-3 mediante la API OpenAI y Python

Libere todo el potencial de GPT-3 mediante el ajuste fino. Aprenda a utilizar la API de OpenAI y Python para mejorar este modelo de red neuronal avanzado para su caso de uso específico.
Zoumana Keita 's photo

Zoumana Keita

12 min

Ver másVer más