Curso
La demostración en vivo de ChatGPT Agent fue impresionante: buscar regalos en Internet, reservar viajes, crear presentaciones. La publicación del anuncio mostraba unos resultados de referencia impresionantes, lo que sugería que el agente podía manejar tareas complejas del mundo real.
Sin embargo, las demostraciones en vivo siempre utilizan ejemplos cuidadosamente seleccionados, y los puntos de referencia no reflejan la compleja realidad de los flujos de trabajo cotidianos que OpenAI afirma que el agente puede resolver.
Así que sometí al agente a cinco exigentes pruebas que reflejan situaciones reales de trabajo: tareas que requieren manejar varias pestañas del navegador, cruzar información entre diferentes sitios web y ofrecer resultados que yo realmente utilizaría. Este artículo muestra lo que ocurre cuando las promesas del marketing se enfrentan a la realidad práctica.
Mantenemos a nuestros lectores al día sobre las últimas novedades en IA mediante el envío de The Median, nuestro boletín informativo gratuito de los viernes que resume las noticias más importantes de la semana. Suscríbete y mantente al día en solo unos minutos a la semana:
¿Qué es ChatGPT Agent?
ChatGPT Agent es la última función premium de OpenAI para usuarios Plus, Pro y Enterprise. Reúne tres herramientas que antes funcionaban por separado: Investigación profunda, operador y razonamiento del modelo de lenguaje central. ¿Cuál es la gran diferencia? El agente dispone de su propio ordenador virtual para trabajar.
Esto es importante porque la configuración anterior tenía problemas. El modo de investigación profunda era excelente para el análisis, pero no se podía hacer clic en nada. El operador podía navegar por sitios web, pero no tenía la capacidad de razonamiento que hacía tan útil la investigación en profundidad. El agente soluciona esto combinando ambas habilidades en un solo lugar.
¿Qué diferencia a ChatGPT Agent?
Encontrarás el agente como otra opción en la barra de herramientas del chat. Pero, a diferencia del ChatGPT normal, se ejecuta en un ordenador virtual con acceso completo a:
- Navegador para navegar por Internet y realizar búsquedas
- Terminal para ejecutar comandos y scripts
- Entorno de ejecución de código para el procesamiento de datos
- Sistema de archivos para descargar y organizar contenido
La configuración del ordenador virtual permite al agente realizar tareas que antes no eran posibles.
Ejemplo 1: Tarea de datos sobre educación de la UNESCO
Cuando lo probé con una tarea sobre datos educativos de la UNESCO, lo vi funcionar durante 14 minutos seguidos. Esta fue la indicación (sugerida por el propio ChatGPT durante mi primera interacción con el agente):
Pull the latest available data from the UNESCO Institute for Statistics on national student-teacher ratios and total teaching staff counts for primary and secondary education.
Create a spreadsheet with two tabs: one for primary education and one for secondary.
Each should include country name, student-teacher ratio, total number of teachers, gross enrollment, and year of reporting.
Add a summary tab highlighting the countries with the most strained and most favorable ratios, sorted accordingly.
Ensure consistent country naming across tabs.
Esto es lo que podría manejar mientras ejecuta el comando:
- Lee páginas web desplazándote como lo harías normalmente (aunque más rápido) en lugar de analizar el código HTML sin formato.
- Haz clic en botones, rellena formularios y, no es broma, cierra ventanas emergentes y acepta cookies.
- Descargar archivos y descomprimir archivos automáticamente
- Cambia entre el navegador y el terminal según sea necesario.
- Analizar los archivos descargados y volver a la navegación
- Descargar archivos PDF y extraer contenido de texto
- Corregir errores volviendo a las páginas anteriores
- Controla el cursor con fluidez en diferentes interfaces.
Comparación real del rendimiento con o3-pro
Le di tanto al agente como a o3-pro la misma indicación compleja anterior: extraer los datos de la UNESCO sobre la ratio alumno-profesor y crear una hoja de cálculo con formato y varias pestañas. Los resultados mostraron diferencias claras.
El agente trabajó durante 14 minutos y entregó una hoja de cálculo que abarcaba 222 países. Faltaba un requisito (la pestaña de resumen con las mejores/peores relaciones) y la lista se ordenaba alfabéticamente en lugar de por relaciones. Esto podría ser exceso de contexto , es decir, que el modelo olvida los detalles originales mientras realiza una tarea larga.

Por otro lado, o3-pro tardó 18 minutos en pensar en el problema. Luego se encontró con obstáculos que el agente había resuelto automáticamente anteriormente. Como o3-pro no puede descargar archivos, me pidió que descargara manualmente dos recursos, los descomprimiera y ejecutara un script de Python que había escrito. No probé el script, pero estaba claro que este método añadiría al menos 10 minutos a mi flujo de trabajo.
Cómo funciona el agente en la práctica
Cuando el agente se ejecuta, puedes ver todo lo que sucede en tiempo real. Puedes tomar el control del navegador en cualquier momento, pero para tareas que no impliquen datos confidenciales ni interacciones, funciona perfectamente por sí solo.

Cuando el agente haya terminado, tendrás dos formas de revisar lo que ha ocurrido. Hay una grabación completa en vídeo que puedes pausar y reproducir (bastante aburrida de ver una vez pasada la novedad). Además, se incluye una cronología detallada que muestra el razonamiento detrás de cada paso, los comandos reales ejecutados y las operaciones de archivo realizadas.

¿Lo mejor? Una vez que el agente haya completado una tarea, puedes hacer preguntas de seguimiento en el modo de chat normal. Recuerda todo lo que ha aprendido y puede consultar los datos que ha recopilado.
Ejemplo 2: Crear un collage de imágenes
La primera tarea de investigación demostró que el agente podía gestionar la recopilación de datos complejos. Pero necesitaba probar algo diferente: tareas que requirieran el uso constante del ratón con elementos de páginas web. De lo contrario, seguiría utilizando los atajos de teclado y haría las cosas por mi cuenta.
Inmediatamente pensé en crear figuras y diagramas. Hago esto a menudo para las entradas del blog, así que me pareció un caso de prueba natural.
La tarea y el primer intento
Mientras investigaba para este artículo, leí la publicación de OpenAI sobre ChatGPT Agent. La publicación contiene entre seis y siete imágenes con los resultados de las pruebas comparativas, que muestran las impresionantes puntuaciones de rendimiento del agente. En lugar de enumerar cada punto de referencia por separado, decidí pedirle al agente que creara un collage visual que pudiera añadir a esta entrada del blog.
I want you to open the following link, combine all benchmark results' images into a single collage and highlight the columns where ChatGPT's agent results are given.
<link>
https://openai.com/index/introducing-chatgpt-agent/
</link>
Lo que quería era muy sencillo: coger todos los diagramas de referencia de la página web, organizarlos en filas y dibujar rectángulos rojos alrededor de las columnas que mostraban el rendimiento de Agent. Para cualquier usuario ocasional de Canva, esto lleva unos minutos: coger imágenes, organizarlas y dibujar algunos rectángulos.
Pero para un programa de IA, esto requiere un razonamiento complejo y un trabajo intenso con el ratón. El agente tardó 9 minutos y te proporcionó un servicio decepcionante.

La imagen era completamente vertical en lugar de tener un diseño de parrilla adecuado. Los rectángulos rojos no eran contornos limpios, sino formas rellenas dispersas por todas las imágenes. Peor aún, se había desviado a otros sitios web completamente diferentes, extrayendo resultados de pruebas comparativas de páginas aleatorias en lugar de la publicación del anuncio que yo había especificado.
También ignoró Canva por completo, a pesar de que lo tenía conectado a tu cuenta.
Segunda ronda: instrucciones más detalladas
He creado un nuevo hilo con instrucciones más específicas:
I want you to open the following webpage where you will find a bunch of benchmark results given in the form of images on the performance of ChatGPT Agent. Your task is to combine all those images given in the webpage (ONLY IN THAT WEBPAGE, DON'T SEARCH FOR ADDITIONAL INFORMATION) into a single collage where you organize the images side-by-side in rows. Afterward, highlight the columns where ChatGPT Agent's performance is shown with a red rectangle. Use Canva to do this task
<link>
https://openai.com/index/introducing-chatgpt-agent/
</link>
En primer lugar, el agente se encontró con un CAPTCHA al intentar leer la publicación del anuncio. Tuve que tomar el control y seleccionar las imágenes de los pasos de peatones yo mismo. Luego funcionó durante 18 minutos antes de detenerse y pedirme que iniciara sesión en Canva.

El inicio de sesión no fue fluido. El retraso del ordenador virtual y del navegador: nada que ver con la respuesta rápida que esperas al iniciar sesión en sitios web. Los atajos de teclado como Cmd + V para pegar contraseñas tardan más en registrarse.
Donde todo se vino abajo
Una vez que inicié sesión en Canva con Agent, volvió a funcionar en la interfaz.

Después de 8 minutos viéndolo dar vueltas sin saber qué hacer, tuve que intervenir. El agente estaba intentando dibujar manualmente las imágenes de los resultados de referencia una por una, en lugar de utilizar las imágenes descargadas realmente.
Aclaré con otra pregunta:
No, you are going in the wrong direction on Canva.
What I meant was that after you grabbed the benchmark results' images, paste them into canva and organize them one-by-one into a 16:9 collage with ChatGPT Agent's performance highlighted with a red rectangle
El agente lo entendió esta vez, pero estaba claro que no sabía realmente cómo ejecutar la tarea.
Me costó bastante releer la publicación del anuncio y descargar las imágenes de referencia. El proceso de descarga fue muy lento: el agente no dejaba de dudar entre utilizar «Copiar enlace de la imagen», «Guardar imagen» u otras opciones del menú contextual, en lugar del botón «Descargar imagen» situado en la esquina superior derecha.
Después de subir finalmente las imágenes a Canva, el agente comenzó el trabajo de diseño propiamente dicho. Esto reveló lo deficiente que es realmente su control espacial. Ver cómo intentabas arrastrar las imágenes a su posición era como ver a un niño usar un ordenador. Seguía perdiendo las alineaciones y las posiciones naturales donde debían ir los elementos.

Otro problema surgió cuando el agente intentó dibujar rectángulos alrededor de las barras de referencia. Para los seres humanos, esto es trivial: un movimiento suave del ratón dibuja un rectángulo. Para el agente, esto se convirtió en una tarea difícil. Dado que carece de inteligencia de diseño espacial y visual, recurrió a la ejecución de scripts de Python y OCR para detectar qué barras mostraban el rendimiento del agente y, a continuación, calculaba las coordenadas exactas para la colocación del rectángulo.
El resultado final
Toda la operación duró más de 75 minutos, incluyendo todos los idas y venidas. El agente me dejó una «Página de diseño sin título 2» en mi cuenta de Canva.

La imagen parecía recortada porque el agente había intentado añadir un elemento de texto de título, lo que de alguna manera obligó a ocultar la parte superior. Después de algunos ajustes manuales, obtuve un collage funcional, aunque bastante rudimentario en comparación con lo que incluso un diseñador humano sin experiencia podría crear en cuestión de minutos.

La inversión de tiempo no justificaba en absoluto la calidad del resultado. Para empeorar las cosas, más tarde descubrí que el agente no había utilizado las herramientas de rectángulos de Canva, sino que había dibujado los rectángulos en Python y luego había subido la imagen modificada a Canva. Esto significaba que no podía ajustar ni mover manualmente esos rectángulos torcidos más tarde.
Introducción a los agentes de IA
Ejemplo 3: Diseño de una imagen de portada sencilla
En ese momento, me di cuenta de que le había pedido al agente una tarea demasiado compleja. La creación del collage implicaba demasiados elementos móviles: extracción de datos de la web, razonamiento espacial, manipulación de múltiples imágenes y un trabajo de diseño preciso, todo al mismo tiempo.
Así que probé algo más sencillo: crear imágenes de portada para las entradas del blog. En realidad, esta es una tarea que no me gusta hacer, así que si el agente pudiera encargarse de ella, sería de gran ayuda.
Mantuve los requisitos básicos: Estoy escribiendo un tutorial sobre el nuevo modo agente de ChatGPT. Tu tarea consiste en crear una imagen de portada en formato 16:9 utilizando los colores corporativos de DataCamp para el tutorial. Debe incluir la palabra clave «ChatGPT Agent» y cualquier figura robótica que encuentres junto a ella. Utiliza Canva para completar esta tarea.
Un éxito más manejable
Esta vez, obtuve resultados mucho mejores. El agente buscó correctamente los colores de la marca DataCamp y añadió los dos elementos uno al lado del otro en Canva. La alineación de los elementos seguía sin estar correcta (el texto y las imágenes no estaban perfectamente posicionados entre sí), pero al menos se utilizaban elementos reales de Canva.

Esto significaba que, en lugar de subir un diseño prefabricado, podía arrastrarlos fácilmente a mejores posiciones por mí mismo. Con unos cuantos ajustes rápidos, conseguí una imagen de portada que se podía utilizar.
Un detalle interesante: aunque había iniciado sesión en Canva durante la tarea compleja anterior en otrohilo de chat de, Agent no me pidió que volviera a iniciar sesión aquí. Al parecer, el ordenador virtual guarda el historial del navegador, las cookies y la información de inicio de sesión entre sesiones. Esto es útil para los flujos de trabajo, pero hay que tenerlo en cuenta si no deseas que ChatGPT almacene esa información, ya que tendrás que borrarla manualmente.
Ejemplo 4: Investigación sobre piezas de Lego
Esta vez decidí probar el agente en algo con lo que había tenido dificultades en el pasado. Soy un AFOL (fan adulto de Lego) y hace un par de meses le pedí a ChatGPT que generara un archivo CSV para un paquete básico de 10 000 piezas de Lego Technic utilizando el modelo o3.
La generación de archivos CSV largos es difícil para los LLM porque hay demasiados detalles pequeños que hay que tener en cuenta. Así que cuando generó un archivo CSV compuesto por al menos 50 partes diferentes, con sus ID, nombres y cantidades, descubrí que se equivocaba mucho en algunos ID de partes a pesar de tener acceso a la búsqueda web.
Mi investigación terminó ahí porque no tuve la paciencia necesaria para comprobar cada identificador de pieza y asegurarme de que realmente existían y de que coincidían con la pieza que quería comprar en BrickLink, un mercado oficial de piezas y sets de Lego.
Configuración de la prueba
Pero ahora que tenía acceso al agente, que podía realizar la doble comprobación por mí, solicité a o3 un archivo CSV una vez más, pero para una colección más pequeña de 3000 piezas, para simplificar:
I want you to generate me a 3000-piece bulk pack for getting started with Lego Technic.
I am interested in building cars and motorized mechanisms as a hobby.
The bulk pack you generate must be saved to a CSV file with the following columns:
- Part ID
- Part name
- Amount
Use the official part IDs and names so that when I upload the CSV to bricklink, I can place an order with a single click
La modelo pensó durante 5 minutos y me dio el archivo CSV. Luego cambié a un nuevo hilo (porque resulta que el modo Agente se desactiva cuando el primer mensaje de un hilo de chat no es para el Agente).
La tarea de verificación
Subí el archivo y escribí el siguiente mensaje:
I attached a 3,000-piece Lego Technic starter pack list. Your task is to double-check that each part listed in the list actually exists and that part IDs actually match part names. You must use BrickLink website (only BrickLink) as a single source of truth.
If certain part IDs or names are incorrect, correct them. Afterward, create a wishlist on BrickLink that will allow me to one-click order them later. When creating the wishlist, ask me to log in to BrickLink and I will do that for you.

El agente se marchó. Tras cinco minutos de trabajo en el sitio web de BrickLink, se descubrió que tres piezas tenían nombres diferentes en el sitio web y se corrigieron. Este era precisamente el tipo de trabajo tedioso de verificación que quería evitar hacer yo mismo.
Dónde se interrumpió el flujo de trabajo
Luego me pidió que iniciara sesión para crear una lista de deseos en mi cuenta. Inicié sesión con mis credenciales y el agente recuperó el control para crear una lista de deseos.

Antes de hacer clic en el botón final «Crear lista de deseos», me pidió confirmación, ya que está programado para hacerlo antes de realizar operaciones importantes como esta. Respondí que sí, y fue en ese momento cuando se interrumpió el flujo de trabajo.
El agente dijo que había creado la lista de deseos, pero cuando entré en mi cuenta, no encontré nada. En realidad, se suponía que debía pulsar el botón final «Crear lista de deseos» y, a continuación, cargar el archivo CSV para completar la tarea. Sin embargo, esa última parte se omitió.
Un éxito parcial
Pero, por supuesto, la parte difícil —la investigación propiamente dicha, que requirió cambiar repetidamente de CSV a BrickLink y luego volver a CSV— fue realizada correctamente por el agente. Había verificado con éxito docenas de identificadores de piezas, detectado las inconsistencias en los nombres y las había corregido. Esto me ahorró horas de trabajo manual de referencias cruzadas.
El error se produjo al final, al crear la lista de deseos, probablemente debido a que el agente no entendió el proceso de carga en varios pasos de BrickLink. Aunque fue frustrante, se cumplió el valor fundamental: Ahora tenía un archivo CSV verificado con los ID de las piezas correctos que podía subir manualmente a BrickLink.
Ejemplo 5: Generación de presentaciones
Por último, quería probar las capacidades de PowerPoint del agente, ya que en la publicación del anuncio se incluía la creación de presentaciones como uno de los usos reales del agente. PowerPoint es algo que evito a toda costa y utilizo Gamma si tengo que hacer una presentación.
Ahora quería ver si el Agente estaba a la altura de Gamma. Esta fue mi pregunta:
I want you to build me a presentation pitch deck for convincing existing Manus users to the newly released ChatGPT Agent.
Here is the announcement post that you can use for information: https://openai.com/index/introducing-chatgpt-agent/
Inmediatamente, el agente hizo una pregunta complementaria:
Do you have any specific preferences for slide count, visual style, or key points you'd like emphasized?
A lo que respondí:
Yes, keep it to 10 slides max, use a minimalistic white, black and red (gradients are allowed) for the style.
If possible, look for direct comparisons between Manus and ChatGPT Agent
Un enfoque diferente que funcionó
El agente trabajó en la presentación durante 13 minutos. Curiosamente, no utilizó Google Slides, sino que utilizó el terminal para ejecutar una combinación de código Python y JavaScript.
Puedes encontrar la presentación aquí.
El resultado fue mucho mejor de lo esperado. Estaba esperando otro fracaso similar al de Canva, ya que las presentaciones implican alinear elementos en una página. Pero como el agente solo utilizaba la ejecución de código, podía determinar por sí mismo las coordenadas exactas de los elementos y abrir la presentación real para comprobar visualmente su trabajo y corregir el curso si era necesario.
Comparación de rendimiento con Gamma
Por eso se tardó 13 minutos en generar esta presentación. Esto lleva mucho más tiempo que lo que tarda Gamma en funcionar, pero con Gamma tienes que presentar los datos en formato de texto tú mismo. El agente puede buscar los datos por sí mismo de forma dinámica.
Así que sigue siendo muy impresionante, pero yo diría que hay margen de mejora, especialmente en entornos profesionales de alto nivel. Las diapositivas tenían un aspecto profesional y el contenido estaba bien estructurado, pero el formato podría pulirse más para las presentaciones a los clientes.
Mi opinión sobre los agentes ChatGPT
Antes de probar el agente, mis expectativas eran bastante bajas para no llevarme una decepción. Fue una buena estrategia, porque el agente falló en las tareas que más me cuestan.
Sin embargo, es muy prometedor: me ha hecho darme cuenta de que aún estamos en las primeras fases del desarrollo de agentes capaces de manejar ordenadores y navegadores como lo hacemos los humanos. La infraestructura básica ya está aquí. El software opera un ordenador virtual y un navegador, pero está limitado por la naturaleza inherente de los modelos actuales.
OpenAI no ofrece muchos detalles sobre el modelo de aprendizaje por refuerzo que impulsa al agente. Aunque está optimizado para el control por ordenador, atribuyo las deficiencias del Agente a ese modelo subyacente. Debe seguir viendo el mundo a través de una lente textual, aunque pueda procesar imágenes y capturas de pantalla.
Por eso tiene dificultades con los movimientos del ratón y las tareas espaciales. El agente puede ver dónde están situados los elementos en una página web, pero tiene que traducir esa información visual en comandos basados en coordenadas, en lugar de operar mediante la coordinación visual-motora directa que utilizan los seres humanos. Cuando arrastras una imagen en Canva, no estás calculando coordenadas de píxeles, sino que estás utilizando la intuición espacial. El agente carece de esta comprensión intuitiva del espacio digital.
Esta limitación fundamental explica por qué el agente destacó en tareas de investigación y verificación de datos, pero tropezó en el trabajo de diseño y la manipulación precisa de la interfaz. El futuro de los agentes controlados por ordenador probablemente requerirá nuevas arquitecturas que puedan salvar esta brecha entre la comprensión visual y la interacción espacial.
Por ahora, ChatGPT Agent funciona mejor cuando puedes definir el éxito a través de la lógica en lugar de la estética, y cuando la tarea implica el procesamiento de información en lugar de una disposición espacial creativa.
Conclusión
ChatGPT Agent es un asistente virtual que se ejecuta en un ordenador aislado, combinando navegación web, ejecución de código y gestión de archivos. Aunque su rendimiento es desigual —bueno en tareas de investigación y datos, torpe en trabajos visuales o con mucha interfaz—, es un buen anticipo de cómo las futuras herramientas de IA podrían interactuar con el software en tu nombre.
Para obtener más información sobre los agentes, te recomiendo los siguientes recursos:

Soy un creador de contenidos de ciencia de datos con más de 2 años de experiencia y uno de los mayores seguidores en Medium. Me gusta escribir artículos detallados sobre IA y ML con un estilo un poco sarcastıc, porque hay que hacer algo para que sean un poco menos aburridos. He publicado más de 130 artículos y un curso DataCamp, y estoy preparando otro. Mi contenido ha sido visto por más de 5 millones de ojos, 20.000 de los cuales se convirtieron en seguidores tanto en Medium como en LinkedIn.


