Saltar al contenido principal

Operador de OpenAI: Ejemplos, casos prácticos, competencia y más

Infórmate sobre OpenAI Operator, un agente de IA que utiliza el nuevo modelo de Agente Informático (CUA), que puede navegar por sitios web y realizar tareas de forma autónoma.
Actualizado 24 ene 2025  · 8 min de lectura

OpenAI ha anunciado recientemente Operator, un agente de IA diseñado para manejar por sí mismo tareas basadas en la web. Puede encargarse de tareas como reservar mesa o comprar por Internet, simplificando las interacciones digitales para las tareas cotidianas.

Sin embargo, creemos que su potencial va más allá de la comodidad: podría capacitar a las personas que carecen de conocimientos informáticos, permitiéndoles realizar tareas como rellenar formularios o navegar por sitios web complejos con facilidad.

Además, con una mayor integración de los comandos de voz, podría proporcionar una solución más accesible para las personas con discapacidad, como las que tienen deficiencias visuales.

El operador entra en un campo competitivo que incluye el uso de ordenadores de Anthropic de Anthropic y el Proyecto Mariner de Google. Una diferencia es que las herramientas de Anthropic requieren conocimientos de programación (por ahora), mientras que Operator permite a los usuarios dar instrucciones en lenguaje llano, lo que lo hace más accesible.

En este blog, explicaremos qué es Operator, exploraremos su tecnología central (CUA), esbozaremos sus casos de uso y limitaciones, y discutiremos dónde encaja en el contexto más amplio de los agentes de IA.

¿Qué es el Operador?

Operator es el primer agente de IA de OpenAI, diseñado para realizar tareas de forma autónoma en la web. Un agente de IA es un sistema que puede recibir instrucciones, razonar sobre ellas y ejecutar acciones sin supervisión humana constante.

A diferencia de las herramientas de automatización tradicionales, que dependen de API predefinidas o de flujos de trabajo rígidos, Operator interactúa directamente con los sitios web, imitando acciones humanas como hacer clic, escribir y desplazarse. Su objetivo principal es simplificar las tareas digitales que, de otro modo, requerirían un esfuerzo manual o conocimientos técnicos.

Esto lo hace muy adecuado para actividades cotidianas como gestionar reservas o rellenar formularios, así como para flujos de trabajo más complejos y de varios pasos. Aquí tienes un ejemplo de uso de Operador:

Fuente: OpenAI

El operador utiliza un navegador virtual para navegar por los sitios web. Este entorno virtual le permite interactuar con interfaces gráficas de usuario (GUI) como lo haría un usuario humano. En lugar de requerir que los sitios web dispongan de API especializadas, Operator interpreta la disposición visual de una página web, pulsa botones, teclea campos y se desplaza por el contenido.

El operador se basa en instrucciones en lenguaje llano para entender lo que necesitan los usuarios. Una vez establecida la tarea, procesa las instrucciones, las divide en pasos procesables y los ejecuta mientras proporciona información al usuario. El operador también puede pedir aclaraciones o confirmaciones para acciones críticas, como enviar un formulario o completar un pago, lo que garantiza un mayor control sobre sus resultados.

¿Qué es el Agente Informático (ACU)?

El Agente Informático-Usuario (CUA) es la tecnología central de Operador. Combinando las capacidades de visión de GPT-4o con el razonamiento avanzado mediante aprendizaje por refuerzola CUA está entrenada para interactuar con interfaces gráficas de usuario: botones, menús y campos de texto que la gente ve en una pantalla.

Percepción

La CUA comienza procesando los datos de píxeles en bruto de las capturas de pantalla. Utiliza esta información visual para identificar elementos clave de la interfaz, como botones, campos de entrada y menús de navegación.

Fuente: OpenAI

Razonamiento

Una vez analizados los datos visuales, la CUA aplica el razonamiento de la cadena de pensamiento para planificar sus acciones. Al integrar capturas de pantalla actuales y pasadas, evalúa sus observaciones, divide las tareas en pasos más pequeños y se adapta dinámicamente a los retos. Por ejemplo, si aparece una ventana emergente durante una tarea (como el anuncio que hemos visto en el ejemplo anterior), CUA puede ajustar su enfoque y encontrar una forma de continuar, de forma muy parecida a como lo haría un usuario humano.

Acción

CUA utiliza entradas virtuales de ratón y teclado para realizar acciones como hacer clic, escribir, desplazarse y enviar formularios. Esta funcionalidad le permite ejecutar tareas de forma autónoma, ya sea seleccionar un elemento de un menú desplegable o navegar por un formulario de varios pasos.

Para acciones críticas -como realizar pagos o entrar en cuentas- CAU pide confirmación al usuario antes de proceder, asegurando que los usuarios mantienen el control sobre las operaciones sensibles.

Puntos de referencia CUA

La CUA ha alcanzado un rendimiento de vanguardia (SOTA) en varios puntos de referencia:

Tipo de referencia Punto de referencia Uso del ordenador (Interfaz Universal) Agentes de Navegación Web Human
    OpenAI CUA SOTA anterior SOTA anterior  
Uso del ordenador OSWorld 38.1% 22.0%   72.4%
Uso del navegador WebArena 58.1% 36.2% 57.1% 78.2%
WebVoyager 87.0% 56.0% 87.0%  

 Fuente: OpenAI

Desglosemos lo que hace cada uno de estos tres puntos de referencia:

  • OSWorld (38,1%): Evalúa la capacidad de realizar tareas en sistemas operativos completos como Ubuntu, Windows y macOS. Aunque la CUA supera a los modelos anteriores, su tasa de éxito sigue estando por debajo del punto de referencia humano del 72,4%.
  • WebArena (58,1%): Evalúa el rendimiento en la navegación por sitios web simulados, incluidos los de comercio electrónico y plataformas sociales. Aunque supera a los modelos anteriores, tiene margen de mejora en el manejo de interacciones complejas de varios pasos.
  • WebVoyager (87%): Mide la eficacia en sitios web activos como Amazon, GitHub y Google Maps. La CUA obtiene buenos resultados aquí, ya que las tareas tienden a ser más sencillas y estructuradas en comparación con WebArena.

El gráfico siguiente ilustra el rendimiento de la CUA de OpenAI en comparación con Claude 3.5 Sonnet en la prueba de referencia OSWorld. El eje x representa el número máximo de pasos permitidos para completar la tarea, mientras que el eje y muestra el porcentaje de éxito. La CUA demuestra una mejora constante con más pasos permitidos, superando a los modelos anteriores del estado de la técnica.

Gráfico comparativo entre CUA de OpenAI y Sonnet de Claude 3.5 en la prueba de referencia OSWorld

Fuente: OpenAI

Cómo acceder al Operador

Actualmente, Operator está disponible en Estados Unidos como parte de un avance de investigación para usuarios Pro de ChatGPT. Para acceder a ella, necesitas una suscripción Pro activa. Puedes visitar operator.chatgpt.com para empezar a utilizar Operator.

​Por ahora, Operator está limitado a los usuarios Pro, pero OpenAI tiene previsto ampliar el acceso a los usuarios Plus en los próximos meses. La estrategia de despliegue permite a OpenAI recoger opiniones y mejorar el sistema antes de ofrecerlo a un público más amplio.

Aunque Operator se centra en los usuarios de EE.UU. durante el lanzamiento inicial, OpenAI ha declarado que la accesibilidad en Europa y otras regiones llevará más tiempo debido a los retos normativos. Los usuarios de estas regiones tendrán que esperar a futuras actualizaciones mientras OpenAI trabaja para superar estas complejidades.

Mensaje de interfaz de usuario que muestra que el operador no está disponible en Europa

De cara al futuro, OpenAI también planea hacer que la tecnología subyacente de Operator, conocida como CUA, esté disponible a través de una API. Esto permitiría a los desarrolladores crear sus propios agentes potenciados por IA para aplicaciones personalizadas.

Casos de uso del operador

Los ejemplos de demostración de Operator -como reservar una mesa o comprar por Internet- son funcionales, pero a nosotros no nos parecen especialmente prácticos. A menudo es más rápido y fácil realizar estas tareas manualmente que dedicar tiempo a supervisar la ejecución de una IA.

Sin embargo, el potencial de Operator se hace más evidente cuando se piensa más allá de estos casos de uso, centrándose en la accesibilidad o el apoyo institucional.

Casos de uso del operador

Accesibilidad

Una de las áreas más impactantes en las que Operator podría brillar es en la accesibilidad. Para las personas con conocimientos informáticos limitados, como los ancianos o los que se inician en la tecnología, el Operador podría actuar como guía, ayudándoles a navegar por tareas online complejas sin necesidad de conocimientos previos.

Imagina que esto se combinara con comandos de voz: los usuarios ni siquiera tendrían que escribir una instrucción, lo que haría que la herramienta fuera aún más intuitiva.

Del mismo modo, para las personas con discapacidad, como las que tienen problemas visuales, el Operador podría ayudarles a interactuar con sitios web que de otro modo serían inaccesibles, especialmente si se combina con información de audio o con la ayuda de un lector de pantalla.

Apoyo institucional

El operador tiene un gran potencial en entornos gubernamentales e institucionales. Podría ayudar a los ciudadanos a rellenar formularios complejos para tareas como solicitar visados, declarar impuestos o acceder a prestaciones sociales. Esto reduciría la dependencia de la asistencia en persona y mejoraría los procesos tanto para los usuarios como para las instituciones.

En la educación, el Operador podría simplificar los sistemas de solicitud en línea, la presentación de becas y las tareas de investigación, permitiendo a los estudiantes o a las personas con conocimientos digitales limitados navegar por estos procesos con mayor eficacia.

Pequeñas empresas y tareas profesionales

En el lugar de trabajo, el Operador podría ser valioso para las pequeñas empresas automatizando tareas repetitivas basadas en la web, como la gestión de inventarios, el procesamiento de pedidos en línea o la recogida de opiniones de los clientes. Para los profesionales, podría encargarse de flujos de trabajo tediosos, como recopilar información de múltiples fuentes o rellenar formularios, liberando tiempo para un trabajo más estratégico.

Sanidad y organizaciones sin ánimo de lucro

La sanidad y las organizaciones sin ánimo de lucro podrían beneficiarse significativamente de Operator. Las clínicas podrían utilizarlo para ayudar a los pacientes a rellenar formularios de inscripción en línea o acceder a recursos sin necesidad de que intervenga mucho personal.

Las organizaciones sin ánimo de lucro que operan en regiones con escasa alfabetización digital podrían desplegar un Operador para ayudar a las poblaciones desatendidas a navegar por los sistemas esenciales en línea, garantizando que las barreras tecnológicas no limiten el acceso a servicios vitales.

Competencia de los agentes de IA

El Operador de OpenAI entra en el espacio de los agentes de IA junto a las capacidades de uso informático de Anthropic y el Proyecto Mariner de Google.

Uso informático de Anthropic

Uso informático de Anthropicimpulsado por su Claude 3.5 Sonnet permite a la IA interactuar con entornos de escritorio simulando acciones humanas como hacer clic, teclear y navegar. Actualmente, esta función requiere ciertos conocimientos técnicos para configurarla y utilizarla eficazmente a través de la API, lo que limita su accesibilidad para los usuarios no técnicos.

En cambio, la interfaz en lenguaje llano de Operator elimina la necesidad de conocimientos de programación, lo que lo hace más fácil de usar para un público más amplio. Sin embargo, es casi seguro que Anthropic trabajará en la simplificación de sus herramientas para competir más directamente con el diseño accesible de Operator.

Proyecto Mariner de Google

Proyecto Marinerdesarrollado por DeepMind de Google, es un agente experimental diseñado para navegar e interactuar con páginas web de forma autónoma. Aunque todavía está en fase de investigación, Mariner se está probando con un pequeño grupo de usuarios, y su integración en el ecosistema de Google sugiere que podría destacar en flujos de trabajo que impliquen a Gmail, Google Docs y otros servicios de Google.

Conclusión

Operator es el primer paso de OpenAI en el competitivo campo de los agentes de IA, ofreciendo un enfoque único con su interfaz de lenguaje sencillo y su diseño universal basado en el navegador. Aunque herramientas como el uso informático de Anthropic y el Proyecto Mariner de Google aportan sus propios puntos fuertes, el enfoque de Operator en la accesibilidad lo diferencia por ahora.

También tenemos curiosidad por la posibilidad de que otros actores, como DeepSeek o Meta, se unan a la competición. 2025 podría estar a la altura de las expectativas y ser el año de la IA agéntica.

Preguntas frecuentes

¿Puede OpenAI Operator manejar más de una tarea al mismo tiempo?

Sí, Operator está diseñado para gestionar varias tareas simultáneamente. Puedes tener conversaciones separadas para cada tarea, y el Operador se ejecuta en paralelo. Por ejemplo, puedes hacer que el Operador haga el pedido de la compra en Instacart a la vez que hace una reserva en Booking.com.

¿Es OpenAI Operator un agente de IA?

Sí, OpenAI Operator es un agente de IA diseñado para realizar tareas por ti de forma autónoma. Interactúa con los sitios web navegando, haciendo clic y rellenando formularios, permitiéndote automatizar actividades. Aprende más sobre los agentes de IA con nuestra entrada de blog: Comprender a los agentes de IA: El futuro de los sistemas autónomos.

¿Cómo funciona el Operador?

Basado en el modelo de Agente Usuario de Ordenador (CUA), el Operador interactúa con las páginas web viendo capturas de pantalla y realizando acciones con el ratón y el teclado. Puede autocorregirse o pedir ayuda al usuario cuando sea necesario.

¿Quién puede utilizar Operator ahora mismo y cómo puede empezar?

El Operador está disponible para los usuarios Pro de EEUU. Si tienes una suscripción Pro, puedes visitar operator.chatgpt.com para empezar. Intenta describir una tarea y Operator se encargará de ella.

¿Cuáles son las limitaciones actuales de Operador?

Dado que Operator es todavía una versión preliminar de investigación, puede tener problemas con tareas complejas como crear presentaciones de diapositivas o gestionar calendarios.

¿Operador estará disponible en dispositivos móviles?

Aún no hay confirmación sobre la compatibilidad móvil de Operador, pero su capacidad para interactuar con interfaces web podría hacer que se adaptara a plataformas móviles en el futuro, a medida que se desarrolle la tecnología.

¿Cómo se compara Operator con asistentes de voz como Siri o Google Assistant?

Operator se centra en tareas basadas en la web y en interactuar directamente con sitios web, mientras que los asistentes de voz tradicionales suelen basarse en integraciones de aplicaciones predefinidas o API. La capacidad de Operator de imitar acciones humanas como hacer clic y desplazarse lo distingue en cuanto a versatilidad para tareas complejas en línea.

¿Puede Operator gestionar sitios web que utilicen CAPTCHA o funciones de seguridad avanzadas?

Actualmente, Operator depende de la entrada del usuario para las tareas que implican CAPTCHAs o inicios de sesión sensibles. No elude estos sistemas automáticamente, pero puede navegar por los flujos de trabajo una vez resueltas dichas barreras.


Alex Olteanu's photo
Author
Alex Olteanu
LinkedIn

Jota de todos los oficios, maestra de Python, marketing y estrategia de contenidos, SEO, edición, redacción. Técnico: escribí cursos sobre Python, estadística y probabilidad. Pero también publiqué una novela premiada. Edición de vídeo y etalonaje en DaVinci.


Josef Waples's photo
Author
Josef Waples
Temas

Aprende IA con estos cursos

curso

Artificial Intelligence (AI) Strategy

3 hr
6.1K
Learn how to blend business, data, and AI, and set goals to drive success with an effectively scalable AI Strategy.
Ver detallesRight Arrow
Comienza el curso
Ver másRight Arrow
Relacionado
An AI juggles tasks

blog

Cinco proyectos que puedes crear con modelos de IA generativa (con ejemplos)

Aprende a utilizar modelos de IA generativa para crear un editor de imágenes, un chatbot similar a ChatGPT con pocos recursos y una aplicación clasificadora de aprobación de préstamos y a automatizar interacciones PDF y un asistente de voz con GPT.
Abid Ali Awan's photo

Abid Ali Awan

10 min

blog

¿Qué es Sora de OpenAI? Cómo funciona, Ejemplos, Características

Descubre Sora de OpenAI a través de vídeos de ejemplo y explora sus funciones, como Remix, Re-cut, Loop, Storyboard, Blend y Style Preset.
Richie Cotton's photo

Richie Cotton

8 min

tutorial

Guía para principiantes de la API de OpenAI: Tutorial práctico y prácticas recomendadas

Este tutorial te presenta la API de OpenAI, sus casos de uso, un enfoque práctico para utilizar la API y todas las prácticas recomendadas que debes seguir.
Arunn Thevapalan's photo

Arunn Thevapalan

13 min

tutorial

Tutorial de la API de OpenAI Assistants

Una visión completa de la API Assistants con nuestro artículo, que ofrece una mirada en profundidad a sus características, usos en la industria, guía de configuración y las mejores prácticas para maximizar su potencial en diversas aplicaciones empresariales.
Zoumana Keita 's photo

Zoumana Keita

14 min

tutorial

Cursor AI: Una guía con 10 ejemplos prácticos

Aprende a instalar Cursor AI en Windows, macOS y Linux, y descubre cómo utilizarlo a través de 10 casos de uso diferentes.
François Aubry's photo

François Aubry

10 min

tutorial

IA explicable - Comprender y confiar en los modelos de aprendizaje automático

Sumérjase en la IA explicable (XAI) y aprenda a generar confianza en los sistemas de IA con LIME y SHAP para la interpretabilidad de modelos. Comprender la importancia de la transparencia y la equidad en las decisiones basadas en la IA.
Zoumana Keita 's photo

Zoumana Keita

12 min

Ver másVer más