Operador de OpenAI: Ejemplos, casos prácticos, competencia y más

Infórmate sobre OpenAI Operator, un agente de IA que utiliza el nuevo modelo de Agente Informático (CUA), que puede navegar por sitios web y realizar tareas de forma autónoma.

Actualizado 24 ene 2025 · 8 min leer

OpenAI ha anunciado recientemente Operator, un agente de IA diseñado para manejar por sí mismo tareas basadas en la web. Puede encargarse de tareas como reservar mesa o comprar por Internet, simplificando las interacciones digitales para las tareas cotidianas.

Sin embargo, creemos que su potencial va más allá de la comodidad: podría capacitar a las personas que carecen de conocimientos informáticos, permitiéndoles realizar tareas como rellenar formularios o navegar por sitios web complejos con facilidad.

Además, con una mayor integración de los comandos de voz, podría proporcionar una solución más accesible para las personas con discapacidad, como las que tienen deficiencias visuales.

El operador entra en un campo competitivo que incluye el uso de ordenadores de Anthropic de Anthropic y el Proyecto Mariner de Google. Una diferencia es que las herramientas de Anthropic requieren conocimientos de programación (por ahora), mientras que Operator permite a los usuarios dar instrucciones en lenguaje llano, lo que lo hace más accesible.

En este blog, explicaremos qué es Operator, exploraremos su tecnología central (CUA), esbozaremos sus casos de uso y limitaciones, y discutiremos dónde encaja en el contexto más amplio de los agentes de IA.

¿Qué es el Operador?

Operator es el primer agente de IA de OpenAI, diseñado para realizar tareas de forma autónoma en la web. Un agente de IA es un sistema que puede recibir instrucciones, razonar sobre ellas y ejecutar acciones sin supervisión humana constante.

A diferencia de las herramientas de automatización tradicionales, que dependen de API predefinidas o de flujos de trabajo rígidos, Operator interactúa directamente con los sitios web, imitando acciones humanas como hacer clic, escribir y desplazarse. Su objetivo principal es simplificar las tareas digitales que, de otro modo, requerirían un esfuerzo manual o conocimientos técnicos.

Esto lo hace muy adecuado para actividades cotidianas como gestionar reservas o rellenar formularios, así como para flujos de trabajo más complejos y de varios pasos. Aquí tienes un ejemplo de uso de Operador:

Fuente: OpenAI

El operador utiliza un navegador virtual para navegar por los sitios web. Este entorno virtual le permite interactuar con interfaces gráficas de usuario (GUI) como lo haría un usuario humano. En lugar de requerir que los sitios web dispongan de API especializadas, Operator interpreta la disposición visual de una página web, pulsa botones, teclea campos y se desplaza por el contenido.

El operador se basa en instrucciones en lenguaje llano para entender lo que necesitan los usuarios. Una vez establecida la tarea, procesa las instrucciones, las divide en pasos procesables y los ejecuta mientras proporciona información al usuario. El operador también puede pedir aclaraciones o confirmaciones para acciones críticas, como enviar un formulario o completar un pago, lo que garantiza un mayor control sobre sus resultados.

¿Qué es el Agente Informático (ACU)?

El Agente Informático-Usuario (CUA) es la tecnología central de Operador. Combinando las capacidades de visión de GPT-4o con el razonamiento avanzado mediante aprendizaje por refuerzola CUA está entrenada para interactuar con interfaces gráficas de usuario: botones, menús y campos de texto que la gente ve en una pantalla.

Percepción

La CUA comienza procesando los datos de píxeles en bruto de las capturas de pantalla. Utiliza esta información visual para identificar elementos clave de la interfaz, como botones, campos de entrada y menús de navegación.

Fuente: OpenAI

Razonamiento

Una vez analizados los datos visuales, la CUA aplica el razonamiento de la cadena de pensamiento para planificar sus acciones. Al integrar capturas de pantalla actuales y pasadas, evalúa sus observaciones, divide las tareas en pasos más pequeños y se adapta dinámicamente a los retos. Por ejemplo, si aparece una ventana emergente durante una tarea (como el anuncio que hemos visto en el ejemplo anterior), CUA puede ajustar su enfoque y encontrar una forma de continuar, de forma muy parecida a como lo haría un usuario humano.

Acción

CUA utiliza entradas virtuales de ratón y teclado para realizar acciones como hacer clic, escribir, desplazarse y enviar formularios. Esta funcionalidad le permite ejecutar tareas de forma autónoma, ya sea seleccionar un elemento de un menú desplegable o navegar por un formulario de varios pasos.

Para acciones críticas -como realizar pagos o entrar en cuentas- CAU pide confirmación al usuario antes de proceder, asegurando que los usuarios mantienen el control sobre las operaciones sensibles.

Puntos de referencia CUA

La CUA ha alcanzado un rendimiento de vanguardia (SOTA) en varios puntos de referencia:

Tipo de referencia	Punto de referencia	Uso del ordenador (Interfaz Universal)		Agentes de Navegación Web	Human
		OpenAI CUA	SOTA anterior	SOTA anterior
Uso del ordenador	OSWorld	38.1%	22.0%		72.4%
Uso del navegador	WebArena	58.1%	36.2%	57.1%	78.2%
Uso del navegador	WebVoyager	87.0%	56.0%	87.0%

Fuente: OpenAI

Desglosemos lo que hace cada uno de estos tres puntos de referencia:

OSWorld (38,1%): Evalúa la capacidad de realizar tareas en sistemas operativos completos como Ubuntu, Windows y macOS. Aunque la CUA supera a los modelos anteriores, su tasa de éxito sigue estando por debajo del punto de referencia humano del 72,4%.
WebArena (58,1%): Evalúa el rendimiento en la navegación por sitios web simulados, incluidos los de comercio electrónico y plataformas sociales. Aunque supera a los modelos anteriores, tiene margen de mejora en el manejo de interacciones complejas de varios pasos.
WebVoyager (87%): Mide la eficacia en sitios web activos como Amazon, GitHub y Google Maps. La CUA obtiene buenos resultados aquí, ya que las tareas tienden a ser más sencillas y estructuradas en comparación con WebArena.

El gráfico siguiente ilustra el rendimiento de la CUA de OpenAI en comparación con Claude 3.5 Sonnet en la prueba de referencia OSWorld. El eje x representa el número máximo de pasos permitidos para completar la tarea, mientras que el eje y muestra el porcentaje de éxito. La CUA demuestra una mejora constante con más pasos permitidos, superando a los modelos anteriores del estado de la técnica.

Gráfico comparativo entre CUA de OpenAI y Sonnet de Claude 3.5 en la prueba de referencia OSWorld

Fuente: OpenAI

Cómo acceder al Operador

Actualmente, Operator está disponible en Estados Unidos como parte de un avance de investigación para usuarios Pro de ChatGPT. Para acceder a ella, necesitas una suscripción Pro activa. Puedes visitar operator.chatgpt.com para empezar a utilizar Operator.

Por ahora, Operator está limitado a los usuarios Pro, pero OpenAI tiene previsto ampliar el acceso a los usuarios Plus en los próximos meses. La estrategia de despliegue permite a OpenAI recoger opiniones y mejorar el sistema antes de ofrecerlo a un público más amplio.

Aunque Operator se centra en los usuarios de EE.UU. durante el lanzamiento inicial, OpenAI ha declarado que la accesibilidad en Europa y otras regiones llevará más tiempo debido a los retos normativos. Los usuarios de estas regiones tendrán que esperar a futuras actualizaciones mientras OpenAI trabaja para superar estas complejidades.

Mensaje de interfaz de usuario que muestra que el operador no está disponible en Europa

De cara al futuro, OpenAI también planea hacer que la tecnología subyacente de Operator, conocida como CUA, esté disponible a través de una API. Esto permitiría a los desarrolladores crear sus propios agentes potenciados por IA para aplicaciones personalizadas.

Casos de uso del operador

Los ejemplos de demostración de Operator -como reservar una mesa o comprar por Internet- son funcionales, pero a nosotros no nos parecen especialmente prácticos. A menudo es más rápido y fácil realizar estas tareas manualmente que dedicar tiempo a supervisar la ejecución de una IA.

Sin embargo, el potencial de Operator se hace más evidente cuando se piensa más allá de estos casos de uso, centrándose en la accesibilidad o el apoyo institucional.

Casos de uso del operador

Accesibilidad

Una de las áreas más impactantes en las que Operator podría brillar es en la accesibilidad. Para las personas con conocimientos informáticos limitados, como los ancianos o los que se inician en la tecnología, el Operador podría actuar como guía, ayudándoles a navegar por tareas online complejas sin necesidad de conocimientos previos.

Imagina que esto se combinara con comandos de voz: los usuarios ni siquiera tendrían que escribir una instrucción, lo que haría que la herramienta fuera aún más intuitiva.

Del mismo modo, para las personas con discapacidad, como las que tienen problemas visuales, el Operador podría ayudarles a interactuar con sitios web que de otro modo serían inaccesibles, especialmente si se combina con información de audio o con la ayuda de un lector de pantalla.

Apoyo institucional

El operador tiene un gran potencial en entornos gubernamentales e institucionales. Podría ayudar a los ciudadanos a rellenar formularios complejos para tareas como solicitar visados, declarar impuestos o acceder a prestaciones sociales. Esto reduciría la dependencia de la asistencia en persona y mejoraría los procesos tanto para los usuarios como para las instituciones.

En la educación, el Operador podría simplificar los sistemas de solicitud en línea, la presentación de becas y las tareas de investigación, permitiendo a los estudiantes o a las personas con conocimientos digitales limitados navegar por estos procesos con mayor eficacia.

Pequeñas empresas y tareas profesionales

En el lugar de trabajo, el Operador podría ser valioso para las pequeñas empresas automatizando tareas repetitivas basadas en la web, como la gestión de inventarios, el procesamiento de pedidos en línea o la recogida de opiniones de los clientes. Para los profesionales, podría encargarse de flujos de trabajo tediosos, como recopilar información de múltiples fuentes o rellenar formularios, liberando tiempo para un trabajo más estratégico.

Sanidad y organizaciones sin ánimo de lucro

La sanidad y las organizaciones sin ánimo de lucro podrían beneficiarse significativamente de Operator. Las clínicas podrían utilizarlo para ayudar a los pacientes a rellenar formularios de inscripción en línea o acceder a recursos sin necesidad de que intervenga mucho personal.

Las organizaciones sin ánimo de lucro que operan en regiones con escasa alfabetización digital podrían desplegar un Operador para ayudar a las poblaciones desatendidas a navegar por los sistemas esenciales en línea, garantizando que las barreras tecnológicas no limiten el acceso a servicios vitales.

Competencia de los agentes de IA

El Operador de OpenAI entra en el espacio de los agentes de IA junto a las capacidades de uso informático de Anthropic y el Proyecto Mariner de Google.

Uso informático de Anthropic

Uso informático de Anthropicimpulsado por su Claude 3.5 Sonnet permite a la IA interactuar con entornos de escritorio simulando acciones humanas como hacer clic, teclear y navegar. Actualmente, esta función requiere ciertos conocimientos técnicos para configurarla y utilizarla eficazmente a través de la API, lo que limita su accesibilidad para los usuarios no técnicos.

En cambio, la interfaz en lenguaje llano de Operator elimina la necesidad de conocimientos de programación, lo que lo hace más fácil de usar para un público más amplio. Sin embargo, es casi seguro que Anthropic trabajará en la simplificación de sus herramientas para competir más directamente con el diseño accesible de Operator.

Proyecto Mariner de Google

Proyecto Marinerdesarrollado por DeepMind de Google, es un agente experimental diseñado para navegar e interactuar con páginas web de forma autónoma. Aunque todavía está en fase de investigación, Mariner se está probando con un pequeño grupo de usuarios, y su integración en el ecosistema de Google sugiere que podría destacar en flujos de trabajo que impliquen a Gmail, Google Docs y otros servicios de Google.

Conclusión

Operator es el primer paso de OpenAI en el competitivo campo de los agentes de IA, ofreciendo un enfoque único con su interfaz de lenguaje sencillo y su diseño universal basado en el navegador. Aunque herramientas como el uso informático de Anthropic y el Proyecto Mariner de Google aportan sus propios puntos fuertes, el enfoque de Operator en la accesibilidad lo diferencia por ahora.

También tenemos curiosidad por la posibilidad de que otros actores, como DeepSeek o Meta, se unan a la competición. 2025 podría estar a la altura de las expectativas y ser el año de la IA agéntica.

¿Puede OpenAI Operator manejar más de una tarea al mismo tiempo?

¿Es OpenAI Operator un agente de IA?

¿Cómo funciona el Operador?

¿Quién puede utilizar Operator ahora mismo y cómo puede empezar?

¿Cuáles son las limitaciones actuales de Operador?

¿Operador estará disponible en dispositivos móviles?

¿Cómo se compara Operator con asistentes de voz como Siri o Google Assistant?

¿Puede Operator gestionar sitios web que utilicen CAPTCHA o funciones de seguridad avanzadas?

Author

Josef Waples

Temas

Inteligencia Artificial

Grandes modelos lingüísticos

OpenAI

Aprende IA con estos cursos

programa

Fundamentos de la IA

10 h

Descubre los fundamentos de la IA, aprende a aprovecharla de forma eficaz en el trabajo y sumérgete en modelos como chatGPT para navegar por el dinámico panorama de la IA.

Ver detalles

Iniciar curso

Curso

Estrategia de inteligencia artificial (IA)

3 h

18.6K

Aprende a combinar negocios, datos e IA, y establece objetivos para impulsar el éxito con una estrategia de IA eficazmente escalable.

Ver detalles

Iniciar curso

Curso

ChatGPT intermedio

1 h

29.1K

Aprende la arquitectura que hay detrás de los modelos GPT y domina la creación avanzada de prompts para liberar todo el potencial de chatGPT.

Ver detalles

Iniciar curso

Relacionado

blog

Cinco proyectos que puedes crear con modelos de IA generativa (con ejemplos)

Aprende a utilizar modelos de IA generativa para crear un editor de imágenes, un chatbot similar a ChatGPT con pocos recursos y una aplicación clasificadora de aprobación de préstamos y a automatizar interacciones PDF y un asistente de voz con GPT.

Abid Ali Awan

10 min

blog

Tipos de agentes de IA: Comprender sus funciones, estructuras y aplicaciones

Conoce los principales tipos de agentes de IA, cómo interactúan con los entornos y cómo se utilizan en los distintos sectores. Comprende los agentes simples reflejos, basados en modelos, basados en objetivos, basados en utilidades, de aprendizaje y más.

blog

¿Qué es Sora de OpenAI? Cómo funciona, Ejemplos, Características

Descubre Sora de OpenAI a través de vídeos de ejemplo y explora sus funciones, como Remix, Re-cut, Loop, Storyboard, Blend y Style Preset.

Richie Cotton

8 min

Tutorial

Guía para principiantes de la API de OpenAI: Tutorial práctico y prácticas recomendadas

Este tutorial te presenta la API de OpenAI, sus casos de uso, un enfoque práctico para utilizar la API y todas las prácticas recomendadas que debes seguir.

Arunn Thevapalan

Tutorial

Tutorial de la API de OpenAI Assistants

Una visión completa de la API Assistants con nuestro artículo, que ofrece una mirada en profundidad a sus características, usos en la industria, guía de configuración y las mejores prácticas para maximizar su potencial en diversas aplicaciones empresariales.

Zoumana Keita

Tutorial

Cursor AI: Una guía con 10 ejemplos prácticos

Aprende a instalar Cursor AI en Windows, macOS y Linux, y descubre cómo utilizarlo a través de 10 casos de uso diferentes.

Ver más Ver más

¿Qué es el Operador?

¿Qué es el Agente Informático (ACU)?

Percepción

Razonamiento

Acción

Puntos de referencia CUA

Cómo acceder al Operador

Casos de uso del operador

Accesibilidad

Apoyo institucional

Pequeñas empresas y tareas profesionales

Sanidad y organizaciones sin ánimo de lucro

Competencia de los agentes de IA

Uso informático de Anthropic

Proyecto Mariner de Google

Conclusión

Preguntas frecuentes

¿Cómo funciona el Operador?

¿Quién puede utilizar Operator ahora mismo y cómo puede empezar?

¿Cuáles son las limitaciones actuales de Operador?

¿Operador estará disponible en dispositivos móviles?

¿Cómo se compara Operator con asistentes de voz como Siri o Google Assistant?

¿Puede Operator gestionar sitios web que utilicen CAPTCHA o funciones de seguridad avanzadas?

Cinco proyectos que puedes crear con modelos de IA generativa (con ejemplos)

Tipos de agentes de IA: Comprender sus funciones, estructuras y aplicaciones

¿Qué es Sora de OpenAI? Cómo funciona, Ejemplos, Características

Guía para principiantes de la API de OpenAI: Tutorial práctico y prácticas recomendadas

Tutorial de la API de OpenAI Assistants

Cursor AI: Una guía con 10 ejemplos prácticos

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Fundamentos de la IA

Estrategia de inteligencia artificial (IA)

ChatGPT intermedio

Cinco proyectos que puedes crear con modelos de IA generativa (con ejemplos)

Tipos de agentes de IA: Comprender sus funciones, estructuras y aplicaciones

¿Qué es Sora de OpenAI? Cómo funciona, Ejemplos, Características

Guía para principiantes de la API de OpenAI: Tutorial práctico y prácticas recomendadas

Tutorial de la API de OpenAI Assistants

Cursor AI: Una guía con 10 ejemplos prácticos

Fundamentos de la IA