Tutorial de uso de computador no GPT-5.4: construa um dashboard de notícias em tempo real

Aprenda a usar o recurso de uso de computador do GPT-5.4 para criar um dashboard de notícias em tempo real que coleta e resume notícias automaticamente.

Atualizado 12 de mai. de 2026 · 11 min lido

GPT-5.4 apresenta capacidades nativas de uso de computador, permitindo que os modelos interajam diretamente com interfaces de software em vez de depender de APIs específicas de cada aplicativo. Ao analisar capturas de tela e emitir ações como clicar, digitar e navegar, o modelo consegue operar navegadores e aplicativos de forma semelhante a um usuário humano.

Neste tutorial, vamos usar o aplicativo de exemplo do Computer-Using Agent (CUA) da OpenAI para explorar como o GPT-5.4 interage com interfaces reais e, em seguida, ampliar o ambiente para criar um dashboard de notícias em tempo real que coleta e resume as últimas matérias sobre um tema selecionado.

Ao longo do caminho, vamos primeiro examinar alguns cenários nativos de uso de computador, como automação em Kanban, desenho em canvas e um fluxo de reserva, para entender como o ciclo observar–decidir–agir funciona na prática. Depois, vamos aplicar a mesma ideia para construir um pequeno dashboard que busca notícias recentes, extrai informações essenciais e apresenta os resultados em uma interface estruturada.

Ao final deste tutorial, você vai entender como:

Executar o ambiente de uso de computador do GPT-5.4
Observar como agentes interagem com interfaces reais
Gerar novos recursos de aplicação com o Codex e
Construir um dashboard de notícias em tempo real

Atualização: para se aprofundar na teoria por trás do modelo sucessor do GPT 5.4, recomendo conferir o nosso blog sobre GPT-5.5.

O que é o uso de computador no GPT-5.4?

O GPT-5.4 introduz recursos nativos de uso de computador, permitindo que os modelos interajam com interfaces de software como um operador humano. Em vez de depender de APIs específicas de cada aplicação, o modelo trabalha diretamente a partir do estado visual da interface, usando capturas de tela e feedback do UI para decidir quais ações tomar em seguida. Isso habilita agentes a interagir com ambientes reais como navegadores, dashboards e ferramentas de produtividade.

Com o uso de computador, o modelo pode executar ações como:

Navegar em páginas da web
Clicar em elementos da interface
Digitar texto em campos
Rolar documentos ou páginas
Interagir com dashboards e aplicações

Como o modelo raciocina sobre a própria interface, ele consegue concluir fluxos de trabalho com várias etapas, atravessando diferentes ferramentas, sem precisar de integrações personalizadas.

Por exemplo, um agente de uso de computador pode pesquisar informações na web, extrair dados relevantes, gerar um relatório e atualizar um dashboard.

Por baixo dos panos, o sistema opera com um loop simples de agente que observa a interface, decide uma ação e verifica o resultado, repetidamente. Veja como o fluxo funciona:

Envio da solicitação: o desenvolvedor começa fornecendo um prompt de objetivo, a ferramenta de uso de computador e uma captura de tela inicial da interface.
Raciocínio do modelo e proposta de ação: o GPT-5.4 analisa a captura e propõe ações de UI como navegar, clicar, digitar ou rolar.
Execução: o cliente ou runner executa essas ações no ambiente.
Retorno do estado atualizado: após a ação, uma nova captura de tela e o estado atual da página são retornados ao modelo.
Repetição do loop: o modelo observa a interface atualizada e decide a próxima ação até concluir a tarefa.

Esse ciclo costuma ser resumido assim:

observe -> decide -> act -> observe

Demo de uso de computador no GPT-5.4: construindo um dashboard de notícias ao vivo (com exemplos extras)

Nesta seção, vamos criar um dashboard de notícias em tempo real com o recurso de uso de computador do GPT-5.4 usando o app de exemplo CUA da OpenAI. O agente vai interagir com um ambiente real de navegador para coletar as últimas notícias sobre um tema escolhido pelo usuário, resumir os resultados e apresentá-los em um dashboard estruturado.

Veja como o fluxo funciona:

O usuário seleciona um tema de interesse no dashboard.
O agente navega por fontes confiáveis no navegador e identifica artigos recentes e relevantes relacionados ao tema.
O GPT-5.4 extrai o título, a fonte e as informações-chave de cada artigo.
O agente resume as descobertas e produz três resumos objetivos.
Os resultados são exibidos em um layout no estilo de dashboard.

Além do dashboard de notícias, também vamos explorar rapidamente alguns prompts menores que mostram como o uso de computador do GPT-5.4 pode gerar aplicações interativas dentro do mesmo ambiente.

Por baixo dos panos, o sistema roda no loop do agente de uso de computador, em que o modelo observa o ambiente por capturas de tela, propõe ações de UI (como navegação ou interação) e recebe o estado atualizado a cada passo.

Passo 1: clonar e configurar o app de exemplo CUA

Para começar, vamos usar o app de exemplo CUA da OpenAI e configurar o repositório localmente no seu dispositivo. Simplesmente clone o repositório e instale as dependências assim:

git clone https://github.com/openai/openai-cua-sample-app.git
cd openai-cua-sample-app
corepack enable
pnpm install
cp .env.example .env

Isso cria um arquivo .env onde você vai adicionar sua chave de API da OpenAI. Acesse sua conta da OpenAI e vá até o dashboard para gerar uma nova chave de API.

Se o pnpm install exibir avisos sobre pacotes opcionais como sharp ou esbuild, você pode ignorá-los no desenvolvimento local. Em seguida, instale o runtime do navegador Playwright:

pnpm playwright:install

Em sistemas Linux, talvez você também precise de dependências do SO:

pnpm playwright:install:with-deps

Por fim, inicie os servidores de desenvolvimento:

pnpm dev

Agora você pode abrir o console do operador CUA em http://127.0.0.1:3000. Esse console permite iniciar execuções de agentes e inspecionar logs e capturas de tela.

Passo 2: explorando os cenários nativos de uso de computador

O app de exemplo inclui três ambientes sandbox projetados para demonstrar o comportamento de uso de computador. Esses ambientes ajudam a ilustrar como o GPT-5.4 interage com interfaces.

Automação de quadro Kanban

O cenário do quadro Kanban demonstra como o uso de computador do GPT-5.4 consegue raciocinar sobre e manipular layouts de UI estruturados por meio de interação visual.

Neste exemplo, o agente recebe um objetivo como reorganizar tarefas em um quadro Kanban. Em vez de chamar qualquer API do aplicativo, o agente interage com a interface do mesmo jeito que um humano: observando o quadro, identificando os cartões de tarefa e realizando operações de arrastar e soltar.

Por baixo dos panos, o GPT-5.4 executa o loop do agente de uso de computador:

O agente recebe uma captura de tela do quadro Kanban juntamente com a URL atual.
O modelo analisa o layout visual e determina onde estão os cartões de tarefa e as colunas.
O GPT-5.4 propõe ações de UI como:

mover o cursor até um cartão
clicar e segurar
arrastar o cartão para outra coluna

O runner executa essas ações por meio de eventos de ponteiro do Playwright.
Uma nova captura de tela é feita e enviada de volta ao modelo para que ele verifique o estado atualizado do quadro.

O processo continua até que o quadro reflita a configuração desejada.

O interessante aqui é que o modelo não depende de nenhum conhecimento interno sobre o aplicativo Kanban.

Em vez disso, ele raciocina inteiramente a partir do estado visual da interface, decidindo onde clicar, arrastar e soltar elementos com base na captura de tela. Isso demonstra uma vantagem-chave do uso de computador no GPT-5.4: os desenvolvedores conseguem automatizar fluxos de trabalho sem construir integrações personalizadas ou APIs para cada ferramenta.

Interação com canvas de pintura

O cenário Paint lida com tarefas que dependem de layout visual, raciocínio espacial e controle preciso do cursor, em vez de simples preenchimento de formulários. Nesse setup, o agente recebe uma instrução de desenho e precisa concluí-la diretamente dentro do aplicativo de esboço no navegador.

Eu pedi ao agente para rabiscar cenas diferentes no canvas, e o GPT-5.4 deu conta do recado escolhendo cores, localizando a área correta para desenhar e preenchendo a grade conforme necessário.

Diferente do exemplo de Kanban, onde o desafio central era mover cartões estruturados entre colunas, este cenário depende muito mais de interpretar o estado visual do app e tomar uma série de decisões de interação em baixo nível. Veja como o uso de computador fez isso nesta demo:

Movimento e mira do cursor: o GPT-5.4 primeiro interpreta o layout da interface de desenho, incluindo a paleta de cores à esquerda e o canvas em estilo pixel no centro.
Seleção de ferramenta e cor: identifica as opções disponíveis na paleta e clica na cor apropriada antes de desenhar. Na execução capturada, o modelo alterna cores e as usa de forma intencional para criar diferentes regiões no canvas.
Interação com o canvas: em vez de chamar qualquer API do canvas, o agente interage com o app inteiramente por ações de UI, movendo o ponteiro para células específicas e preenchendo-as em padrões repetidos.
Verificação de estado: após cada lote de ações, o runner captura uma nova imagem e a retorna ao modelo para que ele verifique se o padrão esperado está aparecendo no canvas.

Um ponto interessante é que o GPT-5.4 não estava apenas clicando aleatoriamente. Em vez disso, usava o loop de feedback por captura de tela para decidir onde desenhar, qual cor estava selecionada e como o canvas mudava após cada ação.

Nos quadros finais, dá para ver claramente o canvas evoluindo de uma grade em branco para uma composição estruturada com grandes regiões coloridas, mostrando que o modelo mantinha consciência tanto do progresso quanto do layout ao longo de várias iterações.

Fluxo de reserva (booking)

Neste ambiente, o agente interage com um site simulado de reservas e precisa concluir um fluxo de agendamento. Isso significa atravessar várias telas da UI em sequência, em vez de resolver uma ação isolada.

Veja como o uso de computador é aplicado nesta demonstração:

Entendimento da interface: o GPT-5.4 começa interpretando o layout atual da tela, identificando botões, campos de formulário, calendários, dropdowns e controles de confirmação.
Navegação passo a passo: o agente decide qual parte do fluxo concluir primeiro, como escolher uma opção, avançar para a próxima tela ou abrir um elemento de formulário.
Preenchimento de formulários: ele insere os valores necessários em caixas de texto e interage com controles como dropdowns ou seletores de data.
Acompanhamento de estado entre etapas: após cada ação, o runner captura uma nova imagem e a retorna ao modelo, permitindo que ele verifique quais campos já estão completos e o que ainda falta fazer.
Confirmação e conclusão: quando os dados obrigatórios são preenchidos, o agente segue para a etapa final de confirmação e verifica se a reserva foi concluída com sucesso.

Embora os cenários de Kanban, Paint e Booking mostrem controle de UI, precisamos aplicá-los a casos mais práticos.

Na próxima seção, vou usar a mesma ideia para construir um dashboard de notícias em tempo real que coleta matérias recentes, estrutura os resultados e os apresenta em uma interface utilizável usando um fluxo no-code dentro do aplicativo Codex.

Passo 3: criando um dashboard de notícias ao vivo com o GPT-5.4

Nesta etapa, vamos aplicar as mesmas capacidades de uso de computador para construir um dashboard de notícias em tempo real. A meta é criar um pequeno dashboard onde o usuário pode selecionar um tema de interesse, como IA, política, clima, tecnologia, ciência etc., e o sistema irá:

Coletar notícias recentes de fontes confiáveis
Extrair informações essenciais desses artigos
Gerar três resumos objetivos
Apresentar os resultados em um formato de dashboard estruturado

Em vez de escrever a aplicação manualmente, vamos usar o Codex dentro do ambiente de uso de computador do GPT-5.4 e passar o prompt abaixo para gerar o recurso diretamente no repositório CUA existente.

Como o Codex está conectado ao mesmo ambiente usado pelo app de exemplo CUA, o agente pode analisar o repositório, decidir onde o dashboard deve residir e implementar a UI e a lógica automaticamente.

Prompt:

Build a live News Dashboard in this repo.
Goal:
Create a dashboard where a user can enter a topic of interest, fetch the latest important news in real time from trusted sources, and render exactly 3 structured results that are meaningful and topic-relevant.
Requirements:
- The dashboard must allow the user to type a topic such as AI, politics, climate, health, science, or tech.
- Fetch live results at request time. Do not hardcode stories.
- Use trusted sources appropriate to the topic. Prefer official or well-known outlets.
- Return exactly 3 items.
- Each item must include:
  - HEADLINE
  - SOURCE
  - SUMMARY
- Summaries must be in your own words, concise, and clearly related to the article and topic.
- Avoid low-quality results such as homepages, category pages, generic aggregator wrappers, or meaningless titles.
- Prefer direct article URLs over search/aggregator wrapper links.
- Keep the UI minimal and consistent with the repo’s existing design language.
- Reuse the existing framework/tooling. Do not add new dependencies unless truly necessary.
Implementation plan:
1. Inspect the repo and place the dashboard in the existing app structure without breaking the current console.
2. Add a topic input UI with a search action and a loading/error state.
3. Add a server-side news fetch path that:
   - maps topics to trusted source sets
   - fetches recent results in real time
   - filters out irrelevant or low-quality matches
   - resolves direct article URLs where possible
   - extracts useful metadata for headline/source/summary
4. Render the dashboard with:
   - page title
   - topic
   - date
   - intro
   - exactly 3 cards/items
   - a structured export block that can be copied into another dashboard
5. Keep the export block in this exact format:
---BEGIN DASHBOARD CONTENT---
TITLE: News Brief — [TOPIC]
DATE: [today's date]
INTRO: Top 3 [TOPIC] updates from trusted sources.
ITEM 1:
HEADLINE: [headline]
SOURCE: [source name or URL]
SUMMARY: [2–4 sentences]
ITEM 2:
HEADLINE: [headline]
SOURCE: [source name or URL]
SUMMARY: [2–4 sentences]
ITEM 3:
HEADLINE: [headline]
SOURCE: [source name or URL]
SUMMARY: [2–4 sentences]
SOURCES_USED: [comma-separated list of sites used]
---END DASHBOARD CONTENT---
Deliverables:
- A working live dashboard route in the app
- Real-time topic search
- Exactly 3 relevant results per search
- Structured export block visible in the UI
- Short run instructions
- Basic tests for parsing/formatting logic if the repo already has a test runner

O prompt orienta o Codex a construir um dashboard de notícias em tempo real dentro do repositório existente, servindo como uma especificação de alto nível, e não como código de implementação detalhado.

O Codex primeiro inspeciona a estrutura do projeto para determinar onde a UI do dashboard e a lógica de backend devem ser adicionadas. Em seguida, cria um campo de entrada de tema, recupera artigos recentes de fontes confiáveis em tempo real, extrai metadados essenciais como título, fonte e resumo, e filtra os resultados para garantir relevância.

Por fim, ele exibe exatamente três itens de notícia em um layout limpo e estruturado que pode ser facilmente visualizado ou exportado no dashboard.

O uso de computador no GPT-5.4 viabiliza esse fluxo ao permitir que o modelo observe e interaja com o ambiente de desenvolvimento enquanto gera o recurso.

Em vez de agir apenas como um gerador de código, o Codex analisa o repositório, determina onde os novos componentes devem ficar e implementa o dashboard de forma incremental, verificando os resultados.

O fluxo envolve várias etapas-chave:

Inspeção do repositório: o Codex examina a estrutura do projeto para identificar onde adicionar a UI do dashboard e a lógica de suporte.
Interface do usuário: cria um campo de entrada de tema que permite pesquisar assuntos como IA, clima ou tecnologia.
Busca de notícias em tempo real: o sistema coleta artigos recentes de fontes confiáveis, em vez de depender de exemplos fixos.
Filtragem e sumarização: o GPT-5.4 extrai metadados úteis, como título, fonte e resumo, garantindo que os resultados se mantenham relevantes ao tema escolhido.
Renderização estruturada: por fim, o dashboard exibe exatamente três itens de notícia em um layout de cartões para facilitar a leitura.

Observação: o dashboard final não foi gerado com um único prompt. Foram necessárias algumas iterações e ajustes no prompt para chegar ao comportamento e ao formato de saída desejados. Ao rodar experimentos semelhantes, espere um pouco de tentativa e erro enquanto adapta o prompt e as restrições. Além disso, verifique se o seu navegador ou sistema não bloqueia interações automatizadas, pois essas restrições podem atrapalhar fluxos de uso de computador.

Conclusão

Neste tutorial, exploramos como o uso de computador do GPT-5.4 pode ser aplicado para construir agentes que interagem com ambientes de software reais, em vez de depender de APIs tradicionais. Usando o app de exemplo CUA da OpenAI, primeiro examinamos como o loop de uso de computador funciona por meio de alguns cenários sandbox, isto é, como o modelo observa interfaces, propõe ações e verifica resultados por meio de capturas de tela.

Depois, aplicamos o mesmo conceito para construir um dashboard de notícias em tempo real usando o Codex dentro do ambiente CUA. Em vez de escrever a aplicação manualmente, um prompt funcionou como especificação de alto nível, permitindo que o Codex inspecionasse o repositório, gerasse a UI e a lógica do dashboard, recuperasse notícias recentes de fontes confiáveis e exibisse os resultados em um formato estruturado.

A partir daqui, você pode levar essa ideia adiante criando agentes que:

Automatizam dashboards internos ou ferramentas de relatórios
Geram pipelines de pesquisa
Acompanham tendências do mercado em tempo real
Prototipam novos recursos de produto diretamente em repositórios existentes

À medida que os modelos de uso de computador evoluem, eles tendem a viabilizar agentes de desenvolvimento e automação mais gerais, capazes de interagir tanto com interfaces de software quanto com bases de código.

O que é o uso de computador no GPT-5.4?

O que alimenta o app de exemplo CUA?

O GPT-5.4 pode automatizar sites reais?

Que tipos de aplicações podem ser criadas com uso de computador?

Author

Aashi Dutt

Tópicos

Inteligência Artificial

Agentes de IA

OpenAI

Principais cursos da DataCamp

Curso

Retrieval Augmented Generation (RAG) com LangChain

3 h

17.8K

Aprenda métodos de ponta para integrar dados externos com LLMs usando Retrieval Augmented Generation (RAG) com LangChain.

Ver detalhes

Iniciar curso

Curso

Modelos multimodais com Hugging Face

4 h

1.8K

Junte texto, imagens, áudio e vídeo com os modelos de IA mais recentes da Hugging Face e crie novas imagens e vídeos!

Ver detalhes

Iniciar curso

Curso

Sistemas Multimodais com a API da OpenAI

2 h

Crie sistemas multimodais usando os modelos de texto e áudio da OpenAI, incluindo um chatbot de suporte ao cliente completo!

Ver detalhes

Iniciar curso

Ver mais

Relacionado

blog

12 Alternativas de código aberto ao GPT-4

GPT-4 alternativas de código aberto que podem oferecer desempenho semelhante e exigem menos recursos computacionais para serem executadas. Esses projetos vêm com instruções, fontes de código, pesos de modelos, conjuntos de dados e interface de usuário do chatbot.

Abid Ali Awan

9 min

blog

A OpenAI anuncia o GPT-4 Turbo com visão: O que sabemos até o momento

Descubra a atualização mais recente da OpenAI, GPT-4 Turbo com visão, e seus principais recursos, incluindo o corte de conhecimento aprimorado, uma janela de contexto expandida, preço acessível e muito mais.

Richie Cotton

7 min

Tutorial

Visão GPT-4: Um guia abrangente para iniciantes

Este tutorial apresentará tudo o que você precisa saber sobre o GPT-4 Vision, desde o acesso a ele, passando por exemplos práticos do mundo real, até suas limitações.

Arunn Thevapalan

Tutorial

Como fazer o ajuste fino do GPT 3.5: Liberando todo o potencial da IA

Explore o GPT-3.5 Turbo e descubra o potencial transformador do ajuste fino. Saiba como personalizar esse modelo de linguagem avançado para aplicativos de nicho, aprimorar seu desempenho e entender os custos associados, a segurança e as considerações de privacidade.

Moez Ali

Tutorial

Um guia para iniciantes na engenharia de prompts do ChatGPT

Descubra como fazer com que o ChatGPT forneça os resultados que você deseja, fornecendo a ele as entradas necessárias.

Matt Crabtree

Tutorial

Guia para iniciantes no uso da API do ChatGPT

Este guia o orienta sobre os conceitos básicos da API ChatGPT, demonstrando seu potencial no processamento de linguagem natural e na comunicação orientada por IA.

Moez Ali

Ver mais Ver mais

O que é o uso de computador no GPT-5.4?

Demo de uso de computador no GPT-5.4: construindo um dashboard de notícias ao vivo (com exemplos extras)

Passo 1: clonar e configurar o app de exemplo CUA

Passo 2: explorando os cenários nativos de uso de computador

Automação de quadro Kanban

Interação com canvas de pintura

Fluxo de reserva (booking)

Passo 3: criando um dashboard de notícias ao vivo com o GPT-5.4

Conclusão

Perguntas frequentes sobre o uso de computador no GPT-5.4

O GPT-5.4 pode automatizar sites reais?

Que tipos de aplicações podem ser criadas com uso de computador?

12 Alternativas de código aberto ao GPT-4

A OpenAI anuncia o GPT-4 Turbo com visão: O que sabemos até o momento

Visão GPT-4: Um guia abrangente para iniciantes

Como fazer o ajuste fino do GPT 3.5: Liberando todo o potencial da IA

Um guia para iniciantes na engenharia de prompts do ChatGPT

Guia para iniciantes no uso da API do ChatGPT

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Retrieval Augmented Generation (RAG) com LangChain

Modelos multimodais com Hugging Face

Sistemas Multimodais com a API da OpenAI

12 Alternativas de código aberto ao GPT-4

A OpenAI anuncia o GPT-4 Turbo com visão: O que sabemos até o momento

Visão GPT-4: Um guia abrangente para iniciantes

Como fazer o ajuste fino do GPT 3.5: Liberando todo o potencial da IA

Um guia para iniciantes na engenharia de prompts do ChatGPT

Guia para iniciantes no uso da API do ChatGPT

Retrieval Augmented Generation (RAG) com LangChain