Google I/O 2026: początek epoki agentów Gemini

Od Gemini 3.5 Flash i Gemini Omni po Antigravity 2.0 i Gemini Spark — oto, co najważniejsze z keynote’u Google I/O 2026 poświęconego agentom.

Zaktualizowano 20 maj 2026 · 12 min Czytać

Motyw przewodni niemal każdego ogłoszenia pierwszego dnia konferencji Google I/O 2026 był ten sam: agenci. Nie chatboty, nie asystenci, lecz trwałe, wykonujące zadania agenty, które działają w tle i integrują się z pełnym stosem produktów Google. CEO Sundar Pichai nazwał to wprost „epoką agentów Gemini” i ogłoszenia to potwierdziły.

Google odpowiedziało też na subskrypcje Claude Max od Anthropic i ChatGPT Pro od OpenAI, wprowadzając na I/O nowy poziom Google AI Ultra, w tej samej cenie 100 $/mies. i z dostępem do części funkcji agentowych opisanych poniżej.

W tym artykule przeprowadzę cię przez najważniejsze ogłoszenia dla praktyków AI i deweloperów. Skupię się na aktualizacjach dostępnych już teraz lub spodziewanych wkrótce.

Gemini 3.5 Flash

Gemini 3.5 Flash to najważniejsza premiera modelu na I/O 2026. Przewyższa Gemini 3.1 Pro w benchmarkach agentowych i kodowania, a Google twierdzi, że generuje wyjściowe tokeny na sekundę 4x szybciej niż inne modele czołowe. Tego na razie nie potwierdzimy, ale to zdecydowanie odważne stwierdzenie.

Patrząc na benchmarki, skok wydajności jest widoczny, zwłaszcza w MCP Atlas, CharXiV Reasoning i Finance Agent v2, w których Gemini 3.5 Flash prowadzi. Ogólnie 3.5 Flash wydaje się konkurować z Claude Opus 4.7 i GPT-5.5.

Benchmark	3.5 Flash	3 Flash	3.1 Pro	Claude Sonnet 4.6	Opus 4.7	GPT-5.5
Terminal-bench 2.1	76.2%	58.0%	70.3%	--	66.1%	78.2%
SWE-Bench Pro	55.1%	49.6%	54.2%	--	64.3%	58.6%
MCP Atlas	83.6%	62.0%	78.2%	69.5%	79.1%	75.3%
OSWorld	78.4%	65.1%	76.2%	72.5%	78.0%	78.7%
Finance Agent v2	57.9%	42.6%	43.0%	51.0%	51.5%	51.8%
CharXiv Reasoning	84.2%	80.3%	83.3%	72.4%	82.1%	84.1%
Humanity's Last Exam	40.2%	33.7%	44.4%	33.2%	46.9%	41.4%
ARC-AGI-2	72.1%	33.6%	77.1%	58.3%	75.8%	84.6%

Warto zwrócić uwagę na koszty. Google twierdzi, że przedsiębiorstwa przetwarzające ok. 1 bilion tokenów dziennie mogłyby zaoszczędzić ponad 1 mld $ rocznie, przenosząc 80% obciążeń z innych modeli czołowych na 3.5 Flash. To bezpośredni sygnał w stronę klientów korporacyjnych OpenAI i Anthropic. Gemini 3.5 Flash jest dostępny już dziś przez Gemini API, Google AI Studio i aplikację Gemini. Gemini 3.5 Pro jest już używany wewnętrznie i spodziewany w przyszłym miesiącu.

Po więcej szczegółów zajrzyj do naszego artykułu o Gemini 3.5 Flash, gdzie opisujemy nowy model dokładniej.

Gemini Omni

Gemini Omni to nowy, natywnie multimodalny model generatywny Google, który potrafi przyjmować dowolne połączenie tekstu, obrazów, audio i wideo jako wejście i generować wideo jako wyjście. Pierwszy model w rodzinie, Gemini Omni Flash, jest dostępny dziś w aplikacji Gemini, Google Flow i YouTube Shorts.

Kluczowa kwestia architektoniczna: Omni scala wcześniej rozdzielony stos ( Veo dla wideo, Imagen dla obrazów, osobne systemy audio) w jeden model. To oznacza spójniejsze edycje i mniej artefaktów potokowych przy pracy między modalnościami. Google nie opublikowało liczbowych benchmarków Omni przy starcie, więc niezależna ocena jest w toku. Dostęp do API dla deweloperów i klientów enterprise ma się pojawić w tygodniach po I/O.

Przetestowaliśmy to i opisaliśmy w całości w naszym artykule o Gemini Omni. Pierwsze wyniki generowania wideo były nierówne (zwłaszcza przy wysokich standardach, do których Seedance 2.0 już przyzwyczaił), ale wkrótce ma się pojawić mocniejszy Gemini Omni Pro.

Antigravity 2.0

Antigravity to tworzone przez Google środowisko deweloperskie z myślą o agentach i wydanie 2.0 na I/O to znaczące rozszerzenie. Wcześniej pozycjonowane jako środowisko do kodowania, teraz jest pełną platformą do tworzenia, wdrażania i zarządzania kohortami autonomicznych agentów AI. Centrum stanowi nowa samodzielna aplikacja desktopowa, która działa jako centralny hub orkiestracji agentów, pozwalając uruchamiać wiele agentów równolegle na różnych zadaniach jednocześnie.

Ekosystem ma teraz cztery odrębne powierzchnie dla deweloperów:

Aplikacja desktopowa Antigravity 2.0: Orkiestruje wielu agentów równolegle i obsługuje zaplanowane zadania w tle. Integruje się z Google AI Studio, Androidem i Firebase.
Antigravity CLI: Terminalowa powierzchnia do tworzenia i uruchamiania agentów bez GUI. Google prosi użytkowników Gemini CLI o migrację tutaj.
Antigravity SDK: Programistyczny dostęp do tego samego „uprzęży” agenta, która napędza produkty Google, z obsługą niestandardowych zachowań agentów hostowanych w twojej infrastrukturze.
Antigravity w Gemini Enterprise Agent Platform: Łączy Antigravity bezpośrednio z projektami Google Cloud dla obciążeń enterprise.

Dla głównego agenta pojawiło się też kilka bardzo przydatnych nowości. Największa: może teraz dynamicznie tworzyć modularne subagenty, każdy działający równolegle z izolacją workspace’u i dziedziczący konfiguracje narzędzi oraz uprawnienia rodzica. Długotrwałe operacje działają asynchronicznie, więc nie blokują już pętli agenta.

Podobnie jak Claude Code Hooks, JSON Hooks pozwalają użytkownikom podczepiać własne skrypty shellowe w kluczowych momentach wykonania (przed/po wywołaniach narzędzi, wywołaniach modelu lub przy warunkach zatrzymania) do logowania, dostosowywania argumentów czy wstrzykiwania instrukcji. Scheduled Tasks pozwalają ustawiać cronowe prompty dla cyklicznych uruchomień agenta, jak dzienne podsumowania PR czy godzinowe kontrole wdrożeń, z wynikami widocznymi w panelu bocznym dla płynnego przekazania do interakcji human-in-the-loop.

Po stronie zarządzania Antigravity wprowadza „projekty” jako prymityw organizacyjny, który zakresuje ustawienia, zasoby i uprawnienia per grupa agentów, zamiast wymagać najszerszych globalnych uprawnień do wszystkiego. Przebudowany panel boczny wspiera grupowanie rozmów według projektu, statusu lub świeżości, z wbudowaną natywną obsługą Git worktree. Ten układ oparty na projektach porównywalny jest do wielookienkowego zarządzania workspace’em w Cursorze i kolejki zadań w Codexie, ale z ciaśniejszym zakresem uprawnień per projekt.

Wejście głosowe przez modele Gemini Audio i nowe komendy slash (/goal dla autonomicznych przebiegów, /grill-me do doprecyzowania przed zadaniem, /schedule do promptów cron, /browser do opcjonalnego użycia przeglądarki) domykają UX.

Antigravity 2.0 jest dostępne dla użytkowników od dziś. Plan Google AI Ultra (100 $/mies.) obejmuje 5x wyższe limity użycia w Antigravity w porównaniu z planem Google AI Pro.

Zarządzane agenty w Gemini API

Równolegle z Antigravity 2.0 Google ogłosiło Zarządzane Agenty w Gemini API, które wprowadzają możliwości agentowe bezpośrednio do warstwy API dla deweloperów chcących budować aplikacje napędzane agentami bez samodzielnego zarządzania infrastrukturą orkiestracji. To odpowiednik na poziomie API dla doświadczenia desktopowego Antigravity.

W praktyce oznacza to, że możesz teraz definiować zachowania agentów, integracje narzędzi i wieloetapowe przepływy pracy przez Gemini API, a wykonaniem zajmie się infrastruktura Google. To może być prawdziwy game-changer dla zespołów budujących produkcyjne aplikacje wymagające realizacji zadań o długim horyzoncie bez uruchamiania i zarządzania własną „uprzężą” agentów. Dostęp jest dostępny przez Google AI Studio, a klienci enterprise mogą korzystać przez Gemini Enterprise Agent Platform.

Jedna uczciwa uwaga: wczesne opinie deweloperów z relacji z I/O wskazują, że dokumentacja dla złożonych przepływów agentów i obsługi błędów jest wciąż skąpa. Limity i zarządzanie kwotami również bywają punktem tarcia. Oba te problemy najpewniej złagodnieją z czasem, ale warto o nich wiedzieć, zanim zdecydujesz się budować na tym stosie.

Gemini Spark

Gemini Spark (nie mylić z najnowszym LLM Meta, Muse Spark) to nowy osobisty agent AI Google i najbardziej konsumenckie z ogłoszeń agentowych. Działa 24/7 na dedykowanych maszynach wirtualnych w Google Cloud, więc nie wymaga otwartego laptopa, by kontynuować pracę. Spark jest zasilany przez Gemini 3.5 i „uprząż” Antigravity, co daje mu zdolność obsługi długohoryzontalnych zadań w tle.

Zakres funkcji na start obejmuje:

Integrację z narzędziami Google (Workspace, Gmail, Kalendarz) na start, a wsparcie narzędzi firm trzecich przez MCP w kolejnych tygodniach.
Interakcję przez aplikację Gemini, a wkrótce także przez e-mail i czat.
Działanie bezpośrednio w Chrome jako warstwa agentowa przeglądarki, latem tego roku.
Podgląd postępu zadań na żywo przez Android Halo, nową przestrzeń UI na Androidzie, później w tym roku.

Warto tu porównać z ekosystemem agentów OpenAI i możliwościami użycia narzędzi w Anthropic. Przewagą Sparka jest 24/7 trwałe wykonywanie na infrastrukturze Google Cloud, połączone z głęboką integracją z pakietem produktywności Google. Jeśli twoja praca już żyje w Google Workspace, to realny atut. Jeśli nie — propozycja wartości jest mniej oczywista.

Prywatność to uzasadniona obawa. Agent, który nieustannie monitoruje twoją skrzynkę, kalendarz i dokumenty, rodzi realne pytania o lokalizację danych i zgodność w branżach regulowanych. Jedno z pytań, które sam sobie zadawałem, brzmiało np.: „Co dzieje się z pamięcią agenta, gdy pracownik odchodzi?” Google nie podało jeszcze szczegółowych odpowiedzi.

Spark trafia do zaufanych testerów w tym tygodniu, a Beta dla subskrybentów Google AI Ultra (100 $/mies.) w USA w kolejnym tygodniu. Opisujemy go szerzej w artykule o Gemini Spark.

Agenci w wyszukiwarce i tryb AI

Tryb AI w wyszukiwarce wprowadzono na poprzednim I/O. Rok później ma już ponad miliard miesięcznie aktywnych użytkowników. Teraz Google idzie dalej z dwiema nowymi możliwościami agentowymi.

Pierwsza to agenci informacyjni w wyszukiwarce: spersonalizowani agenci w tle, których konfigurujesz do monitorowania tematów i prezentowania właściwych informacji w odpowiednim momencie. Wdrażani tego lata, zaczynając od subskrybentów Google AI Pro i Ultra.

Druga to generatywny interfejs w wyszukiwarce, zasilany przez Gemini 3.5 Flash i Antigravity. Wyszukiwarka będzie teraz budować niestandardowe układy, interaktywne wizualizacje, a nawet trwałe pulpity czy miniaplikacje dla złożonych, długotrwałych zapytań. Możliwości generatywnego UI trafią latem do wszystkich użytkowników za darmo. Trwałe pulpity i niestandardowe aplikacje będą początkowo dostępne dla subskrybentów Pro i Ultra w USA.

To realny problem dla wydawców i specjalistów SEO (tak jak wcześniej wprowadzenia AI Overview i trybu AI). Gdy odpowiedzi generowane przez AI całkowicie rozwiązują zapytanie użytkownika bezpośrednio w wyszukiwarce, nie ma powodu klikać w stronę źródłową. Już to widzieliśmy: zarówno AI Overviews, jak i początkowe wdrożenie trybu AI doprowadziły do znaczących spadków ruchu w branży. Google nadal nie wprowadziło jasnego sposobu dzielenia się przychodami ani gwarancji ruchu dla wydawców, których treści zasilają te odpowiedzi.

Google Flow

Google Flow, które zadebiutowało na I/O 2025 jako narzędzie do tworzenia filmów z AI, wykonało duży krok naprzód dzięki trzem kluczowym aktualizacjom:

Mądrzejszy agent planujący. Zaktualizowany agent Flow potrafi teraz planować i rozumować przez wieloetapowe projekty kreatywne. Podajesz mu wejścia (np. koncepcję, obrazy referencyjne, szkic skryptu), a on pomaga przejść od wczesnego burzy mózgów po tworzenie i edycję — wszystko w jednym środowisku. Nowy agent jest dostępny dla wszystkich od dziś.
Natywne wideo przez Gemini Omni. Flow obsługuje teraz generowanie i edycję wideo natywnie przez model Omni. Możesz opisywać zmiany do klipu z rolki aparatu prostym językiem i iterować konwersacyjnie. Poprawiła się też spójność postaci, więc tożsamość i głos są zachowane między scenami. To szczególnie przydatne przy produkcji krótkiego filmu lub kampanii reklamowej z powracającymi bohaterami.
Kodowanie vibe do własnych narzędzi. Zamiast ograniczać się do narzędzi dostarczanych z Flow, możesz teraz tworzyć własne bezpośrednio na platformie. Google pokazało przykłady, jak projektowanie niestandardowych efektów wideo, tworzenie narzędzi do animacji rysowanej ręcznie i budowanie workflowów nakładania tekstu — bez opuszczania Flow.

Razem te aktualizacje pozycjonują Flow jako coś więcej niż asystenta kreatywnego. Staje się platformą do budowania workflowów kreatywnych, z aplikacją mobilną w becie na Androidzie i wkrótce na iOS.

Rozszerzenie SynthID

SynthID, niewidoczny system znakowania wodnego AI od Google, od premiery trzy lata temu oznakował już ponad 100 miliardów obrazów i wideo oraz 60 000 lat zasobów audio. Najważniejsze w ogłoszeniu z I/O nie są jednak liczby, lecz partnerzy: OpenAI, Kakao i Eleven Labs przyjmują SynthID obok Nvidii, która dołączyła w zeszłym roku.

To właśnie adopcja międzybranżowa nadaje temu znaczenie. Standard znakowania wodnego działa tylko wtedy, gdy jest na tyle powszechny, że „brak znaku wodnego” staje się użytecznym sygnałem. Google rozszerza też weryfikację Content Credentials (standard C2PA) na Wyszukiwarkę i Chrome, które będą pokazywać, czy treści pochodzą z AI czy z aparatu oraz czy były edytowane narzędziami generatywnymi. Połączenie SynthID i C2PA daje pochodzeniu treści dwie niezależne warstwy — to właściwe podejście, biorąc pod uwagę, jak łatwo każdą z nich z osobna można usunąć.

Wyróżnienia

Kilka innych ogłoszeń z I/O zasługuje na krótką wzmiankę:

Docs Live: Nowa funkcja voice-first w Google Docs, która pozwala werbalnie zrzucić pomysły, a Gemini ustrukturyzuje je w dokument. Wdrażana dla subskrybentów latem, z funkcjami głosowymi w tym samym czasie w Gmailu i Keep.
Google Pics: Nowe narzędzie AI do tworzenia i edycji obrazów oparte na modelu Nano Banana, traktujące każdy element jako osobny obiekt zamiast płaskiego obrazu. Dostępne dla zaufanych testerów teraz, latem trafi do subskrybentów Google AI Pro i Ultra.
Android Halo: Nowa przestrzeń UI na Androidzie do przeglądania na żywo aktualizacji i postępu zadań od agentów takich jak Gemini Spark. Później w tym roku.
Daily Brief: Gotowy do użycia agent w aplikacji Gemini, który kompiluje spersonalizowany poranny przegląd z twojej skrzynki, kalendarza i zadań, z sugerowanymi kolejnymi krokami. Brak osobnej ceny; spodziewany jako część doświadczenia aplikacji Gemini.
TPU 8t i 8i: Ósma generacja TPU Google stosuje podejście dwóch układów: 8t zoptymalizowany do pretrenowania na dużą skalę (niemal 3x surowej mocy obliczeniowej względem poprzedniej generacji, skalowalny do ponad 1 mln TPU globalnie), a 8i do wnioskowania. Oba oferują do 2x lepszy stosunek wydajności do zużycia energii niż poprzednia generacja.
Gemini for Science: Zestaw narzędzi AI łączących Antigravity z ponad 30 głównymi bazami danych nauk o życiu. Science Skills dostępne dziś na GitHubie i bezpośrednio w Antigravity.

Na koniec

Google I/O 2026 to zakład na agentów jako główny kierunek rozwoju AI, z Gemini 3.5 Flash i Antigravity 2.0 jako infrastrukturą pod niemal wszystko, co ogłoszono. Z rzeczy dostępnych już teraz: Gemini 3.5 Flash (przez Gemini API i AI Studio), nowy agent Flow, Gemini Omni Flash oraz aplikacja desktopowa Antigravity 2.0. Gemini Spark, agenci w wyszukiwarce i funkcje generatywnego UI w wyszukiwarce będą wdrażane latem, w większości za paywallem nowego poziomu AI Ultra 100 $/mies. (przynajmniej na początku).

Dla mnie najbardziej interesujące było uaktualnienie Antigravity, bo działa jednocześnie na dwóch poziomach: jako samodzielna aplikacja deweloperska konkuruje bezpośrednio z Codexem i Claude Code; jako platforma, jej ADK i Managed Agents API stanowią wyzwanie dla frameworków orkiestracji jak LangChain, AutoGen i Agents SDK OpenAI. Integracja z Gemini i warstwa wdrożeniowa Google Cloud to wyróżniki (i ryzyko uzależnienia) na obu frontach.

Jak Gemini 3.5 Flash wypada na tle GPT-5.5 i Claude Opus 4.7?

Czym Google Antigravity różni się od Claude Code lub Codexa?

Google Antigravity 2.0 to platforma deweloperska zorientowana na agentów, pozwalająca orkiestrwać wielu agentów AI równolegle w aplikacji desktopowej, CLI, SDK i enterprise API. W przeciwieństwie do Claude Code (terminalowy agent do kodowania) czy Codexa (system oparty na kolejce zadań), Antigravity oferuje ciaśniejsze zakresowanie uprawnień per projekt, tworzenie subagentów i bezpośrednią integrację z Google Cloud i Firebase. Podwójna rola jako narzędzia deweloperskiego i platformowego SDK sprawia, że jest bardziej porównywalne do frameworku orkiestracji niż do samodzielnego asystenta kodowania.

Czy plan Google AI Ultra za 100 $/mies. jest opłacalny w porównaniu z ChatGPT Pro lub Claude Max?

Czym jest Gemini Omni i jak radzi sobie z generowaniem wideo?

Gemini Omni to natywnie multimodalny model Google, który przyjmuje dowolne połączenie tekstu, obrazów, audio i wideo jako wejście i generuje wideo jako wyjście. Jednoczy wcześniej oddzielne systemy (Veo dla wideo, Imagen dla obrazów) w jeden model, co powinno dawać spójniejsze edycje między modalnościami. Pierwsza wersja, Omni Flash, jest dostępna teraz, a wkrótce spodziewany jest bardziej zaawansowany Omni Pro. Niezależne benchmarki nie zostały jeszcze opublikowane, więc jakość w praktyce jest nadal oceniana.

Tematy

Sztuczna inteligencja

Agenci AI