Direkt zum Inhalt

Google I/O 2025: Top 8 KI-Ankündigungen (und meine Meinung)

Erfahre mehr über die wichtigsten KI-Ankündigungen auf der Google I/O 2025 - Veo 3, Flow, Imagen 4 und mehr - sowie erste Eindrücke.
Aktualisierte 21. Mai 2025  · 8 Min. Lesezeit

Tag 1 der Google I/O 2025 ist vorbei. In diesem Artikel stelle ich dir die wichtigsten Ankündigungen für die KI-Branche vor.

Ich werde mich auf die Updates konzentrieren, die entweder schon fertig sind oder bald veröffentlicht werden sollen. Auf dem Weg dorthin werde ich kurze Eindrücke schildern und, wenn nötig, einen Vergleich mit der Konkurrenz anstellen.

Wir halten unsere Leserinnen und Leser mit The Median auf dem Laufenden, unserem kostenlosen Freitags-Newsletter, der die wichtigsten Meldungen der Woche aufschlüsselt. Melde dich an und bleibe in nur ein paar Minuten pro Woche auf dem Laufenden:

Veo 3

Was mich an Veo 3 besonders beeindruckt hat, ist, dass er eine native Audioausgabe bietet. Du kannst jetzt direkt Videos mit Ton erstellen, ohne dass zusätzliche Bearbeitungsschritte erforderlich sind. Sehen wir uns ein Beispiel an:

Quelle: Google

Native Audioausgabe ist etwas, das ich noch nicht gesehen habe in Startbahn oder Sora. Zu diesem Zeitpunkt würde ich sagen, dass Veo 3 einen Schritt voraus ist.

Die Demo sieht zwar gut aus, aber ich habe gelernt, dass Demo-Videos selten widerspiegeln, wie sich diese Modelle in der Praxis verhalten. Sobald die Eingabeaufforderung von den Trainingsdaten abweicht - eine ungewohnte Szene, ein seltsamer Charakter oder eine Idee mit zu viel Subtilität - bricht das Modell zusammen. Ich freue mich schon darauf, Veo 3 auszuprobieren, um zu sehen, wie gut es funktioniert.

Der Zugang zu Veo 3 erfordert ein AI Ultra-Abonnement, das $250/Monat kostet. Selbst wenn du bereit bist zu zahlen, ist die Verfügbarkeit begrenzt. Im Moment ist sie nur in den USA verfügbar und nur in Googles neuem KI-gestützten Videoeditor namens Flow (über den wir als Nächstes berichten werden).

Wenn du neugierig auf die technischen Details bist oder mehr Beispiele sehen willst, schau dir die offizielle Seite von Veo an hier.

Flow 

Flow ist ein KI-Filmemacher-Tool, mit dem du einzelne Aufnahmen mit einer Kombination aus Veo, Imagen und Gemini erstellen kannst.

Eine Sache, die ich sehr nützlich finde, ist, dass du einzelne Elemente (sogenannte "Zutaten") erstellen und sie dann in einer einzigen Szene zusammenfassen kannst. Das gibt dir eine modulare Kontrolle und kann besonders hilfreich sein, wenn du dieselben Elemente in mehreren Prompts oder Aufnahmen wiederverwenden willst.

Sehen wir uns ein Beispiel an:

Quelle: Google

Außerdem gibt es in Flow Werkzeuge für die Kamerasteuerung und Übergänge, die den Clips einen filmischen Charakter verleihen. Diese sind nützlich, aber nicht neu - Sora und Runway bieten bereits ähnliche Funktionen, also würde ich nicht sagen, dass es hier etwas Bahnbrechendes gibt.

Trotzdem lohnt es sich, darauf zu achten, wie sich solche Tools weiterentwickeln. Flow fühlt sich an wie die frühe Version eines KI-gestützten Videoeditors und es ist nicht schwer, sich eine Zukunft vorzustellen, in der diese Art von Workflow zum Standard wird. So wie wir heute Werkzeuge wie Premiere Pro oder DaVinci Resolve als selbstverständlich ansehen, könnte etwas wie Flow in ein paar Jahren zur Norm werden.

Flow ist derzeit nur in den USA verfügbar und du kannst es über Googles AI Pro- und AI Ultra-Abonnements nutzen.

Imagen 4

Eine weitere wichtige Ankündigung war Imagen 4, Googles neuestes Modell zur Bilderzeugung. Du kannst es direkt in Gemini oder im Whisk, dem Design-Tool von Google, verwenden.

Google spricht von Verbesserungen in allen Bereichen - besserer Fotorealismus, sauberere Details bei Nahaufnahmen, mehr Vielfalt bei den Kunststilen. Das ist alles schön und gut, aber der Teil, der meine Aufmerksamkeit erregte, war das Versprechen einer fortschrittlichen Rechtschreibung und Typografie. Wenn du in letzter Zeit einen Bildgenerator benutzt hast, hast du wahrscheinlich gesehen, dass die meisten von ihnen immer noch Wörter durcheinander bringen oder Buchstaben komplett verzerren.

Schauen wir uns ein Bild an, das Imagen 4 erstellt hat:

imagen 4 Beispiel

Quelle: Google

Momentan würde ich sagen Die Bilderzeugung des GPT-4o ist die stärkste auf dem Markt. Allerdings hat sie manchmal noch Probleme mit dem Einhalten von Texten und Aufforderungen. Wenn Imagen 4 die Rechtschreibung richtig hinbekommt und sich an die Promptheit hält, hat es meiner Meinung nach eine Chance, die Führung bei der Bilderzeugung zu übernehmen.

Gemma 3n

Gemma 3n ist Googles neuestes und leistungsstärkstes On-Device-Modell. Falls du mit dem Begriff nicht vertraut bist: Ein On-Device-Modell läuft direkt auf deinem Telefon, Tablet oder Laptop - ohne dass Daten in die Cloud gesendet werden müssen. Das ist aus mehreren Gründen wichtig: geringere Latenzzeiten, besserer Datenschutz und Offline-Verfügbarkeit.

Aber damit das funktioniert, muss das Modell klein genug sein, um in den begrenzten Speicher zu passen, und trotzdem leistungsfähig genug, um echte Aufgaben zu bewältigen. Das ist die Herausforderung, die Gemma 3n zu meistern versucht.

Er basiert auf einer neuen Architektur, die er mit Gemini Nano teilt - und tatsächlich steht das "n" in "3n" für "nano". Diese Architektur ist für geringen Speicherbedarf, schnelle Reaktionszeiten und die Unterstützung verschiedener Eingabearten wie Text, Audio und Bilder optimiert.

Gemma 3n gibt es in zwei Varianten, mit den Parametergrößen 5B und 8B. Beide sind so konzipiert, dass sie dank einiger Optimierungen unter der Haube effizient laufen, wobei der Speicherbedarf eher bei 2B- und 4B-Modellen liegt.

Was mir aufgefallen ist, ist, dass er in der Chatbot-Arena fast gleichauf ist mit Claude 3.7 Sonneteinem viel größeren Modell.

gemma 3n chatbot arena elo score

Quelle: Google

Diese Version richtet sich vor allem an Entwickler, die mobile oder eingebettete Anwendungen entwickeln, die von lokaler KI profitieren können. Während unser Team bei DataCamp an neuen Gemma 3n-Tutorials arbeitet, empfehle ich, mit diesen Gemma 3-Blogs zu beginnen:

Zwillings-Difussion

Die Technologie, auf die ich am meisten gespannt bin, ist Gemini Difussion. 

Gemini Diffusion ist eine neue experimentelle Modellarchitektur, die entwickelt wurde, um die Geschwindigkeit und Kohärenz bei der Texterstellung zu verbessern. Im Gegensatz zu traditionellen Sprachmodellen, die Token einzeln in einer festen Reihenfolge generieren, arbeiten Diffusionsmodelle mit der Verfeinerung von Rauschen in mehreren Schritten - eine Methode, die aus der Bilderzeugung stammt.

Anstatt das nächste Wort direkt vorherzusagen, beginnt Gemini Diffusion mit einer groben Annäherung und verbessert diese iterativ. Das macht es besser für Aufgaben, die von Verfeinerung und Fehlerkorrektur profitieren, wie Mathematik, Code und Bearbeitung.

Quelle: Google

In ersten Benchmarks wurde berichtet, dass es Tokens bis zu fünfmal schneller generiert als autoregressive Standardmodelle wie Gemini 2.0 Flash-Lite und dabei eine ähnliche oder bessere Leistung bei strukturierten Argumentationsaufgaben erzielt.

Im Moment ist der Zugang auf ausgewählte Tester/innen beschränkt. Es wurde noch kein Veröffentlichungsdatum bekannt gegeben. Trage dich auf der Warteliste auf dieser Seite.

Projekt Mariner

Project Mariner ist Googles Ansatz für einen KI-Agenten, der direkt im Browser arbeiten kann. Es wurde entwickelt, um bei komplexen, mehrstufigen Aufgaben zu helfen - zum Beispiel bei der Reiseplanung, bei der Produktrecherche oder beim Zusammenfassen von dichten Inhalten auf mehreren Registerkarten.

In diesem Sinne ist es ähnlich wie die Manus KI oder OpenAIs Operatordas bereits über ChatGPT verfügbar ist. Lass uns ein Beispiel für Mariner in Aktion sehen:

Im Moment ist Mariner noch nicht öffentlich zugänglich, aber Google sagt, dass ein breiterer Zugang kommen wird. Der Zugang für Entwickler wird bald über die Gemini-API erwartet.

Weitere Beispiele findest du hier:

Projekt Astra

Projekt Astra ist der Prototyp von Google DeepMind für einen universellen KI-Assistenten, der nicht nur auf Aufforderungen reagiert, sondern auch sieht, zuhört, sich erinnert und reagiert. Es wurde letztes Jahr erstmals als Forschungsprojekt vorgestellt, und auf der I/O 2025 konnten wir einen genaueren Blick darauf werfen, was es leisten kann.

Lass es uns in Aktion sehen:

Das ist noch nicht für die Öffentlichkeit zugänglich, aber Teile von Astra finden bereits ihren Weg in Gemini Live, und eine breitere Einführung wird später erwartet. Ob es ein echtes Produkt wird oder in der Forschungsphase bleibt, bleibt abzuwarten, aber die Richtung ist klar: Das ist es, was Google als Grundlage für einen universellen KI-Assistenten sieht.

KI-Modus in der Suche

Der KI-Modus ist das neue Sucherlebnis von Google, das sich mehr wie ein Chatbot als eine Suchmaschine anfühlt. Es unterscheidet sich von den KI-Überblicken, die kurze KI-Zusammenfassungen sind, die oben auf der traditionellen Google-Ergebnisseite erscheinen, die wir alle kennen. Der KI-Modus hingegen übernimmt die gesamte Benutzeroberfläche - es ist eine neue Registerkarte, auf der du komplexe Fragen stellen und im Gespräch nachhaken kannst.

Sehen wir uns ein Beispiel an:

Quelle: Google

Die Oberfläche sieht ChatGPT oder Perplexity sehr ähnlich. Du gibst eine Frage ein, und der KI-Modus antwortet mit längeren, strukturierten Antworten, die Links, Zitate, Diagramme und manchmal sogar eine vollständige Aufschlüsselung der Recherche enthalten. Es verwendet einen "Query Fan-Out"-Ansatz, um deine Frage in Unterthemen aufzuteilen und in einem Durchgang aus dem gesamten Web zu ziehen.

Ein bemerkenswertes Merkmal ist die Integration der agenturischen Fähigkeiten von Project Mariner. So kannst du bei Aufgaben wie dem Kauf von Veranstaltungstickets, der Reservierung oder der Suche nach Verfügbarkeiten auf verschiedenen Websites Zeit sparen.

Es ist klar, dass die Suche einen grundlegenden Wandel durchmacht. Wir bewegen uns von einem Modell, das auf Linklisten basiert, zu einem Modell, das sich auf direkte Antworten, Zusammenfassungen und die Erledigung von Aufgaben konzentriert. Das hat große Auswirkungen darauf, wie Informationen auftauchen und konsumiert werden. Die SEO- und Content-Marketing-Branche sehen bereits die Auswirkungen.

Der KI-Modus wird jetzt in den USA eingeführt, weitere Funktionen werden in den nächsten Wochen in den Labs verfügbar sein. Du kannst das Experiment in Google Labs aktivieren, wenn du es frühzeitig ausprobieren möchtest.

Fazit

Damit sind die wichtigsten KI-Ankündigungen von Tag 1 der I/O 2025 zusammengefasst. Wie immer wird viel Ehrgeiz an den Tag gelegt - aber der wirkliche Test ist, wie sich diese Tools in den Händen von alltäglichen Nutzern und Entwicklern schlagen.

Einige dieser Technologien befinden sich noch im Anfangsstadium oder sind durch teure Abonnements geschützt, aber ein paar Funktionen werden bereits für alle Nutzer/innen eingeführt.


Alex Olteanu's photo
Author
Alex Olteanu
LinkedIn

Ich bin Redakteurin und Autorin für KI-Blogs, Tutorials und Nachrichten und sorge dafür, dass alles zu einer starken Content-Strategie und SEO-Best Practices passt. Ich habe Data-Science-Kurse über Python, Statistik, Wahrscheinlichkeit und Datenvisualisierung geschrieben. Außerdem habe ich einen preisgekrönten Roman veröffentlicht und verbringe meine Freizeit mit Drehbuchschreiben und Filmregie.

Themen

Lerne KI mit diesen Kursen!

Lernpfad

KI-Grundlagen

0 Min.
Entdecke die Grundlagen der KI, lerne Modelle wie chatGPT kennen und entschlüssele die Geheimnisse der generativen KI, um dich in der dynamischen KI-Landschaft zurechtzufinden.
Siehe DetailsRight Arrow
Kurs starten
Mehr anzeigenRight Arrow
Verwandt

Der Blog

Top 30 Generative KI Interview Fragen und Antworten für 2024

Dieser Blog bietet eine umfassende Sammlung von Fragen und Antworten zu generativen KI-Interviews, die von grundlegenden Konzepten bis hin zu fortgeschrittenen Themen reichen.
Hesam Sheikh Hassani's photo

Hesam Sheikh Hassani

15 Min.

Der Blog

Die 50 besten AWS-Interview-Fragen und Antworten für 2025

Ein kompletter Leitfaden zur Erkundung der grundlegenden, mittleren und fortgeschrittenen AWS-Interviewfragen, zusammen mit Fragen, die auf realen Situationen basieren.
Zoumana Keita 's photo

Zoumana Keita

15 Min.

Der Blog

Q2 2023 DataCamp Donates Digest

DataCamp Donates hat im zweiten Quartal 2023 über 20.000 Stipendien an unsere gemeinnützigen Partner vergeben. Erfahre, wie fleißige benachteiligte Lernende diese Chancen in lebensverändernde berufliche Erfolge verwandelt haben.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

Der Blog

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Bist du gerade auf der Suche nach einem Job, der Snowflake nutzt? Bereite dich mit diesen 20 besten Snowflake-Interview-Fragen vor, damit du den Job bekommst!
Nisha Arya Ahmed's photo

Nisha Arya Ahmed

15 Min.

Der Blog

2022-2023 DataCamp Classrooms Jahresbericht

Zu Beginn des neuen Schuljahres ist DataCamp Classrooms motivierter denn je, das Lernen mit Daten zu demokratisieren. In den letzten 12 Monaten sind über 7.650 neue Klassenzimmer hinzugekommen.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

8 Min.

Der Blog

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Keine Hacks, keine Tricks. Schüler/innen und Lehrer/innen, lest weiter, um zu erfahren, wie ihr die Datenerziehung, die euch zusteht, kostenlos bekommen könnt.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

4 Min.

Mehr anzeigenMehr anzeigen