Direkt zum Inhalt

GPT-4o Bilderzeugung: Ein Leitfaden mit 8 praktischen Beispielen

Erfahre, was die GPT-4o-Bilderzeugung ist, wie man sie einsetzt und entdecke 8 praktische Beispiele, um ihre Möglichkeiten zu verstehen.
Aktualisierte 27. März 2025  · 8 Min. Lesezeit

Als Fotograf und Kunstinteressierter im Allgemeinen bin ich immer fasziniert, wenn ein neues Modell zur Bilderzeugung auf den Markt kommt. Die GPT-4o-Bilderzeugung von OpenAI hat mich wirklich umgehauen.

Ich habe Ideen in meinem Kopf, die ich gerne visuell ausdrücken würde, aber manchmal fällt es mir schwer, sie zum Leben zu erwecken. Ich hoffe immer noch, dass ein Modell auftaucht, das die Lücke zwischen der Realität und meiner Vision schließen kann. Das neue Modell könnte genau diese Brücke sein.

In diesem Artikel zeige ich dir anhand von 8 praktischen Beispielen die Möglichkeiten von OpenAIs neuem Bilderzeugungsmodell.

Was ist GPT-4o Image Generation?

Die GPT-4o-Bilderzeugung ist eine neue Funktion im GPT-4o-Modell, mit der du direkt in ChatGPT Bilder erstellen kannst. Diese Funktion bringt die native Bilderzeugung auf die Plattform und macht sie für verschiedene Zwecke wie Kreativität, Bildung und mehr zugänglich.

Die Markteinführung stellt einen großen Fortschritt gegenüber früheren Technologien zur Bilderzeugung dar, da sie die Erstellung von Bildern genauer, benutzerfreundlicher und in vielen Situationen nützlich machen soll. Zum Beispiel können die Nutzer/innen jetzt Bilder erzeugen, indem sie bestimmte Anweisungen geben, Bilder mit Text vermischen oder sogar Bilder durch einfache Anweisungen bearbeiten.

Insgesamt kann die GPT-4o-Bilderzeugung für verschiedene kreative Aufgaben eingesetzt werden, z. B. zum Erstellen von Comics, zum Entwerfen von Sammelkarten, zum Basteln von Memes oder sogar zum Erstellen von Unterrichtsmaterialien, die komplexe Themen erklären. Ich habe ChatGPT zum Beispiel gebeten, den Inhalt dieses Abschnitts in einer Infografik zusammenzufassen:

gpt-4o Bilderzeugung

Beispiel-Infografik mit GPT-4o Bilderzeugung

Wie erhalte ich Zugang zur GPT-4o Bilderzeugung?

Die GPT-4o Bilderzeugungsfunktion ist als Standardbildgenerator in ChatGPT verfügbar. Laut OpenAI ist es für Plus-, Pro-, Team- und Free-Nutzer verfügbar. Ich habe jedoch die Erfahrung gemacht, dass es mit meinem Free-Tarif nicht funktioniert hat. bestätigte OpenAI dass der Zugang aufgrund der hohen Nachfrage noch nicht für den Free-Tarif verfügbar ist.

Entwickler werden in den kommenden Wochen die Möglichkeit haben, über die API Bilder mit GPT-4o zu erzeugen.

Du kannst mit GPT-4o Bilder erstellen, indem du das GPT-4o-Modell auswählst und einen Text eingibst, in dem du beschreibst, was es erzeugen soll.

Ein Bild mit der GPT-4o-Bilderzeugung erzeugen

Wir können uns auch weiter unterhalten, um Änderungen zu beantragen:

Ein Bild mit GPT-4o bearbeiten

Beispiele für die GPT-4o Bilderzeugung

Nachdem wir uns mit der Verwendung des Modells beschäftigt haben, wollen wir nun anhand von acht praktischen Beispielen zeigen, was es alles kann.

OpenAI behauptet, dass dieses neue Modell nicht nur schöne Bilder erzeugt. Sie ist in der Lage, Bilder zu erzeugen, die in der realen Welt tatsächlich nützlich sind. Damit ein Bilderzeugungsmodell wirklich nützlich ist, muss es meiner Meinung nach in der Lage sein, bestehende Bilder zu verändern oder bestehende Stile konsistent anzuwenden.

In realen Situationen wollen wir normalerweise kein Bild von Grund auf neu erstellen. Vielmehr haben wir einen Stil und wollen ein Bild in diesem Stil erzeugen, oder wir haben ein Foto und müssen es in irgendeiner Weise verändern. Hier sind ein paar Beispiele:

  • Ein Coffeeshop-Besitzer, der ein Marketing-Foto posten möchte, will kein Bild eines beliebigen Coffeeshops - er will ein Foto von seinem Coffeeshop.
  • Wenn ich KI benutze, um eine visuelle Geschichte zu erstellen, muss ich in der Lage sein, einen konsistenten Charakter in der Geschichte zu behalten. Es nützt nichts, wenn die Bilder nicht konsistent sind.
  • Als Fotograf habe ich kein Interesse daran, ein Bild aus dem Nichts zu erzeugen, das es im echten Leben nicht gibt. Vielmehr möchte ich ein bestehendes Foto bearbeiten können.

1. Text

Wir haben bereits im Logo-Beispiel gesehen, dass GPT-4o Text in Bildern erzeugen kann. Das Erzeugen von eigenständigem Text ist wahrscheinlich das einfachste Beispiel.

Um dies weiter zu testen, habe ich versucht, Text auf einem Objekt zu erzeugen:

Beispiel dafür, wie GPT-4o Text auf einem Objekt behandelt

Dieses Beispiel zeigt zwei wichtige Merkmale auf:

  1. Das Modell ist in der Lage, Text über ein Objekt so zu erzeugen, dass er mit der Form des Objekts übereinstimmt.
  2. Das Modell kann Farben verstehen und einem Farbschema folgen.

Um das Modell noch weiter zu verbessern, habe ich es gebeten, einen längeren Text zu erstellen und ihn im Bild lesbar darzustellen. Hier ist das Ergebnis:

Komplexeres Textbeispiel

Das hat mich beeindruckt. Andere Modelle, die ich in der Vergangenheit ausprobiert habe, haben diese Aufgabe nicht so gut erfüllt.

2. Transparenz

GPT-4o ist in der Lage, Bilder mit transparenten Bereichen zu erzeugen. Das ist besonders nützlich für Bilder, die über andere Inhalte gelegt werden sollen, z. B. Sticker von Spielfiguren.

Ich habe ein Foto von mir gemacht und GPT-4o gebeten, einen Pixel-Art-Charakter auf der Grundlage dieses Fotos zu erstellen. Hier ist das Ergebnis:

Erzeugen von Zeichen und Umgang mit Transparenz

Beachte, dass es standardmäßig keinen transparenten Hintergrund erzeugt, aber wenn du danach fragst, funktioniert es gut und verändert das ursprüngliche Ergebnis nicht.

3. Konsistenz des Charakters

Auf der Grundlage des vorherigen Gesprächs habe ich versucht, eine Szene mit dem Pixel-Art-Charakter zu erstellen, den ich erstellt hatte. Das war das Ergebnis:

Zeichenkonsistenz mit GPT-4o Bilderzeugung

Die Figur auf diesem Bild hat eine andere Auflösung als das Original. Es hat mehr Details, also scheint es, dass GPT-4o ein neues auf der Grundlage des Fotos generiert, anstatt das Zeichen zu verwenden, das es vorher erstellt hat.

Das ist zwar immer noch ein schönes Ergebnis, aber im Spiel ist es so nicht zu gebrauchen, weil die beiden Charaktere einheitlicher sein müssen. In diesem Stadium ist es eher eine Inspiration für einen Pixelkünstler als ein Endergebnis an sich.

4. Eine detaillierte Geschichte erstellen

Als Nächstes wollte ich einen Comicstrip erstellen, um die Geschichte zu erzählen, wie ich vor ein paar Monaten ein Stadtbild von Taipeh fotografiert habe. Ich habe dies benutzt, um zu testen, wie GPT-4o mit der Erstellung eines Bildes aus detaillierten Anweisungen umgeht.

Ich habe das Modell gebeten, eine Comicfigur zu erstellen, die auf mir basiert. Dann habe ich die Details zu jedem Bild im Comicstrip angegeben. 

Bilder mit komplexen Anweisungen generieren

Das erste Ergebnis war nahe an dem, was ich wollte, aber nicht ganz genau. Außerdem hatte ich wieder das Gefühl, dass das Modell einen neuen Charakter generiert, anstatt den ersten zu verwenden, den es generiert hat.

Ich war jedoch sehr zufrieden mit dem Ergebnis, nachdem ich meine Änderungen vorgenommen hatte. Es war ein interessantes Gefühl, zu sehen, wie diese Nacht als Comic zum Leben erweckt wurde.

Anpassen von Teilen eines Bildes

Ich fand es besonders toll, dass es das Foto im letzten Bild nachahmen konnte. Ich glaube, das hat das Ergebnis verbessert.

5. Fotobearbeitung

Als Nächstes habe ich die Fotobearbeitung ausprobiert. Vor ein paar Monaten reiste ich zurück nach Europa und machte ein Foto, bevor ich das Flugzeug bestieg. Leider gab es eine störende Reflexion auf dem Fenster, weil ich das Foto von innen gemacht habe. Ich habe versucht, sie mit Photoshop zu entfernen, aber es ist mir nicht gelungen.

Ich habe es noch einmal mit GPT-4o versucht, und es hat wirklich gut funktioniert.

Fotobearbeitung mit GPT-4o Bilderzeugung

Hier sind ein paar weitere Beispiele für die Bearbeitung eines Fotos mit GPT-4o:

Weitere Beispiele für die Fotobearbeitung mit dem GPT-4o

Auch hier ist es nicht perfekt, aber trotzdem ziemlich gut. Im ersten Beispiel wurden die Menschen entfernt, aber das Gebäude im Hintergrund wurde verändert. Die Nachtfotos sind schön, aber ein bisschen zu dunkel.

Ein weiteres interessantes Detail ist, dass GPT-4o aufgrund des Konversationsaspekts dazu neigt, die neuen Änderungen auf das letzte Bild anzuwenden. Als ich in diesem Fall den Regen anforderte, erwartete ich, dass er das Originalbild verändert, nicht das Nachtbild. 

Wir können dies umgehen, indem wir das Bild in der Eingabeaufforderung angeben oder eine neue Konversation beginnen.

6. Farbkorrektur

Der Großteil meiner Fotobearbeitung besteht darin, die Farben anzupassen und nicht den Inhalt des Fotos zu verändern.

Ich war neugierig, wie gut der GPT-4o bei der Farbkorrektur ist, also habe ich mit der Farbkorrektur bei einem meiner Fotos experimentiert. Einer meiner Lieblingsfilme ist Blade Runner 2049, und ich mag die Ästhetik des Films. Deshalb wollte ich sehen, ob GPT-4o eines meiner Stadtfotos in diesem Stil farblich aufwerten kann. Hier ist das Ergebnis:

Farbkorrektur mit gpt-4o Bilderzeugung

Das Ergebnis hat mir gefallen. Damit habe ich so viel Zeit gespart, als wenn ich sie selbst bearbeitet hätte. Außerdem gefällt mir die Tatsache, dass die Integrität des Bildes (größtenteils) erhalten wurde.

In diesem Beispiel beschreiben wir das gewünschte Ergebnis in Textform. Ich habe auch versucht, dem Programm ein Beispielbild mit einer Farbpalette zu geben, um zu sehen, ob es mein Foto in diesem Stil farblich einordnen kann. Meiner Meinung nach hat sie das sehr gut gemacht.

Farbabstufung mit Bildstil

7. Infografiken und Diagramme

Eine Infografik ist eine visuelle Darstellung von Informationen oder Daten, die komplexe Ideen schnell verständlich machen soll. Bis jetzt habe ich noch kein Modell gesehen, das nützliche Infografiken erstellen kann.

Wir wollen GPT-4o auf die Probe stellen, indem wir es bitten, eine Infografik zu erstellen, die erklärt, warum es in Taiwan so viele Erdbeben gibt.

Infografik zur GPT-4o-Bilderzeugung

Das erste Ergebnis war ziemlich ungenau, da sowohl der Ort als auch die Schreibweise von Taiwan falsch sind. Ich habe ihn gebeten, es zu reparieren und habe ein besseres Ergebnis erhalten. Das neue Ergebnis ist aber immer noch nicht perfekt, weil das Ende der Erklärung abgeschnitten ist.

Das zeigt, dass das Modell noch nicht perfekt ist. Ich habe aber viele Beispiele im Internet gesehen, bei denen es diese Aufgabe ziemlich gut gelöst hat.

Als Online-Pädagoge muss ich oft Diagramme für meine Inhalte erstellen. Ich habe versucht, GPT-4o zu bitten, Diagramme für mich zu erstellen, aber ich konnte kein gutes Ergebnis finden. Das habe ich bekommen, als ich nach einem Diagramm zur Veranschaulichung von Merge Sort gefragt habe. Das Diagramm gibt die richtige Idee wieder, aber alle Details sind falsch.

Diagramm zur GPT-4o Bilderzeugung - falsches Ergebnis 

Insgesamt denke ich, dass die Modelle in diesem Bereich noch stark verbessert werden müssen.

8. Hinzufügen von Elementen zu einem bestehenden Bild

Schließlich habe ich versucht, ein bestehendes Foto zu verändern, indem ich Elemente hinzugefügt habe. In diesem Beispiel habe ich ein Foto aus einem Teeladen und habe es gebeten, eine Teetasse auf die Tabelle zu zeichnen:

Hinzufügen von Objekten zu einem Bild mit GPT-4o

Ich hatte schon früher versucht, dieses Bild mit DALL-E von Grund auf zu erstellen, aber jedes Mal war das Gesamtbild nicht sehr realistisch. Wenn ich einem echten Foto Elemente hinzufügen kann, ist es viel einfacher, das gewünschte Ergebnis zu erzielen.

Fazit

In diesem Artikel haben wir die aufregenden neuen Funktionen der GPT-4o-Bilderzeugung und ihre bemerkenswerten Möglichkeiten erkundet. Anhand von acht praktischen Beispielen haben wir herausgefunden, wie dieses Modell Text innerhalb von Bildern erstellen, mit Transparenz umgehen und die Zeichenkonsistenz wahren kann. Jede Fähigkeit zeigt, wie vielseitig und effektiv GPT-4o ist, um kreative Visionen zum Leben zu erwecken.

Ich finde, dass es noch viel Raum für Verbesserungen gibt, wenn es um Infografiken und Diagramme geht. Die Bilder, die er in diesen Fällen erzeugt, stimmen zwar mit den Aufforderungen überein, aber es fehlt ihnen an Genauigkeit und sachlicher Konsistenz.

Ich habe mich schon lange nicht mehr so sehr auf eine KI-Veröffentlichung gefreut. Meiner Meinung nach ist das GPT-4o ein echter Game Changer im Bereich der Bilderzeugung. Ich freue mich darauf, weiter damit zu experimentieren und habe schon zahlreiche Ideen, die ich unbedingt ausprobieren und umsetzen möchte.

Themen

Lerne KI mit diesen Kursen!

Lernpfad

AI Fundamentals

10hrs hr
Discover the fundamentals of AI, dive into models like ChatGPT, and decode generative AI secrets to navigate the dynamic AI landscape.
Siehe DetailsRight Arrow
Kurs starten
Mehr anzeigenRight Arrow
Verwandt

Der Blog

Top 30 Generative KI Interview Fragen und Antworten für 2024

Dieser Blog bietet eine umfassende Sammlung von Fragen und Antworten zu generativen KI-Interviews, die von grundlegenden Konzepten bis hin zu fortgeschrittenen Themen reichen.
Hesam Sheikh Hassani's photo

Hesam Sheikh Hassani

15 Min.

Der Blog

Die 50 besten AWS-Interview-Fragen und Antworten für 2025

Ein kompletter Leitfaden zur Erkundung der grundlegenden, mittleren und fortgeschrittenen AWS-Interviewfragen, zusammen mit Fragen, die auf realen Situationen basieren.
Zoumana Keita 's photo

Zoumana Keita

15 Min.

Der Blog

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Bist du gerade auf der Suche nach einem Job, der Snowflake nutzt? Bereite dich mit diesen 20 besten Snowflake-Interview-Fragen vor, damit du den Job bekommst!
Nisha Arya Ahmed's photo

Nisha Arya Ahmed

15 Min.

Der Blog

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Keine Hacks, keine Tricks. Schüler/innen und Lehrer/innen, lest weiter, um zu erfahren, wie ihr die Datenerziehung, die euch zusteht, kostenlos bekommen könnt.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

4 Min.

Der Blog

Q2 2023 DataCamp Donates Digest

DataCamp Donates hat im zweiten Quartal 2023 über 20.000 Stipendien an unsere gemeinnützigen Partner vergeben. Erfahre, wie fleißige benachteiligte Lernende diese Chancen in lebensverändernde berufliche Erfolge verwandelt haben.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

Der Blog

2022-2023 DataCamp Classrooms Jahresbericht

Zu Beginn des neuen Schuljahres ist DataCamp Classrooms motivierter denn je, das Lernen mit Daten zu demokratisieren. In den letzten 12 Monaten sind über 7.650 neue Klassenzimmer hinzugekommen.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

8 Min.

Mehr anzeigenMehr anzeigen