Lernpfad
Als Fotograf und Kunstinteressierter im Allgemeinen bin ich immer fasziniert, wenn ein neues Modell zur Bilderzeugung auf den Markt kommt. Die GPT-4o-Bilderzeugung von OpenAI hat mich wirklich umgehauen.
Ich habe Ideen in meinem Kopf, die ich gerne visuell ausdrücken würde, aber manchmal fällt es mir schwer, sie zum Leben zu erwecken. Ich hoffe immer noch, dass ein Modell auftaucht, das die Lücke zwischen der Realität und meiner Vision schließen kann. Das neue Modell könnte genau diese Brücke sein.
In diesem Artikel zeige ich dir anhand von 8 praktischen Beispielen die Möglichkeiten von OpenAIs neuem Bilderzeugungsmodell.
Was ist GPT-4o Image Generation?
Die GPT-4o-Bilderzeugung ist eine neue Funktion im GPT-4o-Modell, mit der du direkt in ChatGPT Bilder erstellen kannst. Diese Funktion bringt die native Bilderzeugung auf die Plattform und macht sie für verschiedene Zwecke wie Kreativität, Bildung und mehr zugänglich.
Die Markteinführung stellt einen großen Fortschritt gegenüber früheren Technologien zur Bilderzeugung dar, da sie die Erstellung von Bildern genauer, benutzerfreundlicher und in vielen Situationen nützlich machen soll. Zum Beispiel können die Nutzer/innen jetzt Bilder erzeugen, indem sie bestimmte Anweisungen geben, Bilder mit Text vermischen oder sogar Bilder durch einfache Anweisungen bearbeiten.
Insgesamt kann die GPT-4o-Bilderzeugung für verschiedene kreative Aufgaben eingesetzt werden, z. B. zum Erstellen von Comics, zum Entwerfen von Sammelkarten, zum Basteln von Memes oder sogar zum Erstellen von Unterrichtsmaterialien, die komplexe Themen erklären. Ich habe ChatGPT zum Beispiel gebeten, den Inhalt dieses Abschnitts in einer Infografik zusammenzufassen:

Beispiel-Infografik mit GPT-4o Bilderzeugung
Wie erhalte ich Zugang zur GPT-4o Bilderzeugung?
Die GPT-4o Bilderzeugungsfunktion ist als Standardbildgenerator in ChatGPT verfügbar. Laut OpenAI ist es für Plus-, Pro-, Team- und Free-Nutzer verfügbar. Ich habe jedoch die Erfahrung gemacht, dass es mit meinem Free-Tarif nicht funktioniert hat. bestätigte OpenAI dass der Zugang aufgrund der hohen Nachfrage noch nicht für den Free-Tarif verfügbar ist.
Entwickler werden in den kommenden Wochen die Möglichkeit haben, über die API Bilder mit GPT-4o zu erzeugen.
Du kannst mit GPT-4o Bilder erstellen, indem du das GPT-4o-Modell auswählst und einen Text eingibst, in dem du beschreibst, was es erzeugen soll.

Wir können uns auch weiter unterhalten, um Änderungen zu beantragen:

Beispiele für die GPT-4o Bilderzeugung
Nachdem wir uns mit der Verwendung des Modells beschäftigt haben, wollen wir nun anhand von acht praktischen Beispielen zeigen, was es alles kann.
OpenAI behauptet, dass dieses neue Modell nicht nur schöne Bilder erzeugt. Sie ist in der Lage, Bilder zu erzeugen, die in der realen Welt tatsächlich nützlich sind. Damit ein Bilderzeugungsmodell wirklich nützlich ist, muss es meiner Meinung nach in der Lage sein, bestehende Bilder zu verändern oder bestehende Stile konsistent anzuwenden.
In realen Situationen wollen wir normalerweise kein Bild von Grund auf neu erstellen. Vielmehr haben wir einen Stil und wollen ein Bild in diesem Stil erzeugen, oder wir haben ein Foto und müssen es in irgendeiner Weise verändern. Hier sind ein paar Beispiele:
- Ein Coffeeshop-Besitzer, der ein Marketing-Foto posten möchte, will kein Bild eines beliebigen Coffeeshops - er will ein Foto von seinem Coffeeshop.
- Wenn ich KI benutze, um eine visuelle Geschichte zu erstellen, muss ich in der Lage sein, einen konsistenten Charakter in der Geschichte zu behalten. Es nützt nichts, wenn die Bilder nicht konsistent sind.
- Als Fotograf habe ich kein Interesse daran, ein Bild aus dem Nichts zu erzeugen, das es im echten Leben nicht gibt. Vielmehr möchte ich ein bestehendes Foto bearbeiten können.
1. Text
Wir haben bereits im Logo-Beispiel gesehen, dass GPT-4o Text in Bildern erzeugen kann. Das Erzeugen von eigenständigem Text ist wahrscheinlich das einfachste Beispiel.
Um dies weiter zu testen, habe ich versucht, Text auf einem Objekt zu erzeugen:

Dieses Beispiel zeigt zwei wichtige Merkmale auf:
- Das Modell ist in der Lage, Text über ein Objekt so zu erzeugen, dass er mit der Form des Objekts übereinstimmt.
- Das Modell kann Farben verstehen und einem Farbschema folgen.
Um das Modell noch weiter zu verbessern, habe ich es gebeten, einen längeren Text zu erstellen und ihn im Bild lesbar darzustellen. Hier ist das Ergebnis:

Das hat mich beeindruckt. Andere Modelle, die ich in der Vergangenheit ausprobiert habe, haben diese Aufgabe nicht so gut erfüllt.
2. Transparenz
GPT-4o ist in der Lage, Bilder mit transparenten Bereichen zu erzeugen. Das ist besonders nützlich für Bilder, die über andere Inhalte gelegt werden sollen, z. B. Sticker von Spielfiguren.
Ich habe ein Foto von mir gemacht und GPT-4o gebeten, einen Pixel-Art-Charakter auf der Grundlage dieses Fotos zu erstellen. Hier ist das Ergebnis:

Beachte, dass es standardmäßig keinen transparenten Hintergrund erzeugt, aber wenn du danach fragst, funktioniert es gut und verändert das ursprüngliche Ergebnis nicht.
3. Konsistenz des Charakters
Auf der Grundlage des vorherigen Gesprächs habe ich versucht, eine Szene mit dem Pixel-Art-Charakter zu erstellen, den ich erstellt hatte. Das war das Ergebnis:

Die Figur auf diesem Bild hat eine andere Auflösung als das Original. Es hat mehr Details, also scheint es, dass GPT-4o ein neues auf der Grundlage des Fotos generiert, anstatt das Zeichen zu verwenden, das es vorher erstellt hat.
Das ist zwar immer noch ein schönes Ergebnis, aber im Spiel ist es so nicht zu gebrauchen, weil die beiden Charaktere einheitlicher sein müssen. In diesem Stadium ist es eher eine Inspiration für einen Pixelkünstler als ein Endergebnis an sich.
4. Eine detaillierte Geschichte erstellen
Als Nächstes wollte ich einen Comicstrip erstellen, um die Geschichte zu erzählen, wie ich vor ein paar Monaten ein Stadtbild von Taipeh fotografiert habe. Ich habe dies benutzt, um zu testen, wie GPT-4o mit der Erstellung eines Bildes aus detaillierten Anweisungen umgeht.
Ich habe das Modell gebeten, eine Comicfigur zu erstellen, die auf mir basiert. Dann habe ich die Details zu jedem Bild im Comicstrip angegeben.

Das erste Ergebnis war nahe an dem, was ich wollte, aber nicht ganz genau. Außerdem hatte ich wieder das Gefühl, dass das Modell einen neuen Charakter generiert, anstatt den ersten zu verwenden, den es generiert hat.
Ich war jedoch sehr zufrieden mit dem Ergebnis, nachdem ich meine Änderungen vorgenommen hatte. Es war ein interessantes Gefühl, zu sehen, wie diese Nacht als Comic zum Leben erweckt wurde.

Ich fand es besonders toll, dass es das Foto im letzten Bild nachahmen konnte. Ich glaube, das hat das Ergebnis verbessert.
5. Fotobearbeitung
Als Nächstes habe ich die Fotobearbeitung ausprobiert. Vor ein paar Monaten reiste ich zurück nach Europa und machte ein Foto, bevor ich das Flugzeug bestieg. Leider gab es eine störende Reflexion auf dem Fenster, weil ich das Foto von innen gemacht habe. Ich habe versucht, sie mit Photoshop zu entfernen, aber es ist mir nicht gelungen.
Ich habe es noch einmal mit GPT-4o versucht, und es hat wirklich gut funktioniert.

Hier sind ein paar weitere Beispiele für die Bearbeitung eines Fotos mit GPT-4o:

Auch hier ist es nicht perfekt, aber trotzdem ziemlich gut. Im ersten Beispiel wurden die Menschen entfernt, aber das Gebäude im Hintergrund wurde verändert. Die Nachtfotos sind schön, aber ein bisschen zu dunkel.
Ein weiteres interessantes Detail ist, dass GPT-4o aufgrund des Konversationsaspekts dazu neigt, die neuen Änderungen auf das letzte Bild anzuwenden. Als ich in diesem Fall den Regen anforderte, erwartete ich, dass er das Originalbild verändert, nicht das Nachtbild.
Wir können dies umgehen, indem wir das Bild in der Eingabeaufforderung angeben oder eine neue Konversation beginnen.
6. Farbkorrektur
Der Großteil meiner Fotobearbeitung besteht darin, die Farben anzupassen und nicht den Inhalt des Fotos zu verändern.
Ich war neugierig, wie gut der GPT-4o bei der Farbkorrektur ist, also habe ich mit der Farbkorrektur bei einem meiner Fotos experimentiert. Einer meiner Lieblingsfilme ist Blade Runner 2049, und ich mag die Ästhetik des Films. Deshalb wollte ich sehen, ob GPT-4o eines meiner Stadtfotos in diesem Stil farblich aufwerten kann. Hier ist das Ergebnis:

Das Ergebnis hat mir gefallen. Damit habe ich so viel Zeit gespart, als wenn ich sie selbst bearbeitet hätte. Außerdem gefällt mir die Tatsache, dass die Integrität des Bildes (größtenteils) erhalten wurde.
In diesem Beispiel beschreiben wir das gewünschte Ergebnis in Textform. Ich habe auch versucht, dem Programm ein Beispielbild mit einer Farbpalette zu geben, um zu sehen, ob es mein Foto in diesem Stil farblich einordnen kann. Meiner Meinung nach hat sie das sehr gut gemacht.

7. Infografiken und Diagramme
Eine Infografik ist eine visuelle Darstellung von Informationen oder Daten, die komplexe Ideen schnell verständlich machen soll. Bis jetzt habe ich noch kein Modell gesehen, das nützliche Infografiken erstellen kann.
Wir wollen GPT-4o auf die Probe stellen, indem wir es bitten, eine Infografik zu erstellen, die erklärt, warum es in Taiwan so viele Erdbeben gibt.

Das erste Ergebnis war ziemlich ungenau, da sowohl der Ort als auch die Schreibweise von Taiwan falsch sind. Ich habe ihn gebeten, es zu reparieren und habe ein besseres Ergebnis erhalten. Das neue Ergebnis ist aber immer noch nicht perfekt, weil das Ende der Erklärung abgeschnitten ist.
Das zeigt, dass das Modell noch nicht perfekt ist. Ich habe aber viele Beispiele im Internet gesehen, bei denen es diese Aufgabe ziemlich gut gelöst hat.
Als Online-Pädagoge muss ich oft Diagramme für meine Inhalte erstellen. Ich habe versucht, GPT-4o zu bitten, Diagramme für mich zu erstellen, aber ich konnte kein gutes Ergebnis finden. Das habe ich bekommen, als ich nach einem Diagramm zur Veranschaulichung von Merge Sort gefragt habe. Das Diagramm gibt die richtige Idee wieder, aber alle Details sind falsch.
Insgesamt denke ich, dass die Modelle in diesem Bereich noch stark verbessert werden müssen.
8. Hinzufügen von Elementen zu einem bestehenden Bild
Schließlich habe ich versucht, ein bestehendes Foto zu verändern, indem ich Elemente hinzugefügt habe. In diesem Beispiel habe ich ein Foto aus einem Teeladen und habe es gebeten, eine Teetasse auf die Tabelle zu zeichnen:

Ich hatte schon früher versucht, dieses Bild mit DALL-E von Grund auf zu erstellen, aber jedes Mal war das Gesamtbild nicht sehr realistisch. Wenn ich einem echten Foto Elemente hinzufügen kann, ist es viel einfacher, das gewünschte Ergebnis zu erzielen.
Fazit
In diesem Artikel haben wir die aufregenden neuen Funktionen der GPT-4o-Bilderzeugung und ihre bemerkenswerten Möglichkeiten erkundet. Anhand von acht praktischen Beispielen haben wir herausgefunden, wie dieses Modell Text innerhalb von Bildern erstellen, mit Transparenz umgehen und die Zeichenkonsistenz wahren kann. Jede Fähigkeit zeigt, wie vielseitig und effektiv GPT-4o ist, um kreative Visionen zum Leben zu erwecken.
Ich finde, dass es noch viel Raum für Verbesserungen gibt, wenn es um Infografiken und Diagramme geht. Die Bilder, die er in diesen Fällen erzeugt, stimmen zwar mit den Aufforderungen überein, aber es fehlt ihnen an Genauigkeit und sachlicher Konsistenz.
Ich habe mich schon lange nicht mehr so sehr auf eine KI-Veröffentlichung gefreut. Meiner Meinung nach ist das GPT-4o ein echter Game Changer im Bereich der Bilderzeugung. Ich freue mich darauf, weiter damit zu experimentieren und habe schon zahlreiche Ideen, die ich unbedingt ausprobieren und umsetzen möchte.
