Dall-E 2 von OpenAI generiert alle Arten von Bildern aus Texteingaben schneller und besser

Last updated 28. April 2022

Kurz gesagt: Stellen Sie sich vor, Sie könnten einer KI ein Bild beschreiben und daraus ein fotorealistisches Bild machen lassen. Das ist eine der Behauptungen einer aktualisierten Version eines Programms, das wir letztes Jahr zum ersten Mal gesehen haben, und die Ergebnisse sehen wirklich aufregend aus.

DALL-E 2 stammt aus dem in San Francisco ansässigen OpenAI-Forschungslabor hinter künstlichen Intelligenzmodellen wie GPT-2 und GPT-3, die gefälschte Nachrichten schreiben und menschliche Top-Gegner in Spielen wie DOTA 2 schlagen können.

DALL-E 2, ein Name, der von einem Portmanteau des Künstlers Salvador Dalí und des Disney-Roboters WALL-E stammt, ist die zweite Iteration des neuronalen Netzwerks, das wir zum ersten Mal im Januar letzten Jahres gesehen haben, aber dieses bietet eine höhere Auflösung und eine geringere Latenz als das Originalfassung. Die erzeugten Bilder haben jetzt viel bessere 1024 x 1024 Pixel, eine deutliche Steigerung gegenüber den 256 x 256 des Originals.

Dank des aktualisierten CLIP-Bilderkennungssystems von OpenAI, jetzt unCLIP genannt, kann DALL-E 2 Benutzertext in lebendige Bilder verwandeln, sogar solche, die surreal genug sind, um mit Dali selbst mithalten zu können. Fragt man beispielsweise nach einem Koala, der Basketball spielt, oder einem Affen, der Steuern zahlt, erstellt die KI erschreckend realistische Bilder dieser Beschreibungen.

Das neueste System hat auf einen Prozess namens Diffusion umgestellt, der mit einem Muster aus zufälligen Punkten beginnt und dieses Muster allmählich in Richtung eines Bildes ändert, wenn es bestimmte Aspekte erkennt.

Variationen von Teddybären im Ukiyo-e-Stil und ein uriger Blumenladen

DALL-E 2 kann mehr, als aus Text neue Bilder zu erstellen. Es ist auch in der Lage, Bildabschnitte zu ändern; Sie können beispielsweise den Kopf einer Person hervorheben und ihm sagen, dass er einen lustigen Hut hinzufügen soll. Es besteht sogar die Möglichkeit, Variationen eines einzelnen Bildes mit jeweils unterschiedlichen Stilen, Inhalten oder Blickwinkeln zu erstellen.

„Dies ist ein weiteres Beispiel dafür, was meiner Meinung nach ein neuer Trend zu Computerschnittstellen sein wird: Sie sagen, was Sie wollen, in natürlicher Sprache oder mit kontextbezogenen Hinweisen, und der Computer macht es”, sagte Sam Altman, CEO von OpenAI. „Wir können uns einen ‚KI-Büroangestellten' vorstellen, der wie ein Mensch Anfragen in natürlicher Sprache entgegennimmt.”

Diese Arten von Bilderzeugungs-KIs bergen ein inhärentes Risiko des Missbrauchs. OpenAI hat einige Sicherheitsvorkehrungen getroffen, einschließlich der Tatsache, dass es nicht möglich ist, Gesichter basierend auf einem Namen zu generieren, und dass das Hochladen oder Generieren von anstößigem Material nicht erlaubt ist – nur familienfreundliches Material. Einige der verbotenen Themen umfassen Hass, Belästigung, Gewalt, Selbstverletzung, explizite/schockierende Bilder, illegale Aktivitäten, Täuschungen wie gefälschte Nachrichten, politische Akteure oder Situationen, medizinische oder krankheitsbezogene Bilder oder allgemeiner Spam.

Benutzer müssen auch offenlegen, dass eine KI die Bilder generiert hat, und es wird ein Wasserzeichen geben, das diese Tatsache auf jedem Bild anzeigt.

The Verge schreibt, dass Forscher sich anmelden können, um sich das System online anzusehen. Es wird nicht direkt für die Öffentlichkeit freigegeben, obwohl OpenAI hofft, es irgendwann in der Zukunft für die Verwendung in Apps von Drittanbietern verfügbar zu machen.

Aufnahmequelle: www.techspot.com