Macht was draus!
Content Marketing ohne Bilder? Kann man machen. Aber mit KI-basierten Text-zu-Bild-Generatoren kommt die Botschaft erst so richtig an.
Text: Henrik Roth, Co-Gründer und CMO von neuroflash
Wirkungsvolle Bilder sind fürs Marketing hochrelevant, weil sie Texte auflockern, Werbung mit mehr Emotionen versehen und Inhalte optisch ansprechender gestalten. Auch sind Menschen eher bereit, sich mit Inhalten zu beschäftigen, wenn sie visuell wirken. Außerdem bleiben Bilder viel länger im Gedächtnis als Text. Bilder tragen demnach entscheidend dazu bei, die Botschaft einer Marke oder eines Unternehmens effektiver zu vermitteln.
Um von der Verwendung von Bildmaterial zu profitieren, müssen die verwendeten Bilder allerdings von hoher Qualität sein und relevante Botschaften enthalten. Aus diesem Grund greifen viele Unternehmen auf Stockfotografie zurück. Doch gibt es nicht selten ein Problem: Die ausgewählten Bilder werden höchstwahrscheinlich bereits auf anderen Websites verwendet und sind nicht immer mit spezifischen Inhalten kompatibel. Zudem muss man auf die Urheberrechtsbestimmungen achten. Eine andere Möglichkeit wäre, Profis wie Fotografen und Digital Artists zu beauftragen, neue Bilder zu erstellen, aber das kostet Zeit und Geld.
Als Ausweg aus dieser Zwickmühle gibt es eine Option, mit der man innerhalb kürzester Zeit und mit minimalem Aufwand einzigartige und originelle Bilder erstellen kann: Text-zu-Bild-Generatoren sind eine der neuesten Entwicklungen auf dem Gebiet der Künstlichen Intelligenz und bergen auch für die Marketing-Branche ein enormes Potenzial.
Aus Text-Eingaben ein Bild entstehen lassen
In der letzten Zeit werden auffällig viele verschiedene Illustrationen und digitale Kunstwerke überall auf Social Media gepostet – und höchstwahrscheinlich sind diese das Ergebnis eines Text-zu-Bild-Generators wie zum Beispiel DALL-E 2. Diese Technologie wurde von Elon Musks Unternehmen OpenAI entwickelt und Anfang dieses Jahres veröffentlicht. Die Künstliche Intelligenz von DALL-E 2 ist darauf trainiert, neue Bilder aus Texteingaben zu generieren. Das bedeutet, dass man lediglich beschreiben muss, welche Art von Bild man erstellen will, und die KI erledigt den Rest.
Um dies zu erreichen, stützt sich DALL-E 2 auf bestehende Technologien wie das natürliche Sprachmodell GPT-3 [1], das ebenfalls von OpenAI entwickelt wurde. Dies ermöglicht dem Bildgenerator, Sprache zu verstehen und die eingegebenen Texte umzuwandeln.
KI setzt kreative Angaben und künstlerische Stile um
Mit Text-zu-Bild-Generatoren kann man sicherstellen, dass die von der Künstlichen Intelligenz generierten Bilder perfekt zu allen Arten von Inhalten passen und immer neu und originell sind. Die Verwendung des DALL-E-2-Generators selbst ist dabei ziemlich einfach und die Benutzeroberfläche ist sehr übersichtlich. Es gibt ein Feld für die Texteingabe und eine Schaltfläche zum Erzeugen von Bildern. Im unteren Bereich werden bis zu sechs KI-generierte Bilder für den eingegebenen Text angezeigt und auf der rechten Seite sieht man einen Verlauf der vorherigen Bilder.
Einer der Hauptvorteile dieser Technologie ist, dass man vor allem bei der Texteingabe kreativ sein kann. Man kann beispielsweise verschiedene künstlerische Stile für die Bilder auswählen, Objekten Attribute zuordnen, Menschen und Kreaturen Emotionen verleihen, den Hintergrund und die Szenerie ändern und sogar vorhandene Bilder bearbeiten. Alles, was man dafür tun muss, ist, die gewünschten Ergebnisse in das Texteingabefeld einzufügen. Man benötigt keinerlei Kenntnisse in Bereichen wie digitale Kunst oder Fotobearbeitung.
Punktgenaue Visualisierung von Marketing-Botschaften
Durch die Verwendung von Stockfotos können Unternehmen den kostspieligen Prozess der Beauftragung eines professionellen Fotografen für die Aufnahme individueller Bilder vermeiden. Daher ist Stockfotografie eine der Ressourcen, die Unternehmen nutzen, um Werbe- und Marketingkosten zu sparen. Wie bereits zu Beginn erwähnt, mangelt es diesen Bildern jedoch oft an Originalität.
Wenn man sich von der Konkurrenz abheben will, braucht man Bilder, die zu spezifischen Inhalten passen, wichtige Botschaften vermitteln und originell sind. Text-zu-Bild-Generatoren ermöglichen es, beliebte Stockfotos zu imitieren und sie so zu bearbeiten, dass sie den aktuellen Anforderungen besser entsprechen. Ein Beispiel: Vor vier Jahren veröffentlichte Unsplash eine Liste der „Top 25: Most Viewed Photos of 2018“ – unter anderem dieses (Bild 1): Mit der DALL-E 2-Technologie könnte man dieses Bild als Inspiration nutzen und eine Reihe neuer Bilder generieren, die an dieses Motiv anknüpfen. Als Texteingabe wurde gewählt: „Eine Person steht bei Sonnenuntergang auf einem Berg“ (Bild 2). Denkbar ist zusätzlich eine Variante des Motivs mit der zusätzlichen Eingabe „mit einer Burg in der Ferne“ (Bild 3). Das Ergebnis zeigt, dass sich KI-generierte Bilder als überzeugende Alternative zu Stockfotos eignen.
Verschiedene Szenarien für Produktbilder generieren
Ein anderer Bereich für die erfolgreiche Markenkommunikation sind Produktbilder – einer der wichtigsten Bausteine im E-Commerce. Sie werden eingesetzt, um die Merkmale und Vorteile eines Produkts zu präsentieren und um zu zeigen, wie es in verschiedenen Szenarien verwendet werden kann. Produktbilder können auch dazu beitragen, Vertrauen bei potenziellen Kunden aufzubauen, indem sie zeigen, dass das Produkt hochwertig und gut verarbeitet ist.
Mit einem Text-zu-Bild-Generator ist es möglich, verschiedene Szenen für das Produktbild generieren zu lassen. Hier zum Beispiel die Ergebnisse für die Texteingabe „ein Foto von Basketballschuhen auf dem Basketballplatz“ (Bild 4).
Hat man bereits ein Bild von einem Produkt (siehe Bild 5), möchte es aber noch bearbeiten oder aufpeppen, dann kann man dies ebenfalls mit einem Text-zu-Bild-Generator erledigen. Man benötigt weder ein Bildbearbeitungsprogramm noch Foto-Editing-Kenntnisse. Man muss lediglich den Bereich des Bildes auswählen, den man bearbeiten möchte, und dann in der Texteingabe beschreiben, was verändert werden soll (Bild 6).
Auch für die Bebilderung eines Blogs ist man mit einem Text-zu-Bild-Generator nicht mehr auf andere Bildquellen oder einen Digital Artist angewiesen. Der Kreativität sind bei der Gestaltung von KI-generierten Bildern kaum Grenzen gesetzt und der Text kann entsprechend aufgelockert und visuell ansprechend gestaltet werden. Zu guter Letzt sind Bilder in diesem Bereich ein Kriterium, dass der Beitrag in den Suchergebnissen gut rankt und in den sozialen Medien geteilt wird.
Die Technologie stößt auch an Grenzen
Trotz der vielen Vorteile ist die Technologie von Text-zu-Bild-Generatoren wie DALL-E 2 nicht perfekt und stößt an einige Grenzen. So unterliegen die erzeugten Bilder sozialen Vorurteilen und repräsentieren nicht immer die Vielfalt der Gesellschaft in Bezug auf Nationalität, Hautfarbe, Sexualität, Geschlecht und Religion.
Auch gibt es Schwierigkeiten bei der Darstellung von Details in komplexen Szenarien, und es ist derzeit nicht möglich, lesbaren Text in den KI generierten Bildern zu erzeugen. Das bedeutet, dass es unmöglich ist, kohärente Diagramme und Infografiken zu erstellen. Manchmal werden den Objekten in einem Bild nicht die richtigen Attribute zugeordnet.
Zudem gibt es weitere Einschränkungen: Die künstliche Intelligenz basiert auf einer begrenzten Datenbank, die absichtlich explizite Inhalte wie Waffen, Gewalt, sexuelle Handlungen usw. ausschließt. So wird verhindert, dass Bilder generiert werden können, die solche expliziten Inhalte darstellen. Weiter hat die Technologie Probleme, menschliche Gesichter zu erzeugen. Dies ist besonders dann der Fall, wenn man ein Bild erstellt, das mehrere Personen zeigt. Die Gesichter sehen verzerrt und nicht menschlich aus.
Résumé
Technologien wie DALL-E 2 sind bereits jetzt sehr vielseitig einsetzbar und ihre Weiterentwicklung verspricht weitere kreative Lösungen für die Generierung von Illustrationen. Auch gibt es schon eine Reihe von Konkurrenten, die das Entwicklungstempo beschleunigen, wie Googles Text-zu-Bild-Generator Imagen oder Midjourney.
Bei allen genannten Beispielen handelt es sich noch um geschlossene Betas, die nur einem ausgewählten Kreis von Nutzern zur Verfügung stehen. Verfügbar sind jedoch schon einige Open-Source-Versionen der Technologie, wie z. B. DALL-E Mini, ein einfacheres Modell des DALL-E-2-Generators, das völlig kostenlos verwendet werden kann – wenn die Ergebnisse vielleicht noch nicht so hochwertig sind.
Schließlich ist es interessant darüber nachzudenken, mit welchen anderen KI-Technologien Text-zu-Bild-Generatoren noch kombiniert werden können. Nimmt man beispielsweise einen KI-Textgenerator [2] und verbindet diesen mit der Text-zu-Bild-Technologie, dann könnte man in Zukunft ganze Texte, bestückt mit relevanten und originellen Bildern, komplett generieren lassen.
Die neuroflash GmbH ist ein Softwareunternehmen mit Sitz in Hamburg. Die Gesellschaft wurde 2021 gegründet und hat heute zwischen zehn und zwanzig Mitarbeiter. neuroflash generiert die besten deutschen Texte in der DACH-Region. Das Ziel ist, dass unsere KI-Technologie in nur fünf Sekunden vollautomatisch fünf professionelle Textvorschläge zu einem bestimmten Thema generiert.
Referenzen
[1] https://neuroflash.com/blog/gpt-3-text-generator-online/
[2] https://neuroflash.com/blog/text-generator-artificial-intelligence/