Levart_Photographer, Unsplash

Sora: OpenAI erzeugt (fast) echte KI-Videos

Sora: OpenAI zeigt in einem Blogpost, wie es mithilfe einiger weniger Wörter KI-Videos generieren kann, die kaum noch von echten Aufnahmen zu unterscheiden sind. Wie so oft bei KI liegen Chancen und Risiken nahe beieinander – dessen ist sich auch das Unternehmen selbst bewusst. 

Im November 2022 veröffentlichte das US-amerikanische Software-Unternehmen OpenAI seinen Chatbot ChatGPT. Nur zwei Monate später, im Januar 2023, nutzten ihn 100 Millionen User*innen, was ChatGPT zur am schnellsten wachsenden digitalen Anwendung aller Zeiten macht. Der Diskurs: irgendwo zwischen Euphorie, Skepsis und Angst. 

Und genau diese Stimmung der entgegengesetzten Gefühle ist auf einmal wieder da, gut ein Jahr nach dem ersten großen Hype. In der Washington Post  ist ein Zitat von Arvind Narayanan, Professor für Informatik an der Princeton University, zu lesen, das innehalten lässt: „Früher oder später müssen wir uns an die Tatsache anpassen, dass Realismus nicht länger ein Zeichen für Glaubwürdigkeit ist.“ Was aber hat es damit auf sich?

Der Auslöser: Sora. Es ist die Antwort von OpenAI auf die Frage, ob man neben Text und Bildern auch ganze Videos mithilfe Künstlicher Intelligenz generieren kann. Dass die Antwort auf diese Frage nur „Ja“ lauten kann, ist länger bekannt. Und auch, dass OpenAI irgendwann eine solche KI an den Markt bringen würde, war nur eine Frage der Zeit. Doch die Qualität und die Schnelligkeit, mit der diese erreicht wurde, überrascht. 

Von entstelltem Will Smith zur Rückkehr der Mammuts

Vor rund einem Jahr sahen KI-Videos noch so aus: Ein entstellter Will Smith, der Spaghetti zu seinem neuen Leibgericht erklärt hat. Und auch, wenn der Schauspieler und Filmproduzent auf den Videos zu erkennen ist, dienen die Videos doch eher der Unterhaltung über die abstrusen Darstellungen, die ein solcher KI-Algorithmus manchmal produzieren mag. Kein Vergleich zu der Qualität, die KI-Modelle zu jener Zeit bei Bildern erreichten – man erinnere sich an den (generierten) Papst Franziskus, der plötzlich High-Fashion für sich entdeckte und ein schweres Silberkreuz um den Hals trug.

Die Zeit der lustigen KI-Videos dürfte sich nun aber dem Ende nähern. Am 15. Februar lässt OpenAI die Muskeln spielen und veröffentlicht einen Blogartikel mit dem nüchternen Titel „Creating Video from Text“. Was folgt, sind dutzende Beispiele, die die Fähigkeit von Sora, mithilfe von Text Videos zu generieren, beweisen sollen. Eine Frau, die eine neonbeleuchtete Straße entlanggeht. Die Rückkehr der Mammuts. Ein flauschiges Monster, das mit einer Kerze spielt. Oder der Klassiker: Golden-Retriever-Welpen, die im Schnee herumtollen. Das und viel Bewegtbild soll Sora nun generieren können. Gegenüber der Washington Post sagt Ted Underwood, Professor für Informationswissenschaften an der University of Illinois: „Ich habe nicht erwartet, dass es in den nächsten zwei bis drei Jahren zu einer derartig kontinuierlichen und stimmigen Videogenerierung kommen wird.“ Dabei sei zu berücksichtigen, dass OpenAI wahrscheinlich vor allem die Videos ausgewählt hat, die Sora von der besten Seite zeigen.

OpenAI jedenfalls zeigt sich selbstbewusst, was die Fähigkeiten von Sora angeht – das zeigt unter anderem eine Konversation von OpenAI-Chef Sam Altman mit dem YouTuber MrBeast auf X. So bittet MrBeast Sam Altman darum, ihn nicht obdachlos zu machen. Altman bietet ihm daraufhin an, ein Video für ihn zu generieren – aktuell ist Sora noch nicht öffentlich zugänglich. Das Ergebnis seht ihr hier.

In der Zukunft wird es noch besser – aber für wen?

Zugegeben, perfekt sind die Videos noch nicht. OpenAI selbst schreibt: „Das derzeitige Modell hat Schwächen. Es könnte Schwierigkeiten haben, die Physik einer komplexen Szene genau zu simulieren, und versteht möglicherweise bestimmte Fälle von Ursache und Wirkung nicht. Zum Beispiel könnte eine Person in einen Keks beißen, aber danach hat der Keks möglicherweise keine Bissspuren.“ Ein anderes Beispiel zeigt einen Geburtstagskuchen, dessen Kerzen und deren Flamme in unterschiedliche Richtungen zeigen. 

Die Frage ist aber, ob diese Kleinigkeiten im normalen Instagram- oder TikTok-Feed überhaupt noch auffallen werden. Und klar ist auch, dass die Modelle in den kommenden Monaten noch besser sein werden (es sei an Will Smith und seine Spaghetti erinnert). 

Auch deswegen ist es OpenAI wichtig zu betonen, dass man es mit der Sicherheit und Sorgen der Menschen sehr ernst nehme. In dem entsprechenden Blog-Post zu Sora heißt es: „Wir werden mit politischen Entscheidungsträgern, Pädagogen und Künstlern auf der ganzen Welt zusammenarbeiten, um ihre Bedenken zu verstehen und positive Anwendungsfälle für diese neue Technologie zu identifizieren.“

Klar ist: Sora von OpenAI ist ein weiterer Schritt in Richtung einer von KI geprägten Zukunft. Und wie kaum bei einer anderen Technologie scheinen Chancen und Risiken so nahe beieinander zu liegen. Ja, ein Mensch wird womöglich bald einen eigenen Film von der Komplexität eines Marvel-Werkes erschaffen können – aber was macht das mit der Filmwirtschaft und den Menschen, die für sie arbeiten? Und die Politik? Das ist noch einmal ein ganz eigenes Thema für sich. 

Mehr zum Thema Technik:

Folge ZEITjUNG auf FacebookTikTok und Instagram

Bildquelle: Levart_Photographer (Unsplash), CC0-Lizenz