BUILTWORLD - Künstliche Intelligenz: Was ist eigentlich ein Weltmodell?

LLMs have a lot of accumulated knowledge, but very little intelligence. An elephant or a 4 year old are way smarter than any LLM.
If language were sufficient to express human thought, why would we need visual arts, music, dance?

Ein Weltmodell ist ein System, das versucht, die Funktionsweise der Welt zu verstehen und Vorhersagen über zukünftige Zustände zu treffen. Es muss mit Unsicherheit umgehen und Aktionseffekte vorhersagen können. LLMs gelten dabei als vereinfachter Spezialfall.

Als Menschen haben wir die Fähigkeit, vorherzusagen, wie sich die physische Welt als Reaktion auf unsere eigenen Handlungen oder die Handlungen anderer verändern wird. Zum Beispiel wissen wir, dass die Schwerkraft einen Tennisball, den wir in die Luft werfen, wieder nach unten zieht. Wenn du durch eine dir unbekannte, belebte Gegend gehst, bewegst du dich auf dein Ziel zu und versuchst gleichzeitig, nicht mit Menschen oder Hindernissen auf dem Weg zusammenzustoßen. Beim Eishockey läufst du dorthin, wo der Puck sein wird – nicht dahin, wo er gerade ist. Diese physikalische Intuition entwickeln wir, indem wir unsere Umwelt beobachten und ein inneres Modell von ihr aufbauen, mit dem wir die Ergebnisse hypothetischer Handlungen vorhersagen können.

World == environment that the system evolved in. It could be anything.

Der Begriff entstammt ursprünglich aus der Pychologie in den 1940er Jahren und wurde zum STandard in Systemwissenschaften sowie der Kontrolltheorie. Es geht darum, dass die KI nicht nur auf direkte Reize reagiert, sondern ein tiefergehendes, prädiktives Verständnis davon entwickelt, wie die Welt funktioniert, wie Aktionen zu Konsequenzen führen und wie sich Zustände im Laufe der Zeit verändern.

Ein bedeutender Fortschritt und eine Popularisierung des Begriffs erfolgte durch "World Models" von David Ha und Jürgen Schmidhuber im Jahr 2018. Sie zeigten, wie ein Agent in einfachen Spielumgebungen lernen konnte, ein komprimiertes räumliches und zeitliches Modell der Umgebung zu erstellen und dieses für erfolgreiches Agieren zu nutzen. Schmidhuber schlug bereits im Jahr 1990 "Planning & Reinforcement Learning with Recurrent World Models and Artificial Curiosity" vor, entscheidend ist jedoch die bahnbrechende Publikation aus dem 2018, wonach ein Agent Schießfähigkeiten im beliebten Spiel Doom erwirbt, indem er in der Vorstellung lernt und ein internes Weltmodell als "Physiksimulator" verwendet: https://worldmodels.github.io

Letztlich lernen Maschinen noch nicht effizient genug, vor allem nicht durch reine Beobachtung wie Menschen und Tiere. Laut dem Turing Preisträger Yann LeCun benötigt ein Weltmodell folgende Komponenten und Prozesse:

Eingaben (Inputs):

x(t): Eine aktuelle Beobachtung der Welt (z.B. ein Bild, ein Geräusch).
s(t): Eine vorherige Schätzung des Zustands der Welt. Dies ist die interne Repräsentation dessen, was das Modell über die Welt bis zu diesem Zeitpunkt weiß.
a(t): Ein Aktionsvorschlag. Welche Aktion wird als Nächstes in der Welt ausgeführt (oder soll ausgeführt werden)?
z(t): Ein Vorschlag für eine latente Variable. Diese repräsentiert unbekannte Informationen, die nötig wären, um perfekt vorhersagen zu können, was als Nächstes passiert. Sie hilft dem Modell, Unsicherheiten zu handhaben und mögliche zukünftige Zustände zu generieren.

Berechnungen (Computation):

Repräsentation: h(t) = Enc(x(t))
Ein Encoder (Enc()), typischerweise ein trainierbares neuronales Netz, verarbeitet die aktuelle Beobachtung x(t) und erstellt daraus eine kompaktere, nützliche interne Repräsentation h(t).
Vorhersage (Prediction): s(t+1) = Pred(h(t), s(t), z(t), a(t))
Ein Prädiktor (Pred()), ebenfalls eine trainierbare Funktion, nimmt h(t), s(t), z(t) und a(t) entgegen, um den nächsten Zustand s(t+1) vorherzusagen.

Die Rolle der latenten Variable z(t):
Sie ist entscheidend, um die Tatsache zu modellieren, dass die Zukunft oft nicht exakt vorhersagbar ist. Durch Ziehen von z(t) aus einer Verteilung oder Durchprobieren verschiedener Werte kann das Modell verschiedene plausible Zukunftsszenarien erzeugen.

Die Herausforderung beim Training ("The trick"):
Das System wird mit Beobachtungstriplets trainiert: (x(t), a(t), x(t+1)). Eine zentrale Schwierigkeit ist, zu verhindern, dass der Encoder kollabiert, d.h., eine triviale oder nutzlose Repräsentation h(t) erzeugt, die x(t) ignoriert. Dies würde das Lernen über die Welt verhindern.

Autoregressive generative Modelle (wie LLMs) als Spezialfall:

Encoder: h(t) = x(t), also keine Encodierung.
Zustand: s(t) ist eine Aneinanderreihung der letzten k Eingaben.
Keine Aktionsvariable: a(t) wird nicht genutzt.
Diskrete Eingaben: x(t) sind diskrete Einheiten wie Wörter.
Prädiktor: erzeugt Wahrscheinlichkeitsverteilung über mögliche nächste x(t+1), wobei z(t) zur Auswahl beiträgt.

Vereinfachte Gleichungen bei LLMs:
s(t) = [x(t), x(t-1), ..., x(t-k)]
x(t+1) = Pred(s(t), z(t)) (a(t) wird weggelassen)

In diesem Fall gibt es kein Model-Kollaps-Problem, da LLMs direkt darauf trainiert werden, das nächste Token vorherzusagen.
Quelle: Yann LeCun - Lots of confusion about what a world model is. Here is my definition:

Beispiele für World Models

Studien:

Deepmind 2025: General agents need world models

Künstliche Intelligenz

Künstliche Intelligenz: Was ist eigentlich ein Weltmodell?

Empfohlene Events

Klimaresilienz für Gebäude: KI Tools in der Praxis

Digitalisierung & KI bei LEG Immobilien: Strategie, Use Cases & Lessons Learned

Digitale Zwillinge & Klimaresilienz für Städte: KI Tools in der Praxis

Ähnliche Beiträge

Warum KI Multi Agenten Systeme scheitern

Agent Washing? Gartner AI Hype Cycle 2025 bzw. warum ein Chatbot kein KI Agent ist

Künstliche Intelligenz Kompaktwissen: Das Glossar rund um ML, GenAI & mehr