![]() |
BUILTWORLD
|
Künstliche Intelligenz
Künstliche Intelligenz: Was ist eigentlich ein Weltmodell?
LLMs have a lot of accumulated knowledge, but very little intelligence. An elephant or a 4 year old are way smarter than any LLM.
If language were sufficient to express human thought, why would we need visual arts, music, dance?
Ein Weltmodell ist ein System, das versucht, die Funktionsweise der Welt zu verstehen und Vorhersagen über zukünftige Zustände zu treffen. Es muss mit Unsicherheit umgehen und Aktionseffekte vorhersagen können. LLMs gelten dabei als vereinfachter Spezialfall.
World == environment that the system evolved in. It could be anything.
Der Begriff entstammt ursprünglich aus der Pychologie in den 1940er Jahren und wurde zum STandard in Systemwissenschaften sowie der Kontrolltheorie. Es geht darum, dass die KI nicht nur auf direkte Reize reagiert, sondern ein tiefergehendes, prädiktives Verständnis davon entwickelt, wie die Welt funktioniert, wie Aktionen zu Konsequenzen führen und wie sich Zustände im Laufe der Zeit verändern.
Ein bedeutender Fortschritt und eine Popularisierung des Begriffs erfolgte durch "World Models" von David Ha und Jürgen Schmidhuber im Jahr 2018. Sie zeigten, wie ein Agent in einfachen Spielumgebungen lernen konnte, ein komprimiertes räumliches und zeitliches Modell der Umgebung zu erstellen und dieses für erfolgreiches Agieren zu nutzen. Schmidhuber schlug bereits im Jahr 1990 "Planning & Reinforcement Learning with Recurrent World Models and Artificial Curiosity" vor, entscheidend ist jedoch die bahnbrechende Publikation aus dem 2018, wonach ein Agent Schießfähigkeiten im beliebten Spiel Doom erwirbt, indem er in der Vorstellung lernt und ein internes Weltmodell als "Physiksimulator" verwendet: https://worldmodels.github.io
Letztlich lernen Maschinen noch nicht effizient genug, vor allem nicht durch reine Beobachtung wie Menschen und Tiere. Laut dem Turing Preisträger Yann LeCun benötigt ein Weltmodell folgende Komponenten und Prozesse:
Eingaben (Inputs):
- x(t): Eine aktuelle Beobachtung der Welt (z.B. ein Bild, ein Geräusch).
- s(t): Eine vorherige Schätzung des Zustands der Welt. Dies ist die interne Repräsentation dessen, was das Modell über die Welt bis zu diesem Zeitpunkt weiß.
- a(t): Ein Aktionsvorschlag. Welche Aktion wird als Nächstes in der Welt ausgeführt (oder soll ausgeführt werden)?
- z(t): Ein Vorschlag für eine latente Variable. Diese repräsentiert unbekannte Informationen, die nötig wären, um perfekt vorhersagen zu können, was als Nächstes passiert. Sie hilft dem Modell, Unsicherheiten zu handhaben und mögliche zukünftige Zustände zu generieren.
Berechnungen (Computation):
- Repräsentation: h(t) = Enc(x(t))
Ein Encoder (Enc()), typischerweise ein trainierbares neuronales Netz, verarbeitet die aktuelle Beobachtung x(t) und erstellt daraus eine kompaktere, nützliche interne Repräsentation h(t). - Vorhersage (Prediction): s(t+1) = Pred(h(t), s(t), z(t), a(t))
Ein Prädiktor (Pred()), ebenfalls eine trainierbare Funktion, nimmt h(t), s(t), z(t) und a(t) entgegen, um den nächsten Zustand s(t+1) vorherzusagen.
Die Rolle der latenten Variable z(t):
Sie ist entscheidend, um die Tatsache zu modellieren, dass die Zukunft oft nicht exakt vorhersagbar ist. Durch Ziehen von z(t) aus einer Verteilung oder Durchprobieren verschiedener Werte kann das Modell verschiedene plausible Zukunftsszenarien erzeugen.
Die Herausforderung beim Training ("The trick"):
Das System wird mit Beobachtungstriplets trainiert: (x(t), a(t), x(t+1)). Eine zentrale Schwierigkeit ist, zu verhindern, dass der Encoder kollabiert, d.h., eine triviale oder nutzlose Repräsentation h(t) erzeugt, die x(t) ignoriert. Dies würde das Lernen über die Welt verhindern.
Autoregressive generative Modelle (wie LLMs) als Spezialfall:
- Encoder: h(t) = x(t), also keine Encodierung.
- Zustand: s(t) ist eine Aneinanderreihung der letzten k Eingaben.
- Keine Aktionsvariable: a(t) wird nicht genutzt.
- Diskrete Eingaben: x(t) sind diskrete Einheiten wie Wörter.
- Prädiktor: erzeugt Wahrscheinlichkeitsverteilung über mögliche nächste x(t+1), wobei z(t) zur Auswahl beiträgt.
Vereinfachte Gleichungen bei LLMs:
s(t) = [x(t), x(t-1), ..., x(t-k)]
x(t+1) = Pred(s(t), z(t)) (a(t) wird weggelassen)
In diesem Fall gibt es kein Model-Kollaps-Problem, da LLMs direkt darauf trainiert werden, das nächste Token vorherzusagen.
Quelle: Yann LeCun - Lots of confusion about what a world model is. Here is my definition:
Beispiele für World Models
Empfohlene Events
![]() |
BUILTWORLD KI Trends: Juli 2025 - GenAI Tool Insights23.07.2025, 08:00 - 09:00
|
![]() |
Zusammenfassung der Builtworld KI Wochen & Thesen zur Zukunft30.06.2025, 12:00 - 13:00
|
![]() |
AI in Cities: Use Cases & globale Projekte24.06.2025, 12:00 - 13:30
|