Künstliche Intelligenz steht an einem Wendepunkt. Während intelligente Assistenten unseren Alltag bereits verändern, argumentiert KI-Pionier Yann LeCun, dass wir für wirklich menschenähnliche KI noch grundlegende Hürden überwinden müssen. In seinem Vortrag "Shaping the Future of Artificial Intelligence" skizziert er eine Vision, die über die aktuellen Ansätze hinausgeht.

Ein zentraler Punkt in LeCuns Ausführungen ist die Notwendigkeit für KI-Systeme, Weltmodelle zu erlernen, so wie Babys durch Interaktion mit ihrer Umgebung ein intuitives Verständnis für Physik und die Funktionsweise der Welt entwickeln. Während LLMs hauptsächlich mit textbasierten Informationen trainiert werden, lernen Menschen – und insbesondere Kinder – durch eine Flut an sensorischen Eindrücken aus ihrer Umwelt.

Ein vierjähriges Kind hat durch seine Interaktion mit der Welt bereits ein größeres Datenvolumen über seine Sinne aufgenommen, als ein typisches LLM an Textdaten verarbeitet hat.

Ein typisches LLM wird mit rund 30 Billionen Token trainiert. Jedes dieser Token umfasst ca. 3 Bytes, was zu einem Datenvolumen von 90 Billionen Bytes führt. Um diese Menge an Text zu lesen, bräuchte ein Mensch unglaubliche 450.000 Jahre (bei 12 Stunden Lesezeit pro Tag und einer Geschwindigkeit von 250 Wörtern pro Minute).  

Demgegenüber steht die Lernerfahrung eines Kindes. In den ersten vier Lebensjahren verbringt ein Kind etwa 16.000 Stunden im Wachzustand. Über zwei Millionen Sehnervenfasern nimmt es dabei kontinuierlich Daten auf – etwa 1 Byte pro Sekunde pro Faser. Dies summiert sich zu einem Datenvolumen von erstaunlichen 110 Billionen Bytes.

Um eine KI zu entwickeln, die unsere Welt wirklich "versteht" und intelligent darin agieren kann, reicht es nicht aus, sie nur mit Text zu füttern. Sie muss, ähnlich wie ein Kind, lernen, Modelle der Welt auf Basis reichhaltiger, multimodaler sensorischer Informationen zu erstellen. Die Datenmenge, die über die Sehnerven eines Kindes fließt, übersteigt bei Weitem das, was reine Textanalyse leisten kann, und legt den Grundstein für intuitives Verständnis und Common Sense – Eigenschaften, die heutigen KIs oft noch fehlen. LeCun: Für die nächste Generation intelligenter Systeme müssen wir uns von der reinen Textfixierung lösen und Wege finden, wie Maschinen die Welt so erfahren und lernen können, wie es die beeindruckendsten Lerner auf unserem Planeten tun – unsere Kinder.

Er schlägt einen Paradigmenwechsel vor: weg von rein generativen Modellen hin zu einer Objective-Driven AI. Diese "zielgerichtete KI" erreicht komplexes Denken und Planen nicht durch simple Vorhersagen, sondern durch die Optimierung von Zielen erreicht. Ein solches System nutzt ein Weltmodell, um die Konsequenzen von Handlungen vorherzusagen, bewertet diese hinsichtlich eines Aufgaben-spezifischen Ziels und berücksichtigt gleichzeitig unveränderliche "Leitplanken"-Ziele (Guardrail Objectives), um Sicherheit zu gewährleisten. Diese Systeme sollen in der Lage sein, Aktionen zu planen, um bestimmte Ziele zu erreichen und dabei auf einem erlernten Weltmodell basieren

LeCun betont, dass heutige Methoden des maschinellen Lernens, wie überwachtes Lernen und Verstärkungslernen, erhebliche Nachteile haben. Selbst autoregressive Sprachmodelle (LLMs), die beeindruckende Textergebnisse liefern, stoßen an Grenzen, wenn es um Faktenorientierung und Kontrollierbarkeit geht. Der Schlüssel, so LeCun, liegt in der Entwicklung von Maschinen, die die Welt verstehen, sich erinnern, schlussfolgern und planen können – ähnlich wie Menschen und sogar Tiere es tun.

Technisch favorisiert LeCun hierfür "Joint Embedding Predictive Architectures" (JEPA) gegenüber generativen Modellen. Anstatt zu versuchen, jeden einzelnen Pixel eines zukünftigen Videoframes vorherzusagen – was bei der Komplexität und teilweisen Unvorhersehbarkeit der realen Welt oft scheitert oder zu unscharfen Ergebnissen führt – lernen JEPAs, abstrakte Repräsentationen der Welt vorherzusagen. Sie konzentrieren sich auf das Wesentliche und ignorieren irrelevante Details, ähnlich wie wissenschaftliche Modelle die Realität durch abstrakte Variablen beschreiben, um Vorhersagen zu ermöglichen. Dieser Ansatz hat bereits vielversprechende Ergebnisse in der Bild- und Videoanalyse gezeigt.

Schließlich erhebt LeCun eine wichtige gesellschaftspolitische Forderung: Die zukünftigen KI-Plattformen, die als Vermittler zu unserem digitalen Leben und als Speicher menschlichen Wissens und Kultur dienen werden, müssen Open Source sein. Eine Kontrolle dieser fundamentalen Infrastruktur durch wenige Konzerne sei inakzeptabel und würde die notwendige Vielfalt an sprachlichen, kulturellen und ethischen Ausprägungen von KI-Systemen untergraben. Der Weg zu einer wirklich intelligenten und nutzbringenden KI ist noch weit und erfordert laut LeCun die Lösung fundamentaler Probleme in Bereichen wie dem Training von Weltmodellen, robusten Planungsalgorithmen und den mathematischen Grundlagen des energie-basierten Lernens. 

Yann LeCun ist eine Schlüsselfigur in der Welt der künstlichen Intelligenz und wird oft als einer der "Paten des Deep Learning" bezeichnet. LeCun ist besonders bekannt für seine bahnbrechende Arbeit an Convolutional Neural Networks. Diese Architektur hat die Bilderkennung und Computer Vision revolutioniert. 2018 erhielt er den Turing Award als "Nobelpreis der Informatik" gemeinsam mit Yoshua Bengio und Geoffrey Hinton.

Zur Vorlesung: Yann LeCun an der National Unversity Singapur im April 2025