· 

KI - Die Grenzen der Skalierung

Die Grenzen der Skalierung

Sutskevers strategische Neuausrichtung der KI-Entwicklung



I. Ausgangspunkt

Sutskevers Bruch mit dem Skalierungsparadigma


Ilya Sutskever zählt zu den prägenden Persönlichkeiten der modernen künstlichen Intelligenz. Er war Mitautor von AlexNet, später Mitbegründer und wissenschaftlicher Leiter von OpenAI, und bestimmte als zentraler Architekt die Entwicklung von GPT-2 und GPT-3. Über mehr als ein Jahrzehnt verteidigte er das Skalierungsprinzip, das besagt, dass größere Modelle mit mehr Daten und mehr Rechenleistung bessere Ergebnisse hervorbringen. 

Seine heutige Position markiert einen deutlichen Kurswechsel. Nach seiner Einschätzung befindet sich die Skalierungsära am Ende. Er begründet dies mit drei Engpässen. Erstens seien die qualitativ hochwertigen Trainingsdaten weitgehend ausgeschöpft. Zweitens hätten die Modelle zwar eindrucksvolle Benchmarks erreicht, generalisierten jedoch schlechter als Menschen. Drittens verfüge die Branche über mehr Unternehmen als Ideen, während Milliarden investiert werden, um marginale Fortschritte zu erzwingen.


II. Das neue Unternehmen SSI

Safe Superintelligence Inc.


Sutskever gründete in den Jahren 2024 und 2025 die Einrichtung (SSI), die über eine Kapitalbasis von drei Milliarden Dollar verfügt. Der Kreis der Geldgeber ist klein, die Struktur bewusst schmal gehalten, damit Forschung ohne den Druck kommerzieller Produktzyklen möglich wird.

Das Ziel besteht darin, einen neuen Ansatz für allgemeine, menschenähnliche Lernsysteme zu entwickeln, der nicht auf Skalierung, sondern auf einer neuen Theorie beruht. Nach Sutskevers Auffassung generalisiert die aktuelle Architektur, die aus dem Zusammenspiel von Transformer-Netzen und extremer Skalierung entstanden ist, schlechter als menschliches Lernen. Das Problem liege nicht in der Rechenleistung, sondern im fundamentalen Problem des Lernens, das bisher nicht gelöst wurde. 

Sutskever verweist darauf, dass entscheidende Durchbrüche der vergangenen Jahrzehnte nie durch maximale Rechenleistung erzielt wurden, sondern durch neue Ideen. AlexNet entstand mit zwei Grafikkarten, der Attention-Mechanismus auf kleinen Modellen, der ursprüngliche Transformer mit lediglich vierundsechzig. Er erwartet menschenähnliche Lernsysteme in einem Zeitraum von fünf bis zwanzig Jahren, deren Grundlage Einsichten bilden werden, die heute unbekannt sind.


III. Kerngedanke

Das fundamentale Problem des Lernens


Sutskever beschreibt eine Lücke zwischen der Leistung moderner Modelle und der menschlichen Fähigkeit zur Generalisierung. Die Modelle bestehen anspruchsvolle Prüfungen, versagen jedoch, sobald Aufgaben unsauber definiert sind oder Kontexte verschoben werden. Menschen lernen dagegen aus wenigen Beispielen, abstrahieren schneller und verknüpfen Erfahrungen über unterschiedliche Bereiche hinweg. 

Die Skalierung verbessert nach seiner Einschätzung die Mustererkennung, nicht jedoch die Fähigkeit, robuste und übertragbare Einsichten zu bilden. Die Branche weiß weder, warum Modelle funktionieren, wie sie es tun, noch besitzt sie eine Theorie, die den Weg zu allgemeiner Intelligenz beschreibt. Diese theoretische Unterbestimmtheit bildet den Kern seiner Kritik.


IV. Annahmen hinter Sutskevers Wette


1. Daten als begrenzender Faktor

Die größten Modelle nähern sich dem oberen Rand der verfügbaren Text-, Bild- und Interaktionsdaten. Synthetische Daten vergrößern zwar die Menge, erzeugen jedoch Fehlerkreisläufe und verstärken Verzerrungen.

2. Rechenkosten

OpenAI, Google und Anthropic geben jährlich mehrere Milliarden Dollar für Training und Experimente aus. Ein beträchtlicher Teil dieser Mittel fließt nicht in Grundlagenforschung, sondern in Inferenz, Produktentwicklung, Multimodalitätsstrukturen und Infrastruktur. Sutskevers kleines Forschungslabor könne trotz geringerer Mittel konkurrenzfähig sein, weil es keine dieser Lasten trägt.

3. Strukturelle Sackgasse der Skalierung 

Zunehmende Modellgrößen erzeugen zusätzliche Fehlerquellen. Die Architektur ist nicht darauf ausgelegt, komplexe physische oder kausale Zusammenhänge abzubilden. Die Modelle bleiben Statistikmaschinen, keine systematischen Lerner.


V. Dynamik des Rechenmarktes

Meta, Google und NVIDIA


Vor diesem Hintergrund erhielt die Nachricht, Meta verhandle über den Kauf von TPUs, besondere Aufmerksamkeit, weil sie einen zeitweiligen Rücksetzer bei Nvidia auslöste. Die Hintergründe sind jedoch technischer Natur. Meta arbeitet mit PyTorch, während Googles TPUs diese Umgebung nicht nativ unterstützen. Ein Wechsel würde das eigene Ökosystem schwächen. Gleichwohl kann Meta mit Googles Unterstützung alternative Kapazitäten erschließen. 

Die Branche skaliert aus Gewohnheit, nicht aus Einsicht. Der Vorgang bestätigt Sutskevers Diagnose indirekt: Die Infrastruktur wächst, ohne dass sie ein neues Prinzip des Lernens hervorbringt.


VI. Chancen von Sutskevers Ansatz


1. Theoretischer Durchbruch

Die Forschung könnte zum ersten Mal seit Jahrzehnten einen neuen Grundpfeiler gewinnen, vergleichbar mit der Ablösung der symbolischen KI durch Deep Learning.

2. Wirkung kleiner Teams

Viele historische Innovationen entstanden in kleinen Gruppen. SSI knüpft bewusst an diese Tradition an.

3. Robustere Systeme

Sollte das Generalisierungsproblem gelöst werden, entstehen Lernsysteme, die mit wenigen Daten auskommen, Erfahrungen kombinieren, Ursachen erkennen und sich flexibel an neue Situationen anpassen.

4. Unabhängigkeit von Rechenkapital 

Wenn Skalierung an ihre Grenzen gelangt, verlieren riesige Rechencluster ihren strategischen Vorteil.


VII. Grenzen und Risiken


Sutskevers Ansatz beruht auf einer Theorie, die noch nicht existiert. Der Durchbruch ist möglich, aber nicht garantiert. Die Skalierung liefert weiterhin Fortschritte, auch wenn sie teuer sind. Große Unternehmen verfügen über experimentelle Überlegenheit, Zugang zu Datenströmen und die Fähigkeit, Modelle durch Nutzerinteraktionen zu verfeinern. Zudem konkurriert SSI um Fachkräfte mit Labors, die sofortige Anwendungen bieten.


VIII. Strategische Bedeutung für den Sektor


Wenn Sutskever recht behält, sind heutige Bewertungen großer KI-Labors überhöht. Das Rechenkapital würde an Bedeutung verlieren, und kleine Forschungseinrichtungen größere Wirkung entfalten. Unternehmen, die auf Skalierung setzen, würden unter Druck geraten, während solche, die theoretische Grundlagen entwickeln, an Attraktivität gewännen. 

Regierungen, die ausschließlich auf Akteure mit Rechenvorteilen setzen, könnten strategisch falsch liegen. Die Zukunft läge in der Grundlagenforschung und der Fähigkeit, ein eigenständiges Verständnis von Intelligenz zu entwickeln.


IX. Fazit


Sutskever stellt die Grundannahme der modernen künstlichen Intelligenz in Frage: Entsteht Fortschritt aus größerer Rechenleistung oder aber aus einer neuen Theorie? Seine drei Milliarden Dollar sind eine Wette darauf, dass die nächste Epoche der KI nicht im Rechenzentrum beginnt, sondern in der Klärung des Lernens selbst. Gelingt diese Wende, würde darauf nicht nur ein neues Paradigma folgen, sondern eine Neuordnung der gesamten Industrie.


Abkürzungsverzeichnis


AGI
Artifical General Intelligence. Bezeichnet die Vorstellung eines künstlichen Systems, das über allgemeine Problemlösefähigkeiten verfügt, die sich auf unterschiedliche Aufgabenbereiche übertragen lassen. Der Begriff dient als Orientierungspunkt für Sutskevers Versuch, eine neue Theorie des Lernens zu entwickeln.

ASIC
Application Specific Integrated Circuit. Ein speziell entwickelter Chip, der für eine bestimmte Aufgabe optimiert ist. In der KI-Infrastruktur konkurriert diese Bauart mit universell einsetzbaren Grafikkarten und zeigt, wie stark sich der Hardwaremarkt ausdifferenziert.

GPU
Graphics Processing Unit. Ursprünglich für grafische Berechnungen entwickelt, heute der zentrale Rechenträger im tiefen Lernen. AlexNet wurde auf zwei GPUs trainiert, was Sutskever als Argument für die Bedeutung theoretischer Innovationen nutzt.

LLM
Large Language Model. Ein großes Sprachmodell, das mit sehr umfangreichen Textsammlungen trainiert wird. LLMs stehen im Zentrum der Skalierungsära, deren Grenzen Sutskever betont.

ML
Machine Learning. Der Oberbegriff für lernende Systeme, die Muster aus Daten extrahieren. Die Debatte zwischen Skalierung und Theorie betrifft den Kern dieses Forschungsfeldes.

PyTorch/XLA
Eine technische Schnittstelle, die PyTorch mit Googles TPUs verbindet. Die Notwendigkeit dieser Ebene erklärt, weshalb die Diskussion um Metas mögliche TPU-Käufe an der Börse missverstanden wurde.

RNN
Recurrent Neural Network. Eine frühere Modellklasse, die für Sequenzdaten entwickelt wurde und durch Transformer weitgehend abgelöst wurde. Dient als historischer Vergleich zu Paradigmenwechseln, die nicht durch massive Rechenleistung, sondern durch Architekturideen entstanden.

SSI
Safe Superintelligence Inc. Das Forschungsunternehmen, das Sutskever gegründet hat, um die theoretischen Grundlagen eines neuen Lernprinzips zu entwickeln. Die Abkürzung steht im Zentrum der aktuellen Debatte über eine mögliche Post-Skalierungs-Ära.  

TPU
Tensor Processing Unit. Ein von Google entwickelter Rechenprozessor, der auf Operationen des tiefen Lernens optimiert ist. Die Marktdiskussion über Metas mögliche TPU-Käufe spielt eine wichtige Rolle für die Bewertung der Recheninfrastruktur.


Glossar


AlexNet
Ein tiefes neuronales Netz, das 2012 einen Durchbruch in der Bildklassifikation erzielte. Es wurde auf lediglich zwei Grafikkarten trainiert. Der Erfolg gilt als Beleg dafür, dass grundlegende Ideen entscheidender sein können als extreme Rechenleistung. Sutskever war Mitautor und verweist häufig auf dieses Beispiel, um den Wert theoretischer Einsichten zu betonen.

Allgemeine künstliche Intelligenz
Ein System, das unterschiedliche Arten von Aufgaben beherrscht, aus wenigen Beispielen lernt und Wissen über Domänen hinweg verknüpft. Sutskever vertritt die Auffassung, dass die derzeitigen Modelle dieser Qualität nicht nahekommen, weil ihnen ein grundlegendes Lernprinzip fehlt.

Attention-Mechanismus
Ein Verfahren, das es einem Modell ermöglicht, bedeutungsvolle Teile einer Eingabe zu gewichten. Dieses Prinzip bildet die Grundlage moderner Sprachmodelle. Seine Einführung in kleinen Modellen dient Sutskever als Hinweis, dass große Durchbrüche selten aus maximaler Skalierung entstehen.

Datenerschöpfung
Bezeichnet die zunehmende Schwierigkeit, qualitativ hochwertige und vielfältige Trainingsdaten zu finden. Die größten Modelle haben den verfügbaren Text- und Bildraum weitgehend ausgeschöpft. Sutskever sieht hierin einen zentralen Grund, weshalb Skalierung an Grenzen stößt.

Fundamentales Problem des Lernens
Sutskevers Bezeichnung für die Tatsache, dass Modelle trotz ihrer Größe nur begrenzt verallgemeinern. Sie bestehen Prüfungen, versagen jedoch bei Kontextverschiebungen und unordentlichen Eingaben. Die Branche besitzt nach seiner Einschätzung keine Theorie, die erklärt, wie echte Generalisierung erreicht wird.

Generalisation (Generalisierung)
Die Fähigkeit eines Modells, eine gelernte Regel auf neue, ungeordnete oder abweichende Situationen zu übertragen. Menschen beherrschen diese Fähigkeit in hohem Maße, heutige Modelle nur eingeschränkt. Sutskevers Projekt SSI zielt darauf, diese Kluft zu schließen.

Inferenz
Der Einsatz eines trainierten Modells in der Praxis. Er erzeugt erhebliche Kosten, weil große Modelle viel Rechenarbeit benötigen. Sutskever argumentiert, dass dieser Aufwand die Skalierungslogik zusätzlich belastet, weil Ressourcen von der Forschung abgezogen werden.

Multimodalität
Die Fähigkeit eines Modells, unterschiedliche Arten von Daten wie Text, Bilder, Ton oder Video gleichzeitig zu verarbeiten. Moderne Systeme benötigen für jede Modalität eigene Datenströme und spezialisierte Architekturteile. Dies erhöht die Komplexität und verstärkt die Abhängigkeit von großen Rechenzentren.

PyTorch
Ein von Meta entwickeltes Werkzeug zur Erstellung und zum Training neuronaler Netze. Es ist eng mit Nvidias Plattform verzahnt. Die fehlende native Kompatibilität von Googles TPUs wird regelmäßig missverstanden und bildet einen Hintergrund der jüngsten Marktdiskussionen.

Safe Superintelligence Inc. (SSI)
Sutskevers neues Forschungsunternehmen, gegründet mit dem Ziel, eine neuartige Theorie des Lernens zu entwickeln. Das Unternehmen arbeitet mit einem kleinen, selektiven Team und besitzt eine Kapitalbasis von drei Milliarden Dollar. SSI steht für die Abkehr vom Skalierungsparadigma.

Scaling Laws (Skalierungsgesetze)
Mathematische Beziehungen, die zeigen, dass Modelle durch mehr Parameter, mehr Daten und mehr Rechenleistung besser werden. Diese Gesetze bestimmten die KI-Entwicklung der vergangenen Jahre. Sutskever hält sie heute nicht mehr für hinreichend.

Statistische Maschinen
Bezeichnung für Modelle, die Muster aus Daten extrahieren, ohne kausale oder konzeptuelle Strukturen vollständig zu erfassen. Sutskever nutzt den Begriff, um zu erklären, weshalb heutige Architekturen auch im großen Maßstab nur begrenzte Einsichten generieren.

Synthese aus Nutzerinteraktionen
Der Prozess, durch den Modelle aus Rückmeldungen großer Nutzerzahlen lernen. Dies verschafft Unternehmen wie Meta, Google oder Microsoft strategische Vorteile, die kleine Labors nicht besitzen. Sutskever erkennt diese Dynamik an, hält sie jedoch nicht für entscheidend, wenn das grundlegende Lernprinzip fehlt.

TPUs (Tensor Processing Units)
Spezialisierte Rechenprozessoren von Google. Sie sind auf bestimmte mathematische Operationen optimiert, die im tiefen Lernen verwendet werden. Die Debatte über mögliche TPU-Käufe durch Meta ist ein Beispiel für taktische Infrastrukturentscheidungen der großen Labors.  

Transformer
Eine Modellarchitektur, die seit 2017 den Kern moderner Sprachmodelle bildet. Sie basiert auf dem Attention-Mechanismus. Sutskever hält diese Struktur für leistungsfähig, aber in ihrer heutigen Form für begrenzt, weil sie keine tiefe konzeptuelle Generalisierung ermöglicht.


Kommentierte Quellenangaben


A. Grundlagen der Skalierungsära

1. Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey:
ImageNet Classification with Deep Convolutional Neural Networks. 2012.
Kommentar: Ausgangspunkt der modernen Deep-Learning-Phase. Zeigt, dass ein relativ kleines Team mit zwei GPUs einen Durchbruch erzielen konnte. Dient Sutskever als Referenz für die These, dass Fortschritt nicht aus extremen Rechenbudgets, sondern aus neuen Ideen entsteht.

2. Vaswani, Ashish et al.:
Attention Is All You Need. 2017.
Kommentar: Einführung des Transformer-Modells, das den Übergang von rekurrenten Netzen zu reinen Aufmerksamkeitsmechanismen markiert. Der geringe Rechenbedarf des ursprünglichen Papiers ist ein Kernargument Sutskevers gegen den gegenwärtigen Skalierungsfetischismus. 

3. Kaplan, Jared et al.:
Scaling Laws for Neural Language Models. 2020.
Kommentar: Mathematische Herleitung der Skalierungsgesetze, die die heutige Branche dominieren. Diese Arbeit begründete die aggressive Ausweitung der Modellgrößen – und ist zugleich die Grundlage für Sutskevers Behauptung, dass dieses Paradigma nun an seine eigenen Grenzen stößt.


B. Primärmaterial zu Sutskever und SSI


4. Sutskever, Ilya:
Interviews im Kontext der Gründung von Safe Superintelligence Inc. (2024/25).
Kommentar: Hier formuliert Sutskever erstmals öffentlich seine Abkehr von der Skalierung und seine „fundamentale Frage des Lernens“. Die Interviews bilden den Kern seiner Argumentationslinie. 

5. Safe Superintelligence Inc. (SSI):
Gründungsankündigungen, öffentliche Statements, Teamzusammensetzungen (2024–2025).
Kommentar: Bietet Einblick in die Struktur des Unternehmens und die Betonung kleiner, hochselektiver Teams. Relevant für die strategische Neuausrichtung, die Sutskever verfolgt.


C. Forschungslage: Generalisierung, Datenerschöpfung, Grenzen


6. Bender, Emily et al.:
On the Dangers of Stochastic Parrots. 2021.
Kommentar: Kritik an der Annahme, dass reine Skalierung zu echter Intelligenz führe. Die Autoren betonen die Datenerschöpfung und die strukturellen Grenzen großer Sprachmodelle. Wichtige Gegenposition, die Sutskevers heutige Sicht teilweise vorwegnimmt.

7. Lake, Brenden et al.:
Building Machines That Learn and Think Like People. 2017.
Kommentar: Beschreibt die robuste menschliche Generalisierung und kontrastiert sie mit schwacher maschineller Abstraktion. Theoretischer Hintergrund für Sutskevers Forderung nach einer neuen Lernarchitektur.

8. Goyal, Anirudh; Bengio, Yoshua:
Inductive Biases for Deep Learning. 2022.
Kommentar: Diskutiert strukturelle Beschränkungen heutiger Architekturen und argumentiert, dass Fortschritte künftig eher aus neuen Prinzipien als aus Skalierung entstehen werden. 

9. OpenAI, Google DeepMind, Anthropic:
Technische Berichte zu Frontier-Modellen (2023–2025).
Kommentar: Dokumentieren die rapide steigenden Kosten für Training, Experimente und Infrastruktur. Diese Berichte illustrieren den von Sutskever beschriebenen Engpass der Rechenökonomie.


D. Dynamik des Rechenmarktes und Ökonomie der Skalierung


10. Meta AI:
Veröffentlichungen zu PyTorch/XLA und Hardwarekompatibilität (2022–2025).
Kommentar: Erklärt die technischen Gründe, weshalb Metas mögliche TPU-Käufe kein Anbieterwechsel sind. Wichtig für die industriepolitische Einordnung.

11. Nvidia:
Technische Kommunikation des Konzerns (2024/25).
Kommentar: Die defensive Botschaft, „eine Generation voraus“ zu sein, bestätigt die Marktsensibilität gegenüber alternativen Rechenplattformen wie Googles TPUs und Amazons Trainium.

12. Anthropic–Google TPU Deal:
Veröffentlichte Daten zum Kauf von einer Million TPUs (2024).
Kommentar: Beispiel für strategische Diversifikation, die nicht den Marktaustritt bei Nvidia bedeutet, sondern eine Ausweitung der Verhandlungsmacht. 

13. Microsoft–Nvidia Partnerschaft (2025):
Offizielle Ankündigungen.
Kommentar: Verdeutlicht, dass sich die großen Technologieunternehmen gegen Angebotsrisiken absichern, ohne sich aus bestehenden Abhängigkeiten zu lösen.


E. Meta-Debatten zur KI-Zukunft und Grenzen der Skalierung


14. Bengio, Yoshua:
Diskussionspapiere zur Post-Scaling-Ära (2023–2025).
Kommentar: Einer der wichtigsten Gegenpols zu Sutskever. Bengio argumentiert, dass neue Architekturen nötig seien, folgt jedoch einer stärker systemtheoretischen Linie.

15. LeCun, Yann:
The Future of AI: From Autoregressive Models to Joint Embedding Architectures (Vorträge und Veröffentlichungen 2022–2025).
Kommentar: Kritisiert den Transformer-Ansatz und plädiert für agentenähnliche Lernarchitekturen. Seine Arbeiten bilden eine alternative theoretische Strömung, die Sutskevers Kritik an der Skalierung indirekt stützt. 

16. Schmidhuber, Jürgen:
Arbeiten zur algorithmischen Informationskompression und universellen Vorhersage (1990er–2025).
Kommentar: Beschreibt ein theoretisches Modell, das die Suche nach neuen Grundprinzipien der Intelligenz unterstützt. Schmidhuber gilt als Vordenker für die Idee, dass Intelligenz aus Kompression und Vorhersage entsteht.