Allokation der KI-Kapazität

China und die Grenzen des freien Marktes

I. Rechenleistung als Produktionsfaktor

Die strategische Grundfrage der KI-Ökonomie

Die weltweite KI-Dynamik hat eine Schwelle überschritten, an der Rechenleistung nicht mehr als beliebig skalierbare IT-Ressource gilt, sondern als eigenständiger Produktionsfaktor behandelt wird. Was früher zyklische IT-Nachfrage war, hat sich zu dauerhafter Kapazitätsbindung entwickelt. KI-Beschleuniger bestimmen damit nicht nur das Innovationstempo, sondern die wirtschaftliche Tragfähigkeit ganzer Geschäftsmodelle. Hochleistungs-GPUs fungieren in dieser Logik nicht mehr als austauschbare Güter, sondern als infrastrukturelle Engpassressourcen, deren Verfügbarkeit über Wachstum oder Stagnation entscheidet.

Der aktuelle Fokus auf Nvidias H200 macht diesen Übergang sichtbar. Die Debatte verschiebt sich von architektonischen Detailfragen hin zur Allokation von Rechenleistung: wer über welche Kapazitäten verfügt, in welchem Zeitraum sie verfügbar werden und unter welchen politischen Bedingungen ihre Nutzung erfolgt.

II. Technologische Einordnung des H200

Architektur und ökonomischer Reifegrad

Der H200 entstammt der Hopper-Generation und wird im 4-Nanometer-Prozess bei TSMC gefertigt. Er steht für einen technologischen Reifegrad, der seine ökonomische Bedeutung maßgeblich bestimmt. Hohe Speicherbandbreite und eine weit entwickelte Systemintegration verbinden sich zu einem Beschleuniger, der sowohl für das Training als auch für die Inferenz großer Sprachmodelle ausgelegt ist.

Im Vergleich zum China-spezifischen H20 eröffnet der H200 einen substantiellen Leistungszuwachs, der sich operativ in deutlich höherer nutzbarer Rechenleistung niederschlägt. Im Verhältnis zur kommenden Blackwell-Generation übernimmt er die Funktion einer Übergangstechnologie. Er ermöglicht die Annäherung an die globale Leistungsspitze auf Basis bereits erprobter und belastbar skalierter Lieferketten.

III. Chinesische KI-Nachfrage

Größenordnungen, Zeitachsen und Anwendungsfelder

Die aus China gemeldeten Bestellungen von mehr als zwei Millionen H200-Einheiten für 2026 markieren keinen kurzfristigen Nachfrageschub, sondern eine mehrjährige Planung. Die Nachfrage speist sich aus mehreren Quellen zugleich: Plattformgeschäft, Cloud-Dienste, staatlich flankierte Digitalprojekte und vor allem aus der explosionsartig wachsenden Inferenzlast großer Sprachmodelle.

Charakteristisch ist die zeitliche Entkopplung von Bedarf und Lieferung. Bestellt wird heute für Rechenzentren, die in ein bis zwei Jahren produktiv laufen sollen. Damit entsteht ein Nachfrageüberhang, der nicht einfach durch Preisanpassungen aufgelöst werden kann, weil physische Kapazitäten in Memory, Packaging und Energieversorgung gebunden sind.

IV. ByteDance als Leitfall

Nachfrageorganisation chinesischer Technologiekonzerne

Die chinesische Nachfrage ist organisatorisch hoch konzentriert. Plattformkonzerne bündeln Rechenleistung zentral und verteilen sie intern über Geschäftsbereiche hinweg. ByteDance fungiert hierbei als Leitfall. Der Konzern plant, vorbehaltlich regulatorischer Freigaben, Ausgaben von rund 100 Milliarden Yuan für Nvidia-Chips im Jahr 2026. Diese Zahl ist weniger wegen ihres Umfangs bemerkenswert als wegen ihres Charakters. Sie ist Teil eines mehrjährigen Capex-Programms.

Die Rechenlast entsteht aus mehreren Ebenen zugleich. Globale Plattformen wie TikTok und Douyin erzeugen enorme Inferenzvolumina. Das Cloud-Geschäft Volcano Engine bedient Unternehmenskunden und staatliche Großereignisse. Hinzu kommen eigene Sprachmodelle, deren Token-Durchsatz in Größenordnungen gewachsen ist, die klassische Rechenzentren überfordern.

Rechenleistung wird damit zur internen Kernressource, vergleichbar mit Energie oder Logistik in früheren Industriephasen.

V. Substitutions- und Sicherungsstrategien

Regulatorische Kopplung und Marktfragmentierung

Parallel zur Importnachfrage verfolgen chinesische Technologiekonzerne eine gezielte Substitutionsstrategie. Eigene Chipdesigns dienen dabei weniger der kurzfristigen Ablösung von Nvidia als der Kostenkontrolle, der Absicherung von Lieferfähigkeit und der Stärkung der politischen Verhandlungsposition. ByteDance, Huawei, Cambricon, Moore Threads und MetaX entwickeln Beschleuniger, die in Teilsegmenten mit dem H20 konkurrieren können.

Im Verhältnis zum H200 bleiben diese Lösungen leistungsmäßig begrenzt, insbesondere bei Speicherbandbreite, Software-Ökosystem und Skalierbarkeit. Ihre Bedeutung liegt daher nicht in technischer Gleichwertigkeit, sondern in ihrer strategischen Funktion. Sie bilden die Grundlage für regulatorische Kopplungsmodelle, bei denen der Einsatz ausländischer Hochleistungschips an den parallelen Einsatz heimischer Produkte gebunden wird. Auf diese Weise entsteht ein hybrides System, das technologische Differenzen akzeptiert, um industriepolitische Zielsetzungen durchzusetzen.

Für Nvidia bedeutet diese Konstellation keine unmittelbare Verdrängung, wohl aber eine Begrenzung der Preissetzungsmacht sowie eine zunehmende Fragmentierung des chinesischen Marktes.

VI. Die strukturelle Engpasskette

Backend, Memory und Packaging als Mengentreiber

Entscheidend ist nicht die Zahl der entworfenen Chips, sondern die Anzahl der tatsächlich ausgelieferten Systeme. Die Engpasskette beginnt dabei nicht in der Wafer-Fertigung, sondern im Backend. Das High-Bandwidth Memory bildet den ersten Flaschenhals. Ohne HBM3E lässt sich der H200 nicht als Hochleistungsbeschleuniger einsetzen. Die Produktionskapazitäten sind begrenzt, die Ausbeuten komplex und die Investitionszyklen lang.

Ein weiterer Engpass liegt im Advanced Packaging. Verfahren wie CoWoS bestimmen die lieferfähige Stückzahl weit stärker als die reine Foundry-Kapazität. Jeder zusätzliche H200 beansprucht diese knappen Ressourcen und steht damit sowohl in Konkurrenz zu anderen Kunden als auch zu Nvidias eigenen neueren Produktlinien.

Die Folge ist eine strukturelle Zeitverzögerung zwischen Nachfrage und Umsatzrealisierung. Es können Bestellungen vorliegen, ohne dass sie sich kurzfristig in ausgelieferten Systemen und bilanziell wirksamen Erlösen niederschlagen.

VII. Regulierung und Genehmigung

Politische Steuerung als Bestandteil der Marktordnung

Die Lieferfähigkeit wird in erheblichem Maße durch regulatorische Vorgaben geprägt. Auf US-Seite ist der Export des H200 nach China unter Auflagen wieder zugelassen worden, bleibt jedoch politisch überprüfbar. Auf chinesischer Seite ist die Importfreigabe bislang offen; zugleich werden Regelungen diskutiert, die den Einsatz ausländischer Hochleistungschips an industriepolitische Zielsetzungen knüpfen.

Es entsteht damit ein zweistufiges Genehmigungsregime, in dem Nachfrage allein keine hinreichende Bedingung für Lieferung darstellt. Jeder Liefervertrag ist mit einem politischen Vorbehalt versehen, der sich unmittelbar in Bewertung und Risikoprämien niederschlägt. Regulierung wirkt in diesem Kontext nicht als exogener Eingriff, sondern als konstitutiver Bestandteil der Marktordnung.

VIII. Marktordnung der KI-Rechenleistung

Preisbildung unter Knappheitsbedingungen

Der Stückpreis eines H200 bewegt sich im Bereich von rund 27.000 US-Dollar, modulare Systemkonfigurationen entsprechend darüber. Diese Preisbildung spiegelt weniger die reinen Produktionskosten wider als die strukturelle Knappheit entlang der Lieferkette. Solange High-Bandwidth Memory und Advanced Packaging mengenbestimmend bleiben, lässt sich diese Knappheit in Erlöse übersetzen.

Für die Kapitalmärkte ist daher die Unterscheidung zwischen nominellem Auftragsvolumen und realisiertem Cashflow von zentraler Bedeutung. Bestellungen in Millionenhöhe sind nicht gleichbedeutend mit zeitnah ausgelieferten Systemen. Die zeitliche Streckung der Auslieferung stabilisiert die Margen, erhöht jedoch die Umsatzvolatilität.

IX. Kapitalmarktbezug

Ertragslogik entlang der Wertschöpfungskette

Für Nvidia stellt China eine Upside-Option dar, weil ein erheblicher Teil der globalen KI-Nachfrage aus diesem Markt stammt, deren Belieferung jedoch politisch gesteuert wird. Diese Nachfrage ist real, ihre Umsetzung bleibt jedoch kontingent. Ein positiver regulatorischer Entscheid wirkt unmittelbar wertsteigernd, Einschränkungen schlagen direkt auf die Erwartungskomponente im Kurs durch.

TSMC profitiert aus einem anderen Grund. Der hohe HPC-Anteil im Produktmix bindet Kapazitäten in margenstarken Fertigungs- und Packaging-Stufen und stabilisiert Auslastung und Ertragsqualität, selbst wenn einzelne Auslieferungen zeitlich verschoben werden.

Die stärksten und unmittelbarsten Profiteure finden sich weiter stromabwärts. Anbieter von High-Bandwidth Memory wie SK hynix, Samsung Electronics und Micron Technology profitieren von struktureller Knappheit, da ihre Kapazitäten nur mit langen Vorlaufzeiten ausweitbar sind. Knappheit übersetzt sich hier direkt in Preis- und Margenstärke.

Eine vergleichbare Logik gilt für Advanced Packaging und Backend. CoWoS-Kapazitäten sowie spezialisierte OSAT-Anbieter wie ASE Technology, Amkor Technology und SPIL bestimmen die lieferfähigen Stückzahlen. Der Equipment-Sektor profitiert indirekt über Investitionen, jedoch zeitverzögert und stärker zyklisch.

X. Bewertungsimplikationen für Investoren

Asymmetrische Multiples und politisches Beta

Aus Investorensicht lässt sich die KI-Halbleiterkette entlang dreier Kriterien ordnen: Visibilität der Nachfrage, Persistenz der Margen und Kapitalbindung. Titel, deren Erlöse politisch oder regulatorisch konditioniert sind, weisen ein erhöhtes Bewertungsbeta auf, da ein Teil der Nachfrage als Erwartung und nicht als gesicherter Cashflow gehandelt wird.

Wo Kapazitäten hingegen physisch knapp sind und sich nur mit langen Vorlaufzeiten ausweiten lassen, entsteht Margenpersistenz. Diese trägt höhere und stabilere Bewertungsniveaus, weil Preis- und Volumenrisiken strukturell begrenzt sind. Entscheidend ist dabei nicht die technologische Führungsrolle, sondern die Position in der Engpasskette.

Die Capex-Logik verstärkt diesen Effekt. Segmente mit hoher Kapitalbindung und langen Investitionszyklen übersetzen Knappheit dauerhaft in Preissetzungsmacht, während vorgelagerte oder stärker politisierte Bereiche empfindlicher auf Genehmigungen, Förderregime und Nachfrageverschiebungen reagieren.

Für Investoren folgt daraus eine klare Priorisierung: Die attraktivsten Risikoprofile liegen dort, wo Knappheit strukturell verankert ist und Cashflows zeitlich verzögert, aber belastbar entstehen. Bewertungsqualität entsteht nicht aus Wachstumsraten allein, sondern aus der Fähigkeit, Knappheit über Zyklen hinweg zu monetarisieren.

XI. Szenarien der Allokation bis 2026

Verteilung von Knappheit unter politischen Restriktionen

Im ersten Szenario erfolgt eine weitgehende Genehmigung, wodurch H200-Lieferungen nach China anlaufen und den globalen Engpass verschärfen. Im zweiten Szenario kommt es zu Teilfreigaben mit Kopplungsauflagen, die Volumen begrenzen und den Markt fragmentieren. Im dritten Szenario scheitert die politische Freigabe, während die Nachfrage bestehen bleibt und sich verstärkt in Graumärkte und Substitution verlagert.

Keines dieser Szenarien beseitigt die strukturelle Knappheit. Sie unterscheiden sich lediglich in ihrer Verteilung.

XII. Schlussfolgerungen

Zur politischen Ökonomie der KI-Chips

Der H200 eignet sich als Lehrbeispiel, weil an ihm die Überlagerung technologischer Reife, industrieller Engpässe und geopolitischer Steuerung sichtbar wird. Die Allokation von Rechenleistung folgt dabei nicht mehr ausschließlich marktlichen Preissignalen, sondern bewegt sich innerhalb eines Rahmens, der durch Genehmigungen, Quoten und strategische Interessen strukturiert ist.

Für Anleger folgt daraus, dass klassische Wachstumsnarrative allein keine tragfähige Orientierung bieten. Entscheidend ist die Position eines Unternehmens innerhalb der Engpasskette der KI-Hardware-Wertschöpfung. Wo Knappheit entsteht, bildet sich strukturelle Preissetzungsmacht; wo Absatz und Lieferung an politische Freigaben gebunden bleiben, dominiert ein erhöhtes politisches Risiko. Der H200-Komplex macht diese Ordnung sichtbar.

Anhang

A. Technische Begriffsklärungen

Advanced Packaging (z. B. CoWoS)
Fertigungsverfahren, bei denen mehrere Chips und Speicherkomponenten in einem Modul integriert werden. Für Hochleistungs-KI-Systeme mengenbestimmend, da diese Verfahren deutlich langsamer skalieren als die Wafer-Fertigung.
AI-Beschleuniger
Spezialisierte Prozessoren, die auf parallele Rechenoperationen für maschinelles Lernen ausgelegt sind. Sie bilden das Rückgrat moderner KI-Systeme und unterscheiden sich grundlegend von klassischen CPUs.
Allokation
Zuteilung knapper Ressourcen auf konkurrierende Verwendungszwecke. In diesem Beitrag nicht als Marktresultat verstanden, sondern als Ergebnis von Kapazitätsgrenzen, Regulierung, Lieferketten und politischer Steuerung.
Backend (Halbleiterfertigung)
Späte Phase der Halbleiterproduktion, in der gefertigte Chips vereinzelt, getestet, mit Speicher kombiniert und in Gehäuse integriert werden. Zum Backend zählen insbesondere Advanced Packaging und Systemintegration. Für KI-Beschleuniger ist das Backend häufig mengenbestimmend, da diese Prozesse deutlich langsamer skalieren als die eigentliche Wafer-Fertigung.
Blackwell-Generation
Nvidia-GPU-Architekturgeneration nach Hopper, gefertigt im 4-Nanometer-Prozess bei TSMC. Wie bereits Hopper nutzt Blackwell keinen neuen Fertigungsknoten, sondern erzielt Leistungsgewinne vor allem durch Architekturverbesserungen, höhere Speicherbandbreite, fortgeschrittenes Packaging und Systemintegration. Die Marktwirkung wird weniger durch die Strukturbreite als durch Backend-Kapazitäten und die Verfügbarkeit von High-Bandwidth Memory bestimmt.
HBM (High Bandwidth Memory)
Speichertechnologie mit extrem hoher Datenübertragungsrate, die direkt mit dem Rechenchip verbunden ist. Für KI-Beschleuniger unverzichtbar. Produktionskapazitäten sind knapp und kapitalintensiv.
HBM3E (High Bandwidth Memory, Generation 3 Extended)
Weiterentwickelte Generation von High-Bandwidth Memory mit nochmals erhöhter Speicherbandbreite und Energieeffizienz. HBM3E ist für aktuelle Hochleistungs-KI-Beschleuniger wie den H200 zentral und stellt einen der wichtigsten Engpässe in der Lieferkette dar, da Produktionskapazitäten begrenzt und technologisch anspruchsvoll sind.
Hopper-Generation
GPU--Architekturgeneration von Nvidia, benannt nach Grace Hopper, die auf großskalige KI-Workloads und Hochleistungsinferenz ausgerichtet ist. Sie folgt auf die Ampere-Architektur und bildet einen eigenständigen Architekturzyklus innerhalb der Nvidia-Roadmap. Beschleuniger wie H100, H200 und H20 sind Varianten dieser Generation, die sich durch Speicheranbindung, Systemkonfiguration und regulatorische Auslegung unterscheiden, nicht durch eine neue Grundarchitektur. Ökonomisch steht die Hopper-Generation für eine Phase technologischer Reife mit hoher Skalierbarkeit und stabilen Lieferketten.
HPC-Anteil (High Performance Computing)
Anteil eines Unternehmens, einer Produktlinie oder einer Fertigungskapazität, der auf Hochleistungsrechnen entfällt. HPC umfasst rechenintensive Anwendungen wie wissenschaftliche Simulationen, industrielle Optimierung sowie KI-Training und Inferenz in großem Maßstab. Ein steigender HPC-Anteil weist auf eine stärkere Ausrichtung auf leistungs- und margenstarke Produkte hin und ist ein zentraler Indikator für Kapazitätsbindung, Preisqualität und strukturelle Nachfrage in der Halbleiterindustrie.
H200
KI-Beschleuniger aus Nvidias Hopper-Generation, gefertigt im 4-Nanometer-Prozess. Technologisch reif, leistungsstark und sowohl für Training als auch für Inferenz geeignet. Ökonomisch relevant als Übergangstechnologie unter regulatorischen Bedingungen.
H20
Leistungsreduzierte Nvidia-Variante für den chinesischen Markt. Diente der Umgehung früherer Exportrestriktionen und wurde später ebenfalls politisch blockiert.
Inference (Inferenz)
Anwendung trainierter KI-Modelle im laufenden Betrieb. Inferenz verursacht dauerhaft hohe Rechenlasten und ist heute der dominante Treiber des GPU-Bedarfs großer Plattformen.
Nanometer (nm)
Maßangabe für Strukturgrößen in der Halbleiterfertigung, die heute vor allem als Prozessbezeichnung verwendet wird. Sie beschreibt nicht die physische Größe eines Chips, sondern die Dichte und Effizienz der Transistorstrukturen. Kleinere nm-Werte ermöglichen höhere Leistungsdichte und geringeren Energieverbrauch pro Rechenoperation. Für KI-Beschleuniger gelten derzeit 4 nm als industrieller Standard, 3 nm als Spitzentechnologie mit begrenzter Kapazität, während 7 nm und größer technisch nutzbar, aber ökonomisch zunehmend nachteilig sind. Leistungsfähigkeit ergibt sich nicht allein aus der Strukturbreite, sondern ebenso aus Architektur, Speicheranbindung, Packaging und Software.
Training
Phase des Modellaufbaus, in der Parameter gelernt werden. Stark rechenintensiv, aber zeitlich begrenzt. Für die langfristige Nachfrage weniger entscheidend als die Inferenz.
Token
Basiseinheit der Verarbeitung in großen Sprachmodellen. Die Anzahl verarbeiteter Tokens ist ein direktes Maß für Rechenlast und damit für den Hardwarebedarf.
OSAT (Outsourced Semiconductor Assembly and Test)
Spezialisierte Dienstleister für Montage, Packaging und Test von Halbleitern im Backend der Fertigung. OSAT-Unternehmen übernehmen insbesondere Advanced-Packaging-Schritte, wenn diese nicht vollständig bei Foundries integriert sind. In der KI-Hardware-Lieferkette sind OSAT-Kapazitäten häufig mengenbestimmend, da sie langsamer skalieren als die Wafer-Fertigung und direkt über Auslieferungsvolumina entscheiden.
Wafer
Dünne Scheibe aus hochreinem Silizium, auf der mittels lithografischer Verfahren zahlreiche identische Schaltkreise gleichzeitig gefertigt werden. Der Wafer bildet die Grundlage der Frontend-Fertigung. Seine Verfügbarkeit ist für moderne KI-Chips relevant, stellt jedoch zunehmend weniger den Engpass dar als Speicherintegration und Backend-Prozesse.

B. Kommentiertes Quellenverzeichnis

Reuters
Mehrere exklusive Berichte zu H200-Bestellungen, Produktionsausweitung bei TSMC und regulatorischen Fragen. Zentrale Quelle für belastbare Zahlen zu Stückzahlen, Zeitachsen und politischen Rahmenbedingungen. Hohe Verlässlichkeit und nüchterner Ton.
South China Morning Post (SCMP)
Berichte zu ByteDance, chinesischer KI-Nachfrage und internen Investitionsplänen. Liefert wichtige Einblicke in chinesische Unternehmensstrategien und staatliche Abwägungen. Einzelne Angaben stammen aus informierten Kreisen und sollten kontextualisiert gelesen werden.
Financial Times
Analysen zur globalen KI-Infrastruktur, zur Rolle von Memory und zur Verdrängung klassischer Elektronikmärkte durch KI-Nachfrage. Stärker analytisch als nachrichtengetrieben, hilfreich für die makroökonomische Einordnung.
TrendForce
Marktforschungsdaten zu Speicherpreisen, HBM-Kapazitäten und Lieferketten. Relevant für die Abschätzung von Knappheit, Preisbildung und Margenentwicklung im Memory-Segment.
Unternehmensangaben und Investorenkommunikation (Nvidia, TSMC)
Ergänzende Informationen zur Produktpositionierung, Kapazitätsausweitung und Marktstrategie. Grundsätzlich interessengeleitet, daher analytisch einzuordnen und nicht isoliert zu verwenden.

Haftungsausschluss
Die Inhalte dieser Webseite dienen ausschließlich der Information. Für die Richtigkeit, Vollständigkeit und Aktualität übernimmt Dr. Wrede & Partner keine Haftung. Haftungsansprüche wegen materieller oder immaterieller Schäden sind ausgeschlossen, sofern kein vorsätzliches oder grob fahrlässiges Verhalten vorliegt. Für Inhalte externer Links sind ausschließlich deren Betreiber verantwortlich.

Copyright
© Dr. Wrede & Partner. Alle Rechte vorbehalten.
Texte, Grafiken, Bilder und Gestaltungselemente dieser Seite sind urheberrechtlich geschützt. Jegliche Verwendung bedarf der vorherigen schriftlichen Zustimmung des Rechteinhabers.