Agenten · 28. Januar 2026

KI-Agenten im Software-Engineering

Agentisches KI-Coding

Der strukturelle Wandel des Software-Engineerings

Der KI-Forscher Andrej Karpathy beschreibt zum Jahreswechsel 2025/26 einen Wandel, der sich nicht als bloße Effizienzsteigerung, sondern als strukturelle Verschiebung der Softwarearbeit verstehen lässt. Noch im Herbst 2025 hatte er agentische KI-Systeme als unzureichend bewertet. Sie erschienen ihm kognitiv begrenzt, zu wenig kohärent über längere Aufgabenfolgen hinweg und nicht in der Lage, komplexe Computerprozesse zuverlässig zu steuern. Seine damalige Einschätzung lautete, dass funktionierende KI-Agenten eher eine Frage eines Jahrzehnts seien.

Nur wenige Monate später revidierte Karpathy diese Position grundlegend. In öffentlichen Beiträgen schildert er, dass sich sein eigener Entwicklungsworkflow innerhalb kurzer Zeit umgekehrt habe. Während er zuvor den Großteil des Codes selbst schrieb und KI lediglich unterstützend nutzte, überließ er gegen Ende des Jahres 2025 den überwiegenden Teil der Entwicklungsarbeit agentischen LLM-Systemen. Seine manuelle Tätigkeit verlagerte sich auf Prüfung, Korrektur und architektonische Entscheidungen. Diese Umstellung bezeichnet er als die tiefgreifendste Veränderung seiner Arbeitsweise seit Beginn seiner beruflichen Laufbahn.

Technologische Ursachen

Der beobachtete Wandel ist nicht auf ein einzelnes Modell oder ein isoliertes Produkt zurückzuführen. Entscheidend ist vielmehr das Zusammenwirken mehrerer technischer Fortschritte. Größere Kontextfenster erlauben es KI-Modellen, umfangreiche Codebasen konsistent zu erfassen und über längere Zeiträume zu bearbeiten. Verbesserte Tool-Integration ermöglicht den Zugriff auf Dateisysteme, das Ausführen von Tests sowie iterative Refactoring-Prozesse. Hinzu kommen Fortschritte im Training, insbesondere durch Verfahren, die Rückmeldungen aus realen Entwicklungsumgebungen einbeziehen.

Karpathy beschreibt diesen Punkt als das Überschreiten einer Kohärenzschwelle. Agenten seien nun in der Lage, komplexe Zielketten über mehrere Iterationen hinweg zu verfolgen, Zwischenergebnisse zu bewerten und ihre Vorgehensweise anzupassen. Genau diese Fähigkeit habe zuvor gefehlt und sei der Kern seiner früheren Skepsis gewesen.

Fehlerstruktur und Grenzen

Trotz der gesteigerten Leistungsfähigkeit warnt Karpathy ausdrücklich vor falschen Erwartungen. Die Fehler verschwinden nicht, sie verändern lediglich ihre Gestalt. Klassische Syntax- oder API-Fehler treten kaum noch auf. Stattdessen dominieren konzeptuelle Fehlannahmen, bei denen der erzeugte Code formal korrekt ist, in seiner Struktur jedoch unnötig komplex oder ineffizient ausfällt.

Karpathy vergleicht dieses Verhalten mit dem eines unerfahrenen Entwicklers, der Aufgaben zügig umsetzt, ohne Annahmen zu hinterfragen oder Alternativen systematisch abzuwägen. Besonders kritisch bewertet er die Neigung der Modelle, Abstraktionen aufzublähen und toten Code nicht zu bereinigen. Für den produktiven Einsatz bedeutet dies, dass KI-Agenten nicht autonom arbeiten dürfen, sondern einer engen menschlichen Führung und Kontrolle bedürfen, insbesondere bei sicherheitsrelevanten oder langfristig gewarteten Systemen.

Generierung und Urteilskraft

Von grundsätzlicher Bedeutung ist Karpathys Unterscheidung zwischen der Erzeugung von Code und seiner Bewertung. Beide Tätigkeiten beruhen auf unterschiedlichen kognitiven Fähigkeiten. Während KI-Systeme die Generierung zunehmend übernehmen, verlagert sich der Engpass auf die Auswahl, Einordnung und Bewertung von Lösungen. Software-Engineering entwickelt sich damit von einer primär handwerklichen Tätigkeit zu einer Disziplin, in der Urteilskraft, Strukturverständnis und Verantwortung im Vordergrund stehen.

Karpathy betont, dass der entscheidende Effekt für ihn nicht primär in Zeitersparnis liege. Der eigentliche Gewinn bestehe darin, Projekte realisieren zu können, die zuvor aufgrund begrenzter Zeit oder fehlender Detailkenntnisse nicht sinnvoll erschienen. KI-Agenten erweitern damit den individuellen Handlungsspielraum, ohne die Verantwortung für Entscheidungen zu übernehmen.

Ausbildung und Arbeitsmarkt

Diese Verschiebung hat unmittelbare Folgen für Ausbildung und Arbeitsmarkt. Klassische Ausbildungsziele wie syntaktische Sicherheit, Framework-Routine und Implementierungsgeschwindigkeit verlieren relativ an Bedeutung. An ihre Stelle treten Systemverständnis, Architekturdenken, Testmethodik und die Fähigkeit, Ergebnisse kritisch zu prüfen. Programmieren bleibt notwendig, jedoch zunehmend als Referenzkompetenz, die es erlaubt, KI-Ergebnisse einzuordnen und Fehlentwicklungen zu erkennen.

Auf dem Arbeitsmarkt deutet sich weniger eine Verdrängung als eine Differenzierung an. Routinemäßige Entwicklungsaufgaben lassen sich zunehmend automatisieren, während die Nachfrage nach Entwicklern steigt, die komplexe Systeme entwerfen, Risiken antizipieren und KI-Agenten zielgerichtet steuern können. Kurzfristig erhöht sich die individuelle Produktivität deutlich, langfristig entsteht jedoch ein Engpass bei Profilen, die technisches Tiefenverständnis mit struktureller Urteilskraft verbinden.

Ausblick

Für das Jahr 2026 erwartet Karpathy eine deutliche Zunahme von KI-erzeugtem Code, der formal korrekt ist, dessen Qualität jedoch stark variiert. Diese Entwicklung betrifft nicht nur Code-Repositorien, sondern auch wissenschaftliche Veröffentlichungen und technische Dokumentation. Neben realen Produktivitätsgewinnen werde es weiterhin symbolische Effekte geben, die tatsächliche Qualität nicht ersetzen können.

Sein Gesamturteil fällt dennoch eindeutig aus. Agentisches KI-Coding stellt eine substanzielle Erweiterung professioneller Softwarearbeit dar. Die zentrale Ressource bleibt dabei nicht der Code selbst, sondern die Fähigkeit, Komplexität zu ordnen, Ergebnisse zu bewerten und Verantwortung für technische Systeme zu übernehmen.

Glossar

• Agentisches KI-Coding
Form der Softwareentwicklung, bei der KI-Systeme nicht nur Code generieren, sondern Aufgaben strukturieren, Teilschritte planen, externe Werkzeuge nutzen, Ergebnisse überprüfen und iterative Verbesserungen vornehmen. Die Verantwortung für Zieldefinition, Bewertung und Freigabe verbleibt beim Menschen.

• Architekturentscheidung
Grundlegende Festlegung von Strukturprinzipien eines Softwaresystems, etwa Modularisierung, Schnittstellen, Datenflüsse und Abhängigkeitsmanagement. Architekturentscheidungen sind langfristig wirksam und nur begrenzt automatisierbar, da sie Wertungen, Abwägungen und Erfahrungsurteile erfordern.

• Generierung
Automatisierte Erzeugung von Code, Text oder Strukturen durch ein KI-Modell auf Basis probabilistischer Muster und vorgegebener Zielbeschreibungen. Generierung ist von der Bewertung und Einordnung der Ergebnisse strikt zu unterscheiden.

• Kohärenz
Eigenschaft eines KI-Systems, über längere Bearbeitungszeiträume hinweg konsistente Annahmen, Zielstrukturen und Lösungslogiken aufrechtzuerhalten. Kohärenz bildet eine zentrale Voraussetzung für den produktiven Einsatz agentischer Systeme in komplexen Entwicklungsaufgaben.

• Large Language Model (LLM)
Großes neuronales Modell, das auf umfangreichen Text- und Codekorpora trainiert wurde und in der Lage ist, Sprache und Programmcode zu analysieren, zu transformieren und zu erzeugen. LLMs bilden die technologische Grundlage aktueller KI-Agenten.

• Produktivitätseffekt
Zunahme der realisierbaren Arbeitsmenge pro Zeiteinheit durch den Einsatz von KI-Systemen. Im Kontext agentischen Codings äußert sich Produktivität weniger in Zeitersparnis als in der Möglichkeit, Projekte umzusetzen, die zuvor als zu aufwendig galten.

• Selektion
Prozess der Bewertung, Einordnung und Auswahl von durch KI erzeugten Lösungen. Selektion erfordert fachliche Urteilskraft und entscheidet über Qualität, Sicherheit, Wartbarkeit und langfristige Tragfähigkeit von Software.

• Technische Schuld
Langfristige strukturelle Belastung eines Softwaresystems, die aus kurzfristigen oder unzureichend reflektierten Implementierungsentscheidungen entsteht. KI-generierter Code kann technische Schuld sowohl reduzieren als auch verstärken, abhängig von Führung, Review und Architekturdisziplin.

• Tool-Integration
Einbindung externer Werkzeuge wie Dateisysteme, Compiler, Testumgebungen, Versionskontrolle oder Laufzeitumgebungen in KI-Systeme. Tool-Integration erweitert LLMs von reinen Textgeneratoren zu handlungsfähigen Entwicklungsagenten.

• Urteilskraft
Fähigkeit, technische Optionen im Lichte von Zielen, Risiken, Kontextbedingungen und langfristigen Folgen abzuwägen. Urteilskraft bildet im agentischen Software-Engineering die zentrale menschliche Kompetenz.

• Workflow-Orchestrierung
Gezielte Steuerung des Zusammenwirkens von KI-Agenten, Werkzeugen und menschlichen Eingriffen innerhalb eines Entwicklungsprozesses. Workflow-Orchestrierung entscheidet über Effizienz, Qualität und Kontrollierbarkeit agentischer Systeme.