· 

Die Zuverlässigkeit moderner KI-Systeme

Omniscience Benchmark 2025


Omniscience Benchmark 2025 | Dr. Wrede & Partner

Problemstellung

Die zuverlässigkeit moderner KI-Systeme


Die gegenwärtige Diskussion über künstliche Intelligenz folgt häufig der Annahme, große Modelle verfügten nicht nur über eine umfassende Wissensbasis, sondern zeichneten sich zugleich durch besondere Verlässlichkeit aus. Die neue Studie „AA-Omniscience: Evaluating Cross-Domain Knowledge Reliability in Large Language Models“ zeigt jedoch, dass diese Vorstellung nur begrenzt trägt. Die Autoren prüfen, in welchem Maß aktuelle Systeme nicht allein Wissen reproduzieren, sondern auch ihre eigenen Grenzen erkennen. Das Ergebnis führt zu einer nüchternen Bestandsaufnahme, deren Relevanz für Unternehmen unmittelbar ins Gewicht fällt.


I. Ansatz und Prüfverfahren

Menge des reproduzierten Wissens vs. Zuverlässigkeit


Der Omniscience Benchmark umfasst 6.000 Fragen aus 42 Fachgebieten, die sechs Domänen zugeordnet sind, welche von Recht über Business und Gesundheitsfragen bis zu Geistes- und Naturwissenschaften reichen. Das Verfahren bewertet richtige und falsche Antworten mit gleicher Gewichtung. Raten wirkt sich negativ aus, während das Eingeständnis eigener Unsicherheit ohne Folgen bleibt.

Auf diese Weise entsteht ein Index, der nicht die Menge reproduzierten Wissens erfasst, sondern die Verlässlichkeit der gegebenen Auskunft.
Der Omniscience Benchmark umfasst überwiegend amerikanische und einige wenige internationale Modelle; führende chinesische Systeme wie Kimi, Qwen, GLM-4 oder Ernie wurden in der Untersuchung nicht berücksichtigt.
Der Bewertungsrahmen reicht von –100 bis +100 Punkten. Ein Wert von 0 bedeutet, dass ein Modell ebenso häufig richtige wie falsche Antworten liefert. Die Untersuchung zeigt, dass nur wenige Systeme der jüngsten Generation überhaupt einen positiven Wert erreichen.

Dabei führt der Benchmark eine Methodik ein, die über klassische Leistungstests hinausgeht. Er bewertet nicht nur die korrekte Reproduktion von Wissen, sondern erfasst das Verhalten eines Modells im Zustand der Unsicherheit. Dieser Zugang wurde in früheren Untersuchungen kaum berücksichtigt, bildet jedoch den Kern jeder zuverlässigen Anwendung in geschäftskritischen Prozessen.


II. Ergebnisse


1. Leistung der Modelle im Gesamtvergleich


Das gegenwärtig stärkste Modell im Omniscience Index ist Gemini 3 Pro, das 13 Punkte erreicht und damit als einziges System deutlich im positiven Bereich liegt. Die Trefferquote von 53 Prozent verweist jedoch zugleich auf eine zentrale Schwäche: Die Halluzinationsrate beträgt 88 Prozent, wodurch das Modell zwar umfangreich antwortet, sich aber in Situationen mangelnder Sicherheit kaum begrenzt.

Claude 4.1 Opus überzeugt durch eine deutlich geringere Neigung zu Fehlantworten und eine insgesamt gute Kalibrierung. Obwohl die Zuverlässigkeit lediglich 36 Prozent beträgt, zählt dieses Modell zu den belastbarsten Systemen der Untersuchung. Bis zum Erscheinen von Gemini 3 Pro lag es an der Spitze der Bewertung.

Bemerkenswert ist die Leistung des älteren Llama-3.1-405B. Obwohl dieses Modell in vielen allgemeinen Benchmarks hinter den Spitzenmodellen rangiert, erzielt es im Omniscience Index einen positiven Wert und zeigt ein ausgeprägtes Vermögen, Unsicherheit zu erkennen und entsprechend zu reagieren. Auch kleinere Systeme wie Nemotron Nano 9B V2 und Llama Nemotron Super 49B v1.5 verdeutlichen, dass die Größe eines Modells kein verlässlicher Indikator für seine tatsächliche Zuverlässigkeit ist.

GPT-5.1 in der High-Variante erreicht zwar eine hohe Genauigkeit, fällt jedoch durch eine Halluzinationsrate von 81 Prozent deutlich ab. Ähnliche Muster zeigen Gemini 2.5 Pro und Gemini 2.5 Flash, die ebenfalls zu Fehlantworten neigen, sobald die Grundlage für eine sichere Aussage fehlt.


2. Domänenabhängigkeit der Ergebnisse


Kein Modell dominiert alle Fachgebiete zugleich. Die Studie zeigt ein ausdifferenziertes Leistungsverhalten:

  • In Recht, Software-Engineering und Geisteswissenschaften liegt Claude 4.1 Opus vorn.

  • Im Bereich Business erreicht GPT-5.1.1 die höchste Zuverlässigkeit.

  • In Gesundheit und Naturwissenschaften überzeugt Grok 4, das dort die genauesten Antworten liefert. 

Damit wird deutlich, dass die Wahl eines Modells stets eine Entscheidung nach Anwendungsfall darstellt. Eine pauschale Empfehlung wäre nicht sachgerecht, da die Modelle jeweils unterschiedliche Stärken besitzen.


3. Modellgröße und Zuverlässigkeit


Die Untersuchung zeigt, dass größere Modelle zwar ein breiteres Wissensspektrum reproduzieren, jedoch ebenso häufig wie kleinere Systeme zu Fehlantworten neigen. Die vermittelte Information wird folglich nicht durch ein verlässliches Erkennen eigener Grenzen ergänzt. Der verbreitete Eindruck, Größe bringe automatisch höhere Verlässlichkeit hervor, bestätigt sich in diesem Benchmark nicht. Für Unternehmen ergibt sich daraus, dass der erhebliche Ressourcenbedarf großer Modelle nicht durch eine entsprechend höhere Zuverlässigkeit aufgewogen wird.


III. Tabellarischer Überblick der Ergebnisse


A. Gesamtwertung


Modell Omniscience-Score Accuracy  Halluzination Bemerkung
Gemini 3 Pro +13 53 %  88 %

Wissen stark,

Zurückhaltung schwach

Claude 4.1 Opus positiv 36 %  niedrig Gute Kalibrierung
Llama-3.1-405B positiv mittel  niedrig Überraschend stabil
Claude 4.5 Haiku positiv mittel  moderat Preis-Leistung stark
GPT-5.1 (high) negativ hoch  81 % Hohe Halluzination
Gemini 2.5 Pro negativ hoch  88 % Starkes Raten
Gemini 2.5 Flash negativ hoch  88 % Ungenau bei Unsicherheit
Grok 4 negativ solide  64 % Stark in Medizin und Naturwissenschaften
Nemotron Nano 9B V2 leicht positiv niedrig  niedrig Diszipliniert
Llama Nemotron Super 49B v1.5 positiv mittel  niedrig

Zuverlässig im Verhältnis

zur Größe


B. Fachgebietsbezogene Spitzenreiter


Domäne    Bestes Modell         Charakteristik
Recht    Claude 4.1 Opus         Höchste Zurückhaltung bei Unsicherheit
Business    GPT-5.1.1         Solide Wissensbasis und gute Trefferquote
Gesundheit    Grok 4         Robust im medizinischen Kontext
Naturwissenschaften    Grok 4         Starke Ergebnisse bei faktenlastigen Fragen
Geisteswissenschaften    Claude 4.1 Opus         Gute Differenzierung
Software-Engineering    Claude 4.1 Opus         Hohe Präzision in technischen Fragen

IV. Konsequenzen für Unternehmen


Unternehmen stehen vor der Aufgabe, die Leistungsfähigkeit von KI-Systemen nicht allein an der erzeugten Informationsmenge, sondern ebenso an der Zuverlässigkeit ihrer Ausgaben zu bemessen. Die Studie zeigt, dass Halluzinationen jenes Risiko bilden, das jede Organisation trifft, sobald KI-gestützte Entscheidungen in operative Abläufe einfließen. Maßgeblich ist nicht die Größe eines Modells, sondern seine Fähigkeit, Unsicherheit zu erkennen und sie offen auszuweisen.

Wichtig sind drei Elemente: 

  1. Domänenspezifische Auswahl: Das Modell muss zur Aufgabe passen.

  2. Überwachung und Kalibrierung: Unternehmen benötigen Mechanismen, die Fehlverhalten erkennen.

  3. Unsicherheitsmanagement: Systeme sollten in kritischen Fällen schweigen, statt eine Antwort zu erzwingen.

Für die Weiterentwicklung großer Sprachmodelle wird die Fähigkeit zur Kalibrierung eine zentrale Rolle spielen. Systeme müssen lernen, zwischen sicherem und unsicherem Wissen klar zu unterscheiden und Unsicherheit explizit zu markieren. Modelle, die eine zuverlässige Abstinenzpraxis entwickeln, werden künftig die höchste betriebliche Relevanz besitzen.


V. Glossar


Accuracy (Trefferquote)
Anteil der Antworten, die ein Modell korrekt reproduziert. Misst die Wissensreproduktion, nicht jedoch die Zuverlässigkeit im Zustand der Unsicherheit.


Abstinenz / Antwortabstinenz
Fähigkeit eines Modells, in unsicheren Situationen bewusst keine Antwort zu geben. Verbessert im Benchmark die Zuverlässigkeit.


Antwortdruck
Tendenz eines Modells, eine Antwort zu erzwingen, selbst wenn die Wissensgrundlage fehlt. Erhöht die Halluzinationsneigung.


Antwortkontrolle
Vermögen eines Modells, Unsicherheit zu erkennen und die Ausgabe entsprechend zu begrenzen. Zentrale Voraussetzung verlässlicher Modellleistung.


Claude 4.1 Opus (Anthropic, USA)
Modell mit mittlerer Accuracy und niedriger Halluzinationsneigung. Zählt im Benchmark zu den zuverlässigsten Systemen; erkennt Unsicherheit präzise.


Claude 4.5 Haiku (Anthropic, USA)
Kompakteres Modell derselben Reihe. Moderate Zuverlässigkeit und konsistente Antwortkontrolle; gutes Verhältnis von Kosten zu Leistung.


DeepSeek-V3 / DeepSeek-R1 (DeepSeek AI, China)
Offene Modellfamilie mit hoher Effizienz und starkem Fokus auf Reasoning. Gute Wissensreproduktion, jedoch variable Kontrolle je nach Domäne.


Domäne
Fachlicher Bereich wie Recht, Business, Gesundheit, Geisteswissenschaften, Software-Engineering oder Naturwissenschaften. Modelle zeigen je nach Domäne unterschiedliche Leistungsfähigkeit.


Ernie 4.0 / Ernie Speed (Baidu, China)
Großmodellreihe mit breiter Wissensbasis und starker chinesischer Sprachkompetenz. In internationalen Benchmarks solide, jedoch mit wechselnder Zuverlässigkeit in technischen Domänen.


Gemini 2.5 Flash (Google DeepMind, USA/UK)
Hohe Accuracy, aber erhöhte Halluzination. Beispiel für starke Wissensreproduktion bei geringer Begrenzung unsicherer Ausgaben.


Gemini 2.5 Pro (Google DeepMind, USA/UK)
Stark in der Wissensreproduktion, jedoch deutlich halluzinationsanfällig. Neigt zum Raten in kritischen Bereichen.


Gemini 3 Pro (Google DeepMind, USA/UK)
Bestes Modell im Omniscience Index. Hohe Informationsmenge, aber sehr hohe Halluzinationsneigung. Begrenzte Antwortkontrolle.


GLM-4 / GLM-3-Turbo (Zhipu AI, China)
Weit verbreitete Modellfamilie mit starkem Fokus auf Wissensreproduktion. Antwortkontrolle in internationalen Benchmarks variabel.


Grok 4 (xAI, USA)
Solide Accuracy, mittlere Halluzination. Besonders zuverlässig in naturwissenschaftlichen und medizinischen Domänen.


GPT-5.1 (high) (OpenAI, USA)
Hohe Accuracy und breite Wissensbasis, jedoch anfällig für Halluzinationen. Beispiel für Modelle mit großem Wissensvolumen und geringer Begrenzung im Zustand der Unsicherheit.


GPT-5.1.1 (OpenAI, USA)
Variante mit besonders starken Ergebnissen im Bereich Business. Moderate Zuverlässigkeit bei guter Wissensabdeckung.


Halluzination
Sachlich falsche oder frei erfundene Antwort, die mit vermeintlicher Sicherheit ausgegeben wird.


HuaWei PanGu-Sigma (Huawei, China)
Modellfamilie mit Fokus auf technische, naturwissenschaftliche und industrielle Anwendungen. Hohe Reproduktionstiefe; Zuverlässigkeit abhängig vom Fachgebiet.


iFlytek Spark 4.0 (iFlytek, China)
Stark im chinesischen Sprachraum. Variabel in internationalen Benchmarks; solide Wissensreproduktion.


InternLM 2.5 (SenseTime, China)
Großmodellreihe mit starker Reasoning-Kompetenz. Gute Leistung in Mathematik und Logik, jedoch schwankende Antwortkontrolle in offenen Wissensdomänen.


Kalibrierung
Fähigkeit eines Modells, seine Antwortsicherheit realistisch einzuschätzen und Unsicherheit offen auszuweisen.


Kimi / Kimi K2 Thinking (Moonshot AI, China)
Eines der leistungsfähigsten chinesischen Modelle. Hohe Wissensreproduktion und gute Argumentationsleistung, bei komplexer Unsicherheit jedoch anfälliger für Fehlantworten.


Konfidenzfehler / Confident Wrong
Fehlantwort, die mit hohem Selbstvertrauen erzeugt wird. Besonders riskant im betrieblichen Kontext.


Llama-3.1-405B (Meta, USA)
Großes Open-Source-Modell mit niedriger Halluzinationsneigung. Moderate Accuracy, aber hohe Antwortkontrolle.


Llama Nemotron Super 49B v1.5 (NVIDIA, USA)
Mittleres Modell mit stabiler Zuverlässigkeit und guter Relation zwischen Modellgröße und Antwortqualität.


Modellgröße
Umfang der trainierten Parameter. Korrelierte historisch mit Accuracy, jedoch nicht mit Halluzinationsneigung.


Nemotron Nano 9B V2 (NVIDIA, USA)
Kleines Modell mit niedriger Accuracy, aber hoher Zuverlässigkeit. Gibt wenige, dafür belastbare Antworten.


Omniscience Index
Kennzahl, die richtige und falsche Antworten gleich gewichtet. Misst Zuverlässigkeit, nicht Wissensmenge. Werte von –100 bis +100.


Qwen 2.5 / Qwen-Max (Alibaba, China)
Großmodellserie, die in chinesischen Benchmarks führend ist. Gute Wissensreproduktion; Zuverlässigkeit international variabel.


Raten / Guessing
Antwort ohne ausreichende Wissensgrundlage. Wird negativ bewertet, da Abstinenz möglich wäre.


Unsicherheitsmanagement
Verfahren, die sicherstellen, dass Modelle bei Unsicherheit keine riskanten Ausgaben erzeugen. Zentral für betriebliche KI-Governance.