Eine neue Studie hat erhebliche Schwächen in den Denkfähigkeiten von KI-Sprachmodellen aufgedeckt, insbesondere bei kleineren und kostengünstigeren Modellen. Diese Modelle haben Schwierigkeiten mit verketteten mathematischen Aufgaben auf Grundschulniveau.
Forscher des Mila Institute, von Google DeepMind und Microsoft Research untersuchten, wie gut verschiedene KI-Sprachmodelle miteinander verbundene Textaufgaben aus der Grundschulmathematik lösen konnten. Sie entwickelten einen Test namens "Compositional GSM", der zwei Aufgaben aus dem Datensatz GSM8K kombiniert, wobei die Antwort aus der ersten Aufgabe als Variable in der zweiten Aufgabe verwendet wird.
Die Ergebnisse zeigen, dass viele Modelle bei diesen komplexeren Denkaufgaben deutlich schlechter abschnitten als erwartet. Diese "Denklücke" ist besonders ausgeprägt bei kleineren, günstigeren Modellen und sogar bei solchen, die auf Mathematik spezialisiert sind.
"Unsere Ergebnisse zeigen eine signifikante Denklücke in den meisten LLMs, d. h. einen Leistungsunterschied zwischen dem Lösen der zusammengesetzten Paare und dem unabhängigen Lösen jeder Frage", erklären die Autoren unter der Leitung von Arian Hosseini vom Mila Institute.
Während kleinere Modelle bei Standard-Mathetests wie GSM8K oft ähnlich gut abschneiden wie größere, weisen sie beim neuen Compositional GSM-Test eine zwei- bis zwölfmal größere Logiklücke auf. So liegt beispielsweise GPT-4o mini beim neuen Test weit hinter GPT-4o zurück, obwohl es beim ursprünglichen Benchmark fast ebenbürtig war. Ähnliche Muster zeigten sich auch bei anderen Modellfamilien wie Gemini und LLAMA3.
Die Forscher vermuten, dass kleinere Modelle zwar oberflächliche Muster in gängigen Aufgaben erkennen, aber Schwierigkeiten haben, dieses Wissen in neuen Kontexten anzuwenden. Aktuelle Trainingsmethoden für diese Modelle konzentrieren sich möglicherweise zu sehr auf die Optimierung für Standard-Benchmarks auf Kosten der allgemeinen Denkfähigkeit.
Sogar spezialisierte Mathematikmodelle zeigten Schwächen. So erreicht Qwen2.5-Math-7B-IT zwar eine Genauigkeit von über 80 % bei schwierigen Aufgaben auf Highschool-Niveau, löst aber weniger als 60 % der verketteten Grundschulaufgaben korrekt.
Die Studie untersuchte auch die Auswirkungen des Instruction Tuning, einer Methode zur Verfeinerung von Sprachmodellen. Bei kleinen Modellen verbesserte dies die Leistung beim ursprünglichen GSM8K-Test deutlich, beim Compositional GSM jedoch nur geringfügig. Größere Modelle zeigten diese Diskrepanz nicht, was auf grundlegende Unterschiede in der Art und Weise hindeutet, wie kleinere Modelle lernen und verallgemeinern.
Die Studie ist nicht auf dem neuesten Stand, da das neue logikoptimierte o1-Modell von OpenAI nicht getestet wurde. Ein kürzlich durchgeführter Planungsbenchmark zeigte, dass o1 zwar viel besser planen kann, aber immer noch grobe Fehler macht.
Ein Mathematikprofessor zeigte kürzlich, dass o1 zwar in der Lage war, einen mathematischen Beweis zu vervollständigen, der mit anderen LLMs zuvor gescheitert war, ein Mensch die Aufgabe aber schneller und eleganter löste. Auch die Gemini-Modelle von Google sollen nach jüngsten Updates bei Mathematikaufgaben besser abschneiden.
Die Forscher betonen, dass die derzeitigen Bewertungsmethoden diese systematischen Unterschiede verdeckt haben, was zu einer möglichen Überschätzung der Fähigkeiten kleiner Modelle führt. Sie fordern eine Neubewertung der Entwicklungsstrategien für kostengünstige KI-Systeme und stellen die Frage, ob diese Modelle inhärente Grenzen beim komplexen Denken und Verallgemeinern haben. Dies könnte erhebliche Auswirkungen auf ihre praktischen Anwendungen haben.
Die Ergebnisse stellen auch die jüngsten Behauptungen über Effizienzsteigerungen bei KI in Frage. Während einige argumentieren, dass Sprachmodelle eher effizienter als leistungsfähiger geworden sind und dass die Skalierung dieser effizienten Modelle zu erheblichen Leistungsverbesserungen führen könnte, legt diese Studie etwas anderes nahe.
Die Autoren betonen, dass es nicht ihr Ziel war, einen weiteren Benchmark zu schaffen. Stattdessen betrachten sie ihre Arbeit als eine Fallstudie, die tiefere Einblicke in die Funktionsweise und die Grenzen aktueller KI-Systeme bietet. Durch die Verkettung von Aufgaben testen sie, ob Modelle erlerntes Wissen flexibel anwenden und kombinieren können - ein entscheidender Unterschied zwischen echtem Verstehen und oberflächlicher Mustererkennung.
Die Forscher hoffen, dass ihre Methodik auch auf andere Bereiche und Benchmarks angewendet werden kann, um ein umfassenderes Bild der KI-Fähigkeiten zu erhalten. Dieser Ansatz könnte versteckte Schwächen in KI-Systemen aufdecken, die bei einfacheren, isolierten Tests möglicherweise unbemerkt bleiben.
Die Studie ergänzt die vorhandenen Belege für logische Schwächen in Sprachmodellen. Frühere Untersuchungen haben gezeigt, dass LLMs mit grundlegenden logischen Schlussfolgerungen und einfachen Planungspuzzles zu kämpfen haben, obwohl sie bei gängigen Logik- und Mathematik-Benchmarks hohe Punktzahlen erzielen.