Künstliche Intelligenz (KI) hat in den letzten Jahren enorme Fortschritte gemacht, insbesondere im Bereich der Sprachverarbeitung. Große Sprachmodelle (LLMs) wie ChatGPT sind in der Lage, menschenähnliche Texte zu generieren und komplexe Aufgaben zu bewältigen. Ein Bereich, in dem LLMs jedoch noch immer vor Herausforderungen stehen, ist die logische Argumentation. Während Menschen in der Lage sind, komplexe Argumentationsketten zu verstehen und zu produzieren, tun sich LLMs damit oft schwer.
Forscher der Johns Hopkins University haben nun ein neues KI-Modell namens RATIONALYST entwickelt, das die Argumentationsfähigkeit von LLMs durch implizite Rationales verbessern soll. Implizite Rationales sind die unausgesprochenen logischen Verbindungen, die menschlichen Argumentationen zugrunde liegen. Sie sind oft nicht explizit formuliert, aber dennoch für das Verständnis der Argumentation unerlässlich.
RATIONALYST wurde darauf trainiert, diese impliziten Rationales aus unbeschrifteten Textdaten zu extrahieren und zu nutzen, um die Argumentationsprozesse anderer LLMs zu überwachen und zu verbessern. Das Modell arbeitet in drei Schritten:
Zuerst extrahiert RATIONALYST implizite Rationales aus großen Textmengen. Dafür wurden unter anderem 79.000 Rationales aus dem Web-Scale-Datensatz "The Pile" extrahiert. Zusätzlich wurden 14.000 Rationales aus den Trainingsdaten der Argumentationsdatensätze GSM8K und ECQA verwendet.
Im zweiten Schritt wird RATIONALYST darauf trainiert, die extrahierten Rationales vorherzusagen. Das Modell lernt also, welche Rationales in einem bestimmten Kontext sinnvoll sind.
Im dritten Schritt, der Inferenzphase, überwacht RATIONALYST die schrittweisen Problemlösungen anderer LLMs. Für jeden Schritt generiert RATIONALYST implizite Rationales und nutzt diese, um die wahrscheinlichsten nächsten Schritte auszuwählen.
Die Forscher haben RATIONALYST in verschiedenen Argumentationsaufgaben getestet, darunter mathematische, logische und wissenschaftliche Aufgaben. Die Ergebnisse waren beeindruckend: RATIONALYST verbesserte die Genauigkeit der Argumentation im Durchschnitt um 3,9 Prozent auf sieben repräsentativen Benchmarks.
Besonders hervorzuheben ist, dass RATIONALYST in den Tests sogar größere Verifizierungsmodelle wie GPT-4 übertraf. Die Forscher führen dies auf den datenzentrischen Ansatz von RATIONALYST zurück, der es dem Modell ermöglicht, die Überwachung von Argumentationsprozessen über verschiedene Aufgaben hinweg zu verallgemeinern, ohne dass menschliche Annotationen erforderlich sind.
Neben der verbesserten Argumentationsfähigkeit bietet RATIONALYST auch eine verbesserte Interpretierbarkeit von LLM-generierten Argumentationen. Da das Modell menschenverständliche Rationales generiert, kann es dazu beitragen, die Argumentationsprozesse von LLMs transparenter und nachvollziehbarer zu machen.
Die Forscher sehen in RATIONALYST einen vielversprechenden Ansatz, um die Interpretierbarkeit und Leistungsfähigkeit von LLMs in Argumentationsaufgaben zu verbessern. Zukünftige Forschung könnte sich darauf konzentrieren, RATIONALYST mit stärkeren Modellen und größeren Datensätzen zu skalieren. Darüber hinaus könnten die impliziten Rationales von RATIONALYST genutzt werden, um die Argumentationsfähigkeit von LLMs in spezifischen Anwendungsbereichen wie der Medizin oder der Rechtsprechung zu verbessern.
RATIONALYST ist ein vielversprechender Ansatz, um die Argumentationsfähigkeit von KI-Systemen zu verbessern. Durch die Nutzung impliziter Rationales kann das Modell die Argumentationsprozesse anderer LLMs überwachen und verbessern. Die beeindruckenden Ergebnisse in verschiedenen Argumentationsaufgaben und die verbesserte Interpretierbarkeit machen RATIONALYST zu einem wichtigen Schritt auf dem Weg zu robusteren und zuverlässigeren KI-Systemen.