Google DataGemma Pionierarbeit bei der Verbesserung großer Sprachmodelle

Kategorien:

No items found.

Freigegeben:

September 18, 2024

Google DataGemma: Eine neue Ära der Sprachmodelle

Einführung und Hintergrund

Am 12. September 2024 hat Google eine bahnbrechende Innovation namens DataGemma vorgestellt, die darauf abzielt, die Genauigkeit und Zuverlässigkeit großer Sprachmodelle (LLMs) zu verbessern, indem diese Modelle in reale Daten eingebettet werden. Diese Entwicklung erfolgt als Reaktion auf das anhaltende Problem der "Halluzinationen" in LLMs, bei denen KI-Modelle sehr überzeugend falsche Informationen präsentieren.

Data Commons: Das Herzstück von DataGemma

DataGemma nutzt Google’s Data Commons, ein öffentlich zugängliches Wissensgraph, der mehr als 240 Milliarden globale Datenpunkte von verifizierten Quellen wie den Vereinten Nationen, der Weltgesundheitsorganisation und verschiedenen statistischen Ämtern enthält. Diese umfangreiche und vertrauenswürdige Datenbasis ermöglicht es DataGemma, LLMs mit Faktenwissen zu untermauern und ihre Genauigkeit erheblich zu verbessern.

Funktionsweise von DataGemma

RIG und RAG: Zwei Ansätze zur Verbesserung der Genauigkeit

Die Modelle von DataGemma unterscheiden sich hauptsächlich in zwei gut etablierten Ansätzen: Retrieval Interleaved Generation (RIG) und Retrieval Augmented Generation (RAG).

Retrieval Interleaved Generation (RIG)

RIG nutzt ein fein abgestimmtes Gemma-2-Modell, um Statistiken innerhalb der Antworten zu identifizieren und diese mit einem Abruf aus den Data Commons zu kombinieren. Dadurch kann das Modell seine Ausgaben gegen eine vertrauenswürdige Quelle überprüfen. Zum Beispiel würde das Modell anstelle von "Die Bevölkerung Kaliforniens beträgt 39 Millionen" ausgeben: "Die Bevölkerung Kaliforniens beträgt [DC(Was ist die Bevölkerung von Kalifornien?) → '39 Millionen']".

Retrieval Augmented Generation (RAG)

Beim RAG-Ansatz analysiert ein ebenfalls für diesen Anwendungsfall abgestimmtes Gemma-Modell zunächst die Benutzerfrage und wandelt sie in eine Form um, die die Data Commons verstehen können. Die Informationen aus dieser Abfrage werden verwendet, um die ursprüngliche Frage zu bereichern, bevor ein größeres Sprachmodell - wie das von Google vorgeschlagene Gemini 1.5 Pro - die endgültige Antwort generiert.

Vor- und Nachteile der Ansätze

Beide Ansätze haben ihre Stärken und Schwächen. Laut den Google-Forschern funktioniert RIG in allen Kontexten effektiv, erlaubt es dem LLM jedoch nicht, Daten aus den Data Commons zu lernen, die seit dem Feintuning hinzugefügt wurden. Zudem erfordert das Feintuning spezifische Datensätze, die auf die jeweilige Aufgabe zugeschnitten sind.

RAG hingegen profitiert automatisch von der laufenden Entwicklung neuer Modelle, kann jedoch je nach Benutzereingabe zu weniger intuitiven Benutzererfahrungen führen.

Verfügbarkeit und Zukunftsperspektiven

Google hat die Modelle zur Nutzung auf Plattformen wie Hugging Face und Kaggle (RIG, RAG) zur Verfügung gestellt, zusammen mit Quickstart-Notebooks für beide Ansätze. Die bisherigen Ergebnisse sind vielversprechend und zeigen deutliche Verbesserungen in der Genauigkeit der Sprachmodelle bei der Handhabung numerischer Fakten.

Die Forschung ist noch im Gange, und Google plant, diese Methoden weiter zu verfeinern, sie strengen Tests zu unterziehen und schließlich in die Gemma- und Gemini-Modelle zu integrieren. Diese verbesserte Funktionalität soll zunächst über einen gestaffelten, eingeschränkten Zugang bereitgestellt werden.

Breitere Implikationen für die Rolle der KI in der Gesellschaft

Die Veröffentlichung von DataGemma markiert einen bedeutenden Schritt in Richtung zuverlässigerer und faktenbasierterer Sprachmodelle. Da generative KI zunehmend in verschiedenen Sektoren integriert wird, von Bildung und Gesundheitswesen bis hin zu Regierungs- und Umweltpolitik, ist die Lösung des Halluzinationsproblems entscheidend, um sicherzustellen, dass KI die Benutzer mit genauen Informationen versorgt.

Googles Engagement, DataGemma als Open-Source-Modell anzubieten, spiegelt seine breitere Vision wider, Zusammenarbeit und Innovation in der KI-Community zu fördern. Durch die Bereitstellung dieser Technologie für Entwickler, Forscher und politische Entscheidungsträger hofft Google, die Akzeptanz datengestützter Techniken zu fördern und die Vertrauenswürdigkeit von KI zu erhöhen.

Fazit

Zusammenfassend lässt sich sagen, dass DataGemma einen innovativen Schritt darstellt, um Halluzinationen in der KI zu reduzieren, indem LLMs in die umfangreichen, autoritativen Datensätze von Google’s Data Commons eingebettet werden. Durch die Kombination der RIG- und RAG-Methoden hat Google ein robustes Werkzeug entwickelt, das die Genauigkeit und Zuverlässigkeit von KI-generierten Inhalten verbessert. Diese Veröffentlichung ist ein bedeutender Schritt, um sicherzustellen, dass KI ein vertrauenswürdiger Partner in Forschung, Entscheidungsfindung und Wissensentdeckung wird und gleichzeitig Einzelpersonen und Organisationen dabei hilft, informierte Entscheidungen auf der Grundlage realer Daten zu treffen.

Bibliographie

https://blog.google/technology/ai/google-datagemma-ai-llm/ https://venturebeat.com/ai/datagemma-googles-open-ai-models-mitigate-hallucination-on-statistical-queries/ https://www.marktechpost.com/2024/09/13/google-ai-introduces-datagemma-a-set-of-open-models-that-utilize-data-commons-through-retrieval-interleaved-generation-rig-and-retrieval-augmented-generation-rag/ https://medium.com/towards-artificial-intelligence/inside-datagemma-google-deepminds-initiative-to-ground-llms-in-factual-knowledge-958a70dc4b94 https://www.techmeme.com/240913/p18 https://www.onlinetools.directory/google-launches-datagemma-revolutionizes-ai-data-integration/ https://www.technologyreview.com/2024/09/12/1103926/googles-new-tool-lets-large-language-models-fact-check-their-responses/ https://x.com/GoogleDeepMind/status/1834554150643741135 https://arxiv.org/html/2401.01301v1 https://www.aibase.com/news/11737

Was bedeutet das?