Die Künstliche Intelligenz (KI) erfährt einen stetigen Wandel, und jedes Jahr werden neue Durchbrüche erzielt, die die Grenzen des Möglichen verschieben. Eine der jüngsten Entwicklungen in diesem Bereich ist das Modell Mixtral 8x7B von Mistral AI, das auf der Leistungstafel von lmsysorg für Aufsehen sorgt.
Das Modell Mixtral 8x7B ist ein herausragendes Beispiel für ein Sparse Mixture-of-Experts-Modell (SMoE), das eine hohe Qualität und Geschwindigkeit bei Inferenzvorgängen verspricht. Es wird als das beste Modell mit offener Lizenz gefeiert, das in Sachen Kosten-Nutzen-Verhältnis führend ist. Als solches übertrifft es andere Modelle wie Llama 2 70B in den meisten Benchmarks und ist dabei sechsmal schneller bei der Inferenz. Darüber hinaus hält es mit GPT-3.5 auf den meisten Standardbenchmarks Schritt oder übertrifft dieses sogar.
Das Mixtral-Modell wurde speziell für eine Vielzahl von Anwendungen entwickelt und kann problemlos einen Kontext von 32.000 Token verarbeiten. Es unterstützt mehrere Sprachen, darunter Englisch, Französisch, Italienisch, Deutsch und Spanisch, und zeigt starke Leistungen beim Generieren von Code. Ein weiterer Vorteil von Mixtral ist die Möglichkeit, das Modell so zu verfeinern, dass es Anweisungen befolgen kann, was ihm auf dem MT-Bench eine Punktzahl von 8,3 einbrachte.
Im Kern handelt es sich bei Mixtral um ein Netzwerk, das aus mehreren Experten besteht. In diesem Dekodierer-Modell wählt der Feedforward-Block aus einer Gruppe von acht verschiedenen Parametergruppen aus. In jeder Schicht wird für jedes Token ein Router-Netzwerk eingesetzt, das zwei dieser Gruppen (die "Experten") auswählt, um das Token zu verarbeiten und deren Ausgaben additiv zu kombinieren. Diese Technik ermöglicht es, die Anzahl der Parameter eines Modells zu erhöhen, während Kosten und Latenzzeit kontrolliert werden, da das Modell nur einen Bruchteil des Gesamtsatzes der Parameter pro Token verwendet. Konkret hat Mixtral 46,7 Milliarden Gesamtparameter, verwendet aber nur 12,9 Milliarden Parameter pro Token, was bedeutet, dass es Eingaben verarbeitet und Ausgaben mit der gleichen Geschwindigkeit und zu den gleichen Kosten wie ein 12,9 Milliarden Modell generiert.
Die Trainingsdaten für Mixtral stammen aus dem offenen Web, wobei Experten und Router gleichzeitig trainiert werden. Beim Vergleich mit der Llama 2-Familie und dem Basis-GPT-3.5-Modell zeigt sich, dass Mixtral in den meisten Benchmarks gleichauf oder besser abschneidet. Besonders in Bezug auf Verzerrungen und Einseitigkeiten präsentiert sich Mixtral besser als Llama 2 und zeigt auf BOLD mehr positive Sentiments.
Mistral AI stellt auch eine angepasste Version von Mixtral, das Mixtral 8x7B Instruct, zur Verfügung. Dieses Modell wurde durch überwachte Feinabstimmung und direkte Präferenzoptimierung für eine sorgfältige Befolgung von Anweisungen optimiert. Mit einer Punktzahl von 8,30 auf dem MT-Bench gilt es als das beste Open-Source-Modell seiner Art.
Neben der herausragenden Leistung von Mixtral legt Mistral AI auch Wert darauf, der Entwicklergemeinschaft den Einsatz des Modells zu erleichtern. So wurden Änderungen am vLLM-Projekt eingereicht, das Megablocks CUDA-Kernels für eine effiziente Inferenz integriert. Außerdem ermöglicht Skypilot die Bereitstellung von vLLM-Endpunkten auf jeder Instanz in der Cloud.
Das Mixtral-Modell befindet sich derzeit im Beta-Test und ist hinter dem Endpunkt mistral-small im Einsatz. Interessierte Entwickler können sich registrieren, um frühzeitig Zugang zu allen generativen und Einbettungs-Endpunkten zu erhalten.
Abschließend sei darauf hingewiesen, dass Mistral AI für die technische Unterstützung bei der Modellentwicklung den Teams von CoreWeave und Scaleway dankt. Mit Mixtral 8x7B und seinen verschiedenen Varianten bietet Mistral AI der KI-Gemeinschaft ein leistungsstarkes Werkzeug, das neue Türen für Entwickler und Forscher öffnet und es ihnen ermöglicht, die KI-Frontlinie in ihre Hände zu nehmen.