Open-Source-Modelle prägen die Landschaft der künstlichen Intelligenz (KI) und werden immer mehr zu einem Eckpfeiler moderner Softwareentwicklung und Datenanalyse. Eine kürzlich durchgeführte Analyse von HuggingFace-Daten zu den Top 300 Open-Source-Modellen zeigt einige interessante Entwicklungen und Trends innerhalb des Ökosystems auf, die sowohl für KI-Enthusiasten als auch für die breitere Tech-Gemeinschaft von Bedeutung sind.
Zunächst ist festzustellen, dass Open-Source-Modelle vornehmlich durch Open-Source-Lizenzen geregelt werden, wobei die Apache- und MIT-Lizenzen mit 76% Anteil an den Top-Modellen dominieren. Innerhalb der Download-Statistiken wird diese Dominanz noch deutlicher: Modelle mit Apache- oder MIT-Lizenzen repräsentieren 92% der heruntergeladenen Modelle des letzten Monats.
Bezüglich der Ersteller von Open-Source-Modellen führen Unternehmen wie Stability, Facebook und Microsoft die Liste an. Aber auch Einzelpersonen, wie der Ingenieur TheBloke, der sich auf das Quantisieren, also das Komprimieren von Open-Source-Modellen spezialisiert hat, sind unter den Top-Erstellern zu finden.
Eine genauere Betrachtung der Download-Daten offenbart jedoch ein anderes Bild. So verzeichneten die Modelle von Meta, dem Mutterkonzern von Facebook, 30% aller Downloads, angetrieben durch ihr word2vec-Modell zur Spracherkennung. OpenAI und Google folgen dicht dahinter.
Die beliebtesten Modelle nach Download-Zahlen sind solche für das Training anderer Modelle, sogenannte Fill-Mask-Modelle, gefolgt von der Spracherkennung und der Textklassifikation. Textgenerierungsmodelle landen auf dem fünften Platz.
Interessanterweise zeigt sich, dass die Beliebtheit eines Modells, gemessen an den Likes auf HuggingFace, nicht mit der Anzahl der Downloads korreliert – ein R^2 von 0,06 belegt die fehlende Verbindung zwischen den beiden Metriken.
Ein weiteres Schlüsselelement ist die Anwendung von Open-Source-Modellen im Endnutzerbereich. Hier zeigt sich, dass Spracherkennungsanwendungen im letzten Monat die meisten Downloads verzeichneten, noch vor Anwendungen für das Testen, was angesichts der vielen Unternehmen, die große Sprachmodelle (LLMs) bauen oder testen, durchaus sinnvoll erscheint.
Die Innovationsgeschwindigkeit im KI-Bereich lässt vermuten, dass sich diese Daten innerhalb weniger Monate stark verändern könnten. Eine offene Frage, die sich daraus ergibt, ist, welche Akteure bis Ende 2024 die Ranglisten anführen werden.
Zusammenfassend kann festgestellt werden, dass Modelle mit weniger restriktiven Lizenzen die Spitzenpositionen einnehmen und dass große Akteure wie Meta, Google, Microsoft, Stability und OpenAI wichtige Rollen im Open-Source-Ökosystem spielen. Der Bereich der Spracherkennung stellt die am häufigsten nachgefragte Anwendung von Open-Source-Modellen dar und ist ein Indikator für die Prioritäten vieler Unternehmen im Bereich der künstlichen Intelligenz.
Die Analyse und die daraus resultierenden Erkenntnisse sind nicht nur für Entwickler und Unternehmen im KI-Sektor von Bedeutung, sondern auch für Investoren, Forscher und Politikgestalter, die die Entwicklung und Verbreitung von KI-Technologien und Open-Source-Software verstehen und beeinflussen wollen.
Die Open-Source-Bewegung hat sich als ein mächtiger Katalysator für Innovation und Zusammenarbeit etabliert. Mit der zunehmenden Verbreitung und Relevanz von KI-Technologien wird ihre Rolle als Treiber des technologischen Fortschritts und der demokratischen Zugänglichkeit von KI-Tools nur noch weiter zunehmen.