Künstliche Intelligenz (KI) entwickelt sich kontinuierlich weiter und durchdringt immer mehr Bereiche unseres täglichen Lebens. Ein besonders spannendes Feld ist die Automatisierung von Prozessen, die bislang menschliches Handeln erforderten. Ein aktuelles Beispiel hierfür ist die Entwicklung von #LaVague, einer Open-Source-KI-Pipeline, die natürliche Sprache in Browseraktionen umwandeln kann.
Mit weniger als 150 Zeilen Code ist es #LaVague gelungen, die Programmiersprache Selenium zu generieren, um damit Anweisungen im Browser auszuführen. Diese Technologie ermöglicht es, Aktionen wie das Einloggen in Regierungsportale, das Ausfüllen von Formularen oder das Abrufen persönlicher Informationen zu automatisieren.
Daniel Huynh, der Entwickler hinter #LaVague, präsentierte kürzlich ein beeindruckendes Video, in dem gezeigt wird, wie die KI automatisch Code generiert, um sich mit einem Hugging Face-Konto anzumelden, zur Seite für soziale Beiträge zu navigieren und dort einen Beitrag zu verfassen. Dieses Beispiel illustriert das Potenzial von KI, nicht nur Aufgaben zu automatisieren, sondern auch die Automatisierung selbst zu automatisieren.
Für die Durchführung dieses Beispiels wurde eine Kombination aus verschiedenen Open-Source-Tools und -Modellen verwendet, darunter lokale Einbettungen von Hugging Face-Transformern für lokale Inferenz oder die Hugging Face Inference API sowie RAG (Retrieval-Augmented Generation) in Verbindung mit dem Llama-Index und dem Mixtral-Modell von MistralAI.
Eine Herausforderung bestand darin, die KI auf Google Colab für Nutzer ohne eigene GPU zugänglich zu machen. Ursprünglich wurde dafür auf die Hugging Face Inference API mit dem Mixtral-Modell zurückgegriffen, da andere Modelle, wie das gemma-7b, nicht in der Lage waren, den erforderlichen Code zu produzieren. Nach einigen Experimenten gelang es jedoch, eine lokale Version des Zephyr-7b-Gemma-Modells zum Laufen zu bringen, sodass das Tool vollständig lokal genutzt werden kann.
Huynh betont, dass für die erfolgreiche Codierung eine off-the-shelf-Modellierung mit wenigen Schüssen und Ketten von Gedanken (Chain Of Thought) erforderlich war, um passenden Code zu generieren. Er hofft, dass dieses Projekt den Beginn einer neuen Ära markiert, in der transparente, private und lokal betriebene KI-Assistenten dabei helfen, alltägliche, aber kritische Aufgaben zu automatisieren.
Die KI-Community von Hugging Face bietet eine Plattform, auf der Modelle, Datensätze und Anwendungen gemeinsam entwickelt und genutzt werden können. Die Community arbeitet an Modellen für verschiedene Modalitäten wie Text, Bild, Video, Audio und sogar 3D, um die Erstellung, Entdeckung und Zusammenarbeit im Bereich des maschinellen Lernens zu verbessern.
In diesem Zusammenhang entwickelt Hugging Face auch eine AI WebTV, eine experimentelle Demonstration zur Vorführung der neuesten Fortschritte in der automatischen Synthese von Videos und Musik. Diese WebTV arbeitet mit einer Architektur, die Videoaufnahmen und Musiksequenzen mit Hilfe von Open-Source-Text-zu-Video-Modellen generiert und diese Inhalte auf unterhaltsame und zugängliche Weise präsentiert.
Zusammenfassend zeigt das Beispiel von #LaVague das wachsende Potenzial von KI, komplexe Aufgaben zu automatisieren und die Grenzen dessen zu erweitern, was maschinelles Lernen zu leisten vermag. Ob für persönliche Zwecke oder im professionellen Umfeld, die Möglichkeiten der KI-Entwicklung scheinen nahezu unbegrenzt, und es ist klar, dass wir uns erst am Anfang einer tiefgreifenden Transformation befinden.
Quellen:
1. Twitter-Beitrag von Daniel Huynh: https://twitter.com/dhuynh95/status/1767916435265970187
2. Hugging Face Blog-Beitrag über AI WebTV: https://huggingface.co/blog/ai-webtv
3. Hugging Face Posts von Daniel Huynh: https://huggingface.co/posts/dhuynh95/717319217106504
4. GitHub-Seite von LaVague: https://github.com/lavague-ai/LaVague
5. Hugging Face Community-Diskussionsforum: https://discord.com/invite/SDxn9KpqX9