Das Navigieren und Ausführen von Aufgaben in unbekannten Umgebungen stellt für Roboter eine große Herausforderung dar. Normalerweise müssen Forscher:innen für jede neue Umgebung neue Daten sammeln und die Roboter darauf trainieren. Dieser Prozess ist oft zeitaufwendig und teuer. Ein Forscherteam hat jedoch einen innovativen Ansatz entwickelt, der es Robotern ermöglicht, grundlegende Aufgaben in neuen Umgebungen ohne zusätzliches Training zu meistern.
Die Forscher:innen haben insgesamt fünf KI-Modelle entwickelt, die unter der Bezeichnung RUM (Robot Utility Models) zusammengefasst werden. Diese Modelle helfen Robotern, Aufgaben wie das Öffnen von Türen und Schubladen, das Aufheben von Taschentüchern, Taschen und zylindrischen Gegenständen in unbekannten Umgebungen mit einer Erfolgsquote von 90 Prozent zu bewältigen. Diese Technologie könnte es ermöglichen, Roboter kostengünstiger und effizienter in Haushalten einzusetzen.
Um Robotern neue Fähigkeiten beizubringen, sind normalerweise viele Daten erforderlich, die schwer zu beschaffen sind. Die Trainingsdaten für Roboter müssen physisch gesammelt werden, was Zeit und Kosten verursacht. Im Gegensatz dazu können große Sprachmodelle wie GPT-4o mit Informationen aus dem Internet trainiert werden.
Um die Datenerfassung zu beschleunigen, entwickelten die Forscher eine neue Version eines Tools aus früheren Forschungsarbeiten: ein iPhone, das an einem simplen Greifarm befestigt ist. Diese Konstruktion wurde an einem Roboterarm angebracht und in etwa 1.000 Demonstrationen in 40 verschiedenen Umgebungen, darunter Wohnungen in New York City und Jersey City, eingesetzt. Dabei wurden Aufnahmen erstellt, die für das Training der Lernalgorithmen genutzt wurden.
Der Roboter Stretch der Firma Hello Robot nutzte diese Modelle. Stretch besteht aus einer Einheit auf Rädern, einer hohen Stange mit Kamera und einem einziehbaren Arm mit dem iPhone. Das iPhone diente als Kontrolle, um zu überprüfen, wie erfolgreich der Roboter die Aufgaben in neuen Umgebungen ohne zusätzliche Anpassungen ausführen konnte. Mit der Hilfe von GPT-4o konnte die Erfolgsquote von 74,4 Prozent auf 90 Prozent gesteigert werden, indem Bilder vom iPhone und der am Kopf des Roboters montierten Kamera an GPT-4o übermittelt wurden, das dann bewertete, ob die Aufgabe erfolgreich abgeschlossen wurde.
Das Projekt könnte als allgemeines Rezept für den Bau nützlicher Robotermodelle für andere Aufgaben dienen. Es könnte dazu beitragen, Robotern mit minimalem Mehraufwand neue Fähigkeiten beizubringen und es Menschen, die keine ausgebildeten Robotiker sind, zu erleichtern, zukünftige Roboter in ihren Häusern einzusetzen. Forscher:innen träumen davon, dass man etwas trainiert, ins Internet stellt und andere es herunterladen und auf einem Roboter in ihrem Haus ausführen können.
Die Entwicklung von RUM-Modellen und die Integration von GPT-4o haben das Potenzial, die Nutzung von Robotern in Haushalten zu revolutionieren. Durch die Fähigkeit, in unbekannten Umgebungen Aufgaben zu bewältigen, können Roboter kostengünstiger und effizienter eingesetzt werden. Dies könnte den Weg für eine breitere Anwendung von Robotern im Alltag ebnen.