KI für Ihr Unternehmen – Jetzt Demo buchen

Neuer Datensatz und Benchmark für mobile Steuerungsagenten in der KI-Forschung

Kategorien:
No items found.
Freigegeben:
November 11, 2025

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Forschende haben mit "DigiData" einen neuen, umfangreichen Datensatz für das Training mobiler Steuerungsagenten entwickelt.
    • Dieser Datensatz zeichnet sich durch hohe Qualität, Vielfalt und die Abbildung komplexer App-Funktionen aus, im Gegensatz zu zuvor verwendeten Datensätzen, die auf unstrukturierten Interaktionen basierten.
    • Zusätzlich wurde "DigiData-Bench" eingeführt, ein Benchmark zur Bewertung dieser Agenten in realitätsnahen Szenarien.
    • Die Studie zeigt, dass die herkömmliche "Schritt-Genauigkeit" als Metrik unzureichend ist, und schlägt dynamische sowie KI-gestützte Bewertungsverfahren vor.
    • Diese Entwicklungen zielen darauf ab, die Interaktion zwischen Mensch und digitalen Geräten durch fortschrittlichere KI-Agenten zu verbessern.

    Die Interaktion zwischen Mensch und digitalen Geräten befindet sich in einem kontinuierlichen Wandel, maßgeblich vorangetrieben durch die Fortschritte in der Künstlichen Intelligenz. Insbesondere die Entwicklung von KI-Agenten, die in der Lage sind, Benutzeroberflächen zu steuern, birgt ein erhebliches Potenzial zur Transformation dieser Interaktionen. Um dieses Potenzial voll auszuschöpfen, sind zwei fundamentale Säulen unerlässlich: erstens, qualitativ hochwertige Datensätze, die es Agenten ermöglichen, komplexe und für den Menschen relevante Aufgaben zu bewältigen, und zweitens, robuste Bewertungsmethoden, die Forschenden und Praktikern eine schnelle Leistungsverbesserung der Agenten erlauben.

    DigiData: Ein neuer Ansatz für mobile Steuerungsagenten

    In diesem Kontext wurde kürzlich "DigiData" vorgestellt, ein umfassender, hochqualitativer, vielfältiger und multimodaler Datensatz, der speziell für das Training mobiler Steuerungsagenten konzipiert wurde. Im Gegensatz zu bestehenden Datensätzen, deren Ziele oft aus unstrukturierten Interaktionen abgeleitet werden, wurde DigiData durch eine detaillierte und umfassende Erkundung von App-Funktionen erstellt. Dies führt zu einer erhöhten Diversität und Komplexität der Aufgabenstellungen, die die Agenten lernen sollen.

    Die Herausforderung bestehender Datensätze

    Bisherige Bemühungen im Bereich der mobilen Steuerungsagenten stützten sich häufig auf Datensätze, die aus der Beobachtung menschlicher Interaktionen mit digitalen Geräten gewonnen wurden. Während diese Ansätze eine Grundlage bieten, mangelt es ihnen oft an der systematischen Abdeckung der vollen Funktionsvielfalt von Anwendungen. Dies kann dazu führen, dass trainierte Agenten Schwierigkeiten haben, mit neuen oder komplexen Szenarien umzugehen, die über die ursprünglich beobachteten Interaktionen hinausgehen. DigiData versucht, diese Lücke zu schließen, indem es eine strukturiertere und zielgerichtete Datensammlung verfolgt, die ein breiteres Spektrum an App-Funktionalitäten abbildet.

    DigiData-Bench: Eine verbesserte Bewertungsgrundlage

    Ergänzend zu DigiData wurde "DigiData-Bench" präsentiert, ein Benchmark zur Bewertung mobiler Steuerungsagenten bei komplexen realen Aufgaben. Die Forschung hat gezeigt, dass die weit verbreitete Metrik der "Schritt-Genauigkeit" (step-accuracy) bei der zuverlässigen Bewertung von mobilen Steuerungsagenten Mängel aufweist. Diese Metrik misst, wie oft ein Agent in einem einzelnen Schritt die korrekte Aktion ausführt, berücksichtigt jedoch nicht ausreichend die gesamte Aufgabenstellung oder die Fähigkeit des Agenten, Fehler zu korrigieren und sich an dynamische Umgebungen anzupassen.

    Kritik an traditionellen Metriken

    Die Begrenzung der Schritt-Genauigkeit liegt darin, dass sie die Komplexität und den Kontext mobiler Interaktionen nicht vollständig erfasst. Ein Agent könnte beispielsweise in vielen einzelnen Schritten korrekt agieren, aber letztendlich das übergeordnete Ziel verfehlen, wenn er nicht in der Lage ist, eine kohärente Strategie zu verfolgen oder auf unerwartete Ereignisse zu reagieren. Dies unterstreicht die Notwendigkeit von umfassenderen Bewertungsansätzen, die die tatsächliche Leistungsfähigkeit eines Agenten in dynamischen und unvorhersehbaren Umgebungen widerspiegeln.

    Vorschläge für neue Bewertungsprotokolle

    Als Reaktion auf diese Limitationen schlägt die Studie dynamische Bewertungsprotokolle und KI-gestützte Evaluierungen als präzisere Alternativen zur Agentenbewertung vor. Dynamische Protokolle könnten beispielsweise die Fähigkeit eines Agenten beurteilen, auf unvorhergesehene Änderungen in der Benutzeroberfläche zu reagieren oder aus Fehlern zu lernen. KI-gestützte Evaluierungen könnten komplexe Verhaltensmuster analysieren und eine nuanciertere Einschätzung der Agentenleistung liefern, die über einfache Erfolgs- oder Misserfolgsraten hinausgeht.

    Die Rolle von Reinforcement Learning und autonomen Agenten

    Die Entwicklung von DigiData und DigiData-Bench ist eng mit den Fortschritten im Reinforcement Learning (RL) verbunden. RL-Methoden ermöglichen es Agenten, durch Versuch und Irrtum in einer Umgebung zu lernen, Belohnungen zu maximieren und somit zielgerichtetes Verhalten zu entwickeln. Dies ist besonders relevant für die Steuerung mobiler Geräte, da reale Umgebungen oft stochastisch und nicht-stationär sind, was bedeutet, dass sich die Bedingungen ständig ändern können.

    DigiRL: Ein autonomer RL-Ansatz

    Ein Beispiel für die Anwendung von RL in diesem Bereich ist "DigiRL", ein autonomer Reinforcement Learning-Ansatz, der darauf abzielt, Geräte-Steuerungsagenten zu trainieren. DigiRL durchläuft zwei Phasen: eine anfängliche Offline-RL-Phase zur Initialisierung des Agenten mit vorhandenen Daten und eine anschließende Offline-zu-Online-RL-Phase, in der der Agent durch Interaktion mit realen grafischen Benutzeroberflächen kontinuierlich seine Leistung verbessert. Dieser Ansatz hat gezeigt, dass er die Leistung bestehender Methoden, die auf reiner Prompt-Generierung oder überwachtem Lernen basieren, deutlich übertreffen kann.

    Herausforderungen in dynamischen Umgebungen

    Die Steuerung von Geräten in der realen Welt bringt spezifische Herausforderungen mit sich:

    • Nicht-Stationarität: Websites und Anwendungen werden ständig aktualisiert, was dazu führt, dass Online-Beobachtungen von veralteten Offline-Daten abweichen.
    • Unvorhersehbare Störungen: Pop-up-Werbung, Anmeldeanfragen oder die zufällige Reihenfolge von Suchergebnissen können die Agenten von ihrer Aufgabe ablenken.
    • Technische Probleme: Unvollständiges Laden von Webseiten oder temporäre Zugangsbeschränkungen zu bestimmten Seiten können die Ausführung von Aufgaben behindern.

    Diese Faktoren erfordern, dass Agenten nicht nur über ein hohes Maß an visueller und sprachlicher Intelligenz verfügen, sondern auch in der Lage sind, sich an dynamische und unvorhersehbare Situationen anzupassen und aus ihren Fehlern zu lernen.

    Ausblick und Implikationen für die Mensch-Computer-Interaktion

    Die vorgestellten Beiträge, DigiData und DigiData-Bench, repräsentieren einen bedeutenden Fortschritt in der Entwicklung von mobilen Steuerungsagenten. Sie legen den Grundstein für intuitivere und effektivere Mensch-Gerät-Interaktionen, indem sie die Trainings- und Bewertungsmethoden für KI-Agenten verbessern. Die Fähigkeit von KI-Systemen, komplexe Aufgaben auf mobilen Geräten autonom und zuverlässig auszuführen, könnte weitreichende Auswirkungen auf verschiedene Sektoren haben, von der persönlichen Assistenz über den Kundenservice bis hin zu spezialisierten Geschäftsanwendungen.

    Potenzielle Anwendungsbereiche

    Die Entwicklung solcher Agenten könnte beispielsweise zu einer effizienteren Automatisierung von Routineaufgaben auf Smartphones und Tablets führen. Dies könnte die Zugänglichkeit digitaler Dienste verbessern und Benutzern mit unterschiedlichen Fähigkeiten oder Bedürfnissen eine intuitivere Steuerung ihrer Geräte ermöglichen. Im B2B-Bereich könnten mobile Steuerungsagenten zur Automatisierung von Tests, zur Unterstützung bei komplexen Arbeitsabläufen oder zur Bereitstellung von Echtzeit-Support auf mobilen Plattformen eingesetzt werden.

    Zukünftige Forschungsrichtungen

    Obwohl die Fortschritte vielversprechend sind, bleiben Herausforderungen bestehen. Die weitere Forschung wird sich voraussichtlich auf die Verbesserung der Robustheit und Generalisierbarkeit dieser Agenten konzentrieren, um sicherzustellen, dass sie auch in unbekannten Umgebungen und bei unvorhergesehenen Aufgaben zuverlässig funktionieren. Die Entwicklung von Methoden zur kontinuierlichen Anpassung der Agenten an sich ändernde App-Designs und Benutzerbedürfnisse wird ebenfalls von zentraler Bedeutung sein. Die hier vorgestellten Arbeiten liefern eine solide Grundlage für diese zukünftigen Entwicklungen und unterstreichen die wachsende Bedeutung von hochwertigen Daten und präzisen Bewertungsmethoden in der KI-Forschung.

    Bibliography

    - Sun, Yuxuan, et al. "DigiData: Training and Evaluating General-Purpose Mobile Control Agents." arXiv preprint arXiv:2511.07413 (2025). - Bai, Hao, et al. "DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning." arXiv preprint arXiv:2406.11896 (2024). - Bai, Hao, et al. "Digi-Q: Learning Q-Value Functions for Training Device-Control Agents." arXiv preprint arXiv:2502.15760 (2025). - Lee, Juyong, et al. "Benchmarking Mobile Device Control Agents across Diverse Configurations." arXiv preprint arXiv:2404.16660 (2024). - Xu, Yifan, et al. "AndroidLab: Training and Systematic Benchmarking of Android Autonomous Agents." arXiv preprint arXiv:2410.24024 (2024).

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen