Das KI-Unternehmen Anthropic hat ein großes Update seiner Sprachmodelle angekündigt. Neben Verbesserungen der bestehenden Modelle Claude 3.5 Sonnet und Claude 3.5 Haiku führt Anthropic eine bahnbrechende neue Funktion ein: "Computer Use".
Der aktualisierte Claude 3.5 Sonnet zeigt laut Anthropic umfassende Verbesserungen in verschiedenen Benchmarks, insbesondere bei Aufgaben im Bereich der Softwareentwicklung und der Verwendung von Tools. So verbessert er seine Leistung beim Programmiertest SWE-bench Verified von 33,4 % auf 49,0 % und übertrifft damit alle öffentlich zugänglichen Modelle – einschließlich spezialisierter Systeme für die Programmierung mit künstlicher Intelligenz. Auch bei TAU-bench, einem Test für die Verwendung von Tools, erzielt Claude 3.5 Sonnet deutliche Verbesserungen.
Erste Rückmeldungen von Kunden deuten darauf hin, dass der aktualisierte Claude 3.5 Sonnet einen bedeutenden Fortschritt für die KI-gestützte Programmierung darstellt. GitLab, das das Modell für DevSecOps-Aufgaben getestet hat, stellte fest, dass es eine bessere Argumentationsfähigkeit (bis zu 10 % in allen Anwendungsfällen) ohne zusätzliche Latenzzeiten bietet. Cognition, das den neuen Claude 3.5 Sonnet für autonome KI-Evaluierungen einsetzt, verzeichnete im Vergleich zur Vorgängerversion deutliche Verbesserungen bei der Programmierung, Planung und Problemlösung. The Browser Company, die das Modell zur Automatisierung webbasierter Arbeitsabläufe einsetzt, stellte fest, dass Claude 3.5 Sonnet alle bisher getesteten Modelle übertraf.
Claude 3.5 Haiku ist die nächste Generation des schnellsten Modells von Anthropic. Bei gleichen Kosten und ähnlicher Geschwindigkeit wie Claude 3 Haiku verbessert sich Claude 3.5 Haiku in allen Bereichen und übertrifft sogar Claude 3 Opus, das größte Modell der Vorgängergeneration, in vielen Intelligenzbenchmarks. Claude 3.5 Haiku ist besonders stark bei Programmieraufgaben. So erreicht das Modell beispielsweise beim SWE-bench Verified-Test einen Wert von 40,6 % und übertrifft damit viele andere State-of-the-Art-Modelle.
Mit seiner geringen Latenzzeit, der verbesserten Ausführung von Anweisungen und der präziseren Verwendung von Tools eignet sich Claude 3.5 Haiku gut für Produkte mit Kundenkontakt, spezielle Aufgaben von Sub-Agenten und die Generierung personalisierter Erlebnisse aus großen Datenmengen – wie z. B. Kaufhistorie, Preisgestaltung oder Lagerbestandsaufzeichnungen.
Mit "Computer Use" beschreitet Anthropic völlig neue Wege. Anstatt spezifische Tools zu entwickeln, die Claude bei der Erledigung einzelner Aufgaben helfen, bringt Anthropic dem Modell allgemeine Computerkenntnisse bei. So kann Claude eine Vielzahl von Standardtools und Softwareprogrammen verwenden, die eigentlich für Menschen entwickelt wurden. Entwickler können diese neue Funktion nutzen, um sich wiederholende Prozesse zu automatisieren, Software zu erstellen und zu testen sowie offene Aufgaben wie Recherchen durchzuführen.
Um diese allgemeinen Fähigkeiten zu ermöglichen, hat Anthropic eine API entwickelt, mit der Claude Computeroberflächen wahrnehmen und mit ihnen interagieren kann. Entwickler können diese API integrieren, damit Claude Anweisungen (z. B. "Verwende Daten von meinem Computer und aus dem Internet, um dieses Formular auszufüllen") in Computerbefehle übersetzen kann (z. B. eine Tabellenkalkulation überprüfen, den Cursor bewegen, um einen Webbrowser zu öffnen, zu den relevanten Webseiten navigieren, ein Formular mit den Daten von diesen Seiten ausfüllen usw.).
Auf OSWorld, einem Benchmark für die Bewertung der Fähigkeit von KI-Modellen, Computer wie Menschen zu bedienen, erreichte Claude 3.5 Sonnet in der Kategorie "Nur Screenshots" einen Wert von 14,9 % – deutlich besser als der Wert von 7,8 %, den das nächstbeste KI-System erzielte. Mit mehr Schritten zur Erledigung der Aufgabe erreichte Claude 22,0 %.
Obwohl Anthropic davon ausgeht, dass sich diese Fähigkeit in den kommenden Monaten rasant verbessern wird, ist Claudes derzeitige Fähigkeit, Computer zu benutzen, noch nicht perfekt. Einige Aktionen, die Menschen mühelos ausführen – Scrollen, Ziehen, Zoomen – stellen Claude derzeit noch vor Herausforderungen. Daher empfiehlt Anthropic Entwicklern, zunächst mit risikoarmen Aufgaben zu beginnen. Da "Computer Use" neue Möglichkeiten für bekannte Bedrohungen wie Spam, Fehlinformationen oder Betrug bieten könnte, verfolgt Anthropic einen proaktiven Ansatz, um einen sicheren Einsatz zu gewährleisten. Es wurden neue Klassifizierer entwickelt, die erkennen können, wann "Computer Use" eingesetzt wird und ob ein Schaden entsteht.
Die neuen Modelle und Funktionen von Anthropic sind ein weiterer Schritt in Richtung leistungsstarker und vielseitiger KI-Systeme. Mit "Computer Use" eröffnet Anthropic Entwicklern völlig neue Möglichkeiten, KI in ihre Anwendungen zu integrieren und Aufgaben zu automatisieren, die bisher menschliche Interaktion erforderten. Es bleibt abzuwarten, wie sich diese Technologie in Zukunft entwickeln und welche weiteren Innovationen sie hervorbringen wird.
https://www.anthropic.com/news/3-5-models-and-computer-use https://aws.amazon.com/blogs/aws/upgraded-claude-3-5-sonnet-from-anthropic-available-now-computer-use-public-beta-and-claude-3-5-haiku-coming-soon-in-amazon-bedrock/ https://www.theverge.com/2024/10/22/24276822/anthropic-claude-3-5-sonnet-computer-use-ai https://www.reddit.com/r/LocalLLaMA/comments/1g9krp2/introducing_computer_use_a_new_claude_35_sonnet/ https://www.youtube.com/watch?v=nP8MT5kVMwM https://cloud.google.com/blog/products/ai-machine-learning/upgraded-claude-3-5-sonnet-with-computer-use-on-vertex-ai https://decrypt.co/287767/anthropic-unleashes-claude-3-5-sonnet-smart-enough-take-over-computer https://www.anthropic.com/news/developing-computer-use https://medium.com/@sousabrothers/the-exact-title-of-the-news-is-nullclaude-3-5-sonnet-and-computer-use-61a6549b50ea https://aws.amazon.com/about-aws/whats-new/2024/10/anthropics-claude-35-sonnet-model-computer-amazon-bedrock/