fbpx

Claude 3.5 Sonnet (new) steuert jetzt PC’s &
3.5 Haiku ist besser als Opus 3

24/10/2024
Schulte_Markus_300x300px

Markus Schulte

AI Solution Development, Autor

Inhaltsverzeichnis
Teilen
AI Newsletter

Anthropic veröffentlicht Claude 3.5 Sonnet (new) und Computer Use. Claude kann jetzt einen Computer und Software steuern, indem er den Cursor bewegt, Texte schreibt und Buttons klickt. Beim Schreiben von Code stieg die Leistung durch das Update um 15 %.

Außerdem wurde Claude 3.5 Haiku vorgestellt, das Ende des Monats erscheinen soll und bei gleichgebliebenen Token-Kosten besser als Opus 3 ist.

Claude 3.5 Sonnet (new)

Werfen wir einen Blick auf die Benchmarks von Claude 3.5 Sonnet (API: claude-3-5-sonnet-20241022): Im Vergleich zu GPT-4o und Google’s Gemini 1.5 Pro zeigt das neue Claude 3.5 Sonnet in allen Bereichen gesteigerte Leistungen.

Das Modell kostet 3 $ pro Million Eingabe-Tokens und 15 $ pro Million Ausgabe-Tokens, mit einem Kontextfenster von 200.000 Tokens.

Hinweis: Für Entwickler bietet Anthropic eine “-latest” Alias-Version an (API: claude-3-5-sonnet-latest). Sie ist automatisch der aktuellste Snapshot des Modells. Die Version sollte nur für Tests und Entwicklungen verwendet werden. Für Live-Anwendungen, bei denen eine gleichbleibende Qualität wichtig ist, empfehlen sich die spezifischen Modellversionen.

Leistung Claude 3.5 Sonnet new - Leistungstabelle und Vergleich mit GPT-4o und Gemini 1.5
Leistung Claude 3.5 Sonnet new – Leistungstabelle und Vergleich mit GPT-4o und Gemini 1.5

Graduate Level Reasoning

Bei Graduate level reasoning übertrifft es die Konkurrenz mit 65 %, was11.4 %% mehr sind als GPT-4o. Claude 3.5 Sonnet (new) hat bei Aufgaben auf Hochschulniveau eine stärkere Leistung im logischen Denken und bei Problemlösungen. Im Vergleich zur vorherigen Version ist Claude um 5,6 % besser.

MMLU Pro (Undergraduate Level Knowledge)

Im Bereich der Allgemeinbildung erreicht das neue Sonnet mit 78 % fast 3 % mehr gegenüber früheren Benchmarks. Es übertrifft Googles Gemini 1.5 Pro um 2,2 %. Beim MMLU-Pro Benchmark wird Wissen auf Universitätsniveau in verschiedenen Fachbereichen getestet.

Coding (HumanEval)

Mit 93,7 % gehört es hier nach den hausinternen Tests von Anthropic zum besten Modell fürs Programmieren. Es überbietet GPT-4o mit 3,5 % über GPT-4o. Die Aufgaben basieren auf typischen Programmierproblemen, wie sie in Coding-Interviews oder Programmierwettbewerben vorkommen.

Math Problem-Solving

In dieser Kategorie erfordert es oft mehrere kombinierte Lösungsschritte, um mathematische Probleme zu lösen. Hier erzielt Gemini 1.5 Pro mit 86,5 % das beste Ergebnis, während Claude 3.5 Sonnet (neu) mit 78,3 % nicht führend abschneidet. Wenn es um präzise, formale Mathematik auf Universitätsniveau geht, scheint Google hier die Nase vorn zu haben.

High School Math Competitions (AIME 2024)

Beim AIME-Benchmark zeigt Claude 3.5 eine fast Verdopplung seiner Leistung. Die Wettbewerbsaufgaben beim AIME Test sind oft weniger formell und erfordern öfter kreativere Ansätze.

Visual Q/A

In der Kategorie Visual Q/A (MMMU) erreicht Claude 3.5 Sonnet (new) mit 70,4 % das beste Ergebnis, leicht über GPT-4o mit 69,1 %. Diese Verbesserung ist relevant für Computer Vision-Anwendungen, bei denen Claude visuelle Informationen analysieren kann.

Agentic Coding (SWE-bench Verified)

Die signifikantesten Gewinne liegen im Bereich Agentic Coding. Im SWE-bench Verified Test erreicht es 49 %, was das beste Ergebnis in dieser Kategorie darstellt. Komplexe Softwareentwicklungsaufgaben von Softwareingenieure können dieses Modell in autonomen Programmierprozessen perfekt einsetzen.

PC-Steuerung mit Claude: ‘Computer Use’

Mit Computer Use für Claude betritt Anthropic Neuland. Statt Tools für einzelne Aufgaben bereitzustellen, bringt man Claude das generelle Steuern eines Computers bei. Es kann jetzt Programme und Softwareoberflächen bedienen, so wie wir Menschen sie täglich nutzen.

Mit einer neuen API interagiert Claude direkt mit Computeroberflächen, um Anweisungen in konkrete Computerbefehle zu übersetzen. Claude versteht und erledigt Computer-Tasks wie: “Nutze Daten von meinem Computer und aus dem Internet, um dieses Formular auszufüllen.

Dabei besucht es Websites, recherchiert oder liest Excel-Tabellen auf dem Rechner.

Um seine nächsten Schritte zu planen, erstellt Claude Screenshots von der aktuell am Monitor angezeigten Umgebung und interpretiert sie. Danach wird berechnet, wo etwa geklickt, ein Feld ausgefüllt und Text geschrieben oder ein Programm zu starten ist.

In Tests von OSWorld erreichte das neue Claude 3.5 Sonnet 14,9 % in der „screenshot-only“-Kategorie. Das nächstbeste System erreichte nur 7,8 %.

In einer erweiterbaren, echten Computerumgebung können multimodale Agents Aufgaben am PC ausführen, die eine Vielzahl von Anwendungen und Betriebssystemen umfassen. Die Performance von Systemen wie Claude 3.5 Sonnet kann hier auf verschiedenen Betriebssystemen und in diversen Softwareanwendungen getestet werden.

Computersteuerung von Claude in Aktion

Anthropic hat auf YouTube mehrere Modell-Demonstrationen veröffentlicht, wo Claude 3.5 Sonnet (new) seine agentischen Fähigkeiten einsetzt:

  • Automatisierung von Abläufen: In einem Beispiel füllt Claude ein Vendor Request Form aus, indem es Daten aus verschiedenen Quellen auf dem Computer sammelt. Es durchsucht Tabellen, CRM-Systeme und überträgt die Informationen autonom in das Formular.
  • Coding-Aufgaben: In einer weiteren Demo erstellt Claude eine 90er-Jahre-Website, behebt Fehler im Code und startet einen lokalen Server, alles durch direkte Interaktion mit dem Computer.
  • Alltägliche Aufgaben: Claude plant einen Sonnenaufgangs-Ausflug, sucht nach dem besten Ort, berechnet die Entfernung, überprüft die Sonnenaufgangszeit und erstellt einen Kalendereintrag – alles autonom.

Wie sicher ist die Computersteuerung von Claude im Beta-Status?

Anthropic macht keinen Hehl daraus, dass Computer Use sich noch im Early-Beta-Status befindet. Es können Fehler passieren und es besteht das Risiko, dass Claude unerwartete Aktionen macht.

Anthropic rät zu folgenden Sicherheitsmaßnahmen:

  • Nutzung in einer isolierten virtuellen Maschine oder Container.
  • Keine Weitergabe sensibler Daten oder Login-Informationen.
  • Einschränkung des Internetzugangs auf vertrauenswürdige Domains.
  • Menschliche Überprüfung bei kritischen Entscheidungen.
Computer use von Anthropic in virtueller Umgebung testen - Warnhinweise zur Nutzung und Hinweis auf Beta-Phase
Computer use von Anthropic in virtueller Umgebung testen – Warnhinweise zur Nutzung und Hinweis auf Beta-Phase

Claude 3.5 Haiku: Einführung des zweiten Modells der 3.5-Serie von Anthropic

Neben dem verbesserten Sonnet-Modell stellt Anthropic auch Claude 3.5 Haiku vor. Dieses Modell ersetzt das vorherige 3.0 Haiku und bleibt weiterhin das schnellste und kostengünstigste Modell. Im Vergleich zu Claude 3 Haiku bringt es große Verbesserungen bei allen Fähigkeiten mit sich. Es ist leistungsstärker als das größte Modell Claude 3 Opus.

Benchmark zum Leistungsvergleich des Large Language Models Claude 3-5 Haiku
Benchmark zum Leistungsvergleich des Large Language Models Claude 3-5 Haiku

Typische Anwendungsfälle sind Code-Vervollständigungen, bei denen Entwickler unterstützt werden können, sowie interaktive Chatbots, die schnell reagieren und flüssige Gespräche führen müssen.

Da es immer noch das günstigste Modell ist, wird es ebenso optimal für Datenextraktion und automatisierte Datenkennzeichnung oder zur Echtzeit-Content-Moderation eingesetzt werden können. Überall dort, wo Unternehmen entweder schnell oder große Mengen unstrukturierter Daten günstig verarbeiten wollen.

Typische Anwendungsbereiche von Claude 3.5 Haiku sind Code-Vervollständigungen, die Entwickler effizient unterstützen, sowie interaktive Chatbots, die schnelle und flüssige Dialoge ermöglichen.

Dank des niedrigen Token-Preises ist es bestens für Datenextraktion, automatisierte Datenkennzeichnung und Echtzeit-Content-Moderation geeignet. Also überall dort, wo Unternehmen oder Anwender große Mengen an unstrukturierten Daten schnell und günstig verarbeiten wollen.

Wann ist Claude 3.5 Haiku verfügbar?

Das Modell wird Ende des Monats Oktober über die API, Amazon Bedrock und Google Cloud’s Vertex AI verfügbar sein. Die Preise beginnen bei 0,25 $ pro Million Eingabe-Tokens und 1,25 $ pro Million Ausgabe-Tokens, mit erheblichen Einsparmöglichkeiten durch Prompt-Caching (bis zu 90 %) und die Message Batches API (bis zu 50 %).

ChatGPT
für Handwerker

Hol dir jetzt kostenlos die besten ChatGPT Prompts für Handwerker. Du wirst damit bei Preisverhandlungen siegen können und Gegenargumente entkräften. Viele Prompts und ein breites Spektrum an Themen um deinen Arbeitsalltag zu erleichtern. Lade dir jetzt diese einmalige Prompt-Bibliothek speziell für Handwerksbetriebe herunter.

Du hast eine Frage?

Webinar Release KI im Handwerk