Am 16. April 2026 hat Anthropic Claude Opus 4.7 veröffentlicht. Die offizielle Kommunikation klingt wie erwartet: bessere Software-Engineering-Leistung, verbessertes Instruction-Following, stärkere Vision-Kapazitäten. Was dabei etwas kleiner gedruckt steht, aber für mich das eigentlich interessante Thema ist: ein neuer Tokenizer, der denselben Inhalt auf 1,0 bis 1,35× mehr Tokens mappt als vorher. Preis unverändert, 5 Dollar pro Million Input-Tokens, 25 Dollar pro Million Output-Tokens. Auf den ersten Blick klingt das nach einer technischen Randnotiz. Ich glaube, es ist mehr als das.
Was Opus 4.7 tatsächlich mitbringt
Fangen wir mit dem an, was sich verbessert hat, konkret und ohne die üblichen Superlative. Laut Anthropics offiziellem Announcement sind die Verbesserungen in mehreren Bereichen real und messbar.
Software Engineering: Opus 4.7 schneidet bei komplexen, lang laufenden Tasks deutlich besser ab als der Vorgänger, insbesondere wenn mehrere Schritte nötig sind und das Modell seine eigenen Outputs zwischendurch prüfen muss. Das ist kein Benchmark-Trick, sondern eine Stärke, die in agentischen Workflows spürbar wird, wo ein Modell nicht nur generiert, sondern auch verifiziert.
Instruction Following: Das Modell befolgt Anweisungen strenger als 4.6. Bei sauber formulierten Prompts ist das ein echter Gewinn. Was das für bestehende Prompts bedeutet, die auf das etwas weichere Verhalten älterer Modelle abgestimmt sind, kommt weiter unten.
Vision: Das Modell verarbeitet Bilder bis zu 2.576 Pixel auf der langen Seite, mehr als dreimal so viel wie beim Vorgänger. Das ist relevant für Screenshots mit viel Text, technische Diagramme, chemische Strukturformeln oder hochauflösende Dokumente, bei denen das alte Limit echte Einschränkungen war.
Long-Context Reasoning: Bei sehr langen Sessions soll das Reasoning stabiler bleiben und die Memory-Nutzung besser werden. Ob das in der Praxis hält, was Anthropic ankündigt, müssen eigene Tests zeigen — aber es ist ein Bereich, in dem 4.6 deutlich Luft nach oben hatte.
Neu sind außerdem der „xhigh“ Effort-Level für feinere Steuerung zwischen Reasoning-Tiefe und Latenz, Task Budgets als Public Beta für Token-Budgetierung pro Task, und für alle, die Claude Code nutzen: eine neue /ultrareview-Funktion. Auf dem Finance-Agent-Benchmark erreicht Opus 4.7 laut Anthropic State-of-the-Art — relevant für alle, die das Modell in analytisch schweren Kontexten einsetzen.
Was dabei weniger auffällig kommuniziert wird: Prompts, die mit älteren Modellen kalibriert wurden, müssen eventuell angepasst werden. Das striktere Instruction-Following ist eine Verbesserung, wenn die Prompts sauber sind. Wenn nicht, kann es zu unerwartetem Verhalten führen.
Das Token-Problem: gleicher Preis, mehr Verbrauch
Wer den $20-Plan nutzt, kennt das: Opus verbraucht pro Anfrage deutlich mehr als Sonnet und drückt schneller ans Limit. Opus 4.7 macht das nicht besser.
Der neue Tokenizer mappt denselben Inhalt auf mehr Tokens. Das bedeutet: Schickt man denselben Text an Opus 4.7 und Opus 4.6, verbraucht Opus 4.7 im schlechtesten Fall 35% mehr Input-Tokens, bei gleichem Preis pro Token. Dazu kommt der „xhigh“ Effort-Level, der die Output-Tokens weiter nach oben treibt, wenn man komplexeres Reasoning braucht. Der Preis pro Token ist gleich geblieben, der Tokenverbrauch pro Aufgabe nicht.
Wer das in einer Automation mit vielen Durchläufen einsetzt oder große Kontexte regelmäßig lädt, wird das auf seiner Rechnung sehen, auch wenn die Pro-Subscriber das über ihr Abo etwas abfedern. Auf der API-Seite, wo man direkt nach Tokens bezahlt, ist das sofort spürbar.
Die Token Trap: ein schleichendes Abhängigkeitsrisiko
Was mich an diesem Release mehr beschäftigt als der konkrete Kostenunterschied, ist das, was ich die Token Trap nenne: ein strukturelles Risiko für alle, die jetzt anfangen, Workflows mit Opus 4.7 aufzubauen.
Die Logik ist folgende: Ein leistungsstärkeres Modell verbraucht mehr Tokens. Wer es nutzt, gewöhnt sich an die bessere Qualität und baut Workflows, die auf dieser Qualität basieren. Mit der Zeit entsteht eine Abhängigkeit, aus der man kaum noch herauskommt. Wenn Anthropic dann den Preis erhöht oder das Modell durch ein noch stärkeres ersetzt, das noch mehr verbraucht, hat man keine gute Exit-Option mehr.
Das ist kein hypothetisches Szenario, sondern passiert gerade mit Modellen der Vorgänger-Generation: Wer Workflows mit GPT-4 gebaut hat, der weiß, wie schwer es ist, die auf billigere Modelle zurückzuportieren, ohne Qualitätsverluste in Kauf zu nehmen. Der Unterschied bei Opus 4.7 ist, dass der Tokenizer-Wechsel die Abhängigkeit stärker macht, ohne dass man es sofort merkt.
Das Gegenmittel ist bewusstes Context- und Token-Management von Anfang an. Nicht jede Anfrage braucht Opus. Nicht jeder Task braucht den vollen Kontext. Nicht jede Aufgabe braucht „xhigh“. In der Praxis lädt man dann doch alles in den Kontext, weil das Modell die meisten Fragen trotzdem beantwortet. Wer das vermeiden will, findet konkrete Ansätze im Artikel zu Context Engineering und im Glossar zu Context Engineering.
Wer außerdem verstehen will, was Token überhaupt sind und wie sie funktionieren, findet eine gute Grundlage im Glossar zu Token und LLMs.
Was Reddit-User berichten — und warum das trotzdem relevant ist
Kurz nach dem Release tauchte auf Reddit ein Thread auf, der den Titel trägt: „claude opus 4.7 is a serious regression, not an upgrade“. Nutzer berichten dort von schlechterer Performance beim kreativen Schreiben und bei Coding-Aufgaben, die auf Stil und Nuancen angewiesen sind. Das lässt sich von außen schwer einordnen — aber dass solche Berichte direkt nach dem Release entstehen, hat System.
Das ist ein Muster, das sich bei Modell-Updates wiederholt. Die offizielle Kommunikation betont, was besser wird. Was sich verschiebt oder schlechter wird, kommt selten explizit vor. Wenn ein Modell Instruktionen strenger befolgt, kann das in einem Kontext eine Verbesserung sein und in einem anderen zu unerwartetem Verhalten führen, je nachdem, wie die Prompts aufgebaut sind.
Ich empfehle, eigene Tests zu machen, bevor man Opus 4.7 produktiv einsetzt. Wer feingranulare Prompts mit vielen Instruktionen hat, sollte konkret testen, ob das strengere Instruction-Following die Ergebnisse besser oder nur anders macht. Das gilt auch für alle, die Claude Cowork oder Claude Code intensiv mit eigenen Skills und Prompts nutzen.
Was das für den praktischen Einsatz bedeutet
Auf Basis der offiziellen Dokumentation und der Erfahrung mit dem Vorgänger lassen sich ein paar klare Empfehlungen ableiten:
- Die Task Budgets in der Beta sind einen genauen Blick wert. Ein Werkzeug, das den Tokenverbrauch pro Task begrenzt, ist genau das Gegenmittel zur Token Trap, wenn es gut implementiert ist.
- Bestehende Prompts sollte man nicht einfach übernehmen, sondern auf das veränderte Instruction-Following testen, besonders wenn man mit detaillierten System-Prompts arbeitet.
- Wer die API nutzt und direkt nach Tokens bezahlt, sollte den Mehrverbrauch durch den neuen Tokenizer in seine Kostenplanung einrechnen, bevor er Opus 4.7 produktiv einsetzt.
- Für Vision-intensive Workflows ist das verbesserte Bildverständnis ein echter Vorteil, der den Mehrverbrauch unter Umständen rechtfertigt.
Wer mehr über den Unterschied zwischen Sonnet und Opus wissen will, dem empfehle ich meinen Vergleich der beiden Modelle. Dort steht auch, wann Sonnet ausreicht — mit dem neuen Tokenizer eine Rechnung, die sich öfter zugunsten von Sonnet verschieben kann.
Anthropic liefert mit Opus 4.7 ein stärkeres Modell. Wer Context- und Token-Management von Anfang an mitdenkt, wird die Verbesserungen nutzen können, ohne später in eine Kostenfalle zu laufen.



