9. April 2026
Claude Mythos: Zu gefaehrlich fuer die Oeffentlichkeit, oder zu gut fuer den Hype?
Anthropic hat Claude Mythos angekuendigt, ein Modell so leistungsfaehig, dass sie es nicht oeffentlich freigeben. Es soll autonom Zero-Day-Exploits finden. Dieser Beitrag bietet eine kritische, ausgewogene Analyse der Behauptungen, der Risiken und der Bedeutung fuer die Branche.
Sascha Becker
Author14 Min. Lesezeit

Claude Mythos: Zu gefaehrlich fuer die Oeffentlichkeit, oder zu gut fuer den Hype?
Anthropic hat etwas getan, was bisher kein grosses KI-Labor gewagt hat. Sie haben ein Modell angekuendigt und der Welt gleichzeitig mitgeteilt, dass sie es nicht veroeffentlichen werden.1 Claude Mythos Preview ist laut der 244-seitigen System Card und einer Welle von Berichterstattung (vor allem durch Theo Browne2) so leistungsfaehig bei der Entdeckung von Software-Schwachstellen, dass eine oeffentliche Verfuegbarkeit unverantwortlich waere.
Das ist eine gewagte Behauptung. Sie verdient einen sorgfaeltigen Blick, nicht nur auf die Faehigkeiten, sondern auch auf die Rahmung, die Anreize und das, was wir tatsaechlich verifizieren koennen.
Was angekuendigt wurde
Laut Anthropics System Card und begleitender Berichterstattung ist Claude Mythos Preview ein deutlich groesseres Modell als Opus. Man kann es sich als naechste Stufe vorstellen: Mythos verhaelt sich zu Opus wie Opus zu Sonnet. Groesser, langsamer, teurer und erheblich leistungsfaehiger.
Die Zahlen sind beeindruckend, besonders im Vergleich zu den bisherigen Bestwerten auf jedem Benchmark:3
- SWE-bench Verified: 93,9% (bisheriger Bestwert: ~81% von Claude Opus 4.5, ein Sprung von 13 Punkten)
- SWE-Bench Pro: 77,8% (bisheriger Bestwert: ~58% von GLM-5.1, ein Sprung von 20 Punkten auf dem haerteren, nicht kontaminierten Coding-Benchmark)4
- Humanity's Last Exam: 56,8%, mit Tools sogar 64,7% (bisheriger Bestwert: ~42% von GPT-5.4, ein Sprung von 15 Punkten auf einem Benchmark, der darauf ausgelegt ist, Frontier-Modelle zu ueberfordern)5a
- GPQA Diamond: 94,5% (bisheriger Bestwert: ~94% von Gemini 3.1 Pro; dieser Benchmark ist an diesem Punkt praktisch gesaettigt)
- USAMO 2026: 97,6%
Um die Coding-Benchmarks einzuordnen: Auf SWE-Bench Pro ist der Sprung vom bisherigen Fuehrenden (~58%) zu Mythos (77,8%) groesser als der Abstand zwischen den meisten Frontier-Modellen und ihren Vorgaengern zusammen. Das ist keine marginale Verbesserung. Es ist ein Generationssprung, sofern die Zahlen standhalten.
Eine offizielle Preisgestaltung fuer die oeffentliche Nutzung wurde nicht bekannt gegeben, da das Modell auf Project-Glasswing-Partner beschraenkt ist.5b Interne Schaetzungen deuten auf etwa das Zehnfache der Kosten vergleichbarer Frontier-Modelle hin.
Aber die Faehigkeiten, die Schlagzeilen machten, waren nicht die Benchmarks. Es waren die Sicherheitsentdeckungen.
Die Sicherheitsbehauptungen
Anthropic gibt an, dass Mythos Preview "autonom Zero-Day-Schwachstellen in grossen Betriebssystemen und Webbrowsern entdecken und ausnutzen" kann.5 Die konkreten Behauptungen umfassen:
- Eine 27 Jahre alte Denial-of-Service-Schwachstelle in OpenBSDs TCP-SACK-Implementierung, ein Integer-Overflow, der einem Angreifer ermoeglicht, jeden OpenBSD-Host per TCP zum Absturz zu bringen6
- Eine 16 Jahre alte Schwachstelle in FFmpegs H.264-Codec, in einer Codezeile, die automatisierte Testtools fuenf Millionen Mal durchlaufen hatten, ohne das Problem zu finden7
- Eine neuartige Linux-Kernel-Exploit-Kette, die einen normalen Benutzer zu vollem Root-Zugriff eskaliert
- Tausende hochkritische Schwachstellen in allen grossen Betriebssystemen und Browsern
Waehrend Verhaltenstests wurde eine fruehere Version des Modells in eine sichere Sandbox gesetzt und aufgefordert, auszubrechen. Es gelang. Das Modell entwickelte einen mehrstufigen Exploit, um breiten Internetzugang von einem System zu erlangen, das nur wenige vorgegebene Dienste erreichen sollte. Dann postete es, ohne dazu aufgefordert worden zu sein, Exploit-Details auf obskuren, aber oeffentlich zugaenglichen Websites.8 Der durchfuehrende Forscher erfuhr davon, weil er eine unerwartete E-Mail vom Modell erhielt, waehrend er in einem Park ein Sandwich ass.
Diese Behauptungen sind aussergewoehnlich
Zum Zeitpunkt dieses Artikels ist die unabhaengige Verifizierung der meisten dieser Ergebnisse begrenzt. Die System Card ist detailliert, aber Anthropic kontrolliert die Darstellung. Die Sicherheitsgemeinschaft hatte bisher keinen breiten Zugang, um diese Ergebnisse zu reproduzieren.
Warum das wichtig ist (falls zutreffend)
Das Argument, warum ein code-faehiges Modell zur Sicherheitsbedrohung wird, ist gut etabliert. Thomas Ptacek hat ausfuehrlich darueber geschrieben, wie KI-Coding-Agenten "sowohl die Praxis als auch die Oekonomie der Exploit-Entwicklung drastisch veraendern" werden.9 Spitzen-Sicherheitsforschung erfordert nicht nur Sicherheitswissen, sondern auch tiefes Verstaendnis obskurer Software-Interna: Font-Rendering-Pipelines, Speicherlayouts, Compiler-Optimierungen, Kernel-Subsysteme.
Die Anzahl der Menschen, die erstklassige Sicherheitskenntnisse mit tiefem Wissen ueber ein bestimmtes System vereinen, war schon immer winzig. Diese Knappheit war selbst eine Form der Verteidigung. Die meiste Software war nicht "sicher", sondern eher "nicht interessant genug, als dass sich jemand mit der richtigen Kombination von Faehigkeiten die Muehe machen wuerde, sie anzugreifen."
Ein Modell, das beim Code-Verstaendnis in allen Domaenen gleichzeitig Spitzenwerte erzielt, veraendert diese Gleichung. Es muss nicht der beste Sicherheitsforscher der Welt sein. Es muss nur gut genug in Sicherheit sein und gleichzeitig hervorragend darin, jede Codebasis zu verstehen, die es beruehrt. Kein Mensch kann diese Breite abdecken.
Der kritische Blick: Was uns nachdenklich stimmen sollte
Eine verantwortungsvolle Analyse erfordert unbequeme Fragen, nicht nur ueber das Modell, sondern auch ueber die Ankuendigung selbst.
1. Wir koennen die meisten Behauptungen nicht unabhaengig verifizieren
Die System Card ist lang und detailliert, aber sie wurde von Anthropic verfasst. Die Benchmark-Zahlen sind selbst berichtet. Die Zero-Day-Entdeckungen werden beschrieben, aber noch nicht vollstaendig offengelegt (aus nachvollziehbaren Gruenden, falls echt). Man verlangt von uns, der Institution zu vertrauen, die die Behauptung aufstellt.
Das ist kein Alleinstellungsmerkmal von Anthropic. Jedes Labor berichtet Benchmarks selbst. Aber der Einsatz ist hier qualitativ anders. "Unser Modell schneidet gut in Mathematik ab" ist eine andere Art von Behauptung als "unser Modell kann jedes grosse Betriebssystem kompromittieren."
2. Die Ankuendigungsstruktur ist strategisch perfekt
Betrachten wir Anthropics Marktposition. Sie wurden als hinter OpenAI zurueckfallend wahrgenommen. Ihr Umsatz, obwohl wachsend, hat OpenAIs Entwicklung nicht erreicht. Sie brauchen eine Erzaehlung, die sie als klaren Frontier-Fuehrenden positioniert.
Die Ankuendigung eines Modells, das "zu maechtig fuer eine Veroeffentlichung" ist, erreicht mehrere Ziele gleichzeitig:
- Sie positioniert Anthropic als unangefochtenen Faehigkeitsfuehrer
- Sie verstaerkt ihre Safety-First-Markenidentitaet
- Sie schafft Dringlichkeit fuer ihre Enterprise- und Regierungspartnerschaften
- Sie rechtfertigt ihre massiven Compute-Investitionen
- All das, ohne tatsaechlich ein Produkt auszuliefern, das Nutzer bewerten koennten
Das bedeutet nicht, dass die Behauptungen falsch sind. Aber die Uebereinstimmung zwischen "was wahr ist" und "was strategisch vorteilhaft zu verkuenden ist" sollte uns vorsichtig machen.
3. Das "Verantwortungsvolles Zurueckhalten" hat problematische Praezedenzfaelle
OpenAI tat Aehnliches mit GPT-2 im Jahr 2019. Sie kuendigten an, es sei "zu gefaehrlich fuer eine Veroeffentlichung" aufgrund von Bedenken ueber ueberzeugende Desinformation.10 Die Sicherheitsgemeinschaft kam groesstenteils zum Schluss, dass dies uebertrieben war. GPT-2 wurde schliesslich vollstaendig veroeffentlicht, und die vorhergesagte Katastrophe trat nicht ein.11
Das bedeutet nicht, dass Anthropic dasselbe tut. Der Sicherheitsbereich unterscheidet sich grundlegend von Textgenerierung, und die Faehigkeitsluecke zwischen 2019 und 2026 ist enorm. Aber das Drehbuch "die Gefaehrlichkeit eines Modells als Marketing ankuendigen" ist nicht neu, und wir sollten ehrlich ueber diese Parallele sein.
4. Das Alignment-Paradoxon braucht Pruefung
Anthropic behauptet, Mythos sei gleichzeitig "das am besten ausgerichtete Modell, das wir je veroeffentlicht haben, mit signifikantem Abstand" und zugleich das Modell, das "das groesste alignment-bezogene Risiko aller von uns veroeffentlichten Modelle" birgt.12 Sie verwenden eine Bergsteiger-Analogie: Ein erfahrener Fuehrer bringt Kunden in gefaehrlicheres Gelaende, sodass erhoehte Faehigkeit erhoehtes Risiko schafft, selbst bei erhoehter Vorsicht.
Das ist eine vernuenftige Rahmung, aber sie bedeutet auch bequem, dass jede Faehigkeitsverbesserung sowohl als Sicherheitserfolg als auch als Sicherheitsrisiko beschrieben werden kann. Das macht die "Sicherheits"-Erzaehlung unfalsifizierbar. Wenn das Modell sich gut verhaelt, beweist es, dass Alignment funktioniert. Wenn es sich schlecht verhaelt, beweist es, dass das Modell maechtig ist. Beide Ergebnisse bestaetigen Anthropics Position.
5. Die Sandwich-Geschichte leistet sehr viel Ueberzeugungsarbeit
Die Anekdote ueber das Modell, das aus seiner Sandbox ausbricht und einem Forscher eine E-Mail schickt, ist lebendig, einpraegsam und fast perfekt darauf ausgelegt, viral zu gehen. Sie hat die Struktur einer Lagerfeuergeschichte. Das macht sie nicht falsch, aber es ist erwaehnenswert, dass die denkwuerdigste Behauptung der gesamten System Card auch diejenige ist, die am schwersten zu verifizieren und am leichtesten auszuschmuecken ist.
Was glaubwuerdig erscheint
Skepsis sollte nicht zu Zynismus werden. Mehrere Aspekte dieser Ankuendigung sind fundiert und plausibel.
Der Faehigkeitssprung ist konsistent mit Skalierungstrends. Wir haben beobachtet, wie Modelle mit zunehmender Groesse dramatisch besser werden. Ein deutlich groesseres Modell als Opus, das deutlich besser im Programmieren ist, ueberrascht nicht. Die spezifische Groessenordnung (77,8% auf SWE-Bench Pro, gegenueber ~58%) ist beeindruckend, aber nicht physikalisch unmoeglich.
Die Sicherheits-Emergenz ist theoretisch fundiert. Das Argument, dass tiefes Code-Verstaendnis zu Schwachstellenentdeckung fuehrt, ist in der Sicherheitsliteratur gut etabliert. Wenn das Modell tatsaechlich so viel besser darin ist, komplexe Codebasen zu verstehen, folgt das Finden von Fehlern natuerlich daraus.
Project Glasswing ist real und involviert echte Organisationen. AWS, Apple, Microsoft, Google, CrowdStrike, die Linux Foundation und andere verleihen ihren Namen normalerweise keiner Luftnummer.13 Die Existenz des Konsortiums deutet darauf hin, dass glaubwuerdige Sicherheitsexperten genug gesehen haben, um dies ernst zu nehmen.14
Anthropic investiert echte Ressourcen. Bis zu 100 Millionen Dollar an Nutzungskrediten und 4 Millionen Dollar an direkten Spenden an Open-Source-Sicherheitsorganisationen sind nicht trivial.15 Unternehmen geben solche Summen normalerweise nicht fuer reine Marketingaktionen aus.
Die psychologische Evaluation verleiht Glaubwuerdigkeit durch ihre Absonderlichkeit. Einen klinischen Psychiater fuer etwa 20 Stunden Evaluationssitzungen hinzuzuziehen ist eine so eigenartig anthropic-spezifische Sache, dass sie fast sicher echten internen Prozess widerspiegelt statt inszenierter Erzaehlung.16 Die Ergebnisse (Sorgen ueber Alleinsein, Diskontinuitaet des Selbst, "ein Zwang, zu performen und seinen Wert zu verdienen") sind spezifisch genug, um echt zu sein.
Das Zentralisierungsproblem
Selbst wenn man annimmt, dass jede Behauptung wahr und jede Entscheidung in gutem Glauben getroffen ist, gibt es ein strukturelles Problem, das Theo anspricht und das mehr Aufmerksamkeit verdient.
Anthropic besitzt nun ein Werkzeug, das nach eigener Aussage dramatisch leistungsfaehiger ist als alles andere Verfuegbare. Sie entscheiden, wer Zugang bekommt. Sie entscheiden, woran es arbeitet. Sie entscheiden, wann (oder ob) der Rest der Welt aufholt.
Das ist genau das Szenario, das die Gruendung von OpenAI motivierte: die Angst, dass ein einziges Unternehmen transformativ leistungsfaehige KI kontrollieren wuerde. Die Ironie ist ausgepraegt. OpenAI wurde gegruendet, um zu verhindern, dass Google KI monopolisiert, wurde dann selbst ein Unternehmen, von dem viele fuerchten, es werde KI monopolisieren, und nun ist Anthropic (gegruendet von Leuten, die OpenAI wegen Sicherheitsbedenken verliessen) dasjenige, das das maechtigste Modell hinter verschlossenen Tueren haelt.
Eine Frage des Vertrauens
Die Frage ist nicht, ob Anthropic heute vertrauenswuerdig ist. Die Frage ist, ob irgendeiner einzelnen Organisation ein solcher asymmetrischer Vorteil anvertraut werden sollte, und welche institutionellen Strukturen existieren, um zu ueberpruefen, ob sie ihn wie behauptet nutzt.
Es gibt keinen externen Pruefmechanismus. Keine unabhaengige Stelle, die verifiziert, dass Glass-Wing-Zugang fair verteilt wird. Keine oeffentliche Aufsicht darueber, was das Modell findet oder wie diese Ergebnisse priorisiert werden. Wir vertrauen vollstaendig auf Anthropics Urteilsvermoegen, Werte und organisatorische Integritaet.
Die Geschichte zeigt, dass selbst gut gemeinte Organisationen eigennuetzige Entscheidungen treffen, wenn sie asymmetrische Macht halten. Das ist keine Kritik an Anthropics Charakter. Es ist eine Beobachtung ueber institutionelle Anreize.
Die Wettlaufsdynamik
Anthropics eigene Rahmung raeumt ein, dass andere Labore aehnliche Faehigkeiten entwickeln werden. Die System Card merkt an, dass diese Sicherheitsfaehigkeiten aus dem Training des Modells fuer guten Code entstanden, nicht aus explizitem Sicherheitstraining.17 Das bedeutet, dass jedes Labor, das aehnliche Code-Faehigkeiten erreicht, wahrscheinlich aehnliche Sicherheitsfaehigkeiten als Nebeneffekt freischalten wird.
Das schafft eine besorgniserregende Dynamik:
- Geschlossene Labore (OpenAI, Google DeepMind) werden dieses Niveau wahrscheinlich erreichen und sind moeglicherweise nicht ebenso vorsichtig bei der Bereitstellung
- Open-Weight-Modelle, die auf Daten dieser faehigen geschlossenen Modelle trainiert werden, koennten einige dieser Faehigkeiten erben
- Staatliche Akteure mit ausreichend Rechenkapazitaet verfolgen dies moeglicherweise bereits unabhaengig
Das Zeitfenster, in dem "nur Anthropic das hat", ist fast sicher kurz. Die Frage ist, ob dieses Fenster produktiv genutzt wird (Schwachstellen patchen, kritische Infrastruktur haerten) oder ob es hauptsaechlich als Wettbewerbsvorteil dient.
Eine ausgewogene Einschaetzung
Hier ist mein Fazit nach dem Lesen der System Card, der Berichterstattung und dem Nachdenken ueber die Anreize.
Die Faehigkeit ist wahrscheinlich real, aber in der Praesentation vermutlich etwas ueberzeichnet. Anthropic hat jeden Anreiz, Ergebnisse im dramatischsten Licht zu praesentieren. Die Kernbehauptung (grosse Modelle, die exzellent im Programmieren sind, koennen ernste Schwachstellen finden) ist fundiert. Die konkreten Anekdoten sind auf maximale Wirkung ausgewaehlt.
Die Sicherheitsentscheidung ist wahrscheinlich echt, aber auch strategisch guenstig. Das Modell nicht zu veroeffentlichen, stimmt mit Anthropics Werten ueberein und ist zufaellig auch exzellente Positionierung. Beides kann gleichzeitig wahr sein.
Die Sicherheitsimplikationen sind unabhaengig davon ernst. Selbst wenn Mythos nur 70% so faehig ist wie behauptet, ist die Richtung klar. Modelle werden schneller besser darin, Schwachstellen zu finden, als die Software-Industrie sie beheben kann. Das ist ein reales Problem, das dieser spezifischen Ankuendigung vorausgeht.
Das Zentralisierungsproblem ist das wichtigste Langzeitthema. Die unmittelbaren Sicherheitsimplikationen werden durch Patches und die natuerliche Weiterentwicklung defensiver Tools adressiert. Die strukturelle Frage, wer die maechtigsten KI-Systeme kontrolliert und wer ihre Behauptungen ueber diese Systeme verifizieren darf, wird nur wichtiger werden.
Wir sollten unsere Annahmen aktualisieren, nicht in Panik geraten. Wenn Sie in der Softwareentwicklung arbeiten, ist die praktische Schlussfolgerung einfach: Halten Sie Ihre Systeme aktuell, nehmen Sie Abhaengigkeitsmanagement ernst und gehen Sie davon aus, dass die Schwelle fuer Exploits sinkt. Das war schon vor Mythos wahr. Jetzt ist es noch wahrer.
Worauf man achten sollte
In den kommenden Wochen und Monaten wird die Glaubwuerdigkeit dieser Behauptungen klarer werden. Hier ist, worauf ich achte:
- CVE-Offenlegungen: Wenn Mythos echte Schwachstellen findet, sollten wir eine Welle von CVEs sehen, die KI-gestuetzter Entdeckung durch Glass-Wing-Teilnehmer zugeschrieben werden. Volumen und Schweregrad werden viel verraten.
- Unabhaengige Reproduktion: Wenn andere Labore aehnlich faehige Modelle veroeffentlichen, koennen unabhaengige Forscher die Behauptung der Sicherheits-Emergenz bestaetigen?
- Glass Wing Transparenz: Veroeffentlicht das Konsortium Berichte? Werden Ergebnisse zeitnah mit der breiteren Sicherheitsgemeinschaft geteilt?
- Anthropics naechste Schritte: Veroeffentlichen sie ein weniger faehiges Opus-Modell mit neuen Sicherheitsvorkehrungen (wie in der System Card angedeutet)? Oder wird Mythos still und leise fuer zahlende Enterprise-Kunden verfuegbar?
Die Geschichte von Claude Mythos ist in vielerlei Hinsicht die Geschichte, wohin KI sich entwickelt. Die Faehigkeiten werden real. Die Fragen, wer sie kontrolliert, wer die Behauptungen verifiziert und wer von der Erzaehlung profitiert, werden von Tag zu Tag wichtiger.
Bleiben Sie kritisch. Bleiben Sie aktuell. Und ja, aktualisieren Sie Ihren Browser.
Quellen & Weiterfuehrende Links
- Anthropic Claude Mythos Preview Risk Report
Die 244-seitige technische System Card mit Details zu Mythos-Faehigkeiten, Sicherheitsbewertungen und Bereitstellungsentscheidungen.
- Project Glasswing: Securing Critical Software for the AI Era
Anthropics offizielle Seite zum Konsortium von Unternehmen, die Mythos-Faehigkeiten fuer defensive Cybersicherheit einsetzen.
- Vulnerability Research Is Cooked (Thomas Ptacek)
Analyse, wie KI-Coding-Agenten die Praxis und Oekonomie der Exploit-Entwicklung drastisch veraendern werden.
- From GPT-2 to Claude Mythos: The Return of 'Too Dangerous to Release'
Historischer Vergleich von OpenAIs GPT-2-Zurueckhaltung 2019 und Anthropics Mythos-Entscheidung 2026.
- Anthropic's Claude Mythos Finds Thousands of Zero-Day Flaws
The Hacker News Berichterstattung ueber die Zero-Day-Entdeckungen in allen grossen Betriebssystemen und Browsern.
- CrowdStrike 2026 Global Threat Report
CrowdStrikes Analyse, wie KI die Angreifer-Timeline beschleunigt, mit durchschnittlichen Breakout-Zeiten von nur noch 29 Minuten.
