Anthropic a anunțat că suspendă accesul la cele mai avansate modele AI ale sale, Fable 5 și Mythos 5 (recent lansate), după o directivă emisă de guvernul Statelor Unite. Compania spune că măsura afectează toți clienții, deși ordinul ordonă sistarea accesul doar cetățenilor străini, inclusiv angajaților Anthropic care intră în această categorie. Directiva este justificată de autorități prin argumente de securitate națională și export control. Anthropic afirmă că accesul la celelalte modele ale sale nu va fi afectat, dar că Fable 5 și Mythos 5 trebuie dezactivate abrupt pentru a evita riscurile de neconformare.
Guvernul SUA ar fi invocat existența unei metode de bypass, sau „jailbreak”, pentru Fable 5. Anthropic susține însă că demonstrația analizată nu arată o capacitate excepțională, ci identificarea unui număr mic de vulnerabilități deja cunoscute, prezente în toate modelele AI din prezent.
Compania spune că a primit directiva vineri, 12 iunie, la ora 5:21 pm ET. Scrisoarea guvernului nu ar fi oferit detalii specifice despre preocuparea de securitate națională. Potrivit Anthropic, efectul practic al ordinului este mult mai larg decât textul inițial. Pentru că accesul trebuie blocat pentru orice cetățean străin, indiferent dacă se află în interiorul sau în afara Statelor Unite, compania spune că nu poate izola ușor restricția doar la anumite conturi. Astfel s-a luat decizia de a opri accesul la Fable 5 și Mythos 5 complet.
Ce este un jailbreak în cazul modelelor AI
Jailbreak-ul este o metodă prin care un utilizator încearcă să ocolească limitările de siguranță ale unui model AI. În cazul modelelor capabile să ajute la programare sau securitate cibernetică, astfel de bypass-uri pot deveni sensibile dacă permit obținerea de instrucțiuni utile pentru atacuri.
Anthropic spune că a analizat demonstrația tehnică și că vulnerabilitățile identificate erau deja cunoscute, minore și relativ simple. Mai mult, compania afirmă că alte modele disponibile public pot descoperi aceleași probleme fără a necesita ocolirea sistemelor de siguranță. Compania insistă că testele făcute înainte de lansarea Fable 5 au fost extinse. Anthropic susține că a lucrat cu guvernul SUA, UK AISI, organizații private terțe și echipe interne pentru mii de ore de testare adversarială, menită să găsească moduri de abuz sau bypass.
Anthropic afirmă că nu a fost găsit până acum un „jailbreak universal”, adică o metodă care să treacă pe scară largă peste sistemele de siguranță modelului și să deblocheze o gamă largă de capabilități malițioase. Compania admite însă că rezistența perfectă la jailbreak nu pare posibilă în prezent pentru niciun furnizor de modele AI.
Pentru Fable 5, Anthropic spune că a adoptat o strategie de apărare în profunzime. Asta înseamnă combinarea mai multor straturi de protecție, astfel încât eventualele bypass-uri să fie înguste, costisitoare de produs sau detectabile rapid prin monitorizare. Această strategie explică și o decizie controversată: păstrarea datelor clienților timp de 30 de zile pentru tot ce este introdus în modelul Fable. Anthropic spune că această retenție are costuri reale în relația cu clienții, dar permite cercetarea și mitigarea unor posibile jailbreak-uri.
Anthropic spune că abordarea reduce riscurile Fable și le face comparabile cu riscurile modelelor deja folosite în industrie.
Disputa cu guvernul SUA
Anthropic spune că, până acum, guvernul a oferit doar dovezi verbale despre un potențial jailbreak non-universal. Potrivit companiei, acesta ar consta în cererea ca modelul să citească o bază de cod specifică și să repare defecte software. Compania afirmă că a analizat un raport pe care îl consideră baza directivei și că nivelul de capabilitate prezentat acolo este disponibil pe scară largă în alte modele, inclusiv în modelul concurenței, GPT-5.5 de la OpenAI.
Totuși, compania se conformează ordinului legal și elimină accesul la Fable 5 și Mythos 5. În același timp, contestă standardul aplicat:
„Nu suntem de acord că descoperirea unui potențial jailbreak îngust ar trebui să fie motiv pentru retragerea unui model comercial folosit de sute de milioane de oameni.”
Un precedent sensibil pentru modelele AI de frontieră
Cea mai importantă implicație nu este doar întreruperea accesului la două modele. Dacă o vulnerabilitate îngustă și fără rezultat nociv demonstrat poate duce la suspendarea unui model comercial, pragul de intervenție devine foarte jos pentru întreaga industrie AI. Anthropic spune explicit că, aplicat la nivelul întregii piețe, un asemenea standard ar putea opri toate lansările de modele noi pentru toți furnizorii de servicii AI de frontieră (adică cele mai avansate modele existente).
Compania susține că guvernul ar trebui să poată bloca lansări nesigure, dar doar printr-un proces statutar transparent, corect, clar și bazat pe fapte tehnice. În opinia Anthropic, acțiunea de acum nu respectă aceste principii. Efectul imediat este că Fable 5 și Mythos 5 dispar temporar din lista de servicii furnizate de Anthropic. Compania promite că va lucra pentru restabilirea serviciului cât mai repede.
