Anthropicの「安全性」は誰のためか — Fable停止騒動が映すもの

先日、AI業界で少し驚くニュースが流れました。Anthropicが、米政府からの輸出管理指令を受けて、最新モデルFable 5とMythos 5へのアクセスを全面的に停止したのです。私はこの一件、単なる「規制トラブル」では片づけられない深い論点を含んでいると思います。今日は、Ben Thompson氏のStratecheryの分析を手がかりに、その背景を整理してみます。

何が起きたのか

事の発端は、AnthropicがMythosという非常に高性能なモデルを「サイバーセキュリティ能力が高すぎて危険」として一度は非公開にし、その2ヶ月後にガードレールを付けたFableとして公開したことでした。ところが公開直後、このガードレールを回避する「ジェイルブレイク」の手法が見つかってしまいます。

これを受けて米政府は国家安全保障を理由に、外国籍のユーザー（社内の外国籍従業員も含む）によるFable 5とMythos 5の利用を停止するよう指令を出しました。Anthropicによれば、指令が届いたのは東部時間の午後5時21分。同社は「見つかったジェイルブレイクは既知の軽微な脆弱性を少数特定できる程度で、他の公開モデルでも回避なしに発見できるものだ」と反論し、幹部がワシントンに出向いて「これは誤解だ」と訴えている、という状況です。

「安全性」が競争優位になるという視点

ここからがThompson氏の議論の核心です。彼は、Anthropicの一連の行動を3つの「至上命題」から読み解いています。

ひとつ目は経済的な動機です。今のAIでは価値の多くがNvidiaやTSMCといった計算資源側に流れ、モデル自体はオープンソースに追随されて価値が薄れていきます。だからこそ各ラボは、ソフトウェアを置き換えてユーザーとの接点そのものを握りにいく必要がある、という見立てです。

ふたつ目はデータです。モデル改善は実利用データに大きく依存します。SemiAnalysisの試算では月200ドルのプランで8,000ドル相当のClaudeトークンが使えるとされ、これは利用データを集めるための投資でもあります。実際Fableでは、これまでゼロだったエンタープライズ向けのデータ保持を30日間に変更しました。

静かにモデルを劣化させるという問題

そして三つ目が、私がいちばん引っかかった点です。Anthropicは当初、Fableが他社のLLM開発に使われた場合、ユーザーに気づかれない形で性能を静かに劣化させる仕組みを導入すると表明していました。System Cardによれば影響は全トラフィックの約0.03％、0.1％未満の組織に限られるとされ、この方針は後に撤回されています（該当リクエストはOpus 4.8に引き継ぎ、ユーザーに開示する形に変更）。

ただ、撤回されたとはいえ「自社の方針のためにモデルの挙動を黙って書き換える能力と意思がある」と示してしまった意味は大きいと思います。Thompson氏は、これがAnthropicを「サプライチェーン上のリスク」と見る批判者の懸念を裏づけてしまった、と指摘しています。

考察とまとめ

私が興味深いと思ったのは、Thompson氏が「安全性という大義は、Anthropicにとっては言い訳ではなく本気の信念だからこそ機能している」と論じている点です。本気で超知能の危険を信じているからこそ、データ保持も、競合制限も、政府との対立も、すべて一貫した行動になる。そして結果的にそのどれもがビジネスに都合がよい、という構図です。彼はこれをAppleになぞらえつつ、スマートフォンなら受け入れも拒否もできるが、国家に匹敵しうる力を持つ超知能で同じことをやられるのは別問題だ、と警戒も示しています。

安全性をコストや制約ではなく競争優位の源泉に変えてしまう発想は、見事であると同時に少し怖くもあります。誰が、何のために「安全」を定義するのか。AIを使う側の私たちも、その問いから目を離さずにいたいと思いました。

📰 参考：https://stratechery.com/2026/anthropics-safety-superpower/

← ブログ一覧に戻る