Anthropicが謝罪した「サイレント劣化」問題。AIの安全対策は隠したら負け

静かに「別のモデル」へ切り替えられていた

Anthropicが、最新モデルClaude Fable 5に仕込んでいた安全対策ポリシーを大きく方針転換しました。米Engadgetの報道によると、同社はフロンティアLLM開発に関するセーフガードを「ユーザーに見える形」に変更すると発表し、「私たちは間違ったトレードオフをしてしまった。バランスを誤ったことを謝罪する」という声明まで出しています。

何が起きていたのか。Fable 5のリリース後、研究者たちはモデルの挙動に妙な点があることに気づきました。競合するLLMの学習、AIコードのデバッグ、ニューラルアーキテクチャの最適化といったタスクを依頼すると、Fable 5はリクエストを拒否するか、こっそり性能の低い別モデルに処理を回していたんです。しかもこの制限はドキュメントのどこにも書かれていませんでした。

なぜ研究者は怒ったのか

ポイントは「制限があったこと」そのものではなく、「黙って行われていたこと」です。

研究者の立場で考えると、これはかなり深刻です。Fable 5の性能を前提に実験を設計し、トークン代を払って結果を得たのに、実は裏で下位モデルが応答していたかもしれない。これでは実験結果の信頼性が根本から揺らぎますし、お金を払って期待した性能が出ないという実害もあります。研究者のDean W. Ball氏はXで「ユーザーに告げずにML研究の性能を劣化させるのは衝撃的なほど敵対的で、ひどい振る舞いだ」と痛烈に批判しました。

Anthropicは以前から、OpenAIと比べて倫理的で研究者フレンドリーな会社というイメージを打ち出してきました。学術コミュニティとの連携を誇る企業だったからこそ、この「サイレント劣化」は強い反発を招いたわけです。

今回の変更で何が変わるのか

要点を3つに整理します。

ひとつ目は、セーフガード自体は撤回されないという点です。Anthropicは高性能AIの開発支援につながるリクエストへの制限ポリシーを維持します。変わるのは見せ方で、今後はリクエストを拒否する場合も、下位モデルへ振り替える場合も、その旨をユーザーに通知するようになります。

ふたつ目は、この問題の本質が「安全性と透明性のトレードオフ」だという点です。フロンティアモデルの能力が悪用されるリスクに備えること自体は、多くの人が必要だと認めるはずです。ただ、その対策が利用者に見えない形で行われると、今度はサービスとしての信頼が崩れます。Anthropic自身が「wrong tradeoff」と認めたのは、このバランスの取り方を誤ったということです。

みっつ目は、課金モデルとの整合性です。ユーザーは特定のモデルの性能に対してお金を払っています。裏で別モデルに切り替わるなら、それはもう契約した商品とは違うものですよね。AIサービスが社会インフラ化していく中で、「何が動いているのか」の開示は品質表示と同じレベルの義務になっていくと思います。

モデルの中身が見えない時代の信頼

今回の件、私は単なる一企業の失敗談ではなく、AI業界全体への問いかけだと受け止めています。

LLMは元々ブラックボックスです。その上にルーティングやセーフガードといった見えないレイヤーが重なると、ユーザーは自分が何と対話しているのかすら分からなくなります。今回はたまたま研究者という「異変に気づける人たち」が相手だったから表面化しましたが、一般ユーザー向けに同じことが行われていても、ほとんどの人は気づけないでしょう。

安全対策は必要です。でもそれは隠すことの言い訳にはならない。「拒否するなら拒否すると言う」「切り替えるなら切り替えると言う」という当たり前の誠実さが、結局いちばんの信頼につながるんだと思います。AIを使う側としても、提供する側の端くれとしても、心に留めておきたいニュースでした。

📰 参考：https://www.engadget.com/2192004/anthropic-walks-back-policy-sabotaging-research/

← ブログ一覧に戻る