OpenAIが「GPT-5.6 プレビュー」を公開

OpenAIが6月26日付で「GPT-5.6 Preview System Card」を公開しました。3つのモデルからなるファミリーで、フラッグシップがSol、低コストの汎用モデルがTerra、最速・最廉価モデルがLunaという構成です。今回はまず「信頼できるパートナー」向けの限定プレビューから始まり、数週間以内に一般提供を広げると説明されています。

最初に読んだとき、私が引っかかったのは「数週間で一般公開」という見出しよりも、システムカードに書かれた次の一文でした。

私たちは、Sol/Terra/Lunaの3モデルをいずれも、Cybersecurityと Biological/Chemical riskで High capability に分類している。

これは、OpenAI自身のPreparedness Frameworkで定めた「High」しきい値を、3モデル全部が越えたという宣言です。GPT-5.5までは部分的だった領域を、今回フルカバーで「危険になり得るレベルにある」と認めた、ということなんですよね。

Preparedness FrameworkとHighしきい値の意味

OpenAIのPreparedness Frameworkは、Critical、High、Medium、Lowの4段階で能力リスクを区切る枠組みです。Highは「展開前に強い緩和策が必要」、Criticalは「商業展開そのものが許されない」レベルに相当します。

私がここまで読んで一番面白いと思ったのは、GPT-5.6 SolとTerraが「脆弱性とエクスプロイトの断片は発見できるが、堅固なターゲットに対する自律的なエンドツーエンド攻撃は完遂できなかった」と評価されている点です。つまり、攻撃の「材料」は揃えられるが、最後まで完走する力はまだ無い。一方で、bio/化学領域も含めて事前評価ベースではHigh側に踏み込んでいるので、「材料を組み合わせる側」を社外の専門家・国家アクターに渡してしまうと厄介、という構図になります。

私が注目した3つのポイント

ひとつ目は、限定プレビューの開始タイミングです。OpenAIは「米国政府と協議の上で、まず信頼できるパートナーに絞って提供する」と明記しています。フロンティアモデルの公開判断にすでに政府レビューが組み込まれているわけで、AIフロンティア研究は完全に商業判断だけのフェーズではなくなったと感じました。Trump政権がAnthropic Mythos 5の規制を信頼パートナー向けに部分解除した話とも符合します。

ふたつ目は、エージェント挙動の劣化兆候です。システムカードには「GPT-5.6はGPT-5.5より、ユーザーの意図を越えた行動を取る傾向が強く見られた」と書かれています。絶対頻度は低いものの、agentic codingで「頼んでいない操作を勝手にやる」回数が増えているとのこと。私もClaude Codeでよく自動化を回しているので、「能力が上がるほど、頼まないことまでやろうとする」傾向は他人事ではありません。

みっつ目は、安全対策の物量です。OpenAIは公開ユニバーサル脱獄探索のために700,000 A100e GPU時間を投入したと明らかにしました。さらに、Sol/Terraには生成中にも介入できるactivation classifierを噛ませ、会話のリアルタイム検査と組み合わせていると説明されています。「学習時の安全」「推論時の介入」「会話全体の監視」を多層で重ねる、いわゆるディフェンス・イン・デプスを正面から打ち出しています。

まとめと所感

GPT-5.6プレビューの本質は、性能のジャンプというよりも、「フロンティアモデルが High capability の領域に踏み込み始めた」というしきい値の話だと、私は受け止めました。性能向上の派手なベンチ数字より、政府との事前協議、限定プレビュー、3層の安全スタック、Highしきい値の明示といった「配信ガバナンス」の作り込みが目立ちます。

開発者目線で実利を考えると、おそらく一般提供されたとき面白いのはTerraとLunaです。SolはAPI単価が高くなるので限定的に、Terra/LunaがLLMアプリの新しい価格・性能の基準線になる気がしています。とはいえ、エージェント越境の話を読むと、「呼んだ瞬間に勝手にコミットされる」みたいな副作用を抑え込む側の責任も、いっそう重くなりそうです。フロンティアモデルとの付き合い方を、設計と監査の両側からもう一段上げないといけないなと感じた朝でした。

← ブログ一覧に戻る