AIは自分の思考を正確に説明できない——Anthropicが明かした「内部と説明のズレ」

AIを使っていると、ときどき不思議に思うことがあるんですよね。「どうやってその答えを出したの？」と聞くと、それっぽい説明を返してくれる。でも本当にその通りの手順で計算しているのか、実はちょっと怪しいと思っていました。

そんな疑問に直接答えてくれる研究が、Anthropicから出ています。

「顕微鏡」でAIの内部を覗く

Anthropicはモデルの内部計算ステップを追跡できるツールを開発しました。いわばAI専用の"思考顕微鏡"です。これを使って、モデルが実際にどういう処理をしているかを複数の研究論文で検証しています。

その結果が面白い。

例えば「36+59」を計算させると、Claudeは「桁を繰り上げて足した」と説明します。でも実際の内部では、概算を出す処理と末尾の桁を精密計算する処理が並列で走っていた。答えは合っているのに、やり方の説明は違うんです。

これって、結構インパクトある発見だと思います。

私たちが業務でAIを使うとき、「このAIはなぜこういう結果を出したのか」を確認したくなることがあります。特に重要な判断に使う場合は当然ですよね。

でも今回の研究が示しているのは、AIの自己説明はあくまで"事後的な解釈"に過ぎない可能性があるということです。人間でも「なぜそう判断したか」を完全には説明できないのと、少し似ているかもしれません。

これが業務に与える示唆は明確で、AIの出力を使うときは説明ではなく結果で評価する習慣が大切だということです。「こういう理由でこの価格にしました」という説明よりも、「その価格設定で実際にどういう結果が出たか」を追いかける方が信頼できる。

AIを業務に組み込み始めている方に伝えたいのは、AIの説明に安心しすぎないことです。

在庫の需要予測をAIに任せるなら、「なぜそう予測した？」より「予測精度はどれくらい？」を追う

価格提案をAIに出させるなら、提案理由よりも実績データで判断する

AIが「確信を持って」答えているように見えても、それは内部の確信と必ずしも一致しない

AIは使えるツールです。でも「説明が上手い = 正しい」ではない、という視点は常に持っておきたいと思います。

Anthropicのこの研究、もっと広まってほしいなあと感じています。AIを正しく使いこなすために、こういう基礎的な理解は絶対に必要だと思うので。