Amazonで起きた「トークンマクシング」問題から学ぶ、AI活用の正しい計測とは

Amazonの社内で「トークンマクシング」と呼ばれる現象が起きているそうです。これ、なかなか考えさせられる話だと思います。

何が起きているのか

Amazonが社内で提供しているMeshClawというAIエージェントツールがあります。これは社員が自分用のAIエージェントを作成し、コードデプロイの開始、メールの仕分け、Slackでのやり取りなど、さまざまな業務を自動化できるものです。

問題は、Amazonがこのツールのトークン消費量を社内リーダーボードで追跡していることです。つまり「誰がどれだけAIを活用しているか」が可視化されている状態なんですよね。

結果として何が起きたかというと、一部の社員がリーダーボード上の順位を上げるために、本来は不要なタスクをMeshClawに実行させてトークンを消費するようになりました。これが「トークンマクシング」です。

この構図は、ソフトウェア開発で「コード行数」を生産性指標にした結果、冗長なコードが量産された過去の失敗と似ています。計測しやすい指標を目標にしてしまうと、本来の目的から逸れた行動が最適化される。いわゆるグッドハートの法則そのものです。

もうひとつ見逃せないのがセキュリティの問題です。MeshClawはユーザーの代わりにアクションを実行できるツールです。コードのデプロイ、メールの操作、Slackへの投稿など、かなり強い権限を持っています。

社員からは「自分の代わりに行動できるAIツールにここまでの権限を持たせることのリスク」について懸念の声が上がっているそうです。利用を推進するプレッシャーのもとで、セキュリティレビューが十分に行われないまま権限が拡大していく危険性は確かにあると思います。

私が思うに、この問題の本質は「AIをどれだけ使ったか」ではなく「AIでどれだけ成果が出たか」を見るべきだという点です。

トークン消費量はAI活用度の代理指標としてはあまりに粗すぎます。本当に見るべきなのは、AIの導入によって開発サイクルが短縮されたのか、バグが減ったのか、顧客対応が改善されたのかといったアウトカムのはずです。

テック企業に限らず、今まさにAIツールを導入しようとしている組織は多いと思います。「使え」と号令をかけるだけでなく、何をもって「うまく使えている」と判断するのか。その指標設計こそが、AI時代のマネジメントに求められる新しいスキルなのかもしれません。

トークンの量ではなく、成果の質で測る。シンプルですが、それが一番難しいことなんですよね。