はじめに

「ハンドルネームで書いてるから大丈夫」──そう思ってた時代が、終わろうとしているんですよね。

ETH Zurich、MATS、そしてAnthropicの研究者たちが発表した論文が、かなり衝撃的な内容で。LLMエージェントを使えば、匿名アカウントの本人特定が1人あたり$1〜$4でできてしまう、というんです。

何が起きたのか

研究チームが作ったのは「ESRC」と呼ばれる4段階のLLMパイプライン。

テキストから職歴、書き口の癖、言及したプロジェクト、意見のパターン──こういった「アイデンティティの断片」を自動で抽出して、ベクトル化して、他のプラットフォームのプロフィールと照合するんです。

結果がすごくて。

  • Hacker Newsユーザーの67%を90%の精度で再特定
  • HN→LinkedInのマッチングで45.1%の再現率(古典的手法は0.1%)
  • 一部redacted(個人情報を黒塗り)されたインタビュー記録から、Anthropicの研究者33人中9人を特定
  • 実験全体のコスト:$2,000以下
  • 古典的な手法が崩壊寸前なのに対して、LLMパイプラインはスケールしても精度が落ちない。これが本当に恐ろしいところだと思います。

    なぜ今まで匿名性が保てていたのか

    ちょっと整理すると、今まで「ネット上の匿名性」が機能していたのは、コストの問題だったんですよね。

    特定の人を追いかけるには、熟練した調査員が何時間もかけて情報を突き合わせる必要があった。一般人を対象にするにはコストが割に合わなかった。

    だからターゲットは「高価値な人物」だけだった。

    それがLLMによって、コストが3桁くらい下がったわけです。100万人を対象にしても精度は45%前後を維持できる、と研究は言っています。

    実用上の影響

    私が特に気になるのは、ビジネス上の使われ方ですよね。

    採用スクリーニングで「この候補者、どこかで何か言ってないか調べてみようか」となったとき。競合企業の社員が匿名で書いた批判投稿を特定しようとするとき。あるいは、もっと政治的な文脈で。

    技術的に可能になった以上、「悪用するな」というルールだけでは実際の歯止めにならない。

    エンジニアとして何を考えるか

    書く内容を気にするというより、「どのプラットフォームでも同じ書き方をしない」という意識が今後は必要かもしれない。

    たとえば語尾のパターン、よく使う言い回し、特定の業界用語の使い方──そういった無意識の「文体指紋」が識別の手がかりになる。

    システムを構築する側としては、ユーザーデータの取り扱いにさらに慎重になる必要がある。今まで「公開情報だから問題ない」と思っていたデータの組み合わせが、個人特定に使われる可能性がある。

    まとめ

    「匿名性」という概念自体が、LLMによって再定義されようとしています。完全に消えるわけではないけど、従来の「ハンドルネームで別人になれる」という感覚はもう通用しない。

    プライバシーを本気で守ろうとするなら、それ相応の意識と工夫が必要になってくる時代になったんだと思います。

    ---

    *参考記事:[LLMs Can Now Figure Out Who's Behind Any Pseudonym — For Just $4](https://www.engineerscodex.com/llm-deanonymization-pseudonymity)*

    ← ブログ一覧に戻る