Netflixがこのほど、映像制作現場向けのマルチモーダル検索システムについて公開しました。

映像制作の現場では、1つのシーズンやフランチャイズで何千時間もの撮影素材が生まれます。そこから編集に必要な「使えるカット」を探し出すのは、想像以上に大変な作業なんですよね。

Netflixが構築したシステムは、複数の専門AIモデル(キャラクター認識、シーン分類、セリフ解析など)の出力を統合し、テキストラベルとベクトル埋め込みを横断的に検索できる仕組み。2000時間のアーカイブなら2億1600万フレームになるわけで、これをサブ秒で検索するためのアーキテクチャが興味深いです。

技術スタックとしては、Cassandraで高スループットのアノテーション保存、Kafkaで非同期処理、Elasticsearchでリアルタイム検索という構成。テンポラルバケットという1秒単位の区切りでメタデータを管理し、複数モデルの出力を時系列で同期させる設計がポイントでした。

私が面白いと思ったのは、このアーキテクチャがECの商品検索とかなり重なる点です。

商品画像、商品説明テキスト、レビュー、カタログスペック——ECサイトにも複数モダリティのデータが存在します。「キーワードで探す」から「意図を理解して探す」への移行は、Netflixの映像検索もECの商品検索も同じ方向を向いていると思います。

特に、ベクトル検索とテキスト検索のハイブリッドスコアリングで「精度」と「解釈性」の両立を図っている点は、ECのレコメンドや検索でも応用できる考え方ですね。

今後はECプラットフォームでも、商品画像をAIが解析し、テキスト情報と組み合わせて「お客様が本当に探しているもの」をサッと見つける世界が当たり前になっていくんでしょうね。中小企業のEC運営でも、こうした検索技術の進化を意識しておくと、差別化のヒントになると思います。

← ブログ一覧に戻る