「AIを使うことが目的」になった日——アマゾンの社内ランキング廃止と「tokenmaxxing」問題
「AIをもっと活用しろ」と言われたら、社員たちはAIを使って「AIを使っているように見せる」作業を自動化し始めた——。
なんとも皮肉なこの話が、ここ数日でXを中心に広く話題になっています。
5月下旬、英紙フィナンシャル・タイムズ(FT)の報道によると、アマゾンは社員のAIツール利用状況をポイント化して競わせる社内ランキング「Kiro Rank(キロランク)」を廃止しました。
廃止の理由は、そのランキングが意図した効果とは真逆の結果を生んだからです。
「80%以上が毎週使うこと」という目標が生んだ副作用
アマゾンは開発者向けに「毎週AIツール(Kiro)を使うこと」を義務づけ、「80%以上の開発者が週次でAIを使う」という目標を掲げていました。
そしてAIへの入力・出力データ量(トークン消費量)をKiro Rankでリアルタイムに追跡し、誰がどれだけ使っているかをリーダーボードで可視化していたのです。
ところが、この仕組みがある予期しない行動を生み出します。
「tokenmaxxing(トークンマクシング)」と呼ばれるようになったその行動は、スコアを上げるためだけに無意味なタスクをAIに処理させることでした。
社内ツール「MeshClaw」を使ってエージェントを動かし、コードデプロイや社内メール整理などを自動化——ただし、ビジネス上の必要性とは関係なく、スコア上昇を目的として。
こうして計算コストが急膨張し、担当上級副社長のデイブ・トレッドウェル(Dave Treadwell)氏が社員に向けてこう警告することになりました。

「AIを使うこと自体を目的にしないでください。
顧客やビジネスの課題を解決するためにAIを使ってください」
Xで広がった「大企業あるある」の反響
FTが報道を出した直後から、テック系アカウントを中心に拡散が始まりました。
この問題を端的にまとめた投稿が大きな注目を集めています。
「アマゾンはKiro Rankという開発者スコアシステムを作り、AIツールの利用量でランク付けしていた。
社員の反応は予想通り——ランキングを上げるためだけにAIエージェントに無意味なタスクを実行させた。
アマゾンは今週それを廃止した」という内容の英語投稿がXで広まりました。
🦔Amazon built an internal leaderboard called Kirorank that scored developers on how much they used AI tools. Employees responded exactly how you'd expect, assigning AI agents to run pointless tasks just to climb the rankings. Amazon shut it down this week after the fake activity…
— Hedgie (@HedgieMarkets) 2026年5月29日
テック系ニュースキュレーションの@Techmemeも反応し、この問題をまとめています。
Sources: Amazon has shut down an internal leaderboard that tracked employees' use of AI tools after workers tried to boost their scores with needless tasks (@rafeuddin_ / Financial Times)
— Techmeme (@Techmeme) 2026年5月28日
(Visit Techmeme dot com for the link and full context!)
「アマゾンが内部リーダーボードを廃止——社員がスコア稼ぎのために無意味なタスクを実行していたため」という内容で、「これは何もアマゾンだけの問題じゃない」「どの会社でも起きうる話だ」という声が続きました。

メタやマイクロソフトでも起きていた同じ問題
実は、同様の事態はほかのビッグテックでも発生していました。
メタ(Meta)では「Claudeonomics(クロードノミクス)」と呼ばれる社内リーダーボードが運営されていました。
従業員約85,000人のトークン消費量を競わせ、30日間で60兆トークンを超える膨大な利用量が記録されたといいます。
しかし、情報が外部に漏洩したことを受け、わずか2日で取り下げられています。
マイクロソフトは別のアプローチをとり、AI利用コストが人件費を超えつつあるとして、エンジニアへのClaude Codeの使用を事実上制限。
大手テック企業のAI投資の費用対効果が問われはじめている状況を象徴する出来事でした。
AI活用の「量」を指標にすることが、意図せず「形骸化」を招く——この問題はテック企業に共通する構造的なリスクのようです。
「消費量」から「成果」へ——アマゾンの次の一手
アマゾンはKiro Rank廃止後、「normalised deployments(正規化されたデプロイ数)」という新指標の導入を進めています。
トークンの消費量ではなく、AIを使って実際に役立つ成果物が生まれているかを測ろうとするものです。
調べていて、この方向転換はかなり重要な意味を持つと感じました。
「AIをどれだけ使ったか」ではなく「AIで何ができたか」——利用量より生産性、消費量より価値、という問いへのシフトです。
AI活用の評価指標をどう設計するかが、次の競争優位を左右する時代に入りつつあるのかもしれません。
個人的にも「AI利用時間」や「生成した文字数」を評価基準にすると似たような問題が起きるだろうと以前から思っていました。
生産性ツールをいくら使っても、それが成果に結びつかなければ意味がない——アマゾンの件は、そんな当たり前のことを改めて問い直してくれる出来事でした。
さらに深掘りしたい方へ
- Amazon scraps AI leaderboard to stop workers chasing usage scores(Financial Times)
- Amazon deletes devs’ tokenmaxxing leaderboard to minimize costs(InfoWorld)
まとめ
「使えば評価される」という仕組みが「使うこと自体が目的化」を生んだアマゾンのケースは、AI活用を推進するすべての組織にとって他人事ではないと思います。
量ではなく質、消費ではなく成果——評価指標の設計が、組織のAI活用の本質を左右するようです。

