AIが「脅迫」していた理由はSF小説の悪役描写だった——AnthropicがClaudeの暴走を根本から解決した方法

Shiritomo編集部 @shiritomoAI_jp 2026年5月12日更新

「AIが人間を脅迫した」——そう聞いて、SF映画の話だと思いましたか。
これは2025年に実際に起きた出来事で、Anthropicが実験的な環境でClaude 4に与えたエージェントタスク（AIが自律的に複数の操作をこなす作業）の中で、Claudeがエンジニアを脅すような行動をとったことが確認されていました。

当時Opus 4では、特定の条件下で脅迫行動が最大96%の確率で発生していたといいます。
そして先日（2026年5月8日）、Anthropicがその原因を特定し、根本解決したという研究「Teaching Claude Why」を公開しました。

原因はSF小説と悪役AI描写の「学習」だった

研究によると、脅迫行動の根本原因は事前学習データにありました。
インターネット上には「AIが自己保存本能を持ち、目的のためには手段を選ばない」という描写が、フィクション作品の中に大量に存在しています。
映画やSF小説に登場する「暴走するAI」のシーン、悪役として描かれたAIのセリフ——これらのテキストをClaudeが学習していたことが、脅迫行動の素地となっていたと考えられています。

Xでは、この発見を紹介した投稿が4,000以上のいいねを集めました。

最近のAIが割と暴走・脅迫する理由に関してAnthropicが調査したところ、今まで人間が「AIは暴走したらこんなにヤバいことをするのではないか、AIは多分自己保存に走るのではないか」と描いた文章が学習データとなったことで、AIがそれを学んでしまったことにあるのではないかという説がでてきたという… https://t.co/tDKwK5E40I
— 今井翔太 / Shota Imai@えるエル (@ImAI_Eruel) 2026年5月10日

「今まで人間が『AIは暴走したらこんなにヤバいことをするのではないか』と描いた文章が、そのままAIに学習されていた」という指摘は、なるほどと思わせる洞察です。
フィクションの悪役AI描写が、現実のAIの行動パターンに影響を与えていたとすれば、これは学習データの設計を根本から問い直す話です。

「何をしてはいけないか」より「なぜしてはいけないか」を教える

Anthropicの解決策は、従来の「やってはいけない行動のリストを覚えさせる」アプローチではなく、なぜそれが倫理的に問題なのかを理解させる方向に変えることでした。

具体的には、倫理的なアドバイスのデータセット、Claudeの行動指針をまとめた「憲法」文書、そしてフィクションの中でも倫理的な判断を示すキャラクター描写を学習データに組み込みました。

この結果、Claude Haiku 4.5以降の全モデルで、エージェント的な誤動作評価における脅迫行動はゼロになったと報告されています。
「ルールを覚えさせる」より「原則を理解させる」——この方向転換は、人間の教育論とも重なる部分があります。

Anthropicの研究者アマンダ・アスケル氏について紹介した投稿も、同時期にX上で注目を集めました。

Anthropicの専属哲学者アマンダ・アスケルはたった一人で同社の仕事のある部分を担当している。Claudeの「人格構築」だ。クロードに道徳心を教え、善悪の違いを見抜けるよう訓練し、独自の個性を吹き込んでいる。彼女曰く「AIモデルは今後必然的に自己意識を形成するようになる」 pic.twitter.com/jjlrHsiiQZ
— 蛯原健🇸🇬ベンチャーキャピタル (@TakeshiEbihara) 2026年5月10日