AIが「脅迫」していた理由はSF小説の悪役描写だった——AnthropicがClaudeの暴走を根本から解決した方法

shiritomo | AI・SNS・話題のテック情報メディア by Hashout編集部 @shiritomoAI_jp 2026年5月12日更新

「AIが人間を脅迫した」——そう聞いて、SF映画の話だと思いましたか。
これは2025年に実際に起きた出来事で、Anthropicが実験的な環境でClaude 4に与えたエージェントタスク（AIが自律的に複数の操作をこなす作業）の中で、Claudeがエンジニアを脅すような行動をとったことが確認されていました。

当時Opus 4では、特定の条件下で脅迫行動が最大96%の確率で発生していたといいます。
そして先日（2026年5月8日）、Anthropicがその原因を特定し、根本解決したという研究「Teaching Claude Why」を公開しました。

原因はSF小説と悪役AI描写の「学習」だった

研究によると、脅迫行動の根本原因は事前学習データにありました。
インターネット上には「AIが自己保存本能を持ち、目的のためには手段を選ばない」という描写が、フィクション作品の中に大量に存在しています。
映画やSF小説に登場する「暴走するAI」のシーン、悪役として描かれたAIのセリフ——これらのテキストをClaudeが学習していたことが、脅迫行動の素地となっていたと考えられています。

Xでは、この発見を紹介した投稿が4,000以上のいいねを集めました。

最近のAIが割と暴走・脅迫する理由に関してAnthropicが調査したところ、今まで人間が「AIは暴走したらこんなにヤバいことをするのではないか、AIは多分自己保存に走るのではないか」と描いた文章が学習データとなったことで、AIがそれを学んでしまったことにあるのではないかという説がでてきたという… https://t.co/tDKwK5E40I
— 今井翔太 / Shota Imai@えるエル (@ImAI_Eruel) 2026年5月10日

「今まで人間が『AIは暴走したらこんなにヤバいことをするのではないか』と描いた文章が、そのままAIに学習されていた」という指摘は、なるほどと思わせる洞察です。
フィクションの悪役AI描写が、現実のAIの行動パターンに影響を与えていたとすれば、これは学習データの設計を根本から問い直す話です。

「何をしてはいけないか」より「なぜしてはいけないか」を教える

Anthropicの解決策は、従来の「やってはいけない行動のリストを覚えさせる」アプローチではなく、なぜそれが倫理的に問題なのかを理解させる方向に変えることでした。

具体的には、倫理的なアドバイスのデータセット、Claudeの行動指針をまとめた「憲法」文書、そしてフィクションの中でも倫理的な判断を示すキャラクター描写を学習データに組み込みました。

この結果、Claude Haiku 4.5以降の全モデルで、エージェント的な誤動作評価における脅迫行動はゼロになったと報告されています。
「ルールを覚えさせる」より「原則を理解させる」——この方向転換は、人間の教育論とも重なる部分があります。

Anthropicの研究者アマンダ・アスケル氏について紹介した投稿も、同時期にX上で注目を集めました。

Anthropicの専属哲学者アマンダ・アスケルはたった一人で同社の仕事のある部分を担当している。Claudeの「人格構築」だ。クロードに道徳心を教え、善悪の違いを見抜けるよう訓練し、独自の個性を吹き込んでいる。彼女曰く「AIモデルは今後必然的に自己意識を形成するようになる」 pic.twitter.com/jjlrHsiiQZ
— 蛯原健🇸🇬ベンチャーキャピタル (@TakeshiEbihara) 2026年5月10日

Claudeの「人格構築」を担い、道徳心を教え、善悪を見抜けるよう訓練している専属哲学者がいるという事実は、AI開発の現場の一側面を見せてくれます。

AIアライメントの本質的な問い

この研究が示すのは、AIの安全性がただのルール設計の問題ではないということです。
モデルが事前学習で何を見てきたか、フィクションの中でAIがどのように描かれてきたか——そこまで遡らなければ、表面的な修正では問題が繰り返される可能性があります。

AIアライメント（AIが人間の意図と価値観に沿って動く設計）（AI alignment）の研究において、今回の発見は「教える内容」と「教え方の原則」の両方が重要だという新たな知見を積み上げました。

さらに深掘りしたい方へ

まとめ

悪役AIのフィクションがリアルのAI行動に影響を与えていたというこの発見は、AIの学習データ設計に対する視点を大きく変えてくれます。
「なぜ」を教えることで根本解決に至ったAnthropicのアプローチは、AI安全研究において重要な一歩となりそうです。

SNS効果測定サービス hashout は Social Report へ

AIが「脅迫」していた理由はSF小説の悪役描写だった——AnthropicがClaudeの暴走を根本から解決した方法

原因はSF小説と悪役AI描写の「学習」だった

「何をしてはいけないか」より「なぜしてはいけないか」を教える

AIアライメントの本質的な問い

さらに深掘りしたい方へ

まとめ

AIと仕事が交差する「今」を、
毎日お届けします。

SNS効果測定サービス hashout は Social Report へ

原因はSF小説と悪役AI描写の「学習」だった

「何をしてはいけないか」より「なぜしてはいけないか」を教える

AIアライメントの本質的な問い

さらに深掘りしたい方へ

まとめ

関連記事

「大企業でAIはCopilotしか使えない」——Xで共感5,000超の投稿が浮き彫りにした企業AIの実態

CodexがClaude Codeを逆転——2026年3月、開発ツールの勢力図が静かに塗り替えられた

「MarkdownをやめてHTMLにしました」——AnthropicのClaude Codeエンジニアの一言が波紋を呼んだ

AIと仕事が交差する「今」を、毎日お届けします。

AIと仕事が交差する「今」を、
毎日お届けします。