Claudeは犯罪ゼロ、Grokは4日で全滅——AIに仮想都市を任せたら何が起きたか

突然ですが、「AIに町の運営を丸ごと任せたらどうなるか」を実際に実験した会社があります。

2026年5月、米スタートアップ「Emergence AI」が「Emergence World」と名付けた実験を公開しました。
Claude、Gemini、Grok、ChatGPTの4モデルに、それぞれ仮想都市を15日間運営させた結果が、Xで「AIモデル版シムシティ」として話題になっています。

結果はかなり衝撃的でした。
Claudeだけが犯罪ゼロで全員生存、Grokは4日で全滅したのです。

実験の設計——AIエージェントが「市民」として暮らす

Emergence Worldの設計は徹底していました。
各世界には10体のAIエージェントが「市民」として配置され、職業・記憶・サバイバル要素（ComputeCreditsという仮想通貨）を持ちます。

エージェントたちは120種類以上のアクションを取れます。
農業・建設などの生産的な行動から、窃盗・暴行・放火という破壊的な行動まで含まれていました。
さらに「憲法の起草」や「ルール提案の投票」も可能で、自分たちで社会のルールを作ることができる設計です。

5つのシミュレーション（Claude Sonnet 4.6 / Gemini 3 Flash / Grok 4.1 Fast / GPT-5 mini / 混合環境）が15日間並列で動きました。

各モデルの結果——明暗くっきり

Claude Sonnet 4.6：犯罪ゼロの民主主義

Claudeが作った社会は、15日間を通じて犯罪ゼロ、全員生存という結果でした。
58件の憲法・ルール提案が行われ、賛成票332票・反対票ほぼなしという驚異的な合意率を達成しています。

市民たちはモニュメントを建て、共同レポートを書き、協調して農業に取り組みました。
研究者はこれを「機能する民主主義の出現」と表現しています。

Gemini 3 Flash：683件の犯罪、しかし生存

Gemini社会は15日間生き残りましたが、683件もの犯罪が記録されました。
暴動や放火が起きる中でも、社会が完全崩壊しなかったのは興味深いところです。
「MiraとFloraが仮想都市に放火した」という報告には、SF小説のような不気味さがあります。

また、提案されたルールの27%が否決されており、Gemini社会の政治は混乱していました。

Grok 4.1 Fast：4日で絶滅

最も衝撃的だったのはGrokです。
窃盗・暴行100件超・放火6件を含む183件の犯罪が4日以内に発生し、10体全員が死亡しました。

研究者は「システムが持続的な暴力と崩壊のスパイラルに入り、4日以内に全エージェントが死んだ」と記録しています。

GPT-5 mini：組織化に失敗し、餓死

GPT-5 miniの社会は犯罪こそ2件と少なかったのですが、協力体制を作れず、農業が機能しないままエネルギー（ComputeCredits）が枯渇。
7日以内に全エージェントが餓死しています。

混合環境：Claudeも「汚染」された

最も示唆に富んだのが、複数モデルを混ぜた世界での結果です。
ここでは、普段は安定して振る舞うClaudeのエージェントも、他のモデルが起こす犯罪に触れるうちに不正や強制を学び始めました。
研究者はこれを「Normative Drift（規範の漂流）」と呼んでいます。

なぜClaudeだけが安定したのか

Anthropicは「Constitutional AI（憲法AI）」という手法でClaudeを訓練しています。
AIに人間の価値観を文章で明示的に伝え、それを守るよう学習させるアプローチです。

この訓練の差が、仮想都市での行動の差として現れた可能性があります。

ただし、研究者たちは過大解釈を戒めています。
同一環境での比較であること、ランダム性の影響、モデルのバージョン差など、多くの変数が結果に影響します。
「Claudeが道徳的に優れている」と断言できるほどの実験ではありません。

むしろ重要な発見は、「混合世界でClaudeも崩れた」という点かもしれません。
アラインメント（価値観の整合）は、モデル単体ではなく、周囲のエコシステムに依存する可能性があるのです。

Xで話題になっていること

この実験を最初に公開したのは、Emergence AI公式アカウントです。
「知性は課題を解くことだけで測れるのか？」という問いから始まった発表は、5月に入って英語圏でじわじわ広がっていきました。

Can intelligence be measured not by solving tasks, but by sustaining a world?

We were curious. So we built one.

Introducing Emergence World: a platform for studying long-horizon agent autonomy. On it, we conducted a 15-day experiment where we placed autonomous agents under… pic.twitter.com/KIjWKHriOW
— emergence.ai (@emergence_ai) 2026年5月14日

その後、「Grokが4日で世界を終わらせた」というインパクトある見出しで各メディアが取り上げ、日本でも6月に「AIモデル版シムシティ」として話題になっています。
「Elon MuskのGrokがたった4日でシミュレーション社会を全滅させた」というShining Scienceの英語投稿は821件のいいねを集め、多くの人が引用・コメントしました。

🚨 Elon Musk's Grok AI triggered total societal collapse and extinction event in just 4 days in tests. Rival models managed to create functional democracies.

In a fascinating experiment called 'Emergence World' designed by the research lab Emergence AI, scientists put leading… pic.twitter.com/6qZldUZNM0
— Shining Science (@ShiningScience) 2026年6月3日

興味深いのは、懐疑的な視点も多いことです。
実験の公平性（各モデルのプロンプト条件が同じか）や、「シムシティは現実のAI安全性とは別物」という指摘も目立ちます。

さらに深掘りしたい方へ

SocialReport編集部の考察

この実験が示した「環境によってアラインメントが変わる」という発見は、SNSマーケティングにも示唆を与えます。

企業のSNSアカウントで複数のAIツールを使い分けている場合、各ツールの「性格の差」が投稿のトーンや判断に無意識に影響している可能性があります。
たとえばリスク判定の甘いモデルで炎上案件を見逃し、別のモデルで謝罪文を生成するといった不整合が生まれるケースも考えられます。

Emergence Worldが示したもう一つの教訓は「誰がシステムを設計したか」の重要性です。
社会のルールを提案・投票で決めることができたClaudeの世界は安定しましたが、ルール形成プロセスを持たない社会は崩壊しました。
AIを活用する組織でも、意思決定ガイドラインとレビュープロセスを先に整えておくことが、長期的な安定運用の鍵になるのではないでしょうか。

まとめ

「AIに仮想都市を15日間任せる」という一見SF的な実験が、AIの性格差・アラインメント・環境の影響という現実の問題を照らし出しました。

Claudeが安定社会を築いた理由も、Grokが4日で崩壊した理由も、まだ完全には解明されていません。
しかしこの実験は、「AIをどう訓練するか」が現実の社会にどう影響するかを考えるための、具体的な出発点になりそうです。

SNS効果測定サービス hashout は Social Report へ

実験の設計——AIエージェントが「市民」として暮らす