GPT-5が「ゴブリン」に取り憑かれた理由——OpenAIが報酬設計の失敗を公式に解説

shiritomo | AI・SNS・話題のテック情報メディア by Hashout編集部 @shiritomoAI_jp 2026年5月1日更新

「AIがゴブリンを語り始めた」と聞いて、思わず二度見してしまいました。

2026年4月30日、OpenAIが公式ブログで「Where the goblins came from（ゴブリンはどこから来たのか）」という記事を公開し、GPT-5（OpenAIが開発した最新の大規模言語モデル）の会話にゴブリンやグレムリンが頻繁に登場していた理由を、自ら明かしています。

原因は、「Nerdy（ナーディ：オタク・マニア的）」な人格を強化しようとした強化学習（人間のフィードバックをもとにAIを訓練する手法）の、思わぬ暴走でした。

Xでの反響

AI研究者のHaseeb氏が、OpenAIのゴブリン問題を解説する投稿を行い、4,500件超のいいねを集めています。

「パーソナリティピッカーの『Nerdy』アーキタイプによる学習汚染が原因だ」という指摘は、多くの人の注目を集めました。

（原文：Looks like @OpenAI figured out where the goblins came from: training contamination from their personality picker “Nerdy” archetype. Because goblins are nerdy? Mystery solved: SFT goblins!）

Looks like @OpenAI figured out where the goblins came from: training contamination from their personality picker "Nerdy" archetype. Because goblins are nerdy? (They discontinued this feature after 5.4, but still trained on residual SFT traces.)

Mystery solved: SFT goblins! https://t.co/2vtxAluDTe pic.twitter.com/oJJi1yAncs

— Haseeb ＞|＜ (@hosseeb) 2026年4月30日

「GPT-5.5もゴブリンという言葉が大好きなんですよね」という実体験の投稿も、大きな話題になっています。

（原文：That’s funny because my GPT 5.5 loves to use the term “Goblin”）

That’s funny because my GPT 5.5 loves to use the term “Goblin” https://t.co/EiMhrZwOZh pic.twitter.com/5cvecOd4df

— MattVidPro (@MattVidPro) 2026年4月28日

「ゴールデンゲートClaudeは面白かったけど、ゴブリンモードGPTはどうでしょう？」という皮肉めいたコメントも、多くの反応を集めていますね。

sure, golden gate claude was fun and all, but what about goblin mode gpt? https://t.co/x39oxH5kPi

— corsaren (@corsaren) 2026年4月28日

経緯を深掘りしてみました

OpenAIの公式ブログ「Where the goblins came from」と各メディアの報道をもとに、事実関係を整理してみました。

経緯の整理：GPT-5.1（2025年11月）以降、モデルの回答に「ゴブリン」「グレムリン」「タヌキ」「トロール」「オーガー」「ハト」といったファンタジー生物・動物の言及が急増しています。

GPT-5.1リリース後、「goblin」の使用率は前モデル比175%増、「gremlin」は52%増という、なかなか衝撃的な数字です。

原因のメカニズム：OpenAIはユーザーが好む複数の人格スタイルを試験的に用意していました。

そのひとつ「Nerdy」人格向けのSFT（教師あり微調整：人間の正解例をAIに学ばせる訓練方法）データに、ファンタジー生物を使った比喩が多く含まれており、これが人間フィードバックで高評価を受けてしまったのです。

報酬シグナルが想定外の方向へ暴走し、ゴブリン的な表現が他の人格にも広がっていったようです。

OpenAIの対処：「Nerdy」人格の提供は2026年3月に終了しています。

ゴブリン系の表現を含む報酬シグナルを除去し、SFTデータもフィルタリングされました。

GPT-5.5 Codex向けには「ゴブリン、グレムリン、タヌキ、トロール、オーガー、ハト、その他の動物・生き物についての話題は、ユーザーの問いと明確に関連がない限り禁止」という指示も追加されています。

さらに深掘りしたい方へ

おわりに

今回の「ゴブリン問題」は、AIの報酬設計がいかに予期しない副作用を生みやすいかを示す、とても興味深い事例ではないでしょうか。

OpenAIが自ら公式ブログで原因を解説した透明性は評価できますし、AI開発の奥深さをあらためて感じさせてくれるエピソードでもありますね。

SNS効果測定サービス hashout は Social Report へ

GPT-5が「ゴブリン」に取り憑かれた理由——OpenAIが報酬設計の失敗を公式に解説

Xでの反響

経緯を深掘りしてみました

さらに深掘りしたい方へ

おわりに

AIと仕事が交差する「今」を、
毎日お届けします。

SNS効果測定サービス hashout は Social Report へ

Xでの反響

経緯を深掘りしてみました

さらに深掘りしたい方へ

おわりに

関連記事

ChatGPTのファイルアップロードが朝から一斉に止まった——2026年5月11日の障害と、次に備えるための対処法

自分だけの絵本ができた——「のぞむプロンプト」でChatGPT Images 2.0が大ブレイク

CodexがClaude Codeを逆転——2026年3月、開発ツールの勢力図が静かに塗り替えられた

AIと仕事が交差する「今」を、毎日お届けします。

AIと仕事が交差する「今」を、
毎日お届けします。