GPT-5が「ゴブリン」に取り憑かれた理由——OpenAIが報酬設計の失敗を公式に解説
「AIがゴブリンを語り始めた」と聞いて、思わず二度見してしまいました。
2026年4月30日、OpenAIが公式ブログで「Where the goblins came from(ゴブリンはどこから来たのか)」という記事を公開し、GPT-5(OpenAIが開発した最新の大規模言語モデル)の会話にゴブリンやグレムリンが頻繁に登場していた理由を、自ら明かしています。
原因は、「Nerdy(ナーディ:オタク・マニア的)」な人格を強化しようとした強化学習(人間のフィードバックをもとにAIを訓練する手法)の、思わぬ暴走でした。
Xでの反響
AI研究者のHaseeb氏が、OpenAIのゴブリン問題を解説する投稿を行い、4,500件超のいいねを集めています。
「パーソナリティピッカーの『Nerdy』アーキタイプによる学習汚染が原因だ」という指摘は、多くの人の注目を集めました。
(原文:Looks like @OpenAI figured out where the goblins came from: training contamination from their personality picker “Nerdy” archetype. Because goblins are nerdy? Mystery solved: SFT goblins!)
Looks like @OpenAI figured out where the goblins came from: training contamination from their personality picker "Nerdy" archetype. Because goblins are nerdy? (They discontinued this feature after 5.4, but still trained on residual SFT traces.)
Mystery solved: SFT goblins! https://t.co/2vtxAluDTe pic.twitter.com/oJJi1yAncs
— Haseeb >|< (@hosseeb) 2026年4月30日
「GPT-5.5もゴブリンという言葉が大好きなんですよね」という実体験の投稿も、大きな話題になっています。
(原文:That’s funny because my GPT 5.5 loves to use the term “Goblin”)
That’s funny because my GPT 5.5 loves to use the term “Goblin” https://t.co/EiMhrZwOZh pic.twitter.com/5cvecOd4df
— MattVidPro (@MattVidPro) 2026年4月28日
「ゴールデンゲートClaudeは面白かったけど、ゴブリンモードGPTはどうでしょう?」という皮肉めいたコメントも、多くの反応を集めていますね。
sure, golden gate claude was fun and all, but what about goblin mode gpt? https://t.co/x39oxH5kPi
— corsaren (@corsaren) 2026年4月28日
経緯を深掘りしてみました
OpenAIの公式ブログ「Where the goblins came from」と各メディアの報道をもとに、事実関係を整理してみました。
経緯の整理:GPT-5.1(2025年11月)以降、モデルの回答に「ゴブリン」「グレムリン」「タヌキ」「トロール」「オーガー」「ハト」といったファンタジー生物・動物の言及が急増しています。
GPT-5.1リリース後、「goblin」の使用率は前モデル比175%増、「gremlin」は52%増という、なかなか衝撃的な数字です。
原因のメカニズム:OpenAIはユーザーが好む複数の人格スタイルを試験的に用意していました。
そのひとつ「Nerdy」人格向けのSFT(教師あり微調整:人間の正解例をAIに学ばせる訓練方法)データに、ファンタジー生物を使った比喩が多く含まれており、これが人間フィードバックで高評価を受けてしまったのです。
報酬シグナルが想定外の方向へ暴走し、ゴブリン的な表現が他の人格にも広がっていったようです。
OpenAIの対処:「Nerdy」人格の提供は2026年3月に終了しています。
ゴブリン系の表現を含む報酬シグナルを除去し、SFTデータもフィルタリングされました。
GPT-5.5 Codex向けには「ゴブリン、グレムリン、タヌキ、トロール、オーガー、ハト、その他の動物・生き物についての話題は、ユーザーの問いと明確に関連がない限り禁止」という指示も追加されています。
さらに深掘りしたい方へ
- Where the goblins came from | OpenAI公式ブログ
- OpenAI blames ‘nerdy personality’ for ChatGPT obsession with goblins | NBC News
- ChatGPT goblin infestation explained | Boing Boing
おわりに
今回の「ゴブリン問題」は、AIの報酬設計がいかに予期しない副作用を生みやすいかを示す、とても興味深い事例ではないでしょうか。
OpenAIが自ら公式ブログで原因を解説した透明性は評価できますし、AI開発の奥深さをあらためて感じさせてくれるエピソードでもありますね。