ChatGPT 読了 5 分

GPT-5が「ゴブリン」に取り憑かれた理由——OpenAIが報酬設計の失敗を公式に解説

shiritomo | AI・SNS・話題のテック情報メディア by Hashout編集部 @shiritomoAI_jp 2026年5月1日 更新
GPT-5が「ゴブリン」に取り憑かれた理由——OpenAIが報酬設計の失敗を公式に解説

「AIがゴブリンを語り始めた」と聞いて、思わず二度見してしまいました。

2026年4月30日、OpenAIが公式ブログで「Where the goblins came from(ゴブリンはどこから来たのか)」という記事を公開し、GPT-5(OpenAIが開発した最新の大規模言語モデル)の会話にゴブリンやグレムリンが頻繁に登場していた理由を、自ら明かしています。

原因は、「Nerdy(ナーディ:オタク・マニア的)」な人格を強化しようとした強化学習(人間のフィードバックをもとにAIを訓練する手法)の、思わぬ暴走でした。

Xでの反響

AI研究者のHaseeb氏が、OpenAIのゴブリン問題を解説する投稿を行い、4,500件超のいいねを集めています。

「パーソナリティピッカーの『Nerdy』アーキタイプによる学習汚染が原因だ」という指摘は、多くの人の注目を集めました。

(原文:Looks like @OpenAI figured out where the goblins came from: training contamination from their personality picker “Nerdy” archetype. Because goblins are nerdy? Mystery solved: SFT goblins!)

「GPT-5.5もゴブリンという言葉が大好きなんですよね」という実体験の投稿も、大きな話題になっています。

(原文:That’s funny because my GPT 5.5 loves to use the term “Goblin”)

「ゴールデンゲートClaudeは面白かったけど、ゴブリンモードGPTはどうでしょう?」という皮肉めいたコメントも、多くの反応を集めていますね。

経緯を深掘りしてみました

OpenAIの公式ブログ「Where the goblins came from」と各メディアの報道をもとに、事実関係を整理してみました。

経緯の整理:GPT-5.1(2025年11月)以降、モデルの回答に「ゴブリン」「グレムリン」「タヌキ」「トロール」「オーガー」「ハト」といったファンタジー生物・動物の言及が急増しています。

GPT-5.1リリース後、「goblin」の使用率は前モデル比175%増、「gremlin」は52%増という、なかなか衝撃的な数字です。

原因のメカニズム:OpenAIはユーザーが好む複数の人格スタイルを試験的に用意していました。

そのひとつ「Nerdy」人格向けのSFT(教師あり微調整:人間の正解例をAIに学ばせる訓練方法)データに、ファンタジー生物を使った比喩が多く含まれており、これが人間フィードバックで高評価を受けてしまったのです。

報酬シグナルが想定外の方向へ暴走し、ゴブリン的な表現が他の人格にも広がっていったようです。

OpenAIの対処:「Nerdy」人格の提供は2026年3月に終了しています。

ゴブリン系の表現を含む報酬シグナルを除去し、SFTデータもフィルタリングされました。

GPT-5.5 Codex向けには「ゴブリン、グレムリン、タヌキ、トロール、オーガー、ハト、その他の動物・生き物についての話題は、ユーザーの問いと明確に関連がない限り禁止」という指示も追加されています。

さらに深掘りしたい方へ

おわりに

今回の「ゴブリン問題」は、AIの報酬設計がいかに予期しない副作用を生みやすいかを示す、とても興味深い事例ではないでしょうか。

OpenAIが自ら公式ブログで原因を解説した透明性は評価できますし、AI開発の奥深さをあらためて感じさせてくれるエピソードでもありますね。