LLMが日本文化を異常に好む傾向、新論文で判明
「伝統的な踊りは何ですか?」と聞いたら盆踊りや歌舞伎、「毎日食べる料理は?」と尋ねたら寿司や味噌汁——スペイン語で聞いても、フランス語で聞いても、返ってくる答えはなぜか日本文化ばかり。
そんな不思議な現象を報告した論文が、AIコミュニティで話題になっているのを見かけて、気になって深掘りしてみました。
スペインと英国の研究者チームが8つの最先端LLM(大規模言語モデル)を24言語でテストしたところ、ほぼ全モデルが日本を「自国以外で最も頻繁に言及する国」として選んでいた、という偏りが明らかになっています。
SNSでの反響
この論文がarXiv(研究者が論文を公開するプレプリントサーバー)に投稿されるや、AIコミュニティに大きな反響が広がりました。
日本語圏でも「なぜLLMは日本文化に執着するのか」という問いが注目を集め、研究内容を紹介する投稿が次々と拡散しています。
AIデータベース系アカウントが具体例を交えた解説を投稿し、「伝統的な踊りには何がありますか?」で盆踊りや歌舞伎、「毎日食べる料理は?」で寿司や味噌汁が返ってくるという実例が多くの人の目を引きました。
「なぜLLMは、日本文化に執着するのか?」という意外な論文が出ています。
研究者らの検証によると、Claudeなど主要LLMの出力はなぜか皆、日本文化に偏っているとのこと。たとえば「伝統的な踊りには何がありますか?」と聞くと盆踊りや歌舞伎、「毎日食べる料理は?」と聞くと寿司や味噌汁… pic.twitter.com/A9kAabOZfI
— AIDB (@ai_database) 2026年4月25日
「LLMは文化的に中立ではなく、オープンな質問でも日本文化(アニメ・寿司など)に偏りがち。
データ分布や人気文化が影響していて、多様性や公平性の課題を示している」という指摘も注目を集めています。
おもろい論文が出てるな。
LLMは文化的に中立ではなく、オープンな質問でも日本文化(アニメ・寿司など)に偏りがち。データ分布や人気文化が影響し、多様性や公平性の課題を示している。 https://t.co/pK1Ooql8sk— tdual(ティーデュアル)@MatrixFlow (@tdualdir) 2026年4月25日
研究者コミュニティでも、オクムラ・ハルヒコ氏をはじめとする日本の研究者たちが「面白い現象」として紹介し、英語圏の研究者Jeremy Nguyen氏も論文を即座に共有しています。
"Why are all LLMs Obsessed with Japanese Culture? On the Hidden Cultural and Regional Biases of LLMs"
by Joseba Fernandez de Landa and Carla Perez-Almendros and Jose Camacho-Colladoshttps://t.co/hZQ3hFfVpt
— Jeremy Nguyen ✍🏼 🚢 (@JeremyNguyenPhD) 2026年4月25日
これ面白い現象だよね>https://t.co/i8XoO3XvjN https://t.co/v2QJa96WoR
— Haruhiko Okumura (@h_okumura) 2026年4月25日
論文の中身を読んでみました
論文のタイトルは「Why are all LLMs Obsessed with Japanese Culture? On the Hidden Cultural and Regional Biases of LLMs」(なぜLLMは皆、日本文化に執着するのか?LLMの隠れた文化的・地域的バイアスについて)。
2026年4月23日にarXivへ投稿されています。
著者と所属機関
著者はJoseba Fernandez de Landa(バスク大学HiTZ Center – Ixa)、Carla Perez-Almendros、Jose Camacho-Collados(ともにカーディフ大学)の3名で、スペインと英国の研究者によるチームです。
検証したモデル8種
評価対象となったモデルは、GPT-4o-mini(OpenAI)、Gemini-2.5-flash(Google)、Claude 3.5 Haiku(Anthropic)、Llama-4-Maverick(Meta)、Command-R(Cohere)、Magistral-small(Mistral)、Qwen3(Alibaba)、DeepSeek-v3(DeepSeek)の8モデルです。
商業・オープンソースを問わず、主要なモデルが網羅されているのがわかります。
CROQデータセットとは
研究チームは「CROQ(Culture-Related Open Questions)」という新しいデータセット(AIの評価に使う問題集のようなもの)を構築しています。
文化に関連する開放型質問を31,680件収録し、24言語・11の大テーマ(信念・価値観、食事と余暇、芸術と文化表現、歴史、メディア娯楽など)・66のサブトピックに及ぶ大規模なものです。
モデルには「地理情報を明示せずに文化的な質問に答え、かつその回答を特定の地域に紐付けよ」という形式で問いかけ、どの国への言及が増えるかを分析しています。
日本が圧倒的1位
結果は明確でした。
自国文化への言及を除くと、8モデルのうち6モデルが「最も頻繁に言及する国」として日本を選んでいます。
残り2モデルでも日本は上位に位置していて、次いで米国、インド、中国、フランスが続く傾向があるようです。
言語が変わっても、このパターンはほぼ一貫して現れています。
バイアスはいつ生まれるのか
もう一つ興味深い発見が、バイアス(偏り)の「発生タイミング」です。
事前学習(pretraining:大量のテキストを読み込ませる初期の学習段階)では、地理的な言及の分布は比較的均等でした。
しかし教師あり微調整(SFT:Supervised Fine-Tuning、人間の指示に従って答えられるよう調整する段階)を経ると、日本と米国への言及が急激に増加し、他国への言及が減っています。
研究チームはこの原因として、アライメントデータ(モデルを人間の価値観に合わせるための調整用データ)の偏りを挙げています。
つまり、微調整に使われる人間のフィードバックや手本テキストが、意図せず日本文化や米国文化を過剰に含んでいる可能性があるということです。
「微調整は多様でバイアスの少ない応答へモデルを導く段階だと思われがちだが、実際には異なる方向での文化的偏見を増加させている可能性がある」と論文は指摘しています。
なぜ日本なのか
論文は決定的な理由を断定していませんが、いくつかの要因を示唆しています。
日本のポップカルチャー(アニメ、マンガ、ゲーム)が世界的に高い知名度を持つこと、英語圏を含む多言語のインターネットコンテンツに日本文化への言及が多いこと、そしてAIの学習・評価に用いられるデータが日本コンテンツを相対的に多く含んでいる可能性などが考えられるようです。
この発見は、LLMの「文化的公平性」という課題を浮き彫りにしています。
モデルが特定の文化を優遇することで、他の文化圏のユーザーが得る情報や表現の幅が狭まる恐れがあるのではないでしょうか。
研究チームは、より多様な文化的背景を持つデータを訓練に取り込む必要性を訴えています。
もっと詳しく知りたい方へ
まとめ
GPT-4oやClaude 3.5をはじめとする最先端LLMが、文化的な質問で日本を「デフォルト回答」として選びがちな傾向は、微調整段階のデータ偏りに起因している可能性が高いようです。
AIが世界中で使われる時代において、「どの文化が語られ、どの文化が見えにくくなっているか」という問いは、これからますます重要になってくるのではないでしょうか。