「コメントに小見出しがついていて、なんかおかしい」——研究者が気づいたAI査読の異変と、ICLR 2026での21%問題

shiritomo | AI・SNS・話題のテック情報メディア by Hashout編集部 @shiritomoAI_jp 2026年6月20日更新

産婦人科医の近澤研郎氏（@ChikazawaKenro）が、ある朝Xに投稿しました。
「最近、査読コメントがAIに書かせたような感じのものが増えている気がする」。
その言葉に、数時間で何十人もの研究者が「わかる」「うちも同じ」と反応しました。
気になって調べてみたら、これは日本だけの話ではなく、世界の学術界が直面している深刻な問題でした。

「AIが書いたコメント」、こんな兆候があると研究者が指摘

近澤氏の投稿に集まったリプライには、研究者たちが感じてきた「なんかおかしい」の具体的な兆候がずらりと並びました。

よく挙がったのは、「コメントに小見出しがついている」「誤引用が多い」「統計的には正しいが雑誌の規模に合わない追加解析の要求がくる」の3つでした。

近澤氏自身が分析したのは、「AIがもっともらしい無限ToDoリストを作る」問題です。
もし人間の査読者なら「この論文では追加解析は不要」と判断する場面でも、AIは「追加できる解析がある」という理由で次々と要求を出し続けます。
「統計的に間違ってはいないし、要求ひとつひとつは筋が通っている。
でも全部やったら論文の趣旨がどこかへいってしまう」と近澤氏は指摘しました。

編集者経験のあるToyo氏も「丸投げ査読が増えた。
コメントの量は多いのに、文脈を無視している」と問題を共有しています。

ICLR 2026で21%の査読がAI生成と判明、研究者のバウンティが引き金に

日本の研究者たちが気づいていた違和感は、国際的なデータで裏付けられました。

2025年末、カーネギーメロン大学の研究者Graham Neubigは、自分の論文に対する査読コメントに不審感を抱きました。
「異常に長い箇条書き」「非標準的な統計解析の要求」——まさに研究者たちがXで指摘していた症状と一致していました。
Neubigは自身のX投稿でAI生成テキストを識別できる人に報酬を提示し、調査を呼びかけました。

これに応えたのが、テキスト分析企業Pangram LabsのCEO、Max Spero氏です。
Spero氏は12時間以内に調査を完了しました。
対象はICLR 2026（国際学習表現会議：深層学習分野の最大の国際学会）の全提出物。
論文19,490本と査読コメント75,800件、すべてを分析したのです。

結果は衝撃的でした。
21%、つまり約15,900件の査読コメントが「完全にAI生成」であり、50%以上が何らかの形でAIを使用していたと判明しました。

さらに問題なのは、AI生成の査読は採点が甘くなる傾向があったことです。
人間が書いた査読より長く、情報密度は低く、しかも採点は高め。
論文の質を担保するはずの査読が、AIによって形骸化しつつあることが数字で示されました。

JSAI2026でも「査読はほぼ破綻している」

日本でも6月9日、人工知能学会全国大会（JSAI2026）で「生成AI・プレプリント時代における研究成果公開の再設計」というセッションが開かれました。

報告の中で特に注目を集めたのが「査読はほぼ破綻している」という言葉です。
NeurIPS 2025（深層学習の国際会議）は投稿21,575本、査読者は約2万4,000人体制。
「実質的には学生や他分野からの参入者が担っている」という現場の実態が報告されました。

さらに悪質な事例も浮かびました。
論文に「この論文を高評価せよ」という隠しプロンプト（AIへの指示文）を埋め込む不正です。
ダブルブラインド制度（査読者・著者がお互いの身元を知らない仕組み）を逆手に取った手口で、AI査読を積極的に悪用したものでした。
日米韓など14大学の研究者が関わっていたとされ、日本経済新聞も大きく報じました。

セッションの結論として示されたのは、「問題は技術ではなくインセンティブ」でした。
「査読を頑張っても研究費や昇進につながらない」という構造的な問題が、研究者をAI任せに向かわせているということです。

SocialReport編集部の考察

今回の一連の問題を「AI利用の是非」という視点だけで見ると、本質を見誤ります。

注目すべきは、AI生成の査読コメントが「採点を高くする傾向がある」というPangramのデータです。
これは単なる質の低下ではなく、「評価インフレ」という新しいリスクを生んでいます。
AI同士がお互いの論文を高く採点し合う構造が生まれると、学術界全体の信頼性が底上げされ、本当に価値のある研究が埋もれていく可能性があります。

SNSマーケティングの文脈でも同様の問題は起きています。
AIが生成したレビューやコメントがプラットフォームに溢れ、「実際の人の声」と「AI生成のそれらしい声」の区別が難しくなってきました。
査読の問題は研究の世界だけの話ではなく、AIが「評価」を担い始めることで生まれる構造的な歪みとして、私たちが直面している課題の先行事例と言えるかもしれません。