「コメントに小見出しがついていて、なんかおかしい」——研究者が気づいたAI査読の異変と、ICLR 2026での21%問題
産婦人科医の近澤研郎氏(@ChikazawaKenro)が、ある朝Xに投稿しました。
「最近、査読コメントがAIに書かせたような感じのものが増えている気がする」。
その言葉に、数時間で何十人もの研究者が「わかる」「うちも同じ」と反応しました。
気になって調べてみたら、これは日本だけの話ではなく、世界の学術界が直面している深刻な問題でした。
「AIが書いたコメント」、こんな兆候があると研究者が指摘
近澤氏の投稿に集まったリプライには、研究者たちが感じてきた「なんかおかしい」の具体的な兆候がずらりと並びました。
よく挙がったのは、「コメントに小見出しがついている」「誤引用が多い」「統計的には正しいが雑誌の規模に合わない追加解析の要求がくる」の3つでした。

近澤氏自身が分析したのは、「AIがもっともらしい無限ToDoリストを作る」問題です。
もし人間の査読者なら「この論文では追加解析は不要」と判断する場面でも、AIは「追加できる解析がある」という理由で次々と要求を出し続けます。
「統計的に間違ってはいないし、要求ひとつひとつは筋が通っている。
でも全部やったら論文の趣旨がどこかへいってしまう」と近澤氏は指摘しました。
編集者経験のあるToyo氏も「丸投げ査読が増えた。
コメントの量は多いのに、文脈を無視している」と問題を共有しています。
ICLR 2026で21%の査読がAI生成と判明、研究者のバウンティが引き金に
日本の研究者たちが気づいていた違和感は、国際的なデータで裏付けられました。
2025年末、カーネギーメロン大学の研究者Graham Neubigは、自分の論文に対する査読コメントに不審感を抱きました。
「異常に長い箇条書き」「非標準的な統計解析の要求」——まさに研究者たちがXで指摘していた症状と一致していました。
Neubigは自身のX投稿でAI生成テキストを識別できる人に報酬を提示し、調査を呼びかけました。
これに応えたのが、テキスト分析企業Pangram LabsのCEO、Max Spero氏です。
Spero氏は12時間以内に調査を完了しました。
対象はICLR 2026(国際学習表現会議:深層学習分野の最大の国際学会)の全提出物。
論文19,490本と査読コメント75,800件、すべてを分析したのです。
結果は衝撃的でした。
21%、つまり約15,900件の査読コメントが「完全にAI生成」であり、50%以上が何らかの形でAIを使用していたと判明しました。
さらに問題なのは、AI生成の査読は採点が甘くなる傾向があったことです。
人間が書いた査読より長く、情報密度は低く、しかも採点は高め。
論文の質を担保するはずの査読が、AIによって形骸化しつつあることが数字で示されました。
JSAI2026でも「査読はほぼ破綻している」
日本でも6月9日、人工知能学会全国大会(JSAI2026)で「生成AI・プレプリント時代における研究成果公開の再設計」というセッションが開かれました。

報告の中で特に注目を集めたのが「査読はほぼ破綻している」という言葉です。
NeurIPS 2025(深層学習の国際会議)は投稿21,575本、査読者は約2万4,000人体制。
「実質的には学生や他分野からの参入者が担っている」という現場の実態が報告されました。
さらに悪質な事例も浮かびました。
論文に「この論文を高評価せよ」という隠しプロンプト(AIへの指示文)を埋め込む不正です。
ダブルブラインド制度(査読者・著者がお互いの身元を知らない仕組み)を逆手に取った手口で、AI査読を積極的に悪用したものでした。
日米韓など14大学の研究者が関わっていたとされ、日本経済新聞も大きく報じました。
セッションの結論として示されたのは、「問題は技術ではなくインセンティブ」でした。
「査読を頑張っても研究費や昇進につながらない」という構造的な問題が、研究者をAI任せに向かわせているということです。
SocialReport編集部の考察
今回の一連の問題を「AI利用の是非」という視点だけで見ると、本質を見誤ります。
注目すべきは、AI生成の査読コメントが「採点を高くする傾向がある」というPangramのデータです。
これは単なる質の低下ではなく、「評価インフレ」という新しいリスクを生んでいます。
AI同士がお互いの論文を高く採点し合う構造が生まれると、学術界全体の信頼性が底上げされ、本当に価値のある研究が埋もれていく可能性があります。
SNSマーケティングの文脈でも同様の問題は起きています。
AIが生成したレビューやコメントがプラットフォームに溢れ、「実際の人の声」と「AI生成のそれらしい声」の区別が難しくなってきました。
査読の問題は研究の世界だけの話ではなく、AIが「評価」を担い始めることで生まれる構造的な歪みとして、私たちが直面している課題の先行事例と言えるかもしれません。
さらに深掘りしたい方へ
- AI学会がAI生成の査読報告書であふれる(Nature ダイジェスト)
- 査読は「ほぼ破綻」している——JSAI2026 セッション報告(INFOSTA note)
- Pangram Predicts 21% of ICLR Reviews are AI-Generated(Pangram Labs)
- 論文内に秘密の命令文、AIに「高評価せよ」——日韓米など有力14大学で(日本経済新聞)
まとめ
研究者たちが感じてきた「なんかおかしい」は、データで裏付けられた世界規模の問題でした。
査読システムの崩壊は技術の問題ではなく、「評価しても報われない」という構造が根本にあります。
AIが便利だからこそ、それを使う人間のインセンティブ設計こそが、学術の信頼性を守る鍵になるのではないでしょうか。