「小学生の算数で正答率が65%落ちる」——Appleが問い続ける”AIは本当に考えているのか”
「小学生でも解けるような算数の問題に、まったく関係のない文章を1行加えるだけで、最先端のAIが正答率を65%も落としてしまう。」
この事実を初めて目にしたとき、思わず読み返してしまいました。
Xを眺めていたら、Appleの研究論文についての議論が静かに広がっているのを見つけたのです。
「AIは本当に数学を理解しているのか?」——2024年から2025年にかけて、この問いをめぐってAI研究者やエンジニアの間で激しい議論が繰り広げられ、その余波は2026年の今も収まっていません。
「どうせ大丈夫」「AIは賢いから」と思っていた方にこそ、一度立ち止まって読んでほしい話です。
Appleが突きつけた「パターンマッチングの証拠」
2024年10月、Appleの研究チームが発表した論文「GSM-Symbolic」の実験はシンプルながら衝撃的でした。
「1個80円のリンゴを5個買いました。
合計はいくらですか?」のような算数の問題に、「今日は晴れでした」「バナナが3本あります」といった解答にまったく関係のない文章を追加しただけで、GPT-4oやClaudeなどの最先端モデルが正答率を大きく落としたのです。

関係のない情報が増えるほど、AIの正答率はどんどん下がっていきました。
最初は60%台だったものが、ノイズを積み重ねると25%台まで崩れたケースも報告されています。
本来であれば「余計な情報は無視して本質的な計算に集中する」のが正しい推論のはずです。
しかし最先端AIは、そのノイズに引きずられてしまった。
「これはAIが理解して解いているのではなく、訓練データのパターンを当てはめているだけである証拠だ」というのが、Appleの研究チームの主張です。
2025年——さらに強力な「思考の錯覚」論文が登場
2025年6月、Appleはさらに踏み込んだ論文「The Illusion of Thinking(思考の錯覚)」を発表しました。
今回の試験対象は「推論モデル(LRM: Large Reasoning Model)」と呼ばれる次世代AIです。
OpenAIのo3-miniやAnthropicのClaude 3.7 Sonnet Thinkingのような、通常モデルより長い時間をかけて「深く考える」よう設計されたモデルが対象になりました。
実験に使われたのは「ハノイの塔」「川渡り問題」「ブロック世界」といった古典的なパズルです。
問題の複雑さを段階的に上げていくと、どのモデルも途中から急激に正答率が落ち始め、ある閾値を超えると正答率がほぼゼロに崩壊するという現象が観察されました。
単純な問題では「推論モデル」が通常のモデルを上回ります。
しかし中程度の複雑さを超えたとたん、性能が崩れ落ちる。
複雑さに比例して能力が伸び続けるのではなく、突然「臨界点」で壊滅する——この結果は、高度な推論モデルへの期待感に冷水を浴びせるものでした。
AI陣営からの反論——反論論文の著者はまさかの
当然ながら、AI研究者や企業側からの反論も出てきました。

「人間だって同じでは?」という声がまずあります。
人間も問題が複雑になれば間違えるし、余計な情報があれば判断を誤る。
AIだけを特別扱いするのはフェアではない、という指摘です。
また「パターンマッチングであっても、結果として仕事の役に立つなら問題ない」という実用論も根強くあります。
実際、o1やo3などのモデルはすでにコーディングや論文執筆などで確実な成果を出しています。
そして2025年6月、反論論文「The Illusion of the Illusion of Thinking(思考の錯覚という錯覚)」が登場しました。
著者はOpen Philanthropy のAlex Lawsen氏——そして共著者のひとりは、なんとAnthropicのClaude Opus自身でした。
批判した論文の対象となったAIが、その論文への反論を共著するという奇妙な構図です。
反論の主なポイントは「実験設計の欠陥」でした。
AIには出力できる文字数(トークン)に上限があります。
問題だけを複雑にして解答スペースを変えなければ、「短いメモ用紙に長編小説を書け」と命じるようなものだ、と指摘したのです。
正答率が崩壊したのは、推論能力の限界ではなく出力制約への対処問題だった可能性がある、というわけです。
「解けない」の原因はどこにあるのか
この議論を追いかけていると、ひとつの重要な問いに突き当たります。
「AIが解けない」と言うとき、それは「理解できないから」なのか、「制約があるから」なのか。
この2つは根本的に異なります。
前者であればアーキテクチャ(AIの設計構造そのもの)を根本から変えなければなりません。
後者であれば、計算資源の増加や設計の改良で改善できる余地があります。
Appleの研究チームは「現在のアプローチでは、汎化可能な推論能力を開発できない根本的な限界がある」と主張します。
もしこれが正しければ、AIはいくら賢くなっても「人間のように論理を組み立てて考える」という段階には永遠に届かない可能性があります。
一方で、反論側は「制約を正しく設計すれば問題は解消できる」という立場を取ります。
どちらが正しいかは、まだ決着がついていません。
「考えているように見えるのは錯覚で、実際には高度なパターンの達人なのが今のAIだ」——これが今の研究の最前線が示す姿です。
しかし「達人のパターン認識」は、すでに私たちの仕事を変え始めているのも事実です。
最終的な問いは「AIは本当に考えているか」から、「そのAIを私たちはどこで信頼し、どこで疑うべきか」へ移りつつあるのかもしれません。
さらに深掘りしたい方へ
- Apple公式論文「The Illusion of Thinking」
- ITmedia AI+:「LRM(大規模推論モデル)の推論能力に限界」
- ITmedia NEWS:「現在のLLMに真の推論は困難」(2024年GSM-Symbolic論文解説)
まとめ
「小学生の算数で65%正答率が落ちる」というAppleの発見は、AIの能力についての楽観論に重要な問いを突きつけています。
パターンマッチングか真の推論か——この論争は2026年の今も続いており、AIをどう信頼し、どう活用するかを考える上で避けて通れないテーマです。


