AI最新情報読了 6 分

「小学生の算数で正答率が65%落ちる」——Appleが問い続ける”AIは本当に考えているのか”

Shiritomo編集部 @shiritomoAI_jp 2026年6月6日更新

「小学生でも解けるような算数の問題に、まったく関係のない文章を1行加えるだけで、最先端のAIが正答率を65%も落としてしまう。」

この事実を初めて目にしたとき、思わず読み返してしまいました。

Xを眺めていたら、Appleの研究論文についての議論が静かに広がっているのを見つけたのです。
「AIは本当に数学を理解しているのか？」——2024年から2025年にかけて、この問いをめぐってAI研究者やエンジニアの間で激しい議論が繰り広げられ、その余波は2026年の今も収まっていません。

「どうせ大丈夫」「AIは賢いから」と思っていた方にこそ、一度立ち止まって読んでほしい話です。

Appleが突きつけた「パターンマッチングの証拠」

2024年10月、Appleの研究チームが発表した論文「GSM-Symbolic」の実験はシンプルながら衝撃的でした。

「1個80円のリンゴを5個買いました。
合計はいくらですか？」のような算数の問題に、「今日は晴れでした」「バナナが3本あります」といった解答にまったく関係のない文章を追加しただけで、GPT-4oやClaudeなどの最先端モデルが正答率を大きく落としたのです。

関係のない情報が増えるほど、AIの正答率はどんどん下がっていきました。
最初は60%台だったものが、ノイズを積み重ねると25%台まで崩れたケースも報告されています。

本来であれば「余計な情報は無視して本質的な計算に集中する」のが正しい推論のはずです。
しかし最先端AIは、そのノイズに引きずられてしまった。

「これはAIが理解して解いているのではなく、訓練データのパターンを当てはめているだけである証拠だ」というのが、Appleの研究チームの主張です。

2025年——さらに強力な「思考の錯覚」論文が登場

2025年6月、Appleはさらに踏み込んだ論文「The Illusion of Thinking（思考の錯覚）」を発表しました。

今回の試験対象は「推論モデル（LRM: Large Reasoning Model）」と呼ばれる次世代AIです。
OpenAIのo3-miniやAnthropicのClaude 3.7 Sonnet Thinkingのような、通常モデルより長い時間をかけて「深く考える」よう設計されたモデルが対象になりました。

実験に使われたのは「ハノイの塔」「川渡り問題」「ブロック世界」といった古典的なパズルです。
問題の複雑さを段階的に上げていくと、どのモデルも途中から急激に正答率が落ち始め、ある閾値を超えると正答率がほぼゼロに崩壊するという現象が観察されました。

単純な問題では「推論モデル」が通常のモデルを上回ります。
しかし中程度の複雑さを超えたとたん、性能が崩れ落ちる。
複雑さに比例して能力が伸び続けるのではなく、突然「臨界点」で壊滅する——この結果は、高度な推論モデルへの期待感に冷水を浴びせるものでした。

AI陣営からの反論——反論論文の著者はまさかの

当然ながら、AI研究者や企業側からの反論も出てきました。

「人間だって同じでは？」という声がまずあります。
人間も問題が複雑になれば間違えるし、余計な情報があれば判断を誤る。
AIだけを特別扱いするのはフェアではない、という指摘です。

また「パターンマッチングであっても、結果として仕事の役に立つなら問題ない」という実用論も根強くあります。
実際、o1やo3などのモデルはすでにコーディングや論文執筆などで確実な成果を出しています。

そして2025年6月、反論論文「The Illusion of the Illusion of Thinking（思考の錯覚という錯覚）」が登場しました。
著者はOpen Philanthropy のAlex Lawsen氏——そして共著者のひとりは、なんとAnthropicのClaude Opus自身でした。

批判した論文の対象となったAIが、その論文への反論を共著するという奇妙な構図です。

反論の主なポイントは「実験設計の欠陥」でした。
AIには出力できる文字数（トークン）に上限があります。
問題だけを複雑にして解答スペースを変えなければ、「短いメモ用紙に長編小説を書け」と命じるようなものだ、と指摘したのです。
正答率が崩壊したのは、推論能力の限界ではなく出力制約への対処問題だった可能性がある、というわけです。