「ClaudeもGPT-5.5も超えた」は本当か——中国Z.aiがGLM-5.2を公開、コーディングAIがオープンソースで世界に挑む

Claude Fable 5が米政府の輸出規制で突然使えなくなった翌日、気になる発表が飛び込んできました。

北京のAIラボ「Z.ai（旧Zhipu AI）」が、新たなコーディング特化モデル「GLM-5.2」を公開したのです。
しかも「SWE-bench ProでGPT-5.5を超えた」「Design Arenaで世界1位」「APIコストはClaude Fable 5の10分の1以下」という見出しが相次いで。
これは本当なのか、調べてみました。

GLM-5.2とはどんなモデルか

GLM-5.2は、Z.aiが2026年6月13日に公開した最新モデルです。
ベースとなるGLM-5アーキテクチャは総パラメータ753億のMixture-of-Experts（MoE、専門家混合型：大量のパラメータを用途に応じて使い分ける構成）で、推論時には約40億パラメータがアクティブになります。

最大の特徴はコンテキストウィンドウが前世代の20万トークンから100万トークンへ5倍に拡張されたこと。
長大なリポジトリを丸ごと読み込みながらコードを書き直す、いわゆる「リポジトリスケール」のタスクに対応できます。
推論の深さも「High」と「Max」の2段階で選択でき、コーディングには Max モードが推奨されています。

Claude CodeやClineなど8つのエージェントコーディングツールとも互換性があり、Anthropic互換エンドポイントを使ってClaude Codeの接続先をGLM-5.2に差し替えることも可能です。

ベンチマークの実態——「超えた」はどこまで本当か

Xでは「Claude Opus 4.7超え」「GPT-5.5超え」という見出しが駆け巡りましたが、実態はやや複雑です。

まずZ.aiはリリース時点でGLM-5.2の公式ベンチマークスコアを公開していませんでした。
各所で出回っている数値は前世代のGLM-5.1ベースのものや、独立した第三者機関による測定です。

第三者評価で確認できた主な結果は以下の通りです：

SWE-bench Pro（コード修正タスク）: GLM-5.2が62.1%を記録し、GPT-5.5の58.6%を上回りました。
ただしClaude Opus 4.8の数値は75%前後と報告されており、そちらには届いていません。

Terminal-Bench 2.1: GLM-5.2が81.0点。
Claude Opus 4.8（85.0点）とGPT-5.5（84.0点）よりわずかに低い位置です。

Design Arena（デザイン生成の評価）: ELOスコア1360でDesign Arena 1位を獲得。
こちらはフロンティアモデルを上回る結果でした。

Agent Arena（エージェントタスク総合）: 全モデル中10位で、Claude Opus 4.8（非思考モード）と拮抗する水準。
オープンソースモデルとしては断トツの1位です。

まとめると「GPT-5.5に対しては一部のコーディングベンチマークで優位」「Claude Opus 4.8に対してはほぼ同等か若干下」というのが現時点での実態です。
「全てのモデルを超えた」というわけではありませんが、無料で入手できるモデルとしては異例の水準です。

Xでの反応——Fable 5停止の翌日というタイミング

GLM-5.2の発表は、Claude Fable 5が米国政府の輸出規制で停止した翌日。
このタイミングが注目を集めました。

Introducing GLM-5.2: Frontier Intelligence, Open Weights

– Significant improvements in coding and agentic tasks
– Strong long-horizon capabilities with a 1M context window
– Two levels of reasoning effort: GLM-5.2 (max) pushes the limits, while GLM-5.2 (high) strikes a strong… pic.twitter.com/SjGPSVhePJ
— Z.ai (@Zai_org) 2026年6月16日

Z.aiの公式アカウントはGLM-5.2を「オープンウェイト、コーディング特化、1Mコンテキスト」の3点で紹介。
Agent Arena公式も「オープンモデル中1位、Claude Opus 4.8の非思考モードに匹敵」とコメントしました。

GLM-5.2 (Max) by @Zai_org ranks #10 on the new Agent Arena leaderboard, closely matching Claude-Opus-4.8 (non-thinking) and is the #1 open model by a wide margin!

In Agent Arena, we measure models on millions of real-world, long-horizon agentic tasks from a global community of… https://t.co/rfbLL7vHAD pic.twitter.com/J1EDyJSc6A
— Arena.ai (@arena) 2026年6月16日

日本の開発者コミュニティでも反応がありました。
ぬこぬこ（@nukonuko）氏は GLM Coding Plan の全ユーザーに即日提供されること、来週以降にAPIとMITライセンスのオープンウェイトが公開予定であることを整理して紹介しました。

GLM Coding Plan にて GLM-5.2 が使えるように

すべてのプランが対象。来週 API とチャットからも使えて、MIT ライセンスのオープンウェイトモデルとしても公開予定。リーズニングエフォートとして High と Max を選べて、コーディングタスクでは Max がオススメ。https://t.co/SFZj2FQgHa
— ぬこぬこ / NUKO 🇯🇵 (@nukonuko) 2026年6月13日

一方、実際に試したエンジニアからは冷静な声も上がっています。
Shoei（@shoei05）氏は「コーディング用途では素晴らしいが、検索や執筆タスクでは設定ファイルを無視して事前知識で答えるハルシネーションリスクがある」と指摘しており、用途を選んで使う必要がありそうです。

GLM-5.2コーディング用途では素晴らしいと思っています。一方で、検索や執筆タスクに関しては、設定ファイルを飛ばして、事前知識で答えるというハルシネーションリスクが私の用途だと多めで使い所は選びそうだなと思っています。 https://t.co/dbCkkN3JB9
— Shoei (@shoei05) 2026年6月16日

価格とアクセス——本当に安いのか

GLM Coding Planは月額定額制で、Liteプランは約16ドル（約2,500円）から利用可能です。
GLM-5.1の入力トークン単価は$1.40/Mとされており、これはGPT-5.5の約6分の1、Claude Fable 5の10分の1以下です。

ただし2026年6月17日時点では、モデルの重み（weights）はまだ公開されていません。
MITライセンスでの公開は6月22日の週が予定されており、公開後はセルフホストも可能になる見通しです（ただし753Bパラメータのため、手元で動かすには相応のGPUメモリが必要です）。

さらに深掘りしたい方へ

SocialReport編集部の考察

GLM-5.2が示した最大の価値は、ベンチマーク数値よりも「Claude Fable 5が突然使えなくなった翌日に即日利用可能だった」という事実そのものではないでしょうか。

AI開発者の間で以前から議論されてきた「クローズドモデル一択の危うさ」が、今回の規制で一気に現実問題になりました。
フロンティアモデルへのアクセスが政府の意思決定一つで遮断されるリスクは、特に業務でAIに依存しているチームには深刻です。

SNSマーケターやAI活用担当者の視点では、「AIコーディングツールの話は自分には関係ない」と感じるかもしれません。
しかしAIツールの可用性リスクは全てのSaaS系AIサービスに共通する問題です。
今後、主力AIプロバイダーのサービスが何らかの理由で利用不可になった際に、すぐ乗り換えられる代替を調べておくことは、今すぐにでもやっておく価値があります。

オープンソースモデルが「商用クローズドモデルに対してほぼ互角」に近づいてきた今、選択肢を増やしておく戦略の意味は大きいと言えます。

まとめ

GLM-5.2は「全モデルを超えた万能AI」ではありませんが、コーディング特化のオープンソースモデルとして現時点で最高水準の性能を持ちます。
Claude Fable 5停止という混乱のタイミングで公開されたことで、AIモデル選定のリスク分散という議論が改めて注目されています。
MITライセンスのウェイト公開（6月22日週予定）が完了すれば、より広い用途での評価が進みそうです。