コーディングAIの新王者?中国Moonshot AIがKimi K2.6をオープンソース公開
「ClaudeやGPTを超えた」——そんな言葉を見かけて、思わず二度見してしまいました。
中国のMoonshot AIが公開した「Kimi K2.6」が、コーディング能力を測るベンチマークで主要モデルをおさえてトップに立ったというのです。
しかもオープンソース(誰でも無償で利用・改変できる形式)での公開。気になって深掘りしてみました。
開発者コミュニティで何が起きているか
2026年4月20日のリリース後、Kimi K2.6はAI開発者の間で急速に注目を集めています。
「1兆パラメータのMoE(複数の小モデルを使い分ける混合エキスパート)モデルがオープンウェイトで公開された」という事実だけでも驚きですが、ベンチマーク結果がさらに話題を大きくしました。
「GPT-4oやClaude 3.7 Sonnetと比較して明らかに優位なスコア」という評価が広まり、実際に試した人たちの感想が続々と投稿されています。
中国発のモデルが海外の主要AIを公開ベンチマークで上回るというのは、AI業界のパワーバランスが変わりつつあることを示しているのではないでしょうか。
Kimi K2.6、実際どんなモデルか
基本スペックを確認してみました
Kimi K2.6は、1兆パラメータのMoEアーキテクチャを採用しています。
処理ごとにアクティブになるのは32億パラメータで、全部を同時に動かすわけではありません。
コンテキストウィンドウ(一度に扱えるテキストの長さ)は256K、384のエキスパートで構成されており、画像を読み取るビジョンエンコーダーも内蔵しています。
ライセンスはModified MITで、モデルの重みはHugging Faceで公開済みです。
手軽に試したい場合は、platform.moonshot.aiからAPIアクセスも利用できます。
ベンチマーク結果を見てみると
- SWE-Bench Verified: 80.2%(コードの自動修正能力)
- SWE-Bench Pro: 58.6%(主要競合モデルをすべて超え)
- DeepSearchQA F1スコア: 92.5%
- Terminal-Bench 2.0: 66.7%
SWE-Bench(ソフトウェアエンジニアリングのリアルタスクを測る指標)は、実務に近いコーディング能力を評価する業界標準として知られています。
これらのスコアは、かなりインパクトのある数字ではないでしょうか。
エージェント機能も大幅に強化されています
K2.6では、300の並列サブエージェントが4,000ステップを同時実行できるマルチエージェント機能を搭載しています。
前世代のK2.5が100サブエージェント・1,500ステップだったことを考えると、大幅な進化です。
12時間超の継続的なツール呼び出しにも対応しており、長期・複雑なコーディングタスクに向いているようです。
使う前に知っておきたい点
ベンチマークスコアはあくまで特定の評価環境での結果で、実務での体験は異なる場合があります。
自前のサーバーで動かす(自己ホスト)場合にはGPUリソースが必要なため、手軽に始めるにはAPI経由が現実的でしょう。
もっと詳しく知りたい方へ
- Kimi K2: Open Agentic Intelligence – Moonshot AI公式
- Kimi K2.6 Has Arrived: An Open-Weight Powerhouse – Kilo.ai Blog
- Moonshot AI Releases Kimi K2.6, Beats Top US Models On Some Benchmarks – OfficeChai
まとめ
Kimi K2.6は、「中国産AIが米国の主要モデルに追いついた、あるいは追い越したかもしれない」という事実を示したモデルです。
オープンウェイトで公開されているため、開発者が自由に試せるのも大きな魅力。コーディングAIの選択肢が、一気に広がりましたね。