3Bの計算コストで35Bの賢さ──アリババが無料公開した「Qwen3.6」がローカルAI界を席巻中
「ローカルで動かして、これだけ賢いのか」──思わずそう呟いてしまいました。
アリババのQwenチームが2026年4月16日に公開した新AIモデル「Qwen3.6-35B-A3B」が、開発者コミュニティで大きな話題になっています。
総パラメータ(モデルの賢さに影響する数値の総数)は350億ですが、実際に推論するときに動かすのはわずか30億分だけです。
それでいて性能は高い──この「効率のよさ」こそが、多くの開発者の心を掴んでいる理由のようです。
開発者コミュニティを沸かせた反応
公開直後から「Claude Opus 4.7に匹敵する」「RTX 5090で215トークン/秒」「日本語でも普通に使える」といった声が相次ぎました。
Hugging Face(AIモデルを公開・共有するプラットフォーム)では、リリース直後から量子化版(モデルを軽量化したもの)が次々と登場しています。
VRAM(グラフィックカードのメモリ)16GBのGPUで実用的に動かせると報告するユーザーが続出し、Apple SiliconのM3 UltraやM3 Max搭載MacBook Proでの動作報告も多くみられます。
ローカルで高性能なAIを動かしたい人にとっては、見逃せないニュースではないでしょうか。
MoEの仕組みと実力を深掘りしてみました
Qwen3.6-35B-A3Bは、Mixture of Experts(MoE)アーキテクチャを採用したオープンソースのAIモデルです。
MoEとは、「多数の専門家(expert)をあらかじめ用意しておき、必要なときだけ呼び出す」という仕組みです。
総パラメータ数は350億ですが、1つのトークン(単語のかたまり)を処理するたびに実際に動くのは30億分だけ。
大きな知識プールを持ちながら、処理コストを大幅に抑えられるのが特徴です。
ベンチマークが語る実力
前世代や競合モデルとの比較で、Qwen3.6の性能は際立っています。
| ベンチマーク | Qwen3.6-35B-A3B | Gemma4-31B |
|---|---|---|
| SWE-bench Verified(コーディング) | 73.4% | 52.0% |
| Terminal-Bench 2.0 | 51.5% | 42.9% |
| MCPMark(ツール使用) | 37.0% | 18.1% |
| MMMU(マルチモーダル) | 81.7 | — |
特に目を引くのがコーディング能力の高さです。
AIが実際のプログラミングタスクを自律的にこなす「エージェントコーディング」の指標では、他のオープンソースモデルを大きく引き離しています。
無料で商用利用も可能
ライセンスはApache 2.0で、個人・商用を問わず無料で利用できます。
HuggingFaceとModelScopeで公開されており、量子化版(GGUF形式など)もコミュニティから多数提供されています。
「フロンティアモデルに匹敵する性能を、無料で、しかもローカルで」という組み合わせは、プライバシーを重視する企業やAPIコストを抑えたい開発者にとって、かなり魅力的な選択肢かもしれません。
さらに深掘りしたい方へ
- GitHub: QwenLM/Qwen3.6
- Pandaily: Alibaba Open-Sources Qwen3.6-35B-A3B
- DEV Community: Qwen3.6-35B-A3B Complete Review
- GIGAZINE: A Chinese AI called Qwen3.6-35B-A3B
まとめ
350億パラメータの知性を、30億分の推論コストで動かす──Qwen3.6-35B-A3BはMoEアーキテクチャの可能性を実感させてくれる一作です。
ローカルLLMの選択肢として、すでに十分実用的なレベルに達しているのではないでしょうか。