3Bの計算コストで35Bの賢さ──アリババが無料公開した「Qwen3.6」がローカルAI界を席巻中

shiritomo | AI・SNS・話題のテック情報メディア by Hashout編集部 @shiritomoAI_jp 2026年4月19日更新

「ローカルで動かして、これだけ賢いのか」──思わずそう呟いてしまいました。

アリババのQwenチームが2026年4月16日に公開した新AIモデル「Qwen3.6-35B-A3B」が、開発者コミュニティで大きな話題になっています。

総パラメータ（モデルの賢さに影響する数値の総数）は350億ですが、実際に推論するときに動かすのはわずか30億分だけです。

それでいて性能は高い──この「効率のよさ」こそが、多くの開発者の心を掴んでいる理由のようです。

開発者コミュニティを沸かせた反応

公開直後から「Claude Opus 4.7に匹敵する」「RTX 5090で215トークン/秒」「日本語でも普通に使える」といった声が相次ぎました。

Hugging Face（AIモデルを公開・共有するプラットフォーム）では、リリース直後から量子化版（モデルを軽量化したもの）が次々と登場しています。

VRAM（グラフィックカードのメモリ）16GBのGPUで実用的に動かせると報告するユーザーが続出し、Apple SiliconのM3 UltraやM3 Max搭載MacBook Proでの動作報告も多くみられます。

ローカルで高性能なAIを動かしたい人にとっては、見逃せないニュースではないでしょうか。

Qwen3.6-35B-A3Bは、Mixture of Experts（MoE）アーキテクチャを採用したオープンソースのAIモデルです。

MoEとは、「多数の専門家（expert）をあらかじめ用意しておき、必要なときだけ呼び出す」という仕組みです。

総パラメータ数は350億ですが、1つのトークン（単語のかたまり）を処理するたびに実際に動くのは30億分だけ。

大きな知識プールを持ちながら、処理コストを大幅に抑えられるのが特徴です。

前世代や競合モデルとの比較で、Qwen3.6の性能は際立っています。

特に目を引くのがコーディング能力の高さです。

AIが実際のプログラミングタスクを自律的にこなす「エージェントコーディング」の指標では、他のオープンソースモデルを大きく引き離しています。

ライセンスはApache 2.0で、個人・商用を問わず無料で利用できます。

HuggingFaceとModelScopeで公開されており、量子化版（GGUF形式など）もコミュニティから多数提供されています。

「フロンティアモデルに匹敵する性能を、無料で、しかもローカルで」という組み合わせは、プライバシーを重視する企業やAPIコストを抑えたい開発者にとって、かなり魅力的な選択肢かもしれません。

350億パラメータの知性を、30億分の推論コストで動かす──Qwen3.6-35B-A3BはMoEアーキテクチャの可能性を実感させてくれる一作です。

ローカルLLMの選択肢として、すでに十分実用的なレベルに達しているのではないでしょうか。