ローカルAIが3倍速くなった——Google「Gemma 4 MTP Drafters」とは何か
「ローカルAI、重くて使えない」——そう感じていた人に朗報です。
Googleが2026年5月5日、オープンソースAIモデル「Gemma 4」の推論速度を最大3倍に高速化する新技術「MTP Drafters(マルチトークン予測ドラフター)」を公開しました。
品質はそのまま、速度だけが上がる。
開発者たちがざわついているのも納得の内容です。
Gemma 4とは——Googleの「持ち出せるAI」
まず「Gemma 4」について簡単に。
GoogleがApache 2.0ライセンスで無料公開しているオープンソースAIモデルシリーズで、スマホやPCで動く小型モデル(E2B、E4B)から、ワークステーション向けの大型モデル(26B MoE、31B Dense)まで幅広いラインナップが揃っています。
テキスト・画像・動画に対応し、コーディングやエージェントタスクに強いのが特徴です。
クラウドに依存せずにローカル環境で動かせるため、プライバシーを重視する用途や、インターネット接続のない環境でも使えます。
発表から数週間でダウンロード数は6,000超えを記録しており、開発者コミュニティでの注目度は非常に高い状況でした。
MTP Draftersで何が変わるのか
MTP(Multi-Token Prediction)は「投機的デコード(Speculative Decoding)」と呼ばれる技術の応用です。
通常、LLMはトークン(単語の断片)を1つずつ順番に生成します。
この方式はメモリ帯域幅がボトルネックになりやすく、処理速度の限界になっていました。

MTP Draftersでは「ドラフターモデル」と呼ばれる軽量な補助AIが先読みしてトークンを複数まとめて予測し、本体モデルがその予測を一括検証します。
予測が合っていれば一気に採用、間違いがあれば修正——この繰り返しで、出力品質を落とさずに速度だけを上げることができます。
ドラフターモデルのサイズは非常に小さく(E2Bなら158MB、26Bでも839MB)、本体モデルへの影響は軽微です。
Googleが発表した実測値によると:
– NVIDIA RTX PRO 6000では通常比で約2倍のトークン/秒
– Apple Siliconでは最大2.2倍
– 各種フレームワーク(vLLM・MLX・Hugging Face)での最大3倍高速化
品質の劣化はなし——これが最大のポイントです。

Googleの開発者向けアカウントがリリース時にXで告知しています。
Gemma 4: Now up to 3x Faster. ⚡
— Google for Developers (@googledevs) 2026年5月5日
Same quality, way more speed. Our new MTP drafters allow Gemma 4 to predict multiple tokens at once, effectively tripling your output speed without compromising intelligence. pic.twitter.com/xyltPFFVMw
「同じ品質のまま、はるかに速く」という一言がこのアップデートを端的に表しています。
日本語でいち早く反応したのは国内のAI研究者たちです。
うおっ、すげえ!Gemma4にMTP(マルチトークン予測)機能が追加!要するにトークン生成速度がモデルによって1.5~3倍にスピードアップするらしい!!ただしLlama.cppでサポートされるかどうかは分からん https://t.co/z5geFsjBct
— うみゆき@AI研究 (@umiyuki_ai) 2026年5月5日
「うおっ、すげえ!Gemma4にMTP追加!トークン生成速度がモデルによって1.5~3倍にスピードアップするらしい!!」と興奮気味の投稿が多くのいいねを集めました。
「最大6倍速」の可能性も
さらに注目なのは、UC San DiegoのZhijian Liu氏らが開発した「DFlash」との組み合わせです。
MTP Draftersを単体で使えば最大3倍ですが、DFlash(オープンソース)と組み合わせると最大6倍の高速化が可能とのことです。
当然ながら、ハードウェアやモデルサイズによって実際の効果は変わります。
スマホ向けの小型モデルでは効果が出にくいケースもあります。
それでも、ローカルAI全体の実用性が引き上げられることは間違いなさそうです。
既存のデプロイ環境でもすぐ使える
MTP DraftersはHugging FaceのTransformers・vLLM・MLX・LiteRT-LMといった主要フレームワークが既にDay 0サポート(リリース日から対応)しています。
Ollamaも対応済みで、既存のGemma 4環境からの移行も比較的スムーズです。
「ローカルLLMの実用性が爆上がりした」——そんな声がXで広がっているのも、インストールの手軽さが背景にあります。
さらに深掘りしたい方へ
- Gemma 4の推論速度が最大3倍に(MTPドラフター解説) – HelenTech
- マルチトークン予測でGemma 4を高速化する – Google AI for Developers
- Accelerating Gemma 4: faster inference with multi-token prediction drafters – Google Blog
まとめ
Gemma 4 MTP Draftersは「ローカルAIが重い問題」に対するGoogleからの直接回答です。
品質を落とさずに最大3倍の速度向上を実現し、主要フレームワークへの対応も完了済みという充実ぶり。
クラウドに頼らない、手元で動くAIの可能性がまた一段階広がった発表でした。