ローカルAIが3倍速くなった——Google「Gemma 4 MTP Drafters」とは何か

「ローカルAI、重くて使えない」——そう感じていた人に朗報です。
Googleが2026年5月5日、オープンソースAIモデル「Gemma 4」の推論速度を最大3倍に高速化する新技術「MTP Drafters（マルチトークン予測ドラフター）」を公開しました。

品質はそのまま、速度だけが上がる。
開発者たちがざわついているのも納得の内容です。

Gemma 4とは——Googleの「持ち出せるAI」

まず「Gemma 4」について簡単に。
GoogleがApache 2.0ライセンスで無料公開しているオープンソースAIモデルシリーズで、スマホやPCで動く小型モデル（E2B、E4B）から、ワークステーション向けの大型モデル（26B MoE、31B Dense）まで幅広いラインナップが揃っています。

テキスト・画像・動画に対応し、コーディングやエージェントタスクに強いのが特徴です。
クラウドに依存せずにローカル環境で動かせるため、プライバシーを重視する用途や、インターネット接続のない環境でも使えます。

発表から数週間でダウンロード数は6,000超えを記録しており、開発者コミュニティでの注目度は非常に高い状況でした。

MTP Draftersで何が変わるのか

MTP（Multi-Token Prediction）は「投機的デコード（Speculative Decoding）」と呼ばれる技術の応用です。

通常、LLMはトークン（単語の断片）を1つずつ順番に生成します。
この方式はメモリ帯域幅がボトルネックになりやすく、処理速度の限界になっていました。

MTP Draftersでは「ドラフターモデル」と呼ばれる軽量な補助AIが先読みしてトークンを複数まとめて予測し、本体モデルがその予測を一括検証します。
予測が合っていれば一気に採用、間違いがあれば修正——この繰り返しで、出力品質を落とさずに速度だけを上げることができます。

ドラフターモデルのサイズは非常に小さく（E2Bなら158MB、26Bでも839MB）、本体モデルへの影響は軽微です。

Googleが発表した実測値によると：
– NVIDIA RTX PRO 6000では通常比で約2倍のトークン/秒
– Apple Siliconでは最大2.2倍
– 各種フレームワーク（vLLM・MLX・Hugging Face）での最大3倍高速化

品質の劣化はなし——これが最大のポイントです。

Googleの開発者向けアカウントがリリース時にXで告知しています。

Gemma 4: Now up to 3x Faster. ⚡

Same quality, way more speed. Our new MTP drafters allow Gemma 4 to predict multiple tokens at once, effectively tripling your output speed without compromising intelligence. pic.twitter.com/xyltPFFVMw
— Google for Developers (@googledevs) 2026年5月5日

「同じ品質のまま、はるかに速く」という一言がこのアップデートを端的に表しています。

日本語でいち早く反応したのは国内のAI研究者たちです。

うおっ、すげえ！Gemma4にMTP（マルチトークン予測）機能が追加！要するにトークン生成速度がモデルによって1.5～3倍にスピードアップするらしい！！ただしLlama.cppでサポートされるかどうかは分からん https://t.co/z5geFsjBct
— うみゆき@AI研究 (@umiyuki_ai) 2026年5月5日

「うおっ、すげえ！Gemma4にMTP追加！トークン生成速度がモデルによって1.5～3倍にスピードアップするらしい！！」と興奮気味の投稿が多くのいいねを集めました。

「最大6倍速」の可能性も

さらに注目なのは、UC San DiegoのZhijian Liu氏らが開発した「DFlash」との組み合わせです。
MTP Draftersを単体で使えば最大3倍ですが、DFlash（オープンソース）と組み合わせると最大6倍の高速化が可能とのことです。

当然ながら、ハードウェアやモデルサイズによって実際の効果は変わります。
スマホ向けの小型モデルでは効果が出にくいケースもあります。
それでも、ローカルAI全体の実用性が引き上げられることは間違いなさそうです。

既存のデプロイ環境でもすぐ使える

MTP DraftersはHugging FaceのTransformers・vLLM・MLX・LiteRT-LMといった主要フレームワークが既にDay 0サポート（リリース日から対応）しています。
Ollamaも対応済みで、既存のGemma 4環境からの移行も比較的スムーズです。

「ローカルLLMの実用性が爆上がりした」——そんな声がXで広がっているのも、インストールの手軽さが背景にあります。

さらに深掘りしたい方へ

まとめ

Gemma 4 MTP Draftersは「ローカルAIが重い問題」に対するGoogleからの直接回答です。
品質を落とさずに最大3倍の速度向上を実現し、主要フレームワークへの対応も完了済みという充実ぶり。
クラウドに頼らない、手元で動くAIの可能性がまた一段階広がった発表でした。

SNS効果測定サービス hashout は Social Report へ

Gemma 4とは——Googleの「持ち出せるAI」

MTP Draftersで何が変わるのか

「最大6倍速」の可能性も

既存のデプロイ環境でもすぐ使える

さらに深掘りしたい方へ

まとめ

AIと仕事が交差する「今」を、
毎日お届けします。

SNS効果測定サービス hashout は Social Report へ

Gemma 4とは——Googleの「持ち出せるAI」

MTP Draftersで何が変わるのか

「最大6倍速」の可能性も

既存のデプロイ環境でもすぐ使える

さらに深掘りしたい方へ

まとめ

関連記事

Google Workspace Studioがついに日本語対応——「英語の壁」が消えた業務自動化ツールを試してみた

Google HomeにGeminiが来た——日本のスマートスピーカーがひそかに進化している

Google、インド初AIハブをビシャカパトナムで着工——150億ドルの超大型投資が動き出した

AIと仕事が交差する「今」を、毎日お届けします。

AIと仕事が交差する「今」を、
毎日お届けします。