Gemini 読了 5 分

ローカルAIが3倍速くなった——Google「Gemma 4 MTP Drafters」とは何か

shiritomo | AI・SNS・話題のテック情報メディア by Hashout編集部 @shiritomoAI_jp 2026年5月7日 更新
ローカルAIが3倍速くなった——Google「Gemma 4 MTP Drafters」とは何か

「ローカルAI、重くて使えない」——そう感じていた人に朗報です。
Googleが2026年5月5日、オープンソースAIモデル「Gemma 4」の推論速度を最大3倍に高速化する新技術「MTP Drafters(マルチトークン予測ドラフター)」を公開しました。

品質はそのまま、速度だけが上がる。
開発者たちがざわついているのも納得の内容です。

Gemma 4とは——Googleの「持ち出せるAI」

まず「Gemma 4」について簡単に。
GoogleがApache 2.0ライセンスで無料公開しているオープンソースAIモデルシリーズで、スマホやPCで動く小型モデル(E2B、E4B)から、ワークステーション向けの大型モデル(26B MoE、31B Dense)まで幅広いラインナップが揃っています。

テキスト・画像・動画に対応し、コーディングやエージェントタスクに強いのが特徴です。
クラウドに依存せずにローカル環境で動かせるため、プライバシーを重視する用途や、インターネット接続のない環境でも使えます。

発表から数週間でダウンロード数は6,000超えを記録しており、開発者コミュニティでの注目度は非常に高い状況でした。

MTP Draftersで何が変わるのか

MTP(Multi-Token Prediction)は「投機的デコード(Speculative Decoding)」と呼ばれる技術の応用です。

通常、LLMはトークン(単語の断片)を1つずつ順番に生成します。
この方式はメモリ帯域幅がボトルネックになりやすく、処理速度の限界になっていました。

MTP Draftersでは「ドラフターモデル」と呼ばれる軽量な補助AIが先読みしてトークンを複数まとめて予測し、本体モデルがその予測を一括検証します。
予測が合っていれば一気に採用、間違いがあれば修正——この繰り返しで、出力品質を落とさずに速度だけを上げることができます。

ドラフターモデルのサイズは非常に小さく(E2Bなら158MB、26Bでも839MB)、本体モデルへの影響は軽微です。

Googleが発表した実測値によると:
– NVIDIA RTX PRO 6000では通常比で約2倍のトークン/秒
– Apple Siliconでは最大2.2倍
各種フレームワーク(vLLM・MLX・Hugging Face)での最大3倍高速化

品質の劣化はなし——これが最大のポイントです。

Googleの開発者向けアカウントがリリース時にXで告知しています。

「同じ品質のまま、はるかに速く」という一言がこのアップデートを端的に表しています。

日本語でいち早く反応したのは国内のAI研究者たちです。

「うおっ、すげえ!Gemma4にMTP追加!トークン生成速度がモデルによって1.5~3倍にスピードアップするらしい!!」と興奮気味の投稿が多くのいいねを集めました。

「最大6倍速」の可能性も

さらに注目なのは、UC San DiegoのZhijian Liu氏らが開発した「DFlash」との組み合わせです。
MTP Draftersを単体で使えば最大3倍ですが、DFlash(オープンソース)と組み合わせると最大6倍の高速化が可能とのことです。

当然ながら、ハードウェアやモデルサイズによって実際の効果は変わります。
スマホ向けの小型モデルでは効果が出にくいケースもあります。
それでも、ローカルAI全体の実用性が引き上げられることは間違いなさそうです。

既存のデプロイ環境でもすぐ使える

MTP DraftersはHugging FaceのTransformers・vLLM・MLX・LiteRT-LMといった主要フレームワークが既にDay 0サポート(リリース日から対応)しています。
Ollamaも対応済みで、既存のGemma 4環境からの移行も比較的スムーズです。

「ローカルLLMの実用性が爆上がりした」——そんな声がXで広がっているのも、インストールの手軽さが背景にあります。

さらに深掘りしたい方へ

まとめ

Gemma 4 MTP Draftersは「ローカルAIが重い問題」に対するGoogleからの直接回答です。
品質を落とさずに最大3倍の速度向上を実現し、主要フレームワークへの対応も完了済みという充実ぶり。
クラウドに頼らない、手元で動くAIの可能性がまた一段階広がった発表でした。