「16GBのラップトップで動かせる」——Google DeepMindがGemma 4 12Bを発表、マルチモーダルAIがついに手元に来た
普通のノートPCで、画像も音声も動画も、ぜんぶいっぺんに処理できるAIが動く——そんな話を聞いて、思わず手を止めました。
2026年6月3日、Google DeepMindが「Gemma 4 12B」を公開しました。
VRAM(グラフィックメモリ)16GBのラップトップで動かせるオープンウェイト(重みパラメータが一般公開された状態)のAIモデルです。
マルチモーダル、つまり画像・音声・動画・テキストを横断して処理できます。
ライセンスはApache 2.0なので、商用利用も無料です。
Gemmaシリーズはこれまでも開発者に人気でしたが、今回の12Bには「これは変わる」と感じた理由があります。
12Bパラメータクラスのモデルで音声入力をネイティブに処理できるのは、これが初めてだからです。
クラウドへの接続なしに、自分のPCで音声・画像・テキストを統合的に扱えるモデルが出てきました。
12Bという中型サイズで、音声・画像・動画・テキストをひとつのモデルでネイティブに処理できる——それがGemma 4 12Bの最大の特徴です。
Gemma 4ファミリーの中での12Bの位置づけ
Gemma 4のラインナップは5種類あります。
スマートフォン向けの超軽量な「E2B」「E4B」、コンシューマーGPUで動く「26B MoE(実効アクティブ約3.8B)」、ワークステーション向けの最高品質「31B Dense」、そして今回の「12B」です。
E4BとMoEの間を埋めるポジションで、ラップトップや小規模な開発環境をメインターゲットにしています。
スタートアップや個人開発者がローカルに構築するケースを想定した設計です。

Unslothというオープンソースプロジェクトが提供するDynamic GGUFsという量子化済みバージョンを使えば、VRAM 8GBのPCでも動作するとのことで、対応ハードウェアの幅はさらに広がっています。
エンコーダーなし設計が意味すること
従来のマルチモーダルモデルは「視覚エンコーダ」「音声エンコーダ」という専用の部品を別途組み込んでいました。
つまり、モデルが大きくなる・複数の処理系が混在して推論が重くなる、という問題がありました。
Gemma 4 12Bはこの設計を根本的に変えています。
エンコーダーを持たず、画像のパッチ(小分割した断片)や音声の波形データを、直接LLM(大規模言語モデル)の埋め込み空間(モデルが意味を数値化して扱う空間)に変換する仕組みです。
結果としてメモリ効率が上がり、レイテンシ(処理の遅延)も下がります。
コンテキスト長(一度に処理できるテキストの量)は256Kトークン。
日本語で言えば、数百ページ分の文書をまとめて渡しても処理できる規模です。
ベンチマーク性能はGPQA Diamond(大学院レベルの科学問題)で約78.8%、MMLU Proで約77.2%と、12Bクラスとしては高水準です。
Xで広がった開発者の反応
発表直後から、日本語圏の開発者コミュニティでも反応が広がりました。

ある日本語ツイートでは「VRAM 16GBで動作、26B MoEと同等ベンチ性能、Apache 2.0ライセンス——これは使うしかない」と要約されていました。
Gemma 4 12B
— ぬこぬこ / NUKO 🇯🇵 (@nukonuko) 2026年6月3日
Google DeepMind のエンコーダフリーのマルチモーダルモデル。VRAM は 16GB で動作、26B MoE と同等程度のベンチマーク性能。Apache 2.0 ライセンス。Hugging Face、LM Studio、Google AI Edge Eloquent、LiteRT-LM CLI などで使える。https://t.co/MuGDhCVeyg
Ollamaプロジェクト(ローカルAIを手軽に動かすためのツール)は、発表当日にollama run gemma4:12b-mlxというコマンドで即日対応したことをアナウンスしました。
英語ですが「すぐ試せる環境が整った」という意味合いです。
.@GoogleDeepMind's Gemma 4 – 12B is available on Ollama!
— ollama (@ollama) 2026年6月3日
Chat:
ollama run gemma4:12b-mlx
Hermes Agent:
ollama launch hermes –model gemma4:12b-mlx
Claude Code:
ollama launch claude –model gemma4:12b-mlx
and more 👇👇👇
(Note, this currently works via MLX) pic.twitter.com/BWmHT9w33m
Unsloth AIのアカウントは「Dynamic GGUFsを使えばRAM 8GBでも動く」と告知しており、ハイエンドGPUがなくても動かせることを強調しています(英語)。
Gemma 4 12B can now run locally on just 8GB RAM via Dynamic GGUFs.
— Unsloth AI (@UnslothAI) 2026年6月3日
Google's new model, Gemma 4 12B Unified supports image, audio and 256K context.
You can run and train the model via Unsloth Studio.
GGUF: https://t.co/8cL321pVDh
Guide: https://t.co/odRo9WjRpA https://t.co/052t9TT0ky pic.twitter.com/Ax09ZTXFF3
開発者コミュニティ・r/LocalLLaMAでは量子化ビルドの比較やQwenとの性能対比が早速議論されており、「ローカルLLMのラインナップがまた変わった」という雰囲気でした。
調べたらわかったこと:音声がネイティブというのはどういうことか
気になって「ネイティブ音声入力」の意味を調べてみました。
従来のマルチモーダルモデルで音声を扱う場合、Whisperのような音声認識モデルで先にテキストに変換してから渡す、という二段階の処理が一般的でした。
Gemma 4 12Bは音声波形のデータをそのままモデルへ入力でき、「音声→テキスト変換の工程」が不要です。
これが実用的に何を意味するかというと、音声のニュアンス(抑揚・感情・タイミング)をモデルが直接受け取れる可能性があるということです。
テキストに変換した時点で失われていた情報を、保ったまま処理に活かせます。
音声をネイティブに処理できるということは、「文字にならない音声の情報」もAIが受け取れる、ということです。
さらに深掘りしたい方へ
- Gemma 4 12B 公式ブログ(英語)
- Google DeepMind Gemma 4 モデルページ(英語)
- Hugging Face — google/gemma-4-12B(英語)
- Gizmodo Japan — Gemma 4 12B解説
まとめ
Gemma 4 12Bは「ローカルで動くマルチモーダルAI」という選択肢を、ずっと手の届きやすい場所に引き寄せてくれた一作です。
音声・画像・テキストをひとつのモデルで処理でき、Apache 2.0ライセンスなので商用プロダクトにも使えます。
16GBのラップトップがあれば試せる——そのハードルの低さが、このモデルの面白さだと感じています。
