「16GBのラップトップで動かせる」——Google DeepMindがGemma 4 12Bを発表、マルチモーダルAIがついに手元に来た

普通のノートPCで、画像も音声も動画も、ぜんぶいっぺんに処理できるAIが動く——そんな話を聞いて、思わず手を止めました。

2026年6月3日、Google DeepMindが「Gemma 4 12B」を公開しました。
VRAM（グラフィックメモリ）16GBのラップトップで動かせるオープンウェイト（重みパラメータが一般公開された状態）のAIモデルです。
マルチモーダル、つまり画像・音声・動画・テキストを横断して処理できます。
ライセンスはApache 2.0なので、商用利用も無料です。

Gemmaシリーズはこれまでも開発者に人気でしたが、今回の12Bには「これは変わる」と感じた理由があります。
12Bパラメータクラスのモデルで音声入力をネイティブに処理できるのは、これが初めてだからです。
クラウドへの接続なしに、自分のPCで音声・画像・テキストを統合的に扱えるモデルが出てきました。

12Bという中型サイズで、音声・画像・動画・テキストをひとつのモデルでネイティブに処理できる——それがGemma 4 12Bの最大の特徴です。

Gemma 4ファミリーの中での12Bの位置づけ

Gemma 4のラインナップは5種類あります。
スマートフォン向けの超軽量な「E2B」「E4B」、コンシューマーGPUで動く「26B MoE（実効アクティブ約3.8B）」、ワークステーション向けの最高品質「31B Dense」、そして今回の「12B」です。

E4BとMoEの間を埋めるポジションで、ラップトップや小規模な開発環境をメインターゲットにしています。
スタートアップや個人開発者がローカルに構築するケースを想定した設計です。

Unslothというオープンソースプロジェクトが提供するDynamic GGUFsという量子化済みバージョンを使えば、VRAM 8GBのPCでも動作するとのことで、対応ハードウェアの幅はさらに広がっています。

エンコーダーなし設計が意味すること

従来のマルチモーダルモデルは「視覚エンコーダ」「音声エンコーダ」という専用の部品を別途組み込んでいました。
つまり、モデルが大きくなる・複数の処理系が混在して推論が重くなる、という問題がありました。

Gemma 4 12Bはこの設計を根本的に変えています。
エンコーダーを持たず、画像のパッチ（小分割した断片）や音声の波形データを、直接LLM（大規模言語モデル）の埋め込み空間（モデルが意味を数値化して扱う空間）に変換する仕組みです。
結果としてメモリ効率が上がり、レイテンシ（処理の遅延）も下がります。

コンテキスト長（一度に処理できるテキストの量）は256Kトークン。
日本語で言えば、数百ページ分の文書をまとめて渡しても処理できる規模です。

ベンチマーク性能はGPQA Diamond（大学院レベルの科学問題）で約78.8%、MMLU Proで約77.2%と、12Bクラスとしては高水準です。

Xで広がった開発者の反応

発表直後から、日本語圏の開発者コミュニティでも反応が広がりました。

ある日本語ツイートでは「VRAM 16GBで動作、26B MoEと同等ベンチ性能、Apache 2.0ライセンス——これは使うしかない」と要約されていました。

Gemma 4 12B

Google DeepMind のエンコーダフリーのマルチモーダルモデル。VRAM は 16GB で動作、26B MoE と同等程度のベンチマーク性能。Apache 2.0 ライセンス。Hugging Face、LM Studio、Google AI Edge Eloquent、LiteRT-LM CLI などで使える。https://t.co/MuGDhCVeyg
— ぬこぬこ / NUKO 🇯🇵 (@nukonuko) 2026年6月3日

Ollamaプロジェクト（ローカルAIを手軽に動かすためのツール）は、発表当日にollama run gemma4:12b-mlxというコマンドで即日対応したことをアナウンスしました。
英語ですが「すぐ試せる環境が整った」という意味合いです。

.@GoogleDeepMind's Gemma 4 – 12B is available on Ollama!

Chat:
ollama run gemma4:12b-mlx

Hermes Agent:
ollama launch hermes –model gemma4:12b-mlx

Claude Code:
ollama launch claude –model gemma4:12b-mlx

and more 👇👇👇

(Note, this currently works via MLX) pic.twitter.com/BWmHT9w33m
— ollama (@ollama) 2026年6月3日

Unsloth AIのアカウントは「Dynamic GGUFsを使えばRAM 8GBでも動く」と告知しており、ハイエンドGPUがなくても動かせることを強調しています（英語）。

Gemma 4 12B can now run locally on just 8GB RAM via Dynamic GGUFs.

Google's new model, Gemma 4 12B Unified supports image, audio and 256K context.

You can run and train the model via Unsloth Studio.

GGUF: https://t.co/8cL321pVDh
Guide: https://t.co/odRo9WjRpA https://t.co/052t9TT0ky pic.twitter.com/Ax09ZTXFF3
— Unsloth AI (@UnslothAI) 2026年6月3日

開発者コミュニティ・r/LocalLLaMAでは量子化ビルドの比較やQwenとの性能対比が早速議論されており、「ローカルLLMのラインナップがまた変わった」という雰囲気でした。

調べたらわかったこと：音声がネイティブというのはどういうことか

気になって「ネイティブ音声入力」の意味を調べてみました。

従来のマルチモーダルモデルで音声を扱う場合、Whisperのような音声認識モデルで先にテキストに変換してから渡す、という二段階の処理が一般的でした。
Gemma 4 12Bは音声波形のデータをそのままモデルへ入力でき、「音声→テキスト変換の工程」が不要です。

これが実用的に何を意味するかというと、音声のニュアンス（抑揚・感情・タイミング）をモデルが直接受け取れる可能性があるということです。
テキストに変換した時点で失われていた情報を、保ったまま処理に活かせます。

音声をネイティブに処理できるということは、「文字にならない音声の情報」もAIが受け取れる、ということです。

さらに深掘りしたい方へ

まとめ

Gemma 4 12Bは「ローカルで動くマルチモーダルAI」という選択肢を、ずっと手の届きやすい場所に引き寄せてくれた一作です。
音声・画像・テキストをひとつのモデルで処理でき、Apache 2.0ライセンスなので商用プロダクトにも使えます。
16GBのラップトップがあれば試せる——そのハードルの低さが、このモデルの面白さだと感じています。

SNS効果測定サービス hashout は Social Report へ

Gemma 4ファミリーの中での12Bの位置づけ

エンコーダーなし設計が意味すること

Xで広がった開発者の反応

調べたらわかったこと：音声がネイティブというのはどういうことか

さらに深掘りしたい方へ

まとめ

AIと仕事が交差する「今」を、
毎日お届けします。

SNS効果測定サービス hashout は Social Report へ

Gemma 4ファミリーの中での12Bの位置づけ

エンコーダーなし設計が意味すること

Xで広がった開発者の反応

調べたらわかったこと：音声がネイティブというのはどういうことか

さらに深掘りしたい方へ

まとめ

関連記事

AIの「ロボット声」問題を解決するか——Miso Labs がオープンウェイト TTS モデル「Miso One」を公開

「SaaSは今日死にましたね」——OpenAI Codex Sitesが再び点けた議論の火

「呼ばなくても動く」AIが職場に来た——マイクロソフト「Scout」が変える、自律型エージェントの時代

SNS分析を実務で進めたい方へ

AIと仕事が交差する「今」を、毎日お届けします。

AIと仕事が交差する「今」を、
毎日お届けします。