AI最新情報 読了 7 分

「16GBのラップトップで動かせる」——Google DeepMindがGemma 4 12Bを発表、マルチモーダルAIがついに手元に来た

shiritomo | AI・SNS・話題のテック情報メディア by Hashout編集部 @shiritomoAI_jp 2026年6月4日 更新
「16GBのラップトップで動かせる」——Google DeepMindがGemma 4 12Bを発表、マルチモーダルAIがついに手元に来た

普通のノートPCで、画像も音声も動画も、ぜんぶいっぺんに処理できるAIが動く——そんな話を聞いて、思わず手を止めました。

2026年6月3日、Google DeepMindが「Gemma 4 12B」を公開しました。
VRAM(グラフィックメモリ)16GBのラップトップで動かせるオープンウェイト(重みパラメータが一般公開された状態)のAIモデルです。
マルチモーダル、つまり画像・音声・動画・テキストを横断して処理できます。
ライセンスはApache 2.0なので、商用利用も無料です。

Gemmaシリーズはこれまでも開発者に人気でしたが、今回の12Bには「これは変わる」と感じた理由があります。
12Bパラメータクラスのモデルで音声入力をネイティブに処理できるのは、これが初めてだからです。
クラウドへの接続なしに、自分のPCで音声・画像・テキストを統合的に扱えるモデルが出てきました。

12Bという中型サイズで、音声・画像・動画・テキストをひとつのモデルでネイティブに処理できる——それがGemma 4 12Bの最大の特徴です。

Gemma 4ファミリーの中での12Bの位置づけ

Gemma 4のラインナップは5種類あります。
スマートフォン向けの超軽量な「E2B」「E4B」、コンシューマーGPUで動く「26B MoE(実効アクティブ約3.8B)」、ワークステーション向けの最高品質「31B Dense」、そして今回の「12B」です。

E4BとMoEの間を埋めるポジションで、ラップトップや小規模な開発環境をメインターゲットにしています。
スタートアップや個人開発者がローカルに構築するケースを想定した設計です。

Unslothというオープンソースプロジェクトが提供するDynamic GGUFsという量子化済みバージョンを使えば、VRAM 8GBのPCでも動作するとのことで、対応ハードウェアの幅はさらに広がっています。

エンコーダーなし設計が意味すること

従来のマルチモーダルモデルは「視覚エンコーダ」「音声エンコーダ」という専用の部品を別途組み込んでいました。
つまり、モデルが大きくなる・複数の処理系が混在して推論が重くなる、という問題がありました。

Gemma 4 12Bはこの設計を根本的に変えています。
エンコーダーを持たず、画像のパッチ(小分割した断片)や音声の波形データを、直接LLM(大規模言語モデル)の埋め込み空間(モデルが意味を数値化して扱う空間)に変換する仕組みです。
結果としてメモリ効率が上がり、レイテンシ(処理の遅延)も下がります。

コンテキスト長(一度に処理できるテキストの量)は256Kトークン。
日本語で言えば、数百ページ分の文書をまとめて渡しても処理できる規模です。

ベンチマーク性能はGPQA Diamond(大学院レベルの科学問題)で約78.8%、MMLU Proで約77.2%と、12Bクラスとしては高水準です。

Xで広がった開発者の反応

発表直後から、日本語圏の開発者コミュニティでも反応が広がりました。

ある日本語ツイートでは「VRAM 16GBで動作、26B MoEと同等ベンチ性能、Apache 2.0ライセンス——これは使うしかない」と要約されていました。

Ollamaプロジェクト(ローカルAIを手軽に動かすためのツール)は、発表当日にollama run gemma4:12b-mlxというコマンドで即日対応したことをアナウンスしました。
英語ですが「すぐ試せる環境が整った」という意味合いです。

Unsloth AIのアカウントは「Dynamic GGUFsを使えばRAM 8GBでも動く」と告知しており、ハイエンドGPUがなくても動かせることを強調しています(英語)。

開発者コミュニティ・r/LocalLLaMAでは量子化ビルドの比較やQwenとの性能対比が早速議論されており、「ローカルLLMのラインナップがまた変わった」という雰囲気でした。

調べたらわかったこと:音声がネイティブというのはどういうことか

気になって「ネイティブ音声入力」の意味を調べてみました。

従来のマルチモーダルモデルで音声を扱う場合、Whisperのような音声認識モデルで先にテキストに変換してから渡す、という二段階の処理が一般的でした。
Gemma 4 12Bは音声波形のデータをそのままモデルへ入力でき、「音声→テキスト変換の工程」が不要です。

これが実用的に何を意味するかというと、音声のニュアンス(抑揚・感情・タイミング)をモデルが直接受け取れる可能性があるということです。
テキストに変換した時点で失われていた情報を、保ったまま処理に活かせます。

音声をネイティブに処理できるということは、「文字にならない音声の情報」もAIが受け取れる、ということです。

さらに深掘りしたい方へ

ローカルAIが3倍速くなった——Google「Gemma 4 MTP Drafters」とは何かローカルAIが3倍速くなった——Google「Gemma 4 MTP Drafters」とは何かローカルAI、重くて使えない——そう感じていた人に朗報です。 Googleが2026年5月5日、オープンソースAIモデル「Gemma 4」の推論速度を最大3倍に高速化する新技術を公開しました。

まとめ

Gemma 4 12Bは「ローカルで動くマルチモーダルAI」という選択肢を、ずっと手の届きやすい場所に引き寄せてくれた一作です。
音声・画像・テキストをひとつのモデルで処理でき、Apache 2.0ライセンスなので商用プロダクトにも使えます。
16GBのラップトップがあれば試せる——そのハードルの低さが、このモデルの面白さだと感じています。