国産日本語医療AIが専門医試験で90.8%正答——患者データを国内で守りながら医師の作業負担を軽減へ

Shiritomo編集部 @shiritomoAI_jp 2026年5月29日更新

「患者情報を海外サーバに送らずに使えるAI」——そんな言葉を医療現場で聞いたとき、ピンときました。

ChatGPTやClaudeが医療に使われるようになる中で、「患者の個人情報が外部サーバに送信される」という懸念は根強く残っていました。
ところが2026年5月28日、NEDO（国立研究開発法人新エネルギー・産業技術総合開発機構）と東京大学をはじめとする10機関が、その課題を正面から解決した国産医療AIの成果を発表しました。

気になって調べてみたら、性能と安全性の両立という点で、これまでのAIとは少し違う発表でした。

90.8%という数字が示す意味

今回の発表で最も注目を集めた指標が、専門医試験の模擬ベンチマークで90.8%の正答率を達成したというものです。

ただし、この数字には条件があります。
「RAGあり」の状態、つまりAIが診療ガイドラインなどの参考文献をリアルタイムで検索・参照しながら回答した場合の数値です。
RAGなしの状態では83.5%でした。

比較対象となった「主要商用LLM（RAGあり）」は91.4%。
今回の国産AIは、グローバルな商用モデルとほぼ肩を並べるところまで来たといえます。

専門医試験の合格水準はおおむね70〜80%程度とされることが多く、90%超えはトップクラスの医師の正答率に相当します。
「AIが専門医に近い水準で回答できる」という事実は、医師の調査業務や初期診断支援のシナリオで実用的な意味を持ちます。

他にも注目すべき数字があります。
症例データの自動整理精度は92.2%で、人間の作業精度（94〜95%）に迫るレベル。
退院時サマリーの品質評価は5点満点中4.748点。
診療ガイドライン準拠性はベースモデルから最大10.8ポイント向上しています。

どんなAIで、誰が作ったのか

「国産医療AI」と一口に言っても、今回は複数のモデルが含まれています。

主なモデルは「Weblab-MedLLM-GLM-4.7」（355億パラメータのMoE構成）と「Weblab-MedLLM-Qwen3-235B-Thinking」（235億パラメータのMoE構成）、それに独自アーキテクチャによるフルスクラッチ開発モデル「AscleLM1シリーズ」です。
MoE（Mixture of Experts）とは、複数の専門モジュールが問いの種類に応じて使い分けられる構造のことで、効率よく高い精度を出すための設計手法です。

開発に参加したのは10機関にのぼります。
NEDOとさくらインターネットに加え、東京大学（松尾・岩澤研究室）、ABEJA、理化学研究所、国際医療福祉大学、藤田医科大学、東京科学大学、九州大学、ヘリオスという顔ぶれです。
産官学が横断的に取り組んだプロジェクトであることがわかります。

患者データを守りながら使える設計

今回の発表で特に強調されていたのが「オンプレミス運用」への対応です。

医療機関のサーバや、医療機関が管理する国内クラウド環境に導入できる設計になっています。
患者情報が海外のサーバに送信されないことで、個人情報保護法の観点でも運用しやすくなります。

技術的な安全対策も具体的です。
学習データに含まれる患者情報の記憶リスクを定量的に評価する仕組み、患者情報の自動検出とマスキング機能、5万件超の対話型安全性ベンチマーク、6,000件規模のレッドチーミング（攻撃耐性評価）——これらを組み合わせ、「追加学習後もベースモデルと同等の安全性を維持する」ことを確認したとのことです。

医療AIの課題はしばしば「精度は高くても、実際の医療現場で使えるか」という点に集約されます。
患者情報のセキュリティと、現場でのオフライン運用に同時に対応しようとしている点は、臨床導入を見据えた設計として評価されそうです。