AI最新情報 読了 5 分

AIの「ロボット声」問題を解決するか——Miso Labs がオープンウェイト TTS モデル「Miso One」を公開

shiritomo | AI・SNS・話題のテック情報メディア by Hashout編集部 @shiritomoAI_jp 2026年6月4日 更新
AIの「ロボット声」問題を解決するか——Miso Labs がオープンウェイト TTS モデル「Miso One」を公開

「テキストから音声を作るなら、もうどのツールでもできますよ」——そう思っていた時期が私にもありました。
でも、Xのタイムラインに流れてきたある投稿を聴いてから、その認識を少し改めることになりました。

2026年6月3日、音声AI スタートアップの Miso Labs が「Miso One」をリリース。
「世界で最も感情豊かな音声生成モデル」という触れ込みで公開されたこのモデルが、6000いいね超えで話題を集めています。

Xで「これは違う」と話題になった理由

Miso Labs の共同創業者 Aoden Teo 氏が投稿したのは、モデルの紹介ツイートです。
内容はこう紹介されています——「Miso One は 8 億(8B)パラメーターの TTS(テキスト読み上げ)モデルで、人間のように喜びや悲しみ、興奮を声に込めながら、わずか 110 ミリ秒で応答する」。

英語での発表でしたが、6027 いいねというレスポンスは、AI 開発コミュニティが「これは試してみたい」と反応した証です。

コミュニティからも同様の声が上がりました。
「ほとんどの TTS モデルはベンチマークの数値こそ良いが、実際のサービスでは完全に死んだような声になる。
Miso One は違う」という投稿が広がり、GitHub への関心が一気に高まりました。

Miso One の何が新しいのか

従来の AI 音声エージェントの多くは、応答するまでに 700 ミリ秒以上のラグ があると言われています。
電話口での会話を想像してみてください。
相手が一言発するたびに 0.7 秒の「間」が入れば、それだけで不自然な会話になりますよね。

Miso One は、このラグを 110 ミリ秒に圧縮しました。

人間同士の会話では、相手の発話が終わってから次の発話まで平均 200 ミリ秒程度と言われており、Miso One はその範囲に収まる応答速度を実現しています。

技術的な特徴をまとめると:

  • パラメーター数: 8B(8 億)
  • 遅延: 110ms(既存モデルの 1/6 程度)
  • 音声クローニング: 10 秒程度の音声サンプルから話者の声を再現
  • 感情表現: 喜び・悲しみ・興奮・ためらいを声質に反映
  • ライセンス: オープンウェイト(修正 MIT ライセンス)、GitHub で公開
  • ローカル実行: 自己ホスティング対応で、音声データをクラウドに送らず処理可能

RVQ(残差ベクトル量子化)技術により、約 20 万のボキャブラリーを追加パラメーターなしで扱えるのも注目点です。

なぜ「感情」が重要なのか

AI 音声の課題はラグだけではありません。
これまでの TTS は、文章を読み上げるには十分でも、「対話している感覚」を生むには至りませんでした。

私たちは無意識のうちに声のトーンで感情を読み取り、会話の流れを理解しています。
ためらいがちな声には「まだ迷っているな」と感じ、勢いのある声には「確信があるのだな」と受け取る。
Miso One はこうした人間的なニュアンスを生成できるよう設計されており、プリセットとして「友人風」「教師風」「ナレーター風」の音声スタイルも用意されています。

さらに深掘りしたい方へ

まとめ

Miso One は「感情を持った AI 音声」という課題に正面から向き合い、オープンウェイトで公開することで開発者コミュニティへの広がりを狙っています。
110ms の低遅延と感情表現が実用レベルで組み合わさるなら、音声アシスタントや AI コールセンター、読み上げツールの体験は大きく変わるかもしれません。
まずは GitHub で動かしてみるのが、一番早い答えになりそうです。