AI最新情報 読了 5 分

「ChatGPTを作った女性が1年の沈黙を経て出してきたものがヤバい」——Mira Murati、AIとの対話を再定義する

shiritomo | AI・SNS・話題のテック情報メディア by Hashout編集部 @shiritomoAI_jp 2026年5月13日 更新
「ChatGPTを作った女性が1年の沈黙を経て出してきたものがヤバい」——Mira Murati、AIとの対話を再定義する

「ChatGPTを作った女性がOpenAIを去った。
そして1年の沈黙を経て、ついに出してきたものがかなりヤバい。」

こんな書き出しのポストがXに流れてきて、調べてみたら確かに「ヤバい」内容でした。

Murati氏自身もXで、TMLの目指す姿をこう語っています(英語)。
「自分たちが日常の中で自然にやりとりする方法——会話、視覚、そして人と人がいっしょに働くごちゃごちゃしたプロセス——に合わせて動くマルチモーダルAIを作っている」という内容です。

2026年5月11日、Mira Murati(ミラ・ムラティ)氏率いるThinking Machines Lab(以下TML)が、「Interaction Models」と呼ぶ新しいAIシステムを研究プレビューとして発表しました。
元OpenAI CTOが1年余りかけて作り上げてきたものが、いよいよ姿を現した瞬間です。

Mira Muratiとは何者か

まずMira Murati氏について少し整理しておきます。
彼女は2018年にOpenAIに入社し、ChatGPT・DALL-E・GPT-4の開発を率いてCTO(最高技術責任者)まで登りつめた人物です。
2024年9月に突然の退社を発表し、業界に衝撃を与えました。
その後、Andreessen Horowitz(a16z)から20億ドルという巨額の資金を調達してThinking Machines Labを設立しています。

この背景を知ると、今回の発表が「単なる新モデルのリリース」ではなく、OpenAIへの一種の回答という意味を持つことがわかります。

Interaction Modelsが変えようとしていること

従来のAIとの対話には「ターンテイキング(交互に話す)」という暗黙のルールがありました。
ユーザーが入力を終えてからAIが処理し、AIが答え終えてからユーザーが次の入力をする——これはいわば電話で「どうぞ」と言い合っているような形です。

TMLのInteraction Modelsはこの前提を崩します。
音声・映像・テキストを200ミリ秒単位のチャンクで同時に処理し、ユーザーが話している最中に割り込んだり、身振り手振りに即座に反応したりすることができます。

デモ映像では、ユーザーが「ちょっと待って、そこを詳しく」と話しかけると、AIがリアルタイムで話を止めて応答する様子が示されていました。
これは人間同士の自然な会話に近い体験です。

競合と比べた数字

TMLが公開したベンチマーク(FD-bench)での応答レイテンシを比べると:

  • TML-Interaction-Small: 0.40秒
  • Gemini-3.1-flash-live: 0.57秒
  • GPT-realtime-2.0: 1.18秒

この数値が示すのは、単純な速さの話ではありません。
0.4秒という遅延は、人間が会話の「間」として自然に感じられる閾値に近いといわれています。
1.18秒だと「あれ、聞こえてる?」と不安になる時間です。

技術的には「encoder-free early fusion(エンコーダーフリーの早期融合)」と呼ぶ手法を採用しており、音声・映像の信号を重いエンコーダーに通さず、軽量な埋め込み層でトランスフォーマー内に直接取り込んでいます。
これが低遅延の鍵になっているようです。

まだ「一部パートナー向け」という段階

TML-Interaction-Smallは現在、研究プレビューとして一部パートナーにのみ提供されており、一般公開は2026年末の予定とされています。
「AIをパートナーへ進化させる」というコンセプトのもと、Murati氏は「まずは本当に動くものを見せる」という姿勢を選んだようです。

OpenAI・Googleがそれぞれリアルタイム音声対話機能を持つ中、TMLが独自のポジションを獲れるかどうかは、この「割り込める、一緒に動ける」という体験品質にかかっていると感じます。

さらに深掘りしたい方へ

まとめ

Mira Murati氏が作ったのは「速いAI」ではなく、「一緒にいられるAI」でした。
まだプレビュー段階ですが、人間とAIの会話の設計をゼロから問い直すという試みとして、注目し続けたい動きです。