OpenAI GPT-Realtime-2 と新音声モデル3兄弟 解説【2026年版】— 推論型ボイスエージェント、ライブ翻訳、ストリーミング Whisper を実務目線で整理
OpenAI が 2026年5月7日に公開した3つの新音声モデル — GPT-Realtime-2(GPT-5級の推論を持つ初の音声モデル)/ GPT-Realtime-Translate(70+ 入力言語 / 13 出力言語のライブ翻訳)/ GPT-Realtime-Whisper(ストリーミング音声→テキスト)— の概要、性能改善幅、料金、使い分けを公式情報ベースで整理。前世代 1.5 からの乗り換え判断、業務ユースケースまで実務目線で解説します。
概要 — 2026年5月7日に音声モデル3つを同時公開
OpenAI は 2026年5月7日、Realtime API 上で動く3つの新音声モデルをまとめてリリースしました。本記事はこの一連のリリースを整理するものです。 - GPT-Realtime-2 — "GPT-5 級の推論を持つ初のフラッグシップ音声モデル" として位置づけられる - GPT-Realtime-Translate — リアルタイムで翻訳しながら話せるライブ翻訳特化モデル(70+ 入力言語 / 13 出力言語) - GPT-Realtime-Whisper — ストリーミング音声→テキスト変換(話している最中にテキストが流れる) 前世代 GPT-Realtime-1.5 については本サイトでも別コラムを公開しています(OpenAI gpt-realtime-1.5 と realtime-voice-component)。本記事は「1.5 からの乗り換え価値」と「新3モデルの使い分け」を中心に整理します。
GPT-Realtime-2 の改善点(公表ベンチマーク)
OpenAI の公式説明・主要メディア報道で公表されている、1.5 比の改善幅です。
| 指標 | GPT-Realtime-1.5 | GPT-Realtime-2 | 改善幅 |
|---|---|---|---|
| Big Bench Audio(高推論) | 81.4% | 96.6% | +15.2pt |
| Audio MultiChallenge 指示追従(xhigh) | 34.7% | 48.5% | +13.8pt |
| 最も難しい敵対的ベンチでの呼出成功率(プロンプト最適化後) | 69% | 95% | +26pt |
| コンテキストウィンドウ | 32K | 128K | 4倍 |
要点: - "GPT-5 級の推論を音声でも" という表現に値する大幅な精度向上が報告されている - 指示追従で約 14pt 改善 = 「言われたとおりに動かない」案件で効く - コンテキスト 128K = 長時間会話・大量プロンプト・ツール呼出履歴を抱えた状態でも安定して動く - 推論レベル(high / xhigh)を選べる設計で、品質とコストを案件で切り分けられる ベンチマーク値は公開時点のもの。最新値は OpenAI 公式リリース・モデルドキュメントで確認してください。
3モデルそれぞれの位置づけ
GPT-Realtime-2 — フラッグシップ推論型ボイスエージェント - 会話を止めずに推論し、ツール呼出を挟み、訂正・割り込みに対応する設計 - 音声入力・出力両方に対応(speech-to-speech) - カスタマーサポート、教育、パーソナルアシスタント、バーチャル受付などで力を発揮 GPT-Realtime-Translate — ライブ翻訳特化 - 話しながらリアルタイム翻訳。同時通訳的な体験を API で提供 - 入力 70+ 言語 → 出力 13 言語(公開時点) - 越境 EC・グローバルサポート・国際イベント・教育機関・メディアで「言語の壁を会話中に消す」用途 GPT-Realtime-Whisper — ストリーミング STT - 話している間にテキストが流れ続ける、ライブ字幕・議事録・コマンド入力向け - 従来の Whisper(バッチ寄り)と異なり、レイテンシ最小化を最優先 - 録画・ライブ配信のキャプション、コールセンターのエージェント補助、医療・法務の口述メモなどに直結
料金(2026年5月時点・公表値)
OpenAI 公開資料での料金は次のとおり:
| モデル | 課金単位 | 価格 |
|---|---|---|
| GPT-Realtime-2 / 音声入力 | 100万トークン | $32 |
| GPT-Realtime-2 / 音声入力(キャッシュ済) | 100万トークン | $0.40 |
| GPT-Realtime-2 / 音声出力 | 100万トークン | $64 |
| GPT-Realtime-Translate | 1分 | $0.034 |
| GPT-Realtime-Whisper | 1分 | $0.017 |
観察 - フラッグシップ(gpt-realtime-2)は前世代 1.5 と同価格帯のトークン単価。性能向上分は実質値下げに近い - 翻訳・Whisper は"分課金"でわかりやすい。社内予算化が容易 - キャッシュ価格($0.40 / 100万トークン)は通常価格の 80分の1。長期セッションを抱えるエージェントで効果大 価格は変動する可能性があります。本番採用前に OpenAI 公式の料金ページ で最新値を確認してください。
使い分けの実務指針
1. 高度な対話・推論が要る場面 → GPT-Realtime-2 カスタマーサポートのエスカレーション判定、複雑な手続きガイド、商談ロールプレイ、教育系チューターなど。"会話の質" がユーザー満足度に直結する案件で第一選択。 2. 越境コミュニケーション → GPT-Realtime-Translate 海外向け EC のチャット、グローバル展示会、外国人顧客への接客、国際オンライン授業など。1分$0.034 という単価は同時通訳人材コストと比較すると圧倒的に安い。 3. キャプション・議事録・ボイスコマンド → GPT-Realtime-Whisper ライブ配信の字幕生成、社内会議のリアルタイム議事録、現場系業務でのハンズフリー入力、医療・法務の口述記録。1分$0.017 でランニングコストが極めて低い。 4. 旧モデル維持の判断 → 1.5 系を残す合理性 業務影響が小さい既存実装、テスト済みのプロンプトに張り付かせている案件。1.5 は引き続き利用可能なので、重要な業務だけ 2 へ切り替え、軽微なものは 1.5 のままというハイブリッド運用が現実的です。
1.5 からの乗り換え判断
「乗り換えるべきか」を業務観点で整理: 乗り換え推奨 - 指示追従の不安定さ・複雑な分岐ロジックで困っている - 長時間セッションでコンテキスト切れが頻発(128K で大幅改善) - カスタマーサポートで"取りこぼし率"を下げたい(敵対的ベンチで +26pt の成功率向上は実務でも効くサイズ) - 同価格帯で性能が大幅向上したため、既存予算で切替できる 急がなくてよいケース - 単純な FAQ 応答だけで足りている - プロンプトが 1.5 用にチューニングされ尽くしている(再チューニングコスト発生) - レイテンシが既に許容範囲で、追加機能の必要性が薄い 乗り換え時の注意 - プロンプトの再最適化が必要な場合あり(推論レベル high / xhigh の選び分けで挙動が変わる) - 出力スタイルが変わる可能性があるため、A/B 比較ログを取り、業務 KPI(解決率・平均会話時間・エスカレーション率)で判断
業務での想定シナリオ
弊社で想定する具体的な活用シナリオです。 - 建設・物流の現場系(ハンズフリー): GPT-Realtime-Whisper で口述メモ+構造化、GPT-Realtime-2 で対話的な業務支援 - 越境 EC のカスタマーサポート: GPT-Realtime-Translate で 70+ 言語の問合せをそのまま受付、必要に応じて GPT-Realtime-2 にエスカレーション - コールセンターのリアルタイム支援: GPT-Realtime-Whisper で通話を字幕化、GPT-Realtime-2 がオペレーターに次の応答案を提示 - 医療事務・法務事務: 口述メモ → 自動構造化 → 既存業務システムに連携 - 教育・研修: GPT-Realtime-2 のチューター機能、GPT-Realtime-Translate で多言語講義のリアルタイム字幕化 - 会議体験の改善: 会議中の議事録ライブ生成(Whisper)、ファシリテーション補助(Realtime-2) オブライトの AI BPO や AI 導入コンサルティング の文脈では、上記シナリオを「人が窓口・AI が裏方」のフレームで設計し、お客様の業務に組み込みます。前世代 1.5 については 既存コラム で realtime-voice-component との連携を解説していますので、UI 実装パターンはそちらも参照ください。
デメリット・注意点
- クラウド処理が前提: 機密情報の社外送出が許されない案件には不向き。その場合は DGX Spark + ローカル LLM のような構成と使い分け - 音声秒・トークン消費の予測しにくさ: 長時間沈黙やループ応答でコストが膨らむ可能性。タイムアウト・最大セッション長を必ず実装 - 推論レベル(high / xhigh)の使い分け: 高品質側を常用すると遅延・コスト増。業務ごとの最適レベルを A/B で見極める - 翻訳の出力 13 言語制限: 日本語は対象に含まれるが、出力対象外の言語が必要な案件では別ソリューション併用 - 書き起こしの "逐語性" 担保: Whisper はストリーミング型のため、法務・医療の正本としては別途バッチ Whisper 等で再確認するのが安全 - プロンプトの再最適化コスト: 1.5 で熟成済みのプロンプトは 2 で挙動が微妙に変わる場合あり、検証期間を見込む
オブライトでの活用方針
オブライトでは、音声 AI を組み込んだ業務システムを 3 層で設計しています: 1. モデル選定層: 業務によって gpt-realtime-2 / Translate / Whisper を切り分け、機密案件はローカル系に逃がす 2. オーケストレーション層: OpenClaw のエージェント基盤で、音声入力をきっかけに業務アクションを自動実行 3. 業務統合層: お客様の CRM・チケット・社内 DB・電話システムと接続 本記事のような新モデル登場のたびに、既存案件のモデルを差し替えできるよう中間層を抽象化しているのがポイントです。詳しくは AI 導入コンサルティング や AI BPO からご相談ください。
FAQ
Q1: GPT-Realtime-1.5 を使い続けても大丈夫ですか? A: 当面は利用可能です。ただし複雑な業務・指示追従が要る案件では、性能差が業務 KPI に直接効いてくるため、検証=乗り換えのフェーズに入る価値があります。 Q2: 翻訳は人間の同時通訳の代わりになりますか? A: 完全代替は難しい場面(法務・医療・契約交渉など正確性が決定的)が残ります。一方、カジュアルな越境コミュニケーション・問い合わせ一次受付では実務上十分な水準に到達しています。 Q3: Whisper のリアルタイム版とバッチ版の違いは? A: バッチ版(従来 Whisper)は完了後に高精度な逐語起こしを得る用途、ストリーミング版(GPT-Realtime-Whisper)は「話している最中にテキストが流れる」用途。逐語の最終正本は別途バッチで取り直すのが定石です。 Q4: 機密情報を含む通話をクラウドに流して良いですか? A: クラウド経由が制約となる案件では避けてください。社外送出を最小化したい場合は、ローカル LLM(DGX Spark 系)と組み合わせ、メタデータのみクラウドに送る設計が現実解です。 Q5: 1分 0.034 ドルは安いと言えますか? A: 同時通訳人材コストと比べれば圧倒的に安価です。ただし長時間セッション・複数チャネル並列で使うと積み上がるため、必ず1日あたりの合計を見積もって予算化してください。 Q6: 推論レベル high と xhigh はどう選べば? A: 一般会話なら high で十分。複雑な分岐・複数ツール呼出・敵対的入力が想定される業務(金融商品案内、医療相談、法律相談の一次受付など)では xhigh を試す価値があります。 Q7: realtime-voice-component との関係は? A: ブラウザ側の React 実装パターンは前世代向けに整理した 既存コラムが引き続き参考になります。バックエンドのモデル指定だけ gpt-realtime-2 に切り替える、という運用が標準です。
参考文献
- Advancing voice intelligence with new models in the API(OpenAI 公式、2026/5/7) - Introducing gpt-realtime(OpenAI 公式、前世代解説) - Updates for developers building with voice(OpenAI Developers Blog) - OpenAI Models(OpenAI API ドキュメント) - OpenAI has new voice models that reason, translate, and transcribe as you speak(9to5Mac、2026/5/7) - OpenAI Launches GPT Realtime 2 for Smarter Voice AI(SQ Magazine) - OpenAI unveils trio of realtime audio models(Neowin) - Realtime Voice AI in the Enterprise(deepsense.ai) - 関連: OpenAI gpt-realtime-1.5 と realtime-voice-component 解説(弊社既存) - 関連: DGX Spark で機密コードをローカル分析するワークフロー(弊社既存)
お気軽にご相談ください
お問い合わせ