AI2026-04-28

OpenAI gpt-realtime-1.5 と公式 realtime-voice-component 解説 — 音声エージェントの新しい開発スタックを実務目線で整理【2026年版】

OpenAI が2026年2月26日に公開した音声モデル gpt-realtime-1.5 と、GitHub の openai/realtime-voice-component で公開されている公式の React 向け音声UIコンポーネントについて、公式情報をベースに整理します。性能改善（音声推論 +5%、文字起こし +10.23%、指示追従 +7%）、料金、コンポーネントの位置づけ（リファレンス実装）、業務活用と注意点までを実務目線で解説。

OpenAI gpt-realtime Realtime API 音声AI React Voice Agent

音声エージェントの2026年版スタック

OpenAI は2026年2月26日に音声モデル gpt-realtime-1.5 をリリースしました。あわせて、ブラウザ上の音声UIを React で組むための公式リファレンス実装として GitHub に openai/realtime-voice-component が公開されています。本記事では、モデル側（gpt-realtime-1.5）と UI コンポーネント側（realtime-voice-component）の両方を実務目線で整理し、音声エージェントを業務に組み込みたいエンジニア向けに「何を選んで何を自前で書くか」の判断軸を示します。

gpt-realtime-1.5 とは

gpt-realtime-1.5 は OpenAI Realtime API に乗る音声特化モデルで、speech-to-speech（音声入力→音声出力）をネイティブに扱える設計です。Realtime API 自体は低レイテンシで音声・画像・テキストの入力と音声・テキストの出力を扱える基盤で、1.5 は前世代 gpt-realtime からの改良版にあたります。OpenAI 公式の説明によれば、本番運用される音声エージェント・カスタマーサポート向けのフラッグシップ音声モデルという位置づけです。

性能改善（公式公表値）

OpenAI が公表している前バージョン比の改善幅は以下の3点：

指標	改善幅	意味
Big Bench Audio（音声推論）	+5%	音声に乗った内容に対する推論品質
文字起こし（transcription）	+10.23%	入力音声 → テキスト変換の精度
指示追従（instruction following）	+7%	システムプロンプトに沿った応答の安定性

ツール呼び出しの強化も合わせて言及されており、関数（ツール）を呼び出して具体的な業務を進めるタイプのエージェントで効きます。

料金（公式公表値・リリース時点）

公開時点で OpenAI が公表している料金は以下のとおり（前バージョンから据え置き）： - テキスト入力: $4 / 100万トークン（キャッシュ時 $0.40） - テキスト出力: $16 / 100万トークン - 音声入力: $32 / 100万秒（キャッシュ時 $0.40） - 音声出力: $64 / 100万秒料金が改定される可能性があるため、本番採用前に OpenAI 公式の料金ページで最新値を必ず確認してください。

realtime-voice-component とは

openai/realtime-voice-component は、OpenAI Realtime に対するブラウザ向け音声UIを React で組むための公式リファレンス実装です（Apache-2.0 ライセンス）。提供されている主な要素は次のような構成です： - `createVoiceControlController()`: セッションを所有する再利用可能なコントローラ - `useVoiceControl()`: コントローラを React にバインドするフック - `VoiceControlWidget`: 音声起動のためのランチャーUI - `GhostCursorOverlay`: 視覚的にコマンド進行を見せるオーバーレイ - アプリ側にツールを置く前提の設計パターンブラウザ環境で「ツール制約のある UI」（このボタンを押す、このフォームに入れる、等の限られた操作セット）を音声で操作するパターンに特化したコンポーネント群です。

重要: realtime-voice-component の位置づけ

公式リポジトリで明記されているとおり、realtime-voice-component は オープンソースのリファレンス実装 です。教育目的・デモ・ローカルでの採用検討に向くものとして位置づけられており、長期的なプロダクトサポートや本番運用向けの UI キットを約束するものではありません。また、現時点で `package.json` は `private` のままで npm に公開されていません。本番に乗せるときの選択肢は以下のように整理できます： - リファレンスを参考に自前 UI を組む: 当該リポジトリのコードを学習し、自社プロダクトに合わせて React コンポーネントを実装。最も柔軟。 - Realtime API を直接叩く: 低レイヤーのトランスポート/セッション制御、独自オーディオ処理、非 React 環境、ゼロから設計したい場合。 - openai-agents-js を使う: エージェントオーケストレーション、ハンドオフ、ホストツール / MCP 等の広範な機能が必要な場合のヘッドレス SDK。

全体像 — 何が上で何が下か

Loading diagram...

業務での想定ユースケース

音声エージェントが効きやすい業務領域： - カスタマーサポート: 一次受付、FAQ応答、人へのエスカレーション判定 - 社内ヘルプデスク: 「このシステムどう使うの？」を会話で解決、社内ドキュメントを RAG 経由で参照 - 現場系（建設・物流・医療）: 手が塞がっている現場で音声入力 → 構造化データ化 - アクセシビリティ: キーボード操作が困難なユーザーの代替操作 - 電話・コール業務: 一次受付＋人間の最終承認オブライトの AI BPO では、こうした音声系の業務委託をローカル＋クラウドのハイブリッドで設計するご相談が増えています。「人が窓口・人が責任、裏側で AI が処理」のフレームに音声エージェントを乗せる構成です。

実装上の注意点

音声エージェント特有の落とし穴： - バックエンドの `/session` エンドポイントが必要: realtime-voice-component を使う場合、ブラウザの SDP とセッション設定を OpenAI Realtime API に中継する `/session` 系のエンドポイントを自前で用意する必要がある（API キーをブラウザに置かないため） - VAD と割り込み設定の既定値: コントローラは Realtime の `server_vad` をデフォルトで使い、`interrupt_response: false` の設定で動く。アシスタント音声を UI 側で再生しない構成では特にこの既定が効くので、案件に合わせて調整する - コントローラのライフサイクル: 外部所有のコントローラを React のリーフコンポーネントの cleanup で破棄しないこと。React 開発モードの再マウント時に「死んだコントローラ」が残り、無音で接続失敗するハマりが起きる - マイク権限とブラウザ互換性: Safari / Chrome / Firefox で挙動が微妙に違う。HTTPS 必須 - 音声入力のレイテンシ: ネットワーク・モデル処理・TTS の累積。地理的に遠いリージョンを使うと体感が落ちる - 背景ノイズ: 業務現場で使う場合は VAD（Voice Activity Detection）とエコーキャンセルを真面目にやる - 個人情報の扱い: 通話・音声録音は個人情報に該当する場合が多い。録音保持ポリシー、暗号化、同意取得を最初から設計する - ツール呼び出しの安全性: 音声で「削除」「送信」など破壊的操作を叩けないよう、確認ダイアログを必ず挟む - コスト: 音声出力は秒単位で課金されるため、長時間の沈黙や繰り返し音声が出力されるとコストが急増する。タイムアウトと上限を設定する

オブライトでの活用方針

オブライトでは、AI 機能を含む受託案件で音声エージェントの組み込みが必要になった場合、次の方針で構成しています： 1. モデル: gpt-realtime-1.5（クラウド）を第一選択。社内完結が必要なら別の音声モデルとローカル運用を検討 2. UI: openai/realtime-voice-component の設計パターンを参考にしつつ、本番は自社実装で UI を持つ（npm 未公開のため依存させない） 3. オーケストレーション: 必要に応じて openai-agents-js または直接 Realtime API 4. 中間層: OpenClaw と組み合わせ、業務ツール（CRM・チケット・社内 DB）への接続を抽象化 AI 導入コンサルティングで要件定義から実装までワンストップで対応できます。

FAQ

Q1: 旧 gpt-realtime からの乗り換え価値は？ A: 文字起こし精度が +10% 向上し、指示追従性も改善しているため、本番運用中であれば検証する価値があります。料金が据え置きなのでコスト面のリスクは低めです。 Q2: realtime-voice-component を npm から入れたい A: 現時点では公開されていません。参照・引用しつつ自社の React コンポーネントとして実装するか、Git submodule / コピーで取り込む運用が現実的です。 Q3: 日本語の文字起こし精度は？ A: OpenAI 公式の改善発表は英語ベンチマーク中心です。日本語での精度向上は実機ベンチマーク（社内データ・実利用環境での記録）で確認してください。 Q4: 完全オンプレで動かしたい A: gpt-realtime-1.5 はクラウドAPI のみです。完全オンプレが必要な場合は、別系統の音声モデル（オープンソースの STT + TTS の組み合わせ等）と組み合わせるハイブリッド設計が現実解です。 Q5: コスト試算の目安は？ A: 1ユーザー1分のやりとりを「音声入30秒＋音声出30秒＋システムプロンプト3,000トークン」と見積もると、概算で1分あたり数円〜十数円のレンジ。実コストは利用パターンで大きく変わるため、PoC で実測するのが鉄則です。

参考文献

- Introducing gpt-realtime and Realtime API updates for production voice agents（OpenAI 公式） - gpt-realtime-1.5 Model（OpenAI API ドキュメント） - Realtime API ガイド（OpenAI API ドキュメント） - Voice agents ガイド（OpenAI API ドキュメント） - openai/realtime-voice-component（GitHub 公式リポジトリ） - openai-realtime-agents（GitHub） - Voice Agents — OpenAI Agents SDK - Updates for developers building with voice（OpenAI Developers Blog）

お気軽にご相談ください

お問い合わせ