株式会社オブライト
AI2026-04-28

OpenAI gpt-realtime-1.5 と公式 realtime-voice-component 解説 — 音声エージェントの新しい開発スタックを実務目線で整理【2026年版】

OpenAI が2026年2月26日に公開した音声モデル gpt-realtime-1.5 と、GitHub の openai/realtime-voice-component で公開されている公式の React 向け音声UIコンポーネントについて、公式情報をベースに整理します。性能改善(音声推論 +5%、文字起こし +10.23%、指示追従 +7%)、料金、コンポーネントの位置づけ(リファレンス実装)、業務活用と注意点までを実務目線で解説。


音声エージェントの2026年版スタック

OpenAI は2026年2月26日に音声モデル gpt-realtime-1.5 をリリースしました。あわせて、ブラウザ上の音声UIを React で組むための公式リファレンス実装として GitHub に openai/realtime-voice-component が公開されています。本記事では、モデル側(gpt-realtime-1.5)と UI コンポーネント側(realtime-voice-component)の両方を実務目線で整理し、音声エージェントを業務に組み込みたいエンジニア向けに「何を選んで何を自前で書くか」の判断軸を示します。

gpt-realtime-1.5 とは

gpt-realtime-1.5 は OpenAI Realtime API に乗る音声特化モデルで、speech-to-speech(音声入力→音声出力)をネイティブに扱える設計です。Realtime API 自体は低レイテンシで音声・画像・テキストの入力と音声・テキストの出力を扱える基盤で、1.5 は前世代 gpt-realtime からの改良版にあたります。OpenAI 公式の説明によれば、本番運用される音声エージェント・カスタマーサポート向けのフラッグシップ音声モデルという位置づけです。

性能改善(公式公表値)

OpenAI が公表している前バージョン比の改善幅は以下の3点:

指標改善幅意味
Big Bench Audio(音声推論)+5%音声に乗った内容に対する推論品質
文字起こし(transcription)+10.23%入力音声 → テキスト変換の精度
指示追従(instruction following)+7%システムプロンプトに沿った応答の安定性

ツール呼び出しの強化も合わせて言及されており、関数(ツール)を呼び出して具体的な業務を進めるタイプのエージェントで効きます。

料金(公式公表値・リリース時点)

公開時点で OpenAI が公表している料金は以下のとおり(前バージョンから据え置き): - テキスト入力: $4 / 100万トークン(キャッシュ時 $0.40) - テキスト出力: $16 / 100万トークン - 音声入力: $32 / 100万秒(キャッシュ時 $0.40) - 音声出力: $64 / 100万秒 料金が改定される可能性があるため、本番採用前に OpenAI 公式の料金ページ で最新値を必ず確認してください。

realtime-voice-component とは

openai/realtime-voice-component は、OpenAI Realtime に対するブラウザ向け音声UIを React で組むための公式リファレンス実装です(Apache-2.0 ライセンス)。提供されている主な要素は次のような構成です: - `createVoiceControlController()`: セッションを所有する再利用可能なコントローラ - `useVoiceControl()`: コントローラを React にバインドするフック - `VoiceControlWidget`: 音声起動のためのランチャーUI - `GhostCursorOverlay`: 視覚的にコマンド進行を見せるオーバーレイ - アプリ側にツールを置く前提の設計パターン ブラウザ環境で「ツール制約のある UI」(このボタンを押す、このフォームに入れる、等の限られた操作セット)を音声で操作するパターンに特化したコンポーネント群です。

重要: realtime-voice-component の位置づけ

公式リポジトリで明記されているとおり、realtime-voice-component は オープンソースのリファレンス実装 です。教育目的・デモ・ローカルでの採用検討に向くものとして位置づけられており、長期的なプロダクトサポートや本番運用向けの UI キットを約束するものではありません。また、現時点で `package.json` は `private` のままで npm に公開されていません。 本番に乗せるときの選択肢は以下のように整理できます: - リファレンスを参考に自前 UI を組む: 当該リポジトリのコードを学習し、自社プロダクトに合わせて React コンポーネントを実装。最も柔軟。 - Realtime API を直接叩く: 低レイヤーのトランスポート/セッション制御、独自オーディオ処理、非 React 環境、ゼロから設計したい場合。 - openai-agents-js を使う: エージェントオーケストレーション、ハンドオフ、ホストツール / MCP 等の広範な機能が必要な場合のヘッドレス SDK。

全体像 — 何が上で何が下か

Loading diagram...

業務での想定ユースケース

音声エージェントが効きやすい業務領域: - カスタマーサポート: 一次受付、FAQ応答、人へのエスカレーション判定 - 社内ヘルプデスク: 「このシステムどう使うの?」を会話で解決、社内ドキュメントを RAG 経由で参照 - 現場系(建設・物流・医療): 手が塞がっている現場で音声入力 → 構造化データ化 - アクセシビリティ: キーボード操作が困難なユーザーの代替操作 - 電話・コール業務: 一次受付+人間の最終承認 オブライトの AI BPO では、こうした音声系の業務委託をローカル+クラウドのハイブリッドで設計するご相談が増えています。「人が窓口・人が責任、裏側で AI が処理」のフレームに音声エージェントを乗せる構成です。

実装上の注意点

音声エージェント特有の落とし穴: - バックエンドの `/session` エンドポイントが必要: realtime-voice-component を使う場合、ブラウザの SDP とセッション設定を OpenAI Realtime API に中継する `/session` 系のエンドポイントを自前で用意する必要がある(API キーをブラウザに置かないため) - VAD と割り込み設定の既定値: コントローラは Realtime の `server_vad` をデフォルトで使い、`interrupt_response: false` の設定で動く。アシスタント音声を UI 側で再生しない構成では特にこの既定が効くので、案件に合わせて調整する - コントローラのライフサイクル: 外部所有のコントローラを React のリーフコンポーネントの cleanup で破棄しないこと。React 開発モードの再マウント時に「死んだコントローラ」が残り、無音で接続失敗するハマりが起きる - マイク権限とブラウザ互換性: Safari / Chrome / Firefox で挙動が微妙に違う。HTTPS 必須 - 音声入力のレイテンシ: ネットワーク・モデル処理・TTS の累積。地理的に遠いリージョンを使うと体感が落ちる - 背景ノイズ: 業務現場で使う場合は VAD(Voice Activity Detection)とエコーキャンセルを真面目にやる - 個人情報の扱い: 通話・音声録音は個人情報に該当する場合が多い。録音保持ポリシー、暗号化、同意取得を最初から設計する - ツール呼び出しの安全性: 音声で「削除」「送信」など破壊的操作を叩けないよう、確認ダイアログを必ず挟む - コスト: 音声出力は秒単位で課金されるため、長時間の沈黙や繰り返し音声が出力されるとコストが急増する。タイムアウトと上限を設定する

オブライトでの活用方針

オブライトでは、AI 機能を含む受託案件で音声エージェントの組み込みが必要になった場合、次の方針で構成しています: 1. モデル: gpt-realtime-1.5(クラウド)を第一選択。社内完結が必要なら別の音声モデルとローカル運用を検討 2. UI: openai/realtime-voice-component の設計パターンを参考にしつつ、本番は自社実装で UI を持つ(npm 未公開のため依存させない) 3. オーケストレーション: 必要に応じて openai-agents-js または直接 Realtime API 4. 中間層: OpenClaw と組み合わせ、業務ツール(CRM・チケット・社内 DB)への接続を抽象化 AI 導入コンサルティング で要件定義から実装までワンストップで対応できます。

FAQ

Q1: 旧 gpt-realtime からの乗り換え価値は? A: 文字起こし精度が +10% 向上し、指示追従性も改善しているため、本番運用中であれば検証する価値があります。料金が据え置きなのでコスト面のリスクは低めです。 Q2: realtime-voice-component を npm から入れたい A: 現時点では公開されていません。参照・引用しつつ自社の React コンポーネントとして実装するか、Git submodule / コピーで取り込む運用が現実的です。 Q3: 日本語の文字起こし精度は? A: OpenAI 公式の改善発表は英語ベンチマーク中心です。日本語での精度向上は実機ベンチマーク(社内データ・実利用環境での記録)で確認してください。 Q4: 完全オンプレで動かしたい A: gpt-realtime-1.5 はクラウドAPI のみです。完全オンプレが必要な場合は、別系統の音声モデル(オープンソースの STT + TTS の組み合わせ等)と組み合わせるハイブリッド設計が現実解です。 Q5: コスト試算の目安は? A: 1ユーザー1分のやりとりを「音声入30秒+音声出30秒+システムプロンプト3,000トークン」と見積もると、概算で1分あたり数円〜十数円のレンジ。実コストは利用パターンで大きく変わるため、PoC で実測するのが鉄則です。

参考文献

お気軽にご相談ください

お問い合わせ