株式会社オブライト

AI Model2026-05-17

Whisper（OpenAI）

別名: Whisper (OpenAI) / OpenAI Whisper / Whisper Large

OpenAI が公開するオープンウェイトの自動音声認識（ASR）モデル。多言語・多タスクに対応し、ローカル実行でも高精度な文字起こしと翻訳が可能。

概要

Whisper は 99 言語以上の音声認識に対応し、large-v3 モデルはベンチマーク最高水準の WER を記録。GPT-Realtime-2 の基盤技術としても採用されており、ストリーミング推論向けの拡張が進んでいる。

活用シーン

会議議事録自動生成・字幕付与・コールセンター通話録音のテキスト化など、音声データのデジタル化全般に活用される。Ollama 経由でローカル実行も可能。

関連コラム

OpenAI GPT-Realtime-2 と新音声モデル3兄弟解説【2026年版】— 推論型ボイスエージェント、ライブ翻訳、ストリーミング Whisper を実務目線で整理

OpenAI が 2026年5月7日に公開した3つの新音声モデル — GPT-Realtime-2（GPT-5級の推論を持つ初の音声モデル）/ GPT-Realtime-Translate（70+ 入力言語 / 13 出力言語のライブ翻訳）/ GPT-Realtime-Whisper（ストリーミング音声→テキスト）— の概要、性能改善幅、料金、使い分けを公式情報ベースで整理。前世代 1.5 からの乗り換え判断、業務ユースケースまで実務目線で解説します。

OpenAI gpt-realtime-1.5 と公式 realtime-voice-component 解説 — 音声エージェントの新しい開発スタックを実務目線で整理【2026年版】

OpenAI が2026年2月26日に公開した音声モデル gpt-realtime-1.5 と、GitHub の openai/realtime-voice-component で公開されている公式の React 向け音声UIコンポーネントについて、公式情報をベースに整理します。性能改善（音声推論 +5%、文字起こし +10.23%、指示追従 +7%）、料金、コンポーネントの位置づけ（リファレンス実装）、業務活用と注意点までを実務目線で解説。

NVIDIA PersonaPlex 7B完全ガイド — リアルタイムフルデュプレックス音声AIの仕組みと活用法【2026年版】

NVIDIAが2026年1月にリリースしたPersonaPlex 7Bは、従来のASR→LLM→TTSパイプラインを単一モデルに統合し、真のフルデュプレックス音声対話を実現したオープンソース音声AIです。本記事では、アーキテクチャ、パフォーマンス、セットアップ手順、実践ユースケースまで徹底解説します。

関連用語

OpenAI GPT-Realtime-2 GPT-5 LLM（Large Language Model）AIエージェント

お気軽にご相談ください

お問い合わせ