AI Model2026-05-17
Whisper(OpenAI)
別名: Whisper (OpenAI) / OpenAI Whisper / Whisper Large
OpenAI が公開するオープンウェイトの自動音声認識(ASR)モデル。多言語・多タスクに対応し、ローカル実行でも高精度な文字起こしと翻訳が可能。
概要
Whisper は 99 言語以上の音声認識に対応し、large-v3 モデルはベンチマーク最高水準の WER を記録。GPT-Realtime-2 の基盤技術としても採用されており、ストリーミング推論向けの拡張が進んでいる。
活用シーン
会議議事録自動生成・字幕付与・コールセンター通話録音のテキスト化など、音声データのデジタル化全般に活用される。Ollama 経由でローカル実行も可能。
関連コラム
AI
OpenAI GPT-Realtime-2 と新音声モデル3兄弟 解説【2026年版】— 推論型ボイスエージェント、ライブ翻訳、ストリーミング Whisper を実務目線で整理
OpenAI が 2026年5月7日に公開した3つの新音声モデル — GPT-Realtime-2(GPT-5級の推論を持つ初の音声モデル)/ GPT-Realtime-Translate(70+ 入力言語 / 13 出力言語のライブ翻訳)/ GPT-Realtime-Whisper(ストリーミング音声→テキスト)— の概要、性能改善幅、料金、使い分けを公式情報ベースで整理。前世代 1.5 からの乗り換え判断、業務ユースケースまで実務目線で解説します。
AI
OpenAI gpt-realtime-1.5 と公式 realtime-voice-component 解説 — 音声エージェントの新しい開発スタックを実務目線で整理【2026年版】
OpenAI が2026年2月26日に公開した音声モデル gpt-realtime-1.5 と、GitHub の openai/realtime-voice-component で公開されている公式の React 向け音声UIコンポーネントについて、公式情報をベースに整理します。性能改善(音声推論 +5%、文字起こし +10.23%、指示追従 +7%)、料金、コンポーネントの位置づけ(リファレンス実装)、業務活用と注意点までを実務目線で解説。
AI
NVIDIA PersonaPlex 7B完全ガイド — リアルタイムフルデュプレックス音声AIの仕組みと活用法【2026年版】
NVIDIAが2026年1月にリリースしたPersonaPlex 7Bは、従来のASR→LLM→TTSパイプラインを単一モデルに統合し、真のフルデュプレックス音声対話を実現したオープンソース音声AIです。本記事では、アーキテクチャ、パフォーマンス、セットアップ手順、実践ユースケースまで徹底解説します。
お気軽にご相談ください
お問い合わせ