株式会社オブライト
AI2026-04-17

xAI Grok音声API完全ガイド — TTS(4.20ドル/M文字)+ STT(0.10ドル/時間)で競合を60%下回る価格の実力【2026年版】

xAIが2026年4月17日に公式バンドル発表したGrok TTS・STT APIの完全ガイド。TTS 4.20ドル/100万文字・STT 0.10ドル/時間(バッチ)で競合を60%アンダーカット。STTエンティティ認識エラー率5.0%で業界最高精度を実現。APIの使い方・ベンチマーク・ユースケースを徹底解説。


xAI Grok音声APIとは? — TTS+STTを60%安価に提供する2026年注目の音声AI

xAIは2026年4月17日、Grok TTS(テキスト読み上げ)とGrok STT(音声認識)を公式バンドルとして同時発表しました。TTS 4.20ドル/100万文字・STT 0.10ドル/時間(バッチ処理)という価格はElevenLabs・Deepgram・AssemblyAIを60%下回り、STTエンティティ認識エラー率5.0%は競合の1/3〜1/4という精度です。同じ技術スタックはGrok Voice、Teslaビークル、Starlinkサポートで既に商用稼働中です。

2つのAPIの概要

API機能価格ハイライト
Grok TTSテキスト→音声4.20ドル/100万文字5音声、20+言語、インラインタグ、MP3/WAV/PCM/G.711対応
Grok STT音声→テキスト0.10ドル/時間(バッチ)、0.20ドル/時間(ストリーミング)25+言語、単語タイムスタンプ、話者ダイアライゼーション

Grok音声APIエコシステム全体図

Loading diagram...

Grok TTS: 5つの音声プロファイル

Grok TTSは5種類の固定音声プロファイルを提供しています。

音声ID特徴推奨用途
ara明瞭・プロフェッショナルカスタマーサポート、ビジネスアナウンス
eve柔らかく親しみやすいeラーニング、アシスタント
leo力強く落ち着いた男性声ナレーション、ポッドキャスト
rexエネルギッシュな男性声ゲームNPC、エンタメコンテンツ
salニュートラルで汎用性高い汎用TTS、IVR

Grok TTS: インライン音声タグで表現を細かく制御

Grok TTSはテキスト内にインラインタグを埋め込むことで、ポーズ・笑い・ささやき・強調を細かく制御できます。音声コンテンツの品質を大幅に高めるこの機能は、競合サービスの多くには存在しません。

Hello! [pause:500ms] Today we have a special offer. [whisper]This is just for you.[/whisper] [laugh] Amazing, right? [emphasis]Don't miss out![/emphasis]

各タグは自然な会話に近いリズムを生み出し、カスタマーサポートやポッドキャストでの活用に適しています。

Grok TTS: 20+言語対応とBCP-47コード指定

Grok TTSは20以上の言語に対応しており、言語の自動検出(auto)とBCP-47コードによる手動指定の両方をサポートします。日本語(`ja`)はauto検出でも正確に識別されます。多言語コンテンツの自動生成フローでは言語コードを明示的に指定することが推奨されます。

Grok TTS: 出力フォーマット一覧

フォーマット用途
MP3一般的なWeb・モバイルアプリ
WAV高品質録音・編集用途
PCM (Linear16)リアルタイム音声ストリーミング
G.711 μ-law北米電話システム(VoIP・IVR直結)
G.711 A-law欧州・日本の電話システム統合

G.711フォーマット対応により、追加変換なしで既存の電話インフラに直接組み込めます。

Grok STT: 25+言語対応とシームレスな言語切替

Grok STTは25以上の言語に対応し、会話中の言語切替を自動的に処理します。日本語・英語・中国語が混在した音声でも正確な文字起こしが可能です。グローバル企業のコールセンターや、多言語対応のメディアコンテンツ処理に最適です。

Grok STT: 単語レベルタイムスタンプ&話者ダイアライゼーション

Grok STTは単語単位でタイムスタンプを付与し、複数チャンネル対応の話者ダイアライゼーション(誰がいつ話したかの自動識別)を提供します。これにより、会議の議事録自動化・コールセンターの品質分析・ポッドキャストの編集補助を大幅に効率化できます。文字起こし結果に話者ラベルと時刻が付与されるため、人手によるレビュー工数を最小化できます。

Grok STT: 業界最高のベンチマーク精度

電話通話のエンティティ認識(名前・口座番号・日付)ベンチマークにおいて、Grok STTは5.0%のエラー率を達成しました。これは主要競合を大きく引き離す数値です。

サービスエラー率Grokとの差
Grok STT5.0%
ElevenLabs12.0%+7.0pt
Deepgram13.5%+8.5pt
AssemblyAI21.3%+16.3pt

特に固有名詞・数字が頻出する金融・医療・保険業界でのROIが高くなります。

Grok STT 競合エラー率の比較図

Loading diagram...

Grok STT: バッチ vs ストリーミングの使い分け

モード価格レイテンシ主な用途
バッチ0.10ドル/時間高め(非同期)録音済みファイル処理、議事録生成、コールセンター事後分析
ストリーミング0.20ドル/時間低い(リアルタイム)ライブ字幕、会議リアルタイム文字起こし、音声インターフェース

コストを最優先する場合はバッチ、即時性が必要なユースケースではストリーミングを選択します。

TTS競合比較

サービス価格音声数言語数インラインタグG.711対応
Grok TTS4.20ドル/M文字520+ありあり
OpenAI TTS15ドル/M文字657なしなし
ElevenLabs11ドル/M文字〜多数(クローン可)32一部ありなし
Google WaveNet16ドル/M文字多数40+SSMLなし
Azure TTS16ドル/M文字多数140+SSMLなし

Grok TTSは価格面で圧倒的な優位性を持ちます。音声クローンは非対応ですが、固定5音声で品質は業務利用レベルです。

STT競合比較

サービスバッチ価格ストリーミング価格エラー率(電話)タイムスタンプ話者識別
Grok STT0.10ドル/時間0.20ドル/時間5.0%単語レベルあり
OpenAI Whisper API0.006ドル/分非対応非公表セグメントなし
Deepgram0.25ドル/時間〜0.35ドル/時間〜13.5%単語レベルあり
AssemblyAI0.37ドル/時間〜0.45ドル/時間〜21.3%単語レベルあり
ElevenLabs STT0.25ドル/時間〜非対応12.0%ありあり

60%アンダーカット戦略の意味

xAIの価格設定は既存プレイヤーを60%下回ることを明確に意識した戦略です。月間1,000時間の音声処理を行うコールセンターであれば、Deepgramからの乗り換えだけで年間コストを大幅に削減できます。大量処理を前提とするエンタープライズ用途での採用障壁が極めて低く、既存スタックへの組み込みもREST APIで容易に行えます。

技術スタックの商用実績

Grok音声APIを支える技術は、既にGrok Voice(xAIのAIアシスタント)・Teslaビークルの車載音声システム・Starlinkカスタマーサポートで稼働中です。ラボ技術ではなく商用規模での実績が担保されている点は、エンタープライズ導入における信頼性の観点で重要です。

APIの使い方: TTS編

Grok TTSはOpenAI互換のREST APIです。以下のcurlコマンドで即座に試せます。

bash
curl https://api.x.ai/v1/audio/speech \
  -H "Authorization: Bearer $XAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "grok-tts",
    "voice": "ara",
    "input": "こんにちは、Grok TTSです。",
    "language": "ja",
    "format": "mp3"
  }' --output speech.mp3

電話システム向けにG.711 μ-lawを使う場合は `"format": "ulaw"` に変更します。最大入力文字数は1リクエストあたり15,000文字、並列リクエスト上限はチームあたり100です。

APIの使い方: STT編

Grok STTもREST APIで利用できます。Pythonでの実装例を示します。

python
import requests

url = "https://api.x.ai/v1/audio/transcriptions"
headers = {"Authorization": f"Bearer {XAI_API_KEY}"}

with open("meeting.mp3", "rb") as f:
    response = requests.post(
        url,
        headers=headers,
        files={"file": f},
        data={
            "model": "grok-stt",
            "language": "ja",
            "timestamps": "word",
            "diarization": "true"
        }
    )

print(response.json())

ストリーミングモードはWebSocketエンドポイント経由で利用可能です。

関連: Grok Voice Agent API(0.05ドル/分)

TTS・STT個別APIに加え、xAIはGrok Voice Agent APIも提供しています。0.05ドル/分でTTSとSTTを統合したリアルタイム対話型音声エージェントを構築できます。音声による問い合わせ対応・予約システム・インタラクティブな音声ガイドなど、ターン制の会話フローが必要なユースケースに適しています。

実践ユースケース5選

1. コールセンター自動化 STTで通話を文字起こし→エンティティ抽出(名前・口座番号・日付)→TTS(G.711形式)で応答を返す完全自動フロー。エラー率5.0%の精度でオペレーター業務を大幅に削減できます。 2. 多言語ポッドキャスト制作 STTで原文を書き起こし→翻訳API連携→TTSで多言語吹き替え音声を自動生成。20+言語に対応したTTSとSTTのパイプラインで制作コストを削減します。 3. ライブ字幕 STTストリーミングモード(0.20ドル/時間)で会議・セミナーのリアルタイム字幕を提供。単語レベルタイムスタンプで表示タイミングを正確に制御できます。 4. IVR / 自動音声応答システム G.711フォーマット対応により既存PBXへの変換なし直結が可能。STTで顧客の意図を認識し、TTSで応答するIVRを低コストで構築できます。 5. 教育eラーニング TTSで多言語ナレーションを自動生成、STTで学習者の発話を評価・採点。語学学習アプリや音声対話型教材の開発コストを大幅に低減します。

日本語対応の品質

Grok TTSは20+言語の1つとして日本語(BCP-47コード: `ja`)に対応しており、自動検出でも正確に識別されます。Grok STTは25+言語に日本語を含み、ビジネス会話の文字起こしで業務利用レベルの精度を発揮します。日本語・英語が混在したバイリンガル会話でも言語切替を自動処理します。

Beta版の制限事項と注意点

- TTS最大入力: 1リクエストあたり15,000文字 - 並列リクエスト上限: チームあたり100 - 音声クローン機能は非対応(固定5音声のみ) - 価格・仕様はBeta版期間中に変更される可能性があります - 本番導入前に最新の公式ドキュメント(https://x.ai/news/grok-stt-and-tts-apis)を確認してください

セットアップ手順

1. x.ai にアクセスしてアカウントを作成 2. ダッシュボードでAPIキーを発行 3. 課金情報を設定(従量課金、最低利用料なし) 4. `Authorization: Bearer <YOUR_KEY>` ヘッダーを付けてリクエスト送信 5. TTS: `https://api.x.ai/v1/audio/speech`、STT: `https://api.x.ai/v1/audio/transcriptions` をエンドポイントとして使用

よくある質問(FAQ)

Q1. TTSとSTTは単独購入できますか? はい、それぞれ独立したAPIとして提供されており、必要な方だけ利用できます。 Q2. Grok STTとWhisperはどちらが精度が高いですか? 電話通話のエンティティ認識ベンチマークではGrok STTが5.0%エラー率を達成しており、主要競合(12〜21%)を大きく上回ります。OpenAI Whisperの同条件での公式ベンチマークは非公表です。 Q3. 60%安いというのは本当ですか? xAI公式発表によると、ElevenLabs、Deepgram、AssemblyAIといった既存プレイヤーと比較して60%アンダーカットする価格設定です。 Q4. 日本語STTの精度はビジネス利用に耐えますか? 25+言語の1つとして対応しており、業務会話・コールセンター用途での利用が想定されています。固有名詞・数字を含む認識でも高精度なベンチマーク結果が示されています。 Q5. 話者ダイアライゼーションは何人まで対応していますか? 複数チャンネル対応と発表されていますが、具体的な上限人数は公式ドキュメントを参照してください。 Q6. Teslaで使われているのは本当ですか? はい、同じGrok音声技術がTesla車載音声アシスタントに採用されています。商用規模での稼働実績があります。 Q7. 音声クローンは作れますか? Beta版では不可です。利用できる音声はAra・Eve・Leo・Rex・Salの固定5種類のみです。音声クローン機能が必要な場合はElevenLabsを検討してください。 Q8. Voice Agent APIとTTS/STT個別APIの違いは何ですか? Voice Agent API(0.05ドル/分)はTTSとSTTを統合したリアルタイム対話型インターフェースです。TTS/STT個別APIはバッチ処理・カスタムパイプライン構築など柔軟な組み合わせに向いています。

Oflightの音声AI導入支援

Grok TTS・STT APIを活用したコールセンター自動化・多言語コンテンツ生成・音声インターフェース開発の導入支援を承っています。既存システムへの組み込み設計から運用最適化まで、技術的なご相談はAIコンサルティングサービスからお気軽にお問い合わせください。

お気軽にご相談ください

お問い合わせ