AI2026-04-17

xAI Grok音声API完全ガイド — TTS（4.20ドル/M文字）+ STT（0.10ドル/時間）で競合を60%下回る価格の実力【2026年版】

xAIが2026年4月17日に公式バンドル発表したGrok TTS・STT APIの完全ガイド。TTS 4.20ドル/100万文字・STT 0.10ドル/時間（バッチ）で競合を60%アンダーカット。STTエンティティ認識エラー率5.0%で業界最高精度を実現。APIの使い方・ベンチマーク・ユースケースを徹底解説。

Grok TTS Grok STT xAI Text-to-Speech Speech-to-Text

xAI Grok音声APIとは？ — TTS＋STTを60%安価に提供する2026年注目の音声AI

xAIは2026年4月17日、Grok TTS（テキスト読み上げ）とGrok STT（音声認識）を公式バンドルとして同時発表しました。TTS 4.20ドル/100万文字・STT 0.10ドル/時間（バッチ処理）という価格はElevenLabs・Deepgram・AssemblyAIを60%下回り、STTエンティティ認識エラー率5.0%は競合の1/3〜1/4という精度です。同じ技術スタックはGrok Voice、Teslaビークル、Starlinkサポートで既に商用稼働中です。

2つのAPIの概要

API	機能	価格	ハイライト
Grok TTS	テキスト→音声	4.20ドル/100万文字	5音声、20+言語、インラインタグ、MP3/WAV/PCM/G.711対応
Grok STT	音声→テキスト	0.10ドル/時間（バッチ）、0.20ドル/時間（ストリーミング）	25+言語、単語タイムスタンプ、話者ダイアライゼーション

Grok音声APIエコシステム全体図

Loading diagram...

Grok TTS: 5つの音声プロファイル

Grok TTSは5種類の固定音声プロファイルを提供しています。

音声ID	特徴	推奨用途
ara	明瞭・プロフェッショナル	カスタマーサポート、ビジネスアナウンス
eve	柔らかく親しみやすい	eラーニング、アシスタント
leo	力強く落ち着いた男性声	ナレーション、ポッドキャスト
rex	エネルギッシュな男性声	ゲームNPC、エンタメコンテンツ
sal	ニュートラルで汎用性高い	汎用TTS、IVR

Grok TTS: インライン音声タグで表現を細かく制御

Grok TTSはテキスト内にインラインタグを埋め込むことで、ポーズ・笑い・ささやき・強調を細かく制御できます。音声コンテンツの品質を大幅に高めるこの機能は、競合サービスの多くには存在しません。

Hello! [pause:500ms] Today we have a special offer. [whisper]This is just for you.[/whisper] [laugh] Amazing, right? [emphasis]Don't miss out![/emphasis]

各タグは自然な会話に近いリズムを生み出し、カスタマーサポートやポッドキャストでの活用に適しています。

Grok TTS: 20+言語対応とBCP-47コード指定

Grok TTSは20以上の言語に対応しており、言語の自動検出（auto）とBCP-47コードによる手動指定の両方をサポートします。日本語（`ja`）はauto検出でも正確に識別されます。多言語コンテンツの自動生成フローでは言語コードを明示的に指定することが推奨されます。

Grok TTS: 出力フォーマット一覧

フォーマット	用途
MP3	一般的なWeb・モバイルアプリ
WAV	高品質録音・編集用途
PCM (Linear16)	リアルタイム音声ストリーミング
G.711 μ-law	北米電話システム（VoIP・IVR直結）
G.711 A-law	欧州・日本の電話システム統合

G.711フォーマット対応により、追加変換なしで既存の電話インフラに直接組み込めます。

Grok STT: 25+言語対応とシームレスな言語切替

Grok STTは25以上の言語に対応し、会話中の言語切替を自動的に処理します。日本語・英語・中国語が混在した音声でも正確な文字起こしが可能です。グローバル企業のコールセンターや、多言語対応のメディアコンテンツ処理に最適です。

Grok STT: 単語レベルタイムスタンプ＆話者ダイアライゼーション

Grok STTは単語単位でタイムスタンプを付与し、複数チャンネル対応の話者ダイアライゼーション（誰がいつ話したかの自動識別）を提供します。これにより、会議の議事録自動化・コールセンターの品質分析・ポッドキャストの編集補助を大幅に効率化できます。文字起こし結果に話者ラベルと時刻が付与されるため、人手によるレビュー工数を最小化できます。

Grok STT: 業界最高のベンチマーク精度

電話通話のエンティティ認識（名前・口座番号・日付）ベンチマークにおいて、Grok STTは5.0%のエラー率を達成しました。これは主要競合を大きく引き離す数値です。

サービス	エラー率	Grokとの差
Grok STT	5.0%	—
ElevenLabs	12.0%	+7.0pt
Deepgram	13.5%	+8.5pt
AssemblyAI	21.3%	+16.3pt

特に固有名詞・数字が頻出する金融・医療・保険業界でのROIが高くなります。

Grok STT 競合エラー率の比較図

Loading diagram...

Grok STT: バッチ vs ストリーミングの使い分け

モード	価格	レイテンシ	主な用途
バッチ	0.10ドル/時間	高め（非同期）	録音済みファイル処理、議事録生成、コールセンター事後分析
ストリーミング	0.20ドル/時間	低い（リアルタイム）	ライブ字幕、会議リアルタイム文字起こし、音声インターフェース

コストを最優先する場合はバッチ、即時性が必要なユースケースではストリーミングを選択します。

TTS競合比較

サービス	価格	音声数	言語数	インラインタグ	G.711対応
Grok TTS	4.20ドル/M文字	5	20+	あり	あり
OpenAI TTS	15ドル/M文字	6	57	なし	なし
ElevenLabs	11ドル/M文字〜	多数（クローン可）	32	一部あり	なし
Google WaveNet	16ドル/M文字	多数	40+	SSML	なし
Azure TTS	16ドル/M文字	多数	140+	SSML	なし

Grok TTSは価格面で圧倒的な優位性を持ちます。音声クローンは非対応ですが、固定5音声で品質は業務利用レベルです。

STT競合比較

サービス	バッチ価格	ストリーミング価格	エラー率（電話）	タイムスタンプ	話者識別
Grok STT	0.10ドル/時間	0.20ドル/時間	5.0%	単語レベル	あり
OpenAI Whisper API	0.006ドル/分	非対応	非公表	セグメント	なし
Deepgram	0.25ドル/時間〜	0.35ドル/時間〜	13.5%	単語レベル	あり
AssemblyAI	0.37ドル/時間〜	0.45ドル/時間〜	21.3%	単語レベル	あり
ElevenLabs STT	0.25ドル/時間〜	非対応	12.0%	あり	あり

60%アンダーカット戦略の意味

xAIの価格設定は既存プレイヤーを60%下回ることを明確に意識した戦略です。月間1,000時間の音声処理を行うコールセンターであれば、Deepgramからの乗り換えだけで年間コストを大幅に削減できます。大量処理を前提とするエンタープライズ用途での採用障壁が極めて低く、既存スタックへの組み込みもREST APIで容易に行えます。

技術スタックの商用実績

Grok音声APIを支える技術は、既にGrok Voice（xAIのAIアシスタント）・Teslaビークルの車載音声システム・Starlinkカスタマーサポートで稼働中です。ラボ技術ではなく商用規模での実績が担保されている点は、エンタープライズ導入における信頼性の観点で重要です。

APIの使い方: TTS編

Grok TTSはOpenAI互換のREST APIです。以下のcurlコマンドで即座に試せます。

bash

curl https://api.x.ai/v1/audio/speech \
  -H "Authorization: Bearer $XAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "grok-tts",
    "voice": "ara",
    "input": "こんにちは、Grok TTSです。",
    "language": "ja",
    "format": "mp3"
  }' --output speech.mp3

電話システム向けにG.711 μ-lawを使う場合は `"format": "ulaw"` に変更します。最大入力文字数は1リクエストあたり15,000文字、並列リクエスト上限はチームあたり100です。

APIの使い方: STT編

Grok STTもREST APIで利用できます。Pythonでの実装例を示します。

python

import requests

url = "https://api.x.ai/v1/audio/transcriptions"
headers = {"Authorization": f"Bearer {XAI_API_KEY}"}

with open("meeting.mp3", "rb") as f:
    response = requests.post(
        url,
        headers=headers,
        files={"file": f},
        data={
            "model": "grok-stt",
            "language": "ja",
            "timestamps": "word",
            "diarization": "true"
        }
    )

print(response.json())

ストリーミングモードはWebSocketエンドポイント経由で利用可能です。

実践ユースケース5選

1. コールセンター自動化 STTで通話を文字起こし→エンティティ抽出（名前・口座番号・日付）→TTS（G.711形式）で応答を返す完全自動フロー。エラー率5.0%の精度でオペレーター業務を大幅に削減できます。 2. 多言語ポッドキャスト制作 STTで原文を書き起こし→翻訳API連携→TTSで多言語吹き替え音声を自動生成。20+言語に対応したTTSとSTTのパイプラインで制作コストを削減します。 3. ライブ字幕 STTストリーミングモード（0.20ドル/時間）で会議・セミナーのリアルタイム字幕を提供。単語レベルタイムスタンプで表示タイミングを正確に制御できます。 4. IVR / 自動音声応答システム G.711フォーマット対応により既存PBXへの変換なし直結が可能。STTで顧客の意図を認識し、TTSで応答するIVRを低コストで構築できます。 5. 教育eラーニング TTSで多言語ナレーションを自動生成、STTで学習者の発話を評価・採点。語学学習アプリや音声対話型教材の開発コストを大幅に低減します。

日本語対応の品質

Grok TTSは20+言語の1つとして日本語（BCP-47コード: `ja`）に対応しており、自動検出でも正確に識別されます。Grok STTは25+言語に日本語を含み、ビジネス会話の文字起こしで業務利用レベルの精度を発揮します。日本語・英語が混在したバイリンガル会話でも言語切替を自動処理します。

Beta版の制限事項と注意点

- TTS最大入力: 1リクエストあたり15,000文字 - 並列リクエスト上限: チームあたり100 - 音声クローン機能は非対応（固定5音声のみ） - 価格・仕様はBeta版期間中に変更される可能性があります - 本番導入前に最新の公式ドキュメント（https://x.ai/news/grok-stt-and-tts-apis）を確認してください

セットアップ手順

1. x.ai にアクセスしてアカウントを作成 2. ダッシュボードでAPIキーを発行 3. 課金情報を設定（従量課金、最低利用料なし） 4. `Authorization: Bearer <YOUR_KEY>` ヘッダーを付けてリクエスト送信 5. TTS: `https://api.x.ai/v1/audio/speech`、STT: `https://api.x.ai/v1/audio/transcriptions` をエンドポイントとして使用

よくある質問（FAQ）

Q1. TTSとSTTは単独購入できますか？ はい、それぞれ独立したAPIとして提供されており、必要な方だけ利用できます。 Q2. Grok STTとWhisperはどちらが精度が高いですか？ 電話通話のエンティティ認識ベンチマークではGrok STTが5.0%エラー率を達成しており、主要競合（12〜21%）を大きく上回ります。OpenAI Whisperの同条件での公式ベンチマークは非公表です。 Q3. 60%安いというのは本当ですか？ xAI公式発表によると、ElevenLabs、Deepgram、AssemblyAIといった既存プレイヤーと比較して60%アンダーカットする価格設定です。 Q4. 日本語STTの精度はビジネス利用に耐えますか？ 25+言語の1つとして対応しており、業務会話・コールセンター用途での利用が想定されています。固有名詞・数字を含む認識でも高精度なベンチマーク結果が示されています。 Q5. 話者ダイアライゼーションは何人まで対応していますか？ 複数チャンネル対応と発表されていますが、具体的な上限人数は公式ドキュメントを参照してください。 Q6. Teslaで使われているのは本当ですか？ はい、同じGrok音声技術がTesla車載音声アシスタントに採用されています。商用規模での稼働実績があります。 Q7. 音声クローンは作れますか？ Beta版では不可です。利用できる音声はAra・Eve・Leo・Rex・Salの固定5種類のみです。音声クローン機能が必要な場合はElevenLabsを検討してください。 Q8. Voice Agent APIとTTS/STT個別APIの違いは何ですか？ Voice Agent API（0.05ドル/分）はTTSとSTTを統合したリアルタイム対話型インターフェースです。TTS/STT個別APIはバッチ処理・カスタムパイプライン構築など柔軟な組み合わせに向いています。

Oflightの音声AI導入支援

Grok TTS・STT APIを活用したコールセンター自動化・多言語コンテンツ生成・音声インターフェース開発の導入支援を承っています。既存システムへの組み込み設計から運用最適化まで、技術的なご相談はAIコンサルティングサービスからお気軽にお問い合わせください。

お気軽にご相談ください

お問い合わせ