株式会社オブライト
AI2026-05-08

Aqua Voice 完全ガイド【2026年版】— Audio+LLMフュージョン型のAIディクテーションは「タイピング4倍速」を本当に出せるのか

Aqua Voice は、Mac / Windows / iPhone で動く AI ディクテーション(音声入力)アプリです。音声を「逐語」ではなく「意図」に変換する Audio+LLM フュージョン設計で、技術系ボキャブラリ・カスタム辞書・リアルタイム表示・49 言語対応を売りに、2026年に注目を集めています。本記事では機能・料金・OS 標準ディクテーションや Whisper 系との違い・プライバシー設計・運営会社(Y Combinator W24)の現状・実務での使いどころまでを公開情報ベースで整理します。


Aqua Voice とは — Audio+LLMフュージョンの「意図を書き取る」AI

Aqua Voice は、Mac / Windows / iPhone 上で動作する AI ディクテーション(音声入力)アプリです。最大の特徴は、音を逐語文字に変換するだけの従来型音声認識とは設計思想が異なる点で、公式の説明では "Audio + LLM フュージョン" という構成で 「ユーザーが言いたかったこと」を整形しながら出力する とされています。「えーと」「あの」のようなフィラー除去、句読点の自動補完、文の言い換えなどがディクテーションと同時に走るため、最終的に画面に出てくるのは「話したまま」ではなく「書きたかった文」に近い、というのが触ってすぐ分かる差別化ポイントです。

対応プラットフォーム

2026年5月時点での対応: - macOS: ネイティブアプリ(メニューバー常駐、グローバルショートカットでマイク起動) - Windows: ネイティブアプリ - iOS(iPhone): 2026年4月に提供開始、AI ボイスキーボード(システムキーボードとして他アプリでも入力可) - Web: 一部機能のオンライン版(アカウント管理など) Mac だけ/Windows だけ/iPhone だけ、と1つのプラットフォームに閉じない案件で安定して使える、という点で他のディクテーション系プロダクトに対する強みになっています。

料金(2026年5月時点)

公開料金(公式ページ9to5Mac の料金紹介等の公開情報による):

プラン月額年額主な内容
Free$0ベースライン文字起こしモデル、生涯1,000語まで
Pro$8 / 月$96 / 年Avalon モデル(技術用語強化)、カスタム辞書 800 語、リアルタイム表示、Mac / Windows 全機能
iPhone(App Store経由)$10 / 月$96 / 年App Store 内課金時の月額、年額は同等

注意点 - iPhone 単体で App Store 内課金すると月額が $10 になりますが、Web 側で先に契約してから iPhone アプリにログインする ルートだと Mac / Windows と同じ $8 / 月で揃えられる、と公開情報で紹介されています - Free プランは「生涯 1,000 語」という珍しい区切り。試用は十分できるが、本格利用は早期に Pro 移行が前提の設計 価格は変動するため、本番採用前に 公式料金ページ で最新値の確認を推奨します。

Aqua Voice の主要機能

1. Avalon モデル(Pro)— 技術ボキャブラリへの最適化 固有名詞・略語・技術用語の認識精度を上げる Pro 専用モデル。エンジニア・ライター・研究者が "Kubernetes" "WebSocket" "PostgreSQL" のような単語を頻繁に話す業務で効きます。 2. カスタム辞書(最大 800 語、Pro) 社内固有名詞・お客様名・プロジェクトコード等を辞書登録できます。一般のディクテーションでは正しく認識されない、業界・社内特有の語彙を吸収する仕組み。 3. リアルタイム表示 話している最中に変換結果が即時画面に表示されるため、誤りに気づいた時点で言い直しやすい。"確定までブラックボックス" という従来型ディクテーションのストレスを大幅に軽減します。 4. 49言語対応 日本語を含む多言語対応。複数言語を混ぜて話す場面(日英バイリンガル、技術用語が英語のままの会議メモなど)で実用的な水準とされています。 5. "逐語" ではなく "意図" を文字化 「えーと、明日の…じゃない、明後日の会議までに資料作っといて、あ、英語版もね」のような実際の話し方が、自動的に整形されたメモに近い文に落ちる、というのが Aqua Voice の差別化点。Audio + LLM フュージョン設計の効果です。 6. クロスアプリ入力 専用エディタにロックインせず、システムレベルでマイクを起動して どのアプリにも文字を入れられる 構成。Slack、メール、IDE、ブラウザのフォームなどで等しく使えます。

OS 標準ディクテーションや Whisper 系との違い

ディクテーション領域の主な選択肢を比較:

項目macOS ディクテーションWhisper / オープン実装Aqua Voice
配信形態OS 標準OSS、自前デプロイ or 各種SaaSラッパSaaS(クラウド処理)
言語数多言語対応モデルにより多言語49言語
精度一般用途で十分、技術用語は弱いモデル次第、large-v3 系で強い技術用語+意図整形に注力
LLM 連携限定的別途実装が必要Audio+LLM 標準同梱
整形(句読点・言い換え)限定的別途プロンプト工夫が必要自動
プライバシーOSベンダ依存完全に自分で制御可能サーバ非保存を表明
月額無料(OS 機能)無料〜(自前運用コスト)$8〜10

9to5Mac の比較記事では、同一文章を読み上げて Mac 標準ディクテーションが 17 個のエラー、Aqua Voice 版は 1 個だった、という検証結果が紹介されています。技術的な発話・固有名詞が多い文脈で差が顕著に出る傾向が公開情報で報告されています。

プライバシー姿勢

Aqua Voice は公式メッセージで「サーバには何も保存しない(データはユーザーのもの)」と表明しています。クラウド処理である以上、音声データは一時的にネットワークを経由する設計ですが、ベンダー側に永続化されない ことをプライバシー上の主要なセールスポイントとしています。 業務利用で押さえておきたい論点: - 一時処理であってもクラウド経由である事実は変わらないため、社外送出が契約・規制で禁止されている案件では別の選択肢(オンプレ Whisper 等)が必要 - 「サーバに保存しない」の正確な意味(ログ・メタデータ・モデル改善目的の利用)は最新の利用規約で確認推奨 - カスタム辞書(社内固有名詞)はサーバ側に登録される構造のため、辞書登録対象には注意

想定ユースケース

1. 技術ライター・ブロガー・コラム執筆 本記事のような長文を「話して下書き → 自分で整形」のフローで書ける。タイピング4倍速の主張は、書ける速度というよりは 思考のフローを切らずに出力できる 効果が大きい。 2. ソフトウェアエンジニアのコメント・コミットメッセージ Git コミットメッセージ、コードコメント、PR 説明文を「話して書く」。Avalon モデルが技術用語に強いため、純粋なタイピングよりも認知負荷が下がるシーンが多い。 3. 議事録・1on1 メモ MTG中ではなく直後に話し言葉で要約をディクテーション。Audio+LLM フュージョンが "えーと" "あの" を消してくれる結果、清書時間が劇的に短縮される。 4. メール・Slack・チャット返信 返信定型を音声で出す。Mac だけでなく iPhone にも乗っているので、移動中の返信に向く。 5. バイリンガル / 多言語ライティング 日本語の文中に英語の固有名詞が混じるような実務文章で、ぎこちなくならずに書ける。

メリット

- 意図整形の精度が高い: "逐語" 文字起こしから一段進んだ体験 - クロスプラットフォーム: Mac / Windows / iPhone をまたいで一つの製品で完結 - どのアプリでも使える: 専用エディタロックインがない - 技術ボキャブラリに強い: Avalon モデル+カスタム辞書 - 49 言語対応+日本語実用水準: 日本のユーザー比率が高いと報じられている(後述) - リアルタイム表示: 言い直しの判断が早い - サーバ非保存方針の明示: プライバシー説明の出発点として価値がある

デメリット・注意点

- 完全オフラインでは動かない: クラウド処理が前提のため、機密情報の社外送出が許されない案件では選択肢に入らない - Free 枠が「生涯 1,000 語」と短い: 試用としては十分だが、すぐに Pro 必須 - Pro 月額の累計は積み上がる: 年額で $96。複数人で使うとそれなりの予算 - macOS / Windows / iOS 以外の対応は薄い: Linux ネイティブクライアントは現状なし - 意図整形は "勝手に直す" でもある: 法務・医療など "逐語" を求められる用途には向かない(議事録の正本としては別ツールを併用すべき) - 会社規模: Y Combinator W24、累計調達 $2.75M クラスのスタートアップ。製品としては魅力的だが、本格的な業務基盤化を考える際にはサービス継続性を別途評価する必要あり

運営会社・持続可能性(公開情報ベース)

会社情報: 創業者は Jack McIntire と Finn Brown(CEO)。Y Combinator の W24(2024年冬)バッチ出身です。 資金調達: 公開情報ベースで、初期シード $500K(Y Combinator 参加)、その後の調達を含めて累計 $2.75M とされています。投資家には Pioneer Fund / Y Combinator / 1517 Fund / Assembly Capital Partners 等の名前があります。 ユーザー基盤: AI Market Watch によれば、Aqua Voice のユーザー基盤の 50% 以上が日本市場、と報じられています。日本語ディクテーション領域で他の英語圏発プロダクトより手応えのある精度が出ていることが背景と推測されます。 評価: スタートアップとしては早期段階で、今後の追加調達・買収・大手プラットフォームの類似機能投入リスクなどはあります。一方で「日本ユーザーが半数超」という数字が事実なら、日本市場における収益基盤は相応に強く、サービスを急に止めるインセンティブは小さいと考えられます。 ロックイン抑制の備え: 業務の主要文書を Aqua Voice 側のクラウドに永続的に置く設計ではないため(基本はローカルアプリで作業)、サービス継続性リスクは利用方針の調整で吸収しやすい部類です。

オブライトでの活用方針

オブライトでは、社内のドキュメンテーション・コラム執筆・コードレビューコメントなどで Aqua Voice を活用しています。一方、機密性の高いコード解析・社外送出が制約される案件では DGX Spark を使ったローカル LLM 構成 を選択し、用途と要件で使い分けています。 受託案件でお客様の業務改善を提案する際にも、「どこまでクラウド AI 音声入力を入れるか」を Aqua Voice / OS 標準 / オンプレ Whisper の3軸で整理してご提示できます。詳細は AI 導入コンサルティングAI BPO からご相談いただけます。

FAQ

Q1: macOS 標準ディクテーションで十分ではないですか? A: 一般的な日本語日常文では十分なケースもあります。技術用語が多い "えーと" など口頭特有のノイズが多い・句読点と整形を自動でかけたい 場面では Aqua Voice の差が体感で出る、というのが公開レビューの趨勢です。 Q2: Whisper を自前で立てたほうが良くないですか? A: プライバシー要件が厳しい・大量バッチ処理がある・カスタムモデルを育てたい、という用途なら自前 Whisper のほうが有利です。Aqua Voice の優位は 「リアルタイム入力デバイスとしての使い勝手」 にあるため、用途で選び分けが妥当です。 Q3: 議事録の正本として使えますか? A: 推奨しません。Audio+LLM の整形が入る性質上、「言ったままの逐語」は保証されません。発言録が法務・契約上の意味を持つ場面では、別途 "逐語型" の音声録音+逐語起こしツールを併用してください。 Q4: 個人情報を含む話し言葉を入れて大丈夫? A: 公式は "サーバに保存しない" と表明していますが、クラウド経由である事実は変わりません。社外送出が禁止されている業務(医療・金融・防衛・社内機密案件)では避けるか、ローカル処理(オンプレ Whisper / DGX Spark など)に切り替えてください。 Q5: タイピング4倍速の主張は本当? A: 個人差・用途差が大きく、私見では「タイピング比 1.5〜3倍が現実的、思考のフローが切れない効果が大きい」のが体感に近い印象です。一次資料としては公式サイトの主張をご確認ください。 Q6: 日本語精度はどのくらい? A: 公開レビューでは macOS 標準より高い精度の検証例が報告されています。ユーザー基盤の半数超が日本との報道(AI Market Watch)もあり、日本語のチューニングに継続投資されている可能性が示唆されています。 Q7: 競合は? A: macOS 標準ディクテーション、Wispr Flow、Whisper 系 SaaS(Otter / Fireflies など)、各種 AI ノートアプリ、自前 Whisper デプロイ、など。「リアルタイム入力+意図整形」 という切り口では Aqua Voice が頭一つ抜けている、というのが2026年時点の公開レビューの傾向です。

参考文献

お気軽にご相談ください

お問い合わせ