Liquid AI 日本語特化2モデル徹底解説 — LFM2.5-1.2B-JP-202606(言語)と LFM2.5-Audio-1.5B-JP(音声)、MIT CSAIL スピンオフが2026年6月に投入したオンデバイス AI の正体
MIT CSAIL スピンオフの Liquid AI が2026年6月初旬に Hugging Face に投入した日本語特化2モデル `LFM2.5-1.2B-JP-202606`(言語、1.17B / 32K コンテキスト) と `LFM2.5-Audio-1.5B-JP`(音声、1.2B言語 + 115M FastConformer、24kHz、Speech-to-Speech) を、公式モデルカードと Liquid 公式ブログを一次ソースに整理。Liquid Neural Network 由来の独自アーキテクチャ(16層 = 10 LIV 畳み込み + 6 GQA)、JMMLU 54.19 / J-MIFEval 79.08 / J-GSM8K 62.20 のサブ2Bクラス最高水準ベンチ、音声 ASR で CommonVoice 8 (ja) CER 4.42(Whisper-large-v3 の半分)一方で JSUT・ReazonSpeech では劣後する ドメイン差、Apache 2.0 ではない LFM Open License v1.0、Apple Silicon / AMD Ryzen AI / Qualcomm / NVIDIA / モバイル CPU 対応、Gemma 4 12B / Qwen 3.5 / TinySwallow / Sarashina との競合関係、日本企業のオンデバイス AI / コールセンター / 議事録 / 対面接客への適用判断までを整理。
TL;DR — Liquid AI が2026年6月に投入した日本語2モデル
MIT CSAIL スピンオフの Liquid AI(liquid.ai)が、2026年6月初旬に Hugging Face へ日本語特化の2モデルを投入しました。
- 言語モデル: LiquidAI/LFM2.5-1.2B-JP-202606(1.17B、32K コンテキスト) - 音声モデル: LiquidAI/LFM2.5-Audio-1.5B-JP(1.2B 言語コア + 115M FastConformer、Speech-to-Speech 対応)
両者の最大の特徴は 「Transformer 一辺倒からの離脱」。Liquid AI は線虫 *C. elegans* の神経動力学に着想を得た Liquid Neural Network(LNN) をベースにした独自アーキテクチャ(LFM = Liquid Foundation Model)を持ち、16層 = 10 LIV 畳み込みブロック + 6 GQA ブロック のハイブリッド構成で、サブ2Bクラスでありながら日本語ベンチで最高水準を主張しています。
本コラムは公式モデルカードと Liquid 公式ブログを一次ソースに、技術仕様・ベンチマーク・ライセンス(Apache 2.0 ではない)・競合との位置づけ・日本企業の現実的な採用判断までを整理します。先行コラム Gemma 4 12B encoder-free と Gemma 4 性能比較 もあわせてご参照ください。
Liquid AI と LFM の背景
Liquid AI は 2023年、MIT CSAIL の4名 — Ramin Hasani(CEO)/ Mathias Lechner(CTO)/ Alexander Amini(CSO)/ Daniela Rus — によって設立されたスピンオフ企業です。技術基盤は線虫 *C. elegans* の神経動力学に着想を得た Liquid Neural Network(LNN) で、Transformer 一辺倒の業界に対して 「より少ないパラメータで、より長いコンテキストを、よりエッジで」 を旗印にしています。
LFM(Liquid Foundation Model) は LNN ベースに、ハイブリッド畳み込み(LIV)と GQA(Grouped Query Attention)を組み合わせた独自アーキテクチャの実装系。スマートフォン・車載 ECU・IoT デバイスでも動作するオンデバイス AI を主戦場としています。
LFM2 / LFM2.5 シリーズの全体像
今回の2モデルは、LFM2.5 ファミリーの 日本語特化リフレッシュ版 に位置づけられます。シリーズ全体の流れ:
| 時期 | リリース |
|---|---|
| 2025年11月28日 | LFM2 Technical Report(arXiv:2511.23404)、LFM2-Audio-1.5B 系含む |
| 2026年1月5日 | LFM2.5 ファミリー発表(Base / Instruct / JP / VL / Audio の5系統、1.2B〜1.6B) |
| 2026年2月 | LFM2-24B-A2B(MoE、24B 総 / 2B アクティブ)早期チェックポイント |
| 2026年5月28日 | LFM2.5-8B-A1B(MoE、8.3B 総 / 1.5B アクティブ)。日本語トークナイザを6.9%改善 |
| 2026年6月初旬 | 本コラム対象: `LFM2.5-1.2B-JP-202606` と `LFM2.5-Audio-1.5B-JP` 公開 |
Hugging Face の `LiquidAI` 組織ページ上で、両モデルは本稿執筆時点(2026-06-06)で「Updated 1–2 days ago」と表示されており、2026年6月初旬のリリースが確認できます。出典: LFM2.5 発表ブログ / GIGAZINE — LFM2.5-8B-A1B
LFM2.5-1.2B-JP-202606(言語モデル)の詳細
| 項目 | 値 |
|---|---|
| 実パラメータ数 | 1.17B(呼称は 1.2B) |
| コンテキスト長 | 32,768 トークン |
| アーキテクチャ | 16層(10 LIV 畳み込みブロック + 6 GQA ブロック) |
| 語彙サイズ | 65,536 |
| 訓練トークン | 31.5T |
| 知識カットオフ | 2024年中頃 |
| ライセンス | LFM Open License v1.0(`lfm1.0`)※Apache 2.0 ではない |
| 提供フォーマット | Safetensors / GGUF / ONNX / MLX (4bit, 5bit) |
日本語ベンチマーク(モデルカード掲載値)
| ベンチ | スコア | 補足 |
|---|---|---|
| JMMLU | 54.19 | ProX: 36.23 |
| J-MIFEval(指示追従) | 79.08 | |
| J-GSM8K(数学) | 62.20 | |
| JHumanEval+(コード) | 49.39 | |
| ドメイン平均 | 53.11 |
1月版からの改善幅: J-MIFEval が 58.1 → 79.08(+21pt)、JMMLU が 50.7 → 54.19(+3.5pt)、J-GSM8K が 56.0 → 62.20(+6.2pt)。特に指示追従能力(J-MIFEval)の +21pt はエージェント用途で決定的に重要です。
比較対象として Liquid 側が想定しているのは Qwen3-1.7B、Llama-3.2-1B-Instruct、Gemma-3-1B-it、TinySwallow-1.5B、Sarashina2.2-1B、Granite-4.0-h-1b など同2B 以下クラス。Gemma 4 12B や GPT-4 級との同条件比較は公式記載なし で、サブ2B クラス内での「日本語最高水準」を主張するモデルです。
想定用途(公式モデルカード): 「エージェントワークフロー、ツール使用、構造化出力、英日バイリンガル・アシスタント、オンデバイス・パーソナルアシスタント」。
LFM2.5-Audio-1.5B-JP(音声モデル)の詳細
| 項目 | 値 |
|---|---|
| 総パラメータ | 1.5B(言語コア 1.2B + 音声エンコーダ 115M) |
| 音声エンコーダ | FastConformer(Nvidia Canary-180m-flash ベース) |
| 音声トークナイザ | Mimi、8 コードブック |
| サンプリングレート | 24 kHz |
| コンテキスト | 32,768 トークン、bfloat16 |
| ライセンス | LFM Open License v1.0 |
| 機能 | STT / TTS / Speech-to-Speech(インターリーブ生成、リアルタイム会話) |
日本語 ASR ベンチマーク(CER, %、低いほど良)
| データセット | LFM2.5-Audio-1.5B-JP | Whisper-large-v3 |
|---|---|---|
| CommonVoice 8 (ja) | 4.42 ★ | 8.5 |
| JSUT Basic 5000 | 8.07 | 7.1 ★ |
| ReazonSpeech(ホールドアウト) | 24.24 | より低い(要参照) |
重要な解釈: CommonVoice 8 では Whisper-large-v3 を 約半分の CER で上回る 一方、JSUT や ReazonSpeech では Whisper に劣後 することがある。ドメインによる差が大きいため、業務導入前のドメイン適合検証は必須です。
レイテンシの具体的ミリ秒値はモデルカードに明示されていませんが、LFM2.5 全体として「LFM2 Mimi デトークナイザの8倍速、モバイル CPU 上でネイティブ動作」と公式が強調しています。出典: MarkTechPost — LFM2-Audio-1.5B sub-100ms response
ライセンス — Apache 2.0 ではない点に注意
両モデルとも独自の 「LFM Open License v1.0」(`lfm1.0`)で、Apache 2.0 ではありません。これは Gemma 4 12B(Apache 2.0)や Qwen 3.5(一部 Apache 2.0)と比べて、商用利用条件の細則(収益閾値・帰属表示等)が異なる可能性があります。
本格的な商用組み込みや SaaS 配布前に、必ず LFM Open License v1.0 の全文を確認 してください。Llama 4 Community License のように「月間 N MAU 超で別契約必須」「Liquid AI との競合製品開発に制約」等の条項がある可能性があります(本調査範囲では完全には確認できず、公式未確認)。
動作環境とハードウェア最適化
公式ブログによれば LFM2.5 系は Apple Silicon / AMD Ryzen AI / Qualcomm Snapdragon / NVIDIA に最適化済み。1.2B クラスは BF16 で約 2.4GB、4bit 量子化なら 1GB 未満 となり、スマートフォン・車載 ECU・IoT デバイスでも動作可能です。
AMD は Ryzen AI Max+ 395 上での議事録要約デモを公開しています(amd.com — Ryzen on-device meeting summaries)。提供チャネル:
- Hugging Face(Safetensors / GGUF / ONNX / MLX 4bit/5bit) - LEAP プラットフォームおよび Liquid Playground(公式) - llama.cpp / MLX / vLLM / ONNX Runtime に対応 → Ollama・LM Studio での利用も実質可能(公式統合が明示されているかは未確認)
競合との位置づけ
サブ2B 日本語特化クラスでの競合:
| モデル | パラメータ | ライセンス | 特徴 |
|---|---|---|---|
| LFM2.5-1.2B-JP-202606 | 1.17B | LFM Open v1.0 | LNN ハイブリッド、サブ2B 最高水準(公式主張) |
| TinySwallow-1.5B | 1.5B | Apache 2.0 系 | tokyotech-llm 系、Swallow 家族 |
| Sarashina2.2-1B | 1B | 独自 | SB Intuitions(ソフトバンク系) |
| Qwen3-1.7B | 1.7B | Apache 2.0 / Qwen | 多言語特化 |
| Gemma-3-1B-it | 1B | Apache 2.0 | Google、軽量 |
ミッドサイズクラス(5B-15B)の比較対象:
- Gemma 4 12B encoder-free(Apache 2.0、16GB VRAM、マルチモーダル) - Rakuten AI、CyberAgent CALM、Sakana AI、Stability AI 日本語版(クラウド寄り)
Liquid AI の差別化点: 1. サブ2B クラスでのオンデバイス完結 — Gemma 4 12B が 16GB VRAM 必要なのに対し、Liquid は 1GB 未満で動作 2. Liquid Neural Network 由来のアーキテクチャ — Transformer 系とは別系統 3. Speech-to-Speech のリアルタイム音声 — Whisper が STT のみなのに対し、双方向
Liquid AI の弱点: 1. ライセンスが Apache 2.0 ではない — 法務リスクで Gemma / Qwen に劣る可能性 2. 音声 ASR がドメイン依存 — JSUT / ReazonSpeech では Whisper に劣後 3. 大規模モデル(12B+)との直接比較が公式に無い — Gemma 4 12B との優劣は不明
日本企業視点での意義
ハマる場面:
- データ主権 — 完全オンデバイス動作で機密データを外部 API 送信しない。改正個人情報保護法・経済安保推進法に適合 - コスト — 推論コスト実質ゼロ(電力のみ)。クラウド LLM API 課金不要 - AI PC 連携 — Copilot+ PC(Snapdragon X、Ryzen AI)、Apple Silicon、車載・産業 IoT のオンデバイス AI 戦略と整合 - 音声業務の現場適用 — コールセンター内省処理、議事録、対面接客アシスタント、車載音声 UI - エージェントワークフロー — J-MIFEval 79.08 という高い指示追従能力で、サブ2B クラスでもエージェント用途が現実的
ハマらない場面:
- 長文・高度な推論 — 1.2B クラスでは Gemma 4 12B や GPT-5 級には届かない - 音声業務の高精度要求 — JSUT・ReazonSpeech 等のドメインで Whisper に劣後する場合あり - 法務リスク厳格な業種 — LFM Open License v1.0 の細則確認が必須 - マルチモーダル(画像理解) — 言語モデル単体では非対応(VL 系は別モデル)
オブライトの AI コンサルティング では、「サブ2B のオンデバイス × 12B クラスのクラウドハイブリッド」 の設計を Forward Deployed Engineer 型 の現場伴走で支援しています。Liquid AI モデルは「軽量・常時稼働の前段」、Gemma 4 12B 等は「深い推論が必要な後段」という役割分担が現実的です。
想定ユースケース
- エッジ AI チャット — スマートフォン・タブレット上で完結する日本語アシスタント - コールセンター内省処理 — 通話音声の構造化、PII 外部送信ゼロ - 議事録自動生成 — オンデバイスで会議録音を要約 - 対面接客アシスタント — 接客中の会話を端末内で記録・CRM 投入 - 車載音声 UI — ネット接続なしでナビ・操作 - エージェント基盤の軽量フロント — Claude Code Agent View や Hermes Desktop のローカル LLM バックエンドとしての候補
公式に確認できなかった事項
本調査時点で公式に確認できなかった事項:
- 公式ブログ(liquid.ai/blog)に「JP-202606」「Audio-1.5B-JP」単独告知記事 — 発見できず、一次ソースは Hugging Face モデルカードのみ - 公式 X(@LiquidAI_)の投稿 — 本調査では HTTP 402 で取得不可 - LFM Open License v1.0 の商用利用条件詳細(収益閾値・帰属表示等) - レイテンシの具体的ミリ秒値(音声モデル) - JCommonsenseQA / JNLI / JEMHopQA / JaQuAD などのその他日本語ベンチマーク数値
本格採用前に、Hugging Face モデルカード と Liquid AI ブログ で最新情報を再確認することを推奨します。
FAQ
Q1. Liquid AI と既存の Transformer 系 LLM はどう違う? A. Liquid AI は Liquid Neural Network(LNN) をベースに、ハイブリッド畳み込み(LIV)と GQA を組み合わせた独自アーキテクチャ。Transformer 一辺倒からの離脱を掲げ、より少ないパラメータで、より長いコンテキストを、よりエッジで が方針です。 Q2. Gemma 4 12B と LFM2.5-1.2B-JP、どっちを選ぶ? A. 用途次第。Gemma 4 12B は 16GB VRAM 必要で深い推論ができ、Apache 2.0。Liquid は 1GB 未満で動き、サブ2Bクラスで日本語特化、ただし LFM Open License v1.0。「エッジで完結したい」なら Liquid、「ノート PC で高性能」なら Gemma 4 12B。 Q3. 音声モデルは Whisper の代わりになる? A. ドメイン次第。CommonVoice 8 (ja) では Whisper-large-v3 の半分の CER(4.42 vs 8.5)ですが、JSUT・ReazonSpeech では Whisper に劣後することがあります。さらに Speech-to-Speech リアルタイム会話 という Whisper にない機能があるため、用途で使い分けるべきです。 Q4. ライセンスは商用利用 OK? A. LFM Open License v1.0 は独自ライセンスで、Apache 2.0 ではありません。本格採用前に 全文を必ず確認 してください。Llama 4 のような MAU 制限や競合製品制約の有無は本調査範囲では未確認です。 Q5. Ollama や LM Studio で動かせる? A. GGUF フォーマットが公式提供されており、`llama.cpp` ベースのツールで動作可能と推測されます。Ollama / LM Studio の公式統合が明示されているかは未確認のため、各ツールの最新情報を確認してください。 Q6. iPhone / Android で動く? A. はい。4bit 量子化で約 1GB 未満となり、現代のスマートフォン CPU でネイティブ動作します。LFM2.5 系は Apple Silicon / Qualcomm Snapdragon / AMD Ryzen AI / NVIDIA すべてに最適化済み。 Q7. なぜ「202606」という日付サフィックス? A. Liquid AI のリフレッシュ版命名規則と推測されます。1月版(`LFM2.5-1.2B-JP`)からの 増分アップデート であることを明示するためのバージョンタグ。今後も `LFM2.5-1.2B-JP-202607` のように月次・四半期次でリリースされる可能性があります(公式未確認)。
まとめ
Liquid AI が2026年6月初旬に投入した LFM2.5-1.2B-JP-202606 と LFM2.5-Audio-1.5B-JP は、「サブ2B クラスで日本語に特化し、オンデバイス完結を狙う」 という明確な戦略を体現したモデル群です。1月版から J-MIFEval +21pt、JMMLU +3.5pt、J-GSM8K +6.2pt という大幅改善は、指示追従能力の向上を経てエージェント用途に堪える ことを示唆しています。
日本企業視点では、Gemma 4 12B(クラウド寄り、Apache 2.0)と Liquid AI(オンデバイス、独自ライセンス)の使い分け が当面の中心テーマになります。改正個人情報保護法・経済安保推進法・各業界ガイドラインで「データを外に出せない」要件がある業務(金融・医療・自治体・防衛系)には Liquid AI、それ以外には Gemma 4 / Qwen、というのが2026年中盤の現実解です。
ただし LFM Open License v1.0 の細則確認と、音声モデルの自社ドメイン適合検証 は導入前に必須です。本格採用までは PoC で1〜2か月の実機検証を推奨します。
References
公式(一次ソース): - Liquid AI 公式 - Liquid AI ブログ — LFM2.5 ファミリー発表 - Liquid AI ブログ — First Principles - Liquid AI About - Hugging Face — LiquidAI 組織 - Hugging Face — LFM2.5-1.2B-JP-202606 - Hugging Face — LFM2.5-Audio-1.5B-JP - Liquid Docs — LFM2.5-1.2B-JP - arXiv:2511.23404 — LFM2 Technical Report 第三者: - GIGAZINE — LFM2.5-8B-A1B 解説 - MarkTechPost — LFM2-Audio-1.5B sub-100ms latency - AMD ブログ — Liquid AI × Ryzen on-device meeting summaries - MIT CSAIL — Ramin Hasani 関連コラム: - Gemma 4 12B encoder-free multimodal - Gemma 4 性能比較 — vs Llama 4 / Qwen / Mistral / DeepSeek - Gemma 4 必要スペック早見表 - Argent × Gemma 4 — オンデバイス AI エージェント - Hermes Desktop - Claude Code Agent View - Forward Deployed Engineer (FDE) 注記: 公式ブログ(liquid.ai/blog)に「JP-202606」「Audio-1.5B-JP」を単独で告知する記事は本調査時点で発見できず、一次ソースは Hugging Face モデルカードです。@LiquidAI_ 公式 X は本調査では取得不可。LFM Open License v1.0 の商用利用条件詳細、レイテンシの具体的数値、JCommonsenseQA / JNLI / JEMHopQA / JaQuAD 等の追加ベンチマーク数値は公式未確認です。本格採用前に最新情報を再確認してください。
お気軽にご相談ください
お問い合わせ