AI2026-06-06約21分で読めます

Liquid AI 日本語特化2モデル徹底解説

LFM2.5-1.2B-JP-202606（言語）と LFM2.5-Audio-1.5B-JP（音声）、MIT CSAIL スピンオフが2026年6月に投入したオンデバイス AI の正体

MIT CSAIL スピンオフの Liquid AI が2026年6月初旬に Hugging Face に投入した日本語特化2モデル LFM2.5-1.2B-JP-202606（言語、1.17B / 32K コンテキスト） と LFM2.5-Audio-1.5B-JP（音声、1.2B言語 + 115M FastConformer、24kHz、Speech-to-Speech） を、公式モデルカードと Liquid 公式ブログを一次ソースに整理。Liquid Neural Network 由来の独自アーキテクチャ（16層 = 10 LIV 畳み込み + 6 GQA）、JMMLU 54.19 / J-MIFEval 79.08 / J-GSM8K 62.20 のサブ2Bクラス最高水準ベンチ、音声 ASR で CommonVoice 8 (ja) CER 4.42（Whisper-large-v3 の半分）一方で JSUT・ReazonSpeech では劣後する ドメイン差、Apache 2.0 ではない LFM Open License v1.0、Apple Silicon / AMD Ryzen AI / Qualcomm / NVIDIA / モバイル CPU 対応、Gemma 4 12B / Qwen 3.5 / TinySwallow / Sarashina との競合関係、日本企業のオンデバイス AI / コールセンター / 議事録 / 対面接客への適用判断までを整理。

Liquid AI LFM2.5 LFM On-device AI Japanese LLM Speech AI Edge AI Liquid Neural Network

TL;DR — Liquid AI が2026年6月に投入した日本語2モデル

MIT CSAIL スピンオフの Liquid AI（liquid.ai）が、2026年6月初旬に Hugging Face へ日本語特化の2モデルを投入しました。

- 言語モデル: LiquidAI/LFM2.5-1.2B-JP-202606（1.17B、32K コンテキスト）
- 音声モデル: LiquidAI/LFM2.5-Audio-1.5B-JP（1.2B 言語コア + 115M FastConformer、Speech-to-Speech 対応）

両者の最大の特徴は 「Transformer 一辺倒からの離脱」。Liquid AI は線虫 *C. elegans* の神経動力学に着想を得た Liquid Neural Network（LNN） をベースにした独自アーキテクチャ（LFM = Liquid Foundation Model）を持ち、16層 = 10 LIV 畳み込みブロック + 6 GQA ブロック のハイブリッド構成で、サブ2Bクラスでありながら日本語ベンチで最高水準を主張しています。

本コラムは公式モデルカードと Liquid 公式ブログを一次ソースに、技術仕様・ベンチマーク・ライセンス（Apache 2.0 ではない）・競合との位置づけ・日本企業の現実的な採用判断までを整理します。先行コラム Gemma 4 12B encoder-free と Gemma 4 性能比較もあわせてご参照ください。

Liquid AI と LFM の背景

Liquid AI は 2023年、MIT CSAIL の4名 — Ramin Hasani（CEO）/ Mathias Lechner（CTO）/ Alexander Amini（CSO）/ Daniela Rus — によって設立されたスピンオフ企業です。技術基盤は線虫 *C. elegans* の神経動力学に着想を得た Liquid Neural Network（LNN） で、Transformer 一辺倒の業界に対して 「より少ないパラメータで、より長いコンテキストを、よりエッジで」 を旗印にしています。

LFM（Liquid Foundation Model） は LNN ベースに、ハイブリッド畳み込み（LIV）と GQA（Grouped Query Attention）を組み合わせた独自アーキテクチャの実装系。スマートフォン・車載 ECU・IoT デバイスでも動作するオンデバイス AI を主戦場としています。

出典: liquid.ai/company/about / csail.mit.edu/person/ramin-hasani / Liquid AI ブログ — First Principles

LFM2 / LFM2.5 シリーズの全体像

今回の2モデルは、LFM2.5 ファミリーの 日本語特化リフレッシュ版 に位置づけられます。シリーズ全体の流れ:

時期	リリース
2025年11月28日	LFM2 Technical Report（arXiv:2511.23404）、LFM2-Audio-1.5B 系含む
2026年1月5日	LFM2.5 ファミリー発表（Base / Instruct / JP / VL / Audio の5系統、1.2B〜1.6B）
2026年2月	LFM2-24B-A2B（MoE、24B 総 / 2B アクティブ）早期チェックポイント
2026年5月28日	LFM2.5-8B-A1B（MoE、8.3B 総 / 1.5B アクティブ）。日本語トークナイザを6.9%改善
2026年6月初旬	本コラム対象: `LFM2.5-1.2B-JP-202606` と `LFM2.5-Audio-1.5B-JP` 公開

Hugging Face の LiquidAI 組織ページ上で、両モデルは本稿執筆時点（2026-06-06）で「Updated 1–2 days ago」と表示されており、2026年6月初旬のリリースが確認できます。出典: LFM2.5 発表ブログ / GIGAZINE — LFM2.5-8B-A1B

LFM2.5-1.2B-JP-202606（言語モデル）の詳細

項目	値
実パラメータ数	1.17B（呼称は 1.2B）
コンテキスト長	32,768 トークン
アーキテクチャ	16層（10 LIV 畳み込みブロック + 6 GQA ブロック）
語彙サイズ	65,536
訓練トークン	31.5T
知識カットオフ	2024年中頃
ライセンス	LFM Open License v1.0（`lfm1.0`）※Apache 2.0 ではない
提供フォーマット	Safetensors / GGUF / ONNX / MLX (4bit, 5bit)

日本語ベンチマーク（モデルカード掲載値）

ベンチ	スコア	補足
JMMLU	54.19	ProX: 36.23
J-MIFEval（指示追従）	79.08
J-GSM8K（数学）	62.20
JHumanEval+（コード）	49.39
ドメイン平均	53.11

1月版からの改善幅: J-MIFEval が 58.1 → 79.08（+21pt）、JMMLU が 50.7 → 54.19（+3.5pt）、J-GSM8K が 56.0 → 62.20（+6.2pt）。特に指示追従能力（J-MIFEval）の +21pt はエージェント用途で決定的に重要です。

比較対象として Liquid 側が想定しているのは Qwen3-1.7B、Llama-3.2-1B-Instruct、Gemma-3-1B-it、TinySwallow-1.5B、Sarashina2.2-1B、Granite-4.0-h-1b など同2B 以下クラス。Gemma 4 12B や GPT-4 級との同条件比較は公式記載なし で、サブ2B クラス内での「日本語最高水準」を主張するモデルです。

想定用途（公式モデルカード）: 「エージェントワークフロー、ツール使用、構造化出力、英日バイリンガル・アシスタント、オンデバイス・パーソナルアシスタント」。

LFM2.5-Audio-1.5B-JP（音声モデル）の詳細

項目	値
総パラメータ	1.5B（言語コア 1.2B + 音声エンコーダ 115M）
音声エンコーダ	FastConformer（Nvidia Canary-180m-flash ベース）
音声トークナイザ	Mimi、8 コードブック
サンプリングレート	24 kHz
コンテキスト	32,768 トークン、bfloat16
ライセンス	LFM Open License v1.0
機能	STT / TTS / Speech-to-Speech（インターリーブ生成、リアルタイム会話）

日本語 ASR ベンチマーク（CER, %、低いほど良）

データセット	LFM2.5-Audio-1.5B-JP	Whisper-large-v3
CommonVoice 8 (ja)	4.42 ★	8.5
JSUT Basic 5000	8.07	7.1 ★
ReazonSpeech（ホールドアウト）	24.24	より低い（要参照）

重要な解釈: CommonVoice 8 では Whisper-large-v3 を 約半分の CER で上回る 一方、JSUT や ReazonSpeech では Whisper に劣後 することがある。ドメインによる差が大きいため、業務導入前のドメイン適合検証は必須です。

レイテンシの具体的ミリ秒値はモデルカードに明示されていませんが、LFM2.5 全体として「LFM2 Mimi デトークナイザの8倍速、モバイル CPU 上でネイティブ動作」と公式が強調しています。出典: MarkTechPost — LFM2-Audio-1.5B sub-100ms response

ライセンス — Apache 2.0 ではない点に注意

両モデルとも独自の 「LFM Open License v1.0」（lfm1.0）で、Apache 2.0 ではありません。これは Gemma 4 12B（Apache 2.0）や Qwen 3.5（一部 Apache 2.0）と比べて、商用利用条件の細則（収益閾値・帰属表示等）が異なる可能性があります。

本格的な商用組み込みや SaaS 配布前に、必ず LFM Open License v1.0 の全文を確認 してください。Llama 4 Community License のように「月間 N MAU 超で別契約必須」「Liquid AI との競合製品開発に制約」等の条項がある可能性があります（本調査範囲では完全には確認できず、公式未確認）。

動作環境とハードウェア最適化

公式ブログによれば LFM2.5 系は Apple Silicon / AMD Ryzen AI / Qualcomm Snapdragon / NVIDIA に最適化済み。1.2B クラスは BF16 で約 2.4GB、4bit 量子化なら 1GB 未満 となり、スマートフォン・車載 ECU・IoT デバイスでも動作可能です。

AMD は Ryzen AI Max+ 395 上での議事録要約デモを公開しています（amd.com — Ryzen on-device meeting summaries）。提供チャネル:

- Hugging Face（Safetensors / GGUF / ONNX / MLX 4bit/5bit）
- LEAP プラットフォームおよび Liquid Playground（公式）
- llama.cpp / MLX / vLLM / ONNX Runtime に対応 → Ollama・LM Studio での利用も実質可能（公式統合が明示されているかは未確認）

競合との位置づけ

サブ2B 日本語特化クラスでの競合:

モデル	パラメータ	ライセンス	特徴
LFM2.5-1.2B-JP-202606	1.17B	LFM Open v1.0	LNN ハイブリッド、サブ2B 最高水準（公式主張）
TinySwallow-1.5B	1.5B	Apache 2.0 系	tokyotech-llm 系、Swallow 家族
Sarashina2.2-1B	1B	独自	SB Intuitions（ソフトバンク系）
Qwen3-1.7B	1.7B	Apache 2.0 / Qwen	多言語特化
Gemma-3-1B-it	1B	Apache 2.0	Google、軽量

ミッドサイズクラス（5B-15B）の比較対象:

- Gemma 4 12B encoder-free（Apache 2.0、16GB VRAM、マルチモーダル）
- Rakuten AI、CyberAgent CALM、Sakana AI、Stability AI 日本語版（クラウド寄り）

Liquid AI の差別化点:
1. サブ2B クラスでのオンデバイス完結 — Gemma 4 12B が 16GB VRAM 必要なのに対し、Liquid は 1GB 未満で動作
2. Liquid Neural Network 由来のアーキテクチャ — Transformer 系とは別系統
3. Speech-to-Speech のリアルタイム音声 — Whisper が STT のみなのに対し、双方向

Liquid AI の弱点:
1. ライセンスが Apache 2.0 ではない — 法務リスクで Gemma / Qwen に劣る可能性
2. 音声 ASR がドメイン依存 — JSUT / ReazonSpeech では Whisper に劣後
3. 大規模モデル（12B+）との直接比較が公式に無い — Gemma 4 12B との優劣は不明

日本企業視点での意義

ハマる場面:

- データ主権 — 完全オンデバイス動作で機密データを外部 API 送信しない。改正個人情報保護法・経済安保推進法に適合
- コスト — 推論コスト実質ゼロ（電力のみ）。クラウド LLM API 課金不要
- AI PC 連携 — Copilot+ PC（Snapdragon X、Ryzen AI）、Apple Silicon、車載・産業 IoT のオンデバイス AI 戦略と整合
- 音声業務の現場適用 — コールセンター内省処理、議事録、対面接客アシスタント、車載音声 UI
- エージェントワークフロー — J-MIFEval 79.08 という高い指示追従能力で、サブ2B クラスでもエージェント用途が現実的

ハマらない場面:

- 長文・高度な推論 — 1.2B クラスでは Gemma 4 12B や GPT-5 級には届かない
- 音声業務の高精度要求 — JSUT・ReazonSpeech 等のドメインで Whisper に劣後する場合あり
- 法務リスク厳格な業種 — LFM Open License v1.0 の細則確認が必須
- マルチモーダル（画像理解） — 言語モデル単体では非対応（VL 系は別モデル）

オブライトの AI コンサルティングでは、「サブ2B のオンデバイス × 12B クラスのクラウドハイブリッド」 の設計を Forward Deployed Engineer 型の現場伴走で支援しています。Liquid AI モデルは「軽量・常時稼働の前段」、Gemma 4 12B 等は「深い推論が必要な後段」という役割分担が現実的です。

想定ユースケース

- エッジ AI チャット — スマートフォン・タブレット上で完結する日本語アシスタント
- コールセンター内省処理 — 通話音声の構造化、PII 外部送信ゼロ
- 議事録自動生成 — オンデバイスで会議録音を要約
- 対面接客アシスタント — 接客中の会話を端末内で記録・CRM 投入
- 車載音声 UI — ネット接続なしでナビ・操作
- エージェント基盤の軽量フロント — Claude Code Agent View や Hermes Desktop のローカル LLM バックエンドとしての候補

公式に確認できなかった事項

本調査時点で公式に確認できなかった事項:

- 公式ブログ（liquid.ai/blog）に「JP-202606」「Audio-1.5B-JP」単独告知記事 — 発見できず、一次ソースは Hugging Face モデルカードのみ
- 公式 X（@LiquidAI_）の投稿 — 本調査では HTTP 402 で取得不可
- LFM Open License v1.0 の商用利用条件詳細（収益閾値・帰属表示等）
- レイテンシの具体的ミリ秒値（音声モデル）
- JCommonsenseQA / JNLI / JEMHopQA / JaQuAD などのその他日本語ベンチマーク数値

本格採用前に、Hugging Face モデルカードと Liquid AI ブログで最新情報を再確認することを推奨します。

FAQ

Q1. Liquid AI と既存の Transformer 系 LLM はどう違う？
A. Liquid AI は Liquid Neural Network（LNN） をベースに、ハイブリッド畳み込み（LIV）と GQA を組み合わせた独自アーキテクチャ。Transformer 一辺倒からの離脱を掲げ、より少ないパラメータで、より長いコンテキストを、よりエッジで が方針です。

Q2. Gemma 4 12B と LFM2.5-1.2B-JP、どっちを選ぶ？
A. 用途次第。Gemma 4 12B は 16GB VRAM 必要で深い推論ができ、Apache 2.0。Liquid は 1GB 未満で動き、サブ2Bクラスで日本語特化、ただし LFM Open License v1.0。「エッジで完結したい」なら Liquid、「ノート PC で高性能」なら Gemma 4 12B。

Q3. 音声モデルは Whisper の代わりになる？
A. ドメイン次第。CommonVoice 8 (ja) では Whisper-large-v3 の半分の CER（4.42 vs 8.5）ですが、JSUT・ReazonSpeech では Whisper に劣後することがあります。さらに Speech-to-Speech リアルタイム会話 という Whisper にない機能があるため、用途で使い分けるべきです。

Q4. ライセンスは商用利用 OK？
A. LFM Open License v1.0 は独自ライセンスで、Apache 2.0 ではありません。本格採用前に 全文を必ず確認 してください。Llama 4 のような MAU 制限や競合製品制約の有無は本調査範囲では未確認です。

Q5. Ollama や LM Studio で動かせる？
A. GGUF フォーマットが公式提供されており、llama.cpp ベースのツールで動作可能と推測されます。Ollama / LM Studio の公式統合が明示されているかは未確認のため、各ツールの最新情報を確認してください。

Q6. iPhone / Android で動く？
A. はい。4bit 量子化で約 1GB 未満となり、現代のスマートフォン CPU でネイティブ動作します。LFM2.5 系は Apple Silicon / Qualcomm Snapdragon / AMD Ryzen AI / NVIDIA すべてに最適化済み。

Q7. なぜ「202606」という日付サフィックス？
A. Liquid AI のリフレッシュ版命名規則と推測されます。1月版（LFM2.5-1.2B-JP）からの 増分アップデート であることを明示するためのバージョンタグ。今後も LFM2.5-1.2B-JP-202607 のように月次・四半期次でリリースされる可能性があります（公式未確認）。

まとめ

Liquid AI が2026年6月初旬に投入した LFM2.5-1.2B-JP-202606 と LFM2.5-Audio-1.5B-JP は、「サブ2B クラスで日本語に特化し、オンデバイス完結を狙う」 という明確な戦略を体現したモデル群です。1月版から J-MIFEval +21pt、JMMLU +3.5pt、J-GSM8K +6.2pt という大幅改善は、指示追従能力の向上を経てエージェント用途に堪える ことを示唆しています。

日本企業視点では、Gemma 4 12B（クラウド寄り、Apache 2.0）と Liquid AI（オンデバイス、独自ライセンス）の使い分け が当面の中心テーマになります。改正個人情報保護法・経済安保推進法・各業界ガイドラインで「データを外に出せない」要件がある業務（金融・医療・自治体・防衛系）には Liquid AI、それ以外には Gemma 4 / Qwen、というのが2026年中盤の現実解です。

ただし LFM Open License v1.0 の細則確認と、音声モデルの自社ドメイン適合検証 は導入前に必須です。本格採用までは PoC で1〜2か月の実機検証を推奨します。

References

公式（一次ソース）:
- Liquid AI 公式
- Liquid AI ブログ — LFM2.5 ファミリー発表
- Liquid AI ブログ — First Principles
- Liquid AI About
- Hugging Face — LiquidAI 組織
- Hugging Face — LFM2.5-1.2B-JP-202606
- Hugging Face — LFM2.5-Audio-1.5B-JP
- Liquid Docs — LFM2.5-1.2B-JP
- arXiv:2511.23404 — LFM2 Technical Report

第三者:
- GIGAZINE — LFM2.5-8B-A1B 解説
- MarkTechPost — LFM2-Audio-1.5B sub-100ms latency
- AMD ブログ — Liquid AI × Ryzen on-device meeting summaries
- MIT CSAIL — Ramin Hasani

関連コラム:
- Gemma 4 12B encoder-free multimodal
- Gemma 4 性能比較 — vs Llama 4 / Qwen / Mistral / DeepSeek
- Gemma 4 必要スペック早見表
- Argent × Gemma 4 — オンデバイス AI エージェント
- Hermes Desktop
- Claude Code Agent View
- Forward Deployed Engineer (FDE)

注記: 公式ブログ（liquid.ai/blog）に「JP-202606」「Audio-1.5B-JP」を単独で告知する記事は本調査時点で発見できず、一次ソースは Hugging Face モデルカードです。@LiquidAI_ 公式 X は本調査では取得不可。LFM Open License v1.0 の商用利用条件詳細、レイテンシの具体的数値、JCommonsenseQA / JNLI / JEMHopQA / JaQuAD 等の追加ベンチマーク数値は公式未確認です。本格採用前に最新情報を再確認してください。

お気軽にご相談ください

お問い合わせ