350M参数也能秒杀？Liquid AI发布LFM2手机大模型，推理速度提升2倍

高效码农

5 月前

把 AI 装进口袋：Liquid AI 发布 LFM2，一台手机就能跑的“小钢炮”大模型

如果你曾尝试在笔记本上跑 Llama、Qwen 这类大模型，最痛的感受通常是三件事：

模型太大，下载都要半天；
内存吃紧，风扇狂转；
每生成一个 token 都得等。

Liquid AI 刚刚发布的 LFM2（Liquid Foundation Models v2）就是冲着这些痛点来的：

最小 350 M 参数，1.2 B 版本就能在手机上流畅对话；
在 CPU 上比同尺寸 Qwen3 快 2 倍；
训练成本比上一代 降了 3 倍；
开源权重，允许商用。

本文用通俗语言拆解 LFM2 到底做了什么，以及你能否立即把它装进自己的设备。

1. LFM2 是什么？

一句话总结：LFM2 是一系列专为“本地设备”设计的小尺寸大模型，目标是让任何终端都能低成本跑生成式 AI。

模型	参数量	上下文	典型用途
LFM2-350M	0.35 B	32 k	智能手表、耳机语音助手
LFM2-700M	0.7 B	32 k	手机聊天、本地搜索
LFM2-1.2B	1.2 B	32 k	笔记本、车载助理

注：Liquid AI 未来还会把 7 B 版本放进同一体系，目前先开放这三个“口袋尺寸”。

2. 为什么它能跑得这么快？

2.1 新架构：卷积 + 注意力混合

传统小模型要么纯注意力（耗费内存），要么纯卷积（长程建模弱）。
LFM2 用 16 个 block，其中 10 个是 双门控短卷积，6 个是 分组查询注意力 (GQA)，在手机上跑卷积部分可以走 NPU，注意力部分走 CPU，分工明确。

2.2 算法级优化

短卷积：kernel 长度只有 3~5，计算量线性增长，缓存友好；
双门控：用元素级乘法动态调节信息流，类似 LSTM 的门，但实现更简单；
分组查询：把 KV 头分组复用，显存占用下降 4~8 倍。

2.3 工具链深度打磨

Liquid AI 直接把模型丢进 ExecuTorch（PyTorch 移动端）和 llama.cpp 做量化测试，确保量化后不掉点。

8 bit 量化 (8da4w) 在 ExecuTorch 上跑；
4 bit 量化 (Q4_0) 在 llama.cpp 上跑。

结果：

LFM2-700M 在骁龙 8 Gen 3 上每秒解码 21 token，同尺寸 Qwen-0.6B 只有 12 token。
prefill（首包延迟）也快 1.8 倍，意味着提问后几乎秒回。

3. 实测成绩：跑分、对话、吞吐

3.1 学术基准

Liquid AI 用 7 个公开数据集测了知识、数学、指令遵循、多语言四大维度。

Benchmark	LFM2-350M	700M	1.2B	Qwen3-0.6B	Qwen3-1.7B	Llama-3.2-1B
MMLU 5-shot	43.4	49.9	55.2	44.9	59.1	46.6
GSM8K 0-shot	30.1	46.4	58.3	36.5	51.4	35.7
IFEval	65.1	72.2	74.9	64.2	74.0	52.4
MMMLU 5-shot(多语)	38.0	43.3	46.7	30.8	46.5	38.2

结论：

1.2 B 版本追平 1.7 B 的 Qwen3，但体积小了 30%；
350 M 版本就能打平 600 M 的 Qwen3，真正“以小博大”。

3.2 人类偏好

Liquid AI 从 WildChat 抽 1000 条真实对话，让 5 个大模型评委盲评：

LFM2-1.2B vs Llama-3.2-1B：胜率 68%；
LFM2-1.2B vs Gemma-3-1B-it：胜率 64%；
LFM2-1.2B vs Qwen3-1.7B：打平，但 LFM2 参数更少、更快。

4. 架构拆解：Liquid 网络 + 混合卷积注意力

4.1 Liquid Time-Constant 网络是什么？

2018 年 MIT 团队提出 LTC (Liquid Time-constant Networks)，用连续时间微分方程建模序列：

状态更新速度由输入动态调节，像“液体”一样可快可慢；
天然适合不规则采样、噪声数据。

LFM2 把离散版本 LTC 改造成 线性输入可变 (LIV) 算子，再塞进卷积核里。

4.2 16 个 block 长什么样？

Block 1-10： 双门控短卷积
  ├─ 线性映射 → 门控乘法 → 3×1 卷积 → 门控乘法 → 线性映射

Block 11-16： 分组查询注意力 (GQA)
  ├─ RMSNorm → GQA → SwiGLU → Add & Norm

卷积部分吃 CPU/NPU 都很快；
注意力部分仅在必要时触发，节省算力。

5. 训练细节：10 T token、蒸馏、对齐

5.1 预训练

语料：10 T token，75 % 英文、20 % 多语、5 % 代码；
长度：逐步扩展到 32 k；
教师蒸馏：全程用自家 7 B 模型做 soft label，稳定收敛。

5.2 后训练

大规模监督微调 (SFT)：直接喂 RAG、函数调用等下游任务；
直接偏好优化 (DPO)：
- 半在线采样 → LLM 评委打分 → 构建偏好对；
- 长度正则化，防止啰嗦；
模型融合：多 checkpoint 加权平均，取最佳平衡点。

6. 如何在你的设备上跑起来（附步骤）

6.1 获取权重

Hugging Face：搜索 liquid/lfm2-1.2b
文件大小：
- 1.2 B 模型约 2.4 GB (fp16)
- 量化后 4 bit 约 750 MB

6.2 llama.cpp 快速体验（macOS / Linux / Windows WSL）

# 1. 克隆 llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make -j

# 2. 下载并转换模型
python3 convert-hf-to-gguf.py ../lfm2-1.2b --outtype q4_0

# 3. 运行
./main -m lfm2-1.2b-q4_0.gguf -p "用中文解释量子纠缠" -n 200

6.3 ExecuTorch Android Demo

安装 Android Studio；
导入官方示例 llama_demo；
把 lfm2-700m-8da4w.pte 扔进 app/src/main/assets/；
直接运行，即可在 Galaxy S24 Ultra 上离线聊天。

7. 许可与商用边界

公司规模	是否需额外授权	备注
学术/个人/研究	✅ 免费	Apache 2.0 风格
商业公司年收入 < 1 千万美元	✅ 免费	直接商用，无需报备
商业公司年收入 ≥ 1 千万美元	❗ 需联系	sales@liquid.ai 获取商业许可

8. FAQ：关于 LFM2 的 12 个高频疑问

Q1：LFM2 与上一代 LFM1 相比，差别在哪？
A：完全新架构，训练效率提升 3 倍，推理速度提升 2 倍，且首次开源小尺寸权重。

Q2：我的树莓派 4 能跑吗？
A：350 M 量化后 500 MB 以内，ARM Cortex-A72 单核 1.5 GHz 能跑，但速度约 3-4 token/s，属于“能跑”级别。

Q3：支持中文吗？
A：支持，官方在多语言 MMMLU 里包含中文，1.2 B 版本中文问答流畅。

Q4：能做代码补全吗？
A：预训练含 5 % 代码数据，能补全简单 Python/C++，但不如 CodeLlama 专精。

Q5：后续会开放 3 B、7 B 吗？
A：Liquid AI 已预告 7 B 正在训练，架构保持一致，预计 2025 Q4 发布。

Q6：显存需求？
A：

fp16：参数量×2 Byte
4 bit：参数量×0.5 Byte
示例：1.2 B 4 bit ≈ 600 MB 显存即可推理。

Q7：能做 LoRA 微调吗？
A：可以，用 TRL / PEFT 直接加载 AutoModelForCausalLM，教程官方 GitHub 已给出。

Q8：与 MobileVLM、Gemma-3-1B 比如何？
A：同尺寸下 LFM2 在 CPU 延迟最低，且中文多语表现更好。

Q9：需要联网吗？
A：完全离线运行，权重一旦下载，无需回传任何数据。

Q10：会泄漏隐私吗？
A：本地推理，数据不出设备，满足 GDPR 与中国个人信息保护法要求。

Q11：能否在浏览器里跑？
A：llama.cpp 已支持 WebGPU，社区已有 wasm 版本 demo，加载 350 M 模型约 10 秒。

Q12：对比 GPT-4o mini？
A：云端模型在能力上仍有优势，但 LFM2 主打“离线、低耗、可控”，两者场景不同。

写在最后

把大模型从云端搬到本地，最大的价值并不是“干掉 OpenAI”，而是让每一台设备都拥有毫秒级响应、隐私可控、离线可用的智能。LFM2 用 350 M、700 M、1.2 B 三种尺寸给出了可落地的答案：

硬件厂商可以把它嵌入耳机、手表；
中小企业能在本地跑客服机器人，不担心数据出境；
开发者可以用 LoRA 微调出专属小助手，成本低于 100 美元。

如果你正好需要一台“口袋大模型”，现在就可以去 Hugging Face 下载权重，在笔记本甚至手机上试跑。Liquid AI 用开源和技术细节把门槛降到了最低，下一步就看社区如何玩出花样了。