把 AI 装进口袋:Liquid AI 发布 LFM2,一台手机就能跑的“小钢炮”大模型
如果你曾尝试在笔记本上跑 Llama、Qwen 这类大模型,最痛的感受通常是三件事:
-
模型太大,下载都要半天; -
内存吃紧,风扇狂转; -
每生成一个 token 都得等。
Liquid AI 刚刚发布的 LFM2(Liquid Foundation Models v2)就是冲着这些痛点来的:
-
最小 350 M 参数,1.2 B 版本就能在手机上流畅对话; -
在 CPU 上比同尺寸 Qwen3 快 2 倍; -
训练成本比上一代 降了 3 倍; -
开源权重,允许商用。
本文用通俗语言拆解 LFM2 到底做了什么,以及你能否立即把它装进自己的设备。
目录
-
LFM2 是什么? -
为什么它能跑得这么快? -
实测成绩:跑分、对话、吞吐 -
架构拆解:Liquid 网络 + 混合卷积注意力 -
训练细节:10 T token、蒸馏、对齐 -
如何在你的设备上跑起来(附步骤) -
许可与商用边界 -
FAQ:关于 LFM2 的 12 个高频疑问
1. LFM2 是什么?
一句话总结:LFM2 是一系列专为“本地设备”设计的小尺寸大模型,目标是让任何终端都能低成本跑生成式 AI。
模型 | 参数量 | 上下文 | 典型用途 |
---|---|---|---|
LFM2-350M | 0.35 B | 32 k | 智能手表、耳机语音助手 |
LFM2-700M | 0.7 B | 32 k | 手机聊天、本地搜索 |
LFM2-1.2B | 1.2 B | 32 k | 笔记本、车载助理 |
注:Liquid AI 未来还会把 7 B 版本放进同一体系,目前先开放这三个“口袋尺寸”。
2. 为什么它能跑得这么快?
2.1 新架构:卷积 + 注意力混合
传统小模型要么纯注意力(耗费内存),要么纯卷积(长程建模弱)。
LFM2 用 16 个 block,其中 10 个是 双门控短卷积,6 个是 分组查询注意力 (GQA),在手机上跑卷积部分可以走 NPU,注意力部分走 CPU,分工明确。
2.2 算法级优化
-
短卷积:kernel 长度只有 3~5,计算量线性增长,缓存友好; -
双门控:用元素级乘法动态调节信息流,类似 LSTM 的门,但实现更简单; -
分组查询:把 KV 头分组复用,显存占用下降 4~8 倍。
2.3 工具链深度打磨
Liquid AI 直接把模型丢进 ExecuTorch(PyTorch 移动端)和 llama.cpp 做量化测试,确保量化后不掉点。
-
8 bit 量化 (8da4w) 在 ExecuTorch 上跑; -
4 bit 量化 (Q4_0) 在 llama.cpp 上跑。
结果:
-
LFM2-700M 在骁龙 8 Gen 3 上每秒解码 21 token,同尺寸 Qwen-0.6B 只有 12 token。 -
prefill(首包延迟)也快 1.8 倍,意味着提问后几乎秒回。
3. 实测成绩:跑分、对话、吞吐
3.1 学术基准
Liquid AI 用 7 个公开数据集测了知识、数学、指令遵循、多语言四大维度。
Benchmark | LFM2-350M | 700M | 1.2B | Qwen3-0.6B | Qwen3-1.7B | Llama-3.2-1B |
---|---|---|---|---|---|---|
MMLU 5-shot | 43.4 | 49.9 | 55.2 | 44.9 | 59.1 | 46.6 |
GSM8K 0-shot | 30.1 | 46.4 | 58.3 | 36.5 | 51.4 | 35.7 |
IFEval | 65.1 | 72.2 | 74.9 | 64.2 | 74.0 | 52.4 |
MMMLU 5-shot(多语) | 38.0 | 43.3 | 46.7 | 30.8 | 46.5 | 38.2 |
结论:
-
1.2 B 版本追平 1.7 B 的 Qwen3,但体积小了 30%; -
350 M 版本就能打平 600 M 的 Qwen3,真正“以小博大”。
3.2 人类偏好
Liquid AI 从 WildChat 抽 1000 条真实对话,让 5 个大模型评委盲评:
-
LFM2-1.2B vs Llama-3.2-1B:胜率 68%; -
LFM2-1.2B vs Gemma-3-1B-it:胜率 64%; -
LFM2-1.2B vs Qwen3-1.7B:打平,但 LFM2 参数更少、更快。
4. 架构拆解:Liquid 网络 + 混合卷积注意力
4.1 Liquid Time-Constant 网络是什么?
2018 年 MIT 团队提出 LTC (Liquid Time-constant Networks),用连续时间微分方程建模序列:
-
状态更新速度由输入动态调节,像“液体”一样可快可慢; -
天然适合不规则采样、噪声数据。
LFM2 把离散版本 LTC 改造成 线性输入可变 (LIV) 算子,再塞进卷积核里。
4.2 16 个 block 长什么样?
Block 1-10: 双门控短卷积
├─ 线性映射 → 门控乘法 → 3×1 卷积 → 门控乘法 → 线性映射
Block 11-16: 分组查询注意力 (GQA)
├─ RMSNorm → GQA → SwiGLU → Add & Norm
-
卷积部分吃 CPU/NPU 都很快; -
注意力部分仅在必要时触发,节省算力。
5. 训练细节:10 T token、蒸馏、对齐
5.1 预训练
-
语料:10 T token,75 % 英文、20 % 多语、5 % 代码; -
长度:逐步扩展到 32 k; -
教师蒸馏:全程用自家 7 B 模型做 soft label,稳定收敛。
5.2 后训练
-
大规模监督微调 (SFT):直接喂 RAG、函数调用等下游任务; -
直接偏好优化 (DPO): -
半在线采样 → LLM 评委打分 → 构建偏好对; -
长度正则化,防止啰嗦;
-
-
模型融合:多 checkpoint 加权平均,取最佳平衡点。
6. 如何在你的设备上跑起来(附步骤)
6.1 获取权重
-
Hugging Face:搜索 liquid/lfm2-1.2b
-
文件大小: -
1.2 B 模型约 2.4 GB (fp16) -
量化后 4 bit 约 750 MB
-
6.2 llama.cpp 快速体验(macOS / Linux / Windows WSL)
# 1. 克隆 llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make -j
# 2. 下载并转换模型
python3 convert-hf-to-gguf.py ../lfm2-1.2b --outtype q4_0
# 3. 运行
./main -m lfm2-1.2b-q4_0.gguf -p "用中文解释量子纠缠" -n 200
6.3 ExecuTorch Android Demo
-
安装 Android Studio; -
导入官方示例 llama_demo
; -
把 lfm2-700m-8da4w.pte
扔进app/src/main/assets/
; -
直接运行,即可在 Galaxy S24 Ultra 上离线聊天。
7. 许可与商用边界
公司规模 | 是否需额外授权 | 备注 |
---|---|---|
学术/个人/研究 | ✅ 免费 | Apache 2.0 风格 |
商业公司年收入 < 1 千万美元 | ✅ 免费 | 直接商用,无需报备 |
商业公司年收入 ≥ 1 千万美元 | ❗ 需联系 | sales@liquid.ai 获取商业许可 |
8. FAQ:关于 LFM2 的 12 个高频疑问
Q1:LFM2 与上一代 LFM1 相比,差别在哪?
A:完全新架构,训练效率提升 3 倍,推理速度提升 2 倍,且首次开源小尺寸权重。
Q2:我的树莓派 4 能跑吗?
A:350 M 量化后 500 MB 以内,ARM Cortex-A72 单核 1.5 GHz 能跑,但速度约 3-4 token/s,属于“能跑”级别。
Q3:支持中文吗?
A:支持,官方在多语言 MMMLU 里包含中文,1.2 B 版本中文问答流畅。
Q4:能做代码补全吗?
A:预训练含 5 % 代码数据,能补全简单 Python/C++,但不如 CodeLlama 专精。
Q5:后续会开放 3 B、7 B 吗?
A:Liquid AI 已预告 7 B 正在训练,架构保持一致,预计 2025 Q4 发布。
Q6:显存需求?
A:
-
fp16:参数量×2 Byte -
4 bit:参数量×0.5 Byte
示例:1.2 B 4 bit ≈ 600 MB 显存即可推理。
Q7:能做 LoRA 微调吗?
A:可以,用 TRL / PEFT 直接加载 AutoModelForCausalLM
,教程官方 GitHub 已给出。
Q8:与 MobileVLM、Gemma-3-1B 比如何?
A:同尺寸下 LFM2 在 CPU 延迟最低,且中文多语表现更好。
Q9:需要联网吗?
A:完全离线运行,权重一旦下载,无需回传任何数据。
Q10:会泄漏隐私吗?
A:本地推理,数据不出设备,满足 GDPR 与中国个人信息保护法要求。
Q11:能否在浏览器里跑?
A:llama.cpp 已支持 WebGPU,社区已有 wasm 版本 demo,加载 350 M 模型约 10 秒。
Q12:对比 GPT-4o mini?
A:云端模型在能力上仍有优势,但 LFM2 主打“离线、低耗、可控”,两者场景不同。
写在最后
把大模型从云端搬到本地,最大的价值并不是“干掉 OpenAI”,而是让每一台设备都拥有毫秒级响应、隐私可控、离线可用的智能。LFM2 用 350 M、700 M、1.2 B 三种尺寸给出了可落地的答案:
-
硬件厂商可以把它嵌入耳机、手表; -
中小企业能在本地跑客服机器人,不担心数据出境; -
开发者可以用 LoRA 微调出专属小助手,成本低于 100 美元。
如果你正好需要一台“口袋大模型”,现在就可以去 Hugging Face 下载权重,在笔记本甚至手机上试跑。Liquid AI 用开源和技术细节把门槛降到了最低,下一步就看社区如何玩出花样了。