站点图标 高效码农

350M参数也能秒杀?Liquid AI发布LFM2手机大模型,推理速度提升2倍

把 AI 装进口袋:Liquid AI 发布 LFM2,一台手机就能跑的“小钢炮”大模型

LFM2 性能概览

如果你曾尝试在笔记本上跑 Llama、Qwen 这类大模型,最痛的感受通常是三件事:

  1. 模型太大,下载都要半天;
  2. 内存吃紧,风扇狂转;
  3. 每生成一个 token 都得等。

Liquid AI 刚刚发布的 LFM2(Liquid Foundation Models v2)就是冲着这些痛点来的:

  • 最小 350 M 参数,1.2 B 版本就能在手机上流畅对话
  • 在 CPU 上比同尺寸 Qwen3 快 2 倍
  • 训练成本比上一代 降了 3 倍
  • 开源权重,允许商用。

本文用通俗语言拆解 LFM2 到底做了什么,以及你能否立即把它装进自己的设备。


目录

  1. LFM2 是什么?
  2. 为什么它能跑得这么快?
  3. 实测成绩:跑分、对话、吞吐
  4. 架构拆解:Liquid 网络 + 混合卷积注意力
  5. 训练细节:10 T token、蒸馏、对齐
  6. 如何在你的设备上跑起来(附步骤)
  7. 许可与商用边界
  8. FAQ:关于 LFM2 的 12 个高频疑问

1. LFM2 是什么?

一句话总结:LFM2 是一系列专为“本地设备”设计的小尺寸大模型,目标是让任何终端都能低成本跑生成式 AI。

模型 参数量 上下文 典型用途
LFM2-350M 0.35 B 32 k 智能手表、耳机语音助手
LFM2-700M 0.7 B 32 k 手机聊天、本地搜索
LFM2-1.2B 1.2 B 32 k 笔记本、车载助理

注:Liquid AI 未来还会把 7 B 版本放进同一体系,目前先开放这三个“口袋尺寸”。


2. 为什么它能跑得这么快?

2.1 新架构:卷积 + 注意力混合

传统小模型要么纯注意力(耗费内存),要么纯卷积(长程建模弱)。
LFM2 用 16 个 block,其中 10 个是 双门控短卷积,6 个是 分组查询注意力 (GQA),在手机上跑卷积部分可以走 NPU,注意力部分走 CPU,分工明确。

2.2 算法级优化

  • 短卷积:kernel 长度只有 3~5,计算量线性增长,缓存友好;
  • 双门控:用元素级乘法动态调节信息流,类似 LSTM 的门,但实现更简单;
  • 分组查询:把 KV 头分组复用,显存占用下降 4~8 倍。

2.3 工具链深度打磨

Liquid AI 直接把模型丢进 ExecuTorch(PyTorch 移动端)和 llama.cpp 做量化测试,确保量化后不掉点。

  • 8 bit 量化 (8da4w) 在 ExecuTorch 上跑;
  • 4 bit 量化 (Q4_0) 在 llama.cpp 上跑。

结果:

  • LFM2-700M 在骁龙 8 Gen 3 上每秒解码 21 token,同尺寸 Qwen-0.6B 只有 12 token。
  • prefill(首包延迟)也快 1.8 倍,意味着提问后几乎秒回。

3. 实测成绩:跑分、对话、吞吐

3.1 学术基准

Liquid AI 用 7 个公开数据集测了知识、数学、指令遵循、多语言四大维度。

Benchmark LFM2-350M 700M 1.2B Qwen3-0.6B Qwen3-1.7B Llama-3.2-1B
MMLU 5-shot 43.4 49.9 55.2 44.9 59.1 46.6
GSM8K 0-shot 30.1 46.4 58.3 36.5 51.4 35.7
IFEval 65.1 72.2 74.9 64.2 74.0 52.4
MMMLU 5-shot(多语) 38.0 43.3 46.7 30.8 46.5 38.2

结论:

  • 1.2 B 版本追平 1.7 B 的 Qwen3,但体积小了 30%;
  • 350 M 版本就能打平 600 M 的 Qwen3,真正“以小博大”。

3.2 人类偏好

Liquid AI 从 WildChat 抽 1000 条真实对话,让 5 个大模型评委盲评:

  • LFM2-1.2B vs Llama-3.2-1B:胜率 68%;
  • LFM2-1.2B vs Gemma-3-1B-it:胜率 64%;
  • LFM2-1.2B vs Qwen3-1.7B:打平,但 LFM2 参数更少、更快。

4. 架构拆解:Liquid 网络 + 混合卷积注意力

4.1 Liquid Time-Constant 网络是什么?

2018 年 MIT 团队提出 LTC (Liquid Time-constant Networks),用连续时间微分方程建模序列:

  • 状态更新速度由输入动态调节,像“液体”一样可快可慢;
  • 天然适合不规则采样、噪声数据。

LFM2 把离散版本 LTC 改造成 线性输入可变 (LIV) 算子,再塞进卷积核里。

4.2 16 个 block 长什么样?

Block 1-10: 双门控短卷积
  ├─ 线性映射 → 门控乘法 → 3×1 卷积 → 门控乘法 → 线性映射

Block 11-16: 分组查询注意力 (GQA)
  ├─ RMSNorm → GQA → SwiGLU → Add & Norm
  • 卷积部分吃 CPU/NPU 都很快;
  • 注意力部分仅在必要时触发,节省算力。

5. 训练细节:10 T token、蒸馏、对齐

5.1 预训练

  • 语料:10 T token,75 % 英文、20 % 多语、5 % 代码;
  • 长度:逐步扩展到 32 k;
  • 教师蒸馏:全程用自家 7 B 模型做 soft label,稳定收敛。

5.2 后训练

  1. 大规模监督微调 (SFT):直接喂 RAG、函数调用等下游任务;
  2. 直接偏好优化 (DPO)
    • 半在线采样 → LLM 评委打分 → 构建偏好对;
    • 长度正则化,防止啰嗦;
  3. 模型融合:多 checkpoint 加权平均,取最佳平衡点。

6. 如何在你的设备上跑起来(附步骤)

6.1 获取权重

  • Hugging Face:搜索 liquid/lfm2-1.2b
  • 文件大小:
    • 1.2 B 模型约 2.4 GB (fp16)
    • 量化后 4 bit 约 750 MB

6.2 llama.cpp 快速体验(macOS / Linux / Windows WSL)

# 1. 克隆 llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make -j

# 2. 下载并转换模型
python3 convert-hf-to-gguf.py ../lfm2-1.2b --outtype q4_0

# 3. 运行
./main -m lfm2-1.2b-q4_0.gguf -p "用中文解释量子纠缠" -n 200

6.3 ExecuTorch Android Demo

  • 安装 Android Studio;
  • 导入官方示例 llama_demo
  • lfm2-700m-8da4w.pte 扔进 app/src/main/assets/
  • 直接运行,即可在 Galaxy S24 Ultra 上离线聊天。

7. 许可与商用边界

公司规模 是否需额外授权 备注
学术/个人/研究 ✅ 免费 Apache 2.0 风格
商业公司年收入 < 1 千万美元 ✅ 免费 直接商用,无需报备
商业公司年收入 ≥ 1 千万美元 ❗ 需联系 sales@liquid.ai 获取商业许可

8. FAQ:关于 LFM2 的 12 个高频疑问

Q1:LFM2 与上一代 LFM1 相比,差别在哪?
A:完全新架构,训练效率提升 3 倍,推理速度提升 2 倍,且首次开源小尺寸权重。

Q2:我的树莓派 4 能跑吗?
A:350 M 量化后 500 MB 以内,ARM Cortex-A72 单核 1.5 GHz 能跑,但速度约 3-4 token/s,属于“能跑”级别。

Q3:支持中文吗?
A:支持,官方在多语言 MMMLU 里包含中文,1.2 B 版本中文问答流畅。

Q4:能做代码补全吗?
A:预训练含 5 % 代码数据,能补全简单 Python/C++,但不如 CodeLlama 专精。

Q5:后续会开放 3 B、7 B 吗?
A:Liquid AI 已预告 7 B 正在训练,架构保持一致,预计 2025 Q4 发布。

Q6:显存需求?
A:

  • fp16:参数量×2 Byte
  • 4 bit:参数量×0.5 Byte
    示例:1.2 B 4 bit ≈ 600 MB 显存即可推理。

Q7:能做 LoRA 微调吗?
A:可以,用 TRL / PEFT 直接加载 AutoModelForCausalLM,教程官方 GitHub 已给出。

Q8:与 MobileVLM、Gemma-3-1B 比如何?
A:同尺寸下 LFM2 在 CPU 延迟最低,且中文多语表现更好。

Q9:需要联网吗?
A:完全离线运行,权重一旦下载,无需回传任何数据。

Q10:会泄漏隐私吗?
A:本地推理,数据不出设备,满足 GDPR 与中国个人信息保护法要求。

Q11:能否在浏览器里跑?
A:llama.cpp 已支持 WebGPU,社区已有 wasm 版本 demo,加载 350 M 模型约 10 秒。

Q12:对比 GPT-4o mini?
A:云端模型在能力上仍有优势,但 LFM2 主打“离线、低耗、可控”,两者场景不同。


写在最后

把大模型从云端搬到本地,最大的价值并不是“干掉 OpenAI”,而是让每一台设备都拥有毫秒级响应、隐私可控、离线可用的智能。LFM2 用 350 M、700 M、1.2 B 三种尺寸给出了可落地的答案:

  • 硬件厂商可以把它嵌入耳机、手表;
  • 中小企业能在本地跑客服机器人,不担心数据出境;
  • 开发者可以用 LoRA 微调出专属小助手,成本低于 100 美元。

如果你正好需要一台“口袋大模型”,现在就可以去 Hugging Face 下载权重,在笔记本甚至手机上试跑。Liquid AI 用开源和技术细节把门槛降到了最低,下一步就看社区如何玩出花样了。

退出移动版