联发科NPU逆袭：手机跑1600 token/s大模型，教你一招搞定端侧AI部署

高效码农

2 月前

把 LLM 塞进手机：MediaTek NPU × LiteRT NeuroPilot Accelerator 全栈落地笔记

“

核心问题：在碎片化边缘硬件上，怎样“一次训练、多端秒级部署”大模型，同时不牺牲精度、功耗和用户体验？

”

0. 一句话速览

MediaTek 与 Google 联合发布的 LiteRT NeuroPilot Accelerator 用“统一 API + AOT/在线双编译”把 NPU 算力封装成标准算子，开发者无需深啃芯片 SDK，就能把 Gemma、Qwen 等 1B 级模型以 1600 token/s 的速度跑在 Dimensity 9500 上，功耗比 CPU 降 12×，首帧延迟最低压到 20 ms 以内。

1. 为什么边缘 AI 总在“最后一公里”卡壳？

痛点	现场描述	传统做法的副作用
SoC 碎片化	同一厂商就有数百款 NPU 微架构	维护 N 份二进制，发版即“踩坑”
编译链割裂	需要手写 TFLite Delegate + 芯片专用 ELF	调试=跨团队+跨语言+跨工具链
大模型首帧	1B 参数模型在线编译动辄 60 s+	用户打开 App 直接卸载
数据搬运	相机帧 CPU→GPU→NPU 三次拷贝	1080p@30 fps 就能占满内存带宽

反思：过去三年我们团队试过“CPU fallback”“INT8 量化分块”“手动写 Halide”等偏方，最终都败在“维护成本 > 算法收益”。SoC 厂商给的 Sample 能跑 Demo，一到量产就崩——这次 LiteRT 把编译器、运行时、分发渠道打包成一条流水线，终于让算法同学可以“写完 Python 直接上架”。

2. LiteRT NeuroPilot Accelerator 是什么？

它是一个完全重新设计的 TFLite Delegate 后继者，直接对接 MediaTek NeuroPilot 原生编译器，对外暴露统一 C++ API，同时内建：

AOT（Ahead-of-Time）离线编译——模型随 APK 下发即 executable；
JIT（on-device）在线编译——小模型免发版，秒级适应新机型；
Play for On-device AI（PODAI）分发通道——Google Play 根据设备指纹自动推送匹配二进制。

一句话：把“芯片级优化”翻译成“标准 TensorFlow Lite 调用”，开发者只改一行 Accelerator::NPU。

3. 双编译模式怎么选？一张表看懂

维度	AOT 离线	JIT 在线
适合模型大小	≥ 300 M 参数	< 300 M 参数
首帧延迟	20–50 ms	1–60 s（与模型体积正相关）
分发体积	多份 `.dcp` 文件，每 SoC 一份	单份 `.tflite`
更新节奏	发版周期	实时热更
典型场景	相机夜景增强、LLM 对话	A/B 实验、热修复

经验谈：Gemma 3 270M 在 Dimensity 9500 上 AOT 编译后 18 MB，首次推理 28 ms；同模型 JIT 编译 72 s，用户电量掉 8%。因此生产环境一律 AOT，JIT 只留作灰度兜底。

4. 三步入门：把 Gemma 3 270M 跑在 Vivo X300 Pro 上

“

核心问题：我从来没碰过 MediaTek SDK，能不能 30 分钟内看到 NPU 打印第一句“Hello”？

”

Step 0 前置条件

Android Studio Hedgehog+ / NDK 26+
Python 3.10 装 ai-edge-litert>=1.0.0
一部 Dimensity 9500 工程机（已 root 可观察 log，非必须）

Step 1 AOT 编译（Mac/Linux 均可）

python -m litert.compiler \
  --model=gemma-3-270m-it.tflite \
  --target_soc=d9500 \
  --output_dir=build/aot

输出得到：

gemma-3-270m-it.d9500.dcp   # 芯片可执行
gemma-3-270m-it.config.json # 供运行时校验

注意：.dcp 文件与 SoC 型号严格绑定，误刷到 d9300 会直接触发 fallback 到 GPU。

Step 2 打包 AI Pack（PODAI 格式）

litert-aot-pack \
  --dcp build/aot \
  --manifest ai_pack.json \
  --name "GemmaChat" \
  --version 1.0.0

把生成的 *.ai.pack 放入 app/src/main/assets/podai/；Gradle 插件 8.3+ 会自动在合并资源时注入指纹。

Step 3 推理代码（Kotlin 片段）

val options = LiteRT.Options().apply {
    accelerator = LiteRT.Accelerator.NPU   // 关键一行
    fallbackAccel = LiteRT.Accelerator.GPU
}
val model = LiteRT.Model.createFromPack("podai/GemmaChat.ai.pack", options)
val session = model.createSession()
val reply = session.generate("What is the tallest building?")
Log.i("Gemma", reply.text)   // > "As of 2025, Burj Khalifa remains the tallest..."

首次冷启动 31 ms，连续 20 轮对话 NPU 占用 38 %，电池温升 2.3 ℃。

5. C++ 零拷贝：让相机帧直通 NPU

“

核心问题：视频实时超分最怕 memcpy，怎样把 GPU 纹理直接喂给 NPU？

”

LiteRT 提供 TensorBuffer::CreateFromGlBuffer 实现 EGL 外部存储零拷贝：

// GPU 已完成夜景降噪，输出 GL Shader Storage Buffer
GLuint ssbo;
glGenBuffers(1, &ssbo);
glBindBuffer(GL_SHADER_STORAGE_BUFFER, ssbo);
glBufferData(GL_SHADER_STORAGE_BUFFER, 1920*1080*4, nullptr, GL_STATIC_DRAW);

// 把 SSBO 映射为 NPU 输入
auto input = TensorBuffer::CreateFromGlBuffer(
        env, tensor_type,
        GL_SHADER_STORAGE_BUFFER, ssbo, size, 0);

compiled_model.Run({input}, outputBuffers);

实测 1080p@30 fps 通路，内存带宽节省 1.8 GB/s，帧率提升 12 %，功耗降 0.4 W。

反思：以前用 glReadPixels 回读 CPU 再 memcpy 到 NPU，每帧 8 ms 直接蒸发；现在把“GPU→CPU→NPU”砍成“GPU→NPU”，算法同学终于敢把超分模型开到 2× 分辨率。

6. 场景化案例：三个已经上线的真实功能

功能	模型	设备	关键指标	用户体感
实时字幕翻译	Gemma 3 1B	Chromebook Plus 14	110 token/s，<150 ms 首字	视频会议无延迟
拍照物体识别	Gemma 3n E2B	Vivo X300 Pro	1600 token/s prefill	对准植物→1 s 内弹出养护贴士
端侧语义搜索	EmbeddingGemma 300M	智能家居面板	1.2 ms/query	语音找歌“那首听起来开心的”命中 Top 1

7. 与 CPU/GPU 的量化对比

Gemma 3 270M · 4K 上下文 · batch=1 · INT8
┌----------┬----------┬----------┬----------┐
│ 硬件     │ 吞吐     │ 延迟     │ 功耗     │
├----------┼----------┼----------┼----------┤
│ CPU 大核 │ 120 t/s  │ 330 ms   │ 3.8 W    │
│ GPU      │ 140 t/s  │ 280 ms   │ 2.2 W    │
│ NPU      │ 1600 t/s │ 28 ms    │ 0.32 W   │
└----------┴----------┴----------┴----------┘

数据来源：MediaTek 实验室 25 ℃ 室温，屏幕 200 nit，电池 50 %。

8. 常见坑与调试锦囊

logcat 看不到 NPU 节点
→ 确认 adb shell getprop ro.hardware.npu 返回 true，否则 ROM 未集成驱动。
AOT 编译报 “Unsupported Op: RmsNorm”
→ 升级到 litert-compiler≥1.0.2，或把自定义算子拆成 LayerNorm + Mul。
首次推理随机崩溃
→ 检查 .dcp 与设备 SoC 是否匹配，误刷包会触发 SIGBUS。
GPU→NPU 零拷贝花屏
→ 保证 SSBO 创建时 GL_STATIC_DRAW 且大小 64 byte 对齐。
PODAI 上传 Play 被驳回
→ ai.pack 内部模型必须 ≤ 150 MB，否则需要分拆 Asset Delivery。

9. 作者手记：从“写汇编”到“写 Prompt”

十年前做 MTK 功能机，为了让 200 MHz 的 ARM9 跑人脸识别，我们手写汇编做定点化；今天用 LiteRT，一句 accelerator = NPU 就把 1B 模型塞进手机。硬件性能暴涨固然可喜，但让我感触更深的是“抽象层”的胜利——当芯片厂商愿意把差异化能力封装成标准接口，算法团队才能把精力放回用户场景，而不是在 SoC 白文档里翻寄存器地址。希望下一版 LiteRT 能把高通、三星、苹果都拉进同一桌，让“一次训练、多端运行”真正变成行业常识，而不是营销口号。

10. 实用摘要 / 一页速览

选 AOT 还是 JIT？>300M 参数一律 AOT，小模型 JIT 做灰度。
集成步骤：① Py 侧 AOT 编译 → ② PODAI 打包 → ③ Runtime 指定 Accelerator.NPU。
零拷贝关键：用 TensorBuffer::CreateFromGlBuffer 把 GPU SSBO 直接给 NPU。
性能基线：Gemma 3 270M 在 Dimensity 9500 上 1600 token/s，功耗 0.32 W。
常见崩溃：SoC 型号不匹配、SSBO 未对齐、ROM 无 NPU 驱动。

FAQ

Q：LiteRT NeuroPilot Accelerator 支持哪些 MediaTek 芯片？
A：目前官方验证 Dimensity 9500/9300/8300，后续路线图会加入 7000 系列。
Q：可以用自己的 PyTorch 模型吗？
A：先转成 .tflite（含 INT8 量化），再按本文 Step 1 编译即可；自定义算子需注册 rewriter。
Q：AOT 编译需要 Linux 吗？
A：Mac/Win/Linux 均可，只要有 Python ≥3.10 与 ai-edge-litert 包。
Q：PODAI 包体积多大？
A：以 Gemma 3 270M 为例，单个 .dcp 18 MB，每多一款 SoC 增加一份；Play 会自动下发对应版本。
Q：如果用户设备没有 NPU，会崩溃吗？
A：不会，LiteRT 会按 fallbackAccel 顺序降级到 GPU→CPU，日志打印 NPU unavailable, fallback to GPU。
Q：与 NNAPI 有何区别？
A：NNAPI 仅做算子级映射，NeuroPilot Accelerator 直接调用原生编译器，可开启片上内存与特殊 kernel，性能高 3–10×。
Q：多久会支持 Qualcomm Snapdragon Elite？
A：官方未承诺时间，MediaTek 目前独占；跨平台统一版预计在 2026 Q2 路线图公开。