速度飙至1600+ tokens/s!WeDLM实战:把扩散模型塞进vLLM,推理性能反超3倍

1个月前 高效码农

WeDLM:把扩散模型塞进因果注意力,推理速度反超 vLLM 的实战笔记 核心问题:扩散语言模型(DLLM)一向“理论并行、实际拉胯”,WeDLM 如何用“纯因果注意力 + 拓扑重排”把 KV-Cac …

联发科NPU逆袭:手机跑1600 token/s大模型,教你一招搞定端侧AI部署

1个月前 高效码农

把 LLM 塞进手机:MediaTek NPU × LiteRT NeuroPilot Accelerator 全栈落地笔记 “ 核心问题:在碎片化边缘硬件上,怎样“一次训练、多端秒级部署”大模型,同 …