AI加速归档 | 高效码农

1个月前高效码农

WeDLM：把扩散模型塞进因果注意力，推理速度反超 vLLM 的实战笔记核心问题：扩散语言模型（DLLM）一向“理论并行、实际拉胯”，WeDLM 如何用“纯因果注意力 + 拓扑重排”把 KV-Cac …

1个月前高效码农

把 LLM 塞进手机：MediaTek NPU × LiteRT NeuroPilot Accelerator 全栈落地笔记 “ 核心问题：在碎片化边缘硬件上，怎样“一次训练、多端秒级部署”大模型，同 …