推理优化归档 | 高效码农

2个月前高效码农

深入解析Trinity Large：一个开源的400B稀疏MoE模型在人工智能领域，大规模语言模型的发展日新月异。今天，我们将深入探讨一个令人兴奋的新星——Trinity Large模型。这篇文章将 …

2个月前高效码农

MemoBrain：为大模型推理打造的“执行记忆大脑” 在工具增强型智能体的复杂推理场景中，长程推理轨迹和临时工具交互结果的不断累积，正在持续挤占大语言模型（LLM）有限的工作上下文空间。没有专门的记 …

3个月前高效码农

WeDLM：把扩散模型塞进因果注意力，推理速度反超 vLLM 的实战笔记核心问题：扩散语言模型（DLLM）一向“理论并行、实际拉胯”，WeDLM 如何用“纯因果注意力 + 拓扑重排”把 KV-Cac …

4个月前高效码农

Nemotron Elastic：一次训练，三模型部署的弹性推理架构革命核心问题：为什么我们需要一种新的模型压缩范式？当企业需要在手机、边缘服务器和云端数据中心部署同一模型的不同版本时，传统方法要 …

6个月前高效码农

qwen600.cu —— 从零构建的轻量级 CUDA 推理引擎 qwen600 banner 在学习和实践 CUDA 与 GPGPU 的过程中，有了这样一个想法：能不能自己从头实现一个推理引擎？于是 …