MoE 归档 | 高效码农

2个月前高效码农

把“死记”交给查表，把“推理”留给 GPU：DeepSeek Engram 如何让大模型既省算力又变聪明？ “ 核心问题：当 MoE 已经用“条件计算”把参数规模推向百亿级，为什么知识类任务仍旧浪费大 …

3个月前高效码农

“ 核心问题：同样 30 B 量级的开源模型，为什么 Nemotron-3-Nano 在数学、代码、工具调用、长上下文等任务上更快、更准，还能把显存占用砍到一半以下？先给答案它把“大模型”拆成 1 …

8个月前高效码农

从 GPT-2 到 Kimi 2：一张图看清 2025 年主流大模型架构到底改了什么这篇文章写给已经会用 LLM、却常常被技术报告里拗口名词绕晕的你。我们只用一张图、一段代码、一句白话，把 Deep …