Transformer 归档 | 高效码农

3个月前高效码农

把“死记”交给查表，把“推理”留给 GPU：DeepSeek Engram 如何让大模型既省算力又变聪明？ “ 核心问题：当 MoE 已经用“条件计算”把参数规模推向百亿级，为什么知识类任务仍旧浪费大 …

4个月前高效码农

如何将Sliding Window Attention Adaptation应用到你的LLM项目中摘要 Sliding Window Attention Adaptation (SWAA) 是一种实 …

4个月前高效码农

核心问题：如何让AI模型像人类一样拥有长期记忆？在人工智能发展的今天，我们面临一个根本性挑战：如何让AI模型像人类大脑一样，能够记住并利用长期积累的知识，而不是像金鱼一样只有七秒记忆？本文将深入探讨 …

7个月前高效码农

从零开始构建大语言模型：深入理解GPT类模型的工作原理引言你是否好奇像ChatGPT这样的大语言模型(LLM)是如何工作的？想了解它们背后的技术原理而不只是调用API？《从零开始构建大语言模型》( …

9个月前高效码农

从 GPT-2 到 Kimi 2：一张图看清 2025 年主流大模型架构到底改了什么这篇文章写给已经会用 LLM、却常常被技术报告里拗口名词绕晕的你。我们只用一张图、一段代码、一句白话，把 Deep …