深度学习优化归档

3个月前高效码农

把线性注意力误差清零：EFLA 如何用“无限阶”Runge-Kutta 让长文本训练免费提速核心问题：有没有一种方法，既保留线性注意力 O(L) 的便宜复杂度，又把数值误差直接归零？答案：EFLA …

5个月前高效码农

像给高速列车加铺专用轨道：列车还是那辆列车，但再也不会在 128 K 站台上挨个查票。故事开场：当“长文本”变成“长队” 凌晨两点，小黎还在跟 GPU 对视。他只想让 671 B 参数的模型读完一 …

6个月前高效码农

引言在人工智能快速发展的今天，视觉与语言相结合的多模态模型正成为技术前沿的热点。无论是解析复杂图表中的数学问题，还是理解图像中的语义内容，这些模型都展现出了令人惊叹的能力。然而，训练这类模型通常需要 …

6个月前高效码农

FOP优化器：提升大规模神经网络训练效率的新方法一、背景与挑战在深度学习领域，随着模型规模和数据量的不断增长，训练效率成为关键挑战。现代GPU虽然具备强大的计算能力，但传统优化器在面对超大规模训练 …

8个月前高效码农

大型语言模型 2025 年架构全景：从 DeepSeek-V3 到 Kimi 2，一张图看懂谁在“变”、谁在“守” 对话式导读： “GPT 推出已经七年，模型真的脱胎换骨了吗？” “如果 …

8个月前高效码农

Kimi K2：开源智能代理模型全解析随着大规模预训练模型在自然语言处理、代码生成和推理等领域取得突破，如何在保证性能的同时提升模型的”代理智能”（agentic intel …

10个月前高效码农

RBFleX-NAS：基于径向基函数核的无训练神经架构搜索技术解析引言：神经架构搜索的挑战与创新在深度学习领域，神经架构搜索（Neural Architecture Search, NAS）一直是 …

10个月前高效码农

引言：大模型落地的最后一公里难题随着Qwen3系列MoE模型的发布，如何在普通硬件环境下实现高效推理成为行业关注焦点。本文以KTransformers 0.3最新版本为核心，结合Intel AMX指 …