震惊!500行代码竟实现DeepSpeed显存优化,GPT-2训练显存砍半(附完整代码)

24天前 高效码农

Tiny-DeepSpeed:用 500 行代码读懂 DeepSpeed 的核心魔法 刚听说 DeepSpeed 能把 GPT-2 训练显存砍掉一半,却苦于源码像迷宫? 这篇笔记带你用 不到 500 …

PyTorch分布式训练终极指南:如何用TorchTitan实现40%效率提升与万亿参数模型训练?

3个月前 高效码农

TorchTitan:PyTorch原生生成式AI模型训练平台深度解析 图1:分布式训练示意图(图片来源:Unsplash) 一、核心原理与技术架构 1.1 分布式训练体系设计 TorchTitan采 …