GPU加速归档 | 高效码农

6个月前高效码农

qwen600.cu —— 从零构建的轻量级 CUDA 推理引擎 qwen600 banner 在学习和实践 CUDA 与 GPGPU 的过程中，有了这样一个想法：能不能自己从头实现一个推理引擎？于是 …

8个月前高效码农

提升本地 LLM 服务性能的实用指南：Lemonade GPU 与 NPU 加速 TL;DR Lemonade Server 是一款在本地运行大语言模型（LLM）的高性能解决方案，支持 Vulkan …

9个月前高效码农

ZLUDA：让非 NVIDIA GPU 运行 CUDA 应用一、初识 ZLUDA ZLUDA 是个啥呢？简单说，它是个能替代 CUDA 的技术，让非 NVIDIA 显卡也能跑 CUDA 应用。CUD …

10个月前高效码农

TorchTitan：PyTorch原生生成式AI模型训练平台深度解析图1：分布式训练示意图（图片来源：Unsplash）一、核心原理与技术架构 1.1 分布式训练体系设计 TorchTitan采 …

11个月前高效码农

SkyRL-v0：基于强化学习的真实世界长周期智能体训练框架项目概览 SkyRL-v0 是由伯克利天空计算实验室（Berkeley Sky Computing Lab）推出的开源强化学习训练框架，专 …

11个月前高效码农

Gemma 3量化模型：如何让普通显卡运行顶尖AI？ Gemma 3量化模型示意图人工智能模型的计算需求一直是开发者面临的挑战。谷歌最新发布的Gemma 3量化模型（QAT）通过技术创新，让这一局面 …