深度学习归档 | 高效码农

小米Xiaomi-Robotics-0 VLA模型揭秘：如何用异步执行架构攻克机器人实时推理毫秒级瓶颈

22小时前高效码农

Xiaomi-Robotics-0：开源视觉-语言-动作模型如何突破实时推理瓶颈核心问题：当机器人需要在毫秒级时间内理解视觉指令并执行复杂动作时，传统模型为何总是”慢半拍”？ …

KV缓存揭秘：为什么ChatGPT第一个字慢但后续飞快？5倍推理加速的背后真相

2天前高效码农

深入解析 LLM 推理加速的核心技术：KV Caching 是如何让大模型快 5 倍的？每当你使用 ChatGPT 或 Claude 等大模型应用时，你一定注意到了一个细微但普遍的现象：第一个生成的 …

LTX-2模型终极指南：如何让开源AI一键生成同步音视频？

1个月前高效码农

探索LTX-2：如何用开源模型生成同步音频视频摘要 LTX-2是一个基于DiT的音频视频基础模型，能在单一模型中生成同步视频和音频，支持高保真输出和多性能模式。通过PyTorch代码库，你可以本地运 …

端侧AI革命！腾讯2B小模型如何实现GPT-4级自主思考？

1个月前高效码农

当 2B 参数的大模型开始”自主思考”：Youtu-LLM 如何重塑端侧 AI 的可能性核心问题：在算力受限的端侧场景，如何让轻量级语言模型具备像 GPT-4 那样的规划、反 …

2025大模型范式巨浪！六大AI革命颠覆人类认知

1个月前高效码农

2025年大模型发展回顾：六大范式变迁与未来启示 2025年的大模型领域，已不再是单纯追求参数规模的竞赛，而是转向对智能形态、训练方法与应用范式的深刻重塑。 2025 LLM Year in Revi …

OneThinker：颠覆视觉AI的统一模型如何实现10项全能？

2个月前高效码农

OneThinker：一个模型，理解图像与视频的世界你是否想象过，存在一个“全能”的AI，既能解答复杂的数学图表题，又能为视频中的物体进行精准追踪和分割？过去，我们需要为图像问答、视频分析、物体定位 …

30万GPU小时血泪史：大模型强化学习训练的7条防翻车指南

2个月前高效码农

如何让大模型强化学习“不翻车”：30B MoE 实测 30 万 GPU 小时后的 7 条血泪教训核心问题： “用 token 级目标去优化序列级奖励”为什么总崩溃？答案一句话：只有当“训练-推理差 …

7B参数横扫文字生成难题，Ovis-Image单机可跑双语不乱码

2个月前高效码农

Ovis-Image：7B 参数就能打 20B 的文本绘图模型，单机可跑、双语不乱码核心问题：Ovis-Image 如何在只有 7B 参数、单张高端 GPU 的条件下，把海报、Logo、UI 原型里 …

Inferix推理引擎详解：浙大阿里港科大联手在4090上实现分钟级AI视频生成

2个月前高效码农

兄弟们，我直接说结论： 2025 年 11 月 24 日，AI 视频圈真正的“核弹”来了。它不叫 Sora 2，也不叫 Kling 2，它叫 Inferix。它不是一个新模型，而是一把“手术刀”— …

6B参数模型8步生成大片？深度解析Z-Image-Turbo如何颠覆AI图像生成

2个月前高效码农

核心问题：为什么只有 6B 参数的 Z-Image-Turbo，在 8 次网络前向（NFE）内就能媲美甚至超越 20B+ 级别的大模型？一句话回答：它将“数据-架构-训练-推理”全链路重新设计，把“ …

SofT-GRPO如何用Gumbel噪声突破大模型推理瓶颈？揭秘强化学习新范式

2个月前高效码农

SofT-GRPO：突破离散token限制的新型强化学习算法本文欲回答的核心问题 SofT-GRPO如何通过创新技术提升大语言模型的推理能力？它通过引入Gumbel噪声重参数化技巧，解决了软思维推理 …

构建神经记忆代理：使用可微分记忆、元学习和经验回放实现动态环境中的持续适应

3个月前高效码农

想象一下，你正在训练一个AI系统，它能像人类一样记住过去的经历，同时快速适应新挑战，而不会忘记之前学到的东西。这听起来像科幻？实际上，通过神经记忆代理，我们可以实现这一点。在这个教程中，我们将一步步构 …

从人脑记忆到AI持续学习：Nested Learning如何破解大模型的”失忆”难题

3个月前高效码农

作为一名在机器学习领域工作多年的研究者，我一直在思考一个问题：为什么人类可以持续学习新知识而旧知识不会遗忘，但AI模型却做不到？最近，Google Research团队提出的Nested Learni …

美团LongCat-Video揭秘：13.6B参数长视频生成模型如何终结画面漂移？

3个月前高效码农

核心问题：为什么美团要做一个新的视频生成模型？视频生成是通向“世界模型”（World Model）的关键路径。LongCat-Video 的目标，不仅是生成视频，而是让模型真正理解并模拟现实世界的动 …

把 1 分钟 480p 视频塞进 58 万 token：MoGA 如何用「分组注意力」让长视频生成不再爆显存

3个月前高效码农

核心问题：当 Diffusion Transformer 做长视频时，注意力平方级膨胀怎么破？一句话答案：MoGA 用“可学习的 token 路由器”把相似语义自动分进同一组，组内做全注意力，组外零 …

LongCat-Audio-Codec：重新定义语音大语言模型的音频编解码范式

3个月前高效码农

“ 当语音大模型遇上高效音频表示，会碰撞出怎样的火花？作为一名长期深耕在AI语音领域的技术人，我见证了从传统编解码器到神经编解码器的演变历程。今天，当我第一次体验LongCat-Audio-Code …

一句话剪视频？Sa2VA让AI自动抠像，老板直呼内行

3个月前高效码农

目标：让读者在 15 分钟内完成「原理吃透 → 环境搭好 → 推理跑出 mask → 训练定制数据」的完整闭环 0. 破冰钩子（≤120 字，可单独发社媒）「一句话剪视频」不是魔法，只是把 SAM- …

QeRL：单张H100上驯服32B LLM的强化学习革命——量化不止是瘦身，更是点燃探索的火种

4个月前高效码农

想象一下，你正盯着屏幕，手里握着一杯凉透了的咖啡。作为一个AI开发者，你刚刚又一次目睹了强化学习（RL）训练的惨剧：一台价值不菲的H100 GPU内存告急，32B参数的LLM模型在rollout阶段卡 …

把 12 导联心电图塞进 1B 小模型：OpenTSLM 实战笔记

4个月前高效码农

“ “当 GPT-4o 还在把 ECG 当像素画猜谜时，斯坦福已经让 1B 模型把心律不齐写成了千字小作文——显存省 70%，F1 翻 4 倍，还能给你一份带诊断理由的出院小结。” TL；DR 能做什 …

DeepSeek稀疏注意力技术破解128K长文本魔咒，GPU显存暴降35%

4个月前高效码农

像给高速列车加铺专用轨道：列车还是那辆列车，但再也不会在 128 K 站台上挨个查票。故事开场：当“长文本”变成“长队” 凌晨两点，小黎还在跟 GPU 对视。他只想让 671 B 参数的模型读完一 …