深度学习归档 | 高效码农

2025大模型范式巨浪！六大AI革命颠覆人类认知

2天前高效码农

2025年大模型发展回顾：六大范式变迁与未来启示 2025年的大模型领域，已不再是单纯追求参数规模的竞赛，而是转向对智能形态、训练方法与应用范式的深刻重塑。 2025 LLM Year in Revi …

OneThinker：颠覆视觉AI的统一模型如何实现10项全能？

17天前高效码农

OneThinker：一个模型，理解图像与视频的世界你是否想象过，存在一个“全能”的AI，既能解答复杂的数学图表题，又能为视频中的物体进行精准追踪和分割？过去，我们需要为图像问答、视频分析、物体定位 …

30万GPU小时血泪史：大模型强化学习训练的7条防翻车指南

17天前高效码农

如何让大模型强化学习“不翻车”：30B MoE 实测 30 万 GPU 小时后的 7 条血泪教训核心问题： “用 token 级目标去优化序列级奖励”为什么总崩溃？答案一句话：只有当“训练-推理差 …

7B参数横扫文字生成难题，Ovis-Image单机可跑双语不乱码

18天前高效码农

Ovis-Image：7B 参数就能打 20B 的文本绘图模型，单机可跑、双语不乱码核心问题：Ovis-Image 如何在只有 7B 参数、单张高端 GPU 的条件下，把海报、Logo、UI 原型里 …

Inferix推理引擎详解：浙大阿里港科大联手在4090上实现分钟级AI视频生成

24天前高效码农

兄弟们，我直接说结论： 2025 年 11 月 24 日，AI 视频圈真正的“核弹”来了。它不叫 Sora 2，也不叫 Kling 2，它叫 Inferix。它不是一个新模型，而是一把“手术刀”— …

6B参数模型8步生成大片？深度解析Z-Image-Turbo如何颠覆AI图像生成

25天前高效码农

核心问题：为什么只有 6B 参数的 Z-Image-Turbo，在 8 次网络前向（NFE）内就能媲美甚至超越 20B+ 级别的大模型？一句话回答：它将“数据-架构-训练-推理”全链路重新设计，把“ …

SofT-GRPO如何用Gumbel噪声突破大模型推理瓶颈？揭秘强化学习新范式

1个月前高效码农

SofT-GRPO：突破离散token限制的新型强化学习算法本文欲回答的核心问题 SofT-GRPO如何通过创新技术提升大语言模型的推理能力？它通过引入Gumbel噪声重参数化技巧，解决了软思维推理 …

构建神经记忆代理：使用可微分记忆、元学习和经验回放实现动态环境中的持续适应

1个月前高效码农

想象一下，你正在训练一个AI系统，它能像人类一样记住过去的经历，同时快速适应新挑战，而不会忘记之前学到的东西。这听起来像科幻？实际上，通过神经记忆代理，我们可以实现这一点。在这个教程中，我们将一步步构 …

从人脑记忆到AI持续学习：Nested Learning如何破解大模型的”失忆”难题

1个月前高效码农

作为一名在机器学习领域工作多年的研究者，我一直在思考一个问题：为什么人类可以持续学习新知识而旧知识不会遗忘，但AI模型却做不到？最近，Google Research团队提出的Nested Learni …

美团LongCat-Video揭秘：13.6B参数长视频生成模型如何终结画面漂移？

1个月前高效码农

核心问题：为什么美团要做一个新的视频生成模型？视频生成是通向“世界模型”（World Model）的关键路径。LongCat-Video 的目标，不仅是生成视频，而是让模型真正理解并模拟现实世界的动 …

把 1 分钟 480p 视频塞进 58 万 token：MoGA 如何用「分组注意力」让长视频生成不再爆显存

1个月前高效码农

核心问题：当 Diffusion Transformer 做长视频时，注意力平方级膨胀怎么破？一句话答案：MoGA 用“可学习的 token 路由器”把相似语义自动分进同一组，组内做全注意力，组外零 …

LongCat-Audio-Codec：重新定义语音大语言模型的音频编解码范式

2个月前高效码农

“ 当语音大模型遇上高效音频表示，会碰撞出怎样的火花？作为一名长期深耕在AI语音领域的技术人，我见证了从传统编解码器到神经编解码器的演变历程。今天，当我第一次体验LongCat-Audio-Code …

一句话剪视频？Sa2VA让AI自动抠像，老板直呼内行

2个月前高效码农

目标：让读者在 15 分钟内完成「原理吃透 → 环境搭好 → 推理跑出 mask → 训练定制数据」的完整闭环 0. 破冰钩子（≤120 字，可单独发社媒）「一句话剪视频」不是魔法，只是把 SAM- …

QeRL：单张H100上驯服32B LLM的强化学习革命——量化不止是瘦身，更是点燃探索的火种

2个月前高效码农

想象一下，你正盯着屏幕，手里握着一杯凉透了的咖啡。作为一个AI开发者，你刚刚又一次目睹了强化学习（RL）训练的惨剧：一台价值不菲的H100 GPU内存告急，32B参数的LLM模型在rollout阶段卡 …

把 12 导联心电图塞进 1B 小模型：OpenTSLM 实战笔记

2个月前高效码农

“ “当 GPT-4o 还在把 ECG 当像素画猜谜时，斯坦福已经让 1B 模型把心律不齐写成了千字小作文——显存省 70%，F1 翻 4 倍，还能给你一份带诊断理由的出院小结。” TL；DR 能做什 …

DeepSeek稀疏注意力技术破解128K长文本魔咒，GPU显存暴降35%

2个月前高效码农

像给高速列车加铺专用轨道：列车还是那辆列车，但再也不会在 128 K 站台上挨个查票。故事开场：当“长文本”变成“长队” 凌晨两点，小黎还在跟 GPU 对视。他只想让 671 B 参数的模型读完一 …

大模型推理效率提升40%？Meta最新《Metacognitive Reuse》技术全面解读

2个月前高效码农

带你读懂 2025 年 9 月最新论文《Metacognitive Reuse》的核心思想与落地价值。一、先抛 3 个你可能关心的问题问题一句话答案这篇研究到底解决了什么？让大模型不再“逢题 …

HunyuanImage-3.0：腾讯开源的原生多模态模型，如何重新定义图像生成？

2个月前高效码农

“ 800亿参数、64专家MoE架构、自回归框架——这不仅仅是技术参数的堆砌，更是多模态理解与生成的一次彻底融合。还记得第一次使用文生图模型时的期待与落差吗？输入“一只在田野奔跑的小狗”，得到的可能 …

LangGraph实战：6个招式将大模型Token用量从25k砍到11k

2个月前高效码农

“为什么我的上下文越长，答案反而越离谱？” 如果你也在深夜对着 128k 窗口的 GPT-4 怀疑人生，这篇文章就是写给正在抠头的你。故事从一次“奖励黑客”调研开始上周，老板甩给我一个看似人畜无害 …

SpikingBrain技术解析：突破类脑大模型能效瓶颈

3个月前高效码农

SpikingBrain技术解析：高效能、低功耗的类脑大模型一、背景与目标随着大语言模型（LLM）规模持续增长，传统Transformer架构面临两大瓶颈：训练计算量随序列长度平方级增长推理内 …