2025年大模型发展回顾:六大范式变迁与未来启示 2025年的大模型领域,已不再是单纯追求参数规模的竞赛,而是转向对智能形态、训练方法与应用范式的深刻重塑。 2025 LLM Year in Revi …
OneThinker:一个模型,理解图像与视频的世界 你是否想象过,存在一个“全能”的AI,既能解答复杂的数学图表题,又能为视频中的物体进行精准追踪和分割?过去,我们需要为图像问答、视频分析、物体定位 …
如何让大模型强化学习“不翻车”:30B MoE 实测 30 万 GPU 小时后的 7 条血泪教训 核心问题: “用 token 级目标去优化序列级奖励”为什么总崩溃? 答案一句话:只有当“训练-推理差 …
Ovis-Image:7B 参数就能打 20B 的文本绘图模型,单机可跑、双语不乱码 核心问题:Ovis-Image 如何在只有 7B 参数、单张高端 GPU 的条件下,把海报、Logo、UI 原型里 …
兄弟们,我直接说结论: 2025 年 11 月 24 日,AI 视频圈真正的“核弹”来了。 它不叫 Sora 2,也不叫 Kling 2,它叫 Inferix。 它不是一个新模型,而是一把“手术刀”— …
核心问题:为什么只有 6B 参数的 Z-Image-Turbo,在 8 次网络前向(NFE)内就能媲美甚至超越 20B+ 级别的大模型? 一句话回答:它将“数据-架构-训练-推理”全链路重新设计,把“ …
SofT-GRPO:突破离散token限制的新型强化学习算法 本文欲回答的核心问题 SofT-GRPO如何通过创新技术提升大语言模型的推理能力?它通过引入Gumbel噪声重参数化技巧,解决了软思维推理 …
想象一下,你正在训练一个AI系统,它能像人类一样记住过去的经历,同时快速适应新挑战,而不会忘记之前学到的东西。这听起来像科幻?实际上,通过神经记忆代理,我们可以实现这一点。在这个教程中,我们将一步步构 …
作为一名在机器学习领域工作多年的研究者,我一直在思考一个问题:为什么人类可以持续学习新知识而旧知识不会遗忘,但AI模型却做不到?最近,Google Research团队提出的Nested Learni …
核心问题:为什么美团要做一个新的视频生成模型? 视频生成是通向“世界模型”(World Model)的关键路径。LongCat-Video 的目标,不仅是生成视频,而是让模型真正理解并模拟现实世界的动 …
核心问题:当 Diffusion Transformer 做长视频时,注意力平方级膨胀怎么破? 一句话答案:MoGA 用“可学习的 token 路由器”把相似语义自动分进同一组,组内做全注意力,组外零 …
“ 当语音大模型遇上高效音频表示,会碰撞出怎样的火花? 作为一名长期深耕在AI语音领域的技术人,我见证了从传统编解码器到神经编解码器的演变历程。今天,当我第一次体验LongCat-Audio-Code …
目标:让读者在 15 分钟内完成「原理吃透 → 环境搭好 → 推理跑出 mask → 训练定制数据」的完整闭环 0. 破冰钩子(≤120 字,可单独发社媒) 「一句话剪视频」不是魔法,只是把 SAM- …
想象一下,你正盯着屏幕,手里握着一杯凉透了的咖啡。作为一个AI开发者,你刚刚又一次目睹了强化学习(RL)训练的惨剧:一台价值不菲的H100 GPU内存告急,32B参数的LLM模型在rollout阶段卡 …
“ “当 GPT-4o 还在把 ECG 当像素画猜谜时,斯坦福已经让 1B 模型把心律不齐写成了千字小作文——显存省 70%,F1 翻 4 倍,还能给你一份带诊断理由的出院小结。” TL;DR 能做什 …
像给高速列车加铺专用轨道:列车还是那辆列车,但再也不会在 128 K 站台上挨个查票。 故事开场:当“长文本”变成“长队” 凌晨两点,小黎还在跟 GPU 对视。 他只想让 671 B 参数的模型读完一 …
带你读懂 2025 年 9 月最新论文《Metacognitive Reuse》的核心思想与落地价值。 一、先抛 3 个你可能关心的问题 问题 一句话答案 这篇研究到底解决了什么? 让大模型不再“逢题 …
“ 800亿参数、64专家MoE架构、自回归框架——这不仅仅是技术参数的堆砌,更是多模态理解与生成的一次彻底融合。 还记得第一次使用文生图模型时的期待与落差吗?输入“一只在田野奔跑的小狗”,得到的可能 …
“为什么我的上下文越长,答案反而越离谱?” 如果你也在深夜对着 128k 窗口的 GPT-4 怀疑人生,这篇文章就是写给正在抠头的你。 故事从一次“奖励黑客”调研开始 上周,老板甩给我一个看似人畜无害 …
SpikingBrain技术解析:高效能、低功耗的类脑大模型 一、背景与目标 随着大语言模型(LLM)规模持续增长,传统Transformer架构面临两大瓶颈: 训练计算量随序列长度平方级增长 推理内 …