美团LongCat-Video揭秘:13.6B参数长视频生成模型如何终结画面漂移?

8天前 高效码农

核心问题:为什么美团要做一个新的视频生成模型? 视频生成是通向“世界模型”(World Model)的关键路径。LongCat-Video 的目标,不仅是生成视频,而是让模型真正理解并模拟现实世界的动 …

把 1 分钟 480p 视频塞进 58 万 token:MoGA 如何用「分组注意力」让长视频生成不再爆显存

10天前 高效码农

核心问题:当 Diffusion Transformer 做长视频时,注意力平方级膨胀怎么破? 一句话答案:MoGA 用“可学习的 token 路由器”把相似语义自动分进同一组,组内做全注意力,组外零 …

LongCat-Audio-Codec:重新定义语音大语言模型的音频编解码范式

14天前 高效码农

“ 当语音大模型遇上高效音频表示,会碰撞出怎样的火花? 作为一名长期深耕在AI语音领域的技术人,我见证了从传统编解码器到神经编解码器的演变历程。今天,当我第一次体验LongCat-Audio-Code …

一句话剪视频?Sa2VA让AI自动抠像,老板直呼内行

17天前 高效码农

目标:让读者在 15 分钟内完成「原理吃透 → 环境搭好 → 推理跑出 mask → 训练定制数据」的完整闭环 0. 破冰钩子(≤120 字,可单独发社媒) 「一句话剪视频」不是魔法,只是把 SAM- …

QeRL:单张H100上驯服32B LLM的强化学习革命——量化不止是瘦身,更是点燃探索的火种

18天前 高效码农

想象一下,你正盯着屏幕,手里握着一杯凉透了的咖啡。作为一个AI开发者,你刚刚又一次目睹了强化学习(RL)训练的惨剧:一台价值不菲的H100 GPU内存告急,32B参数的LLM模型在rollout阶段卡 …

把 12 导联心电图塞进 1B 小模型:OpenTSLM 实战笔记

21天前 高效码农

“ “当 GPT-4o 还在把 ECG 当像素画猜谜时,斯坦福已经让 1B 模型把心律不齐写成了千字小作文——显存省 70%,F1 翻 4 倍,还能给你一份带诊断理由的出院小结。” TL;DR 能做什 …

DeepSeek稀疏注意力技术破解128K长文本魔咒,GPU显存暴降35%

1个月前 高效码农

像给高速列车加铺专用轨道:列车还是那辆列车,但再也不会在 128 K 站台上挨个查票。 故事开场:当“长文本”变成“长队” 凌晨两点,小黎还在跟 GPU 对视。 他只想让 671 B 参数的模型读完一 …

大模型推理效率提升40%?Meta最新《Metacognitive Reuse》技术全面解读

1个月前 高效码农

带你读懂 2025 年 9 月最新论文《Metacognitive Reuse》的核心思想与落地价值。 一、先抛 3 个你可能关心的问题 问题 一句话答案 这篇研究到底解决了什么? 让大模型不再“逢题 …

HunyuanImage-3.0:腾讯开源的原生多模态模型,如何重新定义图像生成?

1个月前 高效码农

“ 800亿参数、64专家MoE架构、自回归框架——这不仅仅是技术参数的堆砌,更是多模态理解与生成的一次彻底融合。 还记得第一次使用文生图模型时的期待与落差吗?输入“一只在田野奔跑的小狗”,得到的可能 …

LangGraph实战:6个招式将大模型Token用量从25k砍到11k

1个月前 高效码农

“为什么我的上下文越长,答案反而越离谱?” 如果你也在深夜对着 128k 窗口的 GPT-4 怀疑人生,这篇文章就是写给正在抠头的你。 故事从一次“奖励黑客”调研开始 上周,老板甩给我一个看似人畜无害 …

SpikingBrain技术解析:突破类脑大模型能效瓶颈

1个月前 高效码农

SpikingBrain技术解析:高效能、低功耗的类脑大模型 一、背景与目标 随着大语言模型(LLM)规模持续增长,传统Transformer架构面临两大瓶颈: 训练计算量随序列长度平方级增长 推理内 …

Qianfan-VL爆火!百度千亿参数多模态模型如何颠覆企业OCR与数学推理?

1个月前 高效码农

嘿,大家好!我是你的技术博客博主,一直在追踪 AI 领域的热点,尤其是那些能真正落地到实际工作的多模态模型。今天,我们来聊聊 Baidu AI Cloud 在 2025 年 8 月发布的 Qianfa …

Qwen3-Omni 全面解析:阿里通义千问发布的全能多模态大模型

1个月前 高效码农

引言:为什么说Qwen3-Omni是AI领域的”全能选手”? 还记得那些只能处理文字的传统AI模型吗?它们就像只会一种乐器的音乐家,虽然技艺精湛,但表现力有限。而现在,阿里通义 …

美团开源5600亿参数LongCat-Flash-Thinking模型:如何实现推理效率飞跃?

1个月前 高效码农

I. 摘要与概述 LongCat-Flash-Thinking 是一个高效的开源大型推理模型,由美团 LongCat 团队开发。它总参数量达到 5600 亿,但平均激活参数仅为 270 亿,这得益于创 …

为什么强化学习微调‘忘性’更小?RL’s Razor原理与实战全解析

1个月前 高效码农

为什么强化学习微调“忘性”更小?一篇说透 RL’s Razor 原理与实战 核心问题:同样把模型微调到一个新任务,为什么强化学习(RL)比监督微调(SFT)更能保住老本? 一句话答案:RL …

Ring-mini-2.0高效推理:16B MoE模型如何突破代码生成与长上下文瓶颈?

1个月前 高效码农

摘要 本文深入解析了 inclusionAI 团队最新发布的 Ring-mini-2.0 模型——一个基于 Ling 2.0 架构深度优化的高性能混合专家模型(MoE)。该模型仅使用 16B 总参数和 …

CUDA推理引擎新突破:qwen600如何实现QWEN3-0.6B模型高性能推理?

1个月前 高效码农

qwen600.cu —— 从零构建的轻量级 CUDA 推理引擎 qwen600 banner 在学习和实践 CUDA 与 GPGPU 的过程中,有了这样一个想法:能不能自己从头实现一个推理引擎?于是 …

昇腾NPU上的多模态大模型MindVL:架构、训练与性能解析

1个月前 高效码农

“ 华为昇腾团队研发的MindVL模型,在1/10训练数据下实现与Qwen2.5-VL相当的性能表现,本文深度解析其技术架构与训练策略。 一、MindVL的核心技术创新 1. 原生分辨率视觉处理 传统 …

Chroma1-HD震撼发布!8.9B参数开源模型如何颠覆文本生成图像领域?

1个月前 高效码农

Chroma1-HD:一款强大的开源文本到图像基础模型 如果你正在寻找一款高性能、易微调且完全开源的文本到图像生成模型,那么Chroma1-HD或许会成为你的理想选择。这款模型凭借8.9B参数的强大算 …

CoMPaSS框架必杀技:99%空间关系错误率归零!看AI如何精准理解“猫在狗左边”

1个月前 高效码农

CoMPaSS:提升文本到图像模型空间理解的框架 嗨,如果你对文本到图像生成感兴趣,你可能已经注意到这些模型能够从简单的描述中创建出令人惊叹的、逼真的图片。但你有没有想过,为什么它们有时会搞错像“猫在 …