扩散模型归档 | 高效码农

Dream-VL/VLA革命：基于离散扩散的视觉语言动作一体化模型，如何实现97.2%的机器人成功率？

2个月前高效码农

Dream-VL 与 Dream-VLA：基于离散扩散语言模型的视觉-语言与视觉-语言-动作统一框架 Snippet（50–80字）： Dream-VL 在 12M 多模态数据上采用离散扩散训练，针对 …

单图生成200米长视频：WorldWarp原理全解，3D几何自动‘生长’，告别抖动鬼影

2个月前高效码农

用一张照片“走”出两百米：WorldWarp 异步视频扩散原理解密 “ 让 3D 几何自己“长”出长镜头，不再怕遮挡、不怕镜头飘写在前面——这篇文章解决什么问题？我只有一张图，能不能让相机继续往前 …

HY-World 1.5革命性深度解析：如何用开源框架实现24FPS的实时交互世界建模？

3个月前高效码农

HY-World 1.5（也称为WorldPlay）是一个开源的实时交互世界建模系统，能够以24 FPS的速度生成具有长期几何一致性的流式视频。它通过双重动作表示、重构上下文记忆、WorldCompa …

PersonaLive测评：单卡实时肖像动画，直播网红的新生产力工具

3个月前高效码农

PersonaLive：实时流式肖像动画的突破性框架摘要 PersonaLive是一款基于扩散模型的肖像动画框架，能在单张12GB GPU上实现实时、可流式传输的无限长度肖像动画，兼具低延迟与高质量 …

颠覆VAE：SVG-T2I用DINOv3语义空间直接生成图像，图像AI迎来统一表示时代

3个月前高效码农

SVG-T2I：告别VAE，在视觉基础模型的语义空间里直接生成图像你是否想过，AI生成图像的“魔法”背后，隐藏着一道关键的“压缩”工序？传统的主流方法，如Stable Diffusion，都依赖于一 …

7B参数横扫文字生成难题，Ovis-Image单机可跑双语不乱码

3个月前高效码农

Ovis-Image：7B 参数就能打 20B 的文本绘图模型，单机可跑、双语不乱码核心问题：Ovis-Image 如何在只有 7B 参数、单张高端 GPU 的条件下，把海报、Logo、UI 原型里 …

6B参数模型8步生成大片？深度解析Z-Image-Turbo如何颠覆AI图像生成

3个月前高效码农

核心问题：为什么只有 6B 参数的 Z-Image-Turbo，在 8 次网络前向（NFE）内就能媲美甚至超越 20B+ 级别的大模型？一句话回答：它将“数据-架构-训练-推理”全链路重新设计，把“ …

SongBloom革命：如何用交错扩散模型生成完美连贯歌曲？

4个月前高效码农

SongBloom：通过交错自回归素描与扩散精炼实现连贯歌曲生成歌曲生成技术正迅速改变音乐创作的方式，但如何生成结构连贯、人声与伴奏和谐且情感丰富的全长歌曲，一直是该领域的关键挑战。本文深入解析So …

谷歌新突破！TTD-DR深度研究代理如何刷新行业纪录？

6个月前高效码农

近期，大型语言模型（LLMs）的快速发展推动了深度研究（DR）代理的兴起。这些代理展现出令人惊叹的能力，包括生成新颖的想法、高效检索信息、执行实验以及撰写综合报告和学术论文。目前，大多数公开的 DR …

腾讯混元图像2.1重磅开源！2K高清图像生成效率提升300%

6个月前高效码农

混元图像2.1：高效生成2K高清图像的开源扩散模型你是否曾经想象过，只需输入一段文字，AI就能为你生成一张细节丰富、分辨率高达2K的高清图像？今天，我们要介绍的混元图像2.1（HunyuanImag …

DLoRAL技术突破：单步生成高清视频，速度提升10倍！

8个月前高效码农

一步生成高清流畅视频：DLoRAL技术深度解析香港理工大学与OPPO研究院联合开发的创新算法，在保持时间一致性的同时增强视频细节引言：视频超分辨率的挑战当我们观看老电影或低分辨率视 …

视频虚拟试衣抖動大？MagicTryOn如何用扩散Transformer破解行业难题？

9个月前高效码农

全流程解析：MagicTryOn——基于扩散 Transformer 的视频虚拟试衣方案随着线上购物和社交视频内容的爆炸式增长，用户对试穿体验的真实感和流畅度提出了更高要求。传统的基于图像的虚拟试衣 …

扩散模型为何难攻高频细节？傅里叶视角揭秘EqualSNR突破性方案

9个月前高效码农

傅里叶空间视角下的扩散模型：为什么高频细节生成是关键挑战？一、扩散模型的基本原理扩散模型（Diffusion Models）近年来在图像生成、视频合成和蛋白质结构预测等领域取得了突破性进展。这类模 …

LLaDA-V如何颠覆多模态AI？深度解析扩散模型驱动的语言模型新范式

9个月前高效码农

LLaDA-V：突破传统框架的多模态大语言模型新范式核心概念解读什么是扩散模型？扩散模型通过”加噪-去噪”的过程生成内容：先逐步添加噪声破坏数据，再通过反向过程恢复原始信 …

MMaDA多模态扩散模型颠覆性突破：跨模态生成技术全解密

9个月前高效码农

探索MMaDA：统一多模态扩散模型的技术突破与实践指南一、什么是MMaDA？ MMaDA（Multimodal Large Diffusion Language Models）是新一代多模态基础模型 …

扩散模型图像光源控制：LightLab核心技术深度解析与实战应用

10个月前高效码农

LightLab：基于扩散模型的图像光源控制系统深度解析一、技术原理与创新突破 1.1 核心架构设计 LightLab系统建立在潜在扩散模型(Latent Diffusion Model, LDM) …

ACE-Step音乐生成模型：如何用15倍速创作专业级音乐？

10个月前高效码农

ACE-Step：开启音乐生成基础模型的新纪元一、为什么我们需要新一代音乐生成模型？当前音乐生成领域存在一个关键矛盾：创作效率与音乐品质难以兼得。传统LLM模型（如Yue、SongGen）虽然擅长 …

AudioX：跨模态音频生成革命——扩散Transformer的万能音频合成方案

11个月前高效码农

如何用AI让声音创作变得简单：AudioX模型解析引言在当今数字化时代，音频和音乐生成技术正变得越来越重要。从视频配乐到游戏音效，从语音助手到虚拟现实体验，高质量的音频内容需求无处不在。然而，传统 …

DreamActor-M1人体动画技术：混合引导下的全息控制与多尺度适应

11个月前高效码农

DreamActor-M1：基于混合引导的全身人像动画技术，实现高表达力与鲁棒性 DreamActor-M1 方法概览 Bytedance Intelligent Creation 团队近期提出了一种 …