生成式AI 归档 | 高效码农

29天前高效码农

探索LTX-2：如何用开源模型生成同步音频视频摘要 LTX-2是一个基于DiT的音频视频基础模型，能在单一模型中生成同步视频和音频，支持高保真输出和多性能模式。通过PyTorch代码库，你可以本地运 …

1个月前高效码农

揭秘TurboDiffusion：如何让视频生成实现百倍加速？你是否曾惊叹于AI生成的精美视频，却又因那长达数十分钟甚至数小时的等待时间而却步？传统的视频扩散模型虽然在质量上取得了巨大突破，但其惊人 …

1个月前高效码农

用一张照片“走”出两百米：WorldWarp 异步视频扩散原理解密 “ 让 3D 几何自己“长”出长镜头，不再怕遮挡、不怕镜头飘写在前面——这篇文章解决什么问题？我只有一张图，能不能让相机继续往前 …

1个月前高效码农

T5Gemma 2：新一代编码器-解码器模型的突破与应用在人工智能模型快速迭代的今天，编码器-解码器架构因其在文本生成、翻译、问答等任务中的独特优势，一直是研究和应用的重点。2025年12月，谷歌推 …

1个月前高效码农

SVG-T2I：告别VAE，在视觉基础模型的语义空间里直接生成图像你是否想过，AI生成图像的“魔法”背后，隐藏着一道关键的“压缩”工序？传统的主流方法，如Stable Diffusion，都依赖于一 …

2个月前高效码农

核心问题：为什么只有 6B 参数的 Z-Image-Turbo，在 8 次网络前向（NFE）内就能媲美甚至超越 20B+ 级别的大模型？一句话回答：它将“数据-架构-训练-推理”全链路重新设计，把“ …

3个月前高效码农

FIBO：JSON 的低语者——Bria AI 如何逼迫文本到图像模型终于“长大” 立场声明：本文基于 Bria AI 截至 2025 年 10 月 30 日的公开文档和最新公告撰写。虽然我强调了 …

3个月前高效码农

🌍 当AI学会“照镜子”：腾讯混元的「WorldMirror」如何让机器瞬间看懂三维世界？还记得第一次玩《原神》或《塞尔达》的时候吗？那种能在一个巨大世界里自由走动、转身、登高、俯瞰的感觉，让人觉得 …

3个月前高效码农

本文基于2025年10月最新技术发布撰写，所有观点均来自对公开技术资料的分析，不代表任何商业立场。序幕：当AI视频生成进入“实时流时代” 2025年10月，Krea AI发布了Realtime 14 …

3个月前高效码农

🧠 RTFM 实时帧模型：把“世界模型”的未来提前带到今天 “ 发布时间：2025年10月标签：#世界模型 #RTFM #AI视频生成 #实时推理 #WorldLabs 一、从“视频生成”到“世界生 …

4个月前高效码农

混元图像2.1：高效生成2K高清图像的开源扩散模型你是否曾经想象过，只需输入一段文字，AI就能为你生成一张细节丰富、分辨率高达2K的高清图像？今天，我们要介绍的混元图像2.1（HunyuanImag …

7个月前高效码农

Qwen VLo：首个统一图文理解与生成的大模型，如何让AI既懂世界又能创作？突破性技术预告：上传一张猫图说“加顶帽子”，AI就能实时生成戴帽子的猫——这不是科幻电影，而是Qwen VLo带来的真实 …

10个月前高效码农

一、什么是InfiniteYou？ InfiniteYou（InfU）是由字节跳动智能创作团队开发的一项突破性技术，旨在解决身份保留图像生成中的三大核心挑战：身份相似度不足、文本-图像对齐效果差，以及 …