计算机视觉归档 | 第2页共6页

PersonaLive测评：单卡实时肖像动画，直播网红的新生产力工具

3个月前高效码农

PersonaLive：实时流式肖像动画的突破性框架摘要 PersonaLive是一款基于扩散模型的肖像动画框架，能在单张12GB GPU上实现实时、可流式传输的无限长度肖像动画，兼具低延迟与高质量 …

颠覆VAE：SVG-T2I用DINOv3语义空间直接生成图像，图像AI迎来统一表示时代

3个月前高效码农

SVG-T2I：告别VAE，在视觉基础模型的语义空间里直接生成图像你是否想过，AI生成图像的“魔法”背后，隐藏着一道关键的“压缩”工序？传统的主流方法，如Stable Diffusion，都依赖于一 …

InfinityStar革命性视觉生成：统一时空自回归模型如何10倍提升视频合成效率

3个月前高效码农

InfinityStar：统一时空自回归模型在视觉生成中的应用引言：InfinityStar 是什么，它如何解决视觉生成中的挑战？本篇文章欲回答的核心问题：InfinityStar 模型是什么，它 …

AI如何生成连贯的电影级镜头？揭秘OneStory自适应记忆黑科技！

3个月前高效码农

OneStory：如何用AI生成连贯的多镜头故事视频？摘要 OneStory通过自适应记忆机制，解决了传统视频生成模型在跨镜头叙事连贯性上的难题。该模型在文本和图像条件下均实现58.74%的角色一致 …

AI视频换脸革命！LivingSwap突破影效极限：参考原视频保真光影表情

3个月前高效码农

想象一下这样的场景：一位演员因故无法完成一部电影的剩余拍摄，或者导演希望在后期为某个角色更换更合适的演员面孔。在过去，这要么意味着高昂的重拍成本，要么只能依靠耗时且极易“穿帮”的逐帧手动修图。如今，人 …

Wan-Move革新：用一条潜在轨迹教你精准控制视频生成运动，图像瞬间动起来！

3个月前高效码农

一句话摘要：Wan-Move 是一种创新的运动可控视频生成框架，它通过将像素空间的点轨迹映射到潜在空间，并沿轨迹复制第一帧的特征来注入运动引导，无需修改基础模型架构或添加额外运动编码器。该框架基于 W …

GLM-4.6V多模态AI：开启视觉感知到可执行动作的新纪元

3个月前高效码农

GLM-4.6V：开启多模态AI的视觉推理新纪元在人工智能飞速发展的今天，能够同时理解图像和文本的“多模态”模型，正逐渐成为技术演进的核心方向。今天，我们要深入探讨的，是近期在开源社区引发广泛关注的 …

LiveAvatar深度拆解：5张显卡如何让14B大模型实现20FPS无限时直播？

3个月前高效码农

把 14B 大模型塞进 5 张显卡：LiveAvatar 如何让“数字人”无限时长直播？日期：2025-12-08 一句话速览 LiveAvatar 用 4 步扩散、流水线并行和“滚动锚帧”技术，把 …

InkSight黑科技解密：如何用AI将潦草手写秒变可编辑数字墨迹？

3个月前高效码农

InkSight：让手写笔记真正数字化——从照片到可编辑墨迹的AI转换技术本文欲回答的核心问题：InkSight如何通过结合视觉Transformer和多语言T5模型，将手写照片转换为可搜索、可编辑 …

视频差异描述(ViDiC)揭秘！AI如何理解动态场景中的相似与差异

3个月前高效码农

视频差异描述：探索动态场景中的相似与不同本篇文章欲回答的核心问题：视频差异描述任务是什么，它如何帮助我们更好地理解视频编辑和多模态模型的能力？视频差异描述（ViDiC）任务要求模型生成自然语言描述 …

OneThinker：颠覆视觉AI的统一模型如何实现10项全能？

3个月前高效码农

OneThinker：一个模型，理解图像与视频的世界你是否想象过，存在一个“全能”的AI，既能解答复杂的数学图表题，又能为视频中的物体进行精准追踪和分割？过去，我们需要为图像问答、视频分析、物体定位 …

7B参数横扫文字生成难题，Ovis-Image单机可跑双语不乱码

3个月前高效码农

Ovis-Image：7B 参数就能打 20B 的文本绘图模型，单机可跑、双语不乱码核心问题：Ovis-Image 如何在只有 7B 参数、单张高端 GPU 的条件下，把海报、Logo、UI 原型里 …

ViBT桥接变换器：比传统扩散模型快4倍的条件生成新范式

3个月前高效码农

ViBT：大规模视觉桥接变换器，重新定义条件生成本文要回答的核心问题：ViBT 到底是什么？它为什么能在图像编辑、视频风格迁移、视频上色、帧插值等任务上，既保持高质量，又比传统扩散模型快 4 倍？ …

STARFlow完整实战指南：3B图像到7B视频的Normalizing Flow生成革命

3个月前高效码农

STARFlow 家族全景拆解：从 3B 图像到 7B 视频，一套可执行的开源方案核心问题：苹果最新开源的 STARFlow 与 STARFlow-V 到底能做什么？值不值得立刻上手？一句话回答： …

ReasonEdit突破AI图像编辑瓶颈：让AI学会思考与反思的革命性框架

3个月前高效码农

图像编辑技术正经历着革命性变革，从早期需要精确涂抹的蒙版工具，到如今只需自然语言描述就能实现复杂编辑。然而，现有技术仍面临关键挑战：当遇到抽象指令（如“让这片叶子呈现缺钾症状”）时，模型往往难以准确理 …

Video-R4：像人类一样反复咀嚼视频，彻底解决文本密集视频漏看难题

3个月前高效码农

Video-R4：像人类一样“反复咀嚼”视频，让文本密集问答不再漏看关键帧核心问题：如何让大模型在文本繁多、画面一闪而过的视频里，像人一样“暂停—放大—重读”，不再漏掉关键信息？本文欲回答的核心问 …

Texo：这个2000万参数的LaTeX OCR神器，如何让数学公式识别变得轻而易举？

3个月前高效码农

Texo：轻量级开源 LaTeX OCR 模型，让数学公式识别更简单你是否曾经在阅读数学或科学文档时，遇到一个复杂的公式，希望快速将其转换为可编辑的 LaTeX 代码？或者作为学生、研究人员，需要从 …

Vidi2视频大模型震撼发布：如何用AI精准定位视频中的每个细节？

3个月前高效码农

Vidi2：让视频理解更精准，让创作更智能 ByteDance 推出新一代多模态视频大模型，在时空定位与检索任务上全面超越 Gemini 和 GPT 引言：为什么我们需要更懂视频的 AI 视频已经成为 …

GigaWorld-0：世界模型如何颠覆具身AI训练？揭秘数据引擎的3大核心技术

3个月前高效码农

GigaWorld-0：世界模型作为数据引擎赋能具身AI 什么是GigaWorld-0？它是一个统一的框架，专门设计用于为视觉-语言-动作学习提供数据引擎，帮助具身AI系统高效生成合成数据。本文将探讨 …

Qwen3-VL 256K超长视频压缩技术：如何把2小时影像塞进小模型？

3个月前高效码农

把 256 K 超长视频塞进“小”模型：Qwen3-VL 技术报告完全导读适合谁读：做 CV/NLP 的研究生、工程师，想快速判断 Qwen3-VL 能不能直接拿来用产品经理/技术决策者，想知道 …