计算机视觉归档 | 第3页共6页

Inferix推理引擎详解：浙大阿里港科大联手在4090上实现分钟级AI视频生成

3个月前高效码农

兄弟们，我直接说结论： 2025 年 11 月 24 日，AI 视频圈真正的“核弹”来了。它不叫 Sora 2，也不叫 Kling 2，它叫 Inferix。它不是一个新模型，而是一把“手术刀”— …

Monet揭秘：AI如何在潜在视觉空间实现推理革命？

3个月前高效码农

Monet：在多模态潜在视觉空间中的推理革命在人工智能领域，让机器“看懂”图像并像人类一样进行推理一直是一个核心挑战。近年来，随着多模态大语言模型的崛起，研究者们开始探索如何将视觉信息更有效地融入推 …

1B参数小模型如何横扫OCR六大赛道？HunyuanOCR全栈技术解密

3个月前高效码农

把 1 B 参数的“小”模型炼成 OCR 六边形战士：HunyuanOCR 全栈解析与实战笔记 “ 核心问题：只有 1 B 参数的 HunyuanOCR，为什么能在文字检测、文档解析、信息抽取、字幕提 …

HunyuanVideo-1.5：如何在消费级GPU上实现专业级视频生成？

3个月前高效码农

HunyuanVideo-1.5：重新定义轻量级视频生成的边界本篇文章欲回答的核心问题：如何在有限的硬件资源下实现专业级视频生成质量，HunyuanVideo-1.5是如何突破传统大模型参数规模的限 …

SAM 3与SAM 3D革命性突破：从图像分割到三维重建的终极指南

3个月前高效码农

SAM 3 与 SAM 3D：下一代图像理解与三维重建的实践指南理解图像中的物体、分辨细节、跟踪视频里的动作，以及从单张照片重建具有深度和形状的三维物体，是计算机视觉长期以来的核心目标。随着视觉模型 …

Depth Anything 3：单ViT架构如何用任意照片重建厘米级3D模型？

4个月前高效码农

Depth Anything 3：用任意视角图片“拼”出 3D 世界核心问题：有没有一种极简架构，能把单张图、视频或多视角照片一次性变成一致、可量度的 3D 几何？Depth Anything 3 …

世界模型PAN解析：MBZUAI创新GLP架构突破视频生成局限 | 深度学习与AI技术

4个月前高效码农

PAN：当视频生成模型学会「理解」世界——MBZUAI 的长时程交互式世界模型深度解析你可能已经见过那些令人惊叹的 AI 视频生成工具：输入一句「无人机飞越日落城市」，就能得到一段美轮美奂的影像。但 …

WorldMirror：如何打破3D重建的边界？多任务前馈模型实现几何感知革命

4个月前高效码农

核心问题：现有的3D重建模型为何总是”顾此失彼”？传统方法要么只能处理纯图像输入，无法利用现实世界中常见的相机参数、深度测量等先验信息；要么只能完成单一任务（如仅生成点云或仅 …

GUI视觉定位暴涨76%！阿里UI-Ins模型让指令会思考的实战秘籍

4个月前高效码农

告别“一句话”时代：把 GUI 指令变成会思考的“多面手”——UI-Ins 实战全记录 “ 核心问题：为什么同一张界面截图，换一句人话描述，模型就能暴涨 76% 准确率？本文用一次完整实验复盘，带你亲 …

ChronoEdit爆火背后：如何用时间推理让AI编辑不再‘穿帮’？

4个月前高效码农

想象一下，你能对图像进行编辑，不仅视觉上吸引人，还能融入真实世界的物理规律——比如机器人手臂顺畅地拿起物体，而不会违抗重力。ChronoEdit 通过将图像编辑重构为视频生成任务，利用预训练视频模型， …

手机上的猫狗大战竟引发边缘AI革命？本地视觉语言模型如何实现高精度图像分类

4个月前高效码农

从手机里的“猫狗大战”到边缘AI革命：用本地视觉语言模型打造高精度图像分类器想象一下，你正窝在沙发上，手机里刷出一张朋友圈的萌宠照——一只毛茸茸的橘猫正懒洋洋地打盹。你随手一戳，屏幕瞬间弹出：“这是 …

美团LongCat-Video揭秘：13.6B参数长视频生成模型如何终结画面漂移？

4个月前高效码农

核心问题：为什么美团要做一个新的视频生成模型？视频生成是通向“世界模型”（World Model）的关键路径。LongCat-Video 的目标，不仅是生成视频，而是让模型真正理解并模拟现实世界的动 …

把 1 分钟 480p 视频塞进 58 万 token：MoGA 如何用「分组注意力」让长视频生成不再爆显存

4个月前高效码农

核心问题：当 Diffusion Transformer 做长视频时，注意力平方级膨胀怎么破？一句话答案：MoGA 用“可学习的 token 路由器”把相似语义自动分进同一组，组内做全注意力，组外零 …

腾讯混元发布WorldMirror：AI如何秒级重建三维世界？

4个月前高效码农

🌍 当AI学会“照镜子”：腾讯混元的「WorldMirror」如何让机器瞬间看懂三维世界？还记得第一次玩《原神》或《塞尔达》的时候吗？那种能在一个巨大世界里自由走动、转身、登高、俯瞰的感觉，让人觉得 …

Chandra OCR凭啥碾压传统OCR？暴利背后的真相让人震惊

4个月前高效码农

注：本文基于截至2025年10月的最新公开信息，部分性能分析和行业趋势判断包含作者基于技术发展路径的推演，将明确标注为“推论观点”。从一张手写表格的“复活”说起 2025年初，某医疗档案数字化团队遇 …

视觉压缩革命：DeepSeek-OCR 如何用一张图压缩十倍上下文

4个月前高效码农

“ “如果一句话代表一个 token，那么一张图能代表多少记忆？” ——DeepSeek 团队一、长上下文的痛点：模型记不住太多，但人类可以“看图回忆” 每个用过大语言模型（LLM）的人，都遇到过一 …

RTFM爆火背后：世界模型竟能实时生成宇宙？

5个月前高效码农

🧠 RTFM 实时帧模型：把“世界模型”的未来提前带到今天 “ 发布时间：2025年10月标签：#世界模型 #RTFM #AI视频生成 #实时推理 #WorldLabs 一、从“视频生成”到“世界生 …

一句话剪视频？Sa2VA让AI自动抠像，老板直呼内行

5个月前高效码农

目标：让读者在 15 分钟内完成「原理吃透 → 环境搭好 → 推理跑出 mask → 训练定制数据」的完整闭环 0. 破冰钩子（≤120 字，可单独发社媒）「一句话剪视频」不是魔法，只是把 SAM- …

百度把大模型塞进浏览器！0.9B参数的文档理解神器来了

5个月前高效码农

一张发票，暴露了AI文档理解的真正瓶颈我盯着屏幕上那张皱巴巴的发票照片，叹了口气。这已经是今天第五次手动整理OCR识别结果了——文字顺序错乱，表格结构消失，二维码和印章混在文本里。作为一个需要处理大 …

FaceCLIP爆火背后：AI如何永久记住你的脸？

5个月前高效码农

你精心挑选了网红打卡地的背景，输入了“在埃菲尔铁塔前喝咖啡”的提示词，结果AI生成的照片里——你的脸变成了某个陌生模特？这不是你想要的个性化生成，这只是AI的随机抽奖。当AI终于学会了“认人” 最近 …