NVIDIA ViPE开源工具:颠覆视频转3D几何数据的技术突破

16小时前 高效码农

你是否曾经好奇过,机器人或增强现实系统是如何从简单的视频中理解 3D 世界的布局?这是一个复杂的问题,尤其是在视频拍摄时伴随着晃动摄像头或移动物体的情况下。NVIDIA 研究团队开发的 ViPE(视频 …

84%成功率革命!MemoryVLA双记忆系统破解机器人长时序操作难题

20小时前 高效码农

MemoryVLA:受人类记忆启发的机器人操作模型解析 本段欲回答的核心问题 MemoryVLA是什么?它如何解决传统机器人操作模型在长时序任务中的不足? 本文深入解析MemoryVLA——一种受人类 …

用WiFi信号捕捉人体动作?这项黑科技竟能实现高精度姿态估计!

3天前 高效码农

WiFi信号实现人体姿态估计:技术原理与未来展望 引言 在计算机视觉领域,通过摄像头、激光雷达(LiDAR)和雷达进行人体姿态估计的技术已经取得显著进展。然而,这些方法面临诸多挑战: 摄像头:受光照和 …

MapAnything:把任意照片变成带尺度的 3D 模型,只需一次前向计算

7天前 高效码农

——Meta Reality Labs 与卡内基梅隆大学联合开源的通用度量三维重建模型 一、为什么需要“通用”三维重建? 过去要做一套**度量级(metric)**三维场景,得把 pipeline 拆 …

昇腾NPU上的多模态大模型MindVL:架构、训练与性能解析

8天前 高效码农

“ 华为昇腾团队研发的MindVL模型,在1/10训练数据下实现与Qwen2.5-VL相当的性能表现,本文深度解析其技术架构与训练策略。 一、MindVL的核心技术创新 1. 原生分辨率视觉处理 传统 …

腾讯混元图像2.1重磅开源!2K高清图像生成效率提升300%

15天前 高效码农

混元图像2.1:高效生成2K高清图像的开源扩散模型 你是否曾经想象过,只需输入一段文字,AI就能为你生成一张细节丰富、分辨率高达2K的高清图像?今天,我们要介绍的混元图像2.1(HunyuanImag …

CoMPaSS框架必杀技:99%空间关系错误率归零!看AI如何精准理解“猫在狗左边”

19天前 高效码农

CoMPaSS:提升文本到图像模型空间理解的框架 嗨,如果你对文本到图像生成感兴趣,你可能已经注意到这些模型能够从简单的描述中创建出令人惊叹的、逼真的图片。但你有没有想过,为什么它们有时会搞错像“猫在 …

快手重磅发布Kwai Keye-VL 1.5:80亿参数如何颠覆视频理解?

20天前 高效码农

Kwai Keye-VL 1.5:重新定义视频理解的多模态大模型 概述:为什么视频理解如此困难? 视频理解一直是人工智能领域最具挑战性的任务之一。与静态图像不同,视频不仅包含丰富的空间信息,还具有复杂 …

震惊!StableAvatar如何突破音频驱动数字人极限?

22天前 高效码农

StableAvatar:开启无限长度音频驱动数字人生成新纪元 在人工智能飞速发展的今天,让虚拟形象(Avatar)根据一段音频就能“开口说话”、甚至唱歌、表演,并且视频长度不受限制,一直是研究者与开 …

腾讯开源神器!HunyuanWorld-Voyager让单张照片秒变3D世界

23天前 高效码农

用一张照片走进3D世界:HunyuanWorld-Voyager 技术解读与实战 当你手里只有一张风景照,却想在里面自由漫步,甚至把房子搬到虚拟片场做特效,过去得请建模师花上一周。今天,腾讯混元实验室 …

仅需1张图片!DALDA框架突破小样本学习极限,数据荒终结者实战解析

25天前 高效码农

当训练数据只有 1 张时,如何让 AI 模型“见多识广”?——DALDA 框架详解与实操指南 “ 本文面向已经具备 Python 基础、想用扩散模型(Diffusion Model)解决“数据荒”问题 …

模糊视频秒变高清!阿里Vivid-VR黑科技如何用AI魔法复活老影像?

1个月前 高效码农

《Vivid-VR:让模糊视频秒变高清的“魔法”是如何炼成的?》 作者:Alibaba 淘宝 & 天猫团队 原文:arXiv:2508.14483(2025-08-20) 一、为什么我又要关心 …

震惊!Hunyuan-GameCraft如何突破游戏视频生成极限?腾讯AI实现分钟级动态交互

1个月前 高效码农

探索 Hunyuan-GameCraft:如何通过混合历史条件生成高动态交互游戏视频 你好!如果你对视频生成技术感兴趣,尤其是那些能让游戏世界变得生动互动的创新方法,我觉得我们有共同话题。今天,我想和 …

突破传统!Voost双向模型如何革新虚拟试衣技术?

1个月前 高效码农

Voost:一种统一可扩展的双向虚拟试衣扩散模型解析 服装电商的虚拟试衣技术近年来发展迅速,但如何让AI准确理解服装与人体的空间关系仍是行业难题。本文将深入解析2025年最新提出的Voost模型,探讨 …

DINOv3震撼发布!Meta AI引领自监督视觉模型新纪元

1个月前 高效码农

DINOv3:Meta AI发布的自监督视觉基础模型,开启计算机视觉新篇章 ❝ 无需微调即可在各类视觉任务中超越专业模型,DINOv3如何重塑视觉特征表示新范式? ❞ 什么是DINOv3? DINOv …

用一张照片秒变动态表情!阿里巴巴新算法FantasyPortrait刷新行业认知

1个月前 高效码农

FantasyPortrait:基于表情增强扩散变换器的多角色肖像动画生成新突破 用一张照片和一段视频,就能让单人或多人的肖像动起来,而且细节丰富、情绪自然、跨身份依然精准。 1. 背景与挑战 在电影 …

用一张证件照生成会说话的视频?Stand-In轻量级AI框架全解析

1个月前 高效码农

用几行代码把照片变成会说话的视频:Stand-In 入门与实践 “ 读完本文,你将知道: 为什么 Stand-In 能在 1% 额外参数的前提下,比传统“全模型训练”效果更好; 如何只用一张证件照,让 …

GLM-4.5V桌面助手实战:零门槛在Mac上玩转多模态AI,截图即分析!

1个月前 高效码农

零门槛玩转 GLM-4.5V:从模型到桌面助手的完整实战笔记 “我有一台 Mac、一张图片,也想让 AI 看懂它,还能帮我做 PPT、录屏、聊天,应该怎么做?” 这篇文章把官方文档拆成一串可执行的步骤 …

GPT-IMAGE-EDIT-1.5M震撼开源!154万条数据炼成的图像编辑神器

1个月前 高效码农

手把手教你用 150 万条 GPT 生成的数据,让开源模型也能做出 GPT-4o 级别的修图效果 ——一份写给技术同学的 GPT-IMAGE-EDIT-1.5M 实战指南 “ 如果你苦于找不到高质量、 …

用500美元跑通视频生成革命:Pusa V1.0极简指南

1个月前 高效码农

用 500 美元就能跑通的视频生成新范式:Pusa V1.0 通俗全指南 读完本文,你将知道: Pusa 是什么,为什么它能用 4 000 条样例、500 美元预算,就打败需要 1 000 万条样例、 …