腾讯混元图像2.1重磅开源!2K高清图像生成效率提升300%

5天前 高效码农

混元图像2.1:高效生成2K高清图像的开源扩散模型 你是否曾经想象过,只需输入一段文字,AI就能为你生成一张细节丰富、分辨率高达2K的高清图像?今天,我们要介绍的混元图像2.1(HunyuanImag …

CoMPaSS框架必杀技:99%空间关系错误率归零!看AI如何精准理解“猫在狗左边”

9天前 高效码农

CoMPaSS:提升文本到图像模型空间理解的框架 嗨,如果你对文本到图像生成感兴趣,你可能已经注意到这些模型能够从简单的描述中创建出令人惊叹的、逼真的图片。但你有没有想过,为什么它们有时会搞错像“猫在 …

快手重磅发布Kwai Keye-VL 1.5:80亿参数如何颠覆视频理解?

10天前 高效码农

Kwai Keye-VL 1.5:重新定义视频理解的多模态大模型 概述:为什么视频理解如此困难? 视频理解一直是人工智能领域最具挑战性的任务之一。与静态图像不同,视频不仅包含丰富的空间信息,还具有复杂 …

震惊!StableAvatar如何突破音频驱动数字人极限?

12天前 高效码农

StableAvatar:开启无限长度音频驱动数字人生成新纪元 在人工智能飞速发展的今天,让虚拟形象(Avatar)根据一段音频就能“开口说话”、甚至唱歌、表演,并且视频长度不受限制,一直是研究者与开 …

腾讯开源神器!HunyuanWorld-Voyager让单张照片秒变3D世界

13天前 高效码农

用一张照片走进3D世界:HunyuanWorld-Voyager 技术解读与实战 当你手里只有一张风景照,却想在里面自由漫步,甚至把房子搬到虚拟片场做特效,过去得请建模师花上一周。今天,腾讯混元实验室 …

仅需1张图片!DALDA框架突破小样本学习极限,数据荒终结者实战解析

15天前 高效码农

当训练数据只有 1 张时,如何让 AI 模型“见多识广”?——DALDA 框架详解与实操指南 “ 本文面向已经具备 Python 基础、想用扩散模型(Diffusion Model)解决“数据荒”问题 …

模糊视频秒变高清!阿里Vivid-VR黑科技如何用AI魔法复活老影像?

21天前 高效码农

《Vivid-VR:让模糊视频秒变高清的“魔法”是如何炼成的?》 作者:Alibaba 淘宝 & 天猫团队 原文:arXiv:2508.14483(2025-08-20) 一、为什么我又要关心 …

震惊!Hunyuan-GameCraft如何突破游戏视频生成极限?腾讯AI实现分钟级动态交互

24天前 高效码农

探索 Hunyuan-GameCraft:如何通过混合历史条件生成高动态交互游戏视频 你好!如果你对视频生成技术感兴趣,尤其是那些能让游戏世界变得生动互动的创新方法,我觉得我们有共同话题。今天,我想和 …

突破传统!Voost双向模型如何革新虚拟试衣技术?

28天前 高效码农

Voost:一种统一可扩展的双向虚拟试衣扩散模型解析 服装电商的虚拟试衣技术近年来发展迅速,但如何让AI准确理解服装与人体的空间关系仍是行业难题。本文将深入解析2025年最新提出的Voost模型,探讨 …

DINOv3震撼发布!Meta AI引领自监督视觉模型新纪元

1个月前 高效码农

DINOv3:Meta AI发布的自监督视觉基础模型,开启计算机视觉新篇章 ❝ 无需微调即可在各类视觉任务中超越专业模型,DINOv3如何重塑视觉特征表示新范式? ❞ 什么是DINOv3? DINOv …

用一张照片秒变动态表情!阿里巴巴新算法FantasyPortrait刷新行业认知

1个月前 高效码农

FantasyPortrait:基于表情增强扩散变换器的多角色肖像动画生成新突破 用一张照片和一段视频,就能让单人或多人的肖像动起来,而且细节丰富、情绪自然、跨身份依然精准。 1. 背景与挑战 在电影 …

用一张证件照生成会说话的视频?Stand-In轻量级AI框架全解析

1个月前 高效码农

用几行代码把照片变成会说话的视频:Stand-In 入门与实践 “ 读完本文,你将知道: 为什么 Stand-In 能在 1% 额外参数的前提下,比传统“全模型训练”效果更好; 如何只用一张证件照,让 …

GLM-4.5V桌面助手实战:零门槛在Mac上玩转多模态AI,截图即分析!

1个月前 高效码农

零门槛玩转 GLM-4.5V:从模型到桌面助手的完整实战笔记 “我有一台 Mac、一张图片,也想让 AI 看懂它,还能帮我做 PPT、录屏、聊天,应该怎么做?” 这篇文章把官方文档拆成一串可执行的步骤 …

GPT-IMAGE-EDIT-1.5M震撼开源!154万条数据炼成的图像编辑神器

1个月前 高效码农

手把手教你用 150 万条 GPT 生成的数据,让开源模型也能做出 GPT-4o 级别的修图效果 ——一份写给技术同学的 GPT-IMAGE-EDIT-1.5M 实战指南 “ 如果你苦于找不到高质量、 …

用500美元跑通视频生成革命:Pusa V1.0极简指南

1个月前 高效码农

用 500 美元就能跑通的视频生成新范式:Pusa V1.0 通俗全指南 读完本文,你将知道: Pusa 是什么,为什么它能用 4 000 条样例、500 美元预算,就打败需要 1 000 万条样例、 …

InteractVLM:3D交互推理技术突破,解锁人体-物体联合重建新纪元

1个月前 高效码农

InteractVLM:基于2D基础模型的3D交互推理技术 一、引言 在计算机视觉和人工智能领域,如何从二维图像中准确推理出三维交互信息一直是一个具有挑战性的问题。InteractVLM的出现为解决这 …

3D视觉重建革命:DUSt3R/MASt3R实现免相机标定实时动态建模

1个月前 高效码农

DUSt3R/MASt3R:重新定义3D视觉的几何基础模型 核心概念解析 几何基础模型是什么?简单来说,这是一种能够直接从2D图像理解3D场景结构的人工智能技术。传统3D重建依赖复杂的相机标定和视角匹 …

单张图像如何重建3D几何?微软MoGe模型技术全解析!

2个月前 高效码农

MoGe:从单张图像中恢复准确的3D几何 你有没有想过,单凭一张照片,计算机就能“看懂”场景中的3D结构?比如,判断物体之间的距离,或者重建一个虚拟的3D模型?今天,我要和你聊聊一个厉害的工具——Mo …

TurboReg引爆点云配准革命:速度提升208倍,精准对齐3D扫描数据

2个月前 高效码农

★TurboReg:点云配准的高效新选择★ 一、引言 在当今数字化的时代,三维点云配准技术以其强大的能力,为我们打开了一扇通往精准空间理解与高效场景重建的大门。它就像是一个幕后英雄,默默地支撑着众多前 …

4D视频合成新突破!EX-4D技术解锁手机拍摄的极端视角3D场景

2个月前 高效码农

EX-4D:通过深度水密网格实现极端视角的4D视频合成 “ 想象一下,用普通手机拍摄的视频,能自由变换成任意角度的3D电影场景。这听起来像是科幻情节?EX-4D技术让它成为了现实。 ” 为什么需要极端 …