多模态大模型归档

2个月前高效码农

通过反事实视频生成减少多模态大语言模型在视频理解中的幻觉你有没有想过，为什么多模态大语言模型在处理视频时有时会给出听起来合理但实际上与视频内容不符的答案？比如，一个视频里明明有个物体突然消失了，模型 …

2个月前高效码农

Fun-Audio-Chat：用双分辨率与 Core-Cocktail 训练实现低延迟高保真语音对话核心问题：如何在消费级 GPU 上运行一个既能听懂人话、又能自然回复、还不会忘记原有文本能力的全双 …

3个月前高效码农

Vidi2：让视频理解更精准，让创作更智能 ByteDance 推出新一代多模态视频大模型，在时空定位与检索任务上全面超越 Gemini 和 GPT 引言：为什么我们需要更懂视频的 AI 视频已经成为 …

3个月前高效码农

把 1 B 参数的“小”模型炼成 OCR 六边形战士：HunyuanOCR 全栈解析与实战笔记 “ 核心问题：只有 1 B 参数的 HunyuanOCR，为什么能在文字检测、文档解析、信息抽取、字幕提 …

4个月前高效码农

❝ 一句话先给答案：BindWeave 把“参考图 + 一句话”变成一段高清视频，无论单人、多人、人宠互动，主角的脸、衣服、logo 都不会漂移；核心秘诀是让多模态大语言模型（MLLM）先当“编剧”， …

4个月前高效码农

当多模态遇上闪电猫：深入解读美团 LongCat-Flash-Omni 核心问题：一款能同时理解文字、图像、音频、视频，并实现实时交互的模型，究竟是怎样被构建出来的？美团的 LongCat-Flas …

5个月前高效码农

目标：让读者在 15 分钟内完成「原理吃透 → 环境搭好 → 推理跑出 mask → 训练定制数据」的完整闭环 0. 破冰钩子（≤120 字，可单独发社媒）「一句话剪视频」不是魔法，只是把 SAM- …

5个月前高效码农

引言：为什么说Qwen3-Omni是AI领域的”全能选手”？还记得那些只能处理文字的传统AI模型吗？它们就像只会一种乐器的音乐家，虽然技艺精湛，但表现力有限。而现在，阿里通义 …

11个月前高效码农

AnimeGamer：腾讯与港城大联合打造无限动漫生活模拟系统，开启跨次元角色冒险新时代关键词：AnimeGamer 腾讯动漫游戏无限生活模拟 MLLM技术跨动漫角色互动动态游戏状态预测 🌟 …