视觉语言模型归档

1个月前高效码农

VisGym：下一代视觉语言模型的终极试炼场——为何前沿模型在多步视觉交互中表现不佳？本文欲回答的核心问题：尽管视觉语言模型（VLM）在静态图像识别上表现出色，但它们在涉及感知、记忆和行动的长时视 …

2个月前高效码农

探索NVIDIA Cosmos Reason2：物理AI与机器人学的推理视觉语言模型摘要 NVIDIA Cosmos Reason2是一个开源、可定制的推理视觉语言模型（VLM），专为物理AI和机器 …

4个月前高效码农

从手机里的“猫狗大战”到边缘AI革命：用本地视觉语言模型打造高精度图像分类器想象一下，你正窝在沙发上，手机里刷出一张朋友圈的萌宠照——一只毛茸茸的橘猫正懒洋洋地打盹。你随手一戳，屏幕瞬间弹出：“这是 …

5个月前高效码农

揭秘 VLM 推理的“数据炼金术”：HoneyBee 数据集与视觉-语言推理的黄金秘籍 🚀 引言：VLM 的“软肋”与 CoT 的呼唤近来，AI 界被 GPT-4o、Gemini 2.5 这样的视觉 …

5个月前高效码农

探索 Holo1.5：构建计算机使用代理的基础模型你有没有想过，AI 如何能接管电脑屏幕上那些繁琐的任务，比如点击按钮或填写表单，只需“看”一眼屏幕内容？这就是 Holo1.5 这类模型的用武之地。 …

7个月前高效码农

dots.vlm1：新一代开源多模态视觉语言模型深度解析 dots.vlm1 引言在人工智能领域，多模态模型正成为连接视觉与语言理解的关键桥梁。今天，我们荣幸地介绍dots.vlm1——dots模型 …

7个月前高效码农

Step3 是怎么把 3210 亿参数的大模型跑得比 370 亿的还便宜？通俗版技术博客：读完你就知道 Step3 为什么「大却省钱」，以及它的代码和模型该怎么用。 1. 先讲结论：为什么值得花时间 …

8个月前高效码农

GLM-4.1V-Thinking：多模态推理模型的技术解析与应用场景一、模型概述 GLM-4.1V-Thinking 是由清华团队开发的多模态大模型，专注于提升视觉-语言联合推理能力。在 28 个 …

10个月前高效码农

nanoVLM：用纯PyTorch训练视觉语言模型的最简指南什么是视觉语言模型（VLM）？它能做什么？想象一下，你给电脑看一张猫的照片，然后问它：“图中有几只猫？”电脑不仅能看懂图片，还能用文字回 …

10个月前高效码农

视觉语言模型的突破：更智能、更高效、更强大引言人工智能领域近年来最引人注目的进展之一，便是视觉语言模型（Vision Language Models, VLMs）的飞速发展。这些模型不仅能理解图像 …

10个月前高效码农

基于视觉语言模型与Pydantic的文档数据提取技术深度解析一、技术原理阐述 1.1 视觉语言模型（Vision Language Models, vLLMs）演进现代vLLMs通过多模态预训练实 …

10个月前高效码农

nanoVLM：轻量级视觉语言模型的PyTorch实现与应用指南基于PyTorch的轻量级视觉语言模型框架一、项目概述：重新定义小型视觉语言模型开发在人工智能领域，视觉语言模型（Vision-L …

11个月前高效码农

AutoGLM沉思与CogAgent-9B：智谱AI的浏览器Agent技术解析 CogAgent流程图一、AutoGLM沉思：浏览器Agent的新范式作为国内最早布局浏览器Agents的科技公司， …