多模态人工智能归档

1个月前高效码农

GLM-OCR：0.9B轻量级多模态OCR模型——性能、部署与实战全指南「摘要」：GLM-OCR是仅0.9B参数的多模态OCR模型，在OmniDocBench V1.5斩获94.62分位列榜首，支持 …

1个月前高效码农

Youtu-VL：轻量级视觉-语言模型的突破性进展本模型能解决什么核心问题？传统视觉-语言模型（VLM）过度依赖文本处理，导致视觉信息被简化为被动输入，难以完成精细的视觉任务。Youtu-VL通过 …

2个月前高效码农

Auralia：基于 Gemma 3n 的离线语音助手如何重塑视障用户的移动体验核心问题：当隐私保护与无障碍需求相遇，移动设备能否真正为视障用户提供既安全又智能的免手操作体验？ Auralia 给出 …

3个月前高效码农

GLM-4.6V：开启多模态AI的视觉推理新纪元在人工智能飞速发展的今天，能够同时理解图像和文本的“多模态”模型，正逐渐成为技术演进的核心方向。今天，我们要深入探讨的，是近期在开源社区引发广泛关注的 …