GLM-OCR凭什么横扫OmniDocBench?解密0.9B参数的轻量OCR王者如何降本增效

3天前 高效码农

GLM-OCR:0.9B轻量级多模态OCR模型——性能、部署与实战全指南 「摘要」:GLM-OCR是仅0.9B参数的多模态OCR模型,在OmniDocBench V1.5斩获94.62分位列榜首,支持 …

Youtu-VL震撼发布:仅4B参数视觉模型,凭什么比大10倍的模型还强?

10天前 高效码农

Youtu-VL:轻量级视觉-语言模型的突破性进展 本模型能解决什么核心问题? 传统视觉-语言模型(VLM)过度依赖文本处理,导致视觉信息被简化为被动输入,难以完成精细的视觉任务。Youtu-VL通过 …

离线AI语音助手Auralia:视障者的隐私守护神如何用Gemma 3n实现免触屏自由

20天前 高效码农

Auralia:基于 Gemma 3n 的离线语音助手如何重塑视障用户的移动体验 核心问题:当隐私保护与无障碍需求相遇,移动设备能否真正为视障用户提供既安全又智能的免手操作体验? Auralia 给出 …

GLM-4.6V多模态AI:开启视觉感知到可执行动作的新纪元

2个月前 高效码农

GLM-4.6V:开启多模态AI的视觉推理新纪元 在人工智能飞速发展的今天,能够同时理解图像和文本的“多模态”模型,正逐渐成为技术演进的核心方向。今天,我们要深入探讨的,是近期在开源社区引发广泛关注的 …