Logics-Parsing开源模型引爆文档解析革命!阿里7B参数小巨人如何征服多栏论文与化学公式?

2个月前 高效码农

Logics-Parsing:打破复杂文档解析的边界,我为何看好这个阿里开源的“全能选手” 面对多栏排版、数学公式、化学结构交错的学术论文,传统OCR工具纷纷败下阵来,直到我遇到了这个7B参数的“小巨 …

开源Email Agent隐私优先,如何用本地缓存+工具调用重塑智能邮箱?

2个月前 高效码农

摘要(TL;DR) Thariq 开源的 Email Agent 是一个面向快速原型与隐私优先的智能邮箱助手:通过 IMAP 拉取邮件、把元数据写入本地 SQLite(./emails.db),用 B …

KAT-Dev-32B 与 KAT-Coder:通过可扩展Agentic RL重塑代码智能的未来

2个月前 高效码农

深夜,你面对着一个复杂难解的bug,咖啡已经凉了第三回,而截止日期就在明天早上。这种场景对每个开发者都不陌生——直到现在。 在软件开发的世界里,我们一直在寻找那个能够真正理解我们意图的智能助手。不是简 …

字节跳动Lynx视频生成技术突破:单张证件照秒变4K短片

2个月前 高效码农

“老板只给我一张证件照,却想要 5 秒 4K 短片,还要换场景、换表情、换机位,渲染预算 0 元。” 如果你也被这样折磨过,下面这段魔法值得逐帧拆解。 故事开场:当“脸”成为最昂贵的变量 过去两年,A …

HunyuanImage-3.0:腾讯开源的原生多模态模型,如何重新定义图像生成?

2个月前 高效码农

“ 800亿参数、64专家MoE架构、自回归框架——这不仅仅是技术参数的堆砌,更是多模态理解与生成的一次彻底融合。 还记得第一次使用文生图模型时的期待与落差吗?输入“一只在田野奔跑的小狗”,得到的可能 …

京东开源JoySafety实战指南:日均拦截亿次攻击的大模型安全框架如何平衡合规与体验?

2个月前 高效码农

京东开源JoySafety:日均拦截亿次攻击的大模型安全框架实战指南 如何让大模型在合规与用户体验间找到完美平衡点? 引言:当大模型成为企业标配,安全却成了最大短板 去年,一家电商公司的AI客服因为未 …

Holo1.5模型全面解析:计算机使用代理的未来已来

2个月前 高效码农

探索 Holo1.5:构建计算机使用代理的基础模型 你有没有想过,AI 如何能接管电脑屏幕上那些繁琐的任务,比如点击按钮或填写表单,只需“看”一眼屏幕内容?这就是 Holo1.5 这类模型的用武之地。 …

如何打造专属校园AI助手?零基础也能部署的多语言智能问答机器人教程

2个月前 高效码农

想象一下,无论你是用英语问“本学期的学费是多少?”,还是用 Hindi 问“फीस की जानकारी दें”,或是用 Bengali 问“ভর্তির নিয়ম কি?”,都有一个智能助手能立 …

LangGraph实战:6个招式将大模型Token用量从25k砍到11k

2个月前 高效码农

“为什么我的上下文越长,答案反而越离谱?” 如果你也在深夜对着 128k 窗口的 GPT-4 怀疑人生,这篇文章就是写给正在抠头的你。 故事从一次“奖励黑客”调研开始 上周,老板甩给我一个看似人畜无害 …

ChatGPT Pulse:从被动应答到主动洞察,AI助手的范式革命

2个月前 高效码农

“ AI不再等待你的提问,它开始学会主动思考 清晨醒来,手机屏幕上不再只有未读消息和邮件,还有一组精心编排的视觉卡片:“伦敦旅行贴士”、“三道15分钟健康晚餐方案”、“铁人三项训练下一步”。这不是某个 …

POINTS-Reader:无需蒸馏训练,实现高质量文档转换的视觉语言模型

2个月前 高效码农

  面对复杂排版的文档——如表格、公式、多栏文本,传统OCR工具往往表现不佳。POINTS-Reader提出一种全新的两阶段训练框架,彻底摆脱对“教师模型”的依赖,实现了端到端的高精度文档转换。 在数 …

NVIDIA ViPE开源工具:颠覆视频转3D几何数据的技术突破

2个月前 高效码农

你是否曾经好奇过,机器人或增强现实系统是如何从简单的视频中理解 3D 世界的布局?这是一个复杂的问题,尤其是在视频拍摄时伴随着晃动摄像头或移动物体的情况下。NVIDIA 研究团队开发的 ViPE(视频 …

ST-Raptor重磅发布:零训练处理复杂表格的终极解决方案

2个月前 高效码农

ST-Raptor:无需训练的半结构化表格问答工具 在处理日常工作和研究数据时,我们经常会遇到形式多样的表格:财务报表、学术数据、人事信息表……这些表格往往结构复杂、排版不规则,甚至包含合并单元格、多 …

84%成功率革命!MemoryVLA双记忆系统破解机器人长时序操作难题

2个月前 高效码农

MemoryVLA:受人类记忆启发的机器人操作模型解析 本段欲回答的核心问题 MemoryVLA是什么?它如何解决传统机器人操作模型在长时序任务中的不足? 本文深入解析MemoryVLA——一种受人类 …

神经操作系统实现全解析:用Gemini 2.5 Flash-Lite实时生成UI的5个关键技术点

2个月前 高效码农

一篇把 Google 内部原型拆成 5 个“今天就能抄”的技术点,并附完整可运行代码的爽文。 1. 开场:从静态 GUI 到“活”界面 “点一下按钮,整个屏幕像活了一样重写”——这不是科幻,这是 20 …

CWM:彻底改变代码生成的“世界模型”现已开源

2个月前 高效码农

“ 想象一下,一个AI不仅能写出代码,还能在脑海中“模拟”这段代码将如何改变整个系统的状态——这就是Code World Model(CWM)带来的范式转变。 作为一名长期关注AI编程助力的开发者,每 …

AGI 只是起点,ASI 才是终极目标:解读吴泳铭在云栖大会的“长线炸弹”

2个月前 高效码农

“AGI 只是起点,ASI 才是终极目标。” ——阿里云 CEO 吴泳铭,云栖大会开场演讲 一年一度的 云栖大会,向来是观察国内云计算与人工智能方向的风向标。 今年,阿里云 CEO 吴泳铭的开场,就直 …

asXiv:利用人工智能轻松探索和理解学术论文的智能工具

2个月前 高效码农

在学术研究的世界里,每天都有成千上万的新论文出现在arXiv等预印本服务器上。对于研究人员、学生和任何对科学前沿感兴趣的人来说,快速理解和评估这些论文的价值是一项巨大的挑战。这就是asXiv诞生的原因 …

BentoML llm-optimizer:彻底改变大语言模型推理性能调优的开源工具

2个月前 高效码农

在大语言模型(LLM)推理部署的过程中,许多开发团队面临一个共同难题:如何在不依赖繁重的手动试错的情况下,为延迟、吞吐量和成本找到最优配置?BentoML 最新发布的 llm-optimizer 正是 …

扩散语言模型强化学习新纪元:TraceRL框架如何实现数学推理突破?

3个月前 高效码农

Revolutionizing Reinforcement Learning for Diffusion Language Models: Introducing TraceRL and TraDo …