人工智能归档 | 第17页共65页

PaCo-RL：如何用成对强化学习解决AI作图的视觉一致性难题？

3个月前高效码农

PaCo-RL：通过成对奖励建模推进一致图像生成的强化学习摘要 PaCo-RL是一种创新的强化学习框架，专为一致图像生成而设计，解决了在多个图像中保持身份、风格和逻辑一致性的核心挑战。该框架集成了P …

突破瓶颈！深度解析大模型从“模仿”到“辨别”的CAPO课程优势优化法

3个月前高效码农

从模仿到辨别：通用课程优势机制如何提升大模型跨领域推理能力摘要：本文介绍CAPO（课程优势策略优化），一种创新的强化学习训练范式。它通过分阶段的课程学习，先利用正优势样本进行模仿学习建立稳定基础，再 …

吊打7B！EMMA：华为诺亚只用4B参数，重写多模态大模型游戏规则

3个月前高效码农

EMMA：可能是2025年最聪明的统一多模态模型（只用4B参数） 2025年，多模态大模型的竞争已经彻底白热化。几乎每周都有新模型宣称自己“统一了理解与生成”，但真正做到又快又强、还能同时搞定图像编辑 …

联发科NPU逆袭：手机跑1600 token/s大模型，教你一招搞定端侧AI部署

3个月前高效码农

把 LLM 塞进手机：MediaTek NPU × LiteRT NeuroPilot Accelerator 全栈落地笔记 “ 核心问题：在碎片化边缘硬件上，怎样“一次训练、多端秒级部署”大模型，同 …

OceanBase seekdb：如何用AI原生数据库简化RAG开发？

3个月前高效码农

OceanBase seekdb：AI原生混合搜索数据库如何简化RAG与智能体开发核心问题：当AI应用需要同时处理用户画像、对话记录、JSON元数据、向量嵌入和地理空间数据时，如何避免维护多个数据库 …

GLM-4.6V多模态AI：开启视觉感知到可执行动作的新纪元

3个月前高效码农

GLM-4.6V：开启多模态AI的视觉推理新纪元在人工智能飞速发展的今天，能够同时理解图像和文本的“多模态”模型，正逐渐成为技术演进的核心方向。今天，我们要深入探讨的，是近期在开源社区引发广泛关注的 …

★如何让AI在教育场景中真正“懂你”：用实体链接（Entity Linking）治好RAG的“选择困难症”★

3个月前高效码农

你有没有遇到过这种情况：问一个专业问题，比如“亚当·斯密在《国富论》中是怎么定义分工的？”，普通的RAG系统却给你检索出一堆提到“Smith”的无关内容——可能是经济学家，也可能是完全同名的其他人， …

Open Notebook开源AI研究工具：15倍性能革新，彻底打破Google垄断

3个月前高效码农

Open Notebook：打破AI研究工具垄断的开源革命在人工智能快速发展的今天，我们是否真的需要依赖单一供应商来满足我们的研究需求？当我们面对Google Notebook LM这样的云端服务时 …

PAL MCP揭秘：别再用单一AI了！打造你的全明星AI开发者团队，效率飙升500%的秘密武器

3个月前高效码农

PAL MCP：告别单打独斗，构建你的专属AI开发者团队你是否曾想过，如果能让Claude、GPT-5、Gemini Pro和本地运行的Llama同时为你工作，会是怎样一番场景？如果这些顶尖的AI模 …

LiveAvatar深度拆解：5张显卡如何让14B大模型实现20FPS无限时直播？

3个月前高效码农

把 14B 大模型塞进 5 张显卡：LiveAvatar 如何让“数字人”无限时长直播？日期：2025-12-08 一句话速览 LiveAvatar 用 4 步扩散、流水线并行和“滚动锚帧”技术，把 …

3步打造你的AI数据库助手：用DeepSeek和MongoDB实现自然语言查询

3个月前高效码农

如何用 DeepSeek v3.2 与 Claude Agents SDK 构建你的智能 MongoDB 助手你是否曾经想象过，用简单的日常语言就能直接与你的数据库“对话”？比如问一句“我们数据库里 …

Claude Skills革命：如何让AI助手秒变专业代理？

3个月前高效码农

Claude Skills 正在重塑 AI 助手：从通用聊天到专业代理的进化之路核心问题：为什么 Claude Skills 能让一个通用 AI 助手转变为可处理复杂专业任务的智能代理？ Claud …

InkSight黑科技解密：如何用AI将潦草手写秒变可编辑数字墨迹？

3个月前高效码农

InkSight：让手写笔记真正数字化——从照片到可编辑墨迹的AI转换技术本文欲回答的核心问题：InkSight如何通过结合视觉Transformer和多语言T5模型，将手写照片转换为可搜索、可编辑 …

豆包AI图片视频批量下载神器：3秒获取无水印原图，告别手动保存

3个月前高效码农

豆包AI生成图片和视频的无水印批量下载工具实战指南你有没有遇到过这样的情况：在豆包AI（Doubao）聊天时，它生成了特别好看的图片或视频，想全部保存下来，却发现官方只允许一张一张点“保存”，而且保 …

Gemini 3 Pro如何用视觉革命颠覆AI？揭秘谷歌多模态模型的4大杀手级应用

3个月前高效码农

Gemini 3 Pro：当 AI 学会“看”与“想”，多模态智能的范式革命核心问题：谷歌最新发布的Gemini 3 Pro模型究竟带来了哪些根本性的能力跃迁？它如何超越传统的图像识别，实现真正的视 …

因果推理如何让自动驾驶更安全？Alpamayo-R1破解长尾场景难题

3个月前高效码农

突破长尾场景：Alpamayo-R1如何用因果推理提升自动驾驶安全性自动驾驶技术正从实验室走向真实道路，但安全关键的长尾场景（如突然切入的车辆、施工区域避让）仍是行业痛点。传统端到端模型在稀疏监督和 …

视频差异描述(ViDiC)揭秘！AI如何理解动态场景中的相似与差异

3个月前高效码农

视频差异描述：探索动态场景中的相似与不同本篇文章欲回答的核心问题：视频差异描述任务是什么，它如何帮助我们更好地理解视频编辑和多模态模型的能力？视频差异描述（ViDiC）任务要求模型生成自然语言描述 …

OneThinker：颠覆视觉AI的统一模型如何实现10项全能？

3个月前高效码农

OneThinker：一个模型，理解图像与视频的世界你是否想象过，存在一个“全能”的AI，既能解答复杂的数学图表题，又能为视频中的物体进行精准追踪和分割？过去，我们需要为图像问答、视频分析、物体定位 …

30万GPU小时血泪史：大模型强化学习训练的7条防翻车指南

3个月前高效码农

如何让大模型强化学习“不翻车”：30B MoE 实测 30 万 GPU 小时后的 7 条血泪教训核心问题： “用 token 级目标去优化序列级奖励”为什么总崩溃？答案一句话：只有当“训练-推理差 …

Open CoreUI：轻量级AI助手一键部署全攻略，比原版节省50%内存！

3个月前高效码农

Open CoreUI：轻量级AI助手桌面客户端与后端服务器全面指南本文欲回答的核心问题 Open CoreUI是什么？它如何以更轻量、更高效的方式帮助用户部署和使用AI助手？与传统方案相比，它有哪 …