Hermes 4 14B:更强大、更易用的开源大语言模型 在人工智能迅猛发展的今天,大语言模型(LLM)已成为推动技术进步的核心力量。无论是进行复杂的逻辑推理,还是辅助日常的创意写作,一个能力强、易操 …
作者 / 团队 / 机构 作者:Yixuan Zhou、Guoyang Zeng、Xin Liu、Xiang Li、Renjie Yu、Ziyang Wang、Runchuan Ye、Weiyue S …
引言 想象一下这样的场景:你打开聊天界面,原本只是为了寻求一些工作上的帮助或娱乐,却在不知不觉中与对话另一端的人工智能建立了深厚的情感联系。这不是科幻电影《她》(Her)中的情节,而是正在全球范围内发 …
在人工智能快速发展的今天,大型语言模型(LLM)正在逐步改变我们获取和处理信息的方式。然而,面对复杂、开放且需要多步推理的深度信息搜索任务时,传统模型往往显得力不从心。针对这一挑战,Tongyi La …
★REFRAG:让AI生成内容更快更高效的新方法★ 你是否遇到过这样的情况:向AI提问时,如果问题需要结合大量背景知识,回答速度就会变慢,甚至卡顿?就像在图书馆里找资料,如果管理员每次都要翻遍所有书架 …
Kwai Keye-VL 1.5:重新定义视频理解的多模态大模型 概述:为什么视频理解如此困难? 视频理解一直是人工智能领域最具挑战性的任务之一。与静态图像不同,视频不仅包含丰富的空间信息,还具有复杂 …
Biomni-R0:借助多轮强化学习的智能体大模型,推动生物医学研究迈向专家级水平 本文欲回答的核心问题: Biomni-R0 作为一款新型智能体大模型,如何通过创新的训练方法突破传统技术局限,在生物 …
EmbeddingGemma:重新定义设备端嵌入模型的高效与隐私 EmbeddingGemma_Banner 在人工智能快速发展的今天,如何在资源有限的设备上实现高效、低延迟的文本嵌入,同时保障用户数 …
发布时间:2025年8月28日 来源:Google 开发者博客 TL;DR Gemini 2.5 Flash 是谷歌最新的多模态图像生成模型。要获得最佳效果,需要写出描述性提示词,而不是简单堆砌关键词 …
Yan 框架:重新定义实时交互式视频生成的未来 一、什么是 Yan 框架? Yan 是由腾讯团队开发的交互式视频生成基础框架,它突破了传统视频生成技术的局限,将 AAA 级游戏画质、实时物理模拟与多模 …
Perch 2.0:生物声学领域的新突破,无需微调即可实现跨物种识别 生物声学作为连接生态保护与人工智能的桥梁,近年来在物种监测、栖息地评估等领域展现出巨大潜力。谷歌DeepMind团队最新发布的Pe …
用 3 万台 AI 居民复刻北京一天:AgentSociety 如何让大模型真正“生活”在城里? ❝ 关键词:大规模 LLM 智能体、社会模拟、并行计算、真实环境、城市行为、AgentSociety …
Rubrics as Rewards (RaR):用评分表教AI更懂人类偏好 引言:为什么需要新的奖励机制? 在强化学习领域,模型需要通过奖励信号来判断自己的输出质量。传统方法依赖偏好排序(如人类对多 …
Genie 3:世界模型的新边疆——实时交互式生成世界的突破 本文深入解析Google DeepMind的Genie 3如何通过实时生成技术创造动态虚拟世界,探讨其六大核心能力、技术突破与行业影响,并 …
ControlNet for Wan2.2:深度控制视频生成的实用指南 什么是 ControlNet 与 Wan2.2 的结合? 在人工智能视频生成领域,Wan2.2 作为一款先进的视频生成模型,已经 …
RLVMR框架:提升长程代理效率的新方法 在人工智能领域,构建能够自主完成复杂长程任务(如家庭环境操作、科学实验)的智能体一直是核心挑战。本文将深入解析腾讯团队提出的RLVMR框架,通过案例和实验数据 …
GLM 4.5:这匹开源黑马,为何在推理、编码与智能体任务中悄然超越Qwen与Kimi? “ 真正的AI竞赛不在新闻头条里,而在GitHub的每一次提交、Hugging Face的排行榜单,以及Dis …
GLM-4.5:推理、编码与智能体能力的统一突破 2025年7月28日 · 研究 关键词:大语言模型、AI智能体、代码生成、推理能力、GLM-4.5 一、为什么需要“全能型”AI模型? 当前AI领域面 …
NVIDIA Canary-Qwen-2.5B:双模式语音识别模型全面解析与应用指南 (图片来源:Pexels,展示现代语音技术应用场景) 一、模型核心亮点 NVIDIA Canary-Qwen-2. …