ParaThinker突破AI推理瓶颈:并行思考让小模型秒杀大模型

1小时前 高效码农

ParaThinker:原生并行思考——大语言模型推理能力的新突破 本文欲回答的核心问题 大语言模型在提升推理能力时,为何会遇到性能瓶颈?如何通过新的计算范式突破这一限制?ParaThinker作为一 …

破解LLM难题:AggLM如何用强化学习超越多数投票

3小时前 高效码农

大型语言模型中的解决方案聚合:多数投票并非总是正确 大家好,如果你对大型语言模型(LLM)感兴趣,想知道如何让它们在解决复杂问题时更聪明一些,那你来对地方了。最近我一直在思考这个问题,特别是通过生成多 …

Wan-Animate颠覆行业?AI精准动画生成与无缝角色替换技术全解析

19小时前 高效码农

你有没有想过,如何用一段视频的动作和表情,让一张静态的角色图片“活”起来?或者,你好奇怎么在视频中替换角色,同时保持场景的灯光和色调一致?如果这些问题听起来耳熟,那你来对地方了。今天,我们来聊聊Wan …

小米MiMo-Audio 7B震撼发布:语音AI迈入GPT级自由续写时代

22小时前 高效码农

“能不能像 GPT-3 写文章那样,随便给两句声音,模型就把剩下的活儿全包圆?” 小米最新开源的 MiMo-Audio 系列,用 1 亿小时无标注语音把这个问题推到了“基本可以”的程度。下面把论文、博 …

DeepSeek-R1:通过强化学习激励大语言模型推理能力

1天前 高效码农

摘要 DeepSeek-R1 是 DeepSeek-AI 团队提出的一种基于强化学习(Reinforcement Learning, RL)的大语言模型(LLM),其核心目标是通过 RL 框架激励模型 …

大规模多模态模型能看懂网络漫画幽默吗?PixelHumor数据集揭秘AI笑点盲区

1天前 高效码农

目录 引言 为什么研究“漫画幽默” PixelHumor 数据集的诞生 数据来源 幽默风格分类 标注流程 数据分析 实验设计与任务设置 幽默识别 幽默分类 幽默解释 顺序识别 实验结果 识别幽默:容易 …

3-5倍提速!Set Block Decoding让大语言模型推理飞起来

1天前 高效码农

Set Block Decoding:让大语言模型推理速度提升3-5倍的新方法 一、背景:语言模型推理为什么需要加速? 大家在用大语言模型聊天或写代码时,有没有遇到过这样的尴尬: 输出一长段代码时卡顿 …

Ring-mini-2.0高效推理:16B MoE模型如何突破代码生成与长上下文瓶颈?

2天前 高效码农

摘要 本文深入解析了 inclusionAI 团队最新发布的 Ring-mini-2.0 模型——一个基于 Ling 2.0 架构深度优化的高性能混合专家模型(MoE)。该模型仅使用 16B 总参数和 …

解锁多模态AI新能力:使用Unsloth进行视觉强化学习训练

3天前 高效码农

引言 在人工智能快速发展的今天,视觉与语言相结合的多模态模型正成为技术前沿的热点。无论是解析复杂图表中的数学问题,还是理解图像中的语义内容,这些模型都展现出了令人惊叹的能力。然而,训练这类模型通常需要 …

Tongyi DeepResearch重磅发布:300亿参数智能代理模型如何颠覆深度信息搜索?

3天前 高效码农

在人工智能快速发展的今天,大型语言模型(LLM)正在逐步改变我们获取和处理信息的方式。然而,面对复杂、开放且需要多步推理的深度信息搜索任务时,传统模型往往显得力不从心。针对这一挑战,Tongyi La …

斯坦福重磅推出MedAgentBench!医疗AI‘办事员’首次实战测试,70%成功率背后的医疗革命

3天前 高效码农

长久以来,我们对医疗人工智能的想象,往往停留在它能像一位博学的医生那样,通过考试或回答复杂的医学问题。大型语言模型(LLM)确实在美国医师执照考试(USMLE)等知识问答测试中取得了令人瞩目的成绩。但 …

FireRedTTS-2:多角色长对话语音生成技术如何颠覆播客与实时交互?

5天前 高效码农

一、为什么需要 FireRedTTS-2? 在传统的文本转语音(TTS)系统中,常见的应用场景是单人播报:例如视频配音、虚拟主播或语音助手。 然而,随着播客和对话型应用的兴起,用户对以下能力提出了更高 …

MobileLLM-R1吊打大模型?小参数学霸AI的逆袭秘笈

6天前 高效码农

MobileLLM-R1:小而精的开源推理模型新标杆 本文欲回答的核心问题 MobileLLM-R1 是什么,它为什么能在小参数规模下实现卓越的数学与代码推理性能? 在人工智能模型普遍追求参数规模的今 …

通义千问3-Next-80B重磅发布!长文本处理效率飙升,智能体应用新纪元开启

8天前 高效码农

在现代人工智能飞速发展的浪潮中,大型语言模型(LLM)正以前所未有的速度演进。通义千问团队最新推出的 Qwen3-Next-80B 系列模型,正是在这一背景下应运而生的技术成果。该系列不仅显著提升了模 …

百度ERNIE-4.5-21B-A3B-Thinking重磅发布:3B激活参数如何挑战万亿模型?

9天前 高效码农

百度ERNIE-4.5-21B-A3B-Thinking:高效MoE架构引领AI推理模型新趋势 关键词:ERNIE-4.5-21B-A3B-Thinking、百度AI、MoE模型、深度推理、长上下文、 …

ChatGPT开发者模式全攻略:MCP协议应用与高效工具调用实战

9天前 高效码农

ChatGPT 开发者模式深度解析:功能、使用方法与安全实践 ChatGPT Developer Mode 在人工智能应用逐渐普及的今天,开发者需要的不仅是一个能对话的智能体,更是一个能够与外部系统灵 …

Apertus-70B-2509:700亿参数开源大模型如何颠覆全球AI格局?

11天前 高效码农

Apertus-70B-2509:开启全球语言环境的开放大模型新时代 图片来源:Apertus官方技术文档 本文核心问题:如何在保障数据合规性的同时,构建一个真正开放且支持全球语言的大型语言模型? 在 …

UI-TARS-2如何重新定义GUI智能体?字节跳动最新突破揭秘!

11天前 高效码农

UI-TARS-2:重新定义GUI智能体的技术突破与应用前景 引言: GUI交互的智能化时代 在人工智能快速发展的今天,能够像人类一样操作计算机界面的智能体(Agent)正逐渐成为现实。字节跳动推出的 …

颠覆传统RAG!Elysia决策树框架开启智能数据查询新时代

12天前 高效码农

Elysia:用决策树重构智能数据查询的新一代开源框架 Elysia架构示意图 在人工智能技术快速发展的今天,聊天机器人已经变得无处不在。然而,大多数系统仍然局限于”文本输入,文本输出&# …

Chroma1-HD震撼发布!8.9B参数开源模型如何颠覆文本生成图像领域?

12天前 高效码农

Chroma1-HD:一款强大的开源文本到图像基础模型 如果你正在寻找一款高性能、易微调且完全开源的文本到图像生成模型,那么Chroma1-HD或许会成为你的理想选择。这款模型凭借8.9B参数的强大算 …