Seer系统揭秘:如何用在线上下文学习让大模型强化学习提速97%?

4个月前 高效码农

Seer:如何通过在线上下文学习加速大语言模型强化学习训练 在当今人工智能领域,大语言模型的强化学习训练已成为提升模型推理和问题解决能力的关键手段。然而,传统的同步强化学习系统在 rollout 阶段 …

GPT-5.1、Gemini 与 LLaMA 3:模型能力、架构与推理体验的深度对话式解析

4个月前 高效码农

在过去一年中,大语言模型的发展速度明显加快,多个团队都在尝试让模型更强、更快、更能理解复杂任务。随着 GPT-5.1、Gemini 与 LLaMA 3 的发布,人们开始关注一个核心问题: 它们之间到底 …

RedOne 2.0揭秘:如何用三阶段训练打造社交网络专属大语言模型?

4个月前 高效码农

RedOne 2.0:重新思考社交网络服务中的领域特定大语言模型后训练 引言:为什么社交网络服务需要专门的大语言模型? 本段欲回答的核心问题:在社交网络服务中部署通用大语言模型面临哪些独特挑战?通用大 …

TeaRAG是什么?如何让AI思考更聪明更高效

4个月前 高效码农

在当今人工智能领域,大语言模型(LLM)凭借其强大的理解和生成能力,已成为各行各业的重要工具。然而,这些模型也面临着一个普遍问题:它们经常”编造”信息,即产生所谓的&#8221 …

30%成功率背后:VitaBench如何颠覆AI智能体评估?

5个月前 高效码农

🌱 VitaBench:重新定义真实世界AI智能体的评估基准 当最强大的AI模型在复杂多变的真实任务中成功率不足30%,我们该如何衡量并推进下一代智能体的发展? 1. 引言:为何我们需要重新思考智能体 …

LongCat-Audio-Codec:重新定义语音大语言模型的音频编解码范式

5个月前 高效码农

“ 当语音大模型遇上高效音频表示,会碰撞出怎样的火花? 作为一名长期深耕在AI语音领域的技术人,我见证了从传统编解码器到神经编解码器的演变历程。今天,当我第一次体验LongCat-Audio-Code …

Hermes 4 14B震撼发布!开源大语言模型推理能力再升级,如何引领AI助手新革命?

6个月前 高效码农

Hermes 4 14B:更强大、更易用的开源大语言模型 在人工智能迅猛发展的今天,大语言模型(LLM)已成为推动技术进步的核心力量。无论是进行复杂的逻辑推理,还是辅助日常的创意写作,一个能力强、易操 …

CUDA推理引擎新突破:qwen600如何实现QWEN3-0.6B模型高性能推理?

6个月前 高效码农

qwen600.cu —— 从零构建的轻量级 CUDA 推理引擎 qwen600 banner 在学习和实践 CUDA 与 GPGPU 的过程中,有了这样一个想法:能不能自己从头实现一个推理引擎?于是 …

Checkpoint Engine:大型语言模型推理引擎中的模型权重更新中间件

6个月前 高效码农

你有没有想过,在运行一个参数规模达万亿的大型语言模型时,如何快速更新模型权重,而不中断推理过程?在强化学习场景下,模型需要频繁迭代,这往往成为瓶颈。Checkpoint Engine 就是为此而生的工 …

通义千问3-Next-80B重磅发布!长文本处理效率飙升,智能体应用新纪元开启

6个月前 高效码农

在现代人工智能飞速发展的浪潮中,大型语言模型(LLM)正以前所未有的速度演进。通义千问团队最新推出的 Qwen3-Next-80B 系列模型,正是在这一背景下应运而生的技术成果。该系列不仅显著提升了模 …

快手重磅发布Kwai Keye-VL 1.5:80亿参数如何颠覆视频理解?

6个月前 高效码农

Kwai Keye-VL 1.5:重新定义视频理解的多模态大模型 概述:为什么视频理解如此困难? 视频理解一直是人工智能领域最具挑战性的任务之一。与静态图像不同,视频不仅包含丰富的空间信息,还具有复杂 …

DeepConf黑科技:让AI推理效率飙升85%的置信度革命

7个月前 高效码农

DeepConf:让大语言模型推理更高效的新方法 图1:DeepConf 在 AIME 2025 竞赛题目上的测试结果 一、背景:语言模型的”思考困境” 大语言模型(LLM)近 …

从零构建GPT模型:手把手教你实现大语言模型(含代码)

7个月前 高效码农

从零开始构建大语言模型:深入理解GPT类模型的工作原理 引言 你是否好奇像ChatGPT这样的大语言模型(LLM)是如何工作的?想了解它们背后的技术原理而不只是调用API?《从零开始构建大语言模型》( …

Grok-2部署实战:8张GPU+500GB存储的终极指南

7个月前 高效码农

Grok 2 模型使用全指南:从下载到部署 在人工智能快速发展的今天,大模型已经成为研究和应用的重要基础设施。Grok 2 是由 xAI 在 2024 年训练和使用的一款模型,它的开源权重为开发者和研 …

震惊!字节跳动开源360亿参数模型:长文本无敌,数学题吊打Qwen3?

7个月前 高效码农

一口气看懂 ByteDance Seed-OSS 36B:为什么大家都在聊它? 如果你刚打开这篇博客,可能正在搜索“Seed-OSS 36B 是什么”“怎么在本地跑起来”“值不值得用”——这篇文章一次 …

双块注意力机制(DCA)破解LLM记忆瓶颈:无需训练实现100k+上下文扩展

7个月前 高效码农

双块注意力机制(DCA):无需训练,让大模型轻松处理超长文本 你是否遇到过这样的情况:用大模型处理一份长篇报告时,前面的内容刚读完,后面的信息就“记不住”了?或者分析一本几十万字的电子书时,模型总是漏 …

普通电脑也能跑千亿模型?Unsloth+gpt-oss革命性优化全指南

7个月前 高效码农

全面指南:使用Unsloth运行和微调OpenAI开源模型gpt-oss 你可能会问:如何高效运行千亿参数的开源大模型?OpenAI最新开源的gpt-oss系列模型与Unsloth工具链结合,让普通开 …

GPT-OSS模型优化秘诀:20B/120B参数模型如何实现性能跃升?

7个月前 高效码农

OpenAI GPT-OSS模型优化与微调技术全解析 在人工智能快速发展的今天,大语言模型(LLM)已成为推动技术进步的重要力量。OpenAI推出的GPT-OSS系列模型,以其20B和120B两种参数 …

LISP颠覆测试!看大语言模型如何智能划分API输入空间|ICSE’25黑科技

8个月前 高效码农

LISP:基于大语言模型的库API输入空间划分测试技术 本文完整解析ICSE’25论文提出的创新测试工具LISP,通过大语言模型实现智能化的API测试 什么是LISP? LISP(LLM …

大语言模型从0到1完全解析:5大核心技术立即掌握

8个月前 高效码农

大语言模型入门:从预训练到推理的完整技术解析 大语言模型(Large Language Models, LLMs)已成为人工智能领域的核心技术之一。它们不仅能理解自然语言,还能生成高质量的文本、回答复 …