大语言模型入门:从预训练到推理的完整技术解析 大语言模型(Large Language Models, LLMs)已成为人工智能领域的核心技术之一。它们不仅能理解自然语言,还能生成高质量的文本、回答复 …
用两种老师教一个模型:Agentic-R1 如何让数学题既快又准? “ 关键词:Agentic-R1、DualDistill、工具调用、长链推理、数学推理、代码执行、模型蒸馏 classroom wi …
从“会做题”到“会反思”:一文看懂 MetaStone-S1 如何让 32 B 模型追上 OpenAI o3-mini 开场白:为什么大模型也需要“考试时的草稿纸”? 想象一下,你在考场上遇到一道数学 …
MixGRPO:用“混合采样+滑动窗口”让 AI 绘图模型训练快 71% 一句话总结 在 FLUX.1-dev 之上,MixGRPO 用“ODE+SDE 混合采样”只优化最关键的 4 步,训练时间比 …
Step3 是怎么把 3210 亿参数的大模型跑得比 370 亿的还便宜? 通俗版技术博客:读完你就知道 Step3 为什么「大却省钱」,以及它的代码和模型该怎么用。 1. 先讲结论:为什么值得花时间 …
RLVMR框架:提升长程代理效率的新方法 在人工智能领域,构建能够自主完成复杂长程任务(如家庭环境操作、科学实验)的智能体一直是核心挑战。本文将深入解析腾讯团队提出的RLVMR框架,通过案例和实验数据 …
RLVMR框架:提升长程代理效率的新方法 在人工智能领域,构建能够自主完成复杂长程任务(如家庭环境操作、科学实验)的智能体一直是核心挑战。本文将深入解析腾讯团队提出的RLVMR框架,通过案例和实验数据 …
GLM 4.5:这匹开源黑马,为何在推理、编码与智能体任务中悄然超越Qwen与Kimi? “ 真正的AI竞赛不在新闻头条里,而在GitHub的每一次提交、Hugging Face的排行榜单,以及Dis …
NEO:重新定义机器学习工程效率的革命性智能体系统 在机器学习(ML)工程领域,时间与人才始终是稀缺资源。全球仅有约30万名专业ML工程师,而市场需求却是这个数字的10倍。更令人焦虑的是,构建一个生产 …
AI自主架构设计:AlphaGo时刻在神经架构发现中的应用 神经网络架构示意图 一、突破性进展:AI开启架构设计新纪元 2025年,来自上海交通大学和MiniMax AI的研究团队在神经架构发现领域实 …
一篇文章看懂 VLM2Vec-V2:如何让 AI“看懂”视频、图片和 PDF 并把它变成好用的向量 适用人群:AI 产品经理、工程师、科研入门者 阅读收获:20 分钟掌握 VLM2Vec-V2 的核心 …
大型语言扩散模型:解锁AI技术的前沿奥秘 AI与扩散模型 在人工智能(AI)的世界里,大型语言扩散模型(Large Language Diffusion Models)正逐渐崭露头角,成为研究者和从业 …
用“句号”提速大模型:SepLLM 如何把一整段话压进一个标点里 当你对着手机说“帮我写一封邮件”时,大模型其实在做一道“阅读海量文字 → 找到关键信息 → 生成回复”的高数题。题目越大,算力消耗越像 …
探索 Metaflow:构建和管理 AI 与 ML 系统的得力助手 在当今科技飞速发展的时代,人工智能(AI)和机器学习(ML)技术正以前所未有的速度改变着我们的生活和工作方式。对于科学家和工程师们来 …
让序列模型像乐高一样拼搭:PyTorch SequenceLayers 完全指南 ——把谷歌 DeepMind 的工业级序列库搬进你的 PyTorch 项目 为什么要读这篇文章? 如果你做过语音合成、 …
Qwen3-Coder 本地运行全指南:释放480B参数代码模型的潜力 “ 无需云端依赖,手把手教你用消费级硬件运行最先进的代码生成大模型 为什么开发者需要关注Qwen3-Coder? 当阿里通义千问 …
用 ART 训练多步智能体:从 2048 到邮件检索的完整入门指南 这篇文章能帮你解决什么问题? 我想让大模型学会玩 2048、井字棋、Codenames,甚至帮我检索邮件,但不想手写奖励函数——有办 …
Tiny-DeepSpeed:用 500 行代码读懂 DeepSpeed 的核心魔法 刚听说 DeepSpeed 能把 GPT-2 训练显存砍掉一半,却苦于源码像迷宫? 这篇笔记带你用 不到 500 …
大型语言模型 2025 年架构全景:从 DeepSeek-V3 到 Kimi 2,一张图看懂谁在“变”、谁在“守” 对话式导读: “GPT 推出已经七年,模型真的脱胎换骨了吗?” “如果 …