大语言模型归档 | 高效码农

1个月前高效码农

GLM-5 深度解析：面向 Agentic Engineering 的下一代旗舰模型实战指南本文核心问题：GLM-5 究竟是一款什么样的模型，为何它被定义为面向“Agentic Eng …

2个月前高效码农

深入解析Trinity Large：一个开源的400B稀疏MoE模型在人工智能领域，大规模语言模型的发展日新月异。今天，我们将深入探讨一个令人兴奋的新星——Trinity Large模型。这篇文章将 …

2个月前高效码农

DeepSeek MODEL1曝光：FlashMLA代码更新暗示新一代AI模型，”无限记忆”技术将如何改变我们使用AI的方式？摘要 DeepSeek在GitHub的Flash …

2个月前高效码农

MemoBrain：为大模型推理打造的“执行记忆大脑” 在工具增强型智能体的复杂推理场景中，长程推理轨迹和临时工具交互结果的不断累积，正在持续挤占大语言模型（LLM）有限的工作上下文空间。没有专门的记 …

2个月前高效码农

把“死记”交给查表，把“推理”留给 GPU：DeepSeek Engram 如何让大模型既省算力又变聪明？ “ 核心问题：当 MoE 已经用“条件计算”把参数规模推向百亿级，为什么知识类任务仍旧浪费大 …

3个月前高效码农

最近，我在尝试把 Moonshot AI 的 Kimi K2 模型部署到 vLLM 上运行官方的 K2-Vendor-Verifier 基准测试时，遇到了一个让人头疼的问题：工具调用成功 …

3个月前高效码农

多模态生成式推理到底测什么？ ——一份给普通人的 MMGR 技术说明书如果你只想知道结论，可以直接跳到最后「一分钟速读」。如果你想弄懂“为什么我的 AI 视频总穿墙、数独填错格、迷宫走到死胡同”， …

3个月前高效码农

从“闭门造车”到“名师点拨”：R-Few如何用极少的人类监督引导大模型稳定自进化本篇文章旨在回答一个核心问题：在不依赖海量标注数据的前提下，如何构建一个能够持续、稳定自我进化的大语言模型（LLM） …

4个月前高效码农

AgentEvolver：让大模型自己“长本事”的低成本训练框架核心问题：有没有一种办法，让 LLM 智能体不依赖人工标注、不堆算力，就能在陌生环境里持续变强？答案：AgentEvolver 用“ …

5个月前高效码农

当多模态遇上闪电猫：深入解读美团 LongCat-Flash-Omni 核心问题：一款能同时理解文字、图像、音频、视频，并实现实时交互的模型，究竟是怎样被构建出来的？美团的 LongCat-Flas …

7个月前高效码农

美团 LongCat-Flash-Chat：重新定义高效大语言模型本文基于美团官方在 Hugging Face 发布的模型文档，对 LongCat-Flash-Chat 进行系统梳理与通俗解读，帮助 …

8个月前高效码农

当大模型不再“想太多”：Kwaipilot-AutoThink 40B 如何让回答又快又准这篇长文写给两类读者：正在选模型的开发者：想知道 40B 参数到底能不能顶 200B 的活。想用 LLM …

8个月前高效码农

⚡ LitGPT：20+高性能大语言模型的一站式解决方案为什么选择LitGPT？企业级开源大模型工具链 LitGPT让开发者能够： ✅ 完全掌控20+主流大模型（从70亿到4050亿参数） ✅ 从 …

10个月前高效码农

Mistral-7B 模型精调实战：Colab 平台详细指南在当今的人工智能浪潮中，大语言模型的应用已经渗透到各个领域。对于许多开发者和研究者来说，能够对现有的大模型进行精调，使其适应特定的任务和场 …

10个月前高效码农

大语言模型的多轮对话困境：原理、挑战与应对策略一、核心发现与运行原理（Core Findings and Operating Principles） 1.1 性能断崖现象最新研究表明，大语言模型（ …

1年前高效码农

Hunyuan-T1：Mamba架构驱动的AI推理革命痛点场景：当传统模型遭遇长文本困境在金融报告分析场景中，传统Transformer架构处理10万字文档时会产生高达78%的上下文丢失率（来源： …