长上下文处理归档

2个月前高效码农

DeepSeek MODEL1曝光：FlashMLA代码更新暗示新一代AI模型，”无限记忆”技术将如何改变我们使用AI的方式？摘要 DeepSeek在GitHub的Flash …

2个月前高效码农

探索 QwenLong-L1.5：长上下文推理与内存管理的后训练秘诀摘要 QwenLong-L1.5 基于 Qwen3-30B-A3B-Thinking 构建，通过系统后训练创新实现长上下文推理能力 …

6个月前高效码农

摘要本文深入解析了 inclusionAI 团队最新发布的 Ring-mini-2.0 模型——一个基于 Ling 2.0 架构深度优化的高性能混合专家模型（MoE）。该模型仅使用 16B 总参数和 …