DeepSeek MODEL1引爆AI“无限记忆”革命:长上下文将如何彻底颠覆你的工作方式?

9天前 高效码农

DeepSeek MODEL1曝光:FlashMLA代码更新暗示新一代AI模型,”无限记忆”技术将如何改变我们使用AI的方式? 摘要 DeepSeek在GitHub的Flash …

解密QwenLong-L1.5:如何让大模型真正“记住”百万字文档并深度推理?

1个月前 高效码农

探索 QwenLong-L1.5:长上下文推理与内存管理的后训练秘诀 摘要 QwenLong-L1.5 基于 Qwen3-30B-A3B-Thinking 构建,通过系统后训练创新实现长上下文推理能力 …

Ring-mini-2.0高效推理:16B MoE模型如何突破代码生成与长上下文瓶颈?

4个月前 高效码农

摘要 本文深入解析了 inclusionAI 团队最新发布的 Ring-mini-2.0 模型——一个基于 Ling 2.0 架构深度优化的高性能混合专家模型(MoE)。该模型仅使用 16B 总参数和 …