深度学习归档 | 高效码农

大模型如何过目不忘？揭秘TTT-E2E“边用边学”黑科技，让Transformer读完整本《三体》

1个月前高效码农

把 Transformer 做成“终身学习者”：TTT-E2E 如何让大模型边用边学？关键词：长上下文、Test-Time Training、TTT-E2E、滑动窗口注意力、元学习、推理加速 1. …

LingBot-World开源世界模型：高保真视频生成与实时交互指南

1个月前高效码农

LingBot-World：推动开源世界模型的发展——实时交互与长时记忆的新纪元在人工智能快速迭代的今天，构建能够理解并模拟物理世界动态的“世界模型”已成为行业发展的关键方向。本文将深入解析 Lin …

揭秘Kimi K2.5开源模型：Agent Swarm并行智能群集与视觉编码如何重塑AI生产力

1个月前高效码农

Kimi K2.5 发布：开源视觉智能体与 Agent Swarm 的技术革新本文旨在解答的核心问题是：Kimi K2.5 相比前代模型带来了哪些实质性的技术突破，特别是其视觉理解能力、编码能力以及 …

开源挑战Suno！HeartMuLa音乐生成模型性能解析，揭秘本地部署全流程

1个月前高效码农

HeartMuLa 深度解析：开源音乐生成模型的性能评测与本地部署指南在人工智能与艺术创作交织的今天，AI 音乐生成领域正经历着前所未有的快速发展。长期以来，诸如 Suno 和 Udio 等商业级系 …

TeleChat3-36B国产大模型测评：SWE-Bench 51分，超越竞品的代码与Agent能力全解析

1个月前高效码农

星辰语义大模型 TeleChat3 全面解读：国产算力训练的 105B 与 36B Thinking 版本摘要中国电信人工智能研究院开源的 TeleChat3 系列大语言模型完全基于国产算力训练， …

StoryMem大揭秘：如何用记忆机制一键生成连贯的多镜头AI长视频故事？

2个月前高效码农

StoryMem：用记忆机制生成连贯的多镜头长视频故事近年来，AI视频生成技术发展迅速，从短短几秒的单镜头片段，到现在能生成具有电影质感的分钟级视频，已经取得了很大进步。但真正讲好一个故事，需要多个 …

视觉AI大突破：深度解密PS-VAE如何让语义理解模型“学会”画图？

2个月前高效码农

既懂语义，又能重建：如何让视觉编码器胜任图像生成与编辑强大的视觉理解模型，为何一搞生成就“翻车”？问题出在语义与像素的脱节上。想象一下，你请一位顶尖的艺术评论家为你画一幅画。他能滔滔不绝地分析名画 …

用LongVie 2的5分钟长镜头“魔法”，让AI视频告别“短命”和“失控”

2个月前高效码农

让视频模型“活”成世界：LongVie 2 的 5 分钟长镜头魔法 “ 一句话回答：LongVie 2 用三阶段训练把 14 B 参数扩散模型改造成可连续生成 3–5 分钟可控视频的「世界模型」，在 …

Scone模型彻底解决AI“看图挑人”难题：多主体图像生成准确率提升40%

3个月前高效码农

Scone模型：当AI学会“看图挑人”，图像生成进入精准构图新时代 Snippet Scone模型解决了主题驱动图像生成中的关键难题——在多候选目标的复杂参考图中，精准识别并生成指令指定的目标主体。它 …

RealVideo对话视频生成全攻略：从零部署真人级AI聊天窗口

3个月前高效码农

把聊天窗口变成“真人”：RealVideo 实时对话视频生成系统全解析专科毕业也能看懂的 WebSocket 视频通话方案，附每一步命令、耗时表与踩坑 FAQ 1. 先回答你最想问的 3 件事问题 …

AI记忆革命！Titans+MIRAS架构深度解析：让模型像人类一样学习与遗忘

3个月前高效码农

核心问题：如何让AI模型像人类一样拥有长期记忆？在人工智能发展的今天，我们面临一个根本性挑战：如何让AI模型像人类大脑一样，能够记住并利用长期积累的知识，而不是像金鱼一样只有七秒记忆？本文将深入探讨 …

ViBT桥接变换器：比传统扩散模型快4倍的条件生成新范式

3个月前高效码农

ViBT：大规模视觉桥接变换器，重新定义条件生成本文要回答的核心问题：ViBT 到底是什么？它为什么能在图像编辑、视频风格迁移、视频上色、帧插值等任务上，既保持高质量，又比传统扩散模型快 4 倍？ …

ReasonEdit突破AI图像编辑瓶颈：让AI学会思考与反思的革命性框架

3个月前高效码农

图像编辑技术正经历着革命性变革，从早期需要精确涂抹的蒙版工具，到如今只需自然语言描述就能实现复杂编辑。然而，现有技术仍面临关键挑战：当遇到抽象指令（如“让这片叶子呈现缺钾症状”）时，模型往往难以准确理 …

数学AI学会自我打脸？DeepSeekMath-V2用“灵魂出窍”学习法征服IMO夺金

3个月前高效码农

数学界巨震！DeepSeek新模型IMO夺金，竟因学会了“自我打脸”？ 118/120碾压人类学霸，AI如何用“灵魂出窍”式学习法征服数学奥林匹克 “当你的数学老师还在说‘检查一下你的解题步骤’时，这 …

深度解析分层推理模型(HRM)：突破AI深度推理瓶颈, 重塑智能计算架构

4个月前高效码农

本文旨在回答一个核心问题：如何让AI模型像人脑一样进行深度推理？在这个大语言模型快速发展的时代，我们面临一个根本性的挑战：当前的AI系统在推理能力上存在巨大缺陷。正如人类婴儿与成年人的区别在于思考深 …

美团LongCat-Video揭秘：13.6B参数长视频生成模型如何终结画面漂移？

4个月前高效码农

核心问题：为什么美团要做一个新的视频生成模型？视频生成是通向“世界模型”（World Model）的关键路径。LongCat-Video 的目标，不仅是生成视频，而是让模型真正理解并模拟现实世界的动 …

LongCat-Audio-Codec：重新定义语音大语言模型的音频编解码范式

5个月前高效码农

“ 当语音大模型遇上高效音频表示，会碰撞出怎样的火花？作为一名长期深耕在AI语音领域的技术人，我见证了从传统编解码器到神经编解码器的演变历程。今天，当我第一次体验LongCat-Audio-Code …

扩散语言模型强化学习新纪元：TraceRL框架如何实现数学推理突破？

5个月前高效码农

Revolutionizing Reinforcement Learning for Diffusion Language Models: Introducing TraceRL and TraDo …

Klear-46B-A2.5B混合专家模型：2.5亿激活参数如何实现算力革命？

5个月前高效码农

Klear-46B-A2.5B：高效能混合专家模型详解一、模型核心特性解析 1. 混合专家架构创新 Klear-46B-A2.5B采用独特的混合专家（MoE）架构，在保持460亿总参数规模的同时，通 …

ParaThinker突破AI推理瓶颈：并行思考让小模型秒杀大模型

6个月前高效码农

ParaThinker：原生并行思考——大语言模型推理能力的新突破本文欲回答的核心问题大语言模型在提升推理能力时，为何会遇到性能瓶颈？如何通过新的计算范式突破这一限制？ParaThinker作为一 …