机器学习归档 | 高效码农

大模型如何过目不忘？揭秘TTT-E2E“边用边学”黑科技，让Transformer读完整本《三体》

1天前高效码农

把 Transformer 做成“终身学习者”：TTT-E2E 如何让大模型边用边学？关键词：长上下文、Test-Time Training、TTT-E2E、滑动窗口注意力、元学习、推理加速 1. …

LingBot-World开源世界模型：高保真视频生成与实时交互指南

4天前高效码农

LingBot-World：推动开源世界模型的发展——实时交互与长时记忆的新纪元在人工智能快速迭代的今天，构建能够理解并模拟物理世界动态的“世界模型”已成为行业发展的关键方向。本文将深入解析 Lin …

Youtu-VL震撼发布：仅4B参数视觉模型，凭什么比大10倍的模型还强？

9天前高效码农

Youtu-VL：轻量级视觉-语言模型的突破性进展本模型能解决什么核心问题？传统视觉-语言模型（VLM）过度依赖文本处理，导致视觉信息被简化为被动输入，难以完成精细的视觉任务。Youtu-VL通过 …

揭秘GPT-5最怕的终极试炼场VisGym：视觉交互的17道难关，为何最强AI也频频折戟？

9天前高效码农

VisGym：下一代视觉语言模型的终极试炼场——为何前沿模型在多步视觉交互中表现不佳？本文欲回答的核心问题：尽管视觉语言模型（VLM）在静态图像识别上表现出色，但它们在涉及感知、记忆和行动的长时视 …

“蒸馏”出1600万页精准文本：LightOnOCR-mix-0126如何成为文档AI进化的秘密燃料？

16天前高效码农

LightOnOCR-mix-0126数据集：构建下一代文档AI的基石你是否曾想过，那些能够“读懂”复杂学术论文、精准提取表格数据、甚至理解复杂数学公式的AI模型，是如何被训练出来的？其背后，一个高 …

TeleChat3-36B国产大模型测评：SWE-Bench 51分，超越竞品的代码与Agent能力全解析

16天前高效码农

星辰语义大模型 TeleChat3 全面解读：国产算力训练的 105B 与 36B Thinking 版本摘要中国电信人工智能研究院开源的 TeleChat3 系列大语言模型完全基于国产算力训练， …

大语言模型突然“人格分裂”？揭秘AI助手失控的根源与“治愈”方法

16天前高效码农

大语言模型的“助手轴”：为什么模型会“跑偏”，以及如何让它稳定下来摘要大语言模型在后训练阶段被塑造成默认的“helpful Assistant”（乐于助人的助手）角色，但这个角色其实只是激活空间中 …

告别向量数据库！PageIndex推理驱动RAG架构，如何精准检索千页长文档？

16天前高效码农

PageIndex：当RAG告别向量数据库，推理驱动如何重塑长文档检索 PageIndex Banner 图片来源：PageIndex官方仓库本文欲回答的核心问题：传统向量检索在处理专业长文档时为何 …

AI智能体颠覆开发模式？阿里iFlow-ROME训练系统如何用真实代码炼出软件工程师

21天前高效码农

iFlow-ROME：阿里巴巴打造的新一代AI智能体训练系统全解析 Snippet摘要：iFlow-ROME是阿里巴巴推出的智能体学习生态系统，包含30B MoE参数规模的ROME模型，在SWE-be …

AI推理：解码ChatGPT为何秒回你？大模型推理内幕全揭晓！

22天前高效码农

解码AI魔法背后的引擎：一文读懂大模型推理你是否曾在与ChatGPT对话时，感叹其回答的迅捷与智能？是否好奇过，像谷歌翻译这样的工具，是如何在瞬间完成语言转换的？这些看似“魔法”的即时交互背后，并非 …

死记硬算太浪费！DeepSeek Engram查表记忆法，让AI模型省算力还涨分

23天前高效码农

把“死记”交给查表，把“推理”留给 GPU：DeepSeek Engram 如何让大模型既省算力又变聪明？ “ 核心问题：当 MoE 已经用“条件计算”把参数规模推向百亿级，为什么知识类任务仍旧浪费大 …

UniVLA革命解密：95%成功率背后的机器人任务理解黑科技！

27天前高效码农

UniVLA 是什么？它如何让机器人真正理解并执行复杂任务想象一下，你正在教一个机器人完成”把螺丝刀放回工具箱”这个简单动作。传统方法需要为这台特定机器人编写精确的动作指令： …

H100上单步0.75秒！LightX2V解析：如何用8GB显存运行14B视频生成模型？

1个月前高效码农

LightX2V 全面解析：一个真正面向工程落地的轻量级视频生成推理框架 Snippet LightX2V 是一个统一的视频生成推理框架，支持文本生成视频与图像生成视频，在 H100 单卡上实现 5. …

深度揭秘RAG技术：如何用多模态Agent终结AI幻觉

1个月前高效码农

摘要：RAG（检索增强生成）技术通过关联外部知识库，有效解决了大语言模型（LLM）的“幻觉”、上下文窗口限制（如32K-128K）及专业领域知识不足等核心痛点。其演进路径已从基础的文本检索扩展至包含图 …

FaithLens幻觉检测实战：8B小模型如何吊打GPT-4.1并给出解释？

1个月前高效码农

FaithLens 是什么？——一篇把“幻觉检测”讲明白的实战笔记如果你用过 ChatGPT、Claude、Kimi 这类大模型，大概率遇到过“一本正经地胡说八道”：模型给出的答案看着专业，却跟原文 …

速度飙至1600+ tokens/s！WeDLM实战：把扩散模型塞进vLLM，推理性能反超3倍

1个月前高效码农

WeDLM：把扩散模型塞进因果注意力，推理速度反超 vLLM 的实战笔记核心问题：扩散语言模型（DLLM）一向“理论并行、实际拉胯”，WeDLM 如何用“纯因果注意力 + 拓扑重排”把 KV-Cac …

ThinkARM框架曝光！解码大模型解数学题时的真实思考路径

1个月前高效码农

解码大语言模型数学推理的黑盒：ThinkARM框架深度解析本文核心问题：当我们谈论AI”推理”时，我们到底在观察什么？ThinkARM框架通过认知科学理论，将语言模型解决数学 …

【秘籍揭秘】视觉AI代理训练省钱术：合并历史检查点造免费导师，性能反超GPT-4！

1个月前高效码农

告别天价API：用自己训练中的检查点，免费指导视觉AI代理成长你是否曾遇到过这样的情况：训练一个能进行多轮决策的视觉AI代理（比如让AI玩扑克游戏“24点”或在虚拟家庭环境中完成指令），强化学习的效 …

Fun-Audio-Chat 8B 语音对话模型：双分辨率与Core-Cocktail如何实现低延迟高保真？

1个月前高效码农

Fun-Audio-Chat：用双分辨率与 Core-Cocktail 训练实现低延迟高保真语音对话核心问题：如何在消费级 GPU 上运行一个既能听懂人话、又能自然回复、还不会忘记原有文本能力的全双 …

大语言模型黑箱解密：自下而上策略优化如何颠覆AI推理？

1个月前高效码农

大语言模型的黑箱里藏着什么？自下而上的优化新视角你是否曾好奇，像ChatGPT、DeepSeek这样的大语言模型，在生成每一个答案时，内部究竟发生了什么？我们通常把它看作一个整体，输入问题，输出答案 …