大模型如何边学边改错?On-Policy Distillation让训练效率提升10倍

3小时前 高效码农

让大模型“边学边改错”:On-Policy Distillation 原理与实战全解 “ 核心问题:如何在只利用学生模型自己生成的文本、不依赖人工标注或昂贵 RL 的前提下,把大模型在数学、私域知识、 …

TreeLoRA如何破解大模型持续学习难题?分层梯度树+LoRA适配器技术解析

4个月前 高效码农

★TreeLoRA:基于层次梯度相似性树的高效大型语言模型持续学习方法★ 随着大型语言模型(LLMs)的不断发展,如何在不遗忘之前任务知识的情况下高效地学习新任务,成为了一个关键问题。TreeLoRA …