机器学习归档 | 第10页共13页

GRPO强化学习实战：单GPU训练14B模型实现DeepSeek级推理（2025验证）

9个月前高效码农

GRPO强化学习实战指南：如何用Unsloth训练LLM获得DeepSeek级推理能力 2025年独立实验验证·附可复现代码 TL;DR核心结论 📌 推理能力突破：GRPO算法使14B参数模型数学推理 …

揭秘RENT无监督强化学习：如何通过熵最小化让AI自主提升数学推理70%准确率？

9个月前高效码农

《RENT：一种基于熵最小化的无监督强化学习方法》一、技术原理剖析（一）强化学习范式的革新在传统的强化学习（Reinforcement Learning, RL）架构中，奖励函数（Reward …

TreeLoRA如何破解大模型持续学习难题？分层梯度树+LoRA适配器技术解析

9个月前高效码农

★TreeLoRA：基于层次梯度相似性树的高效大型语言模型持续学习方法★ 随着大型语言模型（LLMs）的不断发展，如何在不遗忘之前任务知识的情况下高效地学习新任务，成为了一个关键问题。TreeLoRA …

如何用14亿参数实现720亿性能？小红书开源dots.llm1 MoE大模型技术解析

9个月前高效码农

中国小红书发布开源大模型！14B激活参数实现72B性能：dots.llm1 MoE大模型技术全解析 “ 无需合成数据，激活参数仅为传统模型的1/5，性能比肩顶级大模型 ” 各位技术同仁，今天为大家深度 …

阿里云Qwen3 Embedding如何用70.58分颠覆文本理解？揭秘三大核心技术突破！

9个月前高效码农

文本理解的革命性突破：Qwen3 Embedding技术深度解析一、重新定义文本智能的里程碑 2025年6月，阿里云推出Qwen3 Embedding系列模型，这是通义千问家族最新一代文本嵌入与排序 …

大型语言模型输入优化实战：3倍效能提升的GPT/Claude/Llama秘籍大公开

9个月前高效码农

大型语言模型输入优化实战指南：从基础到高阶技巧 LLM输入优化示意图一、为什么你的AI总答非所问？解码LLM输入的核心逻辑大型语言模型（LLM）正在重塑人机交互方式，但开发者常遇到这样的困境：同样 …

3.6比特/参数：语言模型记忆容量终极解密，颠覆你对AI学习的认知

9个月前高效码农

语言模型到底能记住多少东西？揭秘3.6比特/参数的记忆容量最新研究表明：GPT架构的模型每参数能存储约3.6比特信息，当数据量超过模型容量时，模型会从“死记硬背”转向“理解规律”。核心发现速览记 …

揭秘ARM模型：如何用自适应推理架构打破大模型效率魔咒？

9个月前高效码农

ARM模型：突破大模型推理效率瓶颈的自适应推理架构引言：大模型推理面临的核心挑战近年来，大型语言模型在复杂推理任务中展现出惊人能力，但普遍存在”过度思考”现象。这种现象表现 …

QwenLong-L1：强化学习驱动的长文本推理AI如何超越GPT-4？

9个月前高效码农

QwenLong-L1：用强化学习突破长文本推理的AI新标杆目录为什么要关注长文本推理能力？ QwenLong-L1的核心突破技术架构揭秘实测性能对比手把手教你使用训练数据集与评估方法真 …

如何减少大模型幻觉？RLFH方法解析：细粒度反馈+强化学习实战指南

9个月前高效码农

On-Policy Self-Alignment with Fine-Grained Knowledge Feedback for Hallucination Mitigation：深度指南 [文章标 …

生成式AI核心技术全解：5大算法原理与工业级训练实战指南

9个月前高效码农

生成式AI基础：从原理到实践的全方位解析图示：生成式AI在图像与文本领域的应用场景一、生成式AI的核心价值与应用场景生成式人工智能（Generative AI）作为AI领域最具突破性的技术方向之 …

医疗AI致命幻觉破解指南：uqlm工具库不确定性量化深度实战

9个月前高效码农

大语言模型不确定性量化实战指南：uqlm工具库深度解析一、大语言模型幻觉检测的痛点与解决方案在医疗问诊、法律咨询等专业场景中，大语言模型（LLM）的”幻觉”问题可能造成严重 …

ARPO策略优化：端到端强化学习如何提升GUI代理29.9%成功率？

9个月前高效码农

ARPO：为 GUI 代理赋能的端到端策略优化技术在当今数字化时代，人机交互方式不断演进，图形用户界面（GUI）代理技术应运而生，成为提升计算机操作效率的关键领域。本文将深入探讨一种名为 ARPO（ …

华为MoGE架构如何突破大模型负载均衡瓶颈？72B参数下推理速度暴增97%的奥秘

9个月前高效码农

Pangu Pro MoE：分组专家混合模型如何突破大模型负载均衡瓶颈华为团队提出革命性MoGE架构，在72B参数规模下实现设备间完美负载均衡，推理速度提升97% 一、大模型时代的关键挑战：MoE的 …

大型语言模型微调终极指南：3大核心技术让企业数据价值翻倍

9个月前高效码农

大型语言模型（LLM）微调终极指南：从基础到突破一、为什么需要微调大型语言模型？当我们使用ChatGPT等通用大模型时，常会遇到这些情况：回答专业领域问题不够准确输出格式不符合业务需求对行业 …

强化学习如何让14B模型突破数学推理瓶颈？分阶段训练策略解析

9个月前高效码农

如何利用大规模强化学习提升模型的数学和代码推理能力引言在当今人工智能领域，推理能力一直是衡量模型性能的关键指标。从 OpenAI 提出利用强化学习（RL）训练推理模型开始，这一领域就吸引了大量关注 …

Enigmata如何突破大型语言模型逻辑推理瓶颈？36种谜题数据集+强化学习训练全解析

9个月前高效码农

Enigmata：提升大型语言模型逻辑推理能力的全新工具在人工智能领域，大型语言模型（LLM）的进步令人瞩目。从数学计算到编程任务，这些模型展现了惊人的能力。然而，当涉及到不需要专业知识的纯粹逻辑推 …

MMaDA多模态扩散模型颠覆性突破：跨模态生成技术全解密

10个月前高效码农

探索MMaDA：统一多模态扩散模型的技术突破与实践指南一、什么是MMaDA？ MMaDA（Multimodal Large Diffusion Language Models）是新一代多模态基础模型 …

从零构建大型语言模型：10步掌握LLM开发全流程

10个月前高效码农

大型语言模型开发入门：从零开始构建你自己的LLM 人工智能的飞速发展让大型语言模型（LLMs）成为当今最具变革性的技术之一。它们不仅改变了我们与机器的交互方式，还能完成文本生成、代码编写、翻译等高阶任 …

VidCom²如何让视频大语言模型快如闪电？揭秘3大突破性优化策略

10个月前高效码农

高效视频理解新突破：VidCom²如何优化大语言模型性能引言：视频大语言模型的效率挑战当人工智能技术发展到能够理解连续视频内容时，视频大语言模型（VideoLLM）已成为行业焦点。这类模型需要处理 …