百度ERNIE 4.5震撼发布:10款大模型开启多模态新纪元 一、全景图:424B参数刷新行业纪录 百度正式开源文心ERNIE 4.5系列,一次性推出10款参数规模不同的模型,覆盖从0.3B到424B …
Text-to-LoRA:语言模型秒变领域专家的神奇魔法 你是否遇到过这样的场景:好不容易训练好的通用语言模型,面对专业领域任务时却表现平平?传统解决方案需要耗费数天重新训练,但今天介绍的Text-t …
荀子系列大语言模型:古籍处理的全新利器 在当今数字化浪潮中,古籍作为人类文化的瑰宝,正面临着前所未有的机遇与挑战。如何利用现代技术更好地挖掘、整理和研究古籍,成为众多学者和科技工作者关注的焦点。荀子系 …
★TreeLoRA:基于层次梯度相似性树的高效大型语言模型持续学习方法★ 随着大型语言模型(LLMs)的不断发展,如何在不遗忘之前任务知识的情况下高效地学习新任务,成为了一个关键问题。TreeLoRA …
文本理解的革命性突破:Qwen3 Embedding技术深度解析 一、重新定义文本智能的里程碑 2025年6月,阿里云推出Qwen3 Embedding系列模型,这是通义千问家族最新一代文本嵌入与排序 …
语言模型到底能记住多少东西?揭秘3.6比特/参数的记忆容量 最新研究表明:GPT架构的模型每参数能存储约3.6比特信息,当数据量超过模型容量时,模型会从“死记硬背”转向“理解规律”。 核心发现速览 记 …
RankLLM:用大语言模型重新排序的 Python 工具包 在信息检索领域,如何从海量数据中精准高效地筛选出与用户查询最相关的文档是个关键问题。近年来,随着大型语言模型(LLM)的兴起,利用这些强大 …
QwenLong-L1:用强化学习突破长文本推理的AI新标杆 目录 为什么要关注长文本推理能力? QwenLong-L1的核心突破 技术架构揭秘 实测性能对比 手把手教你使用 训练数据集与评估方法 真 …
如何通过/llms.txt文件优化网站信息供语言模型使用? llms.txt应用场景示意图 一、为什么我们需要专门的文件格式? 1.1 语言模型面临的实际困境 当开发者尝试用大语言模型(LLM)处理网 …
On-Policy Self-Alignment with Fine-Grained Knowledge Feedback for Hallucination Mitigation:深度指南 [文章标 …
CodeMixBench:如何评估大语言模型在多语言代码生成中的表现? ▲ CodeMixBench 的测试数据集结构示例 为什么我们需要关注代码混合的代码生成? 在印度班加罗尔的科技园区,开发者们习 …
LLaDA-V:突破传统框架的多模态大语言模型新范式 核心概念解读 什么是扩散模型? 扩散模型通过”加噪-去噪”的过程生成内容:先逐步添加噪声破坏数据,再通过反向过程恢复原始信 …
Enigmata:提升大型语言模型逻辑推理能力的全新工具 在人工智能领域,大型语言模型(LLM)的进步令人瞩目。从数学计算到编程任务,这些模型展现了惊人的能力。然而,当涉及到不需要专业知识的纯粹逻辑推 …
中文奖励模型新突破:从零构建CheemsBench与CheemsPreference的实践指南 为什么我们需要专门的中文奖励模型? 在大型语言模型(LLM)的训练中,奖励模型(Reward Model …
AI Humanizer深度技术解析:原理、应用与部署指南 原理阐述 核心技术架构 AI Humanizer是基于Google Gemini 2.5 API构建的自然语言优化引擎(Natural La …
EM-LLM:模仿人类记忆机制的大语言模型,突破无限上下文处理瓶颈 引言:长文本处理的挑战与突破 当前的大语言模型(LLM)在理解短文本时表现出色,但面对长上下文(如整本书、复杂对话记录)时,常因计算 …
miniCOIL:轻量级稀疏神经检索模型的突破与应用 miniCOIL:迈向可用稀疏神经检索之路 在信息爆炸的时代,如何高效地从海量数据中检索到相关内容,一直是技术领域的核心挑战。传统的检索方法各有优 …
大语言模型的多轮对话困境:原理、挑战与应对策略 一、核心发现与运行原理(Core Findings and Operating Principles) 1.1 性能断崖现象 最新研究表明,大语言模型( …
深度解析AI对话生成技术:从语音克隆到无限对话的实现 一、当技术照进现实:从《无限对话》到”not that stuff” 2023年,一个名为not that stuff的开 …