荀子系列大语言模型:古籍处理的全新利器
在当今数字化浪潮中,古籍作为人类文化的瑰宝,正面临着前所未有的机遇与挑战。如何利用现代技术更好地挖掘、整理和研究古籍,成为众多学者和科技工作者关注的焦点。荀子系列大语言模型的出现,为这一领域带来了全新的解决方案。
一、荀子系列模型简介
荀子系列模型开源包括两个主要部分:基座模型 XunziALLM 和对话模型 XunziChat。XunziALLM 作为本次开源的重点,是一个完全开放使用的古籍领域大模型。为了让非人工智能领域人员也能更好地了解和使用这一开源模型,开发团队还利用部分数据构建了对话模型 XunziChat。用户可以像调用千问、Baichuan2、ChatGLM3、Qwen1.5 等开源模型一样,方便地调用荀子古籍处理模型。
目前,已发布了多个基于不同开源模型的古籍大模型版本,包括:
-
Xunzi-Qwen-7B(基座模型) :与 Qwen-7B 基座模型(版本 v1.0.5)相对应,调用方式相同。模型下载链接为:Xunzi-Qwen-7B 下载链接。
-
Xunzi-Qwen-7B-CHAT(对话模型) :对应 Qwen-7B 对话模型,调用方式与之相同。下载链接是:Xunzi-Qwen-7B-CHAT 下载链接。
-
Xunzi-GLM-6B(基座模型) :基于 ChatGLM3-6B 基座模型开发,调用方式与 ChatGLM3-6B 模型一致。可通过此链接下载:Xunzi-GLM-6B 下载链接。
-
Xunzi-Baichuan-7B(基座模型) :对应 Baichuan2-7B 基座模型,调用方式与 Baichuan2-7B 模型相同。下载地址为:Xunzi-Baichuan-7B 下载链接。
-
Xunzi-Qwen1.5 系列模型 :包括 Xunzi-Qwen1.5-4B、Xunzi-Qwen1.5-7B、Xunzi-Qwen1.5-14B 基座模型以及 Xunzi-Qwen1.5-7B_chat 对话模型(推荐用于对话)。这些模型的调用方式与 Qwen1.5 模型相同。它们的下载链接分别为:
-
Xunzi-Qwen2 系列模型 :有 Xunzi-Qwen2-7B 和 Xunzi-Qwen2-1.5B 基座模型,调用方式与 Qwen2 模型相同。下载链接分别是:
二、荀子系列模型的亮点
(一)古籍智能标引
荀子模型在古籍文献标引方面表现出色。它能够对古籍中的内容进行高质量的主题标引,就像是给古籍安装了一个智能索引器,帮助研究人员迅速了解文章的核心主题。例如,当面对一部浩繁的古代史书时,该模型可以快速、准确地标出书中涉及的重大历史事件、重要人物传记等主题内容,极大地提高了研究人员查找和定位信息的效率。
(二)古籍信息抽取
自动从古籍中抽取关键信息是荀子模型的一大实用性功能。它可以精准地识别并提取出古籍文本中的人物、事件、地点等关键要素,这就好比是为研究人员节省了大量的信息筛选和整理时间。想象一下,研究一部古代文学作品时,以往需要人工逐字逐句地梳理出作品中的人物关系、故事发生地等信息,而现在借助荀子模型,这些关键信息能够快速呈现,让研究者可以更快地进入深度分析阶段。
(三)诗歌生成
对于诗词爱好者来说,荀子模型的诗歌生成能力无疑是一个惊喜。它能够根据用户给定的主题或关键词,自动生成符合语法规则和韵律要求的古诗。这不仅为创作者提供了丰富的灵感来源,还可以帮助人们更好地理解和学习古诗的创作技巧和艺术风格。比如,以 “秋夜思归” 为主题,模型可以生成意境深远、韵律和谐的诗作,激发创作者的进一步创作欲望。
(四)古籍高质量翻译
理解晦涩难懂的古籍文献一直是许多研究者面临的难题。荀子模型的高质量翻译功能如同一座桥梁,能够帮助人们跨越语言障碍,更好地理解古籍原文的含义。无论是古代的哲学典籍还是历史著作,经过模型翻译后,可以让非专业研究者也能较为准确地把握其核心思想和内容,促进了古籍文化的传播和普及。
(五)阅读理解
荀子模型具备对古文文本进行分析解释的能力,实现对古籍文本的自动阅读。这就好比是为古籍配备了一位智能讲解员,能够深入剖析古籍中的复杂句子结构、深奥的文言词汇以及典故引用等,帮助读者更全面、更深入地理解古籍的内容和内涵,提升阅读体验和学习效果。
(六)词法分析
在语言学研究领域,荀子模型的词法分析功能具有重要意义。它能够完成古籍文本的自动分词和词性标注,为语言学工作者提供了高效的研究工具。通过精准的词法分析,学者们可以更便捷地研究古代汉语的词汇构成、语法演变以及语言风格特点等,推动语言学相关研究的发展。
(七)自动标点
古籍文本往往缺少现代标点符号,这给阅读和理解带来了一定困难。荀子大模型的自动标点功能可以快速完成古籍文本的断句和标点添加,让古籍文本变得更加清晰易读。这对于无论是专业研究者还是业余爱好者阅读古籍、准确理解其内容都有着极大的帮助,提升了阅读的流畅性和准确性。
三、荀子系列模型的调用方式
以调用 Xunzi-Qwen1.5-7B_chat 模型为例,您可以使用第三方 python 库 openai 来实现对话功能。以下是具体的调用代码示例:
from openai import OpenAI
from tqdm import tqdm
openai_api_key = "ANY THING"
openai_api_base = "http://xunziallm.njau.edu.cn:21180/v1"
client = OpenAI(
api_key=openai_api_key,
base_url=openai_api_base,
)
for i in tqdm(range(0,1)):
chat_response = client.chat.completions.create(
model="/home/gpu0/xunzi_web/Xunzi-Qwen1.5-7B_chat",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": '根据提供的文本,按照关系scheme组合(人物, PO/官職, 官職),(人物, PP/態度傾向/消極, 人物),(人物, PL/其他, 地点),(人物, PL/居, 地点),(人物代词, 態度傾向/消極, 人物)抽取出符合描述的关系三元组\n奏上,上令公卿列侯宗室集議,莫敢難,獨竇嬰爭之,由此與錯有卻。'},
]
)
print(chat_response.choices[0].message.content)
四、模型的持续优化与声明
尽管荀子系列大语言模型在处理中华古籍文本信息方面展现出了不错的性能,能够准确剖析古籍文本的复杂性并挖掘中国传统文化的丰富内涵,但开发团队也清楚认识到模型仍有诸多需要改进和优化之处。因此,他们热忱欢迎广大用户提出宝贵的意见和建议,并承诺在后续工作中不断努力,推出性能更佳的新版本大语言模型。
然而,需要提醒的是,大语言模型庞大的参数量也带来了更多的随机性。尽管在训练数据选取时已尽可能保证数据的合规性,但由于数据和模型的复杂性,仍可能不可避免地存在一些问题。所以,对于使用本开源模型可能导致的各种问题,如数据安全问题、公共舆论风险,以及模型被误导、滥用、传播或不当利用所带来的任何风险和问题,开发团队不承担任何责任。
另外,根据国家网信办等七部门联合发布的《生成式人工智能服务管理暂行办法》,在训练、使用本模型以及其他生成式模型时,请务必依据相关法律法规,共同构建和谐、健康、可持续的生成式人工智能社区。
如果您在模型使用过程中有任何疑问,欢迎通过邮箱 zhaozhixiao@stu.njau.edu.cn 与开发者取得联系。
五、致谢
荀子系列大语言模型的成功推出,离不开众多合作单位与研究者的大力支持。在此,向以下单位和个人表示衷心的感谢:
南京理工大学经济管理学院信息系
-
沈思副教授
南京师范大学文学院
-
李斌教授
中国国家图书馆
-
马学良副研究员
这些合作单位和研究者在模型的研发过程中提供了宝贵的学术资源、专业知识以及技术指导等多方面的支持,为模型的不断完善和发展做出了重要贡献。
荀子系列大语言模型的出现,为古籍处理领域开启了一扇新的大门。它凭借其强大的功能和广泛的应用前景,有望在未来为古籍研究、文化传承以及相关学科发展等方面产生深远的影响。随着技术的不断进步和模型的持续优化,我们有理由相信,荀子系列模型将在古籍数字化浪潮中发挥越来越重要的作用,让更多人能够领略到古籍文化的魅力,为传承和弘扬中华优秀传统文化贡献科技力量。