基于检索增强大语言模型的图书馆智能咨询服务系统

文档序号:40026288发布日期:2024-11-19 13:58阅读:43来源:国知局
基于检索增强大语言模型的图书馆智能咨询服务系统

本发明涉及图书馆智能咨询领域,尤其涉及一种基于检索增强大语言模型的图书馆智能咨询服务方法及系统。


背景技术:

1、图书馆参考咨询服务的概念最早出现在1876年,服务内容包括为读者提供所需信息,指导其利用图书馆、解决咨询问题,并推广图书馆。参考咨询服务内容可以有多种划分方式,megan dempsey在其研究中将其划分为三层,分别是“基础信息/指引”、“咨询/操作演示”、“研究/指导”,并指出在咨询台提供的咨询服务中,62%属于“基础信息/指引”类(dempsey m.blending the trends:a holistic approach to reference services[j].public services quarterly,2011,7(1-2):3-17.)。

2、早期传统参考咨询服务阶段,图书馆员需要根据自身知识以及手动查询纸质版馆藏资源来应对读者查询信息的需求。随着技术的进步以及计算机和互联网的出现,馆藏资源在印刷型文献的基础上增加了大量网络资源和电子文献,20世纪末出现了数字图书馆参考咨询服务方式。相比传统方式,数字参考咨询利用电子邮件、远程咨询平台等为读者提供服务,突破了馆员和读者面对面交流的时空限制。

3、随着人工智能技术的发展,人工智能应用到图书馆参考咨询服务中的研究与时间逐渐增多,nebraska-lincoln大学图书馆的pixel聊天机器人是美国早期推出的聊天机器人之一,它利用人工智能标记语言(artificial intelligent marker language,aiml)技术模拟人类对话并提供交互式体验。该系统构建在广泛收集的图书馆网站咨询记录数据库基础上,但仅能回答与图书馆服务和资源相关的常见问题(刘泽,徐潇洁,邵波.基于多策略混合问答系统模型的图书馆咨询机器人的设计与应用[j].新世纪图书馆,2022(05):43-49.)。国内也有大量研究人员及机构尝试开发智能聊天机器人,应用于参考咨询服务当中。王翼虎等尝试将大语言模型微调技术应用于图书馆参考咨询服务中,具备准确理解用户提问的能力,但是在答案生成上缺乏咨询服务需求的严谨性(王翼虎,白海燕,孟旭阳.大语言模型在图书馆参考咨询服务中的智能化实践探索[j].情报理论与实践,2023,46(08):96-103.)。

4、综合分析已有智能咨询服务构建模式,可以看出,虽然在服务体验方面已经取得一定的认可,但是也存在技术储备要求高、无法直接使用已有文本内容/知识库、需馆员基于文本内容/知识库做进一步整理形成规范的问答知识库等门槛,所需工作量较大,在大规模推广方面存在一定难度,尚无法惠及更多图书馆。

5、随着大语言模型的快速发展,其优秀的自然语言理解能力与生成能力获得广泛关注,被学界与业界迅速应用到各领域当中并取得了良好的应用效果。但是,因大语言模型生成内容的不确定性,直接应用大语言模型或微调后应用于图书馆智能咨询服务将导致服务内容缺乏严谨性,且因其“知识截断”问题,大语言模型仅具备其训练数据所包含的知识,不“知道”训练之后所发生的事件或产生的知识,直接应用于图书馆智能咨询服务将无法提供及时准确的信息,需频繁重新训练或微调,其所需算力成本和时间成本将无法接受。而充分利用大语言模型的自然语言理解能力与生成能力,要求大语言模型基于已有文本内容/知识库回答咨询问题,能够大幅减少构建规范问答库所需工作量,构建简单、便捷的智能咨询服务,降低智能咨询服务构建门槛,将是值得图书馆深入探索的技术路径,具有广泛的应用价值。


技术实现思路

1、针对上述技术问题,本发明的目的是提供一种面向“基础信息/指引”类内容的基于检索增强大语言模型的图书馆智能咨询服务系统及其构建方法,无需人工构造高质量问答知识库,将领域知识库、检索增强技术、大语言模型结合在一起,实现通用生成式大语言模型在图书馆智能咨询领域的应用。

2、本发明的技术方案是:

3、一种基于检索增强大语言模型的图书馆智能咨询服务系统,包括:

4、文本向量化模块,用于通过语义向量化工具对读者输入的咨询问题以及事实知识、领域知识等文本内容进行向量化,将读者输入的咨询问题、事实知识、领域知识转化成含有语义信息的向量;

5、事实知识向量数据库,用于存储事实知识及其对应的含有语义信息的向量,以及与事实知识有关的创建时间等信息;

6、领域知识向量数据库,用于存储领域知识及其对应的含有语义信息的向量;

7、事实知识检索模块,用于根据读者输入的咨询问题,在预先建立的事实知识向量数据库中检索与读者输入的咨询问题相关的事实知识;

8、领域知识检索模块,用于根据读者输入的咨询问题,在预先建立的领域知识向量数据库中检索与读者输入的咨询问题高度相关的领域知识;

9、咨询回复模块,用于根据读者输入的咨询问题,结合通过所述事实知识检索模块获取到的事实知识和通过所述领域知识检索模块获取到的领域知识,调用大语言模型生成咨询回复语句,并将所述咨询回复语句以文字形式显示给读者。

10、所述文本向量化模块使用大语言模型api等语义向量化工具,例如openai的text-embedding-ada-002模型,对读者输入的咨询问题、事实知识、领域知识进行语义向量化。

11、利用所述文本向量化模块将读者提出的咨询问题语义向量化,在构建事实知识向量数据库和领域知识向量数据库时,也利用所述文本向量化模块将事实知识和领域知识进行语义向量化。

12、所述事实知识向量数据库的构建方法具体包括以下步骤:

13、1.1)选取事实知识库的内容来源范围,获取相应文本内容;

14、1.2)根据事实知识的文本内容,按业务语义关系划分为不同的事实知识,每一条事实知识标注其创建日期;

15、1.3)通过文本向量化模块对每一条事实知识进行语义向量化,将事实知识及对应的语义向量、创建时间存入向量数据库,形成事实知识向量数据库。

16、其中,步骤1.1)中事实知识库的内容来源范围包括包括但不限于图书馆主页相关内容板块、有关管理规定文档、常见问题库等。

17、所述领域知识向量数据库的构建方法具体包括以下步骤:

18、2.1)分析步骤1.1)选取的事实知识库内容,对于其中图书馆特有的表述、用法进行针对性说明,使相关表述、用法通俗化和通用化,从而创建领域知识;2.2)通过文本向量化模块对每一条领域知识进行语义向量化,将领域知识及对应的语义向量存入向量数据库,形成领域知识向量数据库。

19、所述事实知识检索模块执行如下操作:

20、3.1)将咨询问题语义向量与事实知识向量数据库中的所有事实知识语义向量计算余弦相似度并排序,选取相似度最高的top n条向量对应的事实知识作为与回答咨询问题最相关的事实知识;

21、3.2)计算选取的top n条向量中相邻向量的余弦相似度,结合事实知识创建时间,对选取的top n条向量所对应的事实知识进行综合排序,选取top m条向量作为最终结果,其中m和n为大于等于0的整数,且m≤n。其中,优先选取创建时间最近的的事实知识。

22、所述领域知识检索模块执行如下操作:将咨询问题语义向量与领域知识向量数据库中的所有领域知识语义向量计算余弦相似度,选取超过阈值t的向量对应的领域知识,其中0≤t≤1。阈值t根据实际领域知识库内容情况及领域知识选取策略动态计算选取。

23、所述咨询回复模块执行如下操作:

24、4.1)将读者咨询问题、检索到的事实知识和领域知识综合生成大语言模型提示语;

25、4.2)将大语言模型提示语传递至大语言模型api,获取大语言模型的返回结果;

26、4.3)将从大语言模型获得的返回结果反馈给读者,完成读者咨询问题的回答。

27、可以用于本发明基于检索增强大语言模型的图书馆智能咨询服务系统的大语言模型例如gpt-4、文心一言、通义千问等。

28、与已有智能咨询服务构建方法相比,本发明的主要创新点包括:

29、1.无需构造高质量问答知识库:使用网站文本内容、管理规定文档、常见问题库等已有事实知识作为回答咨询问题的知识库,无需人工构造高质量问答知识库,节省大量人力成本,降低应用门槛。

30、2.通用生成式大语言模型应用于专业领域:通常,大语言模型应用于专业领域需使用领域数据微调,对算力投入要求较高。本发明提出的基于检索增强大语言模型的图书馆智能咨询服务系统的构建方法,创造性的将领域知识库、检索增强技术、大语言模型结合在一起,无需微调即可将通用生成式大语言模型应用于专业领域,通过使大语言模型先学习领域知识、再结合事实知识回答咨询问题的方式,实现通用生成式大语言模型在图书馆智能咨询领域的应用。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1