本发明属于数据处理,具体涉及一种基于征信标签体系增强的rag大模型智能问答方法及系统。
背景技术:
1、在当前的生成式ai大模型技术中,虽然这些模型展示了强大的语言理解和生成能力,但它们通常是在广泛的通用数据集上训练的,这导致了其在特定专业领域的应用时存在明显的局限性。特别是对于需要高度专业知识和精确性的领域,如征信行业,现有的ai大模型往往无法有效地融合专业知识,难以提供准确、专业的回答。这是因为征信数据具有较高的及时性和规定的解读需要极高的专业性,而市面上的产品大多缺乏针对这类特性的优化。
2、一个显著的技术问题在于,现有技术中的生成式ai大模型无法精准理解并处理征信领域的特殊业务需求。例如,在面对复杂的征信查询或规定解释时,这些模型可能会因为对领域内术语的误解或不完全理解,而导致信息检索不准确或产生误导性的解释,从而无法满足用户的具体需求,甚至可能为客户带来额外的风险。
技术实现思路
1、本发明的目的在于提供一种基于征信标签体系增强的rag大模型智能问答方法及系统,可以为广大金融机构、投资者提供全方位的规定解读服务、企业信息扫描、企业征信数据分析及信用风险评估,以解决上述背景技术中提出的问题。
2、为实现上述目的,本发明一方面提供了一种基于征信标签体系增强的rag大模型智能问答方法,包括以下步骤:
3、对各种渠道获取的大文本数据进行预处理,将非文本数据转换为文本格式,去除特殊字符和不相关信息,并分割长篇文档为多个文本块;
4、使用包含基于规则和基于深度学习的分词模型对文本块中的专业词汇、高频词汇、核心词语、上下文关系进行提取;
5、引入包含征信领域专业词汇、规定特色标签、复杂语义标注、词性标注在内的征信标签体系,对文本块打上基础标签和征信标签;
6、基于分词打标的结果,形成标签标题,并通过句子嵌入式模型将文本块与标签标题转化为向量表示,存入向量数据库中。
7、优选的,还包括:获取用户问题后,使用征信分词模型和征信标签体系对用户问题进行分词打标,并关联标签标题。
8、优选的,所述获取用户问题后,使用征信分词模型和征信标签体系对用户问题进行分词打标,包括:
9、对复杂度较高的问题进行拆解,识别其中的实体、属性和关系,并生成上下文关系标签,存入知识图谱。
10、优选的,所述对复杂度较高的问题进行拆解,包括:
11、对拆解后的问题进行二次分词打标,并将拆解后的问题及其打标结果进行向量化处理。
12、优选的,所述对拆解后的问题进行二次分词打标,包括:
13、检索向量数据库,先通过关键词匹配初步筛选符合的文本块内容,再通过语义相似度计算找到最相关的文本块。
14、优选的,所述通过语义相似度计算找到最相关的文本块,包括:
15、分别获得查询内容,并根据标签标题中可能存在的上下文关系再次的关系标注,确保输出内容的一致性和准确性。
16、优选的,所述根据标签标题中可能存在的上下文关系再次的关系标注,包括:
17、整合并生成最后输出内容,根据子查询内容的标签标题产生的上下文关系修正或删除错误信息点。
18、优选的,所述根据子查询内容的标签标题产生的上下文关系修正或删除错误信息点,包括:
19、提供关联问题给用户选择,避免用户未能问出实际想问的问题,或者引导用户深入探索相关问题。
20、另一方面,本发明提出一种基于征信标签体系增强的rag大模型智能问答系统,包括:
21、文本预处理模块,用于执行数据预处理;
22、分词打标模块,用于执行分词打标过程;
23、向量数据库模块,用于存储和检索经过向量化处理后的文本块和标签标题;
24、用户交互模块,用于接收用户问题,以及提供最终整合后的输出内容和关联问题。
25、本发明的技术效果和优点:本发明提出的一种基于征信标签体系增强的rag大模型智能问答方法及系统,与现有技术相比,具有以下优点:
26、本发明通过引入专门设计的征信分词模型和征信标签体系,能够更加准确地捕捉征信领域的专业词汇和语义关系,并将这些特征转化为向量表示存储于向量数据库中。当用户提出问题时,系统可以通过匹配用户问题与数据库中的标签标题向量来快速定位最相关的文本块,实现高精度的信息检索和答案生成。因此,本发明不仅提升了智能问答系统的响应速度和准确性,还确保了答案的专业性和可靠性,有效解决了现有技术中征信领域智能问答不够精准的问题。
1.一种基于征信标签体系增强的rag大模型智能问答方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于征信标签体系增强的rag大模型智能问答方法,其特征在于,还包括:
3.根据权利要求2所述的一种基于征信标签体系增强的rag大模型智能问答方法,其特征在于,所述获取用户问题后,使用征信分词模型和征信标签体系对用户问题进行分词打标,包括:
4.根据权利要求3所述的一种基于征信标签体系增强的rag大模型智能问答方法,其特征在于,所述对复杂度较高的问题进行拆解,包括:
5.根据权利要求4所述的一种基于征信标签体系增强的rag大模型智能问答方法,其特征在于,所述对拆解后的问题进行二次分词打标,包括:
6.根据权利要求5所述的一种基于征信标签体系增强的rag大模型智能问答方法,其特征在于,所述通过语义相似度计算找到最相关的文本块,包括:
7.根据权利要求6所述的一种基于征信标签体系增强的rag大模型智能问答方法,其特征在于,所述根据标签标题中可能存在的上下文关系再次的关系标注,包括:
8.根据权利要求7所述的一种基于征信标签体系增强的rag大模型智能问答方法,其特征在于,所述根据子查询内容的标签标题产生的上下文关系修正或删除错误信息点,包括:
9.一种用于实现根据权利要求1-8任意一项所述方法的基于征信标签体系增强的rag大模型智能问答系统,其特征在于,包括:
10.根据权利要求9所述的一种基于征信标签体系增强的rag大模型智能问答系统,其特征在于,还包括: