1.本发明涉及自然语言处理领域,尤其涉及一种针对金融机构名称的模糊匹配模型建立方法、装置及系统。
背景技术:2.目前,对金融机构名称之间的相似度计算可以通过匹配模型实现,匹配模型的建立主要依靠两种方式:基于本领域数据的有监督学习,以及基于非本领域数据的迁移学习。若进行有监督学习,需要提前构建金融机构名称对的数据集;数据集的建立一方面可以通过制定人工规则为每个名称打上表明相似或不相似的标签,另一方面则通过收集用户的搜索词以及通过用户的点击行为关联上的相似机构名称,点击的机构名称被视为与搜索词相似,而其余的名称被视为负样本。但无论是通过人工规则还是点击数据生成名称对数据,要么需要人工观察可能的输入、不断跟业务人员沟通以及不断查看生产数据,要么需要人工确认系统输入,都可能在大量的筛选过程中出现标签的标注错误,导致降低模型的计算准确率。若进行迁移学习,建立的模型具有较宽泛的判别能力,在应用于金融领域、比较金融机构名称对时,易产生误判,因此需要人工制定规则,而人工规则需要开发人员在大量了解模型的数据特性后才能指定,因此难以有效提升匹配模型的计算准确率。
技术实现要素:3.本发明提供了一种针对金融机构名称的模糊匹配模型建立方法、装置及系统,以解决现有的匹配模型在计算金融机构名称之间的相似度时,计算的准确率较低的技术问题。
4.为了解决上述技术问题,本发明实施例提供了一种针对金融机构名称的模糊匹配模型建立方法,包括:
5.根据开源数据集和损失函数,使bert模型进行有监督学习,得到跨领域的模糊匹配模型;其中,所述开源数据集包括:第一语句、与所述第一语句对应的待匹配的第二语句、表明所述第一语句与所述第二语句之间相似或不相似的标签;
6.根据金融机构名称数据集和所述损失函数,使所述跨领域的模糊匹配模型进行无监督学习,得到金融领域的模糊匹配模型;其中,所述金融机构名称数据集为根据金融机构名称库和生成规则,生成设置有正样本和负样本的名称对数据集。
7.本发明根据设置有标签的开源数据集,对bert模型进行有监督训练,开源数据集中具有第一语句、与第一语句对应的待测的第二语句以及准确设置好的标签,根据开源数据集和损失函数,使训练得到的跨领域的模糊匹配模型具有判断准确的通用能力。金融机构名称数据集含有第三语句以及与第三语句对应的正样本和负样本,以使跨领域的模糊匹配模型根据第三语句、正样本和负样本,结合损失函数进行无监督学习,使训练得到模型针对金融机构名称的相似度具有更高的计算准确率。
8.进一步地,所述根据开源数据集和损失函数,使bert模型进行有监督学习,得到跨
领域的模糊匹配模型,具体为:
9.输入所述第一语句和所述第二语句至所述bert模型,分别对所述第一语句和所述第二语句进行向量编码处理后,得到与第一语句对应的第一语句向量和与第二语句对应的第二语句向量;其中,所述第二语句向量包括:标签表明相似的第二语句对应的相似语句向量,或者,标签表明不相似的第二语句对应的不相似语句向量;
10.根据所述第一语句向量、所述第二语句向量、所述标签和所述损失函数,计算损失,得到第一损失结果;
11.根据第一损失结果,进行梯度回传并更新权重,直至所述bert模型收敛,得到所述跨领域的模糊匹配模型。
12.本发明通过bert模型,根据第一语句和第二语句以及标签,结合损失函数进行有监督的二分类学习,当所述bert模型收敛时,得到跨领域的模糊匹配模型;基于开源数据集中准确标注的标签,所述跨领域的模糊匹配模型具有较为准确的通用能力,能够对不同文本的相似度进行计算。
13.进一步地,所述根据金融机构名称数据集和所述损失函数,使所述跨领域的模糊匹配模型进行无监督学习,得到金融领域的模糊匹配模型,具体为:
14.其中,所述机构名称数据集包括:第三语句、与第三语句对应的待匹配的第四语句;所述第四语句包括:正样本语句和负样本语句;
15.输入所述第三语句和所述第四语句至所述跨领域的匹配模型,分别对所述第三语句和所述第四语句进行向量编码处理后,得到与第三语句对应的第三语句向量和与第四语句对应的第四语句向量;其中,所述第四语句向量包括:正样本语句向量和负样本语句向量;
16.对第四语句向量进行参数置零处理,得到处理后的第四语句;
17.根据所述第三语句向量、所述处理后的第四语句向量和所述损失函数,计算损失,得到第二损失结果;
18.根据第二损失结果,进行梯度回传并更新权重,直至所述跨领域的匹配模型收敛,得到所述金融领域的模糊匹配模型。
19.进一步地,所述正样本语句是与所述第三语句相同的语句;所述负样本语句是在金融机构名称数据集中,所述第三语句和所述正样本语句以外的其他语句;所述正样本语句向量是正样本语句经向量编码处理后得到的向量;所述负样本语句向量是负样本语句经向量编码处理后得到的向量。
20.进一步地,所述对第四语句为进行参数置零处理,得到处理后的第四语句,具体为:
21.当所述第四语句向量为正样本语句向量时,根据预设的概率阈值,将所述正样本语句向量中所有大于概率阈值的参数置零,得到处理后的第四语句向量;
22.当所述第四语句向量为负样本语句向量时,所述处理后的第四语句向量等同于所述负样本语句向量。
23.本发明根据建立规则将与第三语句相同的语句设置为正样本语句,不相同的设置为负样本语句,并通过参数置零处理,增大第三语句向量和正样本语句向量,使根据第三语句向量和处理后的正样本语句向量,进行无监督学习的跨领域的模糊匹配模型,能够获得
更高的计算准确率。
24.进一步地,所述向量编码处理,包括:
25.根据预设的中文词表,将语句转换为id串;所述语句包括:第一语句、第二语句、第三语句或第四语句;
26.根据所述id串,查询所述语句的词向量和所述语句的位置向量;
27.将所述语句的词向量和所述语句的位置向量对应相加得到输入向量;
28.根据编码器,对所述输入向量进行若干次编码,再经过向量横向求和取平均后,得到对应的语句向量;所述语句向量包括:第一语句向量、第二语句向量、第三语句向量或第四语句向量。
29.进一步地,所述损失函数的表达式为:
[0030][0031]
其中,sim为余弦相似度,hi为第一语句向量或第三语句向量,为相似语句向量或正样本语句向量,为不相似语句向量或负样本语句向量。
[0032]
本发明的损失函数在计算时考虑到无监督学习中的正样本和负样本,同时也考虑到有监督学习中的相似语句向量和不相似语句向量;因此,既可以用于bert模型进行有监督学习时的收敛过程,也可用于跨领域的模糊匹配模型进行无监督学习时的收敛过程,经梯度回传和权重更新后,可提升金融领域的模糊匹配模型的计算准确率。
[0033]
进一步地,在所述根据金融机构名称数据集和所述损失函数,使所述跨领域的模糊匹配模型进行无监督学习,得到金融领域的模糊匹配模型之后,包括:
[0034]
接收用户输入的金融机构名称和待匹配的金融机构名称,以使所述金融领域的模糊匹配模型进行相似度计算,得到所述金融机构名称和所述待匹配的金融机构名称的计算结果;其中,所述计算结果包括:相似或不相似。
[0035]
另一方面,本发明实施例还提供了一种针对金融机构名称的模糊匹配模型建立装置,包括第一模型建立模块和第二模型建立模块;
[0036]
所述第一模型建立模块用于根据开源数据集和损失函数,使bert模型进行有监督学习,得到跨领域的模糊匹配模型;其中,所述开源数据集包括:第一语句、与所述第一语句对应的待匹配的第二语句、表明所述第一语句与所述第二语句之间相似或不相似的标签;
[0037]
所述第二模型建立模块用于根据金融机构名称数据集和所述损失函数,使所述跨领域的模糊匹配模型进行无监督学习,得到金融领域的模糊匹配模型;其中,所述金融机构名称数据集为根据金融机构名称库和生成规则,生成设置有正样本和负样本的名称对数据集。
[0038]
另一方面,本发明实施例还提供了一种针对金融机构名称的模糊匹配模型建立系统,包括匹配设备和用户端;
[0039]
其中,所述匹配设备用于执行本发明实施例所述的针对金融机构名称的模糊匹配模型建立方法;
[0040]
所述用户端用于输入金融机构名称和待匹配的金融机构名称至所述匹配设备;以
及用于查看所述匹配设备的计算结果。
[0041]
本发明根据设置有标签的开源数据集,对bert模型进行有监督训练,开源数据集中具有第一语句、与第一语句对应的待测的第二语句以及准确设置好的标签,根据开源数据集和损失函数,使训练得到的跨领域的模糊匹配模型具有判断准确的通用能力。金融机构名称数据集含有第三语句以及与第三语句对应的正样本和负样本,以使跨领域的模糊匹配模型根据第三语句、正样本和负样本,结合损失函数进行无监督学习,使训练得到模型针对金融机构名称的相似度具有更高的计算准确率。
附图说明
[0042]
图1为本发明提供的针对金融机构名称的模糊匹配模型建立方法的一种实施例的流程示意图;
[0043]
图2为本发明提供的针对金融机构名称的模糊匹配模型建立方法的另一种实施例的流程示意图;
[0044]
图3为本发明提供的针对金融机构名称的模糊匹配模型建立方法的再一种实施例的流程示意图;
[0045]
图4为本发明提供的编码处理的一种实施例的结构示意图;
[0046]
图5为本发明提供的编码处理的一种实施例的流程示意图;
[0047]
图6为本发明提供的针对金融机构名称的模糊匹配模型建立装置的一种实施例的结构示意图;
[0048]
图7为本发明提供的针对金融机构名称的模糊匹配模型建立系统的一种实施例的结构示意图。
具体实施方式
[0049]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0050]
实施例一
[0051]
请参照图1,为本发明提供的针对金融机构名称的模糊匹配模型建立方法的一种实施例的流程示意图,主要包括步骤101和步骤102,其具体如下:
[0052]
步骤101:根据开源数据集和损失函数,使bert模型进行有监督学习,得到跨领域的模糊匹配模型;其中,所述开源数据集包括:第一语句、与所述第一语句对应的待匹配的第二语句、表明所述第一语句与所述第二语句之间相似或不相似的标签。
[0053]
在本实施例中,开源数据集可用1表示两个语句的语义相似或等同,用0表示两个语句的语义不同,如下表所示:
[0054]
[0055][0056]
步骤102:根据金融机构名称数据集和所述损失函数,使所述跨领域的模糊匹配模型进行无监督学习,得到金融领域的模糊匹配模型;其中,所述金融机构名称数据集为根据金融机构名称库和生成规则,生成设置有正样本和负样本的名称对数据集。
[0057]
在本实施例中,根据金融机构名称库和生成规则,生成金融机构名称数据集,不需要人工参与。生成规则为输入的金融机构名称与待匹配的金融机构名称相同的,则将该名称中打匹配的金融机构名称设置为正样本,而不成对的金融机构名称则自动设置为负样本。
[0058]
请参照图2,为本发明提供的针对金融机构名称的模糊匹配模型建立方法的另一种实施例的流程示意图,主要包括步骤201至步骤203,其具体如下:
[0059]
步骤201:输入所述第一语句和所述第二语句至所述bert模型,分别对所述第一语句和所述第二语句进行向量编码处理后,得到与第一语句对应的第一语句向量和与第二语句对应的第二语句向量;其中,所述第二语句向量包括:标签表明相似的第二语句对应的相似语句向量,或者,标签表明不相似的第二语句对应的不相似语句向量。
[0060]
步骤202:根据所述第一语句向量、所述第二语句向量、所述标签和所述损失函数,计算损失,得到第一损失结果。
[0061]
步骤203:根据第一损失结果,进行梯度回传并更新权重,直至所述bert模型收敛,得到所述跨领域的模糊匹配模型。
[0062]
本发明通过bert模型,根据第一语句和第二语句以及标签,结合损失函数进行有监督的二分类学习,当所述bert模型收敛时,得到跨领域的模糊匹配模型;基于开源数据集中准确标注的标签,所述跨领域的模糊匹配模型具有较为准确的通用能力,能够对不同文本的相似度进行计算。
[0063]
请参照图3,为本发明提供的针对金融机构名称的模糊匹配模型建立方法的再一种实施例的流程示意图,主要包括步骤301至步骤304,其具体如下:
[0064]
在本实施例中,所述机构名称数据集包括:第三语句、与第三语句对应的待匹配的第四语句;所述第四语句包括:正样本语句和负样本语句。
[0065]
步骤301:输入所述第三语句和所述第四语句至所述跨领域的匹配模型,分别对所述第三语句和所述第四语句进行向量编码处理后,得到与第三语句对应的第三语句向量和与第四语句对应的第四语句向量;其中,所述第四语句向量包括:正样本语句向量和负样本语句向量。
[0066]
在本实施例中,所述正样本语句是与所述第三语句相同的语句;所述负样本语句是在金融机构名称数据集中,所述第三语句和所述正样本语句以外的其他语句;所述正样
本语句向量是正样本语句经向量编码处理后得到的向量;所述负样本语句向量是负样本语句经向量编码处理后得到的向量。
[0067]
步骤302:对第四语句向量进行参数置零处理,得到处理后的第四语句。
[0068]
在本实施例中,所述对第四语句为进行参数置零处理,得到处理后的第四语句,具体为:当所述第四语句向量为正样本语句向量时,根据预设的概率阈值,将所述正样本语句向量中所有大于概率阈值的参数置零,得到处理后的第四语句向量;当所述第四语句向量为负样本语句向量时,所述处理后的第四语句向量等同于所述负样本语句向量。
[0069]
在本实施例中,概率阈值可以设置为0.1,向量中只要产生的0到1区间的参数高于0.1,就将该参数置零。
[0070]
步骤303:根据所述第三语句向量、所述处理后的第四语句向量和所述损失函数,计算损失,得到第二损失结果。
[0071]
步骤304:根据第二损失结果,进行梯度回传并更新权重,直至所述跨领域的匹配模型收敛,得到所述金融领域的模糊匹配模型。
[0072]
本发明根据建立规则将与第三语句相同的语句设置为正样本语句,不相同的设置为负样本语句,并通过参数置零处理,增大第三语句向量和正样本语句向量,使根据第三语句向量和处理后的正样本语句向量,进行无监督学习的跨领域的模糊匹配模型,能够获得更高的计算准确率。
[0073]
在本实施例中,所述向量编码处理,包括:
[0074]
根据预设的中文词表,将语句转换为id串;所述语句包括:第一语句、第二语句、第三语句或第四语句;根据所述id串,查询所述语句的词向量和所述语句的位置向量;将所述语句的词向量和所述语句的位置向量对应相加得到输入向量;根据编码器,对所述输入向量进行若干次编码,再经过向量横向求和取平均后,得到对应的语句向量;所述语句向量包括:第一语句向量、第二语句向量、第三语句向量或第四语句向量。
[0075]
在本实施例中,中文词表为bert模型自带的,中文的每个词在所述中文此表中都有唯一的id,所述id为正整数;对名称之间的相似度进行计算前,需要根据语句中的每个词,将每个语句转换为id串。
[0076]
请参照图4,为本发明提供的编码处理的一种实施例的结构示意图,bert模型会基于id查找每个语句的词向量和每个语句的位置向量,将所述词向量和所述位置向量相加后,得到输入向量。
[0077]
请参照图5,为本发明提供的编码处理的一种实施例的流程示意图,编码器对输入向量x进行6个encoder block后,得到对应的语句向量c。
[0078]
在本实施例中,所述损失函数的表达式为:
[0079][0080]
其中,sim为余弦相似度,hi为第一语句向量或第三语句向量,为相似语句向量或正样本语句向量,为不相似语句向量或负样本语句向量。
[0081]
在本实例中,所述余弦相似度的表达式为:
[0082][0083]
其中,h1为第一语句向量或第三语句向量,h2为相似语句向量、正样本语句向量、不相似语句向量或负样本语句向量。
[0084]
本发明的损失函数在计算时考虑到无监督学习中的正样本和负样本,同时也考虑到有监督学习中的相似语句向量和不相似语句向量;因此,既可以用于bert模型进行有监督学习时的收敛过程,也可用于跨领域的模糊匹配模型进行无监督学习时的收敛过程,经梯度回传和权重更新后,可提升金融领域的模糊匹配模型的计算准确率。
[0085]
在本实施例中,在所述根据金融机构名称数据集和所述损失函数,使所述跨领域的模糊匹配模型进行无监督学习,得到金融领域的模糊匹配模型之后,包括:接收用户输入的金融机构名称和待匹配的金融机构名称,以使所述金融领域的模糊匹配模型进行相似度计算,得到所述金融机构名称和所述待匹配的金融机构名称的计算结果;其中,所述计算结果包括:相似或不相似。
[0086]
请参照图6,为本发明提供的针对金融机构名称的模糊匹配模型建立装置的一种实施例的结构示意图,其主要包括:第一模型建立模块601和第二模型建立模块602。
[0087]
在本实施例中,第一模型建立模块601用于根据开源数据集和损失函数,使bert模型进行有监督学习,得到跨领域的模糊匹配模型;其中,所述开源数据集包括:第一语句、与所述第一语句对应的待匹配的第二语句、表明所述第一语句与所述第二语句之间相似或不相似的标签。
[0088]
在本实施例中,所述第一模型建立模块601包括:第一编码处理单元、第一损失计算单元和第一调节单元;第一编码处理单元用于输入所述第一语句和所述第二语句至所述bert模型,分别对所述第一语句和所述第二语句进行向量编码处理后,得到与第一语句对应的第一语句向量和与第二语句对应的第二语句向量;其中,所述第二语句向量包括:标签表明相似的第二语句对应的相似语句向量,或者,标签表明不相似的第二语句对应的不相似语句向量;第一损失计算单元用于在第一编码处理单元得到与第一语句对应的第一语句向量和与第二语句对应的第二语句向量之后,根据所述第一语句向量、所述第二语句向量、所述标签和所述损失函数,计算损失,得到第一损失结果;第一调节单元用于在第一损失计算单元得到第一损失结果之后,根据第一损失结果,进行梯度回传并更新权重,直至所述bert模型收敛,得到所述跨领域的模糊匹配模型。
[0089]
第二模型建立模块602用于根据金融机构名称数据集和所述损失函数,使所述跨领域的模糊匹配模型进行无监督学习,得到金融领域的模糊匹配模型;其中,所述金融机构名称数据集为根据金融机构名称库和生成规则,生成设置有正样本和负样本的名称对数据集。
[0090]
在本实施例中,模型建立模块602包括:第二编码处理单元、参数置零单元、第二损失计算单元和第二调节单元;其中,所述机构名称数据集包括:第三语句、与第三语句对应的待匹配的第四语句;所述第四语句包括:正样本语句和负样本语句;第二编码处理单元用于输入所述第三语句和所述第四语句至所述跨领域的匹配模型,分别对所述第三语句和所述第四语句进行向量编码处理后,得到与第三语句对应的第三语句向量和与第四语句对应的第四语句向量;其中,所述第四语句向量包括:正样本语句向量和负样本语句向量;参数
置零单元用于在第二编码处理单元得到与第三语句对应的第三语句向量和与第四语句对应的第四语句向量之后,对第四语句向量进行参数置零处理,得到处理后的第四语句;第二损失计算单元用于在参数置零单元得到处理后的第四语句之后,根据所述第三语句向量、所述处理后的第四语句向量和所述损失函数,计算损失,得到第二损失结果;第二调节单元用于在第二损失计算单元得到第二损失结果之后,根据第二损失结果,进行梯度回传并更新权重,直至所述跨领域的匹配模型收敛,得到所述金融领域的模糊匹配模型。
[0091]
请参照图7,为本发明提供的针对金融机构名称的模糊匹配模型建立装置的一种实施例的结构示意图,其主要包括:匹配设备701和用户端702。
[0092]
在本实施例中,匹配设备701用于执行本发明实施例所述的针对金融机构名称的模糊匹配模型建立方法。
[0093]
用户端702用于输入金融机构名称和待匹配的金融机构名称至所述匹配设备701;以及用于查看所述匹配设备701的计算结果。
[0094]
本发明根据设置有标签的开源数据集,对bert模型进行有监督训练,开源数据集中具有第一语句、与第一语句对应的待测的第二语句以及准确设置好的标签,根据开源数据集和损失函数,使训练得到的跨领域的模糊匹配模型具有判断准确的通用能力。金融机构名称数据集含有第三语句以及与第三语句对应的正样本和负样本,以使跨领域的模糊匹配模型根据第三语句、正样本和负样本,结合损失函数进行无监督学习,使训练得到模型针对金融机构名称的相似度具有更高的计算准确率。
[0095]
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。