本申请涉及计算机,具体而言,涉及一种名称匹配方法、装置、存储介质及电子设备。
背景技术:
1、在不断变化的监管环境中,反洗钱和制裁一直是各国监管机构的关注焦点,制裁名单中的名称匹配正是反洗钱与制裁合规领域的重要环节。而在名称匹配过程中,实体名称通常包含比较多的单词,但其中仅有部分单词为关键词,其他单词多为地名、行业或组织形式等非关键词,如果不通过配置权重将这些单词进行区别,匹配错误率较高。
2、因此,如何确定名称中单词的权重,并根据单词权重进行名称匹配成为业界亟待解决的技术问题。
技术实现思路
1、本申请提供一种名称匹配方法、装置、存储介质及电子设备,用以解决现有技术中如何确定名称中单词的权重,并根据单词权重进行名称匹配的技术问题。
2、第一方面,本申请提供了一种名称匹配方法,包括:
3、在目标名单中获取待匹配名称对应的至少一个候选名称,组成所述待匹配名称的单词中包括组成所述候选名称的单词;
4、基于所述候选名称中各个单词的权重,以及所述待匹配名称中各个单词的权重,在所述候选名称中确定与所述待匹配名称相匹配的名称;
5、其中,任一名称中单词的权重是基于如下步骤确定的:
6、基于第一单词与第二单词在所述目标名单的同一名称中出现的次数,以及所述第二单词在所述目标名单中出现的次数,得到所述任一名称中所述第一单词的权重;所述任一名称为所述目标名单中的名称或所述待匹配名称,所述第一单词为所述任一名称中的单词;所述第二单词为所述任一名称中除所述第一单词外的单词。
7、在一些实施例中,所述基于第一单词与第二单词在所述目标名单的同一名称中出现的次数,以及所述第二单词在所述目标名单中出现的次数,得到所述任一名称中所述第一单词的权重,包括:
8、在所述第二单词为多个的情况下,基于所述第一单词与任一第二单词在所述目标名单的同一名称中出现的次数,以及所述任一第二单词在所述目标名单中出现的次数,得到在包含所述任一第二单词的名称中出现所述第一单词的条件概率;
9、基于所述条件概率,确定在包含所述任一第二单词的名称中出现所述第一单词的情况下所述第一单词对应的第一权重;
10、基于各个第一权重,得到所述任一名称中所述第一单词的权重。
11、在一些实施例中,所述基于各个第一权重,得到所述任一名称中所述第一单词的权重,包括:
12、将各个第一权重进行求和,得到所述任一名称中所述第一单词的权重;
13、或者,求取各个第一权重的均值,得到所述任一名称中所述第一单词的权重。
14、在一些实施例中,所述基于所述条件概率,确定在包含所述任一第二单词的名称中出现所述第一单词的情况下所述第一单词对应的第一权重,包括:
15、将所述条件概率进行量化处理,得到在包含所述任一第二单词的名称中出现所述第一单词的情况下所述第一单词对应的第一权重;
16、其中,所述条件概率p(第一单词|第二单词)是基于如下公式进行量化处理,得到所述第一权重i(第一单词|第二单词):
17、i(第一单词|第二单词)=-log[p(第一单词|第二单词)]。
18、在一些实施例中,所述第一单词与第二单词在所述目标名单的同一名称中出现的次数是基于如下步骤确定的:
19、基于所述第一单词和所述第二单词遍历所述目标名单中的各个名称;
20、获取所述目标名单中同时包括所述第一单词和所述第二单词的名称数量,得到所述第一单词与第二单词在所述目标名单的同一名称中出现的次数。
21、在一些实施例中,所述基于所述候选名称中各个单词的权重,以及所述待匹配名称中各个单词的权重,在所述候选名称中确定与所述待匹配名称相匹配的名称,包括:
22、将任一候选名称中各个单词的权重进行加和,得到所述任一候选名称的第二权重;
23、将所述待匹配名称中各个单词的权重进行加和,得到所述待匹配名称的第三权重;
24、基于所述第二权重与所述第三权重,确定所述任一候选名称是否与所述待匹配名称相匹配。
25、在一些实施例中,所述基于所述第二权重与所述第三权重,确定所述任一候选名称是否与所述待匹配名称相匹配,包括:
26、基于所述第二权重与所述第三权重的比值,确定所述任一候选名称是否与所述待匹配名称相匹配;
27、或者基于所述第二权重与所述第三权重的差值,确定所述任一候选名称是否与所述待匹配名称相匹配。
28、第二方面,本申请提供了一种名称匹配装置,包括:
29、获取模块,用于在目标名单中获取待匹配名称对应的至少一个候选名称,组成所述待匹配名称的单词中包括组成所述候选名称的单词;
30、确定模块,用于基于所述候选名称中各个单词的权重,以及所述待匹配名称中各个单词的权重,在所述候选名称中确定与所述待匹配名称相匹配的名称;
31、其中,任一名称中单词的权重是基于如下步骤确定的:
32、基于第一单词与第二单词在所述目标名单的同一名称中出现的次数,以及所述第二单词在所述目标名单中出现的次数,得到所述任一名称中所述第一单词的权重;所述任一名称为所述目标名单中的名称或所述待匹配名称,所述第一单词为所述任一名称中的单词;所述第二单词为所述任一名称中除所述第一单词外的单词。
33、第三方面,本申请提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的方法。
34、第四方面,本申请提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述程序时实现上述的方法。
35、本申请提供的名称匹配方法、装置、存储介质及电子设备,通过名称中任意两个单词的关联情况确定名称中各个单词的权重,根据目标名单中候选名称各个单词的权重和待匹配名称中各个单词的权重确定与待匹配名称相匹配的名称,使得权重越大的单词在名称匹配时发挥更大的作用,提高了名称匹配的准确度,提高了名称匹配的效率。
1.一种名称匹配方法,其特征在于,包括:
2.根据权利要求1所述的名称匹配方法,其特征在于,所述基于第一单词与第二单词在所述目标名单的同一名称中出现的次数,以及所述第二单词在所述目标名单中出现的次数,得到所述任一名称中所述第一单词的权重,包括:
3.根据权利要求2所述的名称匹配方法,其特征在于,所述基于各个第一权重,得到所述任一名称中所述第一单词的权重,包括:
4.根据权利要求2所述的名称匹配方法,其特征在于,所述基于所述条件概率,确定在包含所述任一第二单词的名称中出现所述第一单词的情况下所述第一单词对应的第一权重,包括:
5.根据权利要求1所述的名称匹配方法,其特征在于,所述第一单词与第二单词在所述目标名单的同一名称中出现的次数是基于如下步骤确定的:
6.根据权利要求1所述的名称匹配方法,其特征在于,所述基于所述候选名称中各个单词的权重,以及所述待匹配名称中各个单词的权重,在所述候选名称中确定与所述待匹配名称相匹配的名称,包括:
7.根据权利要求6所述的名称匹配方法,其特征在于,所述基于所述第二权重与所述第三权重,确定所述任一候选名称是否与所述待匹配名称相匹配,包括:
8.一种名称匹配装置,其特征在于,包括:
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的名称匹配方法。
10.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行权利要求1至7任一项所述的名称匹配方法。