本发明涉及命名实体识别,具体涉及一种单位名称精确匹配方法和查找方法。
背景技术:
1、在目前的互联网中单位信息作为一个必要因素越来越被重视,但是单位录入的不确定性,容易导致应用方获取的单位信息异常。
2、现有技术中使用es(elasticsearch)模糊查询匹配,elasticsearch是一个分布式、高扩展、高实时的搜索与数据分析引擎。elasticsearch的实现原理主要分为以下几个步骤,首先用户将数据提交到elasticsearch数据库中,再通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据,当用户搜索数据时候,再根据权重将结果排名、打分,再将返回结果呈现给用户。
3、但是es分词是使用自带的分词算法,对于特定匹配算法会无法匹配到数据,如简称和全称无法匹配、用户输入的不确定性导致单位名称里面会包含很多es模糊匹配无法识别的无效的字符等等,所以无法达到对单位名称这种模糊匹配要求较高的数据精准匹配。
技术实现思路
1、本发明旨在一定程度上解决相关技术中的技术问题之一。为此,本发明提供了一种单位名称精确匹配方法,具有单位名称匹配更为精细更为准确的优点。
2、为了达到上述目的,本发明采用如下技术方案:一种单位名称精确匹配方法,所述方法包括:
3、s1、对输入的两个单位名称进行预处理,所述预处理包括标准化处理和过滤处理;
4、s2、对预处理后的两个单位名称进行拆分标注处理,分别得到对应的分词和分词的类型;所述类型包括地区分词、字号分词、行业分词和组织分词;
5、s3、对所述分词进行纠正处理,所述纠正处理包括删除处理、合并处理和类型转换处理;
6、s4、对所述分词进行主体从体拆分处理,分别得到两个单位名称的主体和从体;
7、s5、对于分词能直接通过模糊匹配得出单位名称匹配度的,输出单位名称匹配度为0,否则执行s6;
8、s6、对两个单位名称的主体、从体中相同类型的分词分别进行对比计算,得到各类型分词匹配关系,将主体中各类型分词匹配关系组合计算得到主体匹配度,将从体中各类型分词匹配关系组合计算得到从体匹配度;
9、s7、根据两个单位名称的所述主体匹配度和从体匹配度计算出单位名称匹配度。
10、本发明通过对单位名称进行预处理和纠正处理,得到去重降噪的数据,有利于单位名称的精确匹配;并根据分词匹配关系、主体从体拆分和主体从体匹配度规则计算单位名称匹配度,进一步优化了匹配准确度。
11、可选的,步骤s3中所述主体从体拆分处理包括:所述分词中包含特定分词类型,所述特定类型分词及之前的所有分词组成主体,所述特定类型的分词之后的所有分词组成从体。
12、可选的,所述对两个单位名称的主体、从体中相同类型的分词分别进行对比计算包括:判断每个分词类型,根据分词类型使用相应分词匹配关系算法;所述分词匹配关系通过对比分词的字符得出;所述关系包括相同关系、相似关系和不同关系,所述相同关系包括完全相同关系和等同关系。
13、可选的,所述分词能直接通过模糊匹配得出单位名称匹配度的判定条件为:两个单位名称在经过s1,s2,s3步骤处理后,任意一个单位名称的所有分词为空。
14、可选的,所述标准化处理包括:基于词库将两个单位名称中的繁体转换为简体、小写转换为大写、中文符号转换为英文符号以及简称转换为全称;所述过滤处理包括删除特殊符号。通过标准化处理,对单位名称进行了初步的去重降噪。
15、可选的,所述对预处理后的两个单位名称进行拆分标注处理包括:基于bilstm神经网络算法,将单位名称按顺序拆分为分词,并标注类型。
16、可选的,步骤s3中所述删除处理包括:当字号分词在所有分词中所处的位置和字符串长度满足删除条件时,对所述字号分词进行删除处理。
17、可选的,步骤s3中所述合并处理包括:当位于地区分词前的分词为字号分词,且字号分词的字符串长度满足条件时,对所述地区分词和所述字号分词进行合并处理。
18、可选的,步骤s3中所述类型转换处理包括:当组织分词包含特定字符,且分词中不包含字号分词时,对所述组织分词的前一个分词进行类型转换处理得到字号分词。
19、此外,本发明还提供了一种单位名称精确查找方法,采用上述单位名称精确匹配方法进行数据处理,所述查找方法包括:
20、导入数据至es数据库,包括:获取数据,所述数据为多个单位名称;所述数据经过步骤s1、s2、s3和s4处理后,得到标准数据,所述标准数据为多个标准单位名称,调用es数据库将所述标准数据存储到es数据库;
21、获取待查找单位名称,所述单位名称经过s1、s2、s3和s4处理后,得到标准分词,将标准分词与es数据库中的标准数据进行匹配,得到与所述待查找单位名称匹配度最高的标准单位名称。
22、本发明所提供的单位名称精确查找方法通过将单位名称转化为符合查询要求的标准分词存入es数据库,输入其他单位名称按条件进行搜索时,可以大大提高准确性。
23、并且,本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述任一项所述的单位名称精确匹配方法和单位名称精确查找方法。
24、同时,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述任一项所述的单位名称精确匹配方法和单位名称精确查找方法。
25、本发明的这些特点和优点将会在下面的具体实施方式以及附图中进行详细的揭露。本发明最佳的实施方式或手段将结合附图来详尽表现,但并非是对本发明技术方案的限制。另外,在每个下文和附图中出现的这些特征、要素和组件是具有多个,并且为了表示方便而标记了不同的符号或数字,但均表示相同或相似构造或功能的部件。
1.一种单位名称精确匹配方法,其特征在于,所述方法包括:
2.根据权利要求1所述的单位名称精确匹配方法,其特征在于,步骤s3中所述主体从体拆分处理包括:所述分词中包含特定分词类型,所述特定类型分词及之前的所有分词组成主体,所述特定类型的分词之后的所有分词组成从体。
3.根据权利要求1所述的单位名称精确匹配方法,其特征在于,所述对两个单位名称的主体、从体中相同类型的分词分别进行对比计算包括:判断每个分词类型,根据分词类型使用相应分词匹配关系算法;所述分词匹配关系通过对比分词的字符得出;所述关系包括相同关系、相似关系和不同关系,所述相同关系包括完全相同关系和等同关系。
4.根据权利要求1所述的单位名称精确匹配方法,其特征在于,所述分词能直接通过模糊匹配得出单位名称匹配度的判定条件为:两个单位名称在经过s1,s2,s3步骤处理后,任意一个单位名称的所有分词为空。
5.根据权利要求1所述的单位名称精确匹配方法,其特征在于,所述标准化处理包括:基于词库将两个单位名称中的繁体转换为简体、小写转换为大写、中文符号转换为英文符号以及简称转换为全称;所述过滤处理包括删除特殊符号。
6.根据权利要求1所述的单位名称精确匹配方法,其特征在于,所述对预处理后的两个单位名称进行拆分标注处理包括:基于bilstm神经网络算法,将单位名称按顺序拆分为分词,并标注类型。
7.根据权利要求1所述的单位名称精确匹配方法,其特征在于,步骤s3中所述删除处理包括:当字号分词在所有分词中所处的位置和字符串长度满足删除条件时,对所述字号分词进行删除处理。
8.根据权利要求1所述的单位名称精确匹配方法,其特征在于,步骤s3中所述合并处理包括:当位于地区分词前的分词为字号分词,且字号分词的字符串长度满足条件时,对所述地区分词和所述字号分词进行合并处理。
9.根据权利要求1所述的单位名称精确匹配方法,其特征在于,步骤s3中所述类型转换处理包括:当组织分词包含特定字符,且分词中不包含字号分词时,对所述组织分词的前一个分词进行类型转换处理得到字号分词。
10.一种单位名称精确查找方法,其特征在于,采用权利要求1-9任一项的所述的单位名称精确匹配方法进行数据处理,所述查找方法包括:
11.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的单位名称精确匹配方法和权利要求10所述的单位名称精确查找方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的单位名称精确匹配方法和权利要求10所述的单位名称精确查找方法。