一种企业名称查重方法及装置、设备、介质与流程

文档序号:19828503发布日期:2020-02-04 12:08阅读:来源:国知局

技术特征:

1.一种企业信息查重方法,其特征在于,包括:

获取企业信息,所述企业信息包括:企业名称;

将所述企业名称拆分以地区、字号、经营范围、组织形式、机构类型为类别的分词词组;

对所述分词词组,以地区、字号、经营范围、组织形式、机构类型中的一个或一个以上的组合作为查重依据,确定重复的企业信息。

2.根据权利要求1所述的企业信息查重方法,其特征在于,

在所述获取企业信息之后;

在所述将所述企业名称拆分以地区、字号、经营范围、组织形式、机构类型为类别的分词词组之前,还包括:

将所述企业信息中的全角数据或半角数据转换为第一预设格式;

将所述企业信息中的阿拉伯数字或汉字数字转换为第二预设格式,得到格式统一的企业信息;

将所述企业信息中的汉字转为拼音,以便实现同音字查重;

将所述企业信息中的繁体字转简体字,以实现简繁体重复检查;

其中,所述第一预设格式为全角数据或半角数据;所述第二预设格式为阿拉伯数字或汉字数字。

3.根据权利要求1所述的企业信息查重方法,其特征在于,

所述地区,包括:国家、省份、城市、区县;

所述机构类型,包括:公司、事务所、部、厅、局、机构、处。

4.根据权利要求1所述的企业信息查重方法,其特征在于,

所述企业信息,还包括:与所述企业名称对应的联系人姓名、邮箱地址、电话号码、手机号码中的一个或一个以上的组合;

相应地,所述查重方法还包括:

利用联系人姓名、邮箱地址、电话号码、手机号码中的一个或一个以上的组合作为查重依据,确定重复的企业信息。

5.根据权利要求1至4任一项所述的企业信息查重方法,其特征在于,

所述对所述分词词组,以地区、字号、经营范围、组织形式、机构类型中的一个或一个以上的组合作为查重依据,确定重复的企业信息,包括:

利用第一规则对所述分词词组进行查重,得到第一重复企业信息;

利用第二规则对所述分词词组进行查重,得到第二重复企业信息;

如果所述第一重复企业信息、所述第二重复企业信息中存在信息交叉的企业信息,则将所述第一重复企业信息、所述第二重复企业信息合并为第三重复企业信息;

其中,所述第一规则包括:地区、字号、经营范围、组织形式、机构类型中的一个或一个以上的组合;所述第二规则包括:地区、字号、经营范围、组织形式、机构类型中的一个或一个以上的组合;所述第一规则与所述第二规则不同。

6.根据权利要求5所述的企业信息查重方法,其特征在于,

所述如果所述第一重复企业信息、所述第二重复企业信息中存在信息交叉的企业信息,则将所述第一重复企业信息、所述第二重复企业信息合并为第三重复企业信息之后,还包括:

将所述第一规则、所述第二规则作为规则组模板存储,以便后续使用调用;

将所述企业信息中完全重复的数据只保留一份,得到企业查重结果数据,以便用户导出使用。

7.一种企业信息查重装置,其特征在于,包括:

企业信息获取模块,用于获取企业信息,所述企业信息包括:企业名称;

企业名称分词模块,用于将所述企业名称拆分以地区、字号、经营范围、组织形式、机构类型为类别的分词词组;

分词组合查重模块,用于对所述分词词组,以地区、字号、经营范围、组织形式、机构类型中的一个或一个以上的组合作为查重依据,确定重复的企业信息。

8.根据权利要求7所述的企业信息查重装置,其特征在于,

所述分词组合查重模块,包括:

第一查重单元,用于利用第一规则对所述分词词组进行查重,得到第一重复企业信息;

第二查重单元,用于利用第二规则对所述分词词组进行查重,得到第二重复企业信息;

数据合并单元,用于如果所述第一重复企业信息、所述第二重复企业信息中存在信息交叉的企业信息,则将所述第一重复企业信息、所述第二重复企业信息合并为第三重复企业信息;

其中,所述第一规则包括:地区、字号、经营范围、组织形式、机构类型中的一个或一个以上的组合;所述第二规则包括:地区、字号、经营范围、组织形式、机构类型中的一个或一个以上的组合;所述第一规则与所述第二规则不同。

9.一种企业信息查重设备,其特征在于,包括:

存储器,用于存储计算机程序;

处理器,用于执行所述计算机程序时实现如权利要求1至6任一项所述企业信息查重方法的步骤。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述企业信息查重方法的步骤。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1