一种企业名称查重方法及装置、设备、介质与流程

文档序号:19828503发布日期:2020-02-04 12:08阅读:308来源:国知局
一种企业名称查重方法及装置、设备、介质与流程

本发明实施例涉及计算机技术领域,具体涉及一种企业名称查重方法及装置、设备、介质。



背景技术:

在实际生产生活中,整理客户的企业数据,对企业做定向营销时发现,样本数据中存在大量重复的企业数据。智能数据查重系统是针对企业中文名称做查重操作。为在营销中降低营销用户企业反感,通过降低营销数据重复率,从而更精确的定位营销范围的投放,提高企业中文数据的精确性。

在成千上万的数据中,若使用人力查找重复数据是一件非常困难的事情。现有技术中一般采用以下几种方案进行查重:1、使用excel的查重功能,去除完全相同的企业名称重复数据。2、使用sql等数据库工具,去除完全相同的企业名称重复数据。3、使用查重工具,去除完全相同的企业名称重复数据。

现有技术有其缺点:1、需要操作人员掌握excel、sql、查重、分词等工具,对基础操作人员的技能要求高。2、要求操作人员懂得一定的查重方法,组合各个方法做查重。3、中间流程多,操作复杂。4、查重结果的重复率高,完全重复的数据可以去除,近似重复的不能查到。5、耗费资源多。若数据量大需要多人协作、重复确认,容易出错。

因此,如何提供一种企业名称查重方案,能够降低对操作人员的技能要求,方便、快捷地对企业名称进行查重,是本领域技术人员亟待解决的技术问题。



技术实现要素:

为此,本发明实施例提供一种企业名称查重方法及装置、设备、介质,能够降低对操作人员的技能要求,方便、快捷地对企业名称进行查重。

为了实现上述目的,本发明实施例提供如下技术方案:

第一方面,本发明实施例提供一种企业信息查重方法,包括:

获取企业信息,所述企业信息包括:企业名称;

将所述企业名称拆分以地区、字号、经营范围、组织形式、机构类型为类别的分词词组;

对所述分词词组,以地区、字号、经营范围、组织形式、机构类型中的一个或一个以上的组合作为查重依据,确定重复的企业信息。

优选地,在所述获取企业信息之后;

在所述将所述企业名称拆分以地区、字号、经营范围、组织形式、机构类型为类别的分词词组之前,还包括:

将所述企业信息中的全角数据或半角数据转换为第一预设格式;

将所述企业信息中的阿拉伯数字或汉字数字转换为第二预设格式,得到格式统一的企业信息;

将所述企业信息中的汉字转为拼音,以便实现同音字查重;

将所述企业信息中的繁体字转简体字,以实现简繁体重复检查;

其中,所述第一预设格式为全角数据或半角数据;所述第二预设格式为阿拉伯数字或汉字数字。

优选地,所述地区,包括:国家、省份、城市、区县;

所述机构类型,包括:公司、事务所、部、厅、局、机构、处。

优选地,所述企业信息,还包括:与所述企业名称对应的联系人姓名、邮箱地址、电话号码、手机号码中的一个或一个以上的组合;

相应地,所述查重方法还包括:

利用联系人姓名、邮箱地址、电话号码、手机号码中的一个或一个以上的组合作为查重依据,确定重复的企业信息。

优选地,所述对所述分词词组,以地区、字号、经营范围、组织形式、机构类型中的一个或一个以上的组合作为查重依据,确定重复的企业信息,包括:

利用第一规则对所述分词词组进行查重,得到第一重复企业信息;

利用第二规则对所述分词词组进行查重,得到第二重复企业信息;

如果所述第一重复企业信息、所述第二重复企业信息中存在信息交叉的企业信息,则将所述第一重复企业信息、所述第二重复企业信息合并为第三重复企业信息;

其中,所述第一规则包括:地区、字号、经营范围、组织形式、机构类型中的一个或一个以上的组合;所述第二规则包括:地区、字号、经营范围、组织形式、机构类型中的一个或一个以上的组合;所述第一规则与所述第二规则不同。

优选地,所述如果所述第一重复企业信息、所述第二重复企业信息中存在信息交叉的企业信息,则将所述第一重复企业信息、所述第二重复企业信息合并为第三重复企业信息之后,还包括:

将所述第一规则、所述第二规则作为规则组模板存储,以便后续使用调用;

将所述企业信息中完全重复的数据只保留一份,得到企业查重结果数据,以便用户导出使用。

第二方面,本发明实施例提供一种企业信息查重装置,包括:

企业信息获取模块,用于获取企业信息,所述企业信息包括:企业名称;

企业名称分词模块,用于将所述企业名称拆分以地区、字号、经营范围、组织形式、机构类型为类别的分词词组;

分词组合查重模块,用于对所述分词词组,以地区、字号、经营范围、组织形式、机构类型中的一个或一个以上的组合作为查重依据,确定重复的企业信息。

优选地,所述分词组合查重模块,包括:

第一查重单元,用于利用第一规则对所述分词词组进行查重,得到第一重复企业信息;

第二查重单元,用于利用第二规则对所述分词词组进行查重,得到第二重复企业信息;

数据合并单元,用于如果所述第一重复企业信息、所述第二重复企业信息中存在信息交叉的企业信息,则将所述第一重复企业信息、所述第二重复企业信息合并为第三重复企业信息;

其中,所述第一规则包括:地区、字号、经营范围、组织形式、机构类型中的一个或一个以上的组合;所述第二规则包括:地区、字号、经营范围、组织形式、机构类型中的一个或一个以上的组合;所述第一规则与所述第二规则不同。

第三方面,本发明实施例提供一种企业信息查重设备,包括:

存储器,用于存储计算机程序;

处理器,用于执行所述计算机程序时实现如上述第一方面任一种所述企业信息查重方法的步骤。

第四方面,本发明实施例提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面任一种所述企业信息查重方法的步骤。

本发明实施例提供一种企业信息查重方法,包括:获取企业信息,所述企业信息包括:企业名称;将所述企业名称拆分以地区、字号、经营范围、组织形式、机构类型为类别的分词词组;对所述分词词组,以地区、字号、经营范围、组织形式、机构类型中的一个或一个以上的组合作为查重依据,确定重复的企业信息,本发明实施例可以实现自动的分词词组的拆分,并且按照企业信息的格式对各个词组进行组合已确定重复的企业信息,能够降低对操作人员的技能要求,方便、快捷地对企业名称进行查重。

本发明实施例提供的一种企业名称查重方法及装置、设备、介质,都具有上述的有益效果在此不再一一赘述。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引申获得其它的实施附图。

本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

图1为本发明实施例提供的一种企业信息查重方法的流程图;

图2为本发明实施例提供的一种企业信息查重方法的格式统一流程图;

图3为本发明实施例提供的一种企业信息查重方法的双重查重流程图;

图4为本发明实施例提供的一种企业信息查重方法的数据存储调用流程图;

图5为本发明实施例提供的一种企业信息查重方法的实践流程图;

图6为本发明实施例提供一种企业信息查重装置的组成结构示意图;

图7为本发明实施例提供一种企业信息查重装置的分词组合查重模块组成结构示意图;

图8为本发明一种具体实施方式中所提供的一种企业信息查重设备的结构示意图;

图9为本发明一种具体实施方式中所提供的一种计算机可读存储介质的结构示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参考图1、图2、图3、图4、图5,图1为本发明实施例提供的一种企业信息查重方法的流程图;图2为本发明实施例提供的一种企业信息查重方法的格式统一流程图;图3为本发明实施例提供的一种企业信息查重方法的双重查重流程图;图4为本发明实施例提供的一种企业信息查重方法的数据存储调用流程图;图5为本发明实施例提供的一种企业信息查重方法的实践流程图。

本发明实施例提供一种企业信息查重方法,包括:

步骤s11:获取企业信息,所述企业信息包括:企业名称;

步骤s12:将所述企业名称拆分以地区、字号、经营范围、组织形式、机构类型为类别的分词词组;

步骤s13:对所述分词词组,以地区、字号、经营范围、组织形式、机构类型中的一个或一个以上的组合作为查重依据,确定重复的企业信息。

在本发明实施例中,首先需要获取企业信息,例如可以通过存储有企业信息的excel表格文件获取企业信息,具体地,企业信息应当至少包括企业名称,当然也可以包括企业的一些其他信息,例如与所述企业名称对应的工商信息、联系人姓名、邮箱地址、电话号码、手机号码等。

在获取到企业信息后,可以根据企业信息中的企业名称,将企业名称拆分以地区、字号、经营范围、组织形式、机构类型为类别的分词词组,一般地,对于企业名称来讲,由于国家部门的规定,企业名称需要符合一定的规范,例如对于一个名叫“北京知呱呱知识产权代理有限公司”的企业名称来讲,北京为地区、知呱呱为字号、知识产权代理为经营范围、有限公司蕴含了组织形式和结构类型。因此,可以此种企业名称的规律将企业名称进行分词,得到以地区、字号、经营范围、组织形式、机构类型为类别的分词词组。

具体地,例如在中国,企业名称中的地区,包括:国家、省份、城市、区县;因此可以将中国的地名进行列,以利于对比分词;而中国的机构类型,包括:公司、事务所、部、厅、局、机构、处等,也可以将这些结构类型进行列举,其中部、厅、局、机构、处为行政结构。

在得到分词词组后,可以对每一个词组为依据进行分别的查重,例如,可以将地区设置为查重依据,从而可以得到所有的属于同一个地区的企业名称,当然,这还不够,因为一个地区有很多企业,因此,可以进一步地用字号进行进一步查重。例如,如果获取的企业名称中有:北京知呱呱知识产权代理有限公司、辽宁知呱呱知识产权代理有限公司、西安知呱呱知识产权代理有限公司等三个公司名称,当只使用字号进行查重时,显示三个企业名称都是重复的,然而,如果同时使用地区、字号进行查重时,那么三个公司都不是重复的。

当企业信息,还包括:与所述企业名称对应的联系人姓名、邮箱地址、电话号码、手机号码中的一个或一个以上的组合;相应地,所述查重方法还包括:利用联系人姓名、邮箱地址、电话号码、手机号码中的一个或一个以上的组合作为查重依据,确定重复的企业信息。也就是说,不仅使用企业名称中分词得到的分词词组进行查重,还可以利用联系人姓名、邮箱地址、电话号码、手机号码等进行查重。

进一步地,由于各种渠道获取的企业信息,由于输入法、输入习惯的不同,因此可能存在相同的意思存在不同的表达,例如北京108中学,也可以输作北京一零八中学,如果带有英文字符,那么可能还存在半角、全角输入的不同,如果不对这些不同不做规范处理,那么就不能有效地对企业名称进行查重,因此在所述获取企业信息之后,在所述将所述企业名称拆分以地区、字号、经营范围、组织形式、机构类型为类别的分词词组之前,还可以实施以下步骤以实现输入格式的统一:

步骤s21:将所述企业信息中的全角数据或半角数据转换为第一预设格式;

步骤s22:将所述企业信息中的阿拉伯数字或汉字数字转换为第二预设格式,得到格式统一的企业信息;

步骤s23:将所述企业信息中的汉字转为拼音,以便实现同音字查重;

步骤s24:将所述企业信息中的繁体字转简体字,以实现简繁体重复检查;

其中,所述第一预设格式为全角数据或半角数据;所述第二预设格式为阿拉伯数字或汉字数字。

更进一步地,在实践中,可能存在采用两套不同的分词词组组合作为规则对企业名称进行筛选时,得到的查重结果不同,这时可以将两组规则查重得到的结果进行进一步的操作,以更加车彻底进行查重,为了实现对所述分词词组,以地区、字号、经营范围、组织形式、机构类型中的一个或一个以上的组合作为查重依据,确定重复的企业信息,可以实施以下步骤:

步骤s31:利用第一规则对所述分词词组进行查重,得到第一重复企业信息;

步骤s32:利用第二规则对所述分词词组进行查重,得到第二重复企业信息;

步骤s33:如果所述第一重复企业信息、所述第二重复企业信息中存在信息交叉的企业信息,则将所述第一重复企业信息、所述第二重复企业信息合并为第三重复企业信息;

其中,所述第一规则包括:地区、字号、经营范围、组织形式、机构类型中的一个或一个以上的组合;所述第二规则包括:地区、字号、经营范围、组织形式、机构类型中的一个或一个以上的组合;所述第一规则与所述第二规则不同。例如,如果第一重复企业信息为:北京知呱呱知识产权代理有限公司、西安知呱呱知识产权代理有限公司;第二重复企业信息为:北京知呱呱知识产权代理有限公司,上海知呱呱知识产权代理有限公司;这时第一重复企业信息与第二重复企业信息具有相同的企业名称:北京知呱呱知识产权代理有限公司,因此可以第一重复企业信息、第二重复企业信息中存在信息交叉;此时,可以将第一重复企业信息、所述第二重复企业信息进行合并,得到第三重复企业信息:北京知呱呱知识产权代理有限公司、西安知呱呱知识产权代理有限公司、上海知呱呱知识产权代理有限公司。

值得指出的是,在对企业信息进行查重之后,也就是在将所述第一重复企业信息、所述第二重复企业信息合并为第三重复企业信息之后,还可以将这些规则存储为规则组模板,从而方便以后的使用,具体可以进行以下步骤:

步骤s41:将所述第一规则、所述第二规则作为规则组模板存储,以便后续使用调用;

步骤s42:将所述企业信息中完全重复的数据只保留一份,得到企业查重结果数据,以便用户导出使用。

本发明实施例提供一种企业信息查重方法,包括:获取企业信息,所述企业信息包括:企业名称;将所述企业名称拆分以地区、字号、经营范围、组织形式、机构类型为类别的分词词组;对所述分词词组,以地区、字号、经营范围、组织形式、机构类型中的一个或一个以上的组合作为查重依据,确定重复的企业信息,本发明实施例可以实现自动的分词词组的拆分,并且按照企业信息的格式对各个词组进行组合已确定重复的企业信息,能够降低对操作人员的技能要求,方便、快捷地对企业名称进行查重。

请参考图6、图7,图6为本发明实施例提供一种企业信息查重装置的组成结构示意图;图7为本发明实施例提供一种企业信息查重装置的分词组合查重模块组成结构示意图。

第二方面,本发明实施例提供一种企业信息查重装置600,包括:

企业信息获取模块610,用于获取企业信息,所述企业信息包括:企业名称;

企业名称分词模块620,用于将所述企业名称拆分以地区、字号、经营范围、组织形式、机构类型为类别的分词词组;

分词组合查重模块630,用于对所述分词词组,以地区、字号、经营范围、组织形式、机构类型中的一个或一个以上的组合作为查重依据,确定重复的企业信息。

优选地,所述分词组合查重模块630,包括:

第一查重单元631,用于利用第一规则对所述分词词组进行查重,得到第一重复企业信息;

第二查重单元632,用于利用第二规则对所述分词词组进行查重,得到第二重复企业信息;

数据合并单元633,用于如果所述第一重复企业信息、所述第二重复企业信息中存在信息交叉的企业信息,则将所述第一重复企业信息、所述第二重复企业信息合并为第三重复企业信息;

其中,所述第一规则包括:地区、字号、经营范围、组织形式、机构类型中的一个或一个以上的组合;所述第二规则包括:地区、字号、经营范围、组织形式、机构类型中的一个或一个以上的组合;所述第一规则与所述第二规则不同。

请参考图8、图9,图8为本发明一种具体实施方式中所提供的一种企业信息查重设备的结构示意图;图9为本发明一种具体实施方式中所提供的一种计算机可读存储介质的结构示意图。

本发明实施例提供企业信息查重设备800,包括:

存储器810,用于存储计算机程序;

处理器820,用于执行所述计算机程序时实现如上述第一方面所述任一种企业信息查重方法的步骤。该计算机程序存储于存储器810中的用于程序代码存储的空间中,该计算机程序有处理器820执行时实现任一种本发明实施例中的方法。

本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种具体实施方式所述任一种企业信息查重方法的步骤。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置,设备和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置,设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,功能调用设备,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1