一种基于主营业务的公司信息处理方法、存储介质及设备与流程

文档序号:18319290发布日期:2019-08-03 10:18阅读:217来源:国知局
一种基于主营业务的公司信息处理方法、存储介质及设备与流程

本发明涉及信息安全技术领域,具体而言,涉及一种基于主营业务的公司信息处理方法。



背景技术:

随着大数据时代的到来,越来越多的公司重视基于大数据的公司对比分析,对公司进行对比分析,首先是对经营范围相近的公司进行聚类,例如按照行业进行分类,但是随着公司经营范围的多样化,同一行业下公司主营业务可能千差万别,不同行业的主营业务也可能相近,因此导致按行业进行公司信息处理,对公司的定位不够准确,进而导致得到的公司各个维度的对比分析不够具有代表性,不能给公司带来相对准确的发展定位等。基于公司行业的公司信息处理不够准确,进而导致得到的公司各个维度的对比分析不够具有代表性,不能给公司带来相对准确的发展定位的问题。

因此,在长期的研发当中,发明提出了一种基于主营业务的公司信息处理方法,以解决上述技术问题之一。



技术实现要素:

本发明的目的在于提供一种基于主营业务的公司信息处理方法、装置、介质和电子设备,能够解决上述提到的至少一个技术问题。具体方案如下:

一种基于主营业务的公司信息处理方法,其特征在于,包括如下步骤:

s1、获取并识别公司名称,摘除公司名称中地址信息和公司注册类型信息;

s2、将摘除后的公司名称分层抽样分析,确定截取字数上限值;

s3、基于确定的所述上限值对摘除后的公司名称进行偶数位拆词和ik拆词,形成最初的分类标签词;

s4、用已有的公司商号库过滤掉所述最初的分类标签词中的商号并对所述最初的分类标签词的剩余部分进行排重;

s5、对所述最初的分类标签词的剩余部分进行词性分析,根据词性分析结果筛除不能代表公司业务特点的分类标签词;

s6、对上述筛除后分类标签词进行人工筛选,删除拆错的分类标签词,然后进行前后匹配排序,形成公司分类标签词词典;

s7、根据所述公司分类标签词词典对公司名称进行净覆盖公司数统计,评估公司分类标签词典的全面性;

s8、统计未覆盖的公司数,评估该分类标签词词典的公司覆盖率。

进一步地,所述的步骤s1的具体处理过程如下:根据包含各省、市、自治区、直辖市以及县的地区字典,遍历每个公司名称,删除每个公司名称的所在地部分,构建不含地址信息的公司名数据库,然后再根据现有的公司注册类型字典遍历上述公司名数据库,构建不含地址信息和公司注册类型的公司名数据库。

进一步地,所述的步骤s2的具体处理过程如下:对数据库中的公司按照公司注册类型进行分组,根据各注册类型公司占比进行分层抽样,每个注册类型抽取0.1‰的公司,确定去掉地址和公司注册类型信息后的公司名称应该截取字数上限值。

进一步地,所述的步骤s3的具体处理过程如下:一个公司名称去掉地址信息和公司注册类型信息,然后从后往前截取6个字,再进行偶数位拆词和ik拆词。

所述的ik拆词具体操作原理为:采用ik分词器技术,同时整理自己的词典,补充到ik分词器中,以便对ik分词器做优化;收集停用词,然后采用hive技术,同时集成ik分词器,对所有的公司进行分词,并过滤掉分词结果中一个字的词。

进一步地,根据各个行业的商号库遍历该行业下拆出的分类标签词,过滤掉商号。

进一步地,所述的步骤s5和s6中,对剩余的词进行进一步优化筛选,然后不分行业进行汇总并进行前后匹配排序,形成公司分类标签词词典;删除拆错的词后,进行前后匹配排序,前后匹配排序时分为一级分类词标签,与其匹配的二级分类词标签及匹配的三级分类词标签。

进一步地,所述的步骤s7中,用漏斗式方法进行统计,从最低一级的分类标签词开始统计,根据每个词的净覆盖公司数,估计词典内分类标签词的全面性。

进一步地,所述的步骤s8中,覆盖率为coverage(%),公司信息处理词标签覆盖公司数为company_num1,总公司数为company_num2,该字典的公司覆盖率coverage(%)=company_num1/company_num2*100%。

根据本发明的具体实施方式,本发明提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上任一项所述的对文档中的内容进行编辑的方法。

根据本发明的具体实施方式,本发明提供一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上任一项所述的对文档中的内容进行编辑的方法。

本发明实施例的上述方案与现有技术相比,至少具有以下有益效果:

本发明结合公司注册的命名规则与公司主营业务之间的关系,在公司名称中对公司主营业务进行相对准确的提取,并以此作为公司分类的依据,对公司进行基于主营业务的分类,因此能够对公司的主营业务进行相对准确的定位,进而对公司进行更准确的划分,有利于公司之间进行各维度的对比分析。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:

图1示出了根据本发明实施例提供的基于主营业务的公司信息处理方法流程图;

图2示出了根据本发明的实施例的电子设备连接结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种。

应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。

应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述……,但这些……不应限于这些术语。这些术语仅用来将……区分开。例如,在不脱离本发明实施例范围的情况下,第一……也可以被称为第二……,类似地,第二……也可以被称为第一……。

取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者装置中还存在另外的相同要素。

下面结合附图详细说明本发明的可选实施例。

实施例1

如图1所示本发明实施例提供了一种基于主营业务的公司信息处理方法,包括如下步骤:

s1、获取公司名称,对公司名称中地址信息和公司注册类型信息摘除;

s2、将公司名称中剩余部分根据公司注册类型进行分层抽样分析,确定剩余公司名称应该最多截取多少个字最能代表公司主营业务;

s3、按照确定的截取字个数对公司名称剩余部分进行从后往前截取,然后对截取的公司名称字段进行偶数位拆词和ik拆词,形成最初的分类标签词;

s4、用已有的公司商号库过滤掉分类标签词中的商号并对剩余的分类标签词进行排重;

s5、对分类标签词进行词性分析,根据词性分析结果筛除人名、地名等不能代表公司业务特点的分类标签词,从而减少人工成本;

s6、对上述步骤剩余的分类标签词进行人工筛选,删除拆错的分类标签词,然后进行前后匹配排序,形成公司分类标签词词典;

s7、根据形成的分类标签词词典对公司名称进行净覆盖公司数统计,评估公司分类标签词的全面性;

s8、统计未覆盖的公司数,评估该分类标签词词典的公司覆盖率。

实施例2

首先,获取公司名称,并识别名称中蕴含的公司所在地和公司注册类型等信息,然后对公司名称中地址信息和公司注册类型信息摘除;具体的处理方法可以是:根据包含各省、市、自治区、直辖市以及县的地区字典,遍历每个公司名称,删除每个公司名称的所在地部分,构建不含地址信息的公司名数据库,然后再根据现有的公司注册类型字典遍历上述公司名数据库,构建不含地址信息和公司注册类型的公司名数据库。

接下来,对上述新的公司名数据库根据公司注册类型进行分层抽样分析,确定公司名称从后往前截取字的个数;具体的处理方法可以是:a)对数据库中的公司按照公司注册类型进行分组,根据各注册类型公司占比进行分层抽样,每个注册类型抽取0.1‰的公司,确定去掉地址和公司注册类型信息后的公司名称应该截取多少个字,根据国内公司的命名习惯,一般选取偶数位,如选取六位,如“广西九崇天生态旅游发展有限公司”去掉地址和公司类型后为“九崇天生态旅游发展”,然后从后往前最多截取六个字为“生态旅游发展”最能代表公司主营业务。

接下来对截取的公司名称字段进行偶数位拆词和ik拆词;具体的处理方法可以为:如果一个公司名称去掉地址信息和公司注册类型信息,然后从后往前截取6个字,例如“广西九崇天生态旅游发展有限公司”去掉地址和公司类型后为“九崇天生态旅游发展”,然后从后往前最多截取六个字为“生态旅游发展”,然后对“生态旅游发展”进行偶数位拆词和ik拆词;

ik拆词具体操作原理为:采用ik分词器技术,同时整理自己的词典,补充到ik分词器中,以便对ik分词器做优化;收集停用词如“的”、“地”、“和”等,然后采用hive技术,同时集成ik分词器,对所有的公司进行分词,并过滤掉分词结果中一个字的词;

某个公司的拆词结果可以为:“生态”、“旅游”、“发展”、“生态旅游”、“旅游发展”、“生态旅游发展”,作为该公司的分类标签词;

接下来根据公司所属的行业对应的商号库,对所有公司拆出的词过滤掉商号词;具体的处理方法可以是:根据各个行业的商号库遍历该行业下拆出的分类标签词,过滤掉商号,例如:“巴彦县润吉农民种植专业合作社”,去掉地名和注册类型后从后往前截取六个字为“润吉农民种植”,进行偶数位拆词和ik拆词,拆词结果为:“润吉”、“农民”、“种植”、“润吉农民”、“农民种植”、“润吉农民种植”,而“润吉”为商号,则包含“润吉”的词被过滤掉,则剩余可用的分类标签词为“农民”、“种植”、“农民种植”,可通过排重后遍历,减少遍历的次数。

接下来对剩余的词进行进一步优化筛选,然后不分行业进行汇总并进行前后匹配排序,形成公司分类标签词词典;删除拆错的词后,前后匹配排序的处理方法可以是:例如“数控”一词作为一级分类词标签,跟它匹配的二级分类词标签可以为:“数控设备”、“数控机床”、“精密数控”、“智能数控”等,“数控设备”二级分类词标签下可以匹配的三级标签有:“数控设备制造”、“机床数控设备”等。

接下来,根据形成的聚类词典对公司名称进行分类词典的净覆盖公司数统计,评估词典分类词标签的全面性;具体的处理方法可以为:用漏斗式方法进行统计,从最低一级的分类标签词开始统计,例如一级分类标签词为:“数控”,它下面的二级分类标签词可以有:“数控设备”,这个二级分类标签词下可以有三级分类标签词:“数控设备制造”,“机床数控设备”等,“数控设备制造”下覆盖的公司数为n3_1,“机床数控设备”下覆盖的公司数为n3_2。。。,则二级分类标签“数控设备”下三级分类标签覆盖的总公司数为:

n3_total=n3_1+n3_2+n3_3+n3_4-∩(n3_1,n3_2,n3_3,n3_4)则若二级分类标签下的“数控设备”覆盖的公司总数为n2_total,则它的净覆盖公司数为:n2_total-n3_total;进而根据每个词的净覆盖公司数,估计词典内分类标签词的全面性;

最后统计分类标签覆盖的公司数①,评估该字典的公司覆盖率;具体的处理方法可以是:覆盖率为coverage(%),公司分类词标签覆盖公司数为company_num1,总公司数为company_num2则该字典的公司覆盖率coverage(%)=company_num1/company_num2*100%。

本发明实施例中分类标签词覆盖公司数统计方法为:公司名称里面包含该分类标签词,就记为1。

实施例3

如图2所示,本实施例提供一种电子设备,该设备用于基于主营业务公司信息处理的方法,所述电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器。

下面参考图2,其示出了适于用来实现本公开实施例的电子设备400的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。图2示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。

如图2所示,电子设备400可以包括处理装置(例如中央处理器、图形处理器等)401,其可以根据存储在只读存储器(rom)402中的程序或者从存储装置408加载到随机访问存储器(ram)403中的程序而执行各种适当的动作和处理。在ram403中,还存储有电子设备400操作所需的各种程序和数据。处理装置401、rom402以及ram403通过总线404彼此相连。输入/输出(i/o)接口405也连接至总线404。

通常,以下装置可以连接至i/o接口405:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置406;包括例如液晶显示器(lcd)、扬声器、振动器等的输出装置407;包括例如磁带、硬盘等的存储装置408;以及通信装置409。通信装置409可以允许电子设备400与其他设备进行无线或有线通信以交换数据。虽然图2示出了具有各种装置的电子设备400,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置409从网络上被下载和安装,或者从存储装置408被安装,或者从rom402被安装。在该计算机程序被处理装置401执行时,执行本公开实施例的方法中限定的上述功能。

需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、rf(射频)等等,或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取至少两个网际协议地址;向节点评价设备发送包括所述至少两个网际协议地址的节点评价请求,其中,所述节点评价设备从所述至少两个网际协议地址中,选取网际协议地址并返回;接收所述节点评价设备返回的网际协议地址;其中,所获取的网际协议地址指示内容分发网络中的边缘节点。

或者,上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:接收包括至少两个网际协议地址的节点评价请求;从所述至少两个网际协议地址中,选取网际协议地址;返回选取出的网际协议地址;其中,接收到的网际协议地址指示内容分发网络中的边缘节点。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1