一种基于政务文本数据词性标注的企业主体匹配方法与流程

文档序号:25646033发布日期:2021-06-25 17:18阅读:87来源:国知局
一种基于政务文本数据词性标注的企业主体匹配方法与流程

1.本发明涉及计算机应用技术领域,尤其涉及一种基于政务文本数据词性标注的企业主体匹配方法。


背景技术:

2.随着国家信息化建设不断推进,多个地区已开展数据资源共享和整合的工作,但是,对于政务部门,仍存在多个系统共同工作,并且使用复杂的交互方式进行数据共享的现状,这种现状容易出现数据更新不及时,以及当某个系统停用了导致其他系统数据不更新的问题,而企业信息是多个系统的核心内容,但由于企业信息属性多,并且存在变更的需要,比如企业名称,一个企业名称的信息变更次数有多次,变更过程还有可能出现人工误录入的场景,企业名称识别错误的情况会很容易导致围绕企业的其他功能出现问题;而现今大部分还是采用人工核对的方式对企业名称进行匹配,导致在政务大数据处理中,人工核对两方文本企业主体的匹配是一项耗时费力的工作,而如何高效地解决这个问题,释放人力资源是政务大数据面临的问题之一,对此,本发明提出了一种基于政务文本数据词性标注的企业主体匹配方法,上述企业主体匹配方法在处理待匹配的政务数据时,可直接从政务文本数据中实现对企业实体的匹配,大大提高了匹配效率,实现政务大数据的智能互通。


技术实现要素:

3.本发明所要解决的技术问题在于针对现有的政务大数据处理中主要是通过人工核对两方文本企业主体的匹配导致耗时费力的问题,而构思的从政务文本数据中提取企业名称,依据已知企业命名规则进行的企业命名模式提取,对所述企业命名模式的匹配,根据所述企业命名模式匹配的结果,确定文本中企业主体的匹配结果,上述企业主体匹配方法在处理待匹配的政务数据时,可直接从政务文本数据中实现对企业实体的匹配,大大提高了匹配效率,实现政务大数据的智能互通。
4.为解决上述问题,本发明实施例提供的技术方案如下:
5.在本发明实施例第一方面,提供了一种基于政务文本数据词性标注的企业主体匹配方法,该方法包含以下步骤:
6.获取待识别文本;
7.将所述待识别文本输入企业实体识别模块,并将所述企业实体识别模块的输出作为所述待识别文本对应的企业名称主体词汇;
8.将所述企业名称主体词汇输入模式提取模块,并将所述模式提取模块的输出作为所述待识别文本对应的企业名称待匹配词;所述企业名称待匹配词由以下三部分构成:表示地理位置的城市信息、企业自身的名称信息+企业所处行业信息、企业性质信息;其中,约定表示地理位置的城市信息的词为第一待匹配词,表示企业自身的名称信息+企业所处行业信息的词为第二待匹配词,表示企业性质信息的词为第三待匹配词;
9.构建自有企业名称库:将自有企业名称文本输入到所述模式提取模块中获得企业
名称匹配词,所述企业名称匹配词由以下三部分构成:表示地理位置的城市信息、企业自身的名称信息+企业所处行业信息、企业性质信息;其中,约定表示地理位置的城市信息的词为第一匹配词,表示企业自身的名称信息+企业所处行业信息的词为第二匹配词,表示企业性质信息的词为第三匹配词;
10.对于预先构建的自有企业名称库中的任一备选企业名称,将所述企业名称待匹配词与所述备选企业名称的企业名称匹配词进行匹配;
11.先按照第一待匹配词和第一匹配词进行对比,若第一待匹配词缺失或者第一待匹配词和第一匹配词匹配成功,再依次进行第二待匹配词和第二匹配词的匹配得分计算,以及第三待匹配词和第三匹配词的匹配得分计算,最终获得模式匹配的综合得分;若第一待匹配词和第一匹配词匹配不成功,则备选企业名称匹配不成功;选取综合得分大于阈值且综合得分最高的匹配项作为输出,将综合得分最高的所述备选企业名称确定为标准企业名称。
12.在一种可能的实现方式中,所述方法还包括:企业实体识别模块的具体识别步骤如下:对于所述待识别文本,首先采用具有企业实体名称最右边界性质的词语,依次搜索企业实体名称的所有最右边界词语,其中,约定上述搜索过程为第一次搜索;然后采用地理信息词库搜索出所有最右边界对应的最左边边界,其中,约定上述搜索过程为第二次搜索;并将上述最左边边界到最右边界之间的字符确定为企业名称主体词汇。
13.在一种可能的实现方式中,所述方法还包括:企业实体名称最右边界性质的词语为股份有限公司、有限公司、公司、工作室。
14.在一种可能的实现方式中,所述方法还包括:所述第一次搜索和所述第二次搜索均采用确定有穷自动机(dfa)进行搜索。
15.在一种可能的实现方式中,所述方法还包括:企业实体名称最右边界性质的词语采用倒序方式构建树型数据模型,搜索时对所述待识别文本进行反向搜索存在的所有企业实体名称的最右边界词语。
16.在一种可能的实现方式中,所述方法还包括:如果所述第一次搜索成功,而所述第二次搜索失败,则输出所述待识别文本的起始字符至最右边界处的字符之间的字符作为企业名称主体词汇。
17.在一种可能的实现方式中,所述方法还包括:如果所述第一次搜索失败,且所述第二次搜索也失败,则输出所述待识别文本。
18.在一种可能的实现方式中,所述方法还包括:对于企业实体识别模块输出的文本采用jieba分词的词性标注功能对截取的字符串进行词性标注,按照jieba词性标注工具中词性的注释,选择词性为地理位置的城市信息的词语部分作为第一待匹配词,依次选择两个词性中含有企业自身的名称信息+企业所处行业信息、企业性质信息的词语分别作为第二待匹配词和第三匹配词。
19.在一种可能的实现方式中,所述方法还包括:第二待匹配词和第二匹配词的匹配得分计算运用最长公共子序列算法计算匹配得分;第三待匹配词和第三匹配词的匹配得分计算运用最长公共子序列算法计算匹配得分。
20.对于上述方法,本发明具体如下的步骤实现:
21.(1)自定义企业实体的命名:采用企业实体识别模块进行企业名称主体词汇的提
取过程中的标准企业命名由以下三部分构成,即表示地理位置的城市信息(ns)、企业自身的名称信息+企业所处行业信息(n)以及企业性质信息(n);可以理解为企业的标准名称规则符合模式ns+nn型,依据此模式特性,自定义方法确定企业实体最左最右边界提取企业名称主体词汇;
22.(2)采用ns+nn模式提取模块从政务文本中获取企业名称待匹配词:对于步骤(1)中的企业实体识别模块获得的企业名称主体词汇,根据识别时采用的自有词库特性提取出匹配模式(ns+nn);对于未能从文本中直接提取到企业名称主体词汇的文本,直接利用jieba分词工具进行词性标注,以具有地理性质特性的词语开始获取文本中的一组或多组ns+nn匹配模式:
23.(3)企业主体匹配:采用企业主体匹配模块对企业主体进行匹配,对于步骤(2)中获取的ns+nn的匹配模式,先按照表示地理位置的城市信息(ns)序列部分进行完全对比,若缺失ns序列部分或者匹配成功,直接进行nn序列中的包含企业自身名称信息以及包含企业所处行业信息的部分进行匹配计算,获得模式匹配的综合得分,大于阈值且得分最高者视为企业匹配成功,至此结束;若ns序列部分匹配不成功,则企业匹配不成功,结束。
24.其中,上述步骤(1)中的具体步骤如下:
25.步骤1):采用自定义命名实体识别方法,从文本中识别出公司实体:首先根据预先自定义企业名称领域的词库,如"公司"、"有限公司"等具有企业名称最右边界性质的词语反向依次搜索企业名称的所有最右边界词语;然后根据预先自定义地理信息词库搜索出所有最右边界对应的最左边边界。若提取成功则输出提取的企业名称主体词汇,并标记为ture。反之标记为flase,输出原文本或者是经过第一次成功匹配筛选后的文本。
26.其中,上述步骤(2)中的具体步骤如下:
27.步骤2):将步骤1)中的输出作为本模块的输入,并且将该输入分成3个部分;若步骤1)标记为ture,将第二次成功匹配的词语作为模式的ns序列,第一次匹配成功的词语作为模式的第二个n序列,两者之前的字符作为模式的第一个n序列;若步骤1)标记为false,则使用jieba分词的词性标注功能对步骤1)的输出进行词性标注。按照jieba词性标注工具中,词性的注释,选择词性为“ns”的词语部分作为模式的ns部分,依次选择两个词性中含有字符“n”词语作为模式的nn序列。
28.其中,上述步骤(3)中的具体步骤如下:
29.步骤3):基于步骤(2)中获得的ns+nn模式序列,首先匹配ns序列部分,ns具有明确的位置信息,若匹配结果不对应,则表示两文本中描述的企业实体为不同企业,此时结束程序,返回false;若匹配成功或者该模式ns序列缺失,则转入步骤4)进行匹配计算;
30.步骤4):包含企业自身名称信息的nn序列,对该部分序列运用最长公共子序列的算法(lcs)计算匹配得分;
31.步骤5):包含企业性质信息的nn序列,对该部分序列按照lcs算法进行匹配得分;
32.对步骤4)与步骤5)中获得的匹配得分进行加权获得nn序列最终综合得分。将该综合得分与预先定义的阈值进行比较,所有综合得分低于阈值表示企业名称匹配不成功,结束程序,返回flase;高于阈值且得分最高表示企业名称匹配成功,结束程序,返回匹配成功的企业名称。
33.在本发明实施例第二方面,提供了一种企业主体匹配装置,所述装置包括:第一获
取单元,用于获取待识别文本,所述待识别文本中至少包括一个企业名称;
34.第二获取单元,用于从所述待识别文本中获取所述待识别文本对应的企业名称主体词汇;
35.第三获取单元,用于从所述待识别文本中获取所述待识别文本对应的企业名称待匹配词;
36.企业名称库单元,用于将自有企业名称文本转化成企业名称匹配词;
37.匹配单元,用于对所述企业名称库单元中的任一备选企业名称,将所述企业名称待匹配词与所述备选企业名称的企业名称匹配词进行匹配,并计算所述备选企业名称的综合得分;
38.确定单元,选取综合得分大于阈值且综合得分最高的匹配项作为输出,将综合得分最高的所述备选企业名称确定为标准企业名称。
39.本发明与现有技术相比具有以下优点:本发明解决了在政务大数据处理中通过人工核对两方文本企业主体的匹配导致的耗时费力,效率低下的问题,而构思从文本中直接提取或者从企业实体中提取符合企业名称命名样式的自定义模式(ns+nn),所述自定义模式(ns+nn)是在考虑企业在向工商局进行登记企业名称时,企业名称需要由所在省/市/县行政规划名称、字号或者商号、行业或者经营特点和组织形式四个部分构成,依据以上特性,特提出自定义企业实体提取方法,该方法首先将上述四个部分组合成三个部分,即将字号或者商号和行业或者经营特点合成一个表明企业自身性质的部分,在提取企业实体时,预先构建组织形式相关的词库结构,然后再预先构建企业所在省市县的行政规划词库,通过两个词库确定企业名称的最右和最左边界,从而提取出企业名称主体词汇;如果无法从文本中直接提取出符合要求的企业名称主体词汇,则对文本采用基于jieba分词的语义分析进行标记分组来获得符合要求的企业名称主体词汇,同时,采用针对不同含义的自定义模式序列段进行不同匹配方式,含有地理性质的自定义的ns序列段直接进行匹配,nn序列段则进行最长公共子序列算法(lcs)进行评分匹配,上述企业主体匹配方法在处理待匹配的政务数据时,可直接从政务文本数据中实现对企业实体的匹配,大大提高了匹配效率,实现政务大数据的智能互通。
附图说明
40.图1为本发明中的ns+nn模式提取方法流程图;
41.图2为本发明中的最长公共子序列匹配方法流程图;
42.图3为本发明中的具体实施例中的模式提取过程示意图;
43.图4为本发明中的具体实施例中的模式匹配过程示意图;
44.图5为本发明中的具体实施例中的企业主体匹配装置示意图。
具体实施方式
45.下面结合图1

图4与具体实施方式对本发明做进一步的说明。
46.一种基于政务文本数据词性标注的企业主体匹配方法,包含以下步骤:
47.(1)自定义企业实体的命名:采用企业实体识别模块进行企业名称主体词汇的提取;基于自有企业性质领域词库以及地理词库,通过确定企业名称最左以及最右边界,从而
获得文本中的企业名称主体词汇。
48.(2)采用ns+nn模式提取模块从政务文本中获取企业名称待匹配词:对于步骤(1)中的企业实体识别模块获得的企业名称主体词汇,根据识别时采用的自有词库特性提取出匹配模式(ns+nn);对于未能从文本中直接提取到企业名称主体词汇的文本,直接利用jieba分词工具进行词性标注,以具有地理性质特性的词语开始获取文本中的一组或多组ns+nn匹配模式,ns部分提取时添加“省”、“市”等限定词:模式提取如图1所示;
49.(3)企业主体匹配:采用企业主体匹配模块对企业主体进行匹配:预先将数据库中每一条待匹配的数据,通过步骤(1)与步骤(2)的方式处理成三个部分进行存储,ns部分进行存储时省略“省”、“市”等特定词语。将上述从文本中获取的ns+nn的匹配模式,先按照表示地理位置的城市信息(ns)序列部分进行对比,若缺失ns序列部分或者匹配成功,直接进行nn序列中的包含企业自身名称信息以及包含企业性质信息的部分进行匹配计算,获得模式匹配的综合得分,大于阈值且得分最高者为匹配成功项,至此结束;若ns序列部分匹配不成功,则企业匹配不成功,结束;如图2所示
50.其中,上述步骤(1)中的具体步骤如下:
51.步骤1):首先根据预先自定义企业名称领域的词库,对输入文本进行反向搜索存在的所有企业名称的最右边界词语。为提高搜索准确率,该词库中词语采用倒序方式构建树型数据模型。因此,搜索时采用反向搜索;
52.企业名称领域数据词库如表1:
53.词语司公任责限有司公限有份股司公限有司公室作工

54.然后根据预先自定义地理信息词库搜索出企业名称左边边界,此时采用正向搜索,且词库数据如表2所示:
55.词语浙江浙江杭州浙江湖州浙江温州

56.两次搜索均成功则输出提取企业名称,标记为ture,表示成功提取企业实体;其他标记为false,表示未成功提取企业实体。其中,第一次成功匹配,第二次不成功,则输出原文本开始至最右边界处的文本字符;两次搜索均不成功则输出原文本;因此,该步骤可能输出零组、一组或多组文本。
57.以上两次搜索匹配均采用确定有穷自动机(dfa)进行匹配。
58.dfa匹配过程如下:
59.a、根据词库构建词语的树型结构;假设词库为表2,则构建的树型结构形如:{'浙':{'is_end':false,'江':{'is_end':true,'杭':{'is_end':false,'州':{'is_end':true}},'湖':{'is_end':false,'州':{'is_end':true}},'温':{'is_end':false,'州':{'is_end':true}}}}}。
60.b、设置匹配模式为最大匹配;假设原文本为“浙江省杭州是适合企业发展的地方”,则根据限定词最大匹配的词语是“浙江杭州”而不是“浙江”。
61.c、输出匹配到词语以及在原文本中的位子。
62.其中,上述步骤(2)中的具体步骤如下:
63.步骤2):将步骤1)中的输出作为本模块的输入,并且将该输入分成3个部分;若步骤1)标记为ture,则根据自定义命名实体识别方法中第一次匹配成功的词语具有企业性质特性,第二次匹配成功的词语具有地理位置特性,两个成功匹配词语之间的文本可看为具有企业自身信息特性,将上一步骤的输出按照ns+nn的模式进行提取;若步骤1)标记为false,则使用jieba分词的词性标注功能对截取的字符串进行词性标注。按照jieba词性标注工具中,词性的注释,选择词性为“ns”的词语部分作为模式的ns部分,依次选择两个词性中含有字符“n”词语分别作为模式的nn部分。为保证尽可能提取模式,该步骤是提取文本中所有可能的模式组。
64.其中,上述步骤(3)中的具体步骤如下:
65.自有企业名称文本预处理结果如表3:
66.企业名称ns(地理信息)nn(自身信息)nn(性质)杭州凌网暖通工程有限公司杭州凌网暖通工程有限公司余姚市戴梦得洁具有限公司余姚戴梦得洁具有限公司宁波市鄞州金羊电器有限公司宁波鄞州金羊电器有限公司杭州益鑫投资咨询有限公司杭州益鑫投资咨询有限公司
…………
67.步骤3):按序处理步骤2)中的所有模式组,对其中任意组模式进行以下操作,首先获得该模式中的ns部分与预处理之后所有自有企业名称的ns部分进行完全对比。若ns对比成功则转入步骤4);若ns部分提取为空,则同样转为步骤4);若对比不一致则结束本轮对比。
68.步骤4):包含企业自身名称信息的nn序列,对该部分序列运用最长公共子序列的算法(lcs)计算匹配得分;
69.lcs计算匹配得分描述如下:
70.假设字符串a=x1x2,

,xm,b=y1y2,

,yn。字符串z是a与b的最长公共子序列,|z|表示字符串z的长度。则得分上述公式中的w1表示步骤4)的权值。
71.步骤5):包含企业性质信息的nn序列,对该部分序列依照lcs进行匹配得分;此时,计算匹配得分sore(n2)方式与上述一致,此时权值为w2。
72.对步骤4)与步骤5)中获得的匹配得分进行加权获得nn序列最终综合得分。考虑步
骤4)与步骤5)匹配文本的特性,分别为两步骤设立不同的权值属性,按照企业自身信息大于企业性质的顺序设置w1=0.65,w2=0.35。最终综合得分计算方式为sore=sore(n1)+sore(n2)。
73.步骤6):步骤5)中模式与表3数据匹配的所有综合得分排序,选择分数最高且大于阈值0.5的企业名称作为最终输出,否则结束。
74.本发明的实际使用情况如下所示:如图3

图4所示,当输入文本为:“绍兴县外事旅游汽车服务有限公司(浙xxx大型普通客车);xxx(浙xxx普通二轮摩托车)”其输出结果如图3所示,从图3中可知:在企业实体识别模块,根据词库从右至左匹配出输入文本的最右边界“有限公司”;同理,根据地理词库从输入文本开始至“有限公司”中匹配出最左边界“绍兴”,得出企业名称为“绍兴县外事旅游汽车服务有限公司”。在模式提取模块,根据步骤2)得到模式“ns:绍兴”、“n:外事旅游汽车服务”、“n:有限公司”。在企业主体匹配模块,将该模式与表3中数据依次进行匹配计算得分。
75.假设与该模式进行匹配的单条数据为“ns:绍兴”、“n:外事旅游服务”、“n:有限公司”,进行步骤3)ns部分比对,比对成功,转为步骤4)。由实例可知,步骤4)中|a|=8,|b|=6,z=

外事旅游’,|z|=4,则sore(n1)=0.4*w1=0.26。同理可得步骤5)sore(n2)=1*w2=0.35,则最终得分sore=0.61。步骤6)中,将所有得分排序选择得分最高且大于阈值0.5的企业名称作为输出,假设上述实例为最高得分,则该实例最终返回企业名称“绍兴外事旅游服务有限公司”。
76.最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明型的保护范围之内。
77.需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
78.应当理解,在本发明中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:只存在a,只存在b以及同时存在a和b三种情况,其中a,b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。、
79.还需要说明的是,在本发明中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设
备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
80.结合本发明中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd

rom、或技术领域内所公知的任意其它形式的存储介质中。
81.对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本发明中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本发明所示的这些实施例,而是要符合与本发明所公开的原理和新颖特点相一致的最宽的范围。
82.综上所述仅体现了本发明的优选技术方案,本领域的技术人员对其中某些部分所可能做出的一些变动均体现了本发明的原理,都应为本发明的技术范畴。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1