基于企业标签的企业匹配度处理方法及装置与流程

文档序号:33477079发布日期:2023-03-15 10:42阅读:44来源:国知局
基于企业标签的企业匹配度处理方法及装置与流程

1.本发明涉及计算机数据处理技术领域,尤指一种基于企业标签的企业匹配度处理方法及装置。


背景技术:

2.本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
3.随着社会的不断发展和国际化发展步伐的加快,在全球范围内提升企业及其品牌国际知名度、加强企业间的联系合作成为了很多企业发展的战略目标。为建立跨国企业间的交流平台,促成高质量的企业跨境合作,银行需要从获取到的企业信息中建立企业的行业及产品标签,设计实现基于企业标签的企业匹配方案,为联系紧密的企业提供洽谈的机会。
4.目前,传统的企业间匹配度预测方法存在以下问题:
5.1、缺少对企业标签生僻词的处理;在传统的企业标签处理方法中,当遇到无法被自然语言处理模型识别的生僻词时,通常直接删除该词汇。然而,在实际应用过程中,由于爬取数据的平台不同,获取的企业标签数据通常存在统计粒度不一的问题,有的标签可能会因为包含两个或多个简单词汇无法被模型识别,成为标签生僻词。如果直接删除这些可被进一步拆分的生僻词,将会导致企业标签关键数据的缺失,严重影响企业间匹配度的预测结果。
6.2、只考虑目标企业对标签一致性,未考虑其相似度;在传统的企业标签相似度计算中,仅考虑到了目标企业对所含标签是否相同,根据标签的一致性设计后续的匹配度预测方案。然而,由于爬取到的企业信息数据不存在统一的行业标签填写规范,当两个企业标签中存在同义词或近义词时,匹配度预测结果的准确性无法得到保障。
7.3、缺少对标签相似度的有效整合方案;在传统的企业匹配度预测方法中,往往对企业的行业标签相似度和产品标签相似度进行简单求和,得到最终的企业匹配度。但是,在实际预测过程中,不同的标签相似度对企业间匹配程度的影响是不均等的,需设计更为合理且有效的标签相似度整合方案。
8.综上来看,亟需一种能够克服上述缺陷,可以对生僻词进行处理,考虑企业对标签的相似度,并能够整合标签相似度的企业匹配度处理技术方案。


技术实现要素:

9.为解决现有技术存在的问题,本发明提出了一种基于企业标签的企业匹配度处理方法及装置,对不能被自然语言处理模型识别的标签生僻词进行处理,在相同标签匹配的基础上将企业产品标签中的同义词和近义词纳入匹配度预测方案中,通过对行业标签中高频词的统计和替换实现大规模企业数据的高效处理。在标签相似度聚合方法上采用了组合模型的方式,实现了可靠且有效的企业匹配度预测,从而发掘合作可能性较高的目标企业
对,促成企业间的高质量洽谈。
10.在本发明实施例的第一方面,提出了一种基于企业标签的企业匹配度处理方法,包括:
11.获取企业信息原始数据,清洗所述企业信息原始数据中的异常数据,提取企业标签并替换高频行业标签,得到企业标签数据;
12.基于语料库训练自然语言出模型;
13.利用所述自然语言处理模型对所述企业标签数据中的生僻词进行识别;
14.若包含生僻词,对所述生僻词进行处理,得到不含生僻词的企业标签数据;
15.若不包含生僻词,根据所述不包含生僻词的企业标签数据,计算企业对之间的企业标签相似度;
16.将所述企业对之间的企业标签相似度作为输入样本,利用组合模型匹配度预测模型预测企业匹配度。
17.在本发明实施例的第二方面,提出了一种基于企业标签的企业匹配度处理装置,包括:企业标签信息提取子系统及企业标签信息管理与评价子系统;
18.企业标签信息提取子系统包括:异常数据清洗模块、企业标签识别模块及高频行业标签替换模块;
19.异常数据清洗模块,用于获取企业信息原始数据,清洗所述企业信息原始数据中的异常数据;
20.企业标签识别模块,用于提取企业标签;
21.高频行业标签替换模块,用于替换高频行业标签,得到企业标签数据;
22.企业标签信息管理与评价子系统包括:自然语言处理模型训练模块、企业标签分流管理模块、企业标签生僻词处理模块、企业标签相似度计算模块及组合模型匹配度计算模块;
23.自然语言处理模型训练模块,用于基于语料库训练自然语言出模型;
24.企业标签分流管理模块,用于利用所述自然语言处理模型对所述企业标签数据中的生僻词进行识别;
25.企业标签生僻词处理模块,用于若包含生僻词,对所述生僻词进行处理,得到不含生僻词的企业标签数据;
26.企业标签相似度计算模块,用于若不包含生僻词,根据所述不包含生僻词的企业标签数据,计算企业对之间的企业标签相似度;
27.组合模型匹配度计算模块,用于将所述企业对之间的企业标签相似度作为输入样本,利用组合模型匹配度预测模型预测企业匹配度。
28.在本发明实施例的第三方面,提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现基于企业标签的企业匹配度处理方法。
29.在本发明实施例的第四方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现基于企业标签的企业匹配度处理方法。
30.在本发明实施例的第五方面,提出了一种计算机程序产品,所述计算机程序产品
包括计算机程序,所述计算机程序被处理器执行时实现基于企业标签的企业匹配度处理方法。
31.本发明提出的基于企业标签的企业匹配度处理方法及装置通过对标签生僻词进行处理,最大程度上保留企业有效信息,避免数据缺失,还利用自然语言处理模型实现了多标签相似度计算,确保企业特征相似性评价结果的可靠性,根据相似性评价结果结合组合模型实现准确、有效的企业匹配度预测,为企业磋商业务提供了有力的技术支持。
附图说明
32.为了更清楚地说明本技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
33.图1是本发明一实施例的基于企业标签的企业匹配度处理方法流程示意图。
34.图2是本发明一具体实施例的提取企业标签信息的流程示意图。
35.图3是本发明一具体实施例的生僻词处理的流程示意图。
36.图4是本发明一具体实施例的组合模型的示意图。
37.图5是本发明一实施例的基于企业标签的企业匹配度处理装置架构示意图。
38.图6是本发明一具体实施例的示例性场景示意图。
39.图7是本发明一实施例的计算机设备结构示意图。
具体实施方式
40.下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
41.本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
42.根据本发明的实施方式,提出了一种基于企业标签的企业匹配度处理方法及装置,涉及计算机数据处理技术领域。本发明设置标签生僻词的处理方法,能够将模型无法识别的词语或短语逐层拆解,替换为能够被模型识别的内容;并且,本发明还通过设计实现多标签相似度整合方法,能够将自然语言处理模型预测出的多个标签相似度进行有效整合,形成标签相似度特征。另外,本发明还将所得标签相似度特征作为机器学习组合模型的输入,实现企业匹配度的准确预测。整体来看,本发明充分考虑到企业标签相似性,注重对标签生僻词处理,能够更加有效地实现对匹配度的计算,从而达到更为理想的企业匹配度预测结果。
43.在本发明实施例中,需要说明的术语有:
44.企业标签:指从企业标签描述性语句中提取出的描述不同企业特征的词语或短语,在本发明中,企业标签包含四种类型,分别为:企业所属行业标签、企业目标行业标签、企业主营产品标签和企业目标产品标签。
45.标签生僻词:指无法被自然语言处理模型所识别的词语或短语。
46.目标企业对:指两个有可能建立合作关系的企业。
47.标签相似度:指一对企业标签含义的相似程度。
48.匹配度:描述目标企业对中,企业间行业信息及产品信息的匹配程度。
49.下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
50.图1是本发明一实施例的基于企业标签的企业匹配度处理方法流程示意图。如图1所示,该方法包括:
51.s1,获取企业信息原始数据,清洗所述企业信息原始数据中的异常数据,提取企业标签并替换高频行业标签,得到企业标签数据;
52.s2,基于语料库训练自然语言出模型;
53.s3,利用所述自然语言处理模型对所述企业标签数据中的生僻词进行识别;
54.s4,若包含生僻词,对所述生僻词进行处理,得到不含生僻词的企业标签数据;
55.s5,若不包含生僻词,根据所述不包含生僻词的企业标签数据,计算企业对之间的企业标签相似度;
56.s6,将所述企业对之间的企业标签相似度作为输入样本,利用组合模型匹配度预测模型预测企业匹配度。
57.为了对上述基于企业标签的企业匹配度处理方法进行更为清楚的解释,下面结合每一步骤来进行详细说明。
58.s1,获取企业信息原始数据,清洗所述企业信息原始数据中的异常数据,提取企业标签并替换高频行业标签,得到企业标签数据。
59.参考图2,为本发明一具体实施例的提取企业标签信息的流程示意图。如图2所示,包括:
60.s101,获取企业信息原始数据,清洗所述企业信息原始数据中的异常数据;
61.s102,提取企业标签;
62.s103,替换高频行业标签,得到企业标签数据。
63.具体的,在s101中,清洗所述企业信息原始数据中的异常数据,包括:
64.检查所述企业信息原始数据中的缺失数据或冗余数据,丢弃或补全所述缺失数据,清洗所述冗余数据。
65.在一实施例中,所述企业信息原始数据中包含企业信息表和企业洽谈结果表。
66.具体的,该方法还包括:
67.将企业信息表中的合作信息和企业基本信息进行汇总,将企业信息表中的企业主营产品、目标产品、所属行业、目标行业信息添加至企业洽谈结果表中。
68.在实际应用场景中,输入的企业信息原始数据包含企业信息表和企业洽谈表,可能出现部分数据缺失和数据冗余的情况,因此需要进行数据清洗,并完成缺失数据的丢弃或补全,清洗冗余数据。
69.企业信息表中存在一些企业名称乱码或企业信息不正确的情况,这些企业不作为研究样本,只保留企业特征值描述正常、企业关键信息完整的企业数据。由于后续需要对有合作意向的企业进行重点研究,需将合作信息和企业基本信息进行汇总,将企业信息表中的企业主营产品、目标产品、所属行业、目标行业信息添加至企业洽谈结果表中,实现有效
信息的整合。
70.在s102中,提取企业标签,包括:
71.从企业洽谈结果表的语义描述信息中提取关键词作为企业标签;其中,调用信息检索算法,对企业描述性信息中词汇进行评分,输出评分最高的前n个词汇作为该企业描述信息对应的企业标签。
72.在一实施例中,所述企业标签至少包括:
73.企业标识、企业行业标签及企业产品标签;
74.其中,所述企业行业标签包括:企业所属行业标签、企业目标行业标签;所述企业产品标签包括:企业主营产品标签及企业目标产品标签。
75.在实际应用场景中,从企业洽谈结果表的语义描述信息中提取关键词作为企业标签,通过调用用于信息检索的tf-idf(term frequency

inverse document frequency)算法,评价企业描述性信息中词汇的重要程度,输出重要性最高的前n个词汇作为该条信息对应的企业标签特征。
76.具体的,由于部分企业的描述性语句较短或包含信息量较低,这些企业的企业标签特征个数小于n。
77.举例而言,示例性的关键数据项说明如表1所示:
78.表1关键数据项
[0079][0080]
在s103中,替换高频行业标签的具体流程包括:
[0081]
提取所有企业行业标签中完全匹配的企业行业标签;
[0082]
统计企业行业标签的频次,将频次超过设定阈值的企业行业标签作为高频行业标签,得到k个高频行业标签;
[0083]
将含义相同的高频行业标签进行合并;
[0084]
将所有企业的企业行业标签用统计出的高频行业标签表示,若企业行业标签不与任何一个高频行业标签含义相同或相近,采用其他字段填充。
[0085]
在实际应用场景中,由于提取出的企业行业关键词与产品关键词相比,复杂程度稍低且重复词语数较多。本发明进一步对提取出的行业关键词进行高频词统计,将高频词作为标签对企业进行相关行业分类,实现高频企业标签的规范化处理。
[0086]
具体的,企业行业标签经规范化处理后,可通过行业标签的一致性判别,快速高效地实现目标企业对在行业维度上的相似性评价。
[0087]
在高频行业标签的替换时,先将所有企业行业标签相关特征中完全匹配的行业标签提取出来;然后进行频次统计,得到k个高频行业标签,将含义相同的标签进行合并;最后,将所有企业的目标行业标签和所属行业标签用统计出的行业标签表示,若特征中的标签不与其中任何一个高频行业标签含义相同或相近,则用“其他”字段填充。
[0088]
为了对提取出的企业标签进行有效管理和评价,训练自然语言处理模型进行基于生僻词的信息分流管理,将包含企业标签生僻词的数据进行企业标签生僻词处理,将不包含生僻词的数据进行企业标签相似度的计算,从而计算不同维度的企业标签相似性,下面对企业标签信息管理与评价的流程进行详细说明。
[0089]
在s2中,基于语料库训练自然语言出模型,包括:
[0090]
建立自然语言处理模型;
[0091]
将语料库进行格式转换,繁体字转换为简体字,对语料库的数据文件进行分词,基于word2vec训练所述自然语言处理模型。
[0092]
在实际应用场景中,训练自然语言处理模型时,输入为中文语料库,该模型的训练为后续标签生僻词识别和两两企业产品标签的相似度预测起到了关键作用。具体的,先将下载的语料库进行格式转换,由xml转为txt;将所有语料库中的繁体字转换为简体;对数据文件进行分词,保存分词结果;最后,基于word2vec训练模型,输出三个模型文件,完成对自然语言处理模型的存储。
[0093]
在s3中,利用所述自然语言处理模型对所述企业标签数据中的生僻词进行识别。
[0094]
在企业标签分流管理时,根据不同的处理需求进行自然语言处理模型的调用和数据流的管理。
[0095]
具体的,调用自然语言处理模型完成企业产品标签生僻词识别;然后,将不包含生僻词的企业对按高频行业标签进行快速高效的行业一致性匹配,将企业产品标签进行企业标签相似度的计算,调用自然语言处理模型用于两两企业产品标签的相似度预测;将包含生僻词的企业进行标签生僻词处理,最大程度保留原有企业信息,提升企业匹配度预测结果。
[0096]
在s4中,若包含生僻词,对所述生僻词进行处理,得到不含生僻词的企业标签数据,包括:
[0097]
当自然语言处理模型无法识别企业产品标签时,判断生僻词删除后是否还有其他词语;
[0098]
若删除后还存在其他词语,直接删除生僻词;
[0099]
若删除后不存在其他词语,对生僻词进行近一步的拆分,利用自然语言处理模型识别拆分词;如果识别出拆分词,利用拆分词替换生僻词;如果无法识别拆分词,填入无替换生僻词。
[0100]
企业标签生僻词处理模块的主要功能是为企业产品标签特征进行生僻词的替换。当自然语言处理模型无法识别企业产品标签时,若该企业产品标签中仅包含生僻词,会造成重要信息的缺失,严重影响匹配度的判别。
[0101]
参考图3所示,为本发明一具体实施例的生僻词处理的流程示意图。如图3所示,具
体流程为:
[0102]
s401,删除生僻词。
[0103]
s402,判断删除生僻词之后,字段是否为空。
[0104]
s403,如果删除生僻词后仍存在其他词语,直接删除。
[0105]
s404,如果删除生僻词后不存在其他词语,拆分生僻词。
[0106]
直接删除会导致字段空值,因此对单词进行近一步的拆分。
[0107]
s405,判断拆分后的单词是否能被模型识别。
[0108]
s406,若能识别,则将拆分词作为特征存入;
[0109]
s407,若不能识别则填入“无”。经测试“无”字段与其他字段的相似度识别结果非常低。
[0110]
在实际处理企业合作意向表的过程中,所有拆分词都可以被模型识别,目前没有出现填入“无”的情况。例如:模型无法识别“熟肉制品”这个词,将单词拆分为“熟肉”和“制品”两个词后,这两个单词都能被模型识别,它们将共同作为该字段特征。
[0111]
在s5中,若不包含生僻词,根据所述不包含生僻词的企业标签数据,计算企业对之间的企业标签相似度,包括:
[0112]
假设企业a与企业b构成目标企业对,企业标签相似度计算模块的主要功能是计算两组企业产品标签相似度:企业a主营产品和企业b目标产品标签相似度、企业b主营产品和企业a目标产品标签相似度。实现特征对相似度计算的主要难点在于:企业产品标签个数可能为一个或多个,需计算相似度的特征中企业产品标签数量不等,要设计通用的多标签相似度计算方法解决此问题。
[0113]
若a、b分别代表企业a和企业b某字段提取出的企业产品标签特征,假设b中的企业产品标签数m小于a中企业产品标签数n,采用以下计算公式计算企业对之间的企业标签相似度,
[0114][0115]
其中,similarity(a,b)为企业a与企业b之间的企业产品标签相似度;a1至an为企业a的n个企业产品标签数据;bk为企业b的第k个企业产品标签数据;m为企业b的企业产品标签数量;
[0116]
在计算时,选取企业产品标签数量更少的企业b,将企业b对应的企业产品标签数量m作为分母,依次计算bk与企业a的各个企业产品标签的相似度,选取m个最高相似度并计算平均值,得到企业a与企业b之间的企业产品标签相似度。
[0117]
具体的,该方法还包括:
[0118]
根据企业对的高频行业标签进行行业一致性匹配,得到企业对之间的企业行业标签的匹配度。
[0119]
本发明采用了行业一致性和产品相似性相结合的解决方案,由于进行了高频标签的统计和替换,可直接对企业行业标签进行一致性匹配;针对企业产品标签设计实现了多标签相似度计算方法,整合自然语言处理模型对两两企业产品标签的相似度预测结果。
[0120]
在s6中,将所述企业对之间的企业标签相似度作为输入样本,利用组合模型匹配度预测模型预测企业匹配度,包括:
[0121]
将企业对数据分为三类:未洽谈企业对、洽谈未合作企业对、洽谈且合作企业对;
[0122]
将未洽谈企业对划分为负样本,将洽谈未合作企业对、洽谈且合作企业对划分为正样本;
[0123]
根据负样本及正样本数据,分别对svm模型、随机森林模型和lightgbm模型进行高召回倾向训练,选定组合模型中的高召回模型;
[0124]
将所述企业对之间的企业标签相似度作为输入样本,输入至高召回模型,输出企业匹配度的预测结果。
[0125]
在实际应用中,先将数据流送入一个高召回模型,从全量数据中初步筛选出一部分特征较为明显的负样本,减少负样本基数,平衡正负样本比例。而后将正负样本比例较为平均的数据流送入准确率较高的分类模型进一步筛选,保障分类模型的预测效果,由于svm模型的召回率指标表现最优且运行速度较快,随机森林模型的准确率表现最优,参考图4,为本发明一具体实施例的组合模型的示意图。
[0126]
最后,利用训练出的组合模型进行目标企业对匹配度的预测,以文件形式输出预测结果。
[0127]
需要说明的是,尽管在上述实施例及附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
[0128]
在介绍了本发明示例性实施方式的方法之后,接下来,参考图5对本发明示例性实施方式的基于企业标签的企业匹配度处理装置进行介绍。
[0129]
基于企业标签的企业匹配度处理装置的实施可以参见上述方法的实施,重复之处不再赘述。以下所使用的术语“模块”或者“单元”,可以是实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
[0130]
基于同一发明构思,本发明还提出了一种基于企业标签的企业匹配度处理装置,如图5所示,该装置包括:企业标签信息提取子系统100及企业标签信息管理与评价子系统200;
[0131]
企业标签信息提取子系统100包括:异常数据清洗模块110、企业标签识别模块120及高频行业标签替换模块130;
[0132]
异常数据清洗模块110,用于获取企业信息原始数据,清洗所述企业信息原始数据中的异常数据;
[0133]
企业标签识别模块120,用于提取企业标签;
[0134]
高频行业标签替换模块130,用于替换高频行业标签,得到企业标签数据;
[0135]
企业标签信息管理与评价子系统200包括:自然语言处理模型训练模块210、企业标签分流管理模块220、企业标签生僻词处理模块230、企业标签相似度计算模块240及组合模型匹配度计算模块250;
[0136]
自然语言处理模型训练模块210,用于基于语料库训练自然语言出模型;
[0137]
企业标签分流管理模块220,用于利用所述自然语言处理模型对所述企业标签数据中的生僻词进行识别;
[0138]
企业标签生僻词处理模块230,用于若包含生僻词,对所述生僻词进行处理,得到不含生僻词的企业标签数据;
[0139]
企业标签相似度计算模块240,用于若不包含生僻词,根据所述不包含生僻词的企业标签数据,计算企业对之间的企业标签相似度;
[0140]
组合模型匹配度计算模块250,用于将所述企业对之间的企业标签相似度作为输入样本,利用组合模型匹配度预测模型预测企业匹配度。
[0141]
在一实施例中,所述异常数据清洗模块110具体用于:
[0142]
检查所述企业信息原始数据中的缺失数据或冗余数据,丢弃或补全所述缺失数5据,清洗所述冗余数据。
[0143]
在一实施例中,所述企业信息原始数据中包含企业信息表和企业洽谈结果表;
[0144]
所述异常数据清洗模块110还用于:
[0145]
将企业信息表中的合作信息和企业基本信息进行汇总,将企业信息表中的企业主营产品、目标产品、所属行业、目标行业信息添加至企业洽谈结果表中。
[0146]
0所述企业标签识别模块120具体用于:
[0147]
从企业洽谈结果表的语义描述信息中提取关键词作为企业标签;其中,调用信息检索算法,对企业描述性信息中词汇进行评分,输出评分最高的前n个词汇作为该企业描述信息对应的企业标签。
[0148]
在一实施例中,所述企业标签至少包括:
[0149]
5企业标识、企业行业标签及企业产品标签;
[0150]
其中,所述企业行业标签包括:企业所属行业标签、企业目标行业标签;所述企业产品标签包括:企业主营产品标签及企业目标产品标签。
[0151]
在一实施例中,所述高频行业标签替换模块130具体用于:
[0152]
提取所有企业行业标签中完全匹配的企业行业标签;
[0153]
0统计企业行业标签的频次,将频次超过设定阈值的企业行业标签作为高频行业标签,得到k个高频行业标签;
[0154]
将含义相同的高频行业标签进行合并;
[0155]
将所有企业的企业行业标签用统计出的高频行业标签表示,若企业行业标签不与任何一个高频行业标签含义相同或相近,采用其他字段填充。
[0156]
5在一实施例中,所述自然语言处理模型训练模块210具体用于:
[0157]
建立自然语言处理模型;
[0158]
将语料库进行格式转换,繁体字转换为简体字,对语料库的数据文件进行分词,基于word2vec训练所述自然语言处理模型。
[0159]
在一实施例中,所述企业标签生僻词处理模块230具体用于:
[0160]
当自然语言处理模型无法识别企业产品标签时,判断生僻词删除后是否还有其他词语;
[0161]
若删除后还存在其他词语,直接删除生僻词;
[0162]
若删除后不存在其他词语,对生僻词进行近一步的拆分,利用自然语言处理模型识别拆分词;如果识别出拆分词,利用拆分词替换生僻词;如果无法识别拆分词,填入无替换生僻词。
[0163]
在一实施例中,所述企业标签相似度计算模块240具体用于:
[0164]
采用以下计算公式计算企业对之间的企业标签相似度,
[0165][0166]
其中,similarity(a,b)为企业a与企业b之间的企业产品标签相似度;a1至an为企业a的n个企业产品标签数据;bk为企业b的第k个企业产品标签数据;m为企业b的企业产品标签数量;
[0167]
在计算时,选取企业产品标签数量更少的企业b,将企业b对应的企业产品标签数量m作为分母,依次计算bk与企业a的各个企业产品标签的相似度,选取m个最高相似度并计算平均值,得到企业a与企业b之间的企业产品标签相似度。
[0168]
在一实施例中,所述组合模型匹配度计算模块250具体用于:
[0169]
根据企业对的高频行业标签进行行业一致性匹配,得到企业对之间的企业行业标签的匹配度。
[0170]
在一实施例中,所述组合模型匹配度计算模块250具体用于:
[0171]
将企业对数据分为三类:未洽谈企业对、洽谈未合作企业对、洽谈且合作企业对;
[0172]
将未洽谈企业对划分为负样本,将洽谈未合作企业对、洽谈且合作企业对划分为正样本;
[0173]
根据负样本及正样本,分别对svm模型、随机森林模型和lightgbm模型进行高召回倾向训练,选定组合模型中的高召回模型;
[0174]
将所述企业对之间的企业标签相似度作为输入样本,输入至高召回模型,输出企业匹配度的预测结果。
[0175]
应当注意,尽管在上文详细描述中提及了基于企业标签的企业匹配度处理装置的若干模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之,上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。
[0176]
为了对上述基于企业标签的企业匹配度处理方法进行更为清楚的解释,下面结合一个具体的实施例来进行说明
[0177]
参考图6,为本发明一具体实施例的示例性场景示意图。如图6所示,搭建企业匹配度预测系统,该系统基于企业标签实现企业匹配度预测,其中包括:企业标签信息提取子系统和企业标签信息管理与评价子系统。
[0178]
企业标签信息提取子系统共包含三个功能模块,分别为:
[0179]
异常数据清洗模块、企业标签识别模块和高频行业标签替换模块。
[0180]
在实际应用中,企业标签信息提取子系统获取从各大网上爬取的中外企业语义数据,通过异常数据清洗模块,分别完成了企业信息表和企业洽谈结果表中异常字段清洗,删除了冗余数据项,随后,将清洗后的数据进行表格信息整合;
[0181]
将整合后的表格送入企业标签识别模块,该模块对描述性的企业语义信息进行企业产品标签和企业行业标签的提取;
[0182]
将经过初步提取得到的企业标签信息送入高频行业标签替换模块,通过对企业行业标签高频词的统计和替换,实现对大部分企业标签的统一规范,保障了数据量较大情况
下的词语匹配速度;替换后的企业标签信息即为企业标签信息提取子系统的输出,为企业标签信息管理与评价子系统提供了良好的数据支撑。
[0183]
企业标签信息管理与评价子系统共包含五个功能模块,分别为:自然语言处理模型训练模块、企业标签分流管理模块、企业标签生僻词处理模块、企业标签相似度计算模块和组合模型匹配度预测模块。
[0184]
在实现过程中,首先通过自然语言处理模型训练模块读入大型语料库训练自然语言处理模型;
[0185]
接着由企业标签分流管理模块读取企业标签信息提取子系统输出的企业标签数据,根据企业标签的具体情况将数据流进行分流处理,若包含生僻词则送入企业标签生僻词处理模块,若不包含则直接送入企业标签相似度计算模块;
[0186]
企业标签生僻词处理模块读入企业标签数据,将其中包含的标签生僻词按照标签生僻词处理方法进行拆分或替换;
[0187]
企业标签相似度计算模块对包含高频企业标签的数据项进行相同词汇匹配,对不包含高频企业标签的数据项基于多标签相似度整合方法进行企业标签相似度的计算;
[0188]
组合模型匹配度预测模块通过建立机器学习组合模型,基于不同维度的企业标签相似度实现了企业匹配度的有效预测。
[0189]
本发明提出的基于企业标签的企业匹配度预测方法及装置可以实现高频企业标签的规范化处理,企业标签的生僻词处理,利用自然语言处理模型进行多标签相似度计算及利用组合模型进行企业匹配度预测,相较于现有技术至少存在以下优点:
[0190]
1、高频企业行业标签的规范化处理:在获取企业数据的过程当中,通常并未对企业标签数据做格式和范围的规定,会导致后续的行业标签匹配需要较高的时间成本。为实现高效的企业对匹配,本专利基于统计出的高频企业行业标签进行近义替换,将杂乱的对企业行业标签转换为规范化的行业标签,有助于快速实现行业的一致性匹配。
[0191]
2、企业标签的生僻词处理:考虑到在实际应用过程当中,一些企业标签生僻词包含企业较为重要的信息,直接将生僻词删除可能导致信息的缺失,进而造成企业对匹配效果不理想。本专利针对此问题提出了有效的解决方案,通过对标签生僻词的拆分和替换实现了信息的同义转换,很大程度上保留了企业的原始信息,为企业对信息匹配奠定了良好的基础。
[0192]
3、利用自然语言处理模型进行多标签相似度计算:现有的对企业标签的匹配中多以一致性匹配作为解决方案,但当遇到相似含义的企业标签时并不能做出有效判断。本专利针对此问题采用了一致性和相似性相结合的解决方案,由于进行了高频标签的统计和替换,可直接对企业行业标签进行一致性匹配;针对企业产品标签设计实现了多标签相似度计算方法,整合自然语言处理模型对两两企业产品标签的相似度预测结果。
[0193]
4、利用组合模型进行企业匹配度预测:由于在应用场景中存在正负样本数量差异较大的问题,基于单一模型的企业匹配度预测难以达到理想的效果。本专利提出了基于svm和随机森林模型的组合模型,数据流先经过svm进行初筛,达到平衡正负样本比例的目的;随后经过随机森林模型完成较高精度的匹配度判别。
[0194]
基于前述发明构思,如图7所示,本发明还提出了一种计算机设备700,包括存储器710、处理器720及存储在存储器710上并可在处理器720上运行的计算机程序730,所述处理
器720执行所述计算机程序730时实现前述基于企业标签的企业匹配度处理方法。
[0195]
基于前述发明构思,本发明提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现前述基于企业标签的企业匹配度处理方法。
[0196]
基于前述发明构思,本发明提出了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现基于企业标签的企业匹配度处理方法。
[0197]
本发明提出的基于企业标签的企业匹配度处理方法及装置通过对标签生僻词进行处理,最大程度上保留企业有效信息,避免数据缺失,还利用自然语言处理模型实现了多标签相似度计算,确保企业特征相似性评价结果的可靠性,根据相似性评价结果结合组合模型实现准确、有效的企业匹配度预测,为企业磋商业务提供了有力的技术支持。
[0198]
本技术技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
[0199]
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0200]
本发明是参照根据本发明实施例的方法和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0201]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0202]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0203]
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1