1.本发明涉及自然语言处理的技术领域,尤其是涉及一种标准词确定方法及装置、电 子设备、存储介质。
背景技术:2.关于项目申报的政策文件大多分布于各级网站,企业在进行项目申报时,要关注最新的项目申报条件,并从中选择匹配度较高的项目进行申报。
3.企业在查询可申报的项目时,需要人工将各个项目的申报条件与企业实际数据进行 一一比对,然而,由于申报条件原文的描述没有统一的标准和规范,用词用语存在多样化的 现象,导致比对的效率低下,准确度不足。
技术实现要素:4.为了解决申报条件信息中用词用语多样化的问题,进而提高人工比对申报条件与企 业实际数据的效率和准确度,第一方面,本技术提供了一种标准词确定方法,采用如下的技 术方案:一种标准词确定方法,包括:获取目标申报条件信息,并提取与预设指标对应的多个目标关键词和目标上下文信息;目标 上下文信息与目标关键词一一对应;基于预设标准词库,召回与每一目标关键词相关的多个初始标准词;将对应的初始标准词、目标关键词和目标上下文信息进行组合,并将每一组合分别输入预先 训练的相关度判定模型,得到每一组合中初始标准词与目标关键词的第一相关度得分;对于每一目标关键词,判断最高第一相关度得分是否大于等于第一阈值;若是,将与最高第 一相关度得分对应的初始标准词作为目标标准词;若否,反馈目标关键词至用户,并返回用 户确定的目标标准词。
5.通过采用上述技术方案,实现了申报条件中目标关键词的标准化,便于利用目标标 准词组成的申报条件信息与企业实际数据进行一一比对,提高了比对的效率和准确度。
6.可选的,用户确定的目标标准词是新增的标准词;以及在返回用户确定的目标标准词之后,将新增的标准词更新到预设标准词库中。
7.通过采用上述技术方案,实现了对预设标准词库的及时扩展,进而提高了确定的目 标标准词的正确率。
8.可选的,在基于预设标准词库,召回与每一目标关键词相关的多个初始标准词的步 骤中,还包括:返回每一初始标准词与对应的目标关键词的第二相关度得分;在将对应的初始标准词、目标关键词和目标上下文信息进行组合,并将每一组合分别输入预 先训练的相关度判定模型,得到每一组合中初始标准词与目标关键词的第一
相关度得分的步 骤之前,还包括:对于每一目标关键词,判定最高第二相关度得分是否等于第二阈值,若是,将与最高第二相 关度得分对应的初始标准词作为目标标准词。
9.通过采用上述技术方案,在基于预设标准词库,召回与每一目标关键词相关的多个 初始标准词时,同时返回了与初始标准词对应的第二相关度得分,并判断每一目标关键词的 最高第二相关度得分是否等于第二阈值,若是,则无需通过相关度判定模型来计算第一相关 度,进而无需通过判断最高第一相关度得分是否大于等于第一阈值来确定目标标准词,而是 直接将与最高第二相关度得分的初始标准词作为目标关键词,从而提高了确定目标标准词的 处理效率。
10.可选的,相关度判定模型的训练过程包括:获取样本申报条件信息,并提取与预设指标对应的多个样本关键词和样本上下文信息;样本 上下文信息与样本关键词一一对应;基于预设标准词库,召回与每一样本关键词相关的多个样本标准词,并返回每一样本标准词 与对应的样本关键词的第三相关度得分;分别判断每一样本标准词与对应的样本关键词的第三相关度得分是否等于第二阈值;若是, 将对应的样本标准词、样本关键词和样本上下文信息进行组合,作为正样本;若否,将对应 的样本标准词、样本关键词和样本上下文信息进行组合,作为负样本;利用正样本和负样本对预先构建的相关度判定模型进行训练,得到训练好的相关度判定模型。
11.通过采用上述技术方案,对相关度判定模型的训练过程进行了限定,便于训练出准确 度更高的相关度判定模型。
12.可选的,利用正样本和负样本对预先构建的相关度判定模型进行训练,得到训练好 的相关度判定模型的步骤,具体包括:对于每一条样本数据,基于预设映射表,将样本关键词和样本上下文信息转换为第一数值序 列,将样本标准词转换为第二数值序列;将第一数值序列和第二数值序列分别输入bert预训练模型,生成第一矩阵和第二矩阵;将第一矩阵和第二矩阵分别输入池化层,生成第一向量和第二向量;对第一向量和第二向量进行相加,生成第三向量,并对第一向量和第二向量进行相减,生成 第四向量;对第一向量、第二向量、第三向量和第四向量进行拼接,生成第五向量;将第五向量输入全连接层,生成第六向量;对第六向量进行softmax变换,生成第七向量[pi,1-pi];其中,pi表示样本i预测为正类的 概率,1-pi表示样本i预测为负类的概率;利用交叉熵损失函数进行优化,得到训练好的相关度判定模型。
[0013]
通过采用上述技术方案,对相关度判定模型的关键训练过程进行了进一步的细化, 以便于训练出准确度更高的适用于项目申报的相关度判定模型。
[0014]
可选的,交叉熵损失函数为:
其中,yi表示样本i的类别,正样本为1,负样本为0,li表示样本i的损失函数,1≤i≤n, n是样本个数。
[0015]
通过采用上述技术方案,对损失函数进行了具体限定,便于训练出最优的相关度判 定模型。
[0016]
可选的,采用的召回策略是jaccard系数、bm2.5算法或语义相似度。
[0017]
通过采用上述技术方案,基于词语间的相关度召回初始标准词,有助于确定出符合 要求的目标关键词。
[0018]
第二方面,本技术提供了一种标准词确定装置,采用如下的技术方案:一种标准词确定装置,包括:提取模块,用于获取目标申报条件信息,并提取与预设指标对应的多个目标关键词和目标上 下文信息;目标上下文信息与目标关键词一一对应;召回模块,用于基于预设标准词库,召回与每一目标关键词相关的多个初始标准词;判定模块,将对应的初始标准词、目标关键词和目标上下文信息进行组合,并将每一组合分 别输入预先训练的相关度判定模型,得到每一组合中初始标准词与目标关键词的第一相关度 得分;确定模块,用于对于每一目标关键词,判断最高第一相关度得分是否大于等于第一阈值;若 是,将与最高第一相关度得分对应的初始标准词作为目标标准词;若否,反馈目标关键词至 用户,并返回用户确定的目标标准词。
[0019]
第三方面,本发明提供了一种电子设备,采用如下的技术方案:一种电子设备,包括存储器和处理器,存储器上存储有能够被处理器加载并执行的方法的计 算机程序。
[0020]
第四方面,本发明提供了一种计算机可读存储介质,采用如下的技术方案:一种计算机可读存储介质,存储有能够被处理器加载并执行的方法的计算机程序。
[0021]
综上,本发明包括以下有益技术效果:实现了申报条件中目标关键词的标准化,解 决了申报条件信息中用词用语多样化的问题,便于利用目标标准词组成的申报条件信息与企 业实际数据进行一一比对,提高了比对的效率和准确度。
附图说明
[0022]
图1是本技术实施例的标准词确定方法流程图。
[0023]
图2是本技术相关度判定模型的训练过程流程图。
[0024]
图3是本技术利用正负样本训练相关度判定模型的流程图。
[0025]
图4是本技术另一实施例的标准词确定方法流程图。
[0026]
图5是本技术实施例的标准词确定装置结构框图。
[0027]
图6是本技术实施例的电子设备示意图。
具体实施方式
[0028]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图1-6及实施例, 对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并 不用于限定本发明。
[0029]
本发明实施例公开一种标准词确定方法。参照图1,标准词确定方法包括:s11、获取目标申报条件信息,并提取与预设指标对应的多个目标关键词和目标上下文信息;关于项目申报的政策文件大多分布于各级网站,在本实施例中,从多个网站获取目标申报条件信息,获取的目标申报条件信息可以是一条,也可以是多条。若获取的目标申报条件信息是多条,则按照预设顺序对多条目标申报条件信息依次进行标准化处理;其中,预设顺序是按照预设属性预先设定的顺序,可根据实际需求进行修改,预设属性可以是采集时间、网站的更新时间、申报时间、项目类别、项目热度等,网站的更新时间是指目标申报条件信息在网站的更新时间。
[0030]
一条目标申报条件信息通常包含多个关键词,然而,并非每个关键词均与申报情况 相关,在该步骤中,为了提高处理效率,仅提取与申报情况相关的目标关键词,以及与每个 目标关键词相关的目标上下文信息。具体的,采用深度学习模型从目标申报条件信息中提取 与预设指标对应的目标关键词和目标上下文信息,其中,预设指标包括营收指标、行业指标、 研发投入指标、设备购置指标、场地指标和人才指标中的一个或多个。
[0031]
需要说明的是,与每一预设指标相关的目标关键词可以是多个,也可以是一个,并 且,目标上下文信息与目标关键词一一对应。
[0032]
s12、基于预设标准词库,召回与每一目标关键词相关的多个初始标准词;预设标准词库,是人工预先建立的词库,用于存储关于项目申报领域的标准词,可根据实际 对标准词库中的标准词进行更新,包括增加、删除和修改标准词。
[0033]
在召回与每一目标关键词相关的多个初始标准词时,输入的是目标关键词,输出的 是初始标准词,采用的召回策略是jaccard系数、bm2.5算法或语义相似度。
[0034]
对于召回的每个初始标准词来说,初始标准词、目标关键词和目标上下文信息三者 具有唯一的对应关系,具体的,每一初始标准词与召回该初始标准词的目标关键词和目标上 下文信息相对应。
[0035]
s13、将对应的初始标准词、目标关键词和目标上下文信息进行组合,并将每一组合 分别输入预先训练的相关度判定模型,得到每一组合中初始标准词与目标关键词的第一相关 度得分;对于同一目标关键词来说,将对应的初始标准词、目标关键词和目标上下文信息进行组合, 可得到与初始标准词数量相等的多个组合。可以理解的是,组合的数量与步骤s12中召回的 初始标准词的数量相等。
[0036]
预先训练的相关度判定模型用于基于目标上下文信息,判定目标关键词与初始标准 词之间的匹配程度,相比于直接计算目标关键词和初始标准词之间的匹配程度,本技术的相 关度判定模型具有准确度更高的优点。
[0037]
参照图2,相关度判定模型的训练过程包括步骤s21-s24,具体如下:s21、获取样本申报条件信息,并提取与预设指标对应的多个样本关键词和样本上
下文信息; 用于训练的样本申报条件信息的数量是多条,并且,样本上下文信息与样本关键词一一对应。
[0038]
s22、基于预设标准词库,召回与每一样本关键词相关的多个样本标准词,并返回每 一样本标准词与对应的样本关键词的第三相关度得分;在召回与每一样本关键词相关的多个样本标准词时,输入的是样本关键词,输出的是样本标 准词及对应的第三相关度得分,采用的召回策略是jaccard系数、bm2.5算法或语义相似度。
[0039]
s23、分别判断每一样本标准词与对应的样本关键词的第三相关度得分是否等于第二 阈值;若是,将对应的样本标准词、样本关键词和样本上下文信息进行组合,作为正样本; 若否,将对应的样本标准词、样本关键词和样本上下文信息进行组合,作为负样本;本领域技术人员能够理解的是,正样本和负样本的数量均是多条。
[0040]
预设标准词库,是人工预先建立的词库,若样本关键词和标准词库中的标准词相同, 将对应的样本数据作为正样本,若不相同,将对应的样本数据作为负样本,因此,第二阈值 的大小是固定值1。
[0041]
s24、利用正样本和负样本对预先构建的相关度判定模型进行训练,得到训练好的相 关度判定模型。
[0042]
在训练时,每一条样本数据的输入格式可设定为[(样本关键词,样本上下文信息,样 本标准词),类别],其中,类别的取值为0或1,1表示正样本,0表示负样本。
[0043]
参照图3,步骤s24包括子步骤s241-s248,具体如下:s241、对于每一条样本数据,基于预设映射表,将样本关键词和样本上下文信息转换为第一 数值序列,将样本标准词转换为第二数值序列;预设映射表存储的是预先设定的字和数值之间的映射关系,对于每一条样本数据,基于预设 映射表,可将样本关键词和样本上下文信息转换为第一数值序列,并将样本标准词转换为第 二数值序列。
[0044]
s242、将第一数值序列和第二数值序列分别输入bert预训练模型,生成第一矩阵和 第二矩阵;bert是一种开源的自然语言处理模型,将第一数值序列输入bert预训练模型,生成第一 矩阵,将第二数值序列输入bert预训练模型,生成第二矩阵。
[0045]
s243、将第一矩阵和第二矩阵分别输入池化层,生成第一向量和第二向量;在该步骤中,池化层的作用是对矩阵的每列求平均,从而生成一维向量,因此,将第一矩阵 输入池化层,生成第一向量,将第二矩阵输入池化层,输出第二向量。
[0046]
s244、对第一向量和第二向量进行相加,生成第三向量;第一向量和第二向量进行相 减,生成第四向量;s245、对第一向量、第二向量、第三向量和第四向量进行拼接,生成第五向量;s246、将第五向量输入全连接层,生成第六向量;在第六向量中,元素u[j]=w[1]*v[1]+w[2]*v[2]+...+w[m]*v[m]+b[j];其中,u[j]表示第六向量u的第j个元素值,v[j]表示第五向量v的第j个元素,w[j]是权 重参数,b[j]是偏置项,1≤j≤m,m是第五向量的元素个数。
[0047]
s247、对第六向量进行softmax变换,生成第七向量;
其中,第七向量为[pi,1-pi],pi表示样本i预测为正类的概率,1-pi表示样本i预测为负类 的概率,也就是说,pi表示样本关键词与标准词匹配的概率,1-pi表示样本关键词与标准词 不匹配的概率,二者之和等于1。
[0048]
s248、利用交叉熵损失函数进行优化,得到训练好的相关度判定模型。
[0049]
交叉熵函数为:其中, yi表示样本i的类别,正样本为1,负样本为0,pi表示样本i预测为正类的概率,li表示样 本i的损失函数,1≤i≤n,n是样本个数。
[0050]
本领域技术人员应当理解,在步骤s13中,将每一组合分别输入预先训练的相关度 判定模型进行预测的过程与训练过程中的子步骤s241-s247相同,区别仅在于步骤s13输出 的是第七向量中的第一个概率,在此对预测的详细过程不再赘述。
[0051]
s14、对于每一目标关键词,判断最高第一相关度得分是否大于等于第一阈值;若是, 将与最高第一相关度得分对应的初始标准词作为目标标准词;若否,反馈目标关键词至用户, 并返回用户确定的目标关键词。
[0052]
具体的,对于每一目标关键词,根据第一相关度得分的高低对对应的多个组合进行 排序,并判断最高第一相关度得分是否大于第一阈值,若是,则说明在与最高第一相关度得 分对应的组合中,目标关键词和初始标准词之间的匹配程度符合预设要求,从而返回与最高 第一相关度得分对应的组合中的标准词。其中,第一阈值是根据实际需求设定的,在此不作 具体限定。
[0053]
对于每一目标关键词来说,若最高第一相关度得分低于第一阈值,则说明在与目标 关键词对应的所有组合中,目标关键词和初始标准词之间的匹配程度均不符合预设要求,此 时,反馈目标关键词至用户,由用户根据目标关键词确定对应的目标标准词,并返回用户确 定的目标标准词。用户确定的目标标准词是从与目标关键词相关的多个初始标准词中选取的 标准词或新增的标准词,若是新增的标准词,在返回用户确定的目标标准词之后,需要将新 增的标准词更新到预设标准词库中,以实现对预设标准词库的及时扩展,从而提高了确定的 标准词的正确率。
[0054]
在确定出目标标准词后,利用目标标准词替换目标申报条件信息中的目标关键词, 以便于利用目标标准词组成的申报条件信息与企业实际数据进行一一比对。
[0055]
需要说明的是,可在上一个目标关键词完成步骤s13-s14之后,再处理下一个目标关 键词,也可以在步骤s13处理完所有目标关键词之后,再执行步骤s14,在此不作具体限定。
[0056]
在上述实施例中,基于预设指标提取目标关键词及其目标上下文信息,通过相关度 判定模型计算召回的每一初始标准词与目标关键词之间的第一相关度得分,并判断每一目标 关键词的最高第一相关度得分是否大于等于第一阈值,若是,则将与最高第一相关度得分对 应的初始标准词作为目标标准词,若否,则由用户确定目标标准词,从而实现了申报条件中 目标关键词的标准化,解决了申报条件信息中用词用语多样化的问题,便于利用标准词组成 的申报条件信息与企业实际数据进行一一比对,从而提高了比对的效率和准确度。
[0057]
作为另一种实施例,本发明公开了一种标准词确定方法。参照图4,标准词确定方
法 包括:s41、获取目标申报条件信息,并提取与预设指标对应的多个目标关键词和目标上下文信息;s42、基于预设标准词库,召回与每一目标关键词相关的多个初始标准词,并返回每一初始 标准词与对应的目标关键词的第二相关度得分;在本实施例中,在召回与每一目标关键词相关的多个初始标准词时,输入的是目标关键词, 输出的是初始标准词及第二相关度得分,并且,初始标准词与第二相关度得分一一对应。
[0058]
本领域技术人员应当理解,在使用召回策略jaccard系数、bm2.5算法或语义相似度 召回与每一目标关键词相关的多个初始标准词时,均需要计算目标关键词与初始标准词的第 二相关度得分,在本步骤中,返回的是基于召回策略计算的第二相关度得分。
[0059]
s43、对于每一目标关键词,判断最高第二相关度得分是否等于第二阈值;若是,将 与最高第二相关度得分对应的初始标准词作为目标标准词;若否,将对应的初始标准词、目 标关键词和目标上下文信息进行组合,并将每一组合分别输入预先训练的相关度判定模型, 得到每一组合中初始标准词与目标关键词的第一相关度得分;其中,第二阈值的大小是固定值1,对于每一目标关键词而言,判断最高第二相关度得分是 否等于第二阈值的目的是确定在预设标准词库中,是否存在与当前目标关键词完全匹配的初 始标准词,若是,则无需通过相关度判定模型来计算第一相关度,进而无需通过判断最高第 一相关度得分是否大于等于第一阈值来确定目标标准词,而是直接将完全匹配的初始标准词 作为目标关键词,从而提高了确定标准词的处理效率。
[0060]
s44、对于每一目标关键词,判断最高第一相关度得分是否大于等于第一阈值;若是, 将与最高第一相关度得分对应的初始标准词作为目标标准词;若否,反馈目标关键词至用户, 并返回用户确定的目标关键词。
[0061]
需要说明的是,对于本实施例与前述实施例相同的部分,不再进行详细描述。
[0062]
在上述实施例中,在基于预设标准词库,召回与每一目标关键词相关的多个初始标 准词时,同时返回了与初始标准词对应的第二相关度得分,并判断每一目标关键词的最高第 二相关度得分是否等于第二阈值,若是,则无需通过相关度判定模型来计算第一相关度,进 而无需通过判断最高第一相关度得分是否大于等于第一阈值来确定目标标准词,而是直接将 与最高第二相关度得分的初始标准词作为目标关键词,从而提高了确定标准词的处理效率。
[0063]
本发明实施例公开一种标准词确定装置。参照图5,标准词确定装置包括:提取模块51,用于获取目标申报条件信息,并提取与预设指标对应的多个目标关键词和目 标上下文信息;目标上下文信息与目标关键词一一对应;召回模块52,用于基于预设标准词库,召回与每一目标关键词相关的多个初始标准词;判定模块53,将对应的初始标准词、目标关键词和目标上下文信息进行组合,并将每一组 合分别输入预先训练的相关度判定模型,得到每一组合中初始标准词与目标关键词的第一相 关度得分;确定模块54,用于对于每一目标关键词,判断最高第一相关度得分是否大于等于
第一阈值; 若是,将与最高第一相关度得分对应的初始标准词作为目标标准词;若否,反馈目标关键词 至用户,并返回用户确定的目标标准词。
[0064]
需要说明的是,本实施例的标准词确定装置可以用于执行上述方法实施例,其原理 和技术效果类似,此处不再赘述。
[0065]
基于同一技术构思,本公开实施例还提供了一种电子设备600。参照图6所示,电子 设备600包括处理器601、存储器602和总线603。其中,存储器602用于存储计算机程序, 包括内部存储器6021和外部存储器6022;内部存储器6021用于暂时存放处理器601中的 运算数据,以及与硬盘等外部存储器6022交换的数据,处理器601通过内部存储器6021与 外部存储器6022进行数据交换。
[0066]
本技术实施例中,存储器602具体用于存储执行本技术技术方案的计算机程序,并 由处理器601来控制执行。也即,当电子设备600运行时,处理器601与存储器602之间通 过总线通信,使得处理器601执行存储器602中存储的计算机程序,进而执行前述任一实施 例中的方法。
[0067]
其中,存储器602可以是,但不限于,随机存取存储器(random access memory, ram),只读存储器(read only memory,rom),可编程只读存储器(programmable read- only memory,prom),可擦除只读存储器(erasable programmable read-only memory, eprom)等。
[0068]
处理器601可能是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是 通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor, np)等;还可以是数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行 本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理 器也可以是任何常规的处理器等。
[0069]
可以理解的是,本技术实施例示意的结构并不构成对电子设备600的具体限定。在 本技术另一些实施例中,电子设备600可以包括比图示更多或更少的部件,或者组合某些部 件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件 的组合实现。
[0070]
本实施例还提供了一种计算机可读存储介质,如软盘、光盘、硬盘、闪存、u盘、 sd(secure digital memory card,安全数码卡)卡、mmc(multimedia card,多媒体卡)卡等, 在该可读存储介质中存储有实现上述各个步骤的计算机程序,该计算机程序可被一个或者多 个处理器执行,以实现上述实施例中的方法。
[0071]
在本技术所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方 式实现。以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功 能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集 成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦 合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可 以是电性,机械或其它的形式。
[0072]
另外,在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分, 也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
[0073]
以上均为本发明的较佳实施例,并非依此限制本发明的保护范围,本说明书(包括 摘要和附图)中公开的任一特征,除非特别叙述,均可被其他等效或者具有类似目的的替代 特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。