一种多领域与多学科科技政策资源检索方法及装置

文档序号:32203597发布日期:2022-11-16 03:53阅读:35来源:国知局
一种多领域与多学科科技政策资源检索方法及装置

1.本发明涉及文本匹配技术领域,尤其涉及一种多领域与多学科科技政策资源检索方法及装置。


背景技术:

2.精准的查询离不开对语义上对文本相似度的衡量,也可以称为语义匹配。
3.随着深度学习领域的迅猛发展,越来越多的研究致力于将深度神经网络模型应用于自然语言匹配任务,从而降低特征工程的成本。从匹配模型的发展来看,可分为单语义模型、多语义模型和匹配矩阵模型。单语义模型对两个句子编码后计算相似度,不考虑句子中短语的局部特征;多语义模型从多个粒度对待匹配的句子进行解读,考虑字、短语等局部特征;匹配矩阵模型考虑待匹配句子的两两交互,交互后用深度网络提取特征,能获得更深层次的句子之间的关系。从匹配模型的本质来看可以分为两种类型:表示型和交互型,其中表示型的模型会在最后一层对待匹配的两个句子进行相似度计算,而交互型模型会尽早的让两个句子交互,充分应用交互特征。
4.例如dssm(deep structured semantic models)是匹配模型的鼻祖,它将句子映射到一个向量空间里并输入到深度神经网络中抽取特征,得到了128维的特征向量,在匹配层采用cosine距离(即余弦相似度)来表示。dssm的优点在于能够快速的计算多个query和doc对之间的语义相似度;相对于词向量的方式,它采用有监督的方法,准确度要高很多,同时单个词或单个字处理不依赖切词的正确与否。缺点是在词向量表示时采用词袋模型,不考虑词语的位置信息,这对语义理解是一个大的损失。改进后的cdssm(convolutional latent semantic model)模型通过输入层提取了滑动窗口下的上下文信息,又通过卷积层和池化层提取了全局的上下文信息,上下文信息得到较为有效的保留。但因为滑动窗口大小的限制,仍无法获得较长距离的上下文依赖关系。现有的其他文本匹配方法也具有类似的缺点,所以,传统的文本匹配技术主要能够解决词汇层面的匹配问题,但难以处理词义局限和结构局限。


技术实现要素:

5.鉴于此,本发明实施例提供了一种多领域与多学科科技政策资源检索方法及装置,以消除或改善现有技术中存在的一个或更多个缺陷,解决传统文本匹配方法存在词义处理局限和结构处理局限的问题。
6.本发明的技术方案如下:
7.一方面,本发明提供一种多领域与多学科科技政策资源检索方法,包括:
8.获取用户查询和设定范围内的多个科技政策资源文本;
9.采用基于统计特征的预设相关性计算模型分别计算所述用户查询和各科技政策资源文本的第一相关性分数,按照第一设定数量或第一设定比例召回所述第一相关性分数较高的多个科技政策资源文本作为候选文档;
10.基于预设bert模型计算所述用户查询与所述候选文档的第二相关性分数,包括:
11.将所述候选文档按照第一设定长度分割为多个文本段,每个文本段之间设置第二设定长度的重叠;
12.采用所述预设bert模型分别计算所述用户查询与各文本段的第三相关性分数并聚合得到所述用户查询与所述候选文档的第二相关分数;
13.按照设定规则根据所述用户查询与各候选文档的所述第一相关性分数和第二相关性分数计算综合评分,将所述综合评分最高的候选文档作为检索结果;
14.其中,所述预设bert模型采用无标注的多个领域和学科政策文本语料进行预训练,所述预设bert模型还采用目标领域的预设标注数据集进行微调。
15.在一些实施例中,所述预设相关性计算模型采用bm25模型;采用预设相关性计算模型分别计算所述用户查询和各科技政策资源文本的第一相关性分数score(q,d)的计算式为:
[0016][0017]
其中,k1和b是可调节系数,qi表示所述用户查询中的第i个关键字,|d|代表所述科技政策资源文本的文档长度,avgdl代表各科技政策资源文本的平均文档长度;tf(qi,d)表示词频;idf(qi)表示qi的逆文档频率,计算式为:
[0018][0019]
其中,n代表文档总体数量,n(qi)代表包含查询项qi的文档数量。
[0020]
在一些实施例中,采用所述预设bert模型分别计算所述用户查询与各文本段的第三相关性分数并聚合得到所述用户查询与所述候选文档的第二相关分数,包括:
[0021]
对所述用户查询与各文本段的第三相关性分数采用首段分数聚合、平均分数聚合或最大分数聚合计算得到第二相关分数;
[0022]
采用首段分数聚合计算所述第二相关分数,表达式为:
[0023]sstage2
(q,d)=s1(q,p1)
[0024]
其中,s
stage2
(q,d)表示第二相关分数,s1(q,p1)表示所述用户查询与所述候选文档的第一个文本段之间的第三相关性分数;
[0025]
采用平均分数聚合计算所述第二相关分数,表达式为:
[0026][0027]
其中,s
stage2
(q,d)表示第二相关分数,si(q,pi)表示所述用户查询与所述候选文档的第i个文本段之间的第三相关性分数;
[0028]
采用最大分数聚合计算所述第二相关分数,表达式为:
[0029]sstage2
(q,d)=max(s1(q,p1),s2(q,p2),

,sn(q,pn))
[0030]
其中,s
stage2
(q,d)表示第二相关分数,sn(q,pn)表示所述用户查询与所述候选文档的第n个文本段之间的第三相关性分数。
[0031]
在一些实施例中,所述预设bert模型采用无标注的多个领域和学科政策文本语料进行预训练,包括:采用mlm任务对所述预设bert模型进行预训练。
[0032]
在一些实施例中,采用mlm任务对所述预设bert模型进行预训练,包括:获取类别特征词袋;对多个领域和学科政策文本语料首先掩盖所述类别特征词袋中有的token(词元),对于语料中的其余token采用随机mask策略掩盖,其中被掩盖的token有第一设定概率被替换为[mask],有第二设定概率被替换为预设词典中的随机token,有第三设定概率保持不变。
[0033]
在一些实施例中,采用mlm任务对所述预设bert模型进行预训练,采用的损失函数公式为:
[0034][0035]
其中,m(x)代表对序列x中的mask单词,x
\m(x)
代表序列中的剩余单词,表示被掩盖的单词,x=[x1,x2,

,x
t
];x
t
表示第t个单词。
[0036]
在一些实施例中,所述预设bert模型还采用目标领域的预设标注数据集进行微调,包括:
[0037]
将目标领域的预设标注数据集中的问题与答案组成正样本,将所述问题与非答案组成负样本;
[0038]
以所述预设bert模型作为二分类器,将最后一层隐藏层的词元的词元向量作为特征表示,输入单隐藏层的神经网络中进行训练输出的概率分数作为用户查询和候选文本的相似度评分;
[0039]
采用所述预设标注数据集中的正样本和负样本对所述预设bert模型进行微调,采用的损失函数为:
[0040][0041]
其中,si表示神经网络的预测输出分数,i
pos
代表正样本集合,i
neg
代表负样本集合。
[0042]
在一些实施例中,所述预设bert模型还采用目标领域的预设标注数据集进行微调,包括:将所述预设标注数据集按照第二设定比例分为训练集、验证集和测试集进行交叉训练。
[0043]
另一方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述方法的步骤。
[0044]
另一方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
[0045]
本发明的有益效果至少是:
[0046]
本发明所述多领域与多学科科技政策资源检索方法及装置,通过传统的预设相关性计算模型计算用户查询和各科技政策资源文本段的相似度并初步召回和粗排候选文档,再进一步引用深度语言模型bert对初步召回的候选文档进行修正和重排以最终输出查询结果。基于无标注的文本对bert模型进行预训练,并采用特定领域有标注的文本进行微调,
提高了文本匹配任务完成过程中的语义捕获能力。通过分割候选文本为多个文本段,分别计算各文本段与用户查询之间的相似度后进行聚合得到第二相关性分数,以解决bert模型输入限制的问题。本发明通过两阶段的查询检索,综合词汇、词义和结构层面的特征,提升了文本匹配的精度。
[0047]
本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的结构实现到并获得。
[0048]
本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。
附图说明
[0049]
此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,并不构成对本发明的限定。在附图中:
[0050]
图1为本发明一实施例所述多领域与多学科科技政策资源检索方法的流程示意图。
[0051]
图2为本发明一实施例所述多领域与多学科科技政策资源检索方法的逻辑示意图。
[0052]
图3为本发明一实施例所述多领域与多学科科技政策资源检索方法中计算用户查询与候选文档之间相关性分数的逻辑示意图。
具体实施方式
[0053]
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
[0054]
在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
[0055]
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
[0056]
针对文本匹配任务,传统技术包括bow、tf-idf、bm25、jaccard、simhash等方法,主要能够解决词汇层面的匹配问题,但难以处理词义局限和结构局限。
[0057]
本发明在挖掘得到的科技政策资源基础上,针对政策领域数据缺少标注,难以构建监督式排序学习模型所需数据集的问题,提供一种多领域与多学科科技政策资源的检索方法。对于用户输入的检索内容,以基于统计特征的相关性计算模型为基础,对科技政策文档进行初步的召回,通过引入深度语言模型bert对候选相关文档进一步排序。在方法中,通过领域预训练为bert模型注入政策领域知识,并通过对长文本分段计算匹配分数并对段落分数进行聚合的方法,解决bert模型的输入限制问题。
[0058]
具体的,本发明提供一种多领域与多学科科技政策资源检索方法,如图1和图2所
示,包括步骤s101~步骤s104:
[0059]
步骤s101:获取用户查询和设定范围内的多个科技政策资源文本。
[0060]
步骤s102:采用基于统计特征的预设相关性计算模型分别计算用户查询和各科技政策资源文本的第一相关性分数,按照第一设定数量或第一设定比例召回第一相关性分数较高的多个科技政策资源文本作为候选文档。
[0061]
步骤s103:基于预设bert模型计算用户查询与候选文档的第二相关性分数,参照图3,包括:
[0062]
步骤s1031:将候选文档按照第一设定长度分割为多个文本段,每个文本段之间设置第二设定长度的重叠。
[0063]
步骤s1032:采用预设bert模型分别计算用户查询与各文本段的第三相关性分数并聚合得到用户查询与候选文档的第二相关分数。
[0064]
步骤s104:按照设定规则根据用户查询与各候选文档的第一相关性分数和第二相关性分数计算综合评分,将综合评分最高的候选文档作为检索结果。
[0065]
其中,预设bert模型采用无标注的多个领域和学科政策文本语料进行预训练,预设bert模型还采用目标领域的预设标注数据集进行微调。
[0066]
在步骤s101中,用户查询是指用户提供的需要进行检索的关键词或者提出的问题。设定范围是进行初筛的检索范围,该设定范围可以是全领域。在某些情况下,基于一个指定的检索目标,可以检索指定的数据库,在检索初期就将范围锁定在一个特定的技术领域。用户查询可以包含多个关键词,在一些实施例中,可以将用户查询的字符串词元长度限制在一定长度范围内,对于超过限制长度的用户查询进行截断处理。科技政策资源文本则作为检索的范围,用于比对相似度并最终输出位用户查询所对应的答案。
[0067]
在步骤s102中,基于统计特征的预设相关性计算模型可以包括bow、tf-idf、bm25、jaccard、simhash等方法,本实施例中,优选bm25算法为预设相关性计算模型。采用预设相关性计算模型对设定范围内的科技政策资源文本进行初步召回,具体方法是,通过预设相关性计算模型计算用户查询与各科技政策资源文本的相似度,计算得到用户查询与每个科技政策资源文本的第一相关性分数,并基于该第一相关性评分进行初步召回。具体的,可以按照第一设定数量或第一设定比例召回,以初步剔除不相关的科技政策资源文本。
[0068]
在一些实施例中,步骤s102中,预设相关性计算模型采用bm25模型;采用预设相关性计算模型分别计算用户查询和各科技政策资源文本的第一相关性分数score(q,d)的计算式为:
[0069][0070]
其中,k1和b是可调节系数,qi表示用户查询中的第i个关键字,|d|代表科技政策资源文本的文档长度,avgdl代表各科技政策资源文本的平均文档长度;tf(qi,d)表示词频,即查询项qi在文档d中出现的频次;idf(qi)表示qi的逆文档频率,衡量查询项提供了多少信息,计算式为:
[0071][0072]
其中,n代表文档总体数量,n(qi)代表包含查询项qi的文档数量。
[0073]
由于基于统计特征的预设相关性计算模型基本只关注词汇层面,忽略了词义和结构,存在一定的局限性,导致其计算所得的第一相关性分数不足以有效表征用户查询与科技政策资源文本之间的相关性。所以,在此基础上本实施例进一步引入通过大规模语料进行预训练的深度语言模型bert,对初步召回的候选文档进行进一步的相似度判断以进行二次召回。
[0074]
在步骤s103中,采用的预设bert模型首先采用无标注的多个领域和学科政策文本语料进行预训练,再采用目标领域的预设标注数据集进行微调。
[0075]
在一些实施例中,预设bert模型采用无标注的多个领域和学科政策文本语料进行预训练,包括:采用mlm(masked language models)任务对预设bert模型进行预训练。
[0076]
对于mlm任务来说,其做法是随机掩盖掉输入序列中的token(即用“[mask]”替换掉原有的token),然后在bert的输出结果中取对应掩盖位置上的向量进行真实值预测。
[0077]
具体的,采用mlm任务对所述预设bert模型进行预训练,包括:获取类别特征词袋;对多个领域和学科政策文本语料首先掩盖所述类别特征词袋中有的token,对于语料中的其余token采用随机mask策略掩盖,其中被掩盖的token有第一设定概率被替换为[mask],有第二设定概率被替换为预设词典中的随机token,有第三设定概率保持不变。
[0078]
在一些实施例中,第一设定概率为80%,第二设定概率为10%,第三设定概率为10%。
[0079]
如果所有参与训练的token被100%的[mask],那么在fine-tunning的时候所有单词都是已知的,不存在[mask],那么模型就只能根据其他token的信息和语序结构来预测当前词,而无法利用到这个词本身的信息,因为它们从未出现在训练过程中,等于模型从未接触到它们的信息,等于整个语义空间损失了部分信息。采用80%的概率下应用[mask],既可以让模型去学着预测这些单词,又以20%的概率保留了语义信息展示给模型。保留下来的信息如果全部使用原始token,那么模型在预训练的时候可能会偷懒,直接照抄当前token信息。采用10%概率下random token来随机替换当前token,会让模型不能去死记硬背当前的token,而去尽力学习单词周边的语义表达和远距离的信息依赖,尝试建模完整的语言信息。最后再以10%的概率保留原始的token,意义就是保留语言本来的面貌,让信息不至于完全被遮掩,使得模型可以“看清”真实的语言面貌。
[0080]
在一些实施例中,采用mlm任务对预设bert模型进行预训练,采用的损失函数公式为:
[0081][0082]
其中,m(x)代表对序列x中的mask单词,x
\m(x)
代表序列中的剩余单词,表示被掩盖的单词,x=[x1,x2,

,x
t
];x
t
表示第t个单词。
[0083]
在一些实施例中,预设bert模型还采用目标领域的预设标注数据集进行微调,包括步骤s201~s203:
[0084]
步骤s201:将目标领域的预设标注数据集中的问题与答案组成正样本,将问题与非答案组成负样本。
[0085]
步骤s202:以预设bert模型作为二分类器,将最后一层隐藏层的词元的词元向量作为特征表示,输入单隐藏层的神经网络中进行训练输出的概率分数作为用户查询和候选文本的相似度评分。
[0086]
步骤s203:采用预设标注数据集中的正样本和负样本对预设bert模型进行微调,采用的损失函数为:
[0087][0088]
其中,si表示神经网络的预测输出分数,i
pos
代表正样本集合,i
neg
代表负样本集合。
[0089]
在一些实施例中,预设bert模型还采用目标领域的预设标注数据集进行微调,包括:将预设标注数据集按照第二设定比例分为训练集、验证集和测试集进行交叉训练。
[0090]
出于机器学习大量数据和训练的特点,既不能直接将泛化误差作为了解模型泛化能力的信号,因为在部署环境和训练模型之间往复,代价很高;也不能使用模型对训练数据集的拟合程度来作为了解模型泛化能力的信号,因为获得的数据可能不干净,不具有较好的代表性。因此,当训练有监督的机器学习模型时,通常需要将原数据集分割为两部分:训练集和测试集,从而使用训练集的数据来训练模型,模型在测试集上测试后,再用测试集上的误差近似模型在现实场景中的泛化误差。在此基础上,不仅需要作模型与模型之间类的比较,对于某一类模型内部,也要不断进行筛选,涉及到模型自身的评估以及超参数的调整,就需要从训练集中再次划分出验证集。具体的,可以采用k折交叉验证法进行训练。
[0091]
进一步的,步骤s1031中,基于预训练和微调得到的预设bert模型,考虑到预设bert模型的输入限制,在利用预设bert模型比对相似性的过程中,将候选文档按照第一设定长度分割为多个文本段分别进行相似性比对后,再聚合计算综合评分。其中,分割后得到的文本段长度小于445个字符,相邻文本段之间重叠64个字符。
[0092]
具体的,步骤s1032中,采用预设bert模型分别计算用户查询与各文本段的第三相关性分数并聚合得到用户查询与所述候选文档的第二相关分数,包括:对用户查询与各文本段的第三相关性分数采用首段分数聚合、平均分数聚合或最大分数聚合计算得到第二相关分数;
[0093]
采用首段分数聚合计算第二相关分数,表达式为:
[0094]sstage2
(d,d)=s1(q,p1);
ꢀꢀ
(5)
[0095]
其中,s
stage2
(q,d)表示第二相关分数,s1(q,p1)表示用户查询与候选文档的第一个文本段之间的第三相关性分数。
[0096]
采用平均分数聚合计算第二相关分数,表达式为:
[0097][0098]
其中,s
stage2
(q,d)表示第二相关分数,si(q,pi)表示用户查询与候选文档的第i个文本段之间的第三相关性分数。
[0099]
采用最大分数聚合计算第二相关分数,表达式为:
[0100]sstage2
(q,d)=max(s1(q,p1),s2(q,p2),

,sn(q,pn));
ꢀꢀ
(7)
[0101]
其中,s
stage2
(q,d)表示第二相关分数,sn(q,pn)表示用户查询与候选文档的第n个文本段之间的第三相关性分数。
[0102]
另一方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述方法的步骤。
[0103]
另一方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
[0104]
下面结合一具体实施例对本发明进行说明:
[0105]
本实施例提供一种多领域与多学科科技政策资源检索方法及装置,如图2所示,以统计相似度模型bm25为基础,对用户query进行初步的相关文档召回,并通过引入深度语言模型bert对候选的相关文档进行重排序。另外,科技政策资源具有显著的长文本特点,往往超出bert模型的输入限制,无法直接使用。通过对政策文本分段计算并聚合分数,实现基于深度语言模型bert的长文本匹配。具体的,本实施例包括3个部分。
[0106]
1.领域预训练
[0107]
为了在传统的相似度匹配基础上加入语义相似度计算的修正,本实施例引入并使用了深度语言模型bert(bidirectional encoder representation from transformers),bert模型利用mlm和nsp两种任务在大规模无标注文本上进行预训练,采用深层的transformer组件来构建整个模型,避免了以往的预训练模型结构会受到单向语言模型的限制,提高了模型的表征能力。然而,大规模的预训练语料来源于通用文本数据,如中文维基等,缺少领域相关知识,而微调(fine-tuning)阶段往往缺少足够的标注数据,因此模型难以捕捉或学习到特定领域的模式。因此,在引入深度语言模型bert的同时,使用无标注的多领域与多学科政策文本语料对模型进行领域数据上的预训练,帮助模型更好的学习政策领域文本的语义特征模式。同时在领域预训练模型上,使用少量的有标注外部跨领域数据集进行微调,实现在缺少标注数据下对政策领域文本较少的语义捕获能力。
[0108]
本实施例中,在领域预训练阶段,仅使用mlm(masked language models)任务,通过mask策略遮住语料句子中的一个单词,用[mask]代替,通过句子中的前后文进行预测,对于序列x=[x1,x2,

,x
t
],损失函数采用公式3。
[0109]
为了更好的学习多领域与多学科政策领域的语言模式,对原始的mask策略进行了修改,使模型在预训练任务中更关注领域特征词。在这一过程中,利用了类别特征词袋,在mask策略中首先遮盖掉出现在类别特征词袋中的token,对于语料中的其余token采取随机mask策略:80%的概率被替换为[mask],10%的概率被替换为词典中的一个随机token,10%保持不变。
[0110]
2.基于深度语言模型bert的微调任务
[0111]
本实施例使用了中文公开数据集cmedqa作为微调阶段的标注数据,其中训练集中包含100000个问题和188490个回答,验证包含4000个问题和7527个回答,测试机包含4000个问题和7552个回答。
[0112]
将标注数据中问题与答案组成正样本,对于每个问题从非答案文本中随机采集作为负样本,加入特殊词元[cls]和[sep]组成模型输入:[[cls],用户query,[sep],样本文
本,[sep]],对于用户query字符串限制64个词元(token)长度,对于超过query长度限制的文本进行截断处理,将bert模型作为二分类器,对最后一层隐藏层的词元[cls]对应的词元向量作为特征表示,输入单隐藏层的神经网络中进行训练,其输出的概率分数作为用户query与候选文本的相似度打分。
[0113]
其中,单隐藏层的神经网络分类器输出对用户query和候选文本的相似度预测,微调训练过程中,采用损失函数如上式4。
[0114]
3.多领域与多学科科技政策资源检索相关性计算
[0115]
通过引入大规模语料预训练的深度语言模型bert,并结合使用多领域与多学科政策领域本文继续进一步的领域预训练和下游任务微调,实现了对用户query和候选文本的基于语义的相关性计算。在此基础上,本实施例提供具体的科技政策资源检索排序方法。方法分为两个阶段,第一阶段根据统计相关性模型bm25对科技政策资源进行初步召回和粗排,第二阶段融合深度语言模型的相关度计算对第一阶段的预测分数进行修正和重排(re-ranking)。
[0116]
在第一阶段中,对有包含关键字q1,q2,

,qn的用户查询q,用户查询q与文档d的相关性计算公式参照上述式1和式2。
[0117]
如果检索项qi比较少见(如专业术语),则被匹配后idf分数较高,反之较低。在第一阶段,通过基于词频tf和逆文档频率idf的统计相关性计算,初步召回一定数量的候选文档,将候选文档的数量设定为200。
[0118]
在第二阶段,基于深度语言模型bert,计算用户query与候选文档之间的相关性分数,并对第一阶段的相关性进行修正,实现对候选文档的重排序(re-ranking),为用户提供多领域与多学科科技政策资源的检索结果,修正后的相关性计算公式见公式8:
[0119]
score(q,d)=αs
stage1
(q,d)+(1-α)s
stage2
(q,d);
ꢀꢀ
(8)
[0120]
其中,s
stage1
(q,d)代表第一阶段的基础相关度分数,s
stage2
(q,d)代表第二阶段基于bert模型的相关性分数,α是修正系数,也是超参数,取值范围在0到1之间,实践中的具体取值可以在交叉验证集上对参数进行网格搜索。
[0121]
在基于bert模型计算匹配相关度时,需要面临输入限制的问题,bert模型的输入长度最大为512个字符,而多领域与多学科科技政策资源具有显著的长文本特点,无法直接输入模型计算。针对这一问题,对政策长文本进行分割处理,使分隔文本段长度小于445个字符,相邻文本段间重叠64个字符,拼接用户query和文本段分别进行预测打分后通过分数聚合完成相关度计算,如图3所示:
[0122]
对于多领域与多学科科技政策资源普遍长文本的特点,对科技政策文本进行分割处理,将长文本滑动分割为多个文本段p1,p2,

,pn,相邻的不同文本段间重叠64字符,使拼接query后的输入满足bert模型512字符的输入限制,对于末尾长度不足的输入通过padding操作补齐。对于分割后的每个文本段,分别与用户query拼接形成输入格式[[cls],[用户query],[sep],[文本段],[sep]],并输入到4.2.2节的网络结构中进行相关度打分预测,得到多个相关度分数s1,s2,

,sn后,通过对多个相关度分数聚合得到最终的相关度预测,在聚合方式的选择上,可以采用首段分数聚合、平均分数聚合或最大分数聚合计算,分别参照上式5、6和7,本实施例基于实验数据最终使用最大分数聚合方法。
[0123]
综上所述,本发明所述多领域与多学科科技政策资源检索方法及装置,通过传统
的预设相关性计算模型计算用户查询和各科技政策资源文本段的相似度并初步召回和粗排候选文档,再进一步引用深度语言模型bert对初步召回的候选文档进行修正和重排以最终输出查询结果。基于无标注的文本对bert模型进行预训练,并采用特定领域有标注的文本进行微调,提高了文本匹配任务完成过程中的语义捕获能力。通过分割候选文本为多个文本段,分别计算各文本段与用户查询之间的相似度后进行聚合得到第二相关性分数,以解决bert模型输入限制的问题。本发明通过两阶段的查询检索,综合词汇、词义和结构层面的特征,提升了文本匹配的精度。
[0124]
本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(asic)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、rom、闪存、可擦除rom(erom)、软盘、cd-rom、光盘、硬盘、光纤介质、射频(rf)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
[0125]
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
[0126]
本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
[0127]
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1