一种专利文本可授权性预测方法及装置

文档序号:28164388发布日期:2021-12-24 21:39阅读:113来源:国知局
一种专利文本可授权性预测方法及装置

1.本技术涉及自然语言处理中的文本匹配技术。


背景技术:

2.专利不仅是一种重要的财产权和无形资产,而且是企业的一种重要的竞争资源,专利发展水平更是成为衡量一个地区综合实力、发展能力和核心竞争力的战略性标志。
3.专利申请文件的撰写质量直接影响专利的授权前景,对撰写好的申请文件,尤其是权利要求书和说明书进行可授权性的初步预测是十分必要的。


技术实现要素:

4.本技术的目的是为了满足现有技术的发展需求,提供一种专利文本可授权性预测方法及装置。
5.本技术的一种专利文本可授权性预测方法包括:
6.利用4头注意力的transformer编码器对所述待预测专利文本、所述授权专利文本、以及所述未授权专利文本进行向量化编码,得到所述待预测专利文本的文本向量q[1:m]、所述授权专利文本的文本向量d1[1:n]、以及所述未授权专利文本的文本向量d2[1:n],其中,m表示向量q[1:m]的维度,n表示向量d1[1:n]和d2[1:n]的维度;
[0007]
对所述q[1:m]分别与d1[1:n]和d2[1:n]做余弦计算,得到余弦得分矩阵m;
[0008]
利用k个rbf

kernel来转换余弦得分矩阵m,得到矩阵k1至k
k
,每个kernel集中于一个以μ
k
为中心的相似度分布中,并且集中范围由σ决定:
[0009][0010]
对于第p个kernel,p=1,2,

,k,计算矩阵k
p

[0011][0012]
对于所述授权专利文本和所述未授权专利文本,分别将所有kernel得到的结果拼接并进行线性映射,得到预测授权率和预测不授权率。
[0013]
可选地,在所述利用4头注意力的transformer编码器对所述待预测专利文本、所述授权专利文本、以及所述未授权专利文本进行向量化编码之前,所述方法还包括:
[0014]
对所述待预测专利文本、所述授权专利文本、以及所述未授权专利文本进行分词,并将分词后得到的单词转换为词向量,将所述词向量作为所述双层transformer编码器的输入。
[0015]
可选地,所述待预测专利文本、所述授权专利文本、以及所述未授权专利文本设定为相同长度。
[0016]
可选地,所述授权专利文本和所述未授权专利文本的获取方法包括:
[0017]
对所述待预测专利文本进行向量化编码;
[0018]
以所述待预测专利文本为作查询,利用lambdarank对数据库中的所有法律状态为授权的专利文档、所有因不符合专利法第26条而未授权的专利文本进行评分;
[0019]
选排序靠前的授权专利文本和未授权专利文本。
[0020]
可选地,所述transformer编码器为4头注意力的双层transformer编码器。
[0021]
本技术的一种专利文本可授权性预测装置包括:
[0022]
向量化编码模块,其配置成利用4头注意力的transformer编码器对所述待预测专利文本、所述授权专利文本、以及所述未授权专利文本进行向量化编码,得到所述待预测专利文本的文本向量q[1:m]、所述授权专利文本的文本向量d1[1:n]、以及所述未授权专利文本的文本向量d2[1:n],其中,m表示向量q[1:m]的维度,n表示向量d1[1:n]和d2[1:n]的维度;
[0023]
第一计算模块,其配置成对所述q[1:m]分别与d1[1:n]和d2[1:n]做余弦计算,得到余弦得分矩阵m;
[0024]
转换模块,其配置成利用k个rbf

kernel来转换余弦得分矩阵m,得到矩阵k1至k
k
,每个kernel集中于一个以μ
k
为中心的相似度分布中,并且集中范围由σ决定:
[0025][0026]
第二计算模块,其配置成对于第p个kernel,p=1,2,

,k,计算矩阵k
p

[0027][0028]
预测模块,其配置成对于所述授权专利文本和所述未授权专利文本,分别将所有kernel得到的结果拼接并进行线性映射,得到预测授权率和预测不授权率。
[0029]
可选地,所述装置还包括:
[0030]
分词模块,其配置成对所述待预测专利文本、所述授权专利文本、以及所述未授权专利文本进行分词,并将分词后得到的单词转换为词向量,将所述词向量作为所述双层transformer编码器的输入。
[0031]
可选地,所述待预测专利文本、所述授权专利文本、以及所述未授权专利文本设定为相同长度。
[0032]
可选地,所述授权专利文本和所述未授权专利文本的获取方法包括:
[0033]
对所述待预测专利文本进行向量化编码;
[0034]
以所述待预测专利文本为作查询,利用lambdarank对数据库中的所有法律状态为授权的专利文档、所有因不符合专利法第26条而未授权的专利文本进行评分;
[0035]
选取排序靠前的授权专利文本和未授权专利文本。
[0036]
可选地,所述transformer编码器为4头注意力的双层transformer编码器。
[0037]
本技术的一种专利文本可授权性预测方法及装置,能够对待预测专利文本的说明书和权利要求是否符合专利法第26条在一定程度上做出判断,从专利法第26的角度预测待预测专利文本的可授权性。
附图说明
[0038]
图1为本技术实施方式一的预测模型的结构示意图;
[0039]
图2为本技术实施方式一的一种专利文本可授权性预测方法的示意性流程图;
[0040]
图3为本技术实施方式二的一种专利文本可授权性预测装置的结构示意图。
具体实施方式
[0041]
具体实施方式一:如图1所示,本实施方式的一种专利文本可授权性预测方法主要利用了transformer

kernel模型,所述方法一般性地可以包括图2所示的步骤s1至步骤s5。
[0042]
步骤s1、对所述待预测专利文本、所述授权专利文本、以及所述未授权专利文本进行分词,并将分词后得到的单词转换为向量,即对各专利文本进行向量化编码。
[0043]
上述步骤s1中,所述的授权专利文本是指曾经获得授权的专利文本,包括法律状态为授权、因未缴年费而导致的专利权终止、以及授权后被无效掉的专利文本,因这类文本的权利要求书和说明书均满足专利法第26条的规定,因此可以作为正例文本用来与待预测专利文本进行比对,以评价待预测专利文本的撰写质量。所述的未授权专利文本是指因不满足专利法第26条而未授权(包括驳回和视为撤回)的专利文本,因权利要求书或说明书在撰写上存在一些不清楚之处,因此可以作为负例文本用来与待预测专利文本进行比对,以评价待预测专利文本的撰写质量。
[0044]
所述的授权专利文本(即正例文本)和未授权专利文本(即负例文本)有多种获取方法,例如下述方法一和方法二。
[0045]
方法一,利用常规的专利检索网站获取,在专利检索网站中输入待预测专利文本的若干个关键词进行检索,在检索到的专利中选取一个排序靠前的授权专利文本作为正例文本,选取一个排序靠前的因不满足专利法第26条而未授权的专利文本作为负例文本;该方法需要根据待预测专利文本的技术方案确定关键词。
[0046]
方法二,所述对待预测专利文本(权利要求书或说明书)进行向量化编码;以所述待预测专利文本作为查询,利用lambdarank方法对数据库中所有曾经获得授权的专利文档、所有因不符合专利法第26条而被驳回或者视为撤回的未授权专利文本进行评分并排序;根据评分结果选取评分最高的曾经授权的专利文本和未授权专利文本分别作为正例文本和负例文本,该方法不需要人为地确定关键词,而是将权利要求书或说明书整篇文档作为输入,即可获得与所述待预测专利文本内容相似度最高的授权文本和未授权专利文本。具体包括如下步骤a至步骤c。
[0047]
步骤a、首先选取g06类中的73073份专利文本形成数据集,将该数据集中的所有专利文本分词,然后采用预训练好的word2vec编码进行embedding(即将单词转化为词向量),采用上述数据集来提取tf

idf(term frequency

inverse document frequency)权重,数据集中的每个专利文本分词后对应的embedding与tf

idf权重的加权和为文本的向量编码。tf

idf是一种统计方法,用来评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度,在本实施例中可以用来评估单词对于专利文本的重要程度,从而使用它对单词的向量进行加权和计算,能够对专利文本进行更加精确的表示。字词的重要性随着字词在文件中出现的次数成正比增加,但同时会随着字词在语料库中出现的频率成反比下降,某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的tf

idf。因此,tf

idf倾向于过滤掉常见的词语,保留重要的词语,tf

idf加权的单词向量编码可以应用在专利文本表示上。
[0048]
步骤b、利用lambdarank方法对数据库中所有曾经获得授权的专利文档、所有因不符合专利法第26条而被驳回或者视为撤回的未授权专利文本进行评分并排序。lambdarank方法是基于文档对的排序方法。文档对方法是排序学习所使用的一种方法,排序学习主要目的为对数据库中的一系列文档通过与查询文本的相似度等程度进行打分并由高到低排序,从而选出与查询文本最相似的一组文档。文档对方法将数据库中所有评分不同的文档组成一对,评分较高的作为正例文档,评分较低的作为负例文档,文档对方法通过文本匹配等方式通过一对文档与查询文本的关系对比,预测正负例文档的关系,将数据库中所有文档对关系预测好之后,所有文档的排序关系就自然得到了。lambdarank方法在此基础上考虑各文档的位置因素形成所有文档的排序。
[0049]
步骤c、获得所有的排序后,根据实际需要选取排序最靠前的一对或多对文本作为正负例文本。
[0050]
获得正例文本和负例文本后,将所述待预测专利文本、所述正例文本、以及所述负例文本去除标点符号,然后利用结巴分词方法进行分词,然后使用训练好的word2vec编码模型对各单词进行编码,得到编码后的词向量,作为后面双层transformer编码器的输入。根据随机抽取的500份授权专利与500份未授权专利的说明书“发明内容”部分文本进行统计,发现“发明内容”部分包含词条的平均长度为750,因此,本实施例设定待预测专利文本、正例文本、以及负例文本的词条长度为750,词条长度超过750的专利文本需要对词条进行适当删减,词条长度不足750的需要补充至750。
[0051]
步骤s2、利用4头注意力的双层transformer编码器对所述待预测专利文本、所述授权专利文本、以及所述未授权专利文本进行向量化编码,得到所述待预测专利文本的文本向量q[1:m]、所述授权专利文本的文本向量d1[1:n]、以及所述未授权专利文本的文本向量d2[1:n],其中,m表示向量q[1:m]的维度,n表示向量d1[1:n]和d2[1:n]的维度。
[0052]
上述步骤s2中,transformer编码器在编码过程中综合考虑了单词、语法结构、以及语义分析等因素,与其他编码器相比,transformer编码器对原始文本的理解更合理、更准确。常规的transformer编码器只有一层,并且是8头注意力机制,而本实施例采用了4头注意力的双层transformer编码器进行信息提取,并将提取到的信号编码成新的向量。双层transformer编码器包含结构相同的两个层,每个层又包含两个子层中,第一个子层采用了4头注意力机制,第二个子层是位置敏感的全连接前馈网络,两个子层在层归一化后都用到了残差连接,即每个子层整体都可以用公式layernorm(x+sublayer(x))来描述,其中sublayer(x)是每个子层自己的函数,x表示输入至transformer编码器的向量。根据实验可知,与8头注意力机制相比,4头注意机制能够使transformer编码器的编码性能保持不变,但是计算量会显著减少。
[0053]
将步骤s1得到的三个专利文本的词向量分别输入至三个双层transformer编码器的第一层,第一层的输出作为第二层的输入,第二层会输出每个专利文本编码后的向量。
[0054]
步骤s3、对所述q[1:m]分别与d1[1:n]和d2[1:n]做余弦计算,得到余弦得分矩阵m,位于矩阵m第i行j列的元素m
ij
为:
[0055]
m
ij
=cos(q,d
j
)
[0056]
其中,j=1,2。
[0057]
步骤s4、利用k个rbf

kernel来转换余弦得分矩阵m,得到矩阵k1至k
k
。每个kernel
集中于一个以μ
p
(p=1,2,

,k,μ1至μ
k
均匀分布)为中心的相似度分布中,σ类似于方差,所有kernel的集中范围由σ决定,k个σ的值相同,每个kernel产生一个矩阵,该矩阵与m大小相同,第p个kernel产生的矩阵为k
p
,位于矩阵k
p
的第i行j列的元素为:
[0058][0059]
接下来同步处理所有kernel,在余弦得分矩阵m的第j列上加和正例文本和负例文本两个文档的对应向量和kernel,得到k个矩阵,其中,与第p个kernel相对应的矩阵为k

p
,矩阵k

p
的第i行的元素为:
[0060][0061]
对于所述正例文本和所述负例文本,将所有kernel得到的结果(即k
′1至k

k
)进行横向拼接,对所得到的拼接后的正例和负例文本k向量进行纵向拼接,得到一个2行k列的拼接矩阵。
[0062]
步骤s5、用全连接层对所述拼接矩阵进行线性映射,得到一个向量,然后将这个向量输入softmax函数,得到预测授权率和预测不授权率,预测授权率和预测不授权率的和为1。
[0063]
双层transformer编码器和全连接层在训练过程中使用交叉熵l作为损失函数,交叉熵用来衡量预测值和真实值分布的距离,具体计算方式如下:
[0064][0065]
其中,y表示预测值,表示真实值。
[0066]
步骤s2至步骤s5利用了transformer

kernel模型对专利可授权性进行预测,模型结构如图2所示。
[0067]
下面对本实施例的专利文本可授权性预测方法进行验证。
[0068]
首先构造数据集:使用前述的授权专利文本和未授权专利文本的第二种获取方法的步骤a和步骤b,针对7000多个查询专利文本得到与每个查询专利文本在内容上最相近的授权

未授权专利文本对5对,数据集的专利文本总数量为34220,将该数据集分为训练集、开发集、以及测试集三部分,如表1所示。
[0069]
表1数据集构造
[0070]
数据集类型授权

未授权文本对数量训练集26520测试集2945开发集3105总数34220
[0071]
利用表1所示的数据集对各种专利文本可授权性预测方法的准确率进行比较。表中pcnn和fasttext为现有方法的模型,transformer

kernel表示本技术实施例的专利文本可授权性预测方法所采用的模型,transformer

maxpooling和transformer+cnn中的transformer采用了本实施例改进后的4头注意力的双层transformer模型。输入模型的是查询文本

授权

未授权专利文本三文本对,那么,每个查询文本能够形成五个三文本对,整
个数据集共形成34220个三文本对。对于每个模型,将每个三文本对都输入至该模型,对于一个输入的三文本对,模型输出的预测授权率高于预测不授权率(即预测授权率高于50%)时,预测结果为能够授权,否则,预测结果为不能授权,然后结合查询文本的法律状态确定预测结果是否准确。
[0072]
各模型预测准确率比较结果如表2和表3所示。
[0073]
表2基于不同模型的方法的整体准确率
[0074]
模型整体准确率dpcnn67.8%fasttext75.6%transformer

kernel77%transformer

maxpooling76%transformer+cnn72.3%
[0075]
整体准确率表示每个模型对于数据集中所有查询文本的准确率,即,34220个三文本对中,预测正确的三文本对的数量除以34220,得到整体准确率。从表2可以看出,pcnn和fasttext的整体准确率不到76%,transformer

kernel整体准确率达到77%,transformer

maxpooling和transformer+cnn中的transformer虽然采用了本实施例改进后的4头注意力的双层transformer,但是整体准确率明显低于transformer

kernel的整体准确率。可见,本技术实施例的专利文本可授权性预测方法的整体准确率最高。
[0076]
表3
[0077]
模型平均准确率查询文本准确率textcnn71%77%dpcnn67%72%transformer

kernel71%77%transformer+maxpooling67%71%fasttext68%71%
[0078]
每个查询文本共涉及5个三文本对。将一个查询文本的5个三文本对依次输入至一个模型中,得到5个预测结果,正确的预测结果的数量除以5,得到该模型对该查询文本的准确率,该模型对所有查询文本的准确率的平均值作为表2中的平均准确率。
[0079]
对于一个模型,如果一个查询文本有3个或3个以上三文本对预测结果正确,则认为该模型对该查询文本的预测结果正确,将一个模型对数据集所有查询文本进行预测,预测结果正确的查询文本占数据集中所有查询文本的数量的比值作为该模型的查询文本准确率。
[0080]
从表3可以看出,无论以哪个指标进行衡量,transformer

kernel的准确性都是最好的。
[0081]
此外,本技术实施例还做了其他验证,结果表明,双层transformer的预测结果优于多层transformer及双层transfomer叠加cnn,证明编码层数少的模型效果优于编码层数多的模型,因此在专利长文本分类上面较浅层的网络编码效果优于深层网络。
[0082]
本实施例的专利文本可授权性预测方法,能够识别一些由于撰写不规范导致的权利要求和说明书不符合专利法第26条的问题,例如缺少某些技术特征之间的关系,或者一
些简单的逻辑错误等,对专利申请文件的撰写具有很好的指导意义。
[0083]
具体实施方式二:如图3所示,本实施方式提供了一种专利文本可授权性预测装置,所述装置包括:
[0084]
向量化编码模块2,其配置成利用4头注意力的transformer编码器对所述待预测专利文本、所述授权专利文本、以及所述未授权专利文本进行向量化编码,得到所述待预测专利文本的文本向量q[1:m]、所述授权专利文本的文本向量d1[1:n]、以及所述未授权专利文本的文本向量d2[1:n],其中,m表示向量q[1:m]的维度,n表示向量d1[1:n]和d2[1:n]的维度;
[0085]
第一计算模块3,其配置成对所述q[1:m]分别与d1[1:n]和d2[1:n]做余弦计算,得到余弦得分矩阵m;
[0086]
转换模块4,其配置成利用k个rbf

kernel来转换余弦得分矩阵m,得到矩阵k1至k
k
,每个kernel集中于一个以μ
k
为中心的相似度分布中,并且集中范围由σ决定:
[0087][0088]
第二计算模块5,其配置成对于第p个kernel,p=1,2,

,k,计算矩阵k
p

[0089][0090]
预测模块6,其配置成对于所述授权专利文本和所述未授权专利文本,分别将所有kernel得到的结果拼接并进行线性映射,得到预测授权率和预测不授权率。
[0091]
作为本技术的优选实施例,所述装置还包括:
[0092]
分词模块1,其配置成对所述待预测专利文本、所述授权专利文本、以及所述未授权专利文本进行分词,并将分词后得到的单词转换为词向量,将所述词向量作为所述双层transformer编码器的输入。
[0093]
作为本技术的优选实施例,所述待预测专利文本、所述授权专利文本、以及所述未授权专利文本设定为相同长度。
[0094]
作为本技术的优选实施例,所述授权专利文本和所述未授权专利文本的获取方法包括:
[0095]
对所述待预测专利文本进行向量化编码;
[0096]
以所述待预测专利文本为作查询,利用lambdarank对数据库中的所有法律状态为授权的专利文档、所有因不符合专利法第26条而未授权的专利文本进行评分;
[0097]
选取排序靠前的授权专利文本和未授权专利文本。
[0098]
作为本技术的优选实施例,所述transformer编码器为4头注意力的双层transformer编码器。
[0099]
本实施例的专利文本可授权性预测装置与实施例一的专利文本可授权性预测方法原理及效果均相同,在此不再赘述。
[0100]
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时,全部或部分地产生按照本技术实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算
机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
[0101]
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0102]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成,所述的程序可以存储于计算机可读存储介质中,所述存储介质是非短暂性(英文:non

transitory)介质,例如随机存取存储器,只读存储器,快闪存储器,硬盘,固态硬盘,磁带(英文:magnetic tape),软盘(英文:floppy disk),光盘(英文:optical disc)及其任意组合。
[0103]
以上所述,仅为本技术较佳的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应该以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1