本发明涉及数据处理,尤其是一种专利管理数据处理系统、装置及方法。
背景技术:
1、现代企业竞争日益激烈,竞争的手段是多种多样,其中知识产权的竞争是其中一个重要方面。目前,大多数企业都会申请知识产权对其自身的创新成果进行保护,对于科技创新型企业而言,其知识产权的保护形式主要是专利保护,对专利信息进行管理,是科技创新型企业管理工作的重要部分。而企业专利信息管理,主要是基于企业专利信息进行管理,专利信息不仅信息量大,而且还有一些期限信息,例如申请过程中的法定期限信息,又例如申请授权后的一些法定期限信息,需要借助一些智能化产品辅助管理工作。
2、企业通常使用电子表格等软件人工记录专利信息。但是这种管理方式过分依赖人工,具有各种不确定的因素,容易产生数据篡改、丢失、记录错误等情况。目前市场上有一些管理软件产品,但其功能复杂,不利于企业的管理,因此,亟待提出一种简易使用的专利信息智能化管理方案来克服这一缺陷,降低企业知识产权管理工作的管理成本,提高企业知识产权管理工作的工作效率。
技术实现思路
1、本发明的目的是通过提出一种专利管理数据处理系统、装置及方法,以解决上述背景技术中提出的缺陷。
2、本发明采用的技术方案如下:
3、提供一种专利管理数据处理系统,包括:
4、专利数据接收层:用于接收专利数据;
5、专利数据预处理层:用于对专利数据进行预处理;
6、专利数据处理层:用于对专利数据进行处理;
7、专利数据存储层:用于通过专利数据库存储专利数据:
8、专利数据管理层:用于对存储的专利数据进行综合管理。
9、作为本发明的一种优选技术方案:所述专利数据预处理层的预处理操作包括对专利数据内容、格式的核查与记录。
10、作为本发明的一种优选技术方案:所述专利数据预处理层的预处理操作还包括专利数据的缺失值处理、专利数据的离散化处理、专利数据的标准化和专利数据的归一化处理。
11、作为本发明的一种优选技术方案:所述专利数据处理层对于预处理后的专利数据进行分类集成。
12、作为本发明的一种优选技术方案:所述专利数据处理层获取专利数据序列w=(w(1),w(2),…,w(l)),w(l)表示该专利数据序列中的第l个专利数据,给定局部滑动窗口大小q,表示通过w(l)预测在序列w中w(l)的前面q个词和后面q个词:w(l-q),…,w(l-1),w(l+1),…,w(l+q)的概率,其中,w(l)为中心专利数据,v(w(l))={w(l-q),…,w(l-1),w(l+1),…,w(l+q)}被称为w(l)的背景专利数据集,构建跳字模型:
13、
14、其中,r为跳字模型目标函数,θ是网络学习参数,l=[1,l]为专利数据序列个数,p(v(w(l))|w(l),θ)表示专利数据为背景专利数据的概率;
15、又由于背景词的生成是相互独立的,跳字模型目标函数r改写为:
16、
17、其中,p(w(l+k)|w(l),θ)表示专利数据为背景专利数据的概率,上式的极大似然估计等于损失函数:
18、
19、其中,h为损失函数;
20、基于专利数据的训练,得到专利数据的词嵌入矩阵e,e是一个|v|×c的矩阵,|v|是词汇表大小,c是词嵌入空间的维度;构建平均词嵌入表示模型:
21、ae=(wb⊙b)e
22、其中,ae为专利数据的平均词嵌入表示矩阵,矩阵大小为t×c,t是专利数据中的文档数量;⊙表示矩阵的hadamard积,b是专利数据的布尔表示矩阵,矩阵大小为t×|v|,矩阵元素为brs=1表示单词s出现在文本r中,brs=0表示文本r不包含单词s,wb为平均词向量的权重:
23、
24、其中,w1w2…wt分别为文档内专利数据的平均词向量权重,是一个|v|维的全1列向量;
25、平均词向量加权将文档中的每一个专利数据视为权重相等,将这些专利数据的专利数据嵌入表示进行平均化,作为该文档的向量化表示。
26、作为本发明的一种优选技术方案:所述专利数据处理层中,根据专利数据的向量化表示,获取专利数据的马氏距离,通过马氏距离划定衡量标准,再通过k近邻算法对专利数据进行分类。
27、作为本发明的一种优选技术方案:所述专利数据的马氏距离算法如下:
28、令x是一个a×b的专利数据样本矩阵,包含a个专利数据样本xi,i=1,2,…,a,b为每个专利数据样本的特征数量,得到:
29、d2(xi,x)=(xi-μ)σ-1(xi-μ)t
30、其中,d2(xi,x)表示专利数据样本xi到总体x的马氏距离的平方,μ是专利数据样本矩阵的均值向量,表示一个m维的全1列向量的转置,σ是专利数据样本矩阵的协方差矩阵,表示一个m维的全1列向量,σ是一个实对称半正定矩阵,则存在一个正交矩阵p=[e1,e2,…,en],使得:
31、σ=pλpt
32、其中p=[e1,e2,…,en],满足i≠u,i,u=1,2,…,n,λ是一个对角矩阵,对角线上的元素αi是σ的特征值,且α1≥α2≥…≥αn≥0,得到:
33、d2(xi,x)=(xi-μ)pλ-1pt(xi-μ)t
34、选择前d个大于0的特征值,相应的正交矩阵p′=[e1,e2,…,ed],令zi=(xi-μ)p,则:
35、
36、其中,表示改变正交矩阵后的(xi-μ)p′的值的平方,将xi到x的马氏距离简化为di,得到:
37、
38、其中表示样本(x-μ)p′在第j个维度的方差。
39、作为本发明的一种优选技术方案:所述专利数据存储层将分类集成后的专利数据按照专利数据格式规范进行入库。
40、提供一种专利管理数据处理装置:包括:
41、专利数据获取模块:被配置为获取专利数据;
42、专利数据管理模块:被配置为管理获取的专利数据。
43、提供一种专利管理数据处理方法,包括如下步骤:
44、s1:获取专利数据;
45、s2:对获取的专利数据进行预处理;
46、s3:对预处理后的专利数据进行专利数据分类集成;
47、s4:对分类集成后的专利数据通过专利数据库进行存储。
48、本发明提供的专利管理数据处理系统、装置及方法,与现有技术相比,其有益效果有:
49、本发明通过获取专利数据的深层特征,通过基于马氏距离进行分类的k近邻算法对专利数据进行自动集成分类,再存储至专利数据库中,并能够对各项专利数据进行综合管理,使用功能简单快捷,同时能够根据使用者制定的专利数据格式规范进行不同方式的存储,降低企业知识产权管理工作的管理成本,提高企业知识产权管理工作的工作效率。