针对区域科技创新攻关方向的量化甄选方法与流程

文档序号：32052759发布日期：2022-11-04 18:59阅读：90来源：国知局

1.本技术涉及一种针对区域科技创新攻关方向的量化甄选方法。

背景技术：

2.在产业链供应链全球化的大趋势下，需要围绕我国在产业发展、经济发展环节中亟待解决的短板关键技术开展科技攻关，在重点领域关键产业上补齐技术短板，为全球产业链发展贡献中国力量。而针对区域的科技创新攻关方向选择目前主要以区域专家智库讨论决定，需要专家人工调研产业发展情况及产业各环节技术的比对，需要较长的调研时间。

技术实现要素：

3.本技术的目的在于提供一种针对区域科技创新攻关方向的量化甄选方法。
4.一种针对区域科技创新攻关方向的量化甄选方法，其特征在于，该方法包括以下步骤：
5.解析需求文本以获得需求技术集t；
6.分析所述需求技术集t中各个技术节点以获得各个所述技术节点的攻关急迫度得分 score
s2
；
7.分析所述需求技术集t中各个技术节点以获得各个所述技术节点的攻关基础评分 score
s3
；
8.计算获得攻关优先级综合得分score，计算公式为：
9.score＝βscore
s2
+γscore
s3
10.其中，β为攻关急迫度得分score
s2
的权重系数，y为攻关基础评分score
s3
的权重系数。
11.进一步的，所述解析需求文本以获得需求技术集t，包括：
12.解析目标领域的富技术文本获得技术节点以构建成技术知识体系；
13.根据技术知识体系中的各个技术节点扩充语义知识背景，构建技术体系知识库；
14.根据所述技术体系知识库中技术节点的语义关键词解析所述需求文本的结果和对所述需求文本进行关键词抽取的结果构建需求技术集t；
[0015][0016]
其中，i为文本中涉及到的需求技术总数，ti为解析出的某一技术。
[0017]
进一步的，所述攻关急迫度得分score
s2
采用以下公式计算：
[0018][0019]
[0020][0021]
其中，ti为解析出的某一技术，这里i为文本中涉及到的需求技术总数， n表示技术攻关急迫度的分析维度总数，c
2j
表示采用第j个维度分析得到的需求技术集t 中匹配维度要求的技术总数，norm(c
2j
)为技术总数的归一化处理结果，max
2j
取总数量分布的75％分位数，α
2j
为每个维度中匹配项的权重系数。
[0022]
进一步的，所述攻关基础评分score
s3
采用以下公式计算：
[0023][0024][0025][0026]
其中，ti为解析出的某一技术，这里i为文本中涉及到的需求技术总数，n表示技术攻关基础的分析维度总数，c
3p
表示采用第p个维度分析得到的需求技术集t中匹配维度要求的攻关基础实体总数，morm(c
3p
)为攻关基础实体总数的归一化处理结果，max
3p
取总数量分布的75％分位数，α
3p
为每个维度中匹配项的权重系数。
[0027]
进一步的，所述分析所述需求技术集t中各个技术节点以获得各个所述技术节点的攻关急迫度得分score
s2
，包括：
[0028]
根据一个待评估技术与基于所述待评估技术所属技术节点构建的领域瓶颈技术清单的相似度对比结果获得与所述待评估技术相关联的瓶颈技术总数c
21
及得分score
21
；
[0029]
根据所述待评估技术与基于所述待评估技术所属技术节点构建的风险产品技术清单的相似度对比结果获得与所述待评估技术相关联的风险产品技术总数c
22
及得分 score
22
；
[0030]
根据所述待评估技术与基于所述待评估技术所属技术节点构建的技术需求池的相似度对比结果获得与所述待评估技术相关联的需求技术总数c
23
及得分score
23
；
[0031]
根据所述待评估技术与基于所述待评估技术所属技术节点构建的短板技术清单的相似度对比结果获得与所述待评估技术相关联的短板技术总数c
24
及得分score
24
；
[0032]
score
s2
＝α
21
*score
21
+α
22
*score
22
+α
23
*score
23
+α
24
*score
24
[0033]
其中，α
21
、α
22
、α
23
、α
24
为各项得分的权重系数。
[0034]
进一步的，所述分析所述需求技术集t中各个技术节点以获得各个所述技术节点的攻关基础评分score
s3
，包括：
[0035]
根据一个待评估技术与基于所述待评估技术所属技术节点构建的攻关企业清单获得与所述待评估技术对应的企业总数c
31
及得分score
31
；
[0036]
根据所述待评估技术与基于所述待评估技术所属技术节点构建的研究机构清单
获得与所述待评估技术对应的研究机构总数c
32
及得分score
32
；
[0037]
根据所述待评估技术与基于所述待评估技术所属技术节点构建的专家人才清单获得与所述待评估技术对应的专家总数c
33
及得分score
33
；
[0038]
score
s3
＝α
31
*score
31
+α
32
*score
32
+α
33
*score
33
[0039]
其中，α
31
、α
32
、α
33
为各项得分的权重系数。
[0040]
本技术的可选方案既可以作为独立的方案，也可以相互组合。本技术的任意一个方案中的结构，既可以作为独立的技术方案，也可以与其他技术方案相互组合。
[0041]
本技术的有益之处在于：提供了一种省时高效的针对区域科技创新攻关方向的量化甄选方法。
附图说明
[0042]
图1为本技术一个实施例中的攻关方向量化甄选流程示意图；
[0043]
图2为本技术一个实施例中解析需求技术集的流程示意图；
[0044]
图3为本技术一个实施例中攻关急迫度得分的分析流程示意图；
[0045]
图4为本技术一个实施例中攻关基础评分的分析流程示意图；
[0046]
图5是根据本技术一种实施例的基于全球专利的产业领域关键短板技术自动化挖掘方法总体流程；
[0047]
图6是根据本技术一种实施例的关键短板技术清单生产方法流程图；
[0048]
图7是根据本技术一种实施例的目标专利数据库构建方法流程图；
[0049]
图8是根据本技术一种实施例的有效专利数据选取方法流程图；
[0050]
图9是根据本技术一种实施例的优势专利权利人名单的获取方法流程图；
[0051]
图10是根据本技术一种实施例的关键技术概念短语的获取方法流程图；
[0052]
图11是根据本技术一种实施例的有效专利数据的解析方法流程图；
[0053]
图12是根据本技术一种实施例的关键技术概念短语对应的国内外专利数量的对比方法流程图；
[0054]
图13是根据本技术一种实施例的基于全球专利的产业领域关键短板技术自动化挖掘系统的整体架构
[0055]
图14为本技术的一个实施例中基于舆情的风险产品识别方法总体流程示意图；
[0056]
图15为本技术的一个实施例中根据情报文本的解析结果获得风险语句集的流程图；
[0057]
图16为本技术的一个实施例中获得风险产品清单的流程示意图；
[0058]
图17为本技术的一个实施例中风险产品技术识别模型的结构示意图；
[0059]
图17为本技术的一个实施例中风险产品技术识别模型的结构示意图；
[0060]
图18为本发明实施例提供的高度依赖进口产品挖掘方法的应用场景示意图；
[0061]
图19为本发明实施例提供的高度依赖进口产品挖掘方法的流程示意图；
[0062]
图20为本发明实施例提供的高度依赖进口产品挖掘方法的子流程示意图；
[0063]
图21为本发明实施例提供的高度依赖进口产品挖掘方法的子流程示意图；
[0064]
图22为本发明实施例提供的高度依赖进口产品挖掘方法的子流程示意图；
[0065]
图23为本发明另一实施例提供的高度依赖进口产品挖掘方法的流程示意图。
具体实施方式
[0066]
为了使本技术领域的人员更好的理解本技术方案，下面将结合本技术实施例中的附图，对本技术中实施例中的技术方案进行清楚、完整的描述。
[0067]
如图1至图4所示，一种针对区域科技创新攻关方向的量化甄选方法，通过对需求文本中提及的需求技术进行自动化解析、量化评估，来实现对科技创新领域攻关方向的自动甄选，具体的，该方法包括以下步骤：
[0068]
a1、解析需求文本以获得需求技术集t；
[0069]
其中，该需求文本包括用户需求的产品或技术；这里的用户包括企业或产业部门；该需求文本由用户手动输入获得，包括用户对需求的产品或技术的文字描述。
[0070]
需求技术集t中包含多个需求技术。
[0071]
a2、分析所述需求技术集t中各个技术节点以获得各个所述技术节点的攻关急迫度得分score
s2
；通过对技术节点进行一个或多个维度的分析，从而综合考虑各方面的因素，进而获得各个技术节点的攻关急迫度的整体评分。
[0072]
a3、分析所述需求技术集t中各个技术节点以获得各个所述技术节点的攻关基础评分 score
s3
；从区域内潜在的攻关企业、攻关机构和攻关专家三方面入手，对于每个待攻关的技术方向，分析该技术方向在区域内所对应的企业数量、研究机构数量、专家人才储备数量，评估该需求技术在区域范围内的技术储备基础情况。
[0073]
a4、计算获得攻关优先级综合得分score，计算公式为：
[0074]
score＝βscore
s2
+γscore
s3
[0075]
其中，β为攻关急迫度得分score
s2
的权重系数，γ为攻关基础评分score
s3
的权重系数。
[0076]
具体的，解析需求文本以获得需求技术集t的方法，包括以下步骤：
[0077]
a11、解析目标领域的富技术文本获得技术节点以构建成技术知识体系；其中，目标领域为预先确定的需要科技攻关的产业链，富技术文本包括论文、专利等技术文献；
[0078]
针对目标产业链各个环节上所涉及的技术，利用富技术文本挖掘出各个环节的细化技术分支，延伸扩展技术链，获取技术节点，多个技术节点构成技术知识体系；该技术知识体系具备树状特性，技术知识体系中的技术节点具备上下位层级关系；具体的，该技术知识体系的构建方法可采用申请号为202111166990.2的《一种全领域产品节点体系动态融合与生长方法》中所公开的方法，也可以采用其他方法；技术节点指技术知识体系中的节点。
[0079]
a12、根据技术知识体系中的各个技术节点的解析结果构建技术体系知识库；
[0080]
其中，解析结果包括技术节点的名称(中文名、外文名)、别称、概述、发展史、现状、应用范围等技术节点的简介信息中的一种或多种，这里的别称可作为技术节点的语义特征。
[0081]
解析结果采用查找检索的方式获取，采用百度百科、维基百科、网页搜索等方式进行。
[0082]
a13、根据所述技术体系知识库中技术节点的语义关键词解析所述需求文本的结果和对所述需求文本进行关键词抽取的结果构建需求技术集t；
[0083][0084]
其中，i为文本中涉及到的需求技术总数，ti为解析出的某一技术；语义关键词为
技术知识体系的一部分，每个技术节点上会构建该技术节点的语义关键词，以丰富节点信息。
[0085]
进一步的，需求技术集t中包含的需求技术来源于两方面，一方面，通过技术节点的语义关键词对需求文本进行检索，获得需求文本中提及到的技术节点，将与该技术节点相关的技术作为需求技术；另一方面，利用文本关键词抽取技术对需求文本进行解析，抽取出需求文本中的技术关键词，再通过该技术关键词从技术体系知识库中匹配得到对应的需求技术，两方面需求技术组成的合集即为需求技术集t。
[0086]
具体的，攻关急迫度得分score
s2
采用以下公式计算：
[0087][0088][0089][0090]
其中，对某一需求文本，从中解析出技术知识体系中涉及到的技术节点，该技术节点称需求节点(或需求技术)，标记为ti，这里i为文本中涉及到的需求技术总数，n表示技术攻关急迫度的分析维度总数，c
2j
表示采用第j个维度分析得到的需求技术集t中匹配维度要求的技术总数，norm(c
2j
)为技术总数的归一化处理结果，max
2j
取总数量分布的75％分位数，α
2j
为每个维度中匹配项的权重系数。
[0091]
本实施例中，采用了4个维度对技术节点进行分析，即，n＝4；这4个维度分别是专利的布设程度、进口依赖程度、社会需求程度、网络关注程度，基于这4个维度，采用专利挖掘瓶颈技术、海关进出口挖掘高度依赖进口产品技术、需求池共性技术、从资讯研报挖掘亟待解决瓶颈技术的方法对技术节点进行分析；于其他实施例中，也可以仅采用其中至少一个维度进行分析。
[0092]
具体的，分析所述需求技术集t中各个技术节点以获得各个所述技术节点的攻关急迫度得分score
s2
，包括：
[0093]
a21、根据一个待评估技术与基于所述待评估技术所属技术节点构建的领域瓶颈技术清单的相似度对比结果获得与所述待评估技术相关联的瓶颈技术总数c
21
及得分score
21
；即，采用专利挖掘瓶颈技术，基于技术知识体系中的技术节点，从专利数据库中挖掘出与该技术节点对应的国内外专利，并对国内外专利进行比对，将国内专利数量少于国外专利数量的技术节点作为瓶颈技术，构建出领域瓶颈技术清单，再将待评估技术与领域瓶颈技术清单进行相似度比对，得到与待评估技术相关联的瓶颈技术数量c
21
及得分score
21
，该得分反映了待评估技术的重要程度。
[0094]
其中，本实施例中，相似度采用两者字符的并集数量除以待计算的技术节点的字符数量计算获得，于其他实施例中，也可以采取jaccard相似度，其他方法亦可；
[0095]
本实施例中，相似度阈值设定为0.7，也可根据场景需要设置其他阈值。
[0096]
a22、根据所述待评估技术与基于所述待评估技术所属技术节点构建的风险产品技术清单的相似度对比结果获得与所述待评估技术相关联的技术总数c
22
及得分score
22
；即，采用海关进出口挖掘高度依赖进口产品技术，基于海关进出口贸易数据和技术知识体系中的技术节点，通过对比技术节点所对应的产品的进出口参数，探查出高度依赖进口的技术产品所对应的依赖进口技术，形成高度依赖进口的产品技术清单；再将待评估技术与产品技术清单进行相似度比对，得到与待评估技术相关联的瓶颈技术数量c
22
及得分score
22
，该得分反映了待评估技术在进出口贸易中受制约的程度。
[0097]
其中，进出口参数包括进口单价、出口单价、进口数量、出口数量、进口总额、出口总额等数据；本实施例中，将进口总额大于出口总额的产品所对应的技术节点相关的技术作为依赖进口技术。
[0098]
a23、根据所述待评估技术与基于所述待评估技术所属技术节点构建的技术需求池的相似度对比结果获得与所述待评估技术相关联的需求技术总数c
23
及得分socre
23
；即，采用需求池共性技术，以开展揭榜挂帅、需求征集等方式从企业、创新机构等区域技术应用主体中征集目前产业发展中真实存在的技术需求，收集技术需求描述及指标等信息，构建技术需求池，再通过待评估技术与技术需求池中的技术需求进行相似度比对，探查该待评估技术所对应的需求技术总量c
23
及得分scre
23
，该得分反映了待评估技术在产业需求中的共性程度，即，从企业需求池中对比相似的需求，如果找到相似需求越多，说明该需求技术是大多数企业或产业部门所需要的，即共性需求程度越高。
[0099]
a24、根据所述待评估技术与基于所述待评估技术所属技术节点构建的短板技术清单的相似度对比结果获得与所述待评估技术相关联的短板技术总数c
24
及得分score
24
；即，采用从资讯研报挖掘亟待解决瓶颈技术的方法，针对资讯研报等产业智库的公开观点分析挖掘涉及到的短板技术，形成基于网络舆情观点分析的短板技术清单，再将待评估技术与单板技术清单中的技术进行相似度比对，得到与待评估技术相关联的短板技术数量c
24
及得分 score
24
，该得分反映了待评估技术在产业领域公开观点中的反向印证契合度。
[0100]
而score
s2
采用以下公式进行计算：
[0101]
score
s2
＝α
21
*score
21
+α
22
*score
22
+α
23
*score
23
+α
24
*score
24
[0102]
其中，α
21
、α
22
、α
23
、α
24
为各项得分的权重系数，为预设的常数，具体可根据实际情况设置。
[0103]
具体的，攻关基础评分score
s3
采用以下公式计算：
[0104][0105][0106][0107]
对某一需求文本，从中解析出技术知识体系中涉及到的技术节点，该技术节点称
需求节点(或需求技术)，标记为ti，这里i为文本中涉及到的需求技术总数，n表示技术攻关基础的分析维度总数，c
3p
表示采用第p个维度分析得到的需求技术集t中匹配维度要求的攻关基础实体总数，norm(c
3p
)为攻关基础实体总数的归一化处理结果，max
3p
取总数量分布的75％分位数，α
3p
为每个维度中匹配项的权重系数。
[0108]
本实施例中，采用了3个维度对技术节点进行分析，即，n＝3；这3个维度分别是技术方向在区域内所对应的企业数量、研究机构数量、专家人才储备数量(即攻关基础实体总数)；其中，所述技术节点包括在区域内所对应的企业数量、研究机构数量、专家人才储备数量等数据。
[0109]
具体的，所述分析所述需求技术集t中各个技术节点以获得各个所述技术节点的攻关基础评分score
s3
，包括：
[0110]
根据一个待评估技术与基于所述待评估技术所属技术节点构建的攻关企业清单获得与所述待评估技术对应的企业总数c
31
及得分score
31
；
[0111]
根据所述待评估技术与基于所述待评估技术所属技术节点构建的研究机构清单获得与所述待评估技术对应的研究机构总数c
32
及得分score
32
；
[0112]
根据所述待评估技术与基于所述待评估技术所属技术节点构建的专家人才清单获得与所述待评估技术对应的专家总数c
33
及得分score
33
；
[0113]
而score
s3
采用以下公式进行计算：
[0114]
score
s3
＝α
31
*score
31
+α
32
*score
32
+α
33
*score
33
[0115]
其中，α
31
、α
32
、α
33
为各项得分的权重系数，为预设的常数，具体可根据实际情况设置。
[0116]
根据以上所述步骤，一方面可实现需求技术评估流程的自动化处理，减少前期领域专家的繁琐调研过程，辅助专家的最终评估决策，另一方面也可以将各维度挖掘出的领域技术形成匹配技术池，沉淀领域技术知识，对于同产业领域新的需求技术也可以实现区域攻关方向甄选报告的秒级处理。
[0117]
本技术还公开了一种针对区域科技创新攻关方向的量化甄选系统，包括需求解析模块、技术分析评估模块、技术攻关基础分析模块、技术攻关方向甄选模块；其中，需求解析模块主要用于技术体系知识库的构建和技术解析关联，以得到需求技术集t；技术分析评估模块基于专利挖掘瓶颈技术、海关进出口挖掘高度依赖进口产品技术、需求池共性技术、从资讯研报挖掘亟待解决瓶颈技术的方法进行全面分析，评估技术攻关方向的急迫程度。技术攻关基础分析模块从区域内潜在的攻关企业、攻关机构和攻关专家三方面入手，对于每个待攻关的技术方向，分析该技术方向在区域内所对应的企业数量、研究机构数量、专家人才储备数量，评估该需求技术在区域范围内的技术储备基础情况。技术攻关方向甄选模块综合考虑步骤a2、a3量化得分，计算得到需求技术在区域攻关评估中的综合得分 score。
[0118]
进一步的，如图5至图12所示，本技术还公开了专利挖掘瓶颈技术，该技术包括：
[0119]
1)获取标准输入数据；其中，标准输入数据包括技术名词、优势国家数量c、优势机构(优势专利权人)数量o、核心技术(关键短板技术)数量t、迭代轮数n，即，c、o、 t、n为预设的常数，技术名词则可以为任意需要检索的技术字段，如，传感器、温度传感器、发动机、电动机等。
[0120]
2)将标准输入数据输入至短板技术挖掘模型，以使短板技术挖掘模型输出标准输
入数据的关键短板技术清单；其中，短板技术挖掘模型为预制的程序。
[0121]
3)人工校验关键短板技术清单；本实施例中，采用的是人工校验的方式，于其他实施例中，也可以采用人工智能算法进行校验。
[0122]
具体的，将标准输入数据输入至短板技术挖掘模型，以使短板技术挖掘模型输出标准输入数据的关键短板技术清单，包括：
[0123]
b1、构建目标产业领域的目标专利数据库，其中，目标专利数据库包括多个对应至法律状态为有效的有效专利数据；该有效专利数据包括标题、发明授权专利的专利文献、申请日、专利权人、国家、申请号、优先权号、公开号、引用关系数据、同族专利等字段；这里的目标产业领域定义为一条产业链中的任意一个环节；
[0124]
进一步的，作为优选方案，构建目标产业领域的目标专利数据库，包括：
[0125]
b11、匹配获得目标产业领域对应的ipc分类号；可以根据其他参数选择数据库；
[0126]
b12、根据ipc分类号从全球专利数据库中采集有效专利数据；
[0127]
b13、选取有效数据中被引用量(重要度参数)为top k的有效专利数据构成目标专利数据库；其中，top k定义为前k个，k为预设的常数。
[0128]
进一步的，作为优选方案，选取有效数据中被引用量为top k的有效专利数据构成目标专利数据库，包括：
[0129]
b131、将同族专利的被引次数进行累加计算以获得同族代表专利的同族被引次数，其中，同族代表专利为优先权号所对应的专利；
[0130]
b132、根据同族专利的总数计算获得同族专利的篇均被引次数；
[0131]
b133、根据有效专利数据中的申请日和被引次数计算获得所有专利的年均被引次数；
[0132]
b134、将同族被引次数的top k1项有效专利数据、篇均被引次数的top k2项有效专利数据、年均被引次数的top k3项有效专利数据输入数据库进行存储，剔除重复的有效专利数据，构成目标专利数据库，其中k＝k1+k2+k3，k1、k2、k3均为预设的常数。
[0133]
b2、根据一个目标专利数据库中的有效专利数据中的引用关系数据的聚合处理结果获得优势专利权利人名单；其中，引用关系数据包括表征专利被引用于其他专利的次数的被引用量；
[0134]
进一步的，作为优选方案，根据一个目标专利数据库中的有效专利数据中的引用关系数据的聚合处理结果获得优势专利权利人名单，包括：
[0135]
b21、将目标专利数据库中的有效专利数据(即top k)按照有效专利数据中的国家字段(地域)进行分类；
[0136]
b22、对每个国家字段对应的有效专利数据中的被引用量进行统计以获得国家专利被引用总量、国家专利年均被引用总量、国家专利篇均被引用量；其中，国家专利被引用总量采用简单的累加方式计算获得，国家专利年均被引用总量为每篇专利的年均被引用量的累加之和，国家专利篇均被引用量为国家专利被引用总量与国家专利总量的比值。
[0137]
b23、取国家专利被引用总量为top x1的国家字段、国家专利年均被引用总量为top x2的国家字段、国家专利篇均被引用量为top x3的国家字段构成领域优势国家清单(剔除重复的国家字段)；其中，x1＝1/3*c、x2＝1/3*c、x3＝1/3*c。
[0138]
在一些实施例中，可以通过人工的方式校验领域优势国家清单。
[0139]
b24、召回目标专利数据库中领域优势国家清单中每个国家字段对应的有效专利数据；
[0140]
b25、将每个国家字段对应的有效专利数据按有效专利数据中的专利权人字段分类；
[0141]
b26、对每个专利权人字段对应的有效专利数据中的被引用量进行统计以获得专利权人专利被引用总量、专利权人专利年均被引用总量、专利权人专利篇均被引用量；其中，专利权人专利被引用总量采用简单的累加方式计算获得，专利权人专利年均被引用总量为专利权人的每篇专利的年均被引用量的累加之和，专利权人专利篇均被引用量为专利权人专利被引用总量与专利权人专利总量的比值。
[0142]
b27、取专利权人专利被引用总量为topz1的专利权人字段、专利权人专利年均被引用总量为topz2的专利权人字段、专利权人专利篇均被引用量为topz3的专利权人字段构成优势专利权人名单；其中，z1＝1/3*o、z2＝1/3*o、z3＝1/3*o。
[0143]
b3、解析优势专利权人在目标专利数据库中的有效专利数据以获得关键技术概念短语；其中，关键技术概念短语定义为代表所属专利核心技术点的一个或多个词语，这里的关键技术即为目标专利中重要且出现次数较多的技术点；
[0144]
进一步的，作为优选方案，解析优势专利权人在目标专利数据库中的有效专利数据以获得关键技术概念短语，包括：
[0145]
b31、召回优势专利权人在目标专利数据库中的有效专利数据以获得待解析专利文献；
[0146]
b32、抽取出待解析专利文献中的候选短语；抽取候选短语采用关键词提取算法完成；
[0147]
b33、计算候选短语的语义重要度以获得重要度评分；语义重要度利用语义网络重要度计算算法得到；
[0148]
b34、选取重要度评分为topa的候选短语作为关键技术概念短语。
[0149]
本实施例中，关键词提取算法和语义网络重要度计算算法采用的是cn113221559a中所公开的算法；于其他实施例中，关键词提取算法也可以采用rake(rapidautomatickeywordextraction)算法；
[0150]
进一步的，为了使挖掘得到的关键技术概念短语更准确，解析优势专利权人在目标专利数据库中的有效专利数据以获得关键技术概念短语，还包括：
[0151]
b35、召回目标专利数据库中对应关键技术概念短语的有效专利数据以获得待深挖数据集；
[0152]
b36、抽取出待深挖数据集中的专利文献的深挖候选短语；
[0153]
b37、计算深挖候选短语的语义重要度以获得深挖重要度评分；
[0154]
b38、选取深挖重要度评分为topb的深挖候选短语作为深挖关键技术概念短语。
[0155]
在一些实施例中，针对某一特定场景，如果需要深入了解第一轮挖掘出的短板技术相关联的深层技术，仍然可以采用相同步骤将第一轮挖掘出的短板技术作为输入，进行第二轮的关键技术概念挖掘(如上述b35至b38所示)，依此类推，迭代进行，深入挖掘该领域的技术概念；即，本实施例中，n＝2。
[0156]
b4、根据关键技术概念短语所对应的国内外专利数量对比结果获得关键短板技术
清单；
[0157]
进一步的，作为优选方案，根据关键技术概念短语所对应的国内外专利数量对比结果获得关键短板技术清单，包括：
[0158]
b41、翻译关键技术概念短语以获得中文技术短语；本实施例中，采用谷歌翻译进行翻译；
[0159]
b42、根据中文技术短语构建中文检索式；利用分词工具对中文技术短语进行分词，各分词之间采用或关系构建中文检索式；本实施例中，采用词库优化过的jieba分词进行中文技术名称的分词；
[0160]
b43、根据中文检索式召回目标专利数据库中的有效专利数据以获得国内专利数据；其中国内专利数据包括国内专利文献和国内专利数量；
[0161]
b44、比对关键技术概念短语所对应的国外专利数据与国内专利数据以获得关键短板技术清单；其中国外专利数据包括国外专利文献和国外专利数量；通过跟关键技术概念短语对应的国内专利数量与国外专利数量的对比，得出国内专利数量少或者空白的关键短板技术，从而生成关键短板技术清单；本实施例中，取关键技术概念短语对应的国内专利数量与国外专利数量比值的最小的前t个关键技术概念短语作为关键短板技术清单。
[0162]
如图13所示，本技术还公开了一种应用了专利挖掘瓶颈技术的自动化挖掘系统，包括数据获取模块、数据库构建模块、领域优势国家分析模块、领域优势国家的优势机构分析模块、优势机构专利技术解析模块及短板技术探查模块；其中，本系统即为上述的短板技术挖掘模型。
[0163]
具体的，数据获取模块用于获取标准输入数据，其中，标准输入数据包括技术名词、优势国家数量c、优势机构(优势专利权人)数量o、核心技术(关键短板技术)数量t、迭代轮数n，即，c、o、t、n为预设的常数，技术名词则可以为任意需要检索的技术字段，如，传感器、温度传感器、发动机、电动机等；而该数据获取模块具体可以为用于供用户输入参数的触控屏、键盘、遥控器等中的一种或多种，当然也可以采用其他现有的输入方式，在此不一一赘述。
[0164]
具体的，数据库构建模块用于构建目标产业领域的目标专利数据库；其中，目标专利数据库包括多个对应至法律状态为有效的有效专利数据；该有效专利数据包括标题、发明授权专利的专利文献、申请日、专利权人、国家、申请号、优先权号、公开号、引用关系数据、同族专利等字段；这里的目标产业领域定义为一条产业链中的任意一个环节；通过该数据库构建模块，采集目标产业领域的高质量专利形成目标专利数据库，从而排除其余专利数据的干扰，大大提高系统的运算效率，且使得运算的结果更为准确。
[0165]
具体的，领域优势国家分析模块用于分析标准输入数据以获得领域优势国家清单，领域优势国家的优势机构分析模块用于根据领域优势国家清单和标准输入数据解析获得优势专利权人名单，通过领域优势国家分析模块和领域优势国家的优势机构分析模块对目标专利数据库中的专利进行筛选，获得关键技术较为集中的有效专利数据集，从而进一步提高系统的运算效果和运算精度，使得后续获得的关键技术概念短语更为清晰准确。
[0166]
具体的，优势机构专利技术解析模块用于解析获得优势专利权人在目标专利数据库中的有效专利数据以获得关键技术概念短语，短板技术探查模块用于根据关键技术概念短语所对应的国内外专利数量对比结果获得关键短板技术清单；通过优势机构专利技术解
析模块和短板技术探查模块，经过迭代计算获取准确的关键技术概念短语，从而召回对应关键技术概念短语的有效专利数据，并通过数据比对，实现关键短板技术清单的自动获取，而且由于目标专利数据库中的有效专利数据是从全球专利数据库中采集获得，所以关键短板技术清单会随着全球专利数据库的更新而实现自动更新，大大节约了人力成本和时间成本。
[0167]
具体的，如图14至图17所示，本技术还公开了一种从资讯研报挖掘亟待解决瓶颈技术的方法，包括：
[0168]
c1、构建资讯研报库；
[0169]
确定待分析产业，采集目标资讯，将每份目标资讯提取成情报文本，构成资讯研报库；
[0170]
其中，待分析的产业为产业链中的某一产业节点，是用户需要分析的目标产业领域；目标资讯包括权威产业资讯报道、产业研报分析等公开数据；目标资讯的采集方法和情报文本的提取方法为现有技术，在此不做限定，如，资讯采集利用网络爬虫技术采集公开网站资讯，利用网页解析工具beautifulsoup解析获取资讯文本内容；
[0171]
c2、根据一个资讯研报库中情报文本的解析结果获得风险语句集，该风险语句集即为风险语句的合集，其中，风险语句为含有风险触发词的语句，本实施例中，风险触发词由人工整理获得，风险触发词包括“被卡脖子”、“断供”、“长期依赖”、“基本进口”、“停止.*？供应”等表达供应关系存在依赖、限制的词语。
[0172]
c3、将风险语句集输入至训练好的实体命名识别模型，以使实体命名识别模型输出该风险语句集的风险产品清单。
[0173]
进一步的，根据一个资讯研报库中情报文本的解析结果获得风险语句集，包括：
[0174]
c21、根据分句分割符对情报文件进行分句处理的结果获得分句文本；即，对情报文本按照语义规则进行分句处理，该具体的处理方式为现有技术，一般在自然语言处理中根据标点或语法结构进行分隔，在此不做赘述；其中，分句分割符可根据文本特点选取语义完整的标点符号，包括顿号、句号、问号、换行符、分号、感叹号等；
[0175]
c22、根据触发词集对分句文本进行筛选处理的结果获得风险语句集；其中，触发词集为风险触发词的合集。
[0176]
具体的，触发词集记为t，t＝{ti，i∈[1，i]}；
[0177]
其中，i为风险触发词的数量，ti为任意一个触发词。
[0178]
进一步的，根据触发词集对分句文本进行筛选处理的结果获得风险语句集，包括
[0179][0180]
其中，1代表识别分句为含有风险触发词的句子，0代表识别分句为不含有风险触发词的句子。
[0181]
进一步的，将风险语句集输入至训练好的实体命名识别模型，以使实体命名识别模型输出风险语句集的风险产品清单，包括：
[0182]
c31、根据一个风险语句集的预测识别结果获得风险产品候选清单；即，通过实体命名识别模型对风险语句集中的风险语句进行预测识别，抽取风险语句中包含的产品技术词汇构成风险产品候选清单；
[0183]
c32、选取风险产品候选清单中出现频率最高的top k个风险产品构成风险产品清单；这里风险产品出现频率(即产品技术词汇出现频率)的指标代表了该风险产品在舆论情报中提及风险的次数，在一定程度上可代表该风险产品在产业领域环节所造成的影响大小。
[0184]
具体的，实体命名识别模型采用训练语料进行训练，该训练语料根据风险语句集中的风险语句构建，其中标签类型为“产品技术”，采用bio序列标注方法，标签设置为“产品技术-b”、“产品技术-i”、“o”三种类型。
[0185]
例如，对于一个分句序列【我国在指纹识别芯片领域与国际差距较大】，标注出标签序列结果为【o o 0产品技术-b产品技术-i产品技术-i产品技术-i产品技术-i产品技术
ꢀ‑
i o o o o o o o o o】；
[0186]
实体命名识别模型采用bert提取特征向量，之后接入双向lstm和crf层进行下游实体识别任务模型的训练。特别的，bert采用中文wiki(维基百科)语料训练出的模型，输出特征向量为768维；bilstm采用正反双向的lstm模型提取句子特征，正反双向的特征向量取均值进行计算。模型结构如附图4所示，其中，tok输入为构成句子的输入文本序列，利用bert提取句子特征，每个字的输出特征向量为e，双向lstm中c和c`分别表示正向和反向的lstm特征提取器，提取出的特征表征经过crf层计算最优标签序列，得到最终句子中每个字的结果标签序列；
[0187]
模型的损失函数由两部分组成，真实的输出路径分数与所有路径分数之和，模型优化的目标是真实输出路径的得分在所有路径得分之和中的概率最大，可采用梯度上升法迭代求解，目标函数表示如下：
[0188][0189]
其中，对于一个有n个词构成的输入序列x＝(x1，x2，...，xn)，其标签序列 y＝(y1，y2，...，yn)的得分score(y)可由发射矩阵e(输入到标签的概率矩阵)和转移矩阵(标签之间的概率转移矩阵)得到，得分可用下式计算得到：
[0190][0191]
对于句子序列的某个词xi，e[i]为词xi对应的标签得分分布(e[i]为m维向量，m为标签数量)，记为ei，为标签yi的概率分数，t[i-1，i]为y
i-1
到yi的转移分数。
[0192]
进一步的，获得风险产品清单后，引入专家审核机制，校验自动化挖掘结果及国内空白短板技术，确认生成最终的产业领域关键短板技术清单。
[0193]
具体的，如图18至图23所示，本技术还公开了一种海关进出口挖掘高度依赖进口产品技术，包括：
[0194]
s110、构建待分析产业领域体系，以得到产业链各环节上的节点领域。
[0195]
本实施例中，产业链各环节上的节点领域为待分析产业领域体系内的每个具体的领域。
[0196]
在本实施例中，针对特定产业梳理构建产业链节点体系n，也就是待分析产业领域体系，得到产业链各环节上的节点领域ni(ni∈n)；在本实施例中，通过的国内海关进出口报
关数据构建待分析的高依赖进口产品的数据集。其中，任一节点领域ni可用
[0197]
表示，i表示产业链节点体系n包含的总节点数量。
[0198]
具体地，整个构建产业链节点体系n的细节可参阅中国专利cn2021111669902公开的一种全领域产品节点体系动态融合与生长方法，此处不再赘述。
[0199]
s120、获取海关贸易数据。
[0200]
在本实施例中，海关贸易数据是指各个节点领域上所有的产品的进出口贸易数据。具体地为国内海关进出口报关数据。
[0201]
s130、根据所述海关贸易数据确定每个节点领域上符合设定要求的国家清单，以得到目标国家清单。
[0202]
在本实施例中，目标国家清单是指每个节点领域上的进口依赖重点国家构成的集合。
[0203]
在一实施例中，请参阅图20，上述的步骤s130可包括步骤s131～s134。
[0204]
s131、针对每个节点领域，统计所述海关贸易数据内关于所述节点领域的进口价值总额，以得到总额集合。
[0205]
本实施例中，总额集合是指每个节点领域内每个进口国家的进口价值总额构成的集合。
[0206]
s132、针对每个节点领域，对所述总额集合内对应的进口国家按照进口价值总额从高到低进行排序，以得到排序结果。
[0207]
在本实施例中，排序结果是指每个节点领域的总额集合内的进口价值总额对应的进口国家按照其进口价值总额从高到低的顺序进行排序，由此得到的结果。
[0208]
s133、筛选所述排序结果符合要求的进口价值总额对应的国家，以得到筛选结果。
[0209]
在本实施例中，筛选结果是指筛选出排序结果中前k名的国家，k的取值可以依据实际情况而定。对于产业链节点体系中的某一节点领域ni，在历史海关进口贸易商品中检索涉及领域ni的所有进口数据记录，按照进口国家对领域进口金额进行聚合累计，得到历史进口贸易记录中该领域进口价值总额最高的前c个进口国家，形成筛选结果，记为top
ic
。针对该领域ni涉及产品，收集各国的贸易管控商品清单，对节点领域ni发布贸易管制的国家进行重点关注，领域贸易管制国家集合记为comtrol
ic
；
[0210]
s134、根据预设的贸易管制国家清单结合所述筛选结果确定需要重点关注的国家，以得到目标国家清单。
[0211]
具体地，节点领域ni最终需要重点关注的国家集合清单ci，其中
[0212]ci
＝top
ic ∪ control
ic
。
[0213]
对于待分析产业领域体系中的某一节点领域ni，统计历史进出口数据中该领域进口价值总额最高的topk个进口国家，结合人工梳理的贸易管制国家清单，得到节点领域ni上需要重点关注的国家清单ci。具体地，ci可表示为
[0214]
其中j表示需要重点关注国家的总数量。
[0215]
s140、从所述海关贸易数据内筛选所述目标国家清单相关的数据，以得到目标贸易进口数据。
[0216]
本实施例中，目标贸易进口数据是指海关贸易数据中关于目标国家清单的进出口数据。
[0217]
具体地，在历史海关进口数据中筛选出节点领域ni上进口国家为ci的海关进口数据记录。
[0218]
s150、根据所述目标贸易进口数据挖掘高度依赖进口的风险产品，以得到风险产品候选集合。
[0219]
在本实施例中，风险产品候选集合是指根据目标贸易进口数据内的商品描述文本分析得到的可能为高度依赖进口产品的集合，记为top
ip
。
[0220]
在一实施例中，请参阅图21，上述的步骤s150可包括步骤s151～s154。
[0221]
s151、对所述目标贸易进口数据中的贸易商品描述文本进行关键产品词汇抽取，以得到进口产品概念候选集合。
[0222]
在本实施例中，进口产品概念候选集合是指目标贸易进口数据中的贸易商品描述文本属于关键产品的且可能属于进口产品的概念构成的集合。
[0223]
具体地，每个进口数据中都携带有对应的贸易商品描述文本，该贸易商品描述文本描述了对应的产品的进出口情况以及关键程度。
[0224]
在本实施例中，利用语义特征的科技创新领域中文关键短语抽取方法对贸易商品描述文本进行关键产品词汇抽取，具体实现的过程可参阅中国专利sn202110600989.x，此处不再赘述。
[0225]
s152、对所述进口产品概念候选集合进行重要度打分，以得到关键产品概念候选集合及对应的重要度得分。
[0226]
在本实施例中，关键产品概念候选集合是指进行重要度打分后的进口产品概念候选集合；重要度得分是指进口产品概念候选集合中每个产品概念的重要程度。
[0227]
具体地，利用经过改进的rake(rapid automatic keyword extraction)抽取算法对涉及到的进口产品概念候选集合进行重要度打分，得到贸易商品描述文本中的关键产品概念候选集合及其重要度得分，具体实现的过程可参阅中国专利cn202110600989.x，此处不再赘述。
[0228]
利用自然语言处理方法挖掘海关进出口贸易数据，自动化分析出高度依赖进口的产品清单，省时高效。
[0229]
s153、将所述关键产品概念候选集合按照产品概念累加对应的重要度得分，以得到累加得分。在本实施例中，累加得分是指所述关键产品概念候选集合按照产品概念累加对应的重要度得分所得的总和。
[0230]
s154、按所述累加得分对所述关键产品概念候选集合内的产品概念进行降序排列，并选取符合要求的关键产品概念，以得到风险产品候选集合。
[0231]
在本实施例中，风险产品候选集合是指按累加得分对关键产品概念候选集合内的产品概念进行降序排列且筛选出的前y个产品概念，y的取值可依据实际情况而定。
[0232]
每个产品概念的重要度得分可能存在多个，需要进行累计求和，确定该产品在进口贸易中的进口依赖度。
[0233]
具体地，将关键产品概念候选按照产品概念累加重要度得分，并按重要度得分进行降序排列，此时产品概念的重要度累计得分反映了该产品在进口贸易中的进口依赖度；
选取前y个产品概念，得到高度依赖进口的top y风险产品候选集合。
[0234]
s160、对所述风险产品候选集合进行反向验证分析，以得到高度依赖进口产品集合。
[0235]
在本实施例中，高度依赖进口产品集合是指所述风险产品候选集合不存在出口贸易总额的产品构成的集合。
[0236]
对节点领域ni上探查出的风险产品候选集合top
ip
进行针对性反向验证，挖掘出进口总额量大且出口总额极少的高度依赖进口的风险产品集合，即高度依赖进口产品集合，记为risk
ip
。
[0237]
在一实施例中，请参阅图22，上述的步骤s160可包括步骤s161～s162。
[0238]
s161、根据所述风险产品候选集合在所述海关贸易数据中反向查询进口贸易总额和出口贸易总额。
[0239]
在本实施例中，进口贸易总额和出口贸易总额是指风险产品候选集合内每个产品对应的进口贸易总额和出口贸易总额。
[0240]
具体地，对于风险产品候选集合top
ip
中任一风险产品p
ip
，在历史风险产品候选集合中筛选出风险产品p
ip
的贸易记录，累计贸易金额，得到该风险产品的历史出口总额，也就是出口贸易总额，记为ae
ip
。利用同样方法在历史海关贸易进口数据中筛选出风险产品p
ip
的贸易记录，得到该风险产品的历史进口总额，即进口贸易总额，记为ai
ip
。
[0241]
s162、根据进口贸易总额和出口贸易总额剔除所述风险产品候选集合中存在有出口贸易总额的产品，以得到高度依赖进口产品集合。
[0242]
具体地，针对风险产品p
ip
，对比历史进出口贸易总额数据，反向验证风险产品候选集合，进一步确认节点领域ni上高度依赖进口的风险产品集合risk
ip
，具体地，
[0243]
risk
ip
＝{p
ip
，if(ae
ip
＜＜ai
ip
)}。
[0244]
在海关出口数据中反向查询，分析对比产品在进口出口两方面的贸易总额，剔除同时也存在有出口数据的产品，得到高度依赖进口的风险产品集合。
[0245]
在本实施例中，高度依赖进口的风险产品探查结合产业领域体系的各环节进行分析，全面客观。
[0246]
本实施例的方法针对产业链供应链自主安全可控的战略需求，在国内海关贸易进出口数据基础上，利用大数据检索、文本关键词抽取等自然语言处理方法，一方面通过历史海关贸易进口数据，挖掘分析国家交易商品中依赖进口的风险产品，另一方面也对比分析了历史海关贸易出口数据，进行反向验证，进一步对候选风险产品进行核实和确认，进而自动化探查出高度依赖进口的风险产品清单；可以大大提高产业链上风险产品的探查效率，并且风险产品的自动化挖掘过程以产业链节点体系的各个环节为指导进行分析，全面客观。
[0247]
上述的高度依赖进口产品挖掘方法，通过确定产业链各环节上的节点领域以及海关贸易数据，根据海关贸易数据确定每个节点领域上符合设定要求的国家清单，并筛选符合设定要求的国家清单对应的贸易数据，采用自然语言处理方法挖掘海关进出口贸易数据，自动化分析出高度依赖进口的产品清单，实现自动挖掘高度依赖进口的风险产品，节约成本，可准确且全面的挖掘各个环节高度依赖进口的风险产品，提高产业链上风险产品的探查效率。
[0248]
图23是本发明另一实施例提供的一种高度依赖进口产品挖掘方法的流程示意图。如图 23所示，本实施例的高度依赖进口产品挖掘方法包括步骤s210-s270。其中步骤s210-s260 与上述实施例中的步骤s110-s160类似，在此不再赘述。下面详细说明本实施例中所增加的步骤s270。
[0249]
s270、对所述高度依赖进口产品集合进行校验，以得到产业领域上高度依赖进口产品集合。
[0250]
具体地，采用人工校验和/或专家审核机制对所述高度依赖进口产品集合进行校验，以得到产业领域上高度依赖进口产品集合。
[0251]
引入人工校验和专家审核机制，校验自动化挖掘所得的结果及风险产品集合，确认生成最终的产业领域高度依赖进口的风险产品清单。人工校验和专家审核采用运营机制，具体地，人工运营可在内部开发的知识校验工具界面上对机器挖掘的产品概念进行审核校验，专家可在校验结果上提出修改意见，对结果进行增删和最终的状态确认，这两种方式均是通过终端输入进行校验。
[0252]
通过引入人工校验和/或专家审核机制进行校验，进一步提升挖掘的准确率。
[0253]
本技术的任意实施例既可以作为独立的技术方案，也可以跟其他实施例相互组合。本技术说明书中提到的所有专利和出版物都表示这些是本领域的公开技术，本技术可以使用。这里的本技术可以在缺乏任何一种元素或多种元素，一种限制或多种限制的情况下实现，这里这种限制没有特别说明。这里采用的术语和表达方式所为描述方式，而不受其限制，这里也没有任何意图来指明此书描述的这些术语和解释排除了任何等同的特征，但是可以知道，可以在本技术和权利要求的范围内做任何合适的改变或修改。可以理解，本技术所描述的实施例子都是一些在一些实施例中实施例子和特点，任何本领域的一般技术人员都可以根据本技术描述的精髓下做一些更改和变化，这些更改和变化也被认为属于本技术的范围和独立权利要求以及附属权利要求所限制的范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：宗畅杨彦飞王云飞张自治
技术所有人：杭州量知数据科技有限公司
我是此专利的发明人

上一篇：扩增HIV-1RRE全长序列的引物组合物及其应用
上一篇：使用地址位共享的外围组件互连属性的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。