本发明涉及映射,具体是一种基于产品分类与专利分类的映射方法及系统。
背景技术:
1、专利与商品/产品分别代表着创新过程中技术生产与产品生产这两个密切关联的部分,创新的学科交叉特征导致各种产品创新背后都有多领域的技术集成,从而导致了技术与产品之间的复杂对应关系,因而现有研究鲜少尝试去建立两者之间的映射关系,即专利信息数据与产品信息数据的跨数据库链接,通过打通跨数据库的连接,实现“技术-产品-企业-行业-区域”的映射关系,将实现对现有研究的极大突破。专利信息是世界上最大的公开技术信息源之一,在知识经济时代蕴含着指导技术进步与经济社会发展的重大价值。专利信息在学术研究当中的应用方式也较为丰富,主要通过两种方式。
2、第一类应用方式是通过系统成熟的专利分析方法对专利信息本身蕴含的多个指标进行分析,从多个维度揭示某技术领域或某创新主体的技术创新特点。基于专利基础信息,可以进行数量的统计分析,或通过综合性指标体系的构建进行专利质量的测度;基于专利基础信息与申请年份、地区信息的结合,可以进行专利产出与创新能力的时空分析以及技术的生命周期分析;基于专利分类与引用信息,通过网络方法或关键词自然语言处理方法,可以进行技术关联性研究,技术的核心、热点、新颖、空白领域识别,技术路线图与专利布局分析等方面的研究;基于专利的申请人信息,可以进行合作创新、技术知识网络、知识溢出与技术扩散等研究;基于专利交易、转让、许可信息,可以进行技术流动、转移与扩散研究等。许多研究也认识到仅依靠专利作为创新指标衡量创新系统的局限性,呼吁在创新数量、创新质量基础上提出更高层次的创新应用新指标,比如利用“路径信息学(patinformatics)”揭示单个专利与更广泛的技术领域的对应关系。
3、第二类应用方式则是通过将专利信息反映出的技术特征作为创新活动在某一维度上的测度变量,应用于定量实证分析当中,判断与其他要素之间的因果关系,从而探讨创新过程当中的重要作用机制。微观企业、高校、科研机构等创新主体,中观产业与区域,宏观国家层面的技术产出测度、创新效率计算都是专利信息与数据的重要应用场景;在此基础上能够进一步研究创新要素投入、制度与政策环境、历史文化与社会因素、关系网络、空间效应等因素对创新的影响与作用。
4、在上述应用方式当中,专利信息需要迁移匹配到创新活动与经济活动中的某些实体当中,构建与其他数据体系之间的关系,才能够进行更加具体深入的创新研究。例如与宏观经济指标结合开展主体为国家地区的创新研究,通过专利的申请人信息与企业数据库匹配以开展主体为企业的创新研究,或是通过专利信息当中的国民经济行业分类/wipo行业分类信息开展主体为行业的创新研究。上述专利信息的迁移匹配是将专利作为某一主体的技术生产结果来看待,而没有关注到专利本身在创新链上进一步向下游延伸的空间。虽然专利蕴含着指导新产品发明与产品生产技术改进的信息,是产品生产的重要技术来源之一,但专利信息的应用却很少与产品层面产生互动,庞大的专利信息与产品生产、贸易信息之间几乎没有发生交互。相比于区域、产业、企业与专利的明确归属关系,专利与产品两种复杂的分类体系大大阻碍了专利信息在技术-产品转化研究中的应用。
5、目前与专利分类相关的研究主要呈现以下两类:一种是通过机器学习与自然语言处理方式实现专利文本与专利类别的自动分类匹配;另一种是建立专利分类体系与其他类型分类体系之间的映射关系。其中,第二类研究在探索建立ipc分类与其他专利分类体系(如联合专利分类体系cpc)、ipc分类与行业或产业类目(如国民经济行业分类法nic、国际标准产业分类isic)以及ipc分类与文献资源分类(如《中图法》clc)等方面取得了一定的成果。
6、映射方法分为人工映射与自动映射两大类,包含基于共现、社会网络、交叉检索、语义结构以及机器学习等多种规则的映射方法。马晓萌等人提出了使用doc2vec文本向量化计算相似度的方法来进行ipc与nic的类目映射研究;周林志等人提出了一种通过构建与比较类目词汇相似度来进行ipc与clc匹配的方法;田创和赵亚娟通过对关键词tf-idf值以及余弦相似度的计算进行ipc与nic类目映射研究;吕璐成等人提出基于tf-idf和word2vec 的管制清单数据与专利数据自动映射方法和效果评价指标。其中,基于相似概率计算的匹配思路因其简洁方便得到了更高的研究关注,其基本原理在于对原始语料进行分词与关键词提取,再通过计算不同分类体系中的语料相似度来判断映射关系。
7、上述的专利类目映射研究主要是相似性测度方法与思路拓展,在方法的实验应用方面往往只选取某一个较小的技术/产业类别进行测试。虽然这种方法在一定程度上打通了专利分类与行业分类间的桥梁,但对于同在一条创新价值链上的“专利-产品”几乎没有相关的分类映射实践。例如,在海关进出口领域,需要检索进出口产品相对应的专利ipc分类,因此需要将进出口商品与ipc分类进行映射。
技术实现思路
1、为了解决现有技术中的不足,本发明提供一种基于产品分类与专利分类的映射方法及系统,提出ipc-hs编码映射系统的建构流程和匹配原则;在中文语境下,采取自然语言处理(nlp)进行分词处理,结合海关总署的官方申报要素举例,形成关键词列表;基于跨类交叉检索、共现频率、概率与加权处理构建ipc-hs编码映射关系的链接方法,匹配结果的精确度得到极大提升,打通专利创新与产品创新的关键链接,这对科技转化为现实生产力的实证研究以及技术创新生态的理解具有重要价值。
2、本发明为实现上述目的,通过以下技术方案实现:
3、本发明提供一种基于产品分类与专利分类的映射方法,包括以下步骤:
4、s1、获取产品分类相对应的关键词,形成基于产品分类的商品编码或/和商品名称与关键词相对应的关键词列表;其中,产品分类的商品编码或/和商品名称标记为 b i, i表示商品编码或/和商品名称的编号, i=1,2,…, n;
5、s2、以所述关键词在专利数据库中进行检索,获取每一组商品编码或/和商品名称所检索到的专利的专利分类号的频率分布,形成频率分布表,专利分类号标记为 a j, j表示专利分类号的编号, j=1,2,…, u;
6、s3、采用公式i或/和公式ⅱ或/和公式ⅲ加权计算在商品编码或/和商品名称为 b i的条件下,专利分类号为 a j的概率,分别记为、、;
7、 公式i
8、 公式ⅱ
9、 公式ⅲ
10、其中,表示频率分布表中在专利分类号为 a j的条件下,商品编码或/和商品名称为 b i的概率,;
11、表示频率分布表中专利分类号为 a j的概率,;
12、 m ij表示频率分布表中商品编码或/和商品名称 b i的关键词所检索到的专利中专利分类号为 a j的专利总数;
13、 m i表示频率分布表中商品编码或/和商品名称 b i的关键词所检索到的专利总数;
14、 n j表示频率分布表中全部商品编码或/和商品名称的关键词所检索到的专利中专利分类号为 a j的专利总数;
15、 n表示频率分布表中全部商品编码或/和商品名称的关键词所检索到的专利总数;
16、s4、提取、、数值的前若干个最大值所对应的专利分类号作为商品编码或/和商品名称 b i所对应的跨数据库链接结果,并形成商品编码或/和商品名称与专利分类号相对应的产品分类-专利分类映射表。
17、所述产品分类为hs编码分类、bec编码分类、sitc编码分类、naics编码分类、nace编码分类、国民经济分类中的一种,所述专利分类号为ipc分类号或cpc分类号。
18、所述产品分类为hs编码分类,所述专利分类号为ipc分类号。
19、获取产品分类相对应的关键词,还包括利用语义包进行外部词源扩展步骤,采用nlp分词工具提取产品分类的商品名称中被修饰名词作为关键词,采用hownet对名词进行外部词源的同义词拓展,辅以人工标注对其进行清理简化,形成最终关键词。
20、以所述关键词在专利数据库中进行检索,获取每一组商品编码或/和商品名称所检索到的专利的专利分类号的频率分布,还包括:
21、判断检索到的专利数量是否不为0,如果检索到的专利数量为0,则对产品分类的商品编码或/和商品名称所对应的关键词进行优化、简化,并更新关键词列表。
22、获取产品分类相对应的关键词为获取hs编码分类相对应的关键词,包括以下步骤:
23、s11、基于海关申报要素,获取hs编码分类所对应的商品名称作为关键词;
24、s12、判断hs编码所对应的商品名称是否无缺失;如果hs编码所对应的商品名称无缺失,则进入步骤s14;
25、s13、如果hs编码所对应的商品名称缺失,则采用nlp分词工具提取该hs编码的商品名称中被修饰名词作为关键词;
26、s14、使用hownet对所述关键词进行外部词源的同义词拓展;
27、s15、形成基于hs编码的商品编码或/和商品名称与关键词相对应的关键词列表;
28、s16、对hs编码的商品编码或/和商品名称所对应的关键词进行优化、简化,并更新关键词列表。
29、将小于等于设定阈值的结果设置为0,并计算、、,做归一化处理,所述设定阈值为1%~2%,示例性的,所述设定阈值为1%、1.2%、1.5%、1.8%、2%。
30、本发明还提供一种基于产品分类与专利分类的映射系统,用于执行所述的基于产品分类与专利分类的映射方法中的步骤,包括:
31、关键词获取模块:用于获取产品分类相对应的关键词,形成基于产品分类的商品编码或/和商品名称与关键词相对应的关键词列表;其中,产品分类的商品编码或/和商品名称标记为 b i, i表示商品编码或/和商品名称的编号, i=1,2,…, n;
32、专利获取模块:用于以所述关键词在专利数据库中进行检索,获取每一组商品编码或/和商品名称所检索到的专利的专利分类号的频率分布,专利分类号标记为 a j, j表示专利分类号的编号, j=1,2,…, u;
33、计算模块:用于采用公式i或/和公式ⅱ或/和公式ⅲ加权计算在商品编码或/和商品名称为 b i的条件下,专利分类号为 a j的概率,分别记为、、;
34、产品分类-专利分类映射表形成模块:用于提取、、数值的前若干个最大值所对应的专利分类号作为商品编码或/和商品名称 b i所对应的跨数据库链接结果,并形成商品编码或/和商品名称 b i与专利分类号相对应的产品分类-专利分类映射表。
35、对比现有技术,本发明有益效果在于:
36、本发明建立商品分类与专利分类之间的之间的映射关系,打通专利创新与产品创新的关键链接,这对科技转化为现实生产力的实证研究以及技术创新生态的理解具有重要价值。
37、本发明提出ipc-hs编码映射系统的建构流程和匹配原则;在中文语境下,采取自然语言处理(nlp)相关算法辅助进行分词处理,结合海关总署的官方申报要素举例,形成关键词提取列表;基于跨类交叉检索、共现频率、概率与加权处理构建ipc-hs编码映射关系的链接方法,匹配结果的精确度得到极大提升,打通专利创新与产品创新的关键链接,这对科技转化为现实生产力的实证研究以及技术创新生态的理解具有重要价值。