本发明是涉及一种从文献中自动提取化学数据的方法和系统,属于信息处理。
背景技术:
1、科学实验在自然科学发展中的作用越来越明显,作为科学实验主要产出之一的科学数据已经成为一种重要资源受到越来越多的重视,高效且结构化地数据提取一直备受关注。化学作为自然科学的三大基础学科之一,它的研究和应用已经渗透到科学研究、国民经济、社会发展、国家安全的各个方面,形成了许多交叉领域,积累了大量宝贵信息和数据。构建化学数据库,可为化学化工研究和开发提供全面信息服务。因此,对化学数据的需求促使了对文献中化学数据提取技术的研究。
2、虽然对化学数据的搜集和加工在国际上已有200多年历史,但在2010年之前,对化学数据的搜集加工还是以人工处理为主。自2011年剑桥大学jessop、hawizy和d.m.lowe等人先后发表了用于化合物名称自动识别的化学文本挖掘系统,才开创了将人工智能方法用于化学数据处理的新方向。但目前主要是采用机器学习方法从文献中自动提取化学数据,而采用机器学习方法需要人工标引大量同类语料以训练模型,对人力和硬件都有较高要求;另外,目前关于期刊文献中各类数据的自动识别提取方法的研究主要集中于英文文献,当前关于中文文献的提取研究还仅限于对文献中的化学实体(化合物名称和结构)的研究上,而化学文献中的化学数据除了化学实体(化合物名称和结构),通常还包括产物特性、合成反应参数、物性数据、谱学数据等多种科学数据;因此,如何实现低成本、高准确率提取化学文献中的全面化学数据,成为本领域当前迫切解决的技术问题。
技术实现思路
1、针对现有技术存在的上述问题和需求,本发明的目的是提供一种从文献中自动提取化学数据的方法和系统,以实现低成本、高准确率提取文献中的全面化学数据。
2、为实现上述发明目的,本发明采用如下技术方案:
3、一种从文献中自动提取化学数据的方法,包括如下步骤:
4、s1) 将输入的文献转换成纯文本格式;
5、s2) 根据预定义的段落标签对目标文章建立段落标识;
6、s3) 根据预定义的内容标签对目标段落建立内容标识;
7、s4) 使用预设的正则表达式对目标段落内容进行化学数据的识别定位和置标;
8、s5) 根据步骤s4)的标识结果进行化学数据的提取和输出。
9、一种实施方案,步骤s1)中所述的文献可以为中文文献或/和英文文献。
10、一种实施方案,步骤s1)中所述的文献以pdf或word格式输入。
11、一种实施方案,步骤s2)中所述的段落标签按照xml标签设计规则进行预定义。
12、一种实施方案,步骤s2)中所述段落标签的内容是由sc起始元素与描述段落类型的中文构成。
13、进一步实施方案,所述的段落类型分为通用段落类型和化学类段落类型,所述的通用段落类型是指某个段落是题目、摘要、小标题、正文、图表还是参考文献,所述的化学类段落类型是用于进一步对小标题和正文段落按其是否涉及目标化学内容进行分类,具体可定义为实验部分、仪器和试剂、合成方法、产物及性质、结果讨论部分等。
14、一种实施方案,步骤s3)中所述的内容标签按照xml标签设计规则进行预定义。
15、一种实施方案,步骤s3)中所述内容标签的内容是由cc起始元素与描述内容类型的中文构成。
16、进一步实施方案,所述的内容类型是指某段文字的内容分类,具体可定义为仪器内容、试剂内容、合成操作内容、产物性质内容等。
17、一种实施方案,步骤s4)中所述的正则表达式是由人工基于化学文献中关于化学数据的语言表达模式构建得到。
18、一种实施方案,步骤s4)对化学数据置标的数据标签按照xml标签设计规则进行预定义。
19、进一步实施方案,数据标签内容是由dc起始元素与描述化学数据类型的中文构成。
20、进一步实施方案,所述化学数据的类型分为产物特性、合成反应参数、物性数据和谱学数据。
21、进一步实施方案,所述的产物特性分为产物名称、产物代号、cas号、分子式、分子量和元素分析,所述的合成反应参数分为反应温度、反应时间、纯度、产率和分离方法,所述的物性数据分为熔点、沸点、性状、溶解度、旋光、晶体参数和磁化率,所述的谱学数据分为红外光谱、紫外光谱、荧光光谱、氢核磁谱、质谱、碳13核磁谱、磷31核磁谱、氟19核磁谱、硼11核磁谱、硅29核磁谱、氮15核磁谱、氢异核多碳相关谱、穆斯堡尔谱和圆二色谱。
22、一种实施方案,步骤s5)采用自然语言处理(nlp)方法进行化学数据提取。
23、一种从文献中自动提取化学数据的系统,包括:
24、输入模块,以用于输入文献并对输入的文献转换为纯文本格式;
25、段落置标模块,以用于根据预定义的段落标签对目标文章建立段落标识;
26、内容置标模块,以用于根据预定义的内容标签对目标段落建立内容标识;
27、化学数据识别定位和置标模块,以用于使用预设的正则表达式对目标段落内容进行化学数据的识别定位和置标;
28、提取和输出模块,以用于对化学数据提取和输出提取结果。
29、另外,本发明还提供一种存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述的从文献中自动提取化学数据的方法。
30、本发明还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明上述的从文献中自动提取化学数据的方法。
31、本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机能够执行本发明上述的从文献中自动提取化学数据的方法。
32、相较于现有技术,本发明的有益技术效果在于:
33、本发明基于语言表达模式和自然语言处理(nlp)方法,不仅实现了从文献中自动识别和提取化学数据,而且提取的化学数据全面,包括产物特性、合成反应参数、物性数据、谱学数据等30多种化学数据,使得提取的数据可建成对应的化学数据库实现化学文献的电子化服务,可为化学研究和开发提供全面的信息支持;因此,本发明具有显著应用价值,对化学研究和开发具有重要意义。
1.一种从文献中自动提取化学数据的方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的方法,其特征在于:步骤s1)中所述的文献为中文文献或/和英文文献,所述文献以pdf或word格式输入。
3.根据权利要求1所述的方法,其特征在于:步骤s2)中所述的段落标签按照xml标签设计规则进行预定义,所述段落标签的内容是由sc起始元素与描述段落类型的中文构成。
4.根据权利要求3所述的方法,其特征在于:所述的段落类型分为通用段落类型和化学类段落类型,所述的通用段落类型是指某个段落是题目、摘要、小标题、正文、图表还是参考文献,所述的化学类段落类型是用于进一步对小标题和正文段落按其是否涉及目标化学内容进行分类定义。
5.根据权利要求1所述的方法,其特征在于:步骤s3)中所述的内容标签按照xml标签设计规则进行预定义,所述内容标签的内容是由cc起始元素与描述内容类型的中文构成,所述的内容类型是指某段文字的内容分类。
6.根据权利要求1所述的方法,其特征在于:步骤s4)中所述的正则表达式是由人工基于化学文献中关于化学数据的语言表达模式构建得到。
7.根据权利要求1所述的方法,其特征在于:步骤s4)对化学数据置标的数据标签按照xml标签设计规则进行预定义,数据标签内容是由dc起始元素与描述化学数据类型的中文构成,所述化学数据的类型分为产物特性、合成反应参数、物性数据和谱学数据。
8.一种从文献中自动提取化学数据的系统,其特征在于,所述系统包括:
9.一种存储介质,其上存储有计算机程序,其特征在于:该程序被处理器执行时能实现权利要求1~7中任意一项所述的方法。
10.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行;其特征在于:所述至少一个处理器能够执行权利要求1~7中任意一项所述的方法。