本申请涉及天文文献处理领域,特别是涉及天文信息提取方法、装置、电子装置和存储介质。
背景技术:
1、作为研究天体与宇宙的学科,天文学涵盖了众多研究目标与领域。随着信息时代的发展,天文数据量也呈现出指数级增长,随之产生了大规模、多模态的天文科学数据,包括文献、文本、图表以及实验数据等。目前,多模态的天文科学数据尚面临着分散多源、知识本体不完善、相关数据模型挖掘专业门槛高的挑战等问题。国内外天文领域现有的知识建模方法仅考虑天文知识本体,尚未实现天文知识在文献中的自动提取。
2、针对相关技术中存在无法实现天文知识在文献中的自动提取的问题,目前还没有提出有效的解决方案。
技术实现思路
1、在本实施例中提供了一种天文信息提取方法、装置、电子装置和存储介质,以解决相关技术中无法实现天文知识在文献中的自动提取的问题。
2、第一个方面,在本实施例中提供了一种天文信息提取方法,包括:
3、从待处理的天文文献中,基于训练完备的文本特征提取模型,标注各所述天文文献中的初始文本特征;
4、基于训练完备的视觉特征提取模型,标注各所述天文文献中的初始视觉特征;
5、将所述初始文本特征和所述初始视觉特征进行特征融合,得到联合表征向量;
6、将所述联合表征向量输入训练完备的基于transformer架构的多模态知识提取模型,利用所述多模态知识提取模型中的编码器计算天文信息特征的预测概率值,并利用所述多模态知识提取模型中的解码器,针对所述预测概率值输出预测的多模态的天文信息特征;所述天文信息特征至少包括所述天文文献中的天文文本特征和天文视觉特征。
7、在其中的一些实施例中,在基于训练完备的文本特征提取模型,标注各所述天文文献中的初始文本特征之前,所述方法还包括:
8、从预设的天文文献库中获取用于训练的文本标注内容;
9、将所述文本标注内容进行向量化处理得到编码向量;
10、将所述编码向量输入预设的预训练语言模型,以使所述预训练语言模型结合所述编码向量中的位置信息,预测所述文本标注内容中各位置的初始文本特征的概率;
11、根据所述预训练语言模型的输出结果,以及预设的测试集,校正所述预训练语言模型的训练参数,得到训练完备的文本特征提取模型。
12、在其中的一些实施例中,所述初始文本特征包括文献的通用表征特征,以及天文领域的天文知识特征。
13、在其中的一些实施例中,在基于训练完备的视觉特征提取模型,标注各所述天文文献中的初始视觉特征之前,所述方法还包括:
14、从预设的天文文献库获取用于训练的图像标注内容;
15、将所述图像标注内容输入预设的卷积神经网络,计算所述图像标注内容的初始视觉特征的分布概率;
16、根据所述卷积神经网络的输出结果,和预设的测试集,调整所述卷积神经网络的校正参数,得到训练完备的视觉特征提取模型。
17、在其中的一些实施例中,所述方法还包括:
18、在对基于transformer架构的模型进行训练的阶段,获取至少包括文本特征和视觉特征的用于训练的多模态数据集;
19、将所述多模态数据集输入预设的基于transformer架构的模型,利用所述基于transformer架构的模型中的编码器计算各天文信息特征的预测概率值,并利用所述基于transformer架构的模型中的解码器,针对所述预测概率值输出天文信息特征;
20、根据所述基于transformer架构的模型的输出结果和预设的测试集,校正所述基于transformer架构的模型的训练参数,得到训练完备的基于transformer架构的多模态知识提取模型。
21、在其中的一些实施例中,所述方法还包括:
22、将预设的天文文献集中所标注的天文观测数据,与预设的观测数据集之间的关联关系,加入所述多模态数据集。
23、在其中的一些实施例中,所述方法还包括:
24、将预设的天文文献集中所标注的天文术语与天文命名词典之间的关联关系,以及所述天文文献集中所标注的天体坐标与星表之间的关联关系,加入所述多模态数据集。
25、在其中的一些实施例中,所述将所述初始文本特征和所述初始视觉特征进行特征融合,得到联合表征向量,包括:
26、分别对所述初始文本特征和所述初始视觉特征进行归一化处理,将所述初始文本特征的归一化结果和所述初始视觉特征的归一化结果进行向量拼接,得到所述联合表征向量。
27、第二个方面,在本实施例中提供了一种天文信息提取装置,包括:第一提取模块、第二提取模块、融合模块以及输出模块;其中:
28、所述第一提取模块,用于从待处理的天文文献中,基于训练完备的文本特征提取模型,标注各所述天文文献中的初始文本特征;
29、所述第二提取模块,用于基于训练完备的视觉特征提取模型,标注各所述天文文献中的初始视觉特征;
30、所述融合模块,用于将所述初始文本特征和所述初始视觉特征进行特征融合,得到联合表征向量;
31、所述输出模块,用于将所述联合表征向量输入训练完备的基于transformer架构的多模态知识提取模型,利用所述多模态知识提取模型中的编码器计算天文信息特征的预测概率值,并利用所述多模态知识提取模型中的解码器,针对所述预测概率值输出预测的多模态的天文信息特征;所述天文信息特征至少包括所述天文文献中的天文文本特征和天文视觉特征。
32、第三个方面,在本实施例中提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一个方面所述的天文信息提取方法。
33、第四个方面,在本实施例中提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一个方面所述的天文信息提取方法。
34、与相关技术相比,在本实施例中提供的天文信息提取方法、装置、电子装置和存储介质,首先从待处理的天文文献中,基于训练完备的文本特征提取模型,标注各天文文献中的初始文本特征;基于训练完备的视觉特征提取模型,标注各天文文献中的初始视觉特征;将初始文本特征和初始视觉特征进行特征融合,得到联合表征向量;最后将联合表征向量输入训练完备的基于transformer架构的多模态知识提取模型,利用多模态知识提取模型中的编码器计算天文信息特征的预测概率值,并利用多模态知识提取模型中的解码器,针对预测概率值输出预测的多模态的天文信息特征。其基于天文文献中各类型特征的标注,利用多模态知识提取模型实现了最终的天文信息特征的预测,从而能够实现对天文文献中多模态的天文知识的提取。
35、本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
1.一种天文信息提取方法,其特征在于,包括:
2.根据权利要求1所述的天文信息提取方法,其特征在于,在基于训练完备的文本特征提取模型,标注各所述天文文献中的初始文本特征之前,所述方法还包括:
3.根据权利要求1或权利要求2所述的天文信息提取方法,其特征在于,所述初始文本特征包括文献的通用表征特征,以及天文领域的天文知识特征。
4.根据权利要求1所述的天文信息提取方法,其特征在于,在基于训练完备的视觉特征提取模型,标注各所述天文文献中的初始视觉特征之前,所述方法还包括:
5.根据权利要求1所述的天文信息提取方法,其特征在于,所述方法还包括:
6.根据权利要求5所述的天文信息提取方法,其特征在于,所述方法还包括:
7.根据权利要求5所述的天文信息提取方法,其特征在于,所述方法还包括:
8.根据权利要求1所述的天文信息提取方法,其特征在于,所述将所述初始文本特征和所述初始视觉特征进行特征融合,得到联合表征向量,包括:
9.一种天文信息提取装置,其特征在于,包括:第一提取模块、第二提取模块、融合模块以及输出模块;其中:
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至权利要求8中任一项所述的天文信息提取方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至权利要求8中任一项所述的天文信息提取方法的步骤。