本发明涉及电数字数据处理,尤其涉及一种基于知识图谱的农业病虫害防治方法、装置、设备及介质。
背景技术:
1、农作物病虫害的种类繁多,变异繁衍速度快,对于农业生产造成了很大的影响,农业病虫害的预防和治疗对于农业生产来说尤为重要。
2、在对农业病虫害进行预防和治疗时,农业工作者可以在预先构建的农业病虫害知识图谱中进行提问检索,从而确定农业病虫害的预防和治疗方法,并根据该预防和治疗方法,进行农业病虫害的防治工作。因此迫切需要一个完整高效的知识图谱数据库,为农业病虫害的防治工作提供支持。
3、知识图谱是一种能够将复杂信息进行结构化表示的技术,它通过收集不同文献中的海量信息,来建立不同的实体及其之间的关系,从而形成一个多维度的知识网络。其中,不同实体及其之间的关系通过三元组的形式表示。
4、然而,针对农业病虫害相关的专业术语多样且复杂,其涵盖了不同种类的病害、虫害及其防治方法等。并且,专业术语在不同文献中的表述差异较大,这就使得在构建农业病虫害知识图谱过程中,对于实体识别的精度较低,进而导致农业病虫害知识图谱的准确性和完整性较差,影响农业病虫害的防治工作。
技术实现思路
1、本发明实施例提供了一种基于知识图谱的农业病虫害防治方法、装置、设备及介质,以解决农业病虫害知识图谱的准确性和完整性较差,进而影响农业病虫害防治工作的问题。
2、第一方面,本发明实施例提供了一种基于知识图谱的农业病虫害防治方法,包括:
3、获取待检索的病虫害问题,并根据待检索的病虫害问题,确定所述待检索的病虫害问题中的实体;
4、根据所述实体在预先构建的农业病虫害知识图谱中进行搜索,确定所述实体对应的目标三元组,根据所述目标三元组确定答案,并输出;
5、其中,所述构建农业病虫害知识图谱的过程,包括:
6、基于农业病虫害语料库中所包含的主题,与预设的候选本体之间的隶属度,从所述预设的候选本体中,确定所述农业病虫害知识图谱中的本体;
7、基于所述本体,分别进行命名实体识别和关系抽取,以构建三元组,得到所述农业病虫害知识图谱;所述农业病虫害知识图谱中包含多个三元组。
8、在一种可能的实现方式中,所述候选本体为多个,所述农业病虫害语料库中所包含的主题为多个;
9、基于农业病虫害语料库中所包含的主题,与预设的候选本体之间的隶属度,从所述预设的候选本体中,确定所述农业病虫害知识图谱中的本体,包括:
10、针对每一候选本体,分别计算该候选本体对各主题的隶属度,并将
11、该候选本体对各主题的隶属度进行累加,得到该候选本体对应的综合隶属度;
12、基于该候选本体在农业病虫害语料库中出现的频率,对应确定该候选本体对应的平滑因子;所述平滑因子用于表征候选本体在农业病虫害语料库中的分布情况;
13、基于该候选本体对应的综合隶属度和平滑因子,确定该候选本体对应的权重;
14、若该候选本体对应的权重大于预设阈值,则将该候选本体确定为所述农业病虫害知识图谱中的本体。
15、在一种可能的实现方式中,基于所述本体,进行命名实体识别,包括:
16、基于所述本体,确定实体标签序列,并基于所述实体标签序列对命名实体识别模型进行模型训练,得到训练好的命名实体识别模型;
17、基于命名实体识别模型,对农业病虫害知识图谱中的文本信息进行命名实体识别,得到所述农业病虫害知识图谱中的实体;
18、所述命名实体识别模型包括:依次连接的预训练语言模型、lstm特征提取层、正负注意力机制层以及条件随机场层;
19、所述预训练语言模型,用于接收农业病虫害语料库中的文本信息,对所述文本信息进行编码,得到词嵌入向量序列,并输入至所述lstm特征提取层;
20、所述lstm特征提取层,用于接收所述词嵌入向量序列,对所述词嵌入向量序列进行特征提取,得到不同的初始特征序列,并输入至所述正负注意力机制层;
21、所述正负注意力机制层,用于对所述初始特征序列进行正向注意力特征提取,以及负向注意力特征提取,得到强化特征序列和弱化特征序列;根据提取得到的强化特征序列和弱化特征序列,确定最终的目标语特征序列,并输入至所述条件随机场层;
22、所述条件随机场层,用于接收所述目标特征序列,并所述目标特征序列进行命名实体识别,确定所述目标特征序列对应的实体。
23、在一种可能的实现方式中,所述正负注意力机制层包括:正向注意力层和负向注意力层;
24、所述正向注意力层,用于对所述初始特征序列进行重要特征提取,得到所述强化特征序列,以加强所述初始特征序列中的数据特征;
25、所述负向注意力层,用于对所述初始特征序列进行噪声特征提取,得到所述弱化特征序列,用以抑制所述初始特征序列中的噪声信息;
26、所述根据提取得到的强化特征序列和弱化特征序列,确定最终的目标特征序列,包括:
27、将所述强化特征序列与所述弱化特征序列之间的差值,确定为最终的目标特征序列。
28、在一种可能的实现方式中,针对每一候选本体,分别计算该候选本体对各主题隶属度,并将该候选本体对各主题的隶属度进行累加,得到该候选本体对应的综合隶属度,包括:
29、针对每一候选本体,根据确定该候选本体对应的综合隶属度;
30、其中,表示候选本体对应的综合隶属度,表示第个主题中第个主题词对应的词嵌入向量,表示候选本体对应的词嵌入向量,表示每一个主题中所包含的主题词的数量,表示主题的数量,表示个主题所构成的主题集。
31、在一种可能的实现方式中,针对每一候选本体,基于该候选本体在农业病虫害语料库中出现的频率,对应确定该候选本体对应的平滑因子,包括:
32、针对每一候选本体,根据确定该候选本体对应的平滑因子;
33、其中,表示候选本体对应的平滑因子,表示候选本体在语料库中出现的频率,表示第个主题词在语料库中出现的频率,表示语料库中的文件数量,表示语料库中包含候选本体的文件数量。
34、在一种可能的实现方式中,针对每一候选本体,基于该候选本体对应的综合隶属度和平滑因子,确定确定该候选本体对应的权重,包括:
35、针对每一候选本体,根据确定该候选本体对应的权重;
36、其中,表示候选本体对应的权重,表示sigmoid函数,表示候选本体对应的综合隶属度,表示候选本体对应的平滑因子。
37、第二方面,本发明实施例提供了一种基于知识图谱的农业病虫害防治装置,包括:
38、获取模块,用于获取待检索的病虫害问题,并根据待检索的病虫害问题,确定所述待检索的病虫害问题中的实体;
39、检索模块,根据所述实体在预先构建的农业病虫害知识图谱中进行搜索,确定所述实体对应的目标三元组,根据所述目标三元组确定答案,并输出;
40、其中,所述构建农业病虫害知识图谱的过程,包括:
41、基于农业病虫害语料库中所包含的主题,与预设的候选本体之间的隶属度,从所述预设的候选本体中,确定所述农业病虫害知识图谱中的本体;
42、基于所述本体,分别进行命名实体识别和关系抽取,以构建三元组,得到所述农业病虫害知识图谱;所述农业病虫害知识图谱中包含多个三元组。
43、第三方面,本发明实施例提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上第一方面或第一方面的任一种可能的实现方式所述方法的步骤。
44、第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上第一方面或第一方面的任一种可能的实现方式所述方法的步骤。
45、本发明实施例提供一种基于知识图谱的农业病虫害防治方法、装置、设备及介质,通过在构建农业病虫害语料库知识图谱的过程中,基于农业病虫害语料库中所包含的主题,与预设的候选本体之间的隶属度,来确定农业病虫害语料库中的本体。其中,农业病虫害语料库中所包含的主题,可以反映农业病虫害语料库中的潜在语义结构,通过确定候选本体与主题之间的隶属度,可以反映候选本体对整体语料库分布的重要程度,并基于该重要程度确定农业病虫害语料库的本体,可以有效提升本体的准确性和完整性。在此基础上,基于上述本体进行命名实体识别和关系抽取,可以相应提升命名实体识别精度和关系抽取精度,最终实现提升农业病虫害知识图谱的准确性和完整性的目标。