本申请涉及计算机信息处理,尤其涉及一种建筑环境知识图谱构建方法及装置。
背景技术:
1、近年来,随着现代设计和施工技术的快速发展,建筑环境中的实践已经变得更加数字化。然而,从业者或学者在建筑环境中收集复杂的专业知识的要求尚未得到满足,而缺乏适当的知识可视化工具已成为提高建筑环境类项目管理水平和效率的一个关键障碍。
2、由于构建环境领域的大量知识仍然是非结构化数据格式的,不能直接使用,依靠基于规则的系统和专家干预等传统方法从大量数据中提取有价值的信息并将其转换为结构化数据,需要大量的时间和劳动力,无法满足不断增长的业务需求。
技术实现思路
1、本申请提供了一种建筑环境知识图谱构建方法及装置,用于解决现有的建筑环境知识图谱构建效率低,无法满足不断增长的业务需求的技术问题。
2、为解决上述技术问题,本申请第一方面提供了一种建筑环境知识图谱构建方法,包括:
3、采集建筑环境类的文本数据;
4、通过文本识别算法,对所述文本数据进行预处理,识别所述文本数据中的实体对象,并结合与所述实体对象关联的上下文信息,得到所述实体对象的三元组数据;
5、通过自然语言处理方式和聚类算法,按照各个实体对象的语义,对各个三元组数据进行聚类,根据聚类结果更新各个三元组数据,形成知识图框架;
6、获取带注释信息的实例数据集,以所述知识图框架作为参照信息,对所述实例数据集进行过滤,其中,所述实例数据集中的每个实例均包含一对实体以及所述实体间的关系;
7、通过过滤后的实例数据集训练基于bert的命名实体识别模型与实体关系分类模型,以利用所述命名实体识别模型与所述实体关系分类模型,提取所述文本数据中的实体对象以及实体关系,形成建筑环境知识图谱。
8、优选地,通过自然语言处理方式和聚类算法,按照各个实体对象的语义,对各个三元组数据进行聚类,根据聚类结果更新各个三元组数据,形成知识图框架具体包括:
9、通过自然语言处理方式和聚类算法,按照各个实体对象的语义,将实体对象语义相似的三元组数据进行聚类,形成多个实体集群;
10、更新各个实体集群中各个三元组数据的实体对象,将更新后的三元组数据转换为嵌入三元组;
11、按照所述嵌入三元组中的实体对象,通过所述聚类算法,对所述嵌入三元组进行聚类,形成知识图框架。
12、优选地,通过文本识别算法,对所述文本数据进行预处理,识别所述文本数据中的实体对象,并结合与所述实体对象关联的上下文信息,得到所述实体对象的三元组数据具体包括:
13、通过文本识别算法,对所述文本数据进行预处理,识别所述文本数据中实体对象的三元组数据;
14、将所述实体对象关联的上下文信息,添加到所述三元组数据中,得到所述实体对象的三元组数据。
15、优选地,所述命名实体识别模型的表达式具体包括:
16、
17、式中,pred为所述命名实体识别模型的正向输出结果,b表示bert模型,d和l分别表示dropout层和线性层,cdecode为维特比算法,emission表示线性层输出,s表示softmax层,c表示crf层。
18、优选地,所述实体关系分类模型的表达式具体包括:
19、
20、式中,opred表示所预测的标签的得分,bp表示bert-pair模型,表示支持集s中第n个类的第j个实例,yr表示查询集q中与支持集s中的实例相对应的不同实例。
21、本申请第二方面提供了一种建筑环境知识图谱构建装置,包括:
22、文本数据采集单元,用于采集建筑环境类的文本数据;
23、三元组数据提取单元,用于通过文本识别算法,对所述文本数据进行预处理,识别所述文本数据中的实体对象,并结合与所述实体对象关联的上下文信息,得到所述实体对象的三元组数据;
24、知识图框架构建单元,用于通过自然语言处理方式和聚类算法,按照各个实体对象的语义,对各个三元组数据进行聚类,根据聚类结果更新各个三元组数据,形成知识图框架;
25、实例数据筛选单元,用于获取带注释信息的实例数据集,以所述知识图框架作为参照信息,对所述实例数据集进行过滤,其中,所述实例数据集中的每个实例均包含一对实体以及所述实体间的关系;
26、模型训练单元,用于通过过滤后的实例数据集训练基于bert的命名实体识别模型与实体关系分类模型,以利用所述命名实体识别模型与所述实体关系分类模型,提取所述文本数据中的实体对象以及实体关系,形成建筑环境知识图谱。
27、优选地,知识图框架构建单元具体用于:
28、通过自然语言处理方式和聚类算法,按照各个实体对象的语义,将实体对象语义相似的三元组数据进行聚类,形成多个实体集群;
29、更新各个实体集群中各个三元组数据的实体对象,将更新后的三元组数据转换为嵌入三元组;
30、按照所述嵌入三元组中的实体对象,通过所述聚类算法,对所述嵌入三元组进行聚类,形成知识图框架。
31、优选地,三元组数据提取单元具体用于:
32、通过文本识别算法,对所述文本数据进行预处理,识别所述文本数据中实体对象的三元组数据;
33、将所述实体对象关联的上下文信息,添加到所述三元组数据中,得到所述实体对象的三元组数据。
34、优选地,所述命名实体识别模型的表达式具体包括:
35、
36、式中,pred为所述命名实体识别模型的正向输出结果,b表示bert模型,d和l分别表示dropout层和线性层,cdecode为维特比算法,emission表示线性层输出,s表示softmax层,c表示crf层。
37、优选地,所述实体关系分类模型的表达式具体包括:
38、
39、式中,opred表示所预测的标签的得分,bp表示bert-pair模型,表示支持集s中第n类的第j个实例,yr表示查询集q中与支持集s中的实例相对应的不同实例。
40、从以上技术方案可以看出,本申请具有以下优点:
41、本申请提供的建筑环境知识图谱构建方法,通过大量的建筑环境类的文本数据初步提取出大量的三元组数据,然后通过自然语言处理方式和聚类算法,将这些三元组数据进行聚合,形成建筑环境类的知识图框架,以知识图框架为参照信息,对带注释的实例数据进行过滤修正,再利用过滤后的实例数据训练命名实体识别模型与实体关系分类模型,利用训练好的模型对建筑环境类的文本数据中的实体对象以及对象关系进行提取,即可得到大量结构化的建筑环境类实体对象以及对象关系,从而形成建筑环境知识图谱,有效提高了建筑环境知识图谱的构建效率。
1.一种建筑环境知识图谱构建方法,其特征在于,包括:
2.根据权利要求1所述的一种建筑环境知识图谱构建方法,其特征在于,通过自然语言处理方式和聚类算法,按照各个实体对象的语义,对各个三元组数据进行聚类,根据聚类结果更新各个三元组数据,形成知识图框架具体包括:
3.根据权利要求1所述的一种建筑环境知识图谱构建方法,其特征在于,通过文本识别算法,对所述文本数据进行预处理,识别所述文本数据中的实体对象,并结合与所述实体对象关联的上下文信息,得到所述实体对象的三元组数据具体包括:
4.根据权利要求1所述的一种建筑环境知识图谱构建方法,其特征在于,所述命名实体识别模型的表达式具体包括:
5.根据权利要求1所述的一种建筑环境知识图谱构建方法,其特征在于,所述实体关系分类模型的表达式具体包括:
6.一种建筑环境知识图谱构建装置,其特征在于,包括:
7.根据权利要求6所述的一种建筑环境知识图谱构建装置,其特征在于,知识图框架构建单元具体用于:
8.根据权利要求6所述的一种建筑环境知识图谱构建装置,其特征在于,三元组数据提取单元具体用于:
9.根据权利要求6所述的一种建筑环境知识图谱构建装置,其特征在于,所述命名实体识别模型的表达式具体包括:
10.根据权利要求6所述的一种建筑环境知识图谱构建装置,其特征在于,所述实体关系分类模型的表达式具体包括: