1.本技术涉及数据处理技术领域,尤其涉及一种处理方法以及装置。
背景技术:2.在实际应用中,在构建文件中包含的词汇之间的关联结构信息比如知识图谱时,通常需要依赖与文件对应的词汇结构配置文件才能实现。这样的关联结构信息构建方式对文件格式以及词汇结构配置文件的要求严格,因此无法得到广泛的应用。
技术实现要素:3.基于以上问题,本技术实施例提供了一种处理方法以及装置。
4.本技术实施例首先提供了一种处理方法,所述方法包括:
5.获取待处理文件;
6.对所述待处理文件包含的词汇进行处理,得到所述待处理文件包含的词汇的属性信息;
7.基于所述属性信息,从所述待处理文件包含的词汇中确定实体词汇;其中,所述实体词汇包括实体类型的词汇;
8.得到所述实体词汇之间的关联结构信息。
9.在一些实施例中,所述属性信息至少包括所述待处理文件包含的词汇的格式属性信息;所述基于所述属性信息,从所述待处理文件包含的词汇中确定实体词汇,包括:
10.对所述格式属性信息中的格式属性参数进行分析,得到分析结果;其中,所述格式属性参数包括字号、字体、以及颜色中的至少一种;
11.基于所述分析结果对所述格式属性信息进行划分,得到至少一种类型的格式属性信息;
12.从所述至少一种类型的格式属性信息中确定第一格式信息;
13.基于所述第一格式信息,从所述待处理文件包含的词汇中确定所述实体词汇。
14.在一些实施例中,所述方法还包括:
15.从所述至少一种类型的格式属性信息中确定第二格式信息;
16.基于所述第二格式信息,从所述待处理文件包含的词汇中确定实体信息词汇;其中,所述实体信息词汇包括用于承载所述实体词汇的含义信息的词汇。
17.在一些实施例中,所述得到所述实体词汇之间的关联结构信息,包括:
18.确定所述实体词汇与所述实体信息词汇之间的关联关系信息;
19.基于所述关联关系信息,得到所述关联结构信息。
20.在一些实施例中,所述确定所述实体词汇与所述实体信息词汇之间的关联关系信息,包括:
21.对所述实体词汇以及所述实体信息词汇进行分析,得到第一坐标信息以及第二坐标信息;其中,所述第一坐标信息包括所述实体词汇的坐标信息;所述第二坐标信息包括所
述实体信息词汇的坐标信息;
22.基于所述第一坐标信息以及所述第二坐标信息,关联所述实体词汇以及所述实体信息词汇,确定所述关联关系信息。
23.在一些实施例中,所述基于所述第一坐标信息以及所述第二坐标信息,关联所述实体词汇以及所述实体信息词汇,确定所述关联关系信息,包括:
24.从所述第一坐标信息中获取目标实体词汇的坐标信息;
25.基于所述目标实体词汇的坐标信息以及所述第二坐标信息,确定目标实体信息词汇;
26.关联所述目标实体词汇以及所述目标实体信息词汇,确定所述关联关系信息。
27.在一些实施例中,所述基于所述关联关系信息,得到所述关联结构信息,包括:
28.确定第一关联信息与第二关联信息之间的匹配信息;其中,所述第一关联信息以及所述第二关联信息为所述关联关系信息中的任一关联关系信息;
29.基于所述匹配信息,得到所述关联结构信息。
30.在一些实施例中,所述基于所述匹配信息,得到所述关联结构信息,包括:
31.若满足指定条件,关联所述第二关联信息中的实体信息词汇与所述第一关联信息中的实体词汇,得到所述关联结构信息;其中,所述指定条件,包括所述匹配信息表示所述第二关联信息中的实体信息词汇与所述第一关联信息中的实体词汇匹配。
32.在一些实施例中,所述属性信息至少包括所述待处理文件包含的词汇的文本类型信息;所述基于所述属性信息,从所述待处理文件包含的词汇中确定实体词汇,包括:
33.若第一词汇的所述文本类型信息为第一文本类型,确定所述第一词汇为所述实体词汇;其中,所述第一词汇为所述待处理文件包含的词汇中的任一词汇;
34.若第二词汇的所述文本类型信息为第二文本类型,确定所述第二词汇为实体信息词汇;其中,所述第二词汇为所述待处理文件包含的词汇中的任一词汇。
35.本技术实施例还提供了一种处理装置,包括:
36.获取模块,用于获取待处理文件;
37.处理模块,用于对所述待处理文件包含的词汇进行处理,得到所述待处理文件包含的词汇的属性信息;基于所述属性信息,从所述待处理文件包含的词汇中确定实体词汇;其中,所述实体词汇包括实体类型的词汇;得到所述实体词汇之间的关联结构信息。
38.本技术实施例还提供了一种电子设备,包括处理器和存储器,其中,存储器中存储有计算机程序,该计算机程序被电子设备的处理器执行时,能够实现如前任一所述的处理方法。
39.本技术实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,该计算机程序被电子设备的处理器执行时,能够实现如前任一所述的处理方法。
40.本技术实施例提供的处理方法,在不需要专业技术人员的手动操作、且不依赖与待处理文件对应的配置文件的情况下,能够通过从待处理文件中得到的词汇的属性信息,得到实体词汇之间的关联结构信息,从而提高了得到待处理文件中实体词汇之间的关联结构信息的效率,也改善了得到关联结构信息的灵活性,降低了对待处理文件的格式以及数据结构的要求。在实体词汇之间的关联结构信息为知识图谱的情况下,本技术实施例提供
的处理方法,能够自动且灵活高效的得到任一待处理文件对应的知识图谱。
附图说明
41.图1为本技术实施例提供的处理方法的流程示意图;
42.图2为本技术实施例提供的确定实体词汇的流程示意图;
43.图3为本技术实施例提供的确定实体信息词汇的流程示意图;
44.图4为本技术实施例提供的确定实体词汇的另一流程示意图;
45.图5为本技术实施例提供的得到关联结构信息的流程示意图;
46.图6为本技术实施例提供的确定关联关系信息的流程示意图;
47.图7为本公开实施例提供的关联结构信息的结构示意图;
48.图8为本公开实施例提供的关联结构信息的另一结构示意图;
49.图9为本技术实施例提供的构建知识图谱的流程示意图;
50.图10为本技术实施例提供的处理装置的结构示意图。
具体实施方式
51.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述。
52.应当理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
53.知识图谱是人工智能领域的一种重要的知识组织形式,它通过实体词汇之间的关联关系承载知识,并以图的形式呈现知识。相比于传统的表格或文件等知识呈现形式,知识图谱以其简介明了且直观形象的知识呈现形式,具备了更广泛的应用前景。然而,在实际应用中,采用表格或文件承载数据或知识依然被广泛应用,因此,如何对文件进行信息提取并得到知识图谱就显得格外重要。
54.在知识图谱构建过程中,本体作为知识图谱的数据模式,是知识图谱的骨架和体系,因此,本体对知识图谱的构建起到了至关重要的作用。
55.在实际应用中,在待分析文件具备对应的配置文件的条件下,可以通过配置文件对待分析文件进行解析得到本体,然后再根据本体构建知识图谱。然而,这样的方式需要待分析文件具备配置文件指定的数据结构,比如传统的关系型数据库具有严格的表头信息、以及与表头信息结构相同的数据结构,因此,基于表头信息读取结果对数据库中的词汇和数据进行解析,就能够得到本体。
56.然而,若待分析文件的数据结构复杂且不具备表头信息,或并不具备配置文件,通过上述方案将无法从待分析文件中获取到本体。
57.为了能够从任意数据结构的待分析文件中获取到本体,相关技术中,专业技术人员可以依据他们的专业技术知识,针对待分析文本构建本体提取规则,再通过大量的手工操作,从待分析文件中提取本体。
58.然而,不同的待分析文件的数据组织形式不同,因此,专业技术人员构建的本体提取规则无法通用;并且,专业技术人员需要消耗大量的时间和精力才能构建本体提取规则,因此,专业技术人员手动构建本体提取规则并构建本体的方法,虽然能够从数据结构复杂的待分析文本中得到本体,但其效率低下,且无法得到广泛的应用。
59.基于以上问题,本技术实施例提供了一种处理方法,本技术实施例提供的处理方法,对待处理文件包含的词汇进行处理,得到待处理文件包含的词汇的属性信息,然后基于属性信息从待处理文件包含的词汇中确定实体词汇,再得到实体词汇之间的关联结构信息。
60.如此,本技术实施例提供的处理方法,在不需要专业技术人员的手动操作的情况下,能够自动的得到待处理文件的实体词汇之间的关联结构信息,并且,在不依赖与待处理文件对应的配置文件的情况下,能够通过从待处理文件中得到的词汇的属性信息,进一步得到实体词汇之间的关联结构信息,从而提高了得到待处理文件中实体词汇之间的关联结构信息的效率,也改善了得到关联结构信息的灵活性。在实体词汇之间的关联结构信息为知识图谱的情况下,本技术实施例提供的处理方法,能够自动且灵活高效的得到任一待处理文件对应的知识图谱。
61.示例性的,本技术实施例提供的处理方法,可以通过电子设备的处理器实现。需要说明的是,上述处理器可以为特定用途集成电路(application specific integrated circuit,asic)、数字信号处理器(digital signal processor,dsp)、数字信号处理装置(digital signal processing device,dspd)、可编程逻辑装置(programmable logic device,pld)、现场可编程逻辑门阵列(field programmable gate array,fpga)、中央处理器(central processing unit,cpu)、控制器、微控制器、微处理器中的至少一种。
62.图1为本技术实施例提供的处理方法的流程示意图,如图1所示,该流程可以包括步骤101至步骤104:
63.步骤101、获取待处理文件。
64.在一种实施方式中,待处理文件,可以从电子设备的存储空间中获取;示例性的,待处理文件还可以从与电子设备建立有通信连接的其它设备获取;本技术实施例对此不作限定。
65.在一种实施方式中,待处理文件可以包括任一格式的文件;示例性的,待处理文件可以为文本文件、音频文件、视频文件、以及图像文件中的任一类型;示例性的,待处理文件可以为表格文件。
66.在一种实施方式中,待处理文件可以包括字符、数字、以及数学符号中至少一种类型的数据;示例性的,待处理文本可以包括中文词汇、英文词汇、以及拉丁文词汇等至少一种类型的词汇。
67.在一种实施方式中,待处理文件的数量可以为多个;示例性的,各个待处理文件的格式以及数据组织形式可以不同。
68.步骤102、对待处理文件包含的词汇进行处理,得到待处理文件包含的词汇的属性信息。
69.在一种实施方式中,待处理文件可以包括至少一个词汇;示例性的,在待处理文件中包括多个词汇的条件下,各个词汇的数据呈现形式可以不同,比如,第一词汇以字符串的形式呈现、第二词汇以数字的形式呈现;示例性的,在待处理文件不为文本文件的条件下,可以对待处理文件进行识别解析,从而得到待处理文件包含的词汇。
70.在一种实施方式中,属性信息,可以包括待处理文件包含的词汇的长度信息,比如,第一词汇包括五个字符,第二词汇包括三个数字等;示例性的,属性信息,还可以包括待
处理文件包含的词汇的情感类型信息,比如第四词汇为褒义词,第五词汇为贬义词等。
71.示例性的,对待处理文件包含的词汇进行处理,得到待处理文件包含的词汇的属性信息,可以是通过以下方式实现的:
72.对待处文件包含的文本进行分割得到至少一个词汇,然后对至少一个词汇进行语义识别和/或特征检测,从而得到属性信息;示例性的,对至少一个词汇进行语义识别,可以通过自然语言处理(natural language processing,nlp)实现。
73.步骤103、基于属性信息,从待处理文件包含的词汇中确定实体词汇。
74.其中,实体词汇包括实体类型的词汇。
75.在一种实施方式中,实体类型可以包括客观存在并可相互区别的词汇类型;示例性的,实体词汇可以包括对事物的共性特征抽象提取得到的词汇,比如城市、山脉、建筑、以及音乐等。
76.在一种实施方式中,实体类型可以包括多种类型;示例性的,实体类型可以包括自然界中的实体词汇类型、宇宙空间的实体词汇类型、以及计算机领域的实体词汇类型等,比如猫科动物、陨石、以及处理器;示例性的,实体类型可以包括一个类型中具有主从或依赖关系的至少两个实体词汇类型,比如交通工具、汽车、火车、轮船、以及自行车等。
77.在一种实施方式中,实体词汇可以包括待处理文件包含的词汇中的至少部分实体类型的词汇。
78.示例性的,基于属性信息,从待处理文件包含的词汇中确定实体词汇,可以通过以下方式实现:
79.确定实体类型的词汇的目标属性信息,然后将属性信息中目标属性信息对应的词汇确定为实体词汇。
80.步骤104、得到实体词汇之间的关联结构信息。
81.在一种实施方式中,实体词汇之间的关联结构信息,可以表示至少两个实体词汇之间是否具备关联关系。
82.在一种实施方式中,实体词汇之间的关联结构信息,可以通过文本数据的形式呈现。
83.示例性的,若实体词汇之间的关联结构信息通过文本数据的形式呈现,实体词汇之间的关联结构信息,可以通过第一实体词汇、第二实体词汇、以及第一实体词汇与第二实体词汇之间的关联关系的三元组体现。
84.示例性的,若实体词汇之间的关联结构信息通过文本数据的形式呈现,实体词汇之间的关联结构信息,可以通过键值对的形式体现,比如,第一实体词汇为民族,第二实体词汇为汉族,那么,第二实体词汇与第一实体词汇之间具备关联关系,并且第二实体词汇的粒度小于第一实体词汇,即第二实体词汇为第一实体词汇的具体体现方式,因此,第一实体词汇可以为键,第二实体词汇可以为值,第一实体词汇与第二实体词汇之间可以建立键值对。
85.示例性的,若实体词汇之间的关联结构信息通过文本数据的形式呈现,多个关联结构信息,可以通过键值对集合的方式体现;若将键值对集合存储在文件中,则可以得到js对象简谱(javascript object notation,json)文件。在实际应用中,json采用完全独立于编程语言的文本格式来存储和表示数据,其简洁和清晰的层次结构使得json成为理想的数
据交换语言,并且,json易于阅读和编写,同时也易于解析和生成,还能有效地提升网络传输效率。因此,若关联结构信息通过json的形式呈现,还能扩大关联结构信息的应用场景。
86.在一种实施方式中,实体词汇之间的关联结构信息,还可以通过图表数据或图形数据的形式呈现。
87.示例性的,在实体词汇之间的关联结构信息通过图表数据或图形数据的形式呈现时,实体词汇之间的关联结构信息可以包括包含结构图;示例性的,实体词汇之间的关联结构信息可以为与待处理文件对应的知识图谱。
88.在一种实施方式中,实体词汇之间的关联结构信息,可以通过以下方式得到:
89.获取待处理文件中包含的词汇之间的逻辑关系,基于上述逻辑关系,对实体词汇进行分析整合,从而得到实体词汇之间的关联结构信息。
90.通过nlp对实体词汇进行分析整合,从而得到实体词汇之间的关联结构信息。
91.由以上可知,本技术实施例提供的处理方法中,对待处理文件包含的词汇进行处理,得到待处理文件包含的词汇的属性信息,然后基于属性信息从待处理文件包含的词汇中确定实体词汇,从而得到实体词汇之间的关联结构信息。
92.如此,本技术实施例提供的处理方法,在不需要专业技术人员的手动操作、且不依赖与待处理文件对应的配置文件的情况下,能够通过从待处理文件中得到的词汇的属性信息,得到实体词汇之间的关联结构信息,从而提高了得到待处理文件中实体词汇之间的关联结构信息的效率,也改善了得到关联结构信息的灵活性,降低了对待处理文件的格式以及数据结构的要求。在实体词汇之间的关联结构信息为知识图谱的情况下,本技术实施例提供的处理方法,能够自动且灵活高效的得到任一待处理文件对应的知识图谱。
93.基于前述实施例,本技术实施例提供的处理方法中,属性信息至少包括待处理文件包含的词汇的格式属性信息。
94.在一种实施方式中,格式属性信息,至少包括字形、是否加粗、是否具备下划线、是否高亮、是否具备上标、以及是否具备下标中的至少一种信息。
95.在一种实施方式中,待处理文件中不同的词汇具备的格式属性信息可以不同,比如,第一词汇具备第一格式属性信息,而第二词汇具备第二格式属性信息。
96.相应的,基于属性信息,从待处理文件包含的词汇中确定实体词汇,可以通过图2所示的流程实现。图2为本技术实施例提供的确定实体词汇的流程示意图。如图2所示,该流程可以包括步骤1021至步骤1024:
97.步骤1021、对格式属性信息中的格式属性参数进行分析,得到分析结果。
98.其中,格式属性参数包括字号、字体、以及颜色中的至少一种。
99.在一种实施方式中,格式属性参数中的字号可以包括文本的大小。
100.在一种实施方式中,格式属性参数中的字体可以包括文本的显示风格,比如中文字体、英文字体、以及数字字体等;示例性的,字体还可以包括至少一种显示风格下字体的笔画样式,比如中文楷体、以及中文黑体等。
101.在一种实施方式中,格式属性参数中的颜色,可以包括字体的颜色,还可以包括字体的背景颜色、字体的下划线的颜色。
102.在一种实施方式中,格式属性参数还可以包括是否带有下划线、是否加粗显示、以及文本数据之间的间距等。
103.示例性的,待处理文本包含的词汇中,不同词汇的格式属性参数可以不同。
104.在一种实施方式中,分析结果可以包括对格式属性信息中的格式属性参数的统计结果,比如,待处理文件中的词汇所包含的格式属性信息的数量。
105.示例性的,对格式属性信息中的格式属性参数进行分析得到分析结果,可以是通过以下方式实现的:
106.获取待处理文件包含的词汇中每一词汇的格式属性信息,然后以遍历的方式对每一词汇的格式属性信息中的所有格式属性参数的参数值是否为默认值分析,若上述参数值不为默认值,则获取上述参数值,从而得到每一词汇的各个格式属性参数的个性化的参数值。
107.步骤1022、基于分析结果对格式属性信息进行划分,得到至少一种类型的格式属性信息。
108.在一种实施方式中,基于分析结果对格式属性信息进行划分,得到至少一种类型的格式属性信息,可以是通过以下方式实现的:
109.对分析结果中的格式属性参数的参数值进行分区间量化,得到至少一个量化区间,然后基于量化区间对格式属性信息的参数值进行区间划分,得到区间划分结果,并将区间划分结果确定为至少一种类型的格式属性信息;示例性的,位于第一量化区间范围内的格式属性信息,可以为第一格式属性信息,位于第二量化区间范围内的格式属性信息,可以为第二格式属性信息;示例性的,第一格式属性信息可以为第一类型的格式属性信息,第二格式属性信息可以为第二类型的格式属性信息。
110.步骤1023、从至少一种类型的格式属性信息中确定第一格式信息。
111.在一种实施方式中,第一格式信息,可以包括格式属性参数的至少一个参数值为指定参数值的格式属性信息;比如字号为指定字号、字体为指定字体、且颜色为指定颜色的格式属性信息,可以为第一格式信息。
112.在一种实施方式中,第一格式信息的数量可以为至少两个。
113.示例性的,第一格式信息,可以是通过以下方式确定的:
114.根据nlp的文本识别规则对至少一种类型的格式属性信息进行分析,并从中得到第一格式信息。
115.根据nlp对待处理文件包含的词汇之间的逻辑关系进行分析,得到待处理文件包含的词汇之间的依赖关系,并根据上述依赖关系对至少一种类型的格式属性信息进行分析,从而得到第一格式信息。
116.根据各类词汇在文本文件中出现时所包含的格式属性信息,从至少一种类型的格式属性确定实体词汇。
117.步骤1024、基于第一格式信息,从待处理文件包含的词汇中确定实体词汇。
118.示例性的,第一格式信息,可以为nlp领域中实体词汇所具备的格式属性信息,因此,可以基于第一格式信息,从待处理文件包含的词汇所具备的格式属性信息进行筛选,并将格式属性信息为第一格式信息的词汇确定为实体词汇。
119.表1
120.姓名张三民族汉
121.表1为本技术实施例提供的待处理文件包含的词汇的格式属性信息第一展示表。
在表1中,“姓名”以及“民族”的字体大于“张三”以及“汉”的字体,因此,可以确定“姓名”以及“民族”为具备第一格式信息的词汇;而“张三”以及“汉”的格式属性信息可以不为第一格式信息,比如可以为第二格式信息;示例性的,“姓名”以及“民族”的字体、字号、以及颜色中的至少一种格式属性参数可以是相同的,“张三”以及“汉”的字体、字号以及颜色中的至少一种格式属性参数可以是相同的;并且,由于“姓名”以及“民族”的字号,大于“张三”以及“汉”的字号,因此,可以将“姓名”以及“民族”确定为实体词汇,即键值对中的键,而将“张三”以及“汉”确定为实体词汇的值,即键值对中的值。
122.表2为本技术实施例提供的待处理文件包含的词汇的格式属性信息第二展示表,在表2中,“血压”的字体是加粗的,“脉搏”的字体是高亮的,“脉搏”的字体颜色可以不同于“130/80mmhg”以及“73次/分”的颜色,因此,可以将“血压”以及“脉搏”确定为具备第一格式信息的词汇,而可以确定“130/80mmhg”以及“73次/分”的格式属性信息不为第一格式信息。
123.表2
124.血压130/80mmhg脉搏73次/分
125.由以上可知,本技术实施例提供的处理方法中,对格式属性信息中的格式属性参数进行分析得到分析结果之后,能够基于分析结果对格式属性信息进行划分,得到至少一种类型的格式属性信息,再从至少一种类型的格式属性信息中确定第一格式信息,然后基于第一格式属性信息,从待处理文件包含的词汇中确定实体词汇。如此,本技术实施例提供的处理方法,能够从待处理文件包含的词汇的格式属性信息确定实体词汇,从而不仅能够在脱离专业技术人员的手动操作以及配置文件的情况下快速的确定实体词汇,而且能够改善实体词汇的确定精度。
126.基于前述实施例,本技术实施例提供的处理方法中,还可以包括图3所示的流程,图3为本技术实施例提供的确定实体信息词汇的流程示意图。如图3所示,该流程可以包括步骤1025至步骤1026:
127.步骤1025、从至少一种类型的格式属性信息中确定第二格式信息。
128.示例性的,第二格式信息可以是通过以下任一方式确定的:
129.将待处理文件包含的词汇中除去第一格式信息之外的格式属性信息确定为第二格式信息。
130.将待处理文件包含的词汇中除去第一格式信息之外的、与第一格式信息的格式属性参数的参数值之间的差异大于或等于第一阈值的格式属性信息,确定为第二格式信息。
131.步骤1026、基于第二格式信息,从待处理文件包含的词汇中确定实体信息词汇。
132.其中,实体信息词汇包括用于承载实体词汇的含义信息的词汇。
133.在一种实施方式中,实体词汇的含义信息,可以是实体词汇的具体化的、实例化的、较小粒度的实体含义的信息。比如表1中的“汉”是“民族”更具体化的实体含义的信息,是“民族”的实例化的、较小粒度的含义呈现;而表1中的“张三”是“姓名”的更具体化的实体含义的信息,是“姓名”的实例化的、小粒度的含义呈现;比如表2中的“130/80mmhg”以及“73次/分”分别为“血压”以及“脉搏”的实例化的、较小粒度的含义呈现。
134.示例性的,实体信息词汇可以是通过以下方式确定的:
135.将待处理文件包含的词汇中格式属性信息为第二格式信息的词汇,确定为实体信息词汇。
136.由以上可知,本技术实施例提供的处理方法中,实体信息词汇也可以通过至少一种类型的格式属性信息中的第二格式信息确定,由此,通过对待处理文件包含的词汇的格式属性信息的一次分析,就能够同时得到第一格式信息以及第二格式信息,从而不仅提高了实体信息词汇确定的灵活性,还能提高实体信息词汇确定的效率。
137.基于前述实施例,本技术实施例提供的处理方法中,属性信息至少包括待处理文件包含的词汇的文本类型信息。
138.在一种实施方式中,文本类型信息,可以包括待处理文件包含的词汇所表达的文本含义的类型,比如褒义词或贬义词、名词或动词等。
139.在一种实施方式中,文本类型信息,可以包括待处理文件包含的词汇的文本类型的信息,比如待处理文件包含的词汇是否为数字、中文字符、英文字符或英文单词类型。
140.在一种实施方式中,文本类型信息,可以包括待处理文件包含的词汇是否为特定符号,比如数学公式中的特殊符号、以及社交沟通中的表情符号等。
141.相应的,基于属性信息,从待处理文件包含的词汇中确定实体词汇,还可以通过图4所示的流程实现,图4为本技术实施例提供的确定实体词汇的另一流程示意图。如图4所示,该流程可以包括步骤401至步骤402:
142.步骤401、若第一词汇的文本类型信息为第一文本类型,确定第一词汇为实体词汇。
143.其中,第一词汇为待处理文件包含的词汇中的任一词汇。
144.相应的,若第一词汇的文本类型信息不为第一文本类型,则可以确定第一词汇不为实体词汇。
145.在一种实施方式中,第一文本类型可以是基于通用的词汇处理规则确定的;示例性的,第一文本类型还可以是通过nlp的文本处理规则确定的。
146.在一种实施方式中,第一文本类型可以为概念词汇的类型,其中,概念词汇可以是对事物的共性特征进行抽象总结得到的词汇,比如医疗领域的血压以及脉搏,比如计算机领域的处理器以及存储器,比如自然科学领域的食物链以及猫科动物等。
147.在一种实施方式中,第一文本类型可以为专业名词,比如外科手术以及运动器械。
148.示例性的,确定第一词汇为实体词汇,可以是通过以下方式实现的:
149.基于第一文本类型对待处理文件包含的词汇的文本类型信息进行筛选,将待处理文件包含的词汇中所有文本类型信息为第一文本类型的词汇确定为实体词汇。
150.步骤402、若第二词汇的文本类型信息为第二文本类型,确定第二词汇为实体信息词汇。
151.其中,第二词汇为待处理文件包含的词汇中的任一词汇。
152.相应的,若第二词汇的文本类型信息不为第二文本类型,则可以确定第二词汇不为实体信息类型。
153.示例性的,若第二词汇的文本类型信息不为第二文本类型,且第二词汇的文本信息类型为第一文本类型,则可以确定第二词汇为实体词汇。
154.示例性的,本技术实施例提供的处理方法中,确定待处理文件包含的词汇是否为实体词汇或实体信息词汇的方式,可以结合实现,比如,若待处理文件包含的词汇的格式属性信息为第一格式信息、且文本信息类型为第一文本类型,则可以确定该词汇为实体词汇。
155.表3
[0156][0157]
表3为本技术实施例提供的待处理文件包含的词汇的文本信息类型的汇总表,在表3中,“婚姻状况”可以用于表示婚姻状态的概念词汇,因此,可以确定“婚姻状况”为实体词汇,而“未婚”、“已婚”、“离婚”、“再婚”、以及“丧偶”虽然也可以为概念词汇,但这些词汇同时可以为婚姻状况中的一种具体的状况,在存在“婚姻状况”的情况下,“未婚”、“已婚”、“离婚”、“再婚”、以及“丧偶”可以为均为“婚姻状况”的更具体的、更细粒度的信息展示词汇,因此可以将“未婚”、“已婚”、“离婚”、“再婚”、以及“丧偶”确定为“婚姻状况”的第二文本类型的词汇,即这些词汇可以为“婚姻状况”的实体信息词汇;示例性的,表3中的“√/
★”
可以不为第一文本类型,示例性的,可以将不为第一文本类型的词汇确定为第二文本类型,即将“√/
★”
确定为实体信息词汇。
[0158]
示例性的,在确定待处理文件中的第一词汇为实体词汇的条件下,若待处理文件中存在与第一词汇关联、且比第一词汇的抽象程度更高的第二词汇时,第一词汇可以改变为第二词汇的实体信息词汇;示例性的,若待处理文件中存在与第一词汇关联、且比第一词汇的抽象程度更低、粒度更细的第三词汇,则第一词汇可以为第三词汇的实体词汇,而第三词汇可以为第一词汇的实体信息词汇,此时,第一词汇可以既为第二词汇的实体信息词汇,又可以为第三词汇的实体词汇。
[0159]
由以上可知,本技术实施例提供的处理方法中,在属性信息包括待处理文件包含的词汇的文本类型信息的情况下,能够基于待处理文件包含的词汇中任一词汇的文本信息类型,确定任一词汇为实体词汇还是实体信息词汇,从而能够根据待处理文件包含的词汇的文本类型信息确定词汇是否为实体词汇,如此不仅能够改善确定实体词汇的灵活性,还能够改善实体词汇确定的精准度。
[0160]
基于前述实施例,本技术实施例提供的处理方法中,得到实体词汇之间的关联结构信息,还可以通过图5所示的流程实现,图5为本技术实施例提供的得到关联结构信息的流程示意图,如图5所示,该流程可以包括步骤1041至步骤1042:
[0161]
步骤1041、确定实体词汇与实体信息词汇之间的关联关系信息。
[0162]
在一种实施方式中,关联关系信息,可以包括实体词汇与实体信息词汇之间是否具备关联关系,比如在表1中,“姓名”与“汉”之间并不具备关联关系,而“民族”与“汉”之间具备关联关系。
[0163]
在一种实施方式中,关联关系信息可以是根据通用的词汇或语言逻辑关系,对实体词汇以及实体信息词汇进行关联得到的。
[0164]
在一种实施方式中,可以对待处理文件中各个词汇之间的逻辑关系或相互依赖关系进行分析得到分析结果,然后根据上述分析结果确定实体词汇与实体信息词汇之间的关联关系信息。
[0165]
在一种实施方式中,关联关系信息,可以为实体词汇与实体信息词汇之间的一对
一的关联关系,比如,第一实体词汇与第一实体信息词汇关联;示例性的,关联关系信息,还可以为实体词汇与实体信息词汇之间的一对多的关联关系,比如第一实体词汇分别与第二实体信息词汇、第三实体信息词汇以及第四实体信息词汇关联,例如表3中的“婚姻状态”分别与“未婚”、“已婚”、“离婚”、“再婚”、以及“丧偶”关联。
[0166]
步骤1042、基于关联关系信息,得到关联结构信息。
[0167]
在一种实施方式中,关联结构信息可以包括相互独立的多个关联的结构信息,比如表1中的“民族”与“汉”之间相互关联、以及“姓名”与“张三”之间的相互关联,但仅就表1中的信息而言,以上两种关联关系可以是相互独立的。
[0168]
在一种实施方式中,关联结构信息,可以是从关联关系信息的多个信息中提取到的、相互关联的结构信息;示例性的,此时,关联结构信息可以以本体图或图网络的形式呈现。
[0169]
在一种实施方式中,关联结构信息,可以仅包含实体词汇;示例性的,关联结构信可以包含实体词汇以及实体信息词汇。
[0170]
由以上可知,本技术实施例提供的处理方法中,在确定实体词汇与实体信息词汇之前的关联关系信息之后,能够基于关联关系信息,得到关联结构信息,也就是说,关联结构信息中包含有待处理文件中实体词汇、与实体信息词汇之间的客观关联关系,从而能够进一步改善关联结构信息的客观性和精准度。
[0171]
基于前述实施例,本技术实施例提供的处理方法中,确定实体词汇与实体信息词汇之间的关联关系信息,可以通过图6所示的流程图实现,图6为本技术实施例提供的确定关联关系信息的流程示意图,如图6所示,该流程可以包括步骤10411至步骤10412:
[0172]
10411、对实体词汇以及实体信息词汇进行分析,得到第一坐标信息以及第二坐标信息。
[0173]
其中,第一坐标信息包括实体词汇的坐标信息,第二坐标信息包括实体信息词汇的坐标信息。
[0174]
在一种实施方式中,第一坐标信息以及第二坐标信息,可以是相对于待处理文件的首个词汇或最后一个词汇的位置信息信息;示例性的,第一坐标信息以及第二坐标信息,还可以是相对于待处理文件中的指定实体词汇的位置信息。
[0175]
在一种实施方式中,可以基于待处理文件中数据的组织形式,对实体词汇以及实体信息词汇的位置信息进行分析,从而得到第一坐标信息以及第二坐标信息。
[0176]
在一种实施方式中,在待处理文件中的数据以表格的形式组织的情况下,第一坐标信息以及第二坐标信息,可以包括相对于第一行首个表格单元的相对位置信息,还可以包括相对于任何一行首个表格单元的相对位置信息;示例性的,此时的第一坐标信息以及第二坐标信息,可以通过实体词汇以及实体信息词汇所占据的表格单元的数量体现。
[0177]
表4为本技术实施例提供的包含多个实体词汇以及实体信息词汇的待处理文件。在表4中,通过格式属性信息和/或文本类型信息可以确定粗体显示的“身体状况”、“饮食”、以及“睡眠”为实体词汇,而“食欲较前增加”、“食欲正常”、“食欲差”、“不能饮食”、“睡眠较前增多”、“睡眠正常”、“睡眠欠佳”、“睡眠差”、以及与“食欲差”和“睡眠正常”相邻的“√”可以为实体信息词汇。
[0178]
表4
[0179][0180]
通过对待处理文件中词汇的组织形式进行分析,表4中各个词汇的位置信息可以通过表5体现,在表5中,键值对可以为前述实施例中提供的实体词汇与实体信息词汇之间的关联关系信息,其中,实体词汇为键值对的键,实体信息词汇为键值对的值;键的坐标可以为实体词汇的坐标。
[0181]
表5
[0182]
键值对键的坐标“身体状况”:“饮食”[[1,4],1]“饮食”:“食欲较前增加”[[1,4],2]“饮食”:“食欲正常”[[1,4],2]“饮食”:“食欲差”[[1,4],2]“饮食”:“不能饮食”[[1,4],2]“食欲较前增加”:
“”
[1,3]“食欲正常”:
“”
[2,3]“食欲差”:“√”[3,3]“不能饮食”:
“”
[4,3]“睡眠”:
““
睡眠较前增多”[[1,4],5]“睡眠”:“睡眠正常”[[1,4],5]“睡眠”:“睡眠欠佳”[[1,4],5]“睡眠”:“睡眠差”[[1,4],5]“睡眠较前增多”:
“”
[1,6]“睡眠正常”:“√”[1,7]
[0183]
示例性的,表5中键值对中键或者值的坐标可以通过[n1,n2]的形式体现,其中,n1为横向覆盖的表格单元的数量或编号;n2为纵向覆盖的表格单元的数量或编号;n1为大于或等于0的整数,n2小于或等于max_n的正整数,max_n为横向或纵向的最大表格单元数量。
[0184]
在表5中,键值对“身体状况”:“饮食”中键即“身体状况”的坐标为[[1,4],1],可以表示表5中“身体状况”的第一坐标信息为横向的第一至第四个表格单元、以及纵向的第一个表格单元;“饮食”:“食欲较前增加”中键的坐标为[[1,4],2],可以表示表5中“饮食”的第一坐标信息为横向的第一至第四个表格单元、以及横向的第二个表格单元;键值对“饮食”:“食欲正常”、“饮食”:“食欲正常”、“饮食”:“食欲差”以及“饮食”:“不能饮食”中键的坐标均为“饮食”的坐标,与“饮食”:“食欲较前增加”中键的坐标相同。
[0185]
在表5中,键值对“食欲较前增加”:
“”
、“食欲正常”:
“”
、“食欲差”:“√”以及“不能饮食”:
“”
中的键分别为“食欲较前增加”、“食欲正常”、“食欲差”以及“不能饮食”,它们的坐标分别为第一行的第三个表格、第二行的第三个表格、第三行的第三个表格以及第四行的第三个表格;在表5中,键值对“睡眠”:
““
睡眠较前增多”、“睡眠”:“睡眠正常”、“睡眠”:“睡眠欠佳”以及“睡眠”:“睡眠差”中键均为“睡眠”,它的坐标为[[1,4],5],表示“睡眠”占据第
一行至第四行的第五个表格;键值对“睡眠较前增多”:
“”
中键的坐标为[1,6],即第一行的第六列的表格单元;“睡眠正常”:“√”中键的坐标为[1,7],即第一行的第7列的表格单元。
[0186]
步骤10412、基于第一坐标信息以及第二坐标信息,关联实体词汇以及实体信息词汇,确定关联关系信息。
[0187]
示例性的,关联关系信息,可以通过以下方式确定:
[0188]
若第一坐标信息与第二坐标信息相邻,则可以关联第一坐标信息对应的实体词汇,以及第二坐标信息对应的实体信息词汇,从而确定关联关系信息;相应的,若第一坐标信息与第二坐标信息不相邻,则可以确定第一坐标信息对应的实体词汇、与第二坐标信息对应的实体信息词汇之间不具备关联关系。
[0189]
由以上可知,本技术实施例提供的处理方法中,在实体词汇与实体信息词汇之前的关联关系信息,是根据实体词汇的第一坐标信息以及实体信息词汇的第二坐标信息确定的,因此,通过这种方式确定的关联关系信息,能够与待处理文件中词汇之间的依赖关系更一致,从而进一步改善关联关系信息的精准度。
[0190]
基于前述实施例,本技术实施例提供的处理方法中,基于第一坐标信息以及第二坐标信息,关联实体词汇以及实体信息词汇,确定关联关系信息,可以通过步骤a1至步骤a3实现:
[0191]
步骤a1、从第一坐标信息中获取目标实体词汇的坐标信息。
[0192]
在一种实施方式中,目标实体词汇可以是实体词汇中的任一词汇;示例性的,目标实体词汇可以为待处理文件中的首个实体词汇、或者待处理文件中位于指定位置的实体词汇,本技术实施例对此不作限定。
[0193]
在一种实施方式中,可以首先确定目标实体词汇,再从第一坐标信息中确定目标实体词汇的坐标信息。
[0194]
在一种实施方式中,可以首先从第一坐标信息中锁定目标坐标信息,并将目标坐标信息关联的实体词汇确定为目标实体词汇,那么,目标实体词汇的坐标信息即为目标坐标信息。
[0195]
步骤a2、基于目标实体词汇的坐标信息以及第二坐标信息,确定目标实体信息词汇。
[0196]
在一种实施方式中,可以基于目标实体词汇的坐标信息,对第二坐标信息中的坐标信息进行筛选,得到与目标实体词汇的坐标信息之间的距离小于或等于第二阈值的坐标信息,并将该坐标信息确定为目标实体词汇信息。
[0197]
在一种实施方式中,目标实体信息词汇可以包括与目标实体词汇相邻的实体信息词汇;示例性的,目标实体信息词汇的坐标信息,可以在至少一个维度,与目标实体词汇相邻,比如表4中的“身体状况”与“饮食”的横向坐标是相邻的。
[0198]
在一种实施方式中,目标实体信息词汇的坐标信息与目标实体词汇的坐标信息,可以在一个维度上是重叠的,比如表4中的“身体状况”与“睡眠”在纵向坐标上是相同的,即它们均占据了表4的第一行至第四行。
[0199]
步骤a3、关联目标实体词汇以及目标实体信息词汇,确定关联关系信息。
[0200]
在一种实施方式中,关联关系信息,可以包括抽象词汇与具体词汇之间的关联关系信息,比如表4中的“身体状况”与“饮食”之间的抽象词汇与具体词汇之间的关联信息。
[0201]
在一种实施方式中,可以关联目标实体词汇以及目标实体信息词汇,从而确定目标实体词汇与目标实体信息词汇之间具备关联关系,而将实体词汇中除去目标实体词汇之外的其它实体词汇、以及实体信息词汇中除去目标实体信息词汇之外的其它实体信息词汇,确定为待确定关联关系的词汇,然后循环执行步骤a1至步骤a3,以确定待处理文件包含的词汇中的每一实体词汇的关联关系信息。
[0202]
由以上可知,本技术实施例提供的处理方法中,从第一坐标信息中获取目标实体词汇的坐标信息之后,能够基于目标实体词汇的坐标信息以及第二坐标信息确定目标实体信息词汇,然后关联目标实体词汇与目标实体信息词汇,从而确定关联关系信息。由此,上述关联关系信息的确定过程中,以目标实体词汇为关联关系的中心,充分参考了待处理文件中目标实体信息词汇与目标实体词汇之间的位置依赖关系,从而能够进一步改善关联关系信息与待处理文件所包含的词汇之间的实际的依赖关系的一致性。
[0203]
基于前述实施例,本技术实施例提供的处理方法中,基于关联关系信息,得到关联结构信息,可以通过步骤b1至步骤b2实现:
[0204]
步骤b1、确定第一关联信息与第二关联信息之间的匹配信息。
[0205]
其中,第一关联关系以及第二关联关系为关联关系信息中的任一关联关系信息。
[0206]
在一种实施方式中,第一关联信息可以为关联关系信息中的任一信息;第二关联信息,可以是基于第一关联信息中的实体信息词汇或实体词汇的坐标信息,从关联关系信息中确定的;示例性的,在第一关联信息确定之后,可以得到第一关联信息的实体信息词汇或实体词汇的坐标信息,然后基于该实体信息词汇或实体词汇的坐标信息,从待处理文件包含的实体信息词汇或实体词汇中确定与其之间的距离小于或等于第三阈值的实体信息词汇或实体词汇,并将该实体信息词汇或实体词汇所在的关联关系信息确定为第二关联信息。
[0207]
在一种实施方式中,第一关联信息与第二关联信息之间的匹配信息,可以包括第一关联信息与第二关联信息完全匹配、部分匹配或完全不匹配中的任一。
[0208]
示例性的,第一关联信息与第二关联信息之间的匹配信息,可以通过字符匹配或语义匹配的方式确定。其中,字符匹配,可以包括将第一关联信息中出现的字符、与第二关联信息中出现的字符逐一匹配,在上述匹配过程中,若出现一个字符不匹配,则可以确定第一关联信息与第二关联信息不匹配;语义匹配,可以包括将第一关联信息表征的第一语义、与第二关联信息表征的第二语义进行匹配,若二者匹配,则可以确定第一关联信息与第二关联信息匹配,若二者不匹配,则可以确定第一关联信息与第二关联信息不匹配。
[0209]
步骤b2、基于匹配信息,得到关联结构信息。
[0210]
示例性的,关联结构信息可以通过以下方式得到:
[0211]
若匹配信息表征第一关联信息与第二关联信息匹配,则关联第一关联信息与第二关联信息,得到关联结构信息。
[0212]
若匹配信息表征第一关联信息与第二关联信息部分匹配,则将第一关联信息与第二关联信息中部分匹配的信息部分,得到关联结构信息。
[0213]
由以上可知,本技术实施例提供的处理方法中,能够根据关联关系信息中任意两个关联信息之间的匹配信息,得到关联结构信息,因此,关联结构信息中不仅包含有待处理文件包含的词汇之间的关联信息,而且还包括多种关联关系信息之间的关联关系,从而使
得关联结构信息能够从词汇级别、词汇之间的关联级别两个维度,更丰富更客观的体现待处理文件中词汇之间的关联关系。
[0214]
基于前述实施例,本技术实施例提供的处理方法中,基于匹配信息,得到关联结构信息,可以通过以下方式实现:
[0215]
若满足指定条件,关联第二关联信息中的实体信息词汇与第一关联信息中的实体词汇,得到关联结构信息。
[0216]
其中,指定条件,包括匹配信息表示第二关联信息中的实体信息词汇与第一关联信息中的实体词汇匹配。
[0217]
相应的,若不满足指定条件,则可以不关联第二关联信息中的实体信息词汇与第一关联信息中的实体词汇。
[0218]
在一种实施方式中,第二关联信息中的实体信息词汇与第一关联信息中的实体词汇匹配,可以包括字符匹配和/或语义匹配。
[0219]
示例性的,字符匹配可以包括按照每个字符的出现顺序,对第一关联信息中的实体信息词汇中包含的字符、以及第二关联信息中实体词汇中包含的字符进行一一匹配,若在上述匹配过程中二者之间出现一个字符不匹配,则可以确定第二关联信息中的实体信息词汇、与第一关联信息中的实体词汇不匹配。
[0220]
示例性的,语义匹配,可以包括第一关联信息中的实体词汇所表达的第一语义、与第二关联信息中的实体信息词汇所表达的第二语义之间的匹配关系;示例性的,若第一关联信息中的实体词汇为“身高体重状况”、与第二关联信息中的实体信息词汇为“身高体重信息”,则可以确定第一语义与第二语义是匹配的,即第一关联信息中的实体词汇、与第二关联信息中的实体信息词汇是匹配的。
[0221]
以表5为例,从表4中提取得到的多个关联关系信息,通过键值对的形式体现在表5中,从表5中可以看到,第一键值对“身体状况”:“饮食”的值即实体信息词汇“饮食”、与第二键值对即“饮食”:“食欲较前增加”、第三键值对即“饮食”:“食欲正常”、第四键值对即“饮食”:“食欲差”以及第五键值对“饮食”:“不能饮食”中的键即实体词汇匹配,如此,可以建立第一键值对中的值、与第二键值对、第三键值对、第四键值对以及第五键值对的键之间的关联关系。然后,对表5中的其它关联关系信息重复相同的步骤,可以建立表4所包含的词汇之间的关联结构信息。
[0222]
图7为本公开实施例提供的关联结构信息的结构示意图。
[0223]
图7中的关联结构信息以纵向的形式展示了表4中的实体词汇之间的关联关系,其中,身体状况701为表4中所承载的关联关系的根节点,饮食702以及睡眠703为根节点的两个子节点。
[0224]
图8为本公开实施例提供的关联结构信息的另一结构示意图。
[0225]
图8中的关联结构信息以横向的形式展示了表4中的实体词汇之间、以及实体词汇与实体信息词汇之间的关联关系。其中,身体状况701为表4中所承载的关联关系的根节点,饮食702以及睡眠703为根节点的两个子节点,食欲差704为饮食702的子节点,睡眠正常705为睡眠703的子节点。
[0226]
结合表4、表5以及图7至图8可以看出,图7至图8以更直观形象的方式展示了表4以及表5中的复杂数据关系。
[0227]
由以上可知,本技术实施例提供的处理方法,在第一关联信息中的实体词汇与第二关联信息中的实体信息词汇匹配的条件下,可以关联第二关联信息中的实体信息词汇与第一关联信息中的实体词汇,得到关联结构信息。如此,在关联第二关联信息中的实体信息词汇与第一关联信息中的实体词汇之后,还可以将第二关联信息中的实体信息词汇作为新的实体词汇,对关联结构信息进行扩展和丰富,从而能够进一步提高关联结构信息的建立效率。
[0228]
图9为本技术实施例提供的构建知识图谱的流程示意图。如图9所示,该流程可以包括:
[0229]
步骤901、开始。
[0230]
示例性的,通过步骤901,电子设备可以确定待处理文件。
[0231]
步骤902、获取表格文件,得到表格文件中的表单数量。
[0232]
示例性的,电子设备可以获取表格文件,并得到表格文件中的表单数量。
[0233]
示例性的,表格文件可以为前述实施例中的待处理文件;表格文件可以包括表1至表4所展示的文件。
[0234]
示例性的,表格文件找中的表单数量,可以包括表格文件中填充有词汇的表格单元的数量。
[0235]
示例性的,电子设备可以对表格文件的数据结构、数据组织形式进行检测识别,得到识别结果,并根据识别结果对表格文件中的表格单元进行统计,从而得到表格单元的数量。
[0236]
步骤903、获取表格文件的横向表单数量以及纵向表单数量。
[0237]
示例性的,电子设备可以获取表格文件的横向表单数量以及纵向表单数量。
[0238]
示例性的,横向表单数量,可以包括表格文件各行所包含的表格单元数量中的最大值;纵向表单数量,可以包括表格文件各列所包含的表格单元数量中的最大值。
[0239]
示例性的,电子设备可以基于表格文件所包含的表格单元的位置信息,确定横向表单数量以及纵向表单数量。
[0240]
步骤904、抽取键值对,并记录每一个键的坐标。
[0241]
示例性的,电子设备可以抽取键值对,并记录每一个键的坐标。
[0242]
示例性的,上述键值对可以为前述实施例中的关联关系信息;示例性的,键值对中的键可以包括前述实施例中的实体词汇、值可以包括实体信息词汇。
[0243]
示例性的,键的坐标可以为前述实施例中的第一坐标信息;示例性的,键的坐标可以通过键占据的表格单元的数量和/或编号的形式体现。
[0244]
示例性的,键值对可以通过前述实施例提供的基于格式属性信息和/或文本类型信息,对表格文件中的词汇进行分析而确定。
[0245]
步骤905、确定键的结构信息,构建知识图谱。
[0246]
示例性的,电子设备可以确定键的结构信息,构建知识图谱。
[0247]
示例性的,键的结构信息,可以包括实体词汇之间的关联结构信息。
[0248]
示例性的,知识图谱中可以包括多个和/或多种实体词汇之间的关联结构信息。
[0249]
步骤906、判断是否遍历所有键。
[0250]
示例性的,电子设备可以判断是否遍历所有键,若是,则可以执行步骤907;若否则
可以执行步骤905。
[0251]
步骤907、结束。
[0252]
示例性的,电子设备在确定所有的键均被遍历之后,可以得到最终的知识图谱。
[0253]
由以上可知,本技术实施例提供的处理方法,在不依赖于与待处理文件的表头、或待处理文件的配置信息,不需要事先建立本体的情况下,通过表格单元所承载的词汇以及单元格的坐标范围,自动的从复杂表格文件中构建知识图谱。从而将传统的表格存储数据方式转变为知识图谱存储方式。
[0254]
基于前述实施例,本技术实施例还提供了一种处理装置10,图10为本技术实施例提供的处理装置10的结构示意图,如图10所示,该处理装置10可以包括获取模块1001以及处理模块1002,其中:
[0255]
获取模块1001,用于获取模块,用于获取待处理文件;
[0256]
处理模块1002,用于对待处理文件包含的词汇进行处理,得到待处理文件包含的词汇的属性信息;基于属性信息,从待处理文件包含的词汇中确定实体词汇;其中,实体词汇包括实体类型的词汇;得到实体词汇之间的关联结构信息。
[0257]
在一些实施例中,属性信息至少包括待处理文件包含的词汇的格式属性信息;
[0258]
处理模块1002,用于对格式属性信息中的格式属性参数进行分析,得到分析结果;其中,格式属性参数包括字号、字体、以及颜色中的至少一种;基于分析结果对格式属性信息进行划分,得到至少一种类型的格式属性信息从至少一种类型的格式属性信息中确定第一格式信息;基于第一格式信息,从待处理文件包含的词汇中确定实体词汇。
[0259]
在一些实施例中,处理模块1002,用于从至少一种类型的格式属性信息中确定第二格式信息;
[0260]
基于第二格式信息,从待处理文件包含的词汇中确定实体信息词汇;其中,实体信息词汇包括用于承载实体词汇的含义信息的词汇。
[0261]
在一些实施例中,处理模块1002,用于确定实体词汇与实体信息词汇之间的关联关系信息;
[0262]
基于关联关系信息,得到关联结构信息。
[0263]
在一些实施例中,处理模块1002,用于对实体词汇以及实体信息词汇进行分析,得到第一坐标信息以及第二坐标信息;其中,第一坐标信息包括实体词汇的坐标信息;第二坐标信息包括实体信息词汇的坐标信息;基于第一坐标信息以及第二坐标信息,关联实体词汇以及实体信息词汇,确定关联关系信息。
[0264]
在一些实施例中,获取模块1001,用于从第一坐标信息中获取目标实体词汇的坐标信息;
[0265]
处理模块1002,用于基于目标实体词汇的坐标信息以及第二坐标信息,确定目标实体信息词汇;关联目标实体词汇以及目标实体信息词汇,确定关联关系信息。
[0266]
处理模块1002,用于确定第一关联信息与第二关联信息之间的匹配信息;其中,第一关联信息以及第二关联信息为关联关系信息中的任一关联关系信息;基于匹配信息,得到关联结构信息。
[0267]
在一些实施例中,处理模块1002,用于若满足指定条件,关联第二关联信息中的实体信息词汇与第一关联信息中的实体词汇,得到关联结构信息;其中,指定条件,包括匹配
信息表示第二关联信息中的实体信息词汇与第一关联信息中的实体词汇匹配。
[0268]
在一些实施例中,属性信息至少包括待处理文件包含的词汇的文本类型信息;处理模块1002,用于若第一词汇的文本类型信息为第一文本类型,确定第一词汇为实体词汇;其中,第一词汇为待处理文件包含的词汇中的任一词汇;若第二词汇的文本类型信息为第二文本类型,确定第二词汇为实体信息词汇;其中,第二词汇为待处理文件包含的词汇中的任一词汇。
[0269]
基于前述实施例,本技术实施例还提供了一种电子设备,包括处理器和存储器,其中,存储器中存储有计算机程序,该计算机程序被处理器执行时,能够实现如前任一实施例所述的处理方法。
[0270]
上述处理器可以为asic、dsp、dspd、pld、fpga、cpu、控制器、微控制器、微处理器中的至少一种。
[0271]
上述存储器,可以是易失性存储器(volatile memory),例如随机存取存储器(random access memory,ram);或者非易失性存储器(non-volatile memory),例如只读存储器(read-only memory,rom),flash memory,硬盘驱动器(hard disk drive,hdd)或固态硬盘(solid state disk,ssd);或者上述种类的存储器的组合,并向处理器提供指令和数据。
[0272]
需要说明的是,获取模块1001以及处理模块1002可以通过电子设备的处理器实现。
[0273]
基于前述实施例,本技术实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,该计算机程序被电子设备的处理器执行时,能够实现如前任一实施例所述的处理方法。
[0274]
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
[0275]
本技术所提供的各方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
[0276]
本技术所提供的各产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
[0277]
本技术所提供的各方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
[0278]
需要说明的是,上述计算机可读存储介质可以是只读存储器(read only memory,rom)、可编程只读存储器(programmable read-only memory,prom)、可擦除可编程只读存储器(erasable programmable read-only memory,eprom)、电可擦除可编程只读存储器(electrically erasable programmable read-only memory,eeprom)、磁性随机存取存储器(ferromagnetic random access memory,fram)、快闪存储器(flash memory)、磁表面存储器、光盘、或只读光盘(compact disc read-only memory,cd-rom)等存储器;也可以是包括上述存储器之一或任意组合的各种电子设备,如移动电话、计算机、平板设备、个人数字助理等。
[0279]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而
且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0280]
上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
[0281]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件节点的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本技术各个实施例所描述的方法。
[0282]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的发热模块以产生一个机器,使得通过计算机或其他可编程数据处理设备的发热模块执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0283]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0284]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0285]
以上仅为本技术的优选实施例,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利保护范围内。