一种结构化文本数据提取方法、装置及计算机设备与流程

文档序号:33786534发布日期:2023-04-19 03:30阅读:65来源:国知局
一种结构化文本数据提取方法、装置及计算机设备与流程

本技术属于计算机,具体涉及一种结构化文本数据提取方法、装置及计算机设备。


背景技术:

1、相关技术中对于文本中数据的提取的整体处理流程主要包括:标注阶段、模型训练阶段和内容提取阶段。其中,在标注阶段可以通过人工标注等方式形成用于进行训练的训练样本,以便按照标注的意图生成对应的提取模型。

2、标注阶段又可以分为实体定义、关系定义和文本标注,可见,定义过程比较复杂,不利于后续数据分析人员从文本的提取内容中得到需要的数据。


技术实现思路

1、有鉴于此,本技术提供一种结构化文本数据提取方法、装置及计算机设备具体地,本技术是通过如下技术方案实现的:

2、第一方面,提供了一种结构化文本数据提取方法,所述方法包括:

3、获取预先定义的以第一表结构存储的实体,所述第一表结构包括属于同一实体的若干属性;

4、将所述实体从所述第一表结构转换为第一图结构;所述第一图结构包括与所述若干属性中各属性对应的节点和基于各属性之间的关联关系确定出的节点之间的连接关系;

5、输出所述第一图结构,以基于所述第一图结构对文本样本进行标注;其中,标注后的所述文本样本用于训练提取模型,所述提取模型用于从待提取文本中提取结构化文本数据。

6、可选的,所述从待提取文本中提取结构化文本,包括:

7、通过完成训练的提取模型从待提取文本中提取以第二图结构存储的结构化文本数据;

8、将所述结构化文本数据从所述第二图结构转换为第二表结构,得到以所述第二表结构存储的结构化文本数据。

9、可选的,所述第一表结构存储的所述若干属性中包括预设的主属性和若干从属性,所述主属性与各所述从属性之间的存在关联关系。

10、可选的,所述将所述实体从所述第一表结构转换为第一图结构,包括:

11、将所述第一表结构中所述实体的各属性转换为所述第一图结构中与各属性对应的节点;其中,所述节点的名称为对应属性的名称;

12、针对各所述从属性,响应于所述主属性与所述从属性之间具备的关联关系,确定所述主属性对应的第一节点与所述从属性对应的第二节点之间具备连接关系,并根据预设的名称生成规则,生成所述连接关系的名称。

13、可选的,所述根据预设的名称生成规则,生成所述连接关系的名称,包括:

14、根据所述从属性的名称,生成所述连接关系的名称;

15、或者,

16、根据所述主属性的名称与从属性的名称的组合,生成所述连接关系的名称。

17、可选的,所述第二图结构中各节点包括对应属性的属性值:所述第二表结构包括与所述若干属性分别对应的字段;所述将所述结构化文本数据从所述第二图结构转换为第二表结构,包括:

18、获取所述第二图结构中与所述主属性对应的第一节点的第一属性值;

19、将所述第一属性值存储至所述第二表结构中与所述主属性对应的第一字段;查询所述第二图结构中,与所述第一节点具有连接关系的第二节点的第二属性值;其中,所述第二属性值为与所述第二节点对应的从属性的属性值;

20、将所述第二属性值存储至所述第二表结构中与所述第二节点对应的从属性对应的第二字段。

21、可选的,所述基于所述第一图结构对文本样本进行标注,包括:

22、响应于用户针对文本样本中的若干文本内容标注对应的若干目标属性的名称,查询所述第一图结构中与所述若干目标属性的名称对应的目标节点;

23、在查询到具有连接关系的目标节点的情形下,将所述具有连接关系的目标节点之间的连接关系的名称标注为对应的目标属性之间的连接关系。

24、可选的,所述以第二表结构存储的结构化文本数据为二维表,所述二维表包括与所述实体的若干属性中各属性对应的信息列,所述二维表的主键信息列为与所述实体的主属性对应的信息列。

25、第二方面,提供了另一种结构化文本数据提取方法,所述方法还包括:

26、获取待提取文本;

27、基于提取模型从待提取文本中提取以第二图结构存储的结构化文本数据,所述第二图结构与预先定义的以第一表结构存储的实体转换得到的第一图结构相对应;其中,所述第一表结构包括属于同一实体的若干属性;所述第一图结构包括与所述若干属性中各属性对应的节点和基于各属性之间的关联关系确定出的各节点之间的连接关系;所述第二图结构包括从所述待提取文本中提取到的与所述第一图结构中各节点对应属性的属性值;用于训练所述提取模型的文本样本预先基于所述第一图结构进行标注;

28、将所述结构化文本数据从所述第二图结构转换为第二表结构,得到以所述第二表结构存储的结构化文本数据。

29、第三方面,提供了一种结构化文本数据提取装置,所述装置包括:

30、定义模块,用于获取预先定义的以第一表结构存储的实体,所述第一表结构包括属于同一实体的若干属性;

31、转换模块,用于将所述实体从所述第一表结构转换为第一图结构;所述第一图结构包括与所述若干属性中各属性对应的节点和基于各属性之间的关联关系确定出的节点之间的连接关系;

32、提取模块,用于输出所述第一图结构,以基于所述第一图结构对文本样本进行标注;其中,标注后的所述文本样本用于训练提取模型,所述提取模型用于从待提取文本中提取结构化文本数据。

33、可选的,所述提取模块用于:

34、通过完成训练的提取模型从待提取文本中提取以第二图结构存储的结构化文本数据;

35、将所述结构化文本数据从所述第二图结构转换为第二表结构,得到以所述第二表结构存储的结构化文本数据。

36、可选的,所述第一表结构存储的所述若干属性中包括预设的主属性和若干从属性,所述主属性与各所述从属性之间的存在关联关系。

37、可选的,所述转换模块用于:

38、将所述第一表结构中所述实体的各属性转换为所述第一图结构中与各属性对应的节点;其中,所述节点的名称为对应属性的名称;

39、针对各所述从属性,响应于所述主属性与所述从属性之间具备的关联关系,确定所述主属性对应的第一节点与所述从属性对应的第二节点之间具备连接关系,并根据预设的名称生成规则,生成所述连接关系的名称。

40、可选的,所述转换模块用于:

41、根据所述从属性的名称,生成所述连接关系的名称;

42、或者,

43、根据所述主属性的名称与从属性的名称的组合,生成所述连接关系的名称。

44、可选的,所述第二图结构中各节点包括对应属性的属性值:所述第二表结构包括与所述若干属性分别对应的字段;所述提取模块用于:

45、获取所述第二图结构中与所述主属性对应的第一节点的第一属性值;

46、将所述第一属性值存储至所述第二表结构中与所述主属性对应的第一字段;查询所述第二图结构中,与所述第一节点具有连接关系的第二节点的第二属性值;其中,所述第二属性值为与所述第二节点对应的从属性的属性值;

47、将所述第二属性值存储至所述第二表结构中与所述第二节点对应的从属性对应的第二字段。

48、可选的,所述提取模块用于:

49、响应于用户针对文本样本中的若干文本内容标注对应的若干目标属性的名称,查询所述第一图结构中与所述若干目标属性的名称对应的目标节点;

50、在查询到具有连接关系的目标节点的情形下,将所述具有连接关系的目标节点之间的连接关系的名称标注为对应的目标属性之间的连接关系。

51、可选的,所述以第二表结构存储的结构化文本数据为二维表,所述二维表包括与所述实体的若干属性中各属性对应的信息列,所述二维表的主键信息列为与所述实体的主属性对应的信息列。

52、第四方面,提供了另一种结构化文本数据提取装置,所述装置包括:

53、文本输入模块,用于获取待提取文本;

54、文本提取模块,用于基于提取模型从待提取文本中提取以第二图结构存储的结构化文本数据,所述第二图结构与预先定义的以第一表结构存储的实体转换得到的第一图结构相对应;其中,所述第一表结构包括属于同一实体的若干属性;所述第一图结构包括与所述若干属性中各属性对应的节点和基于各属性之间的关联关系确定出的各节点之间的连接关系;所述第二图结构包括从所述待提取文本中提取到的与所述第一图结构中各节点对应属性的属性值;用于训练所述提取模型的文本样本预先基于所述第一图结构进行标注;

55、文本转换模块,用于将所述结构化文本数据从所述第二图结构转换为第二表结构,得到以所述第二表结构存储的结构化文本数据。

56、第五方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现了第一方面或第二方面的结构化文本数据提取的步骤。

57、第六方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现了第一方面或第二方面的结构化文本数据提取的步骤。

58、本技术实施例通过预先定义的以第一表结构存储的包括若干属性的实体,在得到所述若干属性的同时,也得到了所述若干属性中各属性之间的关联关系,然后将实体转化为用于对文本样本进行标注的第一图结构,使所述第一图结构中的节点与各属性相对应,各节点之间的连接关系与各属性之间的关联关系相对应,可见,在标注阶段仅需要进行实体定义而无需进行针对若干属性的关系定义,减少了人工执行关系定义的步骤,大大简化了在标注阶段的定义过程的复杂性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1