一种文本时间序列获取方法、电子设备及存储介质与流程

文档序号:34266091发布日期:2023-05-25 07:19阅读:51来源:国知局
一种文本时间序列获取方法、电子设备及存储介质与流程

本发明涉及文本处理领域,具体涉及一种文本时间序列获取方法、电子设备及存储介质。


背景技术:

1、随着信息技术的广泛普及,人们习惯于从网络上发布的文本例如新闻文本中获取所需要的信息。在一些应用场景中,需要知晓某个文本所记载的事件的时间链,即事件的开始到结束所经历的时间序列。目前基本上依靠用户通过手动标注的形式获取,获取效率低。


技术实现思路

1、针对上述技术问题,本发明采用的技术方案为:

2、本发明实施例提供一种文本时间序列获取方法,所述方法包括如下步骤:

3、s100,获取目标文本中的时间描述信息表;所述时间描述信息表的第i行包括(tdi,si,pi,ci),其中,tdi为目标文本中识别到的第i个时间描述语句中的时间描述,si为目标文本中识别到的第i个时间描述语句对应的实体集,si={si1,si2,…,sij,…,sif(i)},sij为si中的第j个实体,j的取值为1到f(i),f(i)为si中的实体数量,pi为第i个时间描述语句在目标文本中的位置id,ci为tdi对应的时态类型,i的取值为1到n,n为目标文本中的识别到的时间描述语句的数量。

4、s200,获取初始时间序列信息表ts={ts1,ts2,…,tsr,…,tsm},tsr为ts中的第r时间序列,初始值为null,r的取值为1到m,m为ts中的时间序列的数量。

5、s300,基于所述时间描述信息表和ts获取目标时间序列信息表。

6、其中,s300具体包括:

7、s301,获取td1对应的目标时间信息t1并将获取的t1加入到ts中的第一时间序列ts1中;设置h=2;所述目标时间信息t1为根据td1得到的日期信息;

8、s302,如果h≤n,执行s303;否则,执行s307;

9、s303,如果tdh和tdh-1的时态类型相同,执行s304,否则,获取tdh对应的目标时间信息th,并执行s305;

10、s304,如果(ph-ph-1)≤k,并且sh∩soh-1≠null,获取tdh对应的目标时间信息th并将th加入到th-1对应的时间序列中,否则,获取th并执行s305;其中,soh-1为tdh-1对应的时间序列中所包含的实体并集;k为预设值;

11、s305,将th加入到th-1对应的时间序列的下一个时间序列中;执行s306;

12、s306,设置h=h+1,执行s302;

13、s307,获取当前的ts作为目标时间序列信息表,并退出当前控制程序。

14、本发明实施例还提供一种非瞬时性计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现前述方法。

15、本发明实施例还提供一种电子设备,包括处理器和前述的非瞬时性计算机可读存储介质。

16、本发明至少具有以下技术效果:

17、本发明实施例提供的文本时间序列获取方法,能够自动获取文本中涉及的实体的时间序列,从而能够提高事件时间轴的获取效率。



技术特征:

1.一种文本时间序列获取方法,其特征在于,所述方法包括如下步骤:

2.根据权利要求1所述的方法,其特征在于,如果tdi包含设定类型的时间信息,则将tdi包含的设定类型的时间信息作为tdi的目标时间信息,否则,tdi的目标时间信息基于预设时间信息匹配信息表确定,其中,预设时间信息匹配信息表中的第s行包括(tdms,es),tdms为预设时间信息匹配信息表中的第s个时间描述,s的取值为1到g,g为预设时间信息匹配信息表的行数量,es为tdms对应的时间表达式,es用于基于tdms对应的基准时间确定tdms对应的目标时间信息。

3.根据权利要求2所述的方法,其特征在于,所述设定类型的时间信息包括第一类时间信息至第三类时间信息,其中,第一类时间信息为确定属于某个时间点的时间信息,第二类时间信息为确定属于某个时间段的时间信息,第三类时间信息为确定属于某个时间范围内的时间信息。

4.根据权利要求2所述的方法,其特征在于,tdi基于预设时间信息匹配信息表确定,包括:

5.根据权利要求4所述的方法,其特征在于,如果tdh和tdh-1的时态类型不相同,将目标文本的时间戳作为计算th的基准时间。

6.根据权利要求4所述的方法,其特征在于,如果tdh和tdh-1的时态类型相同,(ph-ph-1)≤k,且sh∩so(h-1)≠null,用于计算th的基准时间通过如下步骤获取:

7.根据权利要求1所述的方法,其特征在于,所述目标文本为新闻文本。

8.根据权利要求1所述的方法,其特征在于,还包括以下步骤:

9.一种非瞬时性计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1~8中任意一项的所述方法。

10.一种电子设备,其特征在于,包括处理器和权利要求9所述的非瞬时性计算机可读存储介质。


技术总结
本发明提供了一种文本时间序列获取方法、电子设备和存储介质,方法包括如下步骤:S100,获取目标文本中的时间描述信息表,时间描述信息表的第i行包括(TD<subgt;i</subgt;,S<subgt;i</subgt;,P<subgt;i</subgt;,C<subgt;i</subgt;),其中,TD<subgt;i</subgt;为目标文本中识别到的第i个时间描述语句中的时间描述,S<subgt;i</subgt;为目标文本中识别到的第i个时间描述语句对应的实体集,S<subgt;i</subgt;={S<subgt;i1</subgt;,S<subgt;i2</subgt;,…,S<subgt;ij</subgt;,…,S<subgt;if(i)</subgt;},S<subgt;ij</subgt;为S<subgt;i</subgt;中的第j个实体,P<subgt;i</subgt;为第i个时间描述语句在目标文本中的位置ID;S200,获取初始时间序列信息表TS;S300,基于所述时间描述信息表和TS获取目标时间序列信息表。本发明能够提高事件时间轴的获取效率。

技术研发人员:张正义,傅晓航,付楠楠,崔维铁
受保护的技术使用者:中科雨辰科技有限公司
技术研发日:
技术公布日:2024/1/12
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1