本公开涉及人工智能(artificial intelligence,ai),特别涉及一种文字演变信息提取方法、装置、电子设备及存储介质。
背景技术:
1、随着科技发展,目前对文字等的研究技术多种多样,且多种研究角度的技术均已发展的相对成熟,例如文字识别技术、文字转换语音的技术、语义提取技术等。
2、然而,目前对文字的研究技术,均面向目标文字本身涉及的发音、语义、用法等方面进行,无对文字演变过程的研究技术。可见,本领域亟待推出一种对文字演变过程进行学习研究的技术。
技术实现思路
1、本公开提供一种文字演变信息提取方法、装置、电子设备及存储介质。
2、第一方面,本公开提供了一种文字演变信息提取方法,所述方法包括:
3、确定目标字以及对应所述目标字的演变时段的起始时代和终止时代;
4、根据所述目标字的目标偏旁向量、所述目标字的目标部首向量以及预设的偏旁部首向量库获取p个候选字,所述p个候选字均是所述起始时代的文字,所述p是大于或者等于1的整数;
5、根据第一文本集和第二文本集从所述p个候选字中确定起源字,所述起源字是指所述目标字在所述起始时代的起始字,所述第一文本集包括根据所述目标字筛选得到的所述终止时代对应的至少一个文本,所述第二文本集包括根据所述p个候选字筛选得到的所述起始时代对应的至少两个文本;
6、从所述起源字对应的跨时代文本集中提取出所述起源字至所述目标字的文字演变信息,所述文字演变信息包括:对所述起源字演变到所述目标字产生影响的关联字集,以及所述关联字集中每个关联字对应的影响程度参数,所述跨时代文本集包括所述起始时代至所述终止时代之间所包含所述起源字的文本。
7、第二方面,本公开提供了一种文字演变信息提取装置,该文字演变信息提取装置包括:
8、确定模块,用于确定目标字以及对应所述目标字的演变时段的起始时代和终止时代;
9、获取模块,用于根据所述目标字的目标偏旁向量、所述目标字的目标部首向量以及预设的偏旁部首向量库获取p个候选字,所述p个候选字均是所述起始时代的文字,所述p是大于或者等于1的整数;
10、所述确定模块,还用于根据第一文本集和第二文本集从所述p个候选字中确定起源字,所述起源字是指所述目标字在所述起始时代的起始字,所述第一文本集包括根据所述目标字筛选得到的所述终止时代对应的至少一个文本,所述第二文本集包括根据所述p个候选字筛选得到的所述起始时代对应的至少两个文本;
11、提取模块,用于从所述起源字对应的跨时代文本集中提取出所述起源字至所述目标字的文字演变信息,所述文字演变信息包括:对所述起源字演变到所述目标字产生影响的关联字集,以及所述关联字集中每个关联字对应的影响程度参数,所述跨时代文本集包括所述起始时代至所述终止时代之间所包含所述起源字的文本。
12、第三方面,本公开提供了一种电子设备,该电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序,一个或多个所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的文字演变信息提取方法。
13、第四方面,本公开提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序在被处理器执行时实现上述的文字演变信息提取方法。
14、第五方面,本公开提供了一种计算机程序,该计算机程序存储在计算机可读存储介质中,所述计算机程序在被处理器执行时实现上述的文字演变信息提取方法。
15、本公开所提供的实施例中,在确定目标字以及对应所述目标字的演变时段的起始时代和终止时代之后,可以根据所述目标字的目标偏旁向量、所述目标字的目标部首向量以及预设的偏旁部首向量库获取p个候选字,所述p个候选字均是所述起始时代的文字,所述p是大于或者等于1的整数。也就是说,本公开的技术方案在获取目标字、目标字的演变时段的起始时代和终止时代之后,可以通过字形选取多个起始时代的字作为候选字,以便于从这些候选字中确定目标字对应的起始时代的起源字。之后,根据第一文本集和第二文本集从所述p个候选字中确定起源字,所述起源字是指所述目标字在所述起始时代的起始字,所述第一文本集包括根据所述目标字筛选得到的所述终止时代对应的至少一个文本,所述第二文本集包括根据所述p个候选字筛选得到的所述起始时代对应的至少两个文本,进而,从所述起源字对应的跨时代文本集中提取出所述起源字到所述目标字的文字演变信息,所述文字演变信息包括:对所述起源字演变到所述目标字产生影响的关联字集,以及所述关联字集中每个关联字对应的影响程度参数,所述跨时代文本集包括所述起始时代到所述终止时代的文本中包含所述起源字的文本。即,在确定多个候选字之后,本公开的技术方案从语义的维度获得起源字到所述目标字的文字演变信息,具体的,根据起始时代的文本集与终止时代的文本集之间替换字之后的文本的语义变化程度,确定起源字,进一步的,通过使用起源字的跨时代文本的语义演变,能够提取出所述起源字到所述目标字的文字演变信息。可见,本公开实施例,在确定演变时代和演变后的目标字之后,能够首先通过字形筛选起始时代的候选字,进而,通过各个候选字的语义从中选出目标字对应的起源字,然后进一步通过起源字所在文本环境的语义提取出所述起源字到所述目标字的文字演变信息,从而提供了一种具备高可行性的文字演变过程研究技术。
16、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
1.一种文字演变信息提取方法,其特征在于,所述方法包括:
2.根据权利要求1所述的文字演变信息提取方法,其特征在于,所述根据所述目标字的目标偏旁向量、所述目标字的目标部首向量以及预设的偏旁部首向量库获取p个候选字,包括:
3.根据权利要求1所述的文字演变信息提取方法,其特征在于,所述根据第一文本集和第二文本集从所述p个候选字中确定起源字之前,还包括:
4.根据权利要求1所述的文字演变信息提取方法,其特征在于,所述根据第一文本集和第二文本集从所述p个候选字中确定起源字,包括:
5.根据权利要求4所述的文字演变信息提取方法,其特征在于,所述确定所述p个替换文本集中每个替换文本集的可接受程度,包括:
6.根据权利要求1所述的文字演变信息提取方法,其特征在于,所述从所述起源字对应的跨时代文本集中提取出所述起源字到所述目标字的文字演变信息,包括:
7.根据权利要求1-6任一项所述的文字演变信息提取方法,其特征在于,还包括:采用以下任一处理方式生成所述偏旁部首向量库,所述处理方式包括:
8.一种文字演变信息提取装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序在被处理器执行时实现如权利要求1-7中任一项所述的文字演变信息提取方法。