文本编码方法、装置、电子设备及存储介质与流程

文档序号:34186874发布日期:2023-05-17 13:35阅读:27来源:国知局
文本编码方法、装置、电子设备及存储介质与流程

本申请涉及自然语言处理,具体涉及一种文本编码方法、装置、电子设备及存储介质。


背景技术:

1、随着人工智能的快速发展,文本语义识别技术广泛应用于人们的生活、学习、工作等各个领域,如智能交互系统、意图识别系统等等。文本语义识别技术的关键点在于获得语义丰富的编码信息。对于短文本,利用目前的编码方法得到的编码信息,可以较好地覆盖短文本的语义信息,而对于长文本,利用目前的编码方法得到的编码信息,难以涵盖长文本中的真实语义信息,容易遗漏语义信息、或偏离真实的语义信息。


技术实现思路

1、有鉴于此,本申请实施例提供了一种文本编码方法、装置、电子设备及存储介质,能够提高长文本对应的编码信息的精确度,使得长文本对应的编码信息更切合长文本的语义。

2、第一方面,本申请的实施例提供了一种文本编码方法,包括:将长文本划分成多个短文本,多个短文本中每个短文本的字符长度小于或等于第一预设阈值;对多个短文本分别进行编码,得到多个编码信息;针对多个短文本中的第n个短文本,结合第n个短文本对应的第n个编码信息以及第n-1个短文本对应的综合编码信息,得到第n个短文本对应的综合编码信息,其中,n大于或等于2,第一个短文本对应的综合编码信息为第一个短文本对应的编码信息;将多个短文本对应的综合编码信息分别输入主题提取模型,得到多个短文本对应的多个主题信息;融合多个短文本中最后一个短文本对应的综合编码信息以及多个主题信息,得到长文本对应的编码信息,长文本对应的编码信息用于表征长文本包含的语义信息。

3、第二方面,本申请的实施例提供了一种文本编码装置,包括:划分模块,用于将长文本划分成多个短文本,多个短文本中每个短文本的字符长度小于或等于第一预设阈值;编码模块,用于对多个短文本分别进行编码,得到多个编码信息;编码模块还用于,针对多个短文本中的第n个短文本,结合第n个短文本对应的第n个编码信息以及第n-1个短文本对应的综合编码信息,得到第n个短文本对应的综合编码信息,其中,n大于或等于2,第一个短文本对应的综合编码信息为第一个短文本对应的编码信息;主题提取模块,用于将多个短文本对应的综合编码信息分别输入主题提取模型,得到多个短文本对应的多个主题信息;融合模块,用于融合多个短文本中最后一个短文本对应的综合编码信息以及多个主题信息,得到长文本对应的编码信息,长文本对应的编码信息用于表征长文本包含的语义信息。

4、第三方面,本申请的实施例提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器,其中,处理器用于执行上述第一方面所述的文本编码方法。

5、第四方面,本申请的实施例提供了一种计算机可读存储介质,存储介质存储有计算机程序,计算机程序用于执行上述第一方面所述的文本编码方法。

6、第五方面,本申请的实施例提供了一种计算机程序产品,所述计算机程序产品中包括指令,所述指令被计算机设备的处理器执行时,使得所述计算机设备能够执行上述第一方面所述的文本编码方法。

7、本申请实施例提供了一种文本编码方法、装置、电子设备及存储介质,通过将长文本划分成多个短文本,并对多个短文本进行编码得到多个编码信息,可以解决目前难以对长文本直接进行编码的问题。进一步地,针对当前短文本,可通过结合当前短文本的编码信息以及当前短文本之前的短文本的综合编码信息,得到当前短文本的综合编码信息,并根据当前短文本的综合编码信息提取当前短文本的主题信息。由于当前短文本的综合编码信息结合了之前短文本的综合编码信息,因此当前短文本的综合编码信息可以包含前文的关键信息,进而可以较为准确地表征当前短文本对应的语义信息。这样可以提高基于该综合编码信息得到的主题信息的准确度,提高主题信息与当前短文本在语义上的贴切程度。此外,根据最后一个短文本对应的综合编码信息以及多个主题信息得到长文本对应的编码信息,可以利用多个主题信息对综合编码信息进行校正,降低遗漏文本语义信息的风险,提高长文本对应的编码信息的精确度,使得长文本对应的编码信息更切合长文本的语义。



技术特征:

1.一种文本编码方法,其特征在于,包括:

2.根据权利要求1所述的文本编码方法,其特征在于,所述融合所述多个短文本中最后一个短文本对应的综合编码信息以及所述多个主题信息,得到所述长文本对应的编码信息,包括:

3.根据权利要求1所述的文本编码方法,其特征在于,所述结合所述第n个短文本对应的第n个编码信息以及第n-1个短文本对应的综合编码信息,得到所述第n个短文本对应的综合编码信息,包括:

4.根据权利要求2所述的文本编码方法,其特征在于,所述对所述最后一个短文本对应的综合编码信息以及所述多个主题信息进行拼接,得到第一拼接编码信息,包括:

5.根据权利要求3所述的文本编码方法,其特征在于,所述对所述多个短文本分别进行编码,得到多个编码信息,包括:

6.根据权利要求1至5中任一项所述的文本编码方法,其特征在于,还包括:

7.根据权利要求1至5中任一项所述的文本编码方法,其特征在于,还包括:

8.一种文本编码装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1至7中任一项所述的文本编码方法。


技术总结
本申请提供了一种文本编码方法、装置、电子设备及存储介质,该文本编码方法包括:将长文本划分成多个短文本;对多个短文本分别进行编码,得到多个编码信息;针对多个短文本中的第N个短文本,结合第N个短文本对应的第N个编码信息以及第N‑1个短文本对应的综合编码信息,得到第N个短文本对应的综合编码信息,其中,第一个短文本对应的综合编码信息为第一个短文本对应的编码信息;将多个短文本对应的综合编码信息分别输入主题提取模型,得到多个短文本对应的多个主题信息;融合多个短文本中最后一个短文本对应的综合编码信息以及多个主题信息,得到长文本对应的编码信息。本申请的技术方案能够提高长文本对应的编码信息的精确度。

技术研发人员:吕乐宾,蒋宁,夏粉,肖冰,李宽,丁隆耀
受保护的技术使用者:马上消费金融股份有限公司
技术研发日:
技术公布日:2024/1/12
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1