文本处理方法及装置与流程

文档序号:31994084发布日期:2022-11-02 00:47阅读:62来源:国知局
文本处理方法及装置与流程

1.本说明书实施例涉及计算机技术领域,具体地,涉及文本处理方法及装置、基于会议的文本处理方法及装置、基于即时通讯的文本处理方法及装置、基于直播的文本处理方法及装置、基于教育的文本处理方法及装置。


背景技术:

2.目前,通过语音转换而获得的较长文本,例如至少包括3个句子的文本,通常是未分段的,可读性比较差。
3.因此,迫切需要一种合理、可靠的方案,可以解决文本可读性差的问题。


技术实现要素:

4.本说明书实施例提供了文本处理方法及装置、基于会议的文本处理方法及装置、基于即时通讯的文本处理方法及装置、基于直播的文本处理方法及装置、基于教育的文本处理方法及装置。
5.第一方面,本说明书实施例提供了一种文本处理方法,应用于控制端,包括:接收待分段文本;根据文本处理端选取规则,从多个文本处理端中确定出用于对所述待分段文本进行分段处理的第一文本处理端;将所述待分段文本发送至第一文本处理端,以使得第一文本处理端根据相应的第一分段规则,对所述待分段文本进行分段处理;响应于从第一文本处理端接收到针对所述待分段文本的第一处理结果,根据所述第一处理结果,获取所述待分段文本对应的经分段后的目标文本,并输出所述目标文本。
6.在一些实施例中,所述文本处理端选取规则包括,对应所述待分段文本所属的第一业务的第一选取规则。
7.在一些实施例中,所述第一选取规则包括以下任一项:针对所述第一业务配置的文本处理端候补规则;针对多种业务配置的文本处理端优先级规则,所述第一业务包含在所述多种业务中。
8.在一些实施例中,所述根据所述第一处理结果,获取所述待分段文本对应的经分段后的目标文本,包括:若所述第一处理结果包括第一分段信息,则根据所述第一分段信息,获取所述目标文本,其中,所述第一分段信息至少包括添加有分段标记的句子或该句子在所述待分段文本中的位置。
9.在一些实施例中,所述根据所述第一分段信息,获取所述目标文本,包括:根据所述第一分段信息,在所述待分段文本中对添加有分段标记的句子进行换行;将经换行后的所述待分段文本确定为所述目标文本。
10.在一些实施例中,所述根据所述第一分段信息,获取所述目标文本,包括:确定所述待分段文本中的第一内容是否满足分段条件,所述第一内容包括,以目标句子为起始句子且以所述待分段文本的最后一个句子为结束句子的内容,所述目标句子是在所述待分段文本中位置最靠后且添加有分段标记的句子;若所述第一内容满足所述分段条件,则根据
所述文本处理端选取规则,从所述多个文本处理端中确定出第二文本处理端;将所述第一内容发送至第二文本处理端,以使得第二文本处理端根据相应的第二分段规则,对所述第一内容进行分段处理;响应于从第二文本处理端接收到针对所述第一内容的第二处理结果,根据所述第一分段信息和所述第二处理结果,获取所述目标文本。
11.在一些实施例中,所述根据所述第一分段信息,获取所述目标文本,还包括:若所述第一内容不满足所述分段条件,则根据所述第一分段信息,在所述待分段文本中对添加有分段标记的句子进行换行,并将经换行后的所述待分段文本确定为所述目标文本。
12.在一些实施例中,所述根据所述第一分段信息和所述第二处理结果,获取所述目标文本,包括:若所述第二处理结果包括第二分段信息,则根据所述第一分段信息和所述第二分段信息,在所述待分段文本中对添加有分段标记的句子进行换行,并将经换行后的所述待分段文本确定为所述目标文本。
13.在一些实施例中,所述分段条件包括以下任一项:文字数量达到第一文字数量阈值、句子数量达到第一句子数量阈值。
14.在一些实施例中,所述第一分段规则对应匹配条件;以及所述根据所述第一处理结果,获取所述待分段文本对应的经分段后的目标文本,包括:若所述第一处理结果指示所述待分段文本不满足所述匹配条件,或者未从所述待分段文本中匹配出有待换行的句子,则根据所述文本处理端选取规则,从所述多个文本处理端中确定出第二文本处理端;将所述待分段文本发送至第二文本处理端,以使得第二文本处理端根据相应的第二分段规则,对所述待分段文本进行分段处理;响应于从第二文本处理端接收到针对所述待分段文本的第三处理结果,根据所述第三处理结果,获取所述目标文本。
15.在一些实施例中,所述匹配条件包括以下任一项:文字数量达到第二文字数量阈值、句子数量达到第二句子数量阈值。
16.在一些实施例中,所述接收待分段文本,包括:从语音识别系统接收待分段文本,所述待分段文本通过对目标语音进行转换而获得。
17.在一些实施例中,所述目标语音属于以下任一种:会议语音、聊天语音、直播语音、授课语音。
18.在一些实施例中,所述第一分段规则包括以下任一项:基于正则表达式的分段规则、基于文本相似度的分段规则。
19.在一些实施例中,在所述接收待分段文本之前,所述方法还包括:接收并保存针对所述多个文本处理端分别配置的分段规则。
20.在一些实施例中,在所述接收待分段文本之前,所述方法还包括:接收并保存所述文本处理端选取规则。
21.在一些实施例中,所述方法还包括:接收针对与文本分段有关的规则的更新指令;根据所述更新指令,执行相应的更新操作。
22.在一些实施例中,所述更新指令包括以下任一项:添加指令、删除指令、修改指令。
23.在一些实施例中,所述输出所述目标文本,包括:将所述目标文本提供给相应的用户;或者,将所述目标文本发送至相应的下游处理端。
24.在一些实施例中,所述下游处理端包括以下任一种处理端:文本翻译端、信息抽取端、文本存储端。
25.第二方面,本说明书实施例提供了一种文本处理方法,应用于文本处理端,包括:响应于接收到控制端发送的文本信息,获取针对所述文本处理端配置的分段规则,其中,所述文本信息包括待分段文本,或者所述待分段文本中的第一内容;根据所述分段规则,对所述文本信息进行分段处理,并生成处理结果;将所生成的处理结果返回给所述控制端,以使得所述控制端至少根据所述处理结果,获取所述待分段文本对应的经分段后的目标文本。
26.在一些实施例中,所述分段规则对应匹配条件;以及在所述获取针对所述文本处理端配置的分段规则之后,所述方法还包括:确定所述文本信息是否满足所述匹配条件;以及所述根据所述分段规则,对所述文本信息进行分段处理,包括:响应于确定所述文本信息满足所述匹配条件,根据所述分段规则,对所述文本信息进行分段处理。
27.在一些实施例中,所述方法还包括:响应于确定所述文本信息不满足所述匹配条件,生成用于指示所述文本信息不满足所述匹配条件的处理结果。
28.在一些实施例中,所述分段规则包括基于正则表达式的分段规则;以及所述根据所述分段规则,对所述文本信息进行分段处理,并生成处理结果,包括:利用所述分段规则中的正则表达式匹配所述文本信息中的句子;若从所述文本信息中匹配出句子,则为匹配出的句子添加分段标记,并生成包括分段信息的处理结果,所述分段信息至少包括添加有分段标记的句子或该句子在所述文本信息中的位置。
29.在一些实施例中,所述根据所述分段规则,对所述待分段文本进行分段处理,并生成处理结果,还包括:若未从所述文本信息中匹配出句子,则生成用于指示未从所述文本信息中匹配出有待换行的句子的处理结果。
30.在一些实施例中,所述分段规则包括基于文本相似度的分段规则,该分段规则包括句子间隔数和相似度阈值;以及所述根据所述分段规则,对所述文本信息进行分段处理,包括:对于所述文本信息中的第一句子,根据所述句子间隔数,从所述文本信息中选取出位于所述第一句子之后的第二句子;计算所述第一句子和所述第二句子的相似度;若所述相似度未达到所述相似度阈值,则为所述第二句子添加分段标记。
31.在一些实施例中,所述生成处理结果,包括:在为所述第二句子添加分段标记之后,若位于所述第二句子之后的句子的数量不大于所述句子间隔数,则生成包括分段信息的处理结果,所述分段信息至少包括添加有分段标记的句子或该句子在所述文本信息中的位置。
32.在一些实施例中,所述生成处理结果,包括:若所述相似度达到所述相似度阈值,并且位于所述第二句子之后的句子的数量不大于所述句子间隔数,以及所述文本信息中不存在添加有分段标记的句子,则生成用于指示未从所述文本信息中匹配出有待换行的句子的处理结果。
33.在一些实施例中,所述根据所述分段规则,对所述文本信息进行分段处理,还包括:在确定所述相似度达到所述相似度阈值之后,或者在为所述第二句子添加分段标记之后,若位于所述第二句子之后的句子的数量大于所述句子间隔数,则将所述第二句子作为第一句子,继续执行所述根据所述句子间隔数,从所述文本信息中选取出位于所述第一句子之后的第二句子。
34.在一些实施例中,所述待分段文本通过对目标语音进行转换而获得。
35.第三方面,本说明书实施例提供了一种文本处理方法,应用于控制端,包括:从语
音识别系统接收待分段文本,所述待分段文本通过对目标语音进行转换而获得;根据文本处理端选取规则,从多个文本处理端中确定出用于对所述待分段文本进行分段处理的第一文本处理端;将所述待分段文本发送至第一文本处理端,以使得第一文本处理端根据相应的第一分段规则,对所述待分段文本进行分段处理;响应于从第一文本处理端接收到针对所述待分段文本的第一处理结果,根据所述第一处理结果,获取所述待分段文本对应的经分段后的目标文本,并输出所述目标文本。
36.第四方面,本说明书实施例提供了一种文本处理方法,应用于文本处理端,包括:响应于接收到控制端发送的文本信息,获取针对所述文本处理端配置的分段规则,其中,所述文本信息包括待分段文本,或者所述待分段文本中的第一内容,所述待分段文本通过对目标语音进行转换而获得;根据所述分段规则,对所述文本信息进行分段处理,并生成处理结果;将所生成的处理结果返回给所述控制端,以使得所述控制端至少根据所述处理结果,获取所述待分段文本对应的经分段后的目标文本。
37.第五方面,本说明书实施例提供了一种基于会议的文本处理方法,应用于控制端,包括:从语音识别系统接收待分段文本,所述待分段文本通过对会议语音进行转换而获得;根据文本处理端选取规则,从多个文本处理端中确定出用于对所述待分段文本进行分段处理的第一文本处理端;将所述待分段文本发送至第一文本处理端,以使得第一文本处理端根据相应的第一分段规则,对所述待分段文本进行分段处理;响应于从第一文本处理端接收到针对所述待分段文本的第一处理结果,根据所述第一处理结果,获取所述待分段文本对应的经分段后的目标文本,并输出所述目标文本。
38.第六方面,本说明书实施例提供了一种基于会议的文本处理方法,应用于文本处理端,包括:响应于接收到控制端发送的文本信息,获取针对所述文本处理端配置的分段规则,其中,所述文本信息包括待分段文本,或者所述待分段文本中的第一内容,所述待分段文本通过对会议语音进行转换而获得;根据所述分段规则,对所述文本信息进行分段处理,并生成处理结果;将所生成的处理结果返回给所述控制端,以使得所述控制端至少根据所述处理结果,获取所述待分段文本对应的经分段后的目标文本。
39.第七方面,本说明书实施例提供了一种基于即时通讯的文本处理方法,应用于控制端,包括:从语音识别系统接收待分段文本,所述待分段文本通过对聊天语音进行转换而获得;根据文本处理端选取规则,从多个文本处理端中确定出用于对所述待分段文本进行分段处理的第一文本处理端;将所述待分段文本发送至第一文本处理端,以使得第一文本处理端根据相应的第一分段规则,对所述待分段文本进行分段处理;响应于从第一文本处理端接收到针对所述待分段文本的第一处理结果,根据所述第一处理结果,获取所述待分段文本对应的经分段后的目标文本,并将所述目标文本提供给相应的用户。
40.第八方面,本说明书实施例提供了一种基于即时通讯的文本处理方法,应用于文本处理端,包括:响应于接收到控制端发送的文本信息,获取针对所述文本处理端配置的分段规则,其中,所述文本信息包括待分段文本,或者所述待分段文本中的第一内容,所述待分段文本通过对聊天语音进行转换而获得;根据所述分段规则,对所述文本信息进行分段处理,并生成处理结果;将所生成的处理结果返回给所述控制端,以使得所述控制端至少根据所述处理结果,获取所述待分段文本对应的经分段后的目标文本。
41.第九方面,本说明书实施例提供了一种基于直播的文本处理方法,应用于控制端,
包括:从语音识别系统接收待分段文本,所述待分段文本通过对直播语音进行转换而获得;根据文本处理端选取规则,从多个文本处理端中确定出用于对所述待分段文本进行分段处理的第一文本处理端;将所述待分段文本发送至第一文本处理端,以使得第一文本处理端根据相应的第一分段规则,对所述待分段文本进行分段处理;响应于从第一文本处理端接收到针对所述待分段文本的第一处理结果,根据所述第一处理结果,获取所述待分段文本对应的经分段后的目标文本,并输出所述目标文本。
42.第十方面,本说明书实施例提供了一种基于直播的文本处理方法,应用于文本处理端,包括:响应于接收到控制端发送的文本信息,获取针对所述文本处理端配置的分段规则,其中,所述文本信息包括待分段文本,或者所述待分段文本中的第一内容,所述待分段文本通过对直播语音进行转换而获得;根据所述分段规则,对所述文本信息进行分段处理,并生成处理结果;将所生成的处理结果返回给所述控制端,以使得所述控制端至少根据所述处理结果,获取所述待分段文本对应的经分段后的目标文本。
43.第十一方面,本说明书实施例提供了一种基于教育的文本处理方法,应用于控制端,包括:从语音识别系统接收待分段文本,所述待分段文本通过对授课语音进行转换而获得;根据文本处理端选取规则,从多个文本处理端中确定出用于对所述待分段文本进行分段处理的第一文本处理端;将所述待分段文本发送至第一文本处理端,以使得第一文本处理端根据相应的第一分段规则,对所述待分段文本进行分段处理;响应于从第一文本处理端接收到针对所述待分段文本的第一处理结果,根据所述第一处理结果,获取所述待分段文本对应的经分段后的目标文本,并输出所述目标文本。
44.第十二方面,本说明书实施例提供了一种基于教育的文本处理方法,应用于文本处理端,包括:响应于接收到控制端发送的文本信息,获取针对所述文本处理端配置的分段规则,其中,所述文本信息包括待分段文本,或者所述待分段文本中的第一内容,所述待分段文本通过对授课语音进行转换而获得;根据所述分段规则,对所述文本信息进行分段处理,并生成处理结果;将所生成的处理结果返回给所述控制端,以使得所述控制端至少根据所述处理结果,获取所述待分段文本对应的经分段后的目标文本。
45.第十三方面,本说明书实施例提供了一种文本处理装置,应用于控制端,包括:接收单元,被配置成接收待分段文本;确定单元,被配置成根据文本处理端选取规则,从多个文本处理端中确定出用于对所述待分段文本进行分段处理的第一文本处理端;发送单元,被配置成将所述待分段文本发送至第一文本处理端,以使得第一文本处理端根据相应的第一分段规则,对所述待分段文本进行分段处理;处理单元,被配置成响应于从第一文本处理端接收到针对所述待分段文本的第一处理结果,根据所述第一处理结果,获取所述待分段文本对应的经分段后的目标文本,并输出所述目标文本。
46.第十四方面,本说明书实施例提供了一种文本处理装置,应用于文本处理端,包括:获取单元,被配置成响应于接收到控制端发送的文本信息,获取针对所述文本处理端配置的分段规则,其中,所述文本信息包括待分段文本,或者所述待分段文本中的第一内容;处理单元,被配置成根据所述分段规则,对所述文本信息进行分段处理,并生成处理结果;发送单元,被配置成将所生成的处理结果返回给所述控制端,以使得所述控制端至少根据所述处理结果,获取所述待分段文本对应的经分段后的目标文本。
47.第十五方面,本说明书实施例提供了一种文本处理装置,应用于控制端,包括:接
收单元,被配置成从语音识别系统接收待分段文本,所述待分段文本通过对目标语音进行转换而获得;确定单元,被配置成根据文本处理端选取规则,从多个文本处理端中确定出用于对所述待分段文本进行分段处理的第一文本处理端;发送单元,被配置成将所述待分段文本发送至第一文本处理端,以使得第一文本处理端根据相应的第一分段规则,对所述待分段文本进行分段处理;处理单元,被配置成响应于从第一文本处理端接收到针对所述待分段文本的第一处理结果,根据所述第一处理结果,获取所述待分段文本对应的经分段后的目标文本,并输出所述目标文本。
48.第十六方面,本说明书实施例提供了一种文本处理装置,应用于文本处理端,包括:获取单元,被配置成响应于接收到控制端发送的文本信息,获取针对所述文本处理端配置的分段规则,其中,所述文本信息包括待分段文本,或者所述待分段文本中的第一内容,所述待分段文本通过对目标语音进行转换而获得;处理单元,被配置成根据所述分段规则,对所述文本信息进行分段处理,并生成处理结果;发送单元,被配置成将所生成的处理结果返回给所述控制端,以使得所述控制端至少根据所述处理结果,获取所述待分段文本对应的经分段后的目标文本。
49.第十七方面,本说明书实施例提供了一种基于会议的文本处理装置,应用于控制端,包括:接收单元,被配置成从语音识别系统接收待分段文本,所述待分段文本通过对会议语音进行转换而获得;确定单元,被配置成根据文本处理端选取规则,从多个文本处理端中确定出用于对所述待分段文本进行分段处理的第一文本处理端;发送单元,被配置成将所述待分段文本发送至第一文本处理端,以使得第一文本处理端根据相应的第一分段规则,对所述待分段文本进行分段处理;处理单元,被配置成响应于从第一文本处理端接收到针对所述待分段文本的第一处理结果,根据所述第一处理结果,获取所述待分段文本对应的经分段后的目标文本,并输出所述目标文本。
50.第十八方面,本说明书实施例提供了一种基于会议的文本处理装置,应用于文本处理端,包括:获取单元,被配置成响应于接收到控制端发送的文本信息,获取针对所述文本处理端配置的分段规则,其中,所述文本信息包括待分段文本,或者所述待分段文本中的第一内容,所述待分段文本通过对会议语音进行转换而获得;处理单元,被配置成根据所述分段规则,对所述文本信息进行分段处理,并生成处理结果;发送单元,被配置成将所生成的处理结果返回给所述控制端,以使得所述控制端至少根据所述处理结果,获取所述待分段文本对应的经分段后的目标文本。
51.第十九方面,本说明书实施例提供了一种基于即时通讯的文本处理装置,应用于控制端,包括:接收单元,被配置成从语音识别系统接收待分段文本,所述待分段文本通过对聊天语音进行转换而获得;确定单元,被配置成根据文本处理端选取规则,从多个文本处理端中确定出用于对所述待分段文本进行分段处理的第一文本处理端;发送单元,被配置成将所述待分段文本发送至第一文本处理端,以使得第一文本处理端根据相应的第一分段规则,对所述待分段文本进行分段处理;处理单元,被配置成响应于从第一文本处理端接收到针对所述待分段文本的第一处理结果,根据所述第一处理结果,获取所述待分段文本对应的经分段后的目标文本,并将所述目标文本提供给相应的用户。
52.第二十方面,本说明书实施例提供了一种基于即时通讯的文本处理装置,应用于文本处理端,包括:获取单元,被配置成响应于接收到控制端发送的文本信息,获取针对所
述文本处理端配置的分段规则,其中,所述文本信息包括待分段文本,或者所述待分段文本中的第一内容,所述待分段文本通过对聊天语音进行转换而获得;处理单元,被配置成根据所述分段规则,对所述文本信息进行分段处理,并生成处理结果;发送单元,被配置成将所生成的处理结果返回给所述控制端,以使得所述控制端至少根据所述处理结果,获取所述待分段文本对应的经分段后的目标文本。
53.第二十一方面,本说明书实施例提供了一种基于直播的文本处理装置,应用于控制端,包括:接收单元,被配置成从语音识别系统接收待分段文本,所述待分段文本通过对直播语音进行转换而获得;确定单元,被配置成根据文本处理端选取规则,从多个文本处理端中确定出用于对所述待分段文本进行分段处理的第一文本处理端;发送单元,被配置成将所述待分段文本发送至第一文本处理端,以使得第一文本处理端根据相应的第一分段规则,对所述待分段文本进行分段处理;处理单元,被配置成响应于从第一文本处理端接收到针对所述待分段文本的第一处理结果,根据所述第一处理结果,获取所述待分段文本对应的经分段后的目标文本,并输出所述目标文本。
54.第二十二方面,本说明书实施例提供了一种基于直播的文本处理装置,应用于文本处理端,包括:获取单元,被配置成响应于接收到控制端发送的文本信息,获取针对所述文本处理端配置的分段规则,其中,所述文本信息包括待分段文本,或者所述待分段文本中的第一内容,所述待分段文本通过对直播语音进行转换而获得;处理单元,被配置成根据所述分段规则,对所述文本信息进行分段处理,并生成处理结果;发送单元,被配置成将所生成的处理结果返回给所述控制端,以使得所述控制端至少根据所述处理结果,获取所述待分段文本对应的经分段后的目标文本。
55.第二十三方面,本说明书实施例提供了一种基于教育的文本处理装置,应用于控制端,包括:接收单元,被配置成从语音识别系统接收待分段文本,所述待分段文本通过对授课语音进行转换而获得;确定单元,被配置成根据文本处理端选取规则,从多个文本处理端中确定出用于对所述待分段文本进行分段处理的第一文本处理端;发送单元,被配置成将所述待分段文本发送至第一文本处理端,以使得第一文本处理端根据相应的第一分段规则,对所述待分段文本进行分段处理;处理单元,被配置成响应于从第一文本处理端接收到针对所述待分段文本的第一处理结果,根据所述第一处理结果,获取所述待分段文本对应的经分段后的目标文本,并输出所述目标文本。
56.第二十四方面,本说明书实施例提供了一种基于教育的文本处理装置,应用于文本处理端,包括:获取单元,被配置成响应于接收到控制端发送的文本信息,获取针对所述文本处理端配置的分段规则,其中,所述文本信息包括待分段文本,或者所述待分段文本中的第一内容,所述待分段文本通过对授课语音进行转换而获得;处理单元,被配置成根据所述分段规则,对所述文本信息进行分段处理,并生成处理结果;发送单元,被配置成将所生成的处理结果返回给所述控制端,以使得所述控制端至少根据所述处理结果,获取所述待分段文本对应的经分段后的目标文本。
57.第二十五方面,本说明书实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其中,当该计算机程序在计算机中执行时,令该计算机执行如第一方面至第十二方面中任一实现方式描述的方法。
58.第二十六方面,本说明书实施例提供了一种计算设备,包括存储器和处理器,其
中,该存储器中存储有可执行代码,该处理器执行该可执行代码时,实现如第一方面至第十二方面中任一实现方式描述的方法。
59.第二十七方面,本说明书实施例提供了一种计算机程序,其中,当该计算机程序在计算机中执行时,令该计算机执行如第一方面至第十二方面中任一实现方式描述的方法。
60.本说明书的上述实施例提供的文本处理方法及装置,通过控制端接收待分段文本,以便控制端根据文本处理端选取规则,从多个文本处理端中确定出用于对待分段文本进行分段处理的第一文本处理端,并将待分段文本发送至第一文本处理端。而后,第一文本处理端可以根据针对其配置的第一分段规则,对待分段文本进行分段处理,并生成第一处理结果,以及将第一处理结果返回给控制端。然后,控制端可以根据第一处理结果,获取待分段文本对应的经分段后的目标文本,并输出目标文本。由此,通过对多个文本处理端的提供,以及使得控制端在该多个文本处理端中确定出适用于待分段文本的文本处理端,并利用该文本处理端对待分段文本进行分段处理,可以有效提升输出文本的可读性。
附图说明
61.为了更清楚地说明本说明书披露的多个实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书披露的多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
62.图1是本说明书的一些实施例可以应用于其中的一个示例性系统架构图;
63.图2是根据本说明书的文本处理方法的一个实施例的示意图;
64.图3是采用基于正则表达式的分段规则的分段处理流程的一个示意图;
65.图4是采用基于文本相似度的分段规则的分段处理流程的一个示意图;
66.图5是针对待分段文本中的第一内容的分段处理流程的一个示意图;
67.图6是针对待分段文本的分段处理流程的一个示意图;
68.图7是基于会议的文本处理方法的一个示意图;
69.图8是基于即时通讯的文本处理方法的一个示意图;
70.图9是根据本说明书的文本处理装置的一个结构示意图;
71.图10是根据本说明书的文本处理装置的一个结构示意图。
具体实施方式
72.下面结合附图和实施例对本说明书作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
73.需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本说明书中的实施例及实施例中的特征可以相互组合。另外,本说明书中的“第一”、“第二”、“第三”等词,仅用于信息区分,不起任何限定作用。
74.如前所述,通过语音转换而获得的较长文本,例如至少包括3个句子的文本,通常是未分段的,可读性比较差。
75.基于此,本说明书的一些实施例提供了文本处理方法,通过该方法,可以有效提升输出文本的可读性,解决文本可读性差的问题。具体地,图1示出了适用于这些实施例的示例性系统架构图。
76.如图1所示,系统架构可以包括控制端,以及多个文本处理端,例如图1中所示的文本处理端1,文本处理端2,

,文本处理端n。其中,n是大于等于2的整数。需要指出,控制端和该多个文本处理端可以位于文本分段系统中,在此不做具体限定。
77.控制端可以用于管理与文本分段有关的规则,以及控制文本处理端执行文本分段操作,等等。控制端所管理的规则可以包括但不限于,文本处理端选取规则,针对上述多个文本处理端分别配置的分段规则,等等。需要指出,上述多个文本处理端使用不同的分段规则。
78.文本处理端选取规则例如可以包括,文本处理端优先级规则,文本处理端候补规则,等等。文本处理端优先级规则,是根据优先级进行文本处理端选取的规则,其中可以包括上述多个文本处理端的优先级(也可称为权重)。进一步地,文本处理端优先级规则可以包括,适用于各种业务的通用文本处理端优先级规则,或者专门针对多种业务配置的文本处理端优先级规则。
79.文本处理端候补规则,是根据候补机制进行文本处理端选取的规则,其可以指示首选文本处理端,以及该处理端不同等级的候补文本处理端。进一步地,文本处理端候补规则可以包括,针对不同业务分别配置的文本处理端候补规则。需要指出,文本处理端候补规则和业务之间可以存在一对一的对应关系。实践中,可以根据实际业务需求,为某些业务分别配置特定的文本处理端候补规则。
80.分段规则可以包括任何适用于分段的规则,例如可以包括,基于正则表达式的分段规则,基于文本相似度的分段规则,等等。
81.实践中,控制端可以接收待分段文本。其中,若待分段文本是通过对目标语音进行转换而获得的文本,则控制端例如可以从语音转换系统接收待分段文本。基于此,上述系统架构还可以包括语音转换系统。之后,控制端可以根据文本处理端选取规则,从上述多个文本处理端中确定出用于对待分段文本进行分段处理的第一文本处理端(例如图1中的文本处理端1)。接着,控制端可以将待分段文本发送至第一文本处理端,以使得第一文本处理端根据相应的第一分段规则,对待分段文本进行分段处理。然后,控制端可以响应于从第一文本处理端接收到针对待分段文本的第一处理结果,根据第一处理结果,获取待分段文本对应的经分段后的目标文本,并输出目标文本。例如,将目标文本输出给相应的用户,或者将目标文本发送至相应的下游处理端(例如文本翻译端,信息抽取端,或者文本存储端,等等)。
82.作为示例,如图1中所示,若用户想要将目标语音转换成文本,则可以通过终端设备在相应的目标界面(例如语音聊天界面或语音转换界面等)选择目标语音,并执行语音转换操作,例如触发语音转换菜单、语音转换快捷键或者语音转换按钮等。之后,终端设备可以响应于该语音转换操作,向语音转换系统发送将目标语音转换成文本的请求,该请求可以包括该目标语音。此外,该请求还可以包括该用户的用户标识。接着,语音转换系统可以采用语音转换算法,将目标语音转换成文本,并将该文本作为待分段文本发送至控制端。然后,控制端可以通过执行以上描述的步骤获得目标文本,并将目标文本提供给该用户。例如
直接或间接将目标文本发送至终端设备,由终端设备向该用户展示目标文本。
83.其中,当控制端间接将目标文本发送至终端设备时,控制端可以经由语音转换系统将目标文本发送至终端设备。需要指出,图1中示出了控制端直接将目标文本发送至终端设备的实现方式。
84.应该理解,本说明书不对控制端所接收的待分段文本的来源做具体限定。
85.下面,结合具体的实施例,描述上述方法的具体实施步骤。需要先说明,为了区分不同文本处理端产出的处理结果,下文中,将第一文本处理端对待分段文本的处理结果称为第一处理结果,将第二文本处理端对待分段文本中第一内容的处理结果称为第二处理结果,以及将第二文本处理端对待分段文本的处理结果称为第三处理结果。另外,将包含在第一处理结果中的分段信息称为第一分段信息,将包含在第二处理结果中的分段信息称为第二分段信息。此外,将第一文本处理端使用的分段规则称为第一分段规则,将第二文本处理端使用的分段规则称为第二分段规则。
86.参看图2,其是根据本说明书的文本处理方法的一个实施例的示意图。该方法包括以下步骤:
87.步骤202,控制端接收待分段文本;
88.步骤204,控制端根据文本处理端选取规则,从多个文本处理端中确定出用于对待分段文本进行分段处理的第一文本处理端;
89.步骤206,控制端将待分段文本发送至第一文本处理端;
90.步骤208,第一文本处理端获取针对其配置的第一分段规则;
91.步骤210,第一文本处理端根据第一分段规则,对待分段文本进行分段处理,并生成第一处理结果;
92.步骤212,第一文本处理端将所生成的第一处理结果返回给控制端;
93.步骤214,控制端根据第一处理结果,获取待分段文本对应的经分段后的目标文本;
94.步骤216,控制端输出目标文本。
95.下面对以上步骤做进一步说明。
96.在步骤202中,控制端可以实时地接收待分段文本。待分段文本可以是任何有待进行分段处理的文本。进一步地,待分段文本可以通过对目标语音进行转换而获得。基于此,步骤202可以进一步包括,控制端从语音转换系统接收待分段文本。
97.其中,目标语音可以是任何类别的语音,例如,目标语音可以属于会议语音,聊天语音,直播语音,或者授课语音,等等。
98.在步骤204中,控制端可以根据文本处理端选取规则,从多个文本处理端中确定出用于对待分段文本进行分段处理的第一文本处理端。其中,该多个文本处理端配置有各自的分段规则。
99.作为一种实现方式,若控制端当前管理的文本处理端选取规则包括,适用于各种业务的通用文本处理端优先级规则,则控制端可以根据该优先级规则,从多个文本处理端中选取出优先级最高的文本处理端,并将该文本处理端确定为第一文本处理端。
100.作为另一种实现方式,若控制端当前管理的文本处理端选取规则包括,针对不同业务分别配置的文本处理端候补规则,或者针对多种业务配置的文本处理端优先级规则,
则控制端可以根据对应待分段文本所属的第一业务的第一选取规则,从上述多个文本处理端中确定出第一文本处理端。其中,第一业务例如可以包括,会议业务,直播业务,即时通讯业务,或者授课业务等,在此不做具体限定。
101.进一步地,若第一选取规则为针对第一业务配置的文本处理端候补规则,则控制端可以从上述多个文本处理端中选取出该候补规则指示的首选文本处理端,并将该文本处理端确定为第一文本处理端。若第一选取规则为针对多种业务配置的文本处理端优先级规则,则控制端可以从上述多个文本处理端中选取出优先级最高的文本处理端,并将该文本处理端确定为第一文本处理端。
102.在确定出第一文本处理端后,控制端可以接着执行步骤206,将待分段文本发送至第一文本处理端。
103.接着,在步骤208中,第一文本处理端可以获取针对其配置的第一分段规则。例如,第一文本处理端可以从本地或远程数据库获取第一分段规则。其中,该第一分段规则例如可以包括,基于正则表达式的分段规则,或者基于文本相似度的分段规则等,在此不做具体限定。
104.在一些实施例中,第一分段规则可以对应匹配条件,该匹配条件用于检验该第一分段规则是否适用于待分段文本。基于此,在步骤208之后,第一文本处理端可以确定待分段文本是否满足匹配条件。若确定待分段文本满足匹配条件,则可以接着执行步骤210。若确定待分段文本不满足匹配条件,则可以生成用于指示待分段文本不满足匹配条件的第一处理结果,并接着执行步骤212。
105.其中,匹配条件例如可以包括,文字数量达到第二文字数量阈值,或者句子数量达到第二句子数量阈值,等等。
106.在步骤210中,第一文本处理端可以根据第一分段规则,对待分段文本进行分段处理,并生成第一处理结果。
107.作为一种实现方式,若第一分段规则包括基于正则表达式的分段规则,则文本处理端可以执行如图3所示的分段处理流程。其中,图3是采用基于正则表达式的分段规则的分段处理流程的一个示意图。
108.如图3所示,第一文本处理端可以执行步骤302,利用第一分段规则中的正则表达式匹配待分段文本中的句子。接着,可以执行步骤304或步骤306。其中,在步骤304中,若从待分段文本中匹配出句子,则可以为匹配出的句子添加分段标记,并生成包括第一分段信息的第一处理结果。其中,第一分段信息至少包括添加有分段标记的句子或该句子在待分段文本中的位置。
109.例如,假设待分段文本为“首先我们讲一下xxxxxx。其次xxxxxx。然后xxxxxx。”其中,“xxxxxx”代表文字,例如代表上百字的描述文字。若第一文本处理端利用正则表达式,从该待分段文本中匹配出分别包括“首先”、“其次”和“然后”的多个句子,则可以为该多个句子分别添加分段标记。以分段标记为“[分段]”为例,添加分段标记后的待分段文本可以为“[分段]首先我们讲一下xxxxxx。[分段]其次xxxxxx。[分段]然后xxxxxx。”[0110]
可选地,由于一个文本的第一个句子通常作为第一个段落的起始句子,因而第一文本处理端可以从待分段文本的第二个句子开始进行匹配。基于此,第一文本处理端利用正则表达式,例如可以从待分段文本中匹配出分别包括“其次”和“然后”的多个句子,并可
以为该多个句子分别添加分段标记。继续以分段标记为“[分段]”为例,添加分段标记后的待分段文本可以为“首先我们讲一下xxxxxx。[分段]其次xxxxxx。[分段]然后xxxxxx。”[0111]
在步骤306中,若未从待分段文本中匹配出句子,则可以生成用于指示未从待分段文本中匹配出有待换行的句子的第一处理结果。
[0112]
作为另一种实现方式,若第一分段规则包括基于文本相似度的分段规则,该分段规则包括句子间隔数和相似度阈值,则第一文本处理端可以执行如图4所示的分段处理流程。其中,图4是采用基于文本相似度的分段规则的分段处理流程的一个示意图。句子间隔数为大于等于0的整数。相似度阈值例如可以为0.5、0.6、0.8或0.9等,可以根据实际需求设置,在此不做具体限定。
[0113]
如图4所示,对于待分段文本中的第一句子,第一文本处理端可以执行步骤402,根据句子间隔数,从待分段文本中选取出位于第一句子之后的第二句子。通常,先从待分段文本的起始句子开始,将该起始句子作为第一句子。
[0114]
之后,第一文本处理端可以执行步骤404,计算第一句子和第二句子的相似度。具体地,可以计算第一句子和第二句子的语义相似度。实践中,可以采用余弦相似度(cosine similarity)算法、jaccard系数之类的公知的文本相似度计算方法来进行相似度计算。
[0115]
接着,第一文本处理端可以执行步骤406,判断计算出的相似度是否达到相似度阈值。若计算出的相似度未达到相似度阈值,则第一文本处理端可以执行步骤408,为第二句子添加分段标记,之后可以执行步骤410,然后可以执行步骤412或步骤416。若计算出的相似度达到相似度阈值,则第一文本处理端可以执行步骤410,然后可以执行步骤412、步骤414或步骤416。
[0116]
在步骤410中,第一文本处理端可以判断位于第二句子之后的句子的数量是否大于句子间隔数。若该数量大于句子间隔数,则表示第二句子之后还存在有待进行相似度计算的句子,此时可以接着执行步骤412。若该数量不大于句子间隔数,则表示第二句子之后不存在有待进行相似度计算的句子,此时可以接着执行步骤414或步骤416。
[0117]
在步骤412中,第一文本处理端可以将第二句子作为第一句子,并转去执行步骤402。
[0118]
在步骤414中,若待分段文本中不存在添加有分段标记的句子,则第一文本处理端可以生成用于指示未从待分段文本中匹配出有待换行的句子的第一处理结果。在步骤416中,若待分段文本中存在添加有分段标记的句子,则第一文本处理端可以生成包括第一分段信息的第一处理结果。该第一分段信息至少包括添加有分段标记的句子或该句子在待分段文本中的位置。
[0119]
继续参看图2对应的实施例,在第一文本处理端通过执行步骤210生成第一处理结果后,可以执行步骤212,将第一处理结果发送至控制端。
[0120]
接着,控制端可以执行步骤214,根据第一处理结果,获取目标文本。
[0121]
具体地,若第一处理结果包括第一分段信息,则控制端可以根据第一分段信息,获取待分段文本对应的经分段后的目标文本。
[0122]
作为一种实现方式,控制端可以根据第一分段信息,在待分段文本中对添加有分段标记的句子进行换行,并将经换行后的待分段文本确定为目标文本。
[0123]
继续以待分段文本“首先我们讲一下xxxxxx。其次xxxxxx。然后xxxxxx。”为例。若
第一分段信息包括“其次xxxxxx。”和“然后xxxxxx。”这两个句子,或者这两个句子在待分段文本中的位置,则控制端可以根据第一分段信息,在待分段文本中对这两个句子进行换行,并将经换行后的待分段文本确定为目标文本。其中,目标文本可以如下所示:
[0124]
首先我们讲一下xxxxxx。
[0125]
其次xxxxxx。
[0126]
然后xxxxxx。
[0127]
作为另一种实现方式,在获得包括第一分段信息的第一处理结果的基础上,控制端还可以利用其他文本处理端,对待分段文本中未添加有分段标记的句子进行分段处理。由此,可以提高分段准确度,以及进一步提升输出文本的可读性。
[0128]
参看图5,其是针对待分段文本中的第一内容的分段处理流程的一个示意图。如图5所示,控制端可以执行步骤502,确定待分段文本中的第一内容是否满足分段条件。其中,第一内容包括,以目标句子为起始句子且以待分段文本的最后一个句子为结束句子的内容。目标句子是在待分段文本中位置最靠后且添加有分段标记的句子。可以理解的是,目标句子是第一文本处理端最后一个匹配出的句子。分段条件例如可以包括文字数量达到第一文字数量阈值,或者句子数量达到第一句子数量阈值等,在此不做具体限定。
[0129]
若第一内容满足分段条件,则控制端可以执行步骤504,根据文本处理端选取规则,从上述多个文本处理端中确定出第二文本处理端(例如第一文本处理端的候补文本处理端,或者下一优先级的文本处理端)。接着,控制端可以执行步骤506,将第一内容发送至第二文本处理端。之后,第二文本处理端可以执行步骤508,获取针对其配置的分段规则。而后,第二文本处理端可以执行步骤510,根据分段规则,对第一内容进行分段处理,并生成第二处理结果。接着,第二文本处理端可以执行步骤512,将第二处理结果发送至控制端。然后,控制端可以执行步骤514,根据第一处理结果中的第一分段信息和第二处理结果,获取目标文本。
[0130]
其中,步骤508-512的具体实现方式,与步骤208-212的类似,在此不再赘述。
[0131]
进一步地,在步骤514中,若第二处理结果包括第二分段信息,则控制端可以根据第一分段信息和第二分段信息,在待分段文本中对添加有分段标记的句子进行换行,并将经换行后的待分段文本确定为目标文本。其中,第二分段信息中的信息项与第一分段信息中的类似,在此不再赘述。
[0132]
若第二处理结果指示第一内容不满足匹配条件,或者未从第一内容中匹配出有待换行的句子,则控制端可以确定上述多个文本处理端中是否存在尚未执行分段处理的文本处理端。若存在,则控制端可以将第二文本处理端作为第一文本处理端,并转去执行步骤504。若不存在,则控制端可以根据已获取的分段信息(如第一分段信息),在待分段文本中对添加有分段标记的句子进行换行,并将经换行后的待分段文本确定为目标文本。
[0133]
在一些实施例中,若第二处理结果包括第二分段信息,为了进一步提高分段准确度,以及进一步提高输出文本的可读性,在上述多个文本处理端中还存在尚未执行分段处理操作的文本处理端的情况下,还可以针对待分段文本当前的第一内容,执行类似于图5所示的分段处理流程。
[0134]
在一些实施例中,若第一内容不满足分段条件,则控制端可以根据第一分段信息,在待分段文本中对添加有分段标记的句子进行换行,并将经换行后的待分段文本确定为目
标文本。
[0135]
以上介绍了在第一处理结果包括第一分段信息的情况下的处理过程。在一些实施例中,若第一处理结果指示待分段文本不满足匹配条件,或者未从待分段文本中匹配出有待换行的句子,则控制端可以执行如图6所示的分段处理流程。其中,图6是针对待分段文本的分段处理流程的一个示意图。
[0136]
如图6所示,控制端可以执行步骤602,根据文本处理端选取规则,从上述多个文本处理端中确定出第二文本处理端。之后,控制端可以执行步骤604,将待分段文本发送至第二文本处理端。而后,第二文本处理端可以执行步骤606,获取针对其配置的第二分段规则。接着,第二文本处理端可以执行步骤608,根据第二分段规则,对待分段文本进行分段处理,并生成第三处理结果。再接着,第二文本处理端可以执行步骤610,将第三处理结果发送至控制端。然后,控制端可以执行步骤612,根据第三处理结果,获取目标文本。
[0137]
其中,根据第三处理结果获取目标文本的具体实施方式,与根据第一处理结果获取目标文本的具体实施方式类似,在此不再赘述。
[0138]
继续参看图2对应的实施例,在执行完步骤214后,控制端可以输出目标文本。例如,可以将目标文本提供给相应的用户,或者将目标文本发送至相应的下游处理端,以使得下游处理端对目标文本进行相应的处理。
[0139]
图2对应的实施例提供的文本处理方法,通过对多个文本处理端的提供,以及使得控制端在该多个文本处理端中确定出适用于待分段文本的文本处理端,并利用该文本处理端对待分段文本进行分段处理,可以有效提升输出文本的可读性。
[0140]
另外,在将目标文本提供给用户时,可以有效提升用户的阅读效率,以及极大提升用户体验。在将目标文本发送至下游处理端时,可以有效提升下游处理端的任务处理性能。此外,通过对多个文本处理端的提供,可以实现基于多种分段规则,对待分段文本进行分段处理,能极大提升输出文本的可读性和展示效果。
[0141]
实践中,文本处理端可以通过对规则原子组件进行实例化而获得。其中,规则原子组件可以作用为模板。具体地,规则原子组件可以包括初始化模块,条件检查模块,逻辑运行模块和结果输出模块。初始化模块可以用于分段规则的加载。条件检查模块可以用于检查待分段文本是否满足该分段规则对应的匹配条件。逻辑运行模块可以用于执行具体的分段逻辑。结果输出模块可以用于输出逻辑运行模块的处理结果。
[0142]
因此,可以利用不同的分段规则对规则原子模块进行实例化,从而可以很方便的引入不限量以及各类差异化的文本处理端,同时保证各分段规则运行的优先级的正确性,进而可以提高规则分段的性能。另外,还可以保证规则开发的便捷性和可扩展性。
[0143]
在一些实施例中,在步骤202之前,控制端还可以接收并保存针对多个文本处理端分别配置的分段规则,接收并保存文本处理端选取规则,和/或接收并保存分段条件。其中,控制端可以将所接收分段规则、文本处理端选取规则和/或分段条件保存至本地或者远程数据库,在此不做具体限定。
[0144]
在一些实施例中,控制端可以接收针对与文本分段有关的规则或分段条件的更新指令,并根据更新指令,执行相应的更新操作。其中,该更新指令可以包括添加指令,删除指令,或者修改指令等。
[0145]
以分段规则为例,若接收到针对分段规则的添加指令,则可以根据该添加指令,对
待添加的分段规则进行保存。若接收到针对分段规则的删除指令,则可以根据该删除指令,对待删除的分段规则进行删除。若接收到针对分段规则的修改指令,则可以根据该修改指令,对待修改的分段规则进行修改。
[0146]
由于控制端能够接收更新指令,并根据更新指令执行相应的更新操作,因此,控制端能支持用户显式的进行规则的修改和编辑,具有更好的可解释性,同时可以进行错误案例的快速修复。
[0147]
以上介绍了与文本处理有关的方案。实践中,本说明书中的文本处理方案可以应用于多种场景,例如会议场景,直播场景,即时通讯场景,教育场景,等等。
[0148]
参看图7,其是基于会议的文本处理方法的一个示意图。在会议场景中,控制端可以执行步骤706,从语音识别系统接收待分段文本。其中,该待分段文本通过对会议语音进行转换而获得。具体地,在步骤706之前,会议系统例如可以执行步骤702,将所获取的会议语音发送至语音识别系统。语音识别系统可以执行步骤704,采用语音转换算法,将会议语音转换成文本,并将该文本作为待分段文本。
[0149]
在步骤706之后,控制端可以执行步骤708,根据文本处理端选取规则,从多个文本处理端中确定出用于对待分段文本进行分段处理的第一文本处理端。而后,控制端可以执行步骤710,将待分段文本发送至第一文本处理端。之后,第一文本处理端可以执行步骤712,获取针对其配置的第一分段规则。接着,第一文本处理端可以执行步骤714,根据第一分段规则,对待分段文本进行分段处理,并生成第一处理结果。再接着,第一文本处理端可以执行步骤716,将所生成的第一处理结果返回给控制端。然后,控制端可以执行步骤718,根据第一处理结果,获取待分段文本对应的经分段后的目标文本。最后,控制端可以执行步骤720,输出目标文本。
[0150]
参看图8,其是基于即时通讯的文本处理方法的一个示意图。在即时通讯场景中,控制端可以执行步骤806,从语音识别系统接收待分段文本。其中,该待分段文本通过对聊天语音进行转换而获得。具体地,在步骤806之前,用户的终端设备可以响应于该用户针对聊天语音的语音转换操作,而执行步骤802,向语音转换系统发送将聊天语音转换成文本的请求,该请求包括该聊天语音。语音识别系统可以执行步骤804,采用语音转换算法,将聊天语音转换成文本,并将该文本作为待分段文本。
[0151]
在步骤806之后,控制端可以执行步骤808,根据文本处理端选取规则,从多个文本处理端中确定出用于对待分段文本进行分段处理的第一文本处理端。而后,控制端可以执行步骤810,将待分段文本发送至第一文本处理端。之后,第一文本处理端可以执行步骤812,获取针对其配置的第一分段规则。接着,第一文本处理端可以执行步骤814,根据第一分段规则,对待分段文本进行分段处理,并生成第一处理结果。再接着,第一文本处理端可以执行步骤816,将所生成的第一处理结果返回给控制端。然后,控制端可以执行步骤818,根据第一处理结果,获取待分段文本对应的经分段后的目标文本。最后,控制端可以执行步骤820,将目标文本提供给用户,例如将目标文本发送至终端设备,由终端设备向用户展示目标文本。
[0152]
在直播场景中,控制端可以从语音识别系统接收待分段文本,该待分段文本通过对直播语音进行转换而获得。具体地,在控制端从语音识别系统接收待分段文本之前,直播系统例如可以将所获取的直播语音发送至语音识别系统。语音识别系统可以采用语音转换
算法,将直播语音转换成文本,并将该文本作为待分段文本。控制端在从语音识别系统接收待分段文本之后,可以根据文本处理端选取规则,从多个文本处理端中确定出用于对待分段文本进行分段处理的第一文本处理端。而后,控制端可以将待分段文本发送至第一文本处理端。之后,第一文本处理端可以获取针对其配置的第一分段规则。接着,第一文本处理端可以根据第一分段规则,对待分段文本进行分段处理,并生成第一处理结果。再接着,第一文本处理端可以将所生成的第一处理结果返回给控制端。然后,控制端可以根据第一处理结果,获取待分段文本对应的经分段后的目标文本。最后,控制端可以输出目标文本。
[0153]
在教育场景中,控制端可以从语音识别系统接收待分段文本,该待分段文本通过对授课语音进行转换而获得。具体地,在控制端从语音识别系统接收待分段文本之前,教育系统例如可以将所获取的授课语音发送至语音识别系统。语音识别系统可以采用语音转换算法,将授课语音转换成文本,并将该文本作为待分段文本。控制端在从语音识别系统接收待分段文本之后,可以根据文本处理端选取规则,从多个文本处理端中确定出用于对待分段文本进行分段处理的第一文本处理端。而后,控制端可以将待分段文本发送至第一文本处理端。之后,第一文本处理端可以获取针对其配置的第一分段规则。接着,第一文本处理端可以根据第一分段规则,对待分段文本进行分段处理,并生成第一处理结果。再接着,第一文本处理端可以将所生成的第一处理结果返回给控制端。然后,控制端可以根据第一处理结果,获取待分段文本对应的经分段后的目标文本。最后,控制端可以输出目标文本。
[0154]
以上介绍了文本处理方法在会议场景、即时通讯场景、直播场景和教育场景下的应用。对于文本处理方法在其他场景下的应用,可以根据以上描述的内容类推得到,在此不再一一举例说明。
[0155]
进一步参考图9,本说明书提供了一种文本处理装置的一个实施例,该装置可以应用于如图1所示的控制端。
[0156]
如图9所示,本实施例的文本处理装置900包括:接收单元901、确定单元902、发送单元903和处理单元904。其中,接收单元901被配置成接收待分段文本;确定单元902被配置成根据文本处理端选取规则,从多个文本处理端中确定出用于对待分段文本进行分段处理的第一文本处理端;发送单元903被配置成将待分段文本发送至第一文本处理端,以使得第一文本处理端根据相应的第一分段规则,对待分段文本进行分段处理;处理单元904被配置成响应于从第一文本处理端接收到针对待分段文本的第一处理结果,根据第一处理结果,获取待分段文本对应的经分段后的目标文本,并输出目标文本。
[0157]
在一些实施例中,文本处理端选取规则包括,对应待分段文本所属的第一业务的第一选取规则。
[0158]
在一些实施例中,第一选取规则可以包括以下任一项:针对第一业务配置的文本处理端候补规则;针对多种业务配置的文本处理端优先级规则,第一业务包含在该多种业务中。
[0159]
在一些实施例中,处理单元904可以包括:第一处理子单元(图中未示出),被配置成若第一处理结果包括第一分段信息,则根据第一分段信息,获取目标文本,其中,第一分段信息至少包括添加有分段标记的句子或该句子在待分段文本中的位置。
[0160]
在一些实施例中,第一处理子单元可以包括:第一处理模块(图中未示出),被配置成根据第一分段信息,在待分段文本中对添加有分段标记的句子进行换行;将经换行后的
待分段文本确定为目标文本。
[0161]
在一些实施例中,第一处理子单元可以包括:第二处理模块(图中未示出),被配置成确定待分段文本中的第一内容是否满足分段条件,第一内容包括,以目标句子为起始句子且以待分段文本的最后一个句子为结束句子的内容,目标句子是在待分段文本中位置最靠后且添加有分段标记的句子;若第一内容满足分段条件,则根据文本处理端选取规则,从上述多个文本处理端中确定出第二文本处理端;将第一内容发送至第二文本处理端,以使得第二文本处理端根据相应的第二分段规则,对第一内容进行分段处理;响应于从第二文本处理端接收到针对第一内容的第二处理结果,根据第一分段信息和第二处理结果,获取目标文本。
[0162]
在一些实施例中,第二处理模块还可以被配置成:若第一内容不满足分段条件,则根据第一分段信息,在待分段文本中对添加有分段标记的句子进行换行,并将经换行后的待分段文本确定为目标文本。
[0163]
在一些实施例中,第二处理模块可以进一步被配置成:若第二处理结果包括第二分段信息,则根据第一分段信息和第二分段信息,在待分段文本中对添加有分段标记的句子进行换行,并将经换行后的待分段文本确定为目标文本。
[0164]
在一些实施例中,分段条件可以包括以下任一项:文字数量达到第一文字数量阈值、句子数量达到第一句子数量阈值。
[0165]
在一些实施例中,第一分段规则对应匹配条件;以及处理单元904可以包括:第二处理子单元(图中未示出),被配置成若第一处理结果指示待分段文本不满足匹配条件,或者未从待分段文本中匹配出有待换行的句子,则根据文本处理端选取规则,从上述多个文本处理端中确定出第二文本处理端;将待分段文本发送至第二文本处理端,以使得第二文本处理端根据相应的第二分段规则,对待分段文本进行分段处理;响应于从第二文本处理端接收到针对待分段文本的第三处理结果,根据第三处理结果,获取目标文本。
[0166]
在一些实施例中,匹配条件可以包括以下任一项:文字数量达到第二文字数量阈值、句子数量达到第二句子数量阈值。
[0167]
在一些实施例中,接收单元901可以进一步被配置成:从语音识别系统接收待分段文本,待分段文本通过对目标语音进行转换而获得。
[0168]
在一些实施例中,目标语音可以属于以下任一种:会议语音、聊天语音、直播语音、授课语音。
[0169]
在一些实施例中,第一分段规则可以包括以下任一项:基于正则表达式的分段规则、基于文本相似度的分段规则。
[0170]
在一些实施例中,接收单元901还可以被配置成:接收并保存针对上述多个文本处理端分别配置的分段规则。
[0171]
在一些实施例中,接收单元901还可以被配置成:接收并保存文本处理端选取规则。
[0172]
在一些实施例中,接收单元901还可以被配置成:接收针对与文本分段有关的规则的更新指令;以及上述装置900还可以包括:更新单元(图中未示出),根据更新指令,执行相应的更新操作。
[0173]
在一些实施例中,更新指令可以包括以下任一项:添加指令、删除指令、修改指令。
[0174]
在一些实施例中,处理单元904可以进一步被配置成:将目标文本提供给相应的用户;或者,将目标文本发送至相应的下游处理端。
[0175]
在一些实施例中,下游处理端可以包括以下任一种处理端:文本翻译端、信息抽取端、文本存储端。
[0176]
进一步参考图10,本说明书提供了一种文本处理装置的一个实施例,该装置可以应用于如图1所示的多个文本处理端中任意的文本处理端。
[0177]
如图10所示,本实施例的文本处理装置1000包括:获取单元1001、处理单元1002和发送单元1003。其中,获取单元1001被配置成响应于接收到控制端发送的文本信息,获取针对文本处理端配置的分段规则,其中,文本信息包括待分段文本,或者待分段文本中的第一内容;处理单元1002被配置成根据分段规则,对文本信息进行分段处理,并生成处理结果;发送单元1003被配置成将所生成的处理结果返回给控制端,以使得控制端至少根据该处理结果,获取待分段文本对应的经分段后的目标文本。
[0178]
在一些实施例中,分段规则对应匹配条件;以及上述装置1000还可以包括:确定单元(图中未示出),被配置成在获取单元1001获取针对文本处理端配置的分段规则之后,确定文本信息是否满足匹配条件;以及处理单元1002可以进一步被配置成:响应于确定单元确定文本信息满足匹配条件,根据分段规则,对文本信息进行分段处理。
[0179]
在一些实施例中,处理单元1002可以进一步被配置成:响应于确定单元确定文本信息不满足匹配条件,生成用于指示文本信息不满足匹配条件的处理结果。
[0180]
在一些实施例中,分段规则包括基于正则表达式的分段规则;以及处理单元1002可以进一步被配置成:利用分段规则中的正则表达式匹配文本信息中的句子;若从文本信息中匹配出句子,则为匹配出的句子添加分段标记,并生成包括分段信息的处理结果,分段信息至少包括添加有分段标记的句子或该句子在文本信息中的位置。
[0181]
在一些实施例中,处理单元1002可以进一步被配置成:若未从文本信息中匹配出句子,则生成用于指示未从文本信息中匹配出有待换行的句子的处理结果。
[0182]
在一些实施例中,分段规则包括基于文本相似度的分段规则,该分段规则包括句子间隔数和相似度阈值;以及处理单元1002可以进一步被配置成:对于文本信息中的第一句子,根据句子间隔数,从文本信息中选取出位于第一句子之后的第二句子;计算第一句子和第二句子的相似度;若相似度未达到相似度阈值,则为第二句子添加分段标记。
[0183]
在一些实施例中,处理单元1002可以进一步被配置成:在为第二句子添加分段标记之后,若位于第二句子之后的句子的数量不大于句子间隔数,则生成包括分段信息的处理结果,分段信息至少包括添加有分段标记的句子或该句子在文本信息中的位置。
[0184]
在一些实施例中,处理单元1002可以进一步被配置成:若相似度达到相似度阈值,并且位于第二句子之后的句子的数量不大于句子间隔数,以及文本信息中不存在添加有分段标记的句子,则生成用于指示未从文本信息中匹配出有待换行的句子的处理结果。
[0185]
在一些实施例中,处理单元1002可以进一步被配置成:在确定相似度达到相似度阈值之后,或者在为第二句子添加分段标记之后,若位于第二句子之后的句子的数量大于句子间隔数,则将第二句子作为第一句子,继续执行上述根据句子间隔数,从文本信息中选取出位于第一句子之后的第二句子。
[0186]
本说明书实施例还提供了一种文本处理装置,可以应用于如图1所示的控制端,包
括:接收单元,被配置成从语音识别系统接收待分段文本,待分段文本通过对目标语音进行转换而获得;确定单元,被配置成根据文本处理端选取规则,从多个文本处理端中确定出用于对待分段文本进行分段处理的第一文本处理端;发送单元,被配置成将待分段文本发送至第一文本处理端,以使得第一文本处理端根据相应的第一分段规则,对待分段文本进行分段处理;处理单元,被配置成响应于从第一文本处理端接收到针对待分段文本的第一处理结果,根据第一处理结果,获取待分段文本对应的经分段后的目标文本,并输出目标文本。
[0187]
本说明书实施例还提供了一种文本处理装置,可以应用于如图1所示的多个文本处理端中任意的文本处理端,包括:获取单元,被配置成响应于接收到控制端发送的文本信息,获取针对文本处理端配置的分段规则,其中,文本信息包括待分段文本,或者待分段文本中的第一内容,待分段文本通过对目标语音进行转换而获得;处理单元,被配置成根据分段规则,对文本信息进行分段处理,并生成处理结果;发送单元,被配置成将所生成的处理结果返回给控制端,以使得控制端至少根据该处理结果,获取待分段文本对应的经分段后的目标文本。
[0188]
本说明书实施例还提供了一种基于会议的文本处理装置,可以应用于如图1所示的控制端,包括:接收单元,被配置成从语音识别系统接收待分段文本,待分段文本通过对会议语音进行转换而获得;确定单元,被配置成根据文本处理端选取规则,从多个文本处理端中确定出用于对待分段文本进行分段处理的第一文本处理端;发送单元,被配置成将待分段文本发送至第一文本处理端,以使得第一文本处理端根据相应的第一分段规则,对待分段文本进行分段处理;处理单元,被配置成响应于从第一文本处理端接收到针对待分段文本的第一处理结果,根据第一处理结果,获取待分段文本对应的经分段后的目标文本,并输出目标文本。
[0189]
本说明书实施例还提供了一种基于会议的文本处理装置,可以应用于如图1所示的多个文本处理端中任意的文本处理端,包括:获取单元,被配置成响应于接收到控制端发送的文本信息,获取针对文本处理端配置的分段规则,其中,文本信息包括待分段文本,或者待分段文本中的第一内容,待分段文本通过对会议语音进行转换而获得;处理单元,被配置成根据分段规则,对文本信息进行分段处理,并生成处理结果;发送单元,被配置成将所生成的处理结果返回给控制端,以使得控制端至少根据该处理结果,获取待分段文本对应的经分段后的目标文本。
[0190]
本说明书实施例还提供了一种基于即时通讯的文本处理装置,可以应用于如图1所示的控制端,包括:接收单元,被配置成从语音识别系统接收待分段文本,待分段文本通过对聊天语音进行转换而获得;确定单元,被配置成根据文本处理端选取规则,从多个文本处理端中确定出用于对待分段文本进行分段处理的第一文本处理端;发送单元,被配置成将待分段文本发送至第一文本处理端,以使得第一文本处理端根据相应的第一分段规则,对待分段文本进行分段处理;处理单元,被配置成响应于从第一文本处理端接收到针对待分段文本的第一处理结果,根据第一处理结果,获取待分段文本对应的经分段后的目标文本,并输出目标文本。
[0191]
本说明书实施例还提供了一种基于即时通讯的文本处理装置,可以应用于如图1所示的多个文本处理端中任意的文本处理端,包括:获取单元,被配置成响应于接收到控制
端发送的文本信息,获取针对文本处理端配置的分段规则,其中,文本信息包括待分段文本,或者待分段文本中的第一内容,待分段文本通过对聊天语音进行转换而获得;处理单元,被配置成根据分段规则,对文本信息进行分段处理,并生成处理结果;发送单元,被配置成将所生成的处理结果返回给控制端,以使得控制端至少根据该处理结果,获取待分段文本对应的经分段后的目标文本。
[0192]
本说明书实施例还提供了一种基于直播的文本处理装置,可以应用于如图1所示的控制端,包括:接收单元,被配置成从语音识别系统接收待分段文本,待分段文本通过对直播语音进行转换而获得;确定单元,被配置成根据文本处理端选取规则,从多个文本处理端中确定出用于对待分段文本进行分段处理的第一文本处理端;发送单元,被配置成将待分段文本发送至第一文本处理端,以使得第一文本处理端根据相应的第一分段规则,对待分段文本进行分段处理;处理单元,被配置成响应于从第一文本处理端接收到针对待分段文本的第一处理结果,根据第一处理结果,获取待分段文本对应的经分段后的目标文本,并输出目标文本。
[0193]
本说明书实施例还提供了一种基于直播的文本处理装置,可以应用于如图1所示的多个文本处理端中任意的文本处理端,包括:获取单元,被配置成响应于接收到控制端发送的文本信息,获取针对文本处理端配置的分段规则,其中,文本信息包括待分段文本,或者待分段文本中的第一内容,待分段文本通过对直播语音进行转换而获得;处理单元,被配置成根据分段规则,对文本信息进行分段处理,并生成处理结果;发送单元,被配置成将所生成的处理结果返回给控制端,以使得控制端至少根据处理结果,获取待分段文本对应的经分段后的目标文本。
[0194]
本说明书实施例还提供了一种基于教育的文本处理装置,可以应用于如图1所示的控制端,包括:接收单元,被配置成从语音识别系统接收待分段文本,待分段文本通过对授课语音进行转换而获得;确定单元,被配置成根据文本处理端选取规则,从多个文本处理端中确定出用于对待分段文本进行分段处理的第一文本处理端;发送单元,被配置成将待分段文本发送至第一文本处理端,以使得第一文本处理端根据相应的第一分段规则,对待分段文本进行分段处理;处理单元,被配置成响应于从第一文本处理端接收到针对待分段文本的第一处理结果,根据第一处理结果,获取待分段文本对应的经分段后的目标文本,并输出目标文本。
[0195]
本说明书实施例还提供了一种基于教育的文本处理装置,可以应用于如图1所示的多个文本处理端中任意的文本处理端,包括:获取单元,被配置成响应于接收到控制端发送的文本信息,获取针对文本处理端配置的分段规则,其中,文本信息包括待分段文本,或者待分段文本中的第一内容,待分段文本通过对授课语音进行转换而获得;处理单元,被配置成根据分段规则,对文本信息进行分段处理,并生成处理结果;发送单元,被配置成将所生成的处理结果返回给控制端,以使得控制端至少根据处理结果,获取待分段文本对应的经分段后的目标文本。
[0196]
在以上各装置实施例中,各单元的具体处理及其带来的技术效果可分别参考前文中的方法实施例的相关说明,在此不再赘述。
[0197]
本说明书实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其中,当该计算机程序在计算机中执行时,令计算机执行以上各方法实施例分别所示的文本
处理方法。
[0198]
本说明书实施例还提供了一种计算设备,包括存储器和处理器,其中,该存储器中存储有可执行代码,该处理器执行该可执行代码时,实现以上各方法实施例分别所示的文本处理方法。
[0199]
本说明书实施例还提供了一种计算机程序,其中,当该计算机程序在计算机中执行时,令计算机执行以上各方法实施例分别所示的文本处理方法。
[0200]
本领域技术人员应该可以意识到,在上述一个或多个示例中,本说明书披露的多个实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
[0201]
在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0202]
以上所述的具体实施方式,对本说明书披露的多个实施例的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本说明书披露的多个实施例的具体实施方式而已,并不用于限定本说明书披露的多个实施例的保护范围,凡在本说明书披露的多个实施例的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本说明书披露的多个实施例的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1