1.本发明涉及数据传输领域,特别涉及一种文本转化方法及相关装置。
背景技术:2.传统文学存在小说和剧本两种载体模式,小说文本无特定规范,而文学剧本更加具有文字的画面感,因此将小说文本转化为剧本文本,成为了本领域人员亟待解决的技术问题,目前尚无方案可以解决,一般是通过人工进行改写和转化,效率较低。
技术实现要素:3.鉴于上述问题,本发明提供一种克服上述问题或者至少部分地解决上述问题的一种文本转化方法及相关装置。
4.第一方面,一种文本转化方法,包括:
5.获得小说的第一原始文本块,其中,所述第一原始文本块包括多段小说文本;
6.针对所述第一原始文本块,并行执行逻辑a和逻辑b,其中,所述逻辑a包括步骤a100,所述逻辑b包括步骤b100、步骤b200、步骤b300、步骤b400和步骤b500;
7.所述步骤a100、若所述第一原始文本块中存在n段连续且均被双引号囊括整段内容的小说文本,则针对所述n段连续的小说文本,使用预先训练的第一模型识别对应的说话人标识;
8.所述步骤b100、针对所述第一原始文本块中的任一段所述小说文本,若所述小说文本中携带有说话人信息,则根据所述说话人信息识别所述小说文本对应的说话人标识;
9.所述步骤b200、若所述小说文本中未携带有说话人信息,则将所述小说文本和对应的上下文输入至使用预先训练的第二模型,并获得所述第二模型针对所述未携带有说话人信息的小说文本的说话人标识的识别结果;
10.所述步骤b300、若所述识别结果为未识别到说话人标识,则确定对应的小说文本的文本行类型,其中,所述文本行类型包括无旁白对话行、带旁白对话行和其他行;
11.所述步骤b400、若所述小说文本的文本行类型是所述无旁白对话行或者所述带旁白对话行,则通过执行相应的第一识别逻辑,识别所述小说文本的说话人标识;
12.所述步骤b500、若所述小说文本的文本行类型是所述其他行,则通过执行相应的第二识别逻辑,识别所述小说文本对应的场景信息或者行为信息;
13.根据所述逻辑a和所述逻辑b识别得到的各所述说话人标识、所述场景信息和所述行为信息,构建与所述第一原始文本块对应的剧本块。
14.结合第一方面,在某些可选的实施方式中,所述步骤b300,包括:
15.若所述识别结果为未识别到说话人标识且对应的所述小说文本整段内容被双引号囊括,则确定所述小说文本的文本行类型为无旁白对话行;
16.若所述识别结果为未识别到说话人标识且对应的所述小说文本部分内容被双引号囊括且被双引号囊括的内容不包括预设关键字,则确定所述小说文本的文本行类型为带
旁白对话行;
17.若所述识别结果为未识别到说话人标识且对应的所述小说文本未携带有双引号,或者,若所述识别结果为未识别到说话人标识且对应的所述小说文本部分内容被双引号囊括且被双引号囊括的内容包括预设关键字,则确定所述小说文本的文本行类型为其他行。
18.结合第一方面,在某些可选的实施方式中,所述步骤b400,包括:
19.若所述小说文本的文本行类型是所述无旁白对话行,则确定所述小说文本的上一段小说文本和下一段小说文本是否均被双引号囊括整段内容;
20.若所述小说文本的上一段小说文本和下一段小说文本未均被双引号囊括整段内容,则确定所述小说文本的说话人标识为预设标识;
21.若所述小说文本的上一段小说文本和下一段小说文本均被双引号囊括整段内容,则确定所述上一段小说文本的前一段小说文本中是否携带有说话人信息和确定所述下一段小说文本的后一段小说文本中是否携带有说话人信息;
22.若所述前一段小说文本中携带有说话人信息和/或所述后一段小说文本中携带有说话人信息,则根据所述说话人信息,确定所述小说文本的说话人标识;
23.若所述前一段小说文本和所述后一段小说文本中均未携带有说话人信息,则确定所述小说文本的说话人标识为所述预设标识;
24.若所述小说文本的文本行类型是所述带旁白对话行,则将所述小说文本输入至使用预先训练的第三模型,并获得所述第三模型针对所述小说文本的说话人标识的识别结果。
25.结合上一个实施方式,在某些可选的实施方式中,所述若所述前一段小说文本中携带有说话人信息和/或所述后一段小说文本中携带有说话人信息,则根据所述说话人信息,确定所述小说文本的说话人标识,包括:
26.若所述前一段小说文本中携带有说话人信息,则根据所述前一段小说文本中携带的说话人信息,确定所说小说文本的说话人标识;
27.若所述前一段小说文本中未携带有说话人信息且所述后一段小说文本中携带有说话人信息,则根据所述后一段小说文本中携带的说话人信息,确定所说小说文本的说话人标识。
28.可选的,在某些可选的实施方式中,所述若所述小说文本的文本行类型是所述带旁白对话行,则将所述小说文本输入至使用预先训练的第三模型,并获得所述第三模型针对所述小说文本的说话人标识的识别结果,包括:
29.将所述小说文本输入至使用预先训练的第三模型;
30.若所述第三模型识别得到相应的说话人标识,则获得所述第三模型输出的所述说话人标识;
31.若所述第三模型未识别得到相应的说话人标识,则确定所述小说文本的说话人标识为所述预设标识。
32.结合第一方面,在某些可选的实施方式中,所述步骤b500,包括:
33.若所述小说文本的文本行类型是所述其他行,则将所述小说文本输入至场景行识别模型;
34.若所述场景行识别模型确定所述小说文本是场景行,则通过场景词识别模型,识
别所述小说文本的场景词;
35.若所述场景词识别模型识别到所述小说文本的场景词,则获得所述场景词作为所述小说文本的场景信息;
36.若所述场景词识别模型未识别到所述小说文本的场景词或者所述场景行识别模型确定所述小说文本不是场景行,则将所述小说文本输入至行为识别模型;
37.若所述行为识别模型确定所述小说文本是行为行,则将所述小说文本按预设符号进行分割,从而得到行为信息。
38.结合第一方面,在某些可选的实施方式中,所述根据所述逻辑a和所述逻辑b识别得到的各所述说话人标识、所述场景信息和所述行为信息,构建与所述第一原始文本块对应的剧本块,包括:
39.针对所述第一原始文本块的任一段所述小说文本,若所述逻辑a识别得到说话人标识,则根据剧本格式和所述逻辑a识别到的说话人标识,将所述小说文本修改为对话剧本;
40.若所述逻辑a未识别得到说话人标识且所述逻辑b识别得到说话人标识,则根据所述剧本格式和所述逻辑b识别到的说话人标识,将所述小说文本修改为对话剧本;
41.若所述逻辑b识别得到场景信息,则根据所述剧本格式和所述逻辑b识别到的场景信息,将所述小说文本修改为场景剧本;
42.若所述逻辑b识别得到行为信息,则根据所述剧本格式和所述逻辑b识别到的行为信息,将所述小说文本修改为行为剧本。
43.第二方面,一种文本转化装置,包括:原始文本获得单元、文本处理单元和剧本构建单元;
44.所述原始文本获得单元,用于获得小说的第一原始文本块,其中,所述第一原始文本块包括多段小说文本;
45.所述文本处理单元,用于针对所述第一原始文本块,并行执行逻辑a和逻辑b,其中,所述逻辑a包括步骤a100,所述逻辑b包括步骤b100、步骤b200、步骤b300、步骤b400和步骤b500;
46.所述步骤a100、若所述第一原始文本块中存在n段连续且均被双引号囊括整段内容的小说文本,则针对所述n段连续的小说文本,使用预先训练的第一模型识别对应的说话人标识;
47.所述步骤b100、针对所述第一原始文本块中的任一段所述小说文本,若所述小说文本中携带有说话人信息,则根据所述说话人信息识别所述小说文本对应的说话人标识;
48.所述步骤b200、若所述小说文本中未携带有说话人信息,则将所述小说文本和对应的上下文输入至使用预先训练的第二模型,并获得所述第二模型针对所述未携带有说话人信息的小说文本的说话人标识的识别结果;
49.所述步骤b300、若所述识别结果为未识别到说话人标识,则确定对应的小说文本的文本行类型,其中,所述文本行类型包括无旁白对话行、带旁白对话行和其他行;
50.所述步骤b400、若所述小说文本的文本行类型是所述无旁白对话行或者所述带旁白对话行,则通过执行相应的第一识别逻辑,识别所述小说文本的说话人标识;
51.所述步骤b500、若所述小说文本的文本行类型是所述其他行,则通过执行相应的
第二识别逻辑,识别所述小说文本对应的场景信息或者行为信息;
52.所述剧本构建单元,用于根据所述逻辑a和所述逻辑b识别得到的各所述说话人标识、所述场景信息和所述行为信息,构建与所述第一原始文本块对应的剧本块。
53.第三方面,一种计算机可读存储介质,其上存储有程序,所述程序被处理器执行时实现上述任一项所述的文本转化方法。
54.第四方面,一种电子设备,所述电子设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行上述任一项所述的文本转化方法。
55.借由上述技术方案,本发明提供的一种文本转化方法及相关装置,可以通过获得小说的第一原始文本块,其中,所述第一原始文本块包括多段小说文本;针对所述第一原始文本块,并行执行逻辑a和逻辑b,其中,所述逻辑a包括步骤a100,所述逻辑b包括步骤b100、步骤b200、步骤b300、步骤b400和步骤b500;所述步骤a100、若所述第一原始文本块中存在n段连续且均被双引号囊括整段内容的小说文本,则针对所述n段连续的小说文本,使用预先训练的第一模型识别对应的说话人标识;所述步骤b100、针对所述第一原始文本块中的任一段所述小说文本,若所述小说文本中携带有说话人信息,则根据所述说话人信息识别所述小说文本对应的说话人标识;所述步骤b200、若所述小说文本中未携带有说话人信息,则将所述小说文本和对应的上下文输入至使用预先训练的第二模型,并获得所述第二模型针对所述未携带有说话人信息的小说文本的说话人标识的识别结果;所述步骤b300、若所述识别结果为未识别到说话人标识,则确定对应的小说文本的文本行类型,其中,所述文本行类型包括无旁白对话行、带旁白对话行和其他行;所述步骤b400、若所述小说文本的文本行类型是所述无旁白对话行或者所述带旁白对话行,则通过执行相应的第一识别逻辑,识别所述小说文本的说话人标识;所述步骤b500、若所述小说文本的文本行类型是所述其他行,则通过执行相应的第二识别逻辑,识别所述小说文本对应的场景信息或者行为信息;根据所述逻辑a和所述逻辑b识别得到的各所述说话人标识、所述场景信息和所述行为信息,构建与所述第一原始文本块对应的剧本块。由此可以看出,本发明可以自动将小说文本准确转化为对应的剧本块,无需人工参与,效率较高。
56.上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
57.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
58.图1示出了本发明提供的一种文本转化方法的流程图;
59.图2示出了本发明提供的一种文本转化装置的结构示意图;
60.图3示出了本发明提供的一种电子设备的结构示意图。
具体实施方式
61.下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
62.如图1所示,本发明提供了一种文本转化方法,包括:s100、s200和s300;
63.s100、获得小说的第一原始文本块,其中,所述第一原始文本块包括多段小说文本;
64.可选的,一般而言,一篇小说可以分为多个章节,一个章节可以包括多段小说文本,本发明所说的第一原始文本块可以是一个章节的各段小说文本。
65.s200、针对所述第一原始文本块,并行执行逻辑a和逻辑b,其中,所述逻辑a包括步骤a100,所述逻辑b包括步骤b100、步骤b200、步骤b300、步骤b400和步骤b500;
66.可选的,本发明可以根据第一原始文本块,转化得到对应的剧本块。即,将小说文本转化为剧本格式的文本,由于剧本格式所要求的内容与小说文本所要求的内容有所不同。因此,本发明可以结合剧本格式的要求,从小说文本中确定对应的要素,然后构建得到对应的剧本块,本发明对此不做限制。
67.可选的,一般而言,剧本块中可以涉及对话剧本、行为剧本和场景剧本等。对话剧本指的是多个角色之间来回进行对话,一般采用“说话人标识:说话内容”的格式进行展示;场景剧本指的是剧本不同桥段所对应的场景描述内容,即角色在不同桥段所处于的场景活动,一般通过在剧本中设置场景词进行展示;角色在进行对话或者进行其他场景活动时,可以发生相应的行为,即角色所做出的动作可以理解为行为剧本,一般通过括号内的内容来描述;
68.本发明的逻辑a和逻辑b是两个并行的执行过程,通过并行执行逻辑a和逻辑b,从多个方面确定第一原始文本块的各段小说文本所涉及的说话人标识、场景信息和行为信息,以便于后续根据剧本格式构建得到对应的剧本块。
69.可选的,为了清楚描述本发明的方案,下面本发明将对逻辑a和逻辑b分别进行描述。如前所述,逻辑a包括步骤a100。
70.所述步骤a100、若所述第一原始文本块中存在n段连续且均被双引号囊括整段内容的小说文本,则针对所述n段连续的小说文本,使用预先训练的第一模型识别对应的说话人标识;
71.可选的,针对第一原始文本块中的多个小说文本,本发明可以判断是否存在多段连续的对话文本,而在小说文本中,对于对话文本,一般是在该段通过双引号将角色所说的话全部囊括。例如有三段对话文本,分别是:
[0072]“早上好,老李”。
[0073]“你也早啊,老王,你吃早饭了没有”。
[0074]“我还没吃,正打算到东集市去吃碗面汤”。
[0075]
如上所述,上述3段内容即可以理解为3段连续且均被双引号囊括整段内容的小说文本。针对这3段小说文本,本发明可以基于第一模型分别识别对应的说话人标识。需要说明的是:说话人标识可以是角色在小说中的名称,例如,上述的“老李”和“老王”均可以理解
为说话人标识。
[0076]
可选的,本发明所说的第一模型不单单是一个模型,可以是多个模型。例如可以是多个bert实体模型,每个bert实体模型所基于的训练集和训练过程均不同。因此,每个bert实体模型所输出的结果有所不同,通过各个bert实体模型所输出的结果,分别综合确定各段小说文本的说话人标识,一定程度上可以提高本发明的准确率。
[0077]
例如,针对n段连续的小说文本中任一段小说文本,本发明可以通过两个bert实体模型分别识别该段小说文本的说话人标识。若其中一个bert实体模型输出的说话人标识不全(例如只有一个字“李”),另外一个bert实体模型输出的说话人标识比较全(“老李”),则将“老李”作为该段小说文本的说话人标识。当然,本发明的不同模型输出的结果还存在各种不同的情况,本发明可以根据实际需要设定不同情况的处理方式,本发明在此不一一进行列举。
[0078]
又例如,本发明还可以通过单独一个bert实体模型,确定该段小说文本的说话人标识的数量,即确定一段小说文本中包括多少个角色说的话。若一段小说文本对应多个说话人标识,则本发明可以通过确定的说话人标识的数量和模型识别出的具体的说话人标识的个数,确定还有几个说话人标识没有识别得到,从而知道还需要设置多少个预设标识(例如针对未识别到具体的说话人标识的小说文本均统一设置“未知角色”)。
[0079]
可选的,若所述第一原始文本块中不存在n段连续且均被双引号囊括整段内容的小说文本,则针对第一原始文本块执行逻辑a的过程到此结束。
[0080]
可选的,上述逻辑a只是对n段连续且均被双引号囊括整段内容的小说文本识别说话人标识。第一原始文本块还存在其他小说文本,需要进行相应的处理,因此,本发明可以对第一原始文本块的各段小说文本,不做任何区分,全部执行一遍逻辑b。如上所述,所述逻辑b包括步骤b100、步骤b200、步骤b300、步骤b400和步骤b500。
[0081]
所述步骤b100、针对所述第一原始文本块中的任一段所述小说文本,若所述小说文本中携带有说话人信息,则根据所述说话人信息识别所述小说文本对应的说话人标识;
[0082]
可选的,本发明所说的说话人信息指的是可以体现小说角色的信息,例如角色的名称信息,本发明对此不做限制。
[0083]
可选的,本发明对于根据所述说话人信息识别所述小说文本对应的说话人标识的过程不做具体限制。例如,本发明可以使用其他预先训练的bert实体模型,对小说文本和携带的说话人信息做进一步识别,从而识别得到对应的说话人标识。
[0084]
例如,第一原始文本块中包括如下小说文本:
[0085]“你跑快点。”,老李在后面催促着。
[0086]“知道了。”。
[0087]“但是我快没力气了”,老王喘着粗气说到。
[0088]
本发明可以通过bert实体模型识别出上述第一段小说文本对应的说话人标识是“老李”,第二和第三段小说文本的说话人标识是“老王”,本发明对此不做限制。当然,本发明的bert实体模型也可以结合识别到的说话人标识和对应的小说文本,进行转化后输出。例如,上述第一段小说文本对应输出“老李说:“你跑快点。
””
;上述第二段对应输出“老王说:“知道了。
””
;上述第三段对应输出“老王说:“但是我快没力气了。
””
,本发明对此不做限制。
[0089]
所述步骤b200、若所述小说文本中未携带有说话人信息,则将所述小说文本和对应的上下文输入至使用预先训练的第二模型,并获得所述第二模型针对所述未携带有说话人信息的小说文本的说话人标识的识别结果;
[0090]
可选的,针对任一段小说文本,若该小说文本中未携带有说话人信息,则说明无法直接根据该小说文本携带的内容直接提取到说话人标识,需要对该小说文本的隐含信息做进一步提取。因此,本发明可以将该小说文本和上下文输入至第二模型,以便于第二模型结合上下文提取该段小说文本所隐含的信息。
[0091]
可选的,第二模型可能提取到该段小说文本的说话人标识,也可能提取不到该段小说文本的说话人标识,具体通过识别结果进行表征。可选的,若第二模型提取到该段小说文本的说话人标识,则可以设置该段小说文本对应的说话人标识,并对该段小说文本进行一定的转化。若第二模型未提取到该段小说文本的说话人标识,则可以执行后续的步骤b300,对当前未识别到说话人标识的小说文本做进一步处理。
[0092]
可选的,本发明所说的上下文可以是指某一段小说文本的上一段小说文本和下一段小说文本,也可以是某一段小说文本的上m段小说文本和下m段小说文本,m可以根据实际需要进行设定,本发明对此不做限制。
[0093]
所述步骤b300、若所述识别结果为未识别到说话人标识,则确定对应的小说文本的文本行类型,其中,所述文本行类型包括无旁白对话行、带旁白对话行和其他行;
[0094]
可选的,本发明可以基于正则分类的方式,对于未识别到说话人标识的小说文本进行正则分类,从而确定小说文本的文本行类型。
[0095]
例如,结合图1所示的实施方式,在某些可选的实施方式中,所述步骤b300,包括:步骤b310、步骤b320和步骤b330;
[0096]
步骤b310、若所述识别结果为未识别到说话人标识且对应的所述小说文本整段内容被双引号囊括,则确定所述小说文本的文本行类型为无旁白对话行;
[0097]
例如,某一段小说文本为“知道了。”,则确定该段小说文本的文本行类型为无旁白对话行。
[0098]
步骤b320、若所述识别结果为未识别到说话人标识且对应的所述小说文本部分内容被双引号囊括且被双引号囊括的内容不包括预设关键字,则确定所述小说文本的文本行类型为带旁白对话行;
[0099]
例如,某一段小说文本为
““
你跑快点。”,老李在后面催促着。”,则确定该段小说文本的文本行类型为带旁白对话行。
[0100]
可选的,本发明对于预设关键字不做具体限制,可以根据实际需要进行设定,预设关键字可以包括“砰”“哐当”和“吱”等词。
[0101]
步骤b330、若所述识别结果为未识别到说话人标识且对应的所述小说文本未携带有双引号,或者,若所述识别结果为未识别到说话人标识且对应的所述小说文本部分内容被双引号囊括且被双引号囊括的内容包括预设关键字,则确定所述小说文本的文本行类型为其他行。
[0102]
例如,某一段小说文本为“水缸“砰”的一声裂开了。”,则确定该段小说文本的文本行类型为其他行。
[0103]
可选的,在确定得到小说文本的文本行类型,由于这些小说文本还未识别得到对
应的说话人标识,因此,本发明可以对确定了文本行类型的小说文本做进一步处理,如步骤b400和b500所示。
[0104]
所述步骤b400、若所述小说文本的文本行类型是所述无旁白对话行或者所述带旁白对话行,则通过执行相应的第一识别逻辑,识别所述小说文本的说话人标识;
[0105]
可选的,一段小说文本仅对应一种文本行类型,因此,针对无旁白对话行或者带旁白对话行的小说文本,本发明可以通过执行相应的第一识别逻辑,识别所述小说文本的说话人标识。
[0106]
例如,结合图1所示的实施方式,在某些可选的实施方式中,所述步骤b400,包括:步骤b410、步骤b420、步骤b430和步骤b440;
[0107]
步骤b410、若所述小说文本的文本行类型是所述无旁白对话行,则确定所述小说文本的上一段小说文本和下一段小说文本是否均被双引号囊括整段内容;
[0108]
可选的,针对无旁白对话行的小说文本,执行步骤b410、步骤b420、步骤b430、步骤b440和步骤b450;针对带旁白对话行的小说文本,执行步骤b460,本发明对此不做限制。
[0109]
可选的,如前所述,无旁白对话行的小说文本的整段内容被双引号囊括,因此,本发明可以确定无旁白对话行的小说文本的上一段小说文本的整段内容和下一段小说文本的整段内容是否也均被双引号囊括。
[0110]
步骤b420、若所述小说文本的上一段小说文本和下一段小说文本未均被双引号囊括整段内容,则确定所述小说文本的说话人标识为预设标识;
[0111]
可选的,若小说文本的上一段小说文本和下一段小说文本中的至少一段小说文本的整段内容未被双引号囊括,则说明该小说文本与上下文未构成连续的对话行。因此,暂时无法结合上下文识别得到该小说文本的说话人标识,因此,确定该段小说文本的说话人标识为预设标识(如前所述,可以设置为“未知角色”)。
[0112]
步骤b430、若所述小说文本的上一段小说文本和下一段小说文本均被双引号囊括整段内容,则确定所述上一段小说文本的前一段小说文本中是否携带有说话人信息和确定所述下一段小说文本的后一段小说文本中是否携带有说话人信息;
[0113]
可选的,若小说文本的上一段小说文本和下一段小说文本均被双引号囊括整段内容,则说明的该段小说文本与上下文构成连续的对话行,可以结合上下文对该段小说文本的说话人标识做进一步识别。
[0114]
可选的,以第3段小说文本作为本文的无旁白对话行的小说文本为例,第2段小说文本可以理解为本文所说的“上一段小说文本”,第4段小说文本可以理解为本文所说的“下一段小说文本”,第1段小说文本可以理解为本文所说的“前一段小说文本”,第5段小说文本可以理解为本文所说的“后一段小说文本”。
[0115]
步骤b440、若所述前一段小说文本中携带有说话人信息和/或所述后一段小说文本中携带有说话人信息,则根据所述说话人信息,确定所述小说文本的说话人标识;
[0116]
可选的,若前一段小说文本和后一段小说文本中至少有一段小说文本中携带有说话人信息,则可以根据该说话人信息确定该段小说文本(上述例子的第3段)的说话人标识。需要说明的是:若前一段小说文本和后一段小说文本中均携带有说话人信息,则以前一段小说文本中携带的说话人信息为准,确定小说文本的说话人标识。
[0117]
例如,结合上一个实施方式,在某些可选的实施方式中,所述步骤b440,包括:步骤
b441和步骤b442;
[0118]
步骤b441、若所述前一段小说文本中携带有说话人信息,则根据所述前一段小说文本中携带的说话人信息,确定所说小说文本的说话人标识;
[0119]
步骤b442、若所述前一段小说文本中未携带有说话人信息且所述后一段小说文本中携带有说话人信息,则根据所述后一段小说文本中携带的说话人信息,确定所说小说文本的说话人标识。
[0120]
步骤b450、若所述前一段小说文本和所述后一段小说文本中均未携带有说话人信息,则确定所述小说文本的说话人标识为所述预设标识;
[0121]
可选的,若前一段小说文本和后一段小说文本中均未携带有说话人信息,则说明无法结合上下文确定该段小说文本的说话人标识,因此,可以设置段小说文本的说话人标识为预设标识。
[0122]
步骤b460、若所述小说文本的文本行类型是所述带旁白对话行,则将所述小说文本输入至使用预先训练的第三模型,并获得所述第三模型针对所述小说文本的说话人标识的识别结果。
[0123]
可选的,第三模型可以包括多个模型,例如可以包括2个bert实体模型,其中,一个bert实体模型仅可以识别小说文本的说话人标识,另外一个bert实体模型不仅可以识别小说文本的说话人标识,还可以识别小说文本的新行内容和删除内容,其中,新行内容理解为需要保留至剧本的内容,删除内容理解为剧本中不需要,可以删除的内容。
[0124]
可选的,在某些可选的实施方式中,所述步骤b460,包括:步骤b461、步骤b462和步骤b463;
[0125]
步骤b461、将所述小说文本输入至使用预先训练的第三模型;
[0126]
步骤b462、若所述第三模型识别得到相应的说话人标识,则获得所述第三模型输出的所述说话人标识;
[0127]
步骤b463、若所述第三模型未识别得到相应的说话人标识,则确定所述小说文本的说话人标识为所述预设标识。
[0128]
可选的,若上述2个bert实体模型识别得到小说文本的说话人标识,则本发明可以为相应的小说文本设置相应的说话人标识;若上述2个bert实体模型均未识别得到小说文本的说话人标识,则本发明可以为相应的小说文本设置相应的说话人标识为预设标识。
[0129]
所述步骤b500、若所述小说文本的文本行类型是所述其他行,则通过执行相应的第二识别逻辑,识别所述小说文本对应的场景信息或者行为信息;
[0130]
可选的,本发明对于通过执行相应的第二识别逻辑,识别所述小说文本对应的场景信息或者行为信息的过程不做限制。例如,结合图1所示的实施方式,在某些可选的实施方式中,所述步骤b500,包括:步骤b510、步骤b520、步骤b530、步骤b540和步骤b550;
[0131]
步骤b510、若所述小说文本的文本行类型是所述其他行,则将所述小说文本输入至场景行识别模型;
[0132]
可选的,本发明对于场景行识别模型不做具体限制,任何可行的方式均属于本发明的保护范围。
[0133]
步骤b520、若所述场景行识别模型确定所述小说文本是场景行,则通过场景词识别模型,识别所述小说文本的场景词;
[0134]
可选的,场景行指的是该小说文本所描述的内容是小说场景,对于场景行,本发明可以进一步识别具体的场景词,通过场景词表征小说场景,本发明对此不做限制。
[0135]
可选的,本发明所说场景词识别模型可以是bert实体模型。对于场景行的小说文本,本发明先查看该小说文本的前几段小说文本中是否包含场景词。若该小说文本的前k段小说文本中未包含场景词,则将该小说文本输入至场景词识别模型,以识别该小说文本的场景词;若该小说文本的前k段小说文本中包含场景词,则说明前述已经有相关场景词的描述,可以直接引用,无需再进行识别,因此,可以直接接着确定该小说文本是否为行为行。
[0136]
步骤b530、若所述场景词识别模型识别到所述小说文本的场景词,则获得所述场景词作为所述小说文本的场景信息;
[0137]
可选的,若场景识别模型识别到小说文本的场景词且后续行识别模型确定该小说文本不是行为行,则本发明可以将该小说文本删除,并保留该小说文本的场景词作为场景信息进行输出,本发明对此不做限制。
[0138]
步骤b540、若所述场景词识别模型未识别到所述小说文本的场景词或者所述场景行识别模型确定所述小说文本不是场景行,则将所述小说文本输入至行为识别模型;
[0139]
可选的,若场景词识别模型未识别到小说文本的场景词,则在将小说文本输入至行为识别模型之前,本发明可以先对小说文本做进一步处理。例如,本发明可以先确定该段小说文本是否是章节名(即,判断该小说文本是否包括“第*章节”,其中,*表示的是任意一个或者多个字符)。若该段小说文本不是章节名,则将该段小说文本直接输入至行为识别模型。
[0140]
若该段小说文本是章节名,则确定该段小说文本的下一段小说文本是否包括场景词。若该段小说文本的下一段小说文本包括场景词,则设置为:段小说文本的下一段小说文本所包括的场景词,然后输入将该段小说文本连同场景词一起输入至行为识别模型;若该段小说文本的下一段小说文本不包括场景词,则直接将该段小说文本输入至行为识别模型。
[0141]
步骤b550、若所述行为识别模型确定所述小说文本是行为行,则将所述小说文本按预设符号进行分割,从而得到行为信息。
[0142]
可选的,无论前述各个过程是否得到场景词,若行为识别模型确定小说文本是行为行,则本发明可以按照句号、问号和顿号等具有分句性质的标点符号,将该小说文本进行分句,然后作为行为信息进行输出。
[0143]
若行为识别模型确定小说文本不是行为行,则本发明可以将该小说文本进行删除。并且,若前述过程得到了场景词,就只输出场景词作为场景信息;若前述过程未得到场景词,则说明从该小说文本中未提炼到场景信息和行为信息。
[0144]
s300、根据所述逻辑a和所述逻辑b识别得到的各所述说话人标识、所述场景信息和所述行为信息,构建与所述第一原始文本块对应的剧本块。
[0145]
可选的,如前所述,针对各段小说文本,本发明可能从中识别得到了说话人标识、场景信息或者行为信息。因此,本发明可以结合识别到的信息,构建第一原始文本块对应的剧本块。
[0146]
例如,结合图1所示的实施方式,在某些可选的实施方式中,所述s300,包括:步骤3.1、步骤3.2、步骤3.3和步骤3.4;
[0147]
步骤3.1、针对所述第一原始文本块的任一段所述小说文本,若所述逻辑a识别得到说话人标识,则根据剧本格式和所述逻辑a识别到的说话人标识,将所述小说文本修改为对话剧本;
[0148]
步骤3.2、若所述逻辑a未识别得到说话人标识且所述逻辑b识别得到说话人标识,则根据所述剧本格式和所述逻辑b识别到的说话人标识,将所述小说文本修改为对话剧本;
[0149]
步骤3.3、若所述逻辑b识别得到场景信息,则根据所述剧本格式和所述逻辑b识别到的场景信息,将所述小说文本修改为场景剧本;
[0150]
步骤3.4、若所述逻辑b识别得到行为信息,则根据所述剧本格式和所述逻辑b识别到的行为信息,将所述小说文本修改为行为剧本。
[0151]
可选的,为了进一步提高本发明的准确度,在执行前述步骤b450和步骤b463之后,对于说话人标识为预设标识的小说文本而言,本发明可以进一步通过bert实体模型,确定该小说文本为画外音行、os行或者说话人对话行。其中,画外音行指的是:不是小说角色说的话;os行指的是:小说角色内心想但并未实际说出的话;说话人对话行指的是:小说角色说出的话。
[0152]
对于画外音行和os行的小说文本,本发明可以直接将相应的小说文本输出为对应的剧本行。对于说话人对话行的小说文本(说话人是“未知角色”的小说文本),本发明可以进行规则的修正。下面对每条规则逐一进行举例解释:
[0153]
规则1:获取本行前后文本行的说话人(不含停用说话人),是否除了第三人称没有其他说话人。如果是,则用“第三人称”代替“未知角色”并结束输出;如果不是,则进行下一条规则。
[0154]
举例文本:第一句话是“他看着外面说:“你也应该知道这些事了。
””
;第二句话是“不要活在幻想中。”;第三句话是“他说:“不要整天这样了。
””
。
[0155]
第一句话和第三句话的说话人是第三人称“他”,第二句话没有说话人。对于第二句话来说前后文本行只有一个说话人,即第三人称“他”,并且除了第三人称没有其他说话人。因此,此处用“他”代替“未知角色”,然后输出文本,否则进行下一条规则判定。
[0156]
规则2:判断本行前后文本行是否都不是对话行、且说话人(不含停用说话人)中存在第三人称且除了第三人称只有一个说话人。如果是,则用“说话人”代替“未知角色”并结束输出;如果不是,则进行下一条规则。
[0157]
举例文本:第一句话是“李峰看着外面。”;第二句话是“不要活在幻想中。”;第三句话是“说完他就走了。”。
[0158]
第一句话和第三句话都不是对话句,但存在说话人“李峰”和“他”(判断是不是说话人的逻辑是循环整本小说已经确定的说话人,看看说话人是否在文本中出现过)对于第二句话来说前后文本行不是对话行,并且除了说话人“李峰”只有第三人称。因此,此处用“李峰”代替“未知角色”,然后输出文本,否则进行下一条规则判定。(如果把第一句话换成“李峰看着刘刚”,则不符合此条规则)。
[0159]
规则3:判断前后文本行是否只有一个说话人并且前文本行是对话行,若是,则将此说话人加入到停用说话人中,不符合此规则的不做处理。
[0160]
举例文本:第一句话是“李峰看着外面说:“你也应该知道这些事了。
””
;第二句话是“不要活在幻想中。”;第三句话是“说完就走了。”。若是上面三句话就可以把“李峰”加入
到停用说话人中。
[0161]
规则4:本行前10行文本行中是否存在说话人(不含停用说话人),如果存在,则获取最近索引的说话人,替换对话行中的未知角色;不存在,则进入下一条规则。
[0162]
举例说明:本行前10句中有人物“张三”、“李四”、“王五”和“赵六”,依次由前向后,则最近说话人是“赵六”,用“赵六”替换“未知角色”。
[0163]
规则5:本行后10行文本行中是否存在说话人(不含停用说话人),如果存在,则获取最近索引的说话人,替换对话行中的未知角色。不存在,则直接保留“未知角色”输出。
[0164]
举例说明:本行后10句中有人物“张三”、“李四”、“王五”和“赵六”,依次由前向后,则最近说话人是“赵六”,用“张三”替换“未知角色”。
[0165]
需要说明的是:以上各人名仅是用于举例说明,没有实际意义,不指向实际生活中的任何一个具体的自然人。
[0166]
如图2所示,本发明提供了一种文本转化装置,包括:原始文本获得单元100、文本处理单元200和剧本构建单元300;
[0167]
所述原始文本获得单元100,用于获得小说的第一原始文本块,其中,所述第一原始文本块包括多段小说文本;
[0168]
所述文本处理单元200,用于针对所述第一原始文本块,并行执行逻辑a和逻辑b,其中,所述逻辑a包括步骤a100,所述逻辑b包括步骤b100、步骤b200、步骤b300、步骤b400和步骤b500;
[0169]
所述步骤a100、若所述第一原始文本块中存在n段连续且均被双引号囊括整段内容的小说文本,则针对所述n段连续的小说文本,使用预先训练的第一模型识别对应的说话人标识;
[0170]
所述步骤b100、针对所述第一原始文本块中的任一段所述小说文本,若所述小说文本中携带有说话人信息,则根据所述说话人信息识别所述小说文本对应的说话人标识;
[0171]
所述步骤b200、若所述小说文本中未携带有说话人信息,则将所述小说文本和对应的上下文输入至使用预先训练的第二模型,并获得所述第二模型针对所述未携带有说话人信息的小说文本的说话人标识的识别结果;
[0172]
所述步骤b300、若所述识别结果为未识别到说话人标识,则确定对应的小说文本的文本行类型,其中,所述文本行类型包括无旁白对话行、带旁白对话行和其他行;
[0173]
所述步骤b400、若所述小说文本的文本行类型是所述无旁白对话行或者所述带旁白对话行,则通过执行相应的第一识别逻辑,识别所述小说文本的说话人标识;
[0174]
所述步骤b500、若所述小说文本的文本行类型是所述其他行,则通过执行相应的第二识别逻辑,识别所述小说文本对应的场景信息或者行为信息;
[0175]
所述剧本构建单元300,用于根据所述逻辑a和所述逻辑b识别得到的各所述说话人标识、所述场景信息和所述行为信息,构建与所述第一原始文本块对应的剧本块。
[0176]
结合图2所示的实施方式,在某些可选的实施方式中,所述文本处理单元200执行步骤b300时,具体包括:第一确定子单元、第二确定子单元和第三确定子单元;
[0177]
所述第一确定子单元,用于若所述识别结果为未识别到说话人标识且对应的所述小说文本整段内容被双引号囊括,则确定所述小说文本的文本行类型为无旁白对话行;
[0178]
所述第二确定子单元,用于若所述识别结果为未识别到说话人标识且对应的所述
小说文本部分内容被双引号囊括且被双引号囊括的内容不包括预设关键字,则确定所述小说文本的文本行类型为带旁白对话行;
[0179]
所述第三确定子单元,用于若所述识别结果为未识别到说话人标识且对应的所述小说文本未携带有双引号,或者,若所述识别结果为未识别到说话人标识且对应的所述小说文本部分内容被双引号囊括且被双引号囊括的内容包括预设关键字,则确定所述小说文本的文本行类型为其他行。
[0180]
结合图2所示的实施方式,在某些可选的实施方式中,所述文本处理单元200执行步骤b400时,具体包括:第四确定子单元、第五确定子单元、第六确定子单元、第七确定子单元、第八确定子单元和第一结果获得子单元;
[0181]
所述第四确定子单元,用于若所述小说文本的文本行类型是所述无旁白对话行,则确定所述小说文本的上一段小说文本和下一段小说文本是否均被双引号囊括整段内容;
[0182]
所述第五确定子单元,用于若所述小说文本的上一段小说文本和下一段小说文本未均被双引号囊括整段内容,则确定所述小说文本的说话人标识为预设标识;
[0183]
所述第六确定子单元,用于若所述小说文本的上一段小说文本和下一段小说文本均被双引号囊括整段内容,则确定所述上一段小说文本的前一段小说文本中是否携带有说话人信息和确定所述下一段小说文本的后一段小说文本中是否携带有说话人信息;
[0184]
所述第七确定子单元,用于若所述前一段小说文本中携带有说话人信息和/或所述后一段小说文本中携带有说话人信息,则根据所述说话人信息,确定所述小说文本的说话人标识;
[0185]
所述第八确定子单元,用于若所述前一段小说文本和所述后一段小说文本中均未携带有说话人信息,则确定所述小说文本的说话人标识为所述预设标识;
[0186]
所述第一结果获得子单元,用于若所述小说文本的文本行类型是所述带旁白对话行,则将所述小说文本输入至使用预先训练的第三模型,并获得所述第三模型针对所述小说文本的说话人标识的识别结果。
[0187]
结合上一个实施方式,在某些可选的实施方式中,所述第七确定子单元,包括:第九确定子单元和第十确定子单元;
[0188]
所述第九确定子单元,用于若所述前一段小说文本中携带有说话人信息,则根据所述前一段小说文本中携带的说话人信息,确定所说小说文本的说话人标识;
[0189]
所述第十确定子单元,用于若所述前一段小说文本中未携带有说话人信息且所述后一段小说文本中携带有说话人信息,则根据所述后一段小说文本中携带的说话人信息,确定所说小说文本的说话人标识。
[0190]
可选的,在某些可选的实施方式中,所述第一结果获得子单元,包括:第一输入子单元、第一标识获得子单元和第一标识确定子单元;
[0191]
所述第一输入子单元,用于将所述小说文本输入至使用预先训练的第三模型;
[0192]
所述第一标识获得子单元,用于若所述第三模型识别得到相应的说话人标识,则获得所述第三模型输出的所述说话人标识;
[0193]
所述第一标识确定子单元,用于若所述第三模型未识别得到相应的说话人标识,则确定所述小说文本的说话人标识为所述预设标识。
[0194]
结合图2所示的实施方式,在某些可选的实施方式中,所述文本处理单元200执行
步骤b500时,具体包括:第二输入子单元、第一场景词子单元、第一场景信息子单元、第三输入子单元和第一分割子单元;
[0195]
所述第二输入子单元,用于若所述小说文本的文本行类型是所述其他行,则将所述小说文本输入至场景行识别模型;
[0196]
所述第一场景词子单元,用于若所述场景行识别模型确定所述小说文本是场景行,则通过场景词识别模型,识别所述小说文本的场景词;
[0197]
所述第一场景信息子单元,用于若所述场景词识别模型识别到所述小说文本的场景词,则获得所述场景词作为所述小说文本的场景信息;
[0198]
所述第三输入子单元,用于若所述场景词识别模型未识别到所述小说文本的场景词或者所述场景行识别模型确定所述小说文本不是场景行,则将所述小说文本输入至行为识别模型;
[0199]
所述第一分割子单元,用于若所述行为识别模型确定所述小说文本是行为行,则将所述小说文本按预设符号进行分割,从而得到行为信息。
[0200]
结合图2所示的实施方式,在某些可选的实施方式中,所述剧本构建单元300,包括:第一修改子单元、第二修改子单元、第三修改子单元和第四修改子单元;
[0201]
所述第一修改子单元,用于针对所述第一原始文本块的任一段所述小说文本,若所述逻辑a识别得到说话人标识,则根据剧本格式和所述逻辑a识别到的说话人标识,将所述小说文本修改为对话剧本;
[0202]
所述第二修改子单元,用于若所述逻辑a未识别得到说话人标识且所述逻辑b识别得到说话人标识,则根据所述剧本格式和所述逻辑b识别到的说话人标识,将所述小说文本修改为对话剧本;
[0203]
所述第三修改子单元,用于若所述逻辑b识别得到场景信息,则根据所述剧本格式和所述逻辑b识别到的场景信息,将所述小说文本修改为场景剧本;
[0204]
所述第四修改子单元,用于若所述逻辑b识别得到行为信息,则根据所述剧本格式和所述逻辑b识别到的行为信息,将所述小说文本修改为行为剧本。
[0205]
本发明提供了一种计算机可读存储介质,其上存储有程序,所述程序被处理器执行时实现上述任一项所述的文本转化方法。
[0206]
如图3所示,本发明提供了一种电子设备70,所述电子设备70包括至少一个处理器701、以及与所述处理器701连接的至少一个存储器702、总线703;其中,所述处理器701、所述存储器702通过所述总线703完成相互间的通信;所述处理器701用于调用所述存储器702中的程序指令,以执行上述任一项所述的文本转化方法。
[0207]
在本发明中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0208]
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部
分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0209]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本发明中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本发明所示的这些实施例,而是要符合与本发明所公开的原理和新颖特点相一致的最宽的范围。
[0210]
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。