一种支持用户自主断句的处理方法与流程

文档序号：14279701阅读：256来源：国知局

本发明涉及文档解析技术和机器辅助翻译(cat)技术领域，尤其涉及到一种待翻译文本的断句处理方法。

背景技术：

在文字翻译领域中，目前的在线辅助翻译平台都是对翻译文档采用一定的断句规则(主要是根据标点符号)和程序逻辑对译文自动断句，然后将句子推送给译员。

对于纯文字的文档，自动断句准确率较高。但是对于非纯文本文件，由于文档中存在文字框、图片、图表等元素，现有的按标点符号断句的规则就无法适应，往往产生断句错误。一般的，由于译文是按照句子或片段一条条分割推送给译员的，在没有严格完整的上下文语境的情况下，译员无法识别断句错误。即使发觉断句错误，译员在翻译过程中也无法纠正和有效克服，往往造成句子翻译结果的错误，影响翻译效率以及翻译质量。

技术实现要素：

本发明所要解决的技术问题是提供一种支持用户自主断句的处理方法，以克服传统在线翻译平台的弊病。

为解决上述技术问题，本发明提供一种支持用户自主断句的处理方法，包括以下主要步骤：

i、将原始的待翻译文档转换成为html格式文件；

ii、寻找html文件中的文字并根据断句逻辑合并或者拆分原始的html元素，使得html文件中的文字以“句子”为单元重新得以组合；

iii、对html文件中的句子和非文本对象按原文顺序标记序号，方便后续用户按照句模式来进行翻译操作；

iv、按序号顺序将html文件中句子以及包括文本框、图片、图表在内的非文本对象推送并显现在用户处理界面；

v、用户在翻译文本中框选一段文字并发出自主断句确认信息后，通过拆分或合并处理，将该框选的一段文字作为一个新句子，并重新标记所有序号；

vi、按照新的句子划分更新用户处理界面。

进一步的，所述步骤ii具体包括：使用正则表达式寻找所有处于“><”一对尖括号之间的文字内容，逐段字符串进行整理，依据断句逻辑重新合并或者拆分原始html里面的文字，生成一个个句子；在html中新增结构属性对象，将同属一个句子的所有对象放入一个结构属性对象中。

所述步骤v具体包括：以用户框选的文字内容为输入参数，对结构属性对象中的元素进行拆分和重组。

可优选的，用户在翻译文本中框选一段文字采用鼠标滑动选择，键盘光标移动选择或触控屏滑动选择方式。

所述将原始的待翻译文档转换成为html文件，是采用现有的商业化组件。

有益效果：本发明将原始的待翻译文档转换成为html格式文件，使句子以及包括文本框、图片、图表在内的非文本对象得以向用户推送并显现，提供用户完整的上下文语境，避免了传统翻译模式下的语句碎片化带给用户的语义撕裂感，方便用户识别机器自动断句错误。本发明进而为用户提供了断句修正的手段。当用户发现机器自动断句有错误的时候，通过滑选或框选取句、自主修改机器断句；系统根据用户的选句输入，自动重新对句子进行断句、标序。本发明有利于译员在正确断句的基础上，提高翻译质量和翻译效率。

附图说明

下面结合附图和具体实施方式对本发明的技术方案作进一步具体说明。

图1为本发明的流程图。

具体实施方式

下面结合图1，详细描述本发明支持翻译用户自主断句的处理方法：

步骤1、译员导入需要翻译的文档原文；

步骤2、调用现有的商业化组件、例如aspose组件，将原始的待翻译文档转换成为html文件。

步骤3、使用正则表达式寻找所有处于“><”一对尖括号之间的文字内容，逐段字符串进行整理，依据断句逻辑重新合并或者拆分原始html里面的文字，生成一个个句子。

步骤4、在html中新增结构属性对象，将同属一个句子的所有对象放入一个结构属性对象中。

步骤5、对html文件中的句子和非文本对象按原文顺序标记序号，方便后续用户按照句模式来进行翻译操作

下面结合一个具体实施例，描述步骤3-步骤5的具体过程，假设原文转换后生成的html文件片段如下：

今天

真

好

啊！

是一个

适合做

翻译的

好日子。

步骤(a).利用正则表达式寻找所有“”元素并确认每一个span元素的起始位置。

步骤(b).基于步骤1得到的span元素数据逐个处理span元素。使用一个临时string类型的变量tmpstr来记录span的内容。

步骤(c).首先记录第1个span元素的起点位置，然后开始依次将span元素内部的字符内容装载到tmpstr中，然后判断tmpstr当前内容是否是一个句子(主要采用句子终结符的规则来判断是否是句子)。如果判断结果是当前tmpstr不是一个完整句子，则继续处理下一个span；如果判断出当前tmpstr已经构成一个完整的句子了，则在以当前span的结束位置记录为终点。

步骤(d).在“起点”位置添加一个额外的元素，并且将该strong元素的结束符放置于记录的“终点”位置。然后，在该strong元素下再额外新增2个font元素，分别给添加上“原文”和“译文”的标记，将刚才步骤3中处理过的span元素全部移至“原文”font中。

经过步骤(c)、步骤(d)的处理之后，该片段应该变为：

<strongid＝”1”>

<fonttag＝”src”>

今天

真

好

啊！

<fonttag＝”tar”>

是一个

适合做

翻译的

好日子。

其中，strong元素用来指代一个句子对象，其中tag＝”src”的font元素表示原文部分，tag＝”tar”的font元素表示译文部分。strong元素上的id号则采用全文唯一的标识，用来指代一个句子对象的id号。

这样，将原始的html中无序的元素以“句子”的形式组织起来，得到一份初步断句的html文件。

步骤6、按序号顺序将html文件中句子以及包括文本框、图片、图表在内的非文本对象推送并显现在用户处理界面。

步骤7、用户在翻译文本中框选一段文字并发出自主断句确认信息；

步骤8、以用户框选的文字内容为输入参数，对结构属性对象中的元素进行拆分和重组,将该框选的一段文字作为一个新句子；

上述步骤8至步骤9中，句子的重新整合过程包括以下多种情形：

情形一、用户框选的文字范围仅涉及1个句子时，包括以下三种处理方式：

1-a.用户以句子开头为起点，选取到句中某个字符结束。那么需要将原有的句子拆分成2个句子。

1-b.用户以句子中间某个字符为起点，以句子中间某个字符为结束。那么需要将原有的句子拆分成3个句子，从句子开头到用户选中范围起点为1个句子，用户选中范围内为一个句子，用户选中范围的结束位置到原句子结束位置为第3个句子。

1-c.用户以句子中间某个字符为起点，以原句子结束位置为框选结束位置。原句需要被拆成2个句子。原句开头位置为起点，用户选中内容的起点为终点为第1个句子；用户选中范围为第2个句子。

情形二、用户框选的文字范围涉及2个句子时，包括以下三种处理方式：

2-a.用户以第1个句子开头为起点，以第2个句子中间某个字符为终点。那么需要将第2个句子被选中的部分并入到第1个句子中。

2-b.用户以第1个句子中间某个字符为起点，以第2个句子中间某个字符为终点。那么原有的2个句子会被拆分成为3个新句子。以第1个句子没有被选中的部分为第1个句子；以选中内容为第2个句子；以原第2句没有被选中的部分作为第3个新句子。

2-c.用户以第1个句子中间某个字符为起点，以第2句结束位置为终点。那么需要将第1句被选中的内容并入到第2句。

情形三、用户框选的文字范围涉及3个及3个以上的句子时，则包括以下两种处理方式：

3-a.用户以第1个句子开头为起点，以n句中间某个字符为终点，n为大于2的序数。那么被选中的范围内所有句子要做合并，并且并入第n句被选取的内容，成为一个新的句子；第n句没有被选中的部分则为另外一个新句子。

3-b.用户以第1个句子中间某个字符为起点，以n句中间某个字符为终点。那么第1句没有被选中的内容继续留在第1句中；被选中的范围内所有字符内容合并作为一个新的句子；第n句没有被选中的部分作为第3句。

步骤9、重新标记所有对象序号；

步骤10、按照新的句子划分更新用户处理界面。

结束。

最后所应说明的是，以上具体实施方式仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：罗伟峰;闫昊;车双武
技术所有人：语联网(武汉)信息技术有限公司
我是此专利的发明人

上一篇：一种直升机桨叶立放托架的制作方法
上一篇：预制装配式混凝土墙板自适应存放架的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。