文档分割系统和文档分割方法
【专利摘要】本发明提供了一种文档分割系统,包括:指令处理单元,用于根据接收到的跳转指令和预设的页面跳转规则,确定当前文档中的第一位置;数据截取单元,用于按照预设的截取范围对所述第一位置附近的文档数据片段进行截取;数据匹配单元,用于将所述文档数据片段与预定义的断点匹配字符进行匹配;文档分割单元,用于在所述文档数据片段中存在与所述断点匹配字符相匹配的数据的情况下,根据该相匹配的数据所处的第二位置分割所述文档,以使所述相匹配的数据作为分割得到的后一个文档片段的起始端。本发明还提出了一种文档分割方法。通过本发明的技术方案,可以针对用户的跳转需求,快速准确地实现文档分割,避免分割处的字符不完整。
【专利说明】文档分割系统和文档分割方法
【技术领域】
[0001] 本发明涉及文档处理【技术领域】,具体而言,涉及一种文档分割系统和一种文档分 割方法。
【背景技术】
[0002] 在用户进行数字阅读时,经常会需要在文档的内容间进行跳转,比如从起始页跳 转至文档内容的55%处。而根据文档内容或来源的不同,不同的文档往往会采用不同的字 符集进行显示。在不同的字符集下,每个字符所占字节数不尽相同,具体如下表所示:
[0003]
[0004] 表 1
【权利要求】
1. 一种文档分割系统,其特征在于,包括: 指令处理单元,用于根据接收到的跳转指令和预设的页面跳转规则,确定当前文档中 的第一位置; 数据截取单元,用于按照预设的截取范围对所述第一位置附近的文档数据片段进行截 取; 数据匹配单元,用于将所述文档数据片段与预定义的断点匹配字符进行匹配; 文档分割单元,用于在所述文档数据片段中存在与所述断点匹配字符相匹配的数据的 情况下,根据该相匹配的数据所处的第二位置分割所述文档,以使所述相匹配的数据作为 分割得到的后一个文档片段的起始端。
2. 根据权利要求1所述的文档分割系统,其特征在于,所述数据截取单元还用于:在所 述文档数据片段中不存在与所述预定义的断点匹配字符相匹配的数据的情况下,则扩大所 述截取范围,以重新获取所述文档数据片段; 其中,所述数据匹配单元将重新获取的文档数据片段与所述断点匹配字符进行匹配, 若仍不存在,则继续由所述数据截取单元扩大所述截取范围和重新截取所述文档数据片 段,直至查找到与所述断点匹配字符相匹配的数据,并由所述文档分割单元根据该相匹配 的数据所处的第二位置分割所述文档,以使所述相匹配的数据作为分割得到的后一个文档 片段的起始端。
3. 根据权利要求1所述的文档分割系统,其特征在于,所述指令处理单元在所述文档 对应的字节数据中确定所述第一位置; 所述数据截取单元在所述文档对应的字节数据中截取所述数据片段;以及 所述数据匹配单元获取所述断点匹配字符对应的字节数据,并在所述文档数据片段中 进行匹配,以确定所述第二位置。
4. 根据权利要求3所述的文档分割系统,其特征在于,还包括: 字符转换单元,用于获取所述文档使用的字符集,以用于对所述断点匹配字符进行转 换; 其中,所述数据匹配单元利用转换后的断点匹配字符对所述文档数据片段进行匹配。
5. 根据权利要求1至4中任一项所述的文档分割系统,其特征在于,所述断点匹配字符 包括标点符号。
6. 根据权利要求1至4中任一项所述的文档分割系统,其特征在于,当存在多个所述断 点匹配字符时,多个断点匹配字符之间存在优先级,其中,所述数据匹配单元按照优先级从 高至低的顺序将多个断点匹配字符依次用于与所述文档数据片段进行匹配,直至获取相匹 配的数据;以及 所述文档分割系统还包括: 优先级调整单元,用于在与所述文档数据片段匹配成功的情况下,调整相应的断点匹 配字符对应的优先级。
7. -种文档分割方法,其特征在于,包括: 根据接收到的跳转指令和预设的页面跳转规则,确定当前文档中的第一位置; 按照预设的截取范围对所述第一位置附近的文档数据片段进行截取; 若所述文档数据片段中存在与预定义的断点匹配字符相匹配的数据,则根据该相匹配 的数据所处的第二位置分割所述文档,以使所述相匹配的数据作为分割得到的后一个文档 片段的起始端。
8. 根据权利要求7所述的文档分割方法,其特征在于,若所述文档数据片段中不存在 与所述预定义的断点匹配字符相匹配的数据,则扩大所述截取范围,以重新获取所述文档 数据片段,并将重新获取的文档数据片段与所述断点匹配字符进行匹配,若仍不存在,则继 续扩大所述截取范围和重新截取所述文档数据片段,直至查找到与所述断点匹配字符相匹 配的数据,并根据该相匹配的数据所处的第二位置分割所述文档,以使所述相匹配的数据 作为分割得到的后一个文档片段的起始端。
9. 根据权利要求7所述的文档分割方法,其特征在于,在所述文档对应的字节数据中 确定所述第一位置和截取所述数据片段;以及 获取所述断点匹配字符对应的字节数据,并在所述文档数据片段中进行匹配,以确定 所述第二位置。
10. 根据权利要求9所述的文档分割方法,其特征在于,还包括: 获取所述文档使用的字符集,以用于对所述断点匹配字符进行转换;以及 利用转换后的断点匹配字符对所述文档数据片段进行匹配。
11. 根据权利要求6至10中任一项所述的文档分割方法,其特征在于,所述断点匹配字 符包括标点符号。
12. 根据权利要求6至10中任一项所述的文档分割方法,其特征在于,还包括: 当存在多个所述断点匹配字符时,多个断点匹配字符之间存在优先级,其中,按照优先 级从高至低的顺序将多个断点匹配字符依次用于与所述文档数据片段进行匹配,直至获取 相匹配的数据;以及 若与所述文档数据片段匹配成功,则调整相应的断点匹配字符对应的优先级。
【文档编号】G06F17/30GK104424337SQ201310412851
【公开日】2015年3月18日 申请日期:2013年9月11日 优先权日:2013年9月11日
【发明者】陈聪, 郭巍 申请人:北大方正集团有限公司, 北京方正阿帕比技术有限公司, 方正信息产业控股有限公司