语义文档存储方法、装置

文档序号:30653341发布日期:2022-07-06 00:26阅读:182来源:国知局
语义文档存储方法、装置

1.本公开的实施例涉及计算机技术领域,具体涉及语义文档存储方法、装置。
2.基本术语
3.(1)流式文档为符合流式文档格式规范(ooxml,odf,uof等)的文档。
4.(2)已嵌入语义标记的语义文档:带有语义标签的语义文档。即,在文档格式中增加了语义标记。
5.(2)语义批注:流式文档中对应语义标记的批注元素。
6.(3)文字处理软件:创建、编辑、浏览流式文档的软件(例如办公软件)。
7.(4)流式文档格式:目前主要有三种流式文档格式标准,ooxml(office open xml)、odf(open fixed-layout document)和uof(uniform office document format)。


背景技术:

8.随着语义网相关概念的兴起,人们对于知识获取的研究不单单只是针对于文档本身,而已经开始转向于文档内容的语义。流式文档中含有丰富的语义信息,却很少有人对流式文档添加机器可读的语义元数据,使其用于文档的高效检索、信息提取和智能理解等智能化处理。为了提高机器对流式文档的可读性,表达流式文档的语义信息,流式文档语义元数据的嵌入变得尤为重要。
9.t/cesa 1176—2021《信息技术电子文档语义元数据嵌入方法》规范的发布,使得为流式文档添加语义有了统一的标准,但嵌入语义的文档,一定程度上已不再符合对应的文档格式规范,对应的办公文档处理软件也无法再打开利用这些文档。为了充分保留文档原有的显示编辑特性,又能够包含明确的文档语义信息,研究一种能够在嵌入语义的语义标记文档和普通流式文档的之间无缝切换的处理方法和工具,存在着十分重要的意义。


技术实现要素:

10.本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
11.本公开的一些实施例提出了语义文档存储方法、装置,来解决以上背景技术部分提到的技术问题。
12.第一方面,本公开的一些实施例提供了一种语义文档存储方法,包括:响应于接收到针对已嵌入语义标记的语义文档的语义标记转换指令,对上述已嵌入语义标记的语义文档进行语义标记预处理,得到预处理后的流式文档,其中,上述预处理后的流式文档中存在各个语义批注,上述各个语义批注是基于上述已嵌入语义标记的语义文档中的各个语义标记转换生成的;响应于接收到针对上述预处理后的流式文档的文档编辑指令,对上述预处理后的流式文档进行文本编辑,得到编辑后流式文档;响应于接收到针对上述编辑后流式文档的语义批注转换指令,对上述编辑后流式文档进行语义批注后处理,得到处理后的语
义文档,其中,上述处理后的语义文档中存在已嵌入的各个语义标记,上述处理后的语义文档中的各个语义标记是基于上述编辑后流式文档中各个语义批注转换生成的;对上述处理后的语义文档进行存储。
13.第二方面,本公开的一些实施例提供了一种语义文档存储装置,包括:语义标记预处理单元,被配置成响应于接收到针对已嵌入语义标记的语义文档的语义标记转换指令,对上述已嵌入语义标记的语义文档进行语义标记预处理,得到预处理后的流式文档,其中,上述预处理后的流式文档中存在各个语义批注,上述各个语义批注是基于上述已嵌入语义标记的语义文档中的各个语义标记转换生成的;文本编辑单元,被配置成响应于接收到针对上述预处理后的流式文档的文档编辑指令,对上述预处理后的流式文档进行文本编辑,得到编辑后流式文档;语义批注后处理单元,被配置成响应于接收到针对上述编辑后流式文档的语义批注转换指令,对上述编辑后流式文档进行语义批注后处理,得到处理后的语义文档,其中,上述处理后的语义文档中存在已嵌入的各个语义标记,上述处理后的语义文档中的各个语义标记是基于上述编辑后流式文档中各个语义批注转换生成的;存储单元,被配置成对上述处理后的语义文档进行存储。
14.本公开的上述各个实施例具有如下有益效果:通过该实施方式使得文字处理软件能够正常打开、编辑并保存语义文档;同时使得语义文档便于文档的高效检索、信息提取及机器理解等智能化处理。
附图说明
15.结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,元件和元素不一定按照比例绘制。
16.图1是根据本公开的语义文档存储方法的一些实施例的流程图;
17.图2是根据本公开的语义文档存储方法的一些实施例的一篇待嵌入语义元数据的新闻案例的ooxml格式文档浏览界面图;
18.图3为图2所示的文档添加命名空间后的格式记录;
19.图4是根据本公开的语义文档存储方法的一些实施例的文档嵌入语义信息后的文档格式的示意图;
20.图5是根据本公开的语义文档存储方法的一些实施例的文档嵌入摘要语义描述信息后的文档格式的示意图;
21.图6是根据本公开的语义文档存储方法的一些实施例的文档嵌入图片对象后的文档格式的示意图;
22.图7是根据本公开的语义文档存储方法的一些实施例的文档嵌入文本命名实体后的文档格式的示意图;
23.图8是根据本公开的语义文档存储方法的一些实施例的多个语义标记对应多段内容的文档格式的示意图;
24.图9是根据本公开的语义文档存储方法的一些实施例的调整已嵌入语义标记的语义文档的格式结构的示意图;
25.图10是根据本公开的语义文档存储方法的一些实施例的预处理后的流式文档的
格式结构的示意图;
26.图11是根据本公开的语义文档存储方法的一些实施例的调整第二语义标记位置后的语义文档的格式结构的示意图;
27.图12是根据本公开的语义文档存储方法的一些实施例的语义标记替换的示意图;
28.图13是根据本公开的语义文档存储方法的一些实施例的内容替换后格式记录的示意图;
29.图14是根据本公开的语义文档存储方法的一些实施例的多段标识的语义批注还原后的格式记录的示意图;
30.图15是根据本公开的语义文档存储装置的一些实施例的结构示意图;
具体实施方式
31.下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
32.另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
33.需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
34.需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
35.本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
36.下面将参考附图并结合实施例来详细说明本公开。
37.参考图1,示出了根据本公开的语义文档存储方法的一些实施例的流程100。该语义文档存储方法,包括以下步骤:
38.步骤101,响应于接收到针对已嵌入语义标记的语义文档的语义标记转换指令,对上述已嵌入语义标记的语义文档进行语义标记预处理,得到预处理后的流式文档。
39.在一些实施例中,响应于接收到针对已嵌入语义标记的语义文档的语义标记转换指令,上述语义文档存储方法的执行主体(例如电子设备)可以对上述已嵌入语义标记的语义文档进行语义标记预处理,得到预处理后的流式文档。其中,上述预处理后的流式文档中存在各个语义批注,上述各个语义批注是基于上述已嵌入语义标记的语义文档中的各个语义标记转换生成的。上述已嵌入语义标记的语义文档可以是预定格式的语义文档。例如,可以是xml格式的文档。上述语义标记转换指令可以是对语义标记进行转换的指令。上述语义标记转换指令的格式可以是预先设置的。通俗而言,语义标记预处理的方法是用流式文档格式中的批注元素来表示语义标记,成为语义批注。其中,由于上述已嵌入语义标记的语义文档中语义标记为特殊格式的标记,所以上述已嵌入语义标记的语义文档不能够被常用的文字处理软件打开。即,文字处理软件不支持特殊格式的标记。例如,上述文字处理软件可以是wps软件(wps office software)等办公软件。上述预处理后的流式文档能够被文字处
理软件打开。上述预处理后的流式文档可以是带有与各个语义标记相对应语义内容的文档。
40.在一些实施例的一些可选的实现方式中,下面以嵌入语义标记的ooxml流式文档格式的文档为例,说明语义标记预处理和语义批注后处理的过程。
41.如图2所示,图2为ooxml格式的一篇(新闻案例)文档。上述文档可以被支持ooxml格式规范的文档办公软件(如microsoft office、wps等)打开和编辑。
42.依据嵌入语义元数据规范t/cesa 1176—2021《信息技术电子文档语义元数据嵌入方法》嵌入部分语义标记后文档格式记录如图3、图4、图5、图6、图7、图8所示。
43.如图3所示,图3为图2所示的文档添加命名空间后的文档格式记录的示意图。
44.具体是在文档的document.xml文件中《w:document》标签下的属性,涵盖命名空间。例如,在这里加入“xmlns:rdfa="http://www.w3.org/tr/2015/rec-rdfa-core-20150317/"和xmlns:dsm="http://document-semantic-metadata"”两个命名空间。
45.如图4所示,图4为图2文档嵌入描述文档全文的词频、编辑时间等语义信息后的文档格式记录的示意图。
46.具体是在文档的document.xml文件的《w:document》子标签下嵌入《dsm:metadata》标记及相应的语义信息,语义信息包含描述全文的词频、编辑时间。
47.如图5所示,图5是在图2文档的document.xml文件中嵌入文档摘要语义描述,是在段落标签《w:p》属性里加入rdfa标记,并记录属性property=“摘要”;在此《w:p》子标签下嵌入当前文本段落的词频和编辑时间的rdfa标记,节点以《dsm:metadata》命名,并将rdfa标记作为属性放入对应节点中。
48.如图6所示,图6是在图2文档中嵌入图片对象对应语义信息的示意图,是在文档的document.xml文件中图片的《w:drawing》标签属性里加入rdfa标记。
49.如图7所示,图7为图2文档中嵌入与文本命名实体对应语义标记后的形式的示意图。在文档的document.xml中,在《w:r》子节点《w:t》标签下,需要标注的命名实体,如人名、地名、机构名、事件名和货币等。标注的实体在一个《w:t》标签中,则以“《dsm:metadata rdfa.....》实体《/dsm:metadata》”的规则嵌入语义元数据标签。
50.如图8所示,图8是图2文档中,一个命名实体是多个文本标签下嵌入语义表示的情况,即多个语义标记对应多段内容的情况。例如,在文档的document.xml文件中,标注的日期实体在多个《w:r》和《w:t》标签中,日期根据嵌入规则可拆分为年、月、日三个顺序编号,则在实体日期为月的第一个《w:r》标签上面嵌入“《dsm:metadata id=

x’seq=

x’是否开始=

true’rdfa..../》”,在实体日期为月的最后一个“《/w:r》标签后面嵌入《dsm:metadata id=

x’seq=

x’是否开始=

false’/》”。同理,日期为日的实体也使用同样地规则来嵌入标记。其中,id(identity)可以作为多段标识。“是否开始的值”(例如,“是否开始的值”为“false”)可以作为一个内容片段的标记开始和标记结束。
51.在一些实施例的一些可选的实现方式中,上述对上述已嵌入语义标记的语义文档进行语义标记预处理,得到预处理后的流式文档,可以包括以下步骤:
52.第一步,上述执行主体可以调整上述已嵌入语义标记的语义文档的格式结构,得到调整后的语义文档。
53.作为示例,上述执行主体可以依据预设的文档调整逻辑来调整上述已嵌入语义标
记的语义文档的格式结构,得到调整后的语义文档。
54.第二步,上述执行主体可以对上述调整后的语义文档所包括的各个语义标记进行语义范围批注,得到批注后的流式文档。
55.第三步,对于上述批注后的流式文档中的每个语义范围批注,上述执行主体可以根据上述语义范围批注对应的语义内容,生成语义批注,其中,上述语义内容包括:词汇表命名空间标识、类别、属性名称、属性值、特定位置或区域位置的语义信息,上述语义信息包括:文档作者名称、文档撰写日期、撰写时间、关键词、词频信息。其中,上述特定位置可以是文档的开始位置或结束位置。上述区域位置可以是文档的某一段的起始位置或结束位置。
56.作为示例,上述执行主体可以利用相关代码程序,根据上述语义范围批注对应的语义内容,生成语义批注。
57.第四步,上述执行主体可以根据上述批注后的流式文档中的各个语义范围批注和各个语义批注,生成上述预处理后的流式文档。
58.作为示例,上述执行主体可以利用相关文件转换程序,根据上述批注后的流式文档中的各个语义范围批注和各个语义批注,生成上述预处理后的流式文档。
59.可选地,上述调整上述已嵌入语义标记的语义文档的格式结构,得到调整后的语义文档,可以包括以下步骤:
60.第一步,响应于确定上述已嵌入语义标记的语义文档中存在多个第一目标语义标记,且上述多个第一目标语义标记位于同一目标标签下,依据预定分割方式,上述执行主体可以对上述多个第一目标语义标记进行语义标记分割处理。其中,上述多个第一目标语义标记对应的语义内容类型为命名实体。
61.具体地,如果语义标记的文本内容是命名实体,则按照文本内容前后文本序列,将命名实体与其他普通文本分割开来,使每一个命名实体的语义标记与一个语义批注对应。
62.如图9所示,图9示出了调整已嵌入语义标记的语义文档的格式结构的示意图。
63.响应于语义标记的文本内容是命名实体,则按照文本内容前后文本序列,将命名实体与其他普通文本分割开来,使每一个命名实体的语义标记与一个语义批注对应。
64.具体地,图7中“中央社”是命名实体,在原文档结构中,需要将“中央社”、“东非”、“埃塞俄比亚”、“肯尼亚”分别用单独的《w:t》标签表示,并与前后的语义标记文本分割开来,每个语义标记的命名实体都作为独立的文本结构表示,为生成语义批注做准备。
65.第二步,响应于确定上述已嵌入语义标记的语义文档中存在第二目标语义标记,且上述第二目标语义标记位于文档可见范围之外,上述执行主体可以将上述第二目标语义标记移动至文件可见范围内。其中,上述第二目标语义标记对应的语义内容类型为描述文档的元数据类型。作为示例,上述文档可见范围可以是文档中标签《w:body》《/w:body》之间的文档范围。即,文档可见范围之内为《w:body》《/w:body》之内。文档可见范围之外为《w:body》《/w:body》之外。上述目标位置可以是位于文档可见范围之外。
66.具体地,响应于文档特定位置的语义标记(即第二目标语义标记)的语义信息是语义内容的类型为元数据类型的文档元数据,在文档可见范围之外,则需将语义信息移动到文档可见范围内,并转化成能够施加批注表示的形式。
67.具体参见图11,响应于文档特定位置的语义标记(即第二目标语义标记)的语义信息是基本文档元数据,在文档可见范围之外,则需将语义信息移动到文档可见范围内,并转
化成能够施加批注表示的形式。如图4中特定位置的dsm标记(即,全文的词频和编辑时间对应的dsm标记)在《w:body》标签之外,即文档不可见区域,需要将该特定位置的dsm标记中的标记内容(即,全文的词频和编辑时间)移动到《w:body》标签之内,即文档可见区域,同时,为使得能够为此标记施加批注,将其放置到《w:p》标签内,具体形式如同图11所示的结构。
68.响应于文档特定位置标记的语义信息是基本文档元数据,在文档可见范围之外,则需将语义信息移动到文档可见范围内,并转化成能够施加批注表示的形式。
69.需要说明的是,如此调整结构,目的是使得原流式文档按照t/cesa 1176—2021《信息技术电子文档语义元数据嵌入方法》规范嵌入元数据后,已不再符合流式文档格式规范(标准),办公文档处理软件则无法打开此文档。为能够施加批注元素保留语义信息,并能够用办公文档处理软件打开编辑,所做的结构调整。
70.可选地,上述对上述调整后的语义文档所包括的各个语义标记进行语义范围批注,得到批注后的流式文档,可以包括以下步骤:
71.第一步,对于上述各个语义标记中的每个语义标记,上述执行主体可以确定上述语义标记对应标签的标签起始位置和标签结束位置。
72.将上述对应标签的标签起始位置和标签结束位置作为对应语义批注的范围,用语义批注起始标记和结束标记替换。
73.具体地,以日期为例,将该语义标记前后的语义标签开始标记和语义标签结束标记,作为语义批注范围的标记,以方便批注标签的替换。
74.第二步,上述执行主体可以删去上述各个语义标记对应的命名空间描述和各个语义标记所对应的目标标记。其中,上述目标标记可以是语义标记中的《dsm:metadata》标记。
75.作为示例,去除或隐去图3中为文档添加的命名空间具体可以为:
[0076]“xmlns:rdfa="http://www.w3.org/tr/2015/rec-rdfa-core-20150317/"和xmlns:dsm="http://document-semantic-metadata"”两个命名空间。
[0077]
第三步,上述执行主体可以将各个语义标记中上述语义标记对应标签的标签起始位置和标签结束位置,确定为上述语义标记的语义范围。
[0078]
第四步,上述执行主体可以依据预定格式,对上述各个语义标记的语义范围进行范围批注。
[0079]
可选地,针对标记语义批注的范围,即将语义批注的区域对应到语义标记覆盖的内容,包括以下情形:
[0080]
情形一:响应于语义标记的文本内容是命名实体,则当前文本的起始位置及结束位置作为语义批注的区域范围。
[0081]
参见图10,如图10中[dsm5]“中新网”是组织机构的命名实体,则语义批注范围区域在“中新网”文字的开始位置和结束的位置。
[0082]
情形二:响应于语义标记对应语义内容是文档特定位置的语义信息,则需为此语义标记设置对应的语义批注范围。文档特定位置对应的内容可以是文档全文的语义信息,也可以是文档局部内容的语义信息。
[0083]
具体的,上述执行主体可以设置对应的语义批注范围,响应于语义标记对应的语义内容是文档特定位置的语义信息,对于描述全文内容的语义信息,可以在文档首部设置一个空的语义批注范围,如图10中的[dsm2],也可以设置文档全文的起始位置及结束位置
作为语义的批注范围。对于描述文档局部内容的语义信息,如包含某一个或多个文本段落或包含一个或多个文档对象的语义信息,则可以在局部内容的首部设置一个空的语义批注范围如图10中的[dsm3],也可以直接将文档对象所覆盖的整个区域看作一个整体,记录起始位置与结束位置,并作为语义批注的范围,如图10中的[dsm15]。
[0084]
情形三:响应于语义标记的命名实体是图片对象,则语义标记的范围可以按照文档特定位置的语义信息方式设置语义批注范围。语义批注范围能够覆盖图片对象的范围为准,如图6对应的语义批注范围对应图10[dsm18]。
[0085]
情形四:响应于语义标记对应的是多段内容,则将多段内容的开始标记和结束标记作为语义批注的范围。如图8和图10的[dsm6]和[dsm7]。
[0086]
将对应语义批注的范围,用语义批注起始标记和结束标记替换。
[0087]
可选地,上述根据上述语义范围批注对应的语义内容,生成语义批注,可以包括以下步骤:
[0088]
第一步,上述执行主体可以依据语义批注范围的起始标记和结束标记,生成与上述语义批注范围相对应的语义批注标记。
[0089]
第二步,上述执行主体可以将上述语义批注标记中的语义内容确定为语义批注的内容信息。
[0090]
可选地,获取语义标记中的内容,将语义标记中的内容作为语义批注的内容的过程如下:
[0091]
遍历带有语义批注范围的、带有语义标记的文档,获取每一个语义标记的内容。将获取到语义标记中的内容,作为语义批注的内容,如图10中右侧的语义批注。
[0092]
除此之外,可以为每一个语义批注,分配一个语义用户标识,以区别流式文档语义批注与普通文档批注,如图10中右侧的语义批注的语义用户标识[dsmxx],普通文档批注标识[fbxx]。
[0093]
响应于如果一个命名实体的语义标记对应于多个文本段落的内容,则根据多段标识和顺序编号,处理为一个或多个语义批注,并在语义批注内容中保留标识符和顺序编号。如图10的语义批注[dsm6]和[dsm7]。
[0094]
流式文档中的多个语义标签,可以因词汇表命名空间等不同而具备不同的语义,因此多个语义标记对应的语义批注可以重叠和交叉。
[0095]
如图10中批注15[dsm15]的批注范围覆盖批注5-14[dsm5]-[dsm14],产生了语义批注的重叠和交叉。
[0096]
第三步,上述执行主体可以生成与语义批注相对应的用户标识。例如,上述用户标识可以是“dsm”。
[0097]
第四步,上述执行主体可以根据上述语义批注的内容信息和用户标识,生成上述语义批注。
[0098]
可选地,响应于确定语义内容类型为命名实体的语义标记对应多段文本的内容,上述执行主体可以根据语义标记的多段标识和顺序编号,将语义标记的语义内容确定为至少一个语义批注的内容信息。
[0099]
可选地,在上述调整上述已嵌入语义标记的语义文档的格式结构,得到调整后的语义文档之前,上述步骤还包括:
[0100]
上述执行主体可以存储上述已嵌入语义标记的语义文档中各个语义标记的语义标记属性信息到目标文件中。
[0101]
可选地,上述各个语义标记对应的各个语义批注间可以相互重叠或相互交叉。
[0102]
步骤102,响应于接收到针对上述预处理后的流式文档的文档编辑指令,对上述预处理后的流式文档进行文本编辑,得到编辑后流式文档。
[0103]
在一些实施例中,响应于接收到针对上述预处理后的流式文档的文档编辑指令,上述执行主体可以对上述预处理后的流式文档进行文本编辑,得到编辑后流式文档。作为示例,响应于接收到针对上述预处理后的流式文档的文档编辑指令,上述执行主体可以对预处理后的流式文档进行文本增加信息操作,文本删除信息操作和/或文本修改信息操作。例如,文本添加信息操作可以是按照语义批注的形式添加语义批注信息的操作。文本删除信息操作可以是按照语义批注的形式删除语义批注信息的操作。
[0104]
步骤103,响应于接收到针对上述编辑后流式文档的语义批注转换指令,对上述编辑后流式文档进行语义批注后处理,得到处理后的语义文档。
[0105]
在一些实施例中,响应于接收到针对上述编辑后流式文档的语义批注转换指令,上述执行主体可以对上述编辑后流式文档进行语义批注后处理,得到处理后的语义文档。其中,语义批注转换指令可以是将语义批注进行转换的指令。其中,上述处理后的语义文档中存在已嵌入的各个语义标记,上述处理后的语义文档中的各个语义标记是基于上述编辑后流式文档中各个语义批注转换生成的。上述处理后的语义文档不能被常用的文字处理软件所打开。
[0106]
在一些实施例的一些可选的实现方式中,上述对上述编辑后流式文档进行语义批注后处理,得到处理后的语义文档,可以包括以下步骤:
[0107]
第一步,根据语义用户标识,将对应的语义批注对应的语义批注范围作为语义标记的范围。其中,虽然编辑后流式文档存在多个相同的语义用户标识,但是上述每个语义用户标识存在一一对应的语义批注。
[0108]
第二步,根据上述语义用户标识,将对应的语义批注的内容信息提取出来,得到语义标记的内容信息。
[0109]
第三步,根据上述语义批注的内容信息,将具有多段标识的语义批注按编号顺序还原成多段文本或语义标记。
[0110]
第四步,响应于上述语义批注的内容信息的内容类型为描述文档的元数据类型,则将语义标记连同内容信息还原至原来的位置。其中,原来的位置为文档不可见区域之外。
[0111]
第五步,添加或还原命名空间描述,以将文档作为处理后的语义文档。
[0112]
具体地,根据语义用户标识,将对应的语义批注的区域作为新的语义标记的范围,主要是识别批注中的语义用户标识,获取当前批注的文本覆盖范围,即该语义批注的起始位置与结束位置,替换为语义标记。
[0113]
识别普通用户设置的语义批注(可以通过普通用户语义批注中包含的rdfa标记进行识别)如图10中[fb16]和[fb17],将普通用户标识替换为语义用户标识,并按照语义用户的批注区域作为新的语义标记范围的方法来替换语义标记。具体参见图12。
[0114]
除此之外,根据语义用户标识,将对应的语义批注内容提取出来,作为新的语义标记内容。上述语义批注的内容包括词汇表命名空间标识、类别、属性以及取值等;还包括文
档的特定位置标记的语义信息,如作者、撰写日期、撰写时间、关键词及词频等。
[0115]
如图10中的[dsmx],内容替换后格式记录参见图13。
[0116]
实践中,将具有多段标识的语义批注按编号顺序还原多段文本或语义标记。具体过程如下:识别到语义批注中含有多段标识和顺序编号的情况,则将语义批注标记替换为语义标记,并按照规则重组编号,并依次将语义批注内容对应还原到多段文本或语义标记中。添加或还原命名空间描述,将文档保存为语义标记文档。
[0117]
如图10中的[dsm6]和[dsm7],多段标识的语义批注还原后的格式记录可以参见图14。
[0118]
本公开的上述各个实施例中具有如下有益效果:通过该实施方式使得文字处理软件能够正常打开、编辑并保存语义文档;同时使得语义文档便于文档的高效检索、信息提取及机器理解等智能化处理。
[0119]
进一步参考图15,作为对上述各图所示方法的实现,本公开提供了一种语义文档存储装置的一些实施例,这些装置实施例与图2所示的那些方法实施例相对应,该装置具体可以应用于各种电子设备中。
[0120]
如图15所示,一种语义文档存储装置1500包括:语义标记预处理单元1501、文本编辑单元1502、语义批注后处理单元1503和存储单元1504。其中,语义标记预处理单元1501,被配置成响应于接收到针对已嵌入语义标记的语义文档的语义标记转换指令,对上述已嵌入语义标记的语义文档进行语义标记预处理,得到预处理后的流式文档,其中,上述预处理后的流式文档中存在各个语义批注,上述各个语义批注是基于上述已嵌入语义标记的语义文档中的各个语义标记转换生成的;文本编辑单元1502,被配置成响应于接收到针对上述预处理后的流式文档的文档编辑指令,对上述预处理后的流式文档进行文本编辑,得到编辑后流式文档;语义批注后处理单元1503,被配置成响应于接收到针对上述编辑后流式文档的语义批注转换指令,对上述编辑后流式文档进行语义批注后处理,得到处理后的语义文档,其中,上述处理后的语义文档中存在已嵌入的各个语义标记,上述处理后的语义文档中的各个语义标记是基于上述编辑后流式文档中各个语义批注转换生成的;存储单元1504,被配置成对上述处理后的语义文档进行存储。
[0121]
可以理解的是,该装置1500中记载的诸单元与参考图1描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作、特征以及产生的有益效果同样适用于装置1500及其中包含的单元,在此不再赘述。
[0122]
以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1