本发明涉及数字出版技术领域,尤其涉及一种基于领域知识的个性化知识库重组方法。
背景技术:
传统出版是通过传统印刷技术的纸质出版,其物质媒介是纸张。传统出版必须将内容物化在物质媒介上,其产品具有明确的物质形态以及实物可保存性。数字出版是利用信息技术将出版物以网络、光盘等形式投放市场的出版方式。
随着社会的进步,读者对知识获取的需求也在不断提高,尤其是在专业出版领域,读者的需求逐步在向个性化发展。新闻出版单位作为内容的提供者,也需要能够提供个性化产品。但是,由于传统出版的周期比较长,很难满足各类读者的需求。同时,新闻出版单位也在经历从内容出版到知识服务的转型,有迫切的构建和发布个性化知识库的业务需求。
内容动态重组基于碎片化加工的素材资源,根据各种媒体资源及内容单元之间关联性,以及不同专业领域的特点,快速完成个性化产品内容的生成,从而缩短出版周期,为读者提供个性化服务。
基于内容动态重组,可以重构所需的领域知识(典型地,通过领域词表或者领域本体描述),并配置所需的筛选条件,通过生成和执行重组计划动态地生成个性化的知识库,从而为用户提供快速的知识服务。
docbook提供了整个书写结构化文档的体系,它使用sgml/xml定义了一系列文档元素,并可以利用工具把原始的文档源文件转换成各种文档格式。简单说,docbook就是一组对于xml文档进行解析的规范。对于一个按照docbook格式写好的xml文件,使用docbook的一些相关工具,就可以按照用户的要求生成各种各样的输出。顾名思义,docbook是专门为写书籍或者类似书籍的文档所设计的。目前,国内出版社普遍采用基于docbook的标准对出版物资源进行碎片化加工。
专业出版社通常在专业领域具有多年积累的领域知识和素材,典型的领域知识采用领域词表或者领域本体进行描述,而素材通常涉及出版的图书章节,论文及其他多媒体素材,通常采用xml进行碎片化加工。数字化水平高的出版社亦通过领域知识对素材进行了标引,能够较快速的通过领域知识定位相关素材。
面向出版领域的内容重组技术,国内外直接相关的技术标准还不存在,技术的发展还处于萌芽阶段。国际上由oasis(theorganizationfortheadvancementofstructuredinformationstandards)组织维护的开放性标准--dita(darwininformationtypingarchitecture),存在相关技术的理念。dita是一套基于xml的面向主题的数字内容结构化写作与发布方案。
国内外也存在个别对于碎片化加工的内容,按用户需要进行动态重组的业务模式,例如培生在其网站上允许用户选购碎片化的章节内容,自行按照需要打包付费购买。但是相关的技术和应用还存在许多问题,例如业务模式应用面窄,重组产品构建为用户手动操作,自动化水平低。
利用动态重组自动生成个性化知识库的技术和应用更处于探索阶段,现有技术的自动化水平低,难以实现真正的个性化需求。
技术实现要素:
为解决上述技术问题,本发明的目的是提供一种基于领域知识的个性化知识库重组方法。
本发明的目的通过以下的技术方案来实现:
一种基于领域知识的个性化知识库重组方法,包括:
a根据用户需求对感兴趣的领域知识进行重新选取;
b对知识对应的素材是否被选入知识库进行必要筛选条件设置;
c结合相应的素材筛选条件,构建相应的素材提取指令,即构成了重组计划;
d根据提取指令涉及的知识分布,进行并行执行,生成知识库,即执行了重组计划;
e加入未提取入知识库的感兴趣的素材或者删除已提取入知识库的不感兴趣的素材。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
该知识库重组方法尤其适用于专业领域知识库的重组,适合专业出版社的业务应用,在重组过程中强调领域知识的作用,领域知识通常是领域词表或者领域本体。同时,利用领域知识的重构(合并和选取领域知识)实现知识库需求描述的个性化,即用户可以动态地选取自己关心的知识集合,从而为用户提供更好的知识服务。
该知识库重组方法实现了自动化的重组,基于重组知识库涉及的领域知识,并配置知识库内素材的相应筛选条件,可以生成对应的重组计划。重组计划是用于描述重组以生成个性化知识库的指令,鉴于领域知识的层次组织结构(在领域词表中具有属分关系,在本体中具有子类关系)以及经过重构的领域知识可能来自不同的词表或者本体,相应的领域知识可以认为是一个森林的结构,基于该结构,并利用配置的筛选条件,可以生成相应领域知识项的提取计划,整体即构成了重组计划。依据重组计划,可以对涉及的领域知识按照筛选条件进行内容提取,构成最终的知识库产品。一般领域知识及其素材具有一定的独立性,可以并行执行。具体的内容提取可以利用全文检索方法或者内容素材自身的元数据标引信息。
该内容动态重组方法引入了内容矫正的机制,该方法自动化执行知识库重组计划从而生成重组产品,但其结果可能与用户实际的需求有出入。例如,用户期望的素材没有提取到知识库中,或者用户不想要的素材提取到了素材库中。用户在系统自动化执行构建的知识库中,可以将不需要的素材删除,或者手动添加其他可用的未提取到知识库中的素材,从而为用户提供更好地个性化知识服务。
附图说明
图1是基于领域知识的个性化知识库重组方法流程图;
图2是重构领域知识示意图;
图3是配置筛选条件示意图;
图4是生成重组计划结构图;
图5是执行重组计划结构图;
图6是内容素材调整示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。
如图1所示,为基于领域知识的个性化知识库重组方法流程,包括以下步骤:
步骤10根据用户需求对感兴趣的领域知识进行重新选取;
步骤20对知识对应的素材是否被选入知识库进行必要筛选条件设置;
步骤30结合相应的素材筛选条件,构建相应的素材提取指令,即构成了重组计划;
步骤40根据提取指令涉及的知识分布,进行并行执行,生成知识库,即执行了重组计划;
步骤50加入未提取入知识库的感兴趣的素材或者删除已提取入知识库的不感兴趣的素材。
上述步骤10为重构领域知识;领域知识通常是专业出版社构建的专业领域知识体系,通常以领域词表或者领域本体的形式描述。领域知识包括领域中的概念及概念间的关系,典型的领域词表中的关系包括用、代、属、分、参,领域本体通常还包括内置的一般性关系(例如反义)和大量的自定义关系。领域知识通常按概念的分类层次进行组织(例如词表中的属分关系,领域本体中的subclassof关系),可以理解为多个树状结构的概念体系,即构成森林的结构。领域知识通常针对特定的专业领域构建,涉及的范围(或者理解为粒度)可大可小,视具体的应用需求而定。此外,领域知识由于其专业性,往往在自动构建的同时,需要大量的领域专家的参与,进行人工的编辑和审核。
在个性化知识库重组的场景下,领域知识需要进行一定的重构,以满足用户的个性化需求。鉴于领域知识的专业性和权威性,不加约束地改变领域知识的组织很难保证领域知识的一致性,即不产生逻辑上的矛盾,因此,本专利涉及的领域知识重构只涉及对于现有领域知识的合并和筛选。领域知识的合并指将现有的领域知识中(可能来自不同的领域知识体系)的概念提取到当前知识库的需求中;领域知识的筛选指将选取的领域知识概念涉及的相关概念进行删减,只选取用户切实关心的概念。以上的领域知识重构可以生成用户对知识库所需概念的个性化描述。典型地,由于概念可能涉及不同的知识体系,并且经过筛选,会构成多个树状层级结构,即森林。
重构领域知识的交互如图2所示,列出用户可用的多个领域知识体系,用户通过拖拽相应的概念选取知识库涉及的知识点,可选地删除概念相关的子概念。
上述步骤20为配置筛选条件(如图3所示),在个性化知识库重组的场景下,配置筛选条件指规定知识库包含的素材需要满足的条件,一般通过素材关联的元数据进行筛选。
对于专业出版领域,筛选条件典型地包括:作者,版权信息,出版机构,时间范围,语种,面向用户定位等。不同的应用可能涉及不同的元数据筛选条件,可以通过配置文件动态加载系统支持的筛选项。
上述步骤30为生成重组计划(如图4所示),重组计划是知识库重组指令的内部表示,用于描述如何自动化地提取领域知识关联的素材。由于领域知识通常是一个森林的数据结构,同时知识库配置了筛选条件,因此对应的执行计划通常是一个森林的数据结构,其中每个树结构代表用户需要的领域知识概念,并且在树结构上标注了配置的筛选条件。该过程可以很容易地通过步骤10重构的领域知识和步骤20配置的筛选条件进行构建。
上述步骤40为执行重组计划(如图5所示),执行重组策略是对步骤30配置的重组策略进行解释执行,生成重组产品的过程。典型的执行过程是遍历重组计划涉及的每个知识项,依据筛选条件,从素材库中提取该知识项相关的素材。提取的依据通常是素材的标引项,如果素材本身缺少标引项,可以通过全文检索的方式提取文本型素材。
重组算法的执行通常涉及不同的领域知识项的素材提取,因此可以利用并行执行的方法以提升效率,例如在单机的情况下利用多线程的方式,或者在分布式环境下利用map-reduce的思想。
上述步骤50是内容素材的调整(如图6所示),基于以上步骤自动构建的知识库很难做到完全符合用户的需求,因此引入调整知识库中内容素材的机制。该步骤为人工交互的调整的过程,用户可以将提取出的不感兴趣的素材删除,也可以基于自己的需求添加感兴趣的素材。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。