分布式文件转版与加工方法、系统及计算机可读存储介质与流程

文档序号:13912902阅读:138来源:国知局
本发明涉及一种文件转版与加工技术,尤其涉及一种分布式文件转版与加工方法、系统及计算机可读存储介质。
背景技术
::pdf(portabledocumentformat的简称,意为“便携式文档格式”)一种与操作系统平台无关的文件格式,也就是说,pdf文件不管是在windows,unix还是在苹果公司的macos操作系统中都是通用的。这一特点使它成为在internet上进行电子文档发行和数字化信息传播的理想文档格式。因此,越来越多的电子图书、产品说明、公司文告、网络资料、电子邮件在开始使用pdf格式文件,pdf格式文件也被作为归档和保存文件的国际标准格式,支持永久长期保存,目前支持永久长期保存的格式还有ofd。在对待存储文件进行格式转换时,需要进行文件转版和内容加工,现有的文件转版和内容加工服务都是基于特定的软件及操作系统进行开发的,对文件格式转换和内容加工效率较低,特别是在对大批量的电子文件进行格式转换与内容加工时,只能依次对每一个文件进行加工,不能实现并行转版和内容加工的需求,无法实现整体流水线作业。技术实现要素:本发明要解决的技术问题之一,在于提供一种分布式文件转版与加工方法,提高批量文件转版与内容加工的效率。本发明要解决的技术问题之一是这样实现的:一种分布式文件转版与加工方法,包括如下步骤:步骤1、通过至少一个文件上传服务将待处理文件存储到存储库中,并生成转版队列、缩略图队列和抽取队列;步骤2、通过一统一调度服务将每一队列的任务编号与该队列对应的服务个数进行取模,根据所述模值分配每一对应的服务的待执行任务;每一队列包括任务编号和任务时间,所述任务编号表示整数序列文件,所述任务时间表示任务执行的先后顺序;步骤3、通过复数个转版服务对文件进行转版操作,每一所述转版服务根据统一调度服务计算的模值以及转版队列的任务时间批量提取待转版任务进行转版,并将转版后的文件存入存储库中,同时触发生成缩略图队列;步骤4、通过复数个缩略图服务对文件进行缩略图处理,每一所述缩略图服务根据统一调度服务计算的模值以及缩略图队列的任务时间批量提取待缩略图任务进行处理,并将处理结果存入存储库中;步骤5、通过复数个内容抽取服务对文件进行抽取处理,每一所述内容抽取服务根据统一调度服务计算的模值以及抽取队列的任务时间批量提取抽取任务进行文件内容的抽取处理,并将处理后的内容存入存储库,并触发生成索引队列;步骤6、通过复数个创建索引服务对文件进行索引创建,每一所述创建索引服务根据统一调度服务计算的模值以及索引队列的任务时间批量提取索引任务进行创建索引操作,并将处理结果存入索引库;所述步骤3和步骤5不分先后进行;所述步骤4和步骤6不分先后进行。进一步的,所述步骤2中的队列包括转版队列、缩略图队列、抽取队列和索引队列,且所述转版队列、缩略图队列、抽取队列和索引队列对应的服务依次为转版服务、缩略图服务、内容抽取服务和创建索引服务。进一步的,所述转版服务、缩略图服务、内容抽取服务和创建索引服务分别以组件形式存在,其个数根据需要进行增减。进一步的,用户通过修改队列中的任务时间对个别文件处理顺序进行调整。本发明要解决的技术问题之二,在于提供一种计算机可读存储介质,提高批量文件转版与内容加工的效率。本发明要解决的技术问题之二是这样实现的:一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:步骤1、通过至少一个文件上传服务将待处理文件存储到存储库中,并生成转版队列、缩略图队列和抽取队列;步骤2、通过一统一调度服务将每一队列的任务编号与该队列对应的服务个数进行取模,根据所述模值分配每一对应的服务的待执行任务;每一队列包括任务编号和任务时间,所述任务编号表示整数序列文件,所述任务时间表示任务执行的先后顺序;步骤3、通过复数个转版服务对文件进行转版操作,每一所述转版服务根据统一调度服务计算的模值以及转版队列的任务时间批量提取待转版任务进行转版,并将转版后的文件存入存储库中,同时触发生成缩略图队列;步骤4、通过复数个缩略图服务对文件进行缩略图处理,每一所述缩略图服务根据统一调度服务计算的模值以及缩略图队列的任务时间批量提取待缩略图任务进行处理,并将处理结果存入存储库中;步骤5、通过复数个内容抽取服务对文件进行抽取处理,每一所述内容抽取服务根据统一调度服务计算的模值以及抽取队列的任务时间批量提取抽取任务进行文件内容的抽取处理,并将处理后的内容存入存储库,并触发生成索引队列;步骤6、通过复数个创建索引服务对文件进行索引创建,每一所述创建索引服务根据统一调度服务计算的模值以及索引队列的任务时间批量提取索引任务进行创建索引操作,并将处理结果存入索引库;所述步骤3和步骤5不分先后进行;所述步骤4和步骤6不分先后进行。进一步的,所述步骤2中的队列包括转版队列、缩略图队列、抽取队列和索引队列,且所述转版队列、缩略图队列、抽取队列和索引队列对应的服务依次为转版服务、缩略图服务、内容抽取服务和创建索引服务。进一步的,所述转版服务、缩略图服务、内容抽取服务和创建索引服务分别以组件形式存在,其个数根据需要进行增减。进一步的,用户通过修改队列中的任务时间对个别文件处理顺序进行调整。本发明要解决的技术问题之三,在于提供一种分布式文件转版与加工系统,提高批量文件转版与内容加工的效率。本发明要解决的技术问题之三是这样实现的:一种分布式文件转版与加工系统,包括文件上传模块、调度模块、文件转版模块、内容抽取模块、缩略图模块和创建索引模块;所述文件上传模块,通过至少一个文件上传服务将待处理文件存储到存储库中,并生成转版队列、缩略图队列和抽取队列;所述调度模块,通过一统一调度服务将每一队列的任务编号与该队列对应的服务个数进行取模,根据所述模值分配每一对应的服务的待执行任务;每一队列包括任务编号和任务时间,所述任务编号表示整数序列文件,所述任务时间表示任务执行的先后顺序;所述文件转版模块,通过复数个转版服务对文件进行转版操作,每一所述转版服务根据统一调度服务计算的模值以及转版队列的任务时间批量提取待转版任务进行转版,并将转版后的文件存入存储库中,同时触发生成缩略图队列;所述缩略图模块,通过复数个缩略图服务对文件进行缩略图处理,每一所述缩略图服务根据统一调度服务计算的模值以及缩略图队列的任务时间批量提取待缩略图任务进行处理,并将处理结果存入存储库中;所述内容抽取模块,通过复数个内容抽取服务对文件进行抽取处理,每一所述内容抽取服务根据统一调度服务计算的模值以及抽取队列的任务时间批量提取抽取任务进行文件内容的抽取处理,并将处理后的内容存入存储库,并触发生成索引队列;所述创建索引模块,通过复数个创建索引服务对文件进行索引创建,每一所述创建索引服务根据统一调度服务计算的模值以及索引队列的任务时间批量提取索引任务进行创建索引操作,并将处理结果存入索引库;所述文件转版模块和内容抽取模块不分先后执行,所述缩略图模块和创建索引模块部分先后执行。进一步的,所述调度模块中的队列包括转版队列、缩略图队列、抽取队列和索引队列,且所述转版队列、缩略图队列、抽取队列和索引队列对应的服务依次为转版服务、缩略图服务、内容抽取服务和创建索引服务。进一步的,所述转版服务、缩略图服务、内容抽取服务和创建索引服务分别以组件形式存在,其个数根据需要进行增减。进一步的,用户通过修改队列中的任务时间对个别文件处理顺序进行调整。本发明具有如下优点:1、通过统一调度服务对转版和加工的四个服务以及四个队列单独进行调度,实现整体流水线作业,将原先必须按顺序执行的步骤进行并行执行,大大提高批量文件转换格式与内容加工效率;2、各个队列顺序可根据需要进行调整,可自定义执行顺序;3、各服务由根据需要进行动态横向扩展,灵活度高。附图说明下面参照附图结合实施例对本发明作进一步的说明。图1为本发明方法执行流程图。图2为本发明基于分布式的电子文件转版与加工的原理框图。图3为本发明的转版服务的调度原理示意图。具体实施方式请参阅图1和图2,本发明一种分布式文件转版与加工方法,包括如下步骤:步骤1、通过至少一个文件上传服务将待处理文件存储到存储库中,并生成转版队列、缩略图队列和抽取队列;步骤2、通过一统一调度服务将每一队列的任务编号与该队列对应的服务个数进行取模,根据所述模值分配每一对应的服务的待执行任务;每一队列包括任务编号和任务时间,所述任务编号表示整数序列文件,所述任务时间表示任务执行的先后顺序;其中,队列包括转版队列、缩略图队列、抽取队列和索引队列,且所述转版队列、缩略图队列、抽取队列和索引队列对应的服务依次为转版服务、缩略图服务、内容抽取服务和创建索引服务,所述转版服务、缩略图服务、内容抽取服务和创建索引服务分别以组件形式存在,其个数根据需要可进行增减,用户可通过修改队列中的任务时间对个别文件处理顺序进行调整。步骤3、通过复数个转版服务对文件进行转版操作,每一所述转版服务根据统一调度服务计算的模值以及转版队列的任务时间批量提取待转版任务进行转版,并将转版后的文件存入存储库中,同时触发生成缩略图队列;步骤4、通过复数个缩略图服务对文件进行缩略图处理,每一所述缩略图服务根据统一调度服务计算的模值以及缩略图队列的任务时间批量提取待缩略图任务进行处理,并将处理结果存入存储库中;步骤5、通过复数个内容抽取服务对文件进行抽取处理,每一所述内容抽取服务根据统一调度服务计算的模值以及抽取队列的任务时间批量提取抽取任务进行文件内容的抽取处理,并将处理后的内容存入存储库,并触发生成索引队列;步骤6、通过复数个创建索引服务对文件进行索引创建,每一所述创建索引服务根据统一调度服务计算的模值以及索引队列的任务时间批量提取索引任务进行创建索引操作,并将处理结果存入索引库;所述步骤3和步骤5不分先后进行;所述步骤4和步骤6不分先后进行。请再参阅图1和图2,本发明的一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:步骤1、通过至少一个文件上传服务将待处理文件存储到存储库中,并生成转版队列、缩略图队列和抽取队列;步骤2、通过一统一调度服务将每一队列的任务编号与该队列对应的服务个数进行取模,根据所述模值分配每一对应的服务的待执行任务;每一队列包括任务编号和任务时间,所述任务编号表示整数序列文件,所述任务时间表示任务执行的先后顺序;其中,队列包括转版队列、缩略图队列、抽取队列和索引队列,且所述转版队列、缩略图队列、抽取队列和索引队列对应的服务依次为转版服务、缩略图服务、内容抽取服务和创建索引服务,所述转版服务、缩略图服务、内容抽取服务和创建索引服务分别以组件形式存在,其个数可根据需要进行增减,用户可通过修改队列中的任务时间对个别文件处理顺序进行调整。步骤3、通过复数个转版服务对文件进行转版操作,每一所述转版服务根据统一调度服务计算的模值以及转版队列的任务时间批量提取待转版任务进行转版,并将转版后的文件存入存储库中,同时触发生成缩略图队列;步骤4、通过复数个缩略图服务对文件进行缩略图处理,每一所述缩略图服务根据统一调度服务计算的模值以及缩略图队列的任务时间批量提取待缩略图任务进行处理,并将处理结果存入存储库中;步骤5、通过复数个内容抽取服务对文件进行抽取处理,每一所述内容抽取服务根据统一调度服务计算的模值以及抽取队列的任务时间批量提取抽取任务进行文件内容的抽取处理,并将处理后的内容存入存储库,并触发生成索引队列;步骤6、通过复数个创建索引服务对文件进行索引创建,每一所述创建索引服务根据统一调度服务计算的模值以及索引队列的任务时间批量提取索引任务进行创建索引操作,并将处理结果存入索引库;所述步骤3和步骤5不分先后进行;所述步骤4和步骤6不分先后进行。本发明一种分布式文件转版与加工系统,包括文件上传模块、调度模块、文件转版模块、内容抽取模块、缩略图模块和创建索引模块;所述文件上传模块,通过至少一个文件上传服务将待处理文件存储到存储库中,并生成转版队列、缩略图队列和抽取队列;所述调度模块,通过一统一调度服务将每一队列的任务编号与该队列对应的服务个数进行取模,根据所述模值分配每一对应的服务的待执行任务;每一队列包括任务编号和任务时间,所述任务编号表示整数序列文件,所述任务时间表示任务执行的先后顺序;所述调度模块中的队列包括转版队列、缩略图队列、抽取队列和索引队列,且所述转版队列、缩略图队列、抽取队列和索引队列对应的服务依次为转版服务、缩略图服务、内容抽取服务和创建索引服务,所述转版服务、缩略图服务、内容抽取服务和创建索引服务分别以组件形式存在,其个数可根据需要进行增减,用户可通过修改队列中的任务时间对个别文件处理顺序进行调整。所述文件转版模块,通过复数个转版服务对文件进行转版操作,每一所述转版服务根据统一调度服务计算的模值以及转版队列的任务时间批量提取待转版任务进行转版,并将转版后的文件存入存储库中,同时触发生成缩略图队列;所述缩略图模块,通过复数个缩略图服务对文件进行缩略图处理,每一所述缩略图服务根据统一调度服务计算的模值以及缩略图队列的任务时间批量提取待缩略图任务进行处理,并将处理结果存入存储库中;所述内容抽取模块,通过复数个内容抽取服务对文件进行抽取处理,每一所述内容抽取服务根据统一调度服务计算的模值以及抽取队列的任务时间批量提取抽取任务进行文件内容的抽取处理,并将处理后的内容存入存储库,并触发生成索引队列;所述创建索引模块,通过复数个创建索引服务对文件进行索引创建,每一所述创建索引服务根据统一调度服务计算的模值以及索引队列的任务时间批量提取索引任务进行创建索引操作,并将处理结果存入索引库;所述文件转版模块和内容抽取模块不分先后执行,所述缩略图模块和创建索引模块部分先后执行。下面结合一具体实施例对本发明做进一步说明:以组件形式创建四类用于转版和内容加工的服务,分别为转版服务、缩略图服务、内容抽取服务和创建索引服务;并对应的用四个队列存储这四类服务待处理文件信息,以任务编号和任务时间两个字段进行存储,其中,任务编号表示整数序列文件,任务时间表示该任务执行的先后顺序,以便各个服务按序查找需要执行的文件的;其中,文件上传服务,用于上传完成后把文件存储到存储中,并生成转版队列、缩略图队列及抽取队列;转版服务,用于根据转版队列信息进行转版并把转版文件存入存储,并触发生成缩略图队列;缩略图服务,用于根据缩略图队列执行缩略图处理,并存入存储库。内容抽取服务,用于根据抽取队列进行文件内容的抽取并存入存储中,并解发生成索引队列;创建索引服务,用于根据索引队列进行创建索引服务,并存入索引库中,供用户查询。以上四类服务均设置复数个,用于并行处理对应任务,每一类服务均通过统一调度服务进行分配任务,使得以最佳效率进行文件处理;具体的:各类服务执行过程如下:(1)文件上传服务将待处理文件存储到存储库中,生成转版队列、缩略图队列和抽取队列;(2)利用调度服务通过转版队列的任务编号以及执行转版服务数进行取模(结果为a)来计算每一转版服务所执行的任务;每一转版服务根据取模的值(a)按转版队列中任务时间顺序批量提取转版任务进行转版,并将转版后的文件存入存储库中,同时触发生成缩略图队列;(3)利用调度服务通过缩略图队列的任务编号以及执行转版服务数进行取模(结果为b)来计算每一缩略图服务所执行的任务;每一缩略图服务根据取模的值(b)按缩略图队列中任务时间顺序批量提取缩略图任务进行处理,并将处理结果存入存储库中;(4)利用调度服务通过抽取队列的任务编号以及执行内容抽取服务数进行取模(结果为c)来计算每一内容抽取服务所执行的任务;每一内容抽取服务根据取模的值(c)按抽取队列中任务时间顺序批量提取转版任务进行转版,并将抽取后的内容存入存储库中,同时触发生成索引队列;(5)利用调度服务通过索引队列的任务编号以及执行内容抽取服务数进行取模(结果为d)来计算每一创建索引服务所执行的任务;每一创建索引服务根据取模的值(d)按索引队列中任务时间顺序批量提取索引任务进行创建,并将创建结果存入索引库,供用户查询。请参阅图3,以转版服务为例,当转版服务个数为3时(包括转版服务1、转版服务2和转版服务3),此时转版服务1需执行任务为:转版队列中的任务编号模转版服务个数3=0的所有任务;转版服务2需执行任务为:转版队列中的任务编号模转版服务个数3=1的所有任务;转版服务3需执行任务为:转版队列中的任务编号模转版服务个数3=2的所有任务;同理,缩略图服务、内容抽取服务和创建索引服务均由统一调度服务按上述方式进行任务分配,确保按最优方案执行,提高整体处理效率。上述各类服务之间相互独,各服务之间并行执行,通过统一调度服务将任务均分给各个服务,实现流水线作业,大大提升文件批量转版加工效率;本发明中可根据任务量的大小设置不同数量的转版和内容加工的服务,满足服务横向可扩展,另外,用户可自行调整队列中的任务时间,来调整文件处理的先后顺序。虽然以上描述了本发明的具体实施方式,但是熟悉本
技术领域
:的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1