一种指定文本用对象分布式展示系统的制作方法

文档序号:29861097发布日期:2022-04-30 11:05阅读:74来源:国知局
1.本发明涉及电子文件处理
技术领域
:,具体是一种指定文本用对象分布式展示系统。
背景技术
::2.pdf(portabledocumentformat,便携式文件格式)是由adobesystems开发的一种用于文件交换的电子文件格式,这种文件格式可以应用于各种操作系统,所以越来越多的电子图书、产品说明、公司文告、网络资料、电子邮件等开始使用pdf文件,并且在很多情况下,为了追求文件的稳定性和兼容性,用户都会将word文件转换成pdf文件之后再进行传输。3.现有pdf文档采用了一种单文件描述格式,整体文档所需的字体、资源都包含在本文件中,这样比较方便传输和使用者直接打开。但是一个完整pdf在进行网络预览时性能就会比较低下,一般会采用两种技术手段加快访问:1)将每页pdf转换成图片,然后每次访问加载每页图片;但是此种技术手段是针对一些预览场景,pdf内图片是无法进行拷贝和编辑的;2)服务器端支持按页读取;此种技术手段可以支持拷贝和编辑,但在多用户访问下对单页pdf访问性能会不均匀,对一些热点pdf页文件访问效率就会降低;针对上述问题,我们提出一种指定文本用对象分布式展示系统。技术实现要素:4.本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种指定文本用对象分布式展示系统,将pdf变成多个单页文件,并将其存储在不同的存储终端上;并建立一个pdf页索引文件,记录其存储位置,当进行访问时,首先读取页级索引,然后通过页级索引定位单页文件进行快速读取;这样当不同的用户同时来访问pdf不同页时,能够分散存储设备进行读取,提高读取带宽,做到高并发访问。5.为实现上述目的,根据本发明的第一方面的实施例提出一种指定文本用对象分布式展示系统,包括文本上传模块、存储模块、文本分配模块、索引构建模块以及终端分析模块;6.所述文本上传模块用于管理人员上传pdf文件,并将pdf文件发送至云平台;所述云平台用于将接收到的pdf文件传输至文本处理模块;7.所述文本处理模块用于对pdf文件进行拆分,将pdf文件分成多个单页文件,记为pdf页文件;然后将pdf页文件分布式存储于多个存储终端中,其中每个pdf页文件均有唯一编号;8.所述存储模块包含若干个存储终端,所述文本分配模块与文本处理模块相连接,用于获取pdf页文件的访问数据并进行访问系数分析,然后根据访问系数fz将pdf页文件分配至对应的存储终端存储;9.选中终端对pdf页文件进行存储,并将对应的存储地址和pdf页文件编号返回至索引构建模块对pdf页索引文件进行构建;当用户进行访问时,首先读取页级索引,然后通过页级索引定位单页文件进行快速读取;10.所述终端分析模块用于对存储终端进行存配值分析,并将存配值cp打上时间戳并存储至云平台。11.进一步地,所述文本分配模块的具体分配步骤为:12.将pdf页文件按照访问系数fz的大小进行降序排列;获取排序第一的pdf页文件,选取存配值cp最大的存储终端标记为选中终端;将排序第一的pdf页文件标记为已分配文件,再获取排序第二的pdf页文件,并选取存配值cp次之的存储终端标记为选中终端,以此类推。13.进一步地,所述访问系数fz的具体分析过程如下:14.针对某个pdf页文件,采集该pdf页文件预设时间段内的访问数据;统计pdf页文件的访问频率标记为p1;15.将每次访问时的访问时长标记为ti,设定对应访问过程中的转换值为zhi;利用公式fwi=ti×g1+zhi×g2计算得到访问值fwi,其中g1、g2为系数因子,i表示第i次访问;16.将访问值fwi与访问阈值相比较;统计fwi大于访问阈值的次数占比为zb1;当fwi大于访问阈值时,获取fwi与访问阈值的差值并求和得到超访值g1;利用公式gz=zb1×k1+g1×k2计算得到超访系数gz,其中k1、k2为系数因子;利用公式fz=p1×k3+gz×k4计算得到对应pdf页文件的访问系数fz,其中k3、k4为系数因子。17.进一步地,所述访问数据包括访问频率、访问时长以及访问过程中的转换操作行为;所述转换操作行为包括缩小、放大、复制以及修改。18.进一步地,转换值zhi的获取方法为:19.获取对应访问过程中的转换操作行为,统计访问过程中各种转换操作行为的发生次数,然后结合数据库中存储的各转换操作行为的权重因子,计算得到对应访问过程中的转换值zhi。20.进一步地,所述终端分析模块的具体分析步骤为:21.获取每个存储终端在当前时刻下的访问节点连接数为lt,设定对应存储终端接入访问节点的最大容量为l0,最小容量为l1;利用公式lg=(l0-lt)/(lt-l1)计算得到该存储终端的接入系数lg;22.设定存储终端的剩余内存量为nt;将存储终端的实时网络访问速度标记为ft,建立实时网络访问速度ft随时间变化的曲线图,并标记为网速曲线图;将实时网络访问速度ft与标准网速阈值相比较;23.若ft≤标准网速阈值,则在对应的曲线图中截取对应的曲线段并标注为红色,记为低速曲线段;统计低速曲线段的数量为q1,将所有的低速曲线段对时间进行积分并求和得到低速参考能量q2,利用ds=q1×g3+q2×g4计算得到当前存储终端的低速系数ds,其中g3、g4为系数因子;24.利用公式cp=(lg×g5+nt×g6+ft×g7)/(ds×g8)计算得到存储终端的存配值cp,其中g5、g6、g7、g8为系数因子。25.进一步地,所述索引构建模块包括地址加密单元,所述地址加密单元接收到存储地址后对存储地址进行加密得到加密密文,并将加密密文返回至pdf页索引文件进行存储,之后在需要时通过对pdf页索引文件的查找,对应到存储终端查找具体的文件信息。26.进一步地,其中所述地址加密单元的具体加密步骤为:27.对存储地址明文进行序列化操作,得到字节流数据;将字节流数据进行大数进制转换;判断存储地址明文序列化长度是否为32的倍数,若不是,对明文编码进行补零后,执行下一步;28.对数据明文进行拆分,其中拆分单位为32位长度;分别使用第一公钥对拆分后的片段进行bls12-381加密,对加密结果进行拼接;对拼接后的加密结果进行base64编码,得到加密密文。29.与现有技术相比,本发明的有益效果是:30.1、本发明中所述文本处理模块用于对pdf文件进行拆分,将pdf文件分成多个单页文件,记为pdf页文件;然后将pdf页文件分布式存储于多个存储终端中,所述文本分配模块用于获取pdf页文件的访问数据并进行访问系数分析,然后根据访问系数fz将pdf页文件分配至对应的存储终端存储,具体为:获取排序第一的pdf页文件,选取存配值cp最大的存储终端标记为选中终端;再获取排序第二的pdf页文件,并选取存配值cp次之的存储终端标记为选中终端,以此类推;选中终端对pdf页文件进行存储,并将对应的存储地址和pdf页文件编号返回至索引构建模块对pdf页索引文件进行构建;当用户进行访问时,首先读取页级索引,然后通过页级索引定位单页文件进行快速读取;这样当不同的用户同时来访问pdf不同页时,能够分散存储终端进行读取,提高读取带宽,做到高并发访问。31.2、本发明中终端分析模块用于对存储终端进行存配值分析,计算得到存配值cp,然后根据访问系数fz将pdf页文件依次分配至存配值cp最大的存储终端存储,能够提升多用户访问下单页pdf的访问性能,提高热点pdf页文件的访问效率;其中索引构建模块包括地址加密单元,所述地址加密单元接收到存储地址后对存储地址进行加密得到加密密文,提高文件存储的安全性。附图说明32.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。33.图1为本发明一种指定文本用对象分布式展示系统的系统框图。具体实施方式34.下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。35.如图1所示,一种指定文本用对象分布式展示系统,包括文本上传模块、云平台、文本处理模块、存储模块、数据库、文本分配模块、索引构建模块以及终端分析模块;36.文本上传模块用于管理人员上传pdf文件,并将pdf文件发送至云平台;云平台用于将接收到的pdf文件传输至文本处理模块;37.文本处理模块用于对pdf文件进行拆分,将pdf文件分成多个单页文件,记为pdf页文件;然后将pdf页文件分布式存储于多个存储终端中,其中每个pdf页文件均有唯一编号;38.存储模块包含若干个存储终端,文本分配模块与文本处理模块相连接,用于获取pdf页文件的访问数据并进行访问系数分析,然后根据访问系数fz将pdf页文件分配至对应的存储终端存储;其中访问数据选取管理人员上传pdf文件之前预设时间段内的数据;具体分析步骤为:39.针对某个pdf页文件,采集该pdf页文件预设时间段内的访问数据;访问数据包括访问频率、访问时长以及访问过程中的转换操作行为;40.统计pdf页文件的访问频率标记为p1,将每次访问时的访问时长标记为ti,获取对应访问过程中的转换操作行为,转换操作行为包括缩小、放大、复制以及修改;41.统计访问过程中各种转换操作行为的发生次数,结合数据库中存储的各转换操作行为的权重因子,计算得到对应访问过程中的转换值zhi;利用公式fwi=ti×g1+zhi×g2计算得到访问值fwi,其中g1、g2为系数因子,i表示第i次访问;42.将访问值fwi与访问阈值相比较;统计fwi大于访问阈值的次数占比为zb1;当fwi大于访问阈值时,获取fwi与访问阈值的差值并求和得到超访值g1;利用公式gz=zb1×k1+g1×k2计算得到超访系数gz,其中k1、k2为系数因子;43.将访问频率、超访系数进行归一化处理并取其数值,利用公式fz=p1×k3+gz×k4计算得到对应pdf页文件的访问系数fz,其中k3、k4为系数因子;44.将pdf页文件按照访问系数fz的大小进行降序排列,生成pdf页文件的分配优先表,根据分配优先表依次pdf页文件进行分配处理,具体为:45.获取排序第一的pdf页文件,选取存配值cp最大的存储终端标记为选中终端;将排序第一的pdf页文件标记为已分配文件,再获取排序第二的pdf页文件,并选取存配值cp次之的存储终端标记为选中终端,以此类推;46.选中终端对pdf页文件进行存储,并将对应的存储地址和pdf页文件编号返回至索引构建模块对pdf页索引文件进行构建;当用户进行访问时,首先读取页级索引,然后通过页级索引定位单页文件进行快速读取;这样当不同的用户同时来访问pdf不同页时,能够分散存储终端进行读取,提高读取带宽,做到高并发访问;47.其中,终端分析模块用于对存储终端进行存配值分析,具体分析步骤为:48.获取每个存储终端在当前时刻下的访问节点连接数为lt,设定对应存储终端接入访问节点的最大容量为l0,最小容量为l1;利用公式lg=(l0-lt)/(lt-l1)计算得到该存储终端的接入系数lg;49.设定存储终端的剩余内存量为nt;将存储终端的实时网络访问速度标记为ft,建立实时网络访问速度ft随时间变化的曲线图,并标记为网速曲线图;将实时网络访问速度ft与标准网速阈值相比较;50.若ft≤标准网速阈值,则在对应的曲线图中截取对应的曲线段并标注为红色,记为低速曲线段;统计低速曲线段的数量为q1,将所有的低速曲线段对时间进行积分并求和得到低速参考能量q2,利用ds=q1×g3+q2×g4计算得到当前存储终端的低速系数ds,其中g3、g4为系数因子;51.将接入系数、剩余内存量、实时网络访问速度以及低速系数进行归一化处理并取其数值,利用公式cp=(lg×g5+nt×g6+ft×g7)/(ds×g8)计算得到存储终端的存配值cp,其中g5、g6、g7、g8为系数因子;终端分析模块用于将存储终端的存配值cp打上时间戳并存储至云平台;52.在本实施例中,文本处理模块用于对pdf文件进行拆分,将pdf文件分成多个单页文件,记为pdf页文件;然后将pdf页文件分布式存储于多个存储终端中,这样当不同的用户同时来访问pdf不同页时,能够分散存储终端进行读取,提高读取带宽,做到高并发访问;同时根据访问系数fz将pdf页文件依次分配至存配值cp最大的存储终端存储,能够提升多用户访问下单页pdf的访问性能,提高热点pdf页文件的访问效率;53.在本实施例中,索引构建模块包括地址加密单元,地址加密单元接收到存储地址后对存储地址进行加密得到加密密文,并将加密密文返回至pdf页索引文件进行存储,之后在需要时通过对pdf页索引文件的查找,对应到存储终端查找具体的文件信息,提高文件存储的安全性;54.其中地址加密单元的具体加密步骤为:55.x1:对存储地址明文进行序列化操作,得到字节流数据;56.x2:将字节流数据进行大数进制转换;57.x3:判断存储地址明文序列化长度是否为32的倍数,若是,执行步骤x4;若不是,对明文编码进行补零后,执行步骤x4;58.x4:对数据明文进行拆分,其中拆分单位为32位长度;59.x5:分别使用第一公钥对拆分后的片段进行bls12-381加密,对加密结果进行拼接;60.x6:对拼接后的加密结果进行base64编码,得到加密密文。61.上述公式均是去除量纲取其数值计算,公式是由采集大量数据进行软件模拟得到最接近真实情况的一个公式,公式中的预设参数和预设阈值由本领域的技术人员根据实际情况设定或者大量数据模拟获得。62.本发明的工作原理:63.一种指定文本用对象分布式展示系统,在工作时,文本上传模块用于管理人员上传pdf文件至云平台;文本处理模块用于对pdf文件进行拆分,将pdf文件分成多个单页文件,记为pdf页文件;然后将pdf页文件分布式存储于多个存储终端中,文本分配模块用于获取pdf页文件的访问数据并进行访问系数分析,然后根据访问系数fz将pdf页文件分配至对应的存储终端存储,具体为:获取排序第一的pdf页文件,选取存配值cp最大的存储终端标记为选中终端;再获取排序第二的pdf页文件,并选取存配值cp次之的存储终端标记为选中终端,以此类推;选中终端对pdf页文件进行存储,并将对应的存储地址和pdf页文件编号返回至索引构建模块对pdf页索引文件进行构建;当用户进行访问时,首先读取页级索引,然后通过页级索引定位单页文件进行快速读取;这样当不同的用户同时来访问pdf不同页时,能够分散存储终端进行读取,提高读取带宽,做到高并发访问;64.其中,终端分析模块用于对存储终端进行存配值分析,结合接入系数、剩余内存量、实时网络访问速度以及低速系数,计算得到存配值cp,根据访问系数fz将pdf页文件依次分配至存配值cp最大的存储终端存储,能够提升多用户访问下单页pdf的访问性能,提高热点pdf页文件的访问效率;索引构建模块包括地址加密单元,地址加密单元接收到存储地址后对存储地址进行加密得到加密密文,提高文件存储的安全性。65.在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。66.以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属
技术领域
:技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1