具有辨识分类搜寻储存功能的文件控管系统及方法

文档序号:6469832阅读:164来源:国知局
专利名称:具有辨识分类搜寻储存功能的文件控管系统及方法
技术领域
本发明是关于一种文件储存系统及远程文件控管方法,尤指一种具有辨 识分类搜寻储存功能的文件控管系统及远程文件控管方法。
背景技术
传统的文件控管系统,例如TW-200500899 (相当于US-20040267557, CN1567326),虽然可以将用户上传的电子文件,放置于与此电子文件所指定 的地址相对应的资料夹中,但因依方法储存的电子文件,日后要搜寻该档案 时,只有靠记忆找到该资料夹,再从该资料夹的大量档案中,逐笔搜寻出所 需要的电子文件,这对用户造成很大的困扰。本发明利用光学识别器、特征 标记识别器等技术,在存盘的同时,自动建立特征标记索引,让日后用户只 要随便键入该电子文件的任一或多个特征标记,就能马上找到该电子文件。

发明内容
本发明的一目的在于提供一种文件控管系统。
本发明的另一目的在于提供一种具有辨识、分类、搜寻、储存功能的文 件控管系统。
本发明的又一目的在于提供一种由光学字符识别器辨读特征标记的文件 控管系统。
本发明的再一 目的在于提供一种以特征标记做为文件索引的文件控管系统。
本发明的另 一 目的在于提供一种由光学字符识别器辨读特征标记,并以 该特征标记做为文件索引的文件控管系统。
本发明的又一目的在于提供一种由特征标记搜寻文件再经由网页服务器 输出的文件控管系统。
本发明的再一目的在于提供一种包含网页服务器、档案接收服务器、光 学字符识别器和数据库的文件控管系统。
本发明的另一目的在于提供一种具有辨识、分类、搜寻、储存功能的远程文件控管方法。
本发明的又一目的在于提供一种由光学字符识别器辨读特征标记的远程 文件控管方法。
本发明的再一目的在于提供一种以特征标记做为文件索引的远程文件控 管方法。
本发明的另一 目的在于提供一种由光学字符识别器辨读特征标记,并以 该特征标记做为文件索引的远程文件控管方法。
本发明的又一目的在于提供一种由特征标记搜寻文件再经由网页服务器 输出的远程文件控管方法。
本发明的再一目的在于提供一种包含网页服务器、档案接收服务器、光 学字符识别器和数据库的远程文件控管方法。
本发明的一种具有辨识分类搜寻储存功能的文件控管系统,其包含 一网页服务器;
—档案接收服务器,用以由该网页服务器读取文件; 一光学识别器,用以对该档案接收服务器读取的文件中的非文字内容进 行光学识别;
一特征标记识别器,用以建立该输入文件的特征标记;及 一数据库,用以储存该读入文件,及/或依需要将数据库的文件经由该网 页服务器输出;
其特征在于 '
该光学识别器可自动对该输入文件的非文字部分进行光学辨识,得到光 学辨识结果;
该特征标记识别器,用以依该文件的特征内容,建立该文件的特征标记, 其中该文件的特征内容包含该文件的文字内容及/或该光学辨识的结果;
其储存文件时,是依该档案接收服务器读入的来源辨识信息及/或该文件 的特征标记进行分类,做为储存该输入数据的依据;及
其于储存该文件时,依该特征标记建立索引,用以做为系统欲输出文件 时,搜寻该笔文件的依据。
上述所谓文件,是泛指电子文件(例如电子邮件的本文及/或附件、传真 机传送的电子文件、扫瞄装置读入的电子文件、计算机所产生的各式电子档 案);或经由转换技术所得到的电子信息,例如纸本文件(文字资料、图式、 窗体等)、照片等可透过扫瞄装置转成电子文件;实物、样品等可透过数字照 相转成电子文件;或任意可转换成电子文件的信息所转成的电子信息。文件格式并无一定限制,例如TXT、 MS-0ffice、 PDF、 JPG、 GIF、 TIFF、 HTML等。 上述网页服务器,可采用任意已知的网页服务器,例如IIS、 Apache、 TOMCAT、 ColdFusion、 Websphere、 Jrun、 Abyss、 RaidenHTTPD或WebObjects
等;当然也可以是自己完成、委外完成或合作完成的类似网页服务器;以采 用IIS、 Apache、 iomcat、 Coldfusion或Webshphere为较佳;以采用IIS、 Apache或Tomcat为更佳。
上述档案接收服务器,可采用任意已知的档案接收服务器,用以负责接 收透过网络协议、服务传送至系统的附加信息及实体档案,例如HTTP、HTTPS、 WebDAV、 SMTP、 IMAP、 FTP、 SFTP、 TFTP、 RSYNC、 Bittorrent、 CVS及/或SVN 等;当然也可以是自己完成、委外完成或合作完成的类似档案接收服务器; 以采用Http、 FTP、 IMAP、及/或SMTP为较佳;以采用FTP、 IMAP、及/或SMTP
为更佳。
上述光学识别器,可为任意已知的光学识别器,诸如光学字符识别器(例 如ABBYY公司的FINE READER)、条形码识别器(例如一般的一维条形码识别器、 二维条形码识别器)等;当然也可以是自己完成、委外完成或合作完成的类似 光学识别器。若该光学识别器为条形码识别器,则客户必须使用条形码,造 成客户的困扰,因此, 一般而言以使用光学字符识别器为较佳。
若该读入文件只含文字内容时,则该文字内容即为该文件的特征内容。 若该读入文件不含文字内容时,则该光学识别器的辨识结果即为该文件 的特征内容。
若该读入文件同时含文字内容和非文字内容时,其可以为单纯光学识别 器的辨识结果、或单纯文字内容、或文字内容加辨识结果做为该文件的特征 内容。 一般而言,当光学识别器为光学字符识别器时,通常以文字内容加辨 识结果做为该文件的特征内容;当光学识别器为条形码识别器时,通常以辨 识结果做为该文件的特征内容。
上述特征标记识别器,可采用任意已知的特征标记识别器,例如意蓝公 司的龙巻风搜寻引擎;当然也可以是自己完成、委外完成或合作完成的类似 特征标记识别器。
上述的特征标记识别器,其对该文件的特征内容,进行诸如断词断句、 关键词撷取及/或文件内涵分析,以建立该文件的特征标记。 一般而言,该特 征标记识别器除上述功能外,以进一步具有新词学习、用字、用语、词性或 意境分析等功能为较佳。
在特殊状况下,例如经特征标记识别器辨识后,不含特征标记时,必 要时,系统可要求使用者提示特征标记,或自动对该特征标记加注诸如"其它类别"做为特征标记。此外,该特殊状况,必要时,可列入诸如新词学习、
意境分析的统计或分析,或资料勘探(data mining)等后续程序。
上述该来源辨识信息,其可为任意可辨识文件来源的信息,诸如文件头 信息,例如传送者、传送者帐号、主旨、传送来源(主机名称、MAC地址、网 络地址/IP Address)、文件名称、传送日期、档案格式、档案内容摘要等。
上述数据库于储存文件时,可依该档案接收服务器读入的来源辨识信息 (例如文件头)进行分类,储存该输入资料,例如分类方式(资料夹)为
<A001公司> (客户1)
〈A002公司〉(客户2)
〈A0O3公司〉(客户3)
〈A004公司〉(客户4)
其中A001公司、A002公司、A003公司、A004公司等,可以是各该公司 的公司名称、公司代号、公司网域名称、公司电话号码等,及/或其组合。
上述数据库于储存文件时,也可依该档案接收服务器读入的来源辨识信 息(例如文件头)进行分类及进一步分类,以储存该该输入资料,例如分类方 式(资料夹)为
〈A001公司〉(客户1) 〈B1-00D 〈Bl-002〉 〈Bl"003〉
〈A002公司〉(客户2) <B2~001> <B2"002> <B2"003〉
〈A003公司〉(客户3)
〈A004公司〉(客户4)
其中A001公司、A002公司、A003公司、A004公司等,可以是各该公司 的公司名称、公司代号、公司网域名称、公司电话号码等,及/或其组合。 Bl"OOl、 Bl-002、 B1-003等分别为A001公司的部门名称或部门代号、使用者名称(文件头信息为电子邮件地址时)、或该公司自订的分类方式;B2"001、 B2-002、 B2-003等分别为A002公司的部门名称或部门代号、使用者名称(文 件头信息为电子邮件地址时)、或该公司自订的分类方式;因此该分类方式可 以多于两层的分类。
必要时,上述分类亦可纳入上述特征内容或特征标记,做为分类的依据 之一,但以不纳入所述信息做为分类的依据为较佳。
上述数据库于储存文件时,可依该档案接收服务器读入的来源辨识信息 (例如文件头)、特征内容、特征标记、储存日期时间、及/或流水号等,做为 储存档案时的档名,例如A001公司的档案储存为 <A001公司> (客户1)
BX001-al说明.doc (档名1) BX002-al规范.xls (档名2) BX003-a2内容.doc (档名3) BX004-a3介绍.pdf (档名4)
其中BX001、 BX002、 BX003、 BX004为流水号,"al说明.doc"、 "al规 范.xls"、 "a2内容.doc"、 "a3介绍.pdf"的主文件名是系统根据部份特征内 容自动订定的,而扩展名是依据各该档案格式自动订定的。
若各客户的主档名都含流水号,则各分类(含细分类)内的档案都不会重 复。但档名不含流水号时,在特殊状况下,新文件自动产生的档名,可能和 相同分类(含细分类)内的既存文件的档名相同,此时,系统可要求使用者提 示新的档名,或自动对该特征标记加注诸如日期(及/或时间)等辨识码。特殊 状态下,诸如档名不具特异性,例如主文件名为空符号或数据库禁制符号时, 此时,系统可要求使用者提示新的档名,或自动对该特征标记加注诸如日期 (及/或时间)等辨识码。
上述特征标记,其可为一个或复数个特征用字及/或特征用语的集合。当 建立索引时,以各单一特征用字或特征用语分别建立该文件的索引为主,但 亦可进一步建立以复数个特征用字及/或特征用语的文件索引,但一般在检索 时采用"and"功能取代后者。例如档案l经光学识别器辨识后,得到的特征 内容为"…XX1…XX2…XX3XX4…",经特征识别器辨识后,得到的特征用语
为XXI、 XX2、 XX3、 XX4、 XX3XX4......等,其中特征用语XX3XX4为特征用语
XX3和特征用语XX4的复合特征用语,且系统自动设定文件名为"YYY"";而 档案2经光学识别器辨识后,得到的特征内容为:"…XX1…XX3…XX4…XX5…", 经特征识别器辨识后,得到的特征用语为XXI、 XX3、 XX4、 XX5……等,且系统自动设定文件名为"ZZZ"";则系统将自动产生特征用语索引如下
XXI......YYY
XXI......ZZZ
XX2......YYY
XX3......YYY
XX3......ZZZ
XX3XX4......YYY
XX4......YYY
XX5......ZZZ
当客户想浏览或输出其所储存的文件时,可凭客户名称(或代号、网域名 称、电话号码等),配合密码(例如文字密码、条形码、指纹、虹膜等),检索 待浏览或输出的文件,检索方式含任意已知的检索方式,例如全文检索、关 键词(特征用语、特征用词)检索、分类检索、日期及/或时间检索,或日期区 间等检索。以特征用语检索为例,例如上述案例中
日后该用户想要检索含XX1的档案,可找到档案YYY和档案ZZZ(当然可 能还有其它也含XXI的档案);
曰后该用户想要检索含XX2的档案,可找到档案YYY,但无法找到档案
ZZZ;
日后该用户想要检索同时含XX3和XX4的档案,即可找到档案YYY和档 案ZZZ;
日后该用户想要检索含XX3XX4的档案,只能找到档案YYY,无法找到档 案ZZZ。
本发明的远程文件控管方法,其包括 一文件接收步骤,用以接收上传的电子文件; 一文件分解步骤,用以分解该电子文件的来源辨识信息; 一分类步骤,用以依该来源辨识信息进行分类;及 一档案储存步骤,用以依该分类储存该电子文件; 其特征在于其进一步包括
一特征标记辨识步骤,用以该电子文件的内容辨识特征标记;及 一索引建立歩骤,用以依该特征标记建立索引,作为系统欲输出该电子
文件时,搜寻该笔该电子文件的依据。
上述所谓电子文件、来源辨识信息、分类方式、档案储存方式、特征标
记辨识方式、建立索引方式、输出电子文件方式,都类如前述。本发明方法
的实际处理程序则如下述较佳具体例或实施例所述。200810211235.X 依特征标记进行细部分类,则该分类步骤和特征标记辨识步骤的关系,可以是依来源辨识信息进行粗分类,而后等进行特征标记辨识步骤后,再依特征标记进行细部分类;也可以是先执行特征标记辨识步骤,再执行分类步骤(含粗分类和细部分类)。
上述方法中,若分类是单纯依来源辨识信息进行分类,不再依特征标记进行细部分类,则该分类步骤和特征标记辨识步骤的关系,可以是先执行'分类步骤,再执行特征标记辨识步骤,这种情况下,特征标记辨识步骤和档案储存步骤其先后顺序也可以对调,甚至是实质上同步进行或交互进行;也可以是先执行特征标记辨识步骤,再执行分类步骤;当然两者实质上同步进行或交互进行也可以。


图la为本发明会员接收传真时的上传/存档机制示意图。图lb为本发明会员扫瞄并上传资料的存档机制示意图。图lc为本发明会员单纯上传资料的存档机制示意图。图2为本发明会员检索档案和文件控管系统下传档案的机制示意图。图3为本发明会员和文件控管系统的结构方块图。图4为本发明文件控管系统执行储存任务的一较佳执行流程示意图。图5为本发明文件控管系统执行储存任务的另一较佳执行流程示意图。图6为本发明文件控管系统执行储存任务的另一较佳执行流程示意图。图7为本发明文件控管系统中580(进行细部分类)步骤的一较佳执行流程示意图。
图8为本发明文件控管系统中580(进行细部分类)步骤的另一较佳执行流程示意图。
图9为本发明文件控管系统执行检索任务的一较佳执行流程示意图。图10为本发明文件控管方法的一较佳具体例的流程示意图。附图标记
100.文件控管系统 110.网页服务器 120.档案接收服务器
130.光学字符识别器(OCR) 140.数据库
150.特征标记识别器 180.接收上传文件 190.存档任务192.接收上传资讯194.执行检索任务 196.执行下传档案200.会员的多功能事务机 205.计算机(电脑)
210.传真机制 220.扫描机制 230.打印机制240.复印机制280.接收文件(扫描文件)290.上传文件292.上传特征用语296.接收下传档案
300,传真发送单位310.传真文件
510.接收电子文件520.分解电子文件
530.依档头粗分类540.光学字符辨识542.判断含非文字内容
550.建立特征内容560.辨识特征标记570.建立索引
580.进行细部分类581.判断有关键词否582.依关键词分类
583.判断手动分类否584.依输入值分类585.无细部分类
586.完成(细部)分类590.依分类存档
610.接收检索信息620.执行检索任务
630.判定有档案否640.下传档案信息650.下传检索结果
具体实施例方式
为进一步说明本发明,兹以较佳具体例配合图式说明于后
图la中,外部传真发送单位300发送传真文件310给系统会员时,会员的多功能事务机200(以下简称MFP),于接收到的传真文件而获得接收文件280时,即透过网络上传该上传文件290至文件控管系统100;当文件控管系统接收上传文件180,立即执行存档任务190。
图lb中,当会员欲储存既有资料时,利用MFP的扫描功能扫描该文件,获得扫描文件280,并透过网络上传该扫描文件,执行上传文件290至文件控管系统100;当文件控管系统接收上传文件180,立B纟执行存档任务190。
图lc中,当会员欲储存既有电子文件时,直接透过网络上传该上传文件290至文件控管系统100;当文件控管系统接收上传文件180,立即执行存档任务190。
图2中,当会员欲检索既有电子文件时,直接以计算机205透过网络,执行上传特征用语292上传该文件的一或多个特征用语至文件控管系统100;当文件控管系统执行接收上传资讯192接收到该上传资料,立即执行检索任务194,而后执行下传档案196将检索结果(下传合乎检索条件的档案,或下传"无"的讯息)下传给用户,用户通过执行接收下传档案296获得检索结果。
图3中100为文件控管系统,110、 120、 130、 140、 150分别为文件控管系统的网页服务器、档案接收服务器、光学字符识别器(OCR)、数据库和特征标记识别器;200为会员端的MFP, 210、 220、 230、 240分别为MFP的传真机制、扫描机制、打印机制、复印机制。
图4显示当文件控管系统执行接收电子文件510接收上传的电子文件后,立即执行分解电子文件520分解该电子文件的文件头,依档头粗分类530,并将电子文件中的非文字进t,光学字符识别540,而后,依OCR辨识结果,配合该电子文件的文字内容,执行建立特征内容550建立该文件的特征内容,再利用龙巻风搜寻引擎,由建立特征内容550辨识特征标记560;而后, 一方面依特征标记建立索引570,作为系统欲输出文件时,搜寻该笔文件的依据;另一方面依特征标记,进行细部分类580,而后依分类结果(粗分类加细分类),执行依分类存档590储存该电子文件。
图5显示当文件控管系统执行接收电子文件510接收上传的电子文件后,立即执行分解电子文件520分解该电子文件的文件头,并执行依档头分类530进行分类,而后,将电子文件中的非文字进行光学字符识别540,并依OCR辨识结果,执行建立特征内容550依序建立该文件的特征内容,再依特征内容辨识特征标记560,并依特征标记建立索引570,作为系统欲输出文件时,搜寻该笔文件的依据,最后执行依分类存档590依文件头分类储存该电子文件。
图6显示当文件控管系统执行接收电子文件510接收上传的电子文件后,立即执行分解电子文件520分解该电子文件的文件头,执行依档头分类530进行分类,并执行依分类存档590进行分类及依文件头分类储存该电子文件;而后,将电子文件中的非文字进行光学字符识别540;执行建立特征内容550将OCR的结果和文件中的文字内容合并为特征内容,再依特征内容辨识特征标记560,并依特征标记建立索引570,作为系统欲输出文件时,搜寻该笔文件的依据。
图7为图3中辨识特征标记560步骤加上进行细部分类580步骤的细部流程图,其是在特征标记中找关键词,执行判断有关键词否581看看是否含关键词,若含关键词依关键词进一步执行依关键词分类582,以完成(细部)分类586;若不含关键词,则由使用者决定是否执行判断手动分类否583,若是,则执行依输入值分类584,依其键入内容做为细部分类,以完成(细部)分类5挑;若否,则执行无细部分类585,亦即完成(细部)分类586。
图8显示进行细部分类580步骤的另一细部流程图,其是在执行辨识特征标记560步骤后获得的特征标记中找关键词,执行判断有关键词否581看看是否含关键词,若含关键词依关键词进一步执行依关键词分类582,以完成(细部)分类586;若不含关键词,则执行无细部分类585,亦即完成(细部)分类586。
图9显示系统在执行接收检索信息610步骤,接收到检索信息后,立即依上传的检索条件执行检索任务620步骤进行检索,执行判定有档案否630步骤,判断是否有合乎条件的档案,若有合乎条件的档案,就执行下传档案
信息640步骤,将合乎条件的档案下传给用户;若没有合乎条件的档案,就 执行下传检索结果650步骤,下传"没有合乎条件的档案"的讯息给用户。
图IO为本发明方法一较佳具体例的流程图。当文件控管系统执行收电子 文件510步骤接收上传的电子文件后,立即执行分解电子文件520步骤,分 解该电子文件的文件头,执行依档头粗分类530步骤,依档头进行分类,并 执行依分类存档590步骤,依文件头分类储存该电子文件;而后,执行判断 含非文字内容542步骤,判断文件中是否含"非文字内容",若含"非文字内 容",则将电子文件中的非文字进行光学字符识别540,而后进行建立特征内 容550步骤(将OCR的结果和文件中的文字内容合并为特征内容);若不含"非 文字内容",则直接进行建立特征内容550步骤(直接以文件中的文字内容做 为特征内容);而后,依特征内容辨识特征标记560,并依特征标记建立索引 570,作为系统欲输出文件时,搜寻该笔文件的依据。
另以本案说明书为例,说明本案光学字符辨识540步骤、建立特征内容 550步骤、辨识特征标记560步骤和建立索引570步骤,以及检索该档案的状 况如下
本案内容包括发明名称、说明书摘要、说明书、权利要求、附图…… 等,其中发明名称、说明书摘要、说明书、权利要求……等为文字内容,附 图为非文字内容,因此在光学字符辨识540步骤中,光学字符识别器将对附 图进行光学字符辨识。以图la为例,OCR后,会得到"300传真发送单位"、 "310传真文件"、"200MFP(系统会员)"、"280接收文件"、"290上传文件"、 "100文件控管系统"、"180接收上传文件"、"190执行存档任务"等文字 内容。
建立特征内容550步骤中,会将光学字符辨识540步骤辨识所得的文字 内容,和原来的文字内容(发明名称、说明书摘要、说明书、权利要求……等) 合并,成为特征内容,
辨识特征标记560步骤中,特征标记辨识器会对建立特征内容550步骤 所建立的特征内容,迸行特征标记辨识。以发明名称进行特征标记辨识为例, 将会得到"辨识、分类、搜寻、储存、文件、控管、系统"等特征用语,以 图1经OCR后所得的文字迸行特征标记辨识为例,将会得到"传真、发送、 单位、文件、MFP、系统、会员、接收、上传、控管、执行、存档、任务"等 特征用语。
在建立索引570步骤中,系统会依辨识特征标记560步骤辨识所得的特征用语,对待存档案(图3或图4所示的流程)或既存档案(图5所示的流程),进行建立索引的程序。设若系统自动设定文件名为"具有辨识分类搜寻储存功能的文件控管系统"(下文中简化为文件控管系统),以发明名称内所含的
特征用语为例,系统将自动产生特征用语索引如表l:
表l:以EM^内的特征用语所建立的索引表
辨识文件控管系统
辨识分类文件控管系统
辨识分类搜寻文件控管系统
辨识分类搜寻储存文件控管系统
辨识分类搜寻储存文件文件控管系统
辨识分类搜寻储存文件控管文件控管系统
辨识分类搜寻储存文件控管系统文件控管系统
分类文件控管系统
分类搜寻文件控管系统
分类搜寻储存文件控管系统
分类搜寻储存文件文件控管系统
分类搜寻储存文件控管文件控管系统
分类搜寻储存文件控管系统文件控管系统
搜寻文件控管系统
搜寻储存文件控管系统
搜寻储存文件文件控管系统
搜寻储存文件控管文件控管系统
搜寻储存文件控管系统文件控管系统
储存文件控管系统
储存文件文件控管系统
储存文件控管文件控管系统
储存文件控管系统文件控管系统
文件文件控管系统
文件控管文件控管系统
文件控管系统文件控管系统
控管文件控管系统
控管系统文件控管系统
系统文件控管系统
15再以图l所含的特征用语为例,系统将自动产生新增的特征用语索引如
表2:
表2:以闺1中的特征用语所建立的索引表
传真文件控管系统
传真发送文件控管系统
传真发送单位文件控管系统
发送文件控管系统
发送单位文件控管系统
单位文件控管系统
传真文件文件控管系统
MFP文件控管系统
系统会员文件控管系统
会员文件控管系统
接收文件控管系统
接收文件文件控管系统
上传文件控管系统
上传文件文件控管系统
接收上传文件控管系统
接收上传文件文件控管系统
执行文件控管系统
执行存档文件控管系统
执行存档任务文件控管系统
存档文件控管系统
存档任务文件控管系统
任务文件控管系统
表2中不含"m、,蹄、w牛蹄亂ag、體亂皿"等特征用语的索引,因为所述索引,在表i中已出现。
在存档并建立索引表后,则系统用户可利用特征用语检索/显示/下载该
档案。例如文件控管系统100用户以"储存"进行特征用语检索,文件控管系统200 (会员的多功能事务机200 )在接收检索信息610步骤中接收检索信息后,立即执行检索任务620步骤,看看索引表中是否含"储存"这个特征用语(判定有档案否630步骤),检索结果为索引表中含"储存"这个特征用语,因此接着执行下传档案信息640步骤,亦即系统会将本文件下载到会员端。会员接收该信息后,可自行决定显示及/或下载本文件。
权利要求
1.一种具有辨识分类搜寻储存功能的文件控管系统,其包含一网页服务器;一档案接收服务器,用以由该网页服务器,读取及/或输出文件;一光学识别器,用以对该档案接收服务器读取的文件中的非文字内容进行光学识别;一特征标记识别器,用以建立该输入文件的特征标记;及一数据库,用以储存该读入文件,及/或依需要将数据库的文件经由该档案接收服务器和网页服务器输出;其特征是该光学识别器可自动对该输入文件的非文字部分进行光学辨识,得到光学辨识结果;该特征标记识别器,用以依该文件的特征内容,建立该文件的特征标记,其中该文件的特征内容包含该文件的文字内容及/或该光学辨识的结果;其储存文件时,是依该档案接收服务器读入的来源辨识信息及/或该文件的特征标记进行分类,做为储存该输入数据的依据;及其于储存该文件时,依该特征标记建立索引,用以做为系统欲输出文件时,搜寻该笔文件的依据。
2. 如权利要求1所述的文件控管系统,其中该光学识别器为光学字符识 别器。
3. 如权利要求1所述的文件控管系统,其中系统储存文件时,是依该档 案接收服务器读入的来源辨识信息进行分类,做为储存该输入资料的依据。
4. 如权利要求1所述的文件控管系统,其中该来源辨识信息为文件头信息。
5. 如权利要求1所述的文件控管系统,其中该文件为电子文件。
6. 如权利要求5所述的文件控管系统,其中该文件为电子邮件、传真机 传送的电子文件、扫瞄装置读入的电子文件、及/或计算机所产生的各式电子 档案。
7. 如权利要求1所述的文件控管系统,其中该特征标记识别器进一步具 有新词学习及用字、用语、词性或意境的统计分析功能。
8. 如权利要求1所述的文件控管系统,其中该特征标记识别器进一步具有资料探勘功能。
9. 如权利要求1所述的文件控管系统,其中该网页服务器为1IS、Apache、 Tomcat、 Coldfusion或Webshphere。
10. 如权利要求9所述的文件控管系统,其中该网页服务器为IIS、Apache 或Tomcat 0
11. 如权利要求1所述的文件控管系统,其中该档案接收服务器为Http、 FTP、 IMAP及/或SMTP。
12. 如权利要求11所述的文件控管系统,其中该档案接收服务器为FTP、 IMAP及/或SMTP。
13. —种远程文件控管方法,其包括 一文件接收步骤,用以接收上传的电子文件;—文件分解步骤,用以分解该电子文件的来源辨识信息; 一分类步骤,用以依该来源辨识信息进行分类;及 一档案储存步骤,用以依该分类储存该电子文件; 其特征是,其进一步包括一特征标记辨识步骤,用以该电子文件的内容辨识特征标记;及 一索引建立步骤,用以依该特征标记建立索引,作为系统欲输出该电 子文件时,搜寻该笔该电子文件的依据。
14. 如权利要求13所述的远程文件控管方法,其中在该特征标记辨识步 骤之前,进一步含一光学辨识步骤,用以辨识该电子文件中的非文字内容, 并以辨识结果做为该特征标记辨识步骤的特征标记辨识内容。
15. 如权利要求14所述的远程文件控管方法,其中该光学辨识步骤,是 以光学字符辨识器进行光学辨识。
16. 如权利要求13所述的远程文件控管方法,其中在该特征标记辨识步 骤之前,进一步含一光学辨识步骤,用以辨识该电子文件中的非文字内容, 并将辨识结果和该电子文件的文字内容合并,做为该特征标记辨识步骤的特 征标记辨识内容。
17. 如权利要求16所述的远程文件控管方法,其中该光学辨识步骤,是 以光学字符辨识器进行光学辨识。
18. 如权利要求13所述的远程文件控管方法,其中该来源辨识信息为文 件头信息。
19. 如权利要求13所述的远程文件控管方法,其中该特征标记识别器进 一步具有新词学习及用字、用语、词性或意境的统计分析功能。
20. 如权利要求13所述的远程文件控管方法,其中该特征标记识别器进一步具有资料勘探功能。
21. 如权利要求13所述的远程文件控管方法,其中该网页服务器为IIS、 Apache、 Tomcat、 Coldfusion或Webshphere。
22. 如权利要求21所述的远程文件控管方法,其中该网页服务器为IIS、 Apache或Tomcat 。
23. 如权利要求13所述的远程文件控管方法,其中该档案接收服务器为 Http、 FTP、 IMAP及/或SMTP。
24. 如权利要求23所述的远程文件控管方法,其中该档案接收服务器为 FTP、 IMAP及/或SMTP。
全文摘要
本发明是关于一种文件储存系统及远程文件控管方法,尤指一种具有辨识分类搜寻储存功能的文件控管系统及远程文件控管方法。该具有辨识分类搜寻储存功能的文件控管系统,其包含一网页服务器;一档案接收服务器,用以由该网页服务器,读取文件;一光学识别器,用以对该档案接收服务器读取的文件中的非文字内容进行光学识别;一特征标记识别器,用以建立该输入文件的特征标记;及,一数据库,用以储存该读入文件,及/或依需要将数据库的文件经由该档案接收服务器和网页服务器输出。
文档编号G06F17/30GK101676902SQ20081021123
公开日2010年3月24日 申请日期2008年9月19日 优先权日2008年9月19日
发明者刘立恩, 林益邦, 陈衍彰 申请人:众来科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1