专利名称:技术文件分析方法与技术文件分析系统的制作方法
技术领域:
本发明涉及一种文件分析方法与系统,且特别涉及一种技术文件的分析方法与分析系统,以图像化技术文件所蕴藏的技术发展轨迹。
背景技术:
目前的科技发展趋势研究,对于特定的产业、研发单位或是个人,通常先从技术面与产品面作分析导向,同时需要依靠人力一一浏览相关文件资料或是影音文件,借此找寻出关键的词汇并且一一汇总。依靠人力一一分析技术文件,庞大的人力物力,也消耗文件浏览或是技术分析人员的时间,而且,不同人员对于相同或是相似的技术文件在分析时,也会有主观见解而导致分析过程或是汇总过程产生人为偏差,甚至导致整体技术分析结果存在着不小的人为导向因素,使科技发展趋势研究结果不具有客观性,连带使得之后对于特定的产业、研发单位或是个人的研发方向造成误判。
发明内容
针对现有技术中存在的问题,本发明的目的在于提供一种技术文件分析方法,可快速分析大量的技术文件,以图表化技术文件背后所隐藏的技术发展轨迹。本发明的另一目的在于提供一种技术文件分析系统,可快速分析大量的技术文件,从而准确绘制技术发展方向。本发明提出一种技术文件分析方法,适用于分析多笔技术文字资料,其中每一所述技术文字资料分别包含一文献资料,该方法包括进行一文字探勘,以分别从所述多笔技术文字资料,萃取出多个技术字词,其中每一所述技术字词分别对应至少一该技术文字资料。进行一字词关联性分析,以划分所述多个技术字词成多个技术群组。根据组成每一所述技术群组的所述多个技术字词,其所对应的所述多个技术文字资料所分别包含的所述文献资料,标示每一所述技术群组所对应的一年代区间。根据每一所述技术群组分别对应的该年代区间,绘制所述多笔技术文字资料的一技术发展轨迹。在本发明的一实施例中,上述的技术文件分析方法,其中该文献资料包括一文献相关时间记录、一文献关键词组、一文献归属者、一文献技术分类、一文献作者群或一文献审核单位。在本发明的一实施例中,上述的技术文件分析方法,其中该字词关联性分析是根据所述多个技术字词所对应的至少一该技术文字资料所分别包含的该文献资料而进行。在本发明的一实施例中,上述的技术文件分析方法,其中该字词关联性分析包括 根据所述多个技术字词所对应的所述多笔技术文字资料的所述文献相关时间或所述文献相互引用关系,以获得所述多个技术字词彼此之间的一发生先后顺序关系。进行一词组出现频率分析,以获得所述多个技术字词彼此之间的一字词出现关系。根据所述多个技术字词彼此之间的该发生先后顺序关系与该字词出现关系,划分所述多个技术字词成所述多个技术群组。在本发明的一实施例中,上述的技术文件分析方法,其中划分所述多个技术字词成所述多个技术群组的方法包括因素分析法、集群分析法或自我组织法。在本发明的一实施例中,上述的技术文件分析方法,其中该词组出现频率分析包括计算所述多个技术字词中,每两所述技术字词在所述多笔技术文字资料中的一共同出现频率。计算所述多个技术字词中,每两所述技术字词出现于同一该技术文字资料的一共同出现文字资料数。根据该共同出现频率与该共同出现文字资料数,决定每两该技术字词之间的该字词出现关系。在本发明的一实施例中,上述的技术文件分析方法,其中每一所述技术文字资料的所述多个技术字词包括该文献相关时间记录、该文献关键词组、该文献归属者、该文献技术分类、该文献作者群或该文献审核单位。在本发明的一实施例中,上述的技术文件分析方法,其中每一所述技术文字资料是经由分别将多笔技术文件与多笔影音文件进行一纯文字转译后所获得。在本发明的一实施例中,上述的技术文件分析方法,其中该文字探勘包括进行一断词断字分析,以从所述多笔技术文字资料中获得多个候选字词。进行一词频分析,以由所述多个候选字词中筛选出所述多个技术字词。在本发明的一实施例中,上述的技术文件分析方法,其中该词频分析包括计算每一所述候选字词于所述多笔技术文字资料中的一出现频率。计算每一所述候选字词出现于所述多笔技术文字资料中的一出现文字资料数。根据一字词出现门槛值以及每一所述候选字词的该出现频率与该出现文字资料数,由所述多个候选字词中筛选出所述多个技术字词。本发明另提出一种技术文件分析系统,适用于分析多笔技术文字资料,其中每一所述技术文字资料分别包含一文献资料,该系统包括一文字探勘模块、一字词关联性分析模块、一年代标示模块以及一技术轨迹绘制模块。文字探勘模块用以分别从所述多笔技术文字资料,萃取出多个技术字词,其中每一所述技术字词分别对应至少一该技术文字资料。 字词关联性分析模块,用以划分所述多个技术字词成多个技术群组。年代标示模块,用以根据组成每一所述技术群组的所述多个技术字词,其所对应的所述多笔技术文字资料所分别包含的所述文献资料,标示每一所述技术群组所对应的一年代区间。技术轨迹绘制模块,则根据每一所述技术群组分别对应的该年代区间,绘制所述多笔技术文字资料的一技术发展轨迹。在本发明的一实施例中,上述的技术文件分析系统,其中该文献资料包括一文献相关时间记录、一文献关键词组、一文献归属者、一文献技术分类、一文献作者群或一文献审核单位。在本发明的一实施例中,上述的技术文件分析系统,其中该字词关联性分析模块是根据所述多个技术字词所对应的至少一该技术文字资料所分别包含的该文献资料而划分所述多个技术字词。在本发明的一实施例中,上述的技术文件分析系统,其中该字词关联性分析模块包括一顺序分析模块、一词组频率分析模块以及一划分模块。顺序分析模块,用以根据所述多个技术字词所对应的所述多笔技术文字资料的所述文献相关时间或所述文献相互引用关系,以分析所述多个技术字词彼此之间的一发生先后顺序关系。词组频率分析模块,用以分析所述多个技术字词彼此之间的一字词出现关系。划分模块,则根据所述多个技术字词彼此之间的该发生先后顺序关系与该字词出现关系,划分所述多个技术字词成所述多个技术群组。在本发明的一实施例中,上述的技术文件分析系统,其中划分所述多个技术字词成所述多个技术群组的方法包括因素分析法、集群分析法或自我组织法。在本发明的一实施例中,上述的技术文件分析系统,其中该词组频率分析模块包括一共同出现频率分析模块、一共同出现文字资料计数模块以及一关系决定模块。共同出现频率分析模块,用以计算所述多个技术字词中,每两所述技术字词在所述多笔技术文字资料中的一共同出现频率。共同出现文字资料计数模块,用以计算所述多个技术字词中,每两所述技术字词出现于同一该技术文字资料的一共同出现文字资料数。关系决定模块,则根据该共同出现频率与该共同出现文字资料数,决定每两该技术字词之间的该字词出现关系。在本发明的一实施例中,上述的技术文件分析系统,其中每一所述技术文字资料的所述多个技术字词包括该文献相关时间记录、该文献关键词组、该文献归属者、该文献技术分类、该文献作者群或该文献审核单位。在本发明的一实施例中,上述的技术文件分析系统,还包括一转译模块,以分别将多笔技术文件与多笔影音文件纯文字转译成每一所述技术文字资料。在本发明的一实施例中,上述的技术文件分析系统,其中该文字探勘模块包括一断词断字分析模块以及一词频分析模块。断词断字分析模块,用以从所述多笔技术文字资料中获得多个候选字词。词频分析模块,则由所述多个候选字词中筛选出所述多个技术字词。在本发明的一实施例中,上述的技术文件分析系统,其中该词频分析模块包括一单一出现频率分析模块、一单一出现文字资料计数模块以及一字词筛选模块。单一出现频率分析模块,计算每一所述候选字词于所述多笔技术文字资料中的一单一出现频率。单一出现文字资料计数模块,计算每一所述候选字词出现于所述多笔技术文字资料中的一单一出现文字资料数。字词筛选模块,则根据一字词出现门槛值以及每一所述候选字词的该单一出现频率与该单一出现文字资料数,由所述多个候选字词中筛选出所述多个技术字词。本发明的有益效果在于,基于上述,本发明是利用自动化技术直接分析大量的未经处理的技术文件,通过建立所筛选出来的技术字词之间的关联性,并标示年代区间,而可以快速图表化技术文件背后所隐藏的技术发展轨迹,更近一步可以准确绘制未来技术发展方向。为让本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合所附附图作详细说明如下。
图1为根据本发明一实施例的一种技术文件分析系统的示意图。图2为根据本发明一实施例的一种技术文件分析方法的方法流程图。图3为根据本发明一实施例的文字探勘模块的示意图。
图4为根据本发明一实施例的文字探勘的方法流程图。图5为根据本发明一实施例的词频分析模块的示意图。图6为根据本发明一实施例的词频分析的方法流程图。图7为根据本发明一实施例的字词关联性分析模块的示意图。图8为根据本发明一实施例的字词关联性分析的方法流程图。图9为根据本发明一实施例的词组频率分析模块的示意图。图10为根据本发明一实施例的词组出现频率分析的方法流程图。图IlA为根据本发明一实施例的技术群组标示年代区间的结果示意图。图IlB为根据本发明一实施例的各年代区间中的一技术字词列表。图12为根据本发明一实施例的绘制技术发展轨迹示意图。其中,附图标记说明如下100 技术文件分析系统102 文字探勘模块104 一字词关联性分析模块106 年代标示模块108 技术轨迹绘制模块110:转译模块102a:断词断字分析模块102b 词频分析模块102b 1 单一出现频率分析模块102b2 单一出现文字资料计数模块102b3 字词筛选模块104a 顺序分析模块104b 词组频率分析模块104c 划分模块104bl 共同出现频率分析模块104b2 共同出现文字资料计数模块104b3 关系决定模块S205 S220 方法流程步骤S405 S410 方法流程步骤S605 S615 方法流程步骤S805 S815 方法流程步骤S1005 S1015 方法流程步骤
具体实施例方式图1为根据本发明一实施例的一种技术文件分析系统的示意图。图2为根据本发明一实施例的一种技术文件分析方法的方法流程图。请参照图1,本实施例的技术文件分析系统100包含一文字探勘模块102、一字词关联性分析模块104、一年代标示模块106以及一技术轨迹绘制模块108。
请参照图1与图2,本实施例的技术文件分析系统100用于分析多笔技术文字资料,而每一技术文字资料分别包含一文献资料。上述文献资料包括一文献相关时间记录、 一文献关键词组、一文献归属者、一文献技术分类、一文献作者群或一文献审核单位。文献相关时间记录,例如是技术文件资料的产生时间、申请时间、发表时间、公告时间或是被接受时间。更明确的说,当技术文件资料为一专利文件或是专利申请文件时,上述的文献相关时间记录例如是此文件的申请日、公告日、获准专利日或是专利优先权日。此外,文献归属者例如是专利受让人或是技术文件(例如论文)发表单位、出资单位等。又,文献技术分类,以专利文件为例,此文献技术分类例如是国际专利分类号(international patent classification, IPC)或是美国专利分类号(unitedstate patent classification,UPC)。 另外,文献审核单位例如是专利审查员姓名或是审查单位编号等。再者,上述的技术文字资料,例如是先经由一转译模块110,分别将多笔技术文件(例如专利文件、论文、发布的新闻)与多笔影音文件(与技术相关的影音报导或是影音文件),通过纯文字转译而转译成每一笔技术文字资料。又,文献资料还包括技术文字资料之间的文献相互引用关系,也就是技术文字资料之间的引用与被引用关系。请继续参照图1与图2,于步骤S205中,首先文字探勘模块102进行一文字探勘, 以分别从技术文字资料中,萃取出多个技术字词。值得注意的是,每一技术字词分别对应至少一技术文字资料。也就是每一技术字词分别从至少一笔技术文字资料萃取出。亦即,每一技术字词经由其所属的至少一技术文字资料,而对应到至少一文献资料。值得注意的是, 上述由每一技术文字资料中所萃取出的技术字词还可包括文献资料中的文献相关时间记录、文献关键词组、文献归属者、文献技术分类、文献作者群、文献审核单位或文献相互引用关系。也就是说与每一技术文字资料有关的文献资料中的各种有关于此技术文字资料的记录,都可作为技术字词,于后续的技术分析步骤中,与实际技术字词做进一步的关系分析, 而做为技术文件分析的变量之一。图3为根据本发明一实施例的文字探勘模块的示意图。图4为根据本发明一实施例的文字探勘的方法流程图。请参照图3与图4,于本发明的一实施例中,上述的文字探勘模块102包括一断词断字分析模块10 以及一词频分析模块102b。于步骤S205的文字探勘中,断词断字分析模块10 进行一断词断字分析(步骤S405),以从众多技术文字资料中获得多个候选字词。之后,于步骤S410中,由词频分析模块102b进行一词频分析,以从上述候选字词中筛选出适当的技术字词。图5为根据本发明一实施例的词频分析模块的示意图。图6为根据本发明一实施例的词频分析的方法流程图。请参照图5与图6,于本发明的另一实施例中,上述词频分析模块102b包括一单一出现频率分析模块102bl、一单一出现文字资料计数模块102b2以及一字词筛选模块102b3。于步骤S410中的词频分析中,单一出现频率分析模块102bl计算每一候选字词于技术文字资料中的单一出现频率(步骤S605)。也就是每一候选字词于所有技术文字资料中的个别出现频率。而单一出现文字资料计数模块102b计算每一候选字词出现于技术文字资料中的单一出现文字资料数(步骤S610)。也就是对于单一候选字词, 计算包含此候选字词的技术文字资料笔数。值得注意的是,于本发明中,计算每一候选字词的单一出现频率步骤与计算每一候选字词的单一出现文字资料数步骤之间并无先后执行顺序的硬性规定。也就是于实际应用上,并不限定步骤S605与步骤S610如本实施例的图6所示的先后执行顺序,而步骤S605与步骤S610可同时执行,也可以先执行步骤S610后执行步骤S605,而本发明并不受限于此。继之,根据一字词出现门槛值以及每一候选字词的单一出现频率与单一出现文字资料数,由候选字词中筛选出所述多个技术字词(步骤S615)。例如,当候选字词的单一出现频率低,却出现于为数不少的技术文字资料中时,则可认定此候选字词具有技术代表性, 而筛选其为技术字词。反之,当候选字词的单一出现频率极高,却集中出现于少数的技术文字资料中时,则可认定此候选字词不具有技术代表性,而删除此候选字词。之后,请参照图1与图2,于步骤S210中,字词关联性分析模块104对于所萃取出的众多技术字词,进行一字词关联性分析,以划分上述技术字词而成多个技术群组。值得注意的是,于一实施例中,上数字词关联性分析模块104是根据技术字词所对应的至少一笔技术文字资料所分别包含的文献资料而划分技术字词。例如根据技术字词所属的至少一技术文字资料所对应的文献技术分类号,以划分技术字词。此外,于又一实施例中,可通过个别实行或是组合实行包括因素分析法、集群分析法或自我组织法等划分分类方法,划分技术字词成多个技术群组。图7为根据本发明一实施例的字词关联性分析模块的示意图。图8为根据本发明一实施例的字词关联性分析的方法流程图。此外,于另一实施例中,请参照图7与图8,上述字词关联性分析模块104包括一顺序分析模块104a、一词组频率分析模块104b以及一划分模块10如。于步骤S210中的字词关联性分析中,顺序分析模块10 根据技术字词所对应的技术文字资料的文献相关时间或文献相互引用关系,以获得技术字词彼此之间的一发生先后顺序关系(步骤S805)。接着,词组频率分析模块104b对于技术字词中两两技术字词组成的词组,进行一词组出现频率分析,以获得词组中两两技术字词彼此之间的一字词出现关系(步骤S810)。继之,划分模块l(Mc根据词组中的两技术字词彼此之间的发生先后顺序关系与字词出现关系,划分技术字词(步骤S815)。图9为根据本发明一实施例的词组频率分析模块的示意图。图10为根据本发明一实施例的词组出现频率分析的方法流程图。在本发明的又一实施例中,上述词组频率分析模块104b包括一共同出现频率分析模块104bl、一共同出现文字资料计数模块104b2以及一关系决定模块104b3。于上述步骤S810中的词组出现频率分析中,共同出现频率分析模块104bl计算技术字词中,每两个技术字词在技术文字资料中的一共同出现频率(步骤 S1005)。而共同出现文字资料计数模块10仙2则针对每两个技术字词出现于同一该技术文字资料的一共同出现文字资料数(步骤S1010)。也就是对于任两候选字词,计算包含此两候选字词的技术文字资料笔数。值得注意的是,于本发明中,计算每两个技术字词在技术文字资料中的共同出现频率步骤与计算每两个技术字词出现于同一该技术文字资料的一共同出现文字资料数步骤之间并无先后执行顺序的硬性规定。也就是于实际应用上,并不限定步骤S1005与步骤S1010如本实施例的图10所示的先后执行顺序,而步骤S1005与步骤 S1010可同时执行,也可以先执行步骤S1010后执行步骤S1005,而本发明并不受限于此。继之,根据共同出现频率与共同出现文字资料数,关系决定模块104b3决定每两个技术字词之间的字词出现关系(步骤S1015)。接着,请参照图1与图2,于步骤S215中,根据组成每一技术群组的技术字词所对应的技术文字资料所分别包含的文献资料中对应的文献相关时间记录,年代标示模块106标示每一技术群组所对应的一年代区间。继之,请参照图1与图2,根据每一所述技术群组分别对应的该年代区间,技术轨迹绘制模块108绘制所述多笔技术文字资料的一技术发展轨迹(步骤S220)。于上述各实施例中,本发明的技术文件分析方法可经由执行一电脑可读取程序而具体实行,而技术文件分析系统也可以是上述电脑可读取程序。而此电脑可读取程序存储于一种电脑可读写记录媒体中,并且执行多个指令或是程序代码,以具体实行本发明的技术文件分析方法。所执行的技术文件分析方法步骤已于上述实施例中详细描述,因此不在此做赘述。于本发明中,将所有标的物的相关技术文件,例如特定单位或是特定人士的公开技术文件、专利文件、专利公告文件、技术发表文章、论文或是影音相关档案,汇总成一笔笔的技术文字资料,之后通过一系列的文字探勘、字词关联性分析、标示技术群组的年代区间,之后还近一步的根据每个技术群组所对应的年代区间,绘制所分析的所有技术文件与技术相关影音文件的一发展轨迹。也就是通过本发明的技术文件分析方法与技术文件分析系统,使用者可以在众多不同类型的未整理文件与档案中,有系统的根据文字探勘所筛选出来的技术字词,近一步分析技术字词之间的关联性,通过标示技术字词的年代区间,而绘制出所欲分析的特定单位或特定人士的未来技术发展轨迹。由于本发明的技术文件分析是分析技术字词之间的关联性,因此可以技术字词为变量,将所有技术字词之间的关联性图表化,进而使划分结果以及年代区间标示结果以图表显示出来。图IlA为根据本发明一实施例的技术群组标示年代区间的结果示意图。请参照图11A,以一单车研发公司的相关技术文件为例,利用本发明的技术文件分析方法与技术文件分析系统,分析该公司的上千笔技术文件并建立技术字词之间的关联性与标示技术群组的年代区间之后,可以获得一图像化的技术群组分布图。图IlB为根据本发明一实施例的各年代区间中的一技术字词列表。请参照图IlA与图11B,上述单车研发公司的相关技术文件经分析后,可依技术字词之间的关联性分成六个字词群组,而经由标示年代区间之后,可以获知该公司的技术研发从二十世纪80年代初期的硬件结构(如固定装置 (FIXING DEVICE)、手把系统(HANDLE STEM))演化到公元两千年的控制系统(如碟煞(DISC BRAKE))。图12为根据本发明一实施例的绘制技术发展轨迹示意图。根据技术字词群组之间的发生先后顺序关系(例如文献相关时间或文献相互引用关系),可进一步的连结出技术字词群组之间的演进关系,如图12以国际专利分类号为基础,对某特定单位或特定人士所有技术文件做进一步的分析,可发现技术文件分析结果显现该特定单位或特定人士的技术发展,是由国际专利分类Al所标示的技术类型为发展源头,分别演进出国际专利分类 A3、A2、A9与A7等研发方向。并且可由图表中发现,其研发触角于公元一九九四至一九九五年伸向出国际专利分类AlO与A8,而在公元一九九八年开始衍伸向国际专利分类Al 1。现有技术进行特定单位或特定人士的技术分析时,通常先从技术面与产品面作分析导向,同时需要依靠人力一一浏览相关文件资料或是影音文件,借此找寻出关键的词汇并且一一汇总。现有技术的分析方法不仅耗费人力与时间,而且因为人为导向,而多产生分析上的盲点,并欠缺客观性,导致技术分析结果存在着不小的人为误差与不确定性。相较于现有技术的人力分析大量技术文件,本发明的技术文件分析方法与技术文件分析系统,是
11利用自动化直接分析大量的技术文件,通过建立所筛选出来的技术字词之间的关联性,并标示年代区间,而可以快速图表化技术文件背后所隐藏的技术发展轨迹,更近一步可以准确绘制未来技术发展方向。 虽然本发明已以实施例揭露如上,然其并非用以限定本发明,任何本领域技术人员,在不脱离本发明的精神和范围内,当可作些许的更动与润饰,故本发明的保护范围当视后附的权利要求所界定的为准。
权利要求
1.一种技术文件分析方法,适用于分析多笔技术文字资料,其中每一所述技术文字资料分别包含一文献资料,该方法包括进行一文字探勘,以分别从所述多笔技术文字资料,萃取出多个技术字词,其中每一所述技术字词分别对应至少一该技术文字资料;进行一字词关联性分析,以划分所述多个技术字词成多个技术群组; 根据组成每一所述技术群组的所述多个技术字词,其所对应的所述多笔技术文字资料所分别包含的所述文献资料,标示每一所述技术群组所对应的一年代区间;以及根据每一所述技术群组分别对应的该年代区间,绘制所述多笔技术文字资料的一技术发展轨迹。
2.如权利要求1所述的技术文件分析方法,其特征在于,该文献资料包括一文献相关时间记录、一文献关键词组、一文献归属者、一文献技术分类、一文献作者群、一文献相互引用关系或一文献审核单位。
3.如权利要求2所述的技术文件分析方法,其特征在于,该字词关联性分析是根据所述多个技术字词所对应的至少一该技术文字资料所分别包含的该文献资料而进行。
4.如权利要求2所述的技术文件分析方法,其特征在于,该字词关联性分析包括 根据所述多个技术字词所对应的所述多个技术文字资料的所述文献相关时间或所述文献相互引用关系,以获得所述多个技术字词彼此之间的一发生先后顺序关系;进行一词组出现频率分析,以获得所述多个技术字词彼此之间的一字词出现关系;以及根据所述多个技术字词彼此之间的该发生先后顺序关系与该字词出现关系,划分所述多个技术字词成所述多个技术群组。
5.如权利要求4所述的技术文件分析方法,其特征在于,划分所述技术字词成所述技术群组的方法包括因素分析法、集群分析法或自我组织法。
6.如权利要求4所述的技术文件分析方法,其特征在于,该词组出现频率分析包括 计算所述多个技术字词中,每两所述技术字词在所述多笔技术文字资料中的一共同出现频率;计算所述多个技术字词中,每两所述技术字词出现于同一该技术文字资料的一共同出现文字资料数;以及根据该共同出现频率与该共同出现文字资料数,决定每两该技术字词之间的该字词出现关系。
7.如权利要求2所述的技术文件分析方法,其特征在于,每一所述技术文字资料的所述多个技术字词包括该文献相关时间记录、该文献关键词组、该文献归属者、该文献技术分类、该文献作者群或该文献审核单位。
8.如权利要求1所述的技术文件分析方法,其特征在于,每一所述技术文字资料是经由分别将多笔技术文件与多笔影音文件进行一纯文字转译后所获得。
9.如权利要求1所述的技术文件分析方法,其特征在于,该文字探勘包括 进行一断词断字分析,以从所述多笔技术文字资料中获得多个候选字词;以及进行一词频分析,以由所述多个候选字词中筛选出所述多个技术字词。
10.如权利要求9所述的技术文件分析方法,其特征在于,该词频分析包括计算每一所述候选字词于所述多笔技术文字资料中的一单一出现频率; 计算每一所述候选字词出现于所述多笔技术文字资料中的一单一出现文字资料数;以及根据一字词出现门槛值以及每一所述候选字词的该单一出现频率与该单一出现文字资料数,由所述多个候选字词中筛选出所述多个技术字词。
11.一种技术文件分析系统,适用于分析多笔技术文字资料,其特征在于,每一所述技术文字资料分别包含一文献资料,该系统包括一文字探勘模块,以分别从所述多笔技术文字资料,萃取出多个技术字词,其中每一所述技术字词分别对应至少一该技术文字资料;一字词关联性分析模块,以划分所述多个技术字词成多个技术群组; 一年代标示模块,以根据组成每一所述技术群组的所述多个技术字词,其所对应的所述多笔文字资料所分别包含的所述文献资料,标示每一所述技术群组所对应的一年代区间;以及一技术轨迹绘制模块,以根据每一所述技术群组分别对应的该年代区间,绘制所述多笔技术文字资料的一技术发展轨迹。
12.如权利要求11所述的技术文件分析系统,其特征在于,该文献资料包括一文献相关时间记录、一文献关键词组、一文献归属者、一文献技术分类、一文献作者群或一文献审核单位。
13.如权利要求12所述的技术文件分析系统,其特征在于,该字词关联性分析模块是根据所述多个技术字词所对应的至少一该技术文字资料所分别包含的该文献资料而划分所述多个技术字词。
14.如权利要求12所述的技术文件分析系统,其特征在于,该字词关联性分析模块包括一顺序分析模块,以根据所述多个技术字词所对应的所述多笔技术文字资料的所述文献相关时间或所述文献相互引用关系,以分析所述多个技术字词彼此之间的一发生先后顺序关系;一词组频率分析模块,以分析所述多个技术字词彼此之间的一字词出现关系;以及一划分模块,以根据所述多个技术字词彼此之间的该发生先后顺序关系与该字词出现关系,划分所述多个技术字词成所述多个技术群组。
15.如权利要求14所述的技术文件分析系统,其特征在于,划分所述多个技术字词成所述多个技术群组的方法包括因素分析法、集群分析法或自我组织法。
16.如权利要求14所述的技术文件分析系统,其特征在于,该词组频率分析模块包括 一共同出现频率分析模块,以计算所述多个技术字词中,每两所述技术字词在所述多笔技术文字资料中的一共同出现频率;一共同出现文字资料计数模块,以计算所述多个技术字词中,每两所述技术字词出现于同一该技术文字资料的一共同出现文字资料数;以及一关系决定模块,根据该共同出现频率与该共同出现文字资料数,决定每两该技术字词之间的该字词出现关系。
17.如权利要求12所述的技术文件分析系统,其特征在于,每一所述技术文字资料的所述多个技术字词包括该文献相关时间记录、该文献关键词组、该文献归属者、该文献技术分类、该文献作者群或该文献审核单位。
18.如权利要求11所述的技术文件分析系统,还包括一转译模块,以分别将多笔技术文件与多笔影音文件纯文字转译成每一所述技术文字资料。
19.如权利要求11所述的技术文件分析系统,其特征在于,该文字探勘模块包括 一断词断字分析模块,以从所述多笔技术文字资料中获得多个候选字词;以及一词频分析模块,以由所述多个候选字词中筛选出所述多个技术字词。
20.如权利要求19所述的技术文件分析系统,其特征在于,该词频分析模块包括一单一出现频率分析模块,计算每一所述候选字词于所述多笔技术文字资料中的一单一出现频率;一单一出现文字资料计数模块,计算每一所述候选字词出现于所述多笔技术文字资料中的一单一出现文字资料数;以及一字词筛选模块,根据一字词出现门槛值以及每一所述候选字词的该单一出现频率与该单一出现文字资料数,由所述多个候选字词中筛选出所述多个技术字词。
全文摘要
本发明公开了一种技术文件分析方法和一种技术文件分析系统,适用于分析多笔技术文字资料,其中每一所述技术文字资料分别包含一文献资料,该方法包括进行一文字探勘,以分别从所述多笔技术文字资料,萃取出多个技术字词,其中每一所述技术字词分别对应至少一该技术文字资料。进行一字词关联性分析,以划分所述多个技术字词成多个技术群组。根据组成每一所述技术群组的所述多个技术字词,其所对应的所述多笔技术文字资料所分别包含的所述文献资料,标示每一所述技术群组所对应的一年代区间。根据每一所述技术群组的原始资料分别对应该年代区间,绘制所述多笔技术文字资料的一技术发展轨迹。本发明可快速图表化技术文件背后所隐藏的技术发展轨迹。
文档编号G06F17/27GK102262639SQ20101019447
公开日2011年11月30日 申请日期2010年5月28日 优先权日2010年5月28日
发明者李沿儒 申请人:真理大学