一种快速搜索所需文章内容的方法及装置的制造方法
【技术领域】
[0001]本发明涉及文章搜索领域,特别涉及一种快速搜索所需文章内容的方法及装置。
【背景技术】
[0002]在搜索所需要的文章时,通常的方法是通过顺序扫描法对每篇文章进行全文的关键词匹配,对一篇文章利用分词策略进行分词后,实时地利用关键词来比对内容,比对完一篇文章后,记录并返回结果,以此类推再进行下一篇文章的比对。如果文章规模庞大且搜索并发量大的情况下,对每篇文章进行实时地分词比对,这种方式将会把有限的内存资源和CPU计算资源耗尽,严重影响搜索速度和用户体验。
【发明内容】
[0003]本发明要解决的技术问题在于,针对现有技术的上述影响搜索速度和用户的体验的缺陷,提供一种搜索速度较快、增强用户体验的快速搜索所需文章内容的方法及装置。
[0004]本发明解决其技术问题所采用的技术方案是:构造一种快速搜索所需文章内容的方法,包括如下步骤:
[0005]A)读取文章,并将所述文章拆分成若干个独立的词语;
[0006]B)对拆分后的每个词语进行分类,并对其赋予文章编码;
[0007]C)将每个词语及对应的文章编码的内容记录在一个索引文件中;
[0008]D)用户输入关键词,开始搜索所述索引文件;
[0009]E)判断所述索引文件中是否存在与所述关键词相匹配的内容,如是,返回与所述关键词相匹配的文章编码,并通过所述相匹配的文章编码调出对应的文章内容,执行步骤F);否则,返回没有检索到相匹配的内容,执行步骤F);
[0010]F)结束本次搜索。
[0011]在本发明所述的快速搜索所需文章内容的方法中,所述步骤D)进一步包括:
[0012]Dl)用户输入关键词,执行步骤D2)或D2');
[0013]D2)根据所述关键词匹配得到符合所述关键词的词条,展示匹配到的词条,用户从所述词条中选择相匹配的关键词,或用户直接进行搜索后执行步骤D3);
[0014]D2')根据所述关键词进行智能纠错,匹配高频词汇,得到最终搜索的关键词,执行步骤D3);
[0015]D3)开始搜索所述索引文件的内容。
[0016]在本发明所述的快速搜索所需文章内容的方法中,在所述步骤A)中,是根据分词映射表来对所述文章进行拆分的。
[0017]在本发明所述的快速搜索所需文章内容的方法中,每篇文章均有一个独立的文章编码。
[0018]在本发明所述的快速搜索所需文章内容的方法中,所述索引文件保存在文章库中。
[0019]本发明还涉及一种实现上述快速搜索所需文章内容的方法的装置,包括:
[0020]读取拆分单元:用于读取文章,并将所述文章拆分成若干个独立的词语;
[0021]词语分类单元:用于对拆分后的每个词语进行分类,并对其赋予文章编码;
[0022]记录单元:用于将每个词语及对应的文章编码的内容记录在一个索引文件中;
[0023]搜索单元:用于使用户输入关键词,开始搜索所述索引文件;
[0024]匹配单元:用于判断所述索引文件中是否存在与所述关键词相匹配的内容,如是,返回与所述关键词相匹配的文章编码,并通过所述相匹配的文章编码调出对应的文章内容;否则,返回没有检索到相匹配的内容;
[0025]结束单元:用于结束本次搜索。
[0026]在本发明所述的装置中,所述搜索单元进一步包括:
[0027]关键词输入模块:用于使用户输入关键词;
[0028]智能提示模块:用于根据所述关键词匹配得到符合所述关键词的词条,展示匹配到的词条,用户从所述词条中选择相匹配的关键词,或用户直接进行搜索;还包括:
[0029]智能纠错模块:用于根据所述关键词进行智能纠错,匹配高频词汇,得到最终搜索的关键词;
[0030]索引文件内容搜索模块:用于开始搜索所述索引文件的内容。
[0031]在本发明所述的装置中,在所述读取拆分单元中,是根据分词映射表来对所述文章进行拆分的。
[0032]在本发明所述的装置中,每篇文章均有一个独立的文章编码。
[0033]在本发明所述的装置中,所述索引文件保存在文章库中。
[0034]实施本发明的快速搜索所需文章内容的方法及装置,具有以下有益效果:由于通过把多篇文章的内容进行分词后,独立存储在独立的索引文件中,当外界输入一个关键词,便会把这个关键词与索引文件中的内容比对,先比对出匹配的关键词,再根据对应的文章编码找到原文章;这种策略可以在海量的文章中高效地寻找到用户心中所想要的内容,所以其搜索速度较快、增强用户体验。
【附图说明】
[0035]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0036]图1为本发明快速搜索所需文章内容的方法及装置一个实施例中方法的流程图;
[0037]图2为所述实施例中用户输入关键词,开始搜索索引文件的具体流程图;
[0038]图3为所述实施例中装置的结构示意图。
【具体实施方式】
[0039]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0040]在本发明快速搜索所需文章内容的方法及装置实施例中,其快速搜索所需文章内容的方法的流程图如图1所示。图1中,该快速搜索所需文章内容的方法包括如下步骤:
[0041]步骤SOl读取文章,并将文章拆分成若干个独立的词语:本步骤中,读取文章,并将文章拆分成若干个独立的词语。具体的,也就是把一篇文章中的内容利用把一篇文章内容根据分词映射表拆分成一个个独立的词语。多个词语可构成一个词语集。
[0042]步骤S02对拆分后的每个词语进行分类,并对其赋予文章编码:本步骤中,对拆分后的每个词语进行分类统计,并对其赋予文章编码。每篇文章均由一个独立的文章编码(编码标识),每个文章编码都映射着对应的文章。
[0043]步骤S03将每个词语及对应的文章编码的内容记录在一个索引文件中:本步骤中,将每个词语及对应的文章编码的内容记录在一个索引文件中。值得一提的是,本实施例中,索引文件保存在文章库中。如此类推,可以把多篇文章或文章库的内容拆分成若干个词语后,独立存储在独立的索引文件中。
[0044]步骤S04用户输入关键词,开始搜索索引文件:本步骤中,用户输入关键词,开始搜索索引文件,将关键词将比对索引文件中的内容。
[0045]步骤S05判断索引文件中是否存在与关键词相匹配的内容:本步骤中,判断索引文件中是否存在与关键词相匹配的内容,如果判断的结果为是,则执行步骤S07 ;否则,执行步骤S06。
[0046]步骤S06返回没有检索到相匹配的内容:如果上述步骤S05的判断结果为否,则执行本步骤。本步骤中,返回没有检索到相匹配的内容。执行完本步骤,执行步骤S08。
[0047]步骤S07返回与关键词相匹配的文章编码,并通过相匹配的文章编码调出对应的文章内容:如果上述步骤S05的判断结果为是,则执行本步骤。本步骤中,首先找到索引文件中与该关键词相匹配的词语,接着在索引文件中找到与该词语向对应的文章编码,然后返回与该关键词相匹配的文章编码,并通过该相匹配的文章编码调出对应的文章内容。执行完本步骤,执彳丁步骤S08。
[0048]步