书籍库中相似书的挖掘、净化方法和装置的制造方法
【技术领域】
[0001]本发明涉及信息处理技术领域,具体而言,本发明涉及一种书籍库中相似书的挖掘、净化方法和装置。
【背景技术】
[0002]随着互联网的快速发展,传统的书籍逐渐被电子书所代替。通过PC(PerSonalComputer,个人计算机)、手机、阅读器等智能设备,用户可以上网搜索自己感兴趣的电子书,或者将自己喜欢的电子书存储到智能设备中。
[0003]目前,智能设备上可以支持各种阅读平台和阅读工具来满足用户的电子书阅读需求,比如,起点中文网、言情小说吧、360小说、书旗小说、ireader阅读器等等。而这些阅读平台和阅读工具通常会配有用于存储有大量的电子书的电子书数据库(本文中也可以称为书籍库)。
[0004]实际应用中,在大规模的书籍库(比如,百万级别)中,存在大量的书名、作者、章节列表及章节内容大致相同的相似书,这些相似书将占用大量的存储空间。而且,书籍库中电子书的信息不一定完整,例如,有的电子书的书名因为网页解析问题出现乱码或额外后缀,有的电子书缺少作者信息,有的电子书相对于完整的电子书来讲缺少一些章节列表,有的电子书的章节列表由于某些原因是错误的。
[0005]因此,有必要从书籍库中挖掘出这些相似书,并从中删除一些错误的或缺章少节的电子书,进行书籍库净化处理。现有可以针对相同书名的电子书,使用章节内容信息来进行匹配确定出相似书。虽然,通过章节内容信息进行匹配的方法来挖掘相似书的准确率高,但是,由于书籍库中电子书的章节内容存储量太大,会存在挖掘速度慢的问题。
[0006]因此,有必要提供一种快速挖掘出书籍库中相似书的方法,并对书籍库中的相似书进行净化处理,以此净化书籍库,降低书籍库的规模。
【发明内容】
[0007]针对上述现有技术存在的缺陷,本发明提供了一种书籍库中相似书的挖掘、净化方法和装置,用以提高书籍库中相似书的挖掘速度,并基于挖掘出的相似书净化书籍库,从而降低书籍库的规模。
[0008]本发明方案提供了一种书籍库中相似书的净化方法,包括:
[0009]根据所述书籍库中所有电子书的书名,确定出各电子书所属的分组;
[0010]对于每个分组,根据该分组内各电子书的章节列表,计算出该分组内各电子书之间的相似度,若该分组内两本电子书之间的相似度超过设定阈值,则将该两本电子书确定为所述书籍库中的一对相似书;
[0011]利用所述书籍库中所有分组内的相似书,构建所述书籍库的图模型,其中,每对相似书为所述图模型中相连的两个端点;
[0012]对于所述图模型中的每个连通分量,从该连通分量中选择一本电子书保留,删除其他电子书。
[0013]较佳地,所述根据所述书籍库中所有电子书的书名,确定出各书所属的分组之前,还包括:
[0014]利用预设的书名过滤规则,对所述书籍库中所有电子书的书名进行过滤处理,得到电子书的书名字符串;
[0015]利用预设的章节过滤规则,对所述书籍库中所有电子书的章节列表进行过滤处理,得到电子书的章节列表中的各章节标题。
[0016]较佳地,所述章节过滤规则包括如下至少之一:前缀过滤规则、后缀过滤规则。
[0017]较佳地,所述根据所述书籍库中所有电子书的书名,确定出各电子书所属的分组,具体包括:
[0018]针对书籍库中的每本电子书,利用预设的向量化规则拆分该电子书的书名字符串,由拆分得到的各子字符串构成该电子书对应的书名向量;
[0019]将拆分得到的所有子字符串进行合并去重,得到各分组的关键词;
[0020]针对书籍库中的每本电子书,对于每个分组,若该电子书的书名向量中包含该分组的关键词,则将该电子书划分到该分组中。
[0021]较佳地,所述根据该分组内各电子书的章节列表,计算出该分组内各电子书之间的相似度,具体包括:
[0022]针对该分组内的任意两本电子书,将该两本电子书各自的章节列表中章节标题进行比对,计算出该两本电子书之间的杰卡德jaccard系数,并作为两本电子书之间的相似度。
[0023]较佳地,所述从该连通分量中选择一本电子书保留,具体包括:
[0024]针对该连通分量中的每本电子书,将该连通分量中与该电子书相连的电子书的个数,作为该电子书的关联度;
[0025]选取关联度最高的电子书保留。
[0026]较佳地,所述从该连通分量中选择一本电子书保留,具体包括:
[0027]针对该连通分量中的每本电子书,将该连通分量中该电子书相连的各本电子书与该电子书之间的相似度进行累加,得到该电子书的关联度;
[0028]选取关联度最尚的电子书保留。
[0029]根据本发明的另一方面,还提供了一种书籍库中相似书的净化装置,包括:
[0030]书籍分组单元,用于根据所述书籍库中所有电子书的书名,确定出各电子书所属的分组;
[0031]相似书挖掘单元,用于对于每个分组,根据该分组内各电子书的章节列表,计算出该分组内各电子书之间的相似度;若该分组内两本电子书之间的相似度超过设定阈值,则将该两本电子书确定为所述书籍库中的一对相似书;
[0032]相似书净化单元,用于利用所述书籍库中所有分组内的相似书,构建所述书籍库的图模型,其中,每对相似书为所述图模型中相连的两个端点;对于所述书籍库的图模型中的每个连通分量,从连通分量中选择一本电子书保留,删除其他电子书。
[0033]较佳地,该净化装置还包括:
[0034]预处理单元,用于利用预设的书名过滤规则,对所述书籍库中所有电子书的书名进行过滤处理,得到电子书的书名字符串;利用预设的章节过滤规则,对所述书籍库中所有电子书的章节列表进行过滤处理,得到电子书的章节列表中的各章节标题。
[0035]较佳地,所述章节过滤规则包括如下至少之一:前缀过滤规则、后缀过滤规则。
[0036]较佳地,所述书籍分组单元具体用于针对书籍库中的每本电子书,利用预设的向量化规则拆分该电子书的书名字符串,由拆分得到的各子字符串构成该电子书对应的书名向量;将拆分得到的所有子字符串进行合并去重,得到各分组的关键词;针对书籍库中的每本电子书,对于每个分组,若该电子书的书名向量中包含该分组的关键词,则将该电子书划分到该分组中。
[0037]较佳地,所述相似书挖掘单元具体用于对于每个分组,针对该分组内的任意两本电子书,将该两本电子书各自的章节列表中章节标题进行比对,计算出该两本电子书之间的杰卡德jaccard系数,并作为两本电子书之间的相似度;若该分组内两本电子书之间的相似度超过设定阈值,则将该两本电子书确定为所述书籍库中的一对相似书。
[0038]较佳地,所述相似书净化单元具体用于利用所述书籍库中所有分组内的相似书,构建所述书籍库的图模型;对于所述图模型中的每个连通分量,针对连通分量中的每本电子书,将连通分量中与该电子书相连的电子书的个数,作为该电子书的关联度;选取关联度最高的电子书保留,删除其他电子书。
[0039]较佳地,所述相似书净化单元具体用于利用所述书籍库中所有分组内的相似书,构建所述书籍库的图模型;对于所述图模型中的每个连通分量,针对连通分量中的每本电子书,将连通分量中该电子书相连的各本电子书与该电子书之间的相似度进行累加,得到该电子书的关联度;选取关联度最高的电子书保留,删除其他电子书。
[0040]本发明还提供了一种书籍库中相似书的挖掘方法,包括:
[0041]根据书籍库中所有电子书的书名,确定出各电子书所属的分组;
[0042]对于每个分组,根据该分组内各电子书的章节列表,计算出该分组内各电子书之间的相似度;
[0043]对于每个分组,若分组内两本电子书之间的相似度超过设定阈值,则将该两本电子书确定为所述书籍库中的一对相似书。
[0044]较佳地,所述若分组内两本电子书之间的相似度超过设定阈值,则将该两本电子书确定为所述书籍库中的一对相似书之后,还包括:
[0045]利用所述书籍库中所有分组内的相似书,构建所述书籍库的图模型,其中,每对相似书为所述图模型中相连的两个端点;
[0046]对于所述图模型中的每个连通分量,从该连通分量中选择一本电子书保留,删除其他电子书。
[0047]较佳地,所述从该连通分量中选择一本电子书保留,具体包括:
[0048]针对该连通分量中的每本电子书,将该连通分量中与该电子书相连的电子书的个数,作为该电子书的关联度;
[0049]选取关联度最高的电子书保留。
[0050]较佳地,所述从该连通分量中选择一本电子书保留,具体包括:
[0051 ] 针对该连通分量中的每本电子书,将该连通分量中该电子书相连的各本电子书与该电子书之间的相似度进行累加,得到该电子书的关联度;
[0052]选取关联度最高的电子书保留。
[0053]较佳地,所述根据书籍库中所有电子书的书名,确定出各书所属的分组之前,还包括:
[0054]利用预设的书名过滤规则,对所述书籍库中所有电子书的书名进行过滤处理,得到电子书的书名字符串;
[0055]利用预设的章节过滤规则,对所述书籍库中所有电子书的章节列表进行过滤处理,得到电子书的章节列表中的各章节标题。
[0056]较佳地,所述章节过滤规则包括如下至少之一:前缀过滤规则、后缀过滤规则。
[0057]较佳地,所述根据书籍库中所有电子书的书名,确定出各电子书所属的分组,具体包括:
[0058]针对书籍库中的每本电子书,利用预设的向量化规则拆分该电子书的书名字符串,由拆分得到的各子字符串构成该电子书对应的书名向量;
[0059]将拆分得到的所有子字符串进行合并去重,得到各分组的关键词;
[0060]针对书籍库中的每本电子书,对于每个分组,若该电子书的书名向量中包含该分组的关键词,则将该电子书划分到该分组中。
[0061]较佳地,所述根据该分组内各电子书的章节列表,计算出该分组内各电子书之间的相似度,具体包括:
[0062]针对该分组内的任意两本电子书,将该两本电子书各自的章节列表中章节标题进行比对,计算出该两本电子书之间的杰卡德jaccard系数,并作为两本电子书之间的相似度。
[0063]本发明还提供了一种书籍库中相似书的挖掘装置,包括:
[0064]书籍分组单元,用于根据所述书籍库中所有电子书的书名,确定出各电子书所属的分组;
[0065]相似度计算单元,用于对于每个分组,根据该分组内各电子书的章节列表,计算出该分组内各电子书之间的相似度;
[0066]相似书挖掘单元,用于对于每个分组,若该分组内两本电子书之间的相似度超过设定阈值,则将该两本电子书确定为所述书籍库中的一对相似书。
[0067]较佳地,挖掘装置还包括:
[0068]书籍净化单元,用于利用所述相似书挖掘单元确定出的书籍库中所有分组内的相似书,构建所述书籍库的图模型;对于所述图模型中的每个连通分量,从连通分量中选择一本电子书保留,删除其他电子书;
[0069]其中,每对相似书为所述图模型中相连的两个端点。
[0070]较佳地,所述书籍净化单元具体用于利用所述书籍库中所有分组内的相似书,构建所述书籍库的图模型;对于所述图模型