为i, 当i小于1000时,将所述i个词汇加入满足第一判断条件时已存在的最后一个词频段中; 当i大于或等于1000时,按照词频段的顺序依次在满足第一判断条件时已存在的每个词频 段中增加k个词汇,剩余的词汇S2=i-int(i/k)Xk添加至满足第一判断条件时已存在的 最后一个词频段中,k取与i数量级相同的最小数;所述第二判断条件指所述总词汇数大于 第一预设值且小于或等于第二预设值;所述第二预设值为所述第一预设值的二倍; 当满足第三判断条件时,则采用满足第二判断条件时的添加规则,将大于第二预设值 的部分的词汇按照所述词频段顺序从第一个词频段开始添加至已存在的词频段中;所述第 三判断条件指所述总词汇数大于第二预设值且小于或等于第三预设值时,所述第三预设值 为所述第一预设值的三倍; 当满足第四判断条件时,则采用高低频分段的方法划分词频段以及确定每个词频段中 所包括的词汇量,所述第四判断条件指总词汇量大于第三预设值。3. 根据权利要求2所述一种数字出版物词汇抽取、显示方法,其特征在于,所述采用高 低频分段方法划分词频段以及确定每个词频段中所包括的词汇量,具体为: 计算高频段和低频段的预分界点f=int(j/2); 判断f是否为d的正整数倍,d为第一预设值,j为数字出版物的总词汇量;若是,则高频段的词频段个数为d/1000,每个词频段中包括的词汇量 段的词频段个数为x,X不大于5 ; 若不是,则将低频段的词汇量a补入高频段,使高频段的总词汇量满足:f+a=d*b,b取使f+a为与f最接近的d的正整数倍的数值;所述高频段的词频段个数为d/1000,每个词 频段中包括的词汇量为;低频段的总词汇量为分卜3,低频段的词频段个数为^1 不大于5,a大于O;所述低频段的词频段数量及每个低频段的词频段包括的词汇数量按照 以下方法确定: 当j-f-a未超过各个低频段的词频段容纳量基数总和时,低频段的词频段个数对应 为?) /IOOjC,低频段的每个词频段容纳量基数为1〇〇〇,将余数部分词汇量: j-f-a-int{(j-f-a) /1000} *1000 放入最后一个词频段中; 当j-f-a超过各低频词频段容纳量基数总和时,将剩余的部分按顺序依次放入低频段 的词频段中。4. 根据权利要求1所述一种数字出版物词汇抽取、显示方法,其特征在于,所述步骤2 中的词汇信息包括词汇原型、词汇释义、词汇外语释义、词汇音标和备注;所述相关信息包 括该词汇所出现的章号和页码,以及该词汇在该章中首次出现的页码和在该章中出现的总 次数,所述词汇外语释义包括一种或多种语言的外语释义。5. 根据权利要求4所述一种数字出版物词汇抽取、显示方法,其特征在于,所述步骤4 中的数据包为APP数据显示包,包括与每一章对应的所有词汇的词汇信息和相关信息,以 及包括与每一页对应的所有词汇的词汇信息。6. -种数字出版物词汇抽取、显示系统,其特征在于,包括: 输入模块,用于输入数字出版物; 词汇抽取模块,用于统计数字出版物中的词汇总量以及每一个词汇的词频,将所述数 字出版物中所有的词汇按照词频大小进行排序,并添加词汇信息形成总词汇表和添加词汇 的相关信息形成相关数据表; 或将词频词典中的词汇按照词频大小进行排序,按照排序后词频词典中的词汇顺序依 次在所述数字出版物中抽取相应的词汇,得到总词汇表和相关数据表,所述总词汇表中记 录所有的词汇以及词汇信息,所述相关数据表中记录所有词汇的相关信息; 词频段划分模块,用于根据总词汇表确定词频段的个数和各个词频段包括的词汇数量 并显示; 数据包组成模块,将各个词频段所包括的词汇对应的词汇信息和相关信息组成数据 包,用于下载学习。7. 根据权利要求6所述一种数字出版物词汇抽取、显示系统,其特征在于,所述词频段 划分模块包括: 第一词频段单元,用于当满足第一判断条件时,词频段数P=int(j/m),得到p个词频 段,P取正整数;前P个词频段每个词频段加入m个词汇;当剩余词汇S1=j-int(j/m)Xm 大于或等于m/2时,则在p个词频段的基础上增加一个词频段将剩余的词汇添加至该词频 段,当剩余词汇小于m/2时,则将剩余的词汇添加至第p个词频段当中;j为所述总词汇表 中的总词汇量,m取值为与j为相同数量级的最小数;int为取整函数;所述第一判断条件 指所述总词汇表中的词汇数量小于或等于第一预设值; 第二词频段单元,用于当满足第二判断条件时,按照所述词频段顺序从第一个词频段 开始将大于第一预设值部分的词汇添加至已存在的词频段中,添加规则为:设大于第一预 设值部分的词汇量为i,当i小于1000时,则将所述i个词汇加入满足第一判断条件时已 存在的最后一个词频段中,当i大于或等于1000时,则按照词频段的顺序依次在每个已存 在的词频段中增加k个词汇,剩余的词汇S2=i-int(i/k)Xk添加至最后一个词频段中,k 取与i数量级相同的最小数;所述第二判断条件指所述总词汇数大于第一预设值且小于或 等于第二预设值;所述第二预设值为所述第一预设值的二倍; 第三词频段单元,用于采用满足第二判断条件时的添加规则,将大于第二预设值的部 分的词汇按照所述词频段顺序从第一个词频段开始添加至已存在的词频段中;所述第三判 断条件指所述总词汇数大于第二预设值且小于或等于第三预设值时,所述第三预设值为所 述第一预设值的三倍; 第四词频段单元,当满足第四判断条件时,则采用高低频分段的方法划分词频段以及 确定每个词频段中所包括的词汇量,所述第四判断条件指总词汇量大于第三预设值。8. 根据权利要求7所述一种数字出版物词汇抽取、显示系统,其特征在于,所述第四词 频段单元采用高低频分段的方法划分词频段以及确定每个词频段中所包括的词汇量,具体 为: 计算高频段和低频段的预分界点f=int(j/2); 判断f是否为d的正整数倍,d为第一预设值,j为数字出版物的总词汇量;若是,则高频段的词频段个数为d/1000,每个词频段中包括的词汇量 段的词频段个数为x,X不大于5 ; 若不是,则将低频段的词汇量a补入高频段,使高频段的总词汇量满足:f+a=d*b,b取使f+a为与f最接近的d的正整数倍的数值;所述高频段的词频段个数为d/1000,每个词 频段中包括的词汇量〖低频段的总词汇量为j-f-a,低频段的词频段个数为x,X 不大于5,a大于0 ;所述低频段的词频段数量及每个低频段的词频段包括的词汇数量按照 以下方法确定: 当j-f-a未超过各个低频段的词频段容纳量基数总和时,低频段的词频段个数对应 为:x=int{(j-f-a)/1000},低频段的每个词频段容纳量基数为1000,将余数部分词汇量: j-f-a-int{(j-f-a) /1000} *1000 放入最后一个词频段中; 当j-f-a超过各低频词频段容纳量基数总和时,将剩余的部分按顺序依次放入低频段 的词频段中。9. 根据权利要求6所述一种数字出版物词汇抽取、显示系统,其特征在于,所述词汇抽 取模块包括总词汇表计数器、章内词汇出现次数计数器、词频词典取词计数器; 所述词频词典取词计数器,用于依次在排序后的词频词典中提取词汇; 所述总词汇表计数器,用于根据所述词频词典取词计数器提取出来的词汇在所述数字 出版物中抽取该词汇;或统计数字出版物中的词汇总量以及每一个词汇的词频; 所述章内词汇出现次数计数器,用于记录总词汇表计数器抽取或统计的词汇在每一章 中出现的次数。10.根据权利要求8或9所述一种数字出版物词汇抽取、显示系统,其特征在于,所述数 据包组成模块为APP数据显示包,包括与每一章对应的所有词汇的词汇信息和相关信息, 以及包括与每一页对应的所有词汇的词汇信息。
【专利摘要】本发明涉及一种数字出版物词汇抽取、显示方法和系统,包括:输入数字出版物;统计数字出版物中的词汇总量以及每一个词汇的词频,将数字出版物中所有的词汇按照词频大小进行排序,并添加词汇信息形成总词汇表和添加词汇的相关信息形成相关数据表;或将词频词典中的词汇按照词频大小进行排序,按照排序后词频词典中的词汇顺序依次在数字出版物中抽取相应的词汇,得到总词汇表和相关数据表;根据总词汇表确定词频段的个数和各个词频段包括的词汇数量并显示;将各个词频段所包括的词汇对应的词汇信息和相关信息组成数据包,用于下载学习。本发明能够减少阅读中由于生词造成的语言障碍,改善阅读质量和提高词汇学习效率。
【IPC分类】G06F17/27, G06F17/30
【公开号】CN105224664
【申请号】CN201510645332
【发明人】孙继兰
【申请人】孙继兰
【公开日】2016年1月6日
【申请日】2015年10月8日