一种数字出版物词汇抽取、显示方法和系统的制作方法
【技术领域】
[0001] 本发明设及一种数字出版物词汇抽取、显示系统和方法。
【背景技术】
[0002] 人类已经进入数字出版时代,由于数字出版平台和电子读物自身的数字化特点, 使利用各种现代技术为读者提供各种包括娱乐和辅助学习功能的新型有效服务成为可能。 目前,利用现代技术为人类阅读提供语言方面服务存在W下问题:
[0003] 1)读物语言难度信息缺乏
[0004] 为实现成功阅读,读者在选择读物时需要考虑语言难度方面的因素,在外文阅读 中就更显重要。因为,如果语言难度过大,词汇和语法会超出读者所能理解范围,读者很难 看懂内容,由此产生的阅读障碍将使阅读无法进行和持续。
[0005]目前数字出版中已经提供的文本难度(文本易读性)服务,或称为阅读分级服务, 较好地了解决运个问题,但阅读分级服务主要体现在儿童阅读方面,对于成人和外文阅读 方面还没有设及。
[0006] 2)阅读文本中的生词无法预知
[0007] 在目前提供的语言服务中,对于阅读,无论是多媒体阅读还是文本阅读,无论是文 本难度服务、屏幕取词和翻译服务,都还没有解决人类几千年来无法克服的问题,即没有办 法提前知道阅读内容中可能遇到的词汇方面的困难。
[000引同样,在观看外文动漫和电影时,也无法知道其中可能面临的词汇,只能在观看过 程中W笔记的方式进行人工记录,即影响观看效果,同时由于人类短时记忆的限制,对词汇 的记忆也很有限。如果能提前知道所要阅读文本内容中的生词,W将要阅读的章节为单位, 进行预习;预先知道所要观看的外文影片中几个不熟悉的词或值语,提前进行读写和听力 练习,则可W大大改善阅读和观看质量。
[0009] 对有些读者或观看者,所设及的词汇、难句、值语的数量可能较多,对其他的人,贝U 可能比较少,有时甚至是很少的,但通过预习都会产生积极影响。
[0010] 3)返回原语境复习知识点困难
[0011] 在目前对各种数字出版物提供的语言服务中,包括书籍电影等,除了无法预知可 能遇到的生词外,另一个问题就是不容易返回原语境复习。例如,在读书时遇到一个生词, 用笔记录下来,有的读者把生词和查到的解释记录到书上(如果读的是纸质书),有的读者 记录到笔记本上(包括电子笔记本),但不是所有人在记录一个生词或难句时,都把其对应 的页码记录下来,运就产生了返回原语境复习的困难。但在语言学习时,在上下相关语境中 的学习非常重要,外语学习中更是如此。
[0012] 4)语言学研究成果在服务中难W体现
[0013] 随着人类语言学研究的发展,对于语言本身的规律有了进一步的了解,积累了很 多语言研究成果,但很少和难W在数字出版语言服务中应用。
[0014] 例如词频统计结果显示,一种语言中,尽管词汇很多,但在人们的实际生活和书籍 中,常用词占了绝大部分,充分利用词频分布会对阅读产生很大帮助。
[0015] 目前,词频规律被普遍应用于教材和外语测试中的词汇确定等,但在数字出版方 面的语言服务中,除了阅读分级中的文本难度测量,还没有发现直接的应用。如屏幕取词服 务就没有提供运种词频信息,即使提供了,意义也不大,因为屏幕取词是随机性的,和文本 总体词汇分布及读者自身语言水平没有直接的相关性。
[0016] 5)不能提供对减少屏幕或网络阅读副作用的帮助
[0017] 目前数字出版服务提供的语言服务中,除了电子书阅读器中的内置词典,其它 "屏"阅读中的词汇服务,如屏幕取词、朗读和例句显示等,大部分都是网络在线环境实现 的,如何帮助人们在离开网络,在绿树阴下、小溪河旁享受传统的纸质书阅读时也能获得与 "在网"时一样的语言服务,即利用现代技术的帮化同时又恢复人类被"网"所束缚的自由 是具有非常积极意义的探索。
[0018] 词汇是语言学习的基础,语言学家研究结论是:初次呈现新单词最好是使用脱离 上下文的单词表;高水平的学习者通过上下文有可能学到词汇,但初学者也许更加得益于 带有翻译词义的词汇表;利用单词表模式比利用语境模式学习单词效果更好;在语言学 习、特别是外语学习中,即使对于语言水平已经达到了一定程度的学习者而言,通过单词表 来提高词汇量仍然不失为一种有效的办法。目前研究证明,学习者必须在一个时间段内 (如半年)接触同一个单词至少7-10次才能记住运个单词。如果一个学习者要想在半年之 内通过阅读文章的方法来学习并记住1000个新单词,那么就意味着运1000个单词必须在 他半年内所阅读的文字材料中都出现7-10次。诸多关于词汇频率的研究表明,运显然是不 可能的。因此,如果要想在短时间内大幅度提高词汇量,有计划地利用单词表来学习并记忆 新单词应该是较好的、也是最直接的办法。
【发明内容】
[0019] 本发明所要解决的技术问题是提供一种数字出版物词汇抽取、显示系统和方法, 能够减少阅读中由于生词造成的语言障碍,改善阅读质量和提高词汇学习效率。
[0020] 本发明解决上述技术问题的技术方案如下:一种数字出版物词汇抽取显示方法, 包括W下步骤:
[0021] 步骤1,输入数字出版物;
[0022] 步骤2,统计数字出版物中的词汇总量W及每一个词汇的词频,将所述数字出版物 中所有的词汇按照词频大小进行排序,并添加词汇信息形成总词汇表和添加词汇的相关信 息形成相关数据表;
[0023] 或将词频词典中的词汇按照词频大小进行排序,按照排序后词频词典中的词汇顺 序依次在所述数字出版物中抽取相应的词汇,得到总词汇表和相关数据表,所述总词汇表 中记录所有的词汇W及词汇信息,所述相关数据表中记录所有词汇的相关信息;
[0024] 步骤3,根据总词汇表确定词频段的个数和各个词频段包括的词汇数量并显示; [00巧]步骤4,将各个词频段所包括的词汇对应的词汇信息和相关信息组成数据包,用于 下载学习。
[00%] 本发明的有益效果是:将数字出版物中的词汇W按照词频词典中的词频大小排序 后的顺序或按照数字出版物中词汇词频大小排序后的顺序依次抽取,并划分成不同的词频 段,然后读者可w提前打包下载学习,运样就能够减少阅读中由于生词太多所造成的语言 障碍,达到改善阅读质量和提高词汇学习效率效果。
[0027] 在上述技术方案的基础上,本发明还可W做如下改进:
[0028] 进一步,所述步骤3中词频段的个数及各个词频段包括的词汇数量照W下方法计 算:
[0029] 当满足第一判断条件时,词频段数P=int(j/m),得到P个词频段,P取正整数;前 P个词频段每个词频段加入m个词汇;当剩余词汇Si=j-int(j/m)Xm大于或等于m/2时, 则在P个词频段的基础上增加一个词频段将剩余的词汇添加至该词频段,当剩余词汇小于 m/2时,则将剩余的词汇添加至第P个词频段当中;j为所述总词汇表中的总词汇量,m取值 为与j为相同数量级的最小数;int为取整函数;所述第一判断条件指所述总词汇表中的词 汇数量小于或等于第一预设值;
[0030] 当满足第二判断条件时,按照所述词频段顺序从第一个词频段开始将大于第一预 设值部分的词汇添加至已存在的词频段中,添加规则为:设大于第一预设值部分的词汇量 为i,当i小于1000时,则将所述i个词汇加入满足第一判断条件时已存在的最后一个词 频段中,当i大于或等于1000时,则按照词频段的顺序依次在每个已存在的词频段中增加 k个词汇,剩余的词汇S2=i-int(i/k)Xk添加至最后一个词频段中,k取与i数量级相同 的最小数;所述第二判断条件指所述总词汇数大于第一预设值且小于或等于第二预设值; 所述第二预设值为所述第一预设值的二倍;
[0031] 当满足第S判断条件时,则采用满足第二判断条件时的添加规则,将大于第二预 设值的部分的词汇按照所述词频段顺序从第一个词频段开始添加至已存在的词频段中;所 述第=判断条件指所述总词汇数大于第二预设值且小于或等于第=预设值时,所述第=预 设值为所述第一预设值的=倍;
[0032] 当满足第四判断条件时,则采用高低频分段的方法划分词频段W及确定每个词频 段中所包括的词汇量,,所述第四判断条件指总词汇量大于第=预设值。
[0033] 采用上述进一步方案的有益效果是:通过将数字出版物当中的所有词汇分成多 个词频段,每个词频段中包括一定的词汇量,并且所有的词汇按照词频段的顺序排序,运样 读者就可W有目的性地进行下载学习,从而减少阅读中由于