一种基于大数据的教材索引管理系统的制作方法

文档序号:28375923发布日期:2022-01-07 21:50阅读:94来源:国知局
一种基于大数据的教材索引管理系统的制作方法

1.本发明涉及智能交互技术领域,特别是一种基于大数据的教材索引管理系统。


背景技术:

2.目前,针对书本教材中的重点或难点词组(例如是教材中的索引词组),这类词组可以是中文或英文,会在特定的领域或者教材中存在不同的含义,而一般的翻译软件无法准确对此类词组进行准确的解释,使得读者在阅读的过程中容易出现无法理解或者理解偏差的情况,影响阅读体验。


技术实现要素:

3.针对上述提出读者在阅读的过程中容易出现无法理解或者理解偏差的技术问题,本发明旨在提供一种基于大数据的教材索引管理系统。
4.本发明的目的采用以下技术方案来实现:
5.本发明示出一种基于大数据的教材索引管理系统,包括:第一获取模块、第二获取模块和索引模块;
6.第一获取模块用于获取目标教材的基本信息,其中基本信息包括目标教材的名称、领域、作者和面向群体等;
7.第二获取模块用于获取目标教材中出现的目标词语,基于目标教材的基本信息和目标词语构建目标词语的特征向量;
8.索引模块用于针对获取的目标词语的特征向量,运用基于大数据技术的搜索引擎从大数据库中检索匹配的语义解释信息,并输出目标词语相应的语义解释结果。
9.一种是实施方式中,还包括显示模块;
10.显示模块用于显示目标词语对应的语义解释结果。
11.一种是实施方式中,第一获取模块包括第一输入单元;
12.第一输入单元用于获取用户输入的目标教材的基本信息中至少一项,并根据用户输入的目标教材的基本信息从教材数据库中匹配对应的目标教材,并根据匹配的目标教材获取完整的基本信息。
13.一种是实施方式中,第一获取模块还包括第一拍摄单元;
14.第一拍摄单元用于采集目标教材的封面图像,并基于获取的封面图像从教材数据库汇总匹配对应的目标教材,并根据匹配的目标教材获取完整的目标教材的基本信息。
15.一种是实施方式中,第二获取模块包括第二输入单元和向量提取单元;
16.第二输入单元用于获取用户输入的目标教材中出现的目标词语;
17.向量提取单元用于根据获取的目标词语以及目标教材的基本信息构建目标词语的特征向量,其中目标词语的特征向量包括目标词语和目标教材的基本信息,目标教材的基本信息包括教材领域、教材作者和教材受众群体中的至少一项。
18.一种是实施方式中,第二获取模块还包括第二拍摄单元;
19.第二拍摄单元用于采集目标教材中的目标词语图片,基于获取的目标词语图片进行文本识别,得到相应的目标词语。
20.一种是实施方式中,索引模块包括搜索单元和输出单元;
21.搜索单元用于基于搜索引擎,根据获取的目标词语的特征向量从大数据库中搜索与该特征向量对应的语义解释信息;
22.输出单元,用于根据获取的语义解释信息整理出与目标词语对应的语义解释结果。
23.一种实施方式中,针对电子版教材;第一获取模块还包括直接从电子版教材中获取目标教材的基本信息;第二获取模块还包括将目标教材的索引词语作为目标词语。
24.本发明的有益效果为:本发明通过第一获取模块获取目标教材的基本信息,由系统对目标教材基本信息进行记录;同时通过第二获取模块获取需要进行语义解释确认的目标词语,并基于获取的目标词语联合相应的目标教材的基本信息联合构建目标词语的特征向量,最后通过索引模块基于得到的特征向量在大数据库中进行搜索,获取与该特征向量匹配的语义解释信息,最后根据得到的语义解释信息整理出目标词语的语义解释结果,得到的语义解释结果能够符合当前教材的特性,有效解决多义词语在特定环境下容易导致解释不准确的情况,有助于供读者在对目标教材中特定的重点或难点词语进行理解,提高读者的阅读体验。
附图说明
25.利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
26.图1为本发明一种基于大数据的教材索引管理系统的示例性框架结构图。
27.附图标记:
28.第一获取模块10、第二获取模块20、索引模块30、显示模块40。
具体实施方式
29.结合以下应用场景对本发明作进一步描述。
30.参见图1实施例所示一种基于大数据的教材索引管理系统,包括:第一获取模块10、第二获取模块20和索引模块30;
31.第一获取模块10用于获取目标教材的基本信息,其中基本信息包括目标教材的名称、领域、作者、面向群体等;
32.第二获取模块20用于获取目标教材中出现的目标词语,基于目标教材的基本信息和目标词语构建目标词语的特征向量;
33.索引模块30用于针对获取的目标词语的特征向量,运用基于大数据技术的搜索引擎从大数据库中检索匹配的语义解释信息,并输出目标词语相应的语义解释结果。
34.上述实施方式中,通过第一获取模块10获取目标教材的基本信息,由系统对目标教材基本信息进行记录;同时通过第二获取模块20获取需要进行语义解释确认的目标词语,并基于获取的目标词语联合相应的目标教材的基本信息联合构建目标词语的特征向
量,最后通过索引模块30基于得到的特征向量在大数据库中进行搜索,获取与该特征向量匹配的语义解释信息,最后根据得到的语义解释信息整理出目标词语的语义解释结果,得到的语义解释结果能够符合当前教材的特性,有效解决多义词语在特定环境下容易导致解释不准确的情况,有助于供读者在对目标教材中特定的重点或难点词语进行理解,提高读者的阅读体验。
35.一种场景中,本发明上述教材索引管理系统能够基于智能终端设备(如智能手机、平板电脑、整机的智能终端设备等)完成系统及各功能模块的设置。
36.一种是实施方式中,还包括显示模块40;
37.显示模块40用于显示目标词语对应的语义解释结果。
38.当通过索引模块30得到目标词语相应的语义解释结果后,通过显示模块40对该语义解释结果进行显示,方便用户查阅。
39.一种是实施方式中,第一获取模块10包括第一输入单元;
40.第一输入单元用于获取用户输入的目标教材的基本信息中至少一项,并根据用户输入的目标教材的基本信息从教材数据库中匹配对应的目标教材,并根据匹配的目标教材获取完整的基本信息。
41.上述实施方式中,用户能够通过手动输入的方式,将目标教材的基本信息输入到第一获取模块10中;同时,用户也能够通过手动输入目标教材的名称、领域、作者等信息,由第一输入单元从教材数据库中匹配该目标教材完整的基本信息,供后续构建目标词语的特征向量时调用。
42.一种是实施方式中,第一获取模块10还包括第一拍摄单元;
43.第一拍摄单元用于采集目标教材的封面图像,并基于获取的封面图像从教材数据库中匹配对应的目标教材,并根据匹配的目标教材获取完整的目标教材的基本信息。
44.同时,针对纸质版教材,用户也能够通过智能终端设备拍摄目标教材的封面图像,由第一拍摄单元根据得到的封面图像,从教材数据库中匹配对应的教材信息,并根据匹配到的教材信息自动完成目标教材基本信息的获取。
45.一种场景中,当用户在阅读教材的过程中,仅需要拍摄教材的封面图像,便能够自动完成目标教材基本信息的录入,提高了用户使用的便捷程度。
46.一种实施方式中,第一拍摄单元采集目标教材的封面图像,并基于获取的封面图像从教材数据库中匹配对应的目标教材,具体包括:
47.针对获取的目标教材的封面图像,首先对封面图像进行预处理;
48.对预处理后的封面图像进行边缘检测和分割处理,得到封面区域图像;
49.针对得到的封面区域图像进行边缘检测和文字识别,得到对应的文字识别信息作为文本特征;
50.针对得到的封面区域图像进行特征提取,得到对应的图像特征信息作为图像特征;
51.基于得到的文本特征和图像特征进行融合得到目标教材的封面特征,并基于得到的封面特征,从教材数据库中匹配对应的目标教材。
52.其中教材数据库中预存有教材对应的基本信息以及封面图像,以及基于上述统一方法获取得到的封面特征,为基于目标教材的封面图像完成目标教材的匹配提供依据。
53.其中,基于封面特征匹配对应的目标教材,能够基于神经网络模型或深度学习网络完成,本技术在此不作具体限定。
54.针对用户在拍摄目标教材的封面图像的过程中,容易收到教材封面材质以及光线的影响,容易导致拍摄的封面图像存在反光或者清晰度不足的情况,影响后续根据封面图像匹配目标教材的准确性;一种实施方式中,第一拍摄单元中,针对获取的目标教材的封面图像,首先进行预处理,以提高获取的封面图像的显示效果,其中,对封面图像进行预处理,具体包括:
55.将获取的封面图像从rgb颜色空间转换到hsv颜色空间;
56.基于获取的亮度分量,首先检测封面图像中存在的反光点,其中采用的反光点检测函数为:
[0057][0058]
式中,v(x,y)表示像素点(x,y)的明度分量值,med(v)表示封面图像中各像素点的明度分量中值,v
t1
表示设定的第一明度分量阈值,其中v
t1
∈[0.22,0.35],表示以像素点(x,y)为中心的邻域范围内各像素点的明度分量平均值,其中可以取3
×
3或5
×
5的邻域范围;v
t2
表示设定的第二明度分量阈值,其中v
t2
∈[0.1,0.15];
[0059]
将符合上述检测函数的像素点标记为反光点,得到反光点集合φf和非反光点集合
[0060]
针对获取的反光点进行亮度调节处理,其中采用的亮度调节函数为:
[0061][0062]
式中,v

(x,y)表示亮度调节后反光点(x,y)的亮度分量值,表示反光点(x,y)的邻域范围内各像素点的亮度分量最小值,mean(v)表示封面图像中各像素点的明度分量平均值,β表示设定的抑制因子,其中β∈[0.05,0.1];
[0063]
依次对反光点集合中的反光点进行亮度调节处理后,得到一次处理后的亮度分量v1;
[0064]
针对一次处理后的亮度分量,进行n次迭代的亮度增强处理,其中亮度增强处理函数为:
[0065][0066]
式中,表示第t+1次迭代处理后像素点(x,y)的亮度分量值,表示第t次迭代处理后以像素点(x,y)为中心的邻域范围内各像素点的亮度分量平均值,vz表示设定的标准亮度分量值,其中vz∈[0.7,0.8],β表示设定的步进调节函数,其中β∈[0.06,0.07],s(x,y)表示像素点(x,y)的饱和度分量值,其中n表示总迭代次数,n∈[2,5],当t+1=n时,则输出作为二次处理后的亮度分量v2;
[0067]
基于得到的亮度分量v2进行重构,从hsv颜色空间重新转换到rgb颜色空间,得到预处理后的封面图像。
[0068]
上述实施方式中,提出了一种针对封面图像进行预处理的技术方案,首先将封面
图像从rgb颜色空间转换到hsv颜色空间,然后基于得到的亮度分量v首先检测封面图像中存在的反光点,其中特别提出了一种用于检测反光点的检测函数,并基于检测到的反光点对反光点进行亮度抑制,以消除因教材封面反光导致图像不清晰的问题,同时提出了一种特别针对反光点进行亮度抑制的处理函数,能够有效对反光点的亮度进行抑制;针对反光点抑制后的封面图像,进一步对图像的整体进行整体的亮度调节处理,其中基于迭代的亮度调节方式,能够使得图像的整体亮度水平得到提升的同时能够有效抑制亮度突变导致的失真情况,有效提高图像的整体清晰度,同时在亮度提升的时候,改进地加入了基于像素点饱和度特性来进行调节的技术方案,能够有效突出图像中的细节特征,提高图像的整体显示效果。为后续根据封面图像进一步识别具体的封面基本信息奠定基础。
[0069]
一种是实施方式中,第二获取模块20包括第二输入单元和向量提取单元;
[0070]
第二输入单元用于获取用户输入的目标教材中出现的目标词语;
[0071]
向量提取单元用于根据获取的目标词语以及目标教材的基本信息构建目标词语的特征向量,其中目标词语的特征向量包括目标词语,以及教材领域、教材作者、教材受众群体中的至少一项。
[0072]
当用户输入完目标教材的基本信息之后,当用户在阅读的过程中需要对制定的重点词语或者难点词语进行语义解释时,通过第二输入单元将目标词语输入到系统中,由系统根据目标词语,以及对应教材的基本信息自动完成特征向量的构建,为后续基于特征向量进一步进行语义解释搜索奠定基础。
[0073]
一种场景中,目标词语的特征向量可以包含多维特征信息,例如{中文词语;英文词语;目标教材名称;教材领域;教材作者;教材受众群体}(如{小区;cell;移动通信技术;移动通信;高某某;无});针对得到的包含多维信息的特征向量,有助于后续根据目标词语进行解释搜索的时候,能够基于具体的目标教材对应的领域、作者撰写风格,受众群体等不同特性,来搜索匹配适应的解释,有助于提高针对目标词语进行语义解释的适应性和可靠性。
[0074]
一种是实施方式中,第二获取模块20还包括第二拍摄单元;
[0075]
第二拍摄单元用于采集目标教材中的目标词语图片,基于获取的目标词语图片进行文本识别,得到相应的目标词语。
[0076]
其中,针对目标词语的获取,也可以通过拍摄取词的方式来进行,具体拍摄取词的实现可以采用本领域现有的技术方案来实现,本技术不作具体限定。
[0077]
一种是实施方式中,索引模块30包括搜索单元和输出单元;
[0078]
搜索单元用于基于搜索引擎,根据获取的目标词语的特征向量从大数据库中搜索与该特征向量对应的语义解释信息;
[0079]
输出单元,用于根据获取的语义解释信息整理出与目标词语对应的语义解释结果。
[0080]
其中,大数据库中预先收录了不同文学作品(包括教材、期刊、论文、图书等)的基本信息和对应的文本信息,以及针对文本信息中包含重点词汇的标准解释标识;其中文学作品的文本信息包括对应不同重点词汇的索引表,其中标准解释包括该重点词汇在对应文学作品中的官方语义解释或者专家语义解释。
[0081]
搜索单元基于得到的目标词语的特征向量,从大数据库中进行搜索,搜索得到与
目标向量匹配的针对目标词语的语义解释信息(例如是根据特征向量进行搜索,得到多个关于目标词语的解释,其中多个解释按照匹配度从高到低进行排列形成予以解释信息),输出单元根据得到的语义解释信息,可以选择筛选出匹配度最高的信息,或者以列表的方式,输出对应的语义解释结果。
[0082]
一种实施方式中,针对电子版教材;第一获取模块10还包括直接从电子版教材中获取目标教材的基本信息;第二获取模块20还包括将目标教材的索引词语(关键词)作为目标词语。
[0083]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0084]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0085]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0086]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0087]
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
[0088]
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1