基于公式识别的知识点抽取方法及装置

文档序号:31515530发布日期:2022-09-14 11:55阅读:117来源:国知局
基于公式识别的知识点抽取方法及装置

1.本发明涉及计算机信息处理技术领域,尤其涉及一种基于公式识别的知识点抽取方法及装置。


背景技术:

2.数学公式在教育领域,尤其是理工类学科中占据了非常重要的地位。在题库建设、知识图谱构建以及文档数字化等应用场景中,都对公式信息的采集、处理和显示提出了一定的需求。目前比较通用的公式处理方案是将其转换为latex(一种基于tex的排版系统)格式的字符串,在便于储存、处理的同时也得到了很多渲染框架的支持。然而大部分教育资源的电子文档,如:电子书、试卷等都是通过扫描的方式获取,以图片的形式存储在计算机中。目前大部分商用ocr软件还无法很好地从中提取出公式信息,并进一步转换成latex格式。传统的公式定位都是对文档排版进行分析,但是这只能解决部分场景,对于差异性更加微小的行内公式效果较差。
3.同时因为缺少可供分析的公式数据,计算机领域对于公式的使用还比较初级,大部分情况只将其作为图片来渲染。然而公式其实是具有特定意义的,以教育领域为例,一道公式可能对应数个知识点,有时候几段话完全可以用几道公式来总结。然而目前这种类似的关联知识点主要是靠专家手工标注,人力成本较大且效率较低。


技术实现要素:

4.本发明提供一种基于公式识别的知识点抽取方法及装置,用以解决现有技术中公式中关联知识点主要是靠专家手工标注,人力成本较大且效率较低的问题。
5.本发明提供一种基于公式识别的知识点抽取方法,包括:
6.检测目标图像中的公式,以提取目标图像中的公式区域;
7.对所述公式区域及公式区域以外的文本区域采用ocr技术识别并整合,以得到所述目标图像对应的文本文档;
8.在所述文本文档的公式区域的上下文中查找与公式对应的知识点,以建立公式与知识点的关联关系。
9.根据本发明提供的一种基于公式识别的知识点抽取方法,所述检测目标图像中的公式,以提取目标图像中的公式区域,包括:
10.采用多尺度的滑动窗口对目标图像进行切分;
11.将切分的每个窗口子图输入预先训练的公式检测模型,采用非极大值预测算法过滤,得到每个所述窗口子图的准公式区域;
12.根据各窗口子图的准公式区域及像素点所在区域是否为准公式区域的统计结果,确定目标图像的公式区域。
13.根据本发明提供的一种基于公式识别的知识点抽取方法,所述对所述公式区域及公式区域以外的文本区域采用ocr技术识别并整合,以得到所述目标图像对应的文本文档,
包括:
14.采用能够唯一标识不同公式区域的标记字符覆盖目标图像中的所述公式区域,以得到文本区域;
15.采用ocr技术分别识别所述公式区域和文本区域,以得到公式字符串和文本内容;
16.根据所述标记字符对公式字符串和文本内容进行整合,得到所述文本文档。
17.根据本发明提供的一种基于公式识别的知识点抽取方法,所述根据所述标记字符对公式字符串和文本内容进行整合,得到所述文本文档,包括:
18.查找所述文本内容中的所述标记字符所在位置;
19.将与所述标记字符对应的公式字符串插入所述位置,以得到所述文本文档。
20.根据本发明提供的一种基于公式识别的知识点抽取方法,在所述文本文档的公式区域的上下文中查找与公式对应的知识点,以建立公式与知识点的关联关系,包括:
21.遍历所述文本文档,获取能够代表所述文本文档内容的文档关键词;
22.采用字符串正则匹配方式在公式的上下文中检索预定格式的语句;
23.将预定格式的语句中出现的所述文档关键词确定为对应公式的知识点;
24.建立所述知识点与公式的关联关系。
25.根据本发明提供的一种基于公式识别的知识点抽取方法,在所述文本文档的公式区域的上下文中查找与公式对应的知识点,以建立公式与知识点的关联关系,包括:
26.遍历所述文本文档,获取能够代表所述文本文档内容的文档关键词;
27.根据距离公式的远近,对出现在公式预定上下文范围内的所述文档关键词按由近及远进行排序;
28.将前n个文档关键词确定为对应公式的知识点;
29.建立所述知识点与公式的关联关系。
30.根据本发明提供的一种基于公式识别的知识点抽取方法,在建立公式与知识点的关联关系之后还包括:
31.根据知识点提取出所有关联到该知识点的公式;
32.将公式按照latex规则定义的统一标准进行修正;
33.通过公式自身的括号提取公式的多层结构及局部特征;
34.根据字符相似度、多层结构的相似度以及局部结构体计算公式的相似度得分,以得出公式属于同一知识点的判断结果,相似度得分的计算方式如下:
[0035][0036]
其中,g表示被关联到同一知识点的公式集合,sims(i,j)为计算字符相似度函数;simc(i,j)为计算多层结构相似度函数;simf(i,j)为计算局部特征相似度函数,size(g)为g中公式数量,i,j表示g中不同的公式,score
i,i∈g
表示公式i与g中其它公式的相似度得分的平均值。
[0037]
本发明还提供一种基于公式识别的知识点抽取装置,包括:
[0038]
公式检测模块,用于检测目标图像中的公式,以提取目标图像中的公式区域;
[0039]
ocr识别模块,用于对所述公式区域及公式区域以外的文本区域分别采用ocr技术识别并整合,以得到所述目标图像对应的文本文档;
[0040]
知识点查找模块,用于在所述文本文档的公式区域的上下文中查找与公式对应的知识点,以建立公式与知识点的关联关系。
[0041]
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的基于公式识别的知识点抽取方法。
[0042]
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的基于公式识别的知识点抽取方法。
[0043]
本发明提供的基于公式识别的知识点抽取方法及装置,通过检测目标图像中的公式区域,分别对文本区和公式区做识别,然后再将两部分整合成文本文档,并在所述文本文档的公式区域的上下文中查找与公式对应的知识点,自动将公式与对应的知识点相关联,从而提高了公式关联知识点的抽取效率,即使后续需要人为校准,也很大程度地降低了人力成本。
附图说明
[0044]
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0045]
图1是本发明提供的基于公式识别的知识点抽取方法的流程示意图;
[0046]
图2是本发明提供的基于公式识别的知识点抽取装置的结构示意图;
[0047]
图3是本发明提供的电子设备的结构示意图。
具体实施方式
[0048]
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0049]
本发明实施例的基于公式识别的知识点抽取方法如图1所示,包括:
[0050]
步骤s110,检测目标图像中的公式,以提取目标图像中的公式区域。目标图像只要求图像中字迹清晰,可以是电子版教材页面或试卷,也可以是网上试题的截图或纸质教材页面的扫描图像等。经过本步骤能够将目标图像中所有存在公式的区域提取出来,每个公式区域即公式所在区域的图像。
[0051]
步骤s120,对所述公式区域及公式区域以外的文本区域采用ocr技术识别并整合,以得到所述目标图像对应的文本文档。公式区域确定后,剩余的区域即为文本区域,通过ocr对这两个区域识别,从而得到目标图像对应的文本文档。
[0052]
步骤s130,在所述文本文档的公式区域的上下文中查找与公式对应的知识点,以建立公式与知识点的关联关系。将目标图像通过ocr识别成文本文档后,可以把公式作为特殊字符应用传统的文本处理方法,由于公式相关联的知识点通常都在公式的上下文中,因此可以通过在文本文档中进行上下文检索,查找到与公式相关联的知识点,以建立公式与
知识点的关联关系,从而抽取公式的知识信息。
[0053]
本实施例提供的基于公式识别的知识点抽取方法,通过检测目标图像中的公式区域,分别对文本区和公式区做识别,然后再将两部分整合成文本文档,并在所述文本文档的公式区域的上下文中查找与公式对应的知识点,自动将公式与对应的知识点相关联,从而提高了公式关联知识点的抽取效率,即使后续需要人为校准,也很大程度地降低了人力成本。本实施例的方法尤其可以用于教育领域的文本图像。
[0054]
本实施例中,步骤s110包括:
[0055]
采用多尺度的滑动窗口对目标图像进行切分。具体地,可使用800
×
800像素、1200
×
1200像素等多尺度的滑动窗口采样目标图像,每次滑动的距离为边长的1/10,窗口大小可根据图片实际大小调整,由于滑动窗口多种尺度,因此得到的窗口子图像之间会有重叠。
[0056]
将切分的每个窗口子图输入预先训练的公式检测模型,采用非极大值预测算法过滤,得到每个所述窗口子图的准公式区域,准公式区域及公式区域都是由左上角和右下角两点坐标构成的矩形区域,可以通过左上角和右下角两点坐标获取准公式区域及公式区域的图像。具体地,公式检测模型为ssd(single shot multibox detector)模型,使用手工标注的400多页包含公式位置标记的教材图像训练得到。采用该公式检测模型计算相邻候选框的iou(intersection over union),使用非极大值抑制算法过滤候选框,得到准公式区域。基于公式的特点,本实施例中,为ssd架构的默认框设置3:1以及更高的宽高比。
[0057]
根据各窗口子图的准公式区域及像素点所在区域是否为准公式区域的统计结果,确定目标图像的公式区域。因为有多个尺度的窗口,生成的窗口子图之间存在重叠,同时公式检测模型也会输出多个检测框,即多个准公式区域,多个准公式区域也会产生重叠。除了通过非极大值抑制算法过滤外,还通过像素点所在区域是否为准公式区域的统计结果来对准公式区域进行优化,具体地,统计像素点所在的区域在不同的窗口子图中被认为是准公式区域的次数,当次数超过预设次数阈值(如:30),就将该像素点保留,最后被保留的像素会被修正为一个矩形形状的公式区域,从而确定目标图像的公式区域。
[0058]
确定的目标图像的公式区域可能会出现公式区域较小,区域边缘穿过了公式中的字符;或公式区域较大,区域边缘离公式中的字符间隔过大,甚至可能有的一些重叠、包裹的问题,因此,需要对公式区域进行微调。具体地,微调步骤包括:
[0059]
根据字符的连通性,外扩或收缩所述公式区域,即公式区域边缘穿过了公式中的字符时外扩公式区域,外扩至离被穿过字符最近的空白处,公式区域边缘离公式中的字符间隔过大时收缩公式区域。
[0060]
在公式区域内大于空白阈值的空白处拆分公式区域,或在相邻文本行上合并相邻的公式区域,从而得到更准确的公式区域。
[0061]
例如:理工类学科中可能出现两段公式中间仅有少量的文字分隔,即文字没有贯穿整行,公式一般居中排版,上下两个公式之间会出现空白,此时,公式检测模型可能只能检测出一个公式区域,可通过判断中间相比于一般多行公式更大的行间距将其拆分成两个公式区域。
[0062]
空白阈值分为行间空白阈值和行内空白阈值,分别取多大的空白阈值也是根据实际情况来调整的,需要考虑文档多行公式以及文字的行间距等情况。以通常使用的教材为例,一般的多行公式行间距为25个像素以内,一行文字为35个像素的高度,那么行间空白阈
值可以在30~55之间选择,比如40。同一行中的字符间距则需要小于公式与条件之间的距离,通常为80个像素,那么行内空白阈值可以取90像素,以免错误地将公式和其条件分成两个公式区域。
[0063]
本实施例中,步骤s120包括:
[0064]
采用能够唯一标识不同公式区域的标记字符覆盖目标图像中的所述公式区域,以得到文本区域。本步骤中,根据公式检测结果实现对公式区域和文本区域的分离,在提取公式区域之后,还需在目标图像上做覆盖处理,以便于后续两部分内容的整合,需要在公式区域打上标记。对于标记字符的要求如下:
[0065]
1)能够被文本ocr软件成功识别;
[0066]
2)不会与目标图像中的字符产生混淆;
[0067]
3)能够与公式区域一一对应。
[0068]
例如:选择使用“$数字$”格式来做标记字符,一般文档中很少出现“$数字$”样式的文段,中间的编号为公式区域的唯一标识符。合并时可通过正则表达式快速检索“$数字$”字样文段,从而得出公式应该插入的位置。
[0069]
采用ocr技术分别识别所述公式区域和文本区域,以得到公式字符串和文本内容,公式字符串符合latex格式。
[0070]
根据所述标记字符对公式字符串和文本内容进行整合,得到所述文本文档。具体地,查找所述文本内容中的所述标记字符所在位置;将与所述标记字符对应的公式字符串插入所述位置,以得到所述文本文档。
[0071]
本实施例中,实现了公式区域和文本区域的分离,可以分别对其使用ocr技术识别,相比于对原始图像做整体识别,可以对不同的区域选用与之相适应的识别率更高的方案,由此提高了整体的识别率。
[0072]
本实施例中,步骤s130可以采用以下两种方式实现:
[0073]
方式一,步骤s130包括:
[0074]
遍历所述文本文档,获取能够代表所述文本文档内容的文档关键词,具体可采用tf-idf(term frequency

inverse document frequency,词频-逆文本频率指数)、ner(named entity recognition,命名实体识别)等方法获取文档关键词,也可以导入预先手工获取的知识库。tf-idf、ner是根据词频、词性自动化提取关键词作为知识点候选,可以在此基础上人为地去噪、筛选出知识点。手工获取的知识库是从其它现有的知识库中得到该学科涉及的关键词,手工获取则主要是通过章节名、ppt、大纲等材料中去手工提取关键词。
[0075]
采用字符串正则匹配方式在公式的上下文中检索预定格式的语句,预定格式的语句可以是“xx的定义为”、“xx,即”等格式的语句,其中,“xx”就可能指代公式的具体含义或相关的知识点。本实施例使用的正则表达式为“key+'[的是定义为::]*$|'+key+'[,,]即为?[::]?$'”,其中“key”即为知识点,该正则表达式能够匹配大部分潜在关联句式,同时又不会产生太多干扰项。
[0076]
将预定格式的语句中出现的所述文档关键词确定为对应公式的知识点。
[0077]
建立所述知识点与公式的关联关系。
[0078]
方式二,步骤s130包括:
[0079]
遍历所述文本文档,获取能够代表所述文本文档内容的文档关键词,具体可采用
tf-idf、ner等方法获取文档关键词,也可以导入预先手工获取的知识库。
[0080]
根据距离公式的远近,对出现在公式预定上下文范围内的所述文档关键词按由近及远进行排序,为一个公式关联多个关键词,与公式距离更近的关键词更高概率具有相关性,因此排在更前面。其中,距离公式的远近可以理解为:在公式的上下文中,与公式在同一行为离公式最近,离公式越近的行,距离公式越近。
[0081]
将前n个文档关键词确定为对应公式的知识点,例如:n取值1~3;
[0082]
建立所述知识点与公式的关联关系。
[0083]
对某些领域,公式与关键词呈现一对多的关系,使用多个关键词对公式进行限定可以有效提高公式表达的正确性以及检索成功率,也可以减少噪声的干扰。
[0084]
上述方式一准确性更高,容易找出一些有明确定义的知识点,但是数量较少,要受句式、正则表达式的限制。方式二理论上可以一个公式关联多个关键词,实际上很多公式确实涉及到多个知识点,关联多个关键词也能一定程度上减少噪声的影响。但是目前应用时主要考虑公式-知识点的一对一准确关联,所以会在人工校验后只保留一个知识点,相对于方式一,方式二的优点是得到的候选知识点较多,操作简单。
[0085]
由于主要考虑公式-知识点的一对一准确关联以及保证关联关系的准确度,上述两种方式在建立公式和知识点的关联关系后都需要人工校验,尤其是方式二,但相对于现有技术中公式关联知识点主要是靠专家手工标注的方式,也在很大程度上减轻了人力成本且提高了效率。
[0086]
方式二中,通过判断距离为公式关联知识点,除了手工获取的知识库本身可能具有的错误以外,也很可能因为错误关联而引入噪声。在进行人工校验之前,可通过自动化的方法进行初步筛选,从而进一步降低人力成本,提高效率。自动筛选的核心思想是让关联了同一个知识点的所有公式互相进行比较,保留共性,筛除差异性较大的公式。一个公式的定义和实际使用的形式会有较大的字符差异,它们的latex字符也不唯一,因此单纯的字符串匹配结果并不能很好的体现它们之间的关联程度。在此基础上对方式二进行了优化,在上述方式二建立所述知识点与公式的关联关系之后还包括:
[0087]
根据知识点提取出所有关联到该知识点的公式。
[0088]
将公式按照latex规则定义的统一标准进行修正。修正包括:1、删去用于定义字体、字宽的修饰符,例如:“\mathrm{}”。2、统一字符的形式,删掉空格,例如:括号统一不加“\left”修饰,cos这类latex有定义的字符统一为’\cos’。
[0089]
因为公式在实际使用中会代入具体的值导致字符间的差异,但是它们在整体上应该具备相似的结构。因此,还需提取公式的结构信息,具体通过公式自身的括号得到其多层结构和局部特征,其中,最外面的一层即为整体结构,最内层括号中的结构体作为局部特征。例如:公式该公式的整体结构为:局部特征包含:t、2πfct,该公式只有一层结构。
[0090]
根据字符相似度、多层结构的相似度以及局部结构体计算公式的相似度得分,以得出公式属于同一知识点的判断结果,相似度得分的计算方式如下:
[0091][0092]
其中,g表示被关联到同一知识点的公式集合,sims(i,j)为计算字符相似度函数;
simc(i,j)为计算多层结构相似度函数;simf(i,j)为计算局部特征相似度函数,size(g)为g中公式数量,i,j表示g中不同的公式,score
i,i∈g
表示公式i与g中其它公式的相似度得分的平均值。
[0093]
本实施例中,对于同一个知识点关联的多个公式中,每个公式都会跟其它所有公式进行比较,统计结果平均后会得到一个分数。最后根据这个分数进行排序,得分超过0.5就有很大概率是正确关联的公式,在此得分的基础上再做人工校验,对得分小于0.5的公式重点校验,能够进一步降低人力成本。
[0094]
实际运用中,目标图像中包含多个公式,并不是每个公式的上下文都有预定格式的语句,因此,先通过方式一为部分知识点与公式建立关联,然后剩下的公式再通过方式二与未关联的知识点建立关联作为补充。具体地,步骤s130包括:
[0095]
遍历所述文本文档,获取能够代表所述文本文档内容的文档关键词,具体可采用tf-idf、ner等方法获取文档关键词,也可以导入预先手工获取的知识库。
[0096]
采用字符串正则匹配方式在公式的上下文中检索预定格式的语句,预定格式的语句可以是“xx的定义为”、“xx,即”等格式的语句,其中,“xx”就可能指代公式的具体含义或相关的知识点。本实施例使用的正则表达式为“key+'[的是定义为::]*$|'+key+'[,,]即为?[::]?$'”,其中“key”即为知识点,该正则表达式能够匹配大部分潜在关联句式,同时又不会产生太多干扰项。
[0097]
将预定格式的语句中出现的所述文档关键词确定为对应公式的知识点。
[0098]
对于未查找到知识点的公式,根据距离公式的远近,对出现在公式预定上下文范围内的所述文档关键词进行排序;
[0099]
将前n个文档关键词确定为对应公式的知识点,n取值1~3;
[0100]
建立所述知识点与公式的关联关系。
[0101]
上述方式一、方式二以及方式一和方式二结合的方案中,手工去噪,对采集到的公式的关联数据(该关联数据即为上述方式一、方式二或两者结合自动采集的带有噪声的知识点)进行手工去噪,得到公式知识关联的步骤如下:
[0102]
数据读取与公式显示,从excel表格中读取上述步骤采集的公式关联数据,将公式和知识点显示在界面中,同时实现对latex格式公式的实时渲染,方便操作员判断数据的正确性。
[0103]
数据修改,可分别修改公式、知识点的内容,或者增加、删除数据。
[0104]
数据保存,将修改后的结果导出到一个excel表格中,得到校验后的公式、知识点关联结果。
[0105]
下面对本发明提供的基于公式识别的知识点抽取装置进行描述,下文描述的基于公式识别的知识点抽取装置与上文描述的基于公式识别的知识点抽取方法可相互对应参照。
[0106]
如图2所示,本发明的基于公式识别的知识点抽取装置包括:
[0107]
公式检测模块210,用于检测目标图像中的公式,以提取目标图像中的公式区域。
[0108]
ocr识别模块220,用于对所述公式区域及公式区域以外的文本区域分别采用ocr技术识别并整合,以得到所述目标图像对应的文本文档。
[0109]
知识点查找模块230,用于在所述文本文档的公式区域的上下文中查找与公式对
应的知识点,以建立公式与知识点的关联关系。
[0110]
本发明提供的基于公式识别的知识点抽取装置,通过检测目标图像中的公式区域,分别对文本区和公式区做识别,然后再将两部分整合成文本文档,并在所述文本文档的公式区域的上下文中查找与公式对应的知识点,自动将公式与对应的知识点相关联,从而提高了公式关联知识点的抽取效率,即使后续需要人为校准,也很大程度地降低了人力成本。本实施例的方法尤其可以用于教育领域的文本图像。
[0111]
可选地,公式检测模块210包括:
[0112]
图像切分模块,用于采用多尺度的滑动窗口对目标图像进行切分。
[0113]
公式检测模块,用于将切分的每个窗口子图输入预先训练的公式检测模型,采用非极大值预测算法过滤,得到每个所述窗口子图的准公式区域。
[0114]
公式区域确定模块,用于根据各窗口子图的准公式区域及像素点所在区域是否为准公式区域的统计结果,确定目标图像的公式区域。
[0115]
可选地,ocr识别模块220包括:
[0116]
公式区域覆盖模块,用于采用能够唯一标识不同公式区域的标记字符覆盖目标图像中的所述公式区域,以得到文本区域。
[0117]
分区域识别模块,用于采用ocr技术分别识别所述公式区域和文本区域,以得到公式字符串和文本内容。
[0118]
文档整合模块,用于根据所述标记字符对公式字符串和文本内容进行整合,得到所述文本文档。
[0119]
其中,文档整合模块具体用于:查找所述文本内容中的所述标记字符所在位置;将与所述标记字符对应的公式字符串插入所述位置,以得到所述文本文档。
[0120]
可选地,知识点查找模块230包括:
[0121]
文档关键词获取模块,用于遍历所述文本文档,获取能够代表所述文本文档内容的文档关键词。
[0122]
预定格式语句检索模块,用于采用字符串正则匹配方式在公式的上下文中检索预定格式的语句。
[0123]
知识点确定模块,用于将预定格式的语句中出现的所述文档关键词确定为对应公式的知识点。
[0124]
关联关系建立模块,用于建立所述知识点与公式的关联关系。
[0125]
可选地,知识点查找模块230包括:
[0126]
文档关键词获取模块,用于遍历所述文本文档,获取能够代表所述文本文档内容的文档关键词。
[0127]
文档关键词排序模块,用于根据距离公式的远近,对出现在公式预定上下文范围内的所述文档关键词按由近及远进行排序。
[0128]
知识点确定模块,用于将前n个文档关键词确定为对应公式的知识点。
[0129]
关联关系建立模块,用于建立所述知识点与公式的关联关系。
[0130]
可选地,知识点查找模块230还包括:
[0131]
关联公式提取模块,用于根据知识点提取出所有关联到该知识点的公式。
[0132]
公式修正模块,用于将公式按照latex规则定义的统一标准进行修正。
[0133]
公式结构提取模块,用于通过公式自身的括号提取公式的多层结构及局部特征。
[0134]
相似度计算模块,用于根据字符相似度、多层结构的相似度以及局部结构体计算公式的相似度得分,以得出公式属于同一知识点的判断结果,相似度得分的计算方式如下:
[0135][0136]
其中,g表示被关联到同一知识点的公式集合,sims(i,j)为计算字符相似度函数;simc(i,j)为计算多层结构相似度函数;simf(i,j)为计算结构体(即:局部特征)相似度函数,size(g)为g中公式数量,i,j表示g中不同的公式,score
i,i∈g
表示公式i与g中其它公式的相似度得分的平均值。
[0137]
图3示例了一种电子设备的实体结构示意图,该电子设备可以包括:处理器(processor)310、通信接口(communications interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行基于公式识别的知识点抽取方法,该方法包括:
[0138]
检测目标图像中的公式,以提取目标图像中的公式区域;
[0139]
对所述公式区域及公式区域以外的文本区域采用ocr技术识别并整合,以得到所述目标图像对应的文本文档;
[0140]
在所述文本文档的公式区域的上下文中查找与公式对应的知识点,以建立公式与知识点的关联关系。
[0141]
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0142]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的基于公式识别的知识点抽取方法,该方法包括:
[0143]
检测目标图像中的公式,以提取目标图像中的公式区域;
[0144]
对所述公式区域及公式区域以外的文本区域采用ocr技术识别并整合,以得到所述目标图像对应的文本文档;
[0145]
在所述文本文档的公式区域的上下文中查找与公式对应的知识点,以建立公式与知识点的关联关系。
[0146]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的基于公式识别的知识点抽取方法,该方法包括:
[0147]
检测目标图像中的公式,以提取目标图像中的公式区域;
[0148]
对所述公式区域及公式区域以外的文本区域采用ocr技术识别并整合,以得到所述目标图像对应的文本文档;
[0149]
在所述文本文档的公式区域的上下文中查找与公式对应的知识点,以建立公式与知识点的关联关系。
[0150]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0151]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0152]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1