本技术涉及商品信息提取,尤其是涉及一种基于表格的关键信息提取方法及装置。
背景技术:
1、在仓储人员采购商品时,一般需要先以表格的格式批量导入商品信息,提取表格中的关键信息,以便实现后续的商品检索和配型。
2、目前,用户一般无法规范化填写表格中的区分型号、订货号、商品名称、关键属性等信息,导致提供的信息非常模糊,难以有效区分,再者,市面上大多数识别表格的表头是基于规则,即通过不同字符排列组合推断表头的类型,这种方式的弊端如下:
3、1)如果出现新增类型,需要重新定义规则;
4、2)在规则多的情况下,新旧规则之间容易产生冲突,进而影响表格的识别精度;
5、3)若用户出现部分错别字,则无法识别表格的表头类型,容错效果较差;
6、4)中文是多语义的,针对于不同的用户,同一表格的表头类型可用多个词语表达,较难识别出不同表述方式所对应的实际语义。
7、针对上述中的相关技术,发明人发现现有的表格关键信息提取方法存在有适用性和容错性较差,难以准确从表格中提取到所需商品的关键信息的问题。
技术实现思路
1、为了改善表格关键信息提取时的适用性和容错性,提高从表格中提取所需商品的关键信息的准确率,本技术提供了一种基于表格的关键信息提取方法及装置。
2、第一方面,本技术提供一种基于表格的关键信息提取方法。
3、本技术是通过以下技术方案得以实现的:
4、一种基于表格的关键信息提取方法,包括以下步骤,
5、获取表格文件;
6、采用训练好的朴素贝叶斯算法模型对表格里的每项表头的文字进行识别,确定每项表头对应的表头类型,其中,同一表头类型采用至少两种词语表达;
7、基于所述表头类型,获取每项表头类型对应的商品信息;
8、根据所述商品信息,进行分词转换处理,确定目标词组;
9、按照所述目标词组,结合预设的数据库关系,确定所述目标词组对应的词性;
10、基于商品知识图谱中的产品关键词、分类和属性组成的关系链路,结合所述词性,提取关键信息。
11、本技术在一较佳示例中可以进一步配置为:所述朴素贝叶斯算法模型的训练步骤包括,
12、对采集的表格文件进行预处理,得到初始数据集,所述初始数据集包括所有订单的表头名称;
13、采用字典树对所述初始数据集进行分词;
14、根据划分结果确定划分数据集;
15、基于朴素贝叶斯算法,加载参数,输入所述划分数据集进行模型训练,输出商品名称、型号、品牌、包装和数量信息;
16、当模型的训练精度达到预设要求时,获得所述朴素贝叶斯算法模型。
17、本技术在一较佳示例中可以进一步配置为:所述根据所述商品信息,进行分词转换处理,确定目标词组的步骤包括,
18、基于型号对所述商品信息进行模糊匹配,若模糊匹配成功,得到匹配结果;
19、若型号的模糊匹配失败,则对型号进行截断匹配,若截断匹配成功,则得到匹配结果;
20、针对所述匹配结果,先判断是否包含属性词;
21、若存在属性词,再进行分词转换处理得到分词词组,采用字典树分词法对所述分词词组进行提取,得到目标词组。
22、本技术在一较佳示例中可以进一步配置为:按照所述目标词组,结合预设的数据库关系,确定所述目标词组对应的词性的步骤包括,
23、根据预设的数据库关系,映射确定提取的所述目标词组对应的理论词性;
24、将所述理论词性与数据库中的商品属性进行匹配,查询所述理论词性的同义词,得到含有多个词性的多个词组;
25、基于用户历史输入数据的统计结果对所述词组的词性进行概率预测,选取概率最大的所述词性作为所述目标词组对应的词性。
26、本技术在一较佳示例中可以进一步配置为:所述对采集的表格文件进行预处理的步骤包括,
27、在所述表格文件中进行商品最小出库单位的sku匹配,得到sku号;
28、基于所述sku号,进行商品类别匹配,得到商品类别;
29、根据所述商品类别,进行商品品牌匹配,得到商品品牌;
30、对所述商品品牌执行规则匹配,得到初始数据集。
31、本技术在一较佳示例中可以进一步配置为:所述表格文件还包括实时获取的用户纠正目标时产生的表格样本数据。
32、本技术在一较佳示例中可以进一步配置为:所述若存在属性词,再进行分词转换处理得到分词词组的步骤包括,
33、基于所述匹配结果进行字符归一化,得到第一词组;
34、对所述第一词组进行词语拆分,得到第二词组;
35、根据所述第二词组进行词性选举,得到所述分词词组。
36、本技术在一较佳示例中可以进一步配置为:还包括以下步骤,
37、若截断匹配失败,则将所述商品信息划分至不可分词组,并监测所述商品信息的用户点击量;
38、若所述商品信息的用户点击量达到预设阈值,将所述商品信息从所述不可分词组中间剔除,并重新进行模糊匹配。
39、本技术在一较佳示例中可以进一步配置为:所述商品知识图谱的创建步骤包括,
40、获取的订单数据,汇聚至数据仓库里;
41、对所述数据仓库的所述订单数据的所有商品相关词汇采用字典分词法进行分词;
42、使用深度学习模型对所述分词的所有词组进行学习,得到包含由产品关键词、分类和属性形成关系链路,以及不同的商品之间的关联关系的商品知识图谱。
43、第二方面,本技术提供一种基于表格的关键信息提取装置。
44、本技术是通过以下技术方案得以实现的:
45、一种基于表格的关键信息提取装置,包括,
46、表格文件获取模块,用于获取表格文件;
47、表头类型识别模块,用于采用训练好的朴素贝叶斯算法模型对表格里的每项表头的文字进行识别,确定每项表头对应的表头类型,其中,同一表头类型采用至少两种词语表达;
48、商品信息获取模块,用于基于所述表头类型,获取每项表头类型对应的商品信息;
49、分词处理模块,用于根据所述商品信息,进行分词转换处理,确定目标词组;
50、词性确定模块,用于按照所述目标词组,结合预设的数据库关系,确定所述目标词组对应的词性;
51、关键信息提取模块,用于基于商品知识图谱中的产品关键词、分类和属性组成的关系链路,结合所述词性,提取关键信息。
52、本技术在一较佳示例中可以进一步配置为:所述表头类型识别模块包括,
53、初始数据集子模块,用于对采集的表格文件进行预处理,得到初始数据集,所述初始数据集包括所有订单的表头名称;
54、划分数据集子模块,用于采用字典树对所述初始数据集进行分词,得到划分数据集;
55、训练子模块,用于基于朴素贝叶斯算法,加载参数,输入所述划分数据集进行模型训练,输出商品名称、型号、品牌、包装和数量信息;
56、模型子模块,用于当模型的训练精度达到预设要求时,获得所述朴素贝叶斯算法模型。
57、本技术在一较佳示例中可以进一步配置为:所述分词处理模块包括,
58、模糊匹配子模块,用于基于型号对所述商品信息进行模糊匹配,若模糊匹配成功,得到匹配结果;
59、截断匹配子模块,用于在型号的模糊匹配失败时,对型号进行截断匹配,若截断匹配成功,则得到匹配结果;
60、属性词子模块,用于针对所述匹配结果,先判断是否包含属性词;
61、目标词组子模块,用于在存在属性词时,再进行分词转换处理得到分词词组,采用字典树分词法对所述分词词组进行提取,得到目标词组。
62、本技术在一较佳示例中可以进一步配置为:所述词性确定模块包括,
63、理论词性单元,用于根据预设的数据库关系,映射确定提取的所述目标词组对应的理论词性;
64、同义词单元,用于将所述理论词性与数据库中的商品属性进行匹配,查询所述理论词性的同义词,得到含有多个词性的多个词组;
65、词性确定单元,用于基于用户历史输入数据的统计结果对所述词组的词性进行概率预测,选取概率最大的所述词性作为所述目标词组对应的词性。
66、本技术在一较佳示例中可以进一步配置为:所述初始数据集子模块包括,
67、sku单元,用于在所述表格文件中进行商品最小出库单位的sku匹配,得到sku号;
68、商品类别单元,用于基于所述sku号,进行商品类别匹配,得到商品类别;
69、商品品牌单元,用于根据所述商品类别,进行商品品牌匹配,得到商品品牌;
70、规则匹配单元,用于对所述商品品牌执行规则匹配,得到初始数据集。
71、本技术在一较佳示例中可以进一步配置为:所述表格文件获取模块包括,
72、实时表格样本数据单元,用于实时获取用户纠正目标时产生的表格样本数据。
73、本技术在一较佳示例中可以进一步配置为:所述目标词组子模块包括,
74、归一化单元,用于基于所述匹配结果进行字符归一化,得到第一词组;
75、词语拆分单元,用于对所述第一词组进行词语拆分,得到第二词组;
76、词性选举单元,用于根据所述第二词组进行词性选举,得到所述分词词组。
77、本技术在一较佳示例中可以进一步配置为:所述分词处理模块还包括,
78、不可分词组子模块,用于在截断匹配失败时,将所述商品信息划分至不可分词组,并监测所述商品信息的用户点击量;
79、剔除子模块,用于在所述商品信息的用户点击量达到预设阈值时,将所述商品信息从所述不可分词组中间剔除,并重新进行模糊匹配。
80、本技术在一较佳示例中可以进一步配置为:所述关键信息提取模块包括,
81、订单数据单元,用于获取的订单数据,汇聚至数据仓库里;
82、字典分词单元,用于对所述数据仓库的所述订单数据的所有商品相关词汇采用字典分词法进行分词;
83、商品知识图谱单元,用于使用深度学习模型对所述分词的所有词组进行学习,得到包含由产品关键词、分类和属性形成关系链路,以及不同的商品之间的关联关系的商品知识图谱。
84、第三方面,本技术提供一种计算机设备。
85、本技术是通过以下技术方案得以实现的:
86、一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意一种基于表格的关键信息提取方法的步骤。
87、第四方面,本技术提供一种计算机可读存储介质。
88、本技术是通过以下技术方案得以实现的:
89、一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一种基于表格的关键信息提取方法的步骤。
90、综上所述,与现有技术相比,本技术提供的技术方案带来的有益效果至少包括:
91、获取表格文件,采用训练好的朴素贝叶斯算法模型对表格里的每项表头的文字进行识别,确定每项表头对应的表头类型,其中,同一表头类型采用至少两种词语表达,使未来输入相似词语也可以实现智能识别,即可以识别同一表头类型的不同词语表达,相比于其他语义识别算法的分类效果更精准,且通过把已知数据收集起来用于进行监督学习训练,通过训练可以把多种规则更精细化区分,能够提高表格关键信息提取时的适用性;基于表头类型,获取每项表头类型对应的商品信息;根据商品信息,进行分词转换处理,确定目标词组,以通过分词转换处理滤除重复的词语,减少关键信息提取时的干扰因子,达到初步降噪效果;按照目标词组,结合预设的数据库关系,确定目标词组对应的词性,以预测目标词组的所有可能词性;基于商品知识图谱中的产品关键词、分类和属性组成的关系链路,结合词性,提取关键信息,以过滤不在任何关系链路中存在的词语,从表头对应的文字内容里去除不相干的词语,得到高度相关的关键词,达到二次降噪效果,进而改善了表格关键信息提取时的容错性,提高了从表格中提取所需商品关键信息的准确率。