1.本发明涉及互联网技术领域,具体为一种具有物料清单标准化方法、物料清单标准化装置及计算机可读存储介质。
背景技术:2.在工业生产领域,mro是英文maintenance,repair,operations三个单词的缩写,通常指非生产原料性质的工业用品,包括工厂或企业对其生产和工作的设施设备进行保养和维修的备品备件、以及维持正常运行的工具耗材等。相比于常规的生产原料等,mro具有涉及范围广、品类繁杂、型号和规格众多、采购需求分散、部分可替代性等特点。尤其是品类和型号的繁杂,并且暂时没有大众向认可的统一标准,各方对同一种mro的描述方式不尽相同使得需求方和供给方在商品的选型和采购过程中产生了大量隐性成本。
3.bom(bill of material,物料清单),指一个项目或产品所需要的所有零部件/材料的清单。在mro的选型和采购过程中,物料清单通常是由设计、采购或现场作业人员根据实际需求罗列的商品清单,并且包含品名、品牌、型号、物料号、规格、数量、价格等信息。需求方提供物料清单后,供给方根据相关信息对商品进行多轮选型和报价,最终完成订购。但是在实际操作中,由于各个需求方和供给方mro的描述方式和物料清单的组织格式等均无法统一,供给方需要人工从各个需求方提供的不同种类不同形式的物料清单中抽取所需的品名、品牌、型号、物料号、规格、数量、价格等命名实体,手动整理成符合供给方预设的标准化的物料清单,才能进一步选型和报价。上述问题制约了物料清单选型和报价的效率和自动化,还会消耗大量人力物力,是本领域技术人员需要重点关注的。
4.因此,亟待一种技术方案,能够不受mro的描述方式和物料清单的组织格式等形式上的限制,智能地将物料清单标准化,提高物料清单整理和选型的效率。
技术实现要素:5.针对以上问题,本发明提供了一种物料清单标准化方法,能够智能地根据原始物料清单表格,生成内容清晰准确、格式标准统一的物料清单,在提高物料清单选型和报价的效率同时,还能够节省大量的人工成本。
6.本发明提供的一种物料清单标准化方法,包括:
7.单元格抽取步骤:遍历物料清单的全部单元格,抽取各个单元格中的实体,并确定每个实体对应于多个实体类别的实体评分;
8.表格列评分步骤:根据从每个表格列的单元格中抽取的实体的实体评分,计算每个表格列对应于多个实体类别的表格列评分;
9.单元格评分步骤:根据单元格所在的表格列的表格列评分,修改该单元格内各实体对应于多个实体类别的实体评分;
10.表格行排序步骤:根据每个表格行中各个实体类别的实体评分的排序结果,确定该表格行与该实体类别对应的实体结果;
11.表格行汇总步骤:将物料清单中的所有表格行的实体结果进行汇总,生成标准化的物料清单。
12.通过上述的步骤,本发明的技术方案中提供的物料清单标准化方法,首先将物料清单中的实体抽出,将物料清单中物料的判别具体到每一个实体上,确定每个实体对应于多个实体类别的实体评分;因为每个表格列中的全部单元格对应的实体类别大概率是相同的,根据表格列的对应于多个实体类别的评分进行评分修正,能够使得评分更加客观准确,作为判断实体的标准也更加可靠;然后又因为物料清单中每一表格行均为一种具体的物料,根据评分排序得到每一表格行分别与各个实体类别对应的实体结果以得出具体物料;最后,将得到的物料按照指定的形式进行汇总,得到标准化的物料清单。从而,无论原始的物料清单为何种形式包括何种内容,本发明提供的方法均能够智能便捷地将其他形式种类清单转化为用户所需的形式即标准化的物料清单,大大方便了物料资料的整理、选型和报价等工作,并且节省了相应的人力资源。
13.具体而言,在本发明的较优技术方案中,物料清单标准化方法的单元格抽取步骤,实体基于实体词典的实体查询或者基于分类模型的实体预测抽取得到。物料清单标准化方法基于分辨出的实体判断物料,而实体词典中能够囊括用户预先定义的全部词汇以及相应的实体类别和评分以供与物料清单中得到的实体对照;而基于分类模型的实体预测能够进一步地囊括算法计算出的相应形式的实体,以保证准确地分别出各种实体,提高整体物料清单标准化方法计算的准确性。
14.优选地,本发明的技术方案中提供的物料清单标准化方法,还包括词典生成步骤,基于对商品知识图谱、商品详情页面或者网站搜索日志的离线挖掘,构建实体词典。
15.上述步骤基于物料的交易、应用、查询等各种层面的实际应用,来挖掘实体词汇并构建实体词典,能够尽可能地囊括行业中各方各面对物料的表达和描述方式,使得实体词典的囊括范围尽可能地全面和深入,避免误判或漏判实体,确保无论用户使用何种形式描述介绍物料,该物料均能被准确识别。
16.具体地,在本发明的较优技术方案中,物料清单标准化方法采用的实体词典中的实体为品名、品牌、型号、物料号、规格、数量、价格中的一种或多种,每个实体对应记录有词性、热度、逆文档频率、实体类别中的一种或多种项目。判别具体物料及物料的报价的依据主要依靠上述的品名、品牌、型号、物料号、规格、数量、价格等元素,因此在实体抽取中就需要准确的将上述元素分别的抓取出来,以供后续的计算判别。而每个实体关联记录的实体类别数据能够协助判断该实体为上述的哪一类实体,而词性、热度、逆文档频率等数据则是计算评分的依据。
17.优选地,本发明的技术方案中提供的物料清单标准化方法在表格列评分步骤中,在计算每个表格列对应于多个实体类别的表格列评分时,每个表格列中首行单元格的实体评分权重高于其他行单元格的实体评分权重。首行单元格通常为整个物料清单的表头,很可能会直接写出每一表格列的实体类别,如品名、品牌、型号、物料号、规格、数量、价格等,将首行单元格的实体评分权重设为最高能够有效地提高每个表格列对应于实体类别进行的实体评分判别计算的效率和准确率。
18.进一步地,本发明的技术方案中提供的物料清单标准化方法在单元格评分步骤中,以单元格所在的表格列的所述表格列评分乘以该单元格内各实体对应于实体类别的实
体评分的方式,修改各实体的实体评分。对每个单元格内的每个实体对应于实体类别进行的实体评分,由于是对单一实体词汇的判断有一定的偶然性。而每个表格列对应于实体类别进行的实体评分判别计算是基于整列数据综合计算的,较为权威准确,将二者相乘既能够在对每个实体进行独立判断的同时,减少偶然带来的误差,提高每个实体对应于实体类别进行的实体评分的准确性。
19.优选地,在本发明的技术方案中,上述的物料清单标准化方法生成的标准化的物料清单中还包括根据实体结果的实体评分计算得到的相似度数据。尤其在实体的评分没有达到阈值,无法准确地对应到具体的某种物料上时,相似度数据能够作为用户进行进一步分析筛选的重要依据。
20.优选地,本发明的技术方案中提供的物料清单标准化方法在表格行排序步骤中,若表格行中一实体的一实体类别的实体评分为表格行中所有实体的该实体类别的实体评分最高者,并且,该实体评分高于阈值,则将该实体作为该表格行的与该实体类别对应的实体结果。
21.具体而言,若某一表格行的所有单元格中共抽出了5个实体,例如分别为实体a、实体b、实体c、实体d、实体e,其中型号评分最高的为实体a,9分,且9分大于预设的阈值,则认为该表格行中的实体的型号为实体c。
22.在本发明的技术方案中还提供了一种物料清单标准化装置,集体包括:一个或多个处理器;和存储器,存储器存储被配置为由一个或多个处理器执行的一个或多个程序,一个或多个程序包括用于执行以下操作的指令:单元格抽取步骤:遍历物料清单的全部单元格,抽取各个单元格中的实体,并确定每个实体对应于多个实体类别的实体评分;表格列评分步骤:根据从每个表格列的单元格中抽取的实体的实体评分,计算每个表格列对应于多个实体类别的表格列评分;单元格评分步骤:根据单元格所在的表格列的表格列评分,修改该单元格内各实体对应于多个实体类别的实体评分;表格行排序步骤:根据每个表格行中各个实体类别的实体评分的排序结果,确定该表格行与该实体类别对应的实体结果;表格行汇总步骤:将物料清单中的所有表格行的实体结果进行汇总,生成标准化的物料清单。
23.本发明提供的物料清单标准化装置能够自动根据原始物料清单表格,生成内容清晰准确、格式标准统一的物料清单,提高了物料清单选型和报价的效率,同时还节省了大量的人工成本。
24.在本发明的技术方案中,还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时能够实现上述的物料清单标准化方法的步骤。
附图说明
25.图1是本发明的实施方式中提供的一种物料清单标准化方法的示意图;
26.图2是本发明的实施方式中提供的另一种物料清单标准化方法的示意图;
27.图3是本发明的实施方式中提供的一种物料清单标准化装置的示意图。
28.附图标记:1-物料清单标准化装置,2-处理器,3-存储器。
具体实施方式
29.下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
30.如图1所示,本发明的实施方式中提供了一种物料清单标准化方法,其特征在于,包括:单元格抽取步骤:遍历物料清单的全部单元格,抽取各个单元格中的实体,并确定每个实体对应于多个实体类别的实体评分;表格列评分步骤:根据从每个表格列的单元格中抽取的实体的实体评分,计算每个表格列对应于多个实体类别的表格列评分;单元格评分步骤:根据单元格所在的表格列的表格列评分,修改该单元格内各实体对应于多个实体类别的实体评分;表格行排序步骤:根据每个表格行中各个实体类别的实体评分的排序结果,确定该表格行与该实体类别对应的实体结果;表格行汇总步骤:将物料清单中的所有表格行的实体结果进行汇总,生成标准化的物料清单。
31.下面对于各个步骤进行详细说明。
32.首先,单元格抽取步骤具体包括抽取各个单元格中的实体,以获得需要进行进一步判别的词汇。在提取各个单元格中的实体之前,第一步要对单元格中的内容进行切分。考虑到文本切分的质量直接影响了实体的抽取质量,而mro场景下存在大量行业专有名词和习惯用法,同时物料清单中还有型号、物料号、参数组合等需要抽取的实体,本实施方式中优选地使用crf中文分词和规则修正方法等进行切分。
33.其中,crf中文分词指的是条件随机场(conditional random field),为一种机器学习技术。在本实施方式中,crf中文分词是人工标注训练语料、针对mro垂直领域开发的分词模型,同时内置了包含大量行业专有名词和习惯用法的自定义词典。规则修正则基于一些约定俗成的mro行业背景知识进行了规则设计,以处理和修复一些特殊情景,如“m6*10”指代的是“螺纹直径6,长度10”,“gb/t 5782-2016”指代的是国家标准号,这两段文本都不应该被切分。
34.在完成了分词和实体抽取步骤之后,接着就要确定每个实体对应于多个实体类别的实体评分。因为,一个实体可能属于多个实体类别,因此要从多个实体类别的角度对该实体进行打分。例如:“齿轮”既对应一个品名,即“传递运动和动力的机械零件”,同时又对应一个品牌,即生产实验室玻璃容器的厂商。
35.其次,表格列评分步骤中,根据从每个表格列的单元格中抽取的实体的实体评分,计算每个表格列对应于多个实体类别的表格列评分;
36.具体地,以原始的物料清单表格如下表1为例:
37.物料代码物料名称规格型号数量sc5.507.00004减震器rbc2015s,smc8sc3.301.00057气缸mkb40-20rz,smc16sc3.304.00011接头m-5alu-4,smc160sc3.304.00001调速阀as1002f-04,smc180
38.其中,通常在物料清单中每个表格列的全部单元格中的实体大概率属于同一个实体类别。如上表的第二列中“减震器”“气缸”“接头”“调速阀”的品名类别的评分均为较高值
(0.8以上),即上述实体的实体类别均大概率为物料的品名。由此可以综合得到,上表中第二表格列的品名评分也为较高值(0.9以上),因此推知第二表格列中的实体均为物料的品名。
39.然后,单元格评分步骤:根据单元格所在的表格列的表格列评分,修改该单元格内各实体对应于多个实体类别的实体评分,例如假设上表1的第二列中还含有“齿轮”,“齿轮”既对应一个品名,又对应一个品牌,即既有较高的品名评分0.9,又有较高的品牌评分0.6。只凭借单元格内的信息进行判断,发生误差的概率较大,但若结合第二表格列整体的品名评分0.9综合判定,可知“齿轮”在本物料清单内最终计算仍有较高的品名评分,而由于第二表格列整体的品牌评分为较低值(0.2以下),可知“齿轮”在本物料清单内最终计算品牌评分较低。综上可知,“齿轮”在本物料名单中指的是一个品名,即“传递运动和动力的机械零件”。
40.接着,表格行排序步骤:根据每个表格行中各个实体类别的实体评分的排序结果,确定该表格行与该实体类别对应的实体结果。仍以上述的表1为例,第二表格行中“sc3.301.00057”“气缸”“mkb40-20rz”“smc”分别有相应的品名评分、品牌评分、型号评分等。其中,举例来说,型号评分分别为“sc3.301.00057”0.3,“气缸”0.1,“mkb40-20rz”0.9,“smc”0.2,由上可知,型号评分最高的实体为“mkb40-20rz”,即“mkb40-20rz”为本表格行物料的型号。同样地,对表格行中每一项的品名评分、品牌评分等进行排序,以获得本表格行物料的品名、品牌的信息。值得一提的是,在实际的应用中,每个单元格内不一定只有一个实体,如上表1的第三表格列的每个单元格均包含两个实体。
41.最后,表格行汇总步骤:将物料清单中的所有表格行的实体结果进行汇总,生成标准化的物料清单。一般地,将最符合物料清单中的所有表格行描述的物料整理成表格,并附上最终的综合评分,如下表2所示:
42.物料代码品名型号数量报价评分品牌sc5.507.00004减振器rbc2015s,smc8 60.0smcsc3.301.00057气缸mkb40-20rz,smc16 100.0smcsc3.304.00011接头m-5alu-4,smc160 80.0smcsc3.304.00001调速阀as1002f-04,smc180 73.0smc
43.由此,无论何种形式的原始物料清单,经过本实施方式中的物料清单标准化方法的解构计算,均能够自动转化为预设的标准化物料清单,转化过程智能快捷,提升了物料清单整理和选型的效率,节省了大量人工选型报价的产生的人力物力。另外,虽然在上述的表2中每个表格行显示了与原始物料清单中数据最相符的一种物料,在实际应用中,也可以调整显示方式,例如根据用户需求调整显示的物料个数,以评分由高到低的形式显示在物料清单中。
44.优选地,本发明的物料清单标准化方法在单元格抽取步骤中,所述实体基于实体词典的实体查询或者基于分类模型的实体预测抽取得到。其中,查询实体词典的方法简单、高效、可控,可以很好的覆盖短结构词汇、明确的工业用词;基于分类模型的实体预测主要针对长尾、未登录于词典的词语,作为查询实体词典的补充。实际抽取时,使用实体词典查询所有分词,当实体词典有匹配结果且匹配的实体评分达到预设阈值时,使用实体词典的查询结果;否则调用实体分类模型,使用模型预测的结果。二者结合,以避免错抽、漏抽实体
的情况发生,提高实体抽取的准确率。
45.如图2所示,本发明的实施方式中提供的一种物料清单标准化方法还包括:词典生成步骤,基于对商品知识图谱、商品详情页面或者网站搜索日志的离线挖掘,构建实体词典。
46.为了准确地执行解构计算,实体词典的构建是物料清单标准化方法实施前的准备步骤,通过不断加工处理和完善累积获得高精度的初始实体词典,以尽可能扩充实体词典的涵盖。另外,实体词典能够定期或者不定期地进行更新,即还可以在实际应用过程中,不断地扩充新的未录入词汇,以进一步地提高实体抽取的效率和准确性。
47.进一步地,在本实施方式中,实体词典中的实体为品名、品牌、型号、物料号、规格、数量、价格中的一种或多种,每个实体对应记录有词性、热度、逆文档频率、实体类别中的一种或多种项目。实体类别即物料清单中物料的不同属性,品名、品牌、型号、物料号、规格、数量、价格等实体类别越多,也就能更为细致准确地描述并定位到指定物料。但是,属性越多则定位的过程也就越繁琐,因此为了避免繁琐的定位过程,利用相应的词性、热度、逆文档频率而能够限定权重,以便高效精准定位。
48.其中,词性,具体如名词、动词、量词、数词等,其中名词为实体的概率最高,其为一种物料的品名、品牌的概率就更高,其权重就更大。热度,即词汇出现的频率,频率越高,相应地权重也越大。逆文档频率,与热度相反,表示字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降,是一种用于资讯检索与文本挖掘的常用加权技术,可以用来评估一个词对于一个文档集或语料库中某个文档的权重。值得一提的是,本发明的加权方式并不限制与上述三种中的一种或多种方式结合,用户可以根据自身的需求和侧重调整算法。
49.优选地,本实施方式中的物料清单标准化方法,在表格列评分步骤中,在计算每个表格列对应于多个实体类别的表格列评分时,每个表格列中首行单元格的实体评分权重高于其他行单元格的实体评分权重。通常在表格的首行单元格通常为整个物料清单的表头,很可能会直接写出每一表格列的实体类别,如上表2中的物料代码、品名、品牌、型号、数量、价格等,将首行单元格的实体评分权重设为最高,从而能够有效地提高每个表格列对应于实体类别进行的实体评分判别计算的效率和准确率。比如首行单元格命名为型号、类型、编码、料号等名称的表格列中,记录有物料型号的概率比较大。
50.具体地,本实施方式中的物料清单标准化方法,在单元格评分步骤中,以单元格所在的表格列的表格列评分乘以该单元格内各实体对应于实体类别的实体评分的方式,修改各实体的实体评分。仍然以“齿轮”为例,“齿轮”既对应一个品名,又对应一个品牌,即既有较高的品名评分0.9,又有较高的品牌评分0.6。而“齿轮”所在的表格列整体的品名评分0.9,品牌评分0.1时,进行综合判定,得出“齿轮”在该物料清单内综合得分品名评分0.9*0.9=0.81,品牌评分0.6*0.1=0.06。综上可知,“齿轮”的品名评分远大于品牌评分,即在该物料名单中“齿轮”指的是一个品名,即“传递运动和动力的机械零件”。由此,可以准确地避免单一单元格内判断的偶然性带来的分析误差。
51.优选地,本发明的实施方式提供的物料清单标准化方法生成的标准化的物料清单中还包括根据实体结果的实体评分计算得到的相似度数据。因为标准化物料清单中的物料数据均为根据原始的物料清单计算而得,且原始的物料清单中可能存在错误纰漏等原因,
计算而得的物料清单中的物料可能在实际生产中时不存在的,尤其如在物料的品牌、尺寸等方面有误差。或者在实体的评分没有达到阈值,无法对应到具体的某种物料上时,相似度数据能够作为用户进行进一步分析筛选的重要依据。提供相似数据的同时,还能够将差异项标出以使用户自行检查原始物料清单数据是否有误。
52.优选地,本发明的实施方式中提供的物料清单标准化方法在表格行排序步骤中,若表格行中一实体的一实体类别的实体评分为表格行中所有实体的该实体类别的实体评分最高者,并且,该实体评分高于阈值,则将该实体作为该表格行的与该实体类别对应的实体结果。
53.具体而言,仍以上述的表1为例,在第二表格行中“sc3.301.00057”“气缸”“mkb40-20rz”“smc”分别有相应的品名评分、品牌评分、型号评分等。其中,型号评分分别为“sc3.301.00057”0.3,“气缸”0.1,“mkb40-20rz”0.9,“smc”0.2,由上可知,型号评分最高的实体为“mkb40-20rz”,即“mkb40-20rz”为本表格行物料的型号。另外,需要注意的是,其中排序得到的结果不一定为唯一项,可能会产生多种符合要求的可能性。
54.如图3所示,本发明的实施方式中还提供了一种物料清单标准化装置1包括:一个或多个处理器2;和存储器3,存储器3存储被配置为由一个或多个处理器2执行的一个或多个程序,一个或多个程序包括用于执行以下操作的指令:单元格抽取步骤:遍历物料清单的全部单元格,抽取各个单元格中的实体,并确定每个实体对应于多个实体类别的实体评分;表格列评分步骤:根据从每个表格列的单元格中抽取的实体的实体评分,计算每个表格列对应于多个实体类别的表格列评分;单元格评分步骤:根据单元格所在的表格列的表格列评分,修改该单元格内各实体对应于多个实体类别的实体评分;表格行排序步骤:根据每个表格行中各个实体类别的实体评分的排序结果,确定该表格行与该实体类别对应的实体结果;表格行汇总步骤:将物料清单中的所有表格行的实体结果进行汇总,生成标准化的物料清单。
55.通过上述结果,无论原始的物料清单为何种形式包括何种内容,本发明提供的方法均能够智能便捷地将其他形式种类清单转化为用户所需的形式即标准化的物料清单,即本发明提供的物料清单标准化装置1能够自动根据原始物料清单表格,生成内容清晰准确、格式标准统一的物料清单,提高了物料清单选型和报价的效率,同时还节省了大量的人工成本。
56.本发明的实施方式中还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述的任一项的物料清单标准化方法的步骤。
57.值得一提的是,以上仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。