一种基于语义的多源表格自动匹配方法、装置及存储介质与流程

文档序号:36463839发布日期:2023-12-21 19:59阅读:来源:国知局

技术特征:

1.一种基于语义的多源表格自动匹配方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,确定该表格的表格结构,具体包括:

3.如权利要求1所述的方法,其特征在于,将该表格输入训练完成的语义注释模型,确定该表格中各实体单元格的语义,具体包括:

4.如权利要求1所述的方法,其特征在于,根据所述两个表格中各列的列类型以及所述各实体单元格的语义,对所述两个表格中的列进行初步匹配,确定所述两个表格中存在初步匹配关系的列,作为目标列,具体包括:

5.如权利要求1所述的方法,其特征在于,所述表格包括第一表格和第二表格,所述目标列中属于第一表格的列为第一目标列,所述目标列中属于第二表格的列为第二目标列;

6.如权利要求5所述的方法,其特征在于,根据所述数据类型选择对应的相似度匹配方式,并根据所述相似度匹配方式,确定所述第一目标列和所述第二目标列之间的第二相似度,具体包括:

7.如权利要求1所述的方法,其特征在于,所述表格包括第一表格和第二表格,所述目标列中属于第一表格的列为第一目标列,所述目标列中属于第二表格的列为第二目标列;

8.一种基于语义的多源表格自动匹配装置,其特征在于,包括:

9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~7任一项所述的方法。

10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1~7任一项所述的方法。


技术总结
本说明书公开了一种基于语义的多源表格自动匹配方法、装置及存储介质,首先获取两个待匹配的表格,针对每个待匹配的表格,确定该表格的结构和该表格中实体单元格的语义以及列类型。根据每个表格的列类型,进行初步匹配得到初步匹配结果,并将初步匹配结果中存在匹配关系的列作为目标列,计算目标列之间的第一相似度和第二相似度,确定两个表格中的目标列是否匹配。从上述方法中可以看出,本申请对两个表格进行相似度匹配前,先确定出了表格语义和列类型,以对全表格的语义信息进行解析,在语义信息的基础上进行相似度匹配,使得多源表格相似度匹配更加高效准确,方便后续对多源表格进行关联分析。

技术研发人员:李坤,王永恒,李炜铭,金雄男,邵研,王佳玮,段曼妮,魏旺旺,田品,王芷霖
受保护的技术使用者:之江实验室
技术研发日:
技术公布日:2024/1/15
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1