一种适用于公私联动场景的实体融合方法与流程

文档序号:35403595发布日期:2023-09-09 18:51阅读:83来源:国知局
一种适用于公私联动场景的实体融合方法与流程

本发明涉及数据处理,特别涉及一种适用于公私联动场景的实体融合方法。


背景技术:

1、公私联动是指通过打破对公和个人业务条线的壁垒,将客户资源、资金、时间、构想等资源整合的营销模式,它可以实现条线间的信息资源共享,从而达到“以公促私”及“以私促公”两种交叉营销手段,拓宽获客渠道并提高产品渗透率。然而传统的公私联动营销方法普遍是以代发业务为主,市场同质化竞争严重,因此需要借助大数据技术从海量客户信息中挖掘营销商机。对于公私联动需要的对公对私客户信息,非常关键的一个前提是如何有效将这些信息进行整合,以消除信息间的差异。

2、现有技术中cn114996467a-基于语义相似度的知识图谱实体属性对齐算法和cn115471274a-公私联动客户标签体系建立方法、装置、设备及存储介质,涉及了实体对齐及公私联动客户的处理,但cn114996467a中基于语义相似度的实体融合模型范用性较差,无法满足公私联动场景的使用要求,直接套用该模型将出现大量“应该融合而未融合,不该融合却融合”的情况。cn115471274a通过公私关联关系构建的公私联动标签体系,存在大量实体重复,实体属性矛盾,关系边重复,关系边属性矛盾等问题,严重影响实际使用效果,需要通过实体融合技术对数据进行修正。

3、因此,有必要提供一种适用于公私联动场景的实体融合方法,实现公私联动场景的实体融合,并解决原有公私联动模型中大量存在的实体重复以及实体冲突等问题。


技术实现思路

1、本发明的目的在于提供一种适用于公私联动场景的实体融合方法,实现公私联动场景的实体融合,并解决原有公私联动模型中大量存在的实体重复以及实体冲突等问题。

2、为了解决现有技术中存在的问题,本发明提供了一种适用于公私联动场景的实体融合方法,包括以下步骤:

3、s1:从各业务原系统中采集客户信息表及关联关系表,得到包含多个实体及各实体间关联关系的数据集,其中,关联关系表中的关联关系包括对公-对公关系、对公-对私关系和对私-对私关系;

4、s2:根据数据集构建各实体间的知识图谱;

5、s3:根据特定规则对知识图谱进行融合,特定规则依据实体关联拓扑结构及实体名称设置;

6、s4:对对公实体进行进一步融合,融合方式如下:

7、s41:将各企业的名称划分为多个分词,并对分词进行去重处理,所述企业为对公实体;

8、s42:利用tf-idf算法,计算所有企业名称中每个分词的词频;

9、s43:根据各分词的词频计算各分词的权重;

10、s44:根据各分词的权重,利用加权编辑距离算法,计算任意两个企业名称间的加权编辑距离;

11、s45:根据任意两个企业名称间的加权编辑距离计算相似度,计算公式如下:

12、;

13、其中,sima,b(i,j)为a企业和b企业间的名称相似度;i为a企业的名称中各分词的序号;j为b企业的名称中各分词的序号;leva,b(i,j)为a企业和b企业名称间的加权编辑距离,m为a企业的名称中分词的总数;n为b企业的名称中分词的总数;

14、s46:预设融合阈值,若任意两个企业间的名称相似度大于等于融合阈值,则融合当前的两个企业;反之则不融合。

15、可选的,在所述适用于公私联动场景的实体融合方法中,在s2之前,s1之后,还包括以下步骤:

16、对数据集进行预处理。

17、可选的,在所述适用于公私联动场景的实体融合方法中,预处理包括以下步骤:

18、设置白名单,使匹配入白名单的实体不纳入融合范畴;

19、清洗数据;

20、修复标签及属性。

21、可选的,在所述适用于公私联动场景的实体融合方法中,s3中,包括以下特定规则:

22、若多个同名实体与同一实体存在至少一条类型相同的强关联边,和/或,存在至少两条类型相同的弱关联边,则所述多个同名实体融合为一个实体;

23、若存在同名对公实体时,在不同业务条线或数据源中存在不同的编号或不同的表现形式,则融合一个对公实体;

24、若两个对公实体间存在强关联边,则与这两个对公实体都存在至少一条强关联边或两条弱关联边的同名实体融合为一个实体;

25、对于任意两个对公实体,存在多对同名对私实体与这两个对公实体有至少一条强关联边或两条弱关联边,则每对同名对私实体融合为一个对私实体;

26、其中,强关联边类型包括股权关系、担保关系、高管关系以及实控人关系,弱关联边类型包括交易关系、集团关系、同股东关系、同高管关系、同地址关系以及同电话关系。

27、可选的,在所述适用于公私联动场景的实体融合方法中,s3中,采用择优保留的方式进行融合。

28、可选的,在所述适用于公私联动场景的实体融合方法中,s42中,计算每个分词的词频的方式如下:

29、

30、

31、

32、其中,w为待计算词频的分词,cpw为分词w的词频。

33、可选的,在所述适用于公私联动场景的实体融合方法中,s43中,计算每个分词的权重的方式如下:

34、

35、其中,costw为分词w的权重。

36、可选的,在所述适用于公私联动场景的实体融合方法中,s44中,计算任意两个企业名称间的加权编辑距离的方式如下:

37、

38、

39、

40、{lev}_{a,b\, }\left ( {i,j} \right )=min\{ \left ( {{lev}_{a,b}\left ( {} \right )\left ( {i-1,j} \right )+{cost}_{i}} \right ),\left ( {{lev}_{a,b}\left ( {i,j-1} \right )+{cost}_{j}} \right ),[\left ( {{lev}_{a,b}\left ( {i-1,j-1} \right )+\left ( {{cost}_{i}+{cost}_{j}} \right )*{i}_\left ( {{a}_{i\neq }{b}_{j}} \right )} \right )]\} ;

41、;

42、;

43、其中,leva,b(i,j)为a企业和b企业名称间的加权编辑距离,costi为a企业的名称中第i个分词的权重,costj为b企业的名称中第j个分词的权重。

44、可选的,在所述适用于公私联动场景的实体融合方法中,还包括以下步骤:

45、设置融合限制规则;

46、根据融合限制规则限制无法融合的企业被融合。

47、可选的,在所述适用于公私联动场景的实体融合方法中,包括以下融合限制规则:

48、两个企业中,若一个企业名称带有中文数字或阿拉伯数字,另一个企业名称不带中文数字或阿拉伯数字,或者两个企业名称中的数字不同,则不进行融合;

49、两个企业中,若一个企业名称带有方位词,另一个企业名称不带方位词,或者两个企业名称中的方位词不同,则不进行融合;

50、若两个企业名称的长度都大于h,且第h-2位和第h-1位上的两个字组合不同,则不进行融合,h为正整数。

51、在本发明所提供的适用于公私联动场景的实体融合方法中,通过利用知识图谱及nlp的相关技术,实现了针对对公客户、对私客户中重复实体、关系边的融合,还可以完成矛盾实体、关系边的修复,解决了原有公私联动模型中大量存在的实体重复以及实体冲突等问题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1