一种垂直领域的概念一致性关系构建方法和装置的制造方法

文档序号:8282426阅读:240来源:国知局
一种垂直领域的概念一致性关系构建方法和装置的制造方法
【技术领域】
[0001] 本发明涉及数据处理领域,更为具体而言,涉及一种垂直领域的概念一致性关系 构建方法和装置。
【背景技术】
[0002] 垂直领域是相对于通用领域而言的,主要指非综合的、对某一特定领域的专业、深 入的细分,诸如教育、特卖、医疗之类的非标准化消费品领域都属于垂直领域。各个垂直领 域包括其对应的概念集合,例如,医疗垂直领域可包括糖尿病、内科、盘尼西林、人民医院等 概念。概念作为构成垂直领域的基本元素,是表述用户在该领域需求的基础。
[0003] 对于垂直领域内数据检索,大多数还是采用基于关键字匹配的方式。采用匹配关 键字的检索方式只能展现包括用户查询关键字的检索结果,对用户检索需求的刻画不充 分。

【发明内容】

[0004] 为解决上述技术问题,提供了一种垂直领域的概念一致性关系构建方法和装置, 根据一个垂直领域内不同属性下的两个概念的共现关系统计数据计算概念一致性关系,实 现了概念一致性关系确定的定量计算。
[0005] 根据本发明实施方式的第一方面,提供了一种垂直领域的概念一致性关系构建方 法,包括:
[0006] 获取一个垂直领域内不同属性下的概念X和概念y在所属垂直领域内用户查询数 据的共现关系统计数据,
[0007] 根据所述共现关系统计数据计算概念X和概念y的一致性关系的强度分值 pmi (X,y),其中,强度分值pmi (X,y)为带有权值极大化参数pow的概念X和概念y的共现 分布c(x,y)p°w与带有惩罚因子N的概念X和概念y的乘积分布(c( X)+N)*(c(X)+N)的比 值取对数,
[0008] 其中,C(X)为概念X在所属垂直领域内用户查询数据出现的词频,c(y)为概念y 在所属垂直领域内用户查询数据出现的词频,C (X,y)为概念X和概念y在所属垂直领域内 用户查询数据出现的词频,pow为权值极大化参数,N为惩罚因子。
[0009] 在本发明的一些实施方式中,所述方法可进一步包括:根据下述公式计算与概念 C具有一致性关系的各个不同属性下的概念分布的信息熵,抽取信息熵大于第一预设阈值 的概念关系集合,以确定概念唯一关系,其中,一个属性下的概念分布的信息熵是将该属性 下的η个概念X i作为信源的η种取值,每个概念在所属垂直领域内用户查询数据中独立出 现的词频P (Xi)作为信源的取值Xi对应的概率,通过信息熵公式进行计算获得。
[0010] 在本发明的一些实施方式中,所述方法可进一步包括:根据第一概念与第一属性 下的第二概念的唯一关系确定所述第一概念与所述第一属性下除了第二概念之外的概念 为互斥关系。
[0011] 在本发明的一些实施方式中,所述方法可进一步包括:将概念的一致性关系的强 度分值小于第二预设阈值的两个概念作为互斥关系概念对。
[0012] 在本发明的一些实施方式中,其中,所属垂直领域内用户查询数据是根据所属垂 直领域的关键词特征对用户查询日志数据进行过滤获得。
[0013] 根据本发明实施方式的第二方面,提供了一种垂直领域的概念一致性关系构建装 置,该装置可包括:
[0014] 获取模块,用于获取一个垂直领域内不同属性下的概念X和概念y在所属垂直领 域内用户查询数据的共现关系统计数据;
[0015] 确定模块,用于根据所述共现关系统计数据计算概念X和概念y的一致性关系的 强度分值pmi (X,y),其中,强度分值pmi (X,y)为带有权值极大化参数pow的概念X和概念y 的共现分布c (X,y) p°w与带有惩罚因子N的概念X和概念y的乘积分布(c (X) +N) * (c (X) +N) 的比值取对数,
[0016] 其中,C(X)为概念X在所属垂直领域内用户查询数据出现的词频,c(y)为概念y 在所属垂直领域内用户查询数据出现的词频,C (X,y)为概念X和概念y在所属垂直领域内 用户查询数据出现的词频,pow为权值极大化参数,N为惩罚因子。
[0017] 在本发明的一些实施方式中,所述确定模块,还可用于:根据下述公式计算与概念 c具有一致性关系的各个不同属性下的概念分布的信息熵,抽取信息熵大于第一预设阈值 的概念关系集合,以确定概念唯一关系,其中,一个属性下的概念分布的信息熵是将该属性 下的η个概念X i作为信源的η种取值,每个概念在所属垂直领域内用户查询数据中独立出 现的词频P (Xi)作为信源的取值Xi对应的概率,通过信息熵公式进行计算获得。
[0018] 在本发明的一些实施方式中,所述确定模块,还可用于:根据第一概念与第一属性 下的第二概念的唯一关系确定所述第一概念与所述第一属性下除了第二概念之外的概念 为互斥关系。
[0019] 在本发明的一些实施方式中,所述确定模块,还可用于:将概念的一致性关系的强 度分值小于第二预设阈值的两个概念作为互斥关系概念对。
[0020] 在本发明的一些实施方式中,其中,所属垂直领域内用户查询数据是根据所属垂 直领域的关键词特征对用户查询日志数据进行过滤获得。
[0021] 本发明实施方式提供的垂直领域的概念一致性关系构建方法和装置,通过对领域 资源的挖掘数据,计算概念一致性关系的强度分值,实现了概念一致性关系的定量计算;其 次,通过不同属性下的概念分布的信息熵,定量确定具有唯一关系的概念集合;再次,通过 唯一关系的概念集合和/或概念一致性关系的强度分值确定具有互斥关系的概念对,进一 步改善了概念一致性关系的定量计算,便于充分刻画用户的检索需求。
【附图说明】
[0022] 图1图示了根据本发明一种实施方式的垂直领域概念一致性关系构建方法的流 程不意图;
[0023] 图2图示了根据本发明一种实施方式的垂直领域的概念一致性关系构建装置的 结构示意图。
【具体实施方式】
[0024] 为使本发明的实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发 明作进一步地详细描述。
[0025] 参见图1,图1图示了根据本发明一种实施方式的垂直领域概念一致性关系构建 方法的流程示意图,该方法可包括:
[0026] S101,获取一个垂直领域不同属性下的两个概念在所属垂直领域内用户查询数据 的共现关系统计数据;
[0027] S102,根据上述共现关系统计数据计算该两个概念的一致性关系的强度分值。
[0028] 垂直领域作为更为专业、深入的划分领域,可包括教育、医疗等多个领域。本实施 方式描述的一个垂直领域为诸如教育、医疗、特卖等一个特定的垂直领域。一个垂直领域可 包括多个属性,每个属性下又包括多个概念,这些概念满足一定的约束关系,满足两个概念 可以同时存在于本领域下的同一个实例中的约束关系称为一致性关系(coherent),反之, 不能同时存在于本领域下同一个实例中的两个概念称为互斥关系(conflict);特别地,满 足某概念只与特定属性下的唯一概念具有一致性关系,而与该属性下的其它概念均互斥的 关系的约束,称为概念唯一关系。例如,在"语言培训"领域,包含"语种"、"语言考试"等属 性,"语种"属性可包括"日语""英语"等概念,"语言考试"属性可包括"托福" "雅思"等概 念,概念"雅思"与概念"英语"具有一致性关系,且为唯一关系,而概念"日语"与概念"雅 思"是互斥关系。概念一致性是一个概念的常用搭配关系的体现
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1