本发明涉及数据挖掘领域,尤其涉及一种特征词关系获取方法及装置。
背景技术:
在过去的十几年里个性化的发展如火如荼,其原因很简单——互联网上信息的爆炸式增长与人们有限的信息需求之间不可调和的矛盾愈演愈烈。随之个性化推荐应运而生被应用到各个领域:购物、新闻阅读甚至各种应用app(Application:应用程序)等等。其中,个性化推荐是指计算机通过各种技术手段将此时此刻用户最想看到的信息推荐给用户。
现有技术中,为了获取特征词之间的关联关系,往往需要通过人工方式从语料中标记对应的特征词对以及每对特征词之间的关联关系。
然而,现有技术中是通过人工方式获得所有特征词对以及每对特征词之间的关联关系,导致大量的人力资源的浪费。
技术实现要素:
本发明提供一种特征词关系获取方法及装置,以解决现有技术中只能通过人工打标方式获得所有特征词对以及每对特征词之间的关联关系,从而导致人力资源大量浪费的技术问题。
第一方面,本发明实施例提供一种特征词关系获取方法,包括:
获取种子文件,所述种子文件中包含M个特征词对以及每对特征词之间的关联关系,M为正整数;
将所述种子文件中的特征词对作为种子词对,基于所述种子词对从语料信息中提取出特征模板,所述特征模板中包含对应所述种子词对的上下文信息,N为正整数;
基于所述特征模板获取具有关联关系的特征词对。
可选的,所述获取到的特征词对与所述种子词对具有相同的关联关系。
可选的,所述基于所述特征模板获取具有关联关系的特征词对,具体包括:
判断所述语料信息中的第一上下文信息与所述特征模板的相似度是否大于预设相似度值;
在所述第一上下文信息与所述具有第一关联关系的特征模板的相似度值大于所述预设相似度值时,确定获取到的特征词对的关联关系为所述第一关联关系。
可选的,所述种子文件中还包括:
每对特征词对应的类别信息;
并且,所述获取到的特征词对与所述种子词对的类别相同。
可选的,所述基于种子词对从语料信息中提取出特征模板,具体包括:
提取每对种子词对的上下文信息作为候选模板;
判断所述候选模板是否满足第一预设条件;
在所述候选模板满足所述第一预设条件时,将所述候选模板作为所述特征模板。
可选的,所述判断所述候选模板是否满足第一预设条件,具体为:
判断所述候选模板的出现次数是否大于预设次数;和/或
判断所述候选模板的置信度是否大于预设置信度。
可选的,所述置信度通过以下公式计算:
其中Count(Seedi,Patternj)为种子词对与候选模板共同出现次数,Count(Seedi)为种子词对出现次数,Count(Patternj)为候选模板出现次数,其中a和b为累加权重。
可选的,基于所述特征模板获取具有关联关系的特征词对后,所述方法还包括:
判断获取到的特征词对与种子文件中包含的特征词对是否存在冲突;
如果不存在冲突,则将获取到的特征词对加入到种子文件中。
可选的,所述关联关系包含以下关系中的至少一种关系:
"a>b"关系,表示特征词a是特征词b的父节点;
"a==b"关系,表示特征词a与特征词b为同一事物的不同名称;
"a<b"关系,表示特征词a是特征词b的子节点;
"a=b"关系,表示特征词a与特征词b属于同一层级关系。
可选的,所述方法还包括:
获取用户的用户兴趣模型;
基于所述种子文件对所述用户兴趣模型进行调整。
可选的,所述基于所述种子文件对所述用户兴趣模型进行调整,具体包括:
基于所述关联关系中的"a>b"关系,将所述用户兴趣模型中所述b所对应的兴趣归为所述a所对应的兴趣的子集;或
基于所述关联关系中的"a==b"关系关联所述用户兴趣模型中表征同一物体的不同名称;或
基于所述关联关系中的"a<b"关系,将所述用户兴趣模型中所述a所对应的兴趣归为所述b所对应的兴趣的子集;或
基于所述关联关系中的"a=b"关系,扩展所述用户兴趣模型中同一层级的用户兴趣。
可选的,所述基于所述种子文件对所述用户兴趣模型进行调整,具体包括:
判断所述用户兴趣模型中,为第一特征词的子节点的特征词的数量是否大于第一预设数量;
在大于所述第一预设数量时,将所述第一特征词加入所述用户兴趣模型。
可选的,所述基于所述种子文件对所述用户兴趣模型进行调整,具体包括:
判断所述用户兴趣模型中,与第二特征词的关联关系为“=”的特征词的数量是否大于第二预设数量;
在与所述第二特征词的所述关联关系为“=”的特征词的数量大于所述第 二预设数量时,将所述第二特征词加入所述用户兴趣模型。
第二方面,本发明实施例提供一种特征词关系获取装置,包括:
第一获取模块,用于获取种子文件,所述种子文件中包含M个特征词对以及每对特征词之间的关联关系,M为正整数;
提取模块,用于将所述种子文件中的特征词对作为种子词对,基于所述种子词对从语料信息中提取出特征模板,所述特征模板中包含对应所述种子词对的上下文信息,N为正整数;
第二获取模块,用于基于所述特征模板获取具有关联关系的特征词对。
可选的,所述获取到的特征词对与所述种子词对具有相同的关联关系。
可选的,所述第二获取模块,具体包括:
第一判断单元,用于判断所述语料信息中的第一上下文信息与所述特征模板的相似度是否大于预设相似度值;
第一确定单元,用于在所述第一上下文信息与所述具有第一关联关系的特征模板的相似度值大于所述预设相似度值时,确定获取到的特征词对的关联关系为所述第一关联关系。
可选的,所述种子文件中还包括:
每对特征词对应的类别信息;
并且,所述获取到的特征词对与所述种子词对的类别相同。
可选的,所述提取模块,具体包括:
提取单元,用于提取每对种子词对的上下文信息作为候选模板;
第二判断单元,用于判断所述候选模板是否满足第一预设条件;
第二确定单元,用于在所述候选模板满足所述第一预设条件时,将所述候选模板作为所述特征模板。
可选的,所述第二判断单元,具体用于:
判断所述候选模板的出现次数是否大于预设次数;和/或
判断所述候选模板的置信度是否大于预设置信度。
可选的,所述置信度通过以下公式计算:
其中Count(Seedi,Patternj)为种子词对与候选模板共同出现次数,Count(Seedi)为种子词对出现次数,Count(Patternj)为候选模板出现次数,其中a和b为累加权重。
可选的,所述装置还包括:
判断模块,用于在基于所述特征模板获取具有关联关系的特征词对后,判断获取到的特征词对与种子文件中包含的特征词对是否存在冲突;
加入模块,用于如果不存在冲突,则将获取到的特征词对加入到种子文件中。
可选的,所述关联关系包含以下关系中的至少一种关系:
"a>b"关系,表示特征词a是特征词b的父节点;
"a==b"关系,表示特征词a与特征词b为同一事物的不同名称;
"a<b"关系,表示特征词a是特征词b的子节点;
"a=b"关系,表示特征词a与特征词b属于同一层级关系。
可选的,所述装置还包括:
第三获取模块,用于获取用户的用户兴趣模型;
调整模块,用于基于所述种子文件对所述用户兴趣模型进行调整。
可选的,所述调整模块,具体包括:
基于所述关联关系中的"a>b"关系,将所述用户兴趣模型中所述b所对应的兴趣归为所述a所对应的兴趣的子集;或
基于所述关联关系中的"a==b"关系关联所述用户兴趣模型中表征同一物体的不同名称;或
基于所述关联关系中的"a<b"关系,将所述用户兴趣模型中所述a所对应的兴趣归为所述b所对应的兴趣的子集;或
基于所述关联关系中的"a=b"关系,扩展所述用户兴趣模型中同一层级的用户兴趣。
可选的,所述调整模块,具体包括:
第三判断单元,用于判断所述用户兴趣模型中,为第一特征词的子节点的特征词的数量是否大于第一预设数量;
第一加入单元,用于在大于所述第一预设数量时,将所述第一特征词加入所述用户兴趣模型。
可选的,所述调整模块,具体包括:
第四判断单元,用于判断所述用户兴趣模型中,与第二特征词的关联关系为“=”的特征词的数量是否大于第二预设数量;
第二加入单元,用于在与所述第二特征词的所述关联关系为“=”的特征词的数量大于所述第二预设数量时,将所述第二特征词加入所述用户兴趣模型。
本发明有益效果如下:
由于在本发明实施例中,首先获取种子文件,种子文件中包含M个特征词对以及每对特征词之间的关联关系,M为正整数;然后将种子文件中的特征词对作为种子词对,基于种子词对从语料信息中提取出特征模板,特征模板中包含对应种子词对的上下文信息,N为正整数;最后基于特征模板获取具有关联关系的特征词对。也就是说,可以基于种子词对自动分析获得其他特征词对以及对应特征词对的关联关系,不需要通过人工打标方式获取所有的特征词对以及每对特征词之间的关联关系,从而达到了降低人力资源的浪费的技术效果。
附图说明
图1为本发明实施例中特征词关系获取方法的流程图;
图2为本发明实施例特征词关系获取方法中从语料信息中提取出特征模板的流程图;
图3为本发明实施例特征词关系获取方法中进行信息推荐的流程图;
图4为本发明实施例中特征词关系获取装置的结构图。
具体实施方式
本发明提供一种特征词关系获取方法及装置,以解决现有技术中只能通过人工打标方式获得所有特征词对以及每对特征词的关联关系,从而导致人力资源大量浪费的技术问题。
本申请实施例中的技术方案为解决上述的技术问题,总体思路如下:
首先获取种子文件,种子文件中包含M个特征词对以及每对特征词之间的关联关系,M为正整数;然后将种子文件中的特征词对作为种子词对,基于种子词对从语料信息中提取出特征模板,特征模板中包含对应种子词对的上下文信息,N为正整数;最后基于特征模板获取具有关联关系的特征词对。也就是说,可以基于种子词对自动分析获得其他特征词对以及对应特征词对的关联关系,不需要通过人工打标方式获取所有的特征词对以及每对特征词之间的关联关系,从而达到了降低人力资源的浪费的技术效果。
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明,而不是对本发明技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互组合。
第一方面,本发明实施例提供一种特征词关系获取方法,请参考图1,包括:
步骤S101:获取种子文件,种子文件中包含M个特征词对以及每对特征词之间的关联关系,M为正整数;
步骤S102:将种子文件中的特征词对作为种子词对,基于种子词对从语料信息中提取出特征模板,特征模板中包含对应种子词对的上下文信息,N为正整数;
步骤S103:基于特征模板获取具有关联关系的特征词对。
举例来说,该方法可以应用于笔记本电脑、手机、平板电脑等等。
步骤S101中,在具体实施过程中,关联关系包含以下关系中的至少一种关系:
①"a>b"关系,表示特征词a是特征词b的父节点;
②"a==b"关系,表示特征词a与特征词b为同一事物的不同名称;
③"a<b"关系,表示特征词a是特征词b的子节点;
④"a=b"关系,表示特征词a与特征词b属于同一层级关系。
优选的,所述关联关系为偏序关系。
在步骤S101中,种子文件的获取方式可以有多种,举例来说,可以首先获取语料信息,语料信息例如为:新闻语料、文档语料、书籍语料等等,可以基于不同的应用场景采用不同的语料,例如:如果所获取的特征词在后期用于文档推荐,则语料至少包括文档语料;如果所获取的特征词在后续用于新闻推荐,则语料至少包括新闻语料;如果所获取的特征词在后期用于书籍推荐,则语料至少包括书籍语料等等。
然后,可以对语料进行分类,以语料是新闻语料为例,则可以首先建立新闻标签体系,然后生成对应标签体系的分类器,例如:可以将新闻语料分为体育、娱乐、财经、汽车等总共46(当然也可以为其他值,例如:20、40等等)个大类。
然后,针对每个分类下的新闻语料,可以先对新闻语料进行分词,接着可以对其中的特征词进行标记,标记一方面是确定特征词,另一方面是标记对应特征词间的关联关系。另外,在对特征词进行标记之前,还可以对新闻语料进行去重处理,进而基于此可以从新闻语料中获取M个特征词对,以及对应特征词对的关联关系,M对特征词对以及对应特征词对的关联关系即构成种子文件。
其中,所获得的M个特征词对可以全部对应上述四种关联关系中的某一种关联关系,M对特征词对中也可以部分特征词对应上述第①种关联关系、部分对应上述第②种关联关系等等。
步骤S102中,可以从每条语料信息中提取上下文信息,并获取对应语料信息中种子词对的关联关系作为所提取出的上下文信息的关联关系,例如,以语料信息为“北京时间3月17日,勇士主场迎战湖人”为例,则经过分词、标记之后,获得如下内容:
“北京时间3月17日勇士(特征词)主场迎战湖人(特征词)”,
其中,“勇士”和“湖人”为种子词对,关联关系为a=b(也即:勇士=湖人)。
则勇士和湖人中间的词“主场迎战”(也即上下文信息)则为特征模板。
其中,在某一类别下,针对不同的关联关系可以设置不同特征模板库,分别存储多个对应的上下文信息,进而不需要针对每一条上下文信息都存储其对应的关联关系,而是直接基于对应的特征模板库获取上下文信息的关联关系;又或者,可以将同一类别下,所有关联关系的上下文信息放置于同一特征模板库,在这种情况下,既要存储上下文信息,又要存储对应的关联关系。
步骤S102中,可以将提取出的所有的上下文信息都作为特征模板加入特征模板库,而为了优化特征模板库中特征模板的质量,作为进一步的优选实施例,基于种子词对从语料信息中提取出特征模板,请参考图2,具体包括:
步骤S201:提取每对种子词对的上下文信息作为候选模板;
步骤S202:判断候选模板是否满足第一预设条件;
步骤S203:在候选模板满足第一预设条件时,将候选模板作为特征模板。
步骤S201中,对于如何提取每对种子词对的上下文信息由于在前面已作介绍,故而在此不再赘述。
步骤S202中,第一预设条件可以多种不同的预设条件,下面列举其中的两种进行介绍,在不冲突的情况下,以下两种预设条件可以组合使用,另外,在具体实施过程中,预设条件不限于以下两种情况。
第一种,判断候选模板是否满足第一预设条件,具体为:判断候选模板的出现次数是否大于预设次数。
举例来说,预设次数例如为:20次、30次等等,在候选模板出现的次数 大于预设次数时,才能够保证对应候选模板的上下文具备参考价值,而如果对所有的候选模板都进行存储的话,一方面会导致存储负担过重,另一方面,在通过特征模板获取对应的特征词对时,也会导致实施该方法的装置的处理负担较重。故而通过上述方案,可以降低实施例该方法的装置的存储负担和处理负担。
第二种,判断候选模板是否满足第一预设条件,具体为:判断候选模板的置信度是否大于预设置信度。
举例来说,置信度通过以下公式计算:
其中Count(Seedi,Patternj)为种子词对与候选模板共同出现次数,Count(Seedi)为种子词对出现次数,Count(Patternj)为候选模板出现次数,其中a和b为累加权重。通过上述置信度公式能够保证所获取的特征模板有着较高的准确度。
其中,a、b取值例如都为0.5,又或者a取值0.4、b取值0.6等等,对于a、b的取值本发明实施例不再详细列举,并且不作限制。
另外,在基于上述步骤S201和步骤S202获得满足第一预设条件的多个候选模板之后,可以直接将这多个候选模板作为特征模板,加入特征模板库,而为了进一步的提高特征模板的质量,也可以继续对特征模板进行筛选,例如:将基于步骤S201和步骤S202所获得的满足第一预设条件的候选模板按照置信度值从高到低进行排序,进而筛选出位于前N(例如:100、200等等)位的候选模板作为筛选出的最终的特征模板。
通过上述方案,一方面能够节省上下文信息的存储空间,另一方面,又能够降低实施例该方法的装置的处理负担。
步骤S103中,可以通过多种方式获得每对特征词的关联关系,下面列举其中的两种进行介绍,当然,在具体实施过程中,不限于以下两种情况。
①获取到的特征词对与种子词对具有相同的关联关系。
举例来说,在通过种子词对及每对种子词的关联关系提取出特征模板时, 可以确定出对应特征模板的关联关系,例如,假设种子词对“马刺”、“公牛”的关联关系为“=”,而通过该种子词对确定出以下的特征模板“主场迎战”,则可以确定出该特征模板的关联关系为“=”;
而在步骤S103中,假设通过特征模板“主场迎战”确定出以下的特征词对“热火”、“火箭”,则确定出特征词对“热火”、“火箭”的关联关系也为“=”。
②判断语料信息中的第一上下文信息与特征模板的相似度是否大于预设相似度值;
在第一上下文信息与具有第一关联关系的特征模板的相似度值大于预设相似度值时,确定获取到的特征词对的关联关系为第一关联关系。
举例来说,假设语料信息中包含以下语料“北京时间1月23日,马刺主场迎战公牛”,则可以提取其对应的第一上下文信息为“主场迎战”;
而每个关联关系可以包含多个特征模板,可以将第一上下文信息与多个关联关系中每个特征模板进行匹配,最终确定出第一上下文信息与关联关系“a=b”中的特征模板“主场迎战”是相同的(也即相似度值为100%),故而从“北京时间1月23日,马刺主场迎战公牛”提取出“马刺”、“公牛”作为一个特征词对,同时这对特征词对的关联关系为:“a=b”。
作为进一步的优选实施例,种子文件中还包括:每对特征词的类别信息,进而步骤S103中所获取到的特征词对也包含对应的类别信息,在具体实施过程中,可以通过多种方式确定出特征词对的类别信息,下面列举其中的两种方式进行介绍,当然,在具体实施过程中,不限于以下两种情况。
①获取到特征词对与种子词对的类别相同。
举例来说,假设通过nba类别下种子文件提取出以下的特征模板:“主场”、”迎战”,则该特征模板的类别为nba;
然后,通过特征模板“主场”、”迎战”从语料信息为“北京时间1月23日,马刺主场迎战公牛”提取出“马刺”、“公牛”作为一对特征词,则可以确定出特征词对“马刺”、“公牛”的类别信息为nba。
②在获得语料信息之后对语料信息进行分类,然后针对每个分类下的语料信息分别提取对应的特征词对,在这种情况下,对应特征词对的类别信息与语料信息相同。
例如,假设从“北京时间1月23日,马刺主场迎战公牛”提取出“马刺”、“公牛”作为一对特征词,而“北京时间1月23日,马刺主场迎战公牛”的类别信息为“nba”,则可以提取出以下信息“nba马刺公牛”,其中“nba”为类别信息,“马刺”、“公牛”则为特征词对。
作为进一步的优选实施例,步骤S103中特征词对具体为:实体词对。
通常情况下,实体词指的是能够明确的描述用户兴趣的特征词。其中,实体词通常具备以下条件:①名词;②指代明确;③非大众;④非小众,下面将对上述四种条件分别进行介绍。
①名词:通常情况下,用户兴趣特征中的关键词基本上都是名词,如:汽车、电影、体育,但并非所有名词均适合用作描述用户兴趣,如:人们、集团、友情。通常情况下,实体词主要包括专有名词、个体名词和物质名词,而集体名词、抽象名词基本不是实体词。
②指代明确:汉语是一个灵活百变的语言,往往一个词包含有多个含义,如苹果(食物/数码产品)、火箭(航天器/nba球队),用作用户兴趣必须要指代明确,所以在本发明实施例中将所有特征词分成若干类别,单独为每个类别抽取实体词。结合类别实体词指代便明确了,如:美食.苹果和数码.苹果、军事.火箭和nba.火箭。
③非大众:抽象名词、集体名词是人们对于名词基于已有知识的划分,但对于计算机却无法识别,也无法反应用户的兴趣特征,而从大量新闻语料中发现这类词分布广出现频率高,故而可以通过这种分布特征去除;
④非小众:此处的小众指的是满足上述条件后各垂直类别内部出现频率很低的特征词。去除此部分词的原因不是因为小众词一定不是实体词,而是因为该类词数据采样不足,引入该类词同时会引入更多的噪音。
作为进一步的优选实施例,在步骤S103基于特征模板获取特征词对之后,方法还包括:
判断获取到的特征词对与种子文件中包含特征词对是否存在冲突;
如果不存在冲突,则将获取到的特征词对加入到种子文件中。
举例来说,假设获取到如下的特征词对“nba小皇帝<詹姆斯”,而在种子文件中包含以下的特征词对“nba詹姆斯==詹皇”、“nba詹姆斯==小皇帝”,则由种子文件的关联关系可以推断出“nba小皇帝==詹姆斯”,由此可以推断出获取到的特征词对与种子文件中的特征词对存在冲突。
又例如,假设获得如下的特征词对“nba骑士<詹皇”,而种子文件中包含以下的特征词对“nba布帅<骑士”,“nba布帅=詹皇”,由种子文件中的特征词对可以推断出如下的关联关系“nba詹皇<骑士”,由此可知,所获取的特征词对与种子文件中的特征词对存在冲突。
当然,在具体实施过程中,还可能存在其他冲突形式,对此本发明实施例不再详细列举,并且不作限制。在基于步骤S103获得多对具有关联关系的特征词对之后,该多对具有关联关系的特征词对可以存在多种用途,下面列举其中的两种用途进行介绍,当然,在具体实施过程中,不限于以下两种情况。
第一种,方法还包括:获取用户的用户兴趣模型;基于多对特征词以及每对特征词的关联关系对用户兴趣模型进行调整。
在具体实施过程中,可以通过多种方式获取用户兴趣模型,下面列举其中的三种进行介绍,当然,在具体实施过程中,不限于以下三种情况。
①基于用户的用户浏览行为数据确定第一类关键词,将第一类关键词加入用户兴趣模型。
举例来说,可以先获取用户的浏览行为数据,然后从用户浏览行为数据中提取出多个特征词,并将这多个特征词加入用户兴趣模型。
②基于用户的输入所产生数据确定第二类关键词,将第二类关键词加入用户兴趣模型。
举例来说,可以先获取用户的输入行为数据,然后从输入行为数据中提取出多个特征词,并将这多个特征词加入用户兴趣模型。
③基于用户的标签信息确定第三类关键词,将第三类关键词加入用户兴趣模型。
举例来说,可以获得用户的标签信息,例如:微博标签、微信标签等等,其中该标签信息即可以为用户自己设置的标签信息,又可以为其他用户设置的标签信息,然后从标签信息中提取出多个特征词,并将这多个特征词加入用户兴趣模型。
其中可以通过多种方式对用户兴趣模型进行调整,下面列举其中的几种进行介绍,当然在具体实施过程中,并不限于以下几种情况,另外,在不冲突的情况下,以下几种调整方式可以组合使用。
①基于关联关系中的"a>b"关系,将用户兴趣模型中b所对应的兴趣归为a所对应的兴趣的子集;
举例来说,假设基于前面所介绍的方案,确定出如下的特征词的关联关系:
“nba詹皇<骑士”、“nba布帅<骑士”
则可以将nba分类下的“詹皇”、“布帅”归于骑士的子类。
②基于关联关系中的"a==b"关系合并用户兴趣模型中表征同一物体的不同名称。
举例来说,假设基于前面所介绍的方案,确定出如下的特征词对的关联关系:
“詹姆斯==詹皇”、“詹姆斯==小皇帝”
则可以将“詹姆斯”、“詹皇”、“小皇帝”这些特征词关联起来,以表征这多个特征词表征同一含义。
关联关系关联关系
③基于关联关系中的"a<b"关系,将用户兴趣模型中a所对应的兴趣归为b所对应的兴趣的子集;
该归类方式与第②种方案类似,故而在此不再赘述。
④基于关联关系中的"a=b"关系,扩展用户兴趣模型中同一层级的用户兴趣。
举例来说,例如用户A具有兴趣中有“nba.韦德”、“nba.安德森”、“nba.科尔”等兴趣,而基于前面的方案确定出如下的特征词对及关联关系:“nba韦德=波什”、“nba安德森=波什”,则可以将用户兴趣模型中扩展出“nba波什”的兴趣。
⑤基于多对特征词对以及每对特征词对的关联关系对用户兴趣模型进行调整,具体包括:
判断用户兴趣模型中,为第一特征词的子节点的特征词的数量是否大于第一预设数量;
在大于第一预设数量时,将第一特征词加入用户兴趣模型。
举例来说,第一预设数量例如为:10次、20次等等,可以根据实际需求设置不同的第一预设数量,本发明实施例不再详细列举,并且不作限制。
举例来说,假设用户A的用户兴趣模型中具有兴趣中有“nba.韦德”、“nba.安德森”、“nba.科尔”等兴趣,而特征词“韦德”、“安德森”、“科尔”为“热火”的子节点,则可以确定出用户可能对“热火”比较感兴趣,故而可以将特征词“热火”加入用户兴趣模型。
⑥基于多对特征词对以及每对特征词对的关联关系对用户兴趣模型进行调整,具体包括:
判断用户兴趣模型中,与第二特征词的关联关系为“=”的特征词的数量是否大于第二预设数量;
在与第二特征词的关联关系为“=”的特征词的数量大于第二预设数量时,将第二特征词加入用户兴趣模型。
举例来说,第二预设数量例如为:10、20等等,可以根据实际需求设置不同的第二预设数量,对此本发明实施例不再详细列举,并且不作限制。
举例来说,假设用户A的用户兴趣模型中具有兴趣中有“nba.韦德”、“nba.安德森”、“nba.科尔”等兴趣,而特征词“韦德”、“安德森”、“科尔”与特征词“波什”的关联关系都是“=”,则可以确定出用户可能对“波什”比较感兴趣,故而可以将特征词“波什”加入用户兴趣模型。
第二种,请参考图3,方法还包括:
步骤S301:确定用户的用户兴趣模型;
步骤S302:基于多对特征词以及每对特征词的关联关系对信息进行组织;
步骤S303:确定信息中对应用户兴趣模型的推荐信息,并将推荐信息提供给用户。
步骤S301中,对于具体如何获得用户的用户兴趣模型,由于前面已作介绍,故而在此不再赘述。
步骤S302中,可以以特征词作为新闻组织方式,将新闻源组织成若干兴趣新闻桶,例如:每一个特征词建立一个桶,用于存储与该兴趣相关的新闻。
步骤S303中,可以获取用户兴趣模型中所包含的特征词,然后通过用户兴趣模型所包含的特征词在新闻桶内查找特征词相同的信息作为推荐信息,并提供给用户。
以信息为新闻为例,则可以将用户兴趣模型以及新闻索引输入推荐系统,推荐系统则可以从新闻索引中获得用户兴趣模型中的特征词所对应的新闻索引,然后将这些新闻索引所对应的新闻推荐给用户。
在具体实施过程中,在将新闻信息归入各个特征词桶之后,还可以对新闻进行调整,可以采用多种调整方式,下面列举其中的四种进行介绍,当然,在具体实施过程中,不限于以下四种情况,另外,在不冲突的情况下,以下四种情况可以组合使用。
①基于关联关系中的"a==b"关系合并各个特征词桶中的表征同一物体的不同名称的特征词桶;
举例来说,假设基于前面所介绍的方案,确定出如下的特征词对的关联关 系:
“詹姆斯==詹皇”、“詹姆斯==小皇帝”
则将特征词桶“詹姆斯”、“詹皇”、“小皇帝”的新闻全部合并到一个特征词桶。
②基于关联关系中的"a>b"关系,将各个特征词桶中特征词b所对应的新闻信息归为特征词a所对应的新闻信息的子集,并加入特征词a对应的特征词桶中;
举例来说,假设基于前面所介绍的方案,确定出如下的特征词对的关联关系:
“nba詹皇<骑士”、“nba布帅<骑士”
则将特征词桶“詹皇”、“布帅”的新闻同时加入到“骑士”特征词桶。
③基于关联关系中的"a<b"关系,将各个特征词桶中特征词a所对应的新闻信息归为特征词b所对应的新闻信息的子集,并加入特征词b对应的特征词桶中;
该归类方式与第②种方式类似,故而在此不再赘述。
④基于关联关系中的"a=b"关系,将各个特征词桶中特征词b所对应的新闻信息作为特征词a所对应的扩展推荐信息。
举例来说,假设用户A具有兴趣中有“nba.韦德”、“nba.安德森”、“nba.科尔”等兴趣,而基于前面的方案确定出如下的特征词对及关联关系:“nba韦德=波什”、“nba安德森=波什”,则在用户A的兴趣特征较少的情况下,可以将“波什”的相关新闻作为用户A的扩展推荐新闻。
第二方面,基于同一发明构思,本发明实施例提供一种特征词关系获取装置,请参考图4,包括:
第一获取模块40,用于获取种子文件,所述种子文件中包含M个特征词对以及每对特征词之间的关联关系,M为正整数;
提取模块41,用于将所述种子文件中的特征词对作为种子词对,基于所述 种子词对从语料信息中提取出特征模板,所述特征模板中包含对应所述种子词对的上下文信息,N为正整数;
第二获取模块42,用于基于所述特征模板获取具有关联关系的特征词对。
可选的,所述获取到的特征词对与所述种子词对具有相同的关联关系。
可选的,所述第二获取模块42,具体包括:
第一判断单元,用于判断所述语料信息中的第一上下文信息与所述特征模板的相似度是否大于预设相似度值;
第一确定单元,用于在所述第一上下文信息与所述具有第一关联关系的特征模板的相似度值大于所述预设相似度值时,确定获取到的特征词对的关联关系为所述第一关联关系。
可选的,所述种子文件中还包括:
每对特征词对应的类别信息;
并且,所述获取到的特征词对与所述种子词对的类别相同。
可选的,所述提取模块,具体包括:
提取单元,用于提取每对种子词对的上下文信息作为候选模板;
第二判断单元,用于判断所述候选模板是否满足第一预设条件;
第二确定单元,用于在所述候选模板满足所述第一预设条件时,将所述候选模板作为所述特征模板。
可选的,所述第二判断单元,具体用于:
判断所述候选模板的出现次数是否大于预设次数;和/或
判断所述候选模板的置信度是否大于预设置信度。
可选的,所述置信度通过以下公式计算:
其中Count(Seedi,Patternj)为种子词对与候选模板共同出现次数,Count(Seedi)为种子词对出现次数,Count(Patternj)为候选模板出现次数,其中a和b为累加权重。
可选的,所述装置还包括:
判断模块,用于在基于所述特征模板获取具有关联关系的特征词对后,判断获取到的特征词对与种子文件中包含的特征词对是否存在冲突;
加入模块,用于如果不存在冲突,则将获取到的特征词对加入到种子文件中。
可选的,所述关联关系包含以下关系中的至少一种关系:
"a>b"关系,表示特征词a是特征词b的父节点;
"a==b"关系,表示特征词a与特征词b为同一事物的不同名称;
"a<b"关系,表示特征词a是特征词b的子节点;
"a=b"关系,表示特征词a与特征词b属于同一层级关系。
可选的,所述装置还包括:
第三获取模块,用于获取用户的用户兴趣模型;
调整模块,用于基于所述种子文件对所述用户兴趣模型进行调整。
可选的,所述调整模块,具体包括:
基于所述关联关系中的"a>b"关系,将所述用户兴趣模型中所述b所对应的兴趣归为所述a所对应的兴趣的子集;或
基于所述关联关系中的"a==b"关系关联所述用户兴趣模型中表征同一物体的不同名称;或
基于所述关联关系中的"a<b"关系,将所述用户兴趣模型中所述a所对应的兴趣归为所述b所对应的兴趣的子集;或
基于所述关联关系中的"a=b"关系,扩展所述用户兴趣模型中同一层级的用户兴趣。
可选的,所述调整模块,具体包括:
第三判断单元,用于判断所述用户兴趣模型中,为第一特征词的子节点的特征词的数量是否大于第一预设数量;
第一加入单元,用于在大于所述第一预设数量时,将所述第一特征词加入所述用户兴趣模型。
可选的,所述调整模块,具体包括:
第四判断单元,用于判断所述用户兴趣模型中,与第二特征词的关联关系为“=”的特征词的数量是否大于第二预设数量;
第二加入单元,用于在与所述第二特征词的所述关联关系为“=”的特征词的数量大于所述第二预设数量时,将所述第二特征词加入所述用户兴趣模型。
本发明一个或多个实施例,至少具有以下有益效果:
由于在本发明实施例中,首先获取种子文件,种子文件中包含M个特征词对以及每对特征词之间的关联关系,M为正整数;然后将种子文件中的特征词对作为种子词对,基于种子词对从语料信息中提取出特征模板,特征模板中包含对应种子词对的上下文信息,N为正整数;最后基于特征模板获取具有关联关系的特征词对。也就是说,可以基于种子词对自动分析获得其他特征词对以及对应特征词对的关联关系,不需要通过人工打标方式获取所有的特征词对以及每对特征词之间的关联关系,从而达到了降低人力资源的浪费的技术效果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的嵌入式控制器以产生一个机器,使得通过计算机或其他可编程数据处理设备的嵌入式控制器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。