1.本技术涉及人工智能领域中的自然语言处理技术,尤其涉及一种基于义原的词语语义的预测方法及计算机设备。
背景技术:2.近几年,推荐系统已经被广泛应用在手机、电视、智能音箱、智能耳机等产品中。例如,在手机产品的应用程序(application,app)应用市场中,推荐系统可以帮助用户匹配更合适的app,并且可以提升应用市场本身的app分发效率;在信息流产品中,推荐系统可以帮助用户匹配更加符合兴趣口味的信息,节省用户时间的同时,也提升了新闻整体的阅读量。然而,社会的快速发展随之带来新的词汇、概念等层出不穷,尤其在互联网上,每天都有新的词汇产生,如:蓝瘦香菇、十动然拒、新冠病毒、耗子尾汁等。对这些词语语义的快速、准确的理解和表示,是推荐系统面临的一大挑战。
3.目前对词语语义的表示方法普遍采用的是词语向量化表示,主要分为两种:a、一种是基于词语的独热编码(one
‑
hot)表示,如图1所示,每个词语均表示为一个n维0
‑
1向量,n是词表的大小,通常在几十万到上千万之间(向量长度一般为对应字典的长度),向量中的每个维度表示词表中的一个词语,并且在该n维0
‑
1向量中,只有当前词语所在位置的值置为1,其余位置为0;b、另一种是基于词语的稠密嵌入(dense embedding)表示,如图2所示,每个词语可表示为n维实数向量,通常n在几百到一千之间,向量的每个维度用于表征词语的一些特性/属性(如,性别、动词、复数等),其不具备具体含义,通过对向量之间的计算(如,距离)来表示词语语义之间的亲疏。
4.上述方式a相当于是给每个词语编了个号,但词语和词语之间的关系则完全体现不出来,表示能力弱,且向量非常稀疏,存储开销大;上述方式b虽然能够通过计算来表示词语与词语之间的语义关系,不过向量中的每个维度的含义并不明确,可解释性比较差,具体在推荐系统中,这种方式的计算难以给出推荐理由。
技术实现要素:5.本技术实施例提供了一种基于义原的词语语义的预测方法及计算机设备,该方法基于义原构建词语的语义表示空间(即义原空间),并将已定义的词语(即第一词语)表示在该义原空间内,词语在义原空间的向量表示由两部分组成,一部分的取值由词语的类别义原决定,另一部分的取值由词语的扩展描述以及该扩展描述与类别义原的关联关系决定(这部分的具体取值通过模型学习得到),由于义原的含义明确,所以本技术的用于表征词语的向量具有可解释性;并且,在面对新增词语(即第二词语),可计算新增词语与已知词语之间的亲疏关系(即相关性),由已知词语在义原空间的向量表示推导出新增词语在义原空间的向量表示,经由该方法预测得到的新增词语具有强表征能力。本技术方法可与推荐系统结合,用于解决推荐系统的新词理解和表示问题,提升推荐质量。
6.基于此,本技术实施例提供以下技术方案:
7.第一方面,本技术实施例首先提供一种基于义原的词语语义的预测方法,可用于自然语言处理领域中,该方法包括:首先,基于类别义原、扩展描述、类别义原与扩展描述之间的关系(即关联关系)构建一个义原空间。之后,将已定义的词语(即已知词语,也可称为第一词语)表示到该构建的义原空间当中,每个已知词语均可表示为该义原空间中的一个向量(可称为第一向量),该第一向量由两部分构成,一部分可称为第一子向量,另一部分可称为第二子向量,其中,第一子向量由该已知词语对应的类别义原(可称为第一类别义原)确定,第二子向量与该已知词语相关的扩展描述(可称为第一扩展描述)、该第一扩展描述与该第一类别义原之间的关联关系(可称为第一关联关系)确定,第二子向量内各个元素的取值具体经由模型学习得到,得到的该第一向量就可用于表征该第一词语的语义,每个已定义的词语都可表示为该义原空间中的一个向量。之后,计算第二词语与每个第一词语之间的相关度,该第二词语是未定义的词语。在得到第二词语与每个第一词语之间的相关度之后,就可根据每个第一词语各自在义原空间的第一向量和相关度,得到该第二词语在义原空间的向量表示(可称为第二向量),该第二向量就用于表征该第二词语的语义。
8.在本技术上述实施方式中,基于义原构建词语的语义表示空间(即义原空间),并将已定义的词语(即第一词语)表示在该义原空间内,词语在义原空间的向量表示由两部分组成,一部分的取值由词语的类别义原决定,另一部分的取值由词语的扩展描述以及该扩展描述与类别义原的关联关系决定(这部分的具体取值通过模型学习得到),由于义原的含义明确,所以本技术的用于表征词语的向量具有可解释性;并且,在面对新增词语(即第二词语),可计算新增词语与已知词语之间的亲疏关系(即相关性),由已知词语在义原空间的向量表示推导出新增词语在义原空间的向量表示,经由该方法预测得到的新增词语具有强表征能力。本技术方法可与推荐系统结合,用于解决推荐系统的新词理解和表示问题,提升推荐质量。
9.在第一方面的一种可能的实现方式中,对于一个已知词语,在该已知词语具备n(n≥2)种不同语义的情况下,可以分别获取每种语义各自在义原空间的向量表示(可称为目标向量),即可获得n个词对在义原空间中的n个目标向量,一个目标向量用于表征该已知词语的一种语义,最后,将n个目标向量融合,合并后的结果就为该词语在义原空间的向量表示,也就是所述的第一向量。
10.在本技术上述实施方式中,阐述了当已知词语有多种语义时,针对每种语义都可得到一个目标向量,再将目标向量融合得到最终的第一向量,具备可实现性。
11.在第一方面的一种可能的实现方式中,由于词语在义原空间中的表示实际可以是该词语的各个词对在义原空间的向量表示的融合,因此,可以将同一词语的各个语义在义原空间的向量表示(如,n个目标向量)相加后求平均,从而得到该词语在义原空间的向量表示(即第一向量)。
12.在本技术上述实施方式中,提供一种将多个目标向量进行融合的方式,融合方式简单,且易于操作。
13.在第一方面的一种可能的实现方式中,假设第一词语有m个,由于每个第一词语都对应有一个第一向量,每个第一词语与第二词语都可计算得到一个相关度,所以第一向量也有m个,相关度也有m个,一个第一词语对应一个第一向量,一个第一向量对应一个相关度。因此,根据第一向量与相关度得到第二词语在义原空间的第二向量的一种实现方式可
以是:首先,根据m个相关度的取值排序,计算每个第一词语的动态权重(一个动态权重对应一个第一向量),该动态权重的取值与相关度的取值呈正相关关系,也就是说,相关度取值越大,排名越靠前,说明对应的第一词语与该第二词语的关联关系越紧密,那么该第一词语的动态权重就越大;之后,将每个第一向量、每个第一向量各自对应的相关度、每个第一向量各自对应的动态权重相乘,可得到m个乘积结果;最后,再将这m个乘积结果相加,就可得到该第二词语在义原空间的第二向量。
14.在本技术上述实施方式中,具体阐述了根据第一向量与相关度得到第二词语在义原空间的第二向量的一种实现方式,具备广泛适用性。
15.在第一方面的一种可能的实现方式中,第二词语与每个第一词语之间的相关度的一种计算方式可以是:首先,通过语言模型(如,word2vec、bert等)将每个第一词语以及该第二词语投影为高维的词向量空间中的第一点(多个第一词语则各自投影为对应的第一点)和第二点,即每个被投影的词语都可表示为该词向量空间的一个点(可称为投影点),之后,计算该第二词语对应的投影点(即第二点)与每个第一词语各自对应的投影点(即每个第一点)之间的距离,例如,假设有m个第一词语,这m个词语均可投影为词向量空间的一个点(即投影点),那么可计算该第二词语的投影点各自与这m个第一词语的投影点之间的距离,可得到m个距离,每个距离就用于表征该第二词语与对应的第一词语之间的相关度的取值,并且距离的取值与该相关度的取值呈反相关关系,也就是距离取值越小,关联越紧密,相关度取值越大;距离取值越大,关联越不紧密,相关度取值越小。
16.在本技术上述实施方式中,具体阐述了第二词语与每个第一词语之间的相关度的一种计算方式,将相似度的比较问题转化为词向量空间中投影点的距离比较问题,具备可实现性。
17.在第一方面的一种可能的实现方式中,第二词语与每个第一词语之间的相关度的另一种计算方式还可以是:首先,通过语言模型(如,word2vec、bert等)将每个第一词语以及该第二词语投影为高维的词向量空间中的第一空间向量(多个第一词语则各自投影为对应的第一空间向量)和第二空间向量,即每个被投影的词语都可表示为该词向量空间经过该空间原点的一个空间向量,之后,计算该第二空间向量与每个第一空间向量之间的夹角,例如,假设有m个第一词语,这m个词语均可投影为词向量空间的一个点(即投影点),每个点都可表示为经过空间原点的一个空间向量,一个词语对应一个空间向量,之后可计算该第二词语的空间向量各自与这m个第一词语的空间向量之间的夹角(如,可计算两个空间向量之间的余弦相似度),可得到m个夹角(如,m个余弦相似度),每个夹角(如,余弦相似度)就用于表征该第二词语与对应的第一词语之间的相关度的取值,并且夹角(如,余弦相似度)的取值与该相关度的取值呈反相关关系,也就是夹角(如,余弦相似度)取值越小,关联越紧密,相关度取值越大;夹角(如,余弦相似度)取值越大,关联越不紧密,相关度取值越小。
18.在本技术上述实施方式中,具体阐述了第二词语与每个第一词语之间的相关度的另一种计算方式,将相似度的比较问题转化为词向量空间中向量之间的夹角比较问题,具备灵活性。
19.在第一方面的一种可能的实现方式中,构建的义原空间中与类别义原对应的维度可表示为独热编码(one
‑
hot,也可记为0
‑
1)形式,也就是第一子向量为独热编码表示;与“扩展描述+关联关系”组合对应的维度可表示为稠密嵌入(dense embedding)形式,也就是
第二子向量为稠密嵌入表示。
20.在本技术上述实施方式中,具体阐述了第一向量的一种形式,即一部分为独热编码形式,另一部分为稠密嵌入形式,这种形式兼顾到了向量的存储问题以及可解释性问题。
21.在第一方面的一种可能的实现方式中,在得到第二词语在义原空间的第二向量之后,该方法还可以包括:根据得到的第二向量以及用户行为信息(如,点击情况)构建用户画像,在本技术实施例中,点击情况为目标用户账号通过终端设备点击包含该第二词语的文章的情况;之后,对于候选文章(如,新闻、资讯等),提取候选文章的关键词(如何提取关键词的部分有很多现有工作,如,tfidf方法、textrank方法等,不在本发明讨论范围内),并获得这些关键词在义原空间中的向量表示(可称为第三向量),用此来表征候选文章的特征。接下来,计算用户画像内已有的词语在义原空间的向量表示(即上述所述的第二向量)与候选文章中关键词在义原空间的第三向量之间的相关度,并基于得到的相关度确定候选文章与用户画像之间的匹配度,也就是得到当前用户与该候选文章之间的匹配度,该匹配度可用于推荐排序。最后,在匹配度达到预先设定的阈值的情况下,向目标用户账号当前登录的设备推荐该候选文章,作为一种示例,匹配度可以是排名先后,假设匹配度排在前三,且设定的阈值是向用户推荐匹配度排名前三的候选文章,那么说明该匹配度达到预先设定的阈值;作为另一示例,匹配度可以是具体的取值,在这种情况下,预先设定的阈值也就是某个具体的取值,假设匹配度取值为0.8(总取值假设为1),且预先设定的阈值为0.6,那么说明该匹配度达到预先设定的阈值。
22.在本技术上述实施方式中,具体阐述了本技术上述实施例提供的基于义原的词语语义的预测方法可以进一步与推荐系统相结合,用于解决推荐系统的新词理解和表达问题,以便提升推荐质量。
23.在第一方面的一种可能的实现方式中,点击情况可以是在预设时长内的总点击数,据此可推测出用户对包括该新词的文章的兴趣大小,以便推荐系统可推荐符合用户兴趣的文章;该点击情况也可以是点击频率达到某预设阈值的点击时间段,据此可推测出用户在什么时间段阅读兴趣更大,以便推荐系统可在合适的时间推送。需要注意的是,点击情况除了上述两类外,也可以是其他情况,只要是能给推荐系统提供额外的信息用于提高推荐效果的都属于本技术所述的点击情况,具体本技术不做限定。
24.在本技术上述实施方式中,阐述了点击情况的表现形式,具备可选择性,用户可基于自身需求进行选择,提高了用户使用体验。
25.本技术实施例第二方面提供一种计算机设备,该计算机设备具有实现上述第一方面或第一方面任意一种可能实现方式的方法的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。
26.本技术实施例第三方面提供一种计算机设备,可以包括存储器、处理器以及总线系统,其中,存储器用于存储程序,处理器用于调用该存储器中存储的程序以执行本技术实施例第一方面或第一方面任意一种可能实现方式的方法。
27.本技术实施例第四方面提供一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当该指令在计算机上运行时,使得计算机可以执行上述第一方面或第一方面任意一种可能实现方式的方法。
28.本技术实施例第五方面提供了一种计算机程序或计算机程序产品,当该计算机程
序或计算机程序产品在计算机上运行时,使得计算机执行上述第一方面或第一方面任意一种可能实现方式的方法。
29.本技术实施例第六方面提供了一种芯片,该芯片包括至少一个处理器和至少一个接口电路,该接口电路和该处理器耦合,至少一个接口电路用于执行收发功能,并将指令发送给至少一个处理器,至少一个处理器用于运行计算机程序或指令,其具有实现如上述第一方面或第一方面任意一种可能实现方式的方法的功能,该功能可以通过硬件实现,也可以通过软件实现,还可以通过硬件和软件组合实现,该硬件或软件包括一个或多个与上述功能相对应的模块。此外,该接口电路用于与该芯片之外的其它模块进行通信,例如,该接口电路可将芯片上处理器得到的第二词语在义原空间上的第二向量封装后发生给其他计算机设备,如,发送给其他终端设备(如,手机、个人电脑、智能手表等)或云侧设备(如,云服务器、集群等)。
附图说明
30.图1为基于词语的独热编码表示的一个示意图;
31.图2为词语的稠密嵌入表示的一个示意图;
32.图3为本技术实施例提供的基于义原的词语语义的预测方法的流程框架图;
33.图4为本技术实施例提供的基于义原的词语的预测方法的一个流程示意图;
34.图5为本技术实施例提供的知网中对词语“kid”以及相关义原的一个关系示意图;
35.图6为本技术实施例提供的词对“孩子/kid”在义原空间的向量表示的一个示意图;
36.图7为本技术实施例提供的词对“歌舞团/chorus”在义原空间的向量表示的一个示意图;
37.图8为本技术实施例提供的词语在义原空间的向量表示的一个示意图;
38.图9为本技术实施例提供的新增词语在义原空间的向量表示在推荐系统中应用的整体流程图;
39.图10为本技术实施例提供的用户画像用于推荐系统的一个示意图;
40.图11为本技术实施例提供的事件在义原空间的向量表示在事件挖掘和报警中应用的整体流程图;
41.图12为本技术实施例提供的计算机设备的一个结构示意图;
42.图13为本技术实施例提供的计算机设备的另一结构示意图。
具体实施方式
43.本技术实施例提供了一种基于义原的词语语义的预测方法及计算机设备,该方法在知网(一种语言学资源)的基础上,基于义原构建词语的语义表示空间(即义原空间),并将知网中的已知词语(即第一词语)表示在该义原空间内,词语在义原空间的向量表示由两部分组成,一部分的取值由词语的类别义原决定,另一部分的取值由词语的扩展描述以及该扩展描述与类别义原的关联关系决定(这部分的具体取值通过模型学习得到),由于义原的含义明确,所以本技术的用于表征词语的向量具有可解释性;并且,在面对新增词语(即第二词语),可计算新增词语与已知词语之间的亲疏关系(即相关性),由已知词语在义原空
间的向量表示推导出新增词语在义原空间的向量表示,经由该方法预测得到的新增词语具有强表征能力。本技术方法可与推荐系统结合,用于解决推荐系统的新词理解和表示问题,提升推荐质量。
44.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本技术的实施例中对相同属性的对象在描述时所采用的区分方式。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
45.本技术实施例涉及了许多关于知网、义原等的相关知识,为了更好地理解本技术实施例的方案,下面对本技术实施例可能涉及的相关术语和概念进行介绍。应理解的是,相关的概念解释可能会因为本技术实施例的具体情况有所限制,但不并代表本技术仅能局限于该具体情况,在不同实施例的具体情况可能也会存在差异,具体此处不做限定。
46.知网(hownet):一种中英文双语常识库,以汉语和英语的词汇所代表的概念为描述对象,由义原来对词语的概念进行描述,意在揭示概念与概念之间的以及概念所具有的属性之间的关系。知网中的义原根据从属关系组织成树状结构,根据功能的不同,进一步可分为实体义原树、事件义原树、属性义原树、属性值义原树和次要特征树,共两千多个义原。在这两千多个义原的基础上,截止目前为止,共定义了三万五千多个概念以及二十二万九千多个个中英文词对(英文为word pair,也可称为词条),在本技术实施例中,词对为中文和英文对应的一对词,如,“孩子/kid”为一个词对。
47.义原(sememe):在语言学中是指最小的不可再分的无歧义的语义单位,进一步可分为类别义原和扩展描述两大类。
48.类别义原(categorial sememe):类别义原是一个单词所属的基本类,是构建单词的词义知识的基础和重要组成部分。
49.扩展描述(extended elaboration):扩展描述是对类别义原的进一步描述和补充说明,两个义原之间(如,类别义原a与扩展描述b之间)的关联关系通常可以表示成为三元组的形式:t={(h,r,t)|h,t∈s;r∈r},其中h和t表示义原(不限定是什么义原,可以是类别义原,也可以是扩展描述),r表示这两个义原h和t之间的关联关系。
50.义原空间(sememe space):在本技术实施例中,是基于类别义原、扩展描述、类别义原与扩展描述之间的关联关系构建的高维向量空间。
51.词语向量空间(word embedding space):也可称为词向量空间,是一种高维实数向量空间,每个词语表示为空间中的一个点,可以由word2vec、glove、bert等语言模型在大规模语料上训练得到。这些语言模型经过训练后,针对每个词语,都可将其投影为词语向量空间中的一个点。
52.下面结合附图,对本技术的实施例进行描述。本领域普通技术人员可知,随着技术的发展和新场景的出现,本技术实施例提供的技术方案对于类似的技术问题,同样适用。
53.为了便于理解本方案,首先,对本技术实施例提供的基于义原的词语语义的预测方法的基本原理进行介绍,请参阅图3,图3为本技术实施例提供的基于义原的词语语义的预测方法的流程框架图,该流程具体可分为学习过程和预测过程两部分。在学习过程中,首
先,基于类别义原、扩展描述、类别义原与扩展描述之间的关联关系定义一个义原空间,然后,根据已知词语(即第一词语)的语义特征(即词对),进一步设计这些语义特征在义原空间中的向量表示,向量表示中元素的具体取值通过模型学习得到,据此可得到所有已知义原的词语在义原空间的向量化表示结果;在预测过程中,面对新增词语(即第二词语),首先计算新增词语和已知词语之间的亲疏关系,该亲疏关系可以用相关度取值表示,根据已知词语在义原空间的向量化表示结果以及得到的亲疏关系推导出该新增词语在义原空间的向量化表示结果。
54.接下来,基于上述所述的基本原理,对本技术实施例提供的基于义原的词语的预测方法进行介绍,请参阅图4,图4为本技术实施例提供的基于义原的词语的预测方法的一个流程示意图,该方法可以包括如下步骤:
55.401、获取第一词语在义原空间的第一向量,该第一词语为已定义的词语,该义原空间根据类别义原、扩展描述以及关联关系构建得到,该关联关系用于表征类别义原与扩展描述之间的关系,该第一向量用于表征该第一词语的语义。
56.首先,基于类别义原、扩展描述、类别义原与扩展描述之间的关系(即关联关系)构建一个义原空间。之后,将知网内已定义的词语(即已知词语,也可称为第一词语)表示到该构建的义原空间当中,每个已知词语均可表示为该义原空间中的一个向量(可称为第一向量),该第一向量由两部分构成,一部分可称为第一子向量,另一部分可称为第二子向量,其中,第一子向量由该已知词语相关的类别义原(可称为第一类别义原)确定,第二子向量由该已知词语相关的扩展描述(可称为第一扩展描述)、该第一扩展描述与该第一类别义原之间的关联关系(可称为第一关联关系)确定,第二子向量内各个元素的取值具体经由模型学习得到,得到的该第一向量就可用于表征该第一词语的语义,每个知网内已定义的词语都可表示为该义原空间中的一个向量。
57.在本技术实施例中,构建的义原空间的表示可以是稠密嵌入向量的形式,知网的义原集合中的每个类别义原各自对应向量的一个维度,每个扩展描述以及与该扩展描述有关的关联关系则作为一个整体对应向量的一个维度。为便于理解,这里举例示意:假设知网内一共定义有2000个义原,其中800个为类别义原,另外1200个为扩展描述,那么这800个类别义原中的每个类别义原各自对应为义原空间中的一个维度,也就是义原空间中有800个维度是与类别义原一一对应的;而在这1200个扩展描述中,有的扩展描述可能只与一个类别义原有关联关系,有的扩展描述可能与多个类别义原有关联关系(关联关系各不相同),那么“扩展描述+关联关系”组成的组合各自对应为义原空间中的一个维度,例如,扩展描述“家庭/family”除了与类别义原“人/human”之间的关联关系为“belong”之外,扩展描述“家庭/family”还与类别义原a、类别义原b之间的关联关系分别为a、b(仅为示意),那么“家庭/family,belong”对应向量的一个维度,“家庭/family,a”、“家庭/family,b”对应向量的另外2个维度,也就是说,同样一个扩展描述与类别义原之间不同的关联关系有多少种,那么就分别对应向量的几个维度。假设这1200个扩展描述一共对应存在4200个“扩展描述+关联关系”的组合,那么构建的义原空间就包括5000个维度,其中,800个维度与类别义原一一对应,4200个维度与“扩展描述+关联关系”的组合一一对应。
58.定义好了义原空间的构建方法之后,那么每个词语都可根据自身在知网中的语义,投影为义原空间中的一个点。例如,假设构建的义原空间包括5000个维度,那么每个词
语都可表示为一个包括了5000个元素的向量。
59.需要说明的是,在本技术的一些实施方式中,构建的义原空间中与类别义原对应的维度可表示为独热编码(one
‑
hot,也可记为0
‑
1)形式,也就是第一子向量为独热编码表示;与“扩展描述+关联关系”组合对应的维度可表示为稠密嵌入(dense embedding)形式,也就是第二子向量为稠密嵌入表示。在本技术的另一些实施方式中,构建的义原空间的每个维度都可表示为稠密嵌入形式,也就是第一向量(包括第一子向量和第二子向量)为稠密嵌入表示。具体本技术对向量的表示方法不做限定。为便于阐述,在本技术的下述实施例中,均以第一子向量为独热编码表示、第二子向量为稠密嵌入表示的形式进行说明。
60.为便于理解上述步骤,下面以已知词语“kid”为例,详细介绍如何将该已知词语“kid”表示到构建的义原空间当中。
61.如图5所示,图5为知网中对词语“kid”以及相关义原的一个关系示意图,由图5可知,词语“kid”在知网中有3个语义,可分别由3个中英文词对“孩子/kid”、“逗/kid”、“羔羊/kid”进行表示,每个词对精准表示了“kid”在某一方面的语义。而词对又是由具体的义原来表示的,以“孩子/kid”为例,它表示为类别义原“人/human”,进一步的,该类别义原“人/human”又有3个扩展描述,分别为“家庭/family”、“小辈/junior”和“直系/lineal”,该类别义原“人/human”和这3个扩展描述各自通过3种关联关系(即图5中的边)相关联,因此,类别义原和扩展描述可以表示为三元组的形式,如,(“人/human”、“belong”、“家庭/family”)为一个三元组。
62.由于类别义原、“扩展描述+关联关系”组合分别对应着义原空间的一个维度,因此,对于一个知网中的已知词语,在该已知词语具备n(n≥2)种不同语义的情况下,可首先获得该已知词语各个语义的中英文词对,一种语义对应一个词对,然后再分别获取每个词对各自在义原空间的向量表示(可称为目标向量),即可获得n个词对在义原空间中的n个目标向量,一个词对对应一个目标向量,一个目标向量用于表征该已知词语的一种语义,最终所有词对在义原空间的向量表示合并的结果(即将n个目标向量融合)就为该词语在义原空间的向量表示,也就是所述的第一向量。
63.依然以图5为例,对于词对“孩子/kid”,其在义原空间的向量表示可如图6所示,该向量由两部分组成,其中一部分与类别义原对应,表示为0
‑
1向量,对于类别义原“人/human”,在0
‑
1向量中只有该类别义原“人/human”对应的位置为1,其余位置为0,表示当前词对属于该类别义原,该向量中的另外一部分则与“扩展描述+关联关系”组合对应,表示为稠密嵌入向量,该稠密嵌入向量中元素的取值为实数,一方面表示该词对与当前扩展描述具有关联关系,另一方面,该稠密嵌入向量中元素的取值表明这种关联关系的强弱。元素的具体取值由扩展描述以及该扩展描述与类别义原的关系决定(如在上面的例子中,扩展描述是“家庭/family”,“家庭/family”和类别义原“人/human”的关系是“belong”),元素的具体取值的计算方式将由下文给出。
64.由于词语“kid”有3个中英文词对,图5对应的实施例示意的是其中一个词对“孩子/kid”在义原空间的向量表示,类似地,词语“kid”的其他2个中英文词对在义原空间的向量表示也是按照类似的方式得到,具体此处不予赘述。最后,将3个中英文词对各自在义原空间的向量表示进行融合,就可得到词语“kid”在义原空间的向量表示。
65.需要注意的是,在本技术实施例中,若已知词语只有一种语义,即n=1,也就意味
着该已知词语只有一个中英文词对,那个将该词对也按照上述图5对应的实施例所述的方式表示为该义原空间的向量表示,由于该已知词语只有一种语义,那么得到的该词对在义原空间的向量表示就是该已知词语在义原空间的向量表示。
66.下面从数学上描述如何计算词语在义原空间中的向量表示,由上述可知,词语是由中英文词对来表示词语的不同语义的,因此,首先可给出词对在义原空间中的向量表示方法,具体如下面公式(1)所示:
[0067][0068]
其中,公式中的第一项是表示词对p
i
对应类别义原的0
‑
1向量;公式中的第二项是所有以该类别义原为头实体(即h
j
)的三元组中,扩展描述(即t
j
)和关联关系(即r
j
)所对应的向量的求和,该向量的具体取值由扩展描述和关联关系共同确定,其具体确定方法由下文描述;公式中的第三项与第二项相似,是以该类别义原为尾实体(即t
k
)的三元组中,扩展描述(即h
k
)和关联关系(即r
k
)所对应的向量的求和;公式的第四项是偏置项,与表示对应语义的词对一一对应。
[0069]
作为一个示例,图5中的已知词语“kid”包括一个词对“孩子/kid”,该词对“孩子/kid”在义原空间的向量就可表示为下述式(2)所示:
[0070][0071]
作为另一示例,如图7所示,词对“歌舞团/chorus”既包含类别义原“团体/community”,又包含扩展描述“艺/entertainment”、“表演/perform”等,同时也包含类别义原和扩展描述之间的关联关系“domain”和“agent”。该词对“歌舞团/chorus”在义原空间的向量就可表示为下述式(3)所示:
[0072][0073]
由于有的词语是由一个词对构成其语义含义的,有的词语是由多个词对构成其语义含义,例如上述图5所述的词语“kid”,已知词语“kid”除了有词对“孩子/kid”所表示的语义之外,还有词对“逗/kid”、“羔羊/kid”所表示的语义,这两个词对可分别按照公式(1)表达为义原空间中的两个向量,此处不予赘述。因此,词语在义原空间中的表示实际可以是该词语的各个词对(即各个不同的语义)在义原空间的向量表示的融合,具体地,在本技术的一些实施方式中,可以是将同一词语的各个词对在义原空间的向量表示(如,n个目标向量)相加后求平均,从而得到该词语在义原空间的向量表示(即第一向量),得到的该词语的向量表示可如下公式(4)所示:
[0074][0075]
以词语“kid”为例,“kid”包含三种不同的语义,分别由词对“孩子/kid”、“逗/kid”、“羔羊/kid”所表示,则词语“kid”在义原空间中的向量表示由这3个词对各自在义原空间中的向量表示的平均得到。
[0076]
综上所述,基于构建的义原空间以及公式(1),知网中定义的每个词语都可以表示为义原空间中的一个向量,每个词语各自对应的向量均可由两部分组成,一部分为第一子向量,表示为0
‑
1向量;另一部分为第二子向量,表示为稠密嵌入向量,由于该稠密嵌入向量中元素的取值为实数,一方面表示该词语与当前扩展描述具有关联关系,另一方面,该稠密嵌入向量中元素的取值表明这种关联关系的强弱。元素的具体取值由扩展描述以及该扩展描述与类别义原的关系决定,而每个元素的具体取值可经由模型学习得到。下面详细介绍如何学习得到词语的每个向量的具体取值。
[0077]
首先,由上述可知,已知词语的词对以及该已知词语在义原空间中的向量表示可分别用公式(1)和公式(4)表示,在本技术实施例中,可将公式(1)中的第二项至第四项看做待学习的参数(即元素未确定的取值),由于公式(4)是对公式(1)的表示做加和求平均,因此,公式(4)中的每个各自对应的第二项至第四项均可看做待学习的参数(即元素未确定的取值)。下面分步骤对向量的学习过程进行介绍:
[0078]
步骤1、对待学习的参数随机初始化。
[0079]
由于知网内的词语均是已被定义的词语,因此,就可事先获取每个已知词语与哪些义原相关,具体地,请参阅图8,图8为本技术实施例提供的词语在义原空间的向量表示的一个示意图,假设知网内的某个已知词语c在义原空间中的向量可表示为vc,由于0
‑
1向量的部分是与该词语c的类别义原对应的,因此,基于知网的定义,可知道0
‑
1向量中每个元素的具体取值,也就是说,可获取到0
‑
1向量中哪些元素为1,哪些元素为0,在本技术实施例中,由于0
‑
1向量是真实可靠的,因此可作为模型学习的真值数据;而稠密嵌入向量的部分是与该词语c的“扩展描述+关联关系”的组合对应的,这部分元素的取值为实数,是基于学习得到的。
[0080]
这里需要注意的是,在本技术的一些实施方式中,可将该稠密嵌入向量中的每个元素作为待学习的参数进行学习,以得到每个元素的具体取值,但一般来说,“扩展描述+关联关系”的组合对应的维度数量是很庞大的(达到几千的数量),将每个元素都作为待学习的参数进行学习的话,不仅计算量大而且会降低学习精度。
[0081]
因此,为了减少学习的参数量,在本技术的另一些实施方式中,可基于知网的定义事先排除掉与该词语无关的“扩展描述+关联关系”组合对应的维度上的元素取值。也就是基于知网定义,可事先排除掉稠密嵌入向量中哪些维度与该词语c无关,作为一种示例,假设构建的义原空间包括5000个维度,其中,800个维度与类别义原一一对应,4200个维度与“扩展描述+关联关系”的组合一一对应,且词语c的“扩展描述+关联关系”的组合对应稠密嵌入向量中的某100个维度,那么该稠密嵌入向量中的这100个维度的元素可看做是待学习的参数x、y、z
……
,该稠密嵌入向量中除这100个维度以外维度的元素则置为0,而这100个维度上的元素就作为待学习的参数(即未知参数)。
[0082]
在确定好每个已知词语在义原空间的向量表示以及待学习的参数后,就可对每个已知词语的未知参数进行随机初始化,如,对上述式(3)中的进行随机初始化。
[0083]
步骤2、模型的学习过程。
[0084]
1)首先,将知网中的所有已知词语作为训练数据,将这些已知词语均各自表示为义原空间中如图8所示的向量形式。
[0085]
2)每个已知词语的稠密嵌入向量作为模型的输入数据(也就是上述所述的待学习的参数),使得模型基于该输入数据对词语所属的类别义原进行预测。在本技术实施例中,由于类别义原的数量有限,所以可以把上述预测问题转化为机器学习中的分类问题,即可以选择机器学习中的分类器作为预测器,如,选择全连接神经网络作为分类器。具体地,可以是循环神经网络(recurrent neural network,rnn)、卷积神经网络(convolutional neural networks,cnn)、transformer等,此处不再继续示例。
[0086]
3)在2)的基础上,将已知词语的类别义原的预测结果与该已知词语的真实类别义原(即该训练词语的0
‑
1向量作为真值)相比较,计算损失函数的值。
[0087]
4)根据计算得到的损失函数的值,反向传播更新模型的网络参数值以及已知词语中的待学习的参数,也就是反过来对模型的参数以及已知词语的待学习的参数进行学习和校正。需要说明的是,在本技术实施例中,已知词语中稠密嵌入向量即是作为模型的输入数据,也是作为模型需要训练的一部分。
[0088]
5)重复执行1)至4),使得知网中的所有已知词语都得到训练,从而获得知网中每个已知词语的稠密嵌入向量中元素的具体取值。同时,再结合该已知词语的类别义原信息,获得该已知词语在义原空间的完整表示,即每个已知词语的向量表示中的元素都有具体取值。
[0089]
需要注意的是,在本技术的一些实施方式中,也可以是选择知网中的部分已知词语(如,选取典型的、具有代表性的词语,例如多个语义相近的词语只选择其一)进行训练,以得到该部分已知词语在义原空间的完整表示,这样做的好处是可减少计算量。
[0090]
经过上述步骤1和步骤2,就可得到知网中所有已知词语,或部分有代表性的已知词语,在义原空间中取值明确的向量表示。在本技术实施例中,为便于阐述,下述以得到的是知网中所有已知词语取值明确的向量表示为例进行阐述。
[0091]
402、计算第二词语与第一词语之间的相关度,该第二词语为未定义的词语。
[0092]
在步骤401中,描述了知网中定义的词语(即第一词语)在义原空间的向量表示方式,并通过模型学习的方式得到了每个第一向量的具体取值,接下来,步骤402进一步描述当遇到知网以外的词语(即未被知网定义的词语,可称为第二词语或新增词语)的时候,如何获得这些词语在义原空间的向量表示。
[0093]
首先,计算第二词语与每个第一词语之间的相关度,该第二词语是未在知网内定义的词语。该相关度可通过不同的方式进行计算,包括但不限于:通过语言模型(如,word2vec、bert等)将第二词语以及每个第一词语投影到高维的词向量空间中,每个被投影的词语都可表示为该词向量空间的一个点(或经过该空间原点的一个空间向量)。1)若是第二词语和每个第一词语均是投影为词向量空间中的点,那么可计算该第二词语对应的投影点与每个第一词语各自对应的投影点之间的距离,例如,假设有m个第一词语,这m个词语均
可投影为词向量空间的一个点(即投影点),那么可计算该第二词语的投影点各自与这m个第一词语的投影点之间的距离,可得到m个距离,每个距离就用于表征该第二词语与对应的第一词语之间的相关度的取值,并且距离的取值与该相关度的取值呈反相关关系,也就是距离取值越小,关联越紧密,相关度取值越大;距离取值越大,关联越不紧密,相关度取值越小。2)若是第二词语和每个第一词语均是投影为词向量空间中经过空间原点的向量,那么可计算该第二词语对应的空间向量与每个第一词语各自对应的空间向量之间的夹角,例如,假设有m个第一词语,这m个词语均可投影为词向量空间的一个点(即投影点),每个点都可表示为经过空间原点的一个空间向量,一个词语对应一个空间向量,之后可计算该第二词语的空间向量各自与这m个第一词语的空间向量之间的夹角(如,可计算两个空间向量之间的余弦相似度),可得到m个夹角(如,m个余弦相似度),每个夹角(如,余弦相似度)就用于表征该第二词语与对应的第一词语之间的相关度的取值,并且夹角(如,余弦相似度)的取值与该相关度的取值呈反相关关系,也就是夹角(如,余弦相似度)取值越小,关联越紧密,相关度取值越大;夹角(如,余弦相似度)取值越大,关联越不紧密,相关度取值越小。
[0094]
403、根据第一向量与相关度,得到该第二词语在义原空间的第二向量,该第二向量用于表征该第二词语的语义。
[0095]
在得到第二词语与每个第一词语之间的相关度之后,就可根据每个第一词语各自在义原空间的第一向量和相关度,得到该第二词语在义原空间的向量表示(可称为第二向量),该第二向量就用于表征该第二词语的语义。
[0096]
具体地,假设第一词语有m个,由于每个第一词语都对应有一个第一向量,每个第一词语与第二词语都可计算得到一个相关度,所以第一向量也有m个,相关度也有m个,一个第一词语对应一个第一向量,一个第一向量对应一个相关度。因此,在本技术的一些实施方式中,根据第一向量与相关度得到第二词语在义原空间的第二向量的实现方式可以是:首先,根据m个相关度的取值排序,计算每个第一词语的动态权重(一个动态权重对应一个第一向量),该动态权重的取值与相关度的取值呈正相关关系,也就是说,相关度取值越大,排名越靠前,说明对应的第一词语与该第二词语的关联关系越紧密,那么该第一词语的动态权重就越大;之后,将每个第一向量、每个第一向量各自对应的相关度、每个第一向量各自对应的动态权重相乘,可得到m个乘积结果;最后,再将这m个乘积结果相加,就可得到该第二词语在义原空间的第二向量。作为一种示例,第二词语在义原空间的第二向量的计算可基于如下公式(5)得到:
[0097][0098]
其中,为第二词语和第一词语的余弦相似度,用于表征两个词语和之间的相关度,该相关度也可以根据实际情况替换成其它度量,如,各种距离类的度量。为动态权重,c是一个超参数,具体的取值根据需求自行设定,例如,取值范围可以在[0,1]之间,r
j
表示词语之间相关度(此处是)的降序排名值,即第一词语w
jz
是第二词语的第r
j
个相关关系更近的词语,则是所有已知词语在义原空间上的向量表示,由上述步骤2学习得到。需要注意的是,在本技术的一些实施方式中,动态权重也可
以直接取值为1。
[0099]
综上所述,本技术实施例提供的方法在知网(一种语言学资源)的基础上,基于义原构建词语的语义表示空间(即义原空间),并将知网中的已知词语(即第一词语)表示在该义原空间内,词语在义原空间的向量表示由两部分组成,一部分的取值由词语的类别义原决定,另一部分的取值由词语的扩展描述以及该扩展描述与类别义原的关联关系决定(这部分的具体取值通过模型学习得到),由于义原的含义明确,所以本技术的用于表征词语的向量具有可解释性;并且,在面对新增词语(即第二词语),可计算新增词语与已知词语之间的亲疏关系(即相关性),由已知词语在义原空间的向量表示推导出新增词语在义原空间的向量表示,经由该方法预测得到的新增词语具有强表征能力。本技术方法可与推荐系统结合,用于解决推荐系统的新词理解和表示问题,提升推荐质量。
[0100]
需要说明的是,本技术上述实施例是基于知网内已知词语在义原空间的向量表示来对新增词语在义原空间的向量表示进行预测。知网中除了有描述词语、概念的实体和属性义原树,还有描述事件的时间义原树,因此,在本技术的另一些实施方式中,将上述实施例中的义原资源替换成事件义原,就可将事件表示到义原空间中去。也就是说,可以利用事件义原,结合上述所述的方法同样可计算出事件在义原空间的向量表示,过程是上述计算词语在义原空间的向量表示是类似的,此处不予赘述。
[0101]
本技术上述实施例提供的基于义原的词语语义的预测方法可以进一步与推荐系统相结合,用于解决推荐系统的新词理解和表达问题,以便提升推荐质量。
[0102]
接下来,对新增词语在义原空间的向量表示在推荐系统中的应用过程,具体可参阅图9,图9为本技术实施例提供的新增词语在义原空间的向量表示在推荐系统中应用的整体流程图,首先,在离线系统中,相关新词挖掘流程(未在图9中显现)实时挖掘出互联网上的新词。这些新词,经过本技术上述实施例所述方法对应的装置,获得新词在义原空间的向量表示(即上述所述的第二向量),该向量表示就可表征出该新词的语义。之后,根据得到的向量表示以及用户行为信息(如,点击情况)构建用户画像。如,该点击情况是指目标用户账号通过终端设备点击包含该新词的文章的情况,例如,该点击情况可以是在预设时长内的总点击数,据此可推测出用户对包括该新词的文章的兴趣大小,以便推荐系统可推荐符合用户兴趣的文章;该点击情况也可以是点击频率达到某预设阈值的点击时间段,据此可推测出用户在什么时间段阅读兴趣更大,以便推荐系统可在合适的时间推送。需要注意的是,点击情况除了上述两类外,也可以是其他情况,只要是能给推荐系统提供额外的信息用于提高推荐效果的都属于本技术所述的点击情况,具体本技术不做限定。最后,用户画像和新词信息,被送入到推荐算法中,作为算法的特征加以利用。推荐算法利用这些特征最终产生推荐结果,根据该推荐结果将推荐内容推送到用户的客户端(如,手机、个人电脑、智能手表等)上面。
[0103]
需要说明的是,在本技术实施例中,结合词语在义原空间的向量表示和用户行为信息形成用户画像的方法可以有很多,作为一种示例,可以是通过如下公式(6)所述的方式形成用户画像:
[0104][0105]
其中,是词语w
j
在义原空间的向量表示,是用户u
i
点击包含词语w的文章
的在预设时长内的总点击数,最终计算出来的则作为用户u
i
的用户画像,存储在用户画像服务器上。
[0106]
接下来对用户画像的使用过程进行介绍,请参阅图10,图10为本技术实施例提供的用户画像用于推荐系统的一个示意图,首先,从用户画像库中取得用户画像,在本技术中就是词语在义原空间中的向量表示。然后,对于候选文章(如,新闻、资讯等),提取候选文章的关键词(如何提取关键词的部分有很多现有工作,如,tfidf方法、textrank方法等,不在本发明讨论范围内),并获得这些关键词在义原空间中的向量表示(可称为第三向量),用此来表征候选文章的特征。接下来,计算用户画像内已有的词语在义原空间的向量表示(即上述所述的第二向量)与候选文章中关键词在义原空间的第三向量之间的相关度,并基于得到的相关度确定候选文章与用户画像之间的匹配度,也就是得到当前用户与该候选文章之间的匹配度,该匹配度可用于推荐排序。最后,在匹配度达到预先设定的阈值的情况下,向目标用户账号当前登录的设备推荐该候选文章,作为一种示例,匹配度可以是排名先后,假设匹配度排在前三,且设定的阈值是向用户推荐匹配度排名前三的候选文章,那么说明该匹配度达到预先设定的阈值;作为另一示例,匹配度可以是具体的取值,在这种情况下,预先设定的阈值也就是某个具体的取值,假设匹配度取值为0.8(总取值假设为1),且预先设定的阈值为0.6,那么说明该匹配度达到预先设定的阈值。
[0107]
需要注意的是,上述推荐系统也可以采用更加复杂的推荐系统,如深度神经网络,该推荐系统可采用更加深层的神经网络来计算用户和物品(如,候选文章)之间的关系。
[0108]
在本技术上述实施方式中,本技术实施例提供的基于义原的词语语义的预测方法可以与推荐系统相结合,增强推荐系统对新词的理解能力,从而增强在线的推荐系统的性能。在线的推荐系统再将优质的推荐内容推送到用户的客户端,为用户提供信息服务,可提升推荐系统的质量和用户体验。
[0109]
此外,由于还可以利用事件义原,结合上述所述的方法计算出事件在义原空间的向量表示,接下来,对事件在义原空间的向量表示如何应用到事件挖掘上来进行描述,请参阅图11,图11为本技术实施例提供的事件在义原空间的向量表示在事件挖掘和报警中应用的整体流程图,首先,在离线挖掘过程中,针对输入文本(如,网络文章、内部系统日志等)提取事件相关的关键词,采用的提取方法可以是词表匹配法、tfidf方法、textrank方法等。将事件的关键词表征为事件义原空间中的向量表示,然后进一步获得输入文本在事件义原空间中的向量表示,用来表示该文本代表的事件,并存储在事件库中。在在线检测过程中,针对在线输入文本用同样的方法获得在事件义原空间中的向量表示,然后到事件库中进行检索匹配,最后针对匹配结果采取合适的动作。例如,对于内部系统日志中的危险事件,进行报警操作;对于新闻文章中的已知事件,进行事件合并操作等。
[0110]
在本技术上述实施方式中,可基于本技术实施例所述的方法,涉及一种事件挖掘和检测方式,能够对文本中的事件进行挖掘和检测,以实现提前预警的功能。
[0111]
除了上述所述的业务场景外,本技术上述实施例提供的方法可应用到其他多个业务场景,如,信息流推荐系统中的用户画像模块、召回模块、排序模块、网络服务日志中的报警事件挖掘、华为用户论坛中的事件监测等,具体此处不再示例。
[0112]
在图4所对应的实施例的基础上,为了更好的实施本技术实施例的上述方案,下面还提供用于实施上述方案的相关设备。具体参阅图12,图12为本技术实施例提供的一种计
算机设备的示意图,该计算机设备1200具体可以包括:获取模块1201、第一计算模块1202以及第二计算模块1203,其中,获取模块1201,用于获取第一词语在义原空间的第一向量,该第一词语为已定义的词语,该第一向量用于表征该第一词语的语义,该义原空间根据类别义原、扩展描述以及关联关系构建得到,该关联关系用于表征该类别义原与该扩展描述之间的关系,该第一向量包括第一子向量和第二子向量,该第一子向量由第一类别义原确定,该第二子向量由第一扩展描述以及第一关联关系确定,该第二子向量经由模型学习得到,该第一类别义原为该第一词语对应的类别义原,第一扩展描述为第一类别义原的扩展描述,该第一关联关系为该第一类别义原与该第一扩展描述之间的关联关系;第一计算模块1202,用于计算第二词语与该第一词语之间的相关度,该第二词语为未被该知网定义的词语;第二计算模块1203,用于根据该第一向量与该相关度,得到该第二词语在该义原空间的第二向量,该第二向量用于表征该第二词语的语义。
[0113]
在本技术上述实施方式中,计算机设备1200基于义原构建词语的语义表示空间(即义原空间),并将已知词语(即第一词语)表示在该义原空间内,词语在义原空间的向量表示由两部分组成,一部分的取值由词语的类别义原决定,另一部分的取值由词语的扩展描述以及该扩展描述与类别义原的关联关系决定(这部分的具体取值通过模型学习得到),由于义原的含义明确,所以本技术的用于表征词语的向量具有可解释性;并且,在面对新增词语(即第二词语),可计算新增词语与已知词语之间的亲疏关系(即相关性),由已知词语在义原空间的向量表示推导出新增词语在义原空间的向量表示,经由该方法预测得到的新增词语具有强表征能力。
[0114]
在一种可能的设计中,获取模块1201,具体用于:在第一词语具备n种不同语义的情况下,获取该n种语义在义原空间中对应的n个目标向量,一个目标向量用于表征该第一词语的一种语义;将该n个目标向量融合,得到该第一向量。
[0115]
在本技术上述实施方式中,阐述了当已知词语有多种语义时,获取模块1201针对每种语义都可得到一个目标向量,再将目标向量融合得到最终的第一向量,具备可实现性。
[0116]
在一种可能的设计中,该获取模块1201,具体还用于:对该n个目标向量相加后求平均,得到该第一向量。
[0117]
在本技术上述实施方式中,提供一种将多个目标向量进行融合的方式,融合方式简单,且易于操作。
[0118]
在一种可能的设计中,假设第一词语有m个,由于每个第一词语都对应有一个第一向量,每个第一词语与第二词语都可计算得到一个相关度,所以第一向量也有m个,相关度也有m个,一个第一词语对应一个第一向量,一个第一向量对应一个相关度。因此,第二计算模块1203,具体用于:根据m个相关度的取值排序,计算每个第一词语的动态权重,该动态权重与该相关度呈正相关关系,一个动态权重对应一个第一向量,并将每个第一向量、该每个第一向量各自对应的相关度、该每个第一向量各自对应的动态权重相乘,得到m个乘积结果,最后将该m个乘积结果相加,得到该第二词语在该义原空间的第二向量。
[0119]
在本技术上述实施方式中,具体阐述了第二计算模块1203根据第一向量与相关度得到第二词语在义原空间的第二向量的一种实现方式,具备广泛适用性。
[0120]
在一种可能的设计中,第一计算模块1202,具体用于:通过语言模型(如,word2vec、bert等)将每个第一词语以及第二词语以及投影为高维的空间向量空间中的第
一点和第二点,集每个被投影的词语都可表示为该词向量空间的一个点(即投影点),之后,计算该第二词语对应的投影点(即第二点)与每个第一词语各自对应的投影点(即每个第一点)之间的距离,例如,假设有m个第一词语,这m个词语均可投影为词向量空间的一个点(即投影点),那么可计算该第二词语的投影点各自与这m个第一词语的投影点之间的距离,可得到m个距离,每个距离就用于表征该第二词语与对应的第一词语之间的相关度的取值,并且距离的取值与该相关度的取值呈反相关关系,也就是距离取值越小,关联越紧密,相关度取值越大;距离取值越大,关联越不紧密,相关度取值越小。
[0121]
在本技术上述实施方式中,具体阐述了第一计算模块1202计算第二词语与每个第一词语之间的相关度的一种方式,将相似度的比较问题转化为词向量空间中投影点的距离比较问题,具备可实现性。
[0122]
在一种可能的设计中,第一计算模块1202,具体还可以用于:通过语言模型(如,word2vec、bert等)将每个第一词语以及第二词语投影为高维的词向量空间中的第一空间向量以及第二空间向量,即每个被投影的词语都可表示为该词向量空间经过该空间原点的一个空间向量,之后,计算该第二词语对应的第二空间向量与每个第一词语各自对应的第一空间向量之间的夹角,例如,假设有m个第一词语,这m个词语均可投影为词向量空间的一个点(即投影点),每个点都可表示为经过空间原点的一个空间向量,一个词语对应一个空间向量,之后可计算该第二词语的空间向量各自与这m个第一词语的空间向量之间的夹角(如,可计算两个空间向量之间的余弦相似度),可得到m个夹角(如,m个余弦相似度),每个夹角(如,余弦相似度)就用于表征该第二词语与对应的第一词语之间的相关度的取值,并且夹角(如,余弦相似度)的取值与该相关度的取值呈反相关关系,也就是夹角(如,余弦相似度)取值越小,关联越紧密,相关度取值越大;夹角(如,余弦相似度)取值越大,关联越不紧密,相关度取值越小。
[0123]
在本技术上述实施方式中,具体阐述了第一计算模块1202计算第二词语与每个第一词语之间的相关度的另一种方式,将相似度的比较问题转化为词向量空间中向量之间的夹角比较问题,具备灵活性。
[0124]
在一种可能的设计中,该计算机设备还可以包括应用模块1204,该应用模块1204,用于:根据得到的第二向量以及用户行为信息(如,点击情况)构建用户画像,在本技术实施例中,点击情况为目标用户账号通过终端设备点击包含该第二词语的文章的情况;之后,对于候选文章(如,新闻、资讯等),提取候选文章的关键词,并获得这些关键词在义原空间中的向量表示(可称为第三向量),用此来表征候选文章的特征。接下来,计算用户画像内已有的词语在义原空间的向量表示(即上述所述的第二向量)与候选文章中关键词在义原空间的第三向量之间的相关度,并基于得到的相关度确定候选文章与用户画像之间的匹配度,也就是得到当前用户与该候选文章之间的匹配度,该匹配度可用于推荐排序。最后,在匹配度达到预先设定的阈值的情况下,向目标用户账号当前登录的设备推荐该候选文章,作为一种示例,匹配度可以是排名先后,假设匹配度排在前三,且设定的阈值是向用户推荐匹配度排名前三的候选文章,那么说明该匹配度达到预先设定的阈值;作为另一示例,匹配度可以是具体的取值,在这种情况下,预先设定的阈值也就是某个具体的取值,假设匹配度取值为0.8(总取值假设为1),且预先设定的阈值为0.6,那么说明该匹配度达到预先设定的阈值。
[0125]
在本技术上述实施方式中,具体阐述了本技术上述实施例提供的基于义原的词语语义的预测方法可以进一步与推荐系统相结合,用于解决推荐系统的新词理解和表达问题,以便提升推荐质量。
[0126]
在一种可能的设计中,点击情况可以是在预设时长内的总点击数,据此可推测出用户对包括该新词的文章的兴趣大小,以便推荐系统可推荐符合用户兴趣的文章;该点击情况也可以是点击频率达到某预设阈值的点击时间段,据此可推测出用户在什么时间段阅读兴趣更大,以便推荐系统可在合适的时间推送。需要注意的是,点击情况除了上述两类外,也可以是其他情况,只要是能给推荐系统提供额外的信息用于提高推荐效果的都属于本技术所述的点击情况,具体本技术不做限定。
[0127]
在本技术上述实施方式中,阐述了点击情况的表现形式,具备可选择性,用户可基于自身需求进行选择,提高了用户使用体验。
[0128]
需要说明的是,图12对应实施例所述的计算机设备1200中各模块/单元之间的信息交互、执行过程等内容,与本技术中图4对应的方法实施例基于同一构思,具体内容可参见本技术前述所示的方法实施例中的叙述,此处不再赘述。
[0129]
接下来介绍本技术实施例提供的一种计算机设备,请参阅图13,图13为本技术实施例提供的计算机设备的一种结构示意图,该计算机设备1300上可以部署有图12对应实施例中所描述的模块,用于实现图12对应实施例中计算机设备的功能。计算机设备1300由一个或多个服务器实现,计算机设备1300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,cpu)1322(例如,一个或一个以上中央处理器)和存储器1332,一个或一个以上存储应用程序1342或数据1344的存储介质1330(例如一个或一个以上海量存储设备)。其中,存储器1332和存储介质1330可以是短暂存储或持久存储。存储在存储介质1330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对计算机设备1300中的一系列指令操作。更进一步地,中央处理器1322可以设置为与存储介质1330通信,在计算机设备1300上执行存储介质1330中的一系列指令操作。
[0130]
计算机设备1300还可以包括一个或一个以上电源1326,一个或一个以上有线或无线网络接口1350,一个或一个以上输入输出接口1358,和/或,一个或一个以上操作系统1341,例如windows servertm,mac os xtm,unixtm,linuxtm,freebsdtm等等。
[0131]
本技术实施例中,计算机设备1300可用于执行图4对应实施例中的步骤,例如,中央处理器1322可以用于:基于类别义原、扩展描述、类别义原与扩展描述之间的关系(即关联关系)构建义原空间。之后,将已定义的词语(即已知词语,也可称为第一词语)表示到该构建的义原空间当中,每个已知词语均可表示为该义原空间中的一个向量(可称为第一向量),该第一向量由两部分构成,一部分可称为第一子向量,另一部分可称为第二子向量,其中,第一子向量由该已知词语相关的类别义原(可称为第一类别义原)确定,第二子向量与该已知词语相关的扩展描述(可称为第一扩展描述)、该第一扩展描述与该第一类别义原之间的关联关系(可称为第一关联关系)相关,第二子向量内各个元素的取值具体经由模型学习得到,得到的该第一向量就可用于表征该第一词语的语义,每个已定义的词语都可表示为该义原空间中的一个向量。之后,计算第二词语与每个第一词语之间的相关度,该第二词语是未定义的词语。在得到第二词语与每个第一词语之间的相关度之后,就可根据每个第
一词语各自在义原空间的第一向量和相关度,得到该第二词语在义原空间的向量表示(可称为第二向量),该第二向量就用于表征该第二词语的语义。
[0132]
中央处理器1322,用于执行图4对应实施例中的任意一个步骤。具体内容可参见本技术前述所示的方法实施例中的叙述,此处不再赘述。
[0133]
本技术实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有用于进行信号处理的程序,当其在计算机上运行时,使得计算机执行如前述所示实施例描述中计算机设备所执行的步骤。
[0134]
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本技术提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。
[0135]
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本技术可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用cpu、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本技术而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、u盘、移动硬盘、只读存储器(read only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,训练设备,或者网络设备等)执行本技术各个实施例所述的方法。
[0136]
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
[0137]
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本技术实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、训练设备或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、训练设备或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的训练设备、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,高密度数字视频光盘(digital video disc,dvd))、或者半导体介质(例如,固态硬盘(solid state disk,ssd))等。