示意图。
【附图说明】 [0040] :
[0041] 10、通讯录信息获取装置;20、判断推理装置。
【具体实施方式】
[0042] 以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定 和覆盖的多种不同方式实施。
[0043] 参照图1,本发明的优选实施例提供了一种对移动终端的新增联系人进行通讯录 分组的方法,包括:
[0044] 步骤S101,获取移动终端及其通讯录好友共享的通讯录信息,通讯录信息包括联 系人以及联系人的隶属通讯录组别;
[0045] 步骤S102,判断移动终端的新增联系人是否位于通讯录好友的联系人当中,若是, 则判断第一隶属通讯录组别是否与第二隶属通讯录组别相同,第一隶属通讯录组别为新增 联系人在通讯录好友的联系人当中的隶属通讯录组别,第二隶属通讯录组别为通讯录好友 在移动终端的联系人中的隶属通讯录组别,若是,则将第一隶属通讯录组别作为新增联系 人在移动终端的联系人中的隶属通讯录组别。
[0046] 本发明公开的对移动终端的新增联系人进行通讯录分组的方法,通过移动终端及 其通讯录好友共享的通讯录信息判断移动终端的新增联系人是否位于通讯录好友的联系 人当中,并在判定新增联系人位于通讯录好友的联系人当中后,再判断新增联系人在通讯 录好友的联系人当中的隶属通讯录组别是否与通讯录好友在移动终端的联系人当中的隶 属通讯录组别是否相同,并在判定结果为是时将新增联系人在通讯录好友的联系人当中的 隶属通讯录组别作为新增联系人在移动终端的联系人中的隶属通讯录组别,解决了手动添 加新增联系人到设置的通讯录组别中操作复杂、过程繁琐的技术问题,实现了利用移动终 端及其通讯录好友共享的通讯录信息进行逻辑推理,从而间接获取新增联系人在移动终端 中的隶属通讯录组别,大量节省了手动对新增联系人进行通讯录分组的时间,提高了分类 效率,提升了用户体验。
[0047] 需要说明的是,由于移动终端的新增联系人可能位于移动终端的多个通讯录好友 的联系人中,并且在每个通讯录好友中的隶属通讯录组别不相同,故本实施例推理出符合 要求的隶属通讯录组别可能为多个,针对这种情况,本实施例可以选取任意一个隶属通讯 录组别或选取数量最多的隶属通讯录组别作为最终的新增联系人在移动终端的联系人中 的隶属通讯录组别。
[0048] 可选地,将第一隶属通讯录组别作为新增联系人在移动终端的联系人中的隶属通 讯录组别包括:
[0049] 获取新增联系人与通讯录好友的历史联系文本作为第一历史联系文本,以及通讯 录好友与移动终端的历史联系文本作为第二历史联系文本,并基于第一历史联系文本和第 二历史文本计算第一隶属通讯录组别与第二通讯录组别的逻辑关联度;
[0050] 判断逻辑关联度是否大于预设的逻辑关联度阈值,若是,则将第一隶属通讯录组 别作为新增联系人在移动终端的联系人中的隶属通讯录组别。
[0051] 由于根据移动终端及其通讯录好友共享的通讯录信息进行逻辑推理,从而间接获 取新增联系人在移动终端中的隶属通讯录组别可能出现推理的结果不准确的问题,例如当 系统检测到移动终端A的新增联系人B在移动终端A的通讯录好友C的联系人当中的隶属 通讯录组别名称为"朋友",且通讯录好友C在移动终端A的联系人当中的隶属通讯录组别 名称也为"朋友",若直接将"朋友"通讯录组别作为新增联系人B在移动终端A的联系人中 的隶属通讯录组别,则可能出现分类不准确的问题,即C的朋友并不一定是A的朋友。针对 该问题,本实施例通过选取逻辑关联度指标来定量描述第一隶属通讯录组别与第二通讯录 组别的逻辑关联度。具体地,本实施例通过获取新增联系人与通讯录好友的历史联系文本 作为第一历史联系文本,以及通讯录好友与移动终端的历史联系文本作为第二历史联系文 本,并基于第一历史联系文本和第二历史文本计算第一隶属通讯录组别与第二通讯录组别 的逻辑关联度。本实施例通过获取第一历史联系文本与第二历史联系文本来分析第一隶属 通讯录组别与第二通讯录组别的逻辑关联度,并在逻辑关联度大于预设的逻辑关联度阈值 时才将第一隶属通讯录组别作为新增联系人在移动终端的联系人中的隶属通讯录组别,避 免了根据移动终端及其通讯录好友共享的通讯录信息进行逻辑推理,从而间接获取新增联 系人在移动终端中的隶属通讯录组别可能出现推理的结果不准确的问题,提高了分类的准 确性和精确度。
[0052] 可选地,基于第一历史联系文本和第二历史文本计算第一隶属通讯录组别与第二 通讯录组别的逻辑关联度包括:
[0053] 提取第一历史联系文本中的关键词作为第一关键词,并将第一关键词转换成词向 量作为第一词向量;
[0054] 提取第二历史联系文本中的关键词作为第二关键词,并将第二关键词转换成词向 量作为第二词向量;
[0055] 计算第一词向量与第二词向量之间的相似度作为第一隶属通讯录组别与第二通 讯录组别的逻辑关联度。
[0056] 本实施例中的词向量是指词语的向量表示,最简单的表示方法是稀疏描述法 (One-hot Representation),该方法将词表中的每个词表示成一个由0和1组成的向量,其 中,只有一个维度值为1,其余维度值都为〇,向量的维度为词表的大小,词表由所有需要进 行向量化词语组成,词语的个数即为词表的大小,例如,一个词表包含10个词语,则该词表 的所有词语转换成10维的向量,例如,"话筒"的词向量表示为[0, 0, 0, 0, 1,0, 0, 0, 0, 0],"麦 克"的词向量表示为[0, 1,,向量中数值为1的位置对应该词在词表的位 置,即"话筒"位于词表中第6个位置,"麦克"位于词表中第2个位置。另一种表示方法为 分布式描述方法(Distributed Representation),该方法是一种低维词向量表示方法。例 如,一个词表同样包含10个词语时,"话筒"的词向量可以仅通过五维向量进行表示,例如 [0. 792, -0. 177, -0. 107, 0. 109, -0. 542],这种方式能够大大减少向量的维数。
[0057] 由于稀疏描述法一方面存在"词汇鸿沟"的问题,即得到的词向量之间相互孤立, 从两个词向量中不能得出两个词之间的相似关系,另一方面该方法容易出现"维数灾难", 即词向量维数过大,导致训练难度、内存占用量过大。分布式描述方法最大的优势在于能够 让相关或者相似的词转换得到的词向量在距离上更接近,所谓的距离即余弦夹角的距离。 此外,分布式描述方法表示的词向量具有较低的维度,适合于进行机器训练,训练的效率都 较高,所占用的内存相对于稀疏描述法较少。因此,本实施例采用分布式描述方法将关键词 转换为词向量。
[0058] 本实施例中的相似度是指第一关键词与第二关键词之间的相似程度,可以是语义 的相似程度,也可以是词法的相似程度,通过与第一关键词和第二关键词对应的词向量之 间的距离来表示。两个词向量的距离越短,说明该两个词向量对应的词的相似度越大,进一 步说明两个词在语义或是词法上更为接近。常用的描述向量距离的方式有欧氏距离、余弦 夹角等。通过计算两个词向量的夹角余弦值来表示该词向量对应的两个词的相似度的计算 ,,c〇v(m 公式为: C〇S0= ',其中,X、Y分别表示词向量X和词向量Y。cos Θ的取值范围为
[0,1],cos Θ越接近1时,则表示两词语之间的相似度越高,反之,cos Θ值越接近〇,则表 示两词语之间的相似度越低。通过计算词向量的夹角余弦值能够较为直观的反映出两个关 键词的相似度。
[0059] 可选地,计算第一词向量与第二词向量之间的相似度作为第一隶属通讯录组别与 第二通讯录组别的逻辑关联度包括:
[0060] 计算第一词向量与第二词向量之间的相似度作为文本逻辑关联度;
[0061] 计算新增联系人和移动终端之间的通话频率与新增联系人和通讯录好友之间的 通话频率的比值作为第一通话逻辑关联度,计算新增联系人和移动终端之间的通话时长与 新增联系人和通讯录好友之间的通话时长的比值作为第二通话逻辑关联度,计算移动终端 对新增联系人发起通讯的选择方式的概率加权和作为第三通话逻辑关联度,其中,选择方 式包括从通讯录对新增联系人发起通讯、从历史通话记