一种基于输入法应用的新用户的冷启动方法及设备与流程

文档序号:19736856发布日期:2020-01-18 04:36阅读:202来源:国知局
一种基于输入法应用的新用户的冷启动方法及设备与流程

本申请涉及计算机领域,尤其涉及一种基于输入法应用的新用户的冷启动方法及设备。



背景技术:

现有输入法中,用户在首次使用一种输入法时,一般根据用户自身的输入需求,使用拼音、手写等方式拼写出词语,再在弹出的所有词语中选择自己需要的词汇,比如单字、成语、词语或句子等,在此,现有输入法向用户首次输入的词汇进行弹出的方式可以是根据用户预先下载的常用领域相关词包中选择弹出,也可以是根据马尔可夫链技术将历史中输入了某一词汇的所有人中最多人选择的词汇作为向用户首次输入该某一词汇时所推荐的词汇。当然,用户在输入法中首次输入词汇时,只有在用户多次输入同一个词汇后,输入法才能记住用户的个人习惯,但面对另一个陌生的词,又会出现同样的问题,导致无法向该输入法的新用户进行首次输入词汇的精准推荐。



技术实现要素:

本申请的一个目的是提供一种基于输入法应用的新用户的冷启动方法及设备,以解决现有技术中无法向输入法应用中的新用户首次输入词汇时进行相关词汇的精准推荐的问题。

根据本申请的一个方面,提供了一种基于输入法应用的新用户的冷启动方法,该方法包括:获取输入法应用中的新用户对应的终端所安装的应用程序列表,所述应用程序列表包括至少一个应用程序;根据应用程序列表与所述新用户的应用程序列表相同的所有其他用户对词汇的使用频次,确定所述新用户的初始推荐词库;将所述新用户的应用程序列表和所述初始推荐词库输入至词汇召回模型,预测所述初始推荐词库中的每个初始推荐词汇的使用概率;根据所述使用概率从所述初始推荐词库中确定出所述新用户在所述输入法应用中的冷启动词库。

在一个可能的设计中,本申请提供的一种基于输入法应用的新用户的冷启动方法还包括:训练并确定所述词汇召回模型,其中,所述词汇召回模型用于预测所述输入法应用中的用户对词汇的使用概率。

在一个可能的设计中,所述训练并确定所述词汇召回模型,其中,所述词汇召回模型用于预测所述输入法应用中的用户对词汇的使用概率,可以通过如下方式实现:获取所述输入法应用中的、最热门的第一预设数量的词汇作为用于训练所述词汇召回模型的候选词汇;获取所述输入法应用中的、所有使用用户对应的终端所安装的应用程序列表和使用词汇的历史数据;根据所述第一预设数量的候选词汇、所有所述使用用户的应用程序列表和使用词汇的所述历史数据,确定用于训练所述词汇召回模型的正样本和负样本;对所述正样本和所述负样本进行训练,确定用于预测所述输入法应用中的用户对词汇的使用概率的所述词汇召回模型。

在一个可能的设计中,所述根据所述第一预设数量的候选词汇、所有所述使用用户的应用程序列表和使用词汇的所述历史数据,确定用于训练所述词汇召回模型的正样本和负样本,可以通过如下方式实现:将所述第一预设数量的候选词汇、所有所述使用用户的应用程序列表和使用词汇的所述历史数据处理为用户、应用程序列表、候选词汇及是否使用所述候选词汇的四维数组;将使用过所述候选词汇的使用用户对应的应用程序列表和候选词汇作为所述正样本,同时将未使用所述候选词汇的使用用户对应的应用程序列表和候选词汇作为所述负样本。

在一个可能的设计中,所述将所述第一预设数量的候选词汇、所有所述使用用户的应用程序列表和使用词汇的所述历史数据处理为用户、应用程序列表、候选词汇及是否使用所述候选词汇的四维数组,可以通过如下方式实现:从所述第一预设数量的候选词汇中任选一词汇作为目标候选词汇,重复如下操作直至遍历完所述第一预设数量的候选词汇,以得到用户、应用程序列表、候选词汇及是否使用所述候选词汇的四维数组:根据使用词汇的所述历史数据,分别判断所有所述使用用户中各用户是否使用所述目标候选词汇,若是,则得到使用所述目标候选词汇的使用用户、使用所述目标候选词汇的使用用户的应用程序列表、所述目标候选词汇及使用所述目标候选词汇的四维数组;若否,则得到未使用所述目标候选词汇的使用用户、未使用所述目标候选词汇的使用用户的应用程序列表、所述目标候选词汇及未使用所述目标候选词汇的四维数组。

在一个可能的设计中,所述对所述正样本和所述负样本进行训练,确定用于预测所述输入法应用中的用户对词汇的使用概率的词汇召回模型,可以通过如下方式实现:通过排序学习算法和损失函数对所述正样本和所述负样本进行学习和训练,确定用于预测所述输入法应用中的用户对词汇的使用概率的词汇召回模型。

在一个可能的设计中,所述根据应用程序列表与所述新用户的应用程序列表相同的所有其他用户对词汇的使用频次,确定所述新用户的初始推荐词库,可以通过如下方式实现:获取应用程序列表与所述新用户的应用程序列表相同的所有其他用户对词汇的使用频次;从所述应用程序列表中选择一目标应用程序,重复如下步骤直至遍历完所述应用程序列表中的所述至少一个应用程序,确定出所述新用户的初始推荐词库:分别获取所述所有其他用户在所述目标应用程序中对任意词汇的使用频次;在所述所有其他用户中,若存在目标用户在所述目标应用程序中对一目标词汇的使用频次大于所述所有其他用户中除所述目标用户外的任意用户在所述目标应用程序中对所述目标词汇的使用频次,则将所述目标词汇作为所述初始推荐词词库中的初始推荐词汇。

在一个可能的设计中,所述根据所述使用概率从所述初始推荐词库中确定出所述新用户在所述输入法应用中的启动词库,可以通过如下方式实现:将所述初始推荐词库中的、所述使用概率最高的第二预设数量的初始推荐词汇作为所述新用户在所述输入法应用中的冷启动词库。

根据本申请的另一方面,还提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行时,使所述处理器实现如上述基于输入法应用的新用户的冷启动方法。

根据本申请的另一方面,还提供了一种基于输入法应用的新用户的冷启动设备,其特征在于,该设备包括:一个或多个处理器;计算机可读介质,用于存储一个或多个计算机可读指令,当所述一个或多个计算机可读指令被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述基于输入法应用的新用户的冷启动方法。

与现有技术相比,本申请提供的一种基于输入法应用的新用户的冷启动方法中,首先获取输入法应用中的新用户对应的终端所安装的应用程序列表,所述应用程序列表包括至少一个应用程序;根据应用程序列表与所述新用户的应用程序列表相同的所有其他用户对词汇的使用频次,确定所述新用户的初始推荐词库;然后将所述新用户的应用程序列表和所述初始推荐词库输入至已训练好的词汇召回模型,预测所述初始推荐词库中的每个初始推荐词汇的使用概率;根据所述使用概率从所述初始推荐词库中确定出所述新用户在所述输入法应用中的冷启动词库,以便新用户在该输入法应用中进行词汇首次输入时,可以更精准地向新用户推荐与输入的词汇更相关的词汇,从而提高新用户的输入法使用体验。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:

图1示出根据本申请一个方面的一种基于输入法应用的新用户的冷启动方法的流程示意图;

图2示出根据本申请一个方面的一种基于输入法应用的新用户的冷启动方法在实际应用场景中的流程示意图;

图3示出根据本申请的另一个方面提供的一种基于输入法应用的新用户的冷启动设备的结构示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(例如中央处理器(centralprocessingunit,cpu)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(randomaccessmemory,ram)和/或非易失性内存等形式,如只读存储器(readonlymemory,rom)或闪存(flashram)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(phase-changeram,pram)、静态随机存取存储器(staticrandomaccessmemory,sram)、动态随机存取存储器(dynamicrandomaccessmemory,dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(electricallyerasableprogrammableread-onlymemory,eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(compactdiscread-onlymemory,cd-rom)、数字多功能光盘(digitalversatiledisk,dvd)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

如图1所示,本申请一个方面的一种基于输入法应用的新用户的冷启动方法的流程示意图,应用于对输入法应用中的新用户的冷启动词库进行训练的用户终端或网络设备,该方法包括步骤s11、步骤s12、步骤s13及步骤s14,其中,具体包括:

步骤s11,获取输入法应用中的新用户对应的终端所安装的应用程序列表,所述应用程序列表包括至少一个应用程序;在此,所述应用程序列表中的一个或多个应用程序包括该新用户对应的终端所安装的购物应用程序、生活应用程序、娱乐应用程序、支付应用程序及系统应用程序等,以便通过该应用程序列表能够反映该新用户的喜好及习惯特征等。

步骤s12,根据应用程序列表与所述新用户的应用程序列表相同的所有其他用户对词汇的使用频次,确定所述新用户的初始推荐词库。在此,所述新用户的初始推荐词库为根据应用程序列表与所述新用户的应用程序列表相同的所有其他用户对词汇的使用频次初步向新用户推荐的所有的初始推荐词汇所形成的词库,所述初始推荐词库中的所有初始推荐词汇与所述新用户的应用程序列表相关,比如,若应用程序列表中存在娱乐应用程序,则该初始推荐词库中存在游戏、对垒及队友等初始推荐词汇,若应用程序列表中存在生活应用程序,则该初始推荐词库中存在旅游、车票、饮食及拼车等初始推荐词汇,及若应用程序列表中存在支付应用程序,则该初始推荐词库中存在付款、收款、到账提醒及支出查询等初始推荐词汇等,以实现根据不同的应用程序列表向新用户粗略地推荐相关的初始推荐词汇,以满足具有不同的应用程序列表的新用户的首次输入的推荐需求。

步骤s13,将所述新用户的应用程序列表和所述初始推荐词库输入至词汇召回模型,预测所述初始推荐词库中的每个初始推荐词汇的使用概率;在此,所述词汇召回模型用于对所述初始推荐词库中的每个初始推荐词汇的使用概率进行预测,以便基于预测的使用概率将所述初始推荐词库中的部分初始推荐词汇召回,使得留下的初始推荐词汇更符合该新用户的首次输入时的推荐需求,从而避免向新用户进行错误的词汇推荐。

步骤s14,根据所述使用概率从所述初始推荐词库中确定出所述新用户在所述输入法应用中的冷启动词库。在此,所述新用户在所述输入法应用中的冷启动词库用于指示所述新用户在输入法中首次输入一词汇时,该输入法应用会向所述新用户推荐与该一词汇相关的词汇的集合,以便新用户在该输入法应用中进行词汇首次输入时,可以更精准地向新用户推荐与输入的词汇更相关的词汇,从而提高新用户的输入法使用体验。

例如,在步骤s11中,若获取的输入法应用中的新用户usera对应的终端所安装的应用程序列表为:应用程序1、应用程序2、应用程序3及应用程序4;在步骤s12中根据应用程序列表与新用户usera的应用程序列表相同的所有其他用户:用户1、用户2、用户3、……、用户m对词汇的使用频次,确定新用户usera的初始推荐词库l初始,以实现通过应用程序列表与所述新用户的应用程序列表相同的所有其他用户对词汇的使用频次来确定向新用户初步推荐的初始推荐词库,在此,用户1、用户2、用户3、……及用户m中的每个用户对应的终端所安装的应用程序列表与所述新用户的应用程序列表相同,即用户1、用户2、用户3、……及用户m中的每个用户对应的终端所安装的应用程序有:应用程序1、应用程序2、应用程序3及应用程序4;在步骤s13中,将所述新用户usera的应用程序列表为:应用程序1、应用程序2、应用程序3及应用程序4和所述初始推荐词库l初始输入至词汇召回模型model,预测所述初始推荐词库l初始中的每个初始推荐词汇被所述新用户usera使用的使用概率;在步骤s14中根据预测的所述新用户使用所述初始推荐词库l初始中的每个初始推荐词汇的使用概率,从所述初始推荐词库l初始中确定出所述新用户在所述输入法应用中的冷启动词库l冷启动,以便新用户在该输入法应用中进行词汇首次输入时,可以更精准地向新用户推荐与输入的词汇更相关的词汇,从而提高新用户的输入法使用体验。

本实施例中,所述步骤s12根据应用程序列表与所述新用户的应用程序列表相同的所有其他用户对词汇的使用频次,确定所述新用户的初始推荐词库,具体包括:

获取应用程序列表与所述新用户的应用程序列表相同的所有其他用户对词汇的使用频次;

从所述应用程序列表中选择一目标应用程序,重复如下步骤直至遍历完所述应用程序列表中的所述至少一个应用程序,确定出所述新用户的初始推荐词库:

分别获取所述所有其他用户在所述目标应用程序中对任意词汇的使用频次;

在所述所有其他用户中,若存在目标用户在所述目标应用程序中对一目标词汇的使用频次大于所述所有其他用户中除所述目标用户外的任意用户在所述目标应用程序中对所述目标词汇的使用频次,则将所述目标词汇作为所述初始推荐词词库中的初始推荐词汇。

例如,统计并获取应用程序列表与新用户usera的应用程序列表:应用程序1、应用程序2、应用程序3及应用程序4相同的所有其他用户:用户1、用户2、用户3、……及用户m中的每个用户对词汇的使用频次;从所述应用程序列表:应用程序1、应用程序2、应用程序3及应用程序4中选择一应用程序2作为目标应用程序,分别获取所有其他用户:用户1、用户2、用户3、……及用户m中的每个用户在该应用程序2中对任意词汇的使用频次,在所有其他用户:用户1、用户2、用户3、……及用户m中,若存在目标用户(比如用户6)在目标应用程序:应用程序2中对目标词汇(比如:付款)的使用频次大于所有其他用户中的用户1、用户2、用户3、用户4、用户5、用户7、……及用户m在该应用程序2中对该目标词汇:付款的使用频次,则将该目标词汇:付款作为初始推荐词汇,遍历完在应用程序2中所使用过的所有词汇,得到基于应用程序2进行推荐的一个或多个初始推荐词汇,比如词汇1、词汇2、词汇3及词汇4;重复上述在应用程序2确定的一个或多个初始推荐词汇的步骤,分别在应用程序1、应用程序3及应用程序4中基于所有其他用户:用户1、用户2、用户3、……及用户m对任意词汇的使用频次,分别对应得到基于应用程序1进行推荐的一个或多个初始推荐词汇:词汇5、词汇6、词汇7及词汇8及词汇9,基于应用程序3进行推荐的一个或多个初始推荐词汇:词汇10、词汇11及词汇12,及基于应用程序4进行推荐的一个初始推荐词汇:词汇13,在遍历完所述应用程序列表:应用程序1、应用程序2、应用程序3及应用程序4中的所有其他用户:用户1、用户2、用户3、……及用户m对任意词汇的使用频次,得到所述应用程序列表中的每个应用程序对应推荐的初始推荐词汇后,将所述应用程序列表中的每个应用程序对应推荐的初始推荐词汇形成所述新用户usera的初始推荐词库,即所述新用户usera的初始推荐词库由词汇1、词汇2、词汇3、词汇4、词汇5、词汇6、词汇7及词汇8、词汇9、词汇10、词汇11、词汇12及词汇13形成,以实现通过应用程序列表与所述新用户的应用程序列表相同的所有其他用户对词汇的使用频次确定初始推荐词库,以便后续可以基于初步确定的初始推荐词库向新用户进行相关的高频词汇的初步推荐,以满足该新用户usera的首次输入时的词汇推荐需求。

接着本申请的上述实施例,本申请一个方面提供的一种基于输入法应用的新用户的冷启动方法还包括:训练并确定所述词汇召回模型,其中,所述词汇召回模型用于预测所述输入法应用中的用户对词汇的使用概率。

例如,为了便于对输入法应用中的用户对任意词汇的使用概率的提前预测,本申请在对输入法应用中的新用户进行词汇的精确推荐之前,还会训练并确定用于预测所述输入法应用中的用户对词汇的词汇召回模型model,通过该词汇召回模型model可以对新用户usera对应的初始推荐词库:词汇1、词汇2、词汇3、词汇4、词汇5、词汇6、词汇7及词汇8、词汇9、词汇10、词汇11、词汇12及词汇13中的每个初始推荐词汇,在所述输入法应用中被新用户usera使用的使用概率进行预测,以便基于预测的使用概率将所述初始推荐词库:词汇1、词汇2、词汇3、词汇4、词汇5、词汇6、词汇7及词汇8、词汇9、词汇10、词汇11、词汇12及词汇13中的部分初始推荐词汇(比如词汇1、词汇3、词汇4、词汇5、词汇6、词汇8、词汇9、词汇10及词汇12)召回,使得留下的初始推荐词汇(词汇2、词汇7、词汇11及词汇13)更符合该新用户的首次输入时的推荐需求,从而避免向新用户进行错误的词汇推荐,从而可以提高向新用户的首次输入词汇时进行推荐的词汇的精确度。

接着本申请的上述实施例,所述训练并确定所述词汇召回模型,其中,所述词汇召回模型用于预测所述输入法应用中的用户对词汇的使用概率,具体包括:

获取所述输入法应用中的、最热门的第一预设数量的词汇作为用于训练所述词汇召回模型的候选词汇;在此,用于训练所述词汇召回模型的候选词汇为该输入法应用中的,用户使用最热门的一个或多个词汇,以便根据该最热门的一个或多个词汇训练出来的词汇召回模型能够向用户推荐最适合用户输入需求的词汇。所述第一预设数量可以是一个或多个,在本申请一优选的实施例中,将所述第一预设数量优选为20个。

获取所述输入法应用中的、所有使用用户对应的终端所安装的应用程序列表和使用词汇的历史数据;

根据所述第一预设数量的候选词汇、所有所述使用用户的应用程序列表和使用词汇的所述历史数据,确定用于训练所述词汇召回模型的正样本和负样本;

对所述正样本和所述负样本进行训练,确定用于预测所述输入法应用中的用户对词汇的使用概率的所述词汇召回模型。

例如,获取输入法应用中的最热门的20个词汇来作为用于训练词汇召回模型model的候选词汇,分别为候选词汇1、候选词汇2、……、候选词汇19及候选词汇20;并收集该输入法应用中的所有使用用户(比如使用用户1、使用用户2、……及使用用户x)中的每个用户对应的终端所安装的应用程序列表和使用词汇的历史数据,在此,每个使用用户对应的终端所安装的应用程序列表可以相同,也可以不同,根据实际安装的一个或多个应用程序确定的;之后,对选取的用于训练词汇召回模型model的20个候选词汇:候选词汇1、候选词汇2、……、候选词汇19及候选词汇20和收集的该输入法应用中的所有使用用户:使用用户1、使用用户2、……及使用用户x中的每个用户的应用程序列表和每个用户使用词汇的历史数据进行数据处理,得到用于训练所述词汇召回模型model的正样本v(正)和负样本v(负);然后,对所述正样本v(正)和所述负样本v(负)进行训练得到用于预测所述输入法应用中的用户对词汇的使用概率的所述词汇召回模型model,以实现基于所述输入法应用中的最热门的第一预设数量的词汇、所述输入法应用中的所有使用用户的应用程序列表和使用词汇的所述历史数据来训练得到所述词汇召回模型model,进而实现对所述词汇召回模型model的训练和确定。

接着本申请的上述实施例,所述根据所述第一预设数量的候选词汇、所有所述使用用户的应用程序列表和使用词汇的所述历史数据,确定用于训练所述词汇召回模型的正样本和负样本,具体包括:

将所述第一预设数量的候选词汇、所有所述使用用户的应用程序列表和使用词汇的所述历史数据处理为用户、应用程序列表、候选词汇及是否使用所述候选词汇的四维数组;

将使用过所述候选词汇的使用用户对应的应用程序列表和候选词汇作为所述正样本,同时将未使用所述候选词汇的使用用户对应的应用程序列表和候选词汇作为所述负样本。

例如,将确定的用于训练所述词汇召回模型model的20个候选词汇:候选词汇1、候选词汇2、……、候选词汇19及候选词汇20、所述输入法应用中的所有使用用户的应用程序列表和使用词汇的所述历史数据进行数据处理,使得处理后的数据为用户id(identity,身份标识号)、该用户对应的应用程序列表、候选词汇id及是否使用所述候选词汇的四维数组,该四维数组中用于指示用户及其对应的应用程序列表和该用户对用于训练所述词汇召回模型model的20个候选词汇的使用情况(使用或未使用);并将使用过所述候选词汇的使用用户对应的应用程序列表和候选词汇作为所述正样本v(正),同时将未使用所述候选词汇的使用用户对应的应用程序列表和候选词汇作为所述负样本v(负),其中,无论是正样本还是负样本,样本中的四维数组为[用户id,应用程序列表,候选词汇id,使用或未使用],实现根据输入法应用中的所有使用用户中的每个用户的应用程序列表和对选取的20个候选词汇的使用情况,来确定用于训练所述词汇召回模型model的正样本v(正)和负样本v(负),从而实现对正样本v(正)和负样本v(负)的提取和确定。

进一步地,所述将所述第一预设数量的候选词汇、所有所述使用用户的应用程序列表和使用词汇的所述历史数据处理为用户、应用程序列表、候选词汇及是否使用所述候选词汇的四维数组,具体包括:

从所述第一预设数量的候选词汇中任选一词汇作为目标候选词汇,重复如下操作直至遍历完所述第一预设数量的候选词汇,以得到用户、应用程序列表、候选词汇及是否使用所述候选词汇的四维数组:

根据使用词汇的所述历史数据,分别判断所有所述使用用户中各用户是否使用所述目标候选词汇,

若是,则得到使用所述目标候选词汇的使用用户、使用所述目标候选词汇的使用用户的应用程序列表、所述目标候选词汇及使用所述目标候选词汇的四维数组;

若否,则得到未使用所述目标候选词汇的使用用户、未使用所述目标候选词汇的使用用户的应用程序列表、所述目标候选词汇及未使用所述目标候选词汇的四维数组。

例如,对确定的用于训练所述词汇召回模型model的20个候选词汇:候选词汇1、候选词汇2、……、候选词汇19及候选词汇20、所述输入法应用中的所有使用用户的应用程序列表和使用词汇的所述历史数据进行四维数组的数据处理时,具体包括如下步骤:步骤一、从所述20个候选词汇:候选词汇1、候选词汇2、……、候选词汇19及候选词汇20中任选一词汇作为目标候选词汇,比如候选词汇4;步骤二、根据输入法应用中的所有使用用户:使用用户1、使用用户2、……及使用用户x中的每个用户使用词汇的历史数据,分别判断所有使用用户:使用用户1、使用用户2、……及使用用户x中的每个用户是否使用过目标候选词汇:候选词汇4,若是则执行步骤三,若否则执行步骤四,其中,若使用过目标候选词汇:候选词汇4,则步骤三、将使用候选词汇4的使用用户、使用候选词汇4的使用用户的应用程序列表、候选词汇4及其使用情况为:使用的数据处理为四维数组,若使用候选词汇4的使用用户有:使用用户2、使用用户6及使用用户12,则四维数组有:[使用用户2,使用用户2对应的应用程序列表,候选词汇4,使用],[使用用户6,使用用户6对应的应用程序列表,候选词汇4,使用]及[使用用户12,使用用户12对应的应用程序列表,候选词汇4,使用];若未使用过目标候选词汇:候选词汇4,则步骤四、将未使用候选词汇4的使用用户、未使用候选词汇4的使用用户的应用程序列表、候选词汇4及其使用情况为:未使用的数据处理为四维数组,则未使用候选词汇4的使用用户有:使用用户1、使用用户3至使用用户5、使用用户7至使用用户11及使用用户13至使用用户x,则四维数组有:[使用用户1,使用用户1对应的应用程序列表,候选词汇4,未使用],[使用用户3,使用用户3对应的应用程序列表,候选词汇4,未使用],[使用用户4,使用用户4对应的应用程序列表,候选词汇4,未使用]、……、直至得到[使用用户x,使用用户x对应的应用程序列表,候选词汇4,未使用];重复上述步骤一至步骤四直至遍历完用于训练所述词汇召回模型model的20个候选词汇:候选词汇1、候选词汇2、……、候选词汇19及候选词汇20中的每个候选词汇,从而得到用户、应用程序列表、候选词汇及是否使用所述候选词汇的所有的四维数组,实现对所述20个候选词汇、所有所述使用用户的应用程序列表和使用词汇的所述历史数据的四维数组数据形式的处理,以便后续能够基于数据处理后得到的四维数组来进行用于训练所述词汇召回模型model的正样本和负样本的确定。

接着本申请的上述实施例,所述步骤s14对所述正样本和所述负样本进行训练,确定用于预测所述输入法应用中的用户对词汇的使用概率的词汇召回模型,具体包括:

通过排序学习算法和损失函数对所述正样本和所述负样本进行学习和训练,确定用于预测所述输入法应用中的用户对词汇的使用概率的词汇召回模型。

需要说明的是,所述排序学习算法是一个有监督的机器学习过程,对每一个戈丁的查询-文档对,抽取特征,通过日志挖掘或者人工标注的方法获取真实数据标注,然后通过排序模型,使得输入能够和实际的数据相似;所述排序学习算法包括但不限于pointwise算法、pairwise算法及listwise算法等,在本申请一优选的实施例中,可以将所述排序学习算法优先为pairwise算法。所述损失函数为用于评价模型预测值和真实值的函数,是一个非负数实值函数,损失函数值越小,模型的性能就越好,反之,损失函数值越大,模型的性能就越不好;所述损失函数可以包括但不限于交叉熵损失函数(即对数损失函数)、平方损失函数、指数损失函数、hinge损失函数、0-1损失函数及绝对值损失函数等,在本申请一优选的实施例中,可以将所述损失函数优先为交叉熵损失函数。

例如,在本申请一优选实施例中,通过排序学习算法:pointwise算法和交叉熵损失函数对所述正样本v(正)和所述负样本(负)进行训练,即通过pointwise算法和交叉熵损失函数对正样本v(正):{[使用用户2,使用用户2对应的应用程序列表,候选词汇4,使用],[使用用户6,使用用户6对应的应用程序列表,候选词汇4,使用]及[使用用户12,使用用户12对应的应用程序列表,候选词汇4,使用],、……}和负样本v(负):{[使用用户1,使用用户1对应的应用程序列表,候选词汇4,未使用],[使用用户3,使用用户3对应的应用程序列表,候选词汇4,未使用],[使用用户4,使用用户4对应的应用程序列表,候选词汇4,未使用]、……、[使用用户x,使用用户x对应的应用程序列表,候选词汇4,未使用],、……}进行学习和训练,得到用于预测所述输入法应用中的用户对词汇的使用概率的词汇召回模型model,使得通过pointwise算法和交叉熵损失函数进行学习和训练得到的词汇召回模型model的预测效果更佳,以便后续能够基于该词汇召回模型model对新用户usera在输入法应用中对所述初始推荐词库中的每个初始推荐词汇的使用概率的有效预测。

接着本申请的上述实施例,所述步骤s14中的根据所述使用概率从所述初始推荐词库中确定出所述新用户在所述输入法应用中的启动词库,具体包括:

将所述初始推荐词库中的、所述使用概率最高的第二预设数量的初始推荐词汇作为所述新用户在所述输入法应用中的冷启动词库。

例如,在所述步骤s12中根据应用程序列表与所述新用户的应用程序列表相同的所有其他用户对词汇的使用频次确定出向所述新用户进行推荐的初始推荐词库:词汇1、词汇2、词汇3、词汇4、词汇5、词汇6、词汇7及词汇8、词汇9、词汇10、词汇11、词汇12及词汇13后,所述步骤s13分别将初始推荐词库中的每个初始推荐词汇:词汇1、词汇2、词汇3、词汇4、词汇5、词汇6、词汇7及词汇8、词汇9、词汇10、词汇11、词汇12及词汇13和所述新用户usera的应用程序列表输入至所述词汇召回模型model,即将新用户usera的应用程序列表和词汇1输入至所述词汇召回模型model,将所述新用户usera的应用程序列表和词汇2输入至所述词汇召回模型model,……,将所述新用户usera的应用程序列表和词汇12输入至所述词汇召回模型model,及将所述新用户usera的应用程序列表和词汇13输入至所述词汇召回模型model,预测得到词汇1的使用概率p1,词汇2的使用概率p2,……,词汇12的使用概率p12及词汇13的使用概率p13;在步骤s14中,根据所述初始推荐词库中的每个初始推荐词汇的使用概率:p1、p2、……、p12及p13,将所述初始推荐词库中的、所述使用概率最高的第二预设数量的初始推荐词汇作为所述新用户在所述输入法应用中的冷启动词库;在申请一优选的实施例中,若所述第二预设数量优先为4个,且所述初始推荐词库中的使用概率:p1、p2、……、p12及p13中使用概率最高的四个概率为:p2、p7、p11和p13,则将所述使用概率最高的四个概率为:p2、p7、p11和p13分别对应的词汇2、词汇7、词汇11和词汇13确定为所述新用户usera在输入法应用中的冷启动词库,以便该新用户usera在该输入法应用中首次输入词汇时,能够将所述冷启动词库中的词汇推荐给所述新用户usera进行推荐词汇的选择,从而实现对新用户usera的首次输入时的词汇的精确推荐,满足该新用户usera的首次输入时的词汇推荐需求。

本申请提供的一种基于输入法应用的新用户的冷启动方法的实际应用场景中,如图2所示。步骤s101获取新用户usera需要登录的输入法应用;步骤s102确定在该输入法应用中输入词汇的用户为新用户usera,即当新用户usera需要在输入法应用中首次输入一词汇时,为了向该新用户usera推荐对应的词汇,以供该新用户usera可以从推荐的词汇中选择需要的词汇,步骤s103会收集该新用户usera对应的终端所安装的应用程序列表;步骤s104根据应用程序列表与所述新用户的应用程序列表相同的所有其他用户对词汇的使用频次,提取与所述应用程序列表相关的关键词以确定所述新用户的初始推荐词库,可以将所述新用户的初始推荐词汇直接推荐给该新用户usera,以便新用户usera能够基于初始推荐词库进行首次输入词汇时的相关词汇推荐,并可以根据新用户usera对初始推荐词库的使用情况进行初始推荐词库中的初始推荐词汇的召回或继续保留作为所述新用户usera的冷启动词库;步骤s105将所述新用户usera的应用程序列表和所述初始推荐词库中的每个初始推荐词汇输入至词汇召回模型,预测所述初始推荐词库中的每个初始推荐词汇的使用概率;在步骤s106中,将所述初始推荐词库中的、所述使用概率最高的第二预设数量的初始推荐词汇作为所述新用户在所述输入法应用中的冷启动词库,以便该新用户usera在该输入法应用中首次输入词汇时,能够将所述冷启动词库中的词汇推荐给所述新用户usera进行推荐词汇的选择,从而实现对新用户usera的首次输入时的词汇的精确推荐,满足该新用户usera的首次输入时的词汇推荐需求。

本申请另一实施例中还提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行时,使所述处理器实现如上述基于输入法应用的新用户的冷启动方法。

本申请另一实施例中还提供了一种基于输入法应用的新用户的冷启动设备,其特征在于,该设备包括:

一个或多个处理器;

计算机可读介质,用于存储一个或多个计算机可读指令,

当所述一个或多个计算机可读指令被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述基于输入法应用的新用户的冷启动方法。

在此,所述基于输入法应用的新用户的冷启动设备中的各实施例的详细内容,具体可参见上述实施例中提供的基于输入法应用的新用户的冷启动方法实施例的对应部分,在此,不再赘述。

图3示出根据本申请的另一个方面提供的一种基于输入法应用的新用户的冷启动设备的结构示意图,该设备包括获取装置11、初始推荐词库确定装置12、预测装置13及冷启动词库确定装置14,其中,

获取装置11,用于获取输入法应用中的新用户对应的终端所安装的应用程序列表,所述应用程序列表包括至少一个应用程序;

初始推荐词库确定装置12,用于根据应用程序列表与所述新用户的应用程序列表相同的所有其他用户对词汇的使用频次,确定所述新用户的初始推荐词库;

预测装置13,用于将所述新用户的应用程序列表和所述初始推荐词库输入至词汇召回模型,预测所述初始推荐词库中的每个初始推荐词汇的使用概率;

冷启动词库确定装置14,用于根据所述使用概率从所述初始推荐词库中确定出所述新用户在所述输入法应用中的冷启动词库。

通过上述基于输入法应用的新用户的冷启动设备端的获取装置11、初始推荐词库确定装置12、预测装置13及冷启动词库确定装置14,实现对新用户在输入法应用中的首次输入时所需要推荐的冷启动词库的训练与确定,以便新用户在该输入法应用中进行词汇首次输入时,可以更精准地向新用户推荐与输入的词汇更相关的词汇,从而提高新用户的输入法使用体验。

需要说明的是,所述获取装置11、初始推荐词库确定装置12、预测装置13及冷启动词库确定装置14执行的内容分别与上述步骤s11、s12、s13及s14中的内容相同或相应相同,为简明起见,在此不再赘述。

综上所述,首先获取输入法应用中的新用户对应的终端所安装的应用程序列表,所述应用程序列表包括至少一个应用程序;根据应用程序列表与所述新用户的应用程序列表相同的所有其他用户对词汇的使用频次,确定所述新用户的初始推荐词库;然后将所述新用户的应用程序列表和所述初始推荐词库输入至已训练好的词汇召回模型,预测所述初始推荐词库中的每个初始推荐词汇的使用概率;根据所述使用概率从所述初始推荐词库中确定出所述新用户在所述输入法应用中的冷启动词库,以便新用户在该输入法应用中进行词汇首次输入时,可以更精准地向新用户推荐与输入的词汇更相关的词汇,从而提高新用户的输入法使用体验。

需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(asic)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,ram存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。

另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本申请的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1