本发明涉及互联网技术领域,具体涉及一种确定业务参数的方法、建立词语分类集合的方法及装置。
背景技术:
当前很多业务与业务参数都是直接相关的,业务参数直接影响到业务申请是否能够成功。业务提供方在为用户分配业务时会根据已有的业务参数来评估是否为该用户分配业务。
但目前,在业务提供方有业务参数记录的人只占总人口的一小部分,绝大多数人没有业务参数记录,业务提供方无法对无业务参数记录的用户做出判断,导致业务提供方所提供的业务很难被广泛推广。
技术实现要素:
为了解决现有技术中无法得到绝大多数人的业务参数的问题,本发明实施例提供一种确定业务参数的方法,可以根据用户应用群组的公开文本信息进行业务参数的确定,从而提高了业务参数确定的广泛度和业务推广的广泛度。本发明实施例还提供的建立词语分类集合的方法以及相关装置。
本发明第一方面提供一种确定业务参数的方法,包括:
获取待确定业务参数的用户应用群组中的公开文本信息;
采用预先建立的各类别词语集合对所述公开文本信息进行归类处理,得到所述公开文本信息的类别标签;
确定所述类别标签对应的数值,得到所述公开文本信息的文本数值,所述文本数值用于参与确定所述业务参数。
本发明第二方面提供一种建立词语分类集合的方法,包括:
获取词语库,所述词语库中包括已上线的应用群组中每个应用群组的公开文本信息;
通过词向量转换器word2vec从所述词语库中为每个预先确定的类别标签 确定相似词语,所述相似词语为相似度满足预设条件的词语;
用为每个类别标签确定的所有相似词语组成所述每个类别标签对应的类别词语集合,所述类别词语集合用于确定业务参数。
本发明第三方面提供一种确定业务参数的装置,包括:
获取单元,用于获取待确定业务参数的用户应用群组中的公开文本信息;
归类单元,用于采用预先建立的各类别词语集合对所述获取单元获取的所述公开文本信息进行归类处理,得到所述公开文本信息的类别标签;
确定单元,用于确定所述归类单元归类得到的所述类别标签对应的数值,得到所述公开文本信息的文本数值,所述文本数值用于参与确定所述业务参数。
本发明第四方面提供一种建立词语分类集合的装置,包括:
获取单元,用于获取词语库,所述词语库中包括已上线的应用群组中每个应用群组的公开文本信息;
确定单元,用于通过词向量转换器word2vec从所述获取单元获取的所述词语库中为每个预先确定的类别标签确定相似词语,所述相似词语为相似度满足预设条件的词语;
集合建立单元,用于用所述确定单元为每个类别标签确定的所有相似词语组成所述每个类别标签对应的类别词语集合,所述类别词语集合用于确定业务参数。
本发明实施例采用获取待确定业务参数的用户应用群组中的公开文本信息;采用预先建立的各类别词语集合对所述公开文本信息进行归类处理,得到所述公开文本信息的类别标签;确定所述类别标签对应的数值,得到所述公开文本信息的文本数值,所述文本数值用于参与确定所述业务参数。与现有技术中无法得到绝大多数人的业务参数的问题相比,本发明实施例提供一种确定业务参数的方法,可以根据用户应用群组的公开文本信息进行业务参数的确定,从而提高了业务参数确定的广泛度和业务推广的广泛度。例如:现有技术中无法评估绝大多数人的可信度,而本申请所提供的方案可以根据用户应用群组的公开文本信息进行信用评分,从而提高了信用评分的广泛度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中建立词语分类集合的方法的一实施例示意图;
图2是本发明实施例中确定业务参数的方法的一实施例示意图;
图3是本发明实施例中从建立词语分类集合到确定业务参数的过程示意图;
图4是本发明实施例中从建立词语分类集合到确定业务参数的实例示意图;
图5是本发明实施例中确定业务参数的装置的一实施例示意图;
图6是本发明实施例中确定业务参数的装置的另一实施例示意图;
图7是本发明实施例中建立词语分类集合的装置的一实施例示意图;
图8是本发明实施例中确定业务参数的装置的另一实施例示意图;
图9是本发明实施例中建立词语分类集合的装置的另一实施例示意图。
具体实施方式
本发明实施例提供一种确定业务参数的方法可以根据用户应用群组的公开文本信息进行业务参数的确定,从而提高了业务参数确定的广泛度和业务推广的广泛度。本发明实施例还提供的建立词语分类集合的方法以及相关装置。以下分别进行详细说明。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
随着各种社交应用的广泛普及,在避免涉及用户隐私的情况下,可以选择用户的应用群组中的公开文本信息来分析用户的信用情况,例如:QQ群和微信群中的公开文本信息,公开文本信息是指所有加入该群组的用户都可见的信 息,例如:群名称、群公告和群简介等。这些公开的文本信息是大家都可见的,不涉及到用户隐私,而且,这些应用群是用户根据自己的兴趣爱好和主观意愿主动加入的,这是一种主动的行为,一定程度上反映了用户的心理。需要说明的是,本发明实施例的方案不限于社交应用,所有可以公开的用户应用头像都可以用作本发明实施例。
本发明实施例中,通过挖掘用户的所加入的应用群组的公开文本信息来确定业务参数,实际上该业务参数是能反应用户可信度的参数,例如用户的信用评分。当然,确定用户信用评分的因素可以很多,不限于只有应用群组的公开文本信息,应用群组的公开文本信息可以只是用户信用评分中的一项,将诸多因素的信用评分做综合处理,就可以得到一个可靠的用户信用评分。
本发明实施例中,基于应用群组的公开文本信息来确定与应用群组的公开文本信息相关的业务参数,例如:用户信用评分。
传统的给文本信息标上类别的方法主要有两种,一是基于无监督学习的文本聚类,一是基于有监督学习的文本分类。
基于无监督学习的文本聚类,此技术主要计算所有样本的聚类中心,并通过计算样本到各个聚类中心的距离,与最小距离相关联的聚类中心为其样本所在的类。这种方法所产生出来的类,用在信用评分模型上不具有可解释性,并且本质上属于同一个类别的不同文本,比如:财付通和支付宝都属于在线支付类可能会聚到不同的类。
基于有监督学习的文本分类,此技术主要设计一个分类器,把样本和样本标签作为分类器的输入进行训练,使分类器的目标函数最优,训练好的分类器,可以用来预测文本的类别,达到文本分类的目的。这种方法需要标注大量的文本标签,工作繁琐,且容易出错。
针对以上传统方法及其缺点,本发明实施例提供了一种建立词语分类集合的方法,以及基于建立的词语分类集合确定业务参数的方法。
参阅图1,本发明实施例提供的建立词语分类集合的方法的一实施例包括:
101、获取词语库,所述词语库中包括已上线的应用群组中每个应用群组的公开文本信息。
以QQ中的群组为例,例如:应用群组可以包括投资群组、公益群组、运动群组,以及游戏群组等等,每个群组中的公开文本信息都会添加到词语库中。
公开文本信息是指所有加入该群组的用户都可见的信息,例如:群名称、群公告和群简介等。
102、通过词向量转换器word2vec从所述词语库中为每个预先确定的类别标签确定相似词语,所述相似词语为相似度满足预设条件的词语。
预先确定的类别标签可以是开发人员根据经验知识选取一些对信用评分有用的类别标签,例如教育、公益、呆账、运动和游戏等。
词向量转换器word2vec确定相似词语之前,会将词语库中的公开文本信息划分为词语,然后为每个类别标签确定相似词语,例如:类别标签为运动,则跑步、登山、骑行和徒步等都为运动标签的相似词语。
103、用为每个类别标签确定的所有相似词语组成所述每个类别标签对应的类别词语集合,所述类别词语集合用于确定业务参数。
延续上个步骤的举例,运动标签的类别词语集合就可以包括运动,则跑步、登山、骑行和徒步等相似词语。
本发明实施例中,利用先验知识产生一些类别标签,然后使用word2vec算法找出与各类别标签相关的若干个词语,这样的分类方案既不需要为大量词语做标签,而且分类又准确,速度又快。
可选地,在上述图1对应的实施例的基础上,本发明实施例提供的建立词语分类集合的方法的一个可选实施例中,所述通过词向量转换器word2vec从所述词语库中为每个预先确定的类别标签确定相似词语,可以包括:
通过词向量转换器word2vec计算所述词语库中每个词语的向量值;
根据所述每个词语的向量值与类别标签向量值之间的相似度,为每个预先确定的类别标签确定相似词语。
本发明实施例中,词向量转换器word2vec可以将词语表征为实数值向量的算法,其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为K维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。
在建立词语分类集合后,本发明实施例还提供了利用已建立的词语分类集合确定业务参数的方法。
参阅图2,本发明实施例提供的确定业务参数的方法的一实施例包括:
201、获取待确定业务参数的用户应用群组中的公开文本信息。
公开文本信息是指所有加入该群组的用户都可见的信息,例如:群名称、群公告和群简介等。
例如:用户应用群组包括招商证券群组,则公开的文本信息就可以包括最新理财产品简介。
202、采用预先建立的各类别词语集合对所述公开文本信息进行归类处理,得到所述公开文本信息的类别标签。
预先建立的各类别词语集合可以包括金融类别词语集合,集合中的词语可以包括投资、理财、贷款和存款等等。
公开文本信息包括新理财产品简介,则可以匹配到金融类别词语集合,金融类别词语集合的类别标签是金融,所以确定的类别标签为金融。
203、确定所述类别标签对应的数值,得到所述公开文本信息的文本数值,所述文本数值用于参与确定所述业务参数。
类别标签与数值之间的对应关系可以是预先设置的,例如:教育标签对应的数值是1、游戏标签对应的数值是2、金融标签对应的数值是3和运动标签对应的数值是4等等。当前,类别标签可以有很多个,类别标签与数值会有一一对应关系,本发明实施例中不一一列举。
本发明实施例采用获取待确定业务参数的用户应用群组中的公开文本信息;采用预先建立的各类别词语集合对所述公开文本信息进行归类处理,得到所述公开文本信息的类别标签;确定所述类别标签对应的数值,得到所述公开文本信息的文本数值,所述文本数值用于参与确定所述业务参数。与现有技术中无法得到绝大多数人的业务参数的问题相比,本发明实施例提供一种确定业务参数的方法,可以根据用户应用群组的公开文本信息进行业务参数的确定,从而提高了业务参数确定的广泛度和业务推广的广泛度。例如:现有技术中无法评估绝大多数人的可信度,而本申请所提供的方案可以根据用户应用群组的 公开文本信息进行信用评分,从而提高了信用评分的广泛度。
可选地,在上述图2对应的实施例的基础上,本发明实施例提供的确定业务参数的方法的一可选实施例中,所述采用预先建立的各类别词语集合对所述公开文本信息进行归类处理,得到所述公开文本信息的类别标签,可以包括:
将所述公开文本信息与预先建立的各类别词语集合中的词语进行比对;
当比对的结果满足预设条件时,将所述各类别词语集合所关联的类别标签确定为所述公开文本信息的类别标签。
其中,所述当比对的结果满足预设条件时,将所述各类别词语集合所关联的类别标签确定为所述公开文本信息的类别标签,可以包括:
当所述公开文本信息中所包含的词语与所述各类别词语集合中相似词语相似的数目和相似系数都分别大于各自的预设门限时,将所述各类别词语集合所关联的类别标签确定为所述公开文本信息的类别标签。
本发明实施例中,假设用户第j的群组信息含有第i类标签的n个相似词语,可以用类别词语集合C表示第i类标签的词语集合,类别词语集合C可以为{w1,w2,…,wn},这n个词语可以相同也可以不同,设Distinct(C)为集合C中互不相同的词语数目,Similarity(C)为集合C中所有词语的相似系数之和,若以下条件成立,则用户j含有标签i:
其中,Threshold1和Threshold2为给定的参数。
综上所述,使用先验知识确定类别标签,并用word2vec算法找出相似词语,使语分类集合不仅具有很好的可解释性,同时也提高了计算速度。将社交网络中的应用群组信息衍生出用户信用评分,提高了信用评分的准确度。
为了便于对本发明的方案做整体理解,下面参阅图3介绍本发明实施例中从建立词语分类集合到确定业务参数的过程:
301、获取词语库,所述词语库中包括已上线的应用群组中每个应用群组的公开文本信息。
302、对词语库中的公开文本信息进行分词,将公开文本信息拆分为词语。
303、按照预先定义的类别标签,从分词后的词语库中提取与各类别标签相似度满足预设条件的词语,组成类别词语集合。
304、当要确定业务参数时,输入该用户的用户应用群组的公开文本信息,将公开文本信息与类别词语集合中的词语进行比对,确定用户的公开文本信息的类别标签。
305、确定所述类别标签对应的数值,得到所述公开文本信息的评分数值,所述评分数值用于参与确定用户信用评分。
本发明实施例中,利用先验知识产生一些类别标签,然后使用word2vec算法找出与各标签相关的若干个词语,然后与用户的群组信息比对,从而确定用户的类别标签。具有很好的可解释性,同时不需要标注文本标签,运算速度快等优点。
本发明实施例中从建立词语分类集合到确定业务参数的实例化的过程还可以参阅图4进行理解。
如图4所示,对词语库中的应用群组的公开文本信息进行分词,然后按照标签对词语进行分组,可以得到图4中所示的教育、金融、公益、游戏、运动、呆账和代刷等等类别词语集合,各类别词语结合中所包含的词语可以参阅图4进行理解,例如:教育词语集合中包括教育、辅导、培训、高考和考研等,运动词语集合中包括运动、跑步、骑行、瑜伽和健身等,公益词语集合中包括慈善、捐款、义工和行善等,金融词语集合中包括金融、银行、证券、基金和投资等,其他词语集合中的内部在此不一一赘述。
要确定业务参数时,本发明实例中以QQ群组为例,拉取该用户的QQ群组,包括特区教育、运动减肥、深圳公益群和招商证券群。结合这四个群组的公开文本信息和各类别词语集合,进行信息比对,可以确定这四个群组对应的标签分别为教育、运动、公益和金融。然后确定所述类别标签对应的数值,得到所述公开文本信息的评分数值,所述评分数值用于参与确定所述用户的信用评分。
参阅图5,本发明实施例提供的确定业务参数的装置40的一实施例包括:
获取单元401,用于获取待确定业务参数的用户应用群组中的公开文本信 息;
归类单元402,用于采用预先建立的各类别词语集合对所述获取单元401获取的所述公开文本信息进行归类处理,得到所述公开文本信息的类别标签;
确定单元403,用于确定所述归类单元402归类得到的所述类别标签对应的数值,得到所述公开文本信息的文本数值,所述文本数值用于参与确定所述业务参数。
本发明实施例中,获取单元401获取待确定业务参数的用户应用群组中的公开文本信息;归类单元402采用预先建立的各类别词语集合对所述获取单元401获取的所述公开文本信息进行归类处理,得到所述公开文本信息的类别标签;确定单元403确定所述归类单元402归类得到的所述类别标签对应的数值,得到所述公开文本信息的文本数值,所述文本数值用于参与确定所述业务参数。与现有技术中无法得到绝大多数人的业务参数的问题相比,本发明实施例提供一种确定业务参数的方法,可以根据用户应用群组的公开文本信息进行业务参数的确定,从而提高了业务参数确定的广泛度和业务推广的广泛度。例如:现有技术中无法评估绝大多数人的可信度,而本申请所提供的方案可以根据用户应用群组的公开文本信息进行信用评分,从而提高了信用评分的广泛度。
可选地,在上述图5对应的实施例的基础上,参阅图6,本发明实施例提供的确定业务参数的装置40的一可选实施例中,所述归类单元402包括:
比对子单元4021,用于将所述公开文本信息与预先建立的各类别词语集合中的词语进行比对;
确定子单元4022,用于当所述比对子单元4021的比对的结果满足预设条件时,将所述各类别词语集合所关联的类别标签确定为所述公开文本信息的类别标签。
可选地,在上述图6对应的实施例的基础上,本发明实施例提供的确定业务参数的装置40的另一可选实施例中,
所述确定子单元4022,用于当所述公开文本信息中所包含的词语与所述各类别词语集合中相似词语相似的数目和相似系数都分别大于各自的预设门限时,将所述各类别词语集合所关联的类别标签确定为所述公开文本信息的类别 标签。
图5或图6对应的确定业务参数的装置40的实施例或可选实施例都可以参阅图1至图4部分的相关描述进行理解,本处不再重复赘述。
参阅图7,本发明实施例提供的建立词语分类集合的装置50的一实施例包括:
获取单元501,用于获取词语库,所述词语库中包括已上线的应用群组中每个应用群组的公开文本信息;
确定单元502,用于通过词向量转换器word2vec从所述获取单元501获取的所述词语库中为每个预先确定的类别标签确定相似词语,所述相似词语为相似度满足预设条件的词语;
集合建立单元503,用于用所述确定单元502为每个类别标签确定的所有相似词语组成所述每个类别标签对应的类别词语集合,所述类别词语集合用于确定业务参数。
本发明实施例中,获取单元501获取词语库,所述词语库中包括已上线的应用群组中每个应用群组的公开文本信息;确定单元502通过词向量转换器word2vec从所述获取单元501获取的所述词语库中为每个预先确定的类别标签确定相似词语,所述相似词语为相似度满足预设条件的词语;集合建立单元503用所述确定单元502为每个类别标签确定的所有相似词语组成所述每个类别标签对应的类别词语集合,所述类别词语集合用于确定业务参数。本发明实施例中,利用先验知识产生一些类别标签,然后使用word2vec算法找出与各类别标签相关的若干个词语,这样的分类方案既不需要为大量词语做标签,而且分类又准确,速度又快。
可选地,在上述图7对应的实施例的基础上,本发明实施例提供的建立词语分类集合的装置50的一可选实施例中,
所述确定单元502用于:
通过词向量转换器word2vec计算所述词语库中每个词语的向量值;
根据所述每个词语的向量值与类别标签向量值之间的相似度,为每个预先确定的类别标签确定相似词语。
图7对应的建立词语分类集合的装置50的实施例或任一可选实施例都可以参阅图1至图4中的相关描述进行理解,本处不再重复赘述。
图8是本发明实施例提供的确定业务参数的装置40的结构示意图。所述确定业务参数的装置40包括处理器410、存储器450和输入/输出I/O设备430,存储器450可以包括只读存储器和随机存取存储器,并向处理器410提供操作指令和数据。存储器450的一部分还可以包括非易失性随机存取存储器(NVRAM)。
在一些实施方式中,存储器450存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:
在本发明实施例中,通过调用存储器450存储的操作指令(该操作指令可存储在操作系统中),
获取待确定业务参数的用户应用群组中的公开文本信息;
采用预先建立的各类别词语集合对所述公开文本信息进行归类处理,得到所述公开文本信息的类别标签;
确定所述类别标签对应的数值,得到所述公开文本信息的文本数值,所述文本数值用于参与确定所述业务参数。
本发明实施例提供的确定业务参数的装置40可以根据用户应用群组的公开文本信息进行业务参数的确定,从而提高了业务参数确定的广泛度和业务推广的广泛度。例如:现有技术中无法评估绝大多数人的可信度,而本申请所提供的方案可以根据用户应用群组的公开文本信息进行信用评分,从而提高了信用评分的广泛度。
处理器410控制确定业务参数的装置40的操作,处理器410还可以称为CPU(Central Processing Unit,中央处理单元)。存储器450可以包括只读存储器和随机存取存储器,并向处理器410提供指令和数据。存储器450的一部分还可以包括非易失性随机存取存储器(NVRAM)。具体的应用中确定业务参数的装置40的各个组件通过总线系统520耦合在一起,其中总线系统520除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都标为总线系统520。
上述本发明实施例揭示的方法可以应用于处理器410中,或者由处理器410实现。处理器410可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器410中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器410可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器450,处理器410读取存储器450中的信息,结合其硬件完成上述方法的步骤。
可选地,处理器410用于:
将所述公开文本信息与预先建立的各类别词语集合中的词语进行比对;
当比对的结果满足预设条件时,将所述各类别词语集合所关联的类别标签确定为所述公开文本信息的类别标签。
可选地,处理器410用于:
当所述公开文本信息中所包含的词语与所述各类别词语集合中相似词语相似的数目和相似系数都分别大于各自的预设门限时,将所述各类别词语集合所关联的类别标签确定为所述公开文本信息的类别标签。
图8对应的确定业务参数的装置40的实施例或任一可选实施例都可以参阅图1至图4中的相关描述进行理解,本处不再重复赘述。
图9是本发明实施例提供的建立词语分类集合的装置50的结构示意图。所述建立词语分类集合的装置50包括处理器510、存储器550和输入/输出I/O设备530,存储器550可以包括只读存储器和随机存取存储器,并向处理器510提供操作指令和数据。存储器550的一部分还可以包括非易失性随机存取存储器 (NVRAM)。
在一些实施方式中,存储器550存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:
在本发明实施例中,通过调用存储器550存储的操作指令(该操作指令可存储在操作系统中),
获取词语库,所述词语库中包括已上线的应用群组中每个应用群组的公开文本信息;
通过词向量转换器word2vec从所述词语库中为每个预先确定的类别标签确定相似词语,所述相似词语为相似度满足预设条件的词语;
用为每个类别标签确定的所有相似词语组成所述每个类别标签对应的类别词语集合,所述类别词语集合用于确定业务参数。
本发明实施例中,利用先验知识产生一些类别标签,然后使用word2vec算法找出与各类别标签相关的若干个词语,这样的分类方案既不需要为大量词语做标签,而且分类又准确,速度又快。
处理器510控制建立词语分类集合的装置50的操作,处理器510还可以称为CPU(Central Processing Unit,中央处理单元)。存储器550可以包括只读存储器和随机存取存储器,并向处理器510提供指令和数据。存储器550的一部分还可以包括非易失性随机存取存储器(NVRAM)。具体的应用中建立词语分类集合的装置50的各个组件通过总线系统520耦合在一起,其中总线系统520除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都标为总线系统520。
上述本发明实施例揭示的方法可以应用于处理器510中,或者由处理器510实现。处理器510可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器510中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器510可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理 器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器550,处理器510读取存储器550中的信息,结合其硬件完成上述方法的步骤。
可选地,处理器510用于:
通过词向量转换器word2vec计算所述词语库中每个词语的向量值;
根据所述每个词语的向量值与类别标签向量值之间的相似度,为每个预先确定的类别标签确定相似词语。
图9对应的建立词语分类集合的装置50的实施例或任一可选实施例都可以参阅图1至图4中的相关描述进行理解,本处不再重复赘述。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
以上对本发明实施例所提供的确定业务参数的方法、建立词语分类集合的方法以及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。