一种基于XGBoost算法的热线智能派单方法与流程

文档序号:24240216发布日期:2021-03-12 13:14阅读:245来源:国知局
一种基于XGBoost算法的热线智能派单方法与流程

本发明涉及大数据分析挖掘技术领域,特别涉及一种基于xgboost算法的热线智能派单方法。



背景技术:

12345热线是政务服务中一个非常重要的领域,是连接老百姓和政府的桥梁和纽带。随着政府服务能力的提升,老百姓越来越习惯于通过打12345热线来咨询问题和寻求帮助。因此,每个城市的12345热线业务人员,每天要接大量的工单,并且要根据工单的内容,将它们派到正确的部门进行处置。把工单派到正确的部门,对业务人员的要求非常高,派单的人员需要有大量的业务经验积累,能根据工单的内容快速判断出这属于哪个部门的职责。据统计,培养一个派单正确率达到60%以上的业务人员,大概需要3-5年的时间,加上热线工作人员的流动性比较大,这样的人力成本是非常高的。

此外,各企事业单位的客服人员也面临同样的困境。因此,急需一种能够指导客服人员/业务人员进行正确派单的方式,若能智能推荐出正确的处置部门,结合人工经验,必将大大节省人力成本。

机器学习是近年来比较热门的技术,被越来越多的运用在数据的分析和挖掘中。机器学习中的分类是应用最广泛的方法之一,能解决实际业务中的很多问题。xgboost是boosting算法的其中一种。

为了减少热线派单过程中对人工经验的依赖,提高派单的效率和准确率,本发明提出了一种基于xgboost算法的热线智能派单方法。



技术实现要素:

本发明为了弥补现有技术的缺陷,提供了一种简单高效的基于xgboost算法的热线智能派单方法。

本发明是通过如下技术方案实现的:

一种基于xgboost算法的热线智能派单方法,其特征在于:包括以下步骤:

第一步,对历史数据进行数据清洗,形成足够数量并且派单分类正确的历史样本集;

第二步,对历史样本中的属性进行筛选,找到对分类最有用的两个属性,案件发生地址和案件描述;

第三步,用自然语言处理技术对案件属性进行标准化处理,应用到xgboost算法中,经过多次训练和优化,最终得到准确率较高的分类模型;

第四步,当有新的热线案件时,将案件的发生地点和案件描述作为参数传入训练好的分类模型,根据分类模型的输出结果将案件派到相对应的部门进行处置,并确定主责部门和协同部门。

所述第一步中,对热线业务系统中的海量历史数据进行清洗,去掉脏数据,选择出带有正确处置部门、完整的案件描述及地址描述的数据,形成有效的训练样本集。

所述第三步中,首先通过xgboost方法对热线数据进行部门和街道的二分类;在对热线的数据进行二分类处理之后,根据二分类的结果,进一步对数据进部门和街道的多分类进行训练,最终通过两步分类法形成最终分类模型。

所述第三步中,对训练样本集中,样本的案件发生地址及案件描述进行自然语言处理,根据已有的词库进行分词,去停用词,保留对分类有效的词语。

所述第三步中,对分词处理完的样本,用tf-idf(termfrequency–inversedocumentfrequency,词频-逆文本频率指数)方法计算词频并形成每个案件发生地址及案件描述的词向量。

所述第三步中,对样本数据用xgboost算法进行二分类,识别出属于部门和街道的样本;然后对样本数据用xgboost方法进行部门多分类或者街道多分类。

所述第三步中,对已经形成词向量并格式化了的样本,用xgboost算法进行二分类训练,形成二分类分类器;所述二分类分类器根据案件的描述和地址,初步判断出案件应该属于街道还是部门。

所述第三步中,对二级分类器进行组合,第一级分类器先判断属于街道还是部门,第二级分类器判断案件具体属于哪个街道或者哪个部门;

对于要派遣到街道的案件,根据地址进行训练,得到能正确分类街道的分类器;当有新的案件到来时,输入案件发生的地址,即可得到案件应该派遣到哪个街道;

对于要派遣到部门的案件,根据案件的描述进行训练,得到能正确分类部门的分类器;当有新的案件到来时,输入案件的描述信息,即可得到案件应该派遣到哪个部门。

本发明的有益效果是:该基于xgboost算法的热线智能派单方法,减少了热线派单过程的人工经验依赖,提高了派单的准确率和效率,从而节省了人力资源,降低了用人成本,适宜推广应用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

附图1为本发明基于xgboost算法的热线智能派单方法示意图。

具体实施方式

为了使本技术领域的人员更好的理解本发明中的技术方案,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚,完整的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

boosting算法的思想是将许多弱分类器集成在一起形成一个强分类器。因为xgboost是一种提升树模型,所以它是将许多树模型集成在一起,形成一个很强的分类器。xgboos算法思想就是不断地添加树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数,去拟合上次预测的残差。当我们训练完成得到k棵树,我们要预测一个样本的分数,其实就是根据这个样本的特征,在每棵树中会落到对应的一个叶子节点,每个叶子节点就对应一个分数,最后只需要将每棵树对应的分数加起来就是该样本的预测值。

通过对多种不同的分类算法进行实验,最后发现xgboost算法在热线派单场景的的效果最佳,分类的准确率达到80%左右。

该基于xgboost算法的热线智能派单方法,包括以下步骤:

第一步,对历史数据进行数据清洗,形成足够数量并且派单分类正确的历史样本集;

第二步,对历史样本中的属性进行筛选,找到对分类最有用的两个属性,案件发生地址和案件描述;

第三步,用自然语言处理技术对案件属性进行标准化处理,应用到xgboost算法中,经过多次训练和优化,最终得到准确率较高的分类模型;

第四步,当有新的热线案件时,将案件的发生地点和案件描述作为参数传入训练好的分类模型,根据分类模型的输出结果将案件派到相对应的部门进行处置,并确定主责部门和协同部门。

所述第一步中,对热线业务系统中的海量历史数据进行清洗,去掉脏数据,选择出带有正确处置部门、完整的案件描述及地址描述的数据,形成有效的训练样本集。

所述第三步中,首先通过xgboost方法对热线数据进行部门和街道的二分类;在对热线的数据进行二分类处理之后,根据二分类的结果,进一步对数据进部门和街道的多分类进行训练,最终通过两步分类法形成最终分类模型。

所述第三步中,对训练样本集中,样本的案件发生地址及案件描述进行自然语言处理,根据已有的词库进行分词,去停用词,保留对分类有效的词语。

所述第三步中,对分词处理完的样本,用tf-idf(termfrequency–inversedocumentfrequency,词频-逆文本频率指数)方法计算词频并形成每个案件发生地址及案件描述的词向量。

tf-idf是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

所述第三步中,对样本数据用xgboost算法进行二分类,识别出属于部门和街道的样本;然后对样本数据用xgboost方法进行部门多分类或者街道多分类。

所述第三步中,对已经形成词向量并格式化了的样本,用xgboost算法进行二分类训练,形成二分类分类器;所述二分类分类器根据案件的描述和地址,初步判断出案件应该属于街道还是部门。

所述第三步中,对二级分类器进行组合,第一级分类器先判断属于街道还是部门,第二级分类器判断案件具体属于哪个街道或者哪个部门;

对于要派遣到街道的案件,根据地址进行训练,得到能正确分类街道的分类器;当有新的案件到来时,输入案件发生的地址,即可得到案件应该派遣到哪个街道;

对于要派遣到部门的案件,根据案件的描述进行训练,得到能正确分类部门的分类器;当有新的案件到来时,输入案件的描述信息,即可得到案件应该派遣到哪个部门。

综上,该基于xgboost算法的热线智能派单方法,采用xgboost算法,通过对大量的热线派单历史案件进行训练,得到智能派单的分类器;当有新的案件到来时,传入相应的参数,分类器就能计算出该案件应该被派到哪个部门进行处置。通过这种智能方式来辅助派单,能够减少热线派单过程的人工经验依赖,提高派单的准确率和效率。即使接触业务不久的新人,经过简单的培训,在智能派单算法的指导下也可以达到80%的派单准确率。

以上所述的实施例,只是本发明具体实施方式的一种,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1