1.一种基于xgboost算法的热线智能派单方法,其特征在于:包括以下步骤:
第一步,对历史数据进行数据清洗,形成足够数量并且派单分类正确的历史样本集;
第二步,对历史样本中的属性进行筛选,找到对分类最有用的两个属性,案件发生地址和案件描述;
第三步,用自然语言处理技术对案件属性进行标准化处理,应用到xgboost算法中,经过多次训练和优化,最终得到准确率较高的分类模型;
第四步,当有新的热线案件时,将案件的发生地点和案件描述作为参数传入训练好的分类模型,根据分类模型的输出结果将案件派到相对应的部门进行处置,并确定主责部门和协同部门。
2.根据权利要求1所述的基于xgboost算法的热线智能派单方法,其特征在于:所述第一步中,对热线业务系统中的海量历史数据进行清洗,去掉脏数据,选择出带有正确处置部门、完整的案件描述及地址描述的数据,形成有效的训练样本集。
3.根据权利要求1或2所述的基于xgboost算法的热线智能派单方法,其特征在于:所述第三步中,首先通过xgboost方法对热线数据进行部门和街道的二分类;在对热线的数据进行二分类处理之后,根据二分类的结果,进一步对数据进部门和街道的多分类进行训练,最终通过两步分类法形成最终分类模型。
4.根据权利要求3所述的基于xgboost算法的热线智能派单方法,其特征在于:所述第三步中,对训练样本集中,样本的案件发生地址及案件描述进行自然语言处理,根据已有的词库进行分词,去停用词,保留对分类有效的词语。
5.根据权利要求4所述的基于xgboost算法的热线智能派单方法,其特征在于:所述第三步中,对分词处理完的样本,用tf-idf方法计算词频并形成每个案件发生地址及案件描述的词向量。
6.根据权利要求5所述的基于xgboost算法的热线智能派单方法,其特征在于:所述第三步中,对样本数据用xgboost算法进行二分类,识别出属于部门和街道的样本;然后对样本数据用xgboost方法进行部门多分类或者街道多分类。
7.根据权利要求6所述的基于xgboost算法的热线智能派单方法,其特征在于:所述第三步中,对已经形成词向量并格式化了的样本,用xgboost算法进行二分类训练,形成二分类分类器;所述二分类分类器根据案件的描述和地址,初步判断出案件应该属于街道还是部门。
8.根据权利要求7所述的基于xgboost算法的热线智能派单方法,其特征在于:所述第三步中,对二级分类器进行组合,第一级分类器先判断属于街道还是部门,第二级分类器判断案件具体属于哪个街道或者哪个部门;
对于要派遣到街道的案件,根据地址进行训练,得到能正确分类街道的分类器;当有新的案件到来时,输入案件发生的地址,即可得到案件应该派遣到哪个街道;
对于要派遣到部门的案件,根据案件的描述进行训练,得到能正确分类部门的分类器;当有新的案件到来时,输入案件的描述信息,即可得到案件应该派遣到哪个部门。