基于词频-逆文本频率预测订单取消的方法、设备及介质与流程

文档序号:33472554发布日期:2023-03-15 08:58阅读:53来源:国知局
基于词频-逆文本频率预测订单取消的方法、设备及介质与流程

1.本技术涉及计算机信息处理技术领域,尤其涉及一种预测网购退单的方法。


背景技术:

2.汽车销量越来越大,但是原材料成本增加、供应链不稳定、车架上涨、产能受限等问题,导致汽车订单积压严重。如何通过技术手段预测潜在退单客户,成为汽车主机厂关心的问题之一。
3.当前更多的功能描述在获客层面,针对获客后的客户分析、客户留存等方案还比较少。
4.如公开号cn110659922b,名称“一种客户筛选方法、装置、服务器及计算机可读存储介质”,获取未激活客户的客户特征数据;将所获取的客户特征数据输入分类决策模型,获得由所述分类决策模型输出的分类参数的评估值;根据所述分类参数的评估值,对所述未激活客户进行筛选。如公开号cn114942974a,名称:“电商平台商品用户评价情感倾向分类方法”,提出一个快速且准确率高的模型去分析商品用户评价的情感倾向,通过计算解析大量的电商平台商品用户评价数据,得到用户对商品的情感倾向,首先对评价数据进行前置处理,采用tf-idf算法得到每个词的权重,对词向量进行加权处理,然后聚合学习w2d2vec特征改进商品用户评价情感分析模型,并进一步优化得到基于深度多级学习的商品用户评价情感分析方法,提高商品情感分析模型的分类性能,电商平台商品用户评价情感倾向分类的准确率、f值和auc都有明显提高,商家可以根据得到的商品用户评价情感倾向了解用户总体上对产品的满意度。如公开号cn110489523b,名称:“一种基于网购评价的细粒度情感分析方法”,公开的一种基于网购评价的细粒度情感分析方法,包括网购评价数据集的采集和预处理;确定最终的实验数据并划分数据集;采用字向量进行文本的训练建立bilstm-crf改进模型,输入字向量和词语位置结合的特征;训练bilstm-crf改进模型并进行情感分析。提供一种基于网购评价的细粒度情感分析方法,提升了情感分析的准确率。
5.上述现有技术主要针对客户是否流失作单纯预测,采用字向量进行文本训练,仅仅针对评论词语位置和字向量特征,训练出的模型用于对用户情感的分析,但没有对与订单关系密切,直接影响订单的文本词句、费率、地理位置等相关文本信息中的进行综合分析,分析出的结果可能并不能与订单是否继续和取消有直接联系。在机器人与客户语音沟通过程中,可能存在不清晰,客户想法不容易被识别,营销缺乏关键数据支撑。


技术实现要素:

6.有鉴于此。本技术获取订单文本信息中的关键词及其他相关信息,确定关键信息的重要程度,通过文本信息中词语的重要度,预测该订单是否有可能被退单,针对性的修改销售策略或者修改回访话术。
7.根据本技术的一方面,提供一种基于词频-逆文本频率预测订单取消的方法,包括步骤:采集电子订单文本信息及其相关信息,根据任意订单信息中关键词语出现的数量和
频率,利用词频-逆文本频率算法构建文本信息的词频-逆文本频率矩阵,融合词频-逆文本频率矩阵及其相关信息创建信息合并表,构建训练集、验证集,对训练集数据进行分箱处理,进行贝叶斯岭回归模型训练,利用验证集对训练后模型进行验证,采用数据基尼不纯度检测进行列的筛选,获得订单信息中每一个维度的重要程度,确定订单文本中关键词语的权重信息,通过贝叶斯岭回归模型反馈多个维度数据的权重,根据维度数据的权重及其数据的分箱值得到订单取消原因的权重,预测客户取消订单的概率。
8.进一步优选,每一个维度数据的权重乘以对应数据的分箱值得到该订单被取消的原因权重,这些权重的分数越大,对取消订单的影响能力越大。
9.根据文本信息分词中包含关键词的评论及关键词出现的频率计算逆文本频率,确定词频-逆文本频率矩阵(tf-idf),具体包括:计算每段文本分词后的关键词语在所有评论中出现的数量t,寻找包含评价关键词语的评论,根据包含评价关键词语w的评论数目tw,评论的总数s,调用公式idf=log(s/(tw+1))计算逆文本频率;获取每条评论中评价关键词语出现的次数,根据序号n的评论中词语w出现的次数t
wn
,序号n中所有词语的数目mn,调用公式tf=(t
wn
/mn)计算词频tf;根据公式:tf-idf=tf*idf构建词频-逆文本频率矩阵。
10.进一步优选,所述融合订单相关附加信息包括:把词频-逆文本频率矩阵与对应包括购买信息、地理信息、税费信息、经销商信息的其他相关信息填入信息合并表的同一行,按行合并信息得到订单特征数据;对训练集中连续值按照等间距初始化为n个等份,对每一列顺序计算n个等份数据团之间卡方值,如果相邻间距的卡方值为0,则优先合并这两个间距。
11.进一步优选,对合并区间,根据公式:计算每一对相邻区间的卡方值,将卡方值最小的一对区间合并,其中,a
ij
为第i区间第j类的实例数量,n是合并区间的样本数,ni是第i组的样本数,cj是第j类样本在合并区间的样本数。
12.进一步优选,将分箱处理后的数据输入至基尼不纯度检测模块,得到订单特征数据每个维度的重要程度,计算预期误差率,选择预期误差率排列靠前预定个数的多维度数据作为贝叶斯岭回归模型的输入数据,选择替代整体最优解,遍历贝叶斯岭回归模型超参,使得评价指标值效果达到最优,预测取消订单概率。
13.根据本技术的一方面,提供一种电子设备,包括:处理器;以及存储程序的存储器,其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据上面所述的基于词频-逆文本频率预测订单取消的方法。
14.根据本技术的一方面,提供一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上面所述的基于词频-逆文本频率预测订单取消的方法。
15.本技术可以根据订单信息文本中关键分词的权重,提炼词语或者句子的重要情况,结合其他附加信息,从而制定策略更有针对性。充分利用直观反映用户订单信息及状态的相关文字信息。融合相关信息确定多维度信息的影响力,获得订单信息中每一个维度的重要程度。得出的权重标识,对关键文字信息价值的获取,利用文本文字信息更容易理解和对比,为针对性的话术提供数值依据。通过算法模型针对订单信息中关键词重要程度等,根
据多个维度信息进行预测和分析计算订单可能被取消的概率。而不仅仅是抽象的数值信息作为信息源。
附图说明
16.在下面结合附图对于示例性实施例的描述中,本技术的更多细节、特征和优点被公开,在附图中:
17.图1示出了根据本技术示例性实施例的基于贝叶斯岭回归模型预测网购客户退单的示例示意图;
18.图2示出了根据本技术实施例的基于词频-逆文本频率预测订单取消系统平台示意图;
19.图3示出了用于实现本技术实施例的示例性电子设备的结构框图。
具体实施方式
20.下面将参照附图更详细地描述本技术的实施例。虽然附图中显示了本技术的某些实施例,然而应当理解的是,本技术可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本技术。应当理解的是,本技术的附图及实施例仅用于示例性作用,并非用于限制本技术的保护范围。
21.应当理解,本技术的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本技术的范围在此方面不受限制。
22.本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本技术中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
23.需要注意,本技术中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
24.本技术实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
25.以下参照附图描述本技术的方案。
26.图1所示为根据本技术示例性实施例的基于贝叶斯岭回归模型预测网购客户退单流程示例示意图。包括,采集文本信息、费率信息及其他信息,对文本信息进行词频-逆文本频率矩阵计算,对通过计算处理后的文本信息及费率等其他信息划分成训练集、验证集,对数据卡方分箱,对数据基尼不纯度检测进行列的筛选,对数据进行贝叶斯岭回归模型训练,对验证集数据进行f1评估,同时获取文本中的权重信息并针对权重大的文件进行话术修改和营销修改。
27.本技术提出的基于词频-逆文本频率算法和贝叶斯岭回归算法预测客户退单的方法。主要利用词频-逆文本频率算法和贝叶斯岭回归算法分析客户退单原因权重、获取退单
概率信息;充分利用语言文字等作为信息源,而不是数值信息;利用算法得出的权重标识,使得语言文字更容易理解和对比,为针对性的话术提供数值依据,对关键文字信息价值的获取。
28.通过贝叶斯岭回归模型反馈多个维度数据的权重,根据维度数据的权重以及每个数据的分箱值得到每个订单取消原因的权重;输入至基尼不纯度检测模块中,并输出每一个维度数据的重要程度,可以根据某维度词语重要程度利用不纯度筛选客户取消订单的因素。
29.如,权重越大的代表该维度影响客户取消订单的能力越大,每维度数据的重要程度乘以每个数据的分箱值得到每个取消订单的具体原因的权重,这些权重是分数越大,取消订单的影响能力越大。
30.具体步骤包括:
31.可通过app评论/客服聊天信息/客服语音回访/国家税务局官网等公开和半公开信息收集获取订单客服相关信息。包括:购买信息、税费信息、地理信息、经销商信息、沟通信息、评论信息等。把沟通信息和评论信息转换成中文文本信息。
32.对中文文本信息利用中文分词工具分词,并去除其中的停用词,得到的分词后的文本分词集合{wn},其中w是每个词语,n是序号。
33.根据文本分词中包含关键词的评论及关键词出现的频率计算逆文本频率,确定词频-逆文本频率矩阵(tf-idf),本示例性实施例具体可采用如下方法获取:
34.首先,将评论文本分段,确定文本分词,将每段文本分词后的词语确定为评价关键词,计算关键词在所有评论中出现的数量t,即词语在t个评论中出现过的数量。
35.寻找包含评价关键词的评论,根据包含评价关键词w的评论数目tw,评论的总数s,调用公式idf=log(s/(tw+1))计算逆文本频率;
36.获取每条评论中评价关键词出现的次数,计算评价关键词出现的频率(词频),根据序号n的评论中评价词w出现的次数t
wn
,序号n评论中所有词语的数目mn,调用公式tf=(t
wn
/mn)计算词频tf。
37.根据公式:tf-idf=tf*idf构建词频-逆文本频率矩阵;
38.对客户筛选下单后成功购买的订单,以及下单后取消的订单打上标签y,如其中,y=0记作下单后购买,y=1记作下单后取消;
39.把词频-逆文本频率矩阵合并其他信息构成数据集,其他信息包括如:购买信息、地理信息、税费信息、经销商信息等等。如表1所示为按行合并信息的信息合并表示例。
40.表1:信息行合并示例表
41.词频-逆文本频率矩阵购买信息地理信息税费信息经销商信息[1,2,3,4,5]10万元重庆10%10人
[0042]
将合并后的数据集划分训练集和验证集。训练集用于训练贝叶斯岭回归模型参数,验证集用于验证训练完成的模型输出结果。
[0043]
将训练集中的连续值进行等间距卡方分箱处理,并合并剩余的其他离散数据:
[0044]
连续值就是信息行合并表同一列中数据去重之后个数大于预定数(如30个)的,认为连续,小于预定数(如30个)的认为离散。逆文本频率为一连串数字,根据卡法值合并离散数据,计算一类、一团数据的权重,这团数据提供的信息价值是一致的。
[0045]
对训练集中数据是连续的值按照等间距初始化n个等份,合并提供信息价值一致的数据团,进行合并减少数据之间的间距。对每一列进行操作计算n个等份数据团之间卡方值,如果相邻间距的卡方值为0,则优先合并这两个间距。将订单特征数据中的连续值进行等间距卡方分箱处理,对数据是连续的值按照等间距初始化n个等份,计算n个等份之间卡方值,合并卡方值的假设机率最大的两个间距,直至剩余预定个间距为止,集中对订单是否被取消的影响程度,获得对取消订单原因提供权重信息。
[0046]
合并区间,计算每一对相邻区间的卡方值;根据公式:
[0047]
计算每一对相邻区间的卡方值,将卡方值最小的一对区间合并。
[0048]
其中,
[0049]aij
为第i区间第j类的实例数量,n是合并区间的样本数,ni是第i组的样本数,cj是第j类样本在合并区间的样本数。
[0050]
对训练样本数据不断合并卡方值最小的一对区间,直至只剩预定个(如10个)间距存在为止。采用合并最小值的方法,方法更简单高效。确保每个间距之间的差异性,有利于分析权重。
[0051]
分箱是为了减少同一列的数据种类,划分数据范围,合并数据。
[0052]
对训练集中的连续值分箱处理的目的在于研究不同产品型号(车型)价格区间及成交价、税费信息等连续值对客户是否取消订单的影响程度更集中,对后续模型处理内聚性更好,泛化能力强。分箱处理还可以对客户取消订单的原因提供权重信息。
[0053]
验证集也进行上述相同的数据处理操作。
[0054]
将分箱处理后的数据输入至基尼不纯度检测模块,计算订单特征数据每一个维度的重要程度,计算预期误差率,选择预期误差率排列靠前的多维度数据作为贝叶斯岭回归模型的输入数据,通过贪心算法原理,通过局部最优选择替代整体最优解,遍历贝叶斯岭回归模型超参,使得评价指标f1值效果达到最优,预测取消订单概率。
[0055]
图2所示为本技术实施例基于词频-逆文本频率预测订单取消系统平台示意图。包括,客服系统,以及客户端app通过数据同步工具建立数据库,构建计算平台,采用微服务平台获取客户订单相关信息,并通过贝叶斯岭回归模型计算每列数据的权重得到文本的影响程度。对经过上述分箱处理后的数据输入至基尼不纯度检测模块中,输出数据为每一个维度的重要程度。具体包括:
[0056]
对输入至基尼不纯度检测模块中的每个输入数据进行基尼不纯度检测,计算每个输入数据的预期误差率,可根据随机森林算法预测误差率。
[0057]
获取预期误差率靠前预定数量(如top20)的维度,其维度表示数据列。
[0058]
按照重要程度筛选的前预定个维度数据作为贝叶斯岭回归模型的输入数据,可采用贪心算法,通过局部最优选择替代整体最优解,遍历贝叶斯岭回归模型超参,使得评价指标f1值效果达到最优;通过贝叶斯岭回归模型预测还没有取消订单的客户中,那些客户在未来一段时间内可能会取消订单,取消订单概率是多大。
[0059]
通过贝叶斯岭回归模型反馈预定维度数据的权重,权重越大的代表该维度影响客
户取消订单的能力越大。上述维度数据的权重乘以每个数据的分箱值得到每个取消订单的具体原因的权重,这些权重是分数越大,取消订单的影响能力越大。
[0060]
本技术示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本技术实施例的方法。
[0061]
本技术示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本技术实施例的方法。
[0062]
本技术示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本技术实施例的方法。
[0063]
参考图3,现将描述可以作为本技术的服务器或客户端的电子设备800的结构框图,其是可以应用于本技术的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本技术的实现。
[0064]
如图3所示,电子设备300包括计算单元301,其可以根据存储在只读存储器(rom)302中的计算机程序或者从存储单元308加载到随机访问存储器(ram)303中的计算机程序,来执行各种适当的动作和处理。在ram 303中,还可存储设备800操作所需的各种程序和数据。计算单元301、rom 302以及ram303通过总线804彼此相连。输入/输出(i/o)接口305也连接至总线304。
[0065]
电子设备300中的多个部件连接至i/o接口805,包括:输入单元306、输出单元307、存储单元308以及通信单元309。输入单元306可以是能向电子设备300输入信息的任何类型的设备,输入单元306可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元307可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元308可以包括但不限于磁盘、光盘。通信单元309允许电子设备300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙设备、wifi设备、wimax设备、蜂窝通信设备和/或类似物。
[0066]
计算单元301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理。例如,在一些实施例中,可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由rom 802和/或通信单元309而被载入和/或安装到电子设备300上。
[0067]
用于实施本技术的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0068]
在本技术的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0069]
如本技术使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(pld)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
[0070]
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0071]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
[0072]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1