基于坐席数据的用户意愿分析方法、装置、电子设备与流程

文档序号:26749875发布日期:2021-09-25 02:09阅读:96来源:国知局
基于坐席数据的用户意愿分析方法、装置、电子设备与流程

1.本发明涉及智能决策领域,尤其涉及一种基于坐席数据的用户意愿分析方法、装置、电子设备及计算机可读存储介质。


背景技术:

2.为适应时代的发展,各个企业必须获取用户意愿,保证企业能够与时俱进。随着时代的逐渐发展,各个公众号、智能客服等智能坐席的出现,使得走访、电话普查的方式逐渐被取代,智能坐席成为获取顾客建议的主流来源方式。更多的坐席数据可以使得企业更加有效的了解市场,制定发展规划,但智能坐席获取的坐席数据的数据类型区分不明显、数据内容杂乱,使得目前在处理这些坐席数据时,还主要通过专业技术人员进行分析,但人工分析的速度逐渐跟不上坐席数据的数量增长速度,因此无法快速处理大量坐席数据,无法得到更加准确的知道广大群众的意愿。


技术实现要素:

3.本发明提供一种基于坐席数据的用户意愿分析方法、装置、电子设备及计算机可读存储介质,其主要目的在于增加坐席数据的规范性,提高用户意愿分析的准确性与效率。
4.为实现上述目的,本发明提供的一种基于坐席数据的用户意愿分析方法,包括:
5.获取坐席数据,对所述坐席数据进行脏字筛除,并对脏字筛除后的坐席数据进行关键字提取,得到有效数据;
6.判断所述有效数据中是否存在异常数值,当所述有效数据中存在异常数值时,将所述有效数据中的异常数值进行数据格式规范化操作,得到有效规范数据;
7.查询所述有效规范数据中的缺失值,并对所述缺失值进行填充处理,得到待分析数据;
8.利用预训练的意愿度模型对所述待分析数据进行特征识别分析,得到所述待分析数据对应的期望意愿,并将所述期望意愿分类存储至预设存储空间;
9.监控所述存储空间,得到所述存储空间中每类期望意愿的数量,并根据所述每类期望意愿的数量将各类期望意愿进行可视化表示,得到意愿实况图。
10.可选的,所述获取坐席数据,对所述坐席数据进行脏字筛除,并对脏字筛除后的坐席数据进行关键字提取,得到有效数据,包括:
11.利用空间数据库数据同步方法监控预构建的智能坐席数据库中的数据生产状况,当所述智能坐席数据库中生成坐席数据时,提取所述坐席数据;
12.根据预设的脏字类型表,对所述坐席数据进行脏数据检测,并根据检测结果剔除所述坐席数据中的脏数据,得到干净数据;
13.利用预构建的卷积神经网络对所述干净数据进行关键字提取,得到所述有效数据。
14.可选的,所述判断所述有效数据中是否存在异常数值,当所述有效数据中存在异
常数值时,将所述有效数据中的异常数值进行数据格式规范化操作,得到有效规范数据,包括:
15.根据预设的标准形式表,将所述有效数据中各个属性标签下的数据进行标准性判断;
16.根据所述标准性判断的结果,得到异常数值;
17.将所述异常数值转化为对应的标准形式,得到所述有效规范数据。
18.可选的,所述查询所述有效规范数据中的缺失值,并对所述缺失值进行填充处理,得到待分析数据,包括:
19.利用数据库查询函数查询所述有效规范数据中的缺失值,并对各个所述缺失值进行统计;
20.根据统计结果对各个缺失值进行相关性分类,得到随机缺失值与相关缺失值;
21.按照预设的第一填充策略对所述随机缺失值进行填充,并按照预设的第二填充策略对所述相关缺失值进行填充,得到所述待分析数据。5、如权利要求1所述的基于坐席数据的用户意愿分析方法,其特征在于,所述利用预训练的意愿度模型对所述待分析数据进行特征识别分析之前,所述方法还包括:
22.步骤i、获取待训练意愿度模型及本地训练集,并利用所述待训练意愿度模型中的特征提取网络对所述本地训练集进行特征提取,得到特征序列集。
23.步骤ii、利用所述待训练意愿度模型中的特征识别网络,对所述特征序列集进行特征识别,得到预测结果集合。
24.步骤iii、将所述预测结果集合与所述本地训练集对应的预设识别标签进行对比,得到所述预测结果集合的准确率;
25.步骤iv、当所述准确率未收敛时,更新所述待训练意愿度模型中的函数参数,并返回上述步骤i,直至所述准确率达到收敛,得到训练完成的意愿度模型。
26.可选的,所述更新所述待训练意愿度模型中的函数参数,包括:
27.计算所述预测结果集合中的各个预测结果与所述预测结果对应的预设识别标签之间的差值;
28.利用所述待训练意愿度模型中的损失函数对各个差值进行统计计算,得到损失值;
29.利用所述损失值,计算所述待训练意愿度模型中激活函数的线性回归参数,并利用所述线性回归参数更新所述待训练意愿度模型中的函数参数。
30.可选的,其特征在于,所述监控所述存储空间,得到所述存储空间中每类期望意愿的数量,并根据所述每类期望意愿的数量将各类期望意愿进行可视化表示,得到意愿实况图,包括:
31.构建预设种类的期望类型表,并根据所述期望类型表监控存储至所述存储空间中的各个期望意愿对应的期望类型,得到每类期望意愿的数量;
32.将所述每类期望意愿的数量导入预构建的可视化模板,利用所述可视化模板将每类期望意愿的数量进行顺序排列及可视化展示,得到意愿实况图。
33.为了解决上述问题,本发明还提供一种基于坐席数据的用户意愿分析装置,所述装置包括:
34.关键字提取模块,用于获取坐席数据,对所述坐席数据进行脏字筛除,并对脏字筛除后的坐席数据进行关键字提取,得到有效数据;
35.数据规范化模块,用于判断所述有效数据中是否存在异常数值,当所述有效数据中存在异常数值时,将所述有效数据中的异常数值进行数据格式规范化操作,得到有效规范数据;
36.缺失值填充模块,用于查询所述有效规范数据中的缺失值,并对所述缺失值进行填充处理,得到待分析数据。
37.数据分析显示模块,用于利用预训练的意愿度模型对所述待分析数据进行特征识别分析,得到所述待分析数据对应的期望意愿,并将所述期望意愿分类存储至预设存储空间,及监控所述存储空间,得到所述存储空间中每类期望意愿的数量,并根据所述每类期望意愿的数量将各类期望意愿进行可视化表示,得到意愿实况图。
38.为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
39.至少一个处理器;以及,
40.与所述至少一个处理器通信连接的存储器;其中,
41.所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以实现上述所述的基于坐席数据的用户意愿分析方法。
42.为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的基于坐席数据的用户意愿分析方法。
43.本发明实施例通过脏字筛除、关键字提取、数据格式规范、缺失值处理的一系列方法对坐席数据进行处理,得到待分析数据,增加了坐席数据的规范性,从而增加了坐席数据在被处理时的使用效率。进一步的,本发明实施例利用预训练的意愿度模型对待分析数据进行意愿分类分析,进一步提高用户意愿分析的准确性与效率,因此,本发明提出的一种基于坐席数据的用户意愿分析方法可以解决传统坐席数据不易处理,及基于坐席数据的用户意愿分析的效率比较低的问题。
附图说明
44.图1为本发明一实施例提供的基于坐席数据的用户意愿分析方法的流程示意图;
45.图2为本发明一实施例提供的基于坐席数据的用户意愿分析装置的模块示意图;
46.图3为本发明一实施例提供的实现基于坐席数据的用户意愿分析方法的电子设备的内部结构示意图;
47.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
48.应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
49.本技术实施例提供一种基于坐席数据的用户意愿分析方法。所述基于坐席数据的用户意愿分析方法的执行主体包括但不限于服务端、终端等能够被配置为执行本技术实施例提供的该方法的电子设备中的至少一种。换言之,所述基于坐席数据的用户意愿分析方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平
台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。
50.参照图1所示,为本发明一实施例提供的基于坐席数据的用户意愿分析方法的流程示意图。在本发明实施例中,所述基于坐席数据的用户意愿分析方法包括:
51.s1、获取坐席数据,对所述坐席数据进行脏字筛除,并对脏字筛除后的坐席数据进行关键字提取,得到有效数据。
52.所述坐席数据是指人工智能客服或公众号等智能坐席获取的用户语音或文字等形式的数据。其中,当所述坐席数据是用户语音的形式时,本发明实施例首先将所述坐席数据经过语音转文本处理,得到文本类型的坐席数据。
53.进一步地,所述脏字是指各种脏话语句、语气词、特殊字符符号等字段。
54.详细的,本发明实施例中,所述获取坐席数据,对所述坐席数据进行脏字筛除,并对脏字筛除后的坐席数据进行关键字提取,得到有效数据,包括:
55.利用空间数据库数据同步方法监控预构建的智能坐席数据库中的数据生产状况,当所述智能坐席数据库中生成坐席数据时,提取所述坐席数据;
56.根据预设的脏字类型表,对所述坐席数据进行脏数据检测,并根据检测结果将所述坐席数据中的脏数据进行剔除,得到干净数据;
57.利用预构建的卷积神经网络对所述干净数据进行关键字提取,得到所述有效数据。
58.具体的,所述智能坐席数据库用于存储各个智能客服、公众号等用户端生成的坐席数据。所述空间数据库(geodatabase,gdb)数据同步方法是一种脚本数据库的操作方法,在满足一定条件时,可以自动提取数据库中的数据进行脚本操作,例如本发明实施例中通过gdb数据同步方法可以当所述智能坐席数据库中生成一个坐席数据时,直接将坐席数据进行提取,进行后续一系列的脏字筛查、数据格式规范化、缺失值填充的操作。
59.进一步地,所述脏字类型表为一种包含网络中常见粗俗字段、语气词、特殊字符符号的预构建的表格,如“神经病”、“啊”、“#”等。本发明实施例查询所述坐席数据中是否存在预构建的脏字类型表中标识的脏字段。当发现脏字段时,剔除所述脏字段,得到干净数据。
60.本发明实施例通过预构建的卷积神经网络识别所述干净数据中的文字内容,并提取所述干净数据中的“坐席数据来源类别、目标主体、意向意愿”等关键词相关的内容,得到有效数据。
61.s2、判断所述有效数据中是否存在异常数值,当所述有效数据中存在异常数值时,将所述有效数据中的异常数值进行数据格式规范化操作,得到有效规范数。
62.本发明实施例中,因为数据传输异常、各个用户端与智能坐席数据库之间版本不兼容等因素,导致的所述有效数据中可能存在一些代表含义相同,但表现形式不同的数据,本技术实施例中,称之为异常数据。为保证所述有效数据均能被识别,本发明实施例中需要将所述有效数据中的异常数值与预设的标准形式表进行格式统一操作,得到规范数据。
63.详细的,本发明实施例中,根据预设的标准形式表,将所述有效数据中各个属性标签下的数据进行标准性判断;根据所述标准性判断的结果,得到异常数值;将所述异常数值转化为对应的标准形式,得到所述有效规范数据。
64.例如,本发明实施例将男性用户产生的坐席数据标记一个为“m”的标签,但获取的坐席数据的标签中常常会出现“男”“m”、“空值”、“乱码”的情况,为保证坐席数据中同一标
签的数据的聚合性及不同类型数据间的离散性,本发明实施例将“m”及“男”的非标准形式的数据均经过规范化操作后转化为“m”,并将“空值”及“乱码类”的非标准形式的数据转换为“其他”。
65.本发明实施例将异常数值进行数据格式规范化操作可以使得数据的归纳分类更加准确。
66.s3、查询所述有效规范数据中的缺失值,并对所述缺失值进行填充处理,得到待分析数据。
67.本发明实施例中,所述缺失值是指所述有效规范数据中存在空白的情况,其中空白的表现形式为“null”,本发明实施例可通过查询字符“null”,获取缺失值的位置。其中,所述缺失值的类型包括随机缺失值与相关缺失值两类,所述随机缺失值是指因系统故障等非人为因素造成的缺失值,例如在数据同步、传输、处理过程中出现的个别数据缺失,随机数据缺失值与数据前后间没有关系,不会对整体数据产生偏差。所述相关缺失值为坐席数据中存在前后关系的缺失值,主要指因为人为因素而没有被记录的标签或内容,例如,女性被采访时不愿意透露年龄等这些存在关系的缺失值称为相关缺失值。所述相关缺失值会导致整体数据出现偏差,不利于统计分析。
68.详细的,本发明实施例中,所述查询所述有效规范数据中的缺失值,并对所述缺失值进行填充处理,得到待分析数据,包括:
69.利用数据库查询函数查询所述有效规范数据中的缺失值,并对各个所述缺失值进行统计;
70.根据统计结果对各个缺失值进行相关性分类,得到随机缺失值与相关缺失值;
71.按照预设的第一填充策略对所述随机缺失值进行填充,并按照预设的第二填充策略对所述相关缺失值进行填充,得到所述待分析数据。具体的,本发明实施例可以将全部缺失值进行统计,得到缺失值分布曲线,根据所述缺失值分布曲线可以判断各类型的缺失值为相关缺失值还是随机缺失值。
72.本发明其中一个实施例中,所述第一填充策略为随机填充策略,对所述随机缺失值进行随机填充。所述第二填充策略可以为均值填充、中位数填充、众数填充等。当所述规范数据中的随机缺失值及相关缺失值全部被填充后,可以得到数据完整性较高的所述待分析数据。
73.s4、利用预训练的意愿度模型对所述待分析数据进行特征识别分析,得到所述待分析数据对应的期望意愿,并将所述期望意愿分类存储至预设存储空间。
74.本发明实施例中,所述意愿度模型为一种卷积神经网络模型,能够分析各个待分析数据中的建议内容,得到每一个待分析数据所表达的期望意愿。
75.详细的,本发明实施例中,所述利用预训练的意愿度模型对所述待分析数据进行特征识别分析之前,所述方法还包括:
76.步骤i、获取待训练意愿度模型及本地训练集,并利用所述待训练意愿度模型中的特征提取网络对所述本地训练集进行特征提取,得到特征序列集。
77.其中,所述特征提取网络为一种神经网络,用于对字词进行文本查询及数据提取,本发明实施例中,所述特征提取网络位于所述待训练意愿度模型的数据输入层中,可以通过预设的激活函数进行激活。
78.本发明实施例对所述本地训练集中的每一个训练样本进行特征提取,得到该训练样本的特征序列,如【m,y,“subject”,“suggestion
”……
】,其中“m”代表男性,“y”代表年龄区间,“subject”为目标主体或事件,“suggestion”为内容文本,并汇集所有的特征序列,得到特征序列集。
79.步骤ii、利用所述待训练意愿度模型中的特征识别网络,对所述特征序列集进行特征识别,得到预测结果集合。
80.所述特征识别网络也是一种神经网络,可以将特征序列中各个特征进行分类判断,并将所述分类判断的结果进行整合识别,得到可以表明所述特征序列的意愿的预测结果。
81.步骤iii、将所述预测结果集合与所述特征序列集对应的预设识别标签进行对比,得到所述预测结果集合的准确率。
82.本发明实施例中,每一个所述特征序列都有一个人工标注的预设识别标签存储于所述本地训练集中,作为所述特征序列的其中一个属性。当所述预测结果与所述识别标签相同,则代表特征序列的特征识别成功,当所述预测结果与所述识别标签不相同,则代表特征序列的所述特征识别失败,待多个特征序列识别完成后,可以得到所述特征序列集整体被识别的准确率。
83.步骤iv、当所述准确率未收敛时,更新所述待训练意愿度模型中的函数参数,并返回上述步骤i,直至所述准确率达到收敛,得到训练完成的意愿度模型。
84.进一步的,本发明实施例中,所述更新所述待训练意愿度模型中的函数参数,包括:
85.计算所述预测结果集合中的各个预测结果与所述预测结果对应的预设识别标签之间的差值;
86.利用所述待训练意愿度模型中的损失函数对各个差值进行统计计算,得到损失值;
87.利用所述损失值,计算所述待训练意愿度模型中激活函数的线性回归参数,并利用所述线性回归参数更新所述待训练意愿度模型中的函数参数。具体的,本发明实施例中,所述待训练意愿度模型中存在损失函数,在每一次训练的过程后所述损失函数会产生相应的损失值,损失值可以对应修改待训练意愿度模型中的激活函数的变量,使得激活函数的线性回归参数逐渐靠近真实值,使得所述预测结果集合的准确率逐渐增加,当准确率的上升趋势消失并保持在一定区域内,则表明准确率达到收敛。其中,上升趋势可以通过准确率变化曲线的求导值来判断,本发明实施例中,当所述求导值小于预设的阈值,则表明准确率收敛。
88.本发明实施例中,当准确率收敛时,表明所述待训练意愿度模型的训练过程结束,得到所述意愿度模型。
89.本发明实施例利用训练完成的意愿度模型对所述待分析数据进行特征识别分析,得到所述待分析数据对应的期望意愿,并将所述期望意愿分类存储至预设存储空间。本发明实施例通过所述分类存储可以将各个期望意愿进行数量统计,有利于下述对不同期望意愿进行构图的操作。
90.s5、监控所述存储空间,得到所述存储空间中每类期望意愿的数量,并根据所述每
类期望意愿的数量将各类期望意愿进行可视化表示,得到意愿实况图。
91.详细的,本发明实施例中,所述监控所述存储空间,得到所述存储空间中每类期望意愿的数量,并根据所述每类期望意愿的数量将各类期望意愿进行可视化表示,得到意愿实况图,包括:
92.构建预设种类的期望类型表,并根据所述期望类型表监控存储至所述存储空间中的各个期望意愿对应的期望类型,得到每类期望意愿的数量;
93.将所述每类期望意愿的数量导入预构建的可视化模板,利用所述可视化模板将每类期望意愿的数量进行顺序排列及可视化展示,得到意愿实况图。
94.本发明实施例根据所述业务要求构建期望类型表,再通过监控服务实时接收并处理各个坐席数据,并通过所述意愿度模型对数据处理后的坐席数据进行期望意愿识别。每当产生一个期望意愿时,本发明实施例在所述期望意愿表中,对所述期望意愿对应的预设数值进行加一,得到每类期望意愿的数量。再利用预构建的可视化模板将各个不同期望意愿的数量进行条状图显示,且实时将各个条形图进行数量递减排序,得到意愿实况图。通过所述意愿实况图,可以得到目前群众的意愿,方便企业做出决策。
95.本发明实施例通过脏字筛除、关键字提取、数据格式规范、缺失值处理的一系列方法对坐席数据进行处理,得到待分析数据,增加了坐席数据的规范性,从而增加了坐席数据在被处理时的使用效率。进一步的,本发明实施例利用预训练的意愿度模型对待分析数据进行意愿分类分析,进一步提高用户意愿分析的准确性与效率,因此,本发明提出的一种基于坐席数据的用户意愿分析方法可以解决传统坐席数据不易处理,及基于坐席数据的用户意愿分析的效率比较低的问题。
96.如图2所示,是本发明基于坐席数据的用户意愿分析装置的功能模块图。
97.本发明所述基于坐席数据的用户意愿分析装置100可以安装于电子设备中。根据实现的功能,所述基于坐席数据的用户意愿分析装置可以包括关键字提取模块101、数据规范化模块102、缺失值填充模块103以及数据分析显示模块104。本发所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
98.在本实施例中,关于各模块/单元的功能如下:
99.所述关键字提取模块101,用于获取文本类型的坐席数据,对所述坐席数据进行脏字筛除,并对脏字筛除后的坐席数据进行关键字提取,得到有效数据。
100.所述坐席数据是指人工智能客服或公众号等智能坐席获取的用户语音或文字等形式的数据。其中,当所述坐席数据是用户语音的形式时,本发明实施例首先将所述坐席数据经过语音转文本处理,得到文本类型的坐席数据。
101.进一步地,所述脏字是指各种脏话语句、语气词、特殊字符符号等字段。
102.详细的,本发明实施例中,所述关键字提取模块101在获取文本类型的坐席数据,对所述坐席数据进行脏字筛除,并对脏字筛除后的坐席数据进行关键字提取,得到有效数据时,具体用于:
103.利用空间数据库数据同步方法监控预构建的智能坐席数据库中的数据生产状况,当所述智能坐席数据库中生成坐席数据时,提取所述坐席数据;
104.根据预设的脏字类型表,对所述坐席数据进行脏数据检测,并根据检测结果将所
述坐席数据中的脏数据进行剔除,得到干净数据;
105.利用预构建的卷积神经网络对所述干净数据进行关键字提取,得到所述有效数据。
106.具体的,所述智能坐席数据库用于存储各个智能客服、公众号等用户端生成的坐席数据。所述空间数据库(geodatabase,gdb)数据同步方法是一种脚本数据库的操作方法,在满足一定条件时,可以自动提取数据库中的数据进行脚本操作,例如本发明实施例中通过gdb数据同步方法可以当所述智能坐席数据库中生成一个坐席数据时,直接将坐席数据进行提取,进行后续一系列的脏字筛查、数据格式规范化、缺失值填充的操作。
107.进一步地,所述脏字类型表为一种包含网络中常见粗俗字段、语气词、特殊字符符号的预构建的表格,如“神经病”、“啊”、“#”等。本发明实施例查询所述坐席数据中是否存在预构建的脏字类型表中标识的脏字段。当发现脏字段时,剔除所述脏字段,得到干净数据。
108.本发明实施例通过预构建的卷积神经网络识别所述干净数据中的文字内容,并提取所述干净数据中的“坐席数据来源类别、目标主体、意向意愿”等关键词相关的内容,得到有效数据。
109.所述数据规范化模块102,用于判断所述有效数据中是否存在异常数值,当所述有效数据中存在异常数值时,将所述有效数据中的异常数值进行数据格式规范化操作,得到有效规范数据;
110.本发明实施例中,因为数据传输异常、各个用户端与智能坐席数据库之间版本不兼容等因素,导致的所述有效数据中可能存在一些代表含义相同,但表现形式不同的数据,本技术实施例中,称之为异常数据。为保证所述有效数据均能被识别,本发明实施例中需要将所述有效数据中的异常数值与预设的标准形式表进行格式统一操作,得到规范数据。
111.详细的,本发明实施例中,所述数据规范化模块102具体用于:
112.根据预设的标准形式表,将所述有效数据中各个属性标签下的数据进行标准性判断;
113.根据所述标准性判断的结果,得到异常数值;
114.将所述异常数值转化为对应的标准形式,得到所述有效规范数据。
115.例如,本发明实施例将男性用户产生的坐席数据标记一个为“m”的标签,但获取的坐席数据的标签中常常会出现“男”“m”、“空值”、“乱码”的情况,为保证坐席数据中同一标签的数据的聚合性及不同类型数据间的离散性,本发明实施例将“m”及“男”的非标准形式的数据均经过规范化操作后转化为“m”,并将“空值”及“乱码类”的非标准形式的数据转换为“其他”。
116.本发明实施例将异常数值进行数据格式规范化操作可以使得数据的归纳分类更加准确。
117.所述缺失值填充模块103,用于查询所述有效规范数据中的缺失值,并对所述缺失值进行填充处理,得到待分析数据。
118.本发明实施例中,所述缺失值是指所述有效规范数据中存在空白的情况,其中空白的表现形式为“null”,本发明实施例可通过查询字符“null”,获取缺失值的位置。其中,所述缺失值的类型包括随机缺失值与相关缺失值两类,所述随机缺失值是指因系统故障等非人为因素造成的缺失值,例如在数据同步、传输、处理过程中出现的个别数据缺失,随机
数据缺失值与数据前后间没有关系,不会对整体数据产生偏差。所述相关缺失值为坐席数据中存在前后关系的缺失值,主要指因为人为因素而没有被记录的标签或内容,例如,女性被采访时不愿意透露年龄等这些存在关系的缺失值称为相关缺失值。所述相关缺失值会导致整体数据出现偏差,不利于统计分析。
119.详细的,本发明实施例中,所述缺失值填充模块103查询所述有效规范数据中的缺失值,并对所述缺失值进行填充处理,得到待分析数据时,具体用于:
120.利用数据库查询函数查询所述有效规范数据中的缺失值,并对各个所述缺失值进行统计;
121.根据统计结果对各个缺失值进行相关性分类,得到随机缺失值与相关缺失值;
122.按照预设的第一填充策略对所述随机缺失值进行填充,并按照预设的第二填充策略对所述相关缺失值进行填充,得到所述待分析数据。具体的,本发明实施例可以将全部缺失值进行统计,得到缺失值分布曲线,根据所述缺失值分布曲线可以判断各类型的缺失值为相关缺失值还是随机缺失值。
123.本发明其中一个实施例中,所述第一填充策略为随机填充策略,对所述随机缺失值进行随机填充。所述第二填充策略可以为均值填充、中位数填充、众数填充等。当所述规范数据中的随机缺失值及相关缺失值全部被填充后,可以得到数据完整性较高的所述待分析数据。
124.所述数据分析显示模块104,用于利用预训练的意愿度模型对所述待分析数据进行特征识别分析,得到所述待分析数据对应的期望意愿,并将所述期望意愿分类存储至预设存储空间,及监控所述存储空间,得到所述存储空间中每类期望意愿的数量,并根据所述每类期望意愿的数量将各类期望意愿进行可视化表示,得到意愿实况图。
125.本发明实施例中,所述意愿度模型为一种卷积神经网络模型,能够分析各个待分析数据中的建议内容,得到每一个待分析数据所表达的期望意愿。
126.详细的,本发明实施例中,所述数据分析显示模块104在利用预训练的意愿度模型对所述待分析数据进行特征识别分析之前,具体用于执行:
127.步骤i、获取待训练意愿度模型及本地训练集,并利用所述待训练意愿度模型中的特征提取网络对所述本地训练集进行特征提取,得到特征序列集。
128.其中,所述特征提取网络为一种神经网络,用于对字词进行文本查询及数据提取,本发明实施例中,所述特征提取网络位于所述待训练意愿度模型的数据输入层中,可以通过预设的激活函数进行激活。
129.本发明实施例对所述本地训练集中的每一个训练样本进行特征提取,得到该训练样本的特征序列,如【m,y,“subject”,“suggestion
”……
】,其中“m”代表男性,“y”代表年龄区间,“subject”为目标主体或事件,“suggestion”为内容文本,并汇集所有的特征序列,得到特征序列集。
130.步骤ii、利用所述待训练意愿度模型中的特征识别网络,对所述特征序列集进行特征识别,得到预测结果集合。
131.所述特征识别网络也是一种神经网络,可以将特征序列中各个特征进行分类判断,并将所述分类判断的结果进行整合识别,得到可以表明所述特征序列的意愿的预测结果。
132.步骤iii、将所述预测结果集合与所述特征序列集对应的预设识别标签进行对比,得到所述预测结果集合的准确率。
133.本发明实施例中,每一个所述特征序列都有一个人工标注的预设识别标签存储于所述本地训练集中,作为所述特征序列的其中一个属性。当所述预测结果与所述识别标签相同,则代表特征序列的特征识别成功,当所述预测结果与所述识别标签不相同,则代表特征序列的所述特征识别失败,待多个特征序列识别完成后,可以得到所述特征序列集整体被识别的准确率。
134.步骤iv、当所述准确率未收敛时,更新所述待训练意愿度模型中的函数参数,并返回上述步骤i,直至所述准确率达到收敛,得到训练完成的意愿度模型。
135.进一步的,本发明实施例中,所述数据分析显示模块104在更新所述待训练意愿度模型中的函数参数时,具体用于:
136.计算所述预测结果集合中的各个预测结果与所述预测结果对应的预设识别标签之间的差值;
137.利用所述待训练意愿度模型中的损失函数对各个差值进行统计计算,得到损失值;
138.利用所述损失值,计算所述待训练意愿度模型中激活函数的线性回归参数,并利用所述线性回归参数更新所述待训练意愿度模型中的函数参数。具体的,本发明实施例中,所述待训练意愿度模型中存在损失函数,在每一次训练的过程后所述损失函数会产生相应的损失值,损失值可以对应修改待训练意愿度模型中的激活函数的变量,使得激活函数的线性回归参数逐渐靠近真实值,使得所述预测结果集合的准确率逐渐增加,当准确率的上升趋势消失并保持在一定区域内,则表明准确率达到收敛。其中,上升趋势可以通过准确率变化曲线的求导值来判断,本发明实施例中,当所述求导值小于预设的阈值,则表明准确率收敛。
139.本发明实施例中,当准确率收敛时,表明所述待训练意愿度模型的训练过程结束,得到所述意愿度模型。
140.本发明实施例利用训练完成的意愿度模型对所述待分析数据进行特征识别分析,得到所述待分析数据对应的期望意愿,并将所述期望意愿分类存储至预设存储空间。本发明实施例通过所述分类存储可以将各个期望意愿进行数量统计,有利于下述对不同期望意愿进行构图的操作。
141.详细的,本发明实施例中,所述数据分析显示模块104在监控所述存储空间,得到所述存储空间中每类期望意愿的数量,并根据所述每类期望意愿的数量将各类期望意愿进行可视化表示,得到意愿实况图时,具体用于:
142.构建预设种类的期望类型表,并根据所述期望类型表监控存储至所述存储空间中的各个期望意愿对应的期望类型,得到每类期望意愿的数量;
143.将所述每类期望意愿的数量导入预构建的可视化模板,利用所述可视化模板将每类期望意愿的数量进行顺序排列及可视化展示,得到意愿实况图。
144.本发明实施例根据所述业务要求先构建期望类型表,再通过监控服务实时接收并处理各个坐席数据,并通过所述意愿度模型对数据处理后的坐席数据进行期望意愿识别。每当产生一个期望意愿时,本发明实施例在所述期望意愿表中,对所述期望意愿对应的预
设数值进行加一,得到每类期望意愿的数量。再利用预构建的可视化模板将各个不同期望意愿的数量进行条状图显示,且实时将各个条形图进行数量递减排序,得到意愿实况图。通过所述意愿实况图,可以得到目前群众的意愿,方便企业做出决策。
145.本发明实施例通过脏字筛除、关键字提取、数据格式规范、缺失值处理的一系列方法对坐席数据进行处理,得到待分析数据,增加了坐席数据的规范性,从而增加了坐席数据在被处理时的使用效率。进一步的,本发明实施例利用预训练的意愿度模型对待分析数据进行意愿分类分析,进一步提高用户意愿分析的准确性与效率,因此,本发明提出的一种基于坐席数据的用户意愿分析方法可以解决传统坐席数据不易处理,及基于坐席数据的用户意愿分析的效率比较低的问题。
146.如图3所示,是本发明实现基于坐席数据的用户意愿分析方法的电子设备的结构示意图。
147.所述电子设备可以包括处理器10、存储器11、通信总线12以及通信接口13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如基于坐席数据的用户意愿分析程序。
148.其中,所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(central processing unit,cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(control unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如执行基于坐席数据的用户意愿分析程序等),以及调用存储在所述存储器11内的数据,以执行电子设备的各种功能和处理数据。
149.所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:sd或dx存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(smart media card,smc)、安全数字(secure digital,sd)卡、闪存卡(flash card)等。进一步地,所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据,例如基于坐席数据的用户意愿分析程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
150.所述通信总线12可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
151.所述通信接口13用于上述电子设备与其他设备之间的通信,包括网络接口和用户接口。可选地,所述网络接口可以包括有线接口和/或无线接口(如wi

fi接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。所述用户接口可以是显示器(display)、输入单元(比如键盘(keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶
显示器以及oled(organic light

emitting diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
152.图3仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
153.例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、wi

fi模块等,在此不再赘述。
154.应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
155.所述电子设备中的所述存储器11存储的基于坐席数据的用户意愿分析程序是多个计算机程序的组合,在所述处理器10中运行时,可以实现:
156.获取坐席数据,对所述坐席数据进行脏字筛除,并对脏字筛除后的坐席数据进行关键字提取,得到有效数据;
157.判断所述有效数据中是否存在异常数值,当所述有效数据中存在异常数值时,将所述有效数据中的异常数值进行数据格式规范化操作,得到有效规范数据;
158.查询所述有效规范数据中的缺失值,并对所述缺失值进行填充处理,得到待分析数据;
159.利用预训练的意愿度模型对所述待分析数据进行特征识别分析,得到所述待分析数据对应的期望意愿,并将所述期望意愿分类存储至预设存储空间;
160.监控所述存储空间,得到所述存储空间中每类期望意愿的数量,并根据所述每类期望意愿的数量将各类期望意愿进行可视化表示,得到意愿实况图。
161.具体地,所述处理器10对上述计算机程序的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
162.进一步地,所述电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read

only memory)。
163.本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
164.获取坐席数据,对所述坐席数据进行脏字筛除,并对脏字筛除后的坐席数据进行关键字提取,得到有效数据;
165.判断所述有效数据中是否存在异常数值,当所述有效数据中存在异常数值时,将所述有效数据中的异常数值进行数据格式规范化操作,得到有效规范数据;
166.查询所述有效规范数据中的缺失值,并对所述缺失值进行填充处理,得到待分析
数据;
167.利用预训练的意愿度模型对所述待分析数据进行特征识别分析,得到所述待分析数据对应的期望意愿,并将所述期望意愿分类存储至预设存储空间;
168.监控所述存储空间,得到所述存储空间中每类期望意愿的数量,并根据所述每类期望意愿的数量将各类期望意愿进行可视化表示,得到意愿实况图。
169.在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
170.所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
171.另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
172.对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
173.因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
174.本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
175.此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
176.最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1