本发明是一种投诉行为的大数据采集与分析方法,涉及信息审计技术领域。
背景技术:
云计算是一种全新的领先信息技术,结合IT技术和互联网实现超级计算和存储能力,而推动云计算兴起的动力是高速互联网和虚拟化技术的发展,更加廉价且功能强劲的芯片及硬盘、数据中心的发展。云计算可以看作是分布式计算、并行计算、效用计算、网络存储、虚拟化、负载均衡等传统计算机和网络技术发展融合的产物。云计算涉及的关键技术有很多,包括:通信、大规模分布式存储技术、海量数据处理技术、资源管理、虚拟化技术等。
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据具有4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。
“移动互联网+”的到来,意味着跨界融合,创新驱动,重塑结构,尊重人性,开放生态的时代到来。“移动互联网+”就是“互联网”+各个传统行业,利用计算机技术、信息通信技术、 云计算技术以及互联网平台,让互联网与传统行业进行深度融合,创造新的发展业态。大数据、云计算时代已经渗透到诸多行业和业务职能领域,成为重要的组成部分。根据权威的NIST定义,现有的云计算主要分为三种服务模式,分别是基础设施即服务IAAS(infrastructure as a service),主要为用户提供基础设施服务,包括计算机、服务器、防火墙、存储设备和网络设备等;平台即服务PAAS(platform as a service),主要为用户提供应用程序开发、测试和部署平台,即是将一个完整的系统平台,包括应用设计、应用开发、应用测试、应用部署和应用托管,都作为一种服务提供给用户;软件即服务SAAS(software as a service),主要是为用户提供应用程序等软件。可以说,云计算这三种服务模式都是从硬件设备的角度出发。
国外的Amazon、Google、IBM、微软等大公司都是云计算的先行者,例如,Amazon使用弹性计算云和简单存储服务,为企业提供计算和存储服务。GoogleDocs是最早推出的云计算应用,其类似于微软的office的在线办公软件,可以处理和搜索文档、表格、幻灯片,还可以通过网络与他人分享并设置共享权限。IBM在2007年11月推出了“改变游戏规则”的“蓝云”计算平台,为客户带来即买即用的云计算平台。微软紧跟云计算步伐,于2008年10月推出了Windows Azure操作系统,是继Windows取代DOS之后,微软的又一次颠覆性转型-通过互联网打造新云计算平台,让Windows真正由PC延伸到“蓝天”上。但国外 大公司在云计算的研究均仅涉及公共服务、数据处理、在线存储或者共享等领域,属于通用性研发,其并未涉及到云计算、大数据与审计领域结合的相关技术。
随着云计算技术和应用的日益成熟,我国更多的用户开始应用基于云的服务,更多的企业开始落地云计算。但不论是如通用型的百度/谷歌搜索引擎,还是专用服务型的滴滴出行/58同城等,都是运用大数据信息为用户提供个性化的服务,故其面向的对象主要集中在用户或者消费者。
在电子商务行业中,需要对客户的投诉进行处理,但是在实际中,有很多是有用的投诉,有些只是一些无用的投诉,如果靠人工去区分这些投诉类型,十分麻烦。
技术实现要素:
针对现有技术存在的不足,本发明目的是提供一种投诉行为的大数据采集与分析方法,以解决上述背景技术中提出的问题。
为了实现上述目的,本发明是通过如下的技术方案来实现:一种投诉行为的大数据采集与分析方法,包括以下步骤:
步骤S1,数据采集,采用NoSQL数据库用于基础数据的采集,集合所有投诉的数据信息;
步骤S2,数据处理,从NoSQL数据库找到对应的索引文件;
步骤S3,数据分析,采用所设置的基本关键词规则对投诉内容进行匹配,确定是否匹配成功,如果是,将该投诉作为重要投诉,并进行下一步,如果否,采用所设置的关键词衍生序列对该投诉内容疑似值范围内,将该投诉作为疑似重要投诉,如果计算的重要投诉疑似 值大于等于设置的垃圾投诉疑似度上范围,将该投诉作为重要投诉,如果小于等于设置的垃圾投诉疑似度下范围,将该投诉作为非重要投诉并删除;
步骤S4,数据储存,将上述处理完成的投诉,分类并根据合同、服务级别协议和法规允许进行备份和加密。
进一步地,在步骤S1中,大数据平台首先将投诉数据进行实时记录,并将投诉数据存储至云端存储器中;大数据平台读取云端存储器中的投诉数据,并对投诉数据进行预处理。
进一步地,在步骤S2中,在NoSQL数据库找到对应的索引文件后,对索引文件进行修剪,形成针对具体查询命令的动态索引图;通过动态索引图,得到需要查询的数据,通过数据清洗、数据转换、数据整合及数据加载中一种或者多种操作将基础数据转换为符合会计准则的规范化数据的第一数据。
进一步地,所述步骤S3中,数据分析之前经过数据过滤,在数据过滤中,投诉信息发送者为A,投诉信息个数为B,当每个投诉信息发送者对应的投诉信息的个数大于预设的最大阀值时,将该投诉定为无效投诉;当每个投诉信息发送者对应的投诉信息的个数小于预设的最大阀值,大于预设的最小阀值时,将该投诉定为有效投诉,当每个投诉信息发送者对应的投诉信息的个数小于预设的最小阀值时,将该投诉定为待定投诉。
进一步地,在步骤S4中,投诉的类型分为:数量、质量、颜色、重量以及价格五个方面,在储存时,根据投诉的类型储存在云端存储 器中,并根据合同、服务级别协议和法规允许进行备份和加密。
本发明的有益效果:本发明的一种投诉行为的大数据采集与分析方法,本发明的数据采集基于大数据平台,大数据是大量、高速、多变的信息,配合新型的处理方式促成了更强的决策能力、洞察力与最佳化处理,运用大数据平台可以获得更为深刻、全面的洞察能力,也提供了前所未有的空间与潜力,可有效的提取投诉的特征,并根据这些特征进行分类处理,在处理完成后,根据投诉的类型储存在云端存储器中,并根据合同、服务级别协议和法规允许进行备份和加密。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
本发明提供一种技术方案:一种投诉行为的大数据采集与分析方法,包括以下步骤:
步骤S1,数据采集,采用NoSQL数据库用于基础数据的采集,集合所有投诉的数据信息,NoSQL数据库的四大分类:
键值(Key-Value)存储数据库:
这一类数据库主要会使用到一个哈希表,这个表中有一个特定的键和一个指针指向特定的数据。Key/value模型对于IT系统来说的优势在于简单、易部署。但是如果DBA只对部分值进行查询或更新的时候,Key/value就显得效率低下了。举例如:Tokyo Cabinet/Tyrant,Redis,Voldemort,Oracle BDB。
列存储数据库:
这部分数据库通常是用来应对分布式存储的海量数据。键仍然存在,但是它们的特点是指向了多个列。这些列是由列家族来安排的。 如:Cassandra,HBase,Riak。
文档型数据库:
文档型数据库的灵感是来自于Lotus Notes办公软件的,而且它同第一种键值存储相类似。该类型的数据模型是版本化的文档,半结构化的文档以特定的格式存储,比如JSON。文档型数据库可以看作是键值数据库的升级版,允许之间嵌套键值。而且文档型数据库比键值数据库的查询效率更高。如:CouchDB,MongoDb.国内也有文档型数据库SequoiaDB,已经开源。
图形(Graph)数据库:
图形结构的数据库同其他行列以及刚性结构的SQL数据库不同,它是使用灵活的图形模型,并且能够扩展到多个服务器上。NoSQL数据库没有标准的查询语言(SQL),因此进行数据库查询需要制定数据模型。许多NoSQL数据库都有REST式的数据接口或者查询API。如:Neo4J,InfoGrid,Infinite Graph。
大数据平台首先将投诉数据进行实时记录,并将投诉数据存储至云端存储器中;大数据平台读取云端存储器中的投诉数据,并对投诉数据进行预处理。
步骤S2,数据处理,从NoSQL数据库找到对应的索引文件,在NoSQL数据库找到对应的索引文件后,对索引文件进行修剪,形成针对具体查询命令的动态索引图;通过动态索引图,得到需要查询的数据,通过数据清洗、数据转换、数据整合及数据加载中一种或者多种操作将基础数据转换为符合会计准则的规范化数据的第一数据;
步骤S3,数据分析,采用所设置的基本关键词规则对投诉内容进行匹配,确定是否匹配成功,如果是,将该投诉作为重要投诉,并进行下一步,如果否,采用所设置的关键词衍生序列对该投诉内容疑 似值范围内,将该投诉作为疑似重要投诉,如果计算的重要投诉疑似值大于等于设置的垃圾投诉疑似度上范围,将该投诉作为重要投诉,如果小于等于设置的垃圾投诉疑似度下范围,将该投诉作为非重要投诉并删除;
步骤S4,数据储存,将上述处理完成的投诉,分类并根据合同、服务级别协议和法规允许进行备份和加密。
步骤S3中,数据分析之前经过数据过滤,在数据过滤中,投诉信息发送者为A,投诉信息个数为B,当每个投诉信息发送者对应的投诉信息的个数大于预设的最大阀值时,将该投诉定为无效投诉;当每个投诉信息发送者对应的投诉信息的个数小于预设的最大阀值,大于预设的最小阀值时,将该投诉定为有效投诉,当每个投诉信息发送者对应的投诉信息的个数小于预设的最小阀值时,将该投诉定为待定投诉。
在步骤S4中,投诉的类型分为:数量、质量、颜色、重量以及价格五个方面,在储存时,根据投诉的类型储存在云端存储器中,并根据合同、服务级别协议和法规允许进行备份和加密。
做为本发明的一个实施例:本发明的一种投诉行为的大数据采集与分析方法,本发明的数据采集基于大数据平台,大数据是大量、高速、多变的信息,配合新型的处理方式促成了更强的决策能力、洞察力与最佳化处理,运用大数据平台可以获得更为深刻、全面的洞察能力,也提供了前所未有的空间与潜力,可有效的提取投诉的特征,并根据这些特征进行分类处理,在处理完成后,根据投诉的类型储存在云端存储器中,并根据合同、服务级别协议和法规允许进行备份和加密。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点,对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。