一种数据挖掘的方法

文档序号：9217184阅读：1265来源：国知局

一种数据挖掘的方法
【技术领域】
:
[0001]本发明涉及一种数据挖掘的方法，属于数据挖掘技术领域。
【背景技术】
:
[0002]在商业智能解决方案的帮助下，企业级用户可以通过充分挖掘现有的数据资源，捕获信息、分析信息、沟通信息，发现许多过去缺乏认识或未被认识的数据关系，帮助企业管理者做出更好的商业决策，例如开拓什么市场、吸引哪些客户、促销何种产品等等。商业智能还能够通过财务分析、风险管理、欺诈分析、销售分析等过程帮助企业降低运营成本，进而获得更高的经营效益。
[0003]根据世界权威性的IDC公司的调查结果表明，企业用于商业智能的投资回报率平均2.3年高达400%。数据仓库是商业智能解决方案的基础，一项来自美国MetaGroup的市场分析指出，92%的企业将在今后3年内使用数据仓库，数据库访问因特网和企业内部网所带来的投资回报率达68%。
[0004]现在国外的企业，大部分已经进入了数据分析以及数据挖掘的应用当中。而中国的企业，目前大部分还停留在报表阶段。传统的报表系统技术上已经相当成熟，大家熟悉的Excel、水晶报表、Reporting Service等都已经被广泛使用。但是,随着数据的增多，需求的提闻，传统报表系统面临的挑战也越来越多。
[0005]一、数据太多，信息太少:
[0006]密密麻麻的表格堆砌了大量数据，到底有多少业务人员仔细看每一个数据？到底这些数据代表了什么信息、什么趋势？级别越高的领导，越需要简明的信息；企业的管理者往往只需要一句话:目前我们的情况是好、中还是差；
[0007]二、难以交互分析、了解各种组合:
[0008]定制好的报表过于死板。例如，我们可以在一张表中列出不同地区、不同产品的销量，另一张表中列出不同地区、不同年龄段顾客的销量。但是，这两张表无法回答诸如“华北地区中青年顾客购买数码相机类型产品的情况”等问题。业务问题经常需要多个角度的交互分析。
[0009]三、难以挖掘出潜在的规则:
[0010]报表系统列出的往往是表面上的数据信息，但是海量数据深处潜在含有哪些规则呢？什么客户对我们价值最大，产品之间相互关联的程度如何？越是深层的规则，对于决策支持的价值越大，但是，也越难挖掘出来。
[0011]四、难以追溯历史，数据形成孤岛:
[0012]业务系统很多，数据存在于不同地方。太旧的数据(例如一年前的数据)往往被业务系统备份出去，导致宏观分析、长期历史分析难度很大。
[0013]因此，随着时代的发展，传统报表系统已经不能满足日益增长的业务需求了，企业期待着新的技术。数据分析和数据挖掘的时代正在来临。值得注意的是，数据分析和数据挖掘系统的目的是带给我们更多的决策支持价值，并不是取代数据报表。报表系统依然有其不可取代的优势，并且将会长期与数据分析、挖掘系统一起并存下去。

【发明内容】

:
[0014]针对上述问题，本发明要解决的技术问题是提供一种数据挖掘的方法。
[0015]本发明的一种数据挖掘的方法，它挖掘的方法如下:
[0016]一、分类:首先从数据中选出已经分好类的训练集，在该训练集上运用数据挖掘分类的技术，建立分类模型，对于没有分类的数据进行分类；
[0017]二、估计:估计与分类类似，不同之处在于，分类描述的是离散型变量的输出，而估值处理连续值的输出；分类的类别是确定数目的，估值的量是不确定的；
[0018]一般来说，估值可以作为分类的前一步工作。给定一些输入数据，通过估值，得到未知的连续变量的值，然后，根据预先设定的阈值，进行分类。例如:银行对家庭贷款业务，运用估值，给各个客户记分。然后，根据阈值，将贷款级别分类。
[0019]三、预测:通常，预测是通过分类或估值起作用的，也就是说，通过分类或估值得出模型，该模型用于对未知变量的预言。从这种意义上说，预言其实没有必要分为一个单独的类。预言其目的是对未来未知变量的预测，这种预测是需要时间来验证的，即必须经过一定时间后，才知道预言准确性是多少。
[0020]四、相关性分组、关联规则:决定哪些事情将一起发生；
[0021]五、聚类:聚类是对记录分组，把相似的记录在一个聚集里。聚类和分类的区别是聚集不依赖于预先定义好的类，不需要训练集。聚集通常作为数据挖掘的第一步。例如，"哪一种类的促销对客户响应最好？"，对于这一类问题，首先对整个客户做聚集，将客户分组在各自的聚集里，然后对每个不同的聚集，回答问题，可能效果更好。
[0022]六、描述和可视化:是对数据挖掘结果的表示方式。
[0023]本发明的有益效果为:实现较为普遍的客户分群；预测有一定的准确性；指出用户行为内在的联系；有较好的可视化工具；TB级系统规模，日均亿条原始数据处理能力；廉价主机集群应用；数据安全及容灾。
【具体实施方式】
:
[0024]本【具体实施方式】采用以下技术方案:它挖掘的方法如下:
[0025]一、分类:首先从数据中选出已经分好类的训练集，在该训练集上运用数据挖掘分类的技术，建立分类模型，对于没有分类的数据进行分类；
[0026]二、估计:估计与分类类似，不同之处在于，分类描述的是离散型变量的输出，而估值处理连续值的输出；分类的类别是确定数目的，估值的量是不确定的；
[0027]三、预测:预测是通过分类或估值起作用的，也就是说，通过分类或估值得出模型，该模型用于对未知变量的预言；
[0028]四、相关性分组、关联规则:决定哪些事情将一起发生；
[0029]五、聚类:聚类是对记录分组，把相似的记录在一个聚集里；
[0030]六、描述和可视化:是对数据挖掘结果的表示方式。
[0031]本【具体实施方式】具体的步骤为:
[0032]1.理解数据和数据的来源:
[0033]首先要能深入准确的理解具体的行业规则以及商业逻辑，然后通过对商业的理解，再去认识具体的数据，遇到不能理解的数据再去理解相应的商业逻辑，这样反复进行，
直至完全理解。
[0034]2.获取相关知识与技术:
[0035]在理解数据的同时获取相关的行业知识，并在数据准备开始前，根据具体的商业和数据的具体情况，完成相关的技术选择和准备。
[0036]3.整合与检查数据:
[0037]因为数据源很可能是多种多样的，例如:不同类型数据库的表、excel、文本文件等等，所以数据准备的第一个工作就是完成多种数据的整合，能够保证所有的数据源里的数据都能整合到一起来，形成一份完整的新数据。完成整合后，数据需要仔细的检查和验证，保证数据的准确和数据内在逻辑上的自洽。
[0038]4.去除错误或不一致的数据:
[0039]也是数据准备中的重要工作，各个数据源的数据质量参差不齐，必须对数据进行相应的清洗，根据数据检查的结果，清洗掉所有错误的、异常的、不合逻辑的等等不正常的"脏"数据，以保证数据准备工作的质量。
[0040]5.建立模型和假设:
[0041]建模是整个数据挖掘工作中最重要的；只有在拥有一个简洁、高效、可扩展、稳定的模型下，数据挖掘工作才能顺利的开展；一个糟糕的设计，往往会让后续的数据挖掘工作变得异常困难，甚至完全陷入停滞的状态。要设计一个好的模型，必须对商业和数据都有很深入的理解，对商业和数据的理解不到位，必然无法完成一个好的模型设计。建模和数据准备也是一个螺旋上升、相互推进的过程。有了基本的

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：温光林;
技术所有人：成都志炎科技有限公司;
我是此专利的发明人

上一篇：应用卸载原因的分类方法及分类装置的制造方法
上一篇：基于大数据量的数据库表采集优化技术的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。