一种基于移动通信数据的tb级数据快速检索方法及系统
技术领域
1.本发明涉及移动通信领域,具体涉及一种基于移动通信数据的tb级数据快速检索方法及系统。
背景技术:2.随着互联网技术、通信技术的发展,特别是移动通信和软件技术的发展,为基于移动通信数据引擎的用户分析系统提供了可行性。当前基于移动通信数据进行数据检索,由于数据量极大,达到了tb级,使得数据检索效率降低。
技术实现要素:3.本发明所要解决的技术问题是提供一种基于移动通信数据的tb级数据快速检索方法及系统,可以实现快速的数据检索。
4.本发明解决上述技术问题的技术方案如下:一种基于移动通信数据的tb级数据快速检索方法,包括以下步骤,
5.s1,获取移动通信数据,并对所述移动通信数据进行预处理,得到预处理后的tb级移动通信数据;
6.s2,基于数据分类模型将所述tb级移动通信数进行分类并存储,得到多个类别的移动通信数据集;
7.s3,接收数据检索关键字,并对所述数据检索关键字进行语义解析,生成数据检索语句;
8.s4,根据所述数据检索关键字检索出所要查找的移动通信数据所属的移动通信数据集,并根据所述数据检索语句在确定的移动通信数据集中进行查找,检索出所要查找的移动通信数据。
9.在上述技术方案的基础上,本发明还可以做如下改进。
10.进一步,所述s1具体为,从多个移动通信服务器中获取移动通信数据,并对所述移动通信数据进行数据清洗,得到预处理后的tb级移动通信数据。
11.进一步,所述s2具体为,
12.s21,从所述tb级移动通信数据中选取训练集,并从所述训练集中随机抽取初始样本集;
13.s22,利用所述初始样本集训练原始数据分类模型,得到初始数据分类模型;
14.s23,利用所述初始数据分类模型在所述训练集中进行抽样,得到抽样样本;
15.s24,判断所述抽样样本是否符合预设的分类规则;若是,则将所述初始数据分类模型作为最终数据分类模型;若否,则利用所述抽样样本训练所述初始数据分类模型,得到中间数据分类模型;
16.s25,将所述初始数据分类模型替换成所述中间数据分类模型,重复循环执行所述s23至s24,直至所述抽样样本符合预设的分类规则,且将所述中间数据分类模型作为最终
数据分类模型;
17.s26,利用所述最终数据分类模型对所述tb级移动通信数据进行分类并储存,得到多个类别的移动通信数据集。
18.进一步,所述原始数据分类模型具体为基于支持向量机的数据分类模型。
19.基于上述一种基于移动通信数据的tb级数据快速检索方法,本发明还提供一种基于移动通信数据的tb级数据快速检索系统。
20.一种基于移动通信数据的tb级数据快速检索系统,其特征在于:包括以下模块,
21.数据获取模块,其用于获取移动通信数据,并对所述移动通信数据进行预处理,得到预处理后的tb级移动通信数据;
22.数据分类模块,其用于基于数据分类模型将所述tb级移动通信数进行分类并存储,得到多个类别的移动通信数据集;
23.语义解析模块,其用于接收数据检索关键字,并对所述数据检索关键字进行语义解析,生成数据检索语句;
24.数据检索模块,其用于根据所述数据检索关键字检索出所要查找的移动通信数据所属的移动通信数据集,并根据所述数据检索语句在确定的移动通信数据集中进行查找,检索出所要查找的移动通信数据。
25.在上述技术方案的基础上,本发明还可以做如下改进。
26.进一步,所述数据获取模块具体用于,从多个移动通信服务器中获取移动通信数据,并对所述移动通信数据进行数据清洗,得到预处理后的tb级移动通信数据。
27.进一步,所述数据分类模块具体用于,
28.从所述tb级移动通信数据中选取训练集,并从所述训练集中随机抽取初始样本集;
29.利用所述初始样本集训练原始数据分类模型,得到初始数据分类模型;
30.利用所述初始数据分类模型在所述训练集中进行抽样,得到抽样样本;
31.判断所述抽样样本是否符合预设的分类规则;若是,则将所述初始数据分类模型作为最终数据分类模型;若否,则利用所述抽样样本训练所述初始数据分类模型,得到中间数据分类模型;
32.将所述初始数据分类模型替换成所述中间数据分类模型,重复循环执行抽样、判断步骤,直至所述抽样样本符合预设的分类规则,且将所述中间数据分类模型作为最终数据分类模型;
33.利用所述最终数据分类模型对所述tb级移动通信数据进行分类并储存,得到多个类别的移动通信数据集。
34.进一步,所述原始数据分类模型具体为基于支持向量机的数据分类模型。
35.本发明的有益效果是:本发明将tb级移动通信数据进行分类,并将数据检索关键字进行语义解析得到数据检索语句,根据数据检索关键字进行粗检索,在粗检索结果的基础上根据数据检索语句进行精检索,不仅可以提高检索精度,还能提高减速效率。
附图说明
36.图1为本发明一种基于移动通信数据的tb级数据快速检索方法的流程图;
37.图2为本发明一种基于移动通信数据的tb级数据快速检索系统的结构框图。
具体实施方式
38.以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
39.如图1所示,一种基于移动通信数据的tb级数据快速检索方法,包括以下步骤,
40.s1,获取移动通信数据,并对所述移动通信数据进行预处理,得到预处理后的tb级移动通信数据;
41.s2,基于数据分类模型将所述tb级移动通信数进行分类并存储,得到多个类别的移动通信数据集;
42.s3,接收数据检索关键字,并对所述数据检索关键字进行语义解析,生成数据检索语句;
43.s4,根据所述数据检索关键字检索出所要查找的移动通信数据所属的移动通信数据集,并根据所述数据检索语句在确定的移动通信数据集中进行查找,检索出所要查找的移动通信数据。
44.在本具体实施例中,还具有如下优选方案:
45.优选的,所述s1具体为,从多个移动通信服务器中获取移动通信数据,并对所述移动通信数据进行数据清洗,得到预处理后的tb级移动通信数据。
46.优选的,所述s2具体为,
47.s21,从所述tb级移动通信数据中选取训练集,并从所述训练集中随机抽取初始样本集;
48.s22,利用所述初始样本集训练原始数据分类模型,得到初始数据分类模型;
49.s23,利用所述初始数据分类模型在所述训练集中进行抽样,得到抽样样本;
50.s24,判断所述抽样样本是否符合预设的分类规则;若是,则将所述初始数据分类模型作为最终数据分类模型;若否,则利用所述抽样样本训练所述初始数据分类模型,得到中间数据分类模型;
51.s25,将所述初始数据分类模型替换成所述中间数据分类模型,重复循环执行所述s23至s24,直至所述抽样样本符合预设的分类规则,且将所述中间数据分类模型作为最终数据分类模型;
52.s26,利用所述最终数据分类模型对所述tb级移动通信数据进行分类并储存,得到多个类别的移动通信数据集。
53.优选的,所述原始数据分类模型具体为基于支持向量机的数据分类模型。
54.基于上述一种基于移动通信数据的tb级数据快速检索方法,本发明还提供一种基于移动通信数据的tb级数据快速检索系统。
55.如图2所示,一种基于移动通信数据的tb级数据快速检索系统,其特征在于:包括以下模块,
56.数据获取模块,其用于获取移动通信数据,并对所述移动通信数据进行预处理,得到预处理后的tb级移动通信数据;
57.数据分类模块,其用于基于数据分类模型将所述tb级移动通信数进行分类并存
储,得到多个类别的移动通信数据集;
58.语义解析模块,其用于接收数据检索关键字,并对所述数据检索关键字进行语义解析,生成数据检索语句;
59.数据检索模块,其用于根据所述数据检索关键字检索出所要查找的移动通信数据所属的移动通信数据集,并根据所述数据检索语句在确定的移动通信数据集中进行查找,检索出所要查找的移动通信数据。
60.在本具体实施例中,还具有如下优选方案:
61.优选的,所述数据获取模块具体用于,从多个移动通信服务器中获取移动通信数据,并对所述移动通信数据进行数据清洗,得到预处理后的tb级移动通信数据。
62.优选的,所述数据分类模块具体用于,
63.从所述tb级移动通信数据中选取训练集,并从所述训练集中随机抽取初始样本集;
64.利用所述初始样本集训练原始数据分类模型,得到初始数据分类模型;
65.利用所述初始数据分类模型在所述训练集中进行抽样,得到抽样样本;
66.判断所述抽样样本是否符合预设的分类规则;若是,则将所述初始数据分类模型作为最终数据分类模型;若否,则利用所述抽样样本训练所述初始数据分类模型,得到中间数据分类模型;
67.将所述初始数据分类模型替换成所述中间数据分类模型,重复循环执行抽样、判断步骤(抽样步骤为:利用所述初始数据分类模型在所述训练集中进行抽样,得到抽样样本;判断步骤为:判断所述抽样样本是否符合预设的分类规则;若是,则将所述初始数据分类模型作为最终数据分类模型;若否,则利用所述抽样样本训练所述初始数据分类模型,得到中间数据分类模型),直至所述抽样样本符合预设的分类规则,且将所述中间数据分类模型作为最终数据分类模型;
68.利用所述最终数据分类模型对所述tb级移动通信数据进行分类并储存,得到多个类别的移动通信数据集。
69.优选的,所述原始数据分类模型具体为基于支持向量机的数据分类模型。
70.本发明将tb级移动通信数据进行分类,并将数据检索关键字进行语义解析得到数据检索语句,根据数据检索关键字进行粗检索,在粗检索结果的基础上根据数据检索语句进行精检索,不仅可以提高检索精度,还能提高减速效率。
71.以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。