样本数据收集系统的制作方法
【专利摘要】本发明公开了一种样本数据收集系统。该系统包括:数据库接口,用于提供访问数据库的接口;数据库,连接于数据库接口,用于通过数据库接口存储接收到的样本数据,并根据用户的请求发送相应的样本数据;特征抽取模块,连接于数据库接口,用于通过数据库接口获取数据库中的样本数据,根据预先设置的逻辑将样本数据抽取为特征数据,并进行存储,根据用户的请求发送相应的特征数据。借助于本发明的技术方案,能够减少获取样本数据的成本,节省开发的时间,并进一步提高了样本数据的准确性和实效性。
【专利说明】样本数据收集系统
【技术领域】
[0001] 本发明涉及计算机【技术领域】,特别是涉及一种样本数据收集系统。
【背景技术】
[0002] 目前,分类信息网站在识别低质信息时可以通过很多不同的系统进行识别,每个 系统的使用的方法不同,并且是由不同的人员开发的。但不管如何识别信息,找到识别方法 的唯一途径就是分析具体的样本,但是在实际工作中发现,如何找到具有代表性的样本同 时能够保证样本的新鲜程度是一件非常困难的事情。
[0003] 通过样本数据收集能够提供具有代表性的样本,并且保证样本数量的充足,新鲜 和准确,给后续的识别工作减少了很大的工作量。现有技术中的样本收集手段,是根据各种 需要识别的问题分别收集相应的样本。这些样本可能来自于数据库、历史日志、挖掘出来的 一些信息或者是用户的申诉。而且每次在做开发或者分析的时候,由于需要新鲜的样本,需 要每次将数据库,历史日志,挖掘出来的一些信息或者是用户的申诉重新导出。
[0004] 如上所述,现有技术中的样本数据收集存在以下问题:1、由于现有收集手段为非 系统化的收集,因此样本数据准确率得不到保障;2、且利用现有收集手段所获得的样本时 效性较差,多不能实时得到最新的样本;3、由于现有的样本收集手段是为需要识别的问题 而收集相应的样本,因此针对每个技术和产品可能都需要花时间整理和开发抽取样本的代 码;4、样本的分类体系不完善。
【发明内容】
[0005] 鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上 述问题的样本数据收集系统。
[0006] 本发明提供一种样本数据收集系统,包括:数据库接口,用于提供访问数据库的接 口;数据库,连接于数据库接口,用于通过数据库接口存储接收到的样本数据,并根据用户 的请求发送相应的样本数据;特征抽取模块,连接于数据库接口,用于通过数据库接口获取 数据库中的样本数据,根据预先设置的逻辑将样本数据抽取为特征数据,并进行存储,根据 用户的请求发送相应的特征数据。
[0007] 优选地,上述系统进一步包括:辅助模块,连接于数据库,用于对数据库中存储的 样本数据进行统计和管理。
[0008] 优选地,上述辅助模块具体包括:修正子模块,用于自动对数据库中不准确的样本 数据进行修正;超时数据删除子模块,用于自动对数据库中存储超过预定时间的样本数据 进行删除;老数据删除子模块,用于自动对数据库中已经抽取为特征数据的样本数据进行 删除;统计子模块,用于在动对数据库中不同类别的样本数据进行定期统计,并在样本数据 量低于预先设置的阈值时,自动向用户发送样本数据量不足的提醒。
[0009] 优选地,上述老数据删除子模块具体用于:将特征数据的记录时间与数据库中存 储的相应样本数据的记录时间进行比较;如果特征数据的记录时间早于样本数据的记录时 间,则确定保留样本数据,如果特征数据的记录时间晚于样本数据的记录时间,则进一步判 断能否针对该样本数据补充新的特征数据,如果能补充则保留样本数据,否则删除样本数 据。
[0010] 优选地,上述系统进一步包括:后台管理模块,连接于数据库接口,用于通过数据 库接口对数据库中的样本数据进行分类,和/或创建新的样本数据类别。
[0011] 优选地,上述后台管理模块进一步用于:根据用户的操作对样本数据进行校对,并 修正不准确的样本数据。
[0012] 优选地,上述特征抽取模块具体用于:根据预先设置的逻辑,收集、和/或提取样 本数据的一个或多个特征数据,并对样本数据对应的特征数据进行归纳存储。
[0013] 优选地,上述样本数据包括:样本标识ID、以及样本分类。
[0014] 优选地,上述特征数据包括:对某类行为的描述、以及对该类行为取样的周期。
[0015] 优选地,上述样本数据收集系统用于为分类信息网站的信息识别提供样本数据和 特征数据。
[0016] 本发明有益效果如下:
[0017] 借助于本发明实施例的样本数据收集系统,能够减少获取样本数据的成本,节省 开发的时间,并进一步提高了样本数据的准确性和实效性,对样本的数量也有了保证,为后 面产品和技术在分析和开发中提供大量的帮助。
[0018] 上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段, 而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够 更明显易懂,以下特举本发明的【具体实施方式】。
【专利附图】
【附图说明】
[0019] 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通 技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明 的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0020] 图1是本发明实施例的样本数据收集系统的结构示意图;
[0021] 图2是本发明实施例的样本数据收集系统的优选结构示意图。
【具体实施方式】
[0022] 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开 的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例 所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围 完整的传达给本领域的技术人员。
[0023] 为了解决现有技术中的样本数据收集手段为非系统化的收集而导致的样本数据 准确率低、利用现有收集手段所获得的样本时效性较差、以及针对每个技术和产品可能都 需要花时间整理和开发抽取样本的代码的问题,本发明提供了一种样本数据收集系统,以 下结合附图以及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施 例仅仅用以解释本发明,并不限定本发明。
[0024] 根据本发明的实施例,提供了一种样本数据收集系统,本发明实施例的样本数据 收集系统可以用于为分类信息网站的信息识别提供样本数据和特征数据。图1是本发明实 施例的样本数据收集系统的结构示意图,如图1所示,根据本发明实施例的样本数据收集 系统包括:数据库接口 10、数据库12、以及特征抽取模块14,以下对本发明实施例的各个模 块进行详细的说明。
[0025] 数据库接口 10,用于提供访问数据库12的接口;
[0026] 数据库12,连接于数据库接口 10,用于通过数据库接口 10存储接收到的样本数 据,并根据用户的请求发送相应的样本数据;其中,样本数据包括:样本标识ID、以及样本 分类。
[0027] 特征抽取模块14,连接于数据库接口 10,用于通过数据库接口 10获取数据库12 中的样本数据,根据预先设置的逻辑将样本数据抽取为特征数据,并进行存储,根据用户的 请求发送相应的特征数据。其中,特征数据包括:对某类行为的描述、以及对该类行为取样 的周期。
[0028] 具体地,特征抽取模块14具体用于:根据预先设置的逻辑,收集、和/或提取样本 数据的一个或多个特征数据,并对样本数据对应的特征数据进行归纳存储。
[0029] 为了更好地对样本数据进行管理,本发明实施例的系统还包括辅助模块和后台管 理模块,具体地:
[0030] 辅助模块,连接于数据库12,用于对数据库12中存储的样本数据进行统计和管 理。
[0031] 后台管理模块,连接于数据库接口 10,用于通过数据库接口 10对数据库12中的样 本数据进行分类,和/或创建新的样本数据类别。
[0032] 其中,后台管理模块进一步用于:根据用户的操作对样本数据进行校对,并修正不 准确的样本数据。
[0033] 上述辅助模块具体包括:
[0034] 修正子模块,用于自动对数据库12中不准确的样本数据进行修正;
[0035] 超时数据删除子模块,用于自动对数据库12中存储超过预定时间的样本数据进 行删除;
[0036] 老数据删除子模块,用于自动对数据库12中已经抽取为特征数据的样本数据进 行删除;其中,老数据删除子模块具体用于:
[0037] 将特征数据的记录时间与数据库12中存储的相应样本数据的记录时间进行比 较;如果特征数据的记录时间早于样本数据的记录时间,则确定保留样本数据,如果特征数 据的记录时间晚于样本数据的记录时间,则进一步判断能否针对该样本数据补充新的特征 数据,如果能补充则保留样本数据,否则删除样本数据。
[0038] 统计子模块,用于自动对数据库12中不同类别的样本数据进行定期统计,并在样 本数据量低于预先设置的阈值时,自动向用户发送样本数据量不足的提醒。
[0039] 以下结合附图,对本发明实施例的技术方案进行详细的说明。
[0040] 图2是本发明实施例的样本数据收集系统的优选结构示意图,如图2所示,在本发 明实施例中,本系统由5个模块组成,分别是:数据库、数据库接口、特征抽取模块、辅助模 块、后台管理模块。
[0041] 数据库与数据库接口以及辅助模块连接,用于存储样本信息,例如样本id、样本分 类等。
[0042] 数据库接口与特征抽取模块、后台管理模块以及数据库连接,用于提供访问数据 库的接口,对数据库进行添、删、改、查等操作,例如,通过数据库接口将样本信息写入数据 库、需求方通过数据库接口获取存储于数据库的样本信息。
[0043] 特征抽取模块,与数据库接口连接,通过数据库接口获取存储于数据库中的样本 信息。特征抽取模块根据预设的逻辑将一个具体的样本的信息,转化、归纳或者提取为特征 (该特征可以是一个或多个),比如提取为特征A。其中某一种特征代表某一类的行为、以及 对该类行为取样的周期等等。特征抽取模块可将转化、归纳或者提取得到的特征存储于其 内部的存储空间内。需求方可获取存储于特征抽取模块的特征。
[0044] 例如,当一条样本信息写入样本库的时候,其仅为一条信息,通过特征抽取模块, 收集到该样本的不同的特征,并转化、归纳或者提取得到这些特征,将这些特征存储,使得 后续对样本进行分析时候可以尽快的做出判断。
[0045] 辅助模块,与数据库连接,用于对数据库中存储的样本信息进行统计与清洗。具体 的:
[0046] 1、辅助模块可以修正不准确的样本数据。例如样本信息1被写入数据库中,但经 过识别认为该样本信息不应被写入数据库中,则辅助模块接收到删除指令(删除指令中包 含该样本信息,例如样本id、样本分类等)将该样本信息1从数据库中删除;
[0047] 2、辅助模块可以淘汰老数据。例如,样本信息1在数据库中已存储超过30日,则辅 助模块会将该样本信息1删除。其中在写入样本的信息时会记录该样本信息写入的时间。 在本发明实施例中,可以以时间标识标注该样本信息。
[0048] 3、当特征抽取模块通过转化、归纳或提取等方式获得新特征,有些老数据失去了 意义,则辅助模块将会淘汰老数据。在实际应用中,可以通过以下操作淘汰老数据,具体地: 辅助模块将比较特征的记录时间与数据库中存储的样本信息的记录时间。如特征的记录时 间早于样本信息的记录时间,则认为该样本信息可以保留,如特征的记录时间晚于样本信 息的记录时间,则需判断能否针对该特征将相关信息(例如,基于所述样本数据的新的特 征信息)补齐,如能补齐则保留该样本信息,否则删除该样本信息。其中补齐的方法包括: 向特征抽取模块写入相关信息。
[0049] 4、辅助模块对样本数据进行统计。针对不同的样本类别定期对样本的数据量进行 统计,并根据需求将统计结果发送至各需求方,也可向需求方发送数据量不足的提醒。
[0050] 后台管理模块,与数据库接口连接,用于管理样本的分类及对样本的信息进行校 对,对不准确的数据进行修正。具体地:例如创设新的样本类别。该后台管理模块为人工对 数据库进行操作提供了接口,通过后台管理模块可以人工管理样本的分类及对样本的信息 进行校对,对不准确的数据进行修正。
[0051] 综上所述,借助于本发明实施例的技术方案,能够减少获取样本数据的成本,节省 开发的时间,并进一步提高了样本数据的准确性和实效性,对样本的数量也有了保证,为后 面产品和技术在分析和开发中提供大量的帮助。
[0052] 显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精 神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围 之内,则本发明也意图包含这些改动和变型在内。
【权利要求】
1. 一种样本数据收集系统,其特征在于,包括: 数据库接口,用于提供访问数据库的接口; 数据库,连接于所述数据库接口,用于通过所述数据库接口存储接收到的样本数据,并 根据用户的请求发送相应的样本数据; 特征抽取模块,连接于所述数据库接口,用于通过所述数据库接口获取所述数据库中 的所述样本数据,根据预先设置的逻辑将所述样本数据抽取为特征数据,并进行存储,根据 用户的请求发送相应的特征数据。
2. 如权利要求1所述的系统,其特征在于,所述系统进一步包括: 辅助模块,连接于所述数据库,用于对所述数据库中存储的所述样本数据进行统计和 管理。
3. 如权利要求2所述的系统,其特征在于,所述辅助模块具体包括: 修正子模块,用于自动对所述数据库中不准确的样本数据进行修正; 超时数据删除子模块,用于自动对所述数据库中存储超过预定时间的样本数据进行删 除; 老数据删除子模块,用于自动对所述数据库中已经抽取为特征数据的样本数据进行删 除; 统计子模块,用于自动对所述数据库中不同类别的样本数据进行定期统计,并在样本 数据量低于预先设置的阈值时,自动向用户发送样本数据量不足的提醒。
4. 如权利要求3所述的系统,其特征在于,所述老数据删除子模块具体用于: 将特征数据的记录时间与所述数据库中存储的相应样本数据的记录时间进行比较;如 果所述特征数据的记录时间早于所述样本数据的记录时间,则确定保留所述样本数据,如 果所述特征数据的记录时间晚于所述样本数据的记录时间,则进一步判断能否针对该样本 数据补充新的特征数据,如果能补充则保留所述样本数据,否则删除所述样本数据。
5. 如权利要求1所述的系统,其特征在于,所述系统进一步包括: 后台管理模块,连接于所述数据库接口,用于通过所述数据库接口对所述数据库中的 所述样本数据进行分类,和/或创建新的样本数据类别。
6. 如权利要求5所述的系统,其特征在于,后台管理模块进一步用于:根据用户的操作 对所述样本数据进行校对,并修正不准确的样本数据。
7. 如权利要求1至6中任一项所述的系统,其特征在于,特征抽取模块具体用于:根据 预先设置的逻辑,收集、和/或提取所述样本数据的一个或多个特征数据,并对所述样本数 据对应的特征数据进行归纳存储。
8. 如权利要求1至6中任一项所述的系统,其特征在于,所述样本数据包括:样本标识 ID、以及样本分类。
9. 如权利要求1至6中任一项所述的系统,其特征在于,所述特征数据包括:对某类行 为的描述、以及对该类行为取样的周期。
10. 如权利要求1至6中任一项所述的系统,其特征在于,所述样本数据收集系统用于 为分类信息网站的信息识别提供所述样本数据和所述特征数据。
【文档编号】G06F17/30GK104063474SQ201410307397
【公开日】2014年9月24日 申请日期:2014年6月30日 优先权日:2014年6月30日
【发明者】张鹏, 张美琦, 张爱华, 张朝阳 申请人:五八同城信息技术有限公司