一种基于大数据的企业数据采集分析方法及系统与流程

文档序号:33775955发布日期:2023-04-18 23:03阅读:来源:国知局

技术特征:

1.一种基于大数据的企业数据采集分析方法,其特征在于,所述采集分析方法应用于大数据采集分析平台,所述大数据采集分析平台与多个数据源进行分布式连接,所述大数据采集分析平台在低负载时间对所述多个数据源内的数据进行分析,按照数据源内的数据分布和数据对应的建立时间对数据源进行标签标注,所述采集分析方法包括如下步骤:

2.如权利要求1所述的一种基于大数据的企业数据采集分析方法,其特征在于,所述按照数据源内的数据分布和数据对应的建立时间对数据源进行标签标注进一步包括:预先设置企业查询标签,标注的内容标签为数据源中的标签对应的相关数据内容占该数据源内的全部数据的占比,而时效性标签为与企业采集数据相关的数据的更新频率。

3.如权利要求1所述的一种基于大数据的企业数据采集分析方法,其特征在于,所述首先接收用户的信息准确度需求进一步包括:接收用户需要的信息准确度等级,或者接收用户对需求信息的描述,所述大数据采集分析平台根据用户的信息描述进行语义分析,对需求的准确度进行量化,在根据量化值归类于不同的准确度等级。

4.如权利要求1所述的一种基于大数据的企业数据采集分析方法,其特征在于,所述查询信息的时效性为平台按照企业相关的数据进行分类,建立企业相关数据与时效性要求的对应关系并存储于数据库中。

5.如权利要求1所述的所述的一种基于大数据的企业数据采集分析方法,其特征在于,所述当并未落在所述范围内时,所述大数据采集分析平台通过api接口与一般性数据爬取单元连接,所述一般性数据爬取单元包括web爬行器以及日志聚合器,用以实时收集全部数据源的相关信息数据,用户的查询为通过所述api接口在一般性数据爬取单元中直接查询进一步包括:当用户的准确度需求低于其本申请的权限后,用户通过平台的另一个接口连接分布式爬虫模块,通过爬取多个数据源内的数据建立数据索引表,用户输入查询信息后,与分布式爬虫模块相连接的分析模块对查询信息进行关键词提取,然而与所述索引表进行对应提取相关的企业数据。

6.一种基于大数据的企业数据采集分析系统,其特征在于,所述采集分析系统包括大数据采集分析平台,所述大数据采集分析平台与多个数据源进行分布式连接,所述大数据采集分析平台在低负载时间对所述多个数据源内的数据进行分析,按照数据源内的数据分布和数据对应的建立时间对数据源进行标签标注,用户通过客户端向大数据采集分析平台发送访问请求,所述大数据采集分析平台对用户身份进行验证,其中,所述用户身份的权限对应于可以进行数据采集的准确度等级的范围;在用户通过了所述大数据采集分析平台的身份认证后,在进行大数据的采集分析之前,首先接收用户的信息准确度需求,将所述接收到的信息准确度需求与该用户的权限对应的数据准确度等级的范围进行对比,判断该需求所处在的数据精确度等级是否落在所述范围之内,当并未落在所述范围内时,所述大数据采集分析平台通过api接口与一般性数据爬取单元连接,所述一般性数据爬取单元包括web爬行器以及日志聚合器,用以实时收集全部数据源的相关信息数据,用户的查询为通过所述api接口在一般性数据爬取单元中直接查询,而当落在所述范围之内时,再接收用户查询的数据信息,所述大数据采集分析平台对用户输入的查询信息进行信息关联度分析,判断用户输入的查询信息与数据源的关联程度,并按照所述关联程度对数据源进行第一排序;然后对用户输入的查询信息进行时效性分析,判断所述用户输入的查询信息的时效性要求,根据所述时效性要求对所述第一排序进行二次排序,按照时间相关度调整相关度序列得到第二排序;根据用户输入的信息准确度需求,在进行量化之后根据量化值对应的选择范围选择在第二排序上的排名靠前的数据源进行数据采集。

7.如权利要求6所述的一种基于大数据的企业数据采集分析系统,其特征在于,所述按照数据源内的数据分布和数据对应的建立时间对数据源进行标签标注进一步包括:预先设置企业查询标签,标注的内容标签为数据源中的标签对应的相关数据内容占该数据源内的全部数据的占比,而时效性标签为与企业采集数据相关的数据的更新频率。

8.如权利要求6所述的一种基于大数据的企业数据采集分析系统,其特征在于,所述首先接收用户的信息准确度需求进一步包括:接收用户需要的信息准确度等级,或者接收用户对需求信息的描述,所述大数据采集分析平台根据用户的信息描述进行语义分析,对需求的准确度进行量化,在根据量化值归类于不同的准确度等级。

9.如权利要求6所述的一种基于大数据的企业数据采集分析系统,其特征在于,所述查询信息的时效性为平台按照企业相关的数据进行分类,建立企业相关数据与时效性要求的对应关系并存储于数据库中。

10.如权利要求6所述的所述的一种基于大数据的企业数据采集分析系统,其特征在于,所述当并未落在所述范围内时,所述大数据采集分析平台通过api接口与一般性数据爬取单元连接,所述一般性数据爬取单元包括web爬行器以及日志聚合器,用以实时收集全部数据源的相关信息数据,用户的查询为通过所述api接口在一般性数据爬取单元中直接查询进一步包括:当用户的准确度需求低于其本申请的权限后,用户通过平台的另一个接口连接分布式爬虫模块,通过爬取多个数据源内的数据建立数据索引表,用户输入查询信息后,与分布式爬虫模块相连接的分析模块对查询信息进行关键词提取,然而与所述索引表进行对应提取相关的企业数据。


技术总结
本发明公开了一种基于大数据的企业数据采集分析方法,用户通过客户端向大数据采集分析平台发送访问请求,所述大数据采集分析平台对用户身份进行验证,首先接收用户的信息准确度需求,将所述接收到的信息准确度需求与该用户的权限对应的数据准确度等级的范围进行对比,判断该需求所处在的数据精确度等级是否落在所述范围之内;所述大数据采集分析平台对用户输入的查询信息进行信息关联度分析,判断用户输入的查询信息与数据源的关联程度,根据所述时效性要求对第一排序进行二次排序,按照时间相关度调整相关度序列得到第二排序;在进行量化之后根据量化值对应的选择范围选择在第二排序上的排名靠前的数据源进行数据采集。

技术研发人员:程月,陈一鸣,葛玉芬
受保护的技术使用者:葛玉芬
技术研发日:
技术公布日:2024/1/13
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1