本发明涉及热点信息提取,尤其涉及一种基于大数据的热点信息提取系统。
背景技术:
1、热点信息提取的主要依赖于信息获取、预处理及提取技术。这些技术通过元搜索等定位并收集信息,经过净化、分词等预处理后,运用机器学习算法提取热点主题词,实现从海量数据中快速、准确地获取关键信息。
2、中国专利公开号:cn115795175a公开了一种基于数据分析的多维度热点提取方法,包括下述步骤:步骤一:通过维度提选单元从各个不同的维度进行维热信息的提取,本发明通过对不同维度的热点信息进行数据的采集,并将采集的数据进行依次往下的划分,从而将数据的类别种类划分清楚,并与对数据的提取以及处理,依据划分的数据进行不同种类的数据处理,从而得到对应种类数据的分析系数以及评价系数,将数据进行数值转化,增加数据的直观性,依据转化后的不同系数进行综合处理,依据处理结果对不同维度的热点信息进行判定选取,从而选取出不同维度的热点,选取出不重复的热点数据,并生成提取传输提示,依据提示进行提取传输。该发明实现了结合用户的访问信号数据及设定的多维度数据对热点数据的提取,未实现结合用户的偏好、文章的内容相关度和用户评论数据对热点数据提取的综合分析,存在对用户数据和文章数据分析效率低,对热点数据提取不准确的问题。
技术实现思路
1、本发明的目的在于提供一种基于大数据的热点信息提取系统,以解决现有技术存在的问题中的至少一个。
2、为实现上述目的,本发明采用了如下技术方案:
3、一种基于大数据的热点信息提取系统,包括:
4、平台数据采集模块,用以采集社交平台中的文章信息和用户信息,并周期性采集文章访问信息;
5、数据编号构建模块,用以对文章信息和用户信息进行编号,以得到文章编号和用户编号;
6、文章分类处理模块,用以对文章信息进行分类处理,以得到文章信息的文章类别;
7、用户数据分析模块,用以根据用户信息、文章编号、用户编号和文章类别对用户偏好特征和用户交互质量进行分析;
8、文章数据分析模块,用以根据文章信息和文章类别对内容关联度和文章内容特征进行分析;
9、访问数据分析模块,用以根据文章访问信息、内容关联度和文章内容特征对文章访问特征进行分析;
10、热度综合分析模块,用以根据文章访问特征、用户偏好特征和用户交互质量对文章热点类型进行分析;
11、热点信息提取模块,用以根据文章热点类型对热点信息进行提取。
12、进一步地,所述文章分类处理模块将文章主题与预设类别关键词进行匹配,并根据匹配结果对文章类别进行分析,若文章主题中存在预设类别关键词,所述文章分类处理模块将文章类别设置为与预设类别关键词对应的预设类别相同,若文章主题中不存在预设类别关键词,所述文章分类处理模块将文章类别设置为无类别。
13、进一步地,所述用户数据分析模块设有用户偏好分析单元,其用以统计用户浏览信息中文章信息对应的不同的文章类别的数量作为浏览类别数量n1(j),统计用户浏览信息中各文章类别对应的不同的文章信息的数量作为浏览偏好数量n(j,k),并根据浏览类别数量和浏览偏好数量对用户偏好特征进行分析,以得到用户偏好特征h(j)。
14、进一步地,所述用户数据分析模块还设有用户评论分析单元,其用以根据用户评论内容是否为相关评论、评论相关次数n2(j,i)和评论点赞数量b(j,i)对用户交互质量进行分析,以得到用户交互质量为q(j,i)。
15、进一步地,所述文章数据分析模块设有内容关联分析单元,其用以去除文章主题和文章内容中与预设简化关键词相同的词语,以得到简化主题和简化内容,并将简化主题中的词语作为关联分析关键词,所述内容关联分析单元提取简化内容中关联分析关键词出现的次数作为内容关联次数n3(i),并根据内容关联次数对内容关联度进行分析,以得到内容关联度p(i)。
16、进一步地,所述文章数据分析模块还设有内容特征分析单元,其用以统计与当前分析的文章信息的文章类别相同且文章信息中存在关联分析关键词的其他的文章信息的数量作为特征分析数量s(i),并根据特征分析数量、内容关联次数n3(i)对文章内容特征进行分析,以得到文章内容特征d(i)。
17、进一步地,所述访问数据分析模块设有访问特征分析单元,其用以根据访问量w(i,t)和文章已发布时长t对文章访问特征进行分析,以得到文章访问特征a(i,t)。
18、进一步地,所述访问数据分析模块还设有访问关联分析单元,其用以将内容关联度p(i)与关联度阈值p进行比对,并根据比对结果对文章访问特征的分析过程进行调整,在内容关联度不符合阈值时,对文章访问特征的分析过程进行调整,调整后的文章访问特征为a1(i,t);
19、所述访问数据分析模块还设有文章内容分析单元将文章内容特征d(i)与内容特征阈值d进行比对,并根据比对结果对文章访问特征的调整过程进行优化,在文章内容特征符合阈值时,对文章访问特征的调整过程进行优化,优化后的文章访问特征为a2(i,t)。
20、进一步地,所述热度综合分析模块设有热度综合分析单元,其用以根据文章访问特征a(i,t)、用户偏好特征h(j)和用户交互质量q(j,i)对文章热度参数进行分析,以得到文章热度参数f(i,t)。
21、进一步地,所述热度综合分析模块还设有热点类型判断单元,其用以将文章热度参数f(i,t)与热度阈值f1、f2进行比对,并根据比对结果判断文章热点类型,所述文章热点类型包括一类、二类和三类。
22、本发明的有益效果如下:通过所述平台数据采集模块对社交平台中文章信息、用户信息和文章访问信息的采集,以及其他各模块对采集到的信息的综合分析,以实现结合用户偏好、文章主题内容关联度、文章内容特征和文章的访问数据对文章热度的分析,从而提取出高热度的文章作为热点信息,进而提高系统对用户数据和文章数据的分析效率,提高热点数据提取的准确度。
1.一种基于大数据的热点信息提取系统,其特征在于,包括:
2.根据权利要求1所述的基于大数据的热点信息提取系统,其特征在于,所述文章分类处理模块将文章主题与预设类别关键词进行匹配,并根据匹配结果对文章类别进行分析,若文章主题中存在预设类别关键词,所述文章分类处理模块将文章类别设置为与预设类别关键词对应的预设类别相同,若文章主题中不存在预设类别关键词,所述文章分类处理模块将文章类别设置为无类别。
3.根据权利要求2所述的基于大数据的热点信息提取系统,其特征在于,所述用户数据分析模块设有用户偏好分析单元,其用以统计用户浏览信息中文章信息对应的不同的文章类别的数量作为浏览类别数量n1(j),统计用户浏览信息中各文章类别对应的不同的文章信息的数量作为浏览偏好数量n(j,k),并根据浏览类别数量和浏览偏好数量对用户偏好特征进行分析,以得到用户偏好特征h(j)。
4.根据权利要求3所述的基于大数据的热点信息提取系统,其特征在于,所述用户数据分析模块还设有用户评论分析单元,其用以根据用户评论内容是否为相关评论、评论相关次数n2(j,i)和评论点赞数量b(j,i)对用户交互质量进行分析,以得到用户交互质量为q(j,i)。
5.根据权利要求4所述的基于大数据的热点信息提取系统,其特征在于,所述文章数据分析模块设有内容关联分析单元,其用以去除文章主题和文章内容中与预设简化关键词相同的词语,以得到简化主题和简化内容,并将简化主题中的词语作为关联分析关键词,所述内容关联分析单元提取简化内容中关联分析关键词出现的次数作为内容关联次数n3(i),并根据内容关联次数对内容关联度进行分析,以得到内容关联度p(i)。
6.根据权利要求5所述的基于大数据的热点信息提取系统,其特征在于,所述文章数据分析模块还设有内容特征分析单元,其用以统计与当前分析的文章信息的文章类别相同且文章信息中存在关联分析关键词的其他的文章信息的数量作为特征分析数量s(i),并根据特征分析数量、内容关联次数n3(i)对文章内容特征进行分析,以得到文章内容特征d(i)。
7.根据权利要求6所述的基于大数据的热点信息提取系统,其特征在于,所述访问数据分析模块设有访问特征分析单元,其用以根据访问量w(i,t)和文章已发布时长t对文章访问特征进行分析,以得到文章访问特征a(i,t)。
8.根据权利要求7所述的基于大数据的热点信息提取系统,其特征在于,所述访问数据分析模块还设有访问关联分析单元,其用以将内容关联度p(i)与关联度阈值p进行比对,并根据比对结果对文章访问特征的分析过程进行调整,在内容关联度不符合阈值时,对文章访问特征的分析过程进行调整,调整后的文章访问特征为a1(i,t);
9.根据权利要求8所述的基于大数据的热点信息提取系统,其特征在于,所述热度综合分析模块设有热度综合分析单元,其用以根据文章访问特征a(i,t)、用户偏好特征h(j)和用户交互质量q(j,i)对文章热度参数进行分析,以得到文章热度参数f(i,t)。
10.根据权利要求9所述的基于大数据的热点信息提取系统,其特征在于,所述热度综合分析模块还设有热点类型判断单元,其用以将文章热度参数f(i,t)与热度阈值f1、f2进行比对,并根据比对结果判断文章热点类型,所述文章热点类型包括一类、二类和三类。