本发明属于计算机软件技术领域,尤其涉及一种网站数据采集的判定系统及方法、信息数据处理终端。
背景技术
目前,业内常用的现有技术是这样的:随着大数据挖掘、人工智能技术的兴起,数据和内容的重要性越来越被公众所认可。在大规模数据采集系统中,如何及时发现新的、有价值网站,进而持续对这些网站内容进行爬取,是当前数据采集系统急需解决的问题。在数据采集系统中,通过抽取页面上的链接,并对链接进行处理来自动发现新网站的网址。之后,需要对新网站的采集价值进行判定,例如是否某一领域的网站、网站发布的内容质量如何等。采集价值高的网站才会被添加到采集列表,从而定期爬取新发布的内容。一般来讲,不同用户对数据采集价值的定义不同,会综合考虑多种因素来判定一个网站是否值的长期采集。
综上所述,现有技术存在的问题是:
(1)网站的采集价值如何评估。
(2)影响网站采集价值的影响因素有哪些。
(3)如何对这些因素进行量化分析。
解决上述技术问题的难度和意义:通过解决以上问题,能够实现自动化的网站发现及网站采集价值判定,提升信息获取速度及质量,帮助用户以更快的速度获取更多更好的数据。
技术实现要素:
针对现有技术存在的问题,本发明提供了一种网站数据采集的判定系统及方法、信息数据处理终端。
本发明是这样实现的,一种网站数据采集的判定方法,所述网站数据采集的判定方法为:抽样采集网站内容;计算各影响因素的值;根据各影响因素的值计算网站采集价值;根据网站采集价值确定是否对进行持续采集。
进一步,所述抽样采集网站内容采用广度优先算法采集数万篇文章。
进一步,所述影响因素量为:
(1)文本类型a,用于判定网站发布的内容是否属于用户感兴趣的领域;
(2)文本质量评估q,文本数据中是否有乱码文本、js代码文本、标题内容不一致、灌水文本;
(3)文章更新频率f,用网站平均每天的新增篇章数量来指代文章更新频率;
(4)原创内容占比o,用原创内容在所有新闻中所占比例表示。
进一步,所述文本类型采用有监督的机器学习方法,准备领域内和领域外的文章各一批,利用机器学习或深度学习技术训练一个二分类的分类器,利用已经训练好的分类器对网站采样文本的类型进行判定,统计采样文本中领域内篇章的占比,如果该占比高于指定阈值,则判定该网站发布内容与用户需求一致,记为a=1,否则记为a=0;
所述文本质量评估q采用基于深度表征的文本质量评估方法对每个篇章的质量进行评分,并取采样文本的质量平均分作为网站文本质量分;由于原始质量分值取值范围为[0,100],为了归一化,q的取值在原始文本质量分数的基础上除以100;
所述文章更新频率f,对更新频率f进行归一化处理:
其中fmin、fmax为统计大量网站所得结果。
进一步,所述网站采集价值计算公式:
v=a*(α*q+β*f+γ*o);
其中α、β、γ分别为三个影响因素文本质量评估、文章更新频率、原创内容占比的权重,且α+β+γ=1;文本类型记为a,文本质量评估记为q,文章更新频率记为f,原创内容占比记为o。
进一步,所述采集判定当网站采集价值v大于指定阈值,则将网站加入定期采集列表,否则不加入。
本发明的另一目的在于提供一种实现所述网站数据采集的判定方法的网站数据采集的判定系统,所述网站数据采集的判定系统包括:
抽样模块,用于抽样采集网站内容;
计算模块,用于计算各影响因素的值;
网站采样价值模块,用于根据各影响因素的值计算网站采集价值;
判定模块,用于根据网站采集价值确定是否对其进行持续采集。
本发明的另一目的在于提供一种实现所述网站数据采集的判定方法的计算机程序。
本发明的另一目的在于提供一种实现所述网站数据采集的判定方法的信息数据处理终端。
本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的网站数据采集的判定方法。
综上所述,本发明的优点及积极效果为:从多方面评估一个网站的采集价值,包括所属领域、文章质量、文章更新频率、原创内容占比等;提供了各因素评测值的量化方法,基于扎实的工程经验,方便有效且易于操作。同时给出了基于各评测值的网站采集价值计算方法,能够自动、快速的对网站的采集价值进行评估。试验表明,本发明的准确度高于99%,可以应用于实际系统。
附图说明
图1是本发明实施例提供的网站数据采集的判定系统结构示意图;
图中:1、抽样模块;2、计算模块;3、网站采样价值模块;4、判定模块。
图2是本发明实施例提供的网站数据采集的判定方法流程图。
图3是本发明实施例提供的网站数据采集的判定方法实现流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明多方面评估一个网站的采集价值,包括所属领域、文章质量、文章更新频率、原创内容占比等;提供了各因素评测值的量化方法,基于扎实的工程经验,方便有效且易于操作。
如图1所示,本发明实施例提供的网站数据采集的判定系统包括:
抽样模块1,用于抽样采集网站内容;
计算模块2,用于计算各影响因素的值;
网站采样价值模块3,用于根据各影响因素的值计算网站采集价值;
判定模块4,用于根据网站采集价值确定是否对其进行持续采集。
如图2所示,本发明实施例提供的网站数据采集的判定方法包括以下步骤:
s201:抽样采集网站内容;
s202:计算各影响因素的值;
s203:根据各影响因素的值计算网站采集价值;
s204:根据网站采集价值确定是否对其进行持续采集。
如图3所示,本发明实施例提供的网站数据采集的判定方法具体包括以下步骤:
步骤一,网站采样
爬取部分网站篇章用于网站采集价值的计算。本发明建议采用广度优先算法采集数万篇文章。
步骤二,影响因素量化分析
如图3所示,网站采集价值主要受四方面因素影响:文本内容是否属于指定领域、文本质量如何、文章更新频率以及原创内容占比。
(1)文本类型
文本类型主要用于判定网站发布的内容是否属于用户感兴趣的领域,例如是否属于新闻、是否属于科技或财经领域等,如果不是则不采集。
文本类型(a)的判定主要利用文本分类技术实现。本发明采用有监督的方法,首先准备领域内和领域外的文章各一批,然后利用机器学习或深度学习技术训练一个二分类的分类器。利用已经训练好的分类器对网站采样文本的类型进行判定。最后统计采样文本中领域内篇章的占比,如果占比高于指定阈值(建议95%以上)则认为该网站发布内容与用户需求一致,即a=1,否则a=0。
(2)文本质量
文本质量(q)主要评估文本数据中是否有乱码文本、js代码文本、标题内容不一致、灌水文本等现象,采用一种基于深度表征的文本质量评估方法(申请号:201810028932.5)对每个篇章的质量进行评分,并取采样文本的质量平均分作为网站文本质量分。由于原始质量分值取值范围为[0,100],为了归一化,q的取值在原始文本质量分数的基础上除以100。
(3)文章更新频率
网站更新内容的速度是其采集价值的重要指标,一个长久不更新的网站没有持续采集的必要。为了提高实用性,本发明不采用跟踪网页变化过程的检测方法,而是统计网站采样文本的时间分布,用网站平均每天的新增篇章数量来指代文章更新频率。此外,为了数据处理的一致性,对更新频率(f)进行归一化处理,即:
其中fmin、fmax为采集系统统计大量网站所得结果。
(4)原创内容占比
原创内容高的网站采集价值更高。为了计算原创内容占比,首先需要辨别哪些是原创内容。
本发明采用规则方法,通过两个因素判定文章为转载还是原创:1、“来源”等标明文章出处的标签。文章页面中通常会包含“来源”等标签来标明文章的出处,因此首先遍历网页标签,如果包含该类标签,且标签内容与当前网站不符,则标记为“转载”,否则标记为“原创”。2、原创文章通常会在文章末尾标记“本报记者xxx”,因此通过关键词匹配技术,若文章末尾包含该类关键词则标记为“原创”;3、若页面中以上两个因素都不存在,则篇章默认为“原创”。
原创内容占比(o)的计算方法为统计采样文本中每天新增篇章中原创内容的比例并取平均值。
步骤三,网站采集价值
利用以上四个评测值来计算网站的采集价值,计算公式如下:
v=a*(α*q+β*f+γ*o);
其中α、β、γ分别为三个影响因素文本质量评估、文章更新频率、原创内容占比的权重,且α+β+γ=1;文本类型记为a,文本质量评估记为q,文章更新频率记为f,原创内容占比记为o。
步骤四,采集判定
当网站采集价值v大于指定阈值,则将网站加入定期采集列表,否则不加入。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solidstatedisk(ssd))等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。