本发明涉及互联网数据处理技术领域,具体而言,涉及一种基于互联网数据形成产品数据库方法和系统。
背景技术:目前,一些主流网站的产品目录形成,都是针对各行业采用固定产品发布模板,形成一个产品的描述。并且,对于同一个产品的描述方式,各个网站所采取的标准也不同。这样,由于产品发布标准格式不统一,对于产品需求方来说,需求标准各式各样,由于各大网站产品描述格式不统一,因此对于产品信息进行综合整理较为困难,无法获知符合需求标准的产品较为全面的信息,若按需求标准来进行产品挑选,对于大批量多型号产品选择的情况,往往需要阅读海量网页,效率低下。综上所述,相关技术中由于缺乏一种统一的产品描述标准,而导致产品信息整理困难的技术问题。
技术实现要素:本发明的目的在于提供一种基于互联网数据形成产品数据库方法和系统,以解决上述的问题。在本发明的实施例中提供了一种基于互联网数据形成产品数据库方法,包括步骤:步骤A,采用主题爬虫技术,抓取与主题相关度高于预设阈值的网页数据,其中,所述主题相关度通过内容相关度分析和链接相关度分析进行计算;步骤B,将抓取的所述网页数据进行结构化存储;步骤C,对所述结构化存储的网页数据按照产品所属类别进行自动分类;步骤D,统计自动分类后的网页数据中产品属性的出现次数和出现时间,根据预设的权重对产品属性出现次数和出现时间进行加权计算,得到产品属性决策值,根据所述产品属性决策值确定产品属性排列顺序;其中,产品属性的出现次数记为F,产品属性的出现时间记为T,以及数据来源的权重记为W,通过公式(F+T)*W,得到所述产品属性决策值。其中,所述步骤A包括步骤:对经过内容特征提取后的网页数据进行分析,判定网页内容与指定主题相关度是否达到所述预设阈值,是,则保留该网页,否,则过滤掉该网页;和/或,对从网页中提取的超链信息进行测算,得出每个URL所指页面与指定主题的相关度,将相关度达到预设阈值的网页保留;将保留的网页的URL加入到爬行队列中并根据其与主题相关度的高低进行排序;根据爬行队列中的URL,与网络建立连接后以下载其所指页面内容。其中,所述步骤B包括步骤:对抓取的网页数据的网页标签进行分析,对于不同的产品页面,通过实体标签获取产品实体信息,并形成记录,通过属性标签获取对应的产品属性信息以及对应的属性值进行结构化存储。其中,所述步骤C包括步骤:提取网页数据中的文本信息,确定用于自动分类的特征项集合,根据所述特征项集合重新描述训练文本向量,确定训练文本集;在当前文本到达后,根据所述特征项集合中的特征词分析当前文本,确定当前文本的向量表示;在训练文本集中选出与当前文本最相似的K个文本,计算公式为:Wi表示第i篇文档的特征向量,Wj表示第j篇文档的特征向量,M为特征向量的维数,sim(d)表示第i和j篇文档的相似度,k表示文本向量的第k维;在与当前文本最相似的K个文本中,依次计算每个的权重,计算公式如下:x是一个点,Cj是已知类别,di是x的k个最近的邻居点,是向量和向量的相似度,为类别属性函数;依据得到的权重,计算当前文本与K个文本之间的相似度,根据相似度,确定该当前文本的所属类别。其中,所述C包括步骤:预先依据训练样本和分类体系建立类别向量空间;对一篇待分样本进行分类时,计算待分样本和每一个类别向量的相似度,然后选取相似度最大的类别作为该待分样本所对应的类别。其中,所述步骤C包括步骤:根据SVM算法和/或Bayes算法对网页数据进行自动分类。其中,所述步骤D之后,还包括步骤:根据用户输入的产品属性关键词,检索相匹配的产品信息并按照产品属性决策值的高低将产品信息以列表形式进行显示。本发明实施例还提供一种基于互联网数据形成产品数据库系统,包括数据抓取模块、结构化存储模块、数据分类模块和属性决策模块;所述数据抓取模块,用于采用主题爬虫技术,抓取与主题相关度高于预设阈值的网页数据,其中,所述主题相关度通过内容相关度分析和链接相关度分析进行计算;所述结构化存储模块,用于将抓取的所述网页数据进行结构化存储;所述数据分类模块,用于对所述结构化存储的网页数据按照产品所属类别进行自动分类;所述属性决策模块,用于统计自动分类后的网页数据中产品属性的出现次数和出现时间,根据预设的权重对产品属性出现次数和出现时间进行加权计算,得到产品属性决策值,根据所述产品属性决策值确定产品属性排列顺序;其中,产品属性的出现次数记为F,产品属性的出现时间记为T,以及数据来源的权重记为W,通过公式(F+T)*W,得到所述产品属性决策值。其中,所述数据抓取模块,用于:对经过内容特征提取后的网页数据进行分析,判定网页内容与指定主题相关度是否达到所述预设阈值,是,则保留该网页,否,则过滤掉该网页;和/或,对从网页中提取的超链信息进行测算,得出每个URL所指页面与指定主题的相关度,将相关度达到预设阈值的网页保留;将保留的网页的URL加入到爬行队列中并根据其与主题相关度的高低进行排序;根据爬行队列中的URL,与网络建立连接后以下载其所指页面内容。其中,所述结构化存储模块,用于:对抓取的网页数据的网页标签进行分析,对于不同的产品页面,通过实体标签获取产品实体信息,并形成记录,通过属性标签获取对应的产品属性信息以及对应的属性值进行结构化存储。本发明上述实施例的一种基于互联网数据形成产品数据库方法和系统,通过抓取数据、结构化存储、自动分类和属性决策值计算几个步骤,将海量网页数据中的产品信息进行结构化存储后进行分类,再对产品的各个属性进行计算,得到产品显示的各个属性的排列顺序,这样,便对较为不统一的各种产品信息描述内容进行了整理归纳,用户在想要获知某一产品的具体信息时,可根据产品属性调取相关数据,无需阅读海量网页,使得用户对于互联网中的产品信息无需进行搜集整理,即可获知较为全面的综合信息。同时,计算产品属性决策值时,通过属性的出现次数和时间进行加权计算,这样,可以保证数据的实时性,满足大多数用户的实时需求。附图说明图1为本发明的一种基于互联网数据形成产品数据库方法的一个实施例的流程图;图2为本发明的一种基于互联网数据形成产品数据库方法的一个实施例中采用SVM算法的原理示意图;图3为本发明的一种基于互联网数据形成产品数据库系统的一个实施例的结构示意图。具体实施方式下面通过具体的实施例子并结合附图对本发明做进一步的详细描述。本发明实施例提供了一种基于互联网数据形成产品数据库方法,参见图1所示,包括步骤:步骤S110:采用主题爬虫技术,抓取与主题相关度高于预设阈值的网页数据。本发明实施例采用主题爬虫技术,利用主题爬行器实现基于主题的信息采集功能。一般由爬行队列、网络连接器、主题模型、内容相关度分析以及链接相关度分析等功能模块组成。其中,爬行队列是由一系列主题相关度较高的URL(UniformResourceLocator,网页地址)组成。除特别说明以外,本发明中URL均指网页地址。爬行队列在主题搜索引擎进行主题搜索之初是由种子站点组成,这些种子站点可以由该行业领域的专家给出,也可以借助一些权威网站自动生成。在搜索过程开始之后,系统发现新的URL,并根据主题相关度对其排序后补充到爬行队列中。网络连接器则根据爬行队列中的URL,与网络建立连接后以下载其所指页面内容。主题模型由主题建模方法来实现,主题词法是常用的主题建模方法。关键词法以一组特征关键词来表示主题内容,包括用户需求主题以及文档内容。一个主题关键词可以是单个的词短语,包括权重、语种等属性,常用的相关度算法是词频统计法。其中,计算主题相关度,可以通过内容相关度分析和链接相关度分析。内容相关度分析是指系统对经过内容特征提取后的网页数据进行分析,判定网页内容与指定主题相关度如何,过滤无关页面,保留相关度达到阈值的网页。链接相关度分析是指系统对从网页中提取的超链信息进行测算,得出每个URL所指页面与指定主题的相关度,将符合主题度要求的URL加入到爬行队列中,并对其进行爬行优先度排序,以保证相关度高的页面优先被检索到。所述预设阈值,是根据网页上数据与主题相关度大小判断是否保留该网页数据的一个相关度的量化分界值,可由本领域技术人员根据实际情况具体确定,本发明不一一列举。若相关度用百分制表示,则预设阈值可以为60-100。步骤S111:将抓取的所述网页数据进行结构化存储。本发明实施例,通过对抓取数据的网页标签进行分析,形成标签知识库,对抓取网页数据进行结构化存储。对于不同的产品页面,通过实体标签获取产品实体,并形成记录,通过属性标签获取对应的产品属性以及对应的属性值,进行结构化存储。步骤S112:对所述结构化存储的网页数据按照产品所属类别进行自动分类。自动分类的方式有多种,下面列举几种可实施方式:其中一种方法依据的分类规则为:该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。具体的算法步骤如下:根据特征项集合重新描述训练文本向量;在当前文本到达后,根据特征词分词当前文本,确定当前文本的向量表示;在训练文本集中选出与当前文本最相似的K个文本,计算公式为:Wi表示第i篇档的特征向量,Wj表示第j篇文档的特征向量,M为特征向量的维数,sim(d)表示第i和j篇文档的相似度,K为向量的第k维;在当前文本的K个邻居中,依次计算每类的权重,计算公式如下:x是一个点,Cj是已知类别,di是x的k个最近的邻居点,是向量和向量的相似度,为类别属性函数,如果di属于类Cj,那么函数值为1,否则为0。之后,依据得到的权重,计算当前文本与K个文本之间的相似度,根据相似度,确定该当前文本的所属类别。另一种方式为,将文档表示为加权的特征向量:D=D(T1,W1;T2,W2;…;Tn,Wn),然后通过计算文本相似度的方法来确定待分样本的类别。当文本被表示为空间向量模型的时候,文本的相似度就可以借助特征向量之间的内积来表示。此种方式一般事先依据语料库中的训练样本和分类体系建立类别向量空间。当需要对一篇待分样本进行分类的时候,只需要计算待分样本和每一个类别向量的相似度即内积,然后选取相似度最大的类别作为该待分样本所对应的类别。此外,还可采用SVM算法和/或Bayes算法对网页数据进行自动分类。SVM算法,参见图2所示,是从线性可分情况下的最优分类面发展而来的,基本思想可见图,分割线1和分割线2都能正确地将2类样本分开,这样的分割线有无线多条,但分割线1使2类样本的间隙最大,称之为最优分类线(更高维即为最优分类面或最优超平面)。Bayes算法是一种在已知先验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。设训练样本集分为M类,记为C={c1,…,ci,…cM},每类的先验概率为P(ci),i=1,2,…,M。当样本集非常大时,可以认为P(ci)=ci类样本数/总样本数。对于一个待分样本X,其归于cj类的类条件概率是P(X/ci),则根据Bayes定理,可得到cj类的后验概率P(ci/X):P(ci/x)=P(x/ci)·P(ci)/P(x)(式1-1)若P(ci/X)=MaxjP(cj/X),i=1,2,…,M,j=1,2,…,M,则有x∈ci(式1-2)式(1-2)是最大后验概率判决准则,将式(1-1)代入式(1-2),则有:若P(x/ci)P(ci)=Maxj[P(x/cj)P(cj)],i=1,2,…,M,j=1,2,…,M,则x∈ci。步骤S113:统计自动分类后的网页数据中产品属性的出现次数和出现时间,根据预设的权重对产品属性出现次数和出现时间进行加权计算,得到产品属性决策值,根据所述产品属性决策值确定产品属性排列顺序。属性决策包含两个参数,属性的出现次数(F),属性的出现时间(T),以及数据来源的权重(W),通过公式:(F+T)W,得到属性决策值。依据该属性决策值获得属性入选及排序。其中,属性的出现时间的权重以及出现次数的权重,都可根据实际情况具体确定,一般地,数据来源的时间越久远,则该数据的出现时间的权重越小。本发明实施例还提供一种基于互联网数据形成产品数据库系统,参见图3所示,包括数据抓取模块1、结构化存储模块2、数据分类模块3和属性决策模块4。所述数据抓取模块1,用于采用主题爬虫技术,抓取与主题相关度高于预设阈值的网页数据。所述结构化存储模块2,用于将抓取的所述网页数据进行结构化存储。所述数据分类模块3,用于对所述结构化存储的网页数据按照产品所属类别进行自动分类。所述属性决策模块4,用于统计自动分类后的网页数据中产品属性的出现次数和出现时间,根据预设的权重对产品属性出现次数和出现时间进行加权计算,得到产品属性决策值,根据所述产品属性决策值确定产品属性排列顺序。该数据库系统还应设置有检索器和管理平台。检索器为用户提供查询界面,根据用户提出的检索式对索引数据库进行检索,按相关度高低对查询结果排序后将页面链接及相关信息返回给用户。管理平台负责对整个系统进行监控和管理,主要实现确定主题、初始化爬行器、控制爬行过程、协调优化模块间功能实现、用户交互等功能。作为一个完善的搜索引擎,管理平台还应供跨平台应用网络服务应用接口。其中,作为一种可实施方式,所述数据抓取模块1,用于:对经过内容特征提取后的网页数据进行分析,判定网页内容与指定主题相关度是否达到所述预设阈值,是,则保留该网页,否,则过滤掉该网页;和/或,对从网页中提取的超链信息进行测算,得出每个URL所指页面与指定主题的相关度,将相关度达到预设阈值的网页保留;将保留的网页的URL加入到爬行队列中并根据其与主题相关度的高低进行排序;根据爬行队列中的URL,与网络建立连接后以下载其所指页面内容。优选地,作为一种可实施方式,所述结构化存储模块2,用于:对抓取的网页数据的网页标签进行分析,对于不同的产品页面,通过实体标签获取产品实体信息,并形成记录,通过属性标签获取对应的产品属性信息以及对应的属性值进行结构化存储。综上,本发明实施例所提供的方法和系统,主要运用网络爬虫技术,对海量网页进行抓取,主要对综合类电子商务网站、垂直类电子商务网站、生产商网站、采购商网站进行抓取,并提取出最新、有效产品及相关数据,之后运用数据结构化存储技术对抓取的数据进行结构化存储,建立电子商务数据源。再运用数据分类技术,把抓取的数据进行分类。通过为各类目建立学习样本数据,通过数据的语料,命名实体识别,语义理解,优化样本等智能化技术,并辅以人工修正,实现数据自动分类。最后,通过属性决策系统,对属性出现的频率、时间进行分析,结合用户录入习惯分析,形成各分类下的属性排列规则,生成各分类的描述标准。这样,通过对以上技术的综合运用,形成了对各行业产品描述的统一标准,通过对采购商标准进行采集,可形成正对特定采购商的产品描述标准,同时产品描述内容可以在多个标准间进行转换,适应不同的采购商查看,并可对接采购系统,通过接口实现订单内容自动初始化,极大的提高系统的处理效率。显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。