一种收集、分析和分发网络商业信息的方法和系统的制作方法
【专利摘要】收集、分析和分发网络商业信息的方法和系统,采用“负载均衡+web服务+搜索引擎+数据库”的构架;包括Web服务模块:在普通的web服务器前面,加上了负载均衡服务器。这样一方面可以对页面进行缓存;搜索引擎模块:其本身也由主从服务器组成,使得横向扩展成为可能;数据库模块:由多个数据库服务器组成的集群,由中央数据库向周边数据库分发数据;使用统一的数据结构以方便今后新增数据的扩展;通过建立web服务模块扩展到搜索引擎模块、数据库模块多个功能模块,为在商业信息业务应用处理过程中插入定制的业务逻辑提供灵活性,支持非结构化文本数据的检索与应用业务逻辑的定制。
【专利说明】一种收集、分析和分发网络商业信息的方法和系统
【技术领域】
[0001]本发明涉及利用大数据挖掘技术架构以及引擎技术,提出解决非结构化文本数据的高效的全文检索功能需求的方法,尤其涉及一种收集、分析和分发网络商业信息的系统。
【背景技术】
[0002]信息数据对商业的价值显而易见:网络商业信息的收集、分析和分发本质上是一种应用程序模型,而引擎技术的实现框架是一种允许利用信息数据检索原理高效构建应用程序和业务流程的技术。现有技术解决方案主要基于商业用户的后台数据挖掘、语义分析的强大技术储备,在提升用户体验的同时,重新定义的创新商业数据收集、分析和分发规贝U。首先,网外路径分析及搜索引擎关键词搜索数据,能够帮助单一商业需求摸理清交易偏好和长兴趣,帮助商业贸易准确提供出需要的信息内容以提高交易成功率,降低客户流失率,提高用户粘性;其次,对于电子商务运营,根据全网浏览和搜索数据分析,可掌握目标用户的需求与短兴趣,有的放矢的、针对性的为客户提供其需要的商业,提升商业信息的价值;实现此目的方法和系统一般采用的是“web服务+数据库”这样的构架,而主流的关系型数据库(MSSQL Server, Oracle等)仅支持较小数据量的全文检索.[0003]现有技术当需要支持比较大(千万级别)数据量处理的时候,将带来数据的非结构化、碎片化、海量化,导致全文检索的性能不佳,速度明显变慢。这时,如果有多个请求并发,很容易产生“排队”,甚至“超时”、“无响应”等现象,从而影响用户的正常使用。“web服务+数据库”结构模式难以支持大数据量的全文检索,且应用逻辑很难重用。通常应用逻辑的改变意味着系统代码的重写并需要更新所有客户机程序,服务器设备数量多,分布分散,维护困难,所以大规模部署使用该结构模式应用会带来一些系统管理的难题。
[0004]本发明针对的网络商业信息数据,在经过多年的累积后,可能已经达到了上亿的级别,所以如果仍然采用“web服务+数据库”这种传统的构架:将不能满足基本应用处理的需求。而且随着数据量的不断增加,问题会越发严重。本发明采用了“负载均衡+web服务+搜索引擎+数据库”这样的构架。其中的核心内容就是搜索引擎的加入,将很好的解决基于大数据量下全文检索的网络商业信息收集、分析和分发问题。
【发明内容】
[0005]本发明目的是:提出一种收集、分析和分发网络商业信息的方法和系统,采用了“负载均衡+web服务+搜索引擎+数据库”的创新构架。克服现有技术“web服务+数据库”结构模式当数据量比较大(千万级别)的时候,带来数据的非结构化、碎片化、海量化;全文检索的性能不佳,速度明显变慢,而难以支持大数据量的全文检索不足的问题。
[0006]本发明技术方案是,收集、分析和分发网络商业信息的方法和系统,采用了 “负载均衡+web服务+搜索引擎+数据库”的构架;其中的核心内容就是搜索引擎的加入,很好的解决了大数据量下的全文检索问题;收集、分析和分发网络商业信息的方法和系统,包括三个模块:web服务模块、搜索引擎模块、数据库模块;[0007]Dffeb服务模块:在普通的web服务器前面,加上了负载均衡服务器;这样一方面可以对页面进行缓存,以提高网站的访问速度;另一方面能够对多台web服务器进行横向扩展,使用多台web服务器来满足高并发的用户请求;
[0008]2)搜索引擎模块:解决了大数据量下全文检索的速度问题;其本身也由主从服务器组成,使得横向扩展成为可能;随着商业信息数据量不断增加,可以简单的通过增加服务器来解决;
[0009]3)数据库模块:由多个数据库服务器组成的集群,由中央数据库向周边数据库分发数据;使用统一的数据结构以方便今后新增数据的扩展;
[0010]基于“负载均衡+web服务+搜索引擎+数据库”的体系架构,以中间件实现业务流程集成,形成的一套支持非结构化文本数据从检索到应用的全生命周期管理的一体化系统;具备抽象层次高、操作性好、安全高效、稳定可靠、可扩展等特点。
[0011]通过建立web服务模块扩展到搜索引擎模块、数据库模块多个功能模块,为在商业信息业务应用处理过程中插入定制的业务逻辑提供灵活性,支持非结构化文本数据的检索与应用业务逻辑的定制;系统扩展框架通过定义搜索引擎并且在运行时依据规则动态地修改、替换应用从而达到实现网络商业信息的收集、分析和分发业务逻辑的目的。
[0012]上述三个模块是支持大数据量下的全文检索应用的基础构件,其中搜索引擎等基础构件开发所涉业务流程为:
[0013]I)采用领域工程的方法,识别商业信息数据挖掘中与网络商业信息收集、分析和分发业务逻辑相关的所有的共性和可变性,并建立大数据量下的全文检索的领域分析模型。
[0014]2)搜索引擎中对收集、分析和分发网络商业信息的业务逻辑的可变性进行分析,建立业务流程模块基础构件的领域设计模型,并识别出与大数据量下的全文检索业务逻辑相关的核心业务对象及其属性。
[0015]3)对网络商业信息收集、分析和分发应用业务逻辑可变性中存在的共同形式进行抽象,然后以结构化的自然语言表述出来,形成全文检索业务规则模板。
[0016]网络商业信息收集、分析和分发业务中的搜索引擎功能模块的业务规则由事件、条件和动作三部分组成。业务规则模板包含两种类型,即条件模板和动作模板。条件模板描述了期望或不期望的约束;动作模板则表示当条件满足时会触发什么样的动作。这些条件模板和动作模板可以分别组合起来以表示复杂的条件与动作。将条件部分与动作部分组合则可以表示一条业务规则,并实现了灵活的大数据量下的全文检索应用的业务逻辑定制。
[0017]系统采用“负载均衡+web服务+搜索引擎+数据库”的构架:通过开发商业网络中用于协同应用服务的Web服务模块、搜索引擎模块、数据库模块等业务流程模块,实现网络商业信息的收集、分析和分发,形成支持大数据量下的全文检索应用的基础构件,包括:规则定义、规则翻译、对象表、业务规则、规则数据库、搜索引擎数据库以及商业信息数据库
坐寸ο
[0018]根据此框架,Web服务模块、搜索引擎模块、数据库模块等业务流程模块等基础构件开发所涉业务流程如下:
[0019]I)规则定义:
[0020]通过网络商业信息收集、分析和分发应用的业务规则定义,提供预先设计的结构化自然语言描述的业务规则模板,业务应用可以从这些模板中选择所需要的规则文件,并将模板内容进行自由组合。同时,系统自动将定义的业务逻辑中相关的业务对象加入到搜索引擎对象表中。
[0021]2)格式转换:
[0022]在网络商业信息收集、分析和分发应用的业务规则被定义后,将进行业务规则翻译。系统按照预先定义好的转换规则自动将业务规则的条件部分和动作部分转换成搜索引擎可以识别的格式。
[0023]3)规则验证:
[0024]系统将规则名称、规则属性以及转换后的网络商业信息收集、分析和分发应用的条件和动作部分组合起来以形成完整的业务规则并加入到业务逻辑中。系统对定义的所有的业务规则进行冗余性、循环依赖性及不一致性等语义错误进行检测。
[0025]4)规则存储:
[0026]经验证成功的网络商业信息收集、分析和分发应用业务规则加入到搜索引擎规则文件库中的规则文件中。为了便于规则的查询修改,将业务规则的各个部分如名称、属性、条件、动作等存储到数据库中。
[0027]5)规则执行:
[0028]当系统启动后,将网络商业信息收集、分析和分发应用规则文件装载到搜索引擎规则库中以供业务使用。当系统运行至搜索引擎调用点时,将首先检查搜索引擎对象表来决定是否调用该业务。如果与当前调用点相关的业务对象存在于业务对象表中,系统将会调用以执行定义的业务逻辑,否则将不会调用。
[0029]系统设有支持大数据量下的全文检索应用的基础构件:用于对收集、分析和分发网络商业信息应用的配置进行定制、用于协同应用服务的业务流程模块,通过扩展框架:支持“负载均衡+web服务+搜索引擎+数据库”的创新构架:
[0030]A、全文检索应用是基于Web的,能够服务于支持大数据并且可以非常容易地伸缩;
[0031]B、基础构件提供的业务逻辑能够对收集、分析和分发网络商业信息应用进行扩展;支持大数据量下的全文检索应用的基础构件对网络商业信息的数据管理有三种方式:I)给网络商业信息的收集创建单独的数据库;2)所收集网络商业信息数据存入分析数据库,使用数据挖掘技术进行全文检索应用;3)将分析后获得的网络商业信息数据保存在一个表通过分发的识别码来区分,并通过Web提供服务。
[0032]6)搜索引擎等基础构件开发所涉业务流程
[0033]支持大数据量下的全文检索应用的基础构件,底层是由基于网络的Web服务构成,Web服务之上是工作流引擎,通过工作流引擎来协同多个Web服务来形成特定网络商业信息的收集、分析和分发等应用功能,并且通过Web服务端口提供相应的服务功能。在全文检索应用架构中,服务功能对应有面向全文检索应用的基础构件。通过搜索引擎等基础构件描述服务端口的定义以及与其对应的组件信息,包括提供全文检索应用的基础构件的Web服务、基础构件的类型等信息,支持全文检索应用的搜索引擎实现、注册、获取搜索引擎等基础构件及安装的工作流程。主要分成两部分:
[0034]定制搜索引擎等基础构件:当通过Web界面管理模块定制全文检索应用时,获取与安装管理模块通过消息中间件模块向搜索引擎等基础构件架构发出请求,搜索引擎根据相关策略判定具有定制该项全文检索应用的权限后,通过注册管理模块查询请求的全文检索应用定制服务信息,并返回全文检索应用的基础构件的Web服务信息。搜索引擎等基础构件获取与安装管理模块根据全文检索应用模型,通过该Web服务分发定制搜索引擎等基础构件,然后完成该基础构件的安装与初始化等工作。
[0035]使用搜索引擎等基础构件:通过全文检索应用的基础构件与Web服务进行交互,搜索引擎等基础构件通过绑定的Web端口等信息,由消息中间层模块发送全文检索应用服务请求,接收消息中间层模块转发搜索引擎等基础构件的全文检索应用消息,通过Web界面管理模块显示全文检索应用的处理结果。
[0036]在“负载均衡+web服务+搜索引擎+数据库”的系统构架中,之所以为网络商业信息收集、分析和分发业务应用服务业务流程模块配备搜索引擎对象表,是考虑非格式化大数据量下的全文检索应用都有其特定的需求,这将会导致搜索引擎可能需要定义大量的业务逻辑,并可能会涉及到大量的搜索业务对象。这就意味着在一个全文检索业务应用中,会预先设置大量的搜索规则引擎调用点。对于收集、分析和分发网络商业信息来说,很多的调用点不是其所需要的,这些多余调用点的存在会降低搜索引擎的性能,因此需要配备了搜索引擎对象表。当系统定义业务逻辑时,与业务逻辑相关的业务对象将会被加入到搜索引擎对象表中。如果业务应用需要调用业务逻辑,系统首先检查搜索引擎对象表;如果与当前调用点相关的业务对象存在于搜索引擎对象表中,系统将会调用业务逻辑,否则将不会调用。通过此种方法,系统的收集、分析和分发性能得到了优化。
[0037]通过“负载均衡+web服务+搜索引擎+数据库”构架,商业信息的数据即商业信息的挖掘将包括浏览、搜索、电商等在内的多种互联网用户行为、包括商业信息中的交易行为等数据进行挖掘;尤其是针对非结构化的海量商业信息数据,能够最快速最直接最准确的反应近期内商业信息中的交易行为与目标需求;并以平台服务方式将挖掘的商业信息提供给分散各处、呈现碎片化状态的商业组织或企业个人。
[0038]本发明提供灵活多样的表现形式和同样功能强劲的程序功能,使用以上结构模式的应用系统在表示层可以使用网页形式(JSP/Servlet)或使用应用程序的形式(Applet),应用层上的中间件可以采用EJB中间件开发工具进行开发,数据层的应用方面,目前可以通过JDBC连接数据库,尤其是针对Oralce采用Java技术开发的0racle8i, JDBC可以认为是目前最高效快速的操作接口。
[0039]本发明收集、分析和分发网络商业信息的方法,是将非结构化文本数据的检索与应用整合到一个高度弹性的系统架构中。
[0040]而搜索引擎作为基于大数据量下全文检索的网络商业信息收集、分析和分发的基础模块,搜索引擎从工具到方法,从技术到方案,从服务构件到运行环境等多个角度可帮助网络商业信息应用实现松耦合的、充满弹性的架构。在运行结构上,系统采用“负载均衡+web服务+搜索引擎+数据库”构架,技术结构框架主要是为不同的网络商业信息应用提供扩展,满足信息数据收集、分析和分发过程的不同需要,包括:用户界面、工作流程和业务规则、数据模型的扩展、非结构化文本数据的检索与应用等。
[0041]由上述流程可知,支持大数据量下的全文检索应用的基础构件的功能是以搜索引擎等基础构件获取与安装管理模块为核心实现的,该模块根据输入的全文检索应用信息、查询到目标搜索引擎等基础构件,获取并安装组件,一旦搜索引擎等基础构件安装与初始化完成,就可以通过Web界面管理模块与全文检索应用的基础构件实现交互,以搜索引擎等基础构件为中介,访问和使用定制的全文检索应用服务。
[0042]本发明的有益效果是:与现有技术的比较如下:
[0043]
【权利要求】
1.收集、分析和分发网络商业信息的系统,其特征是采用“负载均衡+Web服务+搜索引擎+数据库”的构架;包括三个模块:web服务模块、搜索引擎模块、数据库模块; 1)Web服务模块:在普通的web服务器前面,加上了负载均衡服务器;对页面进行缓存,提高网站的访问速度;另一方面对多台web服务器进行横向扩展,使用多台web服务器来满足高并发的用户请求; 2)搜索引擎模块:解决了大数据量下全文检索的速度问题;其本身也由主从服务器组成,进行横向扩展;随着商业信息数据量不断增加,简单的通过增加服务器来解决; 3)数据库模块:由多个数据库服务器组成的集群,由中央数据库向周边数据库分发数据;使用统一的数据结构以方便今后新增数据的扩展; 基于“负载均衡+web服务+搜索引擎+数据库”的体系架构,以中间件实现业务流程集成,形成的一套支持非结构化文本数据从检索到应用的全生命周期管理的一体化系统;通过建立web服务模块扩展到搜索引擎模块、数据库模块多个功能模块,为在商业信息业务应用处理过程中插入定制的业务逻辑提供灵活性,支持非结构化文本数据的检索与应用业务逻辑的定制;系统扩展框架通过定义搜索引擎并且在运行时依据规则动态地修改、替换应用从而达到实现网络商业信息的收集、分析和分发业务逻辑; 上述三个模块是支持大数据量下的全文检索应用的基础构件,其中搜索引擎等基础构件开发所涉业务流程为: 1)采用领域工程的方法,识别商业信息数据挖掘中与网络商业信息收集、分析和分发业务逻辑相关的所有的共性和可变性,并建立大数据量下的全文检索的领域分析模型; 2)搜索引擎中对收集、分析和分发网络商业信息的业务逻辑的可变性进行分析,建立的业务流程模炔基础构件的领域设计模型,并识别出与大数据量下的全文检索业务逻辑相关的核心业务对象及其属性; 3)对网络商业信息收集、分析和分发应用业务逻辑可变性中存在的共同形式进行抽象,然后以结构化的自然语言表述出来,形成全文检索业务规则模板。
2.根据权利要求1所述的收集、分析和分发网络商业信息的系统,其特征是网络商业信息收集、分析和分发业务中的搜索引擎功能模块的业务规则由事件、条件和动作三部分组成;业务规则模板包含两种类型,即条件模板和动作模板;条件模板描述了期望或不期望的约束;动作模板则表示当条件满足时会触发什么样的动作;这些条件模板和动作模板分别组合起来以表示复杂的条件与动作;将条件部分与动作部分组合则可以表示一条业务规则,并实现了灵活的大数据量下的全文检索应用的业务逻辑定制; 系统采用“负载均衡+web服务+搜索引擎+数据库”的构架:通过开发商业网络中用于协同应用服务的Web服务模块、搜索引擎模块、数据库模块业务流程模块,实现网络商业信息的收集、分析和分发,形成支持大数据量下的全文检索应用的基础构件,业务流程模块的流程包括:规则定义、规则翻译、对象表、业务规则、规则数据库、搜索引擎数据库以及商业信息数据库框架,基础构件开发所涉业务流程如下: I)规则定义: 通过网络商业信息收集、分析和分发应用的业务规则定义,提供预先设计的结构化自然语言描述的业务规则模板,业务应用从这些模板中选择所需要的规则文件,并将模板内容进行自由组合;同时,系统自动将定义的业务逻辑中相关的业务对象加入到搜索引擎对象表中; 2)格式转换: 在网络商业信息收集、分析和分发应用的业务规则被定义后,将进行业务规则翻译。系统按照预先定义好的转换规则自动将业务规则的条件部分和动作部分转换成搜索引擎可以识别的格式; 3)规则验证: 系统将规则名称、规则属性以及转换后的网络商业信息收集、分析和分发应用的条件和动作部分组合起来以形成完整的业务规则并加入到业务逻辑中。系统对定义的所有的业务规则进行冗余性、循环依赖性及不一致性等语义错误进行检测; 4)规则存储: 经验证成功的网络商业信息收集、分析和分发应用业务规则加入到搜索引擎规则文件库中的规则文件中。为了便于规则的查询修改,将业务规则的各个部分如名称、属性、条件、动作等存储到数据库中; 5)规则执行: 当系统启动后,将网络商业信息收集、分析和分发应用规则文件装载到搜索引擎规则库中以供业务使用。当系统运行至搜索引擎调用点时,将首先检查搜索引擎对象表来决定是否调用该业务。如果与当前调用点相关的业务对象存在于业务对象表中,系统将会调用以执行定义的业务逻辑,否则将不会调用。
3.根据权利要求1所述的收集、分析和分发网络商业信息的系统,其特征是在“负载均衡+web服务+搜索引擎+数据库”的系统构架中,在一个全文检索业务应用中,会预先设置大量的搜索规则引擎调用点;很.多的调用点非其所需要的,这些多余调用点的存在会降低搜索引擎的性能,因此需要配备了搜索引擎对象表;当系统定义业务逻辑时,与业务逻辑相关的业务对象将会被加入到搜索引擎对象表中;如果业务应用需要调用业务逻辑,系统首先检查搜索引擎对象表;如果与当前调用点相关的业务对象存在于搜索引擎对象表中,系统将会调用业务逻辑,否则将不会调用。通过此种方法,系统的收集、分析和分发性能得到了优化。
4.根据权利要求1所述的收集、分析和分发网络商业信息的系统,其特征是通过“负载均衡+web服务+搜索引擎+数据库”构架,商业信息的数据即商业信息的挖掘将包括浏览、搜索、电商等在内的多种互联网用户行为包括商业信息中的交易行为等数据进行挖掘;尤其是针对非结构化的海量商业信息数据,能够最快速最直接最准确的反应近期内商业信息中的交易行为与目标需求;并以平台服务方式将挖掘的商业信息提供给分散各处、呈现碎片化状态的商业组织或企业个人。
5.根据权利要求1所述的收集、分析和分发网络商业信息的系统,其特征是系统在表示层可以使用网页形式(JSP/Servlet)或使用应用程序的形式(Applet),应用层上的中间件可以采用EJB中间件开发工具进行开发,数据层的应用方面,通过JDBC连接数据库。
6.根据权利要求5所述的收集、分析和分发网络商业信息的方法和系统,其特征是针对Oralce数据库采用Java开发的0racle8i, JDBC是高效快速的操作接口。
7.根据权利要求1所述的收集、分析和分发网络商业信息的系统,其特征是搜索引擎是计算机索引建立程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。
8.根据权利要求1所述的收集、分析和分发网络商业信息的系统,其特征是设有支持大数据量下的全文检索应用的基础构件:用于对收集、分析和分发网络商业信息应用的配置进行定制、用于协同应用服务的包括Web服务模块、搜索引擎模块、数据库模块的业务流程模块,通过扩展框架,支持“负载均衡+web服务+搜索引擎+数据库”的构架:全文检索应用是基于Web的,能够服务于支持大数据并且容易地伸缩; 基础构件提供的业务逻辑能够对收集、分析和分发网络商业信息应用进行扩展;支持大数据量下的全文检索应用的基础构件对网络商业信息的数据管理有三种方式:1)给网络商业信息的收集创建单独的数据库;2)所收集网络商业信息数据存入分析数据库,使用数据挖掘技术进行全文检索应用;3)将分析后获得的网络商业信息数据保存在一个表通过分发的识别码来区分,并通过Web提供服务。
9.根据权利要求1所述的收集、分析和分发网络商业信息的系统,其特征是搜索引擎等基础构件开发所涉业务流程,支持大数据量下的全文检索应用的基础构件,底层是由基于网络的Web服务构成,Web服务之上是工作流引擎,通过工作流引擎来协同多个Web服务来形成特定网络商业信息的收集、分析和分发等应用功能,并且通过Web服务端口提供相应的服务功能。在全文检索应用架构中,服务功能对应有面向全文检索应用的基础构件;通过搜索引擎等基础构件描述服务端口的定义以及与其对应的组件信息,包括提供全文检索应用的基础构件的Web服务、基础构件的类型等信息,支持全文检索应用的搜索引擎实现、注册、获取搜索引擎等基础构件及安装的工作流程: 分成两部分: 1)定制搜索引擎等基础构件:当通过Web界面管理模块定制全文检索应用时,获取与安装管理模块通过消息中间件.模块向搜索引擎等基础构件架构发出请求,搜索引擎根据相关策略判定具有定制该项全文检索应用的权限后,通过注册管理模块查询请求的全文检索应用定制服务信息,并返回全文检索应用的基础构件的Web服务信息;搜索引擎等基础构件获取与安装管理模块根据全文检索应用模型,通过该Web服务分发定制搜索引擎等基础构件,然后完成该基础构件的安装与初始化工作; 2)使用搜索引擎等基础构件:通过全文检索应用的基础构件与Web服务进行交互,搜索引擎等基础构件通过绑定的Web端口等信息,由消息中间层模块发送全文检索应用服务请求,接收消息中间层模块转发搜索引擎等基础构件的全文检索应用消息,通过Web界面管理模块显示全文检索应用的处理结果。
10.根据权利要求1所述的收集、分析和分发网络商业信息的系统,其特征是在“负载均衡+Web服务+搜索引擎+数据库”的系统构架中,为网络商业信息收集、分析和分发业务应用服务业务流程模块配备搜索引擎对象表:在一个全文检索业务应用中,会预先设置大量的搜索规则引擎调用点;当系统定义业务逻辑时,与业务逻辑相关的业务对象将会被加入到搜索引擎对象表中;如果业务应用需要调用业务逻辑,系统首先检查搜索引擎对象表;如果与当前调用点相关的业务对象存在于搜索引擎对象表中,系统将会调用业务逻辑,否则将不会调用;通过此种方法,系统的收集、分析和分发性能得到了优化;而搜索引擎作为基于大数据量下全文检索的网络商业信息收集、分析和分发的基础模块,搜索引擎从工具到、 服务构件到运行环境等多个角度网络商业信息应用实现松耦合的、充满弹性的架构。
【文档编号】G06Q30/02GK103473696SQ201310395459
【公开日】2013年12月25日 申请日期:2013年9月3日 优先权日:2013年9月3日
【发明者】周吉 申请人:周吉