一种基于爬虫技术的招标信息推荐方法与流程

文档序号:35797712发布日期:2023-10-21 23:22阅读:47来源:国知局
一种基于爬虫技术的招标信息推荐方法与流程

本发明涉及一种招标信息推荐方法,更具体的说,尤其涉及一种可有效对用户的投标需求进行匹配推荐的基于爬虫技术的招标信息推荐方法。


背景技术:

1、招标与投标是一种国际上普遍应用的、有组织的市场交易行为,是工程、货物或服务贸易的买卖方式。招投标活动对打破行业垄断和地区封锁、提高经济效益、保证项目质量等发挥了重要作用,已经成为推进现代市场体系建设的重要手段。

2、一般来说,招标信息会定时的发布在招标网站上供投标人去浏览查询,然而招标网站上的信息浩如烟海,每个标段的招标需求、投标的截止时间都需要投标人自己完成浏览并自己加以总结记录,其工作量相对较大,还存在着记录错误的风险,给投标单位的投标工作造成不便。


技术实现思路

1、本发明的目的是提供一种招标信息的推荐方法,其主动的将用户需要的投标资料进行展示推送,同时对类似领域的资料也进行智能推荐。

2、本发明采用如下技术手段加以实现:一种基于爬虫技术的招标信息推荐方法,包括如下步骤:

3、1)访问目标网站,抓取目标网站上所有的招标数据信息;

4、2)将数据进行处理分析,而后将其以可视化图表方式保存;

5、3)根据用户的行为记录,从数据库中挑选与之匹配的数据予以推荐展示。

6、其中步骤1)中所述的招标数据信息包括信息关键字、所属行业、对应的网站url及相应的网页。

7、进一步的,步骤2)所述的数据处理分析包括如下步骤:

8、2-1)对url进行排队,而后对url队列进行初始化;

9、2-2)对队列中的url向网页服务器发送请求,而后接收从网页服务器返回的html文档;

10、2-3)对html文档进行解析,将html源码解析成xml格式,并建立树状结构数据格式;

11、2-4)将解析出的数据进行存储。

12、进一步的,所述步骤2-2)中所述的网页服务器请求使用python的urlib库,网页解析使用python的re库及etree库,步骤2-3)中通过etree库将html源码解析成xml格式,建立树状结构数据格式,通过re表达式匹配字符串,或者通过xpath语言快速定位标签内容,分别解析出项目编号,公告类型,招标方式,截止时间,招标机构、招标地区、招标产品和所属行业数据,而后将详情页url加入url池,解析招标的其他需要数据,步骤2-4)中解析出的数据存储在sqllite3数据库中。

13、进一步的,在步骤2-3)中在对html文档解析之前首先定位网页结构的css文件,在css文件中定位到相关的字体文件,在本地服务器中建立常用字符和对应的unicode编码的映射关系。从而建立字符与unicode编码的映射字典,而后以数据中的项目编号对数据去重,将数据按照所属行业分类,对缺失的数据值及异常的数据值进行识别确认。

14、进一步的,所述步骤2-4)中在将招标数据存储在数据库之前建立相关的关系数据表。

15、本发明中所述的步骤3)中的推荐展示包括如下步骤:

16、3-1)提取招标记录的结构化特征,将每条记录进行向量化的表示,用招标信息的特征向量表示独特的特征,建立招标的特征模型;

17、3-2)读取用户的行为记录,根据用户的行为记录选取对应的记录,而后在用户使用的终端上进行显示。

18、步骤3-1)中,对招标记录的文字特征采用one-hot编码进行向量化,对数值型数据采用最大-最小标准化的方法进行线性变换,用最大-最小标准化采用如下公式实现:

19、

20、mina代表的是该字段数值的最小值,maxa代表的是该字段数值的最小值。

21、步骤3-2)中所述用户的行为记录分为点击行为及收藏行为,结合用户的这两种行为从数据库中选取与用户点击或者收藏内容对应或者相似度高的记录进行显示。

22、所述的相似度通过余弦相似度公式计算得到,

23、

24、其中a与b表示被比较的两个向量,余弦值越接近于1则两个向量越相似。

25、若步骤3-2)中未读取到用户的行为记录,则根据数据库内距离招标截至时间最近的招标信息生成推荐列表。

26、本发明利用爬虫技术对投标网站的资料进行获取,其获取速度快,获取的内容十分全面,本发明可根据用户的浏览偏好将用户需要的招标信息进行整合推荐,同时从招标属性相似度切入分析用户潜在的喜好招标信息,可以帮助用户在查看招标信息时,节省很多时间和精力。



技术特征:

1.一种基于爬虫技术的招标信息推荐方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于爬虫技术的招标信息推荐方法,其特征在于,步骤1)中所述的招标数据信息包括信息关键字、所属行业、对应的网站url及相应的网页。

3.根据权利要求1所述的一种基于爬虫技术的招标信息推荐方法,其特征在于,步骤2)所述的数据处理分析包括如下步骤:

4.根据权利要求3所述的一种基于爬虫技术的招标信息推荐方法,其特征在于,步骤2-2)中所述的网页服务器请求使用python的urlib库,网页解析使用python的re库及etree库,步骤2-3)中通过etree库将html源码解析成xml格式,建立树状结构数据格式,通过re表达式匹配字符串,或者通过xpath语言快速定位标签内容,分别解析出项目编号,公告类型,招标方式,截止时间,招标机构、招标地区、招标产品和所属行业数据,而后将详情页url加入url池,解析招标的其他需要数据,步骤2-4)中解析出的数据存储在sqllite3数据库中。

5.根据权利要求3所述的一种基于爬虫技术的招标信息推荐方法,其特征在于,步骤2-3)中在对html文档解析之前首先定位网页结构的css文件,在css文件中定位到相关的字体文件,在本地服务器中建立常用字符和对应的unicode编码的映射关系。从而建立字符与unicode编码的映射字典,而后以数据中的项目编号对数据去重,将数据按照所属行业分类,对缺失的数据值及异常的数据值进行识别确认。

6.根据权利要求3所述的一种基于爬虫技术的招标信息推荐方法,其特征在于,所述步骤2-4)中在将招标数据存储在数据库之前建立相关的关系数据表。

7.根据权利要求1所述的一种基于爬虫技术的招标信息推荐方法,其特征在于,步骤3)中的推荐展示包括如下步骤:

8.根据权利要求7所述的一种基于爬虫技术的招标信息推荐方法,其特征在于,步骤3-1)中,对招标记录的文字特征采用one-hot编码进行向量化,对数值型数据采用最大-最小标准化的方法进行线性变换,用最大-最小标准化采用如下公式实现:

9.根据权利要求7所述的一种基于爬虫技术的招标信息推荐方法,其特征在于,步骤3-2)中所述用户的行为记录分为点击行为及收藏行为,结合用户的这两种行为从数据库中选取与用户点击或者收藏内容对应或者相似度高的记录进行显示,所述的相似度通过余弦相似度公式计算得到,

10.根据权利要求7所述的一种基于爬虫技术的招标信息推荐方法,其特征在于,步骤3-2)中若未读取到用户的行为记录,则根据数据库内距离招标截至时间最近的招标信息生成推荐列表。


技术总结
本发明涉及一种基于爬虫技术的招标信息推荐方法,包括如下步骤:1)访问目标网站,抓取目标网站上所有的招标数据信息;2)将数据进行处理分析,而后将其以可视化图表方式保存;3)根据用户的行为记录,从数据库中挑选与之匹配的数据予以推荐展示。本发明利用爬虫技术对投标网站的资料进行获取,其获取速度快,获取的内容十分全面,本发明可根据用户的浏览偏好将用户需要的招标信息进行整合推荐,同时从招标属性相似度切入分析用户潜在的喜好招标信息,可以帮助用户在查看招标信息时,节省很多时间和精力。

技术研发人员:陈鑫鑫,刘洪霞,孟林,韩怀瑶,李金洲,宋羽杰
受保护的技术使用者:中邮建技术有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1