一种标讯项目所在地的抽取方法、装置、设备及介质与流程

文档序号:34720707发布日期:2023-07-07 17:59阅读:30来源:国知局
一种标讯项目所在地的抽取方法、装置、设备及介质与流程

本申请涉及数据处理,具体而言,涉及一种标讯项目所在地的抽取方法、装置、设备及介质。


背景技术:

1、为了能够帮助用户实时掌握更有价值的招投标数据,提升市场竞争力,针对各大互联网招投标网站爬取数据,并将爬取到的大多半结构化web文本进行结构化处理,进而进行统计、分析。

2、但是目前,并没有挖掘标讯项目所在地的功能,不能满足精准服务当地用户的需求。


技术实现思路

1、有鉴于此,本申请的目的在于提供一种标讯项目所在地的抽取方法、装置、设备及介质,可以从采集的web文本及结构化后的数据中挖掘出标讯项目所在地,更精准的服务当地用户。

2、第一方面,本申请实施例提供一种标讯项目所在地的抽取方法,所述方法包括以下步骤:

3、采集标讯项目所在地的多个待识别数据;其中,所述多个待识别数据包括预设的招标信息发布平台的站点地域值、预设的包含行政区划分树的地名库、以及包含多种招标信息参数的标讯数据;

4、针对每种所述招标信息参数进行三级行政区划提取,并将每种所述招标信息参数提取出的多个所述三级行政区划进行合并,得到每种所述招标信息参数的所在城市;其中,所述招标信息参数包括项目地址、项目名称、采购单位中的一种或多种;

5、对所述站点地域值、所述地名库、每种所述招标信息参数的所在城市设置第一优先级,并按照所述第一优先级对所述站点地域值、所述地名库、每种所述招标信息参数的所在城市进行逐次合并,得到标讯项目目标所在地。

6、在一些实施例中,所述针对每种所述招标信息参数进行三级行政区划提取,包括以下步骤:

7、针对每种所述招标信息参数进行预处理,其中,所述预处理包括采集所述项目地址的辅助地址、清洗所述项目名称的冗余字段和提取所述采购单位中的特征字符;

8、将预处理后的每种所述招标信息参数与所述地名库进行对比,得到每种所述招标信息参数的三级行政区划;其中,所述三级行政区划为省、市、县三级。

9、在一些实施例中,所述将每种所述招标信息参数提取出的多个所述三级行政区划进行合并,得到每种所述招标信息参数的所在城市,包括以下步骤:

10、根据每种所述招标信息参数提取出的多个所述三级行政区划的结构,以对提取出的多个所述三级行政区划进行保留或者舍弃;

11、其中,若提取出的多个所述三级行政区划为超过两个省份结构,将提取出的多个所述三级行政区划进行舍弃;

12、若提取出的多个所述三级行政区划为一省多市结构,保留提取出的多个所述三级行政区划的省份;

13、若提取出的多个所述三级行政区划为一省一市结构,保留提取出的多个所述三级行政区划的省份和市份。

14、在一些实施例中,所述对所述站点地域值、所述地名库、每种所述招标信息参数的所在城市设置第一优先级,包括以下步骤:

15、根据多个不同类别的待识别数据、以及每一类别待识别数据中不同信息影响所述标讯项目所在地的置信度,确定所述站点地域值、所述地名库、每种所述招标信息参数的置信度排序顺序;

16、按照所述站点地域值、所述地名库、每种所述招标信息参数的置信度排序顺序设置第一优先级;其中,置信度越高,第一优先级越高。

17、在一些实施例中,采购单位的类型不同,所述站点地域值、所述地名库、每种所述招标信息参数的置信度排序顺序不同;其中,所述招标信息参数还包括审批部门/发布部门、采购单位地址、标题、邮编/固话中的一种或多种。

18、在一些实施例中,通过如下方式按照所述第二第一优先级对所述采购单位的来源的所在城市进行逐次合并,以及按照所述第一优先级对所述站点地域值、所述地名库、每种所述招标信息参数的所在城市进行逐次合并:

19、若上一三级行政区划为包含两个以下省份的结构,下一三级行政区划为包含新省份的结构,在进行合并时,舍弃所述新省份;

20、若待合并的两个三级行政区划中,一个三级行政区划为省市两级结构、另一个三级行政区划为相同的省一级结构,保留省市两级结构的三级行政区划。

21、在一些实施例中,所述抽取方法还包括以下步骤:

22、判断得到的所述标讯项目所在地是否为空;

23、其中,若得到的所述标讯项目所在地为空,对所述站点地域值、每种所述招标信息参数的所在城市设置第二优先级,并按照所述第二优先级对所述站点地域值、每种所述招标信息参数的所在城市进行逐次合并,得到标讯项目目标所在地。

24、第二方面,本申请实施例提供一种标讯项目所在地的抽取装置,所述装置包括:

25、采集模块,用于采集标讯项目所在地的多个待识别数据;其中,所述多个待识别数据包括预设的招标信息发布平台的站点地域值、预设的包含行政区划分树的地名库、以及包含多种招标信息参数的标讯数据;

26、提取模块,用于针对每种所述招标信息参数进行三级行政区划提取,并将每种所述招标信息参数提取出的多个所述三级行政区划进行合并,得到每种所述招标信息参数的所在城市;其中,所述招标信息参数包括项目地址、项目名称、采购单位中的一种或多种;

27、合并模块,用于对所述站点地域值、所述地名库、每种所述招标信息参数的所在城市设置第一优先级,并按照该第一优先级对所述站点地域值、所述地名库、每种所述招标信息参数的所在城市进行逐次合并,得到标讯项目所在地。

28、第三方面,本申请实施例提供的一种电子设备,包括处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面任一项所述的标讯项目所在地的抽取方法的步骤。

29、第四方面,本申请实施例提供的一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面任一项所述的标讯项目所在地的抽取方法的步骤。

30、本申请所述的一种标讯项目所在地的抽取方法、装置、电子设备及存储介质,采集标讯项目所在地的多个待识别数据;其中,所述多个待识别数据包括预设的招标信息发布平台的站点地域值、预设的包含行政区划分树的地名库、以及包含多种招标信息参数的标讯数据;针对每种所述招标信息参数进行三级行政区划提取,并将每种所述招标信息参数提取出的多个所述三级行政区划进行合并,得到每种所述招标信息参数的所在城市;并按照预设的第一优先级对所述站点地域值、所述地名库、每种所述招标信息参数的所在城市进行逐次合并,得到标讯项目的目标所在地,从而精准服务当地用户。



技术特征:

1.一种标讯项目所在地的抽取方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的一种标讯项目所在地的抽取方法,其特征在于,所述针对每种所述招标信息参数进行三级行政区划提取,包括以下步骤:

3.根据权利要求2所述的一种标讯项目所在地的抽取方法,其特征在于,所述将每种所述招标信息参数提取出的多个所述三级行政区划进行合并,得到每种所述招标信息参数的所在城市,包括以下步骤:

4.根据权利要求3所述的一种标讯项目所在地的抽取方法,其特征在于,所述对所述站点地域值、所述地名库、每种所述招标信息参数的所在城市设置第一优先级,包括以下步骤:

5.根据权利要求4所述的一种标讯项目所在地的抽取方法,其特征在于,采购单位的类型不同,所述站点地域值、所述地名库、每种所述招标信息参数的置信度排序顺序不同;其中,所述招标信息参数还包括审批部门/发布部门、采购单位地址、标题、邮编/固话中的一种或多种。

6.根据权利要求5所述的一种标讯项目所在地的抽取方法,其特征在于,通过如下方式按照所述第一优先级对所述站点地域值、所述地名库、每种所述招标信息参数的所在城市进行逐次合并:

7.根据权利要求6所述的一种标讯项目所在地的抽取方法,其特征在于,所述抽取方法还包括以下步骤:

8.一种标讯项目所在地的抽取装置,其特征在于,所述装置包括:

9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的标讯项目所在地的抽取方法的步骤。

10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述的标讯项目所在地的抽取方法的步骤。


技术总结
本申请提供了一种标讯项目所在地的抽取方法、装置、设备及介质,涉及数据处理技术领域,采集标讯项目所在地的多个待识别数据;其中,所述多个待识别数据包括预设的招标信息发布平台的站点地域值、预设的包含行政区划分树的地名库、以及包含多种招标信息参数的标讯数据;针对每种所述招标信息参数进行三级行政区划提取,并将每种所述招标信息参数提取出的多个所述三级行政区划进行合并,得到每种所述招标信息参数的所在城市;并按照预设的第一优先级对所述站点地域值、所述地名库、每种所述招标信息参数的所在城市进行逐次合并,得到标讯项目的目标所在地,从而精准服务当地用户。

技术研发人员:贾新,田小亮,张金坤
受保护的技术使用者:北京拓普丰联信息科技股份有限公司
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1