目标文档的确定方法、装置、计算机设备及介质与流程

文档序号:29493789发布日期:2022-04-06 14:19阅读:86来源:国知局
目标文档的确定方法、装置、计算机设备及介质与流程

1.本技术涉及计算机技术领域,特别是涉及一种目标文档的确定方法、装置、计算机设备及计算机可读存储介质。


背景技术:

2.在合规管理技术领域,合规性管理主要用于帮助企业满足各种it(information technology,信息技术)准则的需求,从合规性准则要求出发,对企业合规工作进行管理。合规管理的需求主要来自三个方面,首先是国家和上级主管部门,根据不同行业特点的诸多管理要求,企业或相关组织需要不断的进行合规管理,以确保遵守标准、要求、法律法规;其次客户对企业在管理方面是有要求的,为保证企业提供的产品或服务符合客户需求,客户经常引用国际、国内标准或行业要求与企业的管理方式进行对照和匹配;另外企业自身由于发展的需要,自发的寻求内部管理的改进方案,因此往往引用国际或国家的相关标准,作为改进的路线。因此,it合规管理对于企业来说是必不可少的工作之一。
3.现有技术中,一般在合规性管理软件平台上进行搜索文档时,通常是直接输入关键词进行搜索,得到大量搜索结果。然而,这样得到的搜索结果中会包含很多的冗余信息文档,那么这样就需要人工去花费大量时间和精力进行筛选,才能获得最终的搜索结果,从而会存在耗时耗力的问题。


技术实现要素:

4.基于此,有必要针对上述技术问题,提供一种能够提高搜索效率的目标文档的确定方法、装置、计算机设备及计算机可读存储介质。
5.第一方面,本技术提供了一种目标文档的确定方法。所述方法包括:
6.获取至少两个待搜索关键词;
7.将各所述待搜索关键词进行拼接,得到待搜索词组;
8.将所述待搜索词组输入至预设的分类数据库中进行匹配,确定所述待搜索词组对应的目标文档;其中,所述分类数据库包括拼接词组和文档的对应关系;
9.在其中一个实施例中,所述分类数据库的建立方式包括:
10.获取多个样本文档以及多类关键词集;其中,各类关键词集中包括至少一个关键词;
11.将各类关键词集中的关键词进行拼接,获得拼接词组;
12.建立各所述拼接词组和各所述样本文档之间的对应关系,获得所述分类数据。
13.在其中一个实施例中,所述将各类关键词集中的关键词进行拼接,获得拼接词组,包括:
14.将各类关键词集中的关键词进行拼接,获得多个初始拼接词组;
15.统计各关键词在各所述样本文档中对应的第一命中次数;
16.根据各所述关键词对应的第一命中次数以及所述多个初始拼接词组,确定所述拼
接词组。
17.在其中一个实施例中,所述根据各所述关键词对应的第一命中次数以及所述多个初始拼接词组,确定所述拼接词组,包括:
18.统计各所述初始拼接词组在各所述样本文档中对应的第二命中次数;
19.根据各所述关键词对应的第一命中次数、各所述初始拼接词组对应的第二命中次数以及命中次数阈值,确定所述拼接词组。
20.在其中一个实施例中,所述根据各所述关键词对应的第一命中次数、各所述初始拼接词组对应的第二命中次数以及命中次数阈值,确定所述拼接词组,包括:
21.根据各所述关键词对应的第一命中次数确定各所述初始拼接词组对应的排序优先级;
22.根据各所述初始拼接词组对应的排序优先级,将各所述初始拼接词组对应的第二命中次数和所述命中次数阈值进行对比,确定对比结果;
23.根据所述对比结果确定所述拼接词组。
24.在其中一个实施例中,所述根据所述对比结果确定所述拼接词组,包括:
25.将所述第二命中次数小于所述命中次数阈值的初始拼接词组删除,获得所述拼接词组。
26.第二方面,本技术还提供了一种目标文档的确定装置,所述装置包括:
27.获取模块,用于获取至少两个待搜索关键词;
28.拼接模块,用于将各所述待搜索关键词进行拼接,得到待搜索词组;
29.确定模块,用于将所述待搜索词组输入至预设的分类数据库中进行匹配,确定所述待搜索词组对应的目标文档;其中,所述分类数据库包括拼接词组和文档的对应关系。
30.第三方面,本技术还提供了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
31.获取至少两个待搜索关键词;
32.将各所述待搜索关键词进行拼接,得到待搜索词组;
33.将所述待搜索词组输入至预设的分类数据库中进行匹配,确定所述待搜索词组对应的目标文档;其中,所述分类数据库包括拼接词组和文档的对应关系。
34.第四方面,本技术还提供了一种计算机可读存储介质,所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
35.获取至少两个待搜索关键词;
36.将各所述待搜索关键词进行拼接,得到待搜索词组;
37.将所述待搜索词组输入至预设的分类数据库中进行匹配,确定所述待搜索词组对应的目标文档;其中,所述分类数据库包括拼接词组和文档的对应关系。
38.第五方面,本技术还提供了一种计算机程序产品,所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
39.获取至少两个待搜索关键词;
40.将各所述待搜索关键词进行拼接,得到待搜索词组;
41.将所述待搜索词组输入至预设的分类数据库中进行匹配,确定所述待搜索词组对应的目标文档;其中,所述分类数据库包括拼接词组和文档的对应关系。
42.上述目标文档的确定方法、装置、计算机设备、存储介质和计算机程序产品,通过获取至少两个待搜索关键词,然后将各待搜索关键词进行拼接,得到待搜索词组,将待搜索词组输入至预设的分类数据库中进行匹配,确定待搜索词组对应的目标文档,其中,分类数据库包括拼接词组和文档的对应关系。在该方法中,由于可以将至少两个待搜索关键词进行拼接得到待搜索词组,根据待搜索词组搜索对应的目标文档,这样可以缩小文档的搜索范围,那么搜索出的文档比较少,即精简了搜索结果,推送给用户的文档相应也就比较少,那么用户需要筛选的文档自然也比较少,因此可以节省用户的时间和精力,提高文档的搜索效率,同时由于精简了搜索结果,那么获得的搜索结果也较为精准。
附图说明
43.图1为一个实施例中计算机设备的内部结构图;
44.图2为一个实施例中目标文档的确定方法的流程示意图;
45.图3为另一个实施例中建立分类数据库的一种实现方式的流程示意图;
46.图4为另一个实施例中对各类关键词集中的关键词进行拼接的一种实现方式的流程示意图;
47.图5为另一个实施例中通过命中次数确定拼接词组的一种可能实现方式的流程示意图;
48.图6为另图5一个实施例中通过命中次数和阈值确定所述拼接词组的一种可能实现方式的流程示意图;
49.图7为另一个实施例中目标文档的确定方法的具体步骤流程示意图;
50.图8为一个实施例中目标文档的确定装置的结构框图;
51.图9为另一个实施例中目标文档的确定装置的结构框图;
52.图10为另一个实施例中目标文档的确定装置的结构框图。
具体实施方式
53.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
54.本技术实施例提供的目标文档的确定方法,可以应用于计算机设备。该计算机设备可以是终端或服务器。以终端为例,其内部结构图可以如图1所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、移动蜂窝网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种目标文档的确定方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
55.本领域技术人员可以理解,图1中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
56.在一个实施例中,如图2所示,提供了一种目标文档的确定方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
57.s101,获取至少两个待搜索关键词。
58.其中,待搜索关键词是从用户输入的搜索内容中提取的关键词,比如:标准、人行、处罚等。
59.本实施例中,终端设备上可以安装有合规性管理平台,该管理平台可以是一个软件程序构成的平台,可以供用户使用。其中,合规管理系统是对标准、法律法规和行业要求进行管理的系统,可以通过浏览器进行访问,合规管理系统集中存储和管理各种标准、法律法规和行业要求,用户能够在合规管理系统上搜索、创建、修改、评审和发布各种标准、法律法规和行业要求。
60.在实际使用过程中,当用户打开合规管理系统后,可以在合规管理系统的页面上输入需要搜索的内容,合规管理系统的中文语义模块得到用户输入的搜索内容后,提取至少两个待搜索关键词。这里的中文语义模块可以是具备关键词切分、选取、识别等功能的模块。比如:用户可以在合规管理系统页面上输入:“中国银监会办公厅关于加强银行业金融机构信息科技非驻场集中式外包风险管理通知”,中文语义模块可以提取到“银监会”、“非驻场集中式外包”、“通知”等关键词。
61.s102,将各待搜索关键词进行拼接,得到待搜索词组。
62.本实施例中,由合规管理系统的中文语义模块对获取的各关键词进行拼接,得到待搜索的关键词组。比如:当合规管理系统的中文语义模块得到“银监会”、“非驻场集中式外包”、“通知”三个待搜索的关键词后,对“银监会”、“非驻场集中式外包”、“通知”三个待搜索的关键词进行拼接,可以得到“通知-银监会-非驻场集中式外包”的待搜索词组。这里对各个待搜索关键词之间拼接顺序不做限定。
63.s103,将待搜索词组输入至预设的分类数据库中进行匹配,确定待搜索词组对应的目标文档。
64.其中,分类数据库包括拼接词组和文档的对应关系,拼接词组是由各类关键词拼接的关键词组,拼接词组可以对应一个目标文档也可以对应多个目标文档。
65.本实施例中,当合规管理系统中文语义模块得到待搜索词组后,将得到的待搜索词组与预设的分类数据库中的拼接词组进行逐一对比,直到待搜索词组与预设的分类数据库中拼接词组匹配。由于分类数据库包括拼接词组和文档的对应关系,则可以得到带搜索词组和文档的对应关系,从而确定待搜索词组对应的目标文档。若待搜索词组与预设的分类数据库中的拼接词组进行逐一对比后,预设的分类数据库中没有拼接词组与待搜索词组匹配,则会在用户页面上显示“无法搜索到相关内容”。比如:当合规管理系统中文语义模块得到“通知-银监会-非驻场集中式外包”的待搜索词组后,将“通知-银监会-非驻场集中式外包”的待搜索词组和分类数据库中的拼接词组逐一比较,可以匹配到“通知-银监会-非驻场集中式外包”拼接词组,从而获取“通知-银监会-非驻场集中式外包拼接词组”的对应文档,确定“通知-银监会-非驻场集中式外包”对应的目标文档,在用户页面上显示“通知-银
监会-非驻场集中式外包”对应的目标文档,目标文档中包含关键词的内容可以高亮显示。
66.上述目标文档的确定方法、装置、计算机设备、存储介质和计算机程序产品,通过获取至少两个待搜索关键词,然后将各待搜索关键词进行拼接,得到待搜索词组,将待搜索词组输入至预设的分类数据库中进行匹配,确定待搜索词组对应的目标文档,其中,分类数据库包括拼接词组和文档的对应关系。在该方法中,由于可以将至少两个待搜索关键词进行拼接得到待搜索词组,根据待搜索词组搜索对应的目标文档,这样可以缩小文档的搜索范围,那么搜索出的文档比较少,即精简了搜索结果,推送给用户的文档相应也就比较少,那么用户需要筛选的文档自然也比较少,因此可以节省用户的时间和精力,提高文档的搜索效率,同时由于精简了搜索结果,那么获得的搜索结果也较为精准。
67.在一个实施例中,如图3所示,本技术还提供上述“分类数据库的建立方式”的一种具体实现方式,包括:
68.s201,获取多个样本文档以及多类关键词集。
69.其中,各类关键词集中包括至少一个关键词。
70.本实施例中,由用户初步整理多个样本文档后,将多个样本文档导入合规管理系统,其中,导入的多个样本文档可以包括法律法规、制度、标准、公司规章等各类样本文档,包括word、excel、pdf、ocr等各种形式的样本文档。并从合规管理系统的关键词集中获取多类关键词集,多类关键词集可以包括一类关键词集、二类关键词集和三类关词集。其中,一类关键词可以是样本文档的属性名,二类关键词可以是样本文档所属的领域名,三类关键词可以是样本文档中的文档内容。比如:一类关键词可以是“法律法规”“标准”“白皮书”“部门要求”“公司规章”等;二类关键词可以是“公安部”“工信部”“银保监会”“银监会”“人行”等;三类关键词可以是文档内容,例如可以是“尽职调查”“外包”“要求”“书面”等。
71.s202,将各类关键词集中的关键词进行拼接,获得拼接词组。
72.本实施例中,由合规管理系统的中文语义模块将一类关键词集中、二类关键词集中和三类关键词集中的关键词进行拼接,获得拼接词组;或者可以将一类关键词集中和三类关键词集中的关键词进行拼接,获得拼接词组;或者可以将二类关键词集中和三类关键词集中的关键词进行拼接,获得所拼接词组。比如:可以将“标准”“银保监会”“非驻场集中式外包”进行拼接得到“标准-银保监会-非驻场集中式外包”拼接词组,也可以将“公司规章”“处罚”进行拼接得到“公司规章-处罚”拼接词组,也可以将“工信部”“要求”进行拼接得到“工信部-要求”拼接词组。
73.s203,建立各拼接词组和各样本文档之间的对应关系,获得分类数据库。
74.本实施例中,若拼接词组是由一类关键词集中、二类关键词集中和三类关键词集中的关键词进行拼接,获得的拼接词组,则合规管理系统的中文语义模块可以将一类关关键词、二类关键词与用户导入的样本文档的文档名进行逐一对比,将对比结果相同的样本文档与一类关键词、二类关键词建立对应关系,然后将三类关键词与已经和一类关键词、二类关键词建立对应关系的样本文档的文档内容进行逐一对比,将对比结果相同的文档内容对应的样本文档与一类关键词、二类关键词、三类关键词得到的拼接词组建立对应关系,获得分类数据库。
75.若拼接词组是由一类关键词集中和三类关键词集中的关键词进行拼接,获得的拼接词组,则合规管理系统的中文语义模块将一类关键词与用户导入的样本文档的文档名进
行逐一对比,将对比结果相同的样本文档与一类关键词建立对应关系,然后将三类关键词与已经和一类关键词建立对应关系的样本文档的文档内容进行逐一对比,将对比结果相同的文档内容对应的样本文档与一类关键词、三类关键词得到的拼接词组建立对应关系,获得分类数据库。
76.若拼接词组是由二类关键词集中和三类关键词集中的关键词进行拼接,获得的拼接词组,则合规管理系统的中文语义模块将二类关键词与用户导入的样本文档的文档名进行逐一对比,将对比结果相同的样本文档与二类关键词建立对应关系,然后将三类关键词与已经和二类关键词建立对应关系的样本文档的文档内容进行逐一对比,将对比结果相同的文档内容对应的样本文档与二类关键词、三类关键词得到的拼接词组建立对应关系,获得分类数据库。
77.本实施例中,通过建立拼接词组与样本文档的对应关系,获得分类数据库后,缩小了文档的搜索范围,搜索出的文档比较少,精简了搜索结果。
78.在一个实施例中,如图4所示,本技术还提供上述“将各类关键词集中的关键词进行拼接,获得拼接词组”的一种具体实现方式,包括:
79.s301,将各类关键词集中的关键词进行拼接,获得多个初始拼接词组。
80.本实施例中,由合规管理系统的中文语义模块将一类关键词集中的所有关键词分别与二类关键词集中的所有关键词进行拼接,获得多个初始拼接词组。比如:若一类关键词集中的关键词包括:“法律法规”、“标准”、“部门要求”,二类关键词中的关键词包括:“银监会”、“银保监会”、“公安部”则可获得的拼接词组有“法律法规-银监会”、“法律法规-银保监会”、“法律法规-公安部”、“标准-银监会”、“标准-银保监会”、“标准-公安部”、“部门要求-银监会”、“部门要求-银保监会”、“部门要求-公安部”。
81.s302,统计各关键词在各样本文档中对应的第一命中次数。
82.其中,第一次命中次数是各关键词在各样本文档中出现的次数。
83.本实施例中,由合规管理系统的中文语义模块将一类关键词集中的关键词分别与所有样本文档的文档名进行逐一对比,对比过程中,若样本文档的文档名中包含该关键词,则该关键词与该样本文档对比结果相同,则该关键词第一命中次数累计一次,直到对比结束,有多少样本文档的文档名包含该关键词,则该关键词第一命中次数累计多少次,该关键词的第一次命中次数就有多少次。比如:一类关键词集中的“标准”,有1900个样本文档的文档名包含“标准”,则“标准”的第一命中次数有1900次。
84.由合规管理系统的中文语义模块将二类关键词集中的关键词分别与所有样本文档的文档名进行逐一对比,对比过程中,若样本文档的文档名中包含该关键词,则该关键词与该样本文档对比结果相同,则该关键词第一命中次数累计一次,直到对比结束,有多少样本文档的文档名包含该关键词,则该关键词第一命中次数累计多少次,该关键词的第一次命中次数就有多少次。比如:二类关键词集中的“银保监会”,有301个样本文档的文档名包含“银保监会”,则“银保监会”的第一命中次数有301次。
85.s303,根据各关键词对应的第一命中次数以及多个初始拼接词组,确定拼接词组。
86.本实施例中,由合规管理系统的中文语义模块将多个初始拼接词组进行筛选,将筛选后的多个初始拼接词组分别与三类关键词集中的关键词进行拼接,确定拼接词组。
87.本实施例中,根据各关键词对应的第一命中次数以及多个初始拼接词组,确定拼
接词组,可以使样本文档的分类更准确,提高合规管理系统的分类能力,用户使用合规管理系统进行搜索时,能够更精准的定位搜索范围。各关键词对应的第一命中次数多的关键词优先级高,用户能更快的获得搜索结果。
88.在一个实施例中,如图5所示,本技术还提供上述“根据各关键词对应的第一命中次数以及多个初始拼接词组,确定拼接词组”的一种具体实现方式,包括:
89.s401,统计各初始拼接词组在各样本文档中对应的第二命中次数。
90.其中,第二命中次数是初始拼接词组在各样本文档中出现的次数。
91.本实施例中,由合规管理系统的中文语义模块将初始拼接词组分别与所有样本文档的文档名进行逐一对比,对比过程中,若样本文档的文档名中包含该初始拼接词组的两个关键词,则该初始拼接词组与该样本文档对比结果相同,则该初始拼接词组第二命中次数累计一次,直到对比结束,有多少样本文档的文档名包含该初始拼接词组,则该初始拼接词组第二命中次数累计多少次,该初始拼接词组对应的第二次命中次数就有多少次。比如:初始拼接词组“标准-银保监会”,有120个样本文档的文档名包含“标准-银保监会”,则“标准-银保监会”的第一命中次数有120次。
92.s402,根据各关键词对应的第一命中次数、各初始拼接词组对应的第二命中次数以及命中次数阈值,确定拼接词组。
93.其中,命中次数阈值是筛选初始拼接词组的标准,可以根据实际情况设定,例如可以是10、20等等。
94.本实施例中,由合规管理系统的中文语义模块对各初始拼接词组对应的第二命中次数高的初始拼接词组细分,对各初始拼接词组对应的第二命中次数低的初始拼接词组合并,比如:“公司规章-银保监会”的第二命中次数是1,“公司规章-银监会”的第二命中次数是0,合并为“公司规章-银保监会”,“公司规章-银保监会”的命中次数是1,将合并或者细分后的各初始拼接词组的第二命中次数分别与第二命中次数阈值比较,筛选出符合要求的各初始拼接词分别与三类关键词集中的关键词进行拼接,确定拼接词组。
95.本实施例中,根据各初始拼接词组对应的第二命中次数以及命中次数阈值对各初始拼接词组进行细分或合并,得到的拼接词组更合理。用户使用合规管理系统进行搜索时,合规管理系统的中文语义模块能更准确地匹配到与用户搜索的关键词相近的拼接词组。
96.在一个实施例中,如图6所示,本技术还提供上述“根据各关键词对应的第一命中次数、各初始拼接词组对应的第二命中次数以及命中次数阈值,确定所述拼接词组”的一种具体实现方式,包括:
97.s501,根据各关键词对应的第一命中次数确定各初始拼接词组对应的排序优先级。
98.本实施例中,由合规管理系统的中文语义模块根据一类关键词对应的第一命中次数的多少,将各初始拼接词组按照各初始拼接词组中一类关键词对应的第一命中次数从多到少排列,或者从少到多排列,第一命中次数最大的初始拼接词组的优先级最高。
99.s502,根据各初始拼接词组对应的排序优先级,将各初始拼接词组对应的第二命中次数和命中次数阈值进行对比,确定对比结果。
100.本实施例中,根据各初始拼接词组对应的排序优先级,由合规管理系统的中文语义模块将排序后的各初始拼接词组的第二命中次数分别与命中次数阈值比较,若初始拼接
词组对应的第二命中次数大于命中次数阈值,则该初始拼接词组和对应的第二命中次数保存。若初始拼接词组对应的第二命中次数小于命中次数阈值,则将该初始拼接词组删除,保存组成该初始拼接词组的两个关键词与对应的第一命中次数。
101.s503,根据对比结果确定拼接词组。
102.本实施例中,由合规管理系统的中文语义模块将保存的初始拼接词组和关键词分别与三类关键词集中的关键词拼接,确定拼接词组。比如:合规管理系统的中文语义模块保存的初始拼接词组有“标准-人行”“标准-工信部”“公司规章”,三类关键词集中的关键词有“处罚”“要求”“书面”,那么得到的拼接词组有“标准-人行-处罚”“标准-人行-要求”“标准-人行-书面”“标准-工信部-处罚”“标准-工信部-要求”“标准-工信部-书面”“公司规章-处罚”“公司规章-要求”“公司规章-书面”。
103.本实施例中,由于三类关键词集中的关键词关联了样本文档的文档内容,当用户使用合规管理系统进行搜索时,可以得到与搜索内容对应的文档内容,那么用户获得的搜索结果也更为精准。
104.综合上述所有实施例,本技术还提供了一种数据传输方法,如图7所示,该方法包括:
105.s601,获取多个样本文档以及多类关键词集。
106.s602,将各类关键词集中的关键词进行拼接,获得多个初始拼接词组。
107.s603,统计各关键词在各样本文档中对应的第一命中次数。
108.s604,统计各初始拼接词组在各样本文档中对应的第二命中次数。
109.s605,根据各关键词对应的第一命中次数确定各初始拼接词组对应的排序优先级。
110.s606,根据各初始拼接词组对应的排序优先级,将各初始拼接词组对应的第二命中次数和命中次数阈值进行对比,确定对比结果。
111.s607,将第二命中次数小于命中次数阈值的初始拼接词组删除,获得拼接词组。
112.s608,建立各拼接词组和各样本文档之间的对应关系,获得分类数据库。
113.s609,获取至少两个待搜索关键词。
114.s610,将各待搜索关键词进行拼接,得到待搜索词组。
115.s611,将待搜索词组输入至分类数据库中进行匹配,确定待搜索词组对应的目标文档。
116.应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
117.基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的目标文档的确定方法的目标文档的确定装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个目标文档的确定装置实施例中的具体
限定可以参见上文中对于目标文档的确定方法的限定,在此不再赘述。
118.在一个实施例中,如图8所示,提供了一种目标文档的确定装置,包括:获取模块11、拼接模块12和确定模块13,其中:
119.获取模块11,用于获取至少两个待搜索关键词。
120.拼接模块12,用于将各待搜索关键词进行拼接,得到待搜索词组。
121.确定模块13,用于将待搜索词组输入至预设的分类数据库中进行匹配,确定待搜索词组对应的目标文档。
122.在一个实施例中,如图9所示,上述确定模块13,包括:
123.获取单元131,用于获取多个样本文档以及多类关键词集。
124.拼接单元132,用于将各类关键词集中的关键词进行拼接,获得拼接词组。
125.创建单元133,用于建立各拼接词组和各样本文档之间的对应关系,获得分类数据库。
126.在一个实施例中,如图10所示,上述拼接单元132,包括:
127.拼接子单元1321,用于将各类关键词集中的关键词进行拼接,获得多个初始拼接词组。
128.统计子单元1322,用于统计各关键词在各样本文档中对应的第一命中次数。
129.确定子单元1323,用于根据各关键词对应的第一命中次数以及多个初始拼接词组,确定拼接词组。
130.在一个实施例中,上述确定子单元1323,具体用于统计各初始拼接词组在各样本文档中对应的第二命中次数。用于根据各关键词对应的第一命中次数、各初始拼接词组对应的第二命中次数以及命中次数阈值,确定拼接词组。还用于根据各关键词对应的第一命中次数确定各初始拼接词组对应的排序优先级。用于根据各初始拼接词组对应的排序优先级,将各初始拼接词组对应的第二命中次数和命中次数阈值进行对比,确定对比结果。用于根据对比结果确定拼接词组。用于将第二命中次数小于命中次数阈值的初始拼接词组删除,获得拼接词组。
131.上述目标文档的确定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
132.在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
133.获取至少两个待搜索关键词;
134.将各待搜索关键词进行拼接,得到待搜索词组;
135.将待搜索词组输入至预设的分类数据库中进行匹配,确定待搜索词组对应的目标文档。
136.在一个实施例中,处理器执行计算机程序时还实现以下步骤:
137.获取多个样本文档以及多类关键词集;其中,各类关键词集中包括至少一个关键词;
138.将各类关键词集中的关键词进行拼接,获得拼接词组;
139.建立各拼接词组和各样本文档之间的对应关系,获得分类数据库.
140.在一个实施例中,处理器执行计算机程序时还实现以下步骤:
141.将各类关键词集中的关键词进行拼接,获得多个初始拼接词组;
142.统计各关键词在各样本文档中对应的第一命中次数;
143.根据各关键词对应的第一命中次数以及多个初始拼接词组,确定拼接词组。
144.在一个实施例中,处理器执行计算机程序时还实现以下步骤:
145.统计各初始拼接词组在各样本文档中对应的第二命中次数;
146.根据各关键词对应的第一命中次数、各初始拼接词组对应的第二命中次数以及命中次数阈值,确定拼接词组。
147.在一个实施例中,处理器执行计算机程序时还实现以下步骤:
148.根据各关键词对应的第一命中次数确定各初始拼接词组对应的排序优先级;
149.根据各初始拼接词组对应的排序优先级,将各初始拼接词组对应的第二命中次数和命中次数阈值进行对比,确定对比结果;
150.根据对比结果确定拼接词组。
151.在一个实施例中,处理器执行计算机程序时还实现以下步骤:
152.将第二命中次数小于命中次数阈值的初始拼接词组删除,获得拼接词组。
153.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
154.获取至少两个待搜索关键词;
155.将各待搜索关键词进行拼接,得到待搜索词组;
156.将待搜索词组输入至预设的分类数据库中进行匹配,确定待搜索词组对应的目标文档。
157.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
158.获取多个样本文档以及多类关键词集;其中,各类关键词集中包括至少一个关键词;
159.将各类关键词集中的关键词进行拼接,获得拼接词组;
160.建立各拼接词组和各样本文档之间的对应关系,获得分类数据库.
161.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
162.将各类关键词集中的关键词进行拼接,获得多个初始拼接词组;
163.统计各关键词在各样本文档中对应的第一命中次数;
164.根据各关键词对应的第一命中次数以及多个初始拼接词组,确定拼接词组。
165.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
166.统计各初始拼接词组在各样本文档中对应的第二命中次数;
167.根据各关键词对应的第一命中次数、各初始拼接词组对应的第二命中次数以及命中次数阈值,确定拼接词组。
168.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
169.根据各关键词对应的第一命中次数确定各初始拼接词组对应的排序优先级;
170.根据各初始拼接词组对应的排序优先级,将各初始拼接词组对应的第二命中次数和命中次数阈值进行对比,确定对比结果;
171.根据对比结果确定拼接词组。
172.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
173.将第二命中次数小于命中次数阈值的初始拼接词组删除,获得拼接词组。
174.在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
175.获取至少两个待搜索关键词;
176.将各待搜索关键词进行拼接,得到待搜索词组;
177.将待搜索词组输入至预设的分类数据库中进行匹配,确定待搜索词组对应的目标文档。
178.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
179.获取多个样本文档以及多类关键词集;其中,各类关键词集中包括至少一个关键词;
180.将各类关键词集中的关键词进行拼接,获得拼接词组;
181.建立各拼接词组和各样本文档之间的对应关系,获得分类数据库.
182.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
183.将各类关键词集中的关键词进行拼接,获得多个初始拼接词组;
184.统计各关键词在各样本文档中对应的第一命中次数;
185.根据各关键词对应的第一命中次数以及多个初始拼接词组,确定拼接词组。
186.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
187.统计各初始拼接词组在各样本文档中对应的第二命中次数;
188.根据各关键词对应的第一命中次数、各初始拼接词组对应的第二命中次数以及命中次数阈值,确定拼接词组。
189.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
190.根据各关键词对应的第一命中次数确定各初始拼接词组对应的排序优先级;
191.根据各初始拼接词组对应的排序优先级,将各初始拼接词组对应的第二命中次数和命中次数阈值进行对比,确定对比结果;
192.根据对比结果确定拼接词组。
193.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
194.将第二命中次数小于命中次数阈值的初始拼接词组删除,获得拼接词组。
195.需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
196.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器(ferroelectric random access memory,fram)、相变存储器(phase change memory,
pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
197.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
198.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1