数据处理方法及装置与流程

文档序号:33812528发布日期:2023-04-19 14:15阅读:67来源:国知局
数据处理方法及装置与流程

本申请涉及全文检索,特别涉及一种数据处理方法。本申请同时涉及一种数据处理装置,一种计算设备,以及一种计算机可读存储介质。


背景技术:

1、随着互联网技术的快速发展,人们进入大数据时代且掌握的数据在不断增长。面对海量的数据信息,搜索系统为了将用户预期了解的内容展现在用户面前,需要具有良好的数据筛选、过滤、排序等能力。目前,全文检索系统能够在一定程度上解决用户搜索、筛选内容的问题。但是传统的全文检索系统在对文档数据进行索引创建时,索引中大量无意义的单词会将需要的单词分割开,导致后续基于索引搜索就无法为用户提供准确的搜索结果。因此,在全文检索系统中如何准确地为用户搜索到准确结果是目前亟需解决的问题。


技术实现思路

1、有鉴于此,本申请实施例提供了数据处理方法,用于优化分词创建更符合预期的索引文本,提高后续检索的精确度。本申请同时涉及数据处理装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的分词结果不准确导致无法创建正确的索引文本,进而导致搜索成本高、耗时长且不准确的问题。

2、根据本申请实施例的第一方面,提供了一种数据处理方法,包括:

3、确定待搜索文本,并获取过滤字段集合和保留字段集合;

4、基于所述过滤字段集合在所述待搜索文本中确定第i个词字段以及所述第i个词字段对应的第i个分词字段;

5、在所述第i个分词字段属于所述保留字段集合的情况下,根据所述第i个词字段和所述第i个分词字段生成目标词单元,其中,目标词单元用于生成第i+1个词字段;

6、在所述第i个分词字段不属于所述保留字段集合的情况下,根据所述第i个词字段生成目标词单元;

7、i按序自增,并执行基于所述过滤字段集合在所述待搜索文本中确定第i个词字段以及所述第i个词字段对应的第i个分词字段的步骤,直至i自增至k,根据生成的至少一个目标词单元创建所述待搜索文本的索引文本,其中,i从1开始取值直至为k且为正整数,k根据所述待搜索文本的文本长度确定。

8、根据本申请实施例的第二方面,提供了一种数据处理方法,包括:

9、响应于用户搜索请求,确定查询文本;

10、将所述查询文本中的查询关键字与文本数据库的索引文本进行匹配,其中,所述文本数据库的索引文本根据数据处理方法获得;

11、根据匹配结果在所述文本数据库中确定目标文本,并反馈至所述用户。

12、根据本申请实施例的第三方面,提供了一种数据处理装置,包括:

13、获取模块,被配置为确定待搜索文本,并获取过滤字段集合和保留字段集合;

14、确定模块,被配置为基于所述过滤字段集合在所述待搜索文本中确定第i个词字段以及所述第i个词字段对应的第i个分词字段;

15、生成模块,被配置为在所述第i个分词字段属于所述保留字段集合的情况下,根据所述第i个词字段和所述第i个分词字段生成目标词单元,其中,目标词单元用于生成第i+1个词字段;

16、生成模块,被配置为在所述第i个分词字段不属于所述保留字段集合的情况下,根据所述第i个词字段生成目标词单元;

17、循环模块,被配置为i按序自增,并执行基于所述过滤字段集合在所述待搜索文本中确定第i个词字段以及所述第i个词字段对应的第i个分词字段的步骤,直至i自增至k,根据生成的至少一个目标词单元创建所述待搜索文本的索引文本,其中,i从1开始取值直至为k且为正整数,k根据所述待搜索文本的文本长度确定。

18、根据本申请实施例的第四方面,提供了一种数据处理装置,包括:

19、确定模块,被配置为响应于用户搜索请求,确定查询文本;

20、匹配模块,被配置为将所述查询文本中的查询关键字与文本数据库的索引文本进行匹配,其中,所述文本数据库的索引文本根据数据处理方法获得;

21、反馈模块,被配置为根据匹配结果在所述文本数据库中确定目标文本,并反馈至所述用户。

22、根据本申请实施例的第五方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述计算机指令时实现所述数据处理方法的步骤。

23、根据本申请实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现所述数据处理方法的步骤。

24、本申请提供的数据处理方法,确定待搜索文本,并获取过滤字段集合和保留字段集合;基于所述过滤字段集合在所述待搜索文本中确定第i个词字段以及所述第i个词字段对应的第i个分词字段;在所述第i个分词字段属于所述保留字段集合的情况下,根据所述第i个词字段和所述第i个分词字段生成目标词单元,其中,目标词单元用于生成第i+1个词字段;在所述第i个分词字段不属于所述保留字段集合的情况下,根据所述第i个词字段生成目标词单元;i按序自增,并执行基于所述过滤字段集合在所述待搜索文本中确定第i个词字段以及所述第i个词字段对应的第i个分词字段的步骤,直至i自增至k,根据生成的至少一个目标词单元创建所述待搜索文本的索引文本,其中,i从1开始取值直至为k且为正整数,k根据所述待搜索文本的文本长度确定。

25、本申请一实施例实现了通过过滤字段集合和保留字段集合,在分词时能够从待搜索文本中筛选出符合用户预期的目标词单元,从而能够基于目标词单元创建更准确的索引文本,进而为后续提供更准确的检索能力,为用户呈现更精确的检索结果。



技术特征:

1.一种数据处理方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,在i不等于1的情况下,基于所述过滤字段集合,在所述待搜索文本中确定第i个词字段以及所述第i个词字段对应的第i个分词字段,包括:

3.如权利要求2所述的方法,其特征在于,基于所述过滤字段集合和所述第i个初始词字段在所述待搜索文本中确定第i个分词字段,包括:

4.如权利要求2所述的方法,其特征在于,根据所述第i个初始词字段和所述第i个分词字段在所述待搜索文本中确定第i个词字段,包括:

5.如权利要求2所述的方法,其特征在于,在i等于1的情况下,基于所述过滤字段集合,在所述待搜索文本中确定第i个词字段以及所述第i个词字段对应的第i个分词字段,包括:

6.如权利要求1所述的方法,其特征在于,根据生成的至少一个目标词单元创建所述待搜索文本的索引文本,包括:

7.如权利要求1所述的方法,其特征在于,所述方法还包括:

8.如权利要求1所述的方法,其特征在于,确定待搜索文本,包括:

9.一种数据处理方法,其特征在于,包括:

10.一种数据处理装置,其特征在于,包括:

11.一种数据处理装置,其特征在于,包括:

12.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述计算机指令时实现权利要求1-9任意一项所述方法的步骤。

13.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现权利要求1-9任意一项所述方法的步骤。


技术总结
本申请提供数据处理方法及装置,数据处理方法包括:确定待搜索文本,并获取过滤字段集合和保留字段集合;基于过滤字段集合在待搜索文本中确定第i个词字段以及第i个词字段对应的第i个分词字段;在第i个分词字段属于保留字段集合的情况下,根据第i个词字段和第i个分词字段生成目标词单元;在第i个分词字段不属于保留字段集合的情况下,根据第i个词字段生成目标词单元;i按序自增,并执行基于过滤字段集合在待搜索文本中确定第i个词字段以及第i个词字段对应的第i个分词字段的步骤,直至i自增至k,根据生成的至少一个目标词单元创建待搜索文本的索引文本,其中,i从1开始取值直至为k且为正整数,k根据待搜索文本的文本长度确定。

技术研发人员:张君华,田晓峰,吴肖军,周华军,叶晶
受保护的技术使用者:恒生电子股份有限公司
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1