文件名索引生成方法、装置、及文件查找方法、装置与流程

文档序号:34389272发布日期:2023-06-08 09:02阅读:30来源:国知局
文件名索引生成方法、装置、及文件查找方法、装置与流程

本公开涉及计算机,尤其涉及文件查找、文件索引,具体涉及一种文件名索引生成方法、装置、及文件查找方法、装置。


背景技术:

1、目前的文件名索引技术,是通过切词将文件名切割为单字作为索引词,然后通过索引存储格式写入数据库,并在用户查找相关文件时,将用户输入的查询词按照相同的切词规则切割成单字,并根据单字和索引的对应关系召回文件的技术。

2、但该文件名索引技术中存储的索引数据量较大,导致文件查询速度较慢。


技术实现思路

1、本公开提供了一种文件名索引生成方法、装置、及文件查找方法、装置,能够通过在生成相应文件的文件名索引时对切词后的各字段进行过滤,减少生成的文件名索引的数据量,提高文件查找时的速度。

2、根据本公开的第一方面,提供了一种文件名索引生成方法,包括:获取待处理文件的文件名和文件标识;对文件名按照预设的切词规则进行切分得到文件名中的至少一个字段;对至少一个字段按照预设的过滤规则进行过滤,将过滤后得到的各字段分别作为索引词;根据索引词和文件标识生成待处理文件的文件名索引。

3、根据本公开的第二方面,提供了一种文件名索引生成装置,包括:获取模块,用于获取待处理文件的文件名和文件标识;

4、生成模块,用于对文件名按照预设的切词规则进行切分得到文件名中的至少一个字段;对至少一个字段按照预设的过滤规则进行过滤,将过滤后得到的各字段分别作为索引词;根据索引词和文件标识生成待处理文件的文件名索引。

5、根据本公开的第三方面,提供了一种文件查找方法,包括:获取用户输入的查询词;对查询词按照预设的切词规则进行切分得到查询词中的至少一个字段;根据至少一个字段,从预设的文件名索引库中匹配对应的文件名索引,预设的文件名索引库中包括各文件对应的文件名索引,文件名索引是根据如第一方面提供的文件名索引生成方法生成的;根据匹配得到的文件名索引,确定对应的文件。

6、根据本公开的第四方面,提供了一种文件查找装置,包括:获取模块,用于获取用户输入的查询词;查找模块,用于对查询词按照预设的切词规则进行切分得到查询词中的至少一个字段;根据至少一个字段,从预设的文件名索引库中匹配对应的文件名索引,预设的文件名索引库中包括各文件对应的文件名索引,文件名索引是根据如第二方面提供的文件名索引生成装置生成的;根据匹配得到的文件名索引,确定对应的文件。

7、根据本公开的第五方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面或第三方面提供的方法。

8、根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行根据第一方面或第三方面提供的方法。

9、根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现根据第一方面或第三方面提供的方法。

10、本公开能够通过对待处理文件的文件名进行切词,然后将切词结果进行过滤的方式,过滤掉文件名中被用户查询用到的概率较低的字段。从而减小最终生成的文件名索引的数据量,节省文件名索引库的空间,提高文件查找速度。

11、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。



技术特征:

1.一种文件名索引生成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述预设的切词规则为通过自然语言处理nlp切词工具进行切分。

3.根据权利要求2所述的方法,其特征在于,所述根据所述索引词和所述文件标识生成所述待处理文件的文件名索引,包括:

4.根据权利要求1至3任一项所述的方法,其特征在于,所述预设的过滤规则包括以下至少一个:

5.一种文件查找方法,其特征在于,包括:

6.根据权利要求5所述的方法,其特征在于,所述预设的切词规则为通过自然语言处理nlp切词工具进行切分。

7.根据权利要求5或6所述的方法,其特征在于,在所述根据匹配得到的文件名索引,确定对应的文件之后,所述方法还包括:

8.根据权利要求7所述的方法,其特征在于,确定出的所述文件包括多个,所述以文件名的形式展示确定出的所述文件,包括:

9.一种文件名索引生成装置,其特征在于,包括:

10.根据权利要求9所述的装置,其特征在于,所述预设的切词规则为通过自然语言处理nlp切词工具进行切分。

11.根据权利要求10所述的装置,其特征在于,所述生成模块,具体用于根据预设的索引存储格式存储所述索引词和所述文件标识,生成所述待处理文件的文件名索引,所述预设的索引存储格式包括用于存储索引词的索引词位和用于存储所述文件标识的标识位,所述索引词位包括槽位,所述槽位用于存储所述索引词位对应存储的索引词的首字符。

12.根据权利要求9至11任一项所述的装置,其特征在于,所述预设的过滤规则包括以下至少一个:

13.一种文件查找装置,其特征在于,包括:

14.根据权利要求13所述的装置,其特征在于,所述预设的切词规则为通过自然语言处理nlp切词工具进行切分。

15.根据权利要求13或14所述的装置,其特征在于,所述查找模块,还用于以文件名的形式展示确定出的所述文件。

16.根据权利要求15所述的装置,其特征在于,确定出的所述文件包括多个,所述查找模块,具体用于根据所述查询词分别对确定出的各所述文件的文件名是否包含完整的所述查询词进行校验;将包含完整的所述查询词的文件名排序在前进行展示。

17.一种电子设备,包括:

18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-4中任一项所述的方法或5至8中任一项所述的方法。

19.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-4中任一项所述的方法或5至8中任一项所述的方法。


技术总结
本公开提供了一种文件名索引生成方法、装置、及文件查找方法、装置,涉及计算机技术领域,尤其涉及文件查找、文件索引技术领域。具体实现方案为:获取待处理文件的文件名和文件标识;对文件名按照预设的切词规则进行切分得到文件名中的至少一个字段;对至少一个字段按照预设的过滤规则进行过滤,将过滤后得到的各字段分别作为索引词;根据索引词和文件标识生成待处理文件的文件名索引。能够通过在生成相应文件的文件名索引时对切词后的各字段进行过滤,减少生成的文件名索引的数据量,提高文件查找时的速度。

技术研发人员:唐鑫杰
受保护的技术使用者:北京百度网讯科技有限公司
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1