一种检索文本纠错方法、装置、计算机设备及存储介质与流程

文档序号:35866502发布日期:2023-10-27 02:19阅读:49来源:国知局
一种检索文本纠错方法、装置、计算机设备及存储介质与流程

本技术涉及数据检索,具体涉及一种检索文本纠错方法、装置、计算机设备及存储介质。


背景技术:

1、检索召回主要是指对用户输入的查询信息进行全方面的意图理解,从而从多个角度挖掘出查询信息中包含的关键数据信息,进而通过多路召回返回符合需求的结果,满足用户检索需求。而用户检索文本纠错是指当用户输入检索文本query时,可能会由于手误打出错别字,从而在后续根据这个检索文本进行检索召回时返回的内容可能不满足用户的逾期,如果在货运场景下无法纠正为正确的poi(pointof information,信息点或兴趣点),会直接用户的发单情况。目前现有的检索文本纠错方法主要有三种方法,包括基于规则的中文字符纠错方法、基于统计语言模型的中文纠错方法和基于seq2seq的中文纠错方法。

2、但是,在对现有技术的研究与实践的过程中,本技术的发明人发现,现有技术还存在如下缺陷,例如基于规则的中文字符纠错方法对于货运场景下信息点特点为短、多并列关系词时,这种方式过于粗暴,且无法对未出现的状况进行解析,不具有较好的泛化能力;而基于统计语言模型的中文纠错方法虽然在货运场景下可以解决部分问题,但是由于基于整体数据维度建模,不具有针对性,对于非热门poi(pointsofinterest,信息点或兴趣点)不容易被纠正;基于seq2seq的中文纠错方法虽然具有较优的泛化能力,但其缺点在于在线服务对于实时要求较高,大模型推理时间长,而简单模型对短query建模不充分,其在线实用性较低。因此,在针对货运场景下的检索召回中,亟需一种能够解决上述技术缺陷的检索文本纠错方法。

3、前面的叙述在于提供一般的背景信息,并不一定构成现有技术。


技术实现思路

1、针对上述技术问题,本技术提供一种检索文本纠错方法、装置、计算机设备及存储介质,通过困惑集对待检索文本进行字替换和词替换,并根据hmm城市纠错模型计算候选替换词集合的得分,最终将得分高的候选替换词集合作为纠错后的检索文本,从而能够快速纠正检索文本,提高用户检索体验,进而提高用户发单率。

2、为解决上述技术问题,本技术提供了一种检索文本纠错方法,至少包括如下步骤:

3、获取待检索文本,并对所述待检索文本进行数据清洗处理;

4、基于预先构建的困惑集对进行数据清洗处理后的待检索文本逐步向后分别进行一元分词的字替换和二元分词的词替换,得到多个候选替换词集合;

5、基于hmm城市纠错模型计算每次替换后得到的候选替换词集合对应的模型得分;

6、按照所述模型得分从高到低的顺序对所述候选替换词集合进行排序,选取排序前预设数量的候选替换词集合作为纠错后的检索文本。

7、可选地,所述hmm城市纠错模型包括转移概率模型和发射概率模型,则所述模型得分为转移概率得分和发射概率得分之和。

8、可选地,所述检索文本纠错方法还包括:

9、预先构建困惑集;

10、预先构建不同城市对应的hmm城市纠错模型。

11、可选地,所述预先构建困惑集,包括:

12、采用离线方式挖掘一元分词的同音字、形近字和音近字后进行存储,作为困惑集的第一子集;

13、比对检索文本和点击信息点的真实名称和对应地址,根据预先设定的字词模式规则识别策略,定位得到错误点,所述错误点包括错误字和错误词;

14、选择所述错误字和错误词分别对应的真实字和真实词进行存储,作为所述困惑集的第二子集;

15、将所述错误字与上下文构成连贯词后添加城市特征前缀,作为所述困惑集的第三子集;

16、基于所述第一子集、第二子集和第三子集,构建所述困惑集。

17、可选地,所述预先构建不同城市对应的hmm城市纠错模型,包括:

18、统计不同城市下的历史订单数据总量,筛选出热门城市和非热门城市;

19、分别对每个所述热门城市单独进行hmm城市纠错模型的训练,构建得到每个所述热门城市对应的hmm城市纠错模型;

20、对于所有所述非热门城市,统一训练同一个hmm城市纠错模型后,构建得到所有所述非热门城市统一对应的hmm城市纠错模型。

21、可选地,所述分别对每个所述热门城市单独进行hmm城市纠错模型的训练,构建得到每个所述热门城市对应的hmm城市纠错模型,包括:

22、获取所述热门城市的原始数据,所述原始数据包括多个信息点的名称和地址字段;

23、对所述原始数据进行数据清洗处理,得到训练数据;

24、基于所述训练数据分别训练转移概率模型和发射概率模型;

25、基于训练后的转移概率模型和发射概率模型,构建得到每个所述热门城市对应的hmm城市纠错模型。

26、可选地,所述对于所有所述非热门城市,统一训练同一个hmm城市纠错模型后,构建得到所有所述非热门城市统一对应的hmm城市纠错模型,包括:

27、获取所述非热门城市的原始数据,所述原始数据包括多个信息点的名称和地址字段;

28、对所述原始数据进行数据清洗处理,得到训练数据;

29、在所述训练数据中添加所述非热门城市的城市特征信息后,分别对转移概率模型和发射概率模型;

30、基于训练后的转移概率模型和发射概率模型,构建得到所述非热门城市对应的hmm城市纠错模型。

31、相应地,本技术实施例提供了一种检索文本纠错装置,包括:

32、获取模块,用于获取待检索文本,并对所述待检索文本进行数据清洗处理;

33、替换模块,用于基于预先构建的困惑集对进行数据清洗处理后的待检索文本逐步向后分别进行一元分词的字替换和二元分词的词替换,得到多个候选替换词集合;

34、打分模块,用于基于hmm城市纠错模型计算每次替换后得到的候选替换词集合对应的模型得分;

35、筛选模块,用于按照所述模型得分从高到低的顺序对所述候选替换词集合进行排序,选取排序前预设数量的候选替换词集合作为纠错后的检索文本。

36、本技术实施例提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上所述的检索文本纠错方法的步骤。

37、本技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的检索文本纠错方法的步骤。

38、实施本发明实施例,具有如下有益效果:

39、如上所述,本技术提供的一种检索文本纠错方法、装置、计算机设备及存储介质,其中方法包括:首先,获取待检索文本,并对待检索文本进行数据清洗处理;然后,基于预先构建的困惑集对进行数据清洗处理后的待检索文本逐步向后分别进行一元分词的字替换和二元分词的词替换,得到多个候选替换词集合;接着,基于hmm城市纠错模型计算每次替换后得到的候选替换词集合对应的模型得分;最后,按照模型得分从高到低的顺序对候选替换词集合进行排序,选取排序前预设数量的候选替换词集合作为纠错后的检索文本。本技术提供的一种检索文本纠错方案,通过多粒度多维度的困惑集对待检索文本进行字替换和词替换,提高候选词集合的覆盖率;并通过hmm城市纠错模型计算候选替换词集合的得分,将城市特征和poi信息关联,最后将得分高的候选替换词集合作为纠错后的纠错文本,从而缩小地理范围纠错,快速纠正检索文本的同时提高纠错准确度,进而提高用户检索体验和用户发单率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1