基于文本的语种识别方法、相关装置，设备以及存储介质与流程

文档序号：35282491发布日期：2023-09-01 02:24阅读：29来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本技术涉及人工智能，尤其涉及基于文本的语种识别方法、相关装置，设备以及存储介质。

背景技术：

1、随着现代社会信息的全球化，文本的语种识别成为识别技术研究热点之一。在全球化背景下，世界范围内产生的交互越来越多。因此，在对文本进行识别的过程中，不仅需要对中文进行识别，还需要对其他语种的文本进行识别，以适应全球化浪潮。

2、在资源搜索场景下，搜索文本的语种与得到的搜索结果的语种是一致的。目前，对于用户输入的搜索文本，可对每个字符进行编码，再根据编码结果获取各个字符的语言标签特征，由此，基于语言标签特征预测搜索文本的语种识别结果。

3、虽然根据用户输入的搜索文本能够预测其对应的语种识别结果。但在实际用于中，发明人发现现有方案中至少存在如下问题，仅利用搜索文本进行语种识别，得到的语种识别结果准确率并不理想，因此，对语种识别方法进行优化显得尤为必要。

技术实现思路

1、本技术实施例提供了一种基于文本的语种识别方法、相关装置，设备以及存储介质。本技术利用关联资源的语种标签，并结合目标搜索文本，能够为资源搜索提供更加可靠的语种线索，从而有利于提升语种识别的准确性。

2、有鉴于此，本技术一方面提供一种基于文本的语种识别方法，包括：

3、获取目标搜索文本；

4、根据目标搜索文本获取k个关联资源，其中，每个关联资源具有已标注的至少一个语种标签，k为大于或等于1的整数；

5、根据每个关联资源所对应的至少一个语种标签，生成资源语种特征分布，其中，资源语种特征分布表示k个关联资源属于m个语种标签的分布情况，m为大于1的整数；

6、根据目标搜索文本生成字符特征分布，其中，字符特征分布表示目标搜索文本针对各个预设字符的分布情况；

7、根据资源语种特征分布以及字符特征分布，确定语种识别结果。

8、本技术另一方面提供一种基于文本的语种识别方法，包括：

9、获取目标搜索文本；

10、根据目标搜索文本，获取针对目标对象的q个历史资源，其中，目标对象为输入目标搜索文本的对象，q个历史资源为目标对象在历史时段内触达过的资源，每个历史资源具有已标注的至少一个语种标签，q为大于或等于1的整数；

11、根据每个历史资源所对应的至少一个语种标签，生成对象语种特征分布，其中，对象语种特征分布表示q个历史资源属于m个语种标签的分布情况，m为大于1的整数；

12、根据目标搜索文本生成字符特征分布，其中，字符特征分布表示目标搜索文本针对各个预设字符的分布情况；

13、根据对象语种特征分布以及字符特征分布，确定语种识别结果。

14、本技术另一方面提供一种语种识别装置，包括：

15、获取模块，用于获取目标搜索文本；

16、获取模块，还用于根据目标搜索文本获取k个关联资源，其中，每个关联资源具有已标注的至少一个语种标签，k为大于或等于1的整数；

17、生成模块，用于根据每个关联资源所对应的至少一个语种标签，生成资源语种特征分布，其中，资源语种特征分布表示k个关联资源属于m个语种标签的分布情况，m为大于1的整数；

18、生成模块，还用于根据目标搜索文本生成字符特征分布，其中，字符特征分布表示目标搜索文本针对各个预设字符的分布情况；

19、识别模块，用于根据资源语种特征分布以及字符特征分布，确定语种识别结果。

20、在一种可能的设计中，在本技术实施例的另一方面的第一种实现方式中，

21、生成模块，具体用于根据每个关联资源所对应的至少一个语种标签，统计m个语种标签中每个语种标签所对应的第一累计数量；

22、根据m个语种标签中每个语种标签所对应的第一累计数量，生成资源语种特征分布。

23、在一种可能的设计中，在本技术实施例的另一方面的第一种实现方式中，

24、生成模块，具体用于对每个关联资源所对应的至少一个语种标签进行并集处理，得到第一语种标签集；

25、针对第一语种标签集中的每个语种标签，获取具有相同语种标签的关联资源集；

26、针对第一语种标签集中的每个语种标签，获取关联资源集中每个关联资源的第一相关参数，其中，第一相关参数包括以下一项或多项：关联资源与目标搜索文本的相似度，关联资源的播放热度；

27、针对第一语种标签集中的每个语种标签，根据关联资源集中每个关联资源的第一相关参数，计算得到语种概率值；

28、根据第一语种标签集中每个语种标签所对应的语种概率值，生成资源语种特征分布。

29、在一种可能的设计中，在本技术实施例的另一方面的第一种实现方式中，

30、生成模块，具体用于将目标搜索文本划分为字符序列，其中，字符序列包括t个字符，t为大于或等于1的字符；

31、采用字符词典对字符序列中的每个字符进行匹配，得到t个字符编码向量，其中，每个字符编码向量对应于一个字符，且，每个字符编码向量包括n个元素，字符词典包括n个预设字符；

32、对t个字符编码向量中对应位置上的元素进行或运算，得到字符特征分布。

33、在一种可能的设计中，在本技术实施例的另一方面的第一种实现方式中，

34、识别模块，具体用于基于资源语种特征分布，通过语种识别模型所包括的资源语种网络，获取资源语种特征向量；

35、基于字符特征分布，通过语种识别模型所包括的文本语种网络，获取文本特征向量；

36、根据资源语种特征向量以及文本特征向量，生成目标特征向量；

37、基于目标特征向量，通过语种识别模型所包括的语种分类输出网络，获取语种概率分布；

38、根据语种概率分布确定语种识别结果。

39、在一种可能的设计中，在本技术实施例的另一方面的第一种实现方式中，

40、识别模块，具体用于基于资源语种特征分布，通过资源语种网络所包括的语种向量映射关系，获取资源语种特征表示，其中，资源语种网络属于语种识别模型；

41、基于资源语种特征表示，通过资源语种网络所包括的全连接层，获取资源语种特征向量。

42、在一种可能的设计中，在本技术实施例的另一方面的第一种实现方式中，

43、识别模块，具体用于基于字符特征分布，通过文本语种网络所包括的字符向量映射关系，获取字符嵌入表示，其中，文本语种网络包含于语种识别模型；

44、基于字符嵌入表示，通过文本语种网络所包括的文本编码网络，获取文本深度表示；

45、基于文本深度表示，通过文本语种网络所包括的全连接层，获取文本特征向量。

46、在一种可能的设计中，在本技术实施例的另一方面的第一种实现方式中，

47、获取模块，还用于获取针对目标对象的q个历史资源，其中，目标对象为输入目标搜索文本的对象，q个历史资源为目标对象在历史时段内触达过的资源，每个历史资源具有已标注的至少一个语种标签，q为大于或等于1的整数；

48、生成模块，还用于根据每个历史资源所对应的至少一个语种标签，生成对象语种特征分布，其中，对象语种特征分布表示q个历史资源属于m个语种标签的分布情况；

49、识别模块，具体用于基于资源语种特征分布、字符特征分布以及对象语种特征分布，通过语种识别模型确定语种识别结果。

50、在一种可能的设计中，在本技术实施例的另一方面的第一种实现方式中，

51、生成模块，具体用于根据每个历史资源所对应的至少一个语种标签，统计m个语种标签中每个语种标签所对应的第二累计数量；

52、根据m个语种标签中每个语种标签所对应的第二累计数量，生成对象语种特征分布。

53、在一种可能的设计中，在本技术实施例的另一方面的第一种实现方式中，

54、生成模块，具体用于对每个历史资源所对应的至少一个语种标签进行并集处理，得到第二语种标签集；

55、针对第二语种标签集中的每个语种标签，获取具有相同语种标签的历史资源集；

56、针对第二语种标签集中的每个语种标签，获取历史资源集中每个历史资源的第二相关参数，其中，第二相关参数包括以下一项或多项：历史资源的播放完成度，历史资源的播放间隔时长；

57、针对第二语种标签集中的每个语种标签，根据历史资源集中每个历史资源的第二相关参数，计算得到语种概率值；

58、根据第二语种标签集中每个语种标签所对应的语种概率值，生成对象语种特征分布。

59、在一种可能的设计中，在本技术实施例的另一方面的第一种实现方式中，

60、识别模块，具体用于基于资源语种特征分布，通过语种识别模型所包括的资源语种网络，获取资源语种特征向量；

61、基于字符特征分布，通过语种识别模型所包括的文本语种网络，获取文本特征向量；

62、基于对象语种特征分布，通过语种识别模型所包括的对象语种网络，获取对象语种特征向量；

63、根据资源语种特征向量、文本特征向量以及对象语种特征向量，生成目标特征向量；

64、基于目标特征向量，通过语种识别模型所包括的语种分类输出网络，获取语种概率分布；

65、根据语种概率分布确定语种识别结果。

66、在一种可能的设计中，在本技术实施例的另一方面的第一种实现方式中，

67、识别模块，具体用于基于对象语种特征分布，通过对象语种网络所包括的语种向量映射关系，获取对象语种特征表示，其中，对象语种网络属于语种识别模型；

68、基于对象语种特征表示，通过对象语种网络所包括的全连接层，获取对象语种特征向量。

69、在一种可能的设计中，在本技术实施例的另一方面的第一种实现方式中，语种识别装置还包括发送模块；

70、获取模块，具体用于接收终端发送的资源搜索请求，其中，资源搜索请求携带目标搜索文本；

71、根据资源搜索请求，获取目标搜索文本；

72、发送模块，用于根据资源语种特征分布以及字符特征分布，确定语种识别结果之后，响应资源搜索请求，向终端发送与语种识别结果匹配的资源搜索结果，以使终端显示资源搜索结果。

73、本技术另一方面提供一种语种识别装置，包括：

74、获取模块，用于获取目标搜索文本；

75、获取模块，还用于根据目标搜索文本，获取针对目标对象的q个历史资源，其中，目标对象为输入目标搜索文本的对象，q个历史资源为目标对象在历史时段内触达过的资源，每个历史资源具有已标注的至少一个语种标签，q为大于或等于1的整数；

76、生成模块，用于根据每个历史资源所对应的至少一个语种标签，生成对象语种特征分布，其中，对象语种特征分布表示q个历史资源属于m个语种标签的分布情况，m为大于1的整数；

77、生成模块，还用于根据目标搜索文本生成字符特征分布，其中，字符特征分布表示目标搜索文本针对各个预设字符的分布情况；

78、识别模块，用于根据对象语种特征分布以及字符特征分布，确定语种识别结果。

79、在一种可能的设计中，在本技术实施例的另一方面的第一种实现方式中，

80、获取模块，还用于根据目标搜索文本获取k个关联资源，其中，每个关联资源具有已标注的至少一个语种标签，k为大于或等于1的整数；

81、生成模块，还用于根据每个关联资源所对应的至少一个语种标签，生成资源语种特征分布，其中，资源语种特征分布表示k个关联资源属于m个语种标签的分布情况；

82、识别模块，具体用于基于资源语种特征分布、字符特征分布以及对象语种特征分布，通过语种识别模型确定语种识别结果。

83、本技术另一方面提供一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述各方面的方法。

84、本技术的另一方面提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各方面的方法。

85、本技术的另一个方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方面的方法。

86、从以上技术方案可以看出，本技术实施例具有以下优点：

87、本技术实施例中，提供了一种基于文本的语种识别方法，获取目标搜索文本，然后根据目标搜索文本获取k个关联资源，再根据每个关联资源所对应的至少一个语种标签，生成资源语种特征分布，基于此，可根据目标搜索文本生成字符特征分布，最后，根据资源语种特征分布以及字符特征分布，确定语种识别结果。通过上述方式，利用目标搜索文本，从资源平台中获取与目标搜索文本相关的k个关联资源，这些关联资源具有一个或多个语种标签。因此，基于这些关联资源的语种标签，并结合目标搜索文本，能够为资源搜索提供更加可靠的语种线索，从而有利于提升语种识别的准确性。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈小帅
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：加热反应液辅助CVD合成连续碳纳米管聚集体的装置的制作方法
上一篇：一种上料系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。