文本分词方法、装置、计算机设备及计算机可读存储介质与流程

文档序号:30306457发布日期:2022-06-05 06:15阅读:70来源:国知局
文本分词方法、装置、计算机设备及计算机可读存储介质与流程

1.本技术涉及人工智能技术领域,具体涉及一种文本分词方法、装置、计算机设备及计算机可读存储介质。


背景技术:

2.中文分词是自然语言处理中的一项基础技术,其对于理解句子有着重要的作用。中文句子不像英文句子中间有空格,而且中文本身语言表达比较丰富,比如,中文存在大量一词多义的词汇,需要结合上下文才能理解词汇本身的含义,这对中文分词带来了挑战。
3.目前,中文分词模型在训练过程中,中文分词模型所采用的训练数据集存在一些问题,例如,训练数据集来源的领域较为单一,比如,训练数据集均来源于新闻领域,这样会导致中文分词模型存在无法准确对非新闻领域的训练数据进行分词的问题;例如,训练数据集中的训练数据数量较少,这样会导致对中文分词模型会存在准确性不高的问题;又例如,不同的训练数据集之间的分词标准不相同,比如,对于中文名字的分词,有些训练数据集的分词标准是将姓氏和名字分别作为分词单位进行分词,有些训练数据集的分词标准是姓氏和名字作为整体进行分词,也即由于分词标准不统一,也会存在中文分词模型分词不准确的问题。
4.综上,现有的中文分词模型存在分词不准确的问题。


技术实现要素:

5.本技术实施例提供一种文本分词方法、装置、计算机设备及计算机可读存储介质,能够提高分词的准确性。
6.一种文本分词方法,包括:
7.获取待分词文本;
8.根据待分词文本,确定待分词文本的标注信息;
9.根据标注信息,从针对待分词文本的至少一个分词标准类型中提取标注信息对应的目标分词标准类型;
10.根据目标分词标准类型,对待分词文本进行分词。
11.相应地,本技术实施例提供一种文本分词装置,包括:
12.获取单元,可以用于获取待分词文本;
13.确定单元,可以用于根据待分词文本,确定待分词文本的标注信息;
14.提取单元,可以用于根据标注信息,从针对待分词文本的至少一个分词标准类型中提取标注信息对应的目标分词标准类型;
15.分词单元,可以用于根据目标分词标准类型,对待分词文本进行分词。
16.在一些实施例中,分词单元,具体可以用于根据目标分词标准类型,采用文本分词模型对待分词文本进行特征提取和分词处理,其中,分词处理根据文本分词模型对待分词文本特征提取得到的特征信息进行。
17.在一些实施例中,文本分词装置还包括训练单元,训练单元具体可以用于获取候选文本数据样本集合,候选文本数据样本集合包括至少一个候选文本数据样本;根据候选文本数据样本,确定参考文本数据样本;对参考文本数据样本进行标记,得到每一分词标准类型对应的文本数据样本;获取每一分词标准类型的文本数据样本对应的标签分词信息;根据每一分词标准类型对应的文本数据样本,以及文本数据样本对应的标签分词信息,生成文本数据样本集合。
18.在一些实施例中,训练单元,具体可以用于获取候选文本数据样本集合,候选文本数据样本集合包括至少一个候选文本数据样本;根据候选文本数据样本,确定参考文本数据样本;对参考文本数据样本进行标记,得到每一分词标准类型对应的文本数据样本;获取每一分词标准类型的文本数据样本对应的标签分词信息;根据每一分词标准类型对应的文本数据样本,以及文本数据样本对应的标签分词信息,生成文本数据样本集合。
19.在一些实施例中,训练单元,具体可以用于对候选文本数据样本进行分词处理,得到候选文本数据样本对应的分词结果;根据分词结果,从至少一个候选文本数据样本中,筛选出参考文本数据样本。
20.在一些实施例中,训练单元,具体可以用于获取至少两个预设分词策略;根据预设分词策略,对候选文本数据样本进行分词处理,得到每一预设分词策略对应的分词结果。
21.在一些实施例中,训练单元,具体可以用于针对每一候选文本数据样本,获取候选文本数据样本的分词结果中不同的分词结果的数量;若不同的分词结果的数量大于或等于预设数量阈值,则将候选文本数据样本作为参考文本数据样本。
22.在一些实施例中,训练单元,具体可以用于获取分词标准类型对应的参考分词信息;根据参考分词信息和文本数据样本,计算得到分词特征信息;根据分词特征信息,采用待训练文本分词模型预测文本数据样本的预测分词信息。
23.在一些实施例中,训练单元,具体可以用于获取分词标准类型对应的待筛选文本集合,待筛选文本集合包括至少一个待筛选文本;采用训练后文本分类模型对至少一个待筛选文本进行筛选,得到参考文本;对参考文本进行特征提取,得到分词标准类型对应的参考分词信息。
24.在一些实施例中,训练单元,具体可以用于获取参考文本数据样本和待处理文本数据样本集合,待处理数据文本样本集合中包括至少一个待处理文本数据样本;根据参考文本数据样本,确定至少一个待处理文本数据样本中的正文本数据样本和负文本数据样本;根据正文本数据样本和负文本数据样本,对待训练文本分类模型进行收敛,得到训练后文本分类模型。
25.在一些实施例中,训练单元,具体可以用于对参考分词信息进行特征提取,得到参考分词信息对应的参考文本特征信息;对文本数据样本进行特征提取,得到文本数据样本对应的文本特征信息;将参考文本特征信息和文本特征信息进行融合,得到分词特征信息。
26.在一些实施例中,确定单元,具体可以用于获取至少两个当前分词策略;根据当前分词策略,对待分词文本进行分词处理,得到每一当前分词策略对应的当前分词结果;从当前分词结果中提取相同的当前分词结果的数量,并根据相同的当前分词结果的数量确定待分词文本的标注信息。
27.在一些实施例中,确定单元,具体可以用于获取映射关系集合,映射关系集合包括
预设标注信息和针对待分词文本的分词标准类型之间的映射关系;根据映射关系集合和标注信息,从映射关系集合的至少一个分词标准类型中确定标注信息对应的目标分词标准类型。
28.此外,本技术实施例还提供一种计算机设备,包括存储器和处理器;存储器存储有计算机程序,处理器用于运行存储器内的计算机程序,以执行本技术实施例提供的任一种文本分词方法。
29.此外,本技术实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序适于处理器进行加载,以执行本技术实施例提供的任一种文本分词方法。
30.本技术实施例可以获取待分词文本;根据待分词文本,确定待分词文本的标注信息;根据标注信息,从针对待分词文本的至少一个分词标准类型中提取标注信息对应的目标分词标准类型;根据目标分词标准类型,对待分词文本进行分词;由于本技术实施例能够根据待分词文本的标注信息,从待分词文本的分词标准类型中筛选出目标分词标准类型,如此可以根据目分词标准类型,准确地对待分词文本进行分词,从而提高分词的准确性。
附图说明
31.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
32.图1是本技术实施例提供的文本分词方法的场景示意图;
33.图2是本技术实施例提供的文本分词方法的流程示意一图;
34.图3是本技术实施例提供的对待训练文本分词模型进行训练的流程示意图;
35.图4是本技术实施例提供的根据候选文本数据样本,确定参考文本数据样本的流程示意图;
36.图5是本技术实施例提供的针对每一分词标准类型,采用待训练文本分词模型预测文本数据样本的预测分词信息的流程示意图;
37.图6是本技术实施例提供的文本分词方法的流程示意二图;
38.图7是本技术实施例提供的文本分词方法的流程示意三图;
39.图8是本技术实施例提供的对待训练文本分词模型的进行训练的流程示意二图;
40.图9是本技术实施例提供的损失变化图;
41.图10是本技术实施例提供的分词装置的结构示意图;
42.图11是本技术实施例提供的计算机设备的结构示意图。
具体实施方式
43.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
44.本技术实施例提供一种文本分词方法、装置、计算机设备和计算机可读存储介质。其中,该分词装置可以集成在计算机设备中,该计算机设备可以是服务器,也可以是终端等设备。
45.其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能语音交互设备、智能家电、车载终端、飞行器等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本技术在此不做限制。本技术实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。
46.其中,本技术实施例可以涉及人工智能(artificial intelligence,ai),人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
47.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
48.例如,参见图1,以文本分词装置集成在计算机设备中为例,计算机设备可以获取待分词文本;根据待分词文本,确定待分词文本的标注信息;根据标注信息,从针对待分词文本的至少一个分词标准类型中提取标注信息对应的目标分词标准类型;根据目标分词标准类型,对待分词文本进行分词。
49.其中,待分词文本可以是不限领域的任意的文本,可以是特定领域的文本,例如,待分词文本可以是新闻领域的待分词文本、可以是电影领域的待分词文本、可以是医学领域的待分词文本等。
50.其中,标注信息可以理解为是待分词文本针对分词标准类型的标记信息。
51.其中,分词标准类型可以是指对文本进行分词处理的分词标准的类型,分词标准类型可以包括国家分词标准类型、北大分词标准类型、用户自定义的分词标准类型。分词标准可以包括国家分词标准、北大分词标准、用户自定义的分词标准。国家分词标准是国家分词标准类型对应的分词标准,国家分词标准可以是指汉语信息处理词汇的标准。北大分词标准是北大分词标准类型对应的分词标准,北大分词标准可以是指北京大学现代汉语语料库基本加工规范的标准。用户自定义的分词标准是用户自定义的分词标准类型对应的分词标准。
52.当然,本技术实施例的分词标准类型不限于国家分词标准类型、北大分词标准类型和用户自定义的分词标准类型。
53.以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优
选顺序的限定。
54.本实施例将从分词装置的角度进行描述,该分词装置具体可以集成在计算机设备中,该计算机设备可以是服务器,也可以是终端等设备;其中,该终端可以包括平板电脑、笔记本电脑、以及个人计算机(pc,personal computer)、可穿戴设备、虚拟现实设备或其他可以获取数据的智能设备等设备。
55.如图2所示,该文本分词方法的具体流程如下:
56.s101、获取待分词文本。
57.其中,待分词文本可以是不限领域的任意的文本,可以是特定领域的文本,例如,待分词文本可以是新闻领域的待分词文本、可以是电影领域的待分词文本、可以是医学领域的待分词文本等。
58.其中,本技术实施例的待分词文本可以是从计算机设备的数据库中提取得到的,也可以是线上实时获取到的。
59.s102、根据待分词文本,确定待分词文本的标注信息。
60.其中,标注信息可以理解为是待分词文本针对分词标准类型的标记信息。本技术实施例的标注信息可以以标识符表示,例如,标注信息可以是1,可以是0,可以是a等。
61.本技术实施例根据待分词文本,确定待分词文本的标注信息的方式有多种,详见下述:
62.例如,计算机设备显示标注信息选择页面,标注信息选择页面包括至少一个候选标注信息;计算机设备响应于针对候选标注信息的选择操作,从至少一个候选标注信息中选择标注信息;将该标注信息作为待分词文本的标注信息。
63.也即,标注信息可以是用户选择的标注信息,如此,本技术实施例可以根据用户的需要选择对应的标注信息,从而可以基于标注信息对应的目标分词标准类型准确地对待分词文本进行分词处理。
64.除上述之外,为提高对待分词文本分词的准确性,本技术实施例根据待分词文本,确定待分词文本的标注信息的方式,具体可以如下:
65.例如,计算机设备可以获取至少两个当前分词策略;根据当前分词策略,对待分词文本进行分词处理,得到每一当前分词策略对应的当前分词结果;从当前分词结果中提取相同的当前分词结果的数量,并根据相同的当前分词结果的数量确定待分词文本的标注信息。
66.其中,当前分词策略可以是指对待分词文本进行分词处理的策略,策略可以是算法,也可以是分词工具等。当前分词策略可以至少包括jieba(即,结巴)分词策略、stanford core nlp(即,斯坦福核心nlp)分词策略、thulac(即thu lexical analyzer for chinese,汉语语法分析器)分词策略、pkuseg分词策略、ltp-4.0(即language technology platform-4.0,语言技术平台-4.0)分词策略、texsmart分词策略、hanlp分词策略。
67.其中,计算机设备按照每一种当前分词策略对待分词文本进行分词处理,得到每一当前分词策略对应的当前分词结果。
68.其中,本技术实施例根据相同的当前分词结果的数量确定待分词文本的标注信息的方式可以为:计算机设备根据相同的当前分词结果的数量,确定待分词文本的难度级别;根据难度级别,从若干候选标注信息中提取与难度级别对应的标注信息。
69.其中,难度级别可以与标注信息一一对应。例如,难度级别包括第一难度级别和第二难度级别,标注信息包括a和b,第一难度级别对应标注信息a,第二难度级别对应标注信息b。
70.s103、根据标注信息,从针对待分词文本的至少一个分词标准类型中提取标注信息对应的目标分词标准类型。
71.其中,分词标准类型可以是指对文本进行分词处理的分词标准的类型,分词标准类型可以包括国家分词标准类型、北大分词标准类型、用户自定义的分词标准类型。
72.本技术实施例根据标注信息,从针对待分词文本的至少一个分词标准类型中提取标注信息对应的目标分词标准类型的方式可以如下:
73.例如,计算机设备获取映射关系集合,映射关系集合包括预设标注信息和针对待分词文本的分词标准类型之间的映射关系;根据映射关系集合和标注信息,从映射关系集合的至少一个分词标准类型中确定标注信息对应的目标分词标准类型。
74.比如,分词标准类型包括第一分词标准类型和第二分词标准类型,标注信息包括“4”和“5”,第一分词标准类型对应标注信息“4”,第二分词标准信息对应标注信息“5”。其中,第一分词标准类型可以是国家分词标准类型,第二分词标准类型可以是北大分词标准类型。
75.如此,本技术实施例可以根据待分词文本的目标分词标准类型,准确地对待分词文本进行分词处理。
76.s104、根据目标分词标准类型,对待分词文本进行分词。
77.本技术实施例可以根据目标分词标准类型,采用目标分词标准类型对应的分词标准或分词工具对待分词文本进行分词处理。
78.除上述之外,本技术实施例还可以采用文本分词模型对待分词文本进行分词处理,可以如下:
79.例如,计算机设备可以根据目标分词标准类型,采用文本分词模型对待分词文本进行特征提取和分词处理,其中,分词处理根据文本分词模型对待分词文本特征提取得到的特征信息进行。
80.其中,文本分词模块可以为bert模型、可以为lebert模型等。
81.其中,本技术实施例的文本分词模型可以基于目标分词标准类型对应的分词标准对待分词文本进行特征提取和分词处理。
82.其中,本技术实施例的文本分词模型可以按照目标分词标准类型,对待分词文本进行特征提取,从而得到目标分词标准类型对应的特征信息;根据特征信息,采用文本分词模型对待分词文本进行分词处理,得到目标分词标准类型对应的分词结果。
83.比如,目标分词标准类型为国家分词标准类型,文本分词模型按照国家分词标准类型对应的国家分词标准,对待分词文本进行特征提取,得到国家分词标准对应的特征信息;据特征信息,采用文本分词模型对待分词文本进行分词处理,得到国家分词标准对应的分词结果。
84.本技术实施例在根据目标分词标准类型,采用文本分词模型对待分词文本进行特征提取之前,还可以对待训练文本分词模型进行训练。如图3所示,本技术实施例对待训练文本分词模型进行训练的过程可以如下:
85.a1、获取文本数据样本集合。
86.其中,文本数据样本集合包括每一分词标准类型对应的文本数据样本,以及每一文本数据样本对应的标签分词信息。
87.其中,分词标准类型可以包括多种分词标准类型,分词标准类型可以包括国家分词标准类型、北大分词标准类型、用户自定义的分词标准类型。
88.其中,标签分词信息可以理解为文本数据样本对应的标签。
89.其中,文本数据样本可以包括多种领域的文本数据样本,例如,文本数据样本包括新闻领域的待分词文本、电影领域的待分词文本、医学领域的待分词文本。
90.本技术实施例获取文本数据样本集合的方式可以如下:
91.例如,计算机设备可以获取候选文本数据样本集合,候选文本数据样本集合包括至少一个候选文本数据样本;根据候选文本数据样本,确定参考文本数据样本;对参考文本数据样本进行标记,得到每一分词标准类型对应的文本数据样本;获取每一分词标准类型的文本数据样本对应的标签分词信息;根据每一分词标准类型对应的文本数据样本,以及文本数据样本对应的标签分词信息,生成文本数据样本集合。
92.其中,由于本技术实施例候选文本数据样本集合中的候选文本数据样本包括多种领域候选文本数据样本,比如,候选文本数据样本包括新闻领域的候选文本数据样本、电影领域的候选文本数据样本、医学领域的候选文本数据样本,且候选文本数据样本集合中的候选文本数据样本包括不易分词的候选文本数据样本和容易分词的候选文本数据样本,基于此,本技术实施例需要从候选文本数据样本中确定出参考文本数据样本。其中,参考文本数据样本可以是不易分词的候选文本数据样本。
93.不易分词的候选文本数据样本可以是指分词容易出错的候选文本数据样本。容易分词的候选文本数据样本可以是指分词不易出错的候选文本数据样本。
94.基于上述,如图4所示,本技术实施例根据候选文本数据样本,确定参考文本数据样本的方式可以如下:
95.b1、对候选文本数据样本进行分词处理,得到候选文本数据样本对应的分词结果。
96.其中,本技术实施例可以对候选文本数据样本进行分词处理,如此可以根据得到的分词结果来判断候选文本数据样本为不易分词的候选文本数据样本,还是为容易分词的候选文本数据样本。
97.基于上述,本技术实施例对候选文本数据样本进行分词处理,得到候选文本数据样本对应的分词结果的方式可以如下:
98.例如,计算机设备可以获取至少两个预设分词策略;根据预设分词策略,对候选文本数据样本进行分词处理,得到每一预设分词策略对应的分词结果。
99.其中,预设分词策略可以是指对候选文本数据样本进行分词处理的策略,策略可以是算法,也可以是分词工具等。预设分词策略可以至少包括jieba(即,结巴)分词策略、stanford core nlp(即,斯坦福核心nlp)分词策略、thulac(即thu lexical analyzer for chinese,汉语语法分析器)分词策略、pkuseg分词策略、ltp-4.0(即language technology platform-4.0,语言技术平台-4.0)分词策略、texsmart分词策略、hanlp分词策略。
100.b2、根据分词结果,从至少一个候选文本数据样本中,筛选出参考文本数据样本。
101.其中,本技术实施的候选文本数据样本的分词结果有多个,基于此,本技术实施例
根据分词结果,从至少一个候选文本数据样本中,筛选出参考文本数据样本的方式可以如下:
102.例如,计算机设备可以针对每一候选文本数据样本,获取候选文本数据样本的分词结果中不同的分词结果的数量;若不同的分词结果的数量大于或等于第一预设数量阈值,则将候选文本数据样本作为参考文本数据样本。
103.其中,第一预设数量阈值可以设置为2,但不限于2。
104.又例如,计算机设备可以针对每一候选文本数据样本,若候选文本数据样本的分词结果中存在相同的分词结果,则获取相同的分词结果的数量;若相同的分词结果的数量小于第二预设数量阈值,则将候选文本数据样本作为参考文本数据样本。
105.其中,第二预设数量阈值可以设置为4,但不限于4。
106.其中,可以理解的是,参考文本数据样本为不易分词的候选文本数据样本,候选文本数据样本集合中除了参考文本数据样本之外的候选文本数据样本为容易分词的候选文本数据样本。
107.除了上述,本技术实施例根据候选文本数据样本,确定参考文本数据样本的方式还可以如下:
108.例如,计算机设备可以获取至少两个预设词向量,不同预设词向量之间存在相似;将候选文本数据样本映射到向量空间,得到候选文本数据样本对应的目标向量;根据预设词向量,遍历目标向量;若目标词向量中存在与至少两个预设词向量中每一预设词向量相同的目标部分,则获取目标部分的数量;若目标部分的数量大于第三预设数量阈值,则将该候选文本数据样本作为参考文本数据样本。
109.其中,预设词向量之间存在相似可以将通过比较两个预设词向量之间的目标相似度确定;若目标相似度大于或等于预设目标相似度阈值,则确定两个预设词向量存在相似。
110.其中,候选文本数据样本可以为长度2-5的字符串。第三预设数量阈值可以设置为4,但不限于4。
111.例如,计算机设备可以对候选文本数据样本进行分词处理,得到候选分词结果;将候选分词结果映射到向量空间,得到候选分词结果对应的分词向量;获取预设候选词向量,并将预设候选词向量与分词向量进行比较;若与预设候选词向量相同的分词向量的数量小于第四预设数量阈值,则将候选文本数据样本作为参考文本数据样本。
112.其中,第四预设数量阈值可以设置为3,但不限于3。
113.又例如,计算机设备可以对候选文本数据样本进行分词处理,得到目标分词结果;对候选文本数据样本进行命名实体识别,得到命名实体识别结果;根据命名实体识别结果,遍历目标分词结果;若命名实体识别结果存在与目标分词结果不同,则将候选文本数据样本作为参考文本数据样本。
114.a2、针对每一分词标准类型,采用待训练文本分词模型预测文本数据样本的预测分词信息。
115.如图5所示,本技术实施例针对每一分词标准类型,采用待训练文本分词模型预测文本数据样本的预测分词信息的方式可以如下:
116.c1、获取分词标准类型对应的参考分词信息。
117.本技术实施例获取分词标准类型对应的参考分词信息的方式可以如下:
118.例如,计算机设备可以获取分词标准类型对应的待筛选文本集合,待筛选文本集合包括至少一个待筛选文本;采用训练后文本分类模型对至少一个待筛选文本进行筛选,得到参考文本;对参考文本进行特征提取,得到分词标准类型对应的参考分词信息。
119.其中,本技术实施例的待筛选文本可以包括短语,短语中可以包括词条。由于短语中可能存在错误或者短语可能不完整,基于此,本技术实施例需要对待筛选文本集合中的待筛选文本进行筛选。
120.其中,本技术实施例可以采用神经网络的embedding层对参考文本映射到向量空间,得到参考分词信息。
121.其中,本技术实施例在采用训练后文本分类模型对至少一个待筛选文本进行筛选,得到参考文本之前,可以对待训练文本分类模型进行训练,以得到训练后文本分类模型。本技术实施例对待训练文本分类模型进行训练的方式可以如下:
122.例如,计算机设备可以获取参考文本数据样本和待处理文本数据样本集合,待处理数据文本样本集合中包括至少一个待处理文本数据样本;根据参考文本数据样本,确定至少一个待处理文本数据样本中的正文本数据样本和负文本数据样本;根据正文本数据样本和负文本数据样本,对待训练文本分类模型进行收敛,得到训练后文本分类模型。
123.其中,参考文本数据样本可以是具有错误或者不完整的词条,这是需要被过滤的词条。参考文本数据样本可以携带记号,基于此,本技术实施可以根据参考文本数据样本的记号识别到参考文本数据样本。
124.其中,本技术实施例的参考文本数据样本,确定至少一个待处理文本数据样本中的正文本数据样本和负文本数据样本的方式可以为:计算机设备可以将参考文本数据样本映射到向量空间,得到参考文本特征;将待处理文本数据样本映射到向量空间,得到待处理文本特征;计算参考文本特征和待处理文本特征之间的第一相似度;若第一相似度大于或等于第一预设相似度阈值,则将待处理文本特征对应的待处理文本数据确定为正文本数据样本;若第一相似度小于第一预设相似度阈值,则将待处理文本特征对应的待处理文本数据确定为负文本数据样本。
125.其中,本技术实施例根据正文本数据样本和负文本数据样本,对待训练文本分类模型进行收敛,得到训练后文本分类模型的方式可以为:采用训练后文本分类模型对正文本数据样本进行分类预测,得到正文本数据样本对应的第一预测分类信息;采用训练后文本分类模型对负文本数据样本进行分类预测,得到负文本数据样本对应的第二预测分类信息。
126.本技术实施例可以获取正文本数据样本的标签和负文本数据样本的标签;计算第一预测分类信息和正文本数据样本之间的第一损失值;计算第二预测分类信息和负文本数据样本之间的第二损失值;根据第一损失值和第二损失值对待训练文本分类模型进行收敛,得到训练后文本分类模型。
127.c2、根据参考分词信息和文本数据样本,计算得到分词特征信息。
128.本技术实施例根据参考分词信息和文本数据样本,计算得到分词特征信息的方式可以如下:
129.例如,计算机设备可以对参考分词信息进行特征提取,得到参考分词信息对应的参考文本特征信息;对文本数据样本进行特征提取,得到文本数据样本对应的文本特征信
息;将参考文本特征信息和文本特征信息进行融合,得到分词特征信息。
130.其中,本技术实施例可以采用embedding层对参考分词信息进行特征提取,得到参考分词信息对应的参考文本特征信息;采用embedding层对文本数据样本进行特征提取,得到文本数据样本对应的文本特征信息。
131.其中,本技术实施例的每一文本数据样本可以对应有至少一个参考分词信息,也即每一文本特征信息可以对应有至少一个参考文本特征信息,基于此,本技术实施例可以计算文本特征信息和该文本特征信息对应的参考文本特征信息之间的第二相似度;根据第二相似度确定文本特征信息对应的每一参考文本特征信息的权重值;根据每一参考文本特征信息的权重值,将参考文本特征信息进行加权求和,得到加权后参考文本特征信息;将加权后参考文本特征信息和对应的文本特征信息融合,得到分词特征信息。
132.其中,本技术实施例将加权后参考文本特征信息和对应的文本特征信息融合的方式可以是相加。
133.c3、根据分词特征信息,采用待训练文本分词模型预测文本数据样本的预测分词信息。
134.其中,待训练文本分词模型可以是bert模型、可以为lebert模型等。
135.a3、根据预测分词信息和标签分词信息对待训练文本分词模型进行收敛,得到文本分词模型。
136.本技术实施例可以计算预测分词信息和标签分词信息之间的第三损失值;根据第三损失值对待训练文本分词模型进行收敛,得到文本分词模型。
137.本技术实施例可以获取待分词文本;根据待分词文本,确定待分词文本的标注信息;根据标注信息,从针对待分词文本的至少一个分词标准类型中提取标注信息对应的目标分词标准类型;根据目标分词标准类型,对待分词文本进行分词;由于本技术实施例能够根据待分词文本的标注信息,从待分词文本的分词标准类型中筛选出目标分词标准类型,如此可以根据目分词标准类型,准确地对待分词文本进行分词,从而提高分词的准确性。
138.根据上面实施例所描述的方法,以下将举例作进一步详细说明。
139.在本实施例中,将以该分词装置具体集成在计算机设备,计算机设备可以为服务器,也可以为终端。
140.如图6所示,一种文本分词方法,具体流程如下:
141.s201、计算机设备获取文本数据样本集合。
142.其中,文本数据样本集合包括每一分词标准类型对应的文本数据样本,以及每一文本数据样本对应的标签分词信息。
143.其中,分词标准类型可以包括多种分词标准类型,分词标准类型可以包括国家分词标准类型、北大分词标准类型、用户自定义的分词标准类型。
144.在国家分词标准类型对应的国家分词标准中,介绍了名词、动词、形容词、代词、数词、量词、副词、介词、连词、助词、语气词、叹词、象声词等词类的分词方法,北大分词标准类型对应的北大分词标准在国家分词标准的基础上,对国家分词标准的分词方法进行补充和调整。
145.由于本技术实施例在分词处理过程中,采用的待分词文本是比较难分词的文本,基于此,本技术实施例可以自定义两种分词标准类型,自定义的这两种分词标准类型包括
core nlp(即,斯坦福核心nlp)分词策略、thulac(即thu lexical analyzer for chinese,汉语语法分析器)分词策略、pkuseg分词策略、ltp-4.0(即language technology platform-4.0,语言技术平台-4.0)分词策略、texsmart分词策略、hanlp分词策略。
159.本技术实施的候选文本数据样本的分词结果有多个,基于此,本技术实施例根据分词结果,从至少一个候选文本数据样本中,筛选出参考文本数据样本的方式可以如下:
160.比如,计算机设备可以针对每一候选文本数据样本,获取候选文本数据样本的分词结果中不同的分词结果的数量;若不同的分词结果的数量大于或等于第一预设数量阈值,则将候选文本数据样本作为参考文本数据样本。
161.其中,第一预设数量阈值可以设置为2,但不限于2。
162.进一步地,本技术实施例若不同的分词结果的数量大于或等于第一预设数量阈值,则将候选文本数据样本作为参考文本数据样本的过程还可以为:若不同的分词结果的数量大于或等于第一预设数量阈值,计算机设备则计算候选文本数据样本的分词结果中不同的分词结果之间的第三相似度;若第三相似度大于第二预设相似度阈值,则确定候选文本数据样本为参考文本数据样本。
163.也即,本技术实施例中候选文本数据样本对应的不同分词结果存在相交的关系,也即候选文本数据样本对应的不同分词结果之间存在相同的部分和不同的部分。
164.可以理解的是,参考文本数据样本为不易分词的候选文本数据样本,候选文本数据样本集合中除了参考文本数据样本之外的候选文本数据样本为容易分词的候选文本数据样本。
165.其中,如图7所示,本技术实施例的分类阶段,可以理解为是本技术实施例对参考文本数据样本进行标记,得到每一分词标准类型对应的文本数据样本。
166.本技术实施例对参考文本数据样本进行标记,得到每一分词标准类型对应的文本数据样本的过程可以为:计算机设备可以获取每一分词标准类型对应的分词标记;根据分词标记,对参考文本数据样本进行标记,得到每一分词标准类型对应的文本数据样本。
167.比如,分词标准类型包括粗粒度分词标准和细粒度分词标准,粗粒度分词标准对应的分词标记可以为0,细粒度分词标准对应的分词标记可以为1。基于此,本技术实施例将参考文本数据标记为0,得到粗粒度分词标准对应的文本数据样本;将参考文本数据标记为1,得到细粒度分词标准对应的文本数据样本。
168.其中,候选文本数据样本对应的标签分词信息可以是人工按照每一种分词标准类型进行标注,并存储在数据库中的分词信息。本技术实施例可以按照每一分词标准类型对应的分词标记,提取到每一分词标准类型的文本数据样本对应的标签分词信息。
169.s202、针对每一分词标准类型,计算机设备采用待训练文本分词模型预测文本数据样本的预测分词信息。
170.如图7所示,本技术实施例包括对待训练文本分词模型的训练阶段。
171.如图5所示,本技术实施例针对每一分词标准类型,采用待训练文本分词模型预测文本数据样本的预测分词信息的方式可以如下:
172.c1、获取分词标准类型对应的参考分词信息;
173.本技术实施例获取分词标准类型对应的参考分词信息的方式可以如下:
174.例如,计算机设备可以获取分词标准类型对应的待筛选文本集合,待筛选文本集
合包括至少一个待筛选文本;采用训练后文本分类模型对至少一个待筛选文本进行筛选,得到参考文本;对参考文本进行特征提取,得到分词标准类型对应的参考分词信息。
175.其中,本技术实施例的待筛选文本可以包括短语,短语中可以包括词条。由于短语中可能存在错误或者短语可能不完整,基于此,本技术实施例需要对待筛选文本集合中的待筛选文本进行筛选,筛选出的参考文本可以为完整且不存在错误的文本。
176.其中,本技术实施例可以采用神经网络的embedding层对参考文本映射到向量空间,得到参考分词信息。
177.其中,本技术实施例在采用训练后文本分类模型对至少一个待筛选文本进行筛选,得到参考文本之前,可以对待训练文本分类模型进行训练,以得到训练后文本分类模型。本技术实施例对待训练文本分类模型进行训练的方式可以如下:
178.例如,计算机设备可以获取参考文本数据样本和待处理文本数据样本集合,待处理数据文本样本集合中包括至少一个待处理文本数据样本;根据参考文本数据样本,确定至少一个待处理文本数据样本中的正文本数据样本和负文本数据样本;根据正文本数据样本和负文本数据样本,对待训练文本分类模型进行收敛,得到训练后文本分类模型。
179.其中,参考文本数据样本可以是具有错误或者不完整的词条,这是需要被过滤的词条。参考文本数据样本可以携带记号,基于此,本技术实施可以根据参考文本数据样本的记号识别到参考文本数据样本。
180.其中,本技术实施例的参考文本数据样本,确定至少一个待处理文本数据样本中的正文本数据样本和负文本数据样本的方式可以为:计算机设备可以将参考文本数据样本映射到向量空间,得到参考文本特征;将待处理文本数据样本映射到向量空间,得到待处理文本特征;计算参考文本特征和待处理文本特征之间的第一相似度;若第一相似度大于或等于第一预设相似度阈值,则将待处理文本特征对应的待处理文本数据确定为正文本数据样本;若第一相似度小于第一预设相似度阈值,则将待处理文本特征对应的待处理文本数据确定为负文本数据样本。
181.其中,本技术实施例根据正文本数据样本和负文本数据样本,对待训练文本分类模型进行收敛,得到训练后文本分类模型的方式可以为:采用训练后文本分类模型对正文本数据样本进行分类预测,得到正文本数据样本对应的第一预测分类信息;采用训练后文本分类模型对负文本数据样本进行分类预测,得到负文本数据样本对应的第二预测分类信息。
182.本技术实施例可以获取正文本数据样本的标签和负文本数据样本的标签;计算第一预测分类信息和正文本数据样本之间的第一损失值;计算第二预测分类信息和负文本数据样本之间的第二损失值;根据第一损失值和第二损失值对待训练文本分类模型进行收敛,得到训练后文本分类模型。
183.其中,待训练文本分类模型可以为bert模型。
184.待训练文本分类模型多次迭代得到的文本分类模型对筛选出的参考文本的准确度达到了95%。这份参考文本的数据数量更大、同时也更加干净,因为尽可能多地过滤掉了错误的词条和不完整的词条。
185.c2、根据参考分词信息和文本数据样本,计算得到分词特征信息。
186.本技术实施例根据参考分词信息和文本数据样本,计算得到分词特征信息的方式
可以如下:
187.例如,计算机设备可以对参考分词信息进行特征提取,得到参考分词信息对应的参考文本特征信息;对文本数据样本进行特征提取,得到文本数据样本对应的文本特征信息;将参考文本特征信息和文本特征信息进行融合,得到分词特征信息。
188.其中,本技术实施例可以采用embedding层对参考分词信息进行特征提取,得到参考分词信息对应的参考文本特征信息;采用embedding层对文本数据样本进行特征提取,得到文本数据样本对应的文本特征信息。
189.其中,本技术实施例的每一文本数据样本可以对应有至少一个参考分词信息,也即每一文本特征信息可以对应有至少一个参考文本特征信息,基于此,本技术实施例可以计算文本特征信息和该文本特征信息对应的参考文本特征信息之间的第二相似度;根据第二相似度确定文本特征信息对应的每一参考文本特征信息的权重值;根据每一参考文本特征信息的权重值,将参考文本特征信息进行加权求和,得到加权后参考文本特征信息;将加权后参考文本特征信息和对应的文本特征信息融合,得到分词特征信息。
190.其中,本技术实施例将加权后参考文本特征信息和对应的文本特征信息融合的方式可以是相加。
191.c3、根据分词特征信息,采用待训练文本分词模型预测文本数据样本的预测分词信息。
192.如图8所示,在训练过程中,本技术实施例中的待训练文本分词模型可以为lebert模型。本技术实施例可以将每一分词标准类型对应的文本数据样本以“[cls]+分词标记+[sep]+文本数据样本+[sep]”的形式输入到待训练文本分词模型中,[cls]是使待训练文本分词模型识别出分词标记的记号,[sep]是使待训练文本分词模型识别出文本数据样本的记号,文本数据样本可以为中文句子,本技术实施例可以将文本数据样本以向量的形式输入到待训练文本分词模型中。本技术实施例还可以将文本数据样本对应的标签分词信息输入到待训练文本分词模型中。
[0193]
本技术实施例中,待训练文本分词模型识别出分词标记,按照分词标记所对应的分词标准类型,可以基于分词标记的分词标准类型所对应的分词标准,采用transformer层对文本数据样本进行特征提取,得到文本数据样本对应的文本特征信息。
[0194]
基于上述,计算机设备获取参考分词信息,并对参考分词信息进行特征提取,得到参考分词信息对应的参考文本特征信息。
[0195]
在本技术实施例中,每一文本特征信息可以对应有多个参考文本特征信息,基于此,本技术实施例可以通过词典适配器将文本特征信息和参考文本特征信息进行融合,词典适配器和文本特征信息一一对应。
[0196]
本技术实施例通过词典适配器计算文本特征信息和该文本特征信息对应的参考文本特征信息之间的第二相似度;根据第二相似度确定文本特征信息对应的每一参考文本特征信息的权重值;根据每一参考文本特征信息的权重值,将参考文本特征信息进行加权求和,得到加权后参考文本特征信息;将加权后参考文本特征信息和对应的文本特征信息融合,得到分词特征信息。
[0197]
然后,本技术实施例将分词特征信息传输给transformer层进行特征提取,得到目标分词特征信息,再将目标分词特征信息传输给crf层进行预测,得到预测分词信息。
[0198]
s203、计算机设备根据预测分词信息和标签分词信息对待训练文本分词模型进行收敛,得到文本分词模型。
[0199]
其中,本技术实施例可以计算预测分词信息和标签分词信息之间的第三损失值;根据第三损失值对待训练文本分词模型进行收敛,得到文本分词模型。
[0200]
在本技术实施例中,由于采用了参考文本的参考分词信息,相比现有的相关技术,本技术实施例的待训练文本分词模型的收敛速度更快,能够用更少的时间达到预期的结果。
[0201]
本技术实施例采用了对参考文本进行特征提取到的参考分词信息对待训练文本分词模型进行训练,本技术实施例的待训练文本分词模型的收敛速度比现有的待训练文本分词模型的收敛速度更快,如图9所示,通过比较本技术实施例的待训练文本分词模型的损失曲线s1和现有的待训练文本分词模型在文本数据样本集合上的损失曲线s2,可以明显看到本技术实施例的待训练文本分词模型的收敛速度的更快。
[0202]
本技术实施例还采用测试集对本技术实施例的文本分词模型进行测试,得到本技术实施例的文本分词模型的f1值为97.5%。f1值是指精确值和召回率的调和均值。
[0203]
s204、计算机设备获取待分词文本。
[0204]
其中,本技术实施例的待分词文本可以是从计算机设备的数据库中提取得到的,也可以是线上实时获取到的。
[0205]
s205、计算机设备根据待分词文本,确定待分词文本的标注信息。
[0206]
其中,标注信息可以理解为是待分词文本针对分词标准类型的标记信息。本技术实施例的标注信息可以以标识符表示。
[0207]
本技术实施例根据待分词文本,确定待分词文本的标注信息的方式有多种,详见下述:
[0208]
例如,计算机设备可以获取至少两个当前分词策略;根据当前分词策略,对待分词文本进行分词处理,得到每一当前分词策略对应的当前分词结果;从当前分词结果中提取相同的当前分词结果的数量,并根据相同的当前分词结果的数量确定待分词文本的标注信息。
[0209]
其中,当前分词策略可以是指对待分词文本进行分词处理的策略,策略可以是算法,也可以是分词工具等。当前分词策略可以至少包括jieba(即,结巴)分词策略、stanford core nlp(即,斯坦福核心nlp)分词策略、thulac(即thu lexical analyzer for chinese,汉语语法分析器)分词策略、pkuseg分词策略、ltp-4.0(即language technology platform-4.0,语言技术平台-4.0)分词策略、texsmart分词策略、hanlp分词策略。
[0210]
其中,本技术实施例根据相同的当前分词结果的数量确定待分词文本的标注信息的方式可以为:计算机设备根据相同的当前分词结果的数量,确定待分词文本的难度级别;根据难度级别,从若干候选标注信息中提取与难度级别对应的标注信息。
[0211]
s206、计算机设备根据标注信息,从针对待分词文本的至少一个分词标准类型中提取标注信息对应的目标分词标准类型。
[0212]
本技术实施例根据标注信息,从针对待分词文本的至少一个分词标准类型中提取标注信息对应的目标分词标准类型的方式可以如下:
[0213]
例如,计算机设备获取映射关系集合,映射关系集合包括预设标注信息和针对待
分词文本的分词标准类型之间的映射关系;根据映射关系集合和标注信息,从映射关系集合的至少一个分词标准类型中确定标注信息对应的目标分词标准类型。
[0214]
如此,本技术实施例可以根据待分词文本的目标分词标准,准确地对待分词文本进行分词处理。
[0215]
s207、根据目标分词标准类型,采用文本分词模型对待分词文本进行分词。
[0216]
本技术实施例可以采用文本分词模型对待分词文本进行分词处理,可以如下:
[0217]
例如,计算机设备可以根据目标分词标准类型,采用文本分词模型对待分词文本进行特征提取,得到目标分词标准类型对应的特征信息;根据特征信息,采用文本分词模型对待分词文本进行分词处理。
[0218]
其中,文本分词模块可以为lebert模型。
[0219]
其中,本技术实施例的文本分词模型可以按照目标分词标准类型,对待分词文本进行特征提取,从而得到目标分词标准类型对应的特征信息;根据特征信息,采用文本分词模型对待分词文本进行分词处理,得到目标分词标准类型对应的分词结果。
[0220]
本技术实施例的分词标准类型可以有多种,本技术实施例可以以分词标准类型包括粗粒度分词标准类型和细粒度分词标准类型为例进行进一步阐述。
[0221]
本技术实施例可以获取待分词文本;根据待分词文本,获取待分词文本的粗粒度分词标准类型对应的标注信息;根据粗粒度分词标准类型对应的标注信息,从针对待分词文本的至少一个分词标准类型中提取粗粒度分词标准类型;根据粗粒度分词标准类型,对待分词文本进行分词处理,得到粗粒度分词结果。粗粒度分词结果可以作为新的待分词文本。本技术实施例可以对粗粒度分词结果进行标注,得到粗粒度分词结果的标注信息。本技术实施例中,粗粒度分词结果的标注信息可以为细粒度分词标准类型对应的标注信息。
[0222]
基于上述,本技术实施例可以根据粗粒度分词结果,获取粗粒度分词结果的细粒度分词标准类型对应的标注信息;根据细粒度分词标准类型对应的标注信息,从针对粗粒度分词结果的至少一个分词标准类型中提取细粒度分词标准类型;根据细粒度分词标准,对粗粒度分词结果进行分词处理,得到细粒度分词结果。
[0223]
也即,本技术可以预设规则,按照粗粒度分词标准类型对待分词文本进行分词处理,得到粗粒度分词结果,再按照细粒度分词标准类型对粗粒度分词结果进行分词处理,得到细粒度分词结果。
[0224]
基于上述,可以理解的是,本技术实施例所标注的文本数据样本集合的难度更大、覆盖领域更广、数量上也较多,并且能够提供每一分词标准类型对应的文本数据样本。并且,在待训练文本分词模型的训练过程中,本技术实施例能够同时采用不同分词标准类型的文本数据样本对待训练文本分词模型进行训练,更加便捷,且可以减小训练的次数。
[0225]
本技术实施例可以获取待分词文本;根据待分词文本,确定待分词文本的标注信息;根据标注信息,从针对待分词文本的至少一个分词标准类型中提取标注信息对应的目标分词标准类型;根据目标分词标准类型,对待分词文本进行分词;由于本技术实施例能够根据待分词文本的标注信息,从待分词文本的分词标准类型中筛选出目标分词标准类型,如此可以根据目分词标准类型,准确地对待分词文本进行分词,从而提高分词的准确性。
[0226]
为了更好地实施以上方法,本技术实施例还提供一种文本分词装置,该文本分词装置可以集成在计算机设备,比如服务器或终端等设备中,该终端可以包括平板电脑、笔记
本电脑和/或个人计算机等。
[0227]
例如,如图10所示,该分词装置可以包括获取单元301、确定单元302、提取单元303、分词单元304和训练单元305,如下:
[0228]
(1)获取单元301;
[0229]
获取单元301,可以用于获取待分词文本。
[0230]
(2)确定单元302;
[0231]
确定单元302,可以用于根据待分词文本,确定待分词文本的标注信息。
[0232]
在一些实施例中,确定单元302具体可以用于获取至少两个当前分词策略;根据当前分词策略,对待分词文本进行分词处理,得到每一当前分词策略对应的当前分词结果;从当前分词结果中提取相同的当前分词结果的数量,并根据相同的当前分词结果的数量确定待分词文本的标注信息。
[0233]
(3)提取单元303;
[0234]
提取单元303,可以用于根据标注信息,从针对待分词文本的至少一个分词标准类型中提取标注信息对应的目标分词标准类型。
[0235]
在一些实施例中,提取单元303,具体可以用于获取映射关系集合,映射关系集合包括预设标注信息和针对待分词文本的分词标准类型之间的映射关系;根据映射关系集合和标注信息,从映射关系集合的至少一个分词标准类型中确定标注信息对应的目标分词标准类型。
[0236]
(4)分词单元304;
[0237]
分词单元304,可以用于根据目标分词标准类型,对待分词文本进行分词。
[0238]
在一些实施例中,分词单元304,具体可以用于根据目标分词标准类型,采用文本分词模型对待分词文本进行特征提取和分词处理,其中,分词处理根据文本分词模型对待分词文本特征提取得到的特征信息进行。
[0239]
(5)训练单元305;
[0240]
训练单元305,可以用于获取文本数据样本集合,文本数据样本集合包括每一分词标准类型对应的文本数据样本,以及每一文本数据样本对应的标签分词信息;针对每一分词标准类型,采用待训练文本分词模型预测文本数据样本的预测分词信息;根据预测分词信息和标签分词信息对待训练文本分词模型进行收敛,得到文本分词模型。
[0241]
在一些实施例中,训练单元305,具体可以用于获取候选文本数据样本集合,候选文本数据样本集合包括至少一个候选文本数据样本;根据候选文本数据样本,确定参考文本数据样本;对参考文本数据样本进行标记,得到每一分词标准类型对应的文本数据样本;获取每一分词标准类型的文本数据样本对应的标签分词信息;根据每一分词标准类型对应的文本数据样本,以及文本数据样本对应的标签分词信息,生成文本数据样本集合。
[0242]
在一些实施例中,训练单元305,具体可以用于对候选文本数据样本进行分词处理,得到候选文本数据样本对应的分词结果;根据分词结果,从至少一个候选文本数据样本中,筛选出参考文本数据样本。
[0243]
在一些实施例中,训练单元305,具体可以用于获取至少两个预设分词策略;根据预设分词策略,对候选文本数据样本进行分词处理,得到每一预设分词策略对应的分词结果。
[0244]
在一些实施例中,训练单元305,具体可以用于针对每一候选文本数据样本,获取候选文本数据样本的分词结果中不同的分词结果的数量;若不同的分词结果的数量大于或等于预设数量阈值,则将候选文本数据样本作为参考文本数据样本。
[0245]
在一些实施例中,训练单元305,具体可以用于获取分词标准类型对应的参考分词信息;根据参考分词信息和文本数据样本,计算得到分词特征信息;根据分词特征信息,采用待训练文本分词模型预测文本数据样本的预测分词信息。
[0246]
在一些实施例中,训练单元305,具体可以用于获取分词标准类型对应的待筛选文本集合,待筛选文本集合包括至少一个待筛选文本;采用训练后文本分类模型对至少一个待筛选文本进行筛选,得到参考文本;对参考文本进行特征提取,得到分词标准类型对应的参考分词信息。
[0247]
在一些实施例中,训练单元305,具体可以用于获取参考文本数据样本和待处理文本数据样本集合,待处理数据文本样本集合中包括至少一个待处理文本数据样本;根据参考文本数据样本,确定至少一个待处理文本数据样本中的正文本数据样本和负文本数据样本;根据正文本数据样本和负文本数据样本,对待训练文本分类模型进行收敛,得到训练后文本分类模型。
[0248]
在一些实施例中,训练单元305,具体可以用于对参考分词信息进行特征提取,得到参考分词信息对应的参考文本特征信息;对文本数据样本进行特征提取,得到文本数据样本对应的文本特征信息;将参考文本特征信息和文本特征信息进行融合,得到分词特征信息。
[0249]
由上可知,本技术实施例的获取单元301可以用于获取待分词文本;确定单元302可以用于根据待分词文本,确定待分词文本的标注信息;提取单元303可以用于根据标注信息,从针对待分词文本的至少一个分词标准类型中提取标注信息对应的目标分词标准类型;分词单元304可以用于根据目标分词标准类型,对待分词文本进行分词;由于本技术实施例能够根据待分词文本的标注信息,从待分词文本的分词标准类型中筛选出目标分词标准类型,如此可以根据目分词标准类型,准确地对待分词文本进行分词,从而提高分词的准确性。
[0250]
本技术实施例还提供一种计算机设备,如图11所示,其示出了本技术实施例所涉及的计算机设备的结构示意图,具体来讲:
[0251]
该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图11中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
[0252]
处理器401是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行计算机设备的各种功能和处理数据。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和计算机程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
[0253]
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402
的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的计算机程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
[0254]
计算机设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
[0255]
该计算机设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息通讯,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
[0256]
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器401会按照如下的指令,将一个或一个以上的计算机程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的计算机程序,从而实现各种功能,如下:
[0257]
获取待分词文本;根据待分词文本,确定待分词文本的标注信息;根据标注信息,从针对待分词文本的至少一个分词标准类型中提取标注信息对应的目标分词标准类型;根据目标分词标准类型,对待分词文本进行分词。
[0258]
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
[0259]
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成,或通过计算机程序控制相关的硬件来完成,该计算机程序可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
[0260]
为此,本技术实施例提供一种计算机可读存储介质,其中存储有计算机程序,该计算机程序能够被处理器进行加载,以执行本技术实施例所提供的任一种文本分词方法。
[0261]
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
[0262]
其中,该计算机可读存储介质可以包括:只读存储器(rom,read only memory)、随机存取记忆体(ram,random access memory)、磁盘或光盘等。
[0263]
由于该计算机可读存储介质中所存储的指令,可以执行本技术实施例所提供的任一种文本分词方法中的步骤,因此,可以实现本技术实施例所提供的任一种文本分词方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
[0264]
其中,根据本技术的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例提供的各种可选实现方式中提供的方法。
[0265]
以上对本技术实施例所提供的一种文本分词方法、装置、计算机设备、计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的
技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本技术的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1