本发明属于计算机技术领域,尤其涉及一种基于词标签的词语标注方法、装置、服务器及存储介质。
背景技术:
在社交媒体发达的今天,从微博、facebook等网络新媒体中派生出来许多新生词语,这些新生词语越来越多地被运用在我们的实际生活中。在网络新媒体的新生词语诞生之初,人们难以及时地获得这些新生词语的标注,因为在字典或网络百科(如维基百科)中,这些新生词语的词条还没创立,而且人工创立每个新生词语的词条需要做大量繁琐的工作。
目前,对于词语标注的研究多集中于词性标注(partofspeechtagging,pos),即预设好几个类(如人物、地点、机构名称等),然后把目标词划分到其中一类或几类。词性标注的方法比较成熟,准确度也较高。然而,对于网络新媒体待标注词语而言,仅将它们划分到有限的类中,不足以理解它们的意思,特别是许多网络新媒体待标注词语都是与热门事件相关的。
词标签方法已广泛运用在如照片描述、文档描述等领域,但在词语标注中的研究还非常有限。现有用标签词标注词语的方法使用的是非监督算法,该算法基于微博数据,将每个已知词和目标词表示为一组向量,然后计算已知词和目标词的余弦相似度,将相似度高的设定为目标词的词标签。然而,使用非监督算法存在缺乏指导、假设单一、需要人工设定阈值等缺点,影响词语标注系统的准确率和召回率。
技术实现要素:
本发明的目的在于提供一种基于词标签的词语标注方法、装置、服务器及存储介质,旨在解决由于对新生词语进行标注时,现有技术中用来划分新生词语到的分类有限、且划分过程中缺乏指导,导致待标注词语标注效率、准确度不高的问题。
一方面,本发明提供了一种基于词标签的词语标注方法,所述方法包括下述步骤:
在输入的文本文档中查找待标注词语;
通过预先训练好的词语分类器,在预设的已知词库中查询与所述待标注词语相关的已知词,所述词语分类器通过有监督方式训练得到;
将所述相关的已知词设置为所述待标注词语的标签词,以通过所述标签词对所述待标注词语进行标注。
另一方面,本发明提供了一种基于词标签的词语标注装置,所述装置包括:
词语查找单元,用于在输入的文本文档中查找待标注词语;
相关词查询单元,用于通过预先训练好的词语分类器,在预设的已知词库中查询与所述待标注词语相关的已知词,所述词语分类器通过有监督方式训练得到;以及
词语标注单元,用于将所述相关的已知词设置为所述待标注词语的标签词,以通过所述标签词对所述待标注词语进行标注。
另一方面,本发明还提供了一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述基于词标签的词语标注方法所述的步骤。
另一方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述基于词标签的词语标注方法所述的步骤。
本发明在预先构建好的文本文档中查找待标注词语,通过预先训练好的词语分类器,在预设的已知词库中查询与该待标注词语相关的已知词,将相关的已知词设置为待标注词语的标签词,以通过标签词对待标注词语进行标注,其中,词语分类器是通过有监督的方式训练得到的,从而实现将已知词作为标签词,对待标注词语进行自动标注,有效地提高了对待标注词语进行标注解释的效率,减少了对待标注词语进行标注的人力消耗,此外,通过有监督的方法训练得到的词语分类器,有效地提高待标注词语标注的准确率和召回率。
附图说明
图1是本发明实施例一提供的基于词标签的词语标注方法的实现流程图;
图2是本发明实施例二提供的基于词标签的词语标注方法中词语分类器训练的实现流程图
图3是本发明实施例三提供的基于词标签的词语标注装置的结构示意图;
图4是本发明实施例三提供的基于词标签的词语标注装置的优选结构示意图;以及
图5是本发明实施例四提供的服务器的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以标注本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述:
实施例一:
图1示出了本发明实施例一提供的基于词标签的词语标注方法的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤s101中,在输入的文本文档中查找待标注词语。
在本发明实施例中,待标注词语为需要进行标注的新生词语,例如在微博、脸书(facebook)等网络新媒体上出现的类似于“尬舞”、“freestyle”这类的词词语,在这类网络新媒体上进行数据采集,可获得用于输入的文本文档。作为示例地,在微博平台上收集原始数据,将发布时间最近的一部分原始数据设置为用于输入的文本文档。
在本发明实施例中,可对文本文档中的文本进行分词处理,在分词处理后的文本文档中,查找出现频率超过预设频率阈值的词语,以将作用不大或不在关注范围内的一些低频词(例如拼错的词、人名)筛选掉,接着检测这些词语是否出现在已知词库、以及预设的字典库中,可认为未出现在已知词库、字典库中的词语为网络新媒体上的新生词语,将未出现在已知词库、字典库中的词语设置为待标注词语。
在本发明实施例中,在网络新媒体上进行数据采集,可获得已知词库,作为示例地,在微博平台上收集原始数据,将发布时间最早的一部分原始数据设置为微博词文档,对微博词文档进行分词处理,在分词处理后的词语中,将出现频率超过预设频率阈值的词语设置为已知词,以将作用不大或不在关注范围内的一些低频词筛选掉,由这些已知词构成已知词库。
具体地,用于分词处理的分词方法可为条件随机场、隐马尔科夫模型、以及各类无监督的分词方法。
在步骤s102中,通过预先训练好的词语分类器,在预设的已知词库中查询与待标注词语相关的已知词,词语分类器通过有监督方式训练得到。
在步骤s103中,将相关的已知词设置为待标注词语的标签词,以通过标签词对待标注词语进行标注。
在本发明实施例中,词语分类器通过有监督的方式训练得到,训练过程可参照实施例二各步骤描述的内容。将待标注词语输入词语分类器中,以在已知词库中查找与待标注词语相关的已知词,通过将这些相关的已知词设置为待标注词语的标签词,完成对待标注词语进行标注,例如,通过“清华大学”、“理科状元”、“一站到底”、“新记录”、“答穿题库”等标签词对待标注词语“刘也行”进行标注。
在本发明实施例中,在文本文档中查找待标注词语,通过训练好的词语分类器,在已知词库中查询与该待标注词语相关的已知词,将这些相关的已知词设置为待标注词语的标签词,实现对待标注词语的标注,其中,词语分类器是通过有监督的方式训练得到的,从而通过已知词对待标注词语进行了解释,有效地提高了待标注词语标注的效率,减少了待标注词语标注的人力消耗,通过有监督的方法训练得到的词语分类器,有效地提高待标注词语标注的准确率和召回率。
实施例二:
图2示出了本发明实施例二提供的基于词标签的词语标注方法中词语分类器训练过程的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤s201中,在预先构建的训练数据集中查找样本词语。
在本发明实施例中,可对训练数据集进行分词处理,在分词处理后的训练数据集中查找出现频率超过预设频率阈值、且未出现在已知词库中的词汇,将这些词汇设置为样本词语,即训练数据集中的新生词语。作为示例地,在微博平台上收集原始数据,将发布时间位于中间时段的一部分原始数据设置为训练数据集。
在步骤s202中,在预设的词条注释库中查询样本词语的注释,提取注释的关键词,将在已知词库中出现过的关键词设置为样本词语的标签词。
在本发明实施例中,词条注释库可由网络百科(如维基百科、百度百科)的词条注释构成,词条注释库可在网站上进行下载。在词条注释库中查询每个样本词语对应的注释,并从中删除没有查询到对应注释的样本词语。可通过现有的文本关键词提取方式提取每个样本词语对应注释的关键词,将这些关键词中在已知词库中出现过的词语对应地设置样本词语的标签词。
优选地,在预设的中文词库或者中文词网站上,查找与样本词语的标签词相关的词语,将这些相关的词语也设置为样本词语的标签词,从而增加样本词语的标签词数量,有利于提高训练效果。
可选地,可通过下述步骤实现在每个样本词语对应注释中提取关键词,并将在已知词库中出现过的关键词设置为样本词语的标签词:
(1)对注释进行分词处理和词性标注,在词性标注后的注释中提取候选标签词。
在本发明实施例中,对注释进行分词处理和词性标注,由于内容承载词的词性大多为动词、形容词和名词,可在词性标注后的注释中,将属于这些词性且出现在已知词库中的词语设置为候选标签词。
(2)根据注释的每部分内容对应的自定义权重、在注释的每部分内容中候选标签词出现的频率,计算候选标签词对应的百科词频。
在本发明实施例中,基于百科词条下的注释结构性强且具有结构标注的特点,可设计一个百科词频,并计算每个候选标签词对应的百科词频。
具体地,预先为注释的每部分内容设置对应的自定义权重。例如,注释中的目录一般用于显示词条结构,而不是起承载内容的作用,可以将目录的自定义权重设置为较小的值,词条中目录后的第一部分内容一般是对当前词汇的综述,对应的自定义权重可以设置为较大的值。由于注释每部分内容的文字长短也和关键词提取相关,一般文字越短,包含关键词的可能性越大,因此可根据注释的每部分内容预设的自定义权重,对注释的每部分内容进行权重的重定义,重定义公式可为:
在本发明实施例中,接着根据注释每部分内容重新定义的权重、注释的每部分内容中候选标签词出现的频率,计算候选标签词对应的百科词频,计算公式为:
(3)根据已知词库计算候选标签词对应的逆向档案频率,根据候选标签词对应的百科词频、逆向档案频率,计算候选标签词的关键词分数。
在本发明实施例中,计算每个候选标签词在已知词库中对应的逆向档案频率,计算公式可为:
在本发明实施例中,根据候选标签词对应的百科词频、逆向档案频率,计算候选标签词的关键词分数,计算公式为:
(4)当候选标签词的关键词分数超过预设分数阈值时,将候选标签词设置为样本词语的标签词。
在步骤s203中,分别计算样本词语与已知词库中每个已知词的关系特征,根据关系特征和样本词语的标签词,训练得到词语分类器。
在本发明实施例中,在对词语分类器进行训练之前,先通过特征来描述样本词语和已知词库中已知词的关系,再由特征关系和样本词语的标签词,训练得到词语分类器。
在本发明实施例中,分别将样本词语、已知词库中每个已知词表示为词向量,词向量可表示为vw={θ1,θ2,...,θn},n为已知词库中已知词的数量。先在训练数据集中查找所有包含当前样本词语(或已知词)的文本(例如微博),由这些文本构成文档tw,计算当前样本词语(或已知词)在tw中的词频-逆向档案频率,计算公式为:
θk=tf(wk,tw)×idf(wk,doccorpus),其中,θk为当前样本词语(或已知词)wk在tw中的词频-逆向档案频率,也为词向量中第k个分量,tf(wk,tw)为当前样本词语(或已知词)wk在tw中的词频,idf(wk,doccorpus)为当前样本词语(或已知词)wk在已知词库中的逆向档案频率。tf(wk,tw)的计算公式为:
在本发明实施例中,在将当前样本词语和每个已知词分别表示为词向量后,可通过欧几里和距离计算当前样本词语和每个已知词的词距离,计算公式为:
在本发明实施例中,在计算词余弦相似度后,计算样本词语与已知词库中每个已知词的词同时出现频率,词同时出现频率可表示为
在本发明实施例中,将样本词语与每个已知词的关系特征、样本词语的标签词输入预设的支持向量机中进行训练,生成词语分类器,其中,支持向量机的核函数可使用径向基函数核,也可选用其它的分类算法进行训练。
在本发明实施例中,在预先构建的训练数据集中查找样本词语,在预设的词条注释库中提取样本词语的标签词,计算样本词语与已知词库中每个已知词的关系特征,根据样本词语的标签词、样本词语与已知词库中每个已知词的关系特征,训练得到词语分类器,从而通过有监督的方式,实现了已知词标签的自动生成,能够在短时间内对大量的待标注词语做出标注,并提高了待标注词语标注的准确率和召回率,有效地节省了人力消耗,同时,还有效地提高了词语标注的细致程度。
实施例三:
图3示出了本发明实施例三提供的词语标注装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分,其中包括:
词语查找单元31,用于在输入的文本文档中查找待标注词语。
在本发明实施例中,待标注词语为需要进行标注的新生词语,例如在微博、脸书(facebook)等网络新媒体上出现的类似于“尬舞”、“freestyle”这类的词词语,在这类网络新媒体上进行数据采集,可获得用于输入的文本文档。作为示例地,在微博平台上收集原始数据,将发布时间最近的一部分原始数据设置为用于输入的文本文档。
在本发明实施例中,可对文本文档中的文本进行分词处理,在分词处理后的文本文档中,查找出现频率超过预设频率阈值的词语,以将作用不大或不在关注范围内的一些低频词筛选掉,接着检测这些词语是否出现在已知词库、以及预设的字典库中,可认为未出现在已知词库、字典库中的词语为网络新媒体上的新生词语,将未出现在已知词库、字典库中的词语设置为待标注词语。
在本发明实施例中,在网络新媒体上进行数据采集,可获得已知词库,作为示例地,在微博平台上收集原始数据,将发布时间最早的一部分原始数据设置为微博词文档,对微博词文档进行分词处理,在分词处理后的词语中,将出现频率超过预设频率阈值的词语设置为已知词,以将作用不大或不在关注范围内的一些低频词筛选掉,由这些已知词构成已知词库。
具体地,用于分词处理的分词方法可为条件随机场、隐马尔科夫模型、以及各类无监督的分词方法。
相关词查询单元32,用于通过预先训练好的词语分类器,在预设的已知词库中查询与待标注词语相关的已知词,词语分类器通过有监督方式训练得到。
词语标注单元33,用于将相关的已知词设置为待标注词语的标签词,以通过标签词对待标注词语进行标注。
在本发明实施例中,词语分类器通过有监督的方式训练得到,将待标注词语输入词语分类器中,以在已知词库中查找与待标注词语相关的已知词,通过将这些相关的已知词设置为待标注词语的标签词,完成对待标注词语进行标注,例如,通过“清华大学”、“理科状元”、“一站到底”、“新记录”、“答穿题库”等标签词对待标注词语“刘也行”进行标注。
优选地,如图4所示,基于词标签的词语标注装置还包括样本词语查找单元41、关键词提取单元42和分类器训练单元43,其中:
样本词语查找单元41,用于在预先构建的训练数据集中查找样本词语。
在本发明实施例中,可对训练数据集进行分词处理,在分词处理后的训练数据集中查找出现频率超过预设频率阈值、且未出现在已知词库中的词汇,将这些词汇设置为样本词语,即训练数据集中的新生词语。作为示例地,在微博平台上收集原始数据,将发布时间位于中间时段的一部分原始数据设置为训练数据集。
关键词提取单元42,用于在预设的词典注释库中查询样本词语的注释,提取注释的关键词,将在已知词库中出现过的关键词设置为样本词语的标签词。
在本发明实施例中,词条注释库可由网络百科的词条注释构成,词条注释库可在网站上进行下载。在词条注释库中查询每个样本词语对应的注释,并从中删除没有查询到对应注释的样本词语。可通过现有的文本关键词提取方式提取每个样本词语对应注释的关键词,将这些关键词中在已知词库中出现过的词语对应地设置样本词语的标签词。
优选地,在预设的中文词库或者中文词网站上,查找与样本词语的标签词相关的词语,将这些相关的词语也设置为样本词语的标签词,从而增加样本词语的标签词数量,有利于提高训练效果。
可选地,可通过下述步骤实现在每个样本词语对应注释中提取关键词,并将在已知词库中出现过的关键词设置为样本词语的标签词:
(1)对注释进行分词处理和词性标注,在词性标注后的注释中提取候选标签词。
在本发明实施例中,对注释进行分词处理和词性标注,由于内容承载词的词性大多为动词、形容词和名词,可在词性标注后的注释中,将属于这些词性且出现在已知词库中的词语设置为候选标签词。
(2)根据注释的每部分内容对应的自定义权重、在注释的每部分内容中候选标签词出现的频率,计算候选标签词对应的百科词频。
在本发明实施例中,基于百科词条下的注释结构性强且具有结构标注的特点,可设计一个百科词频,并计算每个候选标签词对应的百科词频。
具体地,预先为注释的每部分内容设置对应的自定义权重。例如,注释中的目录一般用于显示词条结构,而不是起承载内容的作用,可以将目录的自定义权重设置为较小的值,词条中目录后的第一部分内容一般是对当前词汇的综述,对应的自定义权重可以设置为较大的值。由于注释每部分内容的文字长短也和关键词提取相关,一般文字越短,包含关键词的可能性越大,因此可根据注释的每部分内容预设的自定义权重,对注释的每部分内容进行权重的重定义,重定义公式可为:
在本发明实施例中,接着根据注释每部分内容重新定义的权重、注释的每部分内容中候选标签词出现的频率,计算候选标签词对应的百科词频,计算公式为:
(3)根据已知词库计算候选标签词对应的逆向档案频率,根据候选标签词对应的百科词频、逆向档案频率,计算候选标签词的关键词分数。
在本发明实施例中,计算每个候选标签词在已知词库中对应的逆向档案频率,计算公式可为:
在本发明实施例中,根据候选标签词对应的百科词频、逆向档案频率,计算候选标签词的关键词分数,计算公式为:
(4)当候选标签词的关键词分数超过预设分数阈值时,将候选标签词设置为样本词语的标签词。
分类器训练单元43,用于分别计算样本词语与已知词库中每个已知词的关系特征,根据关系特征和样本词语的标签词,训练得到词语分类器。
在本发明实施例中,在对词语分类器进行训练之前,先通过特征来描述样本词语和已知词库中已知词的关系,再由特征关系和样本词语的标签词,训练得到词语分类器。
在本发明实施例中,分别将样本词语、已知词库中每个已知词表示为词向量,词向量可表示为vw={θ1,θ2,...,θn},n为已知词库中已知词的数量。先在训练数据集中查找所有包含当前样本词语(或已知词)的文本(例如微博),由这些文本构成文档tw,计算当前样本词语(或已知词)在tw中的词频-逆向档案频率,计算公式为:
θk=tf(wk,tw)×idf(wk,doccorpus),其中,θk为当前样本词语(或已知词)wk在tw中的词频-逆向档案频率,也为词向量中第k个分量,tf(wk,tw)为当前样本词语(或已知词)wk在tw中的词频,idf(wk,doccorpus)为当前样本词语(或已知词)wk在已知词库中的逆向档案频率。tf(wk,tw)的计算公式为:
在本发明实施例中,在将当前样本词语和每个已知词分别表示为词向量后,可通过欧几里和距离计算当前样本词语和每个已知词的词距离,计算公式为:
在本发明实施例中,在计算词余弦相似度后,计算样本词语与已知词库中每个已知词的词同时出现频率,词同时出现频率可表示为
在本发明实施例中,计算将样本词语与每个已知词的关系特征、样本词语的标签词输入预设的支持向量机中进行训练,生成词语分类器,其中,支持向量机的核函数可使用径向基函数核,也可选用其它的分类算法进行训练。
优选地,分类器训练单元包括:
词向量转换单元,用于分别将样本词语、已知词库中每个已知词转换为对应的词向量;
关系计算单元,用于根据样本词语的词向量和已知词的词向量,计算样本词语与每个已知词的词距离和词余弦相似度,计算样本词语和已知词在训练数据集中的词同时出现频率;以及
关系组合单元,用于将词距离、词余弦相似度以及词同时出现频率组合为样本词语和已知词的关系特征。
在本发明实施例中,在预先构建的训练数据集中查找样本词语,在预设的词条注释库中提取样本词语的标签词,计算样本词语与已知词库中每个已知词的关系特征,根据样本词语的标签词、样本词语与已知词库中每个已知词的关系特征,训练得到词语分类器,通过训练好的待标注词语类器,在已知词库中获取与文本文档中的待标注词语相关的已知词,将这些已知词设置为文本文档中待标注词语的标签,从而通过有监督的方式,实现了已知词标签的自动生成,能够在短时间内对大量的待标注词语做出标注,并提高了待标注词语标注的准确率和召回率,有效地节省了人力消耗,同时,还有效地提高了词语标注的细致程度。
在本发明实施例中,基于词标签的词语标注装置的各单元可由相应的硬件或软件单元实现,各单元可以为独立的软、硬件单元,也可以集成为一个软、硬件单元,在此不用以限制本发明。
实施例四:
图5示出了本发明实施例四提供的服务器的结构,为了便于说明,仅示出了与本发明实施例相关的部分。
本发明实施例的服务器5包括处理器50、存储器51以及存储在存储器51中并可在处理器50上运行的计算机程序52。该处理器50执行计算机程序52时实现上述各方法实施例中的步骤,例如图1所示的步骤s101至s103。或者,处理器50执行计算机程序52时实现上述装置实施例中各单元的功能,例如图3所示单元31至33的功能。
在本发明实施例中,在预先构建的训练数据集中查找样本词语,在预设的词条注释库中提取样本词语的标签词,计算样本词语与已知词库中每个已知词的关系特征,根据样本词语的标签词、样本词语与已知词库中每个已知词的关系特征,训练得到词语分类器,在接收到输入的文本文档时,通过训练好的待标注词语类器,在已知词库中获取与文本文档中的待标注词语相关的已知词,将这些已知词设置为文本文档中待标注词语的标签,从而通过有监督的方式,实现了已知词标签的自动生成,能够在短时间内对大量的待标注词语做出标注,并提高了待标注词语标注的准确率和召回率,有效地节省了人力消耗,同时,还有效地提高了词语标注的细致程度。
实施例五:
在本发明实施例中,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法实施例中的步骤,例如,图1所示的步骤s101至s103。或者,该计算机程序被处理器执行时实现上述装置实施例中各单元的功能,例如图3所示单元31至33的功能。
在本发明实施例中,在预先构建的训练数据集中查找样本词语,在预设的词条注释库中提取样本词语的标签词,计算样本词语与已知词库中每个已知词的关系特征,根据样本词语的标签词、样本词语与已知词库中每个已知词的关系特征,训练得到词语分类器,在接收到输入的文本文档时,通过训练好的待标注词语类器,在已知词库中获取与文本文档中的待标注词语相关的已知词,将这些已知词设置为文本文档中待标注词语的标签,从而通过有监督的方式,实现了已知词标签的自动生成,能够在短时间内对大量的待标注词语做出标注,并提高了待标注词语标注的准确率和召回率,有效地节省了人力消耗,同时,还有效地提高了词语标注的细致程度。
本发明实施例的计算机可读存储介质可以包括能够携带计算机程序代码的任何实体或装置、记录介质,例如,rom/ram、磁盘、光盘、闪存等存储器。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。