一种文本聚类方法、装置、电子设备及存储介质与流程

文档序号:24641074发布日期:2021-04-09 20:54阅读:53来源:国知局
一种文本聚类方法、装置、电子设备及存储介质与流程

本公开实施例涉及计算机技术领域,尤其涉及一种文本聚类方法、装置、电子设备及存储介质。



背景技术:

文本聚类是将相似的文本数据划分到同一聚类,并将不同的文本聚类区分开来,其中,聚类也可以称之为“簇”。聚类方法分为不同的领域,如网络、医学、生物学、计算机视觉、自然语言等。

现有的文本聚类方法,将文本表示为特征向量,然后通过计算文本对应的特征向量、计算文本之间的相似度;最后,根据文本之间的相似度将文本进行聚类,可以看出,现有的文本聚类方法,首先需要将文本表示为特征向量,进而才能通过特征向量计算文本之间的相似度,使得文本聚类的计算过程复杂,效率较低。



技术实现要素:

本公开实施例提供一种文本聚类方法、装置、电子设备及存储介质,可以有效提高文本聚类的效率和准确性。

第一方面,本公开实施例提供了一种文本聚类方法,包括:

获取待聚类的目标文本数据集;其中,所述目标文本数据集中包括至少一条目标文本数据;

针对所述目标文本数据集中的每条目标文本数据,计算所述目标文本数据中各个词的第一重要性分数,并基于所述第一重要性分数对所述目标文本数据中的各个词进行排序,生成与所述目标文本数据对应的待搜索词序列;

针对各个待搜索词序列,在预先构建的字典树中搜索与所述待搜索词序列适配的目标词序列;其中,所述目标词序列属于所述待搜索词序列的子序列;

分别根据各个所述目标词序列对对应的目标文本数据进行聚类,得到文本聚类结果。

第二方面,本公开实施例还提供了一种文本聚类装置,包括:

文本数据获取模块,用于获取待聚类的目标文本数据集;其中,所述目标文本数据集中包括至少一条目标文本数据;

搜索词序列生成模块,用于针对所述目标文本数据集中的每条目标文本数据,计算所述目标文本数据中各个词的第一重要性分数,并基于所述第一重要性分数对所述目标文本数据中的各个词进行排序,生成与所述目标文本数据对应的待搜索词序列;

目标词序列确定模块,用于针对各个待搜索词序列,在预先构建的字典树中搜索与所述待搜索词序列适配的目标词序列;其中,所述目标词序列属于所述待搜索词序列的子序列;

文本聚类模块,用于分别根据各个所述目标词序列对对应的目标文本数据进行聚类,得到文本聚类结果。

第三方面,本公开实施例还提供了一种电子设备,所述电子设备包括:

一个或多个处理装置;

存储装置,用于存储一个或多个程序;

当所述一个或多个程序被所述一个或多个处理装置执行,使得所述一个或多个处理装置实现如本公开实施例所述的文本聚类方法。

第四方面,本公开实施例还提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现如本公开实施例所述的文本聚类方法。

本公开实施例,获取待聚类的目标文本数据集;其中,所述目标文本数据集中包括至少一条目标文本数据;针对所述目标文本数据集中的每条目标文本数据,计算所述目标文本数据中各个词的第一重要性分数,并基于所述第一重要性分数对所述目标文本数据中的各个词进行排序,生成与所述目标文本数据对应的待搜索词序列;针对各个待搜索词序列,在预先构建的字典树中搜索与所述待搜索词序列适配的目标词序列;其中,所述目标词序列属于所述待搜索词序列的子序列;分别根据各个所述目标词序列对对应的目标文本数据进行聚类,得到文本聚类结果。本公开实施例提供的文本聚类方法,计算待聚类的文本数据中各个词的重要性分数,并基于重要性分数对待聚类的文本数据中的各个词进行排序,生成待搜索词序列,然后基于预先构建的字典树查找与待搜索词适配的目标词序列,从而基于目标词序列对文本数据进行聚类,简化了文本聚类的过程,大大降低了文本聚类的时间复杂度,有效提高了文本聚类的效率和准确性。

附图说明

图1是本公开一实施例中的一种文本聚类方法的流程图;

图2是本公开一实施例中的字典树的示意图;

图3是本公开一实施例中的一种文本聚类方法的流程图;

图4是本公开一实施例中的一种文本聚类方法的流程图;

图5是本公开一实施例中的一种文本聚类方法的流程图;

图6是本公开另一实施例中的一种文本聚类装置的结构示意图;

图7是本公开另一实施例中的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。

应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。

图1为本公开一实施例提供的一种文本聚类方法的流程图,本公开实施例可适用于对文本聚类的情况,该方法可以由文本聚类装置来执行,该装置可由硬件和/或软件组成,并一般可集成在具有文本聚类功能的设备中,该设备可以是服务器、移动终端或服务器集群等电子设备。如图1所示,该方法具体包括如下步骤:

步骤110,获取待聚类的目标文本数据集;其中,所述目标文本数据集中包括至少一条目标文本数据。

在本公开实施例中,目标文本数据集包括至少一条目标文本数据,其中目标文本可以是各种类别的文本数据,如新闻类、广告类、网络类、自然语言类、医学类等不同类型的文本数据。目标文本数据集中的各条目标文本数据的类别可以相同,也可以不同。其中,目标文本数据可以为英文文本,也可以为中文文本,还可以为韩语文本。示例性的,可以通过网络爬虫技术采集待聚类的目标文本数据,还可以通过光学字符识别、语音识别、手写识别等方式获取目标文本数据。可选的,当待聚类的目标文本数据集中包含一条目标文本数据时,可实时采集用户输入的文本数据,并将采集到的文本数据作为待聚类的文本数据。

需要说明的是,本公开实施例对目标文本数据的内容类别、语言类别及获取方式不做限定。

步骤120,针对所述目标文本数据集中的每条目标文本数据,计算所述目标文本数据中各个词的第一重要性分数,并基于所述第一重要性分数对所述目标文本数据中的各个词进行排序,生成与所述目标文本数据对应的待搜索词序列。

在本公开实施例中,针对目标文本数据集中的每条目标文本数据进行分词处理,以将每条目标文本数据切分成至少一个词。可选的,在对每条目标文本数据进行分词处理之前,还可以对各个目标文本数据进行分词预处理,如去除标点符合和停用词。然后,计算每条目标文本数据中各个词的第一重要性分数,第一重要性分数用于反映各个词在目标文本数据中的重要程度,其中,第一重要性分数越大,表示该词在目标文本数据中越重要,反之,第一重要性分数越小,表示该词在目标文本数据中越不重要。

可选的,可以统计各个词在该目标文本数据中的出现次数,将该词在目标文本数据中的出现次数作为第一重要性分数。可选的,可以将目标文本数据中词的词频-逆文档频率作为该词的第一重要性分数。可选的,针对所述目标文本数据集中的每条目标文本数据,计算所述目标文本数据中各个词的第一重要性分数,包括:针对所述目标文本数据集中的每条目标文本数据,分别计算所述目标文本数据中各个词的第一词频-逆文档频率;分别根据各个第一词频-逆文档频率,计算所述目标文本数据中各个词的第一重要性分数。需要说明的是,本公开实施例对目标文本数据中各个词的第一重要性分数的计算方式不做限定。

示例性的,基于第一重要性分数对目标文本数据中各个词进行排序,例如,可以按照第一重要性分数从大到小的顺序对目标文本数据中的各个词进行排序,并将排序后的词组成的序列作为与目标文本数据对应的待搜索词序列。可以理解的是,在待搜索词序列中词越靠前,该词的第一重要性分数越大,表明该词在目标文本数据中越重要,越能表明该目标文本数据想要表达的含义、内容,或者越能表明该目标文本数据的类别。

步骤130,针对各个待搜索词序列,在预先构建的字典树中搜索与所述待搜索词序列适配的目标词序列;其中,所述目标词序列属于所述待搜索词序列的子序列。

在本公开实施例中,获取预先构建的字典树,其中,字典树为基于预先配置的目标语料库构建的。示例性的,针对各个待搜索词序列,在字典树中搜索与待搜索词序列适配的目标词序列。可选的,针对各个待搜索词序列,在预先构建的字典树中搜索与所述待搜索词序列适配的目标词序列,包括:针对各个待搜索词序列,在预先构建的字典树中按照从根节点到子节点的顺序,搜索与所述待搜索词序列适配的目标词序列。具体的,从根节点到子节点的顺序,从字典树中搜索与待搜索词序列中的第一个词匹配的第一目标节点,然后在与第一目标节点连接的所有子节点中搜索与待搜索词序列中的第二个词匹配的第二目标节点,再在与第二目标节点连接的所有子节点中搜索与待搜索词序列中的第三个词匹配的第三目标节点,依次类推,直至在与第p个目标节点连接的所有子节点中搜索不到与待搜索词序列中的p+1个词匹配的节点为止,并将各个目标节点中的词构成的序列作为目标词序列,也即将待搜索词序列中能够在字典树中搜索的匹配节点的词组成的序列作为目标词序列。其中,目标词序列为待搜索词序列的子序列。示例性的,待搜索词序列为[a-b-c-d-e],其中,a、b、c、d、e分别表示待搜索词序列中的各个词,在字典树中按照从根节点到子节点的顺序,能够搜索到与a、b、c匹配的目标节点,也即在字典树中能够搜索到与a匹配的第一目标节点,在与第一目标节点连接的子节点中能够搜索到与b匹配的第二目标节点,在与第二目标节点连接的子节点中能够搜索到与c匹配的第三目标节点,但是在第三目标节点连接的子节点中搜索不到与d匹配的第三目标节点,则将a、b、c构成的序列作为目标词序列。

步骤140,分别根据各个所述目标词序列对对应的目标文本数据进行聚类,得到文本聚类结果。

在本公开实施例中,根据各个目标词序列对对应的目标文本数据进行聚类,可以理解的是,目标词序列能够直观反映目标文本数据的类别或目标文本数据表达的内容,若目标文本数据对应的目标词序列相同或相似度较高,可以说明目标文本数据的类别或表达的内容相同或相近,因此,可根据目标词序列对目标文本数据进行聚类。具体的,可以将具有相同目标词序列的目标文本数据聚类为同一簇,将具有不同目标词序列的目标文本数据聚类为不同簇;也可以计算各个目标词序列间的相似度,将相似度大于预设阈值的目标文本数据聚类为同一簇,将相似度小于预设阈值的目标文本数据聚类为不同簇。需要说明的是,本公开实施例对根据目标词序列对对应的目标文本进行聚类的方式不做限定。

本公开实施例,获取待聚类的目标文本数据集;其中,所述目标文本数据集中包括至少一条目标文本数据;针对所述目标文本数据集中的每条目标文本数据,计算所述目标文本数据中各个词的第一重要性分数,并基于所述第一重要性分数对所述目标文本数据中的各个词进行排序,生成与所述目标文本数据对应的待搜索词序列;针对各个待搜索词序列,在预先构建的字典树中搜索与所述待搜索词序列适配的目标词序列;其中,所述目标词序列属于所述待搜索词序列的子序列;分别根据各个所述目标词序列对对应的目标文本数据进行聚类,得到文本聚类结果。本公开实施例提供的文本聚类方法,计算待聚类的文本数据中各个词的重要性分数,并基于重要性分数对待聚类的文本数据中的各个词进行排序,生成待搜索词序列,然后基于预先构建的字典树查找与待搜索词适配的目标词序列,从而基于目标词序列对文本数据进行聚类,简化了文本聚类的过程,大大降低了文本聚类的时间复杂度,有效提高了文本聚类的效率和准确性。

在一些实施例中,针对所述目标文本数据集中的每条目标文本数据,计算所述目标文本数据中各个词的第一重要性分数,包括:针对所述目标文本数据集中的每条目标文本数据,分别计算所述目标文本数据中各个词的第一词频-逆文档频率;分别根据各个第一词频-逆文档频率,计算所述目标文本数据中各个词的第一重要性分数。其中,第一词频-逆文档频率(termfrequency-inversedocumentfrequency,tf-idf)可以间接反映各个词在目标文本数据中的重要性,因此,可计算目标文本数据中各个词的第一词频-逆文档频率,然后根据各个第一词频-逆文档频率,计算目标文本数据中各个词的第一重要性分数。

可选的,分别计算所述目标文本数据中各个词的第一词频-逆文档频率,包括:分别确定所述目标文本数据中各个词的第一词频和第一逆文档频率;根据所述第一词频和所述第一逆文档频率计算对应词的第一词频-逆文档频率;其中,所述第一词频-逆文档频率为所述第一词频与所述第一逆文档频率的乘积。具体的,分别确定所述目标文本数据中各个词的第一词频和第一逆文档频率,包括:确定各个词在所述目标文本数据中的出现次数,并将所述出现次数作为对应词的第一词频;获取与所述字典树对应的参数配置信息;其中,所述参数配置信息包括逆文档频率列表,所述逆文档频率列表中包括所述字典树中所包含的各个词的逆文档频率;在所述逆文档频率列表中,分别查找与所述目标文本数据中的各个词对应的逆文档频率,作为所述目标文本数据中各个词的第一逆文档频率。

示例性的,统计各个词在目标文本数据中的出现次数,并量出现次数作为对应词的第一词频(termfrequency,tf),可以理解的是,某个词在目标文本数据中可能出现多次,也可能出现一次,其中,出现次数越多,表明该词在目标文本数据的内容或语言表达中越重要。获取与字典树对应的参数配置信息,其中,参数配置信息为基于目标语料库构建字典树的过程中确定的参数信息。参数配置信息可以包括由字典树中所包含的各个词的逆文档频率(inversedocumentfrequency,idf)组成的逆文档频率列表。可以理解的是,在基于目标语料库构建字典树的过程中,需要计算目标语料库中各个词的逆文档频率,然后基于各个词的逆文档频率构建字典树。在字典树对应的逆文档频率列表中查找与目标文本数据中各个词对应的逆文档频率,并将查找到的与各个词对应的目标逆文档频率作为各个词的第一逆文档频率。然后,将第一词频与第一逆文档频率的乘积作为对应词的第一词频-逆文档频率。

在一些实施例中,所述参数配置信息还包括分布偏差列表;其中,所述分布偏差列表中包括所述字典树中所包含的各个词的分布偏差;在分别根据各个第一词频-逆文档频率,计算所述目标文本数据中各个词的第一重要性分数之前,还包括:在所述分布偏差列表中,分别查找与所述目标文本数据中的各个词对应的分布偏差,作为所述目标文本数据中各个词的第一分布偏差;分别根据各个第一词频-逆文档频率,计算所述目标文本数据中各个词的第一重要性分数,包括:分别根据各个第一词频-逆文档频率及对应的第一分布偏差,计算所述目标文本数据中各个词的第一重要性分数;其中,所述第一重要性分数为所述第一词频-逆文档频率与所述第一分布偏差的乘积。

具体的,参数配置信息还可包括由字典树中的各个词的分布表偏差组成的分布偏差列表。可以理解的是,在基于目标语料库构建字典树的过程中,不仅需要计算目标语料库中各个词的逆文档频率,还需要计算目标语料库中各个词的分布偏差,然后基于各个词的逆文档频率及分布偏差构建字典树。其中,分布偏差用于反应各个词在目标语料库与总语料库的分布偏差。在字典树对应的分布偏差列表中,查找与目标文本数据中的各个词对应的分布偏差,将将查找到的与各个词对应的目标分布偏差,作为目标文本数据中各个词的第一分布偏差。然后,根据第一词频-逆文档频率及对应的第一分布偏差,计算目标文本数据中各个词的第一重要性分数,其中,第一重要性分数为第一词频-逆文档频率与第一分布偏差的乘积。

在一些实施例中,在获取待聚类的目标文本数据集之前,还包括:获取总语料库和目标语料库;其中,所述总语料库包括所述目标语料库,所述目标语料库中包含至少一条样本文本数据;计算所述目标语料库中所包含的各个词相对于所述总语料库的第二分布偏差;针对所述目标语料库中每条样本文本数据,分别根据所述样本文本数据中各个词的第二分布偏差计算对应词的第二重要性分数,并按照所述第二重要性分数从大到小的顺序对每条样本文本数据中的各个词进行排序,生成与所述样本文本数据对应的样本词序列;基于各个样本词序列构建所述字典树。这样设置的好处在于,可以准确、快速地构建与目标语料库对应的字典树。

具体的,目标语料库可以为属于某一类别或某一领域的语料库,如目标语料库可以为广告类的语料库,还可以为网络类的语料库、法律类的语料库、医学类的语料库。总语料库为包含目标语料库的总的语料库,例如,目标语料库为广告类的语料库,则总语料库可以包括网络类的语料库、法律类的语料库、医学类的语料库及广告类的语料库构成的总语料库。其中,目标语料库中包括至少一条样本文本数据。示例性的,可以通过网络爬虫技术获取总语料库和目标语料库。需要说明的是,本公开实施例对目标语料库的类型不做限定,对总语料库中除包含目标语料库外的其他语料内容也不限定。

示例性的,由于不同领域或不同类别的语料库中,所包含的词及词的重要程度不同,如广告类的语料库与法律类的语料库中所包含的词差别较大,因此,可计算目标语料库中所包含的各个词相对于总语料库的第二分布偏差,其中,第二分布偏差可以反映各个词在目标语料库与总语料库中差异。可选的,计算所述目标语料库中所包含的各个词相对于所述总语料库的第二分布偏差,包括:根据如下公式计算所述目标语料库中所包含的各个词相对于所述总语料库的第二分布偏差:

其中,b表示目标语料库的词w相对于所述总语料库的第二分布偏差,freqa(w)表示词w在所述目标语料库中的出现频率,freq(w)表示词w在所述总语料库中的出现频率,t表示词w在所述目标语料库中的出现次数,m表示所述目标语料库中所包含词的总数量,t'表示词w在所述总语料库中的出现次数,m'表示所述总语料库中所包含词的总数量。

示例性的,目标语料库中所包含的词的总数量为1000个,而词“运动”在目标语料库中出现了100次,则“运动”在目标语料库中的出现频率为:总语料库中所包含的词的总数量为5000个,而词“运动”在总语料库中出现了120次,则“运动”在总语料库中的出现频率为:则“运动”的第二分布偏差为:

在本公开实施例中,针对目标语料库中每条样本数据文本,分别根据样本文本数据中各个词的第二分布偏差计算对应词的第二重要性分数,其中,第二重要性分数反映了各个词在样本文本数据中的重要程度,其中,第二重要性分数越大,表示该词在样本文本数据中越重要,反之,第二重要性分数越小,表示该词在样本文本数据中越不重要。然后按照第二重要性分数从大到小的顺序对样本文本数据中的各个词进行排序,并将排序后的词组成的序列作为与样本文本数据对应的样本词序列。可以理解的是,在样本词序列中词越靠前,该词的第二重要性分数越大,表明该词在样本文本数据中越重要,越能表明该样本文本数据想要表达的含义、内容,或者越能表明该样本文本数据的类别。

基于目标语料库中各个样本文本数据对应的样本词序列,构建字典树。具体的,当所有样本词序列中的第一个词不同时,可以假设将空节点作为字典树的根节点,将所有样本词序列中的第一个词作为该根节点的子节点,将所有样本词序列中的第二个词作为同一样本词序列中的第一个词所在节点的子节点,将所有样本词序列中的第三个词作为同一样本词序列中的第二个词所在节点的子节点,依次类推,直至将所有样本词序列中的所有词填写于字典树的各个节点中为止。当所有样本词序列中的第一个词相同时,可以将所有样本词序列中的第一个词作为字典树的根节点,将所有样本词序列中的第二个词作为该根节点的子节点,将所有样本词序列中的第三个词作为同一样本词序列中的第二个词所在节点的子节点,依次类推,直至将所有样本词序列中的所有词填写于字典树的各个节点中为止。示例性的,目标语料库中的五条样本文本数据对应的样本词序列分别为:[中间商品],[中间大不],[中间商韩],[商中间],[后面中间],则基于上述五条样本词序列构建的字典树如图2所示。

在一些实施例中,针对所述目标语料库中每条样本文本数据,分别根据所述样本文本数据中各个词的第二分布偏差计算对应词的第二重要性分数,包括:针对所述目标语料库中每条样本文本数据,分别计算所述样本文本数据中各个词的第二词频-逆文档频率;分别根据各个第二词频-逆文档频率及对应的第二分布偏差,计算所述样本文本数据中各个词的第二重要性分数。其中,第二词频-逆文档频率可以间接反映各个词在样本文本数据中的重要性,因此,可计算样本文本数据中各个词的第二词频-逆文档频率,然后根据各个第二词频-逆文档频率及对应的第二分布偏差,计算样本文本数据中各个词的第二重要性分数。其中,第二重要性分数为第二词频-逆文档频率与对应的第二分布偏差的乘积。具体的,分别根据各个第二词频-逆文档频率及对应的第二分布偏差,计算所述样本文本数据中各个词的第二重要性分数,包括:根据如下公式计算所述样本文本数据中各个词的第二重要性分数:

其中,s(w)表示所述样本文本数据中词w的第二重要性分数,tf-idfa(w)表示所述样本数据文本中的词w的第二词频-逆文档频率,表示样本文本数据中词w的第二分布偏差。

可选的,分别确定所述样本文本数据中各个词的第二词频和第二逆文档频率,包括:根据如下公式分别计算所述样本文本数据中各个词的第二词频和第二逆文档频率:

tf(w)=m

idf(w)=log((n/n))

根据所述第二词频和所述第二逆文档频率计算所述样本文本数据中对应词的第二词频-逆文档频率,包括:根据如下公式计算所述样本文本数据中各个词的第二词频-逆文档频率:

tf-idf(w)=tf(w)*idf(w)

其中,w表示所述样本数据文本中的任意一个词,tf(w)表示所述样本数据文本中的词w的第二词频,idf(w)表示所述样本数据文本中的词w的第二逆文档频率,tf-idf(w)表示所述样本数据文本中的词w的第二词频-逆文档频率,m表示词w在所述样本数据文本中出现的次数,n表示所述目标语料库中包含词w的样本文本数据的条数,n表示所述目标语料库中所包含的样本文本数据的总条数。

示例性的,在目标语料库中共包含200条样本文本数据,则n=200,在某条样本文本数据中,词“运动”出现了两次,则m=2,在200条样本文本数据中共有80条样本文本数据中包含了“运动”这一词,则n=80,所以,在该样本文本数据中词“运动”的第二词频为:tf(w)=m=2,第二逆文档频率为:idf(w)=log(n/n)=log(200/80)=0.398,则在该样本文本数据中词“运动”的第二词频-逆文档频率为:tf-idf(w)=tf(w)*idf(w)=2*0.398=0.796。

在一些实施例中,在基于各个样本词序列构建所述字典树之后,还包括:确定所述字典树中各个节点的词在所有样本词序列中同一位置的出现次数;根据所述字典树中各个节点的词在所有样本词序列中同一位置的出现次数对所述字典树进行剪枝,直至所述字典树所包含的节点数量达到预设数量为止。这样设置的好处在于,可以在保证基于字典树能够准确确定与目标文本数据对应的目标词序列的前提下,有效提高目标词序列的搜索速度,从而进一步提高文本聚类的效率。具体的,确定字典树中各个节点的词在所有的样本词序列中同一位置总共的出现次数,示例性的,在图2所示的字典树中,按照根节点到子节点的顺序,字典树的第一层级中的词“中间”在所有样本词序列中同一位置的出现次数为3,第一层级中的词“商”的出现次数为1,第一层级中的词“后面”的出现次数为1,第二层级中的词“商”的出现次数为2,第二层级中词“大”的出现次数为1,第二层级中的词“中间”的出现次数为2,第三层级中的词“品”、“不”及“韩”的出现次数均为1。根据字典树中各个节点的词在所有样本词序列中同一位置的出现次数,对字典树进行剪枝,直至字典树中所包含的节点数量达到预设数量为止。

可选的,根据所述字典树中各个节点的词在所有样本词序列中同一位置的出现次数对所述字典树进行剪枝,直至所述字典树所包含的节点数量达到预设数量为止,包括:按照所述字典树中各个节点的词在所有样本词序列中同一位置的出现次数从小到大的顺序,依次删除所述字典树中同一出现次数对应的节点,直至所述字典树所包含的节点数量达到预设数量为止。具体的,可以将字典树中节点的词在所有样本词序列中同一位置的出现次数为1的节点删除,再将字典树中节点的词在所有样本词序列中同一位置的出现次数为2的节点删除,依次类推,直至字典树中所包含的节点数量达到预设数量为止。其中,可以按照从根节点到子节点的顺序依次删除字典树中同一出现次数对应的节点。

图3是本公开另一实施例中的一种文本聚类方法的流程图,如图3所示,该方法包括如下步骤:

步骤310,获取待聚类的目标文本数据集;其中,目标文本数据集中包括至少一条目标文本数据。

步骤320,获取与预先构建的字典树对应的参数配置信息;其中,参数配置信息包括逆文档频率列表和分布偏差列表;其中,逆文档频率列表中包括字典树中所包含的各个词的逆文档频率,分布偏差列表中包括字典树中所包含的各个词的分布偏差。

步骤330,针对目标文本数据集中的每条目标文本数据,确定各个词在目标文本数据中的出现次数,并将出现次数作为对应词的第一词频。

步骤340,在逆文档频率列表中,分别查找与目标文本数据中的各个词对应的逆文档频率,作为目标文本数据中各个词的第一逆文档频率。

步骤350,根据第一词频和第一逆文档频率计算对应词的第一词频-逆文档频率;其中,第一词频-逆文档频率为第一词频与第一逆文档频率的乘积。

步骤360,在分布偏差列表中,分别查找与目标文本数据中的各个词对应的分布偏差,作为目标文本数据中各个词的第一分布偏差。

步骤370,分别根据各个第一词频-逆文档频率及对应的第一分布偏差,计算目标文本数据中各个词的第一重要性分数;其中,第一重要性分数为第一词频-逆文档频率与第一分布偏差的乘积。

步骤380,基于第一重要性分数对目标文本数据中的各个词进行排序,生成与目标文本数据对应的待搜索词序列。

步骤390,针对各个待搜索词序列,在所述预先构建的字典树中按照从根节点到子节点的顺序,搜索与待搜索词序列适配的目标词序列。

步骤3100,分别根据各个目标词序列对对应的目标文本数据进行聚类,得到文本聚类结果。

本公开实施例的技术方案,通过确定的待聚类的文本数据中各个词的词频、逆文档频率及分布偏差,计算各个词的重要性分数,并基于重要性分数对待聚类的文本数据中的各个词进行排序,生成待搜索词序列,然后基于预先构建的字典树查找与待搜索词适配的目标词序列,从而基于目标词序列对文本数据进行聚类,简化了文本聚类的过程,大大降低了文本聚类的时间复杂度,有效提高了文本聚类的效率和准确性。

图4是本公开另一实施例中的一种文本聚类方法的流程图,如图4所示,该方法包括如下步骤:

步骤410,获取总语料库和目标语料库;其中,总语料库包括目标语料库,目标语料库中包含至少一条样本文本数据。

步骤420,计算目标语料库中所包含的各个词相对于总语料库的第二分布偏差。

可选的,计算目标语料库中所包含的各个词相对于总语料库的第二分布偏差,包括:根据如下公式计算目标语料库中所包含的各个词相对于总语料库的第二分布偏差:

其中,b表示目标语料库的词w相对于总语料库的第二分布偏差,freqa(w)表示词w在目标语料库中的出现频率,freq(w)表示词w在总语料库中的出现频率,t表示词w在目标语料库中的出现次数,m表示目标语料库中所包含词的总数量,t'表示词w在总语料库中的出现次数,m'表示总语料库中所包含词的总数量。

步骤430,针对目标语料库中每条样本文本数据,分别根据样本文本数据中各个词的第二分布偏差计算对应词的第二重要性分数,并按照第二重要性分数从大到小的顺序对每条样本文本数据中的各个词进行排序,生成与样本文本数据对应的样本词序列。

可选的,针对目标语料库中每条样本文本数据,分别根据样本文本数据中各个词的第二分布偏差计算对应词的第二重要性分数,包括:针对目标语料库中每条样本文本数据,分别计算样本文本数据中各个词的第二词频-逆文档频率;分别根据各个第二词频-逆文档频率及对应的第二分布偏差,计算样本文本数据中各个词的第二重要性分数。

可选的,分别计算样本文本数据中各个词的第二词频-逆文档频率,包括:分别确定样本文本数据中各个词的第二词频和第二逆文档频率;根据第二词频和第二逆文档频率计算样本文本数据中对应词的第二词频-逆文档频率。

可选的,分别确定样本文本数据中各个词的第二词频和第二逆文档频率,包括:根据如下公式分别计算样本文本数据中各个词的第二词频和第二逆文档频率:

tf(w)=m

idf(w)=log((n/n))

根据第二词频和第二逆文档频率计算样本文本数据中对应词的第二词频-逆文档频率,包括:根据如下公式计算样本文本数据中各个词的第二词频-逆文档频率:

tf-idf(w)=tf(w)*idf(w)

其中,w表示样本数据文本中的任意一个词,tf(w)表示样本数据文本中的词w的第二词频,idf(w)表示样本数据文本中的词w的第二逆文档频率,tf-idf(w)表示样本数据文本中的词w的第二词频-逆文档频率,m表示词w在样本数据文本中出现的次数,n表示目标语料库中包含词w的样本文本数据的条数,n表示目标语料库中所包含的样本文本数据的总条数。

可选的,分别根据各个第二词频-逆文档频率及对应的第二分布偏差,计算样本文本数据中各个词的第二重要性分数,包括:

根据如下公式计算样本文本数据中各个词的第二重要性分数:

其中,s(w)表示样本文本数据中词w的第二重要性分数,tf-idfa(w)表示样本数据文本中的词w的第二词频-逆文档频率,表示样本文本数据中词w的第二分布偏差。

步骤440,基于各个样本词序列构建字典树。

步骤450,确定字典树中各个节点的词在所有样本词序列中同一位置的出现次数。

步骤460,按照字典树中各个节点的词在所有样本词序列中同一位置的出现次数从小到大的顺序,依次删除字典树中同一出现次数对应的节点,直至字典树所包含的节点数量达到预设数量为止。

步骤470,获取待聚类的目标文本数据集;其中,目标文本数据集中包括至少一条目标文本数据。

步骤480,针对目标文本数据集中的每条目标文本数据,计算目标文本数据中各个词的第一重要性分数,并基于第一重要性分数对目标文本数据中的各个词进行排序,生成与目标文本数据对应的待搜索词序列。

步骤490,针对各个待搜索词序列,在预先构建的字典树中按照从根节点到子节点的顺序,搜索与待搜索词序列适配的目标词序列;其中,目标词序列属于待搜索词序列的子序列。

步骤4100,分别根据各个目标词序列对对应的目标文本数据进行聚类,得到文本聚类结果。

本公开实施例提供的文本聚类方法,可以构建与目标语料库匹配的字典树,并对字典树进行剪枝,然后计算待聚类的文本数据中各个词的重要性分数,并基于重要性分数对待聚类的文本数据中的各个词进行排序,生成待搜索词序列,然后基于字典树查找与待搜索词适配的目标词序列,从而基于目标词序列对文本数据进行聚类。通过对字典树进行剪枝,可减小字典树的深度,在保证基于字典树能够准确确定与目标文本数据对应的目标词序列的前提下,可有效提高目标词序列的搜索速度,大大降低了文本聚类的时间复杂度,有效提高了文本聚类的效率和准确性。

图5是本公开另一实施例中的一种文本聚类方法的流程图,如图5所示,该方法包括如下步骤:

步骤510,获取总语料库和目标语料库;其中,总语料库包括目标语料库,目标语料库中包含至少一条样本文本数据。

步骤520,计算目标语料库中所包含的各个词相对于总语料库的第二分布偏差。

步骤530,针对目标语料库中每条样本文本数据,分别确定样本文本数据中各个词的第二词频和第二逆文档频率。

步骤540,根据第二词频和第二逆文档频率计算样本文本数据中对应词的第二词频-逆文档频率。

步骤550,分别根据各个第二词频-逆文档频率及对应的第二分布偏差,计算样本文本数据中各个词的第二重要性分数。

步骤560,按照第二重要性分数从大到小的顺序对每条样本文本数据中的各个词进行排序,生成与样本文本数据对应的样本词序列。

步骤570,基于各个样本词序列构建字典树。

步骤580,将各个第二分布偏差构成的分布偏差列表及各个第二逆文档频率构成的逆文档列表,作为字典树的参数配置信息进行存储。

步骤590,获取待聚类的目标文本数据集;其中,目标文本数据集中包括至少一条目标文本数据。

步骤5100,针对目标文本数据集中的每条目标文本数据,确定各个词在目标文本数据中的出现次数,并将出现次数作为对应词的第一词频。

步骤5110,在逆文档频率列表中,分别查找与目标文本数据中的各个词对应的逆文档频率,作为目标文本数据中各个词的第一逆文档频率。

步骤5120,根据第一词频和第一逆文档频率计算对应词的第一词频-逆文档频率;其中,第一词频-逆文档频率为第一词频与第一逆文档频率的乘积。

步骤5130,在分布偏差列表中,分别查找与目标文本数据中的各个词对应的分布偏差,作为目标文本数据中各个词的第一分布偏差。

步骤5140,分别根据各个第一词频-逆文档频率及对应的第一分布偏差,计算目标文本数据中各个词的第一重要性分数;其中,第一重要性分数为第一词频-逆文档频率与第一分布偏差的乘积。

步骤5150,基于第一重要性分数对目标文本数据中的各个词进行排序,生成与目标文本数据对应的待搜索词序列。

步骤5160,针对各个待搜索词序列,在预先构建的字典树中搜索与待搜索词序列适配的目标词序列;其中,目标词序列属于待搜索词序列的子序列。

步骤5170,分别根据各个目标词序列对对应的目标文本数据进行聚类,得到文本聚类结果。

本公开实施例提供的文本聚类方法,基于字典树对文本数据进行聚类,简化了文本聚类的过程,大大降低了文本聚类的时间复杂度,有效提高了文本聚类的效率和准确性。

图6为本公开另一实施例提供的一种文本聚类装置的结构示意图。如图6所示,该装置包括:文本数据获取模块610,搜索词序列生成模块620,目标词序列确定模块630和文本聚类模块640。

文本数据获取模块610,用于获取待聚类的目标文本数据集;其中,所述目标文本数据集中包括至少一条目标文本数据;

搜索词序列生成模块620,用于针对所述目标文本数据集中的每条目标文本数据,计算所述目标文本数据中各个词的第一重要性分数,并基于所述第一重要性分数对所述目标文本数据中的各个词进行排序,生成与所述目标文本数据对应的待搜索词序列;

目标词序列确定模块630,用于针对各个待搜索词序列,在预先构建的字典树中搜索与所述待搜索词序列适配的目标词序列;其中,所述目标词序列属于所述待搜索词序列的子序列;

文本聚类模块640,用于分别根据各个所述目标词序列对对应的目标文本数据进行聚类,得到文本聚类结果。

本公开实施例,获取待聚类的目标文本数据集;其中,所述目标文本数据集中包括至少一条目标文本数据;针对所述目标文本数据集中的每条目标文本数据,计算所述目标文本数据中各个词的第一重要性分数,并基于所述第一重要性分数对所述目标文本数据中的各个词进行排序,生成与所述目标文本数据对应的待搜索词序列;针对各个待搜索词序列,在预先构建的字典树中搜索与所述待搜索词序列适配的目标词序列;其中,所述目标词序列属于所述待搜索词序列的子序列;分别根据各个所述目标词序列对对应的目标文本数据进行聚类,得到文本聚类结果。本公开实施例提供的文本聚类装置,计算待聚类的文本数据中各个词的重要性分数,并基于重要性分数对待聚类的文本数据中的各个词进行排序,生成待搜索词序列,然后基于预先构建的字典树查找与待搜索词适配的目标词序列,从而基于目标词序列对文本数据进行聚类,简化了文本聚类的过程,大大降低了文本聚类的时间复杂度,有效提高了文本聚类的效率和准确性。

可选的,所述搜索词序列生成模块,包括:

第一词频-逆文档频率计算单元,用于针对所述目标文本数据集中的每条目标文本数据,分别计算所述目标文本数据中各个词的第一词频-逆文档频率;

第一重要性分数计算单元,用于分别根据各个第一词频-逆文档频率,计算所述目标文本数据中各个词的第一重要性分数。

可选的,所述第一词频-逆文档频率计算单元,包括:

第一频率确定子单元,用于分别确定所述目标文本数据中各个词的第一词频和第一逆文档频率;

第一词频-逆文档频率计算子单元,用于根据所述第一词频和所述第一逆文档频率计算对应词的第一词频-逆文档频率;其中,所述第一词频-逆文档频率为所述第一词频与所述第一逆文档频率的乘积。

可选的,所述第一频率确定子单元,用于:

确定各个词在所述目标文本数据中的出现次数,并将所述出现次数作为对应词的第一词频;

获取与所述字典树对应的参数配置信息;其中,所述参数配置信息包括逆文档频率列表,所述逆文档频率列表中包括所述字典树中所包含的各个词的逆文档频率;

在所述逆文档频率列表中,分别查找与所述目标文本数据中的各个词对应的逆文档频率,作为所述目标文本数据中各个词的第一逆文档频率。

可选的,所述参数配置信息还包括分布偏差列表;其中,所述分布偏差列表中包括所述字典树中所包含的各个词的分布偏差;

所述装置还包括:

分布偏差确定模块,用于在分别根据各个第一词频-逆文档频率,计算所述目标文本数据中各个词的第一重要性分数之前,在所述分布偏差列表中,分别查找与所述目标文本数据中的各个词对应的分布偏差,作为所述目标文本数据中各个词的第一分布偏差;

所述第一重要性分数计算单元,用于:

分别根据各个第一词频-逆文档频率及对应的第一分布偏差,计算所述目标文本数据中各个词的第一重要性分数;其中,所述第一重要性分数为所述第一词频-逆文档频率与所述第一分布偏差的乘积。

可选的,所述目标词序列确定模块,用于:

针对各个待搜索词序列,在预先构建的字典树中按照从根节点到子节点的顺序,搜索与所述待搜索词序列适配的目标词序列。

可选的,所述装置还包括:

语料库获取模块,用于在获取待聚类的目标文本数据集之前,获取总语料库和目标语料库;其中,所述总语料库包括所述目标语料库,所述目标语料库中包含至少一条样本文本数据;

分布偏差计算模块,用于计算所述目标语料库中所包含的各个词相对于所述总语料库的第二分布偏差;

样本词序列生成模块,用于针对所述目标语料库中每条样本文本数据,分别根据所述样本文本数据中各个词的第二分布偏差计算对应词的第二重要性分数,并按照所述第二重要性分数从大到小的顺序对每条样本文本数据中的各个词进行排序,生成与所述样本文本数据对应的样本词序列;

字典树构建模块,用于基于各个样本词序列构建所述字典树。

可选的,所述样本词序列生成模块,包括:

第二词频-逆文档频率计算单元,用于针对所述目标语料库中每条样本文本数据,分别计算所述样本文本数据中各个词的第二词频-逆文档频率;

第二重要性分数计算单元,用于分别根据各个第二词频-逆文档频率及对应的第二分布偏差,计算所述样本文本数据中各个词的第二重要性分数。

可选的,第二词频-逆文档频率计算单元,包括:

第二频率确定子单元,用于分别确定所述样本文本数据中各个词的第二词频和第二逆文档频率;

第二词频-逆文档频率计算子单元,用于根据所述第二词频和所述第二逆文档频率计算所述样本文本数据中对应词的第二词频-逆文档频率。

可选的,所述第二频率确定子单元,用于:

根据如下公式分别计算所述样本文本数据中各个词的第二词频和第二逆文档频率:

tf(w)=m

idf(w)=log((n/n))

所述第二词频-逆文档频率计算子单元,用于:

根据如下公式计算所述样本文本数据中各个词的第二词频-逆文档频率:

tf-idf(w)=tf(w)*idf(w)

其中,w表示所述样本数据文本中的任意一个词,tf(w)表示所述样本数据文本中的词w的第二词频,idf(w)表示所述样本数据文本中的词w的第二逆文档频率,tf-idf(w)表示所述样本数据文本中的词w的第二词频-逆文档频率,m表示词w在所述样本数据文本中出现的次数,n表示所述目标语料库中包含词w的样本文本数据的条数,n表示所述目标语料库中所包含的样本文本数据的总条数。

可选的,所述第二重要性分数计算单元,用于:

根据如下公式计算所述样本文本数据中各个词的第二重要性分数:

其中,s(w)表示所述样本文本数据中词w的第二重要性分数,tf-idfa(w)表示所述样本数据文本中的词w的第二词频-逆文档频率,表示样本文本数据中词w的第二分布偏差。

可选的,所示分布偏差计算模块,用于:

根据如下公式计算所述目标语料库中所包含的各个词相对于所述总语料库的第二分布偏差:

其中,b表示目标语料库的词w相对于所述总语料库的第二分布偏差,freqa(w)表示词w在所述目标语料库中的出现频率,freq(w)表示词w在所述总语料库中的出现频率,t表示词w在所述目标语料库中的出现次数,m表示所述目标语料库中所包含词的总数量,t'表示词w在所述总语料库中的出现次数,m'表示所述总语料库中所包含词的总数量。

可选的,所述装置还包括:

出现次数确定模块,用于在基于各个样本词序列构建所述字典树之后,确定所述字典树中各个节点的词在所有样本词序列中同一位置的出现次数;

字典树剪枝模块,用于根据所述字典树中各个节点的词在所有样本词序列中同一位置的出现次数对所述字典树进行剪枝,直至所述字典树所包含的节点数量达到预设数量为止。

可选的,所述字典树剪枝模块,用于:

按照所述字典树中各个节点的词在所有样本词序列中同一位置的出现次数从小到大的顺序,依次删除所述字典树中同一出现次数对应的节点,直至所述字典树所包含的节点数量达到预设数量为止。

上述装置可执行本公开前述所有实施例所提供的方法,具备执行上述方法相应的功能模块和有益效果。未在本公开实施例中详尽描述的技术细节,可参见本公开前述所有实施例所提供的方法。

下面参考图7,其示出了适于用来实现本公开实施例的电子设备300的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端,或者各种形式的服务器,如独立服务器或者服务器集群。图7示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示,电子设备300可以包括处理装置(例如中央处理器、图形处理器等)301,其可以根据存储在只读存储装置(rom)302中的程序或者从存储装置305加载到随机访问存储装置(ram)303中的程序而执行各种适当的动作和处理。在ram303中,还存储有电子设备300操作所需的各种程序和数据。处理装置301、rom302以及ram303通过总线304彼此相连。输入/输出(i/o)接口305也连接至总线304。

通常,以下装置可以连接至i/o接口305:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置306;包括例如液晶显示器(lcd)、扬声器、振动器等的输出装置307;包括例如磁带、硬盘等的存储装置308;以及通信装置309。通信装置309可以允许电子设备300与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装置的电子设备300,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行词语的推荐方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置309从网络上被下载和安装,或者从存储装置305被安装,或者从rom302被安装。在该计算机程序被处理装置301执行时,执行本公开实施例的方法中限定的上述功能。

需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。

在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、rf(射频)等等,或者上述的任意合适的组合。

在一些实施方式中,客户端、服务器可以利用诸如http(hypertexttransferprotocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“lan”),广域网(“wan”),网际网(例如,互联网)以及端对端网络(例如,adhoc端对端网络),以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取待聚类的目标文本数据集;其中,所述目标文本数据集中包括至少一条目标文本数据;针对所述目标文本数据集中的每条目标文本数据,计算所述目标文本数据中各个词的第一重要性分数,并基于所述第一重要性分数对所述目标文本数据中的各个词进行排序,生成与所述目标文本数据对应的待搜索词序列;针对各个待搜索词序列,在预先构建的字典树中搜索与所述待搜索词序列适配的目标词序列;其中,所述目标词序列属于所述待搜索词序列的子序列;分别根据各个所述目标词序列对对应的目标文本数据进行聚类,得到文本聚类结果。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统(soc)、复杂可编程逻辑设备(cpld)等等。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

根据本公开实施例的一个或多个实施例,本公开实施例提供了一种文本聚类方法,包括:

获取待聚类的目标文本数据集;其中,所述目标文本数据集中包括至少一条目标文本数据;

针对所述目标文本数据集中的每条目标文本数据,计算所述目标文本数据中各个词的第一重要性分数,并基于所述第一重要性分数对所述目标文本数据中的各个词进行排序,生成与所述目标文本数据对应的待搜索词序列;

针对各个待搜索词序列,在预先构建的字典树中搜索与所述待搜索词序列适配的目标词序列;其中,所述目标词序列属于所述待搜索词序列的子序列;

分别根据各个所述目标词序列对对应的目标文本数据进行聚类,得到文本聚类结果。

进一步地,针对所述目标文本数据集中的每条目标文本数据,计算所述目标文本数据中各个词的第一重要性分数,包括:

针对所述目标文本数据集中的每条目标文本数据,分别计算所述目标文本数据中各个词的第一词频-逆文档频率;

分别根据各个第一词频-逆文档频率,计算所述目标文本数据中各个词的第一重要性分数。

进一步地,分别计算所述目标文本数据中各个词的第一词频-逆文档频率,包括:

分别确定所述目标文本数据中各个词的第一词频和第一逆文档频率;

根据所述第一词频和所述第一逆文档频率计算对应词的第一词频-逆文档频率;其中,所述第一词频-逆文档频率为所述第一词频与所述第一逆文档频率的乘积。

进一步地,分别确定所述目标文本数据中各个词的第一词频和第一逆文档频率,包括:

确定各个词在所述目标文本数据中的出现次数,并将所述出现次数作为对应词的第一词频;

获取与所述字典树对应的参数配置信息;其中,所述参数配置信息包括逆文档频率列表,所述逆文档频率列表中包括所述字典树中所包含的各个词的逆文档频率;

在所述逆文档频率列表中,分别查找与所述目标文本数据中的各个词对应的逆文档频率,作为所述目标文本数据中各个词的第一逆文档频率。

进一步地,所述参数配置信息还包括分布偏差列表;其中,所述分布偏差列表中包括所述字典树中所包含的各个词的分布偏差;

在分别根据各个第一词频-逆文档频率,计算所述目标文本数据中各个词的第一重要性分数之前,还包括:

在所述分布偏差列表中,分别查找与所述目标文本数据中的各个词对应的分布偏差,作为所述目标文本数据中各个词的第一分布偏差;

分别根据各个第一词频-逆文档频率,计算所述目标文本数据中各个词的第一重要性分数,包括:

分别根据各个第一词频-逆文档频率及对应的第一分布偏差,计算所述目标文本数据中各个词的第一重要性分数;其中,所述第一重要性分数为所述第一词频-逆文档频率与所述第一分布偏差的乘积。

进一步地,针对各个待搜索词序列,在预先构建的字典树中搜索与所述待搜索词序列适配的目标词序列,包括:

针对各个待搜索词序列,在预先构建的字典树中按照从根节点到子节点的顺序,搜索与所述待搜索词序列适配的目标词序列。

进一步地,在获取待聚类的目标文本数据集之前,还包括:

获取总语料库和目标语料库;其中,所述总语料库包括所述目标语料库,所述目标语料库中包含至少一条样本文本数据;

计算所述目标语料库中所包含的各个词相对于所述总语料库的第二分布偏差;

针对所述目标语料库中每条样本文本数据,分别根据所述样本文本数据中各个词的第二分布偏差计算对应词的第二重要性分数,并按照所述第二重要性分数从大到小的顺序对每条样本文本数据中的各个词进行排序,生成与所述样本文本数据对应的样本词序列;

基于各个样本词序列构建所述字典树。

进一步地,针对所述目标语料库中每条样本文本数据,分别根据所述样本文本数据中各个词的第二分布偏差计算对应词的第二重要性分数,包括:

针对所述目标语料库中每条样本文本数据,分别计算所述样本文本数据中各个词的第二词频-逆文档频率;

分别根据各个第二词频-逆文档频率及对应的第二分布偏差,计算所述样本文本数据中各个词的第二重要性分数。

进一步地,分别计算所述样本文本数据中各个词的第二词频-逆文档频率,包括:

分别确定所述样本文本数据中各个词的第二词频和第二逆文档频率;

根据所述第二词频和所述第二逆文档频率计算所述样本文本数据中对应词的第二词频-逆文档频率。

进一步地,分别确定所述样本文本数据中各个词的第二词频和第二逆文档频率,包括:

根据如下公式分别计算所述样本文本数据中各个词的第二词频和第二逆文档频率:

tf(w)=m

idf(w)=log((n/n))

根据所述第二词频和所述第二逆文档频率计算所述样本文本数据中对应词的第二词频-逆文档频率,包括:

根据如下公式计算所述样本文本数据中各个词的第二词频-逆文档频率:

tf-idf(w)=tf(w)*idf(w)

其中,w表示所述样本数据文本中的任意一个词,tf(w)表示所述样本数据文本中的词w的第二词频,idf(w)表示所述样本数据文本中的词w的第二逆文档频率,tf-idf(w)表示所述样本数据文本中的词w的第二词频-逆文档频率,m表示词w在所述样本数据文本中出现的次数,n表示所述目标语料库中包含词w的样本文本数据的条数,n表示所述目标语料库中所包含的样本文本数据的总条数。

进一步地,分别根据各个第二词频-逆文档频率及对应的第二分布偏差,计算所述样本文本数据中各个词的第二重要性分数,包括:

根据如下公式计算所述样本文本数据中各个词的第二重要性分数:

其中,s(w)表示所述样本文本数据中词w的第二重要性分数,tf-idfa(w)表示所述样本数据文本中的词w的第二词频-逆文档频率,表示样本文本数据中词w的第二分布偏差。

进一步地,计算所述目标语料库中所包含的各个词相对于所述总语料库的第二分布偏差,包括:

根据如下公式计算所述目标语料库中所包含的各个词相对于所述总语料库的第二分布偏差:

其中,b表示目标语料库的词w相对于所述总语料库的第二分布偏差,freqa(w)表示词w在所述目标语料库中的出现频率,freq(w)表示词w在所述总语料库中的出现频率,t表示词w在所述目标语料库中的出现次数,m表示所述目标语料库中所包含词的总数量,t'表示词w在所述总语料库中的出现次数,m'表示所述总语料库中所包含词的总数量。

进一步地,在基于各个样本词序列构建所述字典树之后,还包括:

确定所述字典树中各个节点的词在所有样本词序列中同一位置的出现次数;

根据所述字典树中各个节点的词在所有样本词序列中同一位置的出现次数对所述字典树进行剪枝,直至所述字典树所包含的节点数量达到预设数量为止。

进一步地,根据所述字典树中各个节点的词在所有样本词序列中同一位置的出现次数对所述字典树进行剪枝,直至所述字典树所包含的节点数量达到预设数量为止,包括:

按照所述字典树中各个节点的词在所有样本词序列中同一位置的出现次数从小到大的顺序,依次删除所述字典树中同一出现次数对应的节点,直至所述字典树所包含的节点数量达到预设数量为止。

注意,上述仅为本公开的较佳实施例及所运用技术原理。本领域技术人员会理解,本公开不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本公开的保护范围。因此,虽然通过以上实施例对本公开进行了较为详细的说明,但是本公开不仅仅限于以上实施例,在不脱离本公开构思的情况下,还可以包括更多其他等效实施例,而本公开的范围由所附的权利要求范围决定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1