一种文本分类的方法和装置的制造方法
【技术领域】
[0001] 本发明涉及互联网技术领域,特别涉及一种文本分类的方法和装置。
【背景技术】
[0002] 随着互联网技术的发展,互联网上的文本越来越多,大量的文本给用户提供方便 的同时也给用户的查找带来了很大的不便,面对这个问题,文本分类被提出来了,文本分类 能够按照预先定义的主题类别,为文本确定一个类别,将文本按照类别进行分类,从而方便 用户查找。
[0003] 现有技术提供了一种文本分类的方法,可以为:服务器获取大量人工标注的文本 样本,获取这些文本样本的特征,根据这些文本样本的特征对分类器进行训练;对分类器训 练完成之后,服务器可以采用该分类器对需要分类的文本进行分类,具体过程为:服务器取 待分类的文本的特征,根据待分类的文本的特征,通过训练后的分类器对待分类的文本进 行分类。
[0004] 在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
[0005] 待分类的文本的特征往往是待分类的文本中的一个关键的词语,仅仅根据待分类 的文本中的一个关键的词语对待分类的文本进行分类显然不准确,例如,一个关于描述开 发游戏资金消耗问题的文本,服务器获取的这个文本的特征可能是"游戏",根据该特征"游 戏"确定该文本的类别为"游戏",然而该文本的重点主要是资金消耗问题,将该文本的类别 确定为"财经"更合适,因此,通过该文本的特征对该文本进行分类的准确性低。
【发明内容】
[0006] 为了解决现有技术的问题,本发明提供了一种文本分类的方法和装置。技术方案 如下:
[0007] -种文本分类的方法,所述方法包括:
[0008] 获取待分类的文本包括的每个词语的词向量、词频、权重和逆文档频率;
[0009] 根据所述每个词语的词向量和第一类别的词向量,分别计算所述每个词语与所述 第一类别之间的第一隶属度,所述第一类别为类别集合中的任一类别;
[0010] 根据所述每个词语与所述第一类别之间的第一隶属度以及所述每个词语的词频、 权重和逆文档频率,计算所述文本与所述第一类别之间的第二隶属度;
[0011] 从所述类别集合中选择与所述文本之间的第二隶属度满足预设条件的类别,将所 述选择的类别确定为所述文本的类别。
[0012] -种文本分类的装置,所述装置包括:
[0013] 第一获取模块,用于获取待分类的文本包括的每个词语的词向量、词频、权重和逆 文档频率;
[0014] 第一计算模块,用于根据所述每个词语的词向量和第一类别的词向量,分别计算 所述每个词语与所述第一类别之间的第一隶属度,所述第一类别为类别集合中的任一类 别;
[0015] 第二计算模块,用于根据所述每个词语与所述第一类别之间的第一隶属度以及 所述每个词语的词频、权重和逆文档频率,计算所述文本与所述第一类别之间的第二隶属 度;
[0016] 分类模块,用于从所述类别集合中选择与所述文本之间的第二隶属度满足预设条 件的类别,将所述选择的类别确定为所述文本的类别。
[0017] 在本发明实施例中,根据待分类的文本包括的每个词语的词向量、词频、权重和逆 文档频率和第一类别的词向量,计算该文本与第一类别之间的第二隶属度,第一类别为类 别集合中的任一类别,根据与该文本之间的第二隶属度,从类别集合中选择类别;由于本发 明在对待分类的文本进行分类时,考虑了该文本包括的每个词语,因此提高了分类的准确 性。
【附图说明】
[0018] 图1是本发明实施例1提供的一种文本分类的方法流程图;
[0019] 图2-1是本发明实施例2提供的一种文本分类的方法流程图;
[0020] 图2-2是本发明实施例2提供的一种生成每个类别的词语集合的示意图;
[0021] 图3是本发明实施例3提供的一种文本分类的装置结构示意图;
[0022] 图4是本发明实施例4提供的一种服务器的结构示意图。
【具体实施方式】
[0023] 为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方 式作进一步地详细描述。
[0024] 实施例1
[0025] 本发明实施例提供了一种文本分类的方法,参见图1,其中,该方法包括:
[0026] 步骤101 :获取待分类的文本包括的每个词语的词向量、词频、权重和逆文档频 率;
[0027] 步骤102 :根据每个词语的词向量和第一类别的词向量,分别计算每个词语与第 一类别之间的第一隶属度,第一类别为类别集合中的任一类别;
[0028] 步骤103 :根据每个词语与第一类别之间的第一隶属度以及每个词语的词频、权 重和逆文档频率,计算该文本与第一类别之间的第二隶属度;
[0029] 步骤104 :从类别集合中选择与该文本之间的第二隶属度满足预设条件的类别, 将选择的类别确定为该文本的类别。
[0030] 在本发明实施例中,根据待分类的文本包括的每个词语的词向量、词频、权重和逆 文档频率和第一类别的词向量,计算该文本与第一类别之间的第二隶属度,第一类别为类 别集合中的任一类别,根据与该文本之间的第二隶属度,从类别集合中选择类别;由于本发 明在对待分类的文本进行分类时,考虑了该文本包括的每个词语,因此提高了分类的准确 性。
[0031] 实施例2
[0032] 本发明实施例提供了一种文本分类的方法,当服务器对需要分类的文本进行分类 时,为了提高分类的准确性,服务器可以采用本发明实施例提供的文本分类的方法对待分 类的文本进行分类,从而提高分类的准确性。该方法的执行主体为服务器;参见图2-1,其 中,该方法包括:
[0033] 步骤201 :获取多个文本样本;
[0034] 文本样本用于训练类别集合中的每个类别对应的词语集合;并且,多个文本样本 中的每个文本样本对应的一个类别,在本发明实施例中多个文本样本可以为任一类别的文 本样本,为了提高分类的准确性,多个文本样本可以包括类别集合中的每个类别对应的文 本样本。例如,类别集合中包括:财经、娱乐、体育、时尚、汽车、房产、科技、教育等。在选择 文本样本时,多个文本样本可以包括类别为财经的文本样本,类别为娱乐的文本样本,类别 为体育的文本样本,类别为时尚的文本样本,类别为汽车的文本样本,类别为房产的文本样 本,类别为房产的文本样本,类别为教育的文本样本。
[0035] 在本发明实施例中,用户可以选择多个文本样本,然后输入多个文本样本给服务 器;服务器接收用户输入的多个文本样本。
[0036] 步骤202 :将多个文本样本中的每个文本样本进行分词,将得到的词语组成训练 集合;
[0037] 利用现有的分词工具,将多个文本样本中的每个文本样本进行分词,得到每个文 本样本包括的词语;将每个文本包括的词语组成训练集合。
[0038] 其中,利用分词工具对文本样本进行分词的过程为现有技术,在此不再详细说明。
[0039] 得到训练集合之后,执行步骤203,采用现有的聚类方法对训练集合中的词语进行 聚类。
[0040] 步骤203 :对训练集合中的词语进行聚类,得到多个词语集合以及多个词语集合 中的每个词语集合的类别;
[0041] 其中,本步骤可以通过以下步骤(1)至(3)实现,包括:
[0042] (1):获取训练集合中的各词语的词向量;
[0043] 其中,词语的词向量用于描述词语特性的向量表述,在本发明实施例中词语的词 向量特指基于词嵌入技术构造的词语向量的表述。
[0044] 在本发明实施例中可以采用任一获取词向量的方法获取训练集合中的各词语的 词向量,例如使用神经网络语言模型中词嵌入技术word2VeC方法,获取该词语的词向量。 并且使用神经网络语言模型中词嵌入技术word2VeC方法,获取该词语的词向量具体过程 为现有技术,在此不再详细说明。
[0045] 其中,训练集合中的各词语的词向量都为n维向量,可以表示为Wi= (Wl,w2,……, wn)。Wi为第i个词语的词向量,Wn为第n维向量的向量值。
[0046] 由于"的"、"了"和"吗"之类的语气词对文本进行分类时不起关键作用,因此,为 了减少运算量以及提高分类的准确性,在本步骤中可以将"的"、"了""吗"之类的语气词去 除,只获取训练集合中剩余词语的词向量,则本步骤可以为:
[0047] 从训练集合中获取预设类型的词语,从训练集合中去除该获取的词语,得到训练 集合中剩余词语,获取剩余词语的词向量。
[0048] 其中,预设类型的词语可以为语气词或者助词等