一种信息分类方法及装置的制造方法
【专利摘要】本发明公开了一种信息分类方法及装置,涉及信息分类领域,所述方法包括:根据目标文本的分词结果中的特征词,确定所述分词结果对应的特征序列;确定所述特征序列中与自定义的公共对象库中的特征对象匹配的特征对象;根据所述特征码中的特征对象确定所述目标文本的类别属性。通过分词结果对应的特征序列进行匹配,提高了分类准确度,通过自定义的公共对象库中的特征对象进行匹配实现了分类的灵活性,提高了目标文本分类的效率。
【专利说明】
_种信息分类方法及装置
技术领域
[0001 ]本发明涉信息分类领域,尤其涉及一种信息分类方法及装置。
【背景技术】
[0002] 伴随信息技术的飞速发展,特别是移动通信技术和计算机互联网技术飞速发展, 移动通信网络已经发生了革命性的变革。信息中蕴含着巨大的信息内容和价值,面对信息 的数据量增长等问题,人们提出了对信息进行分类的需求,以便对分类后的信息或与信息 相对应的对象进行处理和分析。
[0003] 现有技术中,对信息的分类方法主要是更具人工定义好特定的短信模版,然后建 立正则表达式处理,结构化出所需数据项,并对模版进行数据集的分类。具体来说,对信息 的分类方法主要有两种,一种是根据关键词进行判断,即首先人工的对所有信息进行归类, 然后在对每类信息提取特定的关键词作为入此数据集的标识。但是上述方法中,不同数据 集的信息有可能都会匹配到同一个或一组关键词,造成分类不准确。
[0004] 另一种方法是对每个信息定义正则表达式,并对每一条正则表达式定义数据集。 即为每一个信息都进行一次分类,但是上述方法中,需要对每一个信息定义正则表达式,随 着信息量的不断增加,工作量激增,分类的效率不高。
[0005] 总体来说,现有技术中的对信息的分类方法,分类的精度低,效率不高。
【发明内容】
[0006] 本发明提供一种信息分类方法及装置,用于解决现有技术中的对信息的分类方 法,分类的精度低,效率不高的问题。
[0007] 本发明实施例提供一种信息分类方法,所述方法包括:
[0008] 根据目标文本的分词结果中的特征词,确定所述分词结果对应的特征序列;
[0009] 确定所述特征序列中与自定义的公共对象库中的特征对象匹配的特征对象;
[0010] 根据所述特征码中的特征对象确定所述目标文本的类别属性。
[0011] 本发明实施例中,根据目标文本的分词结果中的特征词确定分词结果对应的特征 序列,并根据特征序列匹配特征对象,根据确定的特征对象确定目标文本的类别属性,在本 发明实施例中,通过分词结果对应的特征序列进行匹配,提高了分类准确度,通过自定义的 公共对象库中的特征对象进行匹配实现了分类的灵活性,提高了目标文本分类的效率。
[0012] 进一步地,所述根据目标文本的分词结果中的特征词,确定所述分词结果对应的 特征序列,包括:
[0013] 根据特征词与特征码的对应关系,确定所述分词结果中所述特征词对应的特征 码。
[0014] 本发明实施例中,确定分词结果中的特征词并将所述特征词用特征码来表示,能 够有效的对目标文本进行初步分类,提高目标文本分类的准确度。
[0015] 进一步地,所述根据所述分词结果中的特征标记确定所述分词结果对应的特征序 列,包括:
[0016] 根据所述分词结果中的特征词的顺序,将所述分词结果中特征词对应的特征码组 合成所述特征序列。
[0017] 本发明实施例中,根据特征词将目标文本的分词结果转化为特征序列,再将特征 序列进行分类能够有效的提高分类的准确度。
[0018] 进一步地,所述根据所述特征码中的特征对象确定所述目标文本的类别属性,包 括:
[0019] 根据所述特征码中特征对象的属性,确定所述特征码对应的类别属性;
[0020] 将所述特征码对应的类别属性确定为所述特征码对应的所述目标文本的类型属 性。
[0021 ]本发明实施例中,根据特征码中特征对象的属性对应的类别属性确定为目标文本 的类别属性,提高了目标文本分类的准确性。
[0022] 进一步地,所述目标文本按照下列步骤进行分词:
[0023] 根据所述目标文本中的特征信息,确定所述目标文本对应的初步分词文本;
[0024] 根据特定字符对所述初步分词文本进行分词,得到所述目标文本的分词结果;其 中,所述目标文本由所述特征信息构成。
[0025] 本发明实施例中,不需要词典库和语料库可以正确对目标文本进行分词,提高了 分词的精度并提高了对目标文本分词的速度,继而可以提高目标文本分类的准确性。
[0026] 本发明还提供一种信息分类装置,包括:
[0027] 特征序列确定单元,用于根据目标文本的分词结果中的特征词,确定所述分词结 果对应的特征序列;
[0028] 特征对象确定单元,用于确定所述特征序列中与自定义的公共对象库中的特征对 象匹配的特征对象;
[0029]类别属性确定单元,用于根据所述特征码中的特征对象确定所述目标文本的类别 属性。
[0030] 本发明实施例中,根据目标文本的分词结果中的特征词确定分词结果对应的特征 序列,并根据特征序列匹配特征对象,根据确定的特征对象确定目标文本的类别属性,在本 发明实施例中,通过分词结果对应的特征序列进行匹配,提高了分类准确度,通过自定义的 公共对象库中的特征对象进行匹配实现了分类的灵活性,提高了目标文本分类的效率。
[0031] 进一步地,所述特征序列确定单元,具体用于:
[0032]根据特征词与特征码的对应关系,确定所述分词结果中所述特征词对应的特征 码。
[0033] 进一步地,所述特征序列确定单元,具体用于:
[0034] 根据所述分词结果中的特征词的顺序,将所述分词结果中特征词对应的特征码组 合成所述特征序列。
[0035] 进一步地,所述类别属性确定单元,具体用于:
[0036]根据所述特征码中特征对象的属性,确定所述特征码对应的类别属性;
[0037]将所述特征码对应的类别属性确定为所述特征码对应的所述目标文本的类型属 性。
[0038] 进一步地,所述装置还包括:
[0039] 分词单元,用于根据所述目标文本中的特征信息,确定所述目标文本对应的初步 分词文本;
[0040] 根据特定字符对所述初步分词文本进行分词,得到所述目标文本的分词结果;其 中,所述目标文本由所述特征信息构成。
【附图说明】
[0041] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本 领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其 他的附图。
[0042] 图1为本发明实施例提供一种信息分类方法的流程图;
[0043] 图2为本发明实施例提供的另一种金融服务信息分类方法的流程图;
[0044] 图3为本发明实施例提供一种信息分类装置的结构示意图。
【具体实施方式】
[0045] 为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进 一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施 例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的 所有其它实施例,都属于本发明保护的范围。
[0046] 本发明提供一种信息分类方法,如图1所示,包括:
[0047] 步骤101,根据目标文本的分词结果中的特征词,确定所述分词结果对应的特征序 列;
[0048] 步骤102,确定所述特征序列中与自定义的公共对象库中的特征对象匹配的特征 对象;
[0049]步骤103,根据所述特征码中的特征对象确定所述目标文本的类别属性。
[0050]在本发明实施例中,需要进行分词的目标文本指的是由文字、数字、英文等字符构 成的文本,可以为在通讯过程中产生的短信,可选的,在本发明实施例中,需要进行分词的 目标文本为金融服务短信,即银行或者其它金融机构向用户发送的服务短信。
[0051 ]在本发明实施例中,首先需要将目标文本进行分词,然后根据目标文本的分词结 果,再对目标文本进行分类。在本发明实施例中,对目标文本的分词可以使用字符匹配法、 统计法或者是理解法进行分词,可选的,在本发明实施例中,使用的分词方法为:
[0052] 根据所述目标文本中的特征信息,确定所述目标文本对应的初步分词文本;
[0053] 根据特定字符对所述初步分词文本进行分词,得到所述目标文本的分词结果;其 中,所述目标文本由所述特征信息构成。
[0054] 在本发明实施例中,需要进行分词的目标文本可以是移动终端中保存的目标文 本,也可以是移动终端将自身保存的目标文本发送给服务器后,服务器中保存的多个移动 终端中的目标文本。
[0055] 可选的,在本发明实施例中,还可以获取一定时间段内移动终端保存的,或者是服 务器中保存的目标文本。
[0056] 例如,在本发明实施例中,需要获取的发送时间在2016年5月的所有目标文本,则 在终端保存的所有目标文本中查找发送时间为2016年5月1日00:00:00至发送时间为2016 年5月31日24:00:00的目标文本。当然在本发明实施例中,也可以在服务器保存的所有目标 文本中查找发送时间为2016年5月1日00:00:00至发送时间为2016年5月31日24:00:00的目 标文本。
[0057] 在获取到需要进行分词的目标文本后,需要删除目标文本中的标点,以保证分词 结果的正确性,例如,在本发明实施例中,获取了 100个需要进行分词的目标文本,其中,100 个目标文本中的一个目标文本的内容为:
[0058]尊敬的张三,您好,您在我行的中行信用卡1234的USD账户于03月08日12时账单分 期成功:分期金额USD111.11,分期期数11期,手续费USD1.11,USD账户账单剩余还款金额 USD111.11,最小还款额USD11.11。【中国银行】
[0059]删除上述文本中的标点符号,删除掉上述标点符号的目标文本变为:
[0060]尊敬的张三您好您在我行的中行信用卡1234的USD账户于03月08日12时账单分期 成功分期金额USD111 . 11分期期数11期手续费USD1 . 11,USD账户账单剩余还款金额 USD111.11最小还款额USD11.11中国银行
[0061] 可选的,为了在删除标点符号的目标文本中标识出原标点符号的位置,在本发明 实施例中,可以在原标点符号的位置上加入切分标记。在本发明实施例中,切分标记可以为 数字、字母和ASCII字符,可选的,可以使用"\"标记作为切分标记。
[0062] 则在本发明上述实施例中删除标点符号后的目标文本中加入"\"标记,加入标记 后的目标文本为:
[0063]尊敬的张三\您好\您在我行的中行信用卡1234的USD账户于03月08日12时账单分 期成功\分期金额USD111.11\分期期数11期\手续费USD1.11,USD账户账单剩余还款金额 USD111.11 \最小还款额USD11.11 \中国银行\
[0064] 在删除目标文本中的标点符号并在原标点符号的位置上加入切分标记后,需要确 定所述目标文本中的特征信息,在本发明实施例中,特征信息指的是区分目标文本中不同 属性的字符串,例如目标文本中包括三种不同属性的字符串,分别为数字、英文以及汉字, 则特征信息就是数字、英文以及汉字。
[0065] 在本发明实施例中,若目标文本为金融服务短信,则在短信文本中可能会存在时 间的特征,例如X年X月X日X时X分等,若在短信文本中可以按照时间特征的模版查找到对应 的数字,则认为在短信文本中这些特征属于时间特征而不是属于数字特征。
[0066] 在本发明实施例中,若目标文本为金融服务短信,则在短信文本中可能会存在金 额特征信息,在本发明实施例中,金额为表示数值的数字,为了与数字特征信息进行区分, 一般来说,金额中有小数点的信息,所以在本发明实施例中,在确定目标文本中的数字部分 有小数点存在时,则认为该数字部分属于金额特征信息。
[0067] 在本发明实施例中,若在本发明实施例中,删除标点符号的目标文本中加入"标 记后的目标文本为:
[0068]尊敬的张三\您好\您在我行的中行信用卡1234的USD账户于03月08日12时账单分 期成功\分期金额USD111.11\分期期数11期\手续费USD1.11\USD账户账单剩余还款金额 USD111.11 \最小还款额USD11.11 \中国银行\
[0069] 若特征信息包括汉字、英文、数字、时间以及金额,则根据特征信息能够确定上述 目标文本中的汉字特征信息为:尊敬的张三\您好\您在我行的中行信用卡,的,账户于,时 账单分期成功\分期金额,分期期数,期,手续费,账户账单剩余还款金额,最小还款额,中国 银行;
[0070] 根据特征信息确定的上述目标文本中的英文特征信息为:USD,USD,USD,USD,USD, USD;
[0071] 根据特征信息确定的上述目标文本中的数字特征信息为:1234,11;
[0072] 根据特征信息确定的上述目标文本中的金额特征信息为:111. 11,11,1.11, 111.11,11.11;
[0073] 根据特征信息确定的上述目标文本中的时间特征信息为:03月08日12时。
[0074] 可选的,在确定了目标文本中的特征信息后,在不同的特征信息之间也需要插入 切分标记,目标文本中根据插入的切分标记自然的分成若干个字符串,便于确定目标文本 的特征序列,在本发明实施例中,在目标文本中的不同信息之间插入切分标记具体如下所 示:
[0075]尊敬的张三\您好\您在我行的中行信用卡\1234\的\1^0\账户于\03月08日12时\ 账单分期成功\分期金额\1^0\111.11\分期期数\11\期\手续费\USD\1.11\1^0\账户账单 剩余还款金额\USD\111.11\最小还款额\USD\11.11\中国银行\
[0076] 在本发明实施例中,可以根据不同的特征信息与不同的表征特征信息的特征标识 之间的对应关系,对上述实施例中的特征信息利用特征标识进行特征标记,可选的,在本发 明实施例中,可以使用不同的字母代表不同的特征信息。
[0077] 在本发明上述实施例中,确定了目标文本的特征码序列即确定了目标文本的初步 分词文本,但是在初步分词文本中,还存在着一些不能通过上述方法分词的字符串,例如字 符串"尊敬的张三",或者是字符串"您在我行的中行信用卡"等,在本发明实施例中,还需要 确定初步分词文本中的特定字符,根据特定字符对所述初步分词文本进行分词,得到所述 目标文本的分词结果。
[0078] 在本发明实施例中,特定字符可以根据不同的分词需要自行定义,例如,需要对金 融短信进行分词,则特定字符一般可以包括"行"、"账单"、"成功"等特定字符。
[0079] 在本发明实施例中,在对初步分词文本中的特定字符的的前和/或后的位置上加 入切分标记前,还需要在初步分词文本中去掉无实际意义的词语,提高分词的准确性。在本 发明实施例中,可选的,可以去掉初步分词文本中存在的"的"等词语,并且在删除"的"的位 置上插入切分标记,例如在本发明实施例中,将字符串"尊敬的张三""您在我行的中行信用 卡"中的"的"删除,并在"的"的位置上插入切分标记,结果为"尊敬\张三""您在我行\中行 信用卡"。
[0080] 在本发明上述实施例中,在确定了将初步分词文本中的无实际意义的词语删除 后,再确定初步分词文本中包含的特定字符,以上述实施例为例,上述初步分词文本中存在 的特定字符为"在","分期","分期金额","账户",可选的,在"分期"的特定字符的前和后都 加入切分标记,其它特定字符的后面加入切分标记,则根据特定字符对所述初步分词文本 进行分词,得到所述目标文本的分词结果为:
[0081 ] 尊敬\张三\您好\您在\我行\中行信用卡\1234\USD\账户\于\03月08日12时\账 单\分期\成功\分期金额\1^0\111.11\分期期数\11\期\手续费\1^0\1.11\1^0\账户\账 单\剩余还款金额\USD\111.11\最小还款额\USD\11.11\中国银行\
[0082] 在确定了目标文本的分词结果后,需要确定分词结果中的特征词,在本发明实施 例中,特征词指的是能够表示在信息中存在的不变词汇以及可变词汇,以金融信息为例,在 金融信息中,姓名、卡号、卡名称、金额、时间、币种、期数等词语是可变信息,例如姓名为张 三或者姓名为李四,张三的卡号为123456以及张三的另一张银行卡的卡号为234567;同样 的,在金融信息中,对金融的处理行为,例如分期,还款等词语为不变词汇。在本发明实施例 中,特征词就包括了可变词汇以及不变词汇。
[0083] 以上述实施例中的分词结果为例,确定上述分词结果中的特征词,上述分词结果 中,卡的种类"中行信息用卡"、"1234"的卡号、币种"USD"、分期时间"03月08日12时"、分期 金额"111.1Γ、分期数"1Γ、手续费"1.1Γ、剩余还款金额"111.1Γ、最小还款金额"11.1Γ 等为可变词汇,而"分期金额"、"分期期数"、"手续费"、"最小还款额"等为不变词汇,根据目 标文本的分词结果中的特征词与特征码的对应关系,确定目标文本的分词结果中的特征 码。
[0084] 在本发明实施例中,特征词与特征码之间存在着对应关系,如表1所示,在本发明 实施例中,分词时使用的特征标记与下文中的特征码可以相同,也可以不同,在本发明实施 例中,为了表示对金融操作行为是否成功的状态,将"成功"或者"失败"等词语也认为是可 变词语,在表1中标识:
[0087] 表1:特征词与特征码的对应关系表
[0088] 根据上述对应表,能够确定目标文本中特征词对应的特征码,并且按照特征词的 顺序能够确定特征码序列为:NCXYDSEYAPBYAYRYAQYA。在本发明实施例中,每一个目标文本 都对应一个唯一的特征码序列。
[0089] 当然,在本发明实施例中,特征词还可以包括其它的特征词,例如支出,消费,理财 等词语,为了方便特征词的管理,在本发明实施例中,还可以对特征词进行分类,例如代表 交易行为的特征标记有:支出、消费、转账、扣缴、存入、收入、汇入等;代表交易渠道的特征 标记有:网银、柜台、atm、p 〇s、营业网点、银行端、客户端等;代表交易目的的特征标记有:取 现、电费、理财、股票、等;代表贷款类型的特征标记有:个人经营贷款、一手住房贷款、汽车 贷款等;代表贷款状态的特征标记有:已放款、已结清等;代表金额的特征标记有:剩余额 度、可用余额、手续费、账单金额、余额、等等。在本发明实施例中只给出了一部分特征词,其 它类型的特征词也属于本发明的保护范围内。
[0090] 在步骤102中,在确定目标文本对应的特征码序列后,根据目标文本的特征码序列 在自定义的公共对象库中进行匹配。
[0091] 在本发明实施例中,自定义的公共对象库中包含所有目标信息中可提取的特征对 象,例如自定义的公共对象库中包括的特征对象有分期金额、还款金额,剩余还款金额等。 在本发明实施例中,自定义的公共对象库可以是一个宽表,表中包括了所有特征对象,例如 如表2所示:
[0093] 表2:特征对象表
[0094] 可选的,在本发明实施例中,还可以将特征对象的特征码保存在表2中,利用特征 对象的特征码与特征序列进行匹配。
[0095] 例如,在本发明实施例中,目标文本的特征序列为NCXYDSEYAPBYAYRYAQYA,则将特 征序列与自定义的公共对象库中的特征对象进行匹配,匹配的结果为与特征对象"分期金 额",然后查询"分期期数"与"分期金额"的值是否为空,在本方实施例中,分期期数的值为 P,即等于11,分期金额的值为A,等于111.11,则认为本发明实施例中的目标文本的分类是 属于分期的,因为具有两个分期类别属性的特征对象与特征序列匹配成功,并且两个特征 对象的值都不为空。
[0096] 在本发明实施例中,若匹配成功的特征对象是"账单结欠"、"最小还款金额",并且 匹配成功的特征对象的值都不为空值,则认为目标文本的分类属于账单类。
[0097] 或者,在本发明实施例中,若匹配成功的特征对象是"快捷支付"或者是"P0S存入" 等特征对象,并且匹配成功的特征对象的值都不为空值,则认为目标文本的分类属于账动 类。
[0098] 在本发明上述实施例中,所述特征对象表还可以是特征词以及可变词汇转义后形 成的常量,比如可以首先定义下列特征词的分类为输出分类以及输入分类,并且为输出分 类中的每个输出的不同的特征词赋予不同的数字,〇.支出1.消费2.转出3.取款4.缴费 5.代付6.代发7.转理财,同理可以为输入分类中的每个输入的不同的特征词赋予不同的 数字0.存入1.收入2.转入3.撤销4.购汇5.代存6.缴交7.定期转活期。
[0099] 在本发明实施例中,当确定了目标文本对应的特征码后,可以将特征码中的每个 特征进行转义,并根据转义后的特征码在特征对象库中匹配,例如,在特征对象库中确定了 特征对象为账单金额、剩余应还金额以及还款日,目标文本中的金额部分也对应了特征对 象中的账单具体金额、剩余应还具体金额、以及还款日期,g卩,在特征对象库中,目标文本中 可变部分也对应了不同的特征对象,则查找特征对象对应的值是否为空可以使用下列语 句:
[0100] if((this.bill . length( )>0 | | this. leftAmt. length()>0 this.repayDay.length()>0)
[0101] 上述语句表面逻辑为账单金额不为空、剩余应还金额不为空、还款日不为空,则可 以确定目标文本的分类规则为还款类型。
[0102] 当然,在本发明实施例中,还有很多种匹配结果,在此不做赘述。
[0103] 为了更加详细的说明本发明实施例,在此举例说明。
[0104] 如图2所示,本发明实施例提供一种信息分类方法,具体步骤如下所示:
[0105] 步骤201,获取需要进行分词的目标文本,在本发明实施例中,获取的需要进行分 词的目标文本为保存在任一终端中的目标文本,并且所述目标文本为金融服务信息;
[0106] 步骤202,对获取的目标文本进行分词,即对获取的金融服务信息进行分词;
[0107] 步骤203,确定金融服务信息中的特征词;
[0108] 步骤204,确定金融服务信息中的特征词对应的特征码,并确定金融服务信息对应 的特征序列;
[0109] 步骤205,将特征序列与公共对象库中的特征对象进行匹配;
[0110] 步骤206,确定匹配成功的特征对象,并确定匹配成功的特征对象的值不为空;
[0111] 步骤207,根据特征对象的类别确定金融服务信息的类别。
[0112] 基于相同的发明构思,本发明实施例还提供一种信息分类装置,该装置可以执行 上述方法。
[0113] 基于同样的构思,本发明还提供一种信息分类装置,如图3所示,包括:
[0114]特征序列确定单元301,用于根据目标文本的分词结果中的特征词,确定所述分词 结果对应的特征序列;
[0115]特征对象确定单元302,用于确定所述特征序列中与自定义的公共对象库中的特 征对象匹配的特征对象;
[0116]类别属性确定单元303,用于根据所述特征码中的特征对象确定所述目标文本的 类别属性。
[0117] 进一步地,所述特征序列确定单元301,具体用于:
[0118] 根据特征词与特征码的对应关系,确定所述分词结果中所述特征词对应的特征 码。
[0119] 进一步地,所述特征序列确定单元301,具体用于:
[0120] 根据所述分词结果中的特征词的顺序,将所述分词结果中特征词对应的特征码组 合成所述特征序列。
[0121 ]进一步地,所述类别属性确定单元303,具体用于:
[0122] 根据所述特征码中特征对象的属性,确定所述特征码对应的类别属性;
[0123] 将所述特征码对应的类别属性确定为所述特征码对应的所述目标文本的类型属 性。
[0124] 进一步地,所述装置还包括:
[0125] 分词单元304,用于根据所述目标文本中的特征信息,确定所述目标文本对应的初 步分词文本;
[0126] 根据特定字符对所述初步分词文本进行分词,得到所述目标文本的分词结果;其 中,所述目标文本由所述特征信息构成。
[0127] 本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程 图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流 程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序 指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产 生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实 现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0128] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特 定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指 令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或 多个方框中指定的功能。
[0129] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计 算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或 其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一 个方框或多个方框中指定的功能的步骤。
[0130]尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造 性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优 选实施例以及落入本发明范围的所有变更和修改。
[0131]显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精 神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围 之内,则本发明也意图包含这些改动和变型在内。
【主权项】
1. 一种信息分类方法,其特征在于,所述方法包括: 根据目标文本的分词结果中的特征词,确定所述分词结果对应的特征序列; 确定所述特征序列中与自定义的公共对象库中的特征对象匹配的特征对象; 根据所述特征码中的特征对象确定所述目标文本的类别属性。2. 根据权利要求1所述的方法,其特征在于,所述根据目标文本的分词结果中的特征 词,确定所述分词结果对应的特征序列,包括: 根据特征词与特征码的对应关系,确定所述分词结果中所述特征词对应的特征码。3. 根据权利要求2所述的方法,其特征在于,所述根据所述分词结果中的特征标记确定 所述分词结果对应的特征序列,包括: 根据所述分词结果中的特征词的顺序,将所述分词结果中特征词对应的特征码组合成 所述特征序列。4. 根据权利要求1所述的方法,其特征在于,所述根据所述特征码中的特征对象确定所 述目标文本的类别属性,包括: 根据所述特征码中特征对象的属性,确定所述特征码对应的类别属性; 将所述特征码对应的类别属性确定为所述特征码对应的所述目标文本的类型属性。5. 根据权利要求1所述权利的方法,其特征在于,所述目标文本按照下列步骤进行分 词: 根据所述目标文本中的特征信息,确定所述目标文本对应的初步分词文本; 根据特定字符对所述初步分词文本进行分词,得到所述目标文本的分词结果;其中,所 述目标文本由所述特征信息构成。6. -种信息分类装置,其特征在于,包括: 特征序列确定单元,用于根据目标文本的分词结果中的特征词,确定所述分词结果对 应的特征序列; 特征对象确定单元,用于确定所述特征序列中与自定义的公共对象库中的特征对象匹 配的特征对象; 类别属性确定单元,用于根据所述特征码中的特征对象确定所述目标文本的类别属 性。7. 根据权利要求6所述的装置,其特征在于,所述特征序列确定单元,具体用于: 根据特征词与特征码的对应关系,确定所述分词结果中所述特征词对应的特征码。8. 根据权利要求7所述的方法,其特征在于,所述特征序列确定单元,具体用于: 根据所述分词结果中的特征词的顺序,将所述分词结果中特征词对应的特征码组合成 所述特征序列。9. 根据权利要求6所述的装置,其特征在于,所述类别属性确定单元,具体用于: 根据所述特征码中特征对象的属性,确定所述特征码对应的类别属性; 将所述特征码对应的类别属性确定为所述特征码对应的所述目标文本的类型属性。10. 根据权利要求6所述的装置,其特征在于,所述装置还包括: 分词单元,用于根据所述目标文本中的特征信息,确定所述目标文本对应的初步分词 文本; 根据特定字符对所述初步分词文本进行分词,得到所述目标文本的分词结果;其中,所
【文档编号】G06F17/27GK106095972SQ201610440565
【公开日】2016年11月9日
【申请日】2016年6月17日
【发明人】唐翌飞, 陈瑛绮, 吴锋海, 赵晓庆
【申请人】联动优势科技有限公司