深度分析文本的方法、装置、计算机设备和存储介质与流程

文档序号:17991305发布日期:2019-06-22 00:49阅读:238来源:国知局
深度分析文本的方法、装置、计算机设备和存储介质与流程

本申请涉及数据分析技术领域,特别涉及一种深度分析文本的方法、装置、计算机设备和存储介质。



背景技术:

目前市面上针对长文本的分析工具普遍侧重于概括性分析,其功能一般为分析概括出长文本的重要内容,并不适合应用于保险行业或银行行业进行专业的分析。保险、银行等行业对长文本的分析(包括通话录音等能够转化成文本或本来就是文本的数据)更具有目的性,侧重于对具体的目标(业务)进行分析,例如:分析出客户注销业务的原因等。因而,目前市面上针对长文本的分析工具与保险、银行等行业实际需要存在差距。要想对文本进行有目的的分析,需要业务自行建立文本规则模型,然后根据规则模型去统计相关模型数据结果,这种方法只能人工匹配规则模型进行分析,而且无法知道该批数据中还有多少未知数据是需要再进行深入的分析,而这些未知数据可能是引发问题的新原因。



技术实现要素:

本申请的主要目的为提供一种深度分析文本的方法、装置、计算机设备和存储介质,旨在解决目前市面上针对长文本的分析工具侧重于概括性分析,不适合应用于保险行业或银行行业进行专业的分析的问题。

为实现上述目的,本申请提供了一种深度分析文本的方法,包括以下步骤:一种深度分析文本的方法,包括以下步骤:

通过分词技术对待分析文本进行分词,得到第一词语,所述第一词语有多个;

查找与第一预设业务词库中第二词语相同的所述第一词语,其中,所述第一预设业务词库中包含多个所述第二词语;

统计各与所述第二词语相同的所述第一词语在所述待分析文本中出现的次数,将所述出现的次数与所述第一词语个数的比例达到预定比例要求的所述第一词语作为高频词;

查找与所述高频词相同的第三词语所属的第二预设业务词库,根据所述第二预设业务词库得出所述待分析文本所属的业务类型;其中,所述第二预设业务词库有多个,每个所述第二预设业务词库对应一个所述业务类型,每个所述第二预设业务词库中包含对应所述业务类型的所述第三词语;

根据所述待分析文本所属的业务类型,将所述待分析文本匹配到对应所述业务类型的第一预设模型;

通过所述第一预设模型对所述待分析文本进行分析,得出所述待分析文本所对应的具体业务信息;

根据所述待分析文本所对应的具体业务信息,将所述待分析文本匹配到对应所述具体业务信息的第二预设模型;

通过所述第二预设模型对所述待分析文本进行分析,得出所述待分析文本所对应的分析结果。

本申请还提供一种深度分析文本的装置,包括:

分词单元,用于通过分词技术对待分析文本进行分词,得到第一词语,所述第一词语有多个;

第一查找单元,用于查找与第一预设业务词库中第二词语相同的所述第一词语,其中,所述第一预设业务词库中包含多个所述第二词语;

统计单元,用于统计各与所述第二词语相同的所述第一词语在所述待分析文本中出现的次数,将所述出现的次数与所述第一词语个数的比例达到预定比例要求的所述第一词语作为高频词;

第二查找单元,用于查找与所述高频词相同的第三词语所属的第二预设业务词库,根据所述第二预设业务词库得出所述待分析文本所属的业务类型;其中,所述第二预设业务词库有多个,每个所述第二预设业务词库对应一个所述业务类型,每个所述第二预设业务词库中包含对应所述业务类型的所述第三词语;

第一匹配单元,用于根据所述待分析文本所属的业务类型,将所述待分析文本匹配到对应所述业务类型的第一预设模型;

第一分析单元,用于通过所述第一预设模型对所述待分析文本进行分析,得出所述待分析文本所对应的具体业务信息;

第二匹配单元,用于根据所述待分析文本所对应的具体业务信息,将所述待分析文本匹配到对应所述具体业务信息的第二预设模型;

第二分析单元,用于通过所述第二预设模型对所述待分析文本进行分析,得出所述待分析文本所对应的分析结果。

本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请中提供的深度分析文本上传文件的方法、装置、计算机设备和存储介质,通过在文本中查找与第一预设业务词库相对应的高频词,通过查找高频词所述的第二预设业务词库,通过第二预设业务词库得出文本所属业务类型,根据业务类型将文本匹配到对应业务类型的第一预设模型,通过第一预设模型得出文本的具体业务信息,根据具体业务信息将文本匹配到第二预设模型,通过第二预设模型得出文本的分析结果(也即客户具体行为产生的原因);从而,完成对文本的深入分析,适用于保险行业和银行行业进行专业的分析,使分析更具有目的性,可以通过文本分析出客户具体行为(如注销业务)的原因等,及时了解客户需求。

附图说明

图1是本申请一实施例中深度分析文本的方法步骤示意图;

图2是本申请一实施例中深度分析文本的装置结构框图;

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

参照图1,本申请一实施例中提供了一种深度分析文本的方法,包括以下步骤:

步骤s1,通过分词技术对待分析文本进行分词,得到第一词语,所述第一词语有多个;

步骤s2,查找与第一预设业务词库中第二词语相同的所述第一词语,其中,所述第一预设业务词库中包含多个所述第二词语;

步骤s3,统计各与所述第二词语相同的所述第一词语在所述待分析文本中出现的次数,将所述出现的次数与所述第一词语个数的比例达到预定比例要求的所述第一词语作为高频词;

步骤s4,查找与所述高频词相同的第三词语所属的第二预设业务词库,根据所述第二预设业务词库得出所述待分析文本所属的业务类型;其中,所述第二预设业务词库有多个,每个所述第二预设业务词库对应一个所述业务类型,每个所述第二预设业务词库中包含对应所述业务类型的所述第三词语;

步骤s5,根据所述待分析文本所属的业务类型,将所述待分析文本匹配到对应所述业务类型的第一预设模型;

步骤s6,通过所述第一预设模型对所述待分析文本进行分析,得出所述待分析文本所对应的具体业务信息;

步骤s7,根据所述待分析文本所对应的具体业务信息,将所述待分析文本匹配到对应所述具体业务信息的第二预设模型;

步骤s8,通过所述第二预设模型对所述待分析文本进行分析,得出所述待分析文本所对应的分析结果。

如上述步骤s1所述,在对文本进行自动分析之前,先将待分析文本进行分词处理,例如:将句子“李明是一名优秀的学生。”进行分词后得到“李明、是、一名、优秀、的、学生。”这样一个句子经过分词后就得到了对应的六个词语。常用的分词方法包括正向最大匹配法(由左到右的方向)、逆向最大匹配法(由右到左的方向)、最少切分法(使每一句中切出的词数最小)、双向最大匹配法(进行由左到右、由右到左两次扫描),使用不同的分词方法对文本进行分词后,所得到的词语和词语的数量是不尽相同的,在实际使用中根据不同的需要选择不同的分词方法,这些是本领域专业技术人员所熟知的,在此不再一一赘述。把经过分词后所得到的词语作为第一词语,第一词语有多个,例如,在以上例子中将句子“李明是一名优秀的学生。”分成了六个词语,这六个词语就是六个第一词语,在一个文本中一般包含多个句子,因而,一个文本会分出多个第一词语。

如上述步骤s2所述,在完成步骤s1对文本的分词并获得多个第一词语之后,在获得的多个第一词语中查找与第一预设业务词库中第二词语相同的第一词语。其中,第一预设业务词库中包含多个第二词语,第二词语如:寿险、保单等。在文本经过分词后获得多个第一词语中查找与这些第二词语相对应的第一词语,查找到与第一预设业务词库中任一个第二词语相同的第一词语即认为查到,例如在第一词语中查到与第一预设业务词库中相同的词语“寿险、保单等”,则认为查到与第二词语相同的第一词语。

如上述步骤s3所述,对上述与第二词语相同的第一词语在文本中出现的次数进行统计,将出现次数与第一词语个数的比例达到预定比例要求的第一词语作为高频词。例如,预定比例要求为大于或等于10%;通过分词技术对某个文本进行分词处理后,获得一百个第一词语,在这一百个第一词语中“寿险”和“保单”均出现十次以上,也即“寿险”和“保单”均占第一词语的10%以上,则把“寿险”和“保单”作为该文本的高频词。

如上述步骤s4所述,有多个第二预设业务词库,每个第二预设业务词库中均包含多个第三词语,每个第二预设业务词库对应一个业务类型。例如:其中一个第二预设业务词库中包含寿险、赔期、保单等多个第三词语,该第二预设业务词库属于寿险业务;另一个第二预设业务词库中包含账单、分期、额度等多个第三词语,该第二预设业务词库属于信用卡业务。在该步骤中,查找与高频词相同的第三词语所属的第二预设业务词库,根据第二预设业务词库得出待分析文本所属的业务类型。例如,经过以上步骤得出某个文本的高频词是“寿险”和“保单”,在某个第二预设业务词库中查找到第三词语“寿险”和“保单”与上述高频词“寿险”和“保单”相同,然后,根据该第二预设业务词库所对应的业务类型是信用卡业务,则可以判断出该文本(所对应的或想要办理的业务)属于信用卡业务。

如上述步骤s5和s6所述,本实施例中,每个业务类型都对应有一个第一预设模型,该第一预设模型能够对该业务类型的文本进行分析,并得出具体业务信息。在步骤s5中,先根据待分析文本所属的业务类型,将待分析文本匹配到对应该业务类型的第一预设模型,然后,在步骤s6中,通过第一预设模型对待分析文本进行分析,得出待分析文本所对应的具体业务信息。例如:待分析文本中含有“我要销”或“要销卡”等词语并且符合第一预设模型的特定判定规则,例如,满足特定的句式排列、符合肯定句式、符合当前需要等,这些数学模型的建立可通过本领域现有专业知识完成,这里不再赘述。则可推定该文本所对应的客户是想要做销卡的业务,将客户是想要做销卡的业务作为具体业务信息。这里的待分析文本特别指客服与客户的对话内容或客户信函、邮件等。

如上述步骤s7和s8所述,本实施例中,每个具体业务信息都对应有一个第二预设模型,该第二预设模型能够对待分析文本的具体业务信息进行进一步的分析,并得出分析结果,并将分析结果反馈在前端以供浏览、查阅。其中,第二预设模型设有关联规则和预设结果。在步骤s7中,先根据待分析文本的具体业务信息,将待分析文本匹配到对应该具体业务信息的第二预设模型,然后,在步骤s8中,通过第二预设模型对待分析文本进行分析,得出对文本的分析结果。其中,分析结果是指对文本进行深层次分析所得的结果,如,导致用户该行为的具体原因(或称为因素)等。例如:通过步骤s6,得出待分析文本对应的客户所要做的具体业务信息是销卡业务,那么在对应销卡业务的第二预设模型中,对具体销卡的具体原因进行分析,得出致使客户想要销卡的原因;具体如,在第二预设模型的输出结果中预设有(1)额度太少;(2)不好用;(3)不需要(4)等等预设结果(作为销卡的原因),并且在第二预设模型设有关联以上预设结果的关联规则,输入的数据信息(文本)通过以上关联规则进行匹配后,得出对应的结果。例如,检测到待分析文本中提到额度少的问题,并且通过关联规则(如,符合肯定句式)关联出“(1)额度太少”是导致用户销卡的一个因素,即得出分析结果。在实际中,通过对文本进行分析,最终的分析结果可能有一个或多个因素导致了客户的具体行为。

本方案,通过高频词和预设业务词库推测文本的业务类型,再根据业务类型利用第一预设模型得出具体业务信息,然后根据具体业务信息匹配第二预设模型得出分析结果;从而完成对待分析文本的深入分析,适用于保险行业和银行行业进行专业的分析,使分析更具有目的性,可以通过文本分析出客户具体行为(如注销业务)的原因等,准确了解业务发展趋势、客户需求等信息。

在一实施例中,上述查找与所述高频词相同的第三词语所属的第二预设业务词库,根据所述第二预设业务词库得出所述待分析文本所属的业务类型的步骤s4之后,包括:

步骤s401,显示所述待分析文本所属的业务类型。

如上述步骤s401所述,将高频词与第二预设业务词库进行比对,得出文本所属业务类型之后,将待分析文本所属的业务类型显示在前端,展示出来。具体反馈的方式可以是对该文本打上第一标签,该第一标签包括所属业务类型信息,例如“银行业务”。从而,通过第一标签可以很直观地看出待分析文本所属的业务类型。当对多个待分析文本通过以上方法进行处理后,便于工作人员统计不同业务类型所对应待分析文本的数量,以供制作报表等。

在一实施例中,上述查找与所述高频词相同的第三词语所属的第二预设业务词库,根据所述第二预设业务词库得出所述待分析文本所属的业务类型的步骤s4之后,还包括:

步骤s402,对多个所述待分析文本所属的业务类型进行统计,得出每个业务类型对应的待分析文本数量和占全部所述待分析文本数量的占比信息;

步骤s403,将所述每个业务类型对应的待分析文本数量和占所述全部所述待分析文本数量的占比信息显示在前端。

本方案中待分析文本有多个,对批量的多个待分析文本利用以上方法同时或先后进行分析,从而得出批量的分析结果。将批量的分析结果反馈在前端,就可以直观地展示各业务状况和趋势。

具体如上述步骤s402所述,先对多个待分析文本所属的业务类型进行统计,得出每个业务类型对应的待分析文本数量和占全部待分析文本数量的占比信息。例如,有10000个待分析文本,其中,“保险业务”所对应的待分析文本有5000个,“银行业务”所对应的待分析文本有3000个,“信托业务”所对应的待分析文本有1500个,“证券业务”所对应的待分析文本有500个;那么,每个业务类型占待分析文本的占比信息为,“保险业务”占50%,“银行业务”占30%,“信托业务”占15%,“证券业务”占5%。然后,如上述步骤s403所述,将每个业务类型对应的待分析文本数量和占全部待分析文本的占比信息反馈在前端,从而便于分析行业走向,统计各业务冷热趋势。

在一个实施例中,上述通过所述第一预设模型对所述待分析文本进行分析,得出所述待分析文本所对应的具体业务信息的步骤s6之后,包括:

步骤s601,将所述待分析文本所对应的具体业务信息显示在前端。

如上述步骤s601所述,将通过第一预设模型对待分析文本进行分析所得出的具体业务信息(例如,销卡业务),将待分析文本所对应的具体业务信息反馈在前端,展示出来。具体反馈的方式可以是对该文本打上第二标签,该第二标签包括具体业务信息,例如“销卡”。从而,当对多个文本进行以上操作后,可以直观地表达出具体业务类型的发展趋势,例如,信用卡业务是注册的多还是销卡的多。

在一实施例中,上述通过所述第一预设模型对所述待分析文本进行分析,得出所述待分析文本所对应的具体业务信息的步骤s6之后,还包括:

步骤s602,对所述每个业务类型对应的待分析文本进行分析所得出的具体业务信息进行统计,得出每个具体业务信息对应的待分析文本数量和占该业务类型所对应的全部待分析文本数量的占比信息;

步骤s603,显示所述每个具体业务信息对应的待分析文本数量和占该业务类型所对应的全部待分析文本数量的占比信息。

本方案中待分析文本有多个,通过上述第一预设模型对上述待分析文本进行分析,得出上述待分析文本所对应的具体业务信息,每个具体业务信息对应多个待分析文本。

如上述步骤s602所述,对每个业务类型对应的待分析文本进行分析所得出的具体业务信息进行统计,得出每个具体业务信息对应的待分析文本数量和占该业务类型所对应的全部待分析文本数量的占比信息。例如,通过对业务类型为“银行业务”的1000个待分析文本进行分析所得出的具体业务信息包括“银行卡销卡”、“银行卡开卡”和“银行卡变更”三个具体业务信息,其中,“银行卡开卡”所对应的待分析文本数量为500个,占比50%;“银行卡变更”所对应的待分析文本数量为300个,占比30%;“银行卡销卡”所对应的待分析文本数量为200个,占比20%。然后,如上述步骤s603所述,将以上统计的“银行业务”中三个具体业务信息所对应的待分析文本的数量和占该业务类型所对应的全部待分析文本数量的占比信息反馈到前端。从而,根据前端反馈可以很清楚地了解“银行业务”当前的发展趋势,例如,“银行卡开卡”所对应的待分析文本占比为50%,而“银行卡销卡”所对应的待分析文本占比为20%,说明“银行业务”当前处于较为强劲的上升发展状态。

在一实施例中,上述通过所述第二预设模型对所述待分析文本进行分析,得出所述待分析文本所对应的分析结果的步骤s8之后,还包括:

步骤s801,对所述每个具体业务信息对应的待分析文本进行分析所得出的分析结果包含的第一因素进行统计,并建立第一因素和所述待分析文本的对应关系,得出每个第一因素对应的待分析文本数量和占该具体业务信息所对应的全部待分析文本数量的占比信息;其中,每个待分析文本对应一个第一因素,每个第一因素对应一个或多个待分析文本;

步骤s802,显示上述每个第一因素对应的待分析文本数量和占该具体业务信息所对应的全部待分析文本数量的占比信息。

本方案中待分析文本有多个,通过上述第二预设模型对上述待分析文本进行分析,得出上述待分析文本所对应的分析结果,每个待分析文本有一个分析结果,每个分析结果包含一个第一因素,相同的第一因素不做区分。

如上述步骤s801所述,对每个具体业务信息对应的待分析文本进行分析所得出的分析结果包含的第一因素进行统计,并建立第一因素和待分析文本的对应关系,得出每个第一因素对应的待分析文本数量和占该具体业务信息所对应的全部待分析文本数量的占比信息。对多个待分析文本进行分析得出的分析结果可能是相同的第一因素,所以,每个待分析文本对应一个第一因素,但一个第一因素可能对应多个待分析文本。在实际应用中,第一因素可以是客户做出具体行为的原因。例如:针对于具体业务信息是银行业务类型中的“信用卡销卡”业务所对应的100个待分析文本,通过第二预设模型对这些待分析文本进行分析后得出100个分析结果。这100个分析结果中,有50个分析结果包含第一因素一、额度太少,有30个分析结果包含第一因素二、不好用,有20个分析结果包含第一因素三、第一未知因素。也即“额度太少”对应的待分析文本数量为50,占“信用卡销卡”所对应的全部待分析文本数量的占比信息为50%;“不好用”对应的待分析文本数量为30,占“信用卡销卡”所对应的全部待分析文本数量的占比信息为30%;“第一未知因素”对应的待分析文本数量为30,占“信用卡销卡”所对应的全部待分析文本数量的占比信息为20%。

如上述步骤s802所述,将上述每个第一因素对应的待分析文本数量和占该具体业务信息所对应的全部待分析文本数量的占比信息显示在前端。也即将如上述步骤s801的统计结果显示在前端显示器上,从而可以方便工作人员及管理人员根据统计结果分析这些客户销卡的主要原因,从而调整业务模式,改善不足,以获得更好的业绩和客户评价。

在一实施例中,上述对所述每个具体业务信息对应的待分析文本进行分析所得出的分析结果包含的第一因素进行统计,并建立第一因素和所述待分析文本的对应关系,得出每个第一因素对应的待分析文本数量和占该具体业务信息所对应的全部待分析文本数量的占比信息的步骤s801之后,还包括:

步骤s8011,根据所述每个第一因素对应的待分析文本数量占该具体业务信息所对应的全部待分析文本数量的占比信息,判断所有符合第一预设结果的第一因素对应的待分析文本数量占该具体业务信息所对应的全部待分析文本数量的占比之和是否达到第一预定值;

步骤s8012,若否,对不符合第一预设结果的第一因素进行分析,并更新所述第二预设模型。

本方案中对多个待分析文本通过第二预设模型进行分析所得出的第一因素在对应的第二预设模型中未必都能找到预设的输出结果,例如,第二预设模型中只有(1)额度太少、(2)不好用、(3)不需要这三个预设的输出因素,那么,如果导致客户销卡的原因不在这三个预设的输出因素中,就无法在分析结果中看到具体是什么原因导致的客户销卡。如果出现未知原因(因素)导致客户销卡的待分析文本占比较大,那么就有必要通过人工或智能模型、算法等对不符合预设结果的因素进行分析。

如上述步骤s8011所述,根据所述每个第一因素对应的待分析文本数量占该具体业务信息所对应的全部待分析文本数量的占比信息,判断所有符合第一预设结果的第一因素对应的待分析文本数量占该具体业务信息所对应的全部待分析文本数量的占比之和是否达到第一预定值。例如,第一预定值设为70%,统计出的第一因素对应的待分析文本数量占该具体业务信息所对应的全部待分析文本数量的占比信息如下:第一因素一、额度太少,对应的待分析文本数量占“信用卡销卡”业务所对应的全部待分析文本数量的50%;第一因素二、不好用,对应的待分析文本数量占“信用卡销卡”业务所对应的全部待分析文本数量的30%;第三因素三、第一未知因素,对应的待分析文本数量占“信用卡销卡”业务所对应的全部待分析文本数量的20%;其中,因素一和因素二是符合预设结果的因素,对应的待分析文本数量占“信用卡销卡”业务所对应的全部待分析文本数量的占比之和达到全部因素的80%,则判为预设结果的因素的占比达到第一预定值。

如上述步骤s8012所述,如果第一预定值设为70%,统计出的各第一因素对应的待分析文本数量占“信用卡销卡”业务所对应的全部待分析文本数量的占比如下:第一因素一、额度太少,对应的待分析文本数量占“信用卡销卡”业务所对应的全部待分析文本数量的占比的40%;第一因素二、不好用,对应的待分析文本数量占“信用卡销卡”业务所对应的全部待分析文本数量的占比的25%;第一因素三、第一未知因素,对应的待分析文本数量占“信用卡销卡”业务所对应的全部待分析文本数量的占比的35%;其中,因素一和因素二是符合预设结果的因素,对应的待分析文本数量占“信用卡销卡”业务所对应的全部待分析文本数量的占比之和达到全部因素的65%,低于第一预定值70%,则判为所有符合预设结果的第一因素对应的待分析文本数量占“信用卡销卡”业务所对应的全部待分析文本数量的占比之和没有达到预定值。这种情况下,则认为有新的占比较大的原因导致客户销卡,那就有必要通过人工或智能模型、算法等对不符合预设结果的第一未知因素对应的待分析文本进行分析,然后再将人工或智能模型、算法等分析出的新的因素添加到第二预设模型中,作为新的预设结果,从而不断强化第二预设模型的分析能力。例如:人工对不符合预设结果的第一未知因素进行分析,发现“收费较高”成为其中一个不可忽视的原因时,就会对第二预设模型进行补充,把“收费较高”作为一个新的第一预设结果,并建立关联“收费较高”的预设关联规则,更新第二预设模型。利用更新后的第二预设模型对输入的数据信息(文本)进行匹配分析,当满足预设关联规则时,第二预设模型输出“收费较高”作为符合预设结果的一个第一因素,也即客户销卡的一个原因。

在一实施例中,上述通过所述第二预设模型对所述待分析文本进行分析,得出所述待分析文本所对应的分析结果的步骤s8之后,包括:

步骤s803,根据所述待分析文本所对应的分析结果统计出各第二因素的占比信息,其中,所述待分析文本所对应的分析结果包含多个第二因素;

步骤s804,显示所述各第二因素的占比信息。

本方案应用于对一个待分析文本中包含多个导致客户具体行为的原因的情况。在实际中,通过对文本进行分析,最终的分析结果可能有多个第二因素导致了客户的具体行为。在同一文本中除了能够通过关联规则及预设结果关联出具体导致客户行为第二因素外,还有些第二因素在第二预设模型中没有对应的预设结果,因而也就无法关联出这些第二因素。但是,如果第二预设模型中设有第二因素识别机制,例如,文本中出现“原因是……”、“我为什么……”等词语或句式时,认为“原因是”、“我为什么”等词语后面的内容是导致客户作出具体行为的第二因素,但因为在第二预设模型中没有这些第二因素的预设结果,也就无法得出具体的因素,把这些没有得出具体的因素称为第二未知因素,这些第二未知因素也作为分析结果的一部分。本方案中的第二因素与以上实施例中的第一因素只是用于对不同方案中表达上的区分,并不代表存在实质性区别。

如上述步骤s803所述,通过对待分析文本进行分析,若最终的分析结果表明有多个第二因素导致了客户的具体行为,则统计出各第二因素的占比信息。其中,多个第二因素包括第二未知因素。例如:第二因素一、额度太少,占全部因素的50%;第二因素二、不好用,占全部因素的30%;第二因素三、第二未知因素,占全部因素的20%。

如上述步骤s804所述,将以上各第二因素的占比信息显示在前端,从而根据占比信息做出分析报告,推定该待分析文本对应的客户销卡的原因主要是嫌额度太少,其次是不好用。从而,可以有针对性地了解某个客户的销卡的具体原因。

在一实施例中,上述根据分析结果统计出各第二因素的占比信息的步骤s803之后,还包括:

步骤s8031,根据所述各第二因素的占比信息,判断所有符合预设结果的因素的占比之和是否达到第二预定值;

步骤s8032,若否,对不符合预设结果的第二因素进行分析,并更新所述第二预设模型。

如上述步骤s8031所述,在统计出各第二因素的占比信息后,根据所述各因素的占比信息,判断所有符合预设结果的因素的占比是否达到第二预定值。例如,第二预定值设为70%,统计出的各第二因素的占比如下:第二因素一、额度太少,占全部第二因素的50%;第二因素二、不好用,占全部第二因素的30%;第二因素三、第二未知因素,占全部第二因素的20%;其中,第二因素一和第二因素二是符合预设结果的第二因素,占比之和达到全部第二因素的80%,则判为第二预设结果的第二因素的占比达到第二预定值。

如上述步骤s8032所述,如果第二预定值设为70%,统计出的各第二因素的占比如下:第二因素一、额度太少,占全部第二因素的40%;第二因素二、不好用,占全部第二因素的25%;第二因素三、未知第二因素,占全部第二因素的35%;其中,第二因素一和第二因素二是符合预设结果的第二因素,占比之和达到全部第二因素的65%,低于第二预定值70%,则判为所有符合第二预设结果的第二因素的占比之和没有达到第二预定值。这种情况下,则认为有新的占比较大的原因导致该客户销卡,那就有必要通过人工或智能模型、算法等对不符合第二预设结果的第二因素进行分析,然后再将人工或智能模型、算法等分析出的新的第二因素添加到第二预设模型中,作为新的第二预设结果,从而不断强化第二预设模型的分析能力。例如:人工对不符合预设结果的第二因素(第二未知因素)进行分析,发现“收费较高”成为其中一个不可忽视的原因时,就会对第二预设模型进行补充,把“收费较高”作为一个新的第二预设结果,并建立关联“收费较高”的预设关联规则,更新第二预设模型。利用更新后的第二预设模型对输入的数据信息(文本)进行匹配分析,当满足预设关联规则时,第二预设模型输出“收费较高”作为符合预设结果的一个第二因素,也即客户销卡的一个原因。

在一实施例中,上述通过分词技术对待分析文本进行分词,得到第一词语的步骤s1之前,还包括:

步骤s01,将非文字数据转换为文字文本,将所述文字文本作为所述待分析文本。

如上述步骤s01所述,先将通话录音等非文字数据转化成文字文本,将文字文本作为所述待分析文本,进而实现通过本方法对通话录音进行分析。现在人们习惯于通过电话办理各种业务,例如,开通业务、注销业务以及问题反馈等。银行、保险、电信等行业均有大量的客户语音通话记录,以便于统计分析、及时了解客户需求。面对大量的语音通话记录,难以通过人工逐个重听并统计分析通话内容,将语音通话内容转化成文本再对文本内容进行分析,这样一来可节省大量人力。

参照图2,本申请一实施例中还提供了一种深度分析文本的装置,包括:

分词单元10,用于通过分词技术对待分析文本进行分词,得到第一词语,所述第一词语有多个;

第一查找单元20,用于查找与第一预设业务词库中第二词语相同的所述第一词语,其中,所述第一预设业务词库中包含多个所述第二词语;

统计单元30,用于统计各与所述第二词语相同的所述第一词语在所述待分析文本中出现的次数,将所述出现的次数与所述第一词语个数的比例达到预定比例要求的所述第一词语作为高频词;

第二查找单元40,用于查找与所述高频词相同的第三词语所属的第二预设业务词库,根据所述第二预设业务词库得出所述待分析文本所属的业务类型;其中,所述第二预设业务词库有多个,每个所述第二预设业务词库对应一个所述业务类型,每个所述第二预设业务词库中包含对应所述业务类型的所述第三词语;

第一匹配单元50,用于根据所述待分析文本所属的业务类型,将所述待分析文本匹配到对应所述业务类型的第一预设模型;

第一分析单元60,用于通过所述第一预设模型对所述待分析文本进行分析,得出所述待分析文本所对应的具体业务信息;

第二匹配单元70,用于根据所述待分析文本所对应的具体业务信息,将所述待分析文本匹配到对应所述具体业务信息的第二预设模型;

第二分析单元80,用于通过所述第二预设模型对所述待分析文本进行分析,得出所述待分析文本所对应的分析结果。

如上述分词单元10所述的,在对文本进行自动分析之前,先将待分析文本进行分词处理,例如:将句子“李明是一名优秀的学生。”进行分词后得到“李明、是、一名、优秀、的、学生。”这样一个句子经过分词后就得到了对应的六个词语。常用的分词方法包括正向最大匹配法(由左到右的方向)、逆向最大匹配法(由右到左的方向)、最少切分法(使每一句中切出的词数最小)、双向最大匹配法(进行由左到右、由右到左两次扫描),使用不同的分词方法对文本进行分词后,所得到的词语和词语的数量是不尽相同的,在实际使用中根据不同的需要选择不同的分词方法,这些是本领域专业技术人员所熟知的,在此不再一一赘述。把经过分词后所得到的词语作为第一词语,第一词语有多个,例如,在以上例子中将句子“李明是一名优秀的学生。”分成了六个词语,这六个词语就是六个第一词语,在一个文本中一般包含多个句子,因而,一个文本会分出多个第一词语。

如上述第一查找单元20所述的,在完成对为文本的分词并获得多个第一词语之后,在获得的多个第一词语中查找与第一预设业务词库中第二词语相同的第一词语。其中,第一预设业务词库中包含多个第二词语,第二词语如:寿险、保单等。在文本经过分词后获得多个第一词语中查找与这些第二词语相对应的第一词语,查找到与第一预设业务词库中任一个第二词语相同的第一词语即认为查到,例如在第一词语中查到与第一预设业务词库中相同的词语“寿险、保单等”,则认为查到与第二词语相同的第一词语。

如上述统计单元30所述的,对上述与第二词语相同的第一词语在文本中出现的次数进行统计,将出现次数与第一词语个数的比例达到预定比例要求的第一词语作为高频词。例如,预定比例要求为大于或等于10%;通过分词技术对某个文本进行分词处理后,获得一百个第一词语,在这一百个第一词语中“寿险”和“保单”均出现十次以上,也即“寿险”和“保单”均占第一词语的10%以上,则把“寿险”和“保单”作为该文本的高频词。

如上述第二查找单元40所述的,有多个第二预设业务词库,每个第二预设业务词库中均包含多个第三词语,每个第二预设业务词库对应一个业务类型。例如:其中一个第二预设业务词库中包含寿险、赔期、保单等多个第三词语,该第二预设业务词库属于寿险业务;另一个第二预设业务词库中包含账单、分期、额度等多个第三词语,该第二预设业务词库属于信用卡业务。在该步骤中,查找与高频词相同的第三词语所属的第二预设业务词库,根据第二预设业务词库得出待分析文本所属的业务类型。例如,经过以上步骤得出某个文本的高频词是“寿险”和“保单”,在某个第二预设业务词库中查找到第三词语“寿险”和“保单”与上述高频词“寿险”和“保单”相同,然后,根据该第二预设业务词库所对应的业务类型是信用卡业务,则可以判断出该文本(所对应的或想要办理的业务)属于信用卡业务。

如上述第一匹配单元50和第一分析单元60所述的,每个业务类型都对应有一个第一预设模型,该第一预设模型能够对该业务类型的文本进行分析,并得出具体业务信息。在第一匹配单元50中,先根据待分析文本所属的业务类型,将待分析文本匹配到对应该业务类型的第一预设模型,然后,在第一分析单元60中,通过第一预设模型对待分析文本进行分析,得出待分析文本所对应的具体业务信息。例如:待分析文本中含有“我要销”或“要销卡”等词语并且符合第一预设模型的特定判定规则,例如,满足特定的句式排列、符合肯定句式、符合当前需要等,这些数学模型的建立可通过本领域现有专业知识完成,这里不再赘述。则可推定该文本所对应的客户是想要做销卡的业务,将客户是想要做销卡的业务作为具体业务信息。这里的待分析文本特别指客服与客户的对话内容或客户信函、邮件等。

如上述第二匹配单元70和第二分析单元80所述的,本实施例中,每个具体业务信息都对应有一个第二预设模型,该第二预设模型能够对待分析文本的具体业务信息进行进一步的分析,并得出分析结果,并将分析结果反馈在前端以供浏览、查阅。其中,第二预设模型设有关联规则和预设结果。在第二匹配单元70中,先根据待分析文本的具体业务信息,将待分析文本匹配到对应该具体业务信息的第二预设模型,然后,在第二分析单元80中,通过第二预设模型对文本进行分析,得出对文本的分析结果。其中,分析结果是指对待分析文本进行深层次分析所得的结果,如,导致用户该行为的具体原因(或称为因素)等。例如:通过第一分析单元60,得出待分析文本对应的客户所要做的具体业务信息是销卡业务,那么在对应销卡业务的第二预设模型中,对具体销卡的具体原因进行分析,得出致使客户想要销卡的原因;具体如,在第二预设模型的输出结果中预设有(1)额度太少;(2)不好用;(3)不需要(4)等等预设结果(作为销卡的原因),并且在第二预设模型设有关联以上预设结果的关联规则,输入的数据信息(文本)通过以上关联规则进行匹配后,得出对应的结果。例如,检测到待分析文本中提到额度少的问题,并且通过关联规则(如,符合肯定句式)关联出“(1)额度太少”是导致用户销卡的一个因素,即得出分析结果。在实际中,通过对文本进行分析,最终的分析结果可能有一个或多个因素导致了客户的具体行为。

本装置,通过高频词和预设业务词库推测文本的业务类型,再根据业务类型利用第一预设模型得出具体业务信息,然后根据具体业务信息匹配第二预设模型得出分析结果;从而完成对待分析文本的深入分析,适用于保险行业和银行行业进行专业的分析,使分析更具有目的性,可以通过文本分析出客户具体行为(如注销业务)的原因等,准确了解业务发展趋势、客户需求等信息。

在一实施例中,上述深度分析文本的装置还包括:

业务类型显示单元,用于显示所述待分析文本所属的业务类型显示。

如上述业务类型显示单元所述的,将高频词与第二预设业务词库进行比对,得出文本所属业务类型之后,将待分析文本所属的业务类型显示在前端,展示出来。具体反馈的方式可以是对该文本打上第一标签,该第一标签包括所属业务类型信息,例如“银行业务”。从而,通过第一标签可以很直观地看出待分析文本所属的业务类型。当对多个待分析文本通过以上方法进行处理后,便于工作人员统计不同业务类型所对应待分析文本的数量,以供制作报表等。

在一实施例中,上述深度分析文本的装置还包括:

业务类型统计单元,用于对多个所述待分析文本所属的业务类型进行统计,得出每个业务类型对应的待分析文本数量和占全部所述待分析文本数量的占比信息;

业务类型统计显示单元,用于显示所述每个业务类型对应的待分析文本数量和占所述全部所述待分析文本数量的占比信息。

本方案中待分析文本有多个,对批量的多个待分析文本利用以上方法同时或先后进行分析,从而得出批量的分析结果。将批量的分析结果显示在前端,就可以直观地展示各业务状况和趋势。

具体如上述业务类型统计单元所述,先对多个待分析文本所属的业务类型进行统计,得出每个业务类型对应的待分析文本数量和占全部待分析文本数量的占比信息。例如,有10000个待分析文本,其中,“保险业务”所对应的待分析文本有5000个,“银行业务”所对应的待分析文本有3000个,“信托业务”所对应的待分析文本有1500个,“证券业务”所对应的待分析文本有500个;那么,每个业务类型占待分析文本的占比信息为,“保险业务”占50%,“银行业务”占30%,“信托业务”占15%,“证券业务”占5%。然后,如上述业务类型统计反馈单元所述,将每个业务类型对应的待分析文本数量和占全部待分析文本的占比信息反馈在前端,从而便于分析行业走向,统计各业务冷热趋势。

在一个实施例中,上述深度分析文本的装置还包括:

具体业务信息显示单元,用于显示所述待分析文本所对应的具体业务信息。

如上述具体业务信息显示单元所述,将通过第一预设模型对待分析文本进行分析所得出的具体业务信息(例如,销卡业务),将待分析文本所对应的具体业务信息显示在前端,展示出来。具体显示的方式可以是对该文本打上第二标签,该第二标签包括具体业务信息,例如“销卡”。从而,当对多个文本进行以上操作后,可以直观地表达出具体业务类型的发展趋势,例如,信用卡业务是注册的多还是销卡的多。

在一实施例中,上述深度分析文本的装置还包括:

具体业务信息统计单元,用于对所述每个业务类型对应的待分析文本进行分析所得出的具体业务信息进行统计,得出每个具体业务信息对应的待分析文本数量和占该业务类型所对应的全部待分析文本数量的占比信息;

具体业务信息统计显示单元,用于显示所述每个具体业务信息对应的待分析文本数量和占该业务类型所对应的全部待分析文本数量的占比信息。

本方案中待分析文本有多个,通过上述第一预设模型对上述待分析文本进行分析,得出上述待分析文本所对应的具体业务信息,每个具体业务信息对应多个待分析文本。

如上述具体业务信息统计单元所述,对每个业务类型对应的待分析文本进行分析所得出的具体业务信息进行统计,得出每个具体业务信息对应的待分析文本数量和占该业务类型所对应的全部待分析文本数量的占比信息。例如,通过对业务类型为“银行业务”的1000个待分析文本进行分析所得出的具体业务信息包括“银行卡销卡”、“银行卡开卡”和“银行卡变更”三个具体业务信息,其中,“银行卡开卡”所对应的待分析文本数量为500个,占比50%;“银行卡变更”所对应的待分析文本数量为300个,占比30%;“银行卡销卡”所对应的待分析文本数量为200个,占比20%。然后,如上述具体业务信息统计显示单元所述,将以上统计的“银行业务”中三个具体业务信息所对应的待分析文本的数量和占该业务类型所对应的全部待分析文本数量的占比信息显示到前端。从而,根据前端显示可以很清楚地了解“银行业务”当前的发展趋势,例如,“银行卡开卡”所对应的待分析文本占比为50%,而“银行卡销卡”所对应的待分析文本占比为20%,说明“银行业务”当前处于较为强劲的上升发展状态。

在一实施例中,上述深度分析文本的装置还包括:

第一因素统计单元,用于对所述每个具体业务信息对应的待分析文本进行分析所得出的分析结果包含的第一因素进行统计,并建立第一因素和所述待分析文本的对应关系,得出每个第一因素对应的待分析文本数量和占该具体业务信息所对应的全部待分析文本数量的占比信息;其中,每个待分析文本对应一个第一因素,每个第一因素对应一个或多个待分析文本;

第一因素统计显示单元,用于显示上述每个第一因素对应的待分析文本数量和占该具体业务信息所对应的全部待分析文本数量的占比信息。

本方案中待分析文本有多个,通过上述第二预设模型对上述待分析文本进行分析,得出上述待分析文本所对应的分析结果,每个待分析文本有一个分析结果,每个分析结果包含一个第一因素,相同的第一因素不做区分。

如上述第一因素统计单元所述,对每个具体业务信息对应的待分析文本进行分析所得出的分析结果包含的第一因素进行统计,并建立第一因素和待分析文本的对应关系,得出每个第一因素对应的待分析文本数量和占该具体业务信息所对应的全部待分析文本数量的占比信息。对多个待分析文本进行分析得出的分析结果可能是相同的第一因素,所以,每个待分析文本对应一个第一因素,但一个第一因素可能对应多个待分析文本。在实际应用中,第一因素可以是客户做出具体行为的原因。例如:针对于具体业务信息是银行业务类型中的“信用卡销卡”业务所对应的100个待分析文本,通过第二预设模型对这些待分析文本进行分析后得出100个分析结果。这100个分析结果中,有50个分析结果包含第一因素一、额度太少,有30个分析结果包含第一因素二、不好用,有20个分析结果包含第一因素三、第一未知因素。也即“额度太少”对应的待分析文本数量为50,占“信用卡销卡”所对应的全部待分析文本数量的占比信息为50%;“不好用”对应的待分析文本数量为30,占“信用卡销卡”所对应的全部待分析文本数量的占比信息为30%;“第一未知因素”对应的待分析文本数量为30,占“信用卡销卡”所对应的全部待分析文本数量的占比信息为20%。

如上述第一因素统计显示单元所述,将上述每个第一因素对应的待分析文本数量和占该具体业务信息所对应的全部待分析文本数量的占比信息显示在前端。也即将上述第一因素统计单元的统计结果显示在前端显示器上,从而可以方便工作人员及管理人员根据统计结果分析这些客户销卡的主要原因,从而调整业务模式,改善不足,以获得更好的业绩和客户评价。

在一实施例中,上述深度分析文本的装置还包括:

第一预定值判断单元,用于根据所述每个第一因素对应的待分析文本数量占该具体业务信息所对应的全部待分析文本数量的占比信息,判断所有符合第一预设结果的第一因素对应的待分析文本数量占该具体业务信息所对应的全部待分析文本数量的占比之和是否达到第一预定值;

第一预定值模型更新单元,用于若所有符合第一预设结果的第一因素对应的待分析文本数量占该具体业务信息所对应的全部待分析文本数量的占比之和,没有达到第一预定值,则对不符合第一预设结果的第一因素进行分析,并更新所述第二预设模型。

本方案中对多个待分析文本通过第二预设模型进行分析所得出的第一因素在对应的第二预设模型中未必都能找到预设的输出结果,例如,第二预设模型中只有(1)额度太少、(2)不好用、(3)不需要这三个预设的输出因素,那么,如果导致客户销卡的原因不在这三个预设的输出因素中,就无法在分析结果中看到具体是什么原因导致的客户销卡。如果出现未知原因(因素)导致客户销卡的待分析文本占比较大,那么就有必要通过人工或智能模型、算法等对不符合预设结果的因素进行分析。

如上述第一预定值判断单元所述,根据所述每个第一因素对应的待分析文本数量占该具体业务信息所对应的全部待分析文本数量的占比信息,判断所有符合第一预设结果的第一因素对应的待分析文本数量占该具体业务信息所对应的全部待分析文本数量的占比之和是否达到第一预定值。例如,第一预定值设为70%,统计出的第一因素对应的待分析文本数量占该具体业务信息所对应的全部待分析文本数量的占比信息如下:第一因素一、额度太少,对应的待分析文本数量占“信用卡销卡”业务所对应的全部待分析文本数量的50%;第一因素二、不好用,对应的待分析文本数量占“信用卡销卡”业务所对应的全部待分析文本数量的30%;第三因素三、第一未知因素,对应的待分析文本数量占“信用卡销卡”业务所对应的全部待分析文本数量的20%;其中,因素一和因素二是符合预设结果的因素,对应的待分析文本数量占“信用卡销卡”业务所对应的全部待分析文本数量的占比之和达到全部因素的80%,则判为预设结果的因素的占比达到第一预定值。

如上述第一预定值模型更新单元所述,如果第一预定值设为70%,统计出的各第一因素对应的待分析文本数量占“信用卡销卡”业务所对应的全部待分析文本数量的占比如下:第一因素一、额度太少,对应的待分析文本数量占“信用卡销卡”业务所对应的全部待分析文本数量的占比的40%;第一因素二、不好用,对应的待分析文本数量占“信用卡销卡”业务所对应的全部待分析文本数量的占比的25%;第一因素三、第一未知因素,对应的待分析文本数量占“信用卡销卡”业务所对应的全部待分析文本数量的占比的35%;其中,因素一和因素二是符合预设结果的因素,对应的待分析文本数量占“信用卡销卡”业务所对应的全部待分析文本数量的占比之和达到全部因素的65%,低于第一预定值70%,则判为所有符合预设结果的第一因素对应的待分析文本数量占“信用卡销卡”业务所对应的全部待分析文本数量的占比之和没有达到预定值。这种情况下,则认为有新的占比较大的原因导致客户销卡,那就有必要通过人工或智能模型、算法等对不符合预设结果的第一未知因素对应的待分析文本进行分析,然后再将人工或智能模型、算法等分析出的新的因素添加到第二预设模型中,作为新的预设结果,从而不断强化第二预设模型的分析能力。例如:人工对不符合预设结果的第一未知因素进行分析,发现“收费较高”成为其中一个不可忽视的原因时,就会对第二预设模型进行补充,把“收费较高”作为一个新的第一预设结果,并建立关联“收费较高”的预设关联规则,更新第二预设模型。利用更新后的第二预设模型对输入的数据信息(文本)进行匹配分析,当满足预设关联规则时,第二预设模型输出“收费较高”作为符合预设结果的一个第一因素,也即客户销卡的一个原因。

在一实施例中,上述深度分析文本的装置还包括:

第二因素统计单元,用于根据所述待分析文本所对应的分析结果统计出各第二因素的占比信息,其中,所述待分析文本所对应的分析结果包含多个第二因素;

第二因素统计显示单元,用于显示所述各第二因素的占比信息。

本方案应用于对一个待分析文本中包含多个导致客户具体行为的原因的情况。在实际中,通过对文本进行分析,最终的分析结果可能有多个第二因素导致了客户的具体行为。在同一文本中除了能够通过关联规则及预设结果关联出具体导致客户行为第二因素外,还有些第二因素在第二预设模型中没有对应的预设结果,因而也就无法关联出这些第二因素。但是,如果第二预设模型中设有第二因素识别机制,例如,文本中出现“原因是……”、“我为什么……”等词语或句式时,认为“原因是”、“我为什么”等词语后面的内容是导致客户作出具体行为的第二因素,但因为在第二预设模型中没有这些第二因素的预设结果,也就无法得出具体的因素,把这些没有得出具体的因素称为第二未知因素,这些第二未知因素也作为分析结果的一部分。本方案中的第二因素与以上实施例中的第一因素只是用于对不同方案中表达上的区分,并不代表存在实质性区别。

如上述第二因素统计单元所述,通过对待分析文本进行分析,若最终的分析结果表明有多个第二因素导致了客户的具体行为,则统计出各第二因素的占比信息。其中,多个第二因素包括第二未知因素。例如:第二因素一、额度太少,占全部因素的50%;第二因素二、不好用,占全部因素的30%;第二因素三、第二未知因素,占全部因素的20%。

如上述第二因素统计显示单元所述,将以上各第二因素的占比信息显示在前端,从而根据占比信息做出分析报告,推定该待分析文本对应的客户销卡的原因主要是嫌额度太少,其次是不好用。从而,可以有针对性地了解某个客户的销卡的具体原因。

在一实施例中,上述深度分析文本的装置还包括:

第二预定值判断单元,用于根据所述各第二因素的占比信息,判断所有符合预设结果的因素的占比之和是否达到第二预定值;

第二预定值模型更新单元,用于若所有符合预设结果的因素的占比之和没有达到第二预定值,则对不符合预设结果的第二因素进行分析,并更新所述第二预设模型。

如上述第二预定值判断单元所述,在统计出各第二因素的占比信息后,根据所述各因素的占比信息,判断所有符合预设结果的因素的占比是否达到第二预定值。例如,第二预定值设为70%,统计出的各第二因素的占比如下:第二因素一、额度太少,占全部第二因素的50%;第二因素二、不好用,占全部第二因素的30%;第二因素三、第二未知因素,占全部第二因素的20%;其中,第二因素一和第二因素二是符合预设结果的第二因素,占比之和达到全部第二因素的80%,则判为第二预设结果的第二因素的占比达到第二预定值。

如上述第二预定值模型更新单元所述,如果第二预定值设为70%,统计出的各第二因素的占比如下:第二因素一、额度太少,占全部第二因素的40%;第二因素二、不好用,占全部第二因素的25%;第二因素三、未知第二因素,占全部第二因素的35%;其中,第二因素一和第二因素二是符合预设结果的第二因素,占比之和达到全部第二因素的65%,低于第二预定值70%,则判为所有符合第二预设结果的第二因素的占比之和没有达到第二预定值。这种情况下,则认为有新的占比较大的原因导致该客户销卡,那就有必要通过人工或智能模型、算法等对不符合第二预设结果的第二因素进行分析,然后再将人工或智能模型、算法等分析出的新的第二因素添加到第二预设模型中,作为新的第二预设结果,从而不断强化第二预设模型的分析能力。例如:人工对不符合预设结果的第二因素(第二未知因素)进行分析,发现“收费较高”成为其中一个不可忽视的原因时,就会对第二预设模型进行补充,把“收费较高”作为一个新的第二预设结果,并建立关联“收费较高”的预设关联规则,更新第二预设模型。利用更新后的第二预设模型对输入的数据信息(文本)进行匹配分析,当满足预设关联规则时,第二预设模型输出“收费较高”作为符合预设结果的一个第二因素,也即客户销卡的一个原因。

在一实施例中,上述深度分析文本的装置还包括:

文本转换单元,将非文字数据转换为文字文本,将所述文字文本作为所述待分析文本。

如上述文本转换单元所述,先将通话录音等非文字数据转化成文字文本,将文字文本作为所述待分析文本,进而实现通过本方法对通话录音进行分析。现在人们习惯于通过电话办理各种业务,例如,开通业务、注销业务以及问题反馈等。银行、保险、电信等行业均有大量的客户语音通话记录,以便于统计分析、及时了解客户需求。面对大量的语音通话记录,难以通过人工逐个重听并统计分析通话内容,将语音通话内容转化成文本再对文本内容进行分析,这样一来可节省大量人力。

参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上传的文件等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种深度分析文本的方法。

上述处理器执行上述深度分析文本的方法的步骤:

通过分词技术对待分析文本进行分词,得到第一词语,所述第一词语有多个;

查找与第一预设业务词库中第二词语相同的所述第一词语,其中,所述第一预设业务词库中包含多个所述第二词语;

统计各与所述第二词语相同的所述第一词语在所述待分析文本中出现的次数,将所述出现的次数与所述第一词语个数的比例达到预定比例要求的所述第一词语作为高频词;

查找与所述高频词相同的第三词语所属的第二预设业务词库,根据所述第二预设业务词库得出所述待分析文本所属的业务类型;其中,所述第二预设业务词库有多个,每个所述第二预设业务词库对应一个所述业务类型,每个所述第二预设业务词库中包含对应所述业务类型的所述第三词语;

根据所述待分析文本所属的业务类型,将所述待分析文本匹配到对应所述业务类型的第一预设模型;

通过所述第一预设模型对所述待分析文本进行分析,得出所述待分析文本所对应的具体业务信息;

根据所述待分析文本所对应的具体业务信息,将所述待分析文本匹配到对应所述具体业务信息的第二预设模型;

通过所述第二预设模型对所述待分析文本进行分析,得出所述待分析文本所对应的分析结果。

在一个实施例中,上述查找与所述高频词相同的第三词语所属的第二预设业务词库,根据第二预设业务词库得出所述待分析文本所属的业务类型的步骤之后,包括:

对多个所述待分析文本所属的业务类型进行统计,得出每个业务类型对应的待分析文本数量和占所述全部所述待分析文本数量的占比信息;

显示上述每个业务类型对应的待分析文本数量和占所述全部所述待分析文本数量的占比信息。

在一个实施例中,上述通过所述第一预设模型对所述待分析文本进行分析,得出所述待分析文本所对应的具体业务信息的步骤之后,还包括:

对所述每个业务类型对应的待分析文本进行分析所得出的具体业务信息进行统计,得出每个具体业务信息对应的待分析文本数量和占该业务类型所对应的全部待分析文本数量的占比信息;

显示上述每个具体业务信息对应的待分析文本数量和占该业务类型所对应的全部待分析文本数量的占比信息。

在一个实施例中,上述通过所述第二预设模型对所述待分析文本进行分析,得出所述待分析文本所对应的分析结果的步骤之后,还包括:

对所述每个具体业务信息对应的待分析文本进行分析所得出的分析结果包含的第一因素进行统计,并建立第一因素和所述待分析文本的对应关系,得出每个第一因素对应的待分析文本数量和占该具体业务信息所对应的全部待分析文本数量的占比信息;其中,每个待分析文本对应一个第一因素,每个第一因素对应一个或多个待分析文本;

显示上述每个第一因素对应的待分析文本数量和占该具体业务信息所对应的全部待分析文本数量的占比信息。

在一个实施例中,上述对所述每个具体业务信息对应的待分析文本进行分析所得出的分析结果包含的第一因素进行统计,并建立第一因素和所述待分析文本的对应关系,得出每个第一因素对应的待分析文本数量和占该具体业务信息所对应的全部待分析文本数量的占比信息的步骤之后,还包括:

根据所述每个第一因素对应的待分析文本数量占该具体业务信息所对应的全部待分析文本数量的占比信息,判断所有符合第一预设结果的第一因素对应的待分析文本数量占该具体业务信息所对应的全部待分析文本数量的占比之和是否达到第一预定值;

若否,对不符合第一预设结果的第一因素进行分析,并更新所述第二预设模型。

在一个实施例中,上述通过所述第二预设模型对所述待分析文本进行分析,得出所述待分析文本所对应的分析结果的步骤之后,包括:

根据所述待分析文本所对应的分析结果统计出各第二因素的占比信息,其中,所述待分析文本所对应的分析结果包含多个第二因素;

显示所述各第二因素的占比信息。

在一个实施例中,上述根据所述待分析文本所对应的分析结果统计出各第二因素的占比信息的步骤之后,还包括:

根据所述各第二因素的占比信息,判断所有符合第二预设结果的第二因素的占比之和是否达到第二预定值;

若否,对不符合第二预设结果的第二因素进行分析,并更新所述第二预设模型。

本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种深度分析文本的方法,具体为:

通过分词技术对待分析文本进行分词,得到第一词语,所述第一词语有多个;

查找与第一预设业务词库中第二词语相同的所述第一词语,其中,所述第一预设业务词库中包含多个所述第二词语;

统计各与所述第二词语相同的所述第一词语在所述待分析文本中出现的次数,将所述出现的次数与所述第一词语个数的比例达到预定比例要求的所述第一词语作为高频词;

查找与所述高频词相同的第三词语所属的第二预设业务词库,根据所述第二预设业务词库得出所述待分析文本所属的业务类型;其中,所述第二预设业务词库有多个,每个所述第二预设业务词库对应一个所述业务类型,每个所述第二预设业务词库中包含对应所述业务类型的所述第三词语;

根据所述待分析文本所属的业务类型,将所述待分析文本匹配到对应所述业务类型的第一预设模型;

通过所述第一预设模型对所述待分析文本进行分析,得出所述待分析文本所对应的具体业务信息;

根据所述待分析文本所对应的具体业务信息,将所述待分析文本匹配到对应所述具体业务信息的第二预设模型;

通过所述第二预设模型对所述待分析文本进行分析,得出所述待分析文本所对应的分析结果。

在一个实施例中,上述查找与所述高频词相同的第三词语所属的第二预设业务词库,根据第二预设业务词库得出所述待分析文本所属的业务类型的步骤之后,包括:

对多个所述待分析文本所属的业务类型进行统计,得出每个业务类型对应的待分析文本数量和占所述全部所述待分析文本数量的占比信息;

显示所述每个业务类型对应的待分析文本数量和占所述全部所述待分析文本数量的占比信息。

在一个实施例中,上述通过所述第一预设模型对所述待分析文本进行分析,得出所述待分析文本所对应的具体业务信息的步骤之后,还包括:

对所述每个业务类型对应的待分析文本进行分析所得出的具体业务信息进行统计,得出每个具体业务信息对应的待分析文本数量和占该业务类型所对应的全部待分析文本数量的占比信息;

显示所述每个具体业务信息对应的待分析文本数量和占该业务类型所对应的全部待分析文本数量的占比信息。

在一个实施例中,上述通过所述第二预设模型对所述待分析文本进行分析,得出所述待分析文本所对应的分析结果的步骤之后,还包括:

对所述每个具体业务信息对应的待分析文本进行分析所得出的分析结果包含的第一因素进行统计,并建立第一因素和所述待分析文本的对应关系,得出每个第一因素对应的待分析文本数量和占该具体业务信息所对应的全部待分析文本数量的占比信息;其中,每个待分析文本对应一个第一因素,每个第一因素对应一个或多个待分析文本;

显示上述每个第一因素对应的待分析文本数量和占该具体业务信息所对应的全部待分析文本数量的占比信息。

在一个实施例中,上述对所述每个具体业务信息对应的待分析文本进行分析所得出的分析结果包含的第一因素进行统计,并建立第一因素和所述待分析文本的对应关系,得出每个第一因素对应的待分析文本数量和占该具体业务信息所对应的全部待分析文本数量的占比信息的步骤之后,还包括:

根据所述每个第一因素对应的待分析文本数量占该具体业务信息所对应的全部待分析文本数量的占比信息,判断所有符合第一预设结果的第一因素对应的待分析文本数量占该具体业务信息所对应的全部待分析文本数量的占比之和是否达到第一预定值;

若否,对不符合第一预设结果的第一因素进行分析,并更新所述第二预设模型。

在一个实施例中,上述通过所述第二预设模型对所述待分析文本进行分析,得出所述待分析文本所对应的分析结果的步骤之后,包括:

根据所述待分析文本所对应的分析结果统计出各第二因素的占比信息,其中,所述待分析文本所对应的分析结果包含多个第二因素;

显示所述各第二因素的占比信息。

在一个实施例中,上述根据所述待分析文本所对应的分析结果统计出各第二因素的占比信息的步骤之后,还包括:

根据所述各第二因素的占比信息,判断所有符合第二预设结果的第二因素的占比之和是否达到第二预定值;

若否,对不符合第二预设结果的第二因素进行分析,并更新所述第二预设模型。

以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1