短文本分类方法及终端设备与流程

文档序号:25214094发布日期:2021-05-28 14:10阅读:65来源:国知局
短文本分类方法及终端设备与流程

本发明属于文本处理技术领域,尤其涉及一种短文本分类方法及终端设备。



背景技术:

随着电力行业竞争的加剧,如何维护用户满意度、提高电力工单的处理效率成为电力企业急需解决的问题。为确保用户提交的问题得到迅速有效的解决,首先需对工单文本进行高效、准确地分类。

由于电力行业工单文本具有篇幅短、特征稀疏且上下文信息缺乏等特征,采用现有文本分类方法进行分类准确率不够高,不能满足电力行业的实际应用需求。



技术实现要素:

有鉴于此,本发明实施例提供了一种短文本分类方法及终端设备,以解决现有技术中采用现有的文本分类方法对电力行业工单文本进行处理分类准确率不够高,不能满足应用需求的问题。

本发明实施例的第一方面提供了一种短文本分类方法,包括:

获取待处理短文本,并对待处理短文本进行预处理;

提取预处理后的短文本的特征词,提取预处理后的短文本的主题词,并将预处理后的短文本的特征词和预处理后的短文本的主题词进行拼接,得到目标词集;

建立文本向量训练模型,并将目标词集输入文本向量训练模型进行文本向量训练,得到目标文本向量;

将目标文本向量输入预设的分类模型中进行分类,得到目标分类结果。

本发明实施例的第二方面提供了一种短文本分类装置,包括:

预处理模块,用于获取待处理短文本,并对待处理短文本进行预处理;

融合模块,用于提取预处理后的短文本的特征词,提取预处理后的短文本的主题词,并将预处理后的短文本的特征词和预处理后的短文本的主题词进行拼接,得到目标词集;

向量生成模块,用于建立文本向量训练模型,并将目标词集输入文本向量训练模型进行文本向量训练,得到目标文本向量;

结果输出模块,用于将目标文本向量输入预设的分类模型中进行分类,得到目标分类结果。

本发明实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如本发明实施例第一方面提供的短文本分类方法的步骤。

本发明实施例的第四方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现如本发明实施例第一方面提供的短文本分类方法的步骤。

本发明实施例提供了一种短文本分类方法,包括:获取待处理短文本,并对待处理短文本进行预处理;提取预处理后的短文本的特征词及主题词,并将预处理后的短文本的特征词和预处理后的短文本的主题词进行拼接,得到目标词集;建立文本向量训练模型,并将目标词集输入文本向量训练模型进行文本向量训练,得到目标文本向量;将目标文本向量输入预设的分类模型中进行分类,得到目标分类结果。本发明实施例从主题词和特征词两个方面进行考量,用主题词扩展短文本缺乏的主题信息,提高了模型分类的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种短文本分类方法的实现流程示意图;

图2是本发明实施例提供的btm模型的结构图;

图3是本发明实施例提供的bert模型的结构;

图4是本发明实施例提供的一种短文本分类装置的示意图;

图5是本发明实施例提供的终端设备的示意图。

具体实施方式

以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。

为了说明本发明的技术方案,下面通过具体实施例来进行说明。

参考图1,本发明实施例提供了一种短文本分类方法,包括:

s101:获取待处理短文本,并对待处理短文本进行预处理;

s102:提取预处理后的短文本的特征词,提取预处理后的短文本的主题词,并将预处理后的短文本的特征词和预处理后的短文本的主题词进行拼接,得到目标词集;

s103:建立文本向量训练模型,并将目标词集输入文本向量训练模型进行文本向量训练,得到目标文本向量;

s104:将目标文本向量输入预设的分类模型中进行分类,得到目标分类结果。

本发明实施例针对电力工单文本等短文本,从主题词和特征词两个方面进行考量,提取预处理后的短文本的特征词,再用主题词扩展短文本缺乏的主题信息,提高了模型分类的准确率,可以满足电力行业的实际应用需求。

一些实施例中,s102可以包括:

s1021:采用融合词性的tf-idf算法提取预处理后的短文本的特征词。

本发明实施例从统计方面采用融合词性的tf-idf(termfrequency–inversedocumentfrequency,词频-逆向文件频率)算法提取预处理后的短文本的特征词,提取出有意义的特征词,排除非无意义词汇的影响,减少了算法执行时间,提高了算法运行效率。

一些实施例中,s1021可以包括:

词汇w的文本特征词权重weightw的计算公式为:

weightw=λ×tfw×idfw

其中,λ为词性权重,tfw为词汇w在语料库中出现的频率,idfw为词汇w的逆文本频率;cw为词汇w出现的总次数,cw'为第w'种词的数量,w'=1,2…,w,w为词汇表大小,|m|为待处理短文本中文本的数量,|{j:w∈dj}|为待处理短文本中包含词w的文本的数量。

一些实施例中,名词或动词的词性权重λ为1.5,其他词性权重为1。

可根据实际应用需求设定词性权重。

其中,待处理短文本包括多条文本。例如,预处理后的短文本包括10000条电力工单文本信息,所有词汇累计共出现100000次,在对某一条电力工单文本信息采用融合词性的tf-idf算法进行特征词提取时,其中,包含“电费”一词,并且“电费”一词出现在99条电力工单文本中,累计出现1000次,同时“电费”一词为名词,词性权重λ可以为1.5所以采用融合词性的tf-idf算法进行特征词提取时,

一些实施例中,s102可以包括:

s1022:采用btm模型提取预处理后的短文本的主题词。

由于电力工单文本篇幅较短、特征稀疏,本发明实施例从潜在语义方面采用btm模型(bitermtopicmodel)提取主题词,扩展文本特征。btm模型打破了传统主题模型的文档主题层,通过将文档转换为词对(词对是指文档预处理后任意共现的两个词),对整个语料库的词对建模学习主题,有效解决了短文本数据稀疏性和高维度的问题,同时考虑了词之间的语义联系,获得了更为准确的话题词,提高了分类的准确率。

图2示出了btm模型的结构图。θ为整个语料库中的主题分布,φ为某一主题下词的分布,z为某一词对所对应的主题,wi、wj表示构成某一词对的两个不同的词,|b|为整个语料库中所包含的词对数,k为语料库中所具有的主题数。

btm模型的建立过程如下:

1、对预处理后的短文本,采样一个主题分布θ~dirchlet(α);

2、对每个主题z∈[1,k],采样一个词分布φz~dirchlet(β);

3、对词对集b中的每个词对b=(wi,wj);

1)从整个语料库的主题分布θ中随机抽取一个主题z,则有z~multi(θ);

2)从抽取到的主题z中随机抽取构成词对b的两个不同的词,wi、wj,则有wi,wj~multi(φz)。

由于主题数目k值的选取会直接影响btm的建模结果,所以在对电力工单文本集建模前需先确定最优主题数目k。本发明实施例采用pmi(pointwisemutualinformation,逐点互信息)指标来确定最优主题数目k,pmi值越大,表明主题越连贯,建模效果越好。

其中,pmi的计算公式为:

其中,p(wi,wj)为某滑动窗口同时出现的词对(wi,wj)的联合概率分布,p(wi)为某滑动窗口出现的边缘概率,n为每个主题下概率从大到小排序的主题词的个数。

一些实施例中,n可以设置为10。

btm模型中参数φ和θ采用吉布斯抽样方法进行推断。在吉布斯抽样前先要随机选择马尔科夫链的初始状态,然后计算每个词对b=(wi,wj)的条件概率p(z|z-b,b,α,β),对整个数据联合概率应用链式规则,得到条件概率的计算公式:

其中,z-b为除了词对b以外的所有其它词对的主题分配,b为数据集中的词对集,α和β为超参数,cz为词对b被分配给主题z的次数,cw|z为词w被分配给主题z的次数,w为词汇表大小。

确定最优主题数目k后,取α=50/k,β=0.01,确定主题分布θz和主题-词分布φw|z,主题分布θz和主题-词分布φw|z的计算公式为:

其中,|b|为整个语料库包含的词对数。

由于btm模型是对整个数据集中的所有词对建模,没有对文本的生成过程进行建模,因此在主题学习过程中不能直接获得文本-主题概率分布。为了推理出文本的主题,假设文本的主题概率等于从这个文本中生成的词对的主题概率的期望值,文本-主题概率p(z|d)计算公式如下:

其中,p(z|b)可以利用btm产生参数的贝叶斯公式计算得到,p(z|b)的计算公式如下:

p(b|d)利用文本中词对的经验分布来计算,p(b|d)计算公式如下:

其中,cd(b)为文本d中词对b的次数。

在获得文本-主题概率分布p(z|d)之后,选取主题概率最大时对应的主题-词分布作为该文本的主题词。

一些实施例中,s103可以包括:

s1031:建立初始bert模型;

s1032:采用训练样本数据对初始bert模型进行训练,得到训练完成的bert模型;

s1033:将目标词集输入训练完成的bert模型,得到目标文本向量。

bert(bidirectionalencoderrepresentationsfromtransformers)模型作为近几年提出的一种新的语言表征模型,其在大量语料训练基础上考虑了词语在不同上下文的特殊表达,形成动态词向量,有效解决了一词多义的问题,提高了短文本分类方法的准确率。

图3示出了bert模型的结构。bert模型有两种输出形式,第一种是字符级别的向量,即输入文本的每个字符对应有一个向量表示;第二种是句子级别的向量,即输入文本对应有一个向量表示。本发明实施例选用第二种bert模型输出形式,采用bert模型对电力文本特征词集进行训练,即图3中的e1、e2、e3…en表示目标词集,经过双向的transformer编码器即可训练得到文本向量,解决了一词多义的问题。

一些实施例中,预处理可以包括:

文本过滤处理、去停用词处理及分词与词性标注处理。

例如,对于电力工单文本,首先对电力工单文本进行文本过滤,删除少于10个字的超短电力工单文本;然后采用jieba分词工具对电力工单文本进行分词与词性标注;最后,对电力工单文本进行去停用词处理,删除诸如“客户”、“一直”、“今天”等意义不大的词汇。

具体的,假设电力工单文本如下:

文本1:客户来电投诉,客户在3月14日中午12时已缴清电费,但一直到今天还未复电,已超出复电承诺时限,客户表示非常不满,要求供电公司相关部门尽快核实处理并尽快给客户合理解释。

文本2:客户来电反映,在2016年3月8日结清当月电费后,一直到今天没有及时复电,导致客户现在家里还在停电,客户表示不满,要求供电公司相关部门尽快核实处理并尽快给客户合理解释。

文本3:客户来电反映交清电费之后未在24小时内恢复送电,客户表示非常不满,要求处理。

文本4:客户来电投诉供电公司工作人员存在缴费后未按规定及时复电的情况(缴费超过24小时未来电),并且客户连续5个月没有抄表数据产生。客户表示非常不满,要求供电公司相关部门尽快核实处理并尽快给客户合理解释。

经预处理后的文本信息如下:

文本1:投诉/中午/缴清/电费/未复电/超出/复电/承诺/时限/供电/公司/相关部门/核实/解释

文本2:结清/当月/电费/复电/导致/家里/停电/供电/公司/相关部门/核实/解释

文本3:交清/电费/未/24小时/恢复/送电

文本4:投诉/供电/公司/工作人员/缴费/未按规定/复电/情况/连续/抄表/数据/供电/公司/相关部门/核实/解释。

一些实施例中,预设的分类模型可以为:softmax分类模型。

应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

参考图4,本发明实施例还提供了一种短文本分类装置,包括:

预处理模块21,用于获取待处理短文本,并对待处理短文本进行预处理;

融合模块22,用于提取预处理后的短文本的特征词,提取预处理后的短文本的主题词,并将预处理后的短文本的特征词和预处理后的短文本的主题词进行拼接,得到目标词集;

向量生成模块23,用于建立文本向量训练模型,并将目标词集输入文本向量训练模型进行文本向量训练,得到目标文本向量;

结果输出模块24,用于将目标文本向量输入预设的分类模型中进行分类,得到目标分类结果。

一些实施例中,融合模块22可以包括:

特征词提取单元221,用于采用融合词性的tf-idf算法提取预处理后的短文本的特征词。

一些实施例中,特征词提取单元221具体用于:

词汇w的文本特征词权重weightw的计算公式为:

weightw=λ×tfw×idfw

其中,λ为词性权重,tfw为词汇w在语料库中出现的频率,idfw为词汇w的逆文本频率;cw为词汇w出现的总次数,cw'为第w'种词的数量,w'=1,2…,w,w为词汇表大小,|m|为待处理短文本中文本的数量,|{j:w∈dj}|为待处理短文本中包含词w的文本的数量。

一些实施例中,融合模块22可以包括:

主题词提取单元222,用于采用btm模型提取预处理后的短文本的主题词。

一些实施例中,向量生成模块23可以包括:

模型建立单元231,用于建立初始bert模型;

模型训练单元232,用于采用训练样本数据对初始bert模型进行训练,得到训练完成的bert模型;

处理单元233,用于将目标词集输入训练完成的bert模型,得到目标文本向量。

一些实施例中,预处理可以包括:

文本过滤处理、去停用词处理及分词与词性标注处理。

一些实施例中,预设的分类模型可以为:softmax分类模型。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将终端设备的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述装置中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

图5是本发明一实施例提供的终端设备的示意框图。如图5所示,该实施例的终端设备4包括:一个或多个处理器40、存储器41以及存储在存储器41中并可在处理器40上运行的计算机程序42。处理器40执行计算机程序42时实现上述各个短文本分类方法实施例中的步骤,例如图1所示的步骤s101至s104。或者,处理器40执行计算机程序42时实现上述短文本分类装置实施例中各模块/单元的功能,例如图4所示模块21至24的功能。

示例性地,计算机程序42可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器41中,并由处理器40执行,以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序42在终端设备4中的执行过程。例如,计算机程序42可以被分割成预处理模块21、融合模块22、向量生成模块23及结果输出模块24。

预处理模块21,用于获取待处理短文本,并对待处理短文本进行预处理;

融合模块22,用于提取预处理后的短文本的特征词,提取预处理后的短文本的主题词,并将预处理后的短文本的特征词和预处理后的短文本的主题词进行拼接,得到目标词集;

向量生成模块23,用于建立文本向量训练模型,并将目标词集输入文本向量训练模型进行文本向量训练,得到目标文本向量;

结果输出模块24,用于将目标文本向量输入预设的分类模型中进行分类,得到目标分类结果。其它模块或者单元在此不再赘述。

终端设备4包括但不仅限于处理器40、存储器41。本领域技术人员可以理解,图5仅仅是终端设备的一个示例,并不构成对终端设备4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如终端设备4还可以包括输入设备、输出设备、网络接入设备、总线等。

处理器40可以是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现场可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器41可以是终端设备的内部存储单元,例如终端设备的硬盘或内存。存储器41也可以是终端设备的外部存储设备,例如终端设备上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,存储器41还可以既包括终端设备的内部存储单元也包括外部存储设备。存储器41用于存储计算机程序42以及终端设备所需的其他程序和数据。存储器41还可以用于暂时地存储已经输出或者将要输出的数据。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中,应该理解到,所揭露的终端设备和方法,可以通过其它的方式实现。例如,以上所描述的终端设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。

以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1