一种基于TFIDF与规则引擎的无监督摘要抽取方法与流程

文档序号:29923161发布日期:2022-05-07 10:00阅读:178来源:国知局
一种基于TFIDF与规则引擎的无监督摘要抽取方法与流程
一种基于tfidf与规则引擎的无监督摘要抽取方法
技术领域
1.本发明涉及金融证券信息技术领域,具体为一种基于tfidf与规则引擎的无监督摘要抽取方法。


背景技术:

2.在金融证券领域,每天都会产生大量的新闻资讯文本,对于需要从文本中获取信息的相关人员来说,自动抽取文本摘要会节省大量人工成本,目前摘要抽取分为抽取式与生成式两大类,针对金融证券领域,生成式摘要抽取可能会自由发挥出一些非原文词语,如果修改了数字指标或重要信息,可能会导致摘要与原文不对应。而且生成式摘要需要大量的标注样本进行训练,对于少量样本数据,模型效果可能不尽如人意。因此针对金融证券领域,特别是针对样本数据缺失的场景,抽取式摘要可能更为适合,而现有的抽取式摘要抽取算法只考虑了内容本身,对于新闻资讯标题考虑较少。基于此,本发明提出一种基于tfidf与规则引擎的无监督摘要抽取方法,可以解决金融证券领域摘要抽取的不足,并且满足系统对模型性能的要求。


技术实现要素:

3.(一)解决的技术问题
4.针对现有技术的不足,本发明提供了一种基于tfidf与规则引擎的无监督摘要抽取方法,在摘要抽取的过程中完全不需要人工提取复杂特征与人工标注数据,同时考虑新闻资讯标题在摘要抽取中的作用,完全满足工程应用,本发明以金融证券行业新闻资讯数据为例,输入标题与正文,输出摘要。
5.(二)技术方案
6.为实现以上目的,本发明通过以下技术方案予以实现:一种基于tfidf与规则引擎的无监督摘要抽取方法,包括离线无监督模型训练方法和在线预测方法两部分,所述离线无监督模型训练方法具体包括以下步骤:
7.s1、将大量业务领域文本进行数据预处理,得到干净文本语料;
8.s2、对预处理后的文本语料进行分词;
9.s3、统计分词后文本语料中词语的词频,并根据tfidf公式计算各词语的idf值,并保存tfidf模型;
10.所述在线预测方法具体包括以下步骤:
11.t1、利用数据预处理模块对原始文本数据进行统一处理,得到较为干净的文本数据;
12.t2、根据语料特点选择对应的断句标点集,利用文本分割模块对预处理后的文本数据进行句子切割,得到句子集合列表;
13.t3、利用tfidf模型提取标题、正文及各个句子的top10关键词及其对应的idf值;
14.t4、遍历句子集合列表,计算每个句子与标题、首句及正文的相似度;
15.t5、根据业务规则对步骤t4中计算出来的各个维度的相似度值,并结合位置权重进行加权相加,得到最终的相似度结果,然后根据加权相加后的结果进行句子重要程度排序,选取top5的句子作为候选摘要集合;
16.t6、利用摘要连贯性模块对候选摘要集合进行处理,选取符合条件的句子作为最终摘要输出。
17.优选的,所述步骤s1中对大量业务领域文本进行数据预处理具体为:利用数据预处理模块对大量的新闻资讯文本进行过滤。
18.优选的,所述步骤s3中tfidf公式为其中,分子n
i,j
表示词语ti在文件dj中的频次,而分母则表示在文件dj中所有词语的频次之和。
19.优选的,所述步骤s3中计算的各词语的idf公式为其中,|d|表示语料库中的文件总数,|{j:ti∈dj}|表示包含词语ti的文件数量。
20.优选的,所述步骤s3中tfidf模型为tfidf
i,j
=tf
i,j
*idfi。
21.优选的,所述步骤t4中计算每个句子与标题、首句及正文的相似度的步骤具体如下;
22.a1、在计算相似度之前,对每个句子、标题与正文的idf值集合进行如下归一化处理:
[0023][0024]
其中,di表示第i个需要归一化的idf值,d
max
和d
min
表示某个句子、标题或正文的idf值的最大和最小值;
[0025]
a2、数据归一化完成后,利用余弦距离来计算两个句子之间的相似度:
[0026][0027]
其中,d
1i
和d
2i
分别表示两个句子中第i个归一化后的idf值。
[0028]
优选的,所述步骤t6中连贯性模块包含句子相邻性判断及摘要首句合理与否判断相关过程。
[0029]
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有机器可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行基于tfidf与规则引擎的无监督摘要抽取方法。
[0030]
(三)有益效果
[0031]
本发明提供了一种基于tfidf与规则引擎的无监督摘要抽取方法。与现有技术相比具备以下有益效果:该基于tfidf与规则引擎的无监督摘要抽取方法,分别通过数据预处理、文本分割模块、相似得分计算和摘要连贯性模块这四个模块,首先通过数据预处理模块对原始的新闻资讯文本进行处理,去除标题与正文中的html符号、无用字符、不可见字符等垃圾文本;进而利用文本分割模块对正文进行切割,得到分割后的句子列表;句子分割完成后,就可以利用已训练完成的tfidf模型抽取正文和每个句子的关键词,并结合规则引擎根
据相似度计算模块计算每个句子的各方面得分(如:位置得分、首句得分,整体得分,标题得分),然后将各个得分进行加权相加得到每个句子最终的得分,排序后输出topk个句子作为候选摘要集;最后利用摘要连贯性模块选取候选摘要集中的句子作为最终摘要输出,可实现在摘要抽取的过程中完全不需要人工提取复杂特征与人工标注数据,同时考虑新闻资讯标题在摘要抽取中的作用,完全满足工程应用,本发明以金融证券行业新闻资讯数据为例,输入标题与正文,输出摘要,很好的解决了金融证券领域摘要抽取不足的为问题,并且满足系统对模型性能的要求。
附图说明
[0032]
图1为本发明的流程图;
[0033]
图2为本发明相似度计算的流程图;
[0034]
图3为本发明摘要连贯性模块的工作流程图;
[0035]
图4为本发明实施例提供的电子设备的工作原理框图
[0036]
图中,800电子设备、801存储器、802处理器、803总线、804通信接口。
具体实施方式
[0037]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0038]
请参阅图1-4,本发明实施例提供一种技术方案:一种基于tfidf与规则引擎的无监督摘要抽取方法包括离线无监督模型训练方法和在线预测方法两部分,离线无监督模型训练方法具体包括以下步骤:
[0039]
s1、将大量业务领域文本进行数据预处理,得到干净文本语料;
[0040]
s2、对预处理后的文本语料进行分词;
[0041]
s3、统计分词后文本语料中词语的词频,并根据tfidf公式计算各词语的idf值,并保存tfidf模型;
[0042]
在线预测方法具体包括以下步骤:
[0043]
t1、利用数据预处理模块对原始文本数据进行统一处理,得到较为干净的文本数据;
[0044]
t2、根据语料特点选择对应的断句标点集,利用文本分割模块对预处理后的文本数据进行句子切割,得到句子集合列表;
[0045]
t3、利用tfidf模型提取标题、正文及各个句子的top10关键词及其对应的idf值;
[0046]
t4、遍历句子集合列表,计算每个句子与标题、首句及正文的相似度,相似度计算过程如图2所示;
[0047]
t5、根据业务规则对步骤t4中计算出来的各个维度的相似度值,并结合位置权重进行加权相加,得到最终的相似度结果,然后根据加权相加后的结果进行句子重要程度排序,选取top5的句子作为候选摘要集合;
[0048]
t6、利用摘要连贯性模块对候选摘要集合进行处理,选取符合条件的句子作为最
终摘要输出,摘要连贯性模块计算过程如图3所示。
[0049]
本发明实施例,步骤s1中对大量业务领域文本进行数据预处理具体为:利用数据预处理模块对大量的新闻资讯文本进行过滤。
[0050]
本发明实施例,步骤s3中tfidf公式为其中,分子n
i,j
表示词语ti在文件dj中的频次,而分母则表示在文件dj中所有词语的频次之和。
[0051]
本发明实施例,步骤s3中计算的各词语的idf公式为其中,|d|表示语料库中的文件总数,|{j:ti∈dj}|表示包含词语ti的文件数量(即n
i,j
≠0的数量),在实际中,分母加1做平滑处理是为了防止分母为0的情况。
[0052]
本发明实施例,步骤s3中tfidf模型为tfidf
i,j
=tf
i,j
*idfi。
[0053]
本发明实施例,步骤t4中计算每个句子与标题、首句及正文的相似度的步骤具体如下;
[0054]
a1、在计算相似度之前,对每个句子、标题与正文的idf值集合进行如下归一化处理:
[0055][0056]
其中,di表示第i个需要归一化的idf值,d
max
和d
min
表示某个句子、标题或正文的idf值的最大和最小值;
[0057]
a2、数据归一化完成后,利用余弦距离来计算两个句子之间的相似度:
[0058][0059]
其中,d
1i
和d
2i
分别表示两个句子中第i个归一化后的idf值。
[0060]
本发明实施例,步骤t6中连贯性模块包含句子相邻性判断及摘要首句合理与否判断相关过程。
[0061]
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有机器可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行基于tfidf与规则引擎的无监督摘要抽取方法。
[0062]
本发明实施例提供的一种电子设备,如图4所示,电子设备800包括存储器801、处理器802,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述实施例提供的方法的步骤。
[0063]
如图4所示,电子设备还包括:总线803和通信接口804,处理器802、通信接口804和存储器801通过总线803连接;处理器802用于执行存储器801中存储的可执行模块,例如计算机程序。
[0064]
其中,存储器801可能包含高速随机存取存储器(random access memory,简称ram),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口804(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网或城域网。
[0065]
总线803可以是isa总线、pci总线或eisa总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
[0066]
其中,存储器801用于存储程序,所述处理器802在接收到执行指令后,执行所述程序,前述本发明任一实施例揭示的过程定义的装置所执行的方法可以应用于处理器802中,或者由处理器802实现。
[0067]
处理器802可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器802中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器802可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digital signal processing,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现成可编程门阵列(field-programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器801,处理器802读取存储器801中的信息,结合其硬件完成上述方法的步骤。
[0068]
对应于上述方法,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有机器可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行上述方法的步骤。
[0069]
本发明实施例提供的服务器的cpu压力测试装及计算机可读存储介质,与上述实施例提供的cpu压力测试方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
[0070]
本发明可以扩展到硬盘、内存等存储器件的压力测试。
[0071]
本发明实施例所提供的装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
[0072]
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每
个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0073]
又例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,再例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0074]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0075]
另外,在本发明提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0076]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,简称rom)、随机存取存储器(random access memory,简称ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0077]
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0078]
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0079]
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义
[0080]
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使
相应技术方案的本质脱离本发明实施例技术方案的范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1