自动判别文本相关性的方法及系统与流程

文档序号:31017481发布日期:2022-08-05 19:19阅读:186来源:国知局
自动判别文本相关性的方法及系统与流程

1.本公开涉及文本分析领域,特别涉及对文本数据进行分析以进行政策文本判别及政策解读。


背景技术:

2.在政策解读方面,企业往往需要及时、快速、准确地跟踪政府发布的各项政策,通过解读政策的内容帮助企业申报政策支持的项目,甚至调整企业的发展战略。由于各级政府发布政策的渠道不同,企业往往难以统一跟踪最新的政策信息。另外,企业也需要参考政府及行业专家对的政策解读以帮助准确理解政策的走向。在现有的情况下,第三方对政策的解读内容大多数在与发布政策的网站不同的网站上发布。例如一项政策可能发布在政府公示网站上,然而各行业专家对该项政策的解读内容却往往发布在不同的新闻网站、论坛甚至自媒体平台上。
3.在股票投资方面,投资者往往需要关注上市公司的重大事件以及行业专家对该事件的解读与评价。上市公司的公告或证监会针对某家上市公司发布的(处罚)公告可能发布在各自的公示网站上,而第三方(例如行业专家、分析师)针对这一公告所进行的评论、解读文章却往往发布在其他新闻网站、论坛或自媒体平台上。公告的解读内容对投资者而言也具备重要的参考价值。然而由于不同的发布渠道、大量的解读文本使得投资者难以高效地获取信息。
4.现有技术中对政策的分析往往仅着眼于分析单篇政策原文或公告原文(后面简称“原文”)本身的信息,而忽略了第三方解读文本(后面简称“解读文”)对原文的解读信息。
5.例如,专利申请“一种基于深度学习的政策解读方法及政策解读系统”cn109493265a仅对政策原文进行nlp处理。专利申请“一种政策研究解读方法、系统、存储介质和服务器”cn110245225a仅对政策原文进行简单处理。专利申请“一种政策解读的方法及装置”cn108984766a仅对政策原文进行检索,简单处理。专利申请“一种基于数据联勤服务的政策解读方法”cn110874414a仅对政策原文进行元数据关联处理。
6.因此,存在将政策原文或公告原文与相应的第三方的解读文本关联起来的需求以使得企业或投资者能够高效的获取发布政策的相关信息并及时作出相应的策略调整。
7.在本技术的“原文”指的是任何需要被解读的文本,例如政府公告、公司公告、文学作品等等;而解读文指的是任何判别为与原文相关联的文本,例如解读政府政策的新闻文章、解读公司公告的分析师报告、文学评论等等。


技术实现要素:

8.针对上述需求,本技术提出了将原文与解读文相关联的解决方案。本技术的实施例采用自动化流程进行,首先判别输入的文本的类型是属于原文、解读文还是无关文本;如果判别该文本为原文类型,则对该原文进行信息抽取并存入于原文数据库;如果判别该文本为解读文,则对该解读文进行信息抽取,并将抽取的解读文的信息与数据库中存储的抽
取的原文的信息进行匹配以判别解读文与哪一篇原文相关联。
9.本技术进一步还可以抽取解读文中与关联的原文相关的解读信息。具体而言,可以根据对解读文的每个句子和相应原文的每个句子成对相似度计算,和解读句的解读方式来去匹配各解读句与一个或多个原文正文句或句子集。
10.根据本公开的第一方面,提供了一种原文文本与原文的解读文本相关联的方法,包括:输入文本数据;判别文本数据类型,包括将输入文本判别为原文文本、解读文本或无关文本;如果判别文本数据为原文文本,对原文文本进行信息抽取,信息抽取包括抽取原文文本的主要主体,以及将原文文本和抽取的主要主体存储在原文数据库中;如果判别文本数据为解读文本,判断该解读文与已存储的原文的关联性,包括:对解读文进行信息抽取,信息抽取包括抽取解读文的主要主体;将抽取的解读文的主要主体与存储在原文数据库中的每个原文文本的主要主体进行匹配;生成匹配的原文与该解读文的“原文-解读文”二元组。
11.根据本公开的第二方面,提供了一种原文文本与原文的解读文本相关联的计算机系统,包括:原文数据库,用于存储原文及其相关信息;输入模块,用于接收文本数据;文本数据类型判别模块,用于将接收的文本判别为原文文本、解读文本或无关文本;原文信息抽取模块,用于对判别为原文文本的文本类型进行信息抽取,所述信息抽取包括抽取原文文本的主要主体,并且将原文文本和抽取的主要主体存储在所述原文数据库中;解读文信息抽取模块,用于对判别为解读文本的文本类型进行信息抽取,所述信息抽取包括抽取解读文本的主要主体;判断关联性模块,用于判断解读文本与原文数据库存储的原文文本的关联性,包括:将抽取的解读文的主要主体与存储在原文数据库中的每个原文文本的主要主体进行匹配;以及生成匹配的原文与该解读文的“原文-解读文”二元组。计算机系统还可以包括解读句提取模块,针对每个“原文-解读文”的二元组,从解读文本中抽取对相关联的原文的解读句;以及输出模块,输出原文信息和相应的解读文分析信息。
12.根据本公开的第三方面,提供了一种计算设备,包括处理器和存储器,存储器上存储有指令,当指令在处理器上执行时促使处理器执行上述用于原文文本与原文的解读文本相关联的方法。
13.根据本公开的第四方面,提供了一个或多个计算机可读存储介质,其上存储有指令,当指令在一个或多个处理器上执行时促使该一个或多个处理器执行用于原文文本与原文的解读文本相关联的方法。
14.本发明所解决的技术问题是如何将原文文本与对该原文的解读文本的解读信息或评论信息(即文本解读文本)关联起来,其中本发明提出的技术方案解决了如何判别文本类型是原文还是解读文,如何判别解读文与哪一篇原文相关联,如何从解读文中抽取原文的解读信息等。本技术多个实施例提供了针对各个问题的具体的解决方案。
附图说明
15.为了促进全面理解本发明,现在参照附图,图示本公开的几个方面,且连同本描述一起用来解释本公开的原理。这些附图不应当被解释为限制本发明,而是意图为实例性的并作为参考而示出。
16.图1示出了根据本发明的一个实施例的流程图100 ;
图2 示出了本发明对政策文本判别的一个实施例的流程图;图2a示出了本发明的判别文本类型的流程;图3示出了在本发明的政策解读分析的一个实施例的流程图;图4a和图4b分别示出了政策文本和解读文本的示例;图5示出了根据本发明的一个实施例的将原文文本与原文的解读文本相关联的计算机系统500。
具体实施方式
17.下面阐述的实施例表示使本领域中的技术人员能够实践实施例并说明实践实施例的最佳模式的必要的信息。在考虑到所附附图阅读下面的描述后,本领域中的技术人员将理解本公开的概念并将认识到不在本文中特别处理的这些概念的应用。应理解,这些概念和应用落在本公开的范围内。
18.除非另有限定,在本文中使用的所有术语(包括技术和科学术语)具有与本公开所属的领域中的普通技术人员通常理解的相同的含义。将进一步理解,在本文中使用的术语应被解释为具有与它们在这个说明书和相关领域的上下文中的含义一致的含义,且将不在理想化或过度正式的意义上被解释,除非在本文中这样明确地限定。
19.本技术的实施例采用自动化流程进行,首先判别输入的文本的类型是属于原文、解读文还是无关文本;如果判别该文本为原文类型,则对该原文进行信息抽取并存入于原文数据库;如果判别该文本为解读文,则抽取该解读文中与原文数据库中对应原文相关的解读信息,并根据相似度计算方法去匹配每个解读句各解读句与其解读的原文句于在原文文本中的范围。以下将以数个实施例来说明本发明所提供的对文本数据进行文本分析以进行自动化的文本判别及解读的方法及系统 。
20.图1是用于实现本发明的实例性方法的流程图100。
21.首先在步骤101 收集输入的文本数据。可以从任意的数据源收集文本数据,例如,可以从任意的原文数据源收集多个原文,以及可以从任意个解读文数据源收集解读文。在本技术的解决方案中采用通用的文本处理方法来收集文本,解读文的数据源与原文数据源可以是相同的,也可以是不同的。
22.在另一个实施例中,可以通过转换其他类型的数据来得到文本数据。例如,可以从任意数据源收集音频数据,再通过语音识别技术将音频数据转成文本数据;可以从任意数据源收集视频数据,从视频数据中抽取音频,再将音频转成文本数据,以及可以从任意数据源收集图片或pdf数据(例如公告可能以pdf或扫描件的格式发布),通过文字识别技术转成文本数据。
23.在步骤102,针对收集的每篇文本,判别该篇文本的类型是属于原文、解读文还是无关文本。在一个实施例中,可以通过预设规则进行文本类型的判别。在另外的实施例中,也可以利用事先收集的数据集通过机器学习训练一个文本分类模型,其中训练数据的特征可以包括文本的元数据、标题、来源、正文。本技术中提到的机器学习,包括概率统计模型、深度学习、强化学习、有监督学习、无监督学习、半监督学习等本领域技术人员已知的机器学习方法。
24.在步骤103,如果判别文本的类型属于原文,则在步骤104对原文进行信息抽取,并
将该原文、抽取的原文信息连同标识原文文本的信息在步骤105存入原文数据库。步骤104中对原文的信息抽取可以包括抽取主要主体和原文元数据的至少其中之一。主要主体可以包括在后续判别解读文与原文相关性的步骤中用于与解读文进行匹配的信息, 主要主体可以包括政策名,事件名等。原文元数据可以包括标题、来源、日期、预设的原文类型等等。可以通过采用基于模板的正则规则匹配进行信息抽取,也可以利用基于机器学习的信息抽取模型来进行信息抽取。
25.在一个实施例中,可以采用基于模板的正则规则匹配方法来进行信息抽取。在该实施例中,如果文本标题中涵盖主要主体,则根据预设规则抽取该主要主体;如果标题中未涵盖主要主体,则抽取正文中最早出现且符合预设规则的主要主体。在一个实施例中,预设规则可以包括根据特定字符的位置确定主要主体文本的开头和结尾,并由此抽取确定的主体文本。例如,主要主体常被书名号包覆《xxxx》,因此正则匹配抽取的预设规则可以包括将书名号作为特定字符,并根据书名号的位置来将书名号包覆的“xxxx”确定为主要主体文本进行信息抽取。
26.在另一个实施例中,可以利用基于机器学习的信息抽取模型来进行信息抽取。首先将原文标题及正文字段输入至信息抽取模型后,信息抽取模型可通过输入字段的上下文来识别属于主体的单词及其主体类别(例如:人物、地点、时间

等)。接着根据任务订定的主要主体类别来抽取正文中被识别为该类别的主体。最后再依据主体在标题及正文中的出现情形,例如出现频率、出现位置等维度来过滤出该原文最相关的主要主体。信息抽取模型可采用任何序列标注机器学习方法训练。
27.在步骤106,如果判别文本的类型属于解读文,则在步骤107中判断该解读文与已存储的原文的关联性。将该解读文与原文数据库中存储的每一篇原文进行信息匹配以确定该解读文对应于哪一篇原文,进而生成确定的对应原文与该解读文的二元组。
28.在该步骤中,首先需要对解读文进行信息抽取,这与步骤104中描述的针对原文抽取原文信息的方法类似,对解读文的信息抽取可以包括抽取主要主体和解读文元数据的至少其中之一。
29.可选地,可以利用抽取的解读文元数据来过滤解读文,使得仅对符合一个和多个条件的的解读文进一步进行文本信息匹配,由此减少输入文本的噪音,提高解读文原文文本信息匹配的准确性,同时减少了后续文本信息匹配的计算量。在一个实施例中,可以抽取解读文元数据中的发布日期,比较原文与解读文的元数据中的发布日期,使得仅将解读文的发布日期在原文发布日期之后才进行后续的文本信息匹配。还可以进一步预设解读文发布日期和原文发布日期之间间隔阈值,使得仅将解读文发布日期与原文发布日期之间的间隔超过预设间隔阈值的进行后续的文本信息匹配。例如,仅将解读文发布日期在原文发布日期之后两天的解读文进行文本信息匹配。在另一个实施例中,可以抽取解读文元数据中的来源,使得仅将来自预设的一个或多个数据来源的解读文进行后续的文本信息匹配。本领域的技术人员能够理解,利用抽取的解读文元数据来过滤解读文也可以在文本信息匹配步骤之后进行而同样达到减少输入文本噪音,提高解读文原文匹配的准确性的技术效果。
30.接着将抽取的解读文的主要主体与存储在原文数据库中的每一篇原文的主要主体进行文本信息匹配。如果成功匹配则表示该解读文与原文具有关联性,并包括一定概率涵盖对该原文解读的解读句。进而生成确定匹配的原文与该解读文的“原文-解读文”二元
组。
31.在步骤108,针对每个“原文-解读文”的二元组,从解读文中抽取对相关联的原文的解读信息,解读信息可以包括相应的解读句、解读句于原文本中的字元起始位置及解读句于原文本中的字元结束位置。
32.在一个实施例中,可直接通过预设规则或模型来判别解读文中的句子是否为原文的解读句。例如,预设规则可以包括判别解读文中的每个句子是否提及原文信息,以及每个句子是否达到一定长度的标准等。在另一个实施例中还可以判别解读句的解读类别,判别解读句是属于对原文的“通篇解读”,还是对原文某一方面内容的“内容解读”。
33.在采用预设规则或模型来判别解读文中的句子是否为原文的解读句的实施例中,可以先判别解读句的解读方式,例如包括列点式解读、观点式解读、关键字匹配解读 。
34.在另一个实施例中,可以基于解读文每个句子与原文每个句子之间成对相似度分数,判别该解读文的句子是属于原文的通篇解读还是对原文该句子的内容解读。解读文每个句子与原文每个句子的相似度分数可以通过多种不同的文本相似度计算得到。相似度的值域介于0至1之间。例如原文及解读文经由tf-idf模型得到每一句的词嵌入向量后计算句子间的成对余弦相似度。此外,可进一步对得到的相似度分数进行调优,其中相似度分数调优公式如下:在上述相似度分数调优公式中,可以通过多种不同的文本相似度计算方法得到原始分数(a)。公式中的权重项(b)的值为原文正文句字数与解读正文句字数的比例值和整数1之中的较小值。如果原文正文句字数较多,则其信息含量可能较高,而后续与解读文中的正文句相关的概率亦较高。因此,如果原文正文句字数大于解读正文句字数,原文正文句字数与解读正文句字数的比例将大于1,则权重项(b)取值为整数1 的,也就是说,将会保持在原始分数不变。反之,如果原文正文句字数小于解读正文句字数,原文正文句字数与解读正文句字数的比例将小于1,则权重项(b)取值为原文正文句字数与解读正文句字数的比例值,也就是将原始分数下调该比例值。公式中的权重项(c)取决于原文正文句和解读文正文句的重要关键字集合交集。如果原文正文句和解读文正文句的重要关键字集合交集越大,则原文正文句与解读文正文句相关的概率亦较高。因此,先经由text rank得到政策正文句及解读正文句top-n (此处n预设为5) 高分的重要关键字,并依据结果找出两集合间交集的重要关键字数量n,最终再以交集个数n与总个数n的比例进行原始分数额外的调升。
35.经由基于权重项(b)及权重项(c)调整后的原始分数(a)即为调优相似度分数。可以预设相似度的阀值分数,例如0.5,如果相似度分数大于阀值分数,则判别解读句为原文的相应句子的内容解读,如果相似度分数小于阀值分数,则判别解读句为通篇解读。
36.在采用机器学习的实施例中,可利用任何"语义嵌入"的方法,将句子向量化后进行相似度计算。例如采用word2vec将原文每个句子及解读文每个句子的句向量做成对余弦相似度的计算。此外,可以利用bert作为相似度计算任务的预训练模型并将成对的原文每个句子及解读文每个句子作为输入来得到两句之间的相似性分数。
37.在另外的实施例中,也可进一步结合上述采用预设规则或模型的实施例和采用机
器学习的实施例的两种方法或使用其它任何语义嵌入技术。例如,将采用机器学习的实施例得到的相似性分数作为原始分数,利用前述的相似度分数调优公式将原始分数调整为更适用于任务的相似度分数。
38.可选地,在通过前述步骤获得多个解读句后,可对解读句进行话题聚类、情感分析等后续应用。
39.图2示出了在本发明对政策文本的判别的一个实施例的流程图。图3示出了在本发明中政策解读分析的一个实施例的流程图。
40.在该实施例中,“政策文本”即发布政策的原文,“解读文本”即对政策的解读文。在该政策文本判别的实施例中判别文本类型并将政策文本进行来源过滤及政策名抽取后存入政策库208。
41.大体而言,图2的实施例采用自动化流程对输入文本进行政策文本判别,将判别为政策的文本进行政策名抽取并存入政策数据库。图3的实施例亦采用自动化流程对与政策库208中的政策相关联的解读文本抽取对应的政策解读句,并基于根据本发明的相似度计算方法匹配各解读句与政策文的相应句子于政策文本中的范围。这两个实施例可以单独或结合实施。
42.在图2示出的实施例中,首先,在步骤201判别文本类型,对于来自不同数据源的文本数据,判别该文本数据属于政策文本还是非政策文本,如果需要,还可以进一步判断该文本数据是否属于解读文本。在该步骤中,依据包括基于文本的标题、正文及发布来源等一系列规则依次匹配以判别文本是否符合政策文本还是非政策文本的特征。如果需要,还可以进一步判断该文本数据是否符合解读文本的特征。
43.图2a示出了根据本发明的一个实施例的判别文本类型的流程。该实施例中,对文本数据从以下(a)-(e)的系列规则进行逐项依次进行匹配以判别该文本数据属于政策文本还是非政策文本:(a) 检查文本标题是否出现非政策相关的排除字和/或特殊字符,如果文本标题出现非政策相关的排除字及特殊字符,则判别该文本为非政策文本;(b) 检查文本正文是否出现例如"总则"等特定词汇,如果文本内出现特定词汇,则判别该文本为政策文本;(c) 检查文本正文段落数是否达到阀值,例如将阀值预设为7,如果正文段落数达到或超过阀值,则判别该文本为非政策文本;(d) 检查文本正文是否出现政策列点式特征,如果出现政策列点式特征,则判别该文本为政策文本;(e) 检查文本正文是否出现非政策相关的排除字和/或特殊字符,如果文本正文出现非政策相关的排除字和/或特殊字符,则判别该文本为非政策文;(f) 检查文本来源是否符合特定政策发布来源,如果文本来源符合特定政策发布来源,则判别该文本为政策文。
44.在另一个实施例中,可以利用机器学习方式将上述规则中的每个规则视为特征值训练多分类模型(此处为三分类模型)来判别一篇文本的类型,模型输出结果为政策文本、解读文本、和无关文本。
45.在步骤202,对通过如图2a政策文本判别程序后判别为政策文本的文本执行政策
名抽取,判别为非政策文本的文本则会在步骤204被直接输出。如在针对图1的实施例的步骤103中抽取主要主体中所描述的,抽取的政策名将用于在后续步骤中用于判断与解读文的相关性。
46.在一个实施例中,可以通过将文本标题与政策特征关键词进行匹配来抽取政策名。政策特征关键词可以包括《...规定》、《...决定》(征求意见稿)、关于...规定的通知...等。
47.表1示出了政策文标题以及抽取的政策名的示例:在另一个实施例中,也可如图1步骤103所描述的利用基于机器学习的信息抽取模型中命名实体判别等序列标注方式来抽取政策名。
48.在步骤203中,可以根据需要筛选政策来源。例如可以根据不同任务设置来判定是否保留特定来源(政府机关、部门)所发布的政策。
49.在执行对政策文本的文本执行政策名抽取,以及可选地筛选政策来源后,将政策文本、抽取的政策名、连同标识政策文本的信息,例如文本编号(docid)存储到政策库208中。
50.在步骤204,输出判别的政策文本和非政策文本。政策文本和非政策文本会附加有文本编号(docid)以及文本类型(doc_type)的信息。
51.图3示出了在本发明中政策解读分析的一个实施例的流程图。
52.该实施例具体描述了对解读文本与存储在政策库208中的政策文本进行相似度匹配,以及对解读句抽取的过程。
53.政策解读分析开始于步骤301的判别文本类型,类似于图2实施例中的步骤201,对于来自不同数据源的文本数据,判别该文本数据是否属于政策文本还是非政策文本,如果输入的文本被判别为政策文本,则将政策文本存入政策库,不再进行后续解读分析。而对于非政策文本,则进一步判别该文本正文是否提及任何政策以及政策库中是否存在该文本提及的政策。如果满足这两项条件,则判别该文本为解读文本,否则该文本为无关文本。
54.在另一个实施例中,也可以利用机器学习中的多分类模型来进行文本类型判别。
55.图4a和图4b分别示出了政策文本和解读文本的示例。
56.如果判别文本的类型属于政策解读文本,类似于图1步骤107所描述的,则在步骤302中判断该解读文与已存储的政策文的关联性。将该解读文与政策库中存储的每一篇政策文进行信息匹配以确定该解读文对应于哪一篇原文,进而生成确定的对应政策文与该解读文的二元组,同时可以取得对应政策文本编号(policy_docid)、对应政策文本标题(policy_headline)及对应政策文本正文(policy_content)。
57.在步骤303中进行解读文本与对应政策文的相似度计算。该步骤将计算解读文本的每个句子与对应政策文本的每个句子之间的相似度计算,得到的相似度分数值介于0至1之间。基于得到的解读文本的每个句子与政策文本的每个句子之间的相似度分数值可以判
断解读文本的每个句子是属于何种解读类别(analysis_type),即属于“通篇解读”类型还是“内容解读”类型。如果解读文本的一句子及政策文本的一句子的相似度值高(≥0.5), 则该解读文本的句子为该政策文本的句子的内容解读句,如果计算的相似度值低(《0.5),则为政策文本的通篇解读句。计算解读文本的每个句子与对应政策文本的每个句子的相似度。如果政策文本包括n个句子,对于解读文本的每个句子,可以得到分别对应于政策文每个句子的n个相似度。如果存在 n个大于0.5的相似度值(n≤n),则该解读文本的句子是n个政策文本的句子的对应内容解读句。反之亦然,如果解读文本包括m个句子,每个政策文本正文句可以具有m个对应的解读句(m≤m)。
58.在该步骤中,先将解读文本的正文及对应政策文本的正文分别以句号为字符拆分为句子单位的文本形式,并以下方相似度公式分别计算两文本每句间的成对相似度。
59.在上述相似度公式中,可以通过多种不同的文本相似度计算方法得到原始分数(a)。公式中的权重项(b)的值为政策正文句字数与解读正文句字数的比例值和整数1之中的较小值。如果政策正文句字数较多,则其信息含量可能较高,而后续与解读文中的正文句相关的概率亦较高。因此,如果政策正文句字数大于解读正文句字数,政策正文句字数与解读正文句字数的比例将大于1,则权重项(b)取值为整数1 的,也就是说,将会保持在原始分数不变。反之,如果原文正文句字数小于解读正文句字数,原文正文句字数与解读正文句字数的比例将小于1,则权重项(b)取值为原文正文句字数与解读正文句字数的比例值,也就是将原始分数下调该比例值。公式中的权重项(c)取决于政策正文句和解读文正文句的重要关键字集合交集。如果政策正文句和解读文正文句的重要关键字集合交集越大,而政策正文句与解读文正文句相关的概率亦较高。因此,先经由text rank得到政策正文句及解读正文句top-n (此处n预设为5) 高分的重要关键字,并依据结果找出两集合间交集的重要关键字数量n,最终再以交集个数n与总个数n的比例进行原始分数额外的调升。
60.经由基于权重项(b)及权重项(c)调整后的原始分数(a)即为解读文每个句子与对应政策文每个句子之间的相似分数(score)。可以预设相似度的阀值分数,例如0.5,如果相似度分数最大值大于阀值分数,则判别解读句为内容解读,即为针对政策正文中某条或某个子项的解读。如果相似度分数最大值小于阀值分数,则判别解读句为通篇解读。此外,若解读类型为内容解读,则会在最后输出该解读句的所有解读对应句(policy_reference)、每个解读对应句于政策文本中的字元起始位置(policy_start_index)及解读对应句于政策文本中的字元结束位置(policy_end_index),所述解读对应句即政策文正文句中与该解读正文句相似度大于阈值分数,例如0.5,的句子。
61.在另一个实施例中,亦可利用机器学习中的聚类方式找出各解读正文句最接近的政策文正文分句子集,或利用“语义”相关模型找出最相关的解读正文句与政策正文句二元组配对,最后再利用政策名匹配或其他规则来进一步提升解读正文句与政策正文句的相关性。
62.表2示出了解读关联性类型的示例:
在步骤304中,标识解读文本中解读句的类型。在一个实施例中,解读文本中的解读句可以包括以下三种类型:(a) 列点式解读: 检视解读正文內的分句是否出现列点式特征的叙述。例如分句包括类似如下的表述:
“……
以下几点变化”、
“……
几大方面的影响”等;(b) 关键字匹配解读: 检视解读內的分句是否出现解读关键字。例如分句包括类似如下的表述:
ꢀ“
彰显了
……”
、“反映了
……”
等;以及(c) 观点式解读: 检视解读內的分句是否出现观点式特征的叙述。例如分句包括类似如下的表述:“xxx表示
……”
、“xxx指出
……”
、“xxx认为
……”
,其中xxx可为任一人名或职称。
63.在该步骤中,检查解读文本中的每一分句,判别该分句是否符合类型(a)、(b)或(c) 的匹配规则。如果该分句符合(a)、(b)或(c) 的至少其中之一的匹配规则,则将该分句标注上所匹配类型的标签。
64.在另外的实施例中,亦可利用机器学习中的多分类模型将解读正文中的每一句进行上述三类解读类型的判别。
65.在标注解读文本中解读句的类型之后,在步骤305,执行解读句抽取。在该步骤中,将会依据不同解读句类型的规则分别检查标注为该类型的解读句是否符合相应的规则,以便确定解读句的完整性及与匹配政策的关联性。以下列出了解读句类型的相应规则(a)、(b)或(c)的说明:(a) 列点式解读规则:在解读关联性类型部份,由于列点式的解读范围广泛(意指不仅提及政策单一面向),所以被标注为该类的解读皆预设为通篇解读。而规则部份,会先检查该解读正文句至前两句是否有提及对应的解读政策名,而后再检视接下来是否可以完整找出有序列点句,如果两项条件皆符合则合并该解读正文句及有序列点句作为最终解读句。
66.(b) 关键字匹配解读规则:在解读关联性类型部份,则会依解读相似度计算中提及的标准作为分类依据。而规则部份,如果为内容解读,则直接将该解读正文句作为最终解读句; 如果为通篇解读,则会先检视解读正文句是否提及对应的解读政策名,如有则直接作为最终解读句。如果无,会再进一步检视前3句是否提及对应的解读政策名。如有则合并被打标的解读正文句及前1句作为最终解读句。如果无,则忽略该解读正文句(即为非解读句)。
67.(c) 观点式解读规则:同(b) 关键字匹配解读规则。
68.表3为三种解读句类型的样例,加有下划线的黑体部份为符合标识及抽取规则的关键字:在步骤306中,对在步骤305中抽取的解读句去重,以避免相同解读句重复出现。在该步骤中,对同一篇解读文本内及不同解读文本所抽取的解读句做个别处理。采用下列技术对解读句进行去重处理:(a) 组内去重: 排除因匹配到多个不同解读标签而重复输出的完全重和解读句。此外,会检查组内解读句间的匹配相似度,如果某两个解读句的相似度》=0.8,则输出这两个解读句中包括字数较多的解读句。
69.(b) 组间去重: 经组内去重后,剩余的解读句会再与elastic search数据库309中已存在的解读句进行相似度匹配,如果无重复解读句则作为最终结果。同时亦会写入elastic search数据库并用于后续新抽取的解读句比对。
70.在另一个实施例中,亦可利用机器学习中的聚类分析将同一蔟的解读句做进一步分析,并根据该蔟中最重要的解读句做代表输出即可。其中,重要程度可依是否为主要媒体来源、是否为原文或转载文

等特征来做权重调整后排序而定。
71.表4列出了相似解读句的样例,加有下划线的黑体部份为相似度高于阈值的解读句:在确定抽取的解读句之后,得到相应的解读句(text_segment)、解读句于解读文本中的字元起始位置(start_index)及解读句于解读文本中的字元结束位置(end_index)。
72.在步骤307,输出获得的政策文本信息和解读文的相关信息,输出的信息可以包括以下三部份:(a) 文本信息: 包含文本编号(docid)及文本类型(doc_type)。
73.(b) 文本对应政策信息: 包含对应政策名称(policy_name)、对应政策文本编号(policy_docid)、对应政策文本标题(policy_headline)及对应政策文本正文(policy_content),如果输入文本类型为其他文本,则该项信息为空值。
74.(c) 解读分析信息: 包含解读句(text_segment)、解读句于解读文本中的字元起始位置(start_index)、解读句于解读文本中的字元结束位置(end_index)、解读句的所有解读对应句(policy_reference)、解读句的所有解读对应句于政策文本中的字元起始位置(policy_start_index)、解读句的所有解读对应句于政策文本中的字元结束位置(policy_end_index)、解读类别(analysis_type)及解读句与每个解读对应句间的相似分数(score)。如果输入文本为政策文本或其他文本,则该项信息为空值。
75.图5示出了根据本发明的一个实施例的将原文文本与原文的解读文本相关联的计算机系统500。
76.本技术公开的原文文本与原文的解读文本相关联的计算机系统500包括:原文数据库501,用于存储原文及其相关信息;输入模块502,用于接收文本数据;文本数据类型判别模块503,用于将接收的文本判别为原文文本、解读文本或无关文本;原文信息抽取模块504,用于对判别为原文文本的文本类型进行信息抽取;信息抽取包括抽取原文文本的主要主体,并且将原文文本和抽取的主要主体存储在原文数据库501中;解读文信息抽取模块505,用于对判别为解读文本的文本类型进行信息抽取,包括抽取解读文本的主要主体;关联性判断模块506,用于判断解读文本与原文数据库存储的原文文本的关联性,包括:将抽取的解读文的主要主体与存储在原文数据库中的每个原文文本的主要主体进行匹配;以及生成匹配的原文与该解读文的“原文-解读文”二元组;解读句提取模块507,针对每个“原文-解读文”的二元组,从解读文本中抽取对相关联的原文的解读句;以及输出模块508,输出原文信息和相应的解读文分析信息。
77.图5示出的原文文本与原文的解读文本相关联的计算机系统500所包括的原文数据库501、输入模块502、文本数据类型判别模块503、原文信息抽取模块504、解读文信息抽取模块505、关联性判断模块506、解读句提取模块507以及输出模块508中的一个或多个可以各自由一个或多个计算设备来实现 。
78.该计算设备可以是各种不同类型的设备,例如服务器计算机、与客户端(例如,客户端设备)相关联的设备、片上系统、和/或任何其它合适的计算设备或计算系统。
79.计算设备可以包括能够诸如通过系统总线或其他适当的方式连接彼此通信的至少一个处理器、存储器、(至少两个)通信接口、显示设备、其他输入/输出(i/o)设备以及一个或多个大容量存储装置。
80.本领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
81.通过研究附图、公开内容和所附的示例书,本领域技术人员在实践所要求保护的主题时,能够理解和实现对于所公开的实施例的变型。在示例书中,词语“a和/或b”是指a、b、或a和b,词语“包括”不排除其他元件或步骤,并且不定冠词“一”或“一个”不排除多个;词
语“第一”、“第二”、“第三”、“第四”仅仅用于区分元件或步骤,并不表示元件或步骤的顺序。在相互不同的从属示例中记载了某些措施的仅有事实并不表明这些措施的组合不能用来获益。
82.本技术公开了以下的示例:示例1. 一种原文文本与原文的解读文本相关联的方法,包括:输入文本数据;判别文本数据类型,包括将输入文本判别为原文文本、解读文本或无关文本;如果判别文本数据为原文文本,对原文文本进行信息抽取,信息抽取包括抽取原文文本的主要主体,以及将原文文本和抽取的主要主体存储在原文数据库中;如果判别文本数据为解读文本,判断该解读文与已存储的原文的关联性,包括:对解读文进行信息抽取,信息抽取包括抽取解读文的主要主体;将抽取的解读文的主要主体与存储在原文数据库中的每个原文文本的主要主体进行匹配;生成匹配的原文与该解读文的“原文-解读文”二元组。
83.示例2. 根据示例1所述的方法,还包括针对每个“原文-解读文”的二元组,从解读文本中抽取对相关联的原文的解读句;以及输出原文信息和相应的解读文信息和解读文分析信息。
84.示例3. 根据示例1所述的方法,其中,判别文本数据类型包括基于预设一系列规则来判别文本数据类型。
85.示例4. 根据示例1所述的方法,其中,判别文本数据类型包括利用事先收集的数据集通过机器学习训练文本分类模型,其中训练数据的特征可以包括文本的元数据、标题、来源、正文。
86.示例5. 根据示例1所述的方法,对原文进行信息抽取还包括抽取原文的元数据,主要主体包括政策名和事件名,以及原文的元数据包括标题、来源、日期、预设的原文类型。
87.示例6. 根据示例5所述的方法,其中,采用基于模板的正则规则匹配方法来进行信息抽取,或者利用基于机器学习的信息抽取模型来进行信息抽取。
88.示例7. 根据示例2所述的方法,还包括通过预设规则或模型来判别解读文的每个句子是否为原文的解读句,预设规则可以包括判别解读文的每个句子是否提及原文信息,以及解读文的每个句子是否达到一定长度的标准。
89.示例8. 根据示例7所述的方法,判别解读文的每个句子是否为原文的解读句包括判别解读句的解读方式,包括列点式解读、观点式解读、关键字匹配解读。
90.示例9. 根据示例8所述的方法,还包括计算解读文的每个句子与原文的每个句的相似度,包括原文及解读文经由tf-idf模型得到每一句的词嵌入向量后计算句子间的成对余弦相似度。
91.示例10. 根据示例8所述的方法,还包括采用机器学习计算解读文的每个句子与原文的每个句子的相似度,其中利用"语义嵌入"的方法,将句子向量化后进行相似度计算。
92.示例11. 根据示例10所述的方法,采用机器学习计算解读文的每个句子与原文的每个句子的相似度包括采用word2vec将解读的每个句子与原文的每个句子的句向量计算成对余弦相似度,或者利用bert作为相似度计算任务的预训练模型并将解读的每个句子与
原文的每个句子成对地作为输入来计算两句之间的相似度。
93.示例12.根据示例9-11任一项所述的方法,基于相似度分数调优公式对计算的相似度进行调优: 。
94.示例13. 根据示例12所述的方法,基于计算的解读文的每个句子与原文的每个句子的相似度,分别判别解读文的每个句子是属于对原文的“通篇解读”,还是对原文某一方面内容的“内容解读”。
95.示例14. 根据示例13所述的方法,其中,如果计算的解读文的解读句与原文的每个句子的相似度均低于预设的阈值,则判断该解读文的解读句属于对原文的“通篇解读”;如果计算的解读文的解读句与原文的句子的相似度高于预设的阈值,则判断该解读文的解读句属于对该原文的句子的内容的“内容解读”。
96.示例15. 根据示例14所述的方法,其中,解读文包括m个句子,以及原文包括n个句子,解读文的每个句子可以属于对n个原文句子的“内容解读”,n≤n,以及原文的每个句子可以具有m个解读文的解读句,m≤m。
97.示例16. 根据示例15所述的方法,所述原文包括政策文本,所述解读文是对政策文本的解读文。
98.示例17. 根据示例16所述的方法, 其中输出的解读文信息包括对应政策名称、对应政策文本标题和对应的政策文本正文、解读分析信息包括解读类别及解读文的每个句子与对应政策文本的每个句子的相似分数、属于“通篇解读”的解读句及其分别于解读文本中的字元起始位置和于解读文本中的字元结束位置、属于“内容解读”的第1至n个解读句、第1至n个解读句分别于解读文本中的字元起始位置、第1至n个解读句分别于解读文本中的字元结束位置、第1至n个解读句分别解读的政策文本中的第1至m个解读对应句、第1至m个解读对应句分别于政策文本中的字元起始位置、第1至m个解读对应句分别于政策文本中的字元结束位置。
99.示例18. 一种原文文本与原文的解读文本相关联的计算机系统,包括:原文数据库,用于存储原文及其相关信息;输入模块,用于接收文本数据;文本数据类型判别模块,用于将接收的文本判别为原文文本、解读文本或无关文本;原文信息抽取模块,用于对判别为原文文本的文本类型进行信息抽取,所述信息抽取包括抽取原文文本的主要主体,并且将原文文本和抽取的主要主体存储在所述原文数据库中;解读文信息抽取模块,用于对判别为解读文本的文本类型进行信息抽取,所述信息抽取包括抽取解读文本的主要主体;判断关联性模块,用于判断解读文本与原文数据库存储的原文文本的关联性,包括:将抽取的解读文的主要主体与存储在原文数据库中的每个原文文本的主要主体进行匹配;以及生成匹配的原文与该解读文的“原文-解读文”二元组。
100.示例19. 根据示例18的计算机系统,还包括:解读句提取模块,针对每个“原文-解读文”的二元组,从解读文本中抽取对相关联的原文的解读句;以及输出模块,输出原文信息和相应的解读文分析信息。
101.示例20. 一种计算设备,其特征在于,包括:处理器;以及存储器,其上存储有指令,所述指令当在所述处理器上执行时促使所述处理器执行示例1-17中的任一项所述的方法。
102.示例21. 一个或多个计算机可读存储介质,其上存储有指令,其特征在于,所述指令当在一个或多个处理器上执行时促使所述一个或多个处理器执行示例1-17中的任一项方法。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1