自动生成新闻的系统、方法及存储介质

文档序号:31185557发布日期:2022-08-19 21:31阅读:78来源:国知局
自动生成新闻的系统、方法及存储介质

1.本发明涉及一种自动生成新闻的系统、方法及存储介质,具体涉及一种提升记者写稿效率生成有深度稿件的自动生成新闻的系统、方法及存储介质。


背景技术:

2.一直以来,新闻均是由记者亲自撰写而来。然而随着时代的进步,人类的信息源越来越丰富,信息量越来越大,信息需求也越来越多样化。为了满足人们丰富的信息获取需求,传统的传媒行业面临巨大的信息处理挑战。面对海量的新闻任务,如何及时、准确地对其加工处理,并将其推送给目标读者,是传媒行业的一大挑战。
3.随着人工智能时代的到来,自动生成新闻的技术也越来越成熟。自2014年以来,越来越多的自动生成新闻的技术不断涌现,这开创了传媒行业新纪元。最为著名的有腾讯的dreamwriter、新华社的快笔小新、美联社的wordsmith等。这些自动新闻生成系统可以快速完成一篇新闻报道,极大程度低降低了新闻媒体工作者的工作强度。由于处理信息及时,这种自动生成的新闻时效性很强;凭借计算机的强大算力,可以同时处理海量数据;并且借助于先进的个性化推荐系统,可以很快锁定目标人群,将新闻及时推送给目标读者。由于自动生成新闻有如此多的优点,因此其也受到了新媒体行业的追捧。
4.然而,这些自动新闻生成技术,也存在诸多缺点。相比于人类可以对新闻进行深度可信的报道,这种自动新闻生成系统就难以企及。由于是算法生成,因此这些算法模板只能适应特定的新闻领域,比如体育、财经、汽车等。这种算法生成的新闻通常的流程是:获取数据—分析数据—提炼观点—组织结构。这种生成的新闻模版化、公式化痕迹十分严重,缺乏个性,难以有情况明亮的语言、生动的修辞手法,新闻缺乏个性,甚至枯燥无趣。目前来看,自动新闻技术还处于较为初级的阶段,其生成的新闻在专业性、可读性上尚缺乏长足进展。
5.现有技术1(wo2018072577a1,腾讯)公开了一种尤其适用于体育新闻报道的自动新闻撰写技术,特别是在撰写时获取运动员的历史数据信息并将判定为有价值的数据其融入新闻中,以及将期望表现数据与现实表现数据相比较,使用匹配的预设描述词组对其描述。然而该技术面向范围较窄,仅适合体育新闻的报道。
6.为了一定程度上克服语言的单调性、模板化,现有技术2(cn105975466a,新华社、北京大学)公开的一种短新闻写稿方法,所提出的多样化模板集自动生成多样化文本,克服了向固定模板填充数据所生成的新闻形式单一问题。然而该技术只是一定程度上避免语言陷入极度单调和模板化,离人写稿件仍有较大差距。
7.为了解决稿件仅仅只有事实的描述,缺乏解读的缺陷,现有技术3(cn107301158a,腾讯)根据计算模型获取用于表达目标数据稿件的解读稿件,将主体稿件和解读稿件合并生成目标数据稿件,从而现有技术中只有数据稿件,没有解读的通病。
8.此外,价值判断和趋势预测,这种较为主观的内容一直以来是算法难以突破的技术瓶颈,因此发明人也尚未见到相关技术披露。
9.经过对自动新闻生成技术的分析和展望,发明人认为在相当一段时长内,该技术
主要角色被定位于特定领域新闻快报员和新闻记者的助手。对于诸如体育赛事的报道这种新闻,自动新闻生成技术十分擅长,即便其还存在这样那样的缺点,但是这类读者通常愿意为及时性而容忍其缺点。虽然现有技术4(cn108062359b,歌尔科技)提出了一种机器人采访和撰稿的方法,这近乎是对记者工作的一种完全替代,但是这种技术实现难度极大,比如机器人自我规划寻找到采访目标,以目前技术水平而言尚难以畅通实现,因此实用价值不高。然而,目前鲜有从新闻记者助手的角度来开发自动新闻生成技术。虽然现有技术5(cn110059307a,百度)公开了一种写作辅助方法,并提高了写作效率,但是这种方案只是简单地搜集素材,匹配合适的处理模型来处理素材并为用户提供辅助信息,生成与主题对应的目标文章,这仅适合一些简单类型的新闻的辅助撰写,这种方案难以写出有深度、有见解的,尤其是涉及价值判断、趋势预测等人类高级思维活动的新闻。
10.基于这些技术背景,本发明以极大程度提升记者写稿效率,生成有深度、有见解,具有价值判断、趋势预测能力,同时可以有生动的修辞手法的稿件为目标,披露一种全新的自动生成新闻的技术。


技术实现要素:

11.为了解决或缓解上述技术问题,本发明是通过如下方式来解决技术问题的:
12.一种自动生成新闻的系统,其包括客户端和服务器,所述客户端部署有新闻记者撰稿系统,所述服务器被部署为新闻服务系统,该自动生成新闻的系统包括:用户引导语句模块,其被配置为接收用户输入的引导语句;自动生成语段模块,其被配置为根据接收到的用户输入的引导语句,自动生成对应的语段。
13.在某实施例中,所述用户引导语句模块指示用户输入的语段包括但不限于如下类型:价值判断句、预测分析句、批判分析句、建议导向句、总结语句。
14.某实施例中,所述自动生成语段模块被配置为执行如下步骤:
15.步骤s11:对用户引导词语进行分词;
16.步骤s12:提取分词中代表观点的词语或短语,以及确定记者对该观点的肯定/否定态度词语;
17.步骤s13:提取用户引导语句中表达情感强度的词;
18.步骤s14:根据情感强度词确定记者的价值取向,并基于这些观点词或短语、情感强度词计算高维词向量;
19.步骤s15:根据相似度算法从新闻综合数据库中搜索满足相似度要求的素材,并基于该些素材提取素材中与所确定的记者价值取向相一致的语段;
20.步骤s16:基于所提取的语段和所述高维词向量,作为训练完毕的transformer网络的输入,并将肯定/否定态度词语和观点词或短语作为权重最高主题词;且在注意力评分中加入与价值取向相反的惩罚项,并将情感强度词的量化值作为惩罚项系数:根据训练后的所述transformer网络自动生成语段。
21.在某实施例中,所述情感强度词的量化值为第一量化值和第二量化值之和,其中,将表达作者情感强烈程度的词语,通过情感强烈程度量化表进行量化,获得第一情感量化值;将表达肯定/否定态度的词语根据其强烈程度,量化成第二情感量化值。
22.在某实施例中,自动生成语段模块至少包括修辞风格设定模块和重写模块;所述
的修辞风格设定模块根据用户对该语段的修辞风格的设定而生成对应风格的语段;所述重写模块则重新生成对应语段,以供用户选择。
23.在某实施例中,所述新闻记者撰稿系统包括多个模板以及自定义模板;所述模板为根据常见新闻报道逻辑而预先定义的且包含若干语段类型的模板;所述自定义模板中允许用户加入在预定义的多个语段类型中选择合适的语段类型。
24.在某实施例中,所述自动生成新闻的系统还包括:构建原始数据库:该原始数据库的新闻原始数据来源至少包括记者采访数据以及互联网信息源;对原始数据库进行数据加工处理:该数据加工至少包括数据清洗、数据筛选、结构化数据存储;构建新闻综合数据库:将前述数据加工后的数据存储至新闻综合数据库;搭建新闻服务系统:其包括新闻综合数据库和数据分析及新闻撰稿服务器;建立部署在客户端上的新闻记者撰稿系统与新闻服务系统之间的通信机制。
25.在某实施例中,在用户引导语句模块中,允许用户限定字数;并且在算法生成语段时,所生成的语段字数超过该限定字数的若干字以内时,并不对语段进行裁剪。
26.一种自动生成新闻的方法,其应用于客户端和服务器中,所述客户端部署有新闻记者撰稿系统,所述服务器被部署为新闻服务系统,该自动生成新闻的方法还包括:
27.构建原始数据库:该原始数据库的新闻原始数据来源至少包括记者采访数据以及互联网信息源;
28.对原始数据库进行数据加工处理:该数据加工至少包括数据清洗、数据筛选、结构化数据存储;
29.构建新闻综合数据库:将前述数据加工后的数据存储至新闻综合数据库;
30.搭建新闻服务系统:其包括新闻综合数据库和数据分析及新闻撰稿服务器;
31.建立部署在客户端上的新闻记者撰稿系统与新闻服务系统之间的通信机制;
32.在新闻记者撰稿系统中,接收用户输入的引导语句;
33.为根据接收到的用户输入的引导语句,自动生成对应的语段;
34.所述用户输入的引导语句包括但不限于:价值判断句、预测分析句、批判分析句、建议导向句、总结语句;
35.为根据接收到的用户输入的引导语句,自动生成对应的语段,包括如下步骤:
36.步骤s11:对用户引导词语进行分词;
37.步骤s12:提取分词中代表观点的词语或短语,以及确定记者对该观点的肯定/否定态度词语;
38.步骤s13:提取用户引导语句中表达情感强度的词;
39.步骤s14:根据情感强度词确定记者的价值取向,并基于这些观点词或短语、情感强度词计算高维词向量;
40.步骤s15:根据相似度算法从新闻综合数据库中搜索满足相似度要求的素材,并基于该些素材提取素材中与所确定的记者价值取向相一致的语段;
41.步骤s16:基于所提取的语段和所述高维词向量,作为训练完毕的transformer网络的输入,并将肯定/否定态度词语和观点词或短语作为权重最高主题词;且在注意力评分中加入与价值取向相反的惩罚项,并将情感强度词的量化值作为惩罚项系数:根据训练后的所述transformer网络自动生成语段。
42.一种存储介质,该存储介质上存储有计算机可执行代码,该些可执行代码被处理器读取后执行如前所述的自动生成新闻的方法。
43.本发明部分或全部实施例,至少具有如下有益技术效果:
44.1、文章框架具有可灵活定制,生成的新闻逻辑不在千篇一律;
45.2、引入记者主观思维、观点,并围绕记者的引导句自动生成剩余语段,所生成的新闻解决了自动生成的新闻一直难以解决的价值判断、趋势预测难题;
46.3、记者仅仅只需撰写引导句,在保证新闻质量的前提下,大大提升了记者工作效率,节省工作时间;
47.4、全流程自动化新闻采集、数据加工、话题推荐、新闻生成,在整个媒体工作流程上降低时间、人力、物力成本;同时兼具自动生成新闻的时效性、获取新闻受众的精准性;
48.5、同时新闻可以有明亮的语言、生动的修辞手法,不再单一枯燥无个性。
49.此外,本发明中的其它有益技术效果将记载在后文具体段落中,该部分技术进步同样属于本发明的一部分。
附图说明
50.图1是自动生成新闻的全部流程图;
51.图2是某实施例中新闻记者撰稿系统的示意图;
52.图3是记者撰写用户引导语句以及自动语段设定的示意图;
53.图4是某类实施例中新闻话题推荐模块的示意图;
54.图5是自动生成语段模块的某类实施例;
55.图6是新闻记者撰稿系统的某类实施例;
56.图7是由用户引导语句自动生成语段的流程图。
具体实施方式
57.已知若干自动新闻撰写技术,但该些技术中的某些还存在诸多缺点。但具体生成新闻的技术可以有多种,比如常见的框架填充、nlp自然语言生成等等。这些熟知的技术为本领域所共知,本发明并非旨在介绍这些具体已知技术细节。全文中提及但并未详细介绍的技术,一般均是本领域所共知的技术,出于全文简洁性目的,该些内容不再赘述。下文针对某些具体实施例进行介绍,但该些实施例的某些技术特征并非必不可少,不构成本发明的必要限制。
58.参考图1,其展示的是本发明中自动生成新闻的全部流程图。新闻的原始数据来源至少包括记者采访数据以及互联网信息源。其中记者采访数据可以是记者通过录音、录像等设备对被采访对象进行采访时所记录的语音、视频数据。为加速、方便数据检索的需要,所述的语音和视频数据中对话数据可以根据asr技术将其转换成文本数据。优选地,通过记录转换成文本的语音在视频中对应时间信息,来为后续新闻配图时,查找合适的配图图片。比如,需要后期配图时,根据语音转换后的文本对应的时间信息,提取对应的视频截图作为新闻配图。而互联网信息源可以包括新闻机构关心的各种重要的信息来源,比如各种感兴趣的官方网站、自媒体中特定目标账号(发布的信息及其对应的评论文本)、股票信息以及天气信息等发布网站。互联网信息可以是通过已知的爬虫技术获取,信息来源可以是各种
方式,本发明对此不做限定。
59.信息爬取完毕后,建立原始数据库。该数据库存储各种原始数据信息,以供后续数据的各种处理和查证。由于新闻对及时性要求很高,因此该原始数据库对及时性的要求较高,爬虫抓取网络数据后,需要及时进入后续的数据加工处理步骤。在后续数据加工处理环节中,包括但不限于数据清洗、数据筛选、结构化数据存储等环节。该些技术为本领域技术人员所熟知,本发明对此不做限定。
60.数据加工处理完成后,数据将被写入新闻综合数据库。该数据库是较为干净的数据库,示例地,可以存储各种已有的各种比较结构化的数据,比如体育、汽车、股票、房地产数据等;还可以是对各种信息的文本抽取,结构化存储后便于后期相似性检索、分析。为了进一步提升新闻的及时性,在某优选实施例中,新闻分析及新闻撰稿服务器对新闻综合数据库中的部分特定数据通过制定的对应触发规则来触发预警,比如某规则为bit币下跌或上涨幅度超过预定比例或数值后则自动预警。根据在新闻综合数据库中检索结果,若满足触发规则,则立即预警。所述的预警措施,包括但不限于:向特定记者的新闻撰稿客户端发送预警消息或/和发送短信等。为充分利用新闻综合数据库的数据,系统定期(比如1分钟或3分钟)检索新写入的数据,并基于多个所述触发规则对其进行校验/计算。在某优选实施例中,所述的触发规则由记者通过新闻撰稿客户端进行个性化定制部分或全部触发规则,该实施例可以更加便利地、准确地为新闻记者提升工作效率和新闻报道效率。新闻分析及新闻撰稿服务器与新闻综合数据库可以是分离式的,也可以直接系统集成,构成新闻服务系统106。
61.新闻服务系统106通过互联网络与新闻记者撰稿系统100通信互联,交换数据。新闻记者撰稿系统100包括新闻撰稿客户端,该客户端可以登陆新闻服务系统106,以及从新闻服务系统106中获取新闻预警信息,也可以将自己个性化的设定数据(包括但不限于前述触发规则)传回新闻记者撰稿系统100,以获得个性化、定制化服务。
62.记者撰稿后,尤其是在本技术中,借助新闻服务系统106辅助撰写稿件后,记者提交撰写完毕的新闻稿至审核系统,由专门的人员或自动审稿系统进行审核,审核通过后该新闻稿件即可发布。为提升新闻稿件的适应性,经由算法推荐系统对稿件内容进行分析,提取新闻主题(该主题也可由记者在撰稿时自行确定)以及其它辅助信息,并依据该些内容和用户新闻偏好信息,将新闻推荐给特定用户群,实现新闻信息的最大化传播价值。
63.参考图2,其展示的是某实施例中新闻记者撰稿系统100的示意图。该系统至少包括新闻话题筛选与素材浏览模块和新闻自动撰写辅助模块。该新闻记者撰稿系统100是指是通过互联网络105与新闻服务系统106连接且位于终端(客户端)中的系统,并允许记者通过账号登陆进入。通过操作新闻记者撰稿系统100中的部分或全部模块,可以与新闻服务系统106建立数据连接,执行相应响应动作。
64.其中,新闻话题筛选与素材浏览模块至少包括新闻类别设定模块101和新闻话题推荐模块102。在新闻类别设定模块101中,登陆进入的记者可以设定自己的报道领域,比如某记者同时报道房地产和股票市场,那么可以在该系统中设定该两个新闻类别。该设定数据可以互联网络105与新闻服务系统进行交互,后台系统记录该些数据,并在后续的比如触发机制下,利用记者的设定,选择提醒对应的记者群体。
65.新闻话题推荐模块102则利用新闻服务系统106分析采集的数据,并至少基于触发
规则来向记者推荐潜力热点话题新闻、突发新闻等等。然后,新闻话题推荐模块102将这些潜力新闻依照潜力度排名,向前述订阅/设定了该类别新闻的记者推荐该新闻话题。记者可以依据推荐信息,尤其是潜力度越大的新闻推荐的排序越靠前,免去了记者在大量潜力新闻中筛选最有价值新闻的时间,能够及时抓住不久将来可能成为热门话题的新闻,并撰稿成文,及时发布新闻,赢得数据流量。
66.如前所述那样,现有的技术多聚焦于新闻的全自动生成,或者依据特定的提纲(依据模板或人为设定的)而自动生成新闻。但是这类自动新闻生成系统都普遍缺乏价值判断、趋势预测这类人类高度抽象思维能力。为此,本发明提出的新闻记者撰稿系统100将部分或全部地解决或缓解该技术难题。
67.新闻记者撰稿系统100还包括用户引导语句模块103和自动生成语段模块104。在用户引导语句模块103中,其接受用户(也即记者)输入的引导语句。该用户引导语句的语义,将直接决定新闻服务系统106所自动生成的语段的内容。即本发明中,将较为抽象的思维活动交由具备该能力的记者完成,记者在用户引导语句模块103中撰写出结论性、引导性的语句,如图所示的用户引导语句1-5,然后新闻记者撰稿系统100将该(些)引导性语句发送至新闻服务系统106,新闻服务系统106根据该引导性语句分析其具体的语义,并依据该语义所表达的内容,围绕该语义自动撰写自动生成语段,并将撰写结果返回新闻记者撰稿系统100。具体地,返回的自动生成语段,如图所示的自动生成语段1-5,显示在自动生成语段模块104中。
68.参考图3,其给出了某类实施例中记者撰写用户引导语句以及自动语段设定的示意图。示例地,用户引导语句模块103中设定了5个用户引导语句,实际引导语句个数可以根据记者实际需要而自行设定。用户分别在不同的用户引导语句模块103中撰写对应的记者撰写语句103e,即可完成用户引导语句的录入。示例地,在某实施例中,用户引导语句包括记者撰写价值判断语句,该语句内容将直接决定该文章总体价值取向。比如,如果记者撰写的该价值判断句为“取缔脏、乱、差的网吧是未来势在必行的任务”,那么该语句传入新闻服务系统后,首先对该句内容进行意义分析,得出“取缔网吧”的价值取向/观点,并提取出“脏、乱、差”的主要特征定语。新闻服务系统106将基于该价值取向,以及至少依据该主要特定定语,来分析为何“取缔脏、乱、差的网吧是未来势在必行的任务”。比如,在原始数据库中检索到具备“脏、乱、差”的网吧是滋生暴力事件的温床、是火灾频发造成巨大财产损失的高发地等等,依据该些素材,新闻服务系统106自动撰写对应的语段内容,生成对应的自动生成语段1,并将其返回新闻记者撰稿系统中,显示在自动生成语段模块104中对应的位置。
69.虽然对文章进行字数进行限定,是常用的技术手段,但已知的现有技术一般都是对文章整体长度进行限制。现有系统生成文章时对文章结构没有概念,因为行文结构是一名人类记者经过长期训练方能掌握的,仅仅限定文章总长度(或者单个句子长度),难以把握好行文结构,自动生成的文章经常出现的详略不当,造成评价新闻质量最为重要的指标之一“可读性”极差(尤其是长文),让读者觉得文章抓不住重心,失去阅读的兴趣,正是因为这一原因。
70.然而,在本发明中由于记者撰写不同的用户引导语句后,通过限定字数,新闻记者撰稿系统100根据该用户引导语句撰写对应的自动生成语段时,算法将受该字数限制,调整语句以满足字数限制要求。在某优选实施例,用户设定的字数限制,并非绝对限制,即实际
自动生成的语段的字数并非严格被限制在限定字数之内,而是在该数值附近,比如允许字数限定上有一定的误差。发明人经过独立研究发现,在自动生成语段时,如果生成文字的字数严格被限定在某个数值内,将可能出现某些语句、措辞、表达方式出现不通顺,带有严重的机器生成痕迹。造成这一现象的原因是算法在生成某比较通顺的符合人类一般表达习惯的句子后发现句子长度超标,于是不断通过裁枝算法将句子缩短以满足要求,但这会造成在读者面前,所生成的语句不通顺、别扭,甚至会丢失句子所表达重要信息以及歧义现象。因此,本发明中做出的一个调整是,将字数限定设置成一个模糊限定,即在一定范围内的超出字数,均是允许的,这将很好地避免了语言表达不到位,实质性损害评价新闻质量另一个重要指标“语言通顺程度”。在某优选实施例中,在算法生成语段时,所生成的语段字数超过该限定的字数20字以内时,并不对语段进行裁剪。
71.参考图4,其展示的是某类实施例中新闻话题推荐模块102的示意图。在用户(记者)选择新闻类别设定后,新闻话题推荐模块102包括新闻话题展示模块1021,其分类(财经类、时事类、生活类、体育类、科技类等等)展示新闻服务系统106根据抓取的数据(存储于新闻综合数据库)和热点发现与推荐算法,将最有潜力的话题(话题1~32)推荐给用户。
72.当用户选择某个话题后,比如话题1,在话题素材浏览窗口1022展示与所选择话题1最相关的话题素材,以及与话题1的关联话题1-1、1-2等。很多新闻通常会存在关联性,比如针对苹果发布新的iphone手机这一话题,往往会存在手机性能测评、网友评论等话题。该些信息作为素材提供给记者,有助于记者全面掌握话题素材,指导用户撰写用户引导语句,使得最终的成文观点更加理性客观,克服现有技术无法撰写出具有理性、自洽、积极的价值观的新闻文章。
73.参考图5,其展示的是自动生成语段模块104的某类实施例。自动生成语段模块104至少包括修辞风格设定模块1041和重写模块1042。在现有的新闻自动生成技术中,文法往往是常规叙述方式缺乏修辞风格,或者修辞风格无法设定,或者根据模板而被整体性设定。而本发明中,由于是以语段为单位生成文本,因而记者可以根据语段内容特点,选择不同的修辞风格。比如,自动生成语段1、3、5设定为修辞风格a,自动生成语段2被设定为修辞风格b,自动生成语段4被设定为修辞风格c,方便用户设灵活成文。所述的修辞风格包括但不限于:比喻、比拟、夸张、对偶、排比、双关等。通常一个语段并非需要每一句话都采用上述修辞风格,仅部分语句采用被设定的修辞风格即可。多个不同的语段被用户根据需要而设定成不同的修辞风格,提升了新闻语言的文学水平。而重写模块1042则允许用户在对自动生成语段不满意时,可以自动生成新的语段,直至用户满意为止,避免现有技术中生成全文后就无法修改的缺点。
74.参考图6,其展示的是新闻记者撰稿系统100的某类实施例。对于新闻撰写,大多可以遵循特定的行文逻辑。因此,在某优选实施例中,新闻记者撰稿系统100包括多个模板以及自定义模板。比如模板1的架构可以包括:最新重要信息,其通常是用最简短的语言描述最核心的新闻信息。比如“在今天的apple发布会上,该公司宣布了一系列新的macbook pro设备,由apple的silicon系列中的两种不同的新soc提供支持:新的m1 pro和m1 max。”。然后是根据时间轴对事件进行叙事,接着对任务采访内容进行采编,以及引入本发明前述的用户引导语句及自动生成语段。该些引导语句可以不止一组。而模板2则包括最重要信息、六要素叙事、舆情采编以及用户引导语句和自动生成语段。该些模板可以是根据常见的新
闻报道逻辑而自动向用户推荐的、预先定义的、包含若干语段类型模块的模板;也可以允许用户自定义模板,比如用户可选地设置背景引入、核心问题引入、用户引导语句和自动生成语段等等。通过设置多个自定义语段类型模块107,用户可以通过自定义语段类型模块107在预定义的多个语段类型中选择合适的语段类型。对于不同的语段类型,可以通过训练不同的神经网络模型(比如图神经网络transformer网络),来针对性地撰写该些语段。相比于生成全文的神经网络,这种专门撰写特定类型语段的神经网络的表现会更好,且网络规模也相对较小,对数据集的需求也较小,训练更为快速。示例地,对于舆情采编,可以通过大量已有的新闻稿中涉及舆情描述的语段来训练神经网络,使其具备根据前述新闻综合数据库中的相关舆情采集内容自动提取最为有代表性的采访观点,来支撑行文观点。
75.图7展示的是某具体实施例中由用户引导语句自动生成语段的流程图。该方法包括如下步骤。
76.步骤s11:对用户引导词语进行分词。目前分词手段已经十分成熟,比如n元语法的分词算法、条件随机场的分词算法、基于隐马尔可夫模型的分词算法等等。本发明对此分词手段不做限定。
77.步骤s12:提取分词中代表观点的词语或短语,以及确定记者对该种观点的肯定/否定态度词语。由于用户的引导语通常不会太长,且观点比较明确,因此分词后提取用户的代表观点的词语或短语,是确定最终生成文本能否围绕该观点展开的关键。然而有时候用户会使用代表否定态度的词语来否定提出的观点词或短语。比如前述文本中,代表用户观点的词语或短语为“取缔网吧”,肯定/否定词语并不能只仅限于“认同、赞同、承认、是、认为、可行、默许”以及“否、否定、不赞同、批评”等词语,对于诸如前述“势在必行”等词语,同样也可以拓展为表达肯定/否定态度的词语,并且这些词语通常也带有情感强烈程度。在某优选实施例中,将表达肯定/否定态度的词语根据其强烈程度,量化成不同的值,获得第二情感量化值。
78.步骤s13:提取用户引导语句中表达情感强度的词。用户虽然输入的文字会表达某种观点,但是观点也有强弱之分。对于“脏、乱、差”等明显负面词汇,属于表达作者情感强烈程度的词语。这些情感强度可以依据认为经验分为不同等级(比如通过情感强烈程度量化表),并对应不同的量化值,获得第一情感量化值。
79.步骤s14:根据情感强度词确定记者的价值取向,并基于这些观点词或短语、情感强度词计算高维词向量。计算词向量的方法属于已有的技术,常常采用的技术有word2vec技术,具体实施方式本发明在此不再赘述。而所述的高维词向量,根据经验,取200-500维是较为合适的维度。
80.步骤s15:根据相似度算法从新闻综合数据库中搜索满足相似度要求的素材,并基于该些素材提取素材中与所确定的记者价值取向相一致的语段。
81.由于是要撰写符合作者意图的语段,因此从所述数据库中(尤其是文本数据)检索与之最相关的素材,当计算的相似度满足一定要求(比如高于95%)才能作为可用素材,否则将抛弃不满足条件的素材,防止自动生成的段落偏题。素材本身通常具有较多文字,并非均适合将其用于生成文本。因此通过筛选价值取向相一致的语段,将该些文字素材作为神经网络的输入部分,能获得更为符合用户意图的文本。
82.步骤s16:基于所提取的语段和所述高维度词向量,作为训练完毕的transformer
网络的输入,并将肯定/否定态度词语和观点词或短语作为权重最高主题词;且在注意力评分中加入与价值取向相反的惩罚项,并将情感强度词的量化值作为惩罚项系数:自动生成语段。
83.本发明选择transformer网络作为文本生成的神经网络。相比于lstm以及生成对抗网络gan、循环神经网络,transformer网络在本发明所提出的自动文本生成架构中的性能表现更为突出,不仅在训练时可以并行化处理加快训练速度,其文本通顺程度、语言正确率也有5.3-11.6%的提升,而主题相关度、连贯度则有8.1-17.6%的提升。
84.在训练网络时,可以根据本发明所提出的框架而针对性训练特定类型语段的撰写。比如涉及价值判断时,根据大量的该种类型的引导句、生成语段所构成的数据集对网络的配置参数进行训练,对于新的引导句,网络即可自动完成对应的自动语段撰写。
85.在训练网络时,可以根据训练数据集中不同语料数据进行针对性地标注。比如在数据集中某语段标明其修辞手法,比如排比、拟人等,经过大量的这种数据的训练,该些修辞手法即可被神经网络所掌握。
86.在某实施例中,情感强度词的量化值为第一量化值。而优选实施例中,将情感强度词的量化值为第一量化值和第二量化值之和,该实施例因为更为准确全面地考量作者的情感值,因此所生成的文本表达的情感也更为强烈、丰富。
87.由此,本发明所提出的新闻自动生成技术,其行文框架是定制化的,且每个语段自动生成时,都可以根据特定的已训练好的特定神经网络生成,相比于自动撰写全文的大规模神经网络,其自动生成的语段更为严谨、规范。而由于用户引导语句是记者根据相关素材认为撰写的,将人的思维(比如对新闻所涉及的趋势进行预测,示例地,预测搭载苹果m1芯片的产品必然会受到市场的欢迎、手机短视频应用的无节制发展一定会受到更严格的监管)、观点(比如观点认为短视频应用虽然丰富了人们的生活,但是大量浪费人们的学习、交流的时间)作为全文所需的最为主观特性的思维、观点,并围绕这些思维、观点,自动撰写自动生成语段。
88.因此本发明在自动生成新闻时,具有灵活的框架,且文章被赋予人类的思维、观点,解决了自动新闻撰写领域一直认为难点:价值判断、趋势预测。同时,由于记者仅仅根据素材撰写特定的引导语句、选择/设定文章框架,形成完成行文逻辑,即可完成新闻全文自动生成。在保证新闻质量的同时,大大降低了新闻工作者的劳力,提升工作效率。
89.以上公开的是一种自动生成新闻的系统,该系统是通过软件、硬件所构建的客户端以及服务器组成,属于典型的客户端-服务器架构。客户端与服务器在之间相互搭配,共同构建整个自动生成新闻的系统。具体而言,客户端负责用户数据采集和显示,而服务器负责数据处理,前述各种模块之间负责数据的收集和传递体逻辑为本领域技术人员所熟知,本发明不对其详细赘述。比如,用户引导语句模块,用于接收用户输入的引导语句,并将其传递给自动生成语段模块,而该自动生成语段模块则通过网络将该数据传递给新闻服务系统(包括服务器),该新闻服务系统对传入的数据进行分析后,经过算法分析得出对应的自动生成语段。
90.此外,本发明还公开一种自动生成新闻的方法,该方法包括:其应用于客户端和服务器中,所述客户端部署有新闻记者撰稿系统,所述服务器被部署为新闻服务系统,该方法还包括:构建原始数据库:该原始数据库的新闻原始数据来源至少包括记者采访数据以及
互联网信息源;对原始数据库进行数据加工处理:该数据加工至少包括数据清洗、数据筛选、结构化数据存储;构建新闻综合数据库:将前述数据加工后的数据存储至新闻综合数据库;搭建新闻服务系统:其包括新闻综合数据库和数据分析及新闻撰稿服务器;建立部署在客户端上的新闻记者撰稿系统与新闻服务系统之间的通信机制;在新闻记者撰稿系统中,接收用户输入的引导语句;为根据接收到的用户输入的引导语句,自动生成对应的语段;
91.所述用户输入的引导语句包括但不限于:价值判断句、预测分析句、批判分析句、建议导向句、总结语句;为根据接收到的用户输入的引导语句,自动生成对应的语段,包括如下步骤:
92.步骤s11:对用户引导词语进行分词;
93.步骤s12:提取分词中代表观点的词语或短语,以及确定记者对该种观点的肯定/否定态度词语;
94.步骤s13:提取用户引导语句中表达情感强度的词;
95.步骤s14:根据情感强度词确定记者的价值取向,并基于这些观点词或短语、情感强度词计算高维词向量;
96.步骤s15:根据相似度算法从新闻综合数据库中搜索满足相似度要求的素材,并基于该些素材提取素材中与所确定的记者价值取向相一致的语段;
97.步骤s16:基于所提取的语段和所述高维度词向量,作为训练完毕的transformer网络的输入,并将肯定/否定态度词语和观点词或短语作为权重最高主题词;且在注意力评分中加入与价值取向相反的惩罚项,并将情感强度词的量化值作为惩罚项系数:根据训练后的所述transformer网络自动生成语段。
98.所述情感强度词的量化值为第一量化值和第二量化值之和,其中,将表达作者情感强烈程度的词语,通过情感强烈程度量化表进行量化,获得第一情感量化值;将表达肯定/否定态度的词语根据其强烈程度,量化成第二情感量化值。
99.一种存储介质,存储介质上存储有计算机可执行代码,该些可执行代码被处理器读取后执行如前所述的自动生成新闻的方法。
100.在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
101.此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
102.本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(asic)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相
关的数据结构)可以被存储到计算机可读记录介质中,例如,ram存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
103.另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
104.附图标记:
105.
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1