一种标题生成方法、计算机及可读存储介质与流程

文档序号:22501263发布日期:2020-10-13 09:34阅读:89来源:国知局
一种标题生成方法、计算机及可读存储介质与流程

本申请涉及计算机技术领域,尤其涉及一种标题生成方法、计算机及可读存储介质。



背景技术:

随着互联网资讯平台的发展,很多用户都会在在线资讯平台阅读相关的科普类文章,例如,在线医疗资讯平台的医疗科普类文章。为了保障资讯平台中所发布的科普类文章的权威和专业性,资讯平台一般会邀请相关行业中的专业人士创作科普类文章,例如,医疗资讯平台一般会邀请三甲医院等知名医院的医疗专家创作医疗科普类文章。由于专业人士往往不了解互联网的资讯传播方式,而更为擅长平铺直叙或者专业学术化的表达,因此,上传至资讯平台中的科普类文章,可能会因为文本标题表述较为直白或专业,用户无法直观地了解该科普类文章所表述的内容,从而导致这些科普类文章可能无法吸引较多的用户阅览,造成该科普类文章的相关工作无法得到更好的反馈。

目前,为解决该文本标题表述较为专业或直白的问题,一般会通过运营人员与专业人士之间的多次沟通,以生成科普类文章的文本标题,这种方式往往会耗费时间和精力,造成文本标题的生成效率低下。



技术实现要素:

本申请实施例提供了一种标题生成方法、计算机及可读存储介质,可以提高文本标题的生成效率。

本申请实施例一方面提供了一种标题生成方法,该方法包括:

对目标文本数据进行分词处理,得到组成目标文本数据的至少两个目标文本分词词组;

根据至少两个目标文本分词词组的目标词组重要度,获取目标文本数据中的目标文本关键词,获取目标文本关键词的目标词组特征;

将目标词组特征输入标题生成模型,基于标题生成模型对目标词组特征进行特征预测,得到预测语句集合,将预测语句集合中第一预测概率值最大的预测语句,作为目标文本数据的目标文本标题;

推送携带目标文本标题的目标文本数据。

其中,该方法,还包括:

根据至少两个目标文本分词词组,确定第i个目标文本分词词组在目标文本数据中的目标词组频率tfi;i为正整数,i小于或等于至少两个目标文本分词词组的总数;

获取逆向文件频率集合,从逆向文件频率集合中获取第i个目标文本分词词组的目标逆向文件频率idfi;

获取第i个目标文本分词词组在目标文本数据中对应的目标域权重,根据目标词组频率tfi、目标逆向文件频率idfi及第i个目标文本分词词组的目标域权重,确定第i个目标文本分词词组的目标词组重要度。

其中,根据至少两个目标文本分词词组,确定第i个目标文本分词词组在目标文本数据中的目标词组频率tfi,包括:

统计目标文本数据中每个目标文本分词词组的目标词组数量;

将第i个目标文本分词词组的目标词组数量与每个目标文本分词词组的目标词组数量之和的比值,确定为第i个目标文本分词词组在目标文本数据中的目标词组频率tfi。

其中,该方法还包括:

获取语料库中包括的至少两个文本数据,对各个文本数据进行分词处理,得到至少两个文本数据对应的文本分词词组;

将文本分词词组关联的文本数据的数量,确定为文本分词词组的关联文本数;

获取至少两个文本数据的文本总数,根据文本总数及文本分词词组的关联文本数,确定文本分词词组的逆向文件频率;

将文本分词词组的逆向文件频率加入逆向文件频率集合中。

其中,获取第i个目标文本分词词组在目标文本数据中对应的目标域权重,包括:

获取第i个目标文本分词词组在目标文本数据中所属的文本区域;

若文本区域为第一文本区域,则将第一文本区域对应的第一域权重,确定为第i个目标文本分词词组在目标文本数据中对应的目标域权重;

若文本区域为第二文本区域,则将第二文本区域对应的第二域权重,确定为第i个目标文本分词词组在目标文本数据中对应的目标域权重;第二域权重小于第一域权重。

其中,获取目标文本关键词的目标词组特征,包括:

获取词向量矩阵,以及目标文本关键词在词向量矩阵中的目标向量位置;

根据目标向量位置确定目标文本关键词的目标位置矩阵,根据词向量矩阵及目标位置矩阵,确定目标文本关键词的目标词组特征。

其中,将目标词组特征输入标题生成模型,基于标题生成模型对目标词组特征进行特征预测,得到预测语句集合,包括:

将目标词组特征输入标题生成模型,基于标题生成模型对目标词组特征进行预测,得到至少两个预测字符串;

对至少两个预测字符串进行词序调整,生成至少两个预测语句;至少两个预测语句组成预测语句集合,每个预测语句携带第一预测概率值,每个预测语句包括目标文本关键词。

其中,推送携带目标文本标题的目标文本数据,包括:

获取用户终端的文本阅读标签,根据目标文本关键词及文本阅读标签确定目标用户终端;

向目标用户终端推送携带目标文本标题的目标文本数据。

其中,该方法还包括:

根据目标文本标题,生成目标文本数据的推送链接;

将推送链接添加至推荐数据流,显示推荐数据流。

其中,该方法还包括:

获取第一关键词样本及第一关键词样本对应的第一标题样本,根据第一关键词样本及第一标题样本,生成第一样本特征;

基于第一样本特征对初始生成预训练模型进行训练,生成标题生成模型。

其中,该方法还包括:

获取至少两个待确定文本数据,获取每个待确定文本数据的阅读行为数据及文本标签信息;

从至少两个待确定文本数据中获取文本数据样本;文本数据样本的文本标签信息属于合法标签集合,且阅读行为数据满足阅读采集条件;

获取第一关键词样本及第一关键词样本对应的第一标题样本,包括:

将文本数据样本中的文本关键词作为第一关键词样本,将文本数据样本的文本标题作为第一关键词样本对应的第一标题样本。

其中,根据第一关键词样本及第一标题样本,生成第一样本特征,包括:

将第一关键词样本及第一标题样本拼接成第一输入样本,获取第一输入样本在词向量矩阵中的样本位置;

根据样本位置确定第一输入样本的样本位置矩阵;

获取组成第一输入样本的字符样本,获取字符样本在第一输入样本中的字符位置信息,获取字符位置信息对应的字符位置向量;

根据样本位置矩阵、词向量矩阵及字符位置向量,生成第一样本特征。

其中,基于第一样本特征对初始生成预训练模型进行训练,生成标题生成模型,包括:

将第一样本特征输入初始生成预训练模型,基于初始生成预训练模型对第一样本特征中的待预测特征进行特征掩藏,对掩藏后的第一样本特征进行特征预测;待预测特征属于第一标题样本的特征;

根据待预测特征在初始生成预训练模型中对应的第二预测概率值,对初始生成预训练模型进行调整,生成标题生成模型。

其中,基于第一样本特征对初始生成预训练模型进行训练,生成标题生成模型,包括:

将第一样本特征输入初始生成预训练模型进行预训练,生成预训练模型;

获取第二关键词样本及第二关键词样本对应的第二标题样本,根据第二关键词样本生成第二样本特征,根据第二关键词样本对应的第二标题样本生成样本标签;

根据第二样本特征及样本标签,对预训练模型进行调整,生成标题生成模型。

本申请实施例一方面提供了一种标题生成装置,该装置包括:

文本分词模块,用于对目标文本数据进行分词处理,得到组成目标文本数据的至少两个目标文本分词词组;

特征提取模块,用于根据至少两个目标文本分词词组的目标词组重要度,获取目标文本数据中的目标文本关键词,获取目标文本关键词的目标词组特征;

标题预测模块,用于将目标词组特征输入标题生成模型,基于标题生成模型对目标词组特征进行特征预测,得到预测语句集合,将预测语句集合中第一预测概率值最大的预测语句,作为目标文本数据的目标文本标题;

数据推送模块,用于推送携带目标文本标题的目标文本数据。

其中,该装置,还包括:

词组频率确定模块,用于根据至少两个目标文本分词词组,确定第i个目标文本分词词组在目标文本数据中的目标词组频率tfi;i为正整数,i小于或等于至少两个目标文本分词词组的总数;

逆向文件频率获取模块,用于获取逆向文件频率集合,从逆向文件频率集合中获取第i个目标文本分词词组的目标逆向文件频率idfi;

重要度确定模块,用于获取第i个目标文本分词词组在目标文本数据中对应的目标域权重,根据目标词组频率tfi、目标逆向文件频率idfi及第i个目标文本分词词组的目标域权重,确定第i个目标文本分词词组的目标词组重要度。

其中,该词组频率确定模块,包括:

词组统计单元,用于统计目标文本数据中每个目标文本分词词组的目标词组数量;

词频确定单元,用于将第i个目标文本分词词组的目标词组数量与每个目标文本分词词组的目标词组数量之和的比值,确定为第i个目标文本分词词组在目标文本数据中的目标词组频率tfi。

其中,该装置还包括:

词组获取模块,用于获取语料库中包括的至少两个文本数据,对各个文本数据进行分词处理,得到至少两个文本数据对应的文本分词词组;

关联统计模块,用于将文本分词词组关联的文本数据的数量,确定为文本分词词组的关联文本数;

逆向文件频率确定模块,用于获取至少两个文本数据的文本总数,根据文本总数及文本分词词组的关联文本数,确定文本分词词组的逆向文件频率;

集合更新模块,用于将文本分词词组的逆向文件频率加入逆向文件频率集合中。

其中,在获取第i个目标文本分词词组在目标文本数据中对应的目标域权重方面,该重要度确定模块包括:

区域确定单元,用于获取第i个目标文本分词词组在目标文本数据中所属的文本区域;

权重获取单元,用于若文本区域为第一文本区域,则将第一文本区域对应的第一域权重,确定为第i个目标文本分词词组在目标文本数据中对应的目标域权重;

该权重获取单元,还用于若文本区域为第二文本区域,则将第二文本区域对应的第二域权重,确定为第i个目标文本分词词组在目标文本数据中对应的目标域权重;第二域权重小于第一域权重。

其中,在获取目标文本关键词的目标词组特征方面,该特征提取模块包括:

向量获取单元,用于获取词向量矩阵,以及目标文本关键词在词向量矩阵中的目标向量位置;

特征确定单元,用于根据目标向量位置确定目标文本关键词的目标位置矩阵,根据词向量矩阵及目标位置矩阵,确定目标文本关键词的目标词组特征。

其中,在将目标词组特征输入标题生成模型,基于标题生成模型对目标词组特征进行特征预测,得到预测语句集合方面,该标题预测模块包括:

字符预测单元,用于将目标词组特征输入标题生成模型,基于标题生成模型对目标词组特征进行预测,得到至少两个预测字符串;

预测调整单元,用于对至少两个预测字符串进行词序调整,生成至少两个预测语句;至少两个预测语句组成预测语句集合,每个预测语句携带第一预测概率值,每个预测语句包括目标文本关键词。

其中,该数据推送模块,包括:

终端确定单元,用于获取用户终端的文本阅读标签,根据目标文本关键词及文本阅读标签确定目标用户终端;

数据推送单元,用于向目标用户终端推送携带目标文本标题的目标文本数据。

其中,该装置还包括:

链接生成模块,用于根据目标文本标题,生成目标文本数据的推送链接;

数据显示模块,用于将推送链接添加至推荐数据流,显示推荐数据流。

其中,该装置还包括:

样本获取模块,用于获取第一关键词样本及第一关键词样本对应的第一标题样本,根据第一关键词样本及第一标题样本,生成第一样本特征;

模型训练模块,用于基于第一样本特征对初始生成预训练模型进行训练,生成标题生成模型。

其中,该装置还包括:

文本获取模块,用于获取至少两个待确定文本数据,获取每个待确定文本数据的阅读行为数据及文本标签信息;

样本选取模块,用于从至少两个待确定文本数据中获取文本数据样本;文本数据样本的文本标签信息属于合法标签集合,且阅读行为数据满足阅读采集条件;

在获取第一关键词样本及第一关键词样本对应的第一标题样本方面,该样本获取模块具体用于:

将文本数据样本中的文本关键词作为第一关键词样本,将文本数据样本的文本标题作为第一关键词样本对应的第一标题样本。

其中,在根据第一关键词样本及第一标题样本,生成第一样本特征方面,该样本获取模块包括:

输入获取单元,用于将第一关键词样本及第一标题样本拼接成第一输入样本,获取第一输入样本在词向量矩阵中的样本位置;

矩阵确定单元,用于根据样本位置确定第一输入样本的样本位置矩阵;

位置向量确定单元,用于获取组成第一输入样本的字符样本,获取字符样本在第一输入样本中的字符位置信息,获取字符位置信息对应的字符位置向量;

样本特征生成单元,用于根据样本位置矩阵、词向量矩阵及字符位置向量,生成第一样本特征。

其中,该模型训练模块,包括:

特征掩藏单元,用于将第一样本特征输入初始生成预训练模型,基于初始生成预训练模型对第一样本特征中的待预测特征进行特征掩藏,对掩藏后的第一样本特征进行特征预测;待预测特征属于第一标题样本的特征;

模型调整单元,用于根据待预测特征在初始生成预训练模型中对应的第二预测概率值,对初始生成预训练模型进行调整,生成标题生成模型。

其中,该模型训练模块,包括:

第一训练单元,用于将第一样本特征输入初始生成预训练模型进行预训练,生成预训练模型;

样本获取单元,用于获取第二关键词样本及第二关键词样本对应的第二标题样本,根据第二关键词样本生成第二样本特征,根据第二关键词样本对应的第二标题样本生成样本标签;

第二训练单元,用于根据第二样本特征及样本标签,对预训练模型进行调整,生成标题生成模型。

本申请实施例一方面提供了一种计算机设备,包括处理器、存储器、输入输出接口;

处理器分别与存储器和输入输出接口相连,其中,输入输出接口用于接收数据及输出数据,存储器用于存储程序代码,处理器用于调用程序代码,以执行本申请实施例一方面中的标题生成方法。

本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时,执行本申请实施例一方面中的标题生成方法。

本申请实施例一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例一方面中的各种可选方式中提供的方法。

实施本申请实施例,将具有如下有益效果:

本申请实施例通过对目标文本数据进行分词处理,得到组成目标文本数据的至少两个目标文本分词词组;根据至少两个目标文本分词词组的目标词组重要度,获取目标文本数据中的目标文本关键词,获取目标文本关键词的目标词组特征;将目标词组特征输入标题生成模型,基于标题生成模型对目标词组特征进行特征预测,得到预测语句集合,将预测语句集合中第一预测概率值最大的预测语句,作为目标文本数据的目标文本标题;推送携带目标文本标题的目标文本数据。通过模型对目标文本数据进行自动化分析处理,以得到该目标文本数据的目标文本标题,降低了人工成本,提高文本标题的生成效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种标题生成网络架构图;

图2是本申请实施例提供的一种标题生成场景示意图;

图3是本申请实施例提供的一种标题生成方法流程图;

图4是本申请实施例提供的一种目标文本关键词的获取场景示意图;

图5是本申请实施例提供的一种推送文本生成场景示意图;

图6是本申请实施例提供的一种文本推送场景示意图;

图7是本申请实施例提供的一种模型架构示意图;

图8是本申请实施例提供的一种标题生成装置示意图;

图9是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

其中,本申请实施例提供的方案涉及人工智能领域中的机器学习等技术,实现对文本数据中的关键词的特征提取,并基于关键词对该文本数据进行特征预测,从而生成该文本数据的文本标题。

其中,人工智能(artificialintelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中,机器学习(machinelearning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。

其中,本申请实施例提供的方案涉及人工智能领域中的机器学习等技术,具体通过如下实施例进行说明:

具体的,请参见图1,图1是本申请实施例提供的一种标题生成网络架构图,本申请实施例可以由计算机设备实现,其中,该计算机设备可以是由服务器及终端设备组成;该计算机设备还可以是服务器或终端设备,在此不做限定。其中,本申请实施例适用于各个发布科普类文章的应用程序,该发布科普类文章的应用程序是用于向用户推送专业性的科普文章的应用程序,例如,医疗类科普应用程序、农业类科普应用程序、经济类科普应用程序或物理类科普应用程序等,在此不做限制。

其中,专业人士可以通过用户设备上传文本数据,该文本数据指的是一篇科普文章的正文内容,计算机设备获取到用户设备发送的文本数据,生成该文本数据的文本标题。其中,计算机设备101可以与用户终端(包括但不限于用户终端102a、用户终端102b及用户终端102c等)进行数据交互,用户终端用于获取专业人士所提交的文本数据,或者向用户展示推送文本,该推送文本指的是携带文本标题的文本数据。例如,用户终端102a对应专业人士,用户终端102b对应用户a,用户终端102c对应用户b,计算机设备101获取到用户终端102a发送的文本数据后,提取该文本数据中的文本关键词,将该文本关键词输入标题生成模型中进行预测,得到该文本数据的文本标题,并推送该携带文本标题的文本数据。其中,用户a可以通过自己所使用的用户终端102b获取该携带文本标题的文本数据,用户b可以通过自己所使用的用户终端102c获取该携带文本标题的文本数据。可选的,专业人士可以直接在计算机设备101中提交文本数据,在此不做限制。通过标题生成模型对文本数据进行分析处理,以对文本数据进行智能处理,自动化生成该文本数据的文本标题,降低了人工成本,提高文本标题的生成效率。

可以理解的是,本申请实施例中所提及的计算机设备或用户设备包括但不限于终端设备或服务器。换句话说,计算机设备或用户设备可以是服务器或终端设备,也可以是服务器和终端设备组成的系统。其中,以上所提及的终端设备可以是一种电子设备,包括但不限于手机、平板电脑、台式电脑、笔记本电脑、掌上电脑、增强现实/虚拟现实(augmentedreality/virtualreality,ar/vr)设备、头盔显示器、可穿戴设备、智能音箱及其他具备网络接入能力的移动互联网设备(mobileinternetdevice,mid)等。

进一步地,请参见图2,图2是本申请实施例提供的一种标题生成场景示意图。如图2所示,计算机设备获取到该目标文本数据201,对该目标文本数据201进行分词处理,以得到组成该目标文本数据201的至少两个目标文本分词词组202,根据每个目标文本分词词组的目标词组重要度,从至少两个目标文本分词词组202中获取目标文本关键词203。将该目标文本关键词203输入标题生成模型204中,该标题生成模型204对该目标文本关键词203进行特征提取分析,得到预测语句集合205,该预测语句集合205包括预测语句1及该预测语句1的第一预测概率值、预测语句2及该预测语句2的第一预测概率值、预测语句3及该预测语句3的第一预测概率值,…,以及预测语句n及该预测语句n的第一预测概率值,其中,n为正整数,n为预测语句集合205包括的预测语句的数量。假定预测语句1的第一预测概率值大于预测语句2的第一预测概率值,预测语句2的第一预测概率值大于预测语句3的第一预测概率值,…,预测语句(n-1)的第一预测概率值大于预测语句n的第一预测概率值,计算机设备获取预测语句集合205中第一预测概率值最大的预测语句,即预测语句1,将该预测语句1作为目标文本数据201的目标文本标题,根据该目标文本标题与目标文本数据201生成推送文本206,并推送该推送文本206。通过标题生成模型对目标文本关键词进行特征提取及预测,实现了文本标题的生成自动智能化,提高了文本标题的生成效率。

进一步地,请参见图3,图3是本申请实施例提供的一种标题生成方法流程图。如图3所示,该标题生成过程包括如下步骤:

步骤s301,对目标文本数据进行分词处理,得到组成该目标文本数据的至少两个目标文本分词词组。

具体的,计算机设备获取目标文本数据,通过分词工具、分词模型或分词算法等对目标文本数据进行分词处理,得到组成该目标文本数据的至少两个目标文本分词词组。其中,该分词工具可以包括但不限于结巴分词(jieba)、汉语言处理包(hanlanguageprocessing,hanlp)或具备情感分析的自然语言处理包(snownaturallanguageprocessing,snownlp)等;该分词算法可以包括但不限于基于词典的方法(如字符串匹配或机械分词方法等)、基于统计的分词方法(即无字典分词)、基于规则的分词方法(基于语义)或基于字标注的中文分词方法等。换句话说,本申请中对目标文本数据进行分词处理时所使用的方法在此不做限定。

其中,按照对文本数据的扫描方向的不同,可以将基于词典的方法分为正向匹配及逆向匹配;按照文本数据的文本长度的不同,可以将基于词典的方法分为最大匹配和最小匹配。其中,该基于统计的分词方法可以是基于统计模型实现的,如n元文法模型(n-gram)或隐马尔科夫模型(hiddenmarkovmodel,hmm)等,在此不做限制。

步骤s302,根据至少两个目标文本分词词组的目标词组重要度,获取目标文本数据中的目标文本关键词,获取目标文本关键词的目标词组特征。

具体的,计算机设备可以获取每个目标文本分词词组的目标词组重要度,基于各个目标文本分词词组的目标词组重要度,对至少两个目标文本分词词组进行排序,根据排序结果,从至少两个目标文本分词词组中获取目标文本数据中的目标文本关键词,并获取该目标文本关键词的目标词组特征。

可选的,该目标文本关键词的关键词数量可以是预设的,也可以是根据目标文本数据的目标文本长度所确定的。例如,该关键词数量可以是预设的,则计算机设备获取关键词数量,基于该关键词数量及至少两个目标文本分词词组的目标词组重要度,从至少两个目标文本分词词组中,获取目标文本数据中的目标文本关键词。或者,假定存在第一文本长度范围(短篇)、第二文本长度范围(中长篇)及第三文本长度范围(长篇),计算机设备可以获取目标文本数据的目标文本长度,获取该目标文本长度所属的目标文本长度范围,若该目标文本长度范围为第一文本长度范围,则确定关键词数量为第一文本长度范围对应的第一关键词数量;若该目标文本长度范围为第二文本长度范围,则确定关键词数量为第二文本长度范围对应的第二关键词数量;若该目标文本长度范围为第三文本长度范围,则确定关键词数量为第三文本长度范围对应的第三关键词数量;计算机设备基于该关键词数量及至少两个目标文本分词词组的目标词组重要度,从至少两个目标文本分词词组中,获取目标文本数据中的目标文本关键词。

例如,假定关键词数量为2,则计算机设备从至少两个目标文本分词词组中,获取目标词组重要度最大的两个目标文本分词词组,作为目标文本数据中的目标文本关键词。具体的,假定按照目标词组重要度由大到小,对至少两个目标文本分词词组进行排序,则计算机设备可以从排序后的至少两个目标文本分词词组中,获取前两个目标文本分词词组,作为目标文本数据中的目标文本关键词。

进一步地,计算机设备可以根据至少两个目标文本分词词组,确定第i个目标文本分词词组在目标文本数据中的目标词组频率tfi;i为正整数,i小于或等于至少两个目标文本分词词组的总数。获取逆向文件频率集合,从逆向文件频率集合中获取第i个目标文本分词词组的目标逆向文件频率idfi。获取第i个目标文本分词词组在目标文本数据中对应的目标域权重,根据目标词组频率tfi、目标逆向文件频率idfi及第i个目标文本分词词组的目标域权重,确定第i个目标文本分词词组的目标词组重要度。其中,目标词组频率tfi可以用于表征第i个目标文本分词词组在目标文本数据中所占的比例,目标逆向文件频率idfi可以用于表征第i个目标文本分词词组在不同的文本数据中的差异。其中,目标文本分词词组的目标词组重要度,与该目标文本分词词组在目标文本数据中出现的频率成正比,与该目标文本分词词组在语料库中出现的频率成反比,这是由于当目标文本分词词组在目标文本数据中出现的词组频率(termfrequency,tf)大,且在其他文本数据中出现的频率小时,可以认为该目标文本分词词组对目标文本数据较为重要,且可以区分于其他文本数据,即该目标文本分词词组可以代表目标文本数据。其中,目标文本分词词组在其他文本数据中出现的频率可以通过逆向文件频率(inversedocumentfrequency,idf)进行表示。

其中,语料库中存放的是在语言的实际使用中真实出现过的语言材料,是以电子计算机为载体承载语言知识的基础资源,在本申请中,该语料库包括多个文本数据等,该文本数据携带文本标题。

其中,在根据至少两个目标文本分词词组,确定第i个目标文本分词词组在目标文本数据中的目标词组频率tfi时,计算机设备统计目标文本数据中每个目标文本分词词组的目标词组数量;将第i个目标文本分词词组的目标词组数量与每个目标文本分词词组的目标词组数量之和的比值,确定为第i个目标文本分词词组在目标文本数据中的目标词组频率tfi。其中,该目标词组频率tfi的获取可以参见公式①:

其中,ni表示在目标文本数据中,第i个目标文本分词词组的目标词组数量;k为正整数,k小于或等于至少两个目标文本分词词组的总数,∑knk用于表示在目标文本数据中,每个目标文本分词词组的目标词组数量之和。

进一步地,计算机设备获取语料库中包括的至少两个文本数据,对各个文本数据进行分词处理,得到至少两个文本数据对应的文本分词词组。将文本分词词组关联的文本数据的数量,确定为文本分词词组的关联文本数。获取至少两个文本数据的文本总数,根据文本总数及文本分词词组的关联文本数,确定文本分词词组的逆向文件频率。将文本分词词组的逆向文件频率加入逆向文件频率集合中。其中,该至少两个文本数据对应的文本分词词组包括了组成各个文本数据的所有文本分词词组。其中,文本分词词组在一个文本数据中出现过,则认为该文本分词词组与文本数据关联,即关联文本数用于表示对应的文本分词词组所在的文本数据的数量。具体的,计算机设备在获取第i个目标文本分词词组的目标逆向文件频率idfi时,是直接在逆向文件频率集合中获取的,该逆向文件频率集合中的目标逆向文件频率idfi在生成时可以参见公式②:

其中,|d|用于表示语料库中包括的至少两个文本数据的数量;j为正整数,j小于或等于至少两个文本数据的数量,ti表示第i个目标文本分词词组,dj用于表示第j个文本数据,ti∈dj表示第j个文本数据中存在第i个目标文本分词词组,|{j:ti∈dj}|用于表示第i个目标文本分词词组的关联文本数,即依次遍历至少两个文本数据,统计存在第i个目标文本分词词组的文本数据的数量,作为第i个目标文本分词词组的关联文本数。例如,语料库中存在10个文本数据,其中,第1个文本数据、第3个文本数据及第5个文本数据中存在文本分词词组“健康”,则确定该文本分词词组“健康”的关联文本数为3,该文本分词词组“健康”的逆向文件频率为

其中,计算机设备在获取第i个目标文本分词词组在目标文本数据中对应的目标域权重时,获取第i个目标文本分词词组在目标文本数据中所属的文本区域。若文本区域为第一文本区域,则将第一文本区域对应的第一域权重,确定为第i个目标文本分词词组在目标文本数据中对应的目标域权重;若文本区域为第二文本区域,则将第二文本区域对应的第二域权重,确定为第i个目标文本分词词组在目标文本数据中对应的目标域权重;第二域权重小于第一域权重。其中,该第一文本区域可以是文本数据的标题区域,第二文本区域可以是文本数据的正文区域。其中,第i个目标文本分词词组的目标词组重要度的生成公式可以参见公式③所示:

si=fieldwi*tfi*idfi③

其中,fieldwi用于表示第i个目标文本分词词组的目标域权重。

具体的,可以参见图4,图4是本申请实施例提供的一种目标文本关键词的获取场景示意图。如图4所示,计算机设备获取目标文本数据401,对该目标文本数据401进行分词处理,得到组成该目标文本数据401的至少两个目标文本分词词组402,统计每个目标文本分词词组的目标词组数量,以得到各个目标文本分词词组的目标词组频率,包括目标文本分词词组4021的词组频率1、目标文本分词词组4022的词组频率2、…及目标文本分词词组402m的词组频率m,其中,m为正整数,m为至少两个目标文本分词词组402所包括的目标文本分词词组的数量。获取逆向文件频率集合403,从该逆向文件频率集合403中获取各个目标文本分词词组的目标逆向文件频率,包括目标文本分词词组4021的逆向文件频率1、目标文本分词词组4022的逆向文件频率2、…及目标文本分词词组402m的逆向文件频率m。根据各个目标文本分词词组的目标词组频率及目标逆向文件频率,确定各个目标文本分词词组的目标词组重要度,包括目标文本分词词组4021的词组重要度1、目标文本分词词组4022的词组重要度2、…及目标文本分词词组402m的词组重要度m。根据各个目标文本分词词组的目标词组重要度,确定目标文本数据401的目标文本关键词。

进一步地,计算机设备可以获取词向量矩阵,以及目标文本关键词在词向量矩阵中的目标向量位置;根据目标向量位置确定目标文本关键词的目标位置矩阵,根据词向量矩阵及目标位置矩阵,确定目标文本关键词的目标词组特征。可选的,可以直接通过词向量转化工具或词向量转化模型等,提取目标文本关键词的目标词组特征。

步骤s303,将目标词组特征输入标题生成模型,基于该标题生成模型对目标词组特征进行特征预测,得到预测语句集合,将预测语句集合中第一预测概率值最大的预测语句,作为目标文本数据的目标文本标题。

具体的,将目标词组特征输入标题生成模型,基于标题生成模型对目标词组特征进行预测,得到至少两个预测字符串。对至少两个预测字符串进行词序调整,生成至少两个预测语句;至少两个预测语句组成预测语句集合,每个预测语句携带第一预测概率值,每个预测语句包括目标文本关键词。

举例来说,请参见图5,图5是本申请实施例提供的一种推送文本生成场景示意图。如图5所示,计算机设备获取到目标文本数据的目标文本关键词501为“儿童、心理”,获取目标文本关键词“儿童、心理”对应的目标词组特征502,其中,当“儿童、心理”对应的目标词组向量小于标题生成模型的输入特征大小时,可以对目标词组向量添加预设填充值(如0),以得到“儿童、心理”对应的目标词组特征502。将该目标词组特征502输入标题生成模型503,该标题生成模型503可以对目标词组特征502进行多次特征预测并调整,输出预测语句集合504,该预测语句集合504包括预测语句5041及第一预测概率值1、预测语句5042及第一预测概率值2、…、以及预测语句504n及第一预测概率值n。假定第一预测概率值3最大,则计算机设备将第一预测概率值3对应的预测语句5043确定为目标文本标题。若该目标文本标题为“儿童心理健康需要家长重视”,根据目标文本数据与目标文本标题生成推送文本505,将该推送文本505推送至用户终端506中,以使用户终端506可以显示该推送文本505。其中,该推送文本505的推送过程,具体可以参见步骤s304。

步骤s304,推送携带目标文本标题的目标文本数据。

具体的,计算机设备可以获取用户终端的文本阅读标签,根据目标文本关键词及文本阅读标签确定目标用户终端。向目标用户终端推送携带目标文本标题的目标文本数据。其中,该文本阅读标签可以是基于对应的用户终端的历史阅读数据生成的,也可以是使用用户终端的用户自己添加的,该文本阅读标签可以表征对应的用户终端想要接收的文本类型。其中,当该文本阅读标签是基于对应的用户终端的历史阅读数据生成的时,计算机设备可以统计用户终端的历史阅读数据,获取该历史阅读数据对应的历史文本关键词,将该历史文本关键词作为该用户终端的文本阅读标签。

举例来说,参见图6,图6是本申请实施例提供的一种文本推送场景示意图。如图6所示,计算机设备601生成推送文本602,已知该推送文本602的目标文本关键词603为“儿童、心理”,计算机设备601获取与计算机设备601关联的用户终端及该用户终端的文本阅读标签,假定用户终端6041的文本阅读标签为“儿童、心理”,用户终端6042的文本阅读标签为“口腔”,用户终端6043的文本阅读标签为“心理、过敏”。计算机设备601获取与目标文本关键词603关联的文本阅读标签,包括文本阅读标签“儿童、心理”及文本阅读标签“心理、过敏”,将文本阅读标签“儿童、心理”对应的用户终端6041,以及文本阅读标签“心理、过敏”对应的用户终端6043,确定为目标用户终端,即,文本阅读标签中存在与目标文本关键词中的任意一个关键词相匹配的标签,则可以认为该文本阅读标签对应的用户终端为目标用户终端。计算机设备将推送文本602推送至用户终端6041及用户终端6043,用户终端6041或用户终端6043可以在文本显示页面605中显示该推送文本602。

其中,计算机设备可以根据目标文本标题,生成目标文本数据的推送链接;将推送链接添加至推荐数据流,显示推荐数据流。

可选的,可以参见图6,计算机设备601还可以根据目标文本标题,生成目标文本数据的推送链接,将该推送链接添加至推荐数据流,将该推荐数据流推送至目标用户终端,目标用户终端可以在文本显示页面605中显示该推荐数据流,响应针对该推荐数据流中的推送链接的触发操作,在文本显示页面605中显示该推荐链接关联的推送文本602。可选的,计算机设备601还可以将推送文本602推送至目标用户终端,目标用户终端可以根据该目标用户终端对应的文本阅读标签,获取目标用户终端的可推送文本,根据可推送文本生成推荐数据流,并显示该推荐数据流。

其中,本申请实施例中标题生成模型的训练过程如下:

计算机设备获取第一关键词样本及第一关键词样本对应的第一标题样本,根据第一关键词样本及第一标题样本,生成第一样本特征;基于第一样本特征对初始生成预训练模型进行训练,生成标题生成模型。其中,可以参见图7,图7是本申请实施例提供的一种模型架构示意图。如图7所示,该初始生成预训练模型包括多层结构,每一层结构包括掩藏自注意层、标准层、前馈层及标准层等。计算机设备可以将该第一样本特征输入初始生成预训练模型中,该初始生成预训练模型通过掩藏自注意层,将需要进行预测的待预测特征进行掩藏,该待预测特征属于第一标题样本对应的特征,再将该掩藏后的特征与第一样本特征进行特征融合,输入标准层,再将标准层输出的特征输入前馈层,将标准层输出的特征与前馈层输出的特征进行特征融合后,输入下一个标准层,完成一层结构的训练,通过该过程,在该初始生成预训练模型中的多层结构中对第一样本特征进行多次迭代,根据迭代结果对初始生成预训练模型进行调整,以生成标题生成模型。

可选的,可以基于标准层对该标准层接收到的特征进行特征调整,该特征调整是基于自然语言标准所进行的,保障了生成的标题生成模型所输出的预测语句符合自然语言标准,即保障该预测语句的结构符合用户阅读习惯,使得预测语句的可读性更强。可选的,本申请中也可以通过该初始生成预训练模型中的其他层对获取到的特征进行特征调整,在此不做限制。

进一步地,可以获取至少两个待确定文本数据,获取每个待确定文本数据的阅读行为数据及文本标签信息。从至少两个待确定文本数据中获取文本数据样本;文本数据样本的文本标签信息属于合法标签集合,且阅读行为数据满足阅读采集条件。其中,该文本标签信息可以表示对应的文本数据样本的作者的身份信息标签,该合法标签集合是用于保障获取到的文本数据样本的权威性,因此,该合法标签集合中所包括的合法标签可以为权威机构对应的标签,也可以为专业人士的权威职称对应的标签等;该阅读行为数据用于表征对应的待确定文本数据的阅读量、收藏量及点击量等,当阅读行为数据满足阅读采集条件时,可以认为该待确定文本数据的可阅读性较强,更为吸引人。其中,以医疗类科普文章为例,该合法标签集合可以包括三甲医院及三甲以上医院对应的合法机构标签,也可以包括国家认证的权威职称对应的标签,如国家xx医疗专家等。其中,计算机设备可以获取至少两个待确定文本数据,获取每个待确定文本数据的作者的身份信息标签及阅读行为数据,该身份信息标签可以认为是对应的待确定文本数据的文本标签信息。

此时,计算机设备可以将文本数据样本中的文本关键词作为第一关键词样本,将文本数据样本的文本标题作为第一关键词样本对应的第一标题样本。其中,该文本数据样本的文本关键词的提取方法与目标文本数据的目标文本关键词的提取方法相同,具体可以参见图3中步骤s301及步骤s302所示的描述,在此不再进行赘述。可选的,该文本数据样本可以组成语料库,步骤s302中所描述的逆向文件频率集合的生成过程可以在此处执行。

进一步地,在根据第一关键词样本及第一标题样本,生成第一样本特征时,计算机设备可以将第一关键词样本及第一标题样本拼接成第一输入样本,获取第一输入样本在词向量矩阵中的样本位置;根据样本位置确定第一输入样本的样本位置矩阵;获取组成第一输入样本的字符样本,获取字符样本在第一输入样本中的字符位置信息,获取字符位置信息对应的字符位置向量;根据样本位置矩阵、词向量矩阵及字符位置向量,生成第一样本特征。具体的,该第一样本特征的生成公式可以参见公式④所示:

h0=uwe+wp④

其中,h0为第一样本特征,u表示第一输入样本对应的样本位置矩阵,其中u={u1,u2,…,uq},其中,q为第一输入样本的长度,u可以为一个pos*voc维度的矩阵,pos用于表示文本数据样本中包括的字符最多的句子的长度,例如,文本数据样本中最长的句子包括10个字符,即该文本数据样本中的句子所包括的字符的数量均小于或等于10,则pos为10。we用于表示词向量矩阵,是一个voc*dim维度的矩阵,其中,voc为词汇表的大小,即用于表示该词向量矩阵中所包括的词向量的数量,dim用于表示一个词向量的维度,例如,将“的”转化为词向量后,可以得到一个dim维度的矩阵。wp用于表示字符位置向量,可以是一个pos*dim维度的矩阵。其中,当生成样本位置矩阵或字符位置向量时,若存在无对应值的位置,则可以在该位置处添加预设填充值,例如,该预设填充值为0,根据第一输入样本得到矩阵对该矩阵添加预设填充值,得到样本位置矩阵其中,该矩阵仅为举例,并不表示实际应用中的矩阵。

进一步地,计算机设备可以将第一样本特征输入初始生成预训练模型,基于初始生成预训练模型对第一样本特征中的待预测特征进行特征掩藏,对掩藏后的第一样本特征进行特征预测;其中,该待预测特征属于第一标题样本的特征;根据待预测特征在初始生成预训练模型中对应的第二预测概率值,对初始生成预训练模型进行调整,生成标题生成模型。其中,第二预测概率值用于表示基于第一样本特征对初始生成预训练模型进行训练时,输出的预测结果的概率。

可选的,在对初始生成预训练模型进行调整时,需要不断调整该初始生成预训练模型的参数,以保障该初始生成预训练模型中的误差函数的值最小,或者,预测到待预测特征的概率最大,可选的,可以通过似然函数来进行模型调整,该似然函数可以参见公式⑤所示:

l1(u)=∑ilogp(ui|ui-k,…,ui-1;θ)⑤

其中,l1(u)用于表示基于第一输入样本对初始生成预训练模型进行训练时的似然函数。p(ui|ui-k,…,ui-1;θ)表示给定参数θ时,根据特征{ui-k,…,ui-1}得到特征ui的概率值;∑用于表示累加,是根据logab=loga+logb得到的。其中,可以对初始生成预训练模型进行不断调整,以使该似然函数的值最大,从而使得在给定第一关键词样本时,输出为第一标题样本的概率最大。

其中,将第一样本特征h0输入初始生成模型进行迭代,该迭代公式可以通过公式⑥所示:

hl=transformer_block(hl-1),l∈[1,t]⑥

其中,t为初始生成预训练模型包括的多层结构的层数。

进一步地,该初始生成预训练模型经过t层迭代后,生成ht,根据该ht预测下一个词的概率可以用公式⑦进行表示:

其中,softmax函数是指归一化指数函数,经过该softmax函数处理后,得到的数值或矩阵中的值,均属于0至1之间。

通过公式⑤及公式⑦,对初始生成预训练模型进行调整,使得似然函数及公式⑦的值最大,以生成标题生成模型。

可选的,计算机设备还可以将第一样本特征输入初始生成预训练模型进行预训练,生成预训练模型。获取第二关键词样本及第二关键词样本对应的第二标题样本,根据第二关键词样本生成第二样本特征,根据第二关键词样本对应的第二标题样本生成样本标签。根据第二样本特征及样本标签,对预训练模型进行调整,生成标题生成模型。其中,将该样本标签记为y,将第二样本特征记为(x1,x2,…,xr),则根据第二样本特征及样本标签,对预训练模型进行调整所使用的误差函数可以参见公式⑧所示:

l2(c)=∑(x,y)logp(y|x1,x2,…,xr)⑧

其中,c用于表示携带第二标题样本的第二关键词样本,此时,通过对初始生成预训练模型进行预训练,对预训练模型进行调整,以生成标题生成模型时,整个过程中的误差函数可以参见公式⑨所示:

l3(c)=l2(c)+λl1(c)⑨

其中,该λ仅为数学中的一个概率参数。此时,当该l3(c)的值最大时,确定对初始生成预训练模型训练完成,得到标题生成模型。

本申请实施例通过对目标文本数据进行分词处理,得到组成目标文本数据的至少两个目标文本分词词组;根据至少两个目标文本分词词组的目标词组重要度,获取目标文本数据中的目标文本关键词,获取目标文本关键词的目标词组特征;将目标词组特征输入标题生成模型,基于标题生成模型对目标词组特征进行特征预测,得到预测语句集合,将预测语句集合中第一预测概率值最大的预测语句,作为目标文本数据的目标文本标题;推送携带目标文本标题的目标文本数据。通过模型对目标文本数据进行自动化分析处理,以得到该目标文本数据的目标文本标题,降低了人工成本,提高文本标题的生成效率。同时,基于文本关键词对标题生成模型进行特征约束,提高了文本标题生成的准确性,而且本申请在获取用于训练模型的样本时,所选取的是既有权威性,又有高阅读行为数据的样本,提高了通过标题生成模型所预测的目标文本标题的可阅读性及可信度。

进一步地,请参见图8,图8是本申请实施例提供的一种标题生成装置示意图。该标题生成装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该标题生成装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图8所示,该标题生成装置800可以用于图3所对应实施例中的计算机设备,具体的,该装置可以包括:文本分词模块11、特征提取模块12、标题预测模块13及数据推送模块14。

文本分词模块11,用于对目标文本数据进行分词处理,得到组成目标文本数据的至少两个目标文本分词词组;

特征提取模块12,用于根据至少两个目标文本分词词组的目标词组重要度,获取目标文本数据中的目标文本关键词,获取目标文本关键词的目标词组特征;

标题预测模块13,用于将目标词组特征输入标题生成模型,基于标题生成模型对目标词组特征进行特征预测,得到预测语句集合,将预测语句集合中第一预测概率值最大的预测语句,作为目标文本数据的目标文本标题;

数据推送模块14,用于推送携带目标文本标题的目标文本数据。

其中,该装置800,还包括:

词组频率确定模块15,用于根据至少两个目标文本分词词组,确定第i个目标文本分词词组在目标文本数据中的目标词组频率tfi;i为正整数,i小于或等于至少两个目标文本分词词组的总数;

逆向文件频率获取模块16,用于获取逆向文件频率集合,从逆向文件频率集合中获取第i个目标文本分词词组的目标逆向文件频率idfi;

重要度确定模块17,用于获取第i个目标文本分词词组在目标文本数据中对应的目标域权重,根据目标词组频率tfi、目标逆向文件频率idfi及第i个目标文本分词词组的目标域权重,确定第i个目标文本分词词组的目标词组重要度。

其中,该词组频率确定模块15,包括:

词组统计单元151,用于统计目标文本数据中每个目标文本分词词组的目标词组数量;

词频确定单元152,用于将第i个目标文本分词词组的目标词组数量与每个目标文本分词词组的目标词组数量之和的比值,确定为第i个目标文本分词词组在目标文本数据中的目标词组频率tfi。

其中,该装置800还包括:

词组获取模块18,用于获取语料库中包括的至少两个文本数据,对各个文本数据进行分词处理,得到至少两个文本数据对应的文本分词词组;

关联统计模块19,用于将文本分词词组关联的文本数据的数量,确定为文本分词词组的关联文本数;

逆向文件频率确定模块20,用于获取至少两个文本数据的文本总数,根据文本总数及文本分词词组的关联文本数,确定文本分词词组的逆向文件频率;

集合更新模块21,用于将文本分词词组的逆向文件频率加入逆向文件频率集合中。

其中,在获取第i个目标文本分词词组在目标文本数据中对应的目标域权重方面,该重要度确定模块17包括:

区域确定单元171,用于获取第i个目标文本分词词组在目标文本数据中所属的文本区域;

权重获取单元172,用于若文本区域为第一文本区域,则将第一文本区域对应的第一域权重,确定为第i个目标文本分词词组在目标文本数据中对应的目标域权重;

该权重获取单元173,还用于若文本区域为第二文本区域,则将第二文本区域对应的第二域权重,确定为第i个目标文本分词词组在目标文本数据中对应的目标域权重;第二域权重小于第一域权重。

其中,在获取目标文本关键词的目标词组特征方面,该特征提取模块12包括:

向量获取单元121,用于获取词向量矩阵,以及目标文本关键词在词向量矩阵中的目标向量位置;

特征确定单元122,用于根据目标向量位置确定目标文本关键词的目标位置矩阵,根据词向量矩阵及目标位置矩阵,确定目标文本关键词的目标词组特征。

其中,在将目标词组特征输入标题生成模型,基于标题生成模型对目标词组特征进行特征预测,得到预测语句集合方面,该标题预测模块13包括:

字符预测单元131,用于将目标词组特征输入标题生成模型,基于标题生成模型对目标词组特征进行预测,得到至少两个预测字符串;

预测调整单元132,用于对至少两个预测字符串进行词序调整,生成至少两个预测语句;至少两个预测语句组成预测语句集合,每个预测语句携带第一预测概率值,每个预测语句包括目标文本关键词。

其中,该数据推送模块14,包括:

终端确定单元141,用于获取用户终端的文本阅读标签,根据目标文本关键词及文本阅读标签确定目标用户终端;

数据推送单元142,用于向目标用户终端推送携带目标文本标题的目标文本数据。

其中,该装置800还包括:

链接生成模块22,用于根据目标文本标题,生成目标文本数据的推送链接;

数据显示模块23,用于将推送链接添加至推荐数据流,显示推荐数据流。

其中,该装置800还包括:

样本获取模块24,用于获取第一关键词样本及第一关键词样本对应的第一标题样本,根据第一关键词样本及第一标题样本,生成第一样本特征;

模型训练模块25,用于基于第一样本特征对初始生成预训练模型进行训练,生成标题生成模型。

其中,该装置800还包括:

文本获取模块26,用于获取至少两个待确定文本数据,获取每个待确定文本数据的阅读行为数据及文本标签信息;

样本选取模块27,用于从至少两个待确定文本数据中获取文本数据样本;文本数据样本的文本标签信息属于合法标签集合,且阅读行为数据满足阅读采集条件;

在获取第一关键词样本及第一关键词样本对应的第一标题样本方面,该样本获取模块24具体用于:

将文本数据样本中的文本关键词作为第一关键词样本,将文本数据样本的文本标题作为第一关键词样本对应的第一标题样本。

其中,在根据第一关键词样本及第一标题样本,生成第一样本特征方面,该样本获取模块24包括:

输入获取单元241,用于将第一关键词样本及第一标题样本拼接成第一输入样本,获取第一输入样本在词向量矩阵中的样本位置;

矩阵确定单元242,用于根据样本位置确定第一输入样本的样本位置矩阵;

位置向量确定单元243,用于获取组成第一输入样本的字符样本,获取字符样本在第一输入样本中的字符位置信息,获取字符位置信息对应的字符位置向量;

样本特征生成单元244,用于根据样本位置矩阵、词向量矩阵及字符位置向量,生成第一样本特征。

其中,该模型训练模块25,包括:

特征掩藏单元251,用于将第一样本特征输入初始生成预训练模型,基于初始生成预训练模型对第一样本特征中的待预测特征进行特征掩藏,对掩藏后的第一样本特征进行特征预测;待预测特征属于第一标题样本的特征;

模型调整单元252,用于根据待预测特征在初始生成预训练模型中对应的第二预测概率值,对初始生成预训练模型进行调整,生成标题生成模型。

其中,该模型训练模块25,包括:

第一训练单元253,用于将第一样本特征输入初始生成预训练模型进行预训练,生成预训练模型;

样本获取单元254,用于获取第二关键词样本及第二关键词样本对应的第二标题样本,根据第二关键词样本生成第二样本特征,根据第二关键词样本对应的第二标题样本生成样本标签;

第二训练单元255,用于根据第二样本特征及样本标签,对预训练模型进行调整,生成标题生成模型。

本申请实施例提供了一种标题生成装置,该装置通过对目标文本数据进行分词处理,得到组成目标文本数据的至少两个目标文本分词词组;根据至少两个目标文本分词词组的目标词组重要度,获取目标文本数据中的目标文本关键词,获取目标文本关键词的目标词组特征;将目标词组特征输入标题生成模型,基于标题生成模型对目标词组特征进行特征预测,得到预测语句集合,将预测语句集合中第一预测概率值最大的预测语句,作为目标文本数据的目标文本标题;推送携带目标文本标题的目标文本数据。通过模型对目标文本数据进行自动化分析处理,以得到该目标文本数据的目标文本标题,降低了人工成本,提高了文本标题的生成效率。同时,基于文本关键词对标题生成模型进行特征约束,提高了文本标题生成的准确性,而且本申请在获取用于训练模型的样本时,所选取的是既有权威性,又有高阅读行为数据的样本,提高了通过标题生成模型所预测的目标文本标题的可阅读性及可信度。

参见图9,图9是本申请实施例提供的一种计算机设备的结构示意图。如图9所示,本申请实施例中的计算机设备可以包括:一个或多个处理器901、存储器902和输入输出接口903。该处理器901、存储器902和输入输出接口903通过总线904连接。存储器902用于存储计算机程序,该计算机程序包括程序指令,输入输出接口903用于接收数据及输出数据,实现各个会议参与终端之间的数据交互,以及各个会议参与终端与会议计算机设备之间的数据交互;处理器901用于执行存储器902存储的程序指令,执行如下操作:

对目标文本数据进行分词处理,得到组成目标文本数据的至少两个目标文本分词词组;

根据至少两个目标文本分词词组的目标词组重要度,获取目标文本数据中的目标文本关键词,获取目标文本关键词的目标词组特征;

将目标词组特征输入标题生成模型,基于标题生成模型对目标词组特征进行特征预测,得到预测语句集合,将预测语句集合中第一预测概率值最大的预测语句,作为目标文本数据的目标文本标题;

推送携带目标文本标题的目标文本数据。

在一些可行的实施方式中,该处理器901可以是中央处理单元(centralprocessingunit,cpu),该处理器还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器902可以包括只读存储器和随机存取存储器,并向处理器901和输入输出接口903提供指令和数据。存储器902的一部分还可以包括非易失性随机存取存储器。例如,存储器902还可以存储设备类型的信息。

具体实现中,该计算机设备可通过其内置的各个功能模块执行如该图3中各个步骤所提供的实现方式,具体可参见该图3中各个步骤所提供的实现方式,在此不再赘述。

本申请实施例通过提供一种计算机设备,包括:处理器、输入输出接口、存储器,通过处理器获取存储器中的计算机指令,执行该图3中所示方法的各个步骤,进行标题生成操作。本申请实施例实现了对目标文本数据进行分词处理,得到组成目标文本数据的至少两个目标文本分词词组;根据至少两个目标文本分词词组的目标词组重要度,获取目标文本数据中的目标文本关键词,获取目标文本关键词的目标词组特征;将目标词组特征输入标题生成模型,基于标题生成模型对目标词组特征进行特征预测,得到预测语句集合,将预测语句集合中第一预测概率值最大的预测语句,作为目标文本数据的目标文本标题;推送携带目标文本标题的目标文本数据。通过模型对目标文本数据进行自动化分析处理,以得到该目标文本数据的目标文本标题,降低了人工成本,提高了文本标题的生成效率。同时,基于文本关键词对标题生成模型进行特征约束,提高了文本标题生成的准确性,而且本申请在获取用于训练模型的样本时,所选取的是既有权威性,又有高阅读行为数据的样本,提高了通过标题生成模型所预测的目标文本标题的可阅读性及可信度。

本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,当该程序指令被该处理器执行时,可以实现图3中各个步骤所提供的标题生成方法,具体可参见该图3中各个步骤所提供的实现方式,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,程序指令可被部署为在一个计算机设备上执行,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行。

该计算机可读存储介质可以是前述任一实施例提供的标题生成装置或者该计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图3中的各种可选方式中所提供的方法,通过标题生成模型,预测目标文本数据的目标文本标题,使得该文本标题的生成可以自动化执行,提高了文本标题的生成效率。

本申请实施例的说明书和权利要求书及附图中的术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在该说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。

以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1