本申请涉及计算机技术领域,具体涉及计算机网络技术领域,尤其涉及用于生成文章的方法和装置。
背景技术:
目前,通过机器实现自动化写作,从而生成文章的方式,基本停留在特殊领域的特殊题材,多是采用将素材填入规则或模板的技术来生成文章。例如,可以筛选原始文章后直接引用;或者,对原始文章进行简单的变换直接发布;或者,将原始文章以一定的顺序进行组合和摘要提取;又或者,通过模板对数据进行组织并展现。
然而,目前的生成文章的方式,由于题材和方法的限制,产出的文章形式和内容比较单调,并且行文可能出现前后逻辑不合理、文法风格不一致等情况,机器写作的痕迹较重。
技术实现要素:
本申请的目的在于提出一种改进的用于生成文章的方法和装置,来解决以上背景技术部分提到的技术问题。
第一方面,本申请实施例提供了一种用于生成文章的方法,方法包括:基于输入的文章主题和以下任意一项生成文章提纲:提纲模型,根据对应文章主题的用户行为数据建立的提纲数据库,以及人工设定的提纲;从预先建立的素材库中,提取与文章提纲的特征相关联的素材;向文章提纲中,插入提取的素材,得到生成的文章。
在一些实施例中,根据对应文章主题的用户行为数据建立的提纲数据库包括:检索全网围绕文章主题的子主题,建立子主题数据库;根据用户对子主题数据库中的子主题的点击顺序和/或子主题数据库中的子主题的语义递进顺序,排序子主题数据库中的子主题;剔除子主题数据库中不符合预定逻辑规则的子主题,得到符合预定逻辑规则的子主题;将各符合预定逻辑规则的子主题作为提纲,得到提纲数据库。
在一些实施例中,预先建立的素材库通过以下步骤建立:获取素材的特征,素材为将现有的文章的内容根据筛选规则筛选得到和/或变换现有的文章的内容得到;根据素材的特征建立索引结构,得到素材库。
在一些实施例中,方法还包括:对生成的文章进行优化处理,得到优化后的生成的文章,优化处理包括以下一项或多项:润色处理、插入富媒体数据处理以及排版优化处理。
在一些实施例中,润色处理包括以下一项或多项:统一生成的文章的文法风格;删除与前后语句不连贯的语句;以及替换与前后语句不连贯的语句。
在一些实施例中,插入富媒体数据处理包括:从预先建立的资源库,提取与生成的文章的特征相关联的富媒体数据;向生成的文章中,插入提取的富媒体数据。
在一些实施例中,从预先建立的资源库,提取与生成的文章的特征相关联的富媒体数据包括:根据以下一项或多项从预先建立的资源库中提取富媒体数据生成候选富媒体列表:文章主题、文章提纲、生成的文章的各段落的摘要以及生成的文章的各段落的关键词;采用质量筛选从候选富媒体列表中提取与生成的文章的特征相关联的富媒体数据。
在一些实施例中,预先建立的资源库通过以下步骤建立:获取富媒体数据的特征;根据富媒体数据的特征建立索引结构,得到资源库。
在一些实施例中,质量筛选根据以下一项或多项进行:图文相关性、图片分辨率、图片长宽比、图片来源权威度、广告过滤策略、反作弊过滤策略、反黄过滤策略和水印过滤策略。
在一些实施例中,方法还包括:将文章主题和文章提纲输入标题模型,得到生成的文章的标题。
在一些实施例中,方法还包括:对标题中的核心词进行属性扩展;对属性扩展后的标题中的核心词进行替换和改写,得到更新后的标题。
第二方面,本申请实施例提供了一种用于生成文章的装置,装置包括:提纲生成单元,用于基于输入的文章主题和以下任意一项生成文章提纲:提纲模型,根据对应文章主题的用户行为数据建立的提纲数据库,以及人工设定的提纲;素材提取单元,用于从预先建立的素材库中,提取与文章提纲的特征相关联的素材;素材插入单元,用于向文章提纲中,插入提取的素材,得到生成的文章。
在一些实施例中,提纲生成单元中的根据对应文章主题的用户行为数据建立的提纲数据库包括:检索全网围绕文章主题的子主题,建立子主题数据库;根据用户对子主题数据库中的子主题的点击顺序和/或子主题数据库中的子主题的语义递进顺序,排序子主题数据库中的子主题;剔除子主题数据库中不符合预定逻辑规则的子主题,得到符合预定逻辑规则的子主题;将各符合预定逻辑规则的子主题作为提纲,得到提纲数据库。
在一些实施例中,素材提取单元中的预先建立的素材库通过以下步骤建立:获取素材的特征,素材为将现有的文章的内容根据筛选规则筛选得到和/或变换现有的文章的内容得到;根据素材的特征建立索引结构,得到素材库。
在一些实施例中,装置还包括:文章优化单元,用于对生成的文章进行优化处理,得到优化后的生成的文章,优化处理包括以下一项或多项:润色处理、插入富媒体数据处理以及排版优化处理。
在一些实施例中,文章优化单元中的润色处理包括以下一项或多项:统一生成的文章的文法风格;删除与前后语句不连贯的语句;以及替换与前后语句不连贯的语句。
在一些实施例中,文章优化单元中的插入富媒体数据处理包括:从预先建立的资源库,提取与生成的文章的特征相关联的富媒体数据;向生成的文章中,插入提取的富媒体数据。
在一些实施例中,文章优化单元中的从预先建立的资源库,提取与生成的文章的特征相关联的富媒体数据包括:根据以下一项或多项从预先建立的资源库中提取富媒体数据生成候选富媒体列表:文章主题、文章提纲、生成的文章的各段落的摘要以及生成的文章的各段落的关键词;采用质量筛选从候选富媒体列表中提取与生成的文章的特征相关联的富媒体数据。
在一些实施例中,文章优化单元中的预先建立的资源库通过以下步骤建立:获取富媒体数据的特征;根据富媒体数据的特征建立索引结构,得到资源库。
在一些实施例中,文章优化单元中的质量筛选根据以下一项或多项进行:图文相关性、图片分辨率、图片长宽比、图片来源权威度、广告过滤策略、反作弊过滤策略、反黄过滤策略和水印过滤策略。
在一些实施例中,装置还包括:标题生成单元,用于将文章主题和文章提纲输入标题模型,得到生成的文章的标题。
在一些实施例中,装置还包括:属性扩展单元,用于对标题中的核心词进行属性扩展;标题更新单元,用于对属性扩展后的标题中的核心词进行替换和改写,得到更新后的标题。
第三方面,本申请实施例提供了一种设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上任一所述的用于生成文章的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上任一所述的用于生成文章的方法。
本申请实施例提供的用于生成文章的方法和装置,首先基于输入的文章主题和以下任意一项生成文章提纲:提纲模型;根据对应文章主题的用户行为数据建立的提纲数据库;以及人工设定的提纲;之后,从预先建立的素材库中,提取与文章提纲的特征相关联的素材;之后,向文章提纲中,插入提取的素材,得到生成的文章。本实施例实现了根据输入的文章主题生成提纲,提高了文章提纲的质量,保证了生成的文章的行文逻辑合理、形式丰富,并根据文章提纲插入与文章提纲的特征相关联的素材,丰富了文章的内容,从而使得生成的文章逻辑合理并且内容丰富。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是根据本申请的用于生成文章的方法的一个实施例的示意性流程图;
图2是根据本申请的用于生成文章的方法的又一个实施例的示意性流程图;
图3是应用本申请的用于生成文章的方法的一个实施例的示例性应用场景;
图4是根据本申请的用于生成文章的装置的一个实施例的示例性结构图;
图5是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了根据本申请的用于生成文章的方法的一个实施例的流程100。该用于生成文章的方法包括:
在步骤110中,基于输入的文章主题和以下任意一项生成文章提纲:提纲模型;根据对应文章主题的用户行为数据建立的提纲数据库;以及人工设定的提纲。
在本实施例中,输入的文章主题可以为机器挖掘或人工输入的文章主题。
提纲模型通常是指以文章主题为自变量的函数。首先,可以设定文章模型=f(主题,提纲,素材),也即文章模型由函数f中的自变量(主题、提纲和素材)得到,并借由该文章模型,可以得到一种用于生成文章的方法,即选定主题,通过提纲模型挖掘提纲并排序,通过素材库来挂载素材;最后通过配图、排版和润色得到文章。
根据对应文章主题的用户行为数据建立的提纲数据库是指从文章主题角度确定文章目录,并根据用户行为数据对文章目录进行合理排序和筛选,得到提纲数据库。应当理解,这里的提纲生成策略生成的提纲具有一定的逻辑顺序,以保障行文的合理性。
在本实施例的一些可选实现方式中,上述的根据对应所述文章主题的用户行为数据建立的提纲数据库包括:检索全网围绕文章主题的子主题,建立子主题数据库;根据用户对子主题数据库中的子主题的点击顺序和/或子主题数据库中的子主题的语义递进顺序,排序子主题数据库中的子主题;剔除子主题数据库中不符合预定逻辑规则的子主题,得到符合预定逻辑规则的子主题;将各符合预定逻辑规则的子主题作为提纲,得到提纲数据库。
在本实现方式中,根据对应所述文章主题的用户行为数据建立的提纲数据库,充分考虑了用户的行为数据来建立提纲,可以提高建立的提纲的针对性,进而增强了生成的文章与用户的交互能力。
在步骤120中,从预先建立的素材库中,提取与文章提纲的特征相关联的素材。
在本实施例中,预先建立的素材库,是指根据素材的特征建立索引结构得到的素材库。当素材的特征与文章提纲的特征相关联时,可以提取该素材以备后续使用。当多个素材的特征均与文章提纲的特征相关联时,可以从多个素材中,提取特征与文章提纲的特征最为相关的预定数量个素材,以备后续使用。
在本实施例的一些可选实现方式中,预先建立的素材库通过以下步骤建立:获取素材的特征,素材为将现有的文章的内容根据筛选规则筛选得到和/或变换现有的文章的内容得到;根据素材的特征建立索引结构,得到素材库。
在本实现方式中,素材库的生成包括有明确主题的素材和无明确主题的素材,后者需要使用文章摘要技术提取主题。获取素材的特征,可以理解为从文本素材中提取特征,这些特征可以说明文本素材的主题、关键词、核心语义等信息,用于和文章提纲、文章主题进行相关性计算和排序。
具体地,上述的根据筛选规则筛选得到可以包括根据以下一项或多项内容进行筛选:文章的内容长度、文章的内容质量评分、文章的内容满意度评分、文章的浏览量、文章的时效性等等。而上述的变换现有的文章内容主要是为了控制素材的粒度,可以采用预定规则来完成变换。例如,将字数大于预定值的段落进行拆解分段。假设一个素材是一篇原始语料,筛选后根据提纲排序组合就可以了;假设一个素材是一段,就需要考虑段落的主题相关性、段落间排序等;同理,还可以假设素材是一句话、一个词,当素材的粒度越小时,拆解和/或变换的难度越大。
在步骤130中,向文章提纲中,插入提取的素材,得到生成的文章。
在本实施例中,可以向步骤110中得到的文章提纲中,插入步骤120中提取的素材,从而得到生成的文章。
本申请的上述实施例提供的用于生成文章的方法,通过生成文章提纲,提取与文章提纲的特征相关联的素材,插入提取的素材,得到生成的文章,可以根据输入的文章主题生成文章提纲,并且插入文章提纲的素材极为丰富,因此生成的文章的逻辑顺序合理、形式和内容更为丰富,接近于专业人士写的文章,从而摒弃了目前机器写作的局限性。
进一步参考图2,图2示出了根据本申请的用于生成文章的方法的又一个实施例的示意性流程图。该用于生成文章的方法200包括:
在步骤210中,基于输入的文章主题和以下任意一项生成文章提纲:提纲模型;根据对应文章主题的用户行为数据建立的提纲数据库;以及人工设定的提纲。
在本实施例中,在本实施例中,输入的文章主题可以为机器挖掘或人工输入的文章主题。
提纲模型通常是指以文章主题为自变量的函数。首先,可以设定文章模型=f(主题,提纲,素材),也即文章模型由函数f中的自变量(主题、提纲和素材)得到,并借由该文章模型,可以得到一种用于生成文章的方法,即选定主题,通过提纲模型挖掘提纲并排序,通过素材库来挂载素材;最后通过配图、排版和润色得到文章。
根据对应文章主题的用户行为数据建立的提纲数据库是指从文章主题角度确定文章目录,并根据用户行为数据对文章目录进行合理排序和筛选,得到提纲数据库。应当理解,这里的提纲生成策略生成的提纲具有一定的逻辑顺序,以保障行文的合理性。
在步骤220中,从预先建立的素材库中,提取与文章提纲的特征相关联的素材。
在本实施例中,预先建立的素材库,是指根据素材的特征建立索引结构得到的素材库。当素材的特征与文章提纲的特征相关联时,可以提取该素材以备后续使用。当多个素材的特征均与文章提纲的特征相关联时,可以从多个素材中,提取特征与文章提纲的特征最为相关的预定数量个素材,以备后续使用。
在步骤230中,向文章提纲中,插入提取的素材,得到生成的文章。
在本实施例中,可以向步骤210中得到的文章提纲中,插入步骤220中提取的素材,从而得到初具雏形的生成的文章。
在步骤240中,对生成的文章进行优化处理,得到优化后的生成的文章。
在本实施例中,优化处理包括以下一项或多项:润色处理、插入富媒体数据处理以及排版优化处理。
对于生成的文章,由于素材库中存在不同的文法风格的素材,并且前后连接处可能并不连贯,因此可以对生成的文章进行润色处理,也即对文章的文法风格和语句等进行处理。这里的文法,即文章的书写法规,一般用来指以文字、词语、短句、句子的编排而组成的完整语句和文章的合理性组织。这里的风格,是指具有独特于其他文章的表现,带有综合性的总体特点。
在本实施例的一些可选实现方式中,进行润色处理包括以下一项或多项:统一生成的文章的文法风格;删除与前后语句不连贯的语句;以及替换与前后语句不连贯的语句。
在本实现方式中,统一生成的文章的文法风格,可以通过对于特定词汇、特定句式的替换和变换实现,从而使得文章的文法风格一致。而删除与前后语句不连贯的语句,或者替换与前后语句不连贯的语句,均可改善语句的不连贯现象。
在本实施例的一些可选实现方式中,插入富媒体数据处理包括:从预先建立的资源库,提取与生成的文章的特征相关联的富媒体数据,向生成的文章中,插入提取的富媒体数据。
在本实施例中,向生成的文章中,插入提取的富媒体数据包括:首先根据主题、提纲、段落摘要和关键词中的一项或多项查找富媒体数据,之后通过质量筛选挑选出优质富媒体数据库,并根据图片间字数或段落数,保证插入的富媒体数据相对均匀。例如,若文章中有两张图之间1000字,而另外两个图间10个字,那么插入的富媒体数据不均匀,并不符合用户群体的阅读习惯。富媒体数据为可以包含流媒体、声音、flash、以及java、javascript、动态的html等程序设计语言的形式之一或者几种的组合。富媒体数据可以应用于各种网络服务中,如网站设计、电子邮件、网站页面的横幅、按钮、弹出式广告、插播式广告等。应当理解,富媒体数据可以加强信息,而信息更准确的定向会具有更好的交互效果。
在本实施例的一些可选实现方式中,从预先建立的资源库,提取与润色后的文章的特征相关联的富媒体数据包括:根据以下一项或多项从预先建立的资源库中提取富媒体数据生成候选富媒体列表:文章主题、文章提纲、润色后的文章的各段落的摘要以及润色后的文章的各段落的关键词;采用质量筛选从候选富媒体列表中提取与润色后的文章的特征相关联的富媒体数据。
在本实现方式中,通过根据文章主题、文章提纲、润色后的文章的各段落的摘要以及润色后的文章的各段落的关键词中的一项或多项提取富媒体数据,生成富媒体列表;之后采用质量筛选从富媒体列表中提取与润色后的文章的特征相关联的富媒体数据,可以提高资源库中的富媒体数据的质量。
在本实施例的一些可选实现方式中,预先建立的资源库可以通过以下步骤建立:获取富媒体数据的特征;根据富媒体数据的特征建立索引结构,得到资源库。
在本实施例的一些可选实现方式中,上述的质量筛选可以根据以下一项或多项进行:图文相关性、图片分辨率、图片长宽比、图片来源权威度、广告过滤策略、反作弊过滤策略、反黄过滤策略和水印过滤策略。
在本实现方式中,广告过滤策略可以包括广告过滤规则和广告过滤模型;反作弊过滤策略可以包括反作弊过滤规则和反作弊过滤模型;反黄过滤策略可以包括反黄过滤规则和反黄过滤模型;水印过滤策略则可以包括水印过滤策略和水印过滤模型。
在本实施例中,排版优化处理可以采用现有技术或未来发展的技术中的排版优化方法来完成,本申请对此不做限定。例如,排版优化处理可以为在确定各种需要呈现的文章内容之后,选择需要重点突出的内容,最后搭配恰当的颜色版式,从而得到优化后的文章。这里的排版优化处理,也可以根据对文章样本数据和用户针对文章样本数据的行为数据的分析结果来确定与生成的文章相适应的排版,从而得到优化后的文章。
在步骤250中,将文章主题和文章提纲输入标题模型,生成文章的标题。
在本实施例中,在得到生成的文章之后,可以将文章主题和文章提纲输入标题模型,以便生成文章的主题。这里的标题模型,是自变量为文章主题和文章提纲的函数,当接收到文章主题和文章提纲时,根据该函数即可输出文章的主题。例如,可以为机器根据现有的文章样本中包括的文章主题、文章提纲和文章的标题学习得到的标题模型,也可以为人为设定的标题模型。
在本实施例的一些可选实现方式中,方法还包括:对标题中的核心词进行属性扩展;对属性扩展后的标题中的核心词进行替换和改写,得到更新后的标题。
在本实现方式中,可以首先挖掘标题中的核心词,之后对核心词进行属性扩展,再对属性扩展后的标题中的核心词进行替换和改写,得到更新后的标题。例如,对于皇帝xxx的介绍,挖掘出标题中的核心词为xxx,之后可以得到xxx的属性是放牛娃出身的皇帝,因此可以将皇帝xxx的介绍替换和改写为:放牛娃出身的皇帝是谁?
应当理解,上述图2中的描述仅为本申请实施例的用于生成文章的方法的一个示例性描述,并不代表对本申请的限定。例如,本申请实施例中的用于生成文章的方法,也可以不包括上述步骤240,或者不包括上述步骤250,从而得到新的用于生成文章的方法。图2中的步骤210、步骤220和步骤230分别与图1中的步骤110、步骤120和步骤130相对应,因此,图1中针对步骤110、步骤120和步骤130描述的操作和特征同样适用于步骤210、步骤220和步骤230,在此不再赘述。
本申请的上述实施例提供的用于生成文章的方法,通过与图1中描述的用于生成文章的方法相比,增加了步骤240和步骤250,根据步骤240和步骤250,可以得到优化后的生成的文章以及得到生成的文章的标题,从而使得生成的文章的内容更为全面,包含的信息更为丰富,文章的标题更具有吸引力,并且文章的内容和标题更为适应用户群体的阅读习惯。
以下结合图3,描述本申请实施例的用于生成文章的方法的一个示例性应用场景。
如图3所示,根据本申请实施例的用于生成文章的方法,首先,根据输入的文章主题310的具体实施例311“诸葛亮称帝”,可以生成文章提纲320的具体实施例,也即包括提纲321:刘备托孤时为什么让诸葛亮称帝;提纲322:诸葛亮为什么不称帝;以及提纲323:诸葛亮如果称帝会怎么样。之后,从预先建立的素材库中,提取与文章提纲321至323的特征相关联的素材330,包括以下素材:素材331“政权问题”、素材332“欲擒故纵”、素材333“明智决定”、素材334“文人是造不了反的”、素材335“集团外部的阻力”、素材336“集团内部的阻力”、素材337“外部方面的阻力”、素材338“兵民厌战”以及素材339“最关键的一点”。之后,向文章提纲中,插入提取的素材330(包括素材331-339),得到生成的文章。之后,对生成的文章进行润色340,具体包括在步骤341中,统一文章的文风,以及在步骤342中,连贯语句,得到润色后的文章。然后,从预先建立的资源库,提取与润色后的文章的特征相关联的富媒体350,包括标号为351的图片1、标号为352的图片2以及标号为353的图片3。之后,向润色后的文章中,插入提取的富媒体350(包括富媒体351-353),得到插入富媒体后的文章;之后,在标题360的生成步骤,将文章主题和文章提纲输入标题模型,得到初始标题,并对初始标题中的核心词进行属性扩展,对属性扩展后的初始标题中的核心词进行替换和改写,得到更新后的标题361“有颜有实力,集尽万千追捧的男神为何终未加冕?”。之后,在排版370的处理步骤中,对插入富媒体后的文章进行排版优化处理,例如进行具体操作371,突出重点,并进行颜色版式调整,从而得到排版优化后的文章。最后,在输出380的处理步骤中,可以具体进行操作381,输出排版优化后的文章。
本申请的上述应用场景中提供的用于生成文章的方法,提高了文章的生成效率,并丰富了文章的内容,使得生成的文章的行文与现有技术相比,前后逻辑、文法风格一致,形式、内容更为丰富且更为合理。
进一步参考图4,作为对上述方法的实现,本申请实施例提供了一种用于生成文章的装置的一个实施例,该用于生成文章的方法的实施例与图1至图3所示的用于生成文章的方法的实施例相对应,由此,上文针对图1至图3中用于生成文章的方法描述的操作和特征同样适用于用于生成文章的装置400及其中包含的单元,在此不再赘述。
如图4所示,该配置用于生成文章的装置400包括:提纲生成单元410,用于基于输入的文章主题和以下任意一项生成文章提纲:提纲模型;根据对应文章主题的用户行为数据建立的提纲数据库;以及人工设定的提纲;素材提取单元420,用于从预先建立的素材库中,提取与文章提纲的特征相关联的素材;素材插入单元430,用于向文章提纲中,插入提取的素材,得到生成的文章。
在一些实施例中,提纲生成单元中的根据对应文章主题的用户行为数据建立的提纲数据库包括:检索全网围绕文章主题的子主题,建立子主题数据库;根据用户对子主题数据库中的子主题的点击顺序和/或子主题数据库中的子主题的语义递进顺序,排序子主题数据库中的子主题;剔除子主题数据库中不符合预定逻辑规则的子主题,得到符合预定逻辑规则的子主题;将各符合预定逻辑规则的子主题作为提纲,得到提纲数据库。
在一些实施例中,素材提取单元中的预先建立的素材库通过以下步骤建立:获取素材的特征,素材为将现有的文章的内容根据筛选规则筛选得到和/或变换现有的文章的内容得到;根据素材的特征建立索引结构,得到素材库。
在一些实施例中,装置还包括:文章优化单元440,用于对生成的文章进行优化处理,得到优化后的生成的文章,优化处理包括以下一项或多项:润色处理、插入富媒体数据处理以及排版优化处理。
在一些实施例中,文章优化单元440中的润色处理包括以下一项或多项:统一生成的文章的文法风格;删除与前后语句不连贯的语句;以及替换与前后语句不连贯的语句。
在一些实施例中,文章优化单元440中的插入富媒体数据处理包括:从预先建立的资源库,提取与生成的文章的特征相关联的富媒体数据;向生成的文章中,插入提取的富媒体数据。
在一些实施例中,文章优化单元440中的从预先建立的资源库,提取与生成的文章的特征相关联的富媒体数据包括:根据以下一项或多项从预先建立的资源库中提取富媒体数据生成候选富媒体列表:文章主题、文章提纲、生成的文章的各段落的摘要以及生成的文章的各段落的关键词;采用质量筛选从候选富媒体列表中提取与生成的文章的特征相关联的富媒体数据。
在一些实施例中,文章优化单元440中的预先建立的资源库通过以下步骤建立:获取富媒体数据的特征;根据富媒体数据的特征建立索引结构,得到资源库。
在一些实施例中,文章优化单元440中的质量筛选根据以下一项或多项进行:图文相关性、图片分辨率、图片长宽比、图片来源权威度、广告过滤策略、反作弊过滤策略、反黄过滤策略和水印过滤策略。
在一些实施例中,装置还包括:标题生成单元450,用于将文章主题和文章提纲输入标题模型,得到生成的文章的标题。
在一些实施例中,装置还包括:属性扩展单元(图中未示出),用于对标题中的核心词进行属性扩展;标题更新单元(图中未示出),用于对属性扩展后的标题中的核心词进行替换和改写,得到更新后的标题。
本申请还提供了一种设备的实施例,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上任一所述的用于生成文章的方法。
本申请还提供了一种计算机可读存储介质的实施例,其上存储有计算机程序,该程序被处理器执行时实现如上任一所述的用于生成文章的方法。
下面参考图5,其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统500的结构示意图。图5示出的终端设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(cpu)501,其可以根据存储在只读存储器(rom)502中的程序或者从存储部分508加载到随机访问存储器(ram)503中的程序而执行各种适当的动作和处理。在ram503中,还存储有系统500操作所需的各种程序和数据。cpu501、rom502以及ram503通过总线504彼此相连。输入/输出(i/o)接口505也连接至总线504。
以下部件连接至i/o接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至i/o接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(cpu)501执行时,执行本申请的方法中限定的上述功能。
需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个单元、程序段、或代码的一部分,所述单元、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括提纲生成单元、素材提取单元、素材插入单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,提纲生成单元还可以被描述为“基于输入的文章主题和提纲生成策略,生成文章提纲的单元”。
作为另一方面,本申请还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质;也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当所述一个或者多个程序被一个设备执行时,使得所述设备:基于输入的文章主题和以下任意一项生成文章提纲:提纲模型;根据对应文章主题的用户行为数据建立的提纲数据库;以及人工设定的提纲;从预先建立的素材库中,提取与文章提纲的特征相关联的素材;向文章提纲中,插入提取的素材,得到生成的文章。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。