基于数据追踪的新闻稿件画像生成方法和系统与流程

文档序号:30614019发布日期:2022-07-02 00:27阅读:来源:国知局

技术特征:
1.基于数据追踪的新闻稿件画像生成方法,其特征在于,所述生成方法包括以下步骤:s1,服务器启动,基于多种信息源进行新闻从业者和新闻用户数据追踪和与汇入,参照追踪和汇入的数据经过相似度计算,生成一篇新的新闻稿件,进而获取新闻稿件画像和用户画像,所述新闻稿件画像包括新闻稿件作者的写作风格和写作类型,所述用户画像包括用户姓名、用户年龄和用户评论;服务器通过传输组件进行新闻稿件文字的录入,同时载入数据库来辅助进行新闻稿件的撰写修改和生成,所述数据库包括专有新闻语料库、素材库和自定义时政热点词库;s2,基于新闻语料库对实时录入的新闻稿件文字进行时政专有名词提示,以提升新闻稿件用词的专业性和精准度,并给出文本修改建议;s3,基于素材库和自定义时政热点词库对实时录入的新闻稿件文字进行文本语法逻辑错误和字词错误检测,并给出文本修改建议;s4,对实时录入的新闻稿件文字进行标点符号错误检测,并给出标点修改建议;s5,对经过检测甄别修改后的新闻稿件文字进行敏感词汇检测过滤,并给出过滤修改建议;s6,对过滤后的新闻稿件文字进行同义词替换,以使新闻稿件文字更加精炼准确;s7,将上述步骤中的修改建议采纳存储在服务器的缓存器内以实时动态扩充历史库并提升服务器的自训练学习能力,同时将修改生成的新闻稿件通过通讯组件传输到终端设备。2.根据权利要求1所述的基于数据追踪的新闻稿件画像生成方法,其特征在于,基于素材库和自定义时政热点词库对实时录入的新闻稿件文字进行文本语法逻辑错误和字词错误检测,并给出文本修改建议包括以下步骤:s3.1,对录入的新闻稿件文字进行中文语言逻辑判定;s3.2,对录入的新闻稿件文字进行中文分词,对分词结果进行基于字粒度和词粒度的错误检测,并根据专有的自定义时政热点词库进行深度党政名词错误名词检测;s3.3,获取所有疑似错字错词的音似、形似、谐音和混淆音候选字词,并使用候选词对疑似错误进行内容替换,基于语言算法模型进行候选字词替换排序打分,只保留得分最高的最优纠正候选词;s3.4,实时动态扩充语料库和词表,并添加到语言算法模型,进而为新闻从业者提供文本修改建议。3.根据权利要求1所述的基于数据追踪的新闻稿件画像生成方法,其特征在于:所述传输组件包括扫描器和转换传输器,所述转换传输器的型号为bpc-817s,在转换传输器上设有4个引脚,所述转换传输器的一号引脚与扫描仪的输出端相连,在转换传输器的一号引脚和二号引脚之间设有相并联的第一电阻和第二电阻;在转换传输器的三号引脚通过第三电阻连接有三极管,在三极管的基极和发射极之间设有第五电阻,在三极管的发射极上通过通讯线与服务器相连;在转换传输器的四号引脚上通过相并联的第四电阻和第一二极管连接有电源。4.根据权利要求1所述的基于数据追踪的新闻稿件画像生成方法,其特征在于:所述通讯组件包括相配合设置的rs485通讯器、无线收发器和gprs通讯器,所述无线收发器的型号为esp8266,在无线收发器上设有8个引脚;所述gprs通讯器的型号为sim800c,在gprs通讯
器上设有42个引脚,在gprs通讯器的二号引脚和六号引脚之间设有相并连的第六电阻和第七电阻;所述gprs通讯器通过十五号引脚、十六号引脚、十七号引脚和十八号引脚连接有sim卡,在gprs通讯器的十五号引脚、十六号引脚和十七号引脚上分别设有第四电容、第五电容和第六电容,在gprs通讯器的十八号引脚上连接有第七电容;所述rs485通讯器的型号为sp3485,在rs485通讯器上设有8个引脚。5.基于数据追踪的新闻稿件画像生成系统,其特征在于,所述生成系统包括:输入模块,所述输入模块用于服务器启动通过传输组件进行新闻稿件文字的录入,同时载入数据库来辅助进行新闻稿件的撰写生成,所述数据库包括专有新闻语料库、素材库和自定义时政热点词库;第一文本修改模块,所述第一文本修改模块用于服务器基于新闻语料库对实时录入的新闻稿件文字进行时政专有名词提示,以提升新闻稿件用词的专业性和精准度,并给出文本修改建议;第二文本修改模块,所述第二文本修改模块用于服务器基于素材库和自定义时政热点词库对实时录入的新闻稿件文字进行文本语法逻辑错误和字词错误检测,并给出文本修改建议;标点修改模块,所述标点修改模块用于服务器对实时录入的新闻稿件文字进行标点符号错误检测,并给出标点修改建议;过滤修改模块,所述过滤修改模块用于服务器对经过检测甄别修改后的新闻稿件文字进行敏感词汇检测过滤,并给出过滤修改建议;替换模块,所述替换模块用于服务器对过滤后的新闻稿件文字进行同义词替换,以使新闻稿件文字更加精炼准确;执行模块,所述执行模块用于服务器将上述步骤中的修改建议采纳存储在服务器的缓存器内以实时动态扩充历史库并提升服务器的自训练学习能力,同时将修改生成的新闻稿件通过通讯组件传输到终端设备。6.根据权利要求5所述的基于数据追踪的新闻稿件画像生成系统,其特征在于,所述第二文本修改模块包括:逻辑判定模块,所述逻辑判定模块用于服务器对录入的新闻稿件文字进行中文语言逻辑判定;检测模块,所述检测模块用于服务器对录入的新闻稿件文字进行中文分词,对分词结果进行基于字粒度和词粒度的错误检测,并根据专有的自定义时政热点词库进行深度党政名词错误名词检测;评估模块,所述评估模块用于服务器获取所有疑似错字错词的音似、形似、谐音和混淆音候选字词,并使用候选词对疑似错误进行内容替换,基于语言算法模型进行候选字词替换排序打分,只保留得分最高的最优纠正候选词;建模模块,所述建模模块用于服务器实时动态扩充语料库和词表,并添加到语言算法模型,进而为新闻从业者提供文本修改建议。

技术总结
基于数据追踪的新闻稿件画像生成方法,所述生成方法包括以下步骤:服务器启动,基于多种信息源进行新闻从业者和新闻用户数据追踪和与汇入,参照追踪和汇入的数据经过相似度计算,生成一篇新的新闻稿件,进而获取新闻稿件画像和用户画像,所述新闻稿件画像包括新闻稿件作者的写作风格和写作类型,所述用户画像包括用户姓名、用户年龄和用户评论;服务器通过传输组件进行新闻稿件文字的录入,同时载入数据库来辅助进行新闻稿件的撰写修改和生成,所述数据库包括专有新闻语料库、素材库和自定义时政热点词库。时政热点词库。时政热点词库。


技术研发人员:矫娟 魏传强 吕冰 郭强 宋耀 司君波
受保护的技术使用者:山东齐鲁壹点传媒有限公司
技术研发日:2022.03.31
技术公布日:2022/7/1
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1