一种文本焦点分析方法和系统与流程

文档序号:28118372发布日期:2021-12-22 14:55阅读:来源:国知局

技术特征:
1.一种文本焦点分析方法,包括:获取一个或多个文本;确定所述一个或多个文本包括的至少部分单词对应的至少一个焦点词,并将所述单词替换为对应的所述焦点词,得到所述一个或多个文本对应的一个或多个处理后文本;获取多个主题类别对应的多个主题表示,所述多个主题表示中的每一个表示多个单词在对应主题类别中的概率分布,所述多个单词至少包括所述至少一个焦点词;获取每个所述处理后文本关于所述多个主题类别的主题概率分布;基于所述主题概率分布和所述多个主题表示,得到每个所述文本关于至少一个文本焦点的文本焦点分布,其中,以所述至少一个焦点词作为所述至少一个文本焦点。2.如权利要求1所述的方法,所述基于所述主题概率分布和所述多个主题表示,得到每个所述文本中关于至少一个文本焦点的文本焦点分布,其中,以所述至少一个焦点词作为所述至少一个文本焦点包括:对于一个所述焦点词:基于所述焦点词的多个参考概率之和确定所述焦点词作为所述文本焦点在一个所述文本中的概率;其中,所述多个参考概率与所述多个主题类别对应,每一个所述参考概率基于第一概率和第二概率的乘积确定;所述第一概率为所述文本对应的所述处理后文本的所述主题概率分布中对应主题类别的概率;所述第二概率为对应所述主题类别对应的所述主题表示中所述焦点词的概率。3.如权利要求1所述的方法,所述主题概率分布基于主题先验分布确定,所述主题先验分布为狄利克雷(dirichlet)分布。4.如权利要求1所述的方法,所述主题表示基于词先验分布确定,所述词先验分布为狄利克雷(dirichlet)分布。5.如权利要求1所述的方法,所述获取多个主题类别对应的多个主题表示,以及获取每个所述处理后文本关于所述多个主题类别的主题概率分布包括:基于所述一个或多个处理后文本,通过主题模型得到所述多个主题类别对应的多个主题表示和每个所述处理后文本关于所述多个主题类别的所述主题概率分布。6.如权利要求1所述的方法,所述获取多个主题类别对应的多个主题表示,以及获取每个所述处理后文本关于所述多个主题类别的主题概率分布包括:获取至少一个训练文本,并基于所述至少一个训练文本,通过主题模型得到所述多个主题类别对应的多个主题表示;基于所述一个或多个处理后文本和获取的所述多个主题表示,通过所述主题模型得到每个所述处理后文本关于所述多个主题类别的所述主题概率分布。7.如权利要求6所述的方法,所述获取至少一个训练文本包括:获取至少一个文本语料;将所述至少一个文本语料中的至少部分单词替换为对应的所述焦点词,得到包括所述至少一个焦点词的所述至少一个训练文本。8.如权利要求1或7所述的方法,所述单词对应的所述焦点词的确定方法包括:确定所述单词与所述至少一个焦点词的相似度,基于所述相似度确定与所述单词对应
的所述焦点词。9.一种文本焦点分析系统,包括:第一获取模块,用于获取一个或多个文本;文本处理模块,用于确定所述一个或多个文本包括的至少部分单词对应的至少一个焦点词,并将所述单词替换为对应的所述焦点词,得到所述一个或多个文本对应的一个或多个处理后文本;主题获取模块,用于获取多个主题类别对应的多个主题表示,所述多个主题表示中的每一个表示多个单词在对应主题类别中的概率分布,所述多个单词至少包括所述至少一个焦点词;以及获取每个所述处理后文本关于所述多个主题类别的主题概率分布;文本焦点分布确定模块,用于基于所述主题概率分布和所述多个主题表示,得到每个所述文本关于至少一个文本焦点的文本焦点分布,其中,以所述至少一个焦点词作为所述至少一个文本焦点。10.如权利要求9所述的系统,所述文本焦点分布确定模块还用于:对于一个所述焦点词:基于所述焦点词的多个参考概率之和确定所述焦点词作为所述文本焦点在一个所述文本中的概率;其中,所述多个参考概率与所述多个主题类别对应,每一个所述参考概率基于第一概率和第二概率的乘积确定;所述第一概率为所述文本对应的所述处理后文本的所述主题概率分布中对应主题类别的概率;所述第二概率为对应所述主题类别对应的所述主题表示中所述焦点词的概率。11.如权利要求9所述的系统,所述主题概率分布基于主题先验分布确定,所述主题先验分布为狄利克雷(dirichlet)分布。12.如权利要求9所述的系统,所述主题表示基于词先验分布确定,所述词先验分布为狄利克雷(dirichlet)分布。13.如权利要求9所述的系统,所述主题获取模块还用于:基于所述一个或多个处理后文本,通过主题模型得到所述多个主题类别对应的多个主题表示和每个所述处理后文本关于所述多个主题类别的所述主题概率分布。14.如权利要求9所述的系统,所述主题获取模块还用于:基于至少一个训练文本,通过主题模型得到所述多个主题类别对应的多个主题表示;基于所述一个或多个处理后文本和获取的所述多个主题表示,通过主题模型得到每个所述处理后文本关于所述多个主题类别的所述主题概率分布。15.如权利要求14所述的系统,还包括第二获取模块,用于:获取至少一个文本语料;将所述至少一个文本语料中的至少部分单词替换为对应的所述焦点词,得到包括所述至少一个焦点词的所述至少一个训练文本。16.如权利要求9或15所述的系统,所述文本处理模块和所述第二获取模块还用于:确定所述单词与所述至少一个焦点词的相似度,基于所述相似度确定与所述单词对应的所述焦点词。17.一种文本焦点分析装置,包括至少一个存储介质和至少一个处理器,所述至少一个
存储介质用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令以实现如权利要求1

8中任一项所述的方法。

技术总结
本说明书实施例提供了一种文本焦点分析方法和系统,方法包括:获取一个或多个文本;确定一个或多个文本包括的至少部分单词对应的至少一个焦点词,并将单词替换为对应的焦点词,得到一个或多个文本对应的一个或多个处理后文本;获取多个主题类别对应的多个主题表示,多个主题表示中的每一个表示多个单词在对应主题类别中的概率分布,多个单词至少包括至少一个焦点词;以及获取每个处理后文本关于多个主题类别的主题概率分布;基于主题概率分布和多个主题表示,得到至少一个焦点词作为至少一个文本焦点在每个文本中的文本焦点分布。一个文本焦点在每个文本中的文本焦点分布。一个文本焦点在每个文本中的文本焦点分布。


技术研发人员:吴欣辉 张锐汀
受保护的技术使用者:支付宝(杭州)信息技术有限公司
技术研发日:2021.09.18
技术公布日:2021/12/21
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1