提取热词的方法、系统、电子设备及介质与流程

文档序号:23262704发布日期:2020-12-11 18:52阅读:来源:国知局

技术特征:

1.一种提取热词的方法,其特征在于,包括:

确定目标视频帧中的目标标识,并获取与所述目标标识相对应的目标页面;

通过对所述目标页面解析处理,得到所述目标页面中的目标内容;

基于所述目标内容,确定所述目标视频帧所属目标视频的至少一个热词词汇。

2.根据权利要求1所述的方法,其特征在于,在所述确定目标视频帧中的目标标识之前,还包括:

当检测到触发目标控件时,依次获取目标视频中的视频帧,并从所获取到的视频帧中确定出所述目标视频帧。

3.根据权利要求1所述的方法,其特征在于,所述目标标识包括目标网页地址,所述确定目标视频帧中的目标标识,并获取与所述目标标识相对应的目标页面,包括:

获取所述目标视频帧中的至少一个网页地址,并从所述至少一个网页地址中确定目标网页地址;

爬取与所述目标网页地址关联的网页页面,基于所述网页页面生成所述目标页面。

4.根据权利要求3所述的方法,其特征在于,所述获取所述目标视频帧帧中的至少一个网页地址,包括:

根据预先设置的预设区域,从所述预设区域中识别出所述至少一个网页地址。

5.根据权利要求3所述的方法,其特征在于,所述从所述至少一个网页地址中确定目标网页地址,包括:

基于已爬取网页地址集合,从所述至少一个网页地址中确定未被爬取到的未爬取网页地址;

基于所述未爬取网页地址,生成所述目标网页地址。

6.根据权利要求1所述的方法,其特征在于,所述通过对所述目标页面解析处理,得到所述目标页面中的目标内容,包括:

对所述目标页面进行解析处理,得到所述目标页面中的待处理内容;

剔除所述待处理内容中的预设字符,并将剩余的内容作为与所述待处理内容对应的有效内容,基于所述有效内容生成所述目标内容。

7.根据权利要求1所述的方法,其特征在于,所述基于所述目标内容,确定所述目标视频帧所属目标视频的至少一个热词词汇,包括:

采用自然语言处理的方式提取所述目标内容中的至少一个热词词汇。

8.根据权利要求2所述的方法,其特征在于,还包括:

基于实时互动界面生成目标视频,以从所述目标视频中确定出所述目标视频帧。

9.根据权利要求8所述的方法,其特征在于,所述当检测到触发目标控件时,依次获取目标视频中的视频帧,并从所获取到的视频帧中确定出所述目标视频帧,包括:

当检测到触发分享控件时,采集目标视频中的待处理视频帧;

根据所述待处理视频帧以及所述目标视频帧中的至少一个历史目标视频帧之间的相似度值,确定所述目标视频帧。

10.根据权利要求1所述的方法,其特征在于,还包括:

将所述至少一个热词词汇发送至热词缓存模块中,以在检测到触发语音转文字操作时,根据所述语音信息从所述热词缓存模块中调取相应的热词词汇。

11.一种提取热词的系统,其特征在于,包括:

图文识别子系统确定目标视频帧中的目标标识,并将所述目标标识发送至爬虫子系统;

所述爬虫子系统接收所述目标标识,并获取与所述目标标识相对应的目标页面,将所述目标页面发送至页面解析子系统;

所述页面解析子系统接收所述目标页面,并对所述目标页面解析处理,得到所述目标页面中的目标内容,将所述目标内容发送至热词提取子系统;

所述热词提取子系统接收所述目标内容,并确定所述目标视频帧所属目标视频的至少一个热词词汇。

12.一种电子设备,其特征在于,所述电子设备包括:

一个或多个处理器;

存储装置,用于存储一个或多个程序,

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-10中任一所述的提取热词的方法。

13.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-10中任一所述的提取热词的方法。


技术总结
本公开公开了一种提取热词的方法、装置、电子设备及存储介质,该方法包括:确定目标视频帧中的目标标识,并获取与所述目标标识相对应的目标页面;通过对所述目标页面解析处理,得到与所述目标页面相对应的目标内容;基于所述目标内容,确定所述目标视频帧所属目标视频的至少一个热词词汇。本公开实施例的技术方案,通过爬取与目标标识相对应的目标页面,并基于目标页面中的页面内容,快速准确的确定目标视频帧所属视频的热词,以便在语音转文字处理时,获取与语音信息对应的热词,从而提高语音转文字的准确率的技术效果。

技术研发人员:郑翔;宗博文;徐文铭
受保护的技术使用者:北京字节跳动网络技术有限公司
技术研发日:2020.08.25
技术公布日:2020.12.11
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1