一种赛事文字直播文本自动生成方法、系统及存储介质

文档序号：24968619发布日期：2021-05-07 22:38阅读：1099来源：国知局

本申请涉及体育直播技术领域，具体而言，涉及一种体育赛事文字直播文本自动生成方法、系统及计算机可读存储介质。

背景技术：

近年来,体育赛事的文字直播逐渐进入大众视野,并成为体育爱好者除电视直播、网络视频直播外的又一种收看比赛的方式。体育赛事文字直播指的是直播员在比赛现场或者观看比赛现场实况,以文字的形式同步将比赛现场的情况,通过网站直播间或app终端传播给用户的一种直播形式。然而，体育赛事直播对实时性具有十分高的要求，而人工输入显然无法满足该实时性要求，所以，目前亟待一种体育赛事文字直播内容自动生成技术。

技术实现要素：

针对上述技术问题，本申请提供了一种体育赛事文字直播文本自动生成方法、系统设备及计算机可读存储介质。

本申请的第一方面提供了一种体育赛事文字直播文本自动生成方法，所述方法包括：

s1，接收体育赛事的视频直播数据；

s2，对所述视频直播数据中的播报员语音和直播画面中赛事数据部分的图像进行识别，以获得实时的赛事详情；

s3，基于所述获得的赛事详情，判断是否满足写作模板库中任一写作模板的触发条件；

s4，如果所述触发条件满足，则调用对应的写作模板，并将所述赛事详情填入所述写作模板的对应位置，以形成体育赛事文字直播文本；

s5，将所述文本传输至体育赛事文字直播内容直播输出端。

优选地，步骤s2中，若从播报员语音和直播画面中赛事数据部分的图像识别到的赛事详情不一致，则在之后的预设时间后持续对播报员语音进行识别，如果识别到赛事数据错误的相关信息，则将此时播报员更改的语音信息作为所述赛事详情；

或者，则在之后的预设时间后持续对直播画面中赛事数据部分的图像进行识别，如果识别到赛事数据违反常规赛事数据记录规则，则以更新后的赛事数据作为所述赛事详情。

优选地，在步骤s1之前，还包括写作模板库生成步骤：

s01、对若干历史体育赛事文字直播文本进行处理，提取出写作模板句；

s02、利用余弦相似度对所述模板进行归并，去除重复模板；

s03、给每个模板构建其触发条件，从而完成模板库的构建。

优选地，步骤s01中，对若干历史体育赛事文字直播文本进行处理，提取出写作模板句，包括：对所述直播文本进行句子划分，去除其中的事件实体和比赛实时描述，从而得到所述写作模板句；其中，所述事件实体包括球员名、球队名、比分、比赛时间。

优选地，步骤s02中，利用余弦相似度对所述模板进行归并，去除重复模板，包括：

s021，对每个所述写作模板句进行分词处理以得到若干词语；

s022，列出任意两个所述写作模板句中所有的词语；

s023，计算各词语在所述两个写作模板句中的词频；

s024，基于所述词频构建每个写作模板句的词频向量；

s025，采用余弦相似度计算两个所述写作模板句的相似度，将相似度大于第二阈值的两个所述写作模板句进行归并，从而实现去除重复模板；

s026，对于其他所述写作模板句，重复执行步骤s022-s025，直至完成所有所述写作模板句的相似度计算。

优选地，所述余弦相似度计算公式为：

其中，xi、yi为所述词频向量中各词语在两个所述写作模板句中的词频即子向量；cos(θ)的值越大，则越相似。

优选地，所述步骤s02还包括对语义相似模板进行规一化处理步骤：

s0220，对于所述分词处理后的若干词语，采用word2vec工具将词语映射到k维向量空间；

s0221，计算任意两个所述词语的向量空间相似度；

s0222，如果所述相似度阈值第一阈值，则在步骤s023中将两个所述词语的词频相加，并归属于其中任意一个词语，并执行步骤s024。

本申请的第二方面提供了一种体育赛事文字直播文本自动生成系统，所述系统包括接收模块、识别模块、判断模块、生成模块、输出模块；

所述接收模块，用于接收体育赛事的视频直播数据；

所述识别模块，用于对所述视频直播数据中的播报员语音和直播画面中赛事数据部分的图像进行识别，以获得实时的赛事详情；

所述判断模块，用于基于所述获得的赛事详情，判断是否满足写作模板库中任一写作模板的触发条件；

所述生成模块，用于如果所述触发条件满足，则调用对应的写作模板，并将所述赛事详情填入所述写作模板的对应位置，以形成体育赛事文字直播文本；

所述输出模块，用于将所述文本传输至体育赛事文字直播内容直播输出端。

本申请的第三方面提供了一种体育赛事文字直播文本自动生成设备，其特征在于，所述设备包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行如前述所述的体育赛事文字直播文本自动生成方法。

本申请的第四方面提供了一种存储介质，其特征在于，所述存储介质存储有计算机指令，所述计算机指令被调用时，用于执行如前述所述的体育赛事文字直播文本自动生成方法。

本申请的有益效果在于：

本申请直接从接收的直播视频数据中识别获得赛事详情，然后判断对应的赛事详情是否满足写作模板的触发条件，如果满足，则将对应的赛事详情填入对应的写作模板，即可快速的生成体育赛事文字直播文本。另外，本申请中所生成的写作模板库是基于历史体育赛事文字直播文本获得的，从中获得了准确的体育赛事相关术语及行文规范，确保了本申请中所生成的文字直播文本的准确及专业化程度。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本申请实施例公开的一种体育赛事文字直播文本自动生成方法的流程示意图；

图2是本申请实施例公开的一种体育赛事文字直播文本自动生成系统的结构示意图；

图3是本申请实施例公开的一种体育赛事文字直播文本自动生成设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本申请的描述中，需要说明的是，若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

此外，若出现术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

需要说明的是，在不冲突的情况下，本申请的实施例中的特征可以相互结合。

实施例一

请参阅图1，图1是本申请实施例公开的一种体育新闻写作模板库构建方法的流程示意图。如图1所示，本申请实施例的一种体育赛事文字直播文本自动生成方法，所述方法包括：

s1，接收体育赛事的视频直播数据；

s2，对所述视频直播数据中的播报员语音和直播画面中赛事数据部分的图像进行识别，以获得实时的赛事详情；

s3，基于所述获得的赛事详情，判断是否满足写作模板库中任一写作模板的触发条件；

s4，如果所述触发条件满足，则调用对应的写作模板，并将所述赛事详情填入所述写作模板的对应位置，以形成体育赛事文字直播文本；

s5，将所述文本传输至体育赛事文字直播内容直播输出端。

本申请实施例中，本申请直接从接收的直播视频数据中识别获得赛事详情，然后判断对应的赛事详情是否满足写作模板的触发条件，如果满足，则将对应的赛事详情填入对应的写作模板，即可快速的生成体育赛事文字直播文本。其中，直播输出端可以为手机/电脑应用终端、网页端，也可以为赛事管理方或直播平台管理方的终端，本申请对此不作限定。

可选地，步骤s2中，若从播报员语音和直播画面中赛事数据部分的图像识别到的赛事详情不一致，则在之后的预设时间后持续对播报员语音进行识别，如果识别到赛事数据错误的相关信息，则将此时播报员更改的语音信息作为所述赛事详情；

本申请实施例中，直播过程中赛事数据的更新存在错误的情况，以及播报员也存在播报口误的情况，为避免上述错误导致文字直播内容的错误，本申请特别设置了若从播报员语音和直播画面中赛事数据部分的图像识别到的赛事详情不一致时，则在后续的预定时间段(例如10s)内继续进行识别。如果播报员播报语音中提到了例如“刚刚系统数据更新错误，目前比分应当为80：87”、“抱歉，比分应当为80:87”，则说明赛事详情存在错误，以播报员及时更改的数据作为最终的赛事详情。或者，如果识别到赛事数据违反常规赛事数据记录规则，例如，比分数值出现降低的情况，则说明刚才的加分存在错误，后台记录员进行了更改，此时以更新后的作为最终的赛事详情。

可选地，在步骤s1之前，还包括写作模板库生成步骤：

s01、对若干历史体育赛事文字直播文本进行处理，提取出写作模板句；

s02、利用余弦相似度对所述模板进行归并，去除重复模板；

s03、给每个模板构建其触发条件，从而完成模板库的构建。

在本实施例中，根据已设定的战报分类体系，可以将任何一篇战报中的文本描述对应到相应的类别中去。因此可以通过分析已有的战报收集大量的写作模板和素材。利用分词工具对体育新闻进行切分，并将切分后的词语word进行检索，发现text1中的word存在于textn中，也就是说每篇报道使用的词语模板是相对固定的，只是比赛的事实不同而已，因此本申请认为通过分析已有的新闻报道来提取写作模板是可行的。首先去掉句子中包含的实体，如球员名称，球队名称，比赛时间等，其次利用余弦相似度对模板进行归并，去除重复模板，最后给每一个模板构建其触发条件，完成模板库构建。

可选地，步骤s01中，对若干体育新闻进行处理，提取出写作模板句，包括：对体育新闻进行句子划分，去除其中的事件实体和比赛实时描述，从而得到所述写作模板句；其中，实时的事件实体包括球员名、球队名、比分、比赛时间。

在本实施例中，通过对已有写作句子分析发现，句子中主要包括球员名、球队名、比分、比赛时间等事件实体和比赛事实描述，也就是说本申请将比赛的事件实体去掉后，进而得到写作模板。在具体实施时，可以采用替换符号来替换事件实体，例如，利用“*”、“@”、“&”、“！”等分别替换球队名称、球员名字、第几节、几分钟等。

可选地，步骤s02中，利用余弦相似度对所述模板进行归并，去除重复模板，包括：

s021，对每个所述写作模板句进行分词处理以得到若干词语；

s022，列出任意两个所述写作模板句中所有的词语；

s023，计算各词语在所述两个写作模板句中的词频；

s024，基于所述词频构建每个写作模板句的词频向量；

s025，采用余弦相似度计算两个所述写作模板句的相似度，将相似度大于第二阈值的两个所述写作模板句进行归并，从而实现去除重复模板；

s026，对于其他所述写作模板句，重复执行步骤s022-s025，直至完成所有所述写作模板句的相似度计算。

可选地，所述余弦相似度计算公式为：

其中，xi、yi为所述词频向量中各词语在两个所述写作模板句中的词频即子向量；cos(θ)的值越大，则越相似。

在本实施例中，在实验中，本申请抽取了10个类的3000多个句子进行了模板提取后发现，每一个类模板内有很多冗余数据，因此本申请需要去除没用数据，本申请采用余弦相似度来计算两个句子的相似度。于是，问题就变成了如何计算这两个向量的相似程度。本申请可以把它们想象成空间中的两条线段，都是从原点([0，0，...])出发，指向不同的方向。两条线段之间形成一个夹角，如果夹角为0度，意味着方向相同、线段重合，这是表示两个向量代表的文本完全相等；如果夹角为90度，意味着形成直角，方向完全不相似；如果夹角为180度，意味着方向正好相反。因此，本申请可以通过夹角的大小，来判断向量的相似程度。夹角越小，就代表越相似。

可选地，所述步骤s02还包括对语义相似模板进行规一化处理步骤：

s0220，对于所述分词处理后的若干词语，采用word2vec工具将词语映射到k维向量空间；

s0221，计算任意两个所述词语的向量空间相似度；

s0222，如果所述相似度阈值第一阈值，则在步骤s023中将两个所述词语的词频相加，并归属于其中任意一个词语，并执行步骤s024。

在本实施例中，通过对模板分析，发现还是有很多相似模板，没有被匹配计算出来，例如：“小高潮”和“攻击波”，这是因为这两个词在字形和字面上不同，但是在语义上却是相同的，因此本申请需要对这种语义相似模板进行规一化。

为了能够得到一个实用的词向量模型，本申请爬取7万多条nba体育新闻报道文本，本申请根据词语的语义信息为每一个词语构建了词语空间向量模型，一些词语如果在同一句子中频繁地共现，那么它们会具有一定的语义相关性。在大数据的环境下，本申请可以认为，向量空间中两点之间的距离就是对应两个词语的相关程度，因此本申请通过余弦距离来衡量其他词汇与关键词集中词语的相关度，余弦距离越大代表两个词的相关度越高，并设定特定的阈值，将相关性高的词汇抽取出来达到扩展关键词的目的。

在将词表示为语料向量形式后，本申请向训练后得到的词向量文件中输入关键词，通过计算余弦距离，本申请就可以输出在一定阈值内或者一定的顺序与该关键词在语义上相似的词语，从而得到关键词的相关词集，扩展后的词表如下所示：

表1word2vec词扩展

可选地，步骤s3中，包括基于crf进行触发词识别的步骤：

选取词、词性、角色为特征；采用b、i、e、o作为触发词的标注符号，其中b表示触发词的首字，i表示中间词，e表示基触发词的尾字，o表示非触发词，并分别采用单一特征模板和复合特征模板对触发词进行识别。

在本实施例中，模板是否被启用，完全要看直播文本数据是否触发了相应的条件，因此本申请给每一个模板都构建其相应的触发条件，具体而言，本申请主要从比分、触发条件出发完成模板构建。

对于给定的一个比赛描述句子texti来说，客队和主队的比分差为diffsore，写作模板为y，触发条件为xi。

diffsorei＝texti·score1-texti·score2

本申请根据比分差公式，计算每一条text的比分差，并对diffsore进行排序

list＝dis(diffsore)

list表示基于分差后的text集合，本申请将分差相同的数据进行合并，形成分差数据集，并对分差数据集内的数据进行触发条件提取。

在本实施例中，每一个sent都含有至少一个触发词cswordi，触发词cswordi通常出现在球员或球队名称与比分之间，他们主要表现形式为比赛的事实和细节，每一类模板内都含有各自不同的触发条件。cs主要包括，罚球，三分，抢断，暂停，压哨，灌篮等，每一类触发条件又包括很多触发词，即因此本申请需要对触发条件进行提取，为写作模板构建触发条件，如下表所示。

表2触发词例子

板可包括单一特征模板和复合特征模板，如下表所示：

表3crf特征模板

其中word代表词，nominal代表词性，role代表每个词所代表的角色；word(i)表示当前词，word(i+1)表示当word(i)右边第一个词，word(i-1)代表word(i)左边第一个词；

nominal(i)代表当前词语的词性，nominal(i+1)代表当前word(i)右边第一个词的词性，nominal(i-1)代表当前word(i)左边第一个词的词性；

role(i)代表当前角色，role(i+1)代表当前word(i)右边第一个词，role(i-1)代表当前word(i)左边第一个词。

可选地，所述触发条件表示在某个时间段内描述事实的条件，记作cs，所述触发词表示描述cs所使用的词语。

实施例二

请参阅图2，图2是本申请实施例公开的一种体育赛事文字直播文本自动生成系统的结构示意图。如图2所示，本申请实施例的一种体育赛事文字直播文本自动生成系统，所述系统包括接收模块、识别模块、判断模块、生成模块、输出模块；

所述接收模块，用于接收体育赛事的视频直播数据；

所述识别模块，用于对所述视频直播数据中的播报员语音和直播画面中赛事数据部分的图像进行识别，以获得实时的赛事详情；

所述判断模块，用于基于所述获得的赛事详情，判断是否满足写作模板库中任一写作模板的触发条件；

所述输出模块，用于将所述文本传输至体育赛事文字直播内容直播输出端。

实施例三

请参阅图3，图3是本申请实施例公开的一种体育赛事文字直播文本自动生成设备的结构示意图。如图3所示，本申请实施例的一种体育赛事文字直播文本自动生成设备，其特征在于，所述设备包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行如前述所述的体育赛事文字直播文本自动生成方法。

实施例四

本申请实施例提供一种存储介质，其特征在于，所述存储介质存储有计算机指令，所述计算机指令被调用时，用于执行如前述所述的体育赛事文字直播文本自动生成方法。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张凯;刘杰;周建设;史金生;张佳琪
技术所有人：首都师范大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。