实体词识别方法、装置、电子设备和存储介质与流程

文档序号：25610440发布日期：2021-06-25 14:52阅读：81来源：国知局

1.本申请涉及nlp(natural language processing，自然语言处理)、计算机视觉等ai(artificial intelligence，人工智能)领域，尤其涉及实体词识别方法、装置、电子设备和存储介质。

背景技术：

2.在新闻视频中，往往会出现与新闻相关的记者、通讯员等责任人，在新闻结尾处往往也会以滚动字幕的形式出现新闻报道的导播、编辑、技术、监制、总监制等责任人信息。这些责任人信息在新闻编目中是非常重要的编目项，能够清晰明了地确定该条新闻的负责人。因此，如何利用计算机相关技术自动化地抽取这些责任人信息，并将其应用到新闻编目系统中是非常重要的。

技术实现要素：

3.本申请提供了一种用于实体词识别方法、装置、电子设备以及存储介质。
4.根据本申请的一方面，提供了一种实体词识别方法，包括：
5.对目标视频中的任一帧目标图像进行文本识别，以确定各文本区域包含的文本内容和各所述文本区域所在的图像位置；
6.从各所述文本区域的所述文本内容中识别出关键词，以及处于两关键词之间的候选词；
7.根据各所述文本区域在相邻帧图像中的图像位置，以及在所述目标图像中的图像位置，确定字幕方向；
8.根据所述字幕方向，从所述两关键词中，确定与所述候选词关联的目标关键词；
9.将所述候选词，作为所述目标关键词类目下的实体词。
10.根据本申请的另一方面，提供了一种实体词识别装置，包括：
11.文本识别模块，用于对目标视频中的任一帧目标图像进行文本识别，以确定各文本区域包含的文本内容和各所述文本区域所在的图像位置；
12.关键词识别模块，用于从各所述文本区域的所述文本内容中识别出关键词，以及处于两关键词之间的候选词；
13.字幕方向确定模块，用于根据各所述文本区域在相邻帧图像中的图像位置，以及在所述目标图像中的图像位置，确定字幕方向；
14.关键词确定模块，用于根据所述字幕方向，从所述两关键词中，确定与所述候选词关联的目标关键词；
15.实体词确定模块，用于将所述候选词，作为所述目标关键词类目下的实体词。
16.根据本申请的又一方面，提供了一种电子设备，包括：
17.至少一个处理器；以及
18.与所述至少一个处理器通信连接的存储器；其中，
19.所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请上述实施例提出的实体词识别方法。
20.根据本申请的再一方面，提供了一种计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本申请上述实施例提出的实体词识别方法。
21.根据本申请的还一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本申请上述实施例提出的实体词识别方法。
22.应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
23.附图用于更好地理解本方案，不构成对本申请的限定。其中：
24.图1是本申请实施例一所提供的实体词识别方法的流程示意图；
25.图2为本申请实施例中的目标图像示意图一；
26.图3为本申请实施例二所提供的实体词识别方法的流程示意图；
27.图4为本申请实施例中的目标图像示意图二；
28.图5为本申请实施例三所提供的实体词识别方法的流程示意图；
29.图6为本申请实施例四所提供的实体词识别装置的结构示意图；
30.图7示出了可以用来实施本申请的实施例的示例电子设备的示意性框图。
具体实施方式
31.以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
32.现有技术中，通过人工查看新闻视频，并手工编辑记者、导播等具体责任人信息。
33.这种方式下，人工编辑的成本较高、效率较低。
34.因此，本申请主要针对现有技术中，通过人工查看新闻视频，并手工编辑记者、导播等具体责任人信息，存在的成本较高、效率较低的技术问题，提出一种实体词识别方法。
35.本申请实施例的实体词识别方法，通过对目标视频中的任一帧目标图像进行文本识别，以确定各文本区域包含的文本内容和各文本区域所在的图像位置，并识别各文本区域中的关键词，以及处于两关键词之间的候选词，并根据各文本区域在相邻帧图像中的图像位置，以及在目标图像中的图像位置，确定字幕方向，进而根据字幕方向，从两关键词中，确定与候选词关联的目标关键词，以将候选词，作为目标关键词类目下的实体词。由此，可以实现自动识别关键词类目下的实体词，例如识别每个类目下的责任人信息，而无需人工查看视频的方式，抽取上述实体词，可以提升实体词识别效率，并降低识别成本。
36.下面参考附图描述本申请实施例的实体词识别方法、装置、电子设备和存储介质。
37.图1为本申请实施例一所提供的实体词识别方法的流程示意图。
38.本申请实施例以该实体词识别方法被配置于实体词识别装置中来举例说明，该实
体词识别装置可以应用于任一电子设备中，以使该电子设备可以执行实体词识别功能。
39.其中，电子设备可以为任一具有计算能力的设备，例如可以为pc(personal computer，个人电脑)、移动终端、服务器等，移动终端例如可以为手机、平板电脑、个人数字助理、穿戴式设备、车载设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。
40.如图1所示，该实体词识别方法可以包括以下步骤：
41.步骤101，对目标视频中的任一帧目标图像进行文本识别，以确定各文本区域包含的文本内容和各文本区域所在的图像位置。
42.本申请实施例中，目标视频可以为任意一个编辑有责任人信息的视频，比如，目标视频可以为新闻类视频、影视类视频、短视频等，本申请对此并不作限制。
43.作为一种示例，以目标视频为新闻类视频进行示例性说明，责任人可以为记者、通讯员等责任人，和/或，责任人可以为导播、编辑、技术、监制、总监制等责任人。再例如，以目标视频为影视类视频进行示例性说明，责任人可以导演、编剧、策划、监制、出品人、制片人等责任人。
44.本申请实施例中，目标图像是指目标视频中的任意一帧视频帧图像。
45.本申请实施例中，可以基于nlp中的ocr(optical character recognition，光学字符识别)技术，对目标视频中的任一帧目标图像进行文本识别，确定各文本区域包含的文本内容，在确定各文本区域后，可以确定各文本区域在目标图像中的位置，本申请中记为图像位置。
46.其中，图像位置可以为图像坐标系中的坐标位置，或者也可以为像素坐标系中的坐标位置，本申请对此并不作限制。其中，图像坐标系中的坐标原点，为图像的中心点，横轴(x轴)水平向右，纵轴(y轴)水平向下，单位是像素。像素坐标系中的坐标原点，为图像左上角，横轴(x轴)水平向右，纵轴(y轴)水平向下，单位是像素。
47.步骤102，从各文本区域的文本内容中识别出关键词，以及处于两关键词之间的候选词。
48.本申请实施例中，关键词为与责任人相关的关键词，例如，当目标视频为新闻类视频时，关键词可以为导播、编辑、技术、监制、总监制等关键词，再例如，当目标视频为影视类视频时，关键词可以为导演、编剧、策划、监制、出品人、制片人等关键词。
49.本申请实施例中，候选词是指处于两个关键词之间的词语。
50.本申请实施例中，可以预先设置关键词数据库，该关键词数据库中记录有与责任人相关的各关键词，可以根据关键词数据库，识别各文本区域的文本内容中是否包含有关键词，在包含有关键词的情况下，可以确定处于相邻两个关键词之间的候选词。
51.作为一种示例，参见图2，图2为本申请实施例中的目标图像示意图一。其中，相邻的两个关键词“导播”和“播音”之间的候选词为：李某某和朱某某。
52.步骤103，根据各文本区域在相邻帧图像中的图像位置，以及在目标图像中的图像位置，确定字幕方向。
53.本申请实施例中，相邻帧图像是指与目标图像相邻的视频帧图像，例如，该相邻帧图像可以为目标图像的前一帧图像，或者也可以为目标图像的后一帧图像，本申请对此并不做限制。
54.可以理解的是，当字幕在屏幕上滚动时，同一个字符在不同视频帧图像中的位置
不同，基于上述特性，可以识别字幕方向。因此，本申请实施例中，可以根据各文本区域在相邻帧图像中的图像位置，以及各文本区域在目标图像中的头像位置，确定字幕方向。
55.在本申请实施例的一种可能的实现方式中，图像位置可以包括横坐标和纵坐标，可以根据各文本区域在相邻帧图像中的横坐标和纵坐标，以及在目标图像中的横坐标和纵坐标，确定字幕方向。
56.作为一种示例，以图像位置包括像素坐标系中的横坐标和纵坐标进行示例，针对每个文本区域，若该文本区域在相邻帧图像中的纵坐标取值，与在目标图像中的纵坐标取值相同，则确定字幕方向为水平方向，而若该文本区域在相邻帧图像中的横坐标取值，与在目标图像中的横坐标取值相同，则确定字幕方向为垂直方向。
57.同样地，当图像位置包括图像坐标系中的横坐标和纵坐标时，针对每个文本区域，若该文本区域在相邻帧图像中的纵坐标取值，与在目标图像中的纵坐标取值相同，则确定字幕方向为水平方向，而若该文本区域在相邻帧图像中的横坐标取值，与在目标图像中的横坐标取值相同，则确定字幕方向为垂直方向。
58.由此，根据各文本区域在不同视频帧图像中的横坐标取值和纵坐标取值，可以准确识别字幕方向。
59.在本申请实施例的另一种可能的实现方式中，当字幕方向为水平方向时，还可以进一步将字幕方向细化为水平向左滚动方向或水平向右滚动方向，同样地，当字幕方向为垂直方向时，还可以进一步将字幕方向细化为垂直向上滚动方向或垂直向下滚动方向。
60.作为一种可能的实现方式，当相邻帧图像为目标图像的前一帧图像时，当各文本区域在相邻帧图像中的纵坐标取值，与在目标图像中的纵坐标取值相同时，可以判断各文本区域在相邻帧图像中的横坐标取值，是否小于在目标图像中的横坐标取值，在各文本区域在相邻帧图像中的横坐标取值，小于在目标图像中的横坐标取值的情况下，则确定字幕方向为水平向右滚动方向，而在各文本区域在相邻帧图像中的横坐标取值，大于在目标图像中的横坐标取值的情况下，则确定字幕方向为水平向左滚动方向。
61.而当各文本区域在相邻帧图像中的横坐标取值，与在目标图像中的横坐标取值相同时，可以判断各文本区域在相邻帧图像中的纵坐标取值，是否小于在目标图像中的纵坐标取值，在各文本区域在相邻帧图像中的纵坐标取值，小于在目标图像中的纵坐标取值的情况下，则确定字幕方向为垂直向下滚动方向，而在各文本区域在相邻帧图像中的纵坐标取值，大于在目标图像中的纵坐标取值的情况下，则确定字幕方向为垂直向上滚动方向。
62.作为另一种可能的实现方式，当相邻帧图像为目标图像的后一帧图像时，当各文本区域在相邻帧图像中的纵坐标取值，与在目标图像中的纵坐标取值相同时，可以判断各文本区域在相邻帧图像中的横坐标取值，是否小于在目标图像中的横坐标取值，在各文本区域在相邻帧图像中的横坐标取值，小于在目标图像中的横坐标取值的情况下，则确定字幕方向为水平向左滚动方向，而在各文本区域在相邻帧图像中的横坐标取值，大于在目标图像中的横坐标取值的情况下，则确定字幕方向为水平向右滚动方向。
63.而当各文本区域在相邻帧图像中的横坐标取值，与在目标图像中的横坐标取值相同时，可以判断各文本区域在相邻帧图像中的纵坐标取值，是否小于在目标图像中的纵坐标取值，在各文本区域在相邻帧图像中的纵坐标取值，小于在目标图像中的纵坐标取值的情况下，则确定字幕方向为垂直向上滚动方向，而在各文本区域在相邻帧图像中的纵坐标
取值，大于在目标图像中的纵坐标取值的情况下，则确定字幕方向为垂直向下滚动方向。
64.由此，可以实现根据相邻帧图像与目标图像的播放顺序，以及各文本区域在不同视频帧图像中的横坐标取值和纵坐标取值，识别字幕方向，可以提升识别结果的准确性。
65.步骤104，根据字幕方向，从上述两关键词中，确定与候选词关联的目标关键词。
66.本申请实施例中，目标关键词是指与候选词关联的关键词，例如，参见图2，与候选词“李某某”和“朱某某”关联的目标关键词为“导播”。
67.本申请实施例中，当字幕方向不同时，与候选词关联的目标关键词的确定方式可以不同。
68.在本申请实施例的一种可能的实现方式中，在字幕方向为水平方向时，可以将上述两关键词在目标图像中的横坐标取值，小于候选词在目标图像中的横坐标取值的关键词，确定为与候选词关联的目标关键词。也就是说，可以将位于候选词左侧的关键词，作为与该候选词关联的目标关键词。
69.而在字幕方向为垂直方向时，可以将上述两关键词在目标图像中的纵坐标取值，小于候选词在目标图像中的纵坐标取值的关键词，确定为与候选词关联的目标关键词。也就是说，可以将位于候选词上方的关键词，作为与该候选词关联的目标关键词。
70.在本申请实施例的另一种可能的实现方式中，在字幕方向为水平向右滚动方向的情况下，可以将上述两关键词在目标图像中的横坐标取值，大于候选词在目标图像中的横坐标取值的关键词，确定为与候选词关联的目标关键词。也就是说，可以将位于候选词右侧的关键词，作为与该候选词关联的目标关键词。
71.而在字幕方向为水平向左滚动方向的情况下，可以将上述两关键词在目标图像中的横坐标取值，小于候选词在目标图像中的横坐标取值的关键词，确定为与候选词关联的目标关键词。也就是说，可以将位于候选词左侧的关键词，作为与该候选词关联的目标关键词。
72.作为一种示例，图2中的字幕方向为水平向左滚动方向，因此，可以将候选词左侧的关键词，作为与候选词关联的目标关键词，例如，与候选词“李某某”和“朱某某”关联的目标关键词为“导播”，与候选词“林某”和“焦某某”关联的目标关键词为“播音”。
73.在本申请实施例的又一种可能的实现方式中，在字幕方向为垂直向下滚动方向的情况下，可以将上述两关键词在目标图像中的纵坐标取值，大于候选词在目标图像中的纵坐标取值的关键词，确定为与候选词关联的目标关键词。也就是说，可以将位于候选词下方的关键词，作为与该候选词关联的目标关键词。
74.而在在字幕方向为垂直向上滚动方向的情况下，可以将两关键词在目标图像中的纵坐标取值，小于候选词在目标图像中的纵坐标取值的关键词，确定为与候选词关联的目标关键词。也就是说，可以将位于候选词上方的关键词，作为与该候选词关联的目标关键词。
75.由此，在字幕方向不同时，可以实现根据上述两关键词的横坐标和纵坐标，确定与候选词关联的目标关键词，可以提升确定结果的可靠性。
76.步骤105，将候选词，作为目标关键词类目下的实体词。
77.本申请实施例中，在确定与候选词关联的目标关键词时，可以将候选词，作为目标关键词类目下的实体词。仍以图2进行示例，即实体词为人名，各目标关键词类目下的各实
体词分别为：“导播”类目下的实体词为“李某某”和“朱某某”、“播音”类目下的实体词为“林某”和“焦某某”、“技术”类目下的实体词为“方某某”和“章某某”。也就是说，本申请中，可以抽取两个关键词中间位置的文本，并进行实体词识别，识别得到的人物类实体词即为该关键词类目下的实体词。
78.本申请实施例的实体词识别方法，通过对目标视频中的任一帧目标图像进行文本识别，以确定各文本区域包含的文本内容和各文本区域所在的图像位置，并识别各文本区域中的关键词，以及处于两关键词之间的候选词，并根据各文本区域在相邻帧图像中的图像位置，以及在目标图像中的图像位置，确定字幕方向，进而根据字幕方向，从两关键词中，确定与候选词关联的目标关键词，以将候选词，作为目标关键词类目下的实体词。由此，可以实现自动识别关键词类目下的实体词，例如识别每个类目下的责任人信息，而无需人工查看视频的方式，抽取上述实体词，可以提升实体词识别效率，并降低识别成本。
79.需要说明的是，本申请的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。
80.应当理解的是，对于目标视频中最后一个出现的关键词，由于没有下一个关键词作为参考，因此，无法获取该最后一个关键词与下一个关键词之间的候选词，从而无法确定最后一个关键词类目下的实体词。因此，本申请中，为了识别属于最后一个关键词类目下的实体词，可以结合字幕方向和目标视频的来源信息，来确定最后一个关键词类目下的实体词。下面结合实施例二，对上述过程进行详细说明。
81.图3为本申请实施例二所提供的实体词识别方法的流程示意图。
82.如图3所示，该实体词识别方法可以包括以下步骤：
83.步骤301，对目标视频中的任一帧目标图像进行文本识别，以确定各文本区域包含的文本内容和各文本区域所在的图像位置。
84.步骤302，从各文本区域的文本内容中识别出关键词，以及处于两关键词之间的候选词。
85.步骤303，根据各文本区域在相邻帧图像中的图像位置，以及在目标图像中的图像位置，确定字幕方向。
86.步骤304，根据字幕方向，从两关键词中，确定与候选词关联的目标关键词；将候选词，作为目标关键词类目下的实体词。
87.步骤301至304的执行过程可以参见上述实施例中步骤101至105的执行过程，在此不做赘述。
88.步骤305，根据目标视频的来源信息，查询预设的视频来源与第一关键词之间的映射关系，确定与来源信息匹配的第一关键词。
89.本申请实施例中，第一关键词是指视频中最后一个出现的关键词。
90.应当理解的是，不同来源的视频中最后一个出现的关键词可以不同，举例而言，对于新闻类视频，每家电视台新闻报道均有特定的关键词格式，比如地方1台所播放的新闻视频中最后一个出现的关键词为“总监制”，地方2台所播放的新闻视频中最后一个出现的关键词为“责编”。
91.本申请实施例中，可以预先设置不同视频来源与第一关键词之间的映射关系，从而本申请中，为了识别目标视频中最后一个出现的关键词，可以根据该目标视频的来源信
息，查询预设的视频来源与第一关键词之间的映射关系，确定与来源信息匹配的第一关键词。
92.需要说明的是，上述仅以步骤305在304之后执行进行示例，实际应用时，步骤305还可以在步骤304之前执行，或者，步骤305还可以与步骤304并列执行，本申请对此并不作限制。
93.步骤306，在字幕方向为水平向右滚动方向的情况下，确定第一目标候选词，其中，第一目标候选词在目标图像中的横坐标取值小于匹配的第一关键词在目标图像中的横坐标取值。
94.本申请实施例中，可以识别目标图像中是否出现与该目标视频的来源信息匹配的第一关键词，若是，则在字幕方向为水平向右滚动方向的情况下，可以确定目标图像中横坐标取值小于该匹配的第一关键词在目标图像中的横坐标取值的第一目标候选词。也就是说，在字幕方向为水平向右滚动方向的情况下，可以将位于匹配的第一关键词左侧的各词语作为第一目标候选词。
95.步骤307，根据第一目标候选词，确定匹配的第一关键词类目下的实体词。
96.本申请实施例中，可以对第一目标候选词进行实体词识别，将实体词识别结果确定为匹配的第一关键词类目下的实体词。
97.步骤308，在字幕方向为水平向左滚动方向的情况下，确定第二目标候选词，其中，第二目标候选词在目标图像中的横坐标取值大于匹配的第一关键词在目标图像中的横坐标取值。
98.本申请实施例中，可以识别目标图像中是否出现与该目标视频的来源信息匹配的第一关键词，若是，则在字幕方向为水平向左滚动方向的情况下，可以确定目标图像中横坐标取值大于该匹配的第一关键词在目标图像中的横坐标取值的第二目标候选词。也就是说，在字幕方向为水平向左滚动方向的情况下，可以将位于匹配的第一关键词右侧的各词语作为第二目标候选词。
99.步骤309，根据第二目标候选词，确定匹配的第一关键词类目下的实体词。
100.本申请实施例中，可以对第二目标候选词进行实体词识别，将实体词识别结果确定为匹配的第一关键词类目下的实体词。
101.作为一种示例，参见图4，图4为本申请实施例中的目标图像示意图二。其中，图4中的字幕方向为水平向左滚动方向，第一关键词为“总监制”，第一关键词类目下的实体词为第一关键词右侧的“张某某”。
102.步骤310，在字幕方向为垂直向下滚动方向的情况下，确定第三目标候选词，其中，第三目标候选词在目标图像中的纵坐标取值小于第一关键词在目标图像中的纵坐标取值。
103.本申请实施例中，可以识别目标图像中是否出现与该目标视频的来源信息匹配的第一关键词，若是，则在字幕方向为垂直向下滚动方向的情况下，可以确定目标图像中纵坐标取值小于该匹配的第一关键词在目标图像中的纵坐标取值的第三目标候选词。也就是说，在字幕方向为垂直向下滚动方向的情况下，可以将位于匹配的第一关键词上方的各词语作为第三目标候选词。
104.步骤311，根据第三目标候选词，确定匹配的第一关键词类目下的实体词。
105.本申请实施例中，可以对第三目标候选词进行实体词识别，将实体词识别结果确
定为匹配的第一关键词类目下的实体词。
106.步骤312，在字幕方向为垂直向上滚动方向的情况下，确定第四目标候选词，其中，第四目标候选词在目标图像中的纵坐标取值大于第一关键词在目标图像中的纵坐标取值。
107.本申请实施例中，可以识别目标图像中是否出现与该目标视频的来源信息匹配的第一关键词，若是，则在字幕方向为垂直向上滚动方向的情况下，可以确定目标图像中纵坐标取值大于该匹配的第一关键词在目标图像中的纵坐标取值的第四目标候选词。也就是说，在字幕方向为垂直向上滚动方向的情况下，可以将位于匹配的第一关键词下方的各词语作为第四目标候选词。
108.步骤313，根据第四目标候选词，确定第一关键词类目下的实体词。
109.本申请实施例中，可以对第四目标候选词进行实体词识别，将实体词识别结果确定为匹配的第一关键词类目下的实体词。
110.本申请实施例的实体词识别方法，通过结合字幕方向和目标视频的来源信息，来确定目标视频中的最后一个关键词，并确定该关键词类目下的实体词，可以提升识别结果的准确性。
111.应当理解的是，对于新闻类视频，还可能出现记者、通讯员等责任人，为了提升各实体词识别结果的全面性和可靠性，还可以识别目标视频中是否出现第二关键词，比如该第二关键词可以为通讯员，在出现第二关键词的情况下，可以进一步对各文本区域进行实体词识别。下面结合实施例三，对上述过程进行详细说明。
112.图5为本申请实施例三所提供的实体词识别方法的流程示意图。
113.如图5所示，该实体词识别方法可以包括以下步骤：
114.步骤501，对目标视频中的任一帧目标图像进行文本识别，以确定各文本区域包含的文本内容和各文本区域所在的图像位置。
115.步骤501的执行过程可以参见上述实施例中步骤101的执行过程，在此不做赘述。
116.步骤502，对各文本区域进行特征提取，以得到各文本区域的特征。
117.可以理解的是，各文本区域具有长度、宽度、距离屏幕上方距离(即与像素坐标系的横轴之间的距离)、距离屏幕左方距离(即与像素坐标系的纵轴之间的距离)、包含的字符个数、是否包含关键词等特征，因此，可以基于计算机视觉中的特征提取算法，对各文本区域进行特征提取，以得到各文本区域的特征。
118.步骤503，根据目标视频的来源信息和各文本区域的特征，对各文本区域进行筛选，以得到候选文本区域。
119.应当理解的是，对于新闻类视频，不同来源的视频中记者、通讯员等责任人出现的位置可能不同，比如，地方1台所播放的新闻视频中记者和通讯员出现在视频的中间且靠近下方的位置，地方2台所播放的新闻视频中记者和通讯员出现在视频的左侧且靠近下方的位置。
120.因此，本申请中，为了提升实体词识别效率，可以根据目标视频的来源信息和各文本区域的特征，对各文本区域进行筛选，以得到候选文本区域。
121.举例而言，目标视频来源于地方2台，可以根据各文本区域的位置特征，筛选并保留目标图像中左侧且靠近下方的位置的文本区域，作为候选文本区域。
122.步骤504，对候选文本区域进行第二关键词识别。
123.本申请实施例中，第二关键词例如可以为通讯员。
124.步骤505，对候选文本进行切分，得到未包含第二关键词的第一文本片段和包含第二关键词的第二文本片段。
125.本申请实施例中，可以对候选文本进行切分，得到未包含第二关键词的第一文本片段和包含第二关键词的第二文本片段，例如，可以以第二关键词的首个字符作为切分位置，对候选文本进行切分，得到未包含第二关键词的第一文本片段和包含第二关键词的第二文本片段，或者，可以以第二关键词的最后一个字符作为切分位置，对候选文本进行切分，得到未包含第二关键词的第一文本片段和包含第二关键词的第二文本片段。
126.举例而言，按照通常新闻报道的记者在前、通讯员在后的规则，首先判断目标视频中是否包含“通讯员”关键词。如果包含，则从该关键词位置切分文本，“通讯员”之前的各字符组成的文本片段为第一文本片段，“通讯员”以及之后的各字符组成的文本片段为第二文本片段。
127.步骤506，分别对第一文本片段和第二文本片段进行实体词识别。
128.本申请实施例中，可以分别对第一文本片段和第二文本片段进行实体词识别。
129.仍以步骤505中的例子示例，新闻可能由多个所属子地方台记者共同报道而成，对于第一文本片段，可以识别地点实体词，并在第一文本片段中，在识别出的地点实体词后增加【台】，并以地点实体词在第一文本片段中的位置对第一文本片段进行切分，形成多个子台序列，如【地方1台xxx；地方2台xxx xxx】等。若识别的人物实体词出现在地点实体词后的xxx位置，则该人物即为地方台记者。同样可以利用实体识别技术，识别第二文本片段中的人物实体词，作为通讯员，即第二文本片段可以为【通讯员xxx】，可以识别关键词“通讯员”之后的人名，若识别的人物实体词出现在关键词“通讯员”之后的xxx位置，则该人物即为通讯员。
130.本申请实施例的实体词识别方法，通过对各文本区域进行特征提取，以得到各文本区域的特征；根据目标视频的来源信息和各文本区域的特征，对各文本区域进行筛选，以得到候选文本区域；对候选文本区域进行第二关键词识别；对候选文本进行切分，得到未包含第二关键词的第一文本片段和包含第二关键词的第二文本片段；分别对第一文本片段和第二文本片段进行实体词识别。由此，可以提升各实体词识别结果的全面性和可靠性。
131.与上述图1至图5施例提供的实体词识别方法相对应，本申请还提供一种实体词识别装置，由于本申请实施例提供的实体词识别装置与上述图1至图5施例提供的实体词识别方法相对应，因此在实体词识别方法的实施方式也适用于本申请实施例提供的实体词识别装置，在本申请实施例中不再详细描述。
132.图6为本申请实施例四所提供的实体词识别装置的结构示意图。
133.如图6所示，该实体词识别装置600可以包括：文本识别模块610、关键词识别模块620、字幕方向确定模块630、关键词确定模块640以及实体词确定模块650。
134.其中，文本识别模块610，用于对目标视频中的任一帧目标图像进行文本识别，以确定各文本区域包含的文本内容和各文本区域所在的图像位置。
135.关键词识别模块620，用于从各文本区域的文本内容中识别出关键词，以及处于两关键词之间的候选词。
136.字幕方向确定模块630，用于根据各文本区域在相邻帧图像中的图像位置，以及在
目标图像中的图像位置，确定字幕方向。
137.关键词确定模块640，用于根据字幕方向，从两关键词中，确定与候选词关联的目标关键词。
138.实体词确定模块650，用于将候选词，作为目标关键词类目下的实体词。
139.进一步地，在本申请实施例的一种可能的实现方式中，图像位置包括横坐标和纵坐标；字幕方向确定模块630，具体用于：若各文本区域在相邻帧图像中的纵坐标取值，与在目标图像中的纵坐标取值相同，则确定字幕方向为水平方向；若各文本区域在相邻帧图像中的横坐标取值，与在目标图像中的横坐标取值相同，则确定字幕方向为垂直方向。
140.进一步地，在本申请实施例的一种可能的实现方式中，图像位置包括横坐标和纵坐标；相邻帧图像为目标图像的前一帧图像；字幕方向确定模块630，具体用于：若各文本区域在相邻帧图像中的纵坐标取值，与在目标图像中的纵坐标取值相同，则判断各文本区域在相邻帧图像中的横坐标取值，是否小于在目标图像中的横坐标取值；在各文本区域在相邻帧图像中的横坐标取值，小于在目标图像中的横坐标取值的情况下，则确定字幕方向为水平向右滚动方向；在各文本区域在相邻帧图像中的横坐标取值，大于在目标图像中的横坐标取值的情况下，则确定字幕方向为水平向左滚动方向。
141.进一步地，在本申请实施例的一种可能的实现方式中，关键词确定模块640，具体用于：在字幕方向为水平向右滚动方向的情况下，将两关键词在目标图像中的横坐标取值，大于候选词在目标图像中的横坐标取值的关键词，确定为与候选词关联的目标关键词；在字幕方向为水平向左滚动方向的情况下，将两关键词在目标图像中的横坐标取值，小于候选词在目标图像中的横坐标取值的关键词，确定为与候选词关联的目标关键词。
142.进一步地，在本申请实施例的一种可能的实现方式中，该实体词识别装置600还可以包括：
143.第一处理模块，用于根据目标视频的来源信息，查询预设的视频来源与第一关键词之间的映射关系，确定与来源信息匹配的第一关键词；在字幕方向为水平向右滚动方向的情况下，确定第一目标候选词，其中，第一目标候选词在目标图像中的横坐标取值小于匹配的第一关键词在目标图像中的横坐标取值；根据第一目标候选词，确定匹配的第一关键词类目下的实体词；在字幕方向为水平向左滚动方向的情况下，确定第二目标候选词，其中，第二目标候选词在目标图像中的横坐标取值大于匹配的第一关键词在目标图像中的横坐标取值；根据第二目标候选词，确定匹配的第一关键词类目下的实体词。
144.进一步地，在本申请实施例的一种可能的实现方式中，字幕方向确定模块630，还用于：若各文本区域在相邻帧图像中的横坐标取值，与在目标图像中的横坐标取值相同，则判断各文本区域在相邻帧图像中的纵坐标取值，是否小于在目标图像中的纵坐标取值；在各文本区域在相邻帧图像中的纵坐标取值，小于在目标图像中的纵坐标取值的情况下，则确定字幕方向为垂直向下滚动方向；在各文本区域在相邻帧图像中的纵坐标取值，大于在目标图像中的纵坐标取值的情况下，则确定字幕方向为垂直向上滚动方向。
145.进一步地，在本申请实施例的一种可能的实现方式中，关键词确定模块640，具体用于：在字幕方向为垂直向下滚动方向的情况下，将两关键词在目标图像中的纵坐标取值，大于候选词在目标图像中的纵坐标取值的关键词，确定为与候选词关联的目标关键词；在字幕方向为垂直向上滚动方向的情况下，将两关键词在目标图像中的纵坐标取值，小于候
选词在目标图像中的纵坐标取值的关键词，确定为与候选词关联的目标关键词。
146.进一步地，在本申请实施例的一种可能的实现方式中，该实体词识别装置600还可以包括：
147.第二处理模块，用于根据目标视频的来源信息，查询预设的视频来源与第一关键词之间的映射关系，确定与来源信息匹配的第一关键词；在字幕方向为垂直向下滚动方向的情况下，确定第三目标候选词，其中，第三目标候选词在目标图像中的纵坐标取值小于匹配的第一关键词在目标图像中的纵坐标取值；根据第三目标候选词，确定匹配的第一关键词类目下的实体词；在字幕方向为垂直向上滚动方向的情况下，确定第四目标候选词，其中，第四目标候选词在目标图像中的纵坐标取值大于匹配的第一关键词在目标图像中的纵坐标取值；根据第四目标候选词，确定匹配的第一关键词类目下的实体词。
148.进一步地，在本申请实施例的一种可能的实现方式中，该实体词识别装置600还可以包括：
149.提取模块，用于对各文本区域进行特征提取，以得到各文本区域的特征。
150.筛选模块，用于根据目标视频的来源信息和各文本区域的特征，对各文本区域进行筛选，以得到候选文本区域。
151.关键词识别模块620，还用于对候选文本区域进行第二关键词识别。
152.切分模块，用于对候选文本进行切分，得到未包含第二关键词的第一文本片段和包含第二关键词的第二文本片段。
153.实体词识别模块，用于分别对第一文本片段和第二文本片段进行实体词识别。
154.本申请实施例的实体词识别装置，通过对目标视频中的任一帧目标图像进行文本识别，以确定各文本区域包含的文本内容和各文本区域所在的图像位置，并识别各文本区域中的关键词，以及处于两关键词之间的候选词，并根据各文本区域在相邻帧图像中的图像位置，以及在目标图像中的图像位置，确定字幕方向，进而根据字幕方向，从两关键词中，确定与候选词关联的目标关键词，以将候选词，作为目标关键词类目下的实体词。由此，可以实现自动识别关键词类目下的实体词，例如识别每个类目下的责任人信息，而无需人工查看视频的方式，抽取上述实体词，可以提升实体词识别效率，并降低识别成本。
155.为了实现上述实施例，本申请还提供一种电子设备，该电子设备可以包括至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本申请上述任一实施例提出的实体词识别方法。
156.为了实现上述实施例，本申请还提供一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本申请上述任一实施例提出的实体词识别方法。
157.为了实现上述实施例，本申请还提供一种计算机程序产品，该计算机程序产品包括计算机程序，计算机程序在被处理器执行时实现本申请上述任一实施例提出的实体词识别方法。
158.根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
159.图7示出了可以用来实施本申请的实施例的示例电子设备700的示意性框图。电子
设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。
160.如图7所示，设备700包括计算单元701，其可以根据存储在rom(read
‑
only memory，只读存储器)702中的计算机程序或者从存储单元707加载到ram(random access memory，随机访问/存取存储器)703中的计算机程序，来执行各种适当的动作和处理。在ram 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、rom 702以及ram 703通过总线704彼此相连。i/o(input/output，输入/输出)接口705也连接至总线704。
161.设备700中的多个部件连接至i/o接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
162.计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于cpu(central processing unit，中央处理单元)、gpu(graphic processing units，图形处理单元)、各种专用的ai(artificial intelligence，人工智能)计算芯片、各种运行机器学习模型算法的计算单元、dsp(digital signal processor，数字信号处理器)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如上述实体词识别方法。例如，在一些实施例中，上述实体词识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由rom 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到ram 703并由计算单元701执行时，可以执行上文描述的实体词识别方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述实体词识别方法。
163.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、fpga(field programmable gate array，现场可编程门阵列)、asic(application
‑
specific integrated circuit，专用集成电路)、assp(application specific standard product，专用标准产品)、soc(system on chip，芯片上系统的系统)、cpld(complex programmable logic device，复杂可编程逻辑设备)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
164.用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的
功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
165.在本申请的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、ram、rom、eprom(electrically programmable read
‑
only
‑
memory，可擦除可编程只读存储器)或快闪存储器、光纤、cd
‑
rom(compact disc read
‑
only memory，便捷式紧凑盘只读存储器)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
166.为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(cathode
‑
ray tube，阴极射线管)或者lcd(liquid crystal display，液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
167.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：lan(local area network，局域网)、wan(wide area network，广域网)、互联网和区块链网络。
168.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端
‑
服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与vps服务(virtual private server，虚拟专用服务器)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。
169.其中，需要说明的是，人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
170.根据本申请实施例的技术方案，通过对目标视频中的任一帧目标图像进行文本识别，以确定各文本区域包含的文本内容和各文本区域所在的图像位置，并识别各文本区域中的关键词，以及处于两关键词之间的候选词，并根据各文本区域在相邻帧图像中的图像位置，以及在目标图像中的图像位置，确定字幕方向，进而根据字幕方向，从两关键词中，确
定与候选词关联的目标关键词，以将候选词，作为目标关键词类目下的实体词。由此，可以实现自动识别关键词类目下的实体词，例如识别每个类目下的责任人信息，而无需人工查看视频的方式，抽取上述实体词，可以提升实体词识别效率，并降低识别成本。
171.应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。
172.上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨虎;贺峰;汪琦;冯知凡;柴春光;朱勇
技术所有人：北京百度网讯科技有限公司
我是此专利的发明人

上一篇：控制方法、电子装置和可读存储介质与流程
上一篇：基于人工智能的磁性材料制备工序识别及监控系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。