图像处理以为图像中的对象进行分类的方法和系统的制作方法

文档序号：6348097阅读：219来源：国知局

专利名称：图像处理以为图像中的对象进行分类的方法和系统的制作方法
技术领域：
本发明与一般的图像处理相关，在特定实施例中，与用于在图像中区分对象的方法和系统相关。
背景技术：
已经开发了用于定义视频中的对象、并通过视频的帧来跟踪对象的系统和方法。在各种应用程序中，人可能即是要被跟踪的“对象”。例如，运动图像用于跟踪人的运动(例如运动员和和/或裁判员)。运动员和裁判员显示在运动视频中。可以在IPTV系统中定位和标记它们，以便常规TV广播(MPEG-2/-4)可以藉由额外信息(已解码的MPEG-7，用于在视频中定义这些对象)以及将要显示的额外的内容(当选择它们时)来增强其功能。具有额外内容(元数据)的对象的规范，通常通过创作工具予以实现，例如抽取截图和关键帧的功能、交互区域的规范以及跟踪特定区域以获取所有帧中的区域。已经通过单击超视频中的运动员或iTV讨论了基于组分类的交互服务。组信息搜索和检索以及组数据(统计结果、文章和其他媒体)可以通过假设运动员可以通过交互服务系统来定位，而链接起来。用于定位运动员/裁判员的各种方法可以分为两组。第一组在受控环境中利用固定相机(通常经过提前校验)，第二组仅使用常规的广播视频。前者可以提供更好的性能，而后者的灵活性更高。在第二组中，尝试使用一些以下方法来克服困难先找到运动场，通过使用颜色分段和使用形态计算的后处理(例如已连接的组件分析)，以便限制搜索区域。

发明内容
根据本发明的第一个实施例，执行了图像处理方法(例如“在处理器上执行”)。对象位于图像中，如视频或静态图像中。基于图像在该区域内的信息，确定对象周围的区域并将其至少分为第一和第二部分。然后，对象可以基于区域的第一部分中的图像信息和区域的第二部分的图像信息进行分类。在另一个实施例中，交互式电视系统包含用于接收视频图像的创作工具，在图像中定位对象，将对象周围的区域分为第一和第二部分；并基于第一部分中的第一图像信息以及第二部分中的第二图像信息来生成元数据。用于接收视频图像和元数据的聚合器，并生成利用元数据增强的视频流，并且，分发系统用于传送利用元数据增强的视频流。附图简述为了更完整地了解本发明及其优势，因此，可以参考以下参考和附图，其中

图1为根据本发明的一个实施例、基于组分类的交互系统的结构图；图2为基于运动场模式的运动员/裁判员位置、根据本发明的一个实施例的流程图；图3为根据本发明的一个实施例，对运动员“炸弹”进行垂直切割的示例图像；图4为根据本发明的一个实施例、基于交互电视系统的结构图；图5-7为交互电视系统的示例的屏幕快照。
具体实施例方式下面详细讨论了本发明优选实施例的制造和使用过程。但是，应该感谢本发明，它提供了许多可应用的发明概念，可以在大量特定环境中实施。所讨论的这些特定实施例仅说明了制造和使用本发明的特定方式，并不是本发明的全部范围。运动员/裁判员的组分类用于区分其标识(“组A”或“组B”或“裁判员”)。本任务的问题包括特征的选择以及匹配的聚集方法。已经使用了模板和直方图方法。特征选择是基于不同级别、稳健性和计算成本的区别。直方图是这些要求之间的折中方法。聚集方法可以是受监控的，也可以是不受监控的。本发明可以同时提高直方图匹配中的特征提取和区分的效率。在第一个实施例中，本发明揭示了基于IPTV系统的交互服务的运动组，包括实时和点播的视频传输。例如，实时处理运动事件视频，以及实时分析和分类组/裁判员的视觉对象。提出了一个用于通过区分功能，将运动员/裁判员的图斑(blob)(利用基于运动场模型分片获取)分为两部分(上和下)的多直方图匹配架构和方法。该架构可以获取良好的分类准确定，而计算的复杂性却很低。当单击运动员时，基于组分类的交互功能包括组信息搜索和检索以及组数据(统计结果、文章和其他媒体)链接。建议的组分类方法对于IPTV 系统中的运动程序，在运动事件、策略分析以及交互服务运动程序中具有潜在的用途。在其他实施例中，提供了一种用于IPTV系统中的运动程序的推荐的基于组分类的交互服务。在其他实施例中，提供了在足球运动视频中基于多直方图匹配架构的用于运动员/裁判员的组分类的方法，它提供了更好的分类准确定，同时计算复杂性较低。在另一个实施例中，说明了一个可用于通过建议的区分功能将运动员/裁判员的图斑(通过基于运动场模型分片获取)分为两部分(上和下)的方法。在超链接视频中，可以选择对象，并导致相关动作，类似于与相关对象有关的已链接的富媒体内容。使用超链接视频可能的场合包括广播TV、流视频和已发布的媒体(如 DVD)。超链接视频提供了使用流媒体进行交互操作的新的可能性。随着广播和网络通信的融合，交互TV(iTV)为超链接视频的常见的应用领域，。例如，欧洲GMF4iTV(交互式电视的一般媒体框架)项目已经开发了这样一个系统，其中活动的视频对象与元数据信息相关联，在生产时嵌入到程序流中，可以由用户在运行时选择以触发其相关元数据的显示。另一个欧洲PorTiVity (便携的交互式)项目使用完全端到端平台来开发和实验，为便携式设备和移动设备提供多媒体(Rich Media)交互电视服务，实现与连接至DVB-H (广播信道)和UMTS (单播信道)的手持接收器上的移动对象制剂和交互。IPTVanternet协议电视)为一个系统，其中数据电视服务使用覆盖网络基础设施的hternet协议来提供的，它还可能包括通过带宽连接提供的服务。基于IP的平台还提供重要的机会，允许使电视观看体验更加交互式和人性化。交互式TV服务将成为新兴的大量IPTV产品的重要区分因素。通过快速的双向连接的交互将使IPTV在当今电视中处于领先地位。本发明的各方面都与多媒体交互电视应用程序(例如IPTV应用程序)相关。专注点在于与运动程序中的移动对象交互。在与某些对象直接交互的基础上，电视观看者可以检索相关对象的链接多媒体内容。术语“电视”用于说明向用于显示的任何视频图像。例如，该图像可以显示在计算机屏幕、移动设备或真实的电视中并且始终处于电视的范围。运动员和裁判员为运动视频中的移动对象的两个示例。在IPTV系统中定位和标记它们对于IPTV系统中的交互服务非常有用，以便常规TV广播(MPEG-2/-4)可以藉由额外信息(已解码的MPEG-7，用于在视频中定义这些对象)以及将要显示的额外的内容(当选择它们时)来增强其功能。具有额外内容(元数据)的对象的规范，可以通过创作工具予以实现，例如抽取截图和关键帧的功能、交互区域的规范以及跟踪特定区域以获取所有帧中的区域。本发明的实施例中，推荐使用IPTV系统中的足球比赛程序的基于运动员组分类的交互服务。图1概述了此IPTV交互服务系统100。此交互是基于由IPTV服务器侧准备的信息以及IPTV客户端侧和/或网络中间盒中的实时组分类(例如图1中显示的内容和元数据源块105)。服务器侧的信息存储为 MPEG-7格式或者其他标准兼容(或专有)格式的元数据。该信息描述了运动场，组多直方图模式和有关组的相关的媒体信息。网络中间盒(network middle box)或者客户端侧的功能性单元，执行基于在线运动员/裁判员特征抽取以及MPEG-7元数据来的实时组分类，在电视屏幕上显示相关媒体信息以进行用于用户交互。此系统可用于多个运动中。例如，诸如美式足球、足球、篮球、棒球、曲棍球、板球以及之类的运动以及其他运动都采用此处描述的概念。图1揭示了根据本发明的特征，基于组分类的IPTV交互系统100。请注意，图1中的上述特定配置仅为许多可能配置中的一个。例如，运动场信息以及组运动员颜色统计信息可以在网络节点或客户端处实施。在本实施例中，用户使用IMS基础设施来注册。电视内容通过用于运动场描述的元数据信息以及表示多颜色直方图的组目标模型来增强功能。IPTV客户端通过这样的服务而增强，它表示一个环境，可用于运行额外的服务并在IPTV客户端执行高级应用程代码以分别用于在线运动员定位(分段或跟踪)。图1进一步显示了示例系统的构造图。在此结构中，一个基本的行动流包括用户 160，注册用于请求交互服务并使用服务。用户160能够单击运动员/裁判员以定位相关对象(分段/跟踪)和获取组信息和位于远程控制上的与组相关的元数据。基于IMS的IPTV Client 155(例如Set-Top-Box或PDA)负责为用户160提供必需的功能以利用交互(例如实施运动员/裁判员定位)以及查看额外内容。IPTV服务控制功能150管理所有用户至内容和内容至用户的关系，并控制“内容交付和存储140”以及“内容聚合器110”。IPTV应用程序功能145支持多种服务功能并提供与用户160的交互，以通知IPTV服务信息并接受用户的服务请求(例如注册或验证)。 IPTV应用功能145与服务控制功能150联合使用，为用户提供所请求的增值服务。“内容聚合器130”向“内容传输控制135”发送内容发布请求。“内容传输控制135” 在收到内容分发布请求时，根据已定义的发布策略，在“内容准备130”和“内容传输和存储 140”之间生成发布任务。“内容传输和存储140”将已聚合的使用了元数据进行增强的内容传输至用户160，并可以在实施(其中这些任务没有在IPTV客户端155处执行)中执行运动员定位和组分类。内容分聚合器110将内容120通过编辑工具115链接至元数据125，并聚合通过元数据信息增强的内容以用于交互式服务。编辑工具115运行运动场学习和团队模式的请求，并生成MPEG-7元数据。尽管本发明针对IPTV系统中的交互服务，但是本发明的范围并不限于此。推荐的方案可用于其他准确性更高而复杂性更低的视频传输系统中。运动员/裁判员定位可以通过多种方式来执行。例如，可以将定位运动员/裁判员的多种方法分为两组。第一组在受控型环境中利用固定相机(通常已提前校准)。此类技术曾由 M. Xu, J. Orwell, G. Jones 在"Tracking football players with multiple cameras”(使用多个相机跟踪足球运动员)中讲授过。ICIP 2004，pp.四09_2912，此处以引用的方式并入本文中。第二组仅使用常规的广播视频。前者可以提供更好的性能，而后者的灵活性更高。在第二组中，尝试使用一些方法克服定位中的困难通过使用颜色分段和具有形态计算的后处理(例如已连接的组件分析)首先找到运动场，以便限制搜索区域。图2显示了典型的架构，用于基于运动场模式的运动员/裁判员定位。此图说明了根据本发明的实施例，基于运动场模型的运动员/裁判员定位。运动员/裁判员的组分类尝试将每个人区分为“组A”或“组B”或“裁判员”。尽管讨论的内容与运动员/裁判员相关，应该理解，也可以利用本发明识别其他对象。这些对象可以是人，例如运动员、裁判员、教练、解说员、球队吉祥物、球迷或其他人员。或者，对象可以是非人的动物，例如赛马比赛中的马，或者大学足球比赛中的吉祥物，或者非生命的对象(例如球、场地指示器或其他比赛事件中的非生命对象)。定位任务的问题包括特征的选择以及匹配的聚集方法。一方面，本发明可以同时提高直方图匹配中的特征提取和区分的效率。实施例采取多个(例如两个)基于匹配方法的直方图以在比赛视频中分类运动员和裁判员。图2显示了典型的架构，用于基于运动场模式的运动员/裁判员定位。如图200中所示，可以将框架分为两部分，运动场提取205和对象检测230。下一步，根据图3中的图表，讨论对象分类。运动场抽取205包括运动场像素检测210、已连接的组件分析215、形态滤波(例如扩大、腐蚀)220和大小过滤225。现在，我们讨论有关运动场抽取的详细信息。运动场可用于分析多种运动视频(例如美式足球、足球、棒球和乒乓球)。例如，美式足球、棒球和足球的运动场为草地。尽管草地的颜色通常为绿色，这个颜色可以根据个别运动场、是否存在阴影或观看角度的不同而改变。在另一个示例中，用于冰球的运动场是冰，所以发生了相似的问题。现在，我们针对足球来描述本发明的实施例。请理解，相同的概念可以应用到其他运动。由于冰球运动的特性，存在很多宽域射击，所以图像的大部分为运动场。基于观察到的这种现象，一种无人管理的分段技术可以用于获取运动场模型。但是，并不是所有帧中的运动场区域永远足够大，能够使假定要使用的优势颜色有效。因此，可是使用用于学习运动场模式的受监管的方法。受监管方法的缺点是，需要大量带标记的数据，而手动标记即冗长又成本昂贵。在一个实施例中，定义了两个选项。第一个选项是少量的标记数据的集合，给定运动场区域中的像素，用于生成带有一个或多个高斯分布的粗略的运动场模型(对于后一种，必须使用多个带标记的数据)。然后，可以使用优势颜色检测，基于受监控的方法收集多个运动场像素，对该模型进行修改。在第二个选项中，选择了一个优势颜色假定符合条件的帧。然后，抽取其优势模式来生成初始运动场模型。像第一个选项一样，可以基于优势颜色检测收集更多的运动场像素，来修改该模型。在申请序列号为No. 61/144，386的临时专利中，非常详细地讨论了运动场模型的确定，此处以引用的方式并入到本文中。可以从该专利申请中，提取更详细的信息。运动员和裁判员为美式足球运动场中的最重要的对象。由于美式足球是一个有观众的运动，运动场、画线、球以及运动员和裁判员的着装的设计在颜色上都有明显的区别。因此，图2中的帧可可用于从运动场中的抽取或检测运动员/裁判员blob。对象检测230包括内部过滤235。在预先过滤和的图像数据之间进行了一个比较 (如M)R门所示)。结果可被视为没有背景的图像。然后，该结果将经过已连接的组件分析 240以及形状过滤245中。形状过滤功能可以处理大小、粗糙度和/或偏心率(如示例中所示)°为运动员和裁判员提供分段blob之后，每一项都被标记了“组A”、“组B”或“裁判员”。有时两组的守门员也被分类。为此，每组运动员或裁判员的外观模型通过了解带标记的数据来获取。由于运动员的球衣与短裤区别明显，而球衣在运动员的blob中占据的空间更大，所以可以使用两种颜色的柱状图来表示运动员的外观模型，并且其中一个在直方图匹配中占据更高的比重。在这种环境中，术语“短裤”和“球衣”分别用于说明运动员的上部分和下部分，而无论运动员实际上的短裤和球衣的状况如何。例如，术语“球衣”包括篮球运动员所穿的球衣，还包括棒球运动员所穿的短裤。同样，术语“运动衣”可用于“衬衣对皮肤”运动的两个组中。图3说明了可用于区分过程的运动员blob 300。在此示例中，足球运动员305穿的是球衣315和短裤320。处于球衣315和短裤320大致中心位置的矩形325用于表示该运动员。垂直切割线310用于调节球衣/短裤的边界的对齐。球衣315和短裤320将每个运动员/裁判员blob 300分为上下两部分(这里，假设运动员是近似于垂直站立的)是基于区分功能。为矩形325给出尺寸wXh (宽w和高h)，切割线310用于在中间位置搜索以使目标函数的值最大
权利要求
1.一种图像处理方法，其特征在于，包括接收图像；在所述的图像中定位对象；在所述图像中确定所述对象周围的区域；基于所述区域内的图像信息，使用处理器将所述区域至少分为第一部分和第二部分；并且基于所述区域的第一部分中的图像信息和所述区域的第二部分的图像信息对所述图像中的所述对象进行分类。
2.如权利要求1所述的方法，其特征在于，所述接收图像包括接收视频图像。
3.如权利要求2所述的方法，其特征在于，所述接收图像包括接收因特网协议电视 (IPTV)图像。
4.如权利要求1所述的方法，其特征在于，所述将所述区域至少分为第一和第二部分包括在所述区域中的彩色边界定位直线。
5.如权利要求4所述的方法，其特征在于，所述区域包含矩形，所述的直线为使得该区域被分为第一和第二部分的直线。
6.如权利要求1所述的方法，其特征在于，所述的第一部分由第一个颜色直方图表示，所述的第二部分由第二个颜色直方图表示，并且，其中，所述的区域基于所述的第一和第二颜色直方图被分为第一和第二部分。
7.如权利要求6所述的方法，其特征在于，所述将区域至少分为第一和第二部分包括利用Miattacharyya距离在彩色边界定位直线。
8.如权利要求7所述的方法，其特征在于，所述定位直线包括利用加权的 Bhattacharyya
9.如权利要求6所示的方法，其特征在于，所述区域包含多个行，且，所述将该区域至少分为第一和第二部分包括对所述区域中的多个行计算多个行的颜色直方图，将各行颜色直方图与第一和/或第二颜色直方图进行比较以确定第一和第二部分之间的边界的位置。
10.如权利要求9所述的方法，其特征在于，所述的区域包含矩形，所述计算多个行的颜色直方图包括仅为少量行计算行颜色直方图，少量行包括矩形中的总行数的至少百分之十。
11.如权利要求1所述的方法，其特征在于，所述图像信息包括颜色信息；并且其所述对所述对象进行分类包括基于所述区域的第一部分中的颜色信息和所述区域的第二部分中的颜色信息对所述对象进行分类。
12.如权利要求11所述的方法，其特征在于，所述对象包括穿有球衣和短裤的运动员，所述对所述对象进行分类包括包括基于球衣的颜色和短裤的颜色对所述的对象进行分类。
13.一种用于在视频中分类单个的对象的方法，其特征在于，该方法在处理器上执行并包括接收视频图像；在所述的视频图像中定位单个对象；确定所述单个对象周围的区域；将所述的区域分为上部分和下部分；确定上部分的颜色信息和下部分的颜色信息；将所述上部分的颜色信息与已知的顶部颜色信息进行比较，将所述下部分的颜色信息与已知的底部颜色信息进行比较；基于比较步骤的结果，标识独立对象的特征。
14.如权利要求13所述的方法，其特征在于，所述的视频图像为运动视频，所述的单个的对象为运动员/裁判员，所述的已知的顶部颜色信息包括球衣颜色信息，所述的已知的底部颜色信息为短裤颜色信息。
15.如权利要求14所示的方法，其特征在于，所述标识单个对象的特征包括确定运动员的组。
16.如权利要求13所述的方法，其特征在于，所述标识单个对象的特征包括确定单个对象的身份。
17.一种非短暂性的、计算机可读的存储介质，具有可执行的程序存储在程序之上或之中，其特征在于，所述的程序指示微处理器以执行下面的步骤在图像中定位对象；在所述图像中确定所述对象周围的区域；基于所述区域中的图像信息，将该区域分成第一部分和第二部分；并且基于所述区域的第一部分中的图像信息和所述区域的第二部分的图像信息对所述进行分类。
18.一种交互式电视系统，包括用于接收视频图像的创作工具，在视频图像中定位对象，将所述对象周围的区域分为第一和第二部分；并基于第一部分中的第一个图像信息以及第二部分中的第二个图像信息来生成元数据。聚合器，用于接收视频图像和元数据，并生成使用元数据进行了增强的视频流；并且传输系统，用于传输使用元数据增强了功能的视频流。
19.如权利要求18所述的系统，其特征在于，进一步包含交互式的电视客户端，经过耦合以便能够接收使用传输系统中的元数据增强了功能的视频流。
20.如权利要求18所述的系统，其特征在于，所述的视频图像包含IPTV图像。
全文摘要
在图像处理方法中，对象(305)位于图像中，基于图像在该区域内的信息，确定对象(305)周围的区域(325)并将其至少分为第一和第二部分。并可以基于区域的第一部分中的图像信息和区域的第二部分的图像信息对该对象(305)进行分类。
文档编号G06K9/48GK102576412SQ201080003841
公开日2012年7月11日申请日期2010年1月13日优先权日2009年1月13日
发明者李红兵, 田军, 虹·希瑟·郁, 黄浴申请人:华为技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄浴;李红兵;田军;虹·希瑟·郁
技术所有人：华为技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。