显示设备、服务器及媒资搜索方法与流程

文档序号：32212301发布日期：2022-11-16 06:27阅读：38来源：国知局

1.本技术涉及语音交互技术领域，尤其涉及一种显示设备、服务器及媒资搜索方法。

背景技术：

2.随着人们生活水平的不断提高和人工智能技术的飞速发展，人们对智能家电的需求也越来越大。电视作为日常生活中最常见的家电之一，也朝着智能化的方向不断发展。目前，智能电视可以通过互联网技术，将影音、娱乐、游戏等功能集于一体。语音助手作为智能电视主打功能之一，提高了电视操作的便捷性，也在很大程度上提升了用户体验。
3.媒资搜索是语音助手的重要使用场景，通过语音助手，人们可语音输入要观看的媒资，智能电视在接收到人们输入的语音后，可联网获取并展示相应的媒资。相关技术中，智能电视仅支持在单一的媒资数据源，如默认的视频点播应用中搜索用户语音输入的媒资，无法满足用户在其他媒资数据源的媒资搜索要求，搜索范围较为有限。

技术实现要素：

4.为解决语音搜索的媒资数据源较为单一的技术问题，本技术提供了一种显示设备、服务器及媒资搜索方法。
5.第一方面，本技术提供了一种显示设备，该显示设备包括：
6.显示器，用于呈现用户界面；
7.控制器，与所述显示器连接，所述控制器被配置为：
8.采集语音媒资搜索指令；
9.响应于所述语音媒资搜索指令，获取所述语音媒资搜索指令的语义解析结果；
10.若所述语义解析结果不包括搜索范围参数，通过默认应用对所述语义解析结果进行响应；
11.若所述语义解析结果包括搜索范围参数，且所述搜索范围参数包括应用标识，通过所述应用标识对应的限定应用对所述语义解析结果进行响应；
12.若所述语义解析结果包括搜索范围参数，且所述搜索范围参数包括网站标识，通过浏览器应用中所述网站标识对应的限定网站对所述语义解析结果进行响应。
13.第二方面，本技术提供了一种服务器，所述服务器被配置为：
14.接收来自显示设备的语音媒资搜索指令；
15.通过预训练的意图识别模型对所述语音媒资搜索指令进行意图识别，得到意图类型和搜索内容参数，所述搜索内容参数包括所述语音媒资搜索指令中的目标媒资的媒资标识；
16.若所述意图类型为默认范围搜索，则生成包括搜索内容参数且不包括搜索范围参数的搜索结果；
17.若所述意图类型为限定范围搜索，则根据所述语音媒资搜索指令中的浏览器状态标识确定浏览器应用的显示状态，若所述显示状态为后台显示，则生成包括搜索内容参数
和搜索范围参数的搜索结果，所述搜索范围参数包括所述语音媒资搜索指令中的应用标识，若所述显示状态为前台显示，则生成包括搜索内容参数和搜索范围参数的搜索结果，所述搜索范围参数包括所述语音媒资搜索指令中的网站标识；
18.向所述显示设备发送所述搜索结果。
19.第三方面，本技术提供了一种媒资搜索方法，该方法包括：
20.采集语音媒资搜索指令；
21.响应于所述语音媒资搜索指令，获取所述语音媒资搜索指令的语义解析结果；
22.若所述语义解析结果不包括搜索范围参数，通过默认应用对所述语义解析结果进行响应；
23.若所述语义解析结果包括搜索范围参数，且所述搜索范围参数包括应用标识，通过所述应用标识对应的限定应用对所述语义解析结果进行响应；
24.若所述语义解析结果包括搜索范围参数，且所述搜索范围参数包括网站标识，通过浏览器应用中所述网站标识对应的限定网站对所述语义解析结果进行响应。
25.本技术提供的显示设备、服务器及媒资搜索方法的有益效果包括：
26.本技术通过在语义解析结果中不设置搜索范围参数表示用默认应用对搜索结果进行响应，通过在语义解析结果中设置搜索范围参数，且搜索范围参数包括应用标识，表示用应用标识对应的限定应用对所述语义解析结果进行响应，通过在语义解析结果中设置搜索范围参数，且搜索范围参数包括网站标识，表示在浏览器用网站标识对应的限定网站对所述语义解析结果进行响应，使得显示设备可在默认应用、限定应用和浏览器进行媒资搜索，给用户提供了更为人性化的媒资搜索服务，提升了显示设备的用户体验。
附图说明
27.为了更清楚地说明本技术的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
28.图1中示例性示出了根据一些实施例的显示设备与控制装置之间操作场景的示意图；
29.图2中示例性示出了根据一些实施例的控制装置100的硬件配置框图；
30.图3中示例性示出了根据一些实施例的显示设备200的硬件配置框图；
31.图4中示例性示出了根据一些实施例的显示设备200中软件配置示意图；
32.图5中示例性示出了根据一些实施例的语音交互原理的示意图；
33.图6中示例性示出了根据一些实施例的语音助手应用的设置界面的示意图；
34.图7中示例性示出了根据一些实施例的语音助手应用的设置界面的示意图；
35.图8中示例性示出了根据一些实施例的语音助手应用的首页界面的示意图；
36.图9中示例性示出了根据一些实施例的媒资搜索的数据传输示意图；
37.图10中示例性示出了根据一些实施例的媒资搜索的时序示意图；
38.图11中示例性示出了根据一些实施例的默认应用的搜索结果界面的示意图；
39.图12中示例性示出了根据一些实施例的限定应用的搜索结果界面的示意图；
40.图13中示例性示出了根据一些实施例的浏览器应用的搜索结果界面的示意图。
具体实施方式
41.为使本技术的目的和实施方式更加清楚，下面将结合本技术示例性实施例中的附图，对本技术示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本技术一部分实施例，而不是全部的实施例。
42.需要说明的是，本技术中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本技术的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。
43.本技术中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。
44.术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
45.术语“模块”是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。
46.图1为根据实施例中显示设备与控制装置之间操作场景的示意图。如图1所示，用户可通过智能设备300或控制装置100操作显示设备200。
47.在一些实施例中，控制装置100可以是遥控器，遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信，及其他短距离通信方式，通过无线或有线方式来控制显示设备200。用户可以通过遥控器上按键、语音输入、控制面板输入等输入用户指令，来控制显示设备200。
48.在一些实施例中，也可以使用智能设备300(如移动终端、平板电脑、计算机、笔记本电脑等)以控制显示设备200。例如，使用在智能设备上运行的应用程序控制显示设备200。
49.在一些实施例中，显示设备200还可以采用除了控制装置100和智能设备300之外的方式进行控制，例如，可以通过显示设备200设备内部配置的获取语音指令的模块直接接收用户的语音指令控制，也可以通过显示设备200设备外部设置的语音控制设备来接收用户的语音指令控制。
50.在一些实施例中，显示设备200还与服务器400进行数据通信。可允许显示设备200通过局域网(lan)、无线局域网(wlan)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。服务器400可以是一个集群，也可以是多个集群，可以包括一类或多类服务器。
51.图2示例性示出了根据示例性实施例中控制装置100的配置框图。如图2所示，控制装置100包括控制器110、通信接口130、用户输入/输出接口140、存储器、供电电源。控制装置100可接收用户的输入操作指令，且将操作指令转换为显示设备200可识别和响应的指令，起用用户与显示设备200之间交互中介作用。
52.图3示出了根据示例性实施例中显示设备200的硬件配置框图。
53.在一些实施例中，显示设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口中的
至少一种。
54.在一些实施例中控制器包括处理器，视频处理器，音频处理器，图形处理器，ram，rom，用于输入/输出的第一接口至第n接口。
55.在一些实施例中，显示器260包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件，用于接收源自控制器输出的图像信号，进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控ui界面。
56.在一些实施例中，显示器260可为液晶显示器、oled显示器、以及投影显示器，还可以为一种投影装置和投影屏幕。
57.在一些实施例中，通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如：通信器可以包括wifi模块，蓝牙模块，有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。显示设备200可以通过通信器220与外部控制设备100或服务器400建立控制信号和数据信号的发送和接收。
58.在一些实施例中，用户接口，可用于接收控制装置100(如：红外遥控器等)的控制信号。
59.在一些实施例中，检测器230用于采集外部环境或与外部交互的信号。例如，检测器230包括光接收器，用于采集环境光线强度的传感器；或者，检测器230包括图像采集器，如摄像头，可以用于采集外部环境场景、用户的属性或用户交互手势，再或者，检测器230包括声音采集器，如麦克风等，用于接收外部声音。
60.在一些实施例中，外部装置接口240可以包括但不限于如下：高清多媒体接口接口(hdmi)、模拟或数据高清分量输入接口(分量)、复合视频输入接口(cvbs)、usb输入接口(usb)、rgb端口等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。
61.在一些实施例中，调谐解调器210通过有线或无线接收方式接收广播电视信号，以及从多个无线或有线广播电视信号中解调出音视频信号，如以及epg数据信号。
62.在一些实施例中，控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。
63.在一些实施例中，控制器250，通过存储在存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。例如：响应于接收到用于选择在显示器260上显示ui对象的用户命令，控制器250便可以执行与由用户命令选择的对象有关的操作。
64.在一些实施例中，所述对象可以是可选对象中的任何一个，例如超链接、图标或其他可操作的控件。与所选择的对象有关操作有：显示连接到超链接页面、文档、图像等操作，或者执行与所述图标相对应程序的操作。
65.在一些实施例中控制器包括中央处理器(central processing unit，cpu)，视频处理器，音频处理器，图形处理器(graphics processing unit，gpu)，ram random access memory，ram)，rom(read-only memory,rom)，用于输入/输出的第一接口至第n接口，通信总线(bus)等中的至少一种。
66.cpu处理器。用于执行存储在存储器中操作系统和应用程序指令，以及根据接收外部输入的各种交互指令，来执行各种应用程序、数据和内容，以便最终显示和播放各种音视
频内容。cpu处理器，可以包括多个处理器。如，包括一个主处理器以及一个或多个子处理器。
67.在一些实施例中，图形处理器，用于产生各种图形对象，如：图标、操作菜单、以及用户输入指令显示图形等。图形处理器包括运算器，通过接收用户输入各种交互指令进行运算，根据显示属性显示各种对象；还包括渲染器，对基于运算器得到的各种对象，进行渲染，上述渲染后的对象用于显示在显示器上。
68.在一些实施例中，视频处理器，用于将接收外部视频信号，根据输入信号的标准编解码协议，进行解压缩、解码、缩放、降噪、帧率转换、分辨率转换、图像合成等视频处理，可得到直接可显示设备200上显示或播放的信号。
69.在一些实施例中，视频处理器，包括解复用模块、视频解码模块、图像合成模块、帧率转换模块、显示格式化模块等。其中，解复用模块，用于对输入音视频数据流进行解复用处理。视频解码模块，用于对解复用后的视频信号进行处理，包括解码和缩放处理等。图像合成模块，如图像合成器，其用于将图形生成器根据用户输入或自身生成的gui信号，与缩放处理后视频图像进行叠加混合处理，以生成可供显示的图像信号。帧率转换模块，用于对转换输入视频帧率。显示格式化模块，用于将接收帧率转换后视频输出信号，改变信号以符合显示格式的信号，如输出rgb数据信号。
70.在一些实施例中，音频处理器，用于接收外部的音频信号，根据输入信号的标准编解码协议，进行解压缩和解码，以及降噪、数模转换、和放大处理等处理，得到可以在扬声器中播放的声音信号。
71.在一些实施例中，用户可在显示器260上显示的图形用户界面(gui)输入用户命令，则用户输入接口通过图形用户界面(gui)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。
72.在一些实施例中，“用户界面”，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(graphic user interface，gui)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、widget等可视的界面元素。
73.在一些实施例中，显示设备的系统可以包括内核(kernel)、命令解析器(shell)、文件系统和应用程序。内核、shell和文件系统一起组成了基本的操作系统结构，它们让用户可以管理文件、运行程序并使用系统。上电后，内核启动，激活内核空间，抽象硬件、初始化硬件参数等，运行并维护虚拟内存、调度器、信号及进程间通信(ipc)。内核启动后，再加载shell和用户应用程序。应用程序在启动后被编译成机器码，形成一个进程。
74.显示设备的系统可以包括内核(kernel)、命令解析器(shell)、文件系统和应用程序。内核、shell和文件系统一起组成了基本的操作系统结构，它们让用户可以管理文件、运行程序并使用系统。上电后，内核启动，激活内核空间，抽象硬件、初始化硬件参数等，运行并维护虚拟内存、调度器、信号及进程间通信(ipc)。内核启动后，再加载shell和用户应用程序。应用程序在启动后被编译成机器码，形成一个进程。
75.显示设备的系统可以包括内核(kernel)、命令解析器(shell)、文件系统和应用程序。内核、shell和文件系统一起组成了基本的操作系统结构，它们让用户可以管理文件、运行程序并使用系统。上电后，内核启动，激活内核空间，抽象硬件、初始化硬件参数等，运行并维护虚拟内存、调度器、信号及进程间通信(ipc)。内核启动后，再加载shell和用户应用程序。应用程序在启动后被编译成机器码，形成一个进程。
76.如图4所示，将显示设备的系统分为三层，从上至下分别为应用层、中间件层和硬件层。
77.应用层主要包含电视上的常用应用，以及应用框架(application framework)，其中，常用应用主要是基于浏览器browser开发的应用，例如：html5 apps；以及原生应用(native apps)；
78.应用框架(application framework)是一个完整的程序模型，具备标准应用软件所需的一切基本功能，例如：文件存取、资料交换...，以及这些功能的使用接口(工具栏、状态列、菜单、对话框)。
79.原生应用(native apps)可以支持在线或离线，消息推送或本地资源访问。
80.中间件层包括各种电视协议、多媒体协议以及系统组件等中间件。中间件可以使用系统软件所提供的基础服务(功能)，衔接网络上应用系统的各个部分或不同的应用，能够达到资源共享、功能共享的目的。
81.硬件层主要包括hal接口、硬件以及驱动，其中，hal接口为所有电视芯片对接的统一接口，具体逻辑由各个芯片来实现。驱动主要包含：音频驱动、显示驱动、蓝牙驱动、摄像头驱动、wifi驱动、usb驱动、hdmi驱动、传感器驱动(如指纹传感器，温度传感器，压力传感器等)、以及电源驱动等。
82.在一些实施例中的硬件或软件架构可以基于上述实施例中的介绍，在一些实施例中可以是基于相近的其他硬件或软件架构，可以实现本技术的技术方案即可。
83.为清楚说明本技术的实施例，下面结合图5对本技术实施例提供的一种语音识别网络架构进行描述。
84.参见图5，为一些实施例中的语音识别网络架构示意图。图5中，智能设备用于接收输入的信息以及输出对该信息的处理结果。语音识别服务设备为部署有语音识别服务的电子设备，语义服务设备为部署有语义服务的电子设备，业务服务设备为部署有业务服务的电子设备。这里的电子设备可包括服务器、计算机等，这里的语音识别服务、语义服务(也可称为语义引擎)和业务服务为可部署在电子设备上的web服务，其中，语音识别服务用于将音频识别为文本，语义服务用于对文本进行语义解析，业务服务用于提供具体的服务如墨迹天气的天气查询服务、qq音乐的音乐查询服务等。在一个实施例中，图5所示架构中可存在部署有不同业务服务的多个实体服务设备，也可以一个或多个实体服务设备中集合一项或多项功能服务。
85.一些实施例中，下面对基于图5所示架构处理输入智能设备的信息的过程进行举例描述，以输入智能设备的信息为通过语音输入的查询语句为例，上述过程可包括如下三个过程：
86.[语音识别]
[0087]
智能设备可在接收到通过语音输入的查询语句后，将该查询语句的音频上传至语
音识别服务设备，以由语音识别服务设备通过语音识别服务将该音频识别为文本后返回至智能设备。在一个实施例中，将查询语句的音频上传至语音识别服务设备前，智能设备可对查询语句的音频进行去噪处理，这里的去噪处理可包括去除回声和环境噪声等步骤。
[0088]
[语义理解]
[0089]
智能设备将语音识别服务识别出的查询语句的文本上传至语义服务设备，以由语义服务设备通过语义服务对该文本进行语义解析，得到文本的业务领域、意图等。
[0090]
[语义响应]
[0091]
语义服务设备根据对查询语句的文本的语义解析结果，向相应的业务服务设备下发查询指令以获取业务服务给出的搜索结果。智能设备可从语义服务设备获取该搜索结果并输出。作为一个实施例，语义服务设备还可将对查询语句的语义解析结果发送至智能设备，以由智能设备输出该语义解析结果中的反馈语句。
[0092]
需要说明的是，图5所示架构只是一种示例，并非对本技术保护范围的限定。本技术实施例中，也可采用其他架构来实现类似功能，例如：三个过程全部或部分可以由智能终端来完成，在此不做赘述。
[0093]
在一些实施例中，图5所示的智能设备可为显示设备，如智能电视，语音识别服务设备的功能可由显示设备上设置的声音采集器和控制器配合实现，语义服务设备和业务服务设备的功能可由显示设备的控制器实现，或者由显示设备的服务器来实现。
[0094]
在一些实施例中，图5所示的语音识别服务设备、语义服务设备和业务服务设备可由显示设备的一个服务器或多个服务器来实现。
[0095]
在一些实施例中，用户通过语音输入显示设备的查询语句或其他交互语句可称为语音指令。
[0096]
在一些实施例中，显示设备从语义服务设备获取到的是业务服务给出的搜索结果，显示设备可对该搜索结果进行分析，生成语音指令的响应数据，然后根据响应数据控制显示设备执行相应的动作。
[0097]
在一些实施例中，显示设备从语义服务设备获取到的是语音指令的语义解析结果，显示设备可对该语义解析结果进行分析，生成响应数据，然后根据响应数据控制显示设备执行相应的动作。
[0098]
在一些实施例中，显示设备的遥控器上可设置有语音控制按键，用户按住遥控器上的语音控制按键后，显示设备的控制器可控制显示设备的显示器显示语音交互界面，并控制声音采集器，如麦克风，采集显示设备周围的声音。此时，用户可向显示设备输入语音指令。
[0099]
在一些实施例中，显示设备可支持语音唤醒功能，显示设备的声音采集器可处于持续采集声音的状态。用户说出唤醒词后，显示设备对用户输入的语音指令进行语音识别，识别出语音指令为唤醒词后，可控制显示设备的显示器显示语音交互界面，此时，用户可继续向显示设备输入语音指令。
[0100]
在一些实施例中，在用户输入一个语音指令后，在显示设备获取语音指令的响应数据或显示设备根据响应数据进行响应的过程中，显示设备的声音采集器可保持声音采集的状态，用户可随时按住遥控器上的语音控制按键重新输入语音指令，或者说出唤醒词，此时，显示设备可结束上一次的语音交互进程，根据用户新输入的语音指令，开启新的语音交
互进程，从而保障语音交互的实时性。
[0101]
用户通过与显示设备进行语音交互，可以实现在显示设备上进行媒资搜索以及对显示设备进行设备控制，其中，设备控制可包括调节音量、调节亮度等等。
[0102]
在一些实施例中，用户在与显示设备进行语音交互之前，可先对语音助手应用进行设置。用户可在显示设备的首页上点击设置控件，进入设置界面，设置界面可设置有语音助手控件，用户点击语音助手控件，可进入语音助手应用的设置界面。
[0103]
参见图6，在一些实施例中，显示设备支持多种语音助手，如第一语音助手、第二语音助手、第三语音助手，用户可按遥控器上的上键或下键切换选中的语音助手控件，然后按确定键启用当前选中的语音助手。示例性的，图6中的第三语音助手为显示设备方开发的语音助手，该语音助手可支持多个数据源的媒资搜索以及多种语言的媒资搜索，本技术主要对该语音助手的媒资搜索功能进行介绍。
[0104]
若用户在图6中点击语音助手语言这一控件，则可进入图7所示的设置界面，用户可在该界面选择一种语音助手应用的交互语言。
[0105]
为便于用户掌握语音交互方法，在一些实施例中，用户在唤醒语音助手后，若在预设时间内没有输入语音，或者用户在显示设备上点击语音助手的图标，均可进入图8所示的语音助手应用的首页界面。
[0106]
参见图8，语音助手应用的首页界面可设置有电影搜索和电视控制的语音交互提示，该提示仅为示例性的，实际实施例中，该首页界面还可设置有其他语音交互提示。
[0107]
下面以用户在显示设备上进行媒资搜索为例介绍语音交互过程。
[0108]
为对语音交互过程进行说明，图9示出了根据一些实施例的媒资搜索的数据传输示意图。如图9所示，在媒资搜索过程中，显示设备上的语音助手可与服务器上的云平台进行交互，实现在浏览器搜索媒资、在目标app上搜索媒资、在云平台中的媒资平台搜索媒资等多种媒资搜索功能。
[0109]
如图9所示，在一些实施例中，语音助手可设置有vvs(vidaa voice service，语音助手应用的语音服务模块)和命令响应模块，其中，vvs可接收显示设备的遥控器、麦克风、语音交互app等多种来源的语音指令，其中，该语音指令可为语音流，语音交互app即语音助手。用户通过遥控器、麦克风或语音交互app进行语音输入后，vvs将用户输入的语音进行编码，得到语音流，将语音流发送到服务器中的云平台，以获取语音平台返回的终端可执行命令，将该终端可执行命令传递至命令响应模块进行处理。
[0110]
在一些实施例中，若用户输入的语音指令为语音媒资搜索指令，该指令包含搜索一个目标媒资的查询语句，则命令响应模块接收到的终端可执行命令可能为目标媒资的搜索命令，命令响应模块可执行该搜索命令，在浏览器、限定应用或云平台中的媒资平台上搜索目标媒资；若用户输入的语音指令为显示设备的控制语句，则命令响应模块接收到的终端可执行命令可能为设备控制命令，命令响应模块可执行该设备控制命令，对显示设备进行设备控制，如打开一个应用，启动一个应用、切换频道、关机、音量调整等等。
[0111]
如图9所示，在一些实施例中，云平台可包括媒资平台和语音平台，其中，媒资平台为显示设备自有媒资库的展示平台，显示设备出厂自带的视频点播程序可对该媒资平台内的媒资进行搜索、展示以及播放。在一些实施例中，显示设备可被配置为在开机后自动进入该视频点播程序的首页，用户可以在该首页选择一个媒资进行播放。
[0112]
在一些实施例中，语音平台设置有语音服务模块和sdk。语音服务模块可将用户输入的语音流传递至sdk(software development kit，软件开发包)。sdk与dialogflow agent(对话流代理)通信连接，sdk可为dialogflow sdk，该sdk封装了谷歌原生的sdk，增加与tv的通信协议后，可将语音流传递给dialogflow的云端代理，即dialogflow agent，然后接收dialogflow agent对语音流的意图识别结果，将意图识别结果发送到语音服务模块，意图识别结果包括意图和实体等数据，意图可为业务处理类型，如自有媒资搜索、限定应用搜索和浏览器搜索等等，实体可包括语音流的文本。语音服务模块根据意图识别结果生成终端可执行命令，将终端可执行命令发送到语音助手的vss。其中，该终端可执行命令可作为语音指令的语义解析结果。
[0113]
在一些实施例中，dialogflow agent为自然语言理解单元，dialogflow agent可通过预先训练的意图识别模型，对语音流进行处理，生成格式化的语义文本，便于语音平台进行语义解析。
[0114]
在一些实施例中，意图识别模型的训练方法包括：采集多语种的语料，例如英语、德语、法语等语种的语料，将其划分为训练语料和测试语料；然后在dialogflow agent上创建相应的intent(意图)和entity(实体)，将训练语料填充到意图中，然后进行训练，构建agent；最后通过测试命令集对agent进行测试，若agent能较大概率成功识别出测试语料的意图，则结束模型训练，若识别成功的几率较低，则继续进行训练，直到训练结果符合要求。
[0115]
根据图9所示的数据传输过程可以看出，语音助手通过对服务器返回的终端可执行命令进行分析，可得到用户在语音指令中指定的搜索范围，从而可在用户指定的搜索范围内进行搜索，从而得到符合用户需求的搜索结果。其中，搜索范围可包括显示设备的自有媒资平台、指定应用如youtube或指定网站如谷歌。
[0116]
根据图9所示的数据传输过程，在一些实施例中，用户通过语音助手进行媒资搜索的过程可参见图10，为根据一些实施例的媒资搜索的时序示意图。
[0117]
如图10所示，在一些实施例中，用户可通过遥控器、远场语音、语音助手app等方式向显示设备输入语音指令，该语音指令可为语音媒资搜索指令，包括查询语句。示例性的，查询语句可分为三种类型：第一种为无限制范围的查询，例如，“查找电影a”，在该查询语句中，目标媒资为电影a；第二种为限制应用范围的查询，例如，“在应用b上查找电影a”，在该查询语句中，目标媒资为电影a，限定应用为应用b，查询范围被限制为仅限于该限定应用；第三种为限制网站范围的查询，例如，“在网站c上查找电影a”，在该查询语句中，目标媒资为电影a，限定网站为网站c，查询范围被限制为仅限于该限定网站。
[0118]
在一些实施例中，显示设备的收音模块在接收在用户的语音指令后，可将语音指令传递给显示设备的控制器，显示设备的控制器可获取显示设备的终端参数，生成包含终端参数和语音指令的语音识别请求。示例性的，终端参数可包括如下参数：deviceid(设备标识)、languagecode(语言代码)、browseronfront(浏览器前台显示)等参数。其中browseronfront设置有两个取值，分别为0和1，当browseronfront的值为0时，表示显示设备的前台应用不是浏览器应用，当browseronfront的值为1时，表示显示设备的前台应用是浏览器应用，该浏览器应用可为显示设备的默认浏览器应用。显示设备的控制器可调用语音服务器对外暴露的服务接口，将语音识别请求通过该服务接口发送给语音服务器。
[0119]
在一些实施例中，语音服务器上的语音平台在接收到语音识别请求后，可通过
dialogflow sdk将语音指令上传至dialogflow agent。
[0120]
在一些实施例中，dialogflow agent将语音指令输入预先训练好的意图识别模型，然后获取意图识别模型输出的意图识别结果。意图识别结果可包括意图代码、意图参数以及语音指令转换成的原始文本。其中，意图代码用于表示意图类型。例如，对于查询语句“查找电影a”、“在应用b上查找电影a”、“在网站c上查找电影a”，其意图代码均可为“video.search(电影查询)”。意图参数可包括searchtarget(搜索范围)和/或searchcriterias(搜索内容)，对于查询语句“查找电影a”，其意图参数包括搜索内容，搜索内容可包括“电影a”；对于查询语句“在应用b上查找电影a”，其意图参数包括搜索范围和搜索内容，搜索范围可包括“应用b”，搜索内容可包括“电影a”；对于查询语句“在网站c上查找电影a”，其意图参数包括搜索内容，搜索内容可包括“电影a”。
[0121]
在一些实施例中，由于环境噪音干扰、用户语速较快等原因，意图识别模型可能得不到语音指令对应的意图代码、意图参数和/或语音指令转换成的原始文本，此时，意图识别模型可输出default(默认)结果或预制的欢迎语意图，例如：“刚才我打盹了，能重新说一次吗？”[0122]
在一些实施例中，dialogflow agent将意图识别结果通过dialogflow sdk返回至语音服务器。
[0123]
在一些实施例中，语音服务器在接收到意图识别结果后，可根据意图识别结果中的意图代码，将意图识别结果和显示设备的终端参数分发至相应的微服务中。
[0124]
例如，根据意图代码为电影查询，将意图识别结果和显示设备的终端参数发送至媒资搜索微服务中。根据语义解析结果为default(默认)结果或预制的欢迎语意图，则将意图识别结果和显示设备的终端参数发送至重新收音微服务中。
[0125]
在一些实施例中，媒资搜索微服务支持三种语音交互场景的业务处理，第一种场景是无限制范围的查询，第二种场景是限制应用范围的查询，第三种场景是限制网站范围的查询。媒资搜索微服务可根据意图识别结果中的意图参数和显示设备的终端参数确定语音交互场景。示例性的，根据图参数中不包含搜索范围，则确定语音交互场景为第一种场景，根据意图参数包含搜索范围，则确定语音交互场景为第二种场景；根据终端参数中browseronfront的值为1，则确定语音交互场景为第三种场景。
[0126]
在一些实施例中，媒资搜索微服务在确定语音交互场景后，可通过该场景对应的预定义格式对意图参数进行封装，得到语义解析结果，然后将该语义解析结果返回给显示设备，该语义解析结果可包括终端可执行指令。
[0127]
在一些实施例中，媒资搜索微服务生成的语义解析结果中还包括搜索命令参数，该搜索命令参数表示需要执行搜索操作。该搜索命令参数可为：“connector.device.commmand.searach”。显示设备在接收到语义解析结果后，可在语义解析结果中检测搜索命令参数，若检测到搜索命令参数，则确定需要执行媒资搜索。
[0128]
在一些实施例中，重新收音微服务生成的语义解析结果中还包括重新收音命令参数，该重新收音命令参数表示需要执行重新收音操作，显示设备在接收到语义解析结果后，可在语义解析结果中检测重新收音命令参数，若检测到重新收音命令参数，则确定需要执行重新收音操作。
[0129]
在一些实施例中，显示设备在语义解析结果中检测到搜索命令参数，检测不到
searchtarget字段，则确定需要在自有媒资库中搜索范围媒资。显示设备可启动媒资点播应用，在所述媒资点播应用中搜索所述语义解析结果中的目标媒资，在得到搜索结果后，将搜索结果进行展示。媒资点播应用的搜索结果界面可参见图11，如图11所示，媒资点播应用可在搜索结果界面展示多个以语音指令中的目标媒资作为关键词搜索到的媒资。
[0130]
在一些实施例中，显示设备在语义解析结果中检测到搜索命令参数和searchtarget字段，则确定需要在限定范围中搜索范围媒资。显示设备可获取searchtarget字段中的key(关键)值，若该key值为限定应用的标识，如一个应用名称，启动该key值对应的限定应用，然后在限定应用中搜索所述语义解析结果中的目标媒资，在得到搜索结果后，将搜索结果进行展示限定应用的搜索结果界面可参见图12，如图12所示，限定应用可在搜索结果界面展示多个以语音指令中的目标媒资作为关键词搜索到的媒资以及一些推荐媒资。
[0131]
在一些实施例中，显示设备在语义解析结果中检测到搜索命令参数和searchtarget字段，则确定需要在限定应用中搜索范围媒资。显示设备可获取searchtarget字段中的key(关键)值，若该key值可为限定网站的标识，如一个网站名称，启动浏览器应用，跳转至该key值对应的限定网站，然后在限定网站中搜索所述语义解析结果中的目标媒资，在得到搜索结果后，将搜索结果进行展示。限定网站的搜索结果界面可参见图13，如图13所示，限定网站可在搜索结果界面展示多个以语音指令中的目标媒资作为关键词搜索到的搜索结果。
[0132]
由上述实施例可见，本技术通过在语义解析结果中不设置搜索范围参数表示用默认应用对搜索结果进行响应，通过在语义解析结果中设置搜索范围参数，且搜索范围参数包括应用标识，表示用应用标识对应的限定应用对所述语义解析结果进行响应，通过在语义解析结果中设置搜索范围参数，且搜索范围参数包括网站标识，表示在浏览器用网站标识对应的限定网站对所述语义解析结果进行响应，使得显示设备可在默认应用、限定应用和浏览器进行媒资搜索，并且支持多语言搜索，给用户提供了更为人性化的媒资搜索服务，提升了显示设备的用户体验。
[0133]
最后应说明的是：以上各实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述各实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的范围。
[0134]
为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用，从而使得本领域技术人员更好的使用所述实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：雷将刘源胡帆
技术所有人：VIDAA（荷兰）国际控股有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。