显示设备、文本纠错方法及服务器与流程

文档序号:29067953发布日期:2022-03-01 20:05阅读:170来源:国知局
显示设备、文本纠错方法及服务器与流程

1.本技术涉及显示设备技术领域,尤其涉及一种显示设备、文本纠错方法及服务器。


背景技术:

2.随着计算机、大数据以及机器学习的发展,拼写纠错技术已经被广泛应用与中英文输入法、文档编辑工具、搜索工具、ocr以及语音识别等诸多领域。拼写纠错技术最先提出于作为全球用户最多的英语,经过几十年的发展,先后出现了基于规则、统计和特征的技术,准确率也较可观。相比而言,中文纠错由于起步晚,且中文相比英文更加复杂,加之学者在中文纠错的研究方面投入较少,因此目前中文纠错性能和准确率较低,成熟可用的工具较少。
3.中文输入数据的准确性是自然语言处理常见任务的基本前提,也是提高上层应用性能的关键。相关技术中,基于lstm+crf的检错技术因受限于依赖大量标注样本而难以普遍落地,而基于n-gram的检错技术也因“硬性”的判别规则造成算法性能低下,导致检错效率不高。


技术实现要素:

4.为解决上述技术问题,本技术提供了一种显示设备、文本纠错方法及服务器。
5.第一方面,本技术提供了一种显示设备,该显示设备包括:
6.显示器;
7.控制器,与所述显示器连接,所述控制器被配置为:
8.响应于接收到用户输入的语音命令,对所述语音命令进行语音转换,得到待纠错文本;
9.控制显示器显示所述待纠错文本;
10.基于音形相近混淆集和图注意力机制对所述待纠错文本进行纠错,得到初始纠错文本;
11.对所述待纠错文本和初始纠错文本进行候选召回,根据召回文本的排序结果得到最终纠错文本;
12.控制显示器将所述待纠错文本刷新为最终纠错文本。
13.在一些实施例中,所述基于音形相近混淆集和图注意力机制对所述待纠错文本进行纠错,包括:
14.对待纠错文本进行特征抽取,得到初始表征矩阵;
15.根据音形相近混淆集创建所述待纠错文本中每个字符的邻接矩阵;
16.将所述初始表征矩阵和邻接矩阵输入多层图卷积神经网络,得到下一层表征矩阵;
17.根据图注意力机制得到所述多层图卷积神经网络的最后一层表征矩阵;
18.通过全连接层和概率归一化函数生成字符。
19.在一些实施例中,所述根据音形相近混淆集创建所述待纠错文本中每个字符的邻接矩阵,包括:
20.获取所述待纠错文本中每个字符在音形相近混淆集中的发音相似字符和形状相似字符;
21.将所述待纠错文本中的字符、发音相似字符和字库中的字符作为节点,将字符之间的关系作为边,建立发音相似邻接矩阵;
22.将所述待纠错文本中的字符、形状相似字符和字库中的字符作为节点,将字符之间的关系作为边,建立形状相似邻接矩阵。
23.在一些实施例中,所述将所述初始表征矩阵和邻接矩阵输入多层图卷积神经网络,得到下一层表征矩阵,包括:
24.将所述邻接矩阵与单位矩阵相加,得到邻接估计矩阵;
25.计算所述邻接估计矩阵对应的对角矩阵,得到对角估计矩阵;
26.根据所述邻接估计矩阵、对角估计矩阵和初始表征矩阵,得到下一层表征矩阵。
27.在一些实施例中,所述根据图注意力机制得到所述多层图卷积神经网络的最后一层表征矩阵,包括:
28.采用注意力机制,计算知识融合的注意力表征矩阵;
29.根据所述注意力表征矩阵和每一层表征矩阵的和,得到最后一层表征矩阵。
30.第二方面,本技术实施例提供了一种文本纠错方法,用于显示设备,该方法包括:
31.基于音形相近混淆集和图注意力机制对待纠错文本进行纠错,得到初始纠错文本,
32.对所述待纠错文本和初始纠错文本进行候选召回,得到召回文本;
33.对所述召回文本进行排序,根据排序结果得到所述待纠错文本对应的最终纠错文本。
34.第三方面,本技术实施例提供了一种服务器,该服务器被配置为:
35.接收来自显示设备的待纠错文本;
36.基于音形相近混淆集和图注意力机制对所述待纠错文本进行纠错,得到初始纠错文本,
37.对所述待纠错文本和初始纠错文本进行候选召回,根据召回文本的排序结果得到最终纠错文本;
38.向所述显示设备发送所述最终纠错文本。
39.本技术提供的显示设备、文本纠错方法及服务器的有益效果包括:
40.本技术实施例根据待纠错文本对应的混淆集生成发音相似知识图谱和形状相近知识图谱,将汉字的拼音及字形相关知识融入图神经网络,抽取相近字符间的深层语义信息,可有效利用音形相近的知识,提高检错纠错的正确率及召回率。
附图说明
41.为了更清楚地说明本技术的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
42.图1中示例性示出了根据一些实施例的显示设备与控制装置之间操作场景的示意图;
43.图2中示例性示出了根据一些实施例的显示设备200的硬件配置框图;
44.图3中示例性示出了根据一些实施例的控制装置100的硬件配置框图;
45.图4中示例性示出了根据一些实施例的显示设备200中软件配置示意图;
46.图5中示例性示出了根据一些实施例的显示设备200中应用程序的图标控件界面显示示意图;
47.图6中示例性示出了根据一些实施例的文本纠错的整体流程示意图;
48.图7中示例性示出了根据一些实施例的文本纠错方法的流程示意图;
49.图8中示例性示出了根据一些实施例的端到端的检错纠错模型的结构示意图;
50.图9中示例性示出了根据一些实施例的待纠错文本的解析方法的流程示意图;
51.图10中示例性示出了根据一些实施例的邻接矩阵的创建方法的流程示意图;
52.图11中示例性示出了根据一些实施例的语音交互界面示意图;
53.图12中示例性示出了根据一些实施例的语音交互界面示意图;
54.图13中示例性示出了根据一些实施例的语音交互界面示意图。
具体实施方式
55.为使本技术的目的、实施方式和优点更加清楚,下面将结合本技术示例性实施例中的附图,对本技术示例性实施方式进行清楚、完整地描述,显然,所描述的示例性实施例仅是本技术一部分实施例,而不是全部的实施例。
56.基于本技术描述的示例性实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术所附权利要求保护的范围。此外,虽然本技术中公开内容按照示范性一个或几个实例来介绍,但应理解,可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。
57.需要说明的是,本技术中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本技术的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
58.本技术中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明(unless otherwise indicated)。应该理解这样使用的用语在适当情况下可以互换,例如能够根据本技术实施例图示或描述中给出那些以外的顺序实施。
59.此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的那些组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
60.本技术中使用的术语“模块”,是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合,能够执行与该元件相关的功能。
61.本技术中使用的术语“遥控器”,是指电子设备(如本技术中公开的显示设备)的一个组件,通常可在较短的距离范围内无线控制电子设备。一般使用红外线和/或射频(rf)信号和/或蓝牙与电子设备连接,也可以包括wifi、无线usb、蓝牙、动作传感器等功能模块。例
如:手持式触摸遥控器,是以触摸屏中用户界面取代一般遥控装置中的大部分物理内置硬键。
62.本技术中使用的术语“手势”,是指用户通过一种手型的变化或手部运动等动作,用于表达预期想法、动作、目的/或结果的用户行为。
63.图1中示例性示出了根据实施例中显示设备与控制装置之间操作场景的示意图。如图1中示出,用户可通过移动终端300和控制装置100操作显示设备200。
64.在一些实施例中,控制装置100可以是遥控器,遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信,及其他短距离通信方式等,通过无线或其他有线方式来控制显示设备200。用户可以通过遥控器上按键,语音输入、控制面板输入等输入用户指令,来控制显示设备200。如:用户可以通过遥控器上音量加减键、频道控制键、上/下/左/右的移动按键、语音输入按键、菜单键、开关机按键等输入相应控制指令,来实现控制显示设备200的功能。
65.在一些实施例中,也可以使用移动终端、平板电脑、计算机、笔记本电脑、和其他智能设备以控制显示设备200。例如,使用在智能设备上运行的应用程序控制显示设备200。该应用程序通过配置可以在与智能设备关联的屏幕上,在直观的用户界面(ui)中为用户提供各种控制。
66.在一些实施例中,移动终端300可与显示设备200安装软件应用,通过网络通信协议实现连接通信,实现一对一控制操作的和数据通信的目的。如:可以实现用移动终端300与显示设备200建立控制指令协议,将遥控控制键盘同步到移动终端300上,通过控制移动终端300上用户界面,实现控制显示设备200的功能。也可以将移动终端300上显示音视频内容传输到显示设备200上,实现同步显示功能。
67.如图1中还示出,显示设备200还与服务器400通过多种通信方式进行数据通信。可允许显示设备200通过局域网(lan)、无线局域网(wlan)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。示例的,显示设备200通过发送和接收信息,以及电子节目指南(epg)互动,接收软件程序更新,或访问远程储存的数字媒体库。服务器400可以是一个集群,也可以是多个集群,可以包括一类或多类服务器。通过服务器400提供视频点播和广告服务等其他网络服务内容。
68.显示设备200,可以液晶显示器、oled显示器、投影显示设备。具体显示设备类型,尺寸大小和分辨率等不作限定,本领技术人员可以理解的是,显示设备200可以根据需要做性能和配置上一些改变。
69.显示设备200除了提供广播接收电视功能之外,还可以附加提供计算机支持功能的智能网络电视功能,包括但不限于,网络电视、智能电视、互联网协议电视(iptv)等。
70.图2中示例性示出了根据示例性实施例中显示设备200的硬件配置框图。
71.在一些实施例中,显示设备200中包括控制器250、调谐解调器210、通信器220、检测器230、输入/输出接口255、显示器275,音频输出接口285、存储器260、供电电源290、用户接口265、外部装置接口240中的至少一种。
72.在一些实施例中,显示器275,用于接收源自第一处理器输出的图像信号,进行显示视频内容和图像以及菜单操控界面的组件。
73.在一些实施例中,显示器275,包括用于呈现画面的显示屏组件,以及驱动图像显
示的驱动组件。
74.在一些实施例中,显示视频内容,可以来自广播电视内容,也可以是说,可通过有线或无线通信协议接收的各种广播信号。或者,可显示来自网络通信协议接收来自网络服务器端发送的各种图像内容。
75.在一些实施例中,显示器275用于呈现显示设备200中产生且用于控制显示设备200的用户操控ui界面。
76.在一些实施例中,根据显示器275类型不同,还包括用于驱动显示的驱动组件。
77.在一些实施例中,显示器275为一种投影显示器,还可以包括一种投影装置和投影屏幕。
78.在一些实施例中,通信器220是用于根据各种通信协议类型与外部设备或外部服务器进行通信的组件。例如:通信器可以包括wifi芯片,蓝牙通信协议芯片,有线以太网通信协议芯片等其他网络通信协议芯片或近场通信协议芯片,以及红外接收器中的至少一种。
79.在一些实施例中,显示设备200可以通过通信器220与外部控制装置100或内容提供设备之间建立控制信号和数据信号发送和接收。
80.在一些实施例中,用户接口265,可用于接收控制装置100(如:红外遥控器等)红外控制信号。
81.在一些实施例中,检测器230是显示设备200用于采集外部环境或与外部交互的信号。
82.在一些实施例中,检测器230包括光接收器,用于采集环境光线强度的传感器,可以通过采集环境光可以自适应性显示参数变化等。
83.在一些实施例中,检测器230还可以包括图像采集器,如相机、摄像头等,可以用于采集外部环境场景,以及用于采集用户的属性或与用户交互手势,可以自适应变化显示参数,也可以识别用户手势,以实现与用户之间互动的功能。
84.在一些实施例中,检测器230还可以包括温度传感器等,如通过感测环境温度。
85.在一些实施例中,显示设备200可自适应调整图像的显示色温。如当温度偏高的环境时,可调整显示设备200显示图像色温偏冷色调,或当温度偏低的环境时,可以调整显示设备200显示图像偏暖色调。
86.在一些实施例中,检测器230还可声音采集器等,如麦克风,可以用于接收用户的声音。示例性的,包括用户控制显示设备200的控制指令的语音信号,或采集环境声音,用于识别环境场景类型,使得显示设备200可以自适应适应环境噪声。
87.在一些实施例中,如图2所示,输入/输出接口255被配置为,可进行控制器250与外部其他设备或其他控制器250之间的数据传输。如接收外部设备的视频信号数据和音频信号数据、或命令指令数据等。
88.在一些实施例中,外部装置接口240可以包括,但不限于如下:可以高清多媒体接口hdmi接口、模拟或数据高清分量输入接口、复合视频输入接口、usb输入接口、rgb端口等任一个或多个接口。也可以是上述多个接口形成复合性的输入/输出接口。
89.在一些实施例中,如图2所示,调谐解调器210被配置为,通过有线或无线接收方式接收广播电视信号,可以进行放大、混频和谐振等调制解调处理,从多个无线或有线广播电
视信号中解调出音视频信号,该音视频信号可以包括用户所选择电视频道频率中所携带的电视音视频信号,以及epg数据信号。
90.在一些实施例中,调谐解调器210解调的频点受到控制器250的控制,控制器250可根据用户选择发出控制信号,以使的调制解调器响应用户选择的电视信号频率以及调制解调该频率所携带的电视信号。
91.在一些实施例中,广播电视信号可根据电视信号广播制式不同区分为地面广播信号、有线广播信号、卫星广播信号或互联网广播信号等。或者根据调制类型不同可以区分为数字调制信号,模拟调制信号等。或者根据信号种类不同区分为数字信号、模拟信号等。
92.在一些实施例中,控制器250和调谐解调器210可以位于不同的分体设备中,即调谐解调器210也可在控制器250所在的主体设备的外置设备中,如外置机顶盒等。这样,机顶盒将接收到的广播电视信号调制解调后的电视音视频信号输出给主体设备,主体设备经过第一输入/输出接口接收音视频信号。
93.在一些实施例中,控制器250,通过存储在存储器上中各种软件控制程序,来控制显示设备的工作和响应用户的操作。控制器250可以控制显示设备200的整体操作。例如:响应于接收到用于选择在显示器275上显示ui对象的用户命令,控制器250便可以执行与由用户命令选择的对象有关的操作。
94.在一些实施例中,所述对象可以是可选对象中的任何一个,例如超链接或图标。与所选择的对象有关操作,例如:显示连接到超链接页面、文档、图像等操作,或者执行与所述图标相对应程序的操作。用于选择ui对象用户命令,可以是通过连接到显示设备200的各种输入装置(例如,鼠标、键盘、触摸板等)输入命令或者与由用户说出语音相对应的语音命令。
95.如图2所示,控制器250包括随机存取存储器251(random access memory,ram)、只读存储器252(read-only memory,rom)、视频处理器270、音频处理器280、其他处理器253(例如:图形处理器(graphics processing unit,gpu)、中央处理器254(central processing unit,cpu)、通信接口(communication interface),以及通信总线256(bus)中的至少一种。其中,通信总线连接各个部件。
96.在一些实施例中,ram 251用于存储操作系统或其他正在运行中的程序的临时数据。
97.在一些实施例中,rom 252用于存储各种系统启动的指令。
98.在一些实施例中,rom 252用于存储一个基本输入输出系统,称为基本输入输出系统(basic input output system,bios)。用于完成对系统的加电自检、系统中各功能模块的初始化、系统的基本输入/输出的驱动程序及引导操作系统。
99.在一些实施例中,在收到开机信号时,显示设备200电源开始启动,cpu运行rom 252中系统启动指令,将存储在存储器的操作系统的临时数据拷贝至ram 251中,以便于启动或运行操作系统。当操作系统启动完成后,cpu再将存储器中各种应用程序的临时数据拷贝至ram 251中,然后,以便于启动或运行各种应用程序。
100.在一些实施例中,cpu处理器254,用于执行存储在存储器中操作系统和应用程序指令。以及根据接收外部输入的各种交互指令,来执行各种应用程序、数据和内容,以便最终显示和播放各种音视频内容。
101.在一些示例性实施例中,cpu处理器254,可以包括多个处理器。多个处理器可包括一个主处理器以及一个或多个子处理器。主处理器,用于在预加电模式中执行显示设备200一些操作,和/或在正常模式下显示画面的操作。一个或多个子处理器,用于在待机模式等状态下一种操作。
102.在一些实施例中,图形处理器253,用于产生各种图形对象,如:图标、操作菜单、以及用户输入指令显示图形等。包括运算器,通过接收用户输入各种交互指令进行运算,根据显示属性显示各种对象。以及包括渲染器,对基于运算器得到的各种对象,进行渲染,上述渲染后的对象用于显示在显示器上。
103.在一些实施例中,视频处理器270被配置为将接收外部视频信号,根据输入信号的标准编解码协议,进行解压缩、解码、缩放、降噪、帧数转换、分辨率转换、图像合成等等视频处理,可得到直接可显示设备200上显示或播放的信号。
104.在一些实施例中,视频处理器270,包括解复用模块、视频解码模块、图像合成模块、帧数转换模块、显示格式化模块等。
105.其中,解复用模块,用于对输入音视频数据流进行解复用处理,如输入mpeg-2,则解复用模块进行解复用成视频信号和音频信号等。
106.视频解码模块,则用于对解复用后的视频信号进行处理,包括解码和缩放处理等。
107.图像合成模块,如图像合成器,其用于将图形生成器根据用户输入或自身生成的gui信号,与缩放处理后视频图像进行叠加混合处理,以生成可供显示的图像信号。
108.帧数转换模块,用于对转换输入视频帧数,如将60hz帧数转换为120hz帧数或240hz帧数,通常的格式采用如插帧方式实现。
109.显示格式化模块,则用于将接收帧数转换后视频输出信号,改变信号以符合显示格式的信号,如输出rgb数据信号。
110.在一些实施例中,图形处理器253可以和视频处理器可以集成设置,也可以分开设置,集成设置的时候可以执行输出给显示器的图形信号的处理,分离设置的时候可以分别执行不同的功能,例如gpu+frc(frame rate conversion))架构。
111.在一些实施例中,音频处理器280,用于接收外部的音频信号,根据输入信号的标准编解码协议,进行解压缩和解码,以及降噪、数模转换、和放大处理等处理,得到可以在扬声器中播放的声音信号。
112.在一些实施例中,视频处理器270可以包括一颗或多颗芯片组成。音频处理器,也可以包括一颗或多颗芯片组成。
113.在一些实施例中,视频处理器270和音频处理器280,可以单独的芯片,也可以于控制器一起集成在一颗或多颗芯片中。
114.在一些实施例中,音频输出,在控制器250的控制下接收音频处理器280输出的声音信号,如:扬声器286,以及除了显示设备200自身携带的扬声器之外,可以输出至外接设备的发声装置的外接音响输出端子,如:外接音响接口或耳机接口等,还可以包括通信接口中的近距离通信模块,例如:用于进行蓝牙扬声器声音输出的蓝牙模块。
115.供电电源290,在控制器250控制下,将外部电源输入的电力为显示设备200提供电源供电支持。供电电源290可以包括安装显示设备200内部的内置电源电路,也可以是安装在显示设备200外部电源,在显示设备200中提供外接电源的电源接口。
116.用户接口265,用于接收用户的输入信号,然后,将接收用户输入信号发送给控制器250。用户输入信号可以是通过红外接收器接收的遥控器信号,可以通过网络通信模块接收各种用户控制信号。
117.在一些实施例中,用户通过控制装置100或移动终端300输入用户命令,用户输入接口则根据用户的输入,显示设备200则通过控制器250响应用户的输入。
118.在一些实施例中,用户可在显示器275上显示的图形用户界面(gui)输入用户命令,则用户输入接口通过图形用户界面(gui)接收用户输入命令。或者,用户可通过输入特定的声音或手势进行输入用户命令,则用户输入接口通过传感器识别出声音或手势,来接收用户输入命令。
119.在一些实施例中,“用户界面”,是应用程序或操作系统与用户之间进行交互和信息交换的介质接口,它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(graphic user interface,gui),是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素,其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、widget等可视的界面元素。
120.存储器260,包括存储用于驱动显示设备200的各种软件模块。如:第一存储器中存储的各种软件模块,包括:基础模块、检测模块、通信模块、显示控制模块、浏览器模块、和各种服务模块等中的至少一种。
121.基础模块用于显示设备200中各个硬件之间信号通信、并向上层模块发送处理和控制信号的底层软件模块。检测模块用于从各种传感器或用户输入接口中收集各种信息,并进行数模转换以及分析管理的管理模块。
122.例如,语音识别模块中包括语音解析模块和语音指令数据库模块。显示控制模块用于控制显示器进行显示图像内容的模块,可以用于播放多媒体图像内容和ui界面等信息。通信模块,用于与外部设备之间进行控制和数据通信的模块。浏览器模块,用于执行浏览服务器之间数据通信的模块。服务模块,用于提供各种服务以及各类应用程序在内的模块。同时,存储器260还用存储接收外部数据和用户数据、各种用户界面中各个项目的图像以及焦点对象的视觉效果图等。
123.图3示例性示出了根据示例性实施例中控制装置100的配置框图。如图3所示,控制装置100包括控制器110、通信接口130、用户输入/输出接口、存储器、供电电源。
124.控制装置100被配置为控制显示设备200,以及可接收用户的输入操作指令,且将操作指令转换为显示设备200可识别和响应的指令,起用用户与显示设备200之间交互中介作用。如:用户通过操作控制装置100上频道加减键,显示设备200响应频道加减的操作。
125.在一些实施例中,控制装置100可是一种智能设备。如:控制装置100可根据用户需求安装控制显示设备200的各种应用。
126.在一些实施例中,如图1所示,移动终端300或其他智能电子设备,可在安装操控显示设备200的应用之后,可以起到控制装置100类似功能。如:用户可以通过安装应用,在移动终端300或其他智能电子设备上可提供的图形用户界面的各种功能键或虚拟按钮,以实现控制装置100实体按键的功能。
127.控制器110包括处理器112和ram 113和rom 114、通信接口130以及通信总线。控制
器用于控制控制装置100的运行和操作,以及内部各部件之间通信协作以及外部和内部的数据处理功能。
128.通信接口130在控制器110的控制下,实现与显示设备200之间控制信号和数据信号的通信。如:将接收到的用户输入信号发送至显示设备200上。通信接口130可包括wifi芯片131、蓝牙模块132、nfc模块133等其他近场通信模块中至少之一种。
129.用户输入/输出接口140,其中,输入接口包括麦克风141、触摸板142、传感器143、按键144等其他输入接口中至少一者。如:用户可以通过语音、触摸、手势、按压等动作实现用户指令输入功能,输入接口通过将接收的模拟信号转换为数字信号,以及数字信号转换为相应指令信号,发送至显示设备200。
130.输出接口包括将接收的用户指令发送至显示设备200的接口。在一些实施例中,可以红外接口,也可以是射频接口。如:红外信号接口时,需要将用户输入指令按照红外控制协议转化为红外控制信号,经红外发送模块进行发送至显示设备200。再如:射频信号接口时,需将用户输入指令转化为数字信号,然后按照射频控制信号调制协议进行调制后,由射频发送端子发送至显示设备200。
131.在一些实施例中,控制装置100包括通信接口130和输入输出接口140中至少一者。控制装置100中配置通信接口130,如:wifi、蓝牙、nfc等模块,可将用户输入指令通过wifi协议、或蓝牙协议、或nfc协议编码,发送至显示设备200。
132.存储器190,用于在控制器的控制下存储驱动和控制控制设备200的各种运行程序、数据和应用。存储器190,可以存储用户输入的各类控制信号指令。
133.供电电源180,用于在控制器的控制下为控制装置100各元件提供运行电力支持。可以电池及相关控制电路。
134.在一些实施例中,系统可以包括内核(kernel)、命令解析器(shell)、文件系统和应用程序。内核、shell和文件系统一起组成了基本的操作系统结构,它们让用户可以管理文件、运行程序并使用系统。上电后,内核启动,激活内核空间,抽象硬件、初始化硬件参数等,运行并维护虚拟内存、调度器、信号及进程间通信(ipc)。内核启动后,再加载shell和用户应用程序。应用程序在启动后被编译成机器码,形成一个进程。
135.参见图4,在一些实施例中,将系统分为四层,从上至下分别为应用程序(applications)层(简称“应用层”),应用程序框架(application framework)层(简称“框架层”),安卓运行时(android runtime)和系统库层(简称“系统运行库层”),以及内核层。
136.在一些实施例中,应用程序层中运行有至少一个应用程序,这些应用程序可以是操作系统自带的窗口(window)程序、系统设置程序、时钟程序、相机应用等;也可以是第三方开发者所开发的应用程序,比如嗨见程序、k歌程序、魔镜程序等。在具体实施时,应用程序层中的应用程序包不限于以上举例,实际还可以包括其它应用程序包,本技术实施例对此不做限制。
137.框架层为应用程序层的应用程序提供应用编程接口(application programming interface,api)和编程框架。应用程序框架层包括一些预先定义的函数。应用程序框架层相当于一个处理中心,这个中心决定让应用层中的应用程序做出动作。应用程序通过api接口,可在执行中访问系统中的资源和取得系统的服务。
138.如图4所示,本技术实施例中应用程序框架层包括管理器(managers),内容提供者
(content provider)等,其中管理器包括以下模块中的至少一个:活动管理器(activity manager)用与和系统中正在运行的所有活动进行交互;位置管理器(location manager)用于给系统服务或应用提供了系统位置服务的访问;文件包管理器(package manager)用于检索当前安装在设备上的应用程序包相关的各种信息;通知管理器(notification manager)用于控制通知消息的显示和清除;窗口管理器(window manager)用于管理用户界面上的括图标、窗口、工具栏、壁纸和桌面部件。
139.在一些实施例中,活动管理器用于:管理各个应用程序的生命周期以及通常的导航回退功能,比如控制应用程序的退出(包括将显示窗口中当前显示的用户界面切换到系统桌面)、打开、后退(包括将显示窗口中当前显示的用户界面切换到当前显示的用户界面的上一级用户界面)等。
140.在一些实施例中,窗口管理器用于管理所有的窗口程序,比如获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕,控制显示窗口变化(例如将显示窗口缩小显示、抖动显示、扭曲变形显示等)等。
141.在一些实施例中,系统运行库层为上层即框架层提供支撑,当框架层被使用时,安卓操作系统会运行系统运行库层中包含的c/c++库以实现框架层要实现的功能。
142.在一些实施例中,内核层是硬件和软件之间的层。如图4所示,内核层至少包含以下驱动中的至少一种:音频驱动、显示驱动、蓝牙驱动、摄像头驱动、wifi驱动、usb驱动、hdmi驱动、传感器驱动(如指纹传感器,温度传感器,触摸传感器、压力传感器等)等。
143.在一些实施例中,内核层还包括用于进行电源管理的电源驱动模块。
144.在一些实施例中,图4中的软件架构对应的软件程序和/或模块存储在图2或图3所示的第一存储器或第二存储器中。
145.在一些实施例中,对于具备触控功能的显示设备,以分屏操作为例,显示设备接收用户作用于显示屏上的输入操作(如分屏操作),内核层可以根据输入操作产生相应的输入事件,并向应用程序框架层上报该事件。由应用程序框架层的活动管理器设置与该输入操作对应的窗口模式(如多窗口模式)以及窗口位置和大小等。应用程序框架层的窗口管理根据活动管理器的设置绘制窗口,然后将绘制的窗口数据发送给内核层的显示驱动,由显示驱动在显示屏的不同显示区域显示与之对应的应用界面。
146.在一些实施例中,如图5中所示,应用程序层包含至少一个应用程序可以在显示器中显示对应的图标控件,如:直播电视应用程序图标控件、视频点播应用程序图标控件、媒体中心应用程序图标控件、应用程序中心图标控件、游戏应用图标控件等。
147.在一些实施例中,直播电视应用程序,可以通过不同的信号源提供直播电视。例如,直播电视应用程可以使用来自有线电视、无线广播、卫星服务或其他类型的直播电视服务的输入提供电视信号。以及,直播电视应用程序可在显示设备200上显示直播电视信号的视频。
148.在一些实施例中,视频点播应用程序,可以提供来自不同存储源的视频。不同于直播电视应用程序,视频点播提供来自某些存储源的视频显示。例如,视频点播可以来自云存储的服务器端、来自包含已存视频节目的本地硬盘储存器。
149.在一些实施例中,媒体中心应用程序,可以提供各种多媒体内容播放的应用程序。例如,媒体中心,可以为不同于直播电视或视频点播,用户可通过媒体中心应用程序访问各
种图像或音频所提供服务。
150.在一些实施例中,应用程序中心,可以提供储存各种应用程序。应用程序可以是一种游戏、应用程序,或某些和计算机系统或其他设备相关但可以在智能电视中运行的其他应用程序。应用程序中心可从不同来源获得这些应用程序,将它们储存在本地储存器中,然后在显示设备200上可运行。
151.在一些实施例中的硬件或软件架构可以基于上述实施例中的介绍,在一些实施例中可以是基于相近的其他硬件或软件架构,可以实现本技术的技术方案即可。
152.在一些实施例中,应用程序中心可设置有语音助手应用实现智能语音业务,如搜索媒资、调节音量等业务。用户可通过向显示设备发出语音命令的方式来唤醒语音助手应用,该语音命令可为一些预设的唤醒词,在语音助手应用唤醒后,用户可与语音助手应用进行交互,对显示设备进行语音控制。智能语音助手在接收到用户的语音命令后,需要对语音命令进行语音识别,得到识别文本,由于很多字符容易混淆,导致识别文本存在一定误差几率。
153.为解决上述技术问题,本技术实施例示出了一种文本纠错的整体流程图,参见图6,首先,将自然语言文本输入端到端的检错纠错模型来进行纠错,得到第一纠错结果,其中,端到端的检错纠错模型对自然语言文本,即待纠错文本依次进行bert向量表征、字符的音形混淆图表示、多层图神经网络、隐向量分类生成字符等处理;然后,elasticsearch搜索引擎根据纠错字库对第一纠错接结果进行候选召回,得到召回结果,其中,候选召回包括elasticsearch搜索、纠错词库倒排索引等处理;最后,对召回结果进行候选排序,得到排序结果,根据排序结果生成自然语言文本对应的最终纠错结果,其中,候选排序包括编辑距离、阈值过滤等处理。
154.为对图6中的文本纠错方法做进一步介绍,本技术实施例还提供了一种文本纠错方法的流程示意图,参见图7,该方法可用于显示设备,包括如下步骤:
155.步骤s10:基于音形相近混淆集和图注意力机制对待纠错文本进行纠错,得到初始纠错文本。
156.在一些实施例中,显示设备的语音助手应用在唤醒后可接收用户的语音命令。显示设备的控制器获取语音助手应用接收到的语音命令,对语音命令进行语音转换,得到待纠错文本,该待纠错文本与语音命令对应的实际文本可能存在一些误差,需要对通过纠错来得到该实际文本,该实际文本可称为最终纠错文本。
157.在一些实施例中,显示设备进行纠错可能需要花费一定时间,如1秒,如果在纠错后再显示最终纠错文本,可能会给用户带来显示设备响应慢的用户体验,为避免用户长时间等待显示设备进行响应,可在得到待纠错文本后,控制显示器先将待纠错文本进行显示,在后台进行纠错。
158.在一些实施例中,显示设备可构建端到端的检错纠错模型对待纠错文本进行初步纠错。参见图8,为根据一些实施例的端到端的检错纠错模型的结构示意图,如图8所示,将待纠错文本如“遇到逆竟”,输入bert extractor(伯特提取器),输出初始表征矩阵h,h包括h0、h1、
……ht+1
,其中,trm表示transformer层的编码输出,emb表示对字符的词嵌入,trm以emb作为输入,t表示用户请求的字符长度。
159.将初始表征矩阵输入gcn network(graph convolutional nueral network,图卷
积神经网络),并将待纠错文本的发音相似混淆集知识图谱和形状相似混淆集知识图谱分别输入gcn network,更新所述初始表征矩阵,其中,gcn network一共有3层:layer_1、layer_1和layer_3,
160.gcn network将输出结果输入至classifier(分类器),通过classifier输出端到端的检错纠错模型的纠错结果,如“遇到逆境”,该纠错结果可作为初始纠错文本,其中,classifier可为隐向量分类器,能够进行隐向量分类,classifier中的一个个虚线框表示每个字符预测的概率分布,如80%、70%、85%
……

161.上述端到端的检错纠错模型的解析方法可参见图9,为本技术根据一些实施例的待纠错文本的解析方法的流程示意图,如图9所示,该解析方法可包括步骤s101-s105。
162.步骤s101:对待纠错文本进行特征抽取,得到初始表征矩阵。
163.在一些实施例中,可通过bert模型对待纠错文本进行特征抽取。
164.bert模型采用双向transformer(转换器)作为encoder(编码器),使用了masked lm(masked language model,遮蔽语言模型)和next sentence prediction(下一句预测)两种方法分别捕捉词语和句子级别的表征。将待纠错文本输入bert模型后,输出初始表征矩阵h。
165.步骤s102:根据音形相近混淆集创建所述待纠错文本中每个字符的邻接矩阵。
166.音形相近混淆集包括预设的发音相似混淆集和形状相似混淆集,其中,发音相似混淆集为预设的由于发音相似而容易混淆的字符集合;形状相似混淆集为预设的由于形状相似而容易混淆的字符集合。在一些实施例中,音形相近混淆集可通过对用户数据进行数据分析得到,其中,用户数据可包括用户在显示设备上的输入数据。
167.在一些实施例中,对于待纠错文本“遇到逆竟”中的字符“竟”,得到其发音相似混淆集为{金、静、境、井、寄、竟},其形状相似混淆集为{京、镜、竟、竞、景、境}。
168.在一些实施例中,“竟”字的混淆集可能不只包括上述汉字,例如:竟:经静景晋径镜鹿璜尽竟金井今禁慌近墙竞进敬紧睛垣精墒京晶憬净瞌渍清,竟的混淆集就是冒号后的那些字。
169.邻接矩阵的创建方法可参见图10,包括步骤s1021-s1023。
170.步骤s1021:获取所述待纠错文本中每个字符在音形相近混淆集中的发音相似字符和形状相似字符。
171.从发音相似混淆集和形状相似混淆集中分别提取出每个字符在音形相近混淆集中的发音相似字符和形状相似字符。
172.步骤s1022:将所述待纠错文本中的字符、发音相似字符和字库中的字符作为节点,将字符之间的关系作为边,建立发音相似邻接矩阵。
173.在一些实施例中,可选取生活中常用的汉字组成字库,为待纠错文本提供备选的字符。
174.将待纠错文本中的字符作为中心节点,将该字符的发音相似字符和字库中除待纠错文本中的字符及其发音相似字符之外的字符作为边节点,将字符之间的关系作为边,建立发音相似混淆集的知识图谱,其中,每条边表示0或1,1表示该条边的两个节点相近,0表示该条边的两个节点不相近,例如,待纠错文本中的字符和发音相似混淆集中的字符连接的边可表示为1,待纠错文本中的字符和字库中不属于其发音相似混淆集的字符连接的边
可表示为0。
175.发音相似混淆集的知识图谱可表示为一个n*n的邻接矩阵,其中,n代表常用汉字的个数,即字库中的字符数,如5000。
176.步骤s1023:将所述待纠错文本中的字符、所述形状相似字符和字库中的字符作为节点,将字符之间的关系作为边,建立形状相似邻接矩阵。
177.将待纠错文本中的字符作为中心节点,将该字符的形状相似字符和字库中的字符作为节点作为边节点,将字符之间的关系作为边,建立形状相似混淆集的知识图谱,其中,每条边表示0或1,1表示该条边的两个节点相近,0表示该条边的两个节点不相近。例如,待纠错文本中的字符和形状相似混淆集中的字符连接的边可表示为1,待纠错文本中的字符和字库中不属于其形状相似混淆集的字符连接的边可表示为0。形状相似混淆集的知识图谱也可表示为一个n*n的邻接矩阵。
178.步骤s103:将所述初始表征矩阵和邻接矩阵输入多层图卷积神经网络,得到下一层表征矩阵。
179.构建一个3层的图神经网络,如图8中的layerl-layer3,layerl的输入是bert extractor的编码输出,layer2和layer3的输入是上一层的输出,将h和邻接矩阵a作为多层图卷积神经网络的输入,进行更深层次的语义信息抽取。其中,邻接矩阵a包括发音相似混淆集的知识图谱对应的邻接矩阵和形状相似混淆集的知识图谱对应的邻接矩阵。
180.将h和邻接矩阵a作为多层图卷积神经网络的输入,得到第二层的表征矩阵;将第二层的表征矩阵和邻接矩阵a作为多层图卷积神经网络的输入,得到第三层的表征矩阵
……
以此类推,得到多层图卷积神经网络的每一层图卷积层的表征矩阵h
l
,计算公式如下:
[0181][0182]
(1)式中,l表示第l层,i表示a对应的单位矩阵,表示引入节点自连接的特征后的矩阵,可称为邻接估计矩阵,表示a对应的对角矩阵,可称为对角估计矩阵,其对角线位置上的值也就是相应节点的度。i和j都介于0和n之间。h
l-1
即h
l
的上一层的表征矩阵,w
l
表示第l层的训练参数。
[0183]
步骤s104:根据图注意力机制得到所述多层图卷积神经网络的最后一层表征矩阵。
[0184]
在一些实施例中,可引入图注意力机制,将发音相近和形状相近的知识结合起来,得到最后一层表征矩阵h
l+1

[0185]
采用注意力机制,计算知识融合的注意力表征矩阵c
l
,计算公式如下:
[0186][0187]
(2)式中,c
l
是n*d维的矩阵,d表示bert编码之后的向量维度,fk(ak,h
l
)i是针对图k的图卷积输出的第i行,图k为第k个字的邻接矩阵,也可表示为ak,s代表形状相近,p代表发
音相近。代表第i个字符针对图k的标量权重,l代表所在的神经网络层数wa是的训练参数,β是超参数,β可为一个常数,例如3。
[0188]
根据下式计算最后一层的表征矩阵h
l+1

[0189][0190]
步骤s105:通过全连接层和概率归一化函数生成字符。
[0191]
在一些实施例中,可根据概率归一化函数生成字符:
[0192][0193]
(4)式中,x代表整个用户请求,如“遇到逆竟”,代表第一个位置正确的字是y p代表概率,表示输入是x并且第i个字符位置是y的概率,w表示全连接层的训练权重参数。
[0194]
根据公式(4),可以得到每个字符位置为某个字符的概率,如果一个字符位置,存在多个备选的字符,如“境”、“竟”,选择概率最大值对应的字符作为该字符位置的字符,其中,每个字符位置备选的字符可根据最后一层的表征矩阵h
l+1
得到。在一些实施例中,将待纠错文本“遇到逆竟”输入到端到端的检错纠错模型后,可生成并输出字符“遇到逆境”,该“遇到逆境”可称为初始纠错文本。
[0195]
步骤s20:对所述待纠错文本和初始纠错文本进行候选召回,得到召回文本。
[0196]
在一些实施例中,可将所述初始纠错文本进行elasticsearch查询,得到第一召回文本。
[0197]
es(elasticsearch,分布式全文搜索引擎)是一个全文搜索服务器,也可以作为nosql数据库,存储任意格式的文档和数据。es的全文搜索引擎是建立在lucene(全文搜索框架)上的开源搜索引擎,可以用来进行全文搜索、地理信息搜索。
[0198]
将初始纠错文本作为query(查询)进行elasticsearch查询,查询方式有多种,包括匹配搜索、前缀搜索、后缀搜索、模糊搜索、可结合多种方式对query进行搜索,得到第一召回文本。例如,匹配搜索可为精确搜索,要求字完全一样,搜索“小猪佩”,搜索结果可为“小猪佩奇”。
[0199]
在一些实施例中,可基于纠错词库构建倒排索引数据结构,将初始纠错文本和待纠错文本分别作为query查询,得到第二召回文本。
[0200]
倒排索引,也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两个部分组成:“单词词典”和“倒排文件”。基于纠错词库创建汉字字符到词的映射,构建倒排索引,分别以纠错结果和原始文本作为query,结合相似字的个数或相似拼音的个数等规则条件,搜索词库中相近的词。
[0201]
在一些实施例中,召回文本可包括第一召回文本和第二召回文本。
[0202]
步骤s30:对所述召回文本进行候选排序,根据排序结果得到所述待纠错文本对应的最终纠错文本。
[0203]
levenshtein(字符串相似度)编辑距离是一种计算两个字符串间的差异程度的度量方式,用于表示从一个字符串修改到另一个字符串时,其中编辑单个字符(比如修改、插
入、删除)所需要的最少次数。levenshtein编辑距离越大,则表明两个字符串相关性越弱。
[0204]
在一些实施例中,可分别计算每个召回文本与初始纠错文本的编辑距离,将该编辑距离除以召回文本和初始纠错文本中最长文本的长度,得到该召回文本的差异度,其中,最长文本指字数最多的文本。
[0205]
进一步的,可设置一个差异度阈值,根据差异度将召回文本进行排序,过滤差异度高于差异度阈值的召回文本。其中,差异度阈值可设置为一个常数,例如0.75。
[0206]
将差异度最小的召回文本作为待纠错文本的最终纠错文本。
[0207]
本技术实施例还提供一种服务器,该服务器可被配置为执行图7所示的文本纠错方法,对中文文本进行纠错。
[0208]
在一些实施例中,服务器可与显示设备通信连接,显示设备可将待纠错文本发送到服务器,服务器按照图7所示的文本纠错方法得到最终纠错文本后,再将最终纠错文本发送到显示设备,使显示设备显示最终纠错文本。
[0209]
参见图11-图13,为根据一些实施例的语音交互界面示意图,如图11所示,语音助手应用的唤醒词可为“海信小聚”,语音助手应用在唤醒后,可显示录音提示词,如“聆听中
…”
,提示用户可发出语音命令;如图12所示,用户在发出语音命令后,显示设备可将语音命令进行语音转换,并实时显示出来,该语音转换后的文本可为待纠错文本,如“遇到逆竟”,显示设备在显示待纠错文本后,可在显示设备的后台进程中按照图7所示的方法进行文本纠错,得到最终纠错文本,或者,显示设备将待纠错文本上传到服务器,由服务器进行文本纠错,然后向显示设备返回最终纠错文本;如图13所示,显示设备在得到最终纠错文本后,可将待纠错文本刷新为最终纠错文本。进一步的,显示设备还可根据最终纠错文本进行响应,如对显示设备进行控制,或播放相应的音视频媒资等。
[0210]
由上述实施例可见,本技术实施例根据待纠错文本对应的混淆集生成发音相似知识图谱和形状相近知识图谱,将汉字的拼音及字形相关知识融入图神经网络,抽取相近字符间的深层语义信息,可有效利用音形相近的知识,提高检错纠错的正确率及召回率。
[0211]
由于以上实施方式均是在其他方式之上引用结合进行说明,不同实施例之间均具有相同的部分,本说明书中各个实施例之间相同、相似的部分互相参见即可。在此不再详细阐述。
[0212]
需要说明的是,在本说明书中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或暗示这些实体或操作之间存在任何这种实际的关系或顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的电路结构、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种电路结构、物品或者设备所固有的要素。在没有更多限制的情况下,有语句“包括一个
……”
限定的要素,并不排除在包括要素的电路结构、物品或者设备中还存在另外的相同要素。
[0213]
本领域技术人员在考虑说明书及实践这里发明的公开后,将容易想到本技术的其他实施方案。本技术旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本技术的真正范围和精神由权利要求的内容指出。以上的本技术实施方式并不构成对本技术保护范围的限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1