专利名称:电子设备及其自然语言分析方法
技术领域:
本发明涉及一种电子设备及其自然语言分析方法。
背景技术:
随着技术的发展,具有人机会话功能的计算机等智能型的电子设备越来越受到消费者的亲睐。然而,自然语言理解一直是人工智能学科内引人注目而又困难重重的一个核心研究课题。在人机会话的过程中,电子设备将用户的自然语言通过词汇切分法等方式进行切分,然后结合预存的基础语料库来理解用户的自然语言,通过转换最终得到句子的语意。虽然基础语料库中已被注入大量的语言知识和语法规则知识,然而,当用户的自然语言中出现语言代指时,例如,自然语言中的“然而圆规很不平,显出鄙夷的神色,仿佛嗤笑法国人不知道拿破仑…(鲁迅先生的《故乡》)”、“学生吃食堂”、“老乡吃大碗”等等,电子设备根据基础语料库就无法快速准确的理解用户的自然语言。
发明内容
有鉴于此,有必要提供一种用于电子设备的自然语言分析方法,可提高电子设备理解用户的自然语言的准确度,以便于更有效的人机会话,以解决上述问题。有鉴于此, 还有必要提供一种采用自然语言分析方法的电子设备,以解决上述问题。一种自然语言分析方法,用于包括存储有基础语料库的电子设备。所述基础语料库记录了多个词汇以及每一词汇的使用频率。所述电子设备还存储有记录了至少一代指词汇及其临时理解结果的一一对应关系的临时语料库。所述方法包括如下步骤:接收用户的语音和/或文字输入,将接收的语音和/或文字输入转换为电信号;将所述用户的语音信号和/或文字输入信号转换为一预设的语言的文本信息;将所述文本信息切分为包括多个词汇的多种词汇切分结果,并在所述多种词汇切分结果的基础上,根据句式构造规则将所述文本信息进行语句成分划分,得到多种语句划分结果;从所述基础语料库中获取切分后的每一词汇的使用频率,并在获取的每一词汇的使用频率的基础上,根据各种词汇切分结果以及语句划分结果综合分析并得到一第一理解结果;根据上下文理解法对用户的一预设时段内的文本信息进行分析,判断所述第一理解结果是否为一恰当的理解结果;当所述第一理解结果不是恰当的理解结果时,确定导致所述第一理解结果为不恰当的理解结果的一或多个代指词汇,并将所述一或多个代指词汇与存储在所述临时语料库中的词汇进行对比,判断临时语料库中是否记录了所述一或多个代指词汇;当所述临时语料库中未记录所述一或多个代指词汇时,根据上下文分析确定所述一或多个代指词汇的临时理解结果以及对所述文本信息的第二理解结果,并将所述一或多个代指词汇及其临时理解结果一一对应存储于临时语料库中;及根据所述第二理解结果以及基础语料库和临时语料库确定用于回应用户的所述文本信息的一回复信息。一种电子设备,包括存储有基础语料库的存储单元和输入单元。所述基础语料库记录了多个词汇以及每一词汇的使用频率。所述输入单元用于接收用户的语音和/或文字输入,将接收的语音和/或文字输入转换为电信号。所述存储单元还存储了一临时语料库。所述临时语料库记录了至少一代指词汇及其临时理解结果的一一对应关系。所述电子设备还包括:
一语言文字转换模块,用于将所述用户的语音信号和/或文字输入信号转换为一预设的语言的文本信息;
一语言分析模块,用于将所述文本信息切分为包括多个词汇的多种词汇切分结果,并在所述多种词汇切分结果的基础上,根据句式构造规则将所述文本信息进行语句成分划分,得到多种语句划分结果;以及从所述基础语料库中获取切分后的每一词汇的使用频率,并在获取的每一词汇的使用频率的基础上,根据各种词汇切分结果以及语句划分结果综合分析并得到一第一理解结果;
一判断模块,用于根据上下文理解法对用户的一预设时段内的文本信息进行分析,判断所述第一理解结果是否为一恰当的理解结果,以及当所述第一理解结果不是恰当的理解结果时,确定导致所述第一理解结果为不恰当的理解结果的一或多个代指词汇,并将所述一或多个代指词汇与存储在所述临时语料库中的词汇进行对比,判断临时语料库中是否记录了所述一或多个代指词汇;
所述语言分析模块,还用于当所述临时语料库中未记录所述一或多个代指词汇时,根据上下文分析确定所述一或多个代指词汇的临时理解结果以及对所述文本信息的第二理解结果,并将所述一或多个代指词汇及其临时理解结果一一对应存储于临时语料库中;及一智能会话模块,用于根据所述第二理解结果以及基础语料库和临时语料库确定用于回应用户的所述文本信息的一回复信息。相对于现有技术,上述电子设备及其自然语言分析方法,使用上述电子设备及其自然语言分析方法,当用户启动电子设备后,用户可以通过输入单元与电子设备进行人机会话,通过将用户的语音和/或文字输入转换为一文本信息,将该文本信息进行分析后确定一理解结果,判断所述理解结果为不恰当的理解结果时,确定一或多个导致所述理解结果为不恰当的理解结果的一或多个词汇(即代指词汇)及其临时理解结果并存储于临时语料库,并确定一新的理解结果,同时,根据新的理解结果以及基础语料库和临时语料库确定用于回应用户的所述文本信息的一回复信息,从而更准确的理解用户的自然语言,提高了人机会话的效率。
图1为本发明一实施方式的电子设备的功能模块图。图2为本发明中电子设备的自然语言分析方法的步骤流程图。主要元件符号说明
电子设备_100
存储单元_10
_基础语料库TT
ife时语14库iT
输入单元_20
亙理单元i
语音文字转换模块 31语言分析模块_32
到断模块i
智能会话模块34
缓存器_40
显示单元_50
语音输出单元|60
如下具体实施方式
将结合上述附图进一步说明本发明。
具体实施例方式请参阅图1,其为本发明的一实施方式的电子设备100的功能模块图。电子设备100可更准确的理解用户自然语言,具有较高的人机会话效率。在本实施方式中,电子设备100为一电脑,在其他实施方式中,电子设备100还可以是手机等电子设备。电子设备100包括一存储单兀10、一输入单兀20、一处理单兀30、一显不单兀50和一语音输出单兀60。存储单元10存储有基础语料库11。基础语料库11记录了海量的词汇以及每一词汇的使用频率。基础语料库11是按照明确的语言学标准选择并排序的语言运用材料汇集,是按照明确的设计标准集成的可机读的大型文本库。在本实施方式中,基础语料库11是存有大量的中文自然语言的文本库,在其他实施方式中,基础语料库11还可以存储有英文、日文等其他语言种类的自然语言的文本库。具体文本的语言种类可以根据需要设置。缓存器40中存储有临时语料库41。临时语料库41记录了至少一代指词汇及其临时理解结果的一一对应关系。该临时语料库41是在电子设备100进行人际会话的过程中存储的。例如,临时语料库41记录了代指词汇“圆规”与对其的临时理解结果为“一人名”的对应关系、代指词汇“吃食堂”与对其的临时理解结果为“在食堂吃饭”等等。在一实施方式中,该临时语料库41暂存于存储单元10中。输入单元20用于接收用户的语音和/或文字输入,将接收的语音和/或文字输入转换为电信号,并将转换得到的语音信号和/或文字输入信号传输至处理单元30。处理单兀30包括一语音文字转换模块31、一语言分析模块32、一判断模块33和一智能会话模块34。当用户开启电子设备100后,输入单兀20即被启动,用户可以通过输入单兀20与电子设备100进行人机会话。语音文字转换模块31用于将输入单兀20传输的用户的语音信号和/或文字输入信号转换为一预设的语言的文本信息。在本实施方式中,该预设的语言为中文,该文本信息可以为包括一个词、一句话或一段话的文本信息。在其他实施方式中,该预设的语言还可以是英文、日文等。语言分析模块32用于首先将语音文字转换模块31转换得到的文本信息切分为包括多个词汇的多种词汇切分结果;然后在所述多种词汇切分结果的基础上,根据句式构造规则将所述文本信息进行语句成分划分,得到多种语句划分结果。语言分析模块32还用于从存储在存储单元10的基础语料库11中获取切分后的每一词汇的使用频率,并在获取的每一词汇的使用频率的基础上,根据各种词汇切分结果以及语句划分结果综合分析并得到一第一理解结果。语言分析模块32还用于将所述第一理解结果实时的传输至判断模块33。判断模块33用于根据上下文理解法(即语境理解法)对用户的一预设时段内的文本信息进行分析,判断语言分析模块32传输的第一理解结果是否为一恰当的理解结果,并将判断结果传输至语言分析模块32和智能会话模块34。当判断模块33判断语言分析模块32传输的第一理解结果为恰当的理解结果时:智能会话模块34则根据所述第一理解结果以及基础语料库11确定用于回应用户的所述文本信息的一回复信息。当判断模块33判断语言分析模块32传输的第一理解结果为不恰当的理解结果时:
判断模块33还用于确定导致所述第一理解结果为不恰当的理解结果的一或多个词汇(即代指词汇),并将所述一或多个代指词汇与存储在临时语料库41中的词汇进行对比,判断临时语料库41中是否记录了所述一或多个代指词汇。当临时语料库41中未记录所述一或多个代指词汇时:语言分析模块32还用于根据上下文分析确定所述一或多个代指词汇的临时理解结果以及对所述文本信息的第二理解结果,并更新临时语料库41,即将所述一或多个代指词汇及其临时理解结果一一对应存储于临时语料库41中;智能会话模块34则根据所述第二理解结果以及基础语料库11和临时语料库41确定用于回应用户的所述文本信息的一回复信息。当临时语料库41中记录了所述一或多个代指词汇时:语言分析模块32从临时语料库41中获取所述一或多个代指词汇所对应的临时理解结果,并据此确定对所述文本信息的第三理解结果;智能会话模块34则根据所述第三理解结果以及基础语料库11和临时语料库41确定用于回应用户的所述文本信息的一回复信息;智能会话模块34则根据所述第三理解结果以及基础语料库11和更新的临时语料库41确定用于回应用户的所述文本信息的一回复信息。语音文字转换模块31还用于将智能会话模块34所确定的回复信息转换为自然语言的文本信息和/或语音信号;并控制将所述文本信息显示于显示单元50和/或将所述语音信号通过语音输出单元进行播放。在本实施方式中,缓存器40还用于暂存语音文字转换模块31转换得到的文本信息、语言分析模块32所切分的各个词汇以及词汇切分结果、语句划分结果、语境分析结果、第一理解结果、第二理解结果、以及第三理解结果。一实施方式中,当缓存器40或存储单元10中未存储有临时语料库41时,判断模块33还用于新建一临时语料库41,并将所确定的一或多个代指词汇及其临时理解结果一一对应后存储于该新建的临时语料库41中。在一实施方式中,判断模块33还用于当判断电子设备100与一用户结束了当前会话时,将存储于缓存器40或存储单元10中的临时语料库41删除。请参阅图2,其为本发明的电子设备100的自然语言分析方法的流程图,用于存储有基础语料库11的电子设备,基础语料库11记录了海量的词汇以及每一词汇的使用频率。该自然语言分析方法包括:
步骤S201,输入单元20接收用户的语音和/或文字输入,将接收的语音和/或文字输入转换为电信号。步骤S202,语音文字转换模块31将所述用户的语音信号和/或文字输入信号转换为一预设的语言的文本信息。在本实施方式中,该预设的语言为中文,该文本信息可以为包括一个词、一句话或一段话的文本信息。在其他实施方式中,该预设的语言还可以是英文、
日文等。 步骤S203,语言分析模块32首先将语音文字转换模块31转换得到的文本信息切分为包括多个词汇的多种词汇切分结果,然后在所述多种词汇切分结果的基础上,根据句式构造规则将所述文本信息进行语句成分划分,得到多种语句划分结果。步骤S204,语言分析模块32从存储在存储单元10的基础语料库11中获取切分后的每一词汇的使用频率,并在获取的每一词汇的使用频率的基础上,根据各种词汇切分结果以及语句划分结果综合分析并得到一第一理解结果。语言分析模块32还用于将所述第一理解结果实时的传输至判断模块33。步骤S205,判断模块33根据上下文理解法(即语境理解法)对用户的一预设时段内的文本信息进行分析,判断语言分析模块32传输的第一理解结果是否为一恰当的理解结果,如果否,则进入步骤S206,否则,流程进入步骤S209。判断模块33还将判断结果传输至语言分析模块32和智能会话模块34。步骤S206,判断模块33确定导致所述第一理解结果为不恰当的理解结果的一或多个词汇(即代指词汇),并将所述一或多个代指词汇与存储在临时语料库41中的词汇进行对比,判断临时语料库41中是否记录了所述一或多个代指词汇。如果否,则进入步骤S207,否则,流程进入步骤S208。一实施方式中,当缓存器40或存储单元10中未存储有临时语料库41时,判断模块33还用于新建一临时语料库41,并将所确定的一或多个代指词汇及其临时理解结果一一对应后存储于该新建的临时语料库41中。步骤S207,当临时语料库41中未记录所述一或多个代指词汇时,语言分析模块32根据上下文分析确定所述一或多个代指词汇的临时理解结果以及对所述文本信息的第二理解结果,并将所述一或多个代指词汇及其临时理解结果一一对应存储于临时语料库41中。步骤S208,当临时语料库41中记录了所述一或多个代指词汇时,语言分析模块32从临时语料库41中获取所述一或多个代指词汇所对应的临时理解结果,并据此确定对所述文本信息的第三理解结果。步骤S209,智能会话模块34根据所述语言分析模块32确定的理解结果以及基础语料库11和/或临时语料库41确定用于回应用户的所述文本信息的一回复信息。具体为:
当判断语言分析模块32传输的第一理解结果为一恰当的理解结果时,智能会话模块34根据所述第一理解结果以及基础语料库11确定用于回应用户的所述文本信息的一回复信息;
当判断语言分析模块32传输的第一理解结果为不恰当的理解结果,且临时语料库41中未记录所述一或多个代指词汇时,智能会话模块34根据所述第二理解结果以及基础语料库11和临时语料库41确定用于回应用户的所述文本信息的一回复信息;及
当判断语言分析模块32传输的第一理解结果为不恰当的理解结果,且临时语料库41中记录了所述一或多个代指词汇时,智能会话模块34根据所述第三理解结果以及基础语料库11和临时语料库41确定用于回应用户的所述文本信息的一回复信息。
在一实施方式中,判断模块33还用于当判断电子设备100与一用户结束了当前会话时,将存储于缓存器40或存储单元10中的临时语料库41删除。步骤S210,语音文字转换模块31将智能会话模块34所确定的回复信息转换为自然语言的文本信息和/或语音信号;并控制将转换后的文本信息显示于显示单元50和/或将所述语音信号通过语音输出单元进行播放。使用上述电子设备100及其自然语言分析方法,当用户启动电子设备100后,用户可以通过输入单元20与电子设备100进行人机会话,通过将用户的语音和/或文字输入转换为一文本信息,将该文本信息进行分析后确定一理解结果,判断所述理解结果为不恰当的理解结果时,确定一或多个导致所述理解结果为不恰当的理解结果的一或多个词汇(即代指词汇)及其临时理解结果并存储于一新建或更新临时语料库41,并确定一新的理解结果,同时,根据新的理解结果以及基础语料库11和临时语料库41确定用于回应用户的所述文本信息的一回复信息,从而更准确的理解用户的自然语言,提高了人机会话的效率。本技术领域的普通技术人员应当认识到,以上的实施方式仅是用来说明本发明,而并非用作为对本发明的限定,只要在本发明的实质精神范围之内,对以上实施方式所作的适当改变和变化都落在本发明要求保护的范围之内。
权利要求
1.一种自然语言分析方法,用于包括存储有基础语料库的电子设备,其特征在于,所述基础语料库记录了多个词汇以及每一词汇的使用频率,所述电子设备还存储有记录了至少一代指词汇及其临时理解结果的一一对应关系的临时语料库,所述方法包括如下步骤: 接收用户的语音和/或文字输入,将接收的语音和/或文字输入转换为电信号; 将所述用户的语音信号和/或文字输入信号转换为一预设的语言的文本信息; 将所述文本信息切分为包括多个词汇的多种词汇切分结果,并在所述多种词汇切分结果的基础上,根据句式构造规则将所述文本信息进行语句成分划分,得到多种语句划分结果; 从所述基础语料库中获取切分后的每一词汇的使用频率,并在获取的每一词汇的使用频率的基础上,根据各种词汇切分结果以及语句划分结果综合分析并得到一第一理解结果; 根据上下文理解法对用户的一预设时段内的文本信息进行分析,判断所述第一理解结果是否为一恰当的理解结果; 当所述第一理解结果不是恰当的理解结果时,确定导致所述第一理解结果为不恰当的理解结果的一或多个代指词汇,并将所述一或多个代指词汇与存储在所述临时语料库中的词汇进行对比,判断临时语料库中是否记录了所述一或多个代指词汇; 当所述临时语料库中未记录所述一或多个代指词汇时,根据上下文分析确定所述一或多个代指词汇的临时理解结果以及对所述文本信息的第二理解结果,并将所述一或多个代指词汇及其临时理解结果一一对应存储于临时语料库中;及 根据所述第二理解结果以及基础语料库和临时语料库确定用于回应用户的所述文本信息的一回复信息。
2.如权利要求1所述的方法,其特征在于,还包括: 将所述回复信息转换为自然语言的文本信息和/或语音信号;及 显示所述转换后的文本信息和/或播放所述语音信号。
3.如权利要求1或2所述的方法,其特征在于,还包括:新建一临时语料库,并将所确定的一或多个代指词汇及其临时理解结果一一对应后存储于该新建的临时语料库中。
4.如权利要求1或2所述的方法,其特征在于,还包括: 当所述第一理解结果为不恰当的理解结果,且所述临时语料库中记录了所述一或多个代指词汇时,从临时语料库中获取所述一或多个代指词汇所对应的临时理解结果,并据此确定对所述文本信息的第三理解结果;及 根据所述第三理解结果以及基础语料库和临时语料库确定用于回应用户的所述文本信息的一回复信息。
5.如权利要求1或2所述的方法,其特征在于,还包括: 判断当前会话是否已结束;及 当当前会话已结束时,删除所述临时语料库。
6.一种电子设备,包括存储有基础语料库的存储单元和输入单元,所述基础语料库记录了多个词汇以及每一词汇的使用频率,所述输入单元用于接收用户的语音和/或文字输入,将接收的语音和/或文字输入转换为电信号,其特征在于,所述存储单元还存储了一临时语料库,所述临时语料库记录了至少一代指词汇及其临时理解结果的一一对应关系,所述电子设备还包括: 一语言文字转换模块,用于将所述用户的语音信号和/或文字输入信号转换为一预设的语言的文本信息; 一语言分析模块,用于将所述文本信息切分为包括多个词汇的多种词汇切分结果,并在所述多种词汇切分结果的基础上,根据句式构造规则将所述文本信息进行语句成分划分,得到多种语句划分结果;以及从所述基础语料库中获取切分后的每一词汇的使用频率,并在获取的每一词汇的使用频率的基础上,根据各种词汇切分结果以及语句划分结果综合分析并得到一第一理解结果; 一判断模块,用于根据上下文理解法对用户的一预设时段内的文本信息进行分析,判断所述第一理解结果是否为一恰当的理解结果,以及当所述第一理解结果不是恰当的理解结果时,确定导致所述第一理解结果为不恰当的理解结果的一或多个代指词汇,并将所述一或多个代指词汇与存储在所述临时语料库中的词汇进行对比,判断临时语料库中是否记录了所述一或多个代指词汇; 所述语言分析模块,还用于当所述临时语料库中未记录所述一或多个代指词汇时,根据上下文分析确定所述一或多个代指词汇的临时理解结果以及对所述文本信息的第二理解结果,并将所述一或多个代指词汇及其临时理解结果一一对应存储于临时语料库中;及 一智能会话模块,用于根据所述第二理解结果以及基础语料库和临时语料库确定用于回应用户的所述文本信息的一回复信息。
7.如权利要求6所述的电子设备,其特征在于,所述语言文字转换模块还用于将所述回复信息转换为自然语言的文本信息和/或语音信号;及 还包括用于显示所述转换后的文本信息的显示单元和/或播放所述语音信号的语音输出单元。
8.如权利要求6或7所述的电子设备,其特征在于:所述判断模块还用于新建一临时语料库,并将所确定的一或多个代指词汇及其临时理解结果一一对应后存储于该新建的临时语料库中。
9.如权利要求6或7所述的电子设备,其特征在于:所述语言分析模块还用于当所述第一理解结果为不恰当的理解结果且所述临时语料库中记录了所述一或多个代指词汇时,从临时语料库中获取所述一或多个代指词汇所对应的临时理解结果,并据此确定对所述文本信息的第三理解结果 '及 所述智能会话模块还用于根据所述第三理解结果以及基础语料库和临时语料库确定用于回应用户的所述文本信息的一回复信息。
10.如权利要求6或7所述的电子设备,其特征在于,所述判断单元还用于:判断当前会话是否已结束;及当判断当前会话已结束时,删除所述临时语料库。
全文摘要
一种自然语言分析方法,用于包括存储有基础语料库和临时语料库的电子设备。所述方法包括如下步骤接收用户输入并转换为电信号;将输入信号转换为文本信息;将文本信息进行分析;根据基础语料库和词汇切分结果和语句划分结果分析得到第一理解结果;根据上下文理解法判断第一理解结果是否为恰当的理解结果;当第一理解结果不是恰当的理解结果时,确定一或多个代指词汇,根据上下文确定其临时理解结果以及对文本信息的第二理解结果;及根据第二理解结果以及基础语料库和临时语料库确定用于回应用户的文本信息的一回复信息。本发明还提供了一种应用上述方法的电子设备。本发明提高了电子设备理解用户的自然语言的准确度。
文档编号G06F17/27GK103186523SQ201110451460
公开日2013年7月3日 申请日期2011年12月30日 优先权日2011年12月30日
发明者熊雨凯, 陆欣, 翁世芳, 刘慧丰, 吕东生, 张玉勇, 朱健健, 成响林, 黄选峰, 姜安林, 周小山, 李新华 申请人:富泰华工业(深圳)有限公司, 鸿海精密工业股份有限公司