专利名称:一种个性化信息处理方法和系统的制作方法
技术领域:
本申请涉及计算机技术领域,特别是涉及一种个性化信息处理方法和系统。
背景技术:
随着科技的发展,用户通常在电子终端上保存和管理各种信息,比如记账管理,待办事项管理,日程管理等。但是现有技术中,各种信息的应用系统基本上是基于单一应用,即对于用户的各种业务类别的信息管理过程是相互独立的,当用户需要对某种信息存储、检索查看等操作时,需要选择相应的应用,然后在该应用的界面人工输入或者点击等规则化输入方式进行输入和存储,或者检索查看该业务类别的各种信息。比如记账管理,用户需要打开记账应用,然后在输入界面输入时间、地点、费用等信息进行存储,检索和查看消费记录时也需要不停的进行各种操作以获取应用中的目标信息。因此,现有技术中,用户需要对其每种业务类别的信息进行存储、或者检索查看等操作时,均需要进入相应业务类别的应用进行操作,各种业务类别信息的管理入口分散,需要用户记住每一种需求对应的软件以及软件的操作方法,并且需要用户在一种业务类别系统下的界面中人工输入或者点击等规则化输入方式进行输入和存储,或者检索查看该业务类别的各种信息,从而造成各种业务类别的信息以应用的形式离散地进行存储,且分布分散,被调用时效率低下。
发明内容
本申请所要解决的技术问题是提供一种个性化信息处理方法,解决现有技术中针对用户个人信息存储和管理的各种业务类别的信息分布分散,被调用得效率低下的问题。为了解决上述问题,本申请公开了一种个性化信息处理方法,包括将输入的语音信息转换为自然语言文本;对所述自然语言文本进行语义分析,得到用户对应的行为信息;根据所述行为信息,从所述自然语言文本、和/或与所述自然语言文本相关的源数据中提取关键数据;根据所述行为信息和所述关键数据生成相应操作命令,并调用所述操作命令进行执行。优选的,所述对所述自然语言文本进行语义分析,得到用户对应的行为信息包括解析所述自然语言文本,并标注解析所述自然语言文本所得各词对应的属性;根据所述各词对应的属性,分析自然语言文本对应匹配的行为信息。优选的,所述根据所述各词对应的属性,分析自然语言文本对应匹配的行为信息包括将标注完毕的所述各词对应的属性与意图模板库中的各意图模板进行匹配;根据匹配结果分析所述自然语言文本,得到自然语言文本对应的行为信息。
优选的,所述根据所述行为信息,从所述自然语言文本、和/或与所述自然语言文本相关的源数据中提取关键数据包括根据所述行为信息,确认数据提取模板;所述数据提取模板中包括待提取的关键数据对应的属性;根据所述待提取的关键数据对应的属性,从所述自然语言文本经解析并标注完毕的各词中,提取相应属性对应的文本作为关键数据;和/或,根据所述待提取的关键数据对应的属性,从与所述自然语言文本相关的源数据中提取相应属性对应的文本作为关键数据。 优选的,还包括根据所述待提取的关键数据对应的属性,从本地设备信息中提取对应属性的关键数据。优选的,所述根据所述行为信息和所述关键数据生成相应操作命令包括结合从自然语言文本中提取的关键数据,和/或从与所述自然语言文本相关的源数据中提取的关键数据,和/或从本地设备信息中提取的关键数据,和所述行为信息生成相应操作命令。优选的,还包括检测从本地设备信息中提取的对应属性的关键数据,与从与所述自然语言文本相关的源数据和/或所述自然语言文本经解析并标注完毕的各词中所提取相应属性对应的文本作为的关键数据之间,是否存在冲突和歧义;如果存在,根据预设逻辑对所述冲突或者歧义进行修正,或者将所述冲突或歧义反馈至用户。优选的,还包括当从与所述自然语言文本相关的源数据为非文本数据时,根据所述非文本数据的源数据类型,选择相应的解析方式从所述非文本数据中提取文本信息;解析所述文本信息,并标注解析所述文本信息中所得的关键数据。优选的,还包括记录用户的历史会话信息,并将所述历史会话信息对应的属性补充至当前输入的自然语言文本中经解析并标注完毕的各词对应缺失的属性。相应的,本申请还公开了一种个性化信息处理装置,包括语音信息处理模块,用于将输入的语音信息转换为自然语言文本;语义分析模块,用于对所述自然语言文本进行语义分析,得到用户对应的行为信息;数据提取模块,用于根据所述行为信息,从所述自然语言文本、和/或与所述自然语言文本相关的源数据中提取关键数据;命令处理模块,用于根据所述行为信息和所述关键数据生成相应操作命令,并调用所述操作命令进行执行。优选的,所述语义分析模块包括解析标注模块,用于解析所述自然语言文本,并标注解析所述自然语言文本所得各词对应的属性;
类别确认模块,用于根据所述各词对应的属性,分析自然语言文本对应匹配的行为信息。优选的,所述数据提取模块包括数据提取模板确认模块,用于根据所述行为信息,确认数据提取模板;所述数据提取模板中包括待提取的关键数据对应的属性;第一数据提取模块,用于根据所述待提取的关键数据对应的属性,从所述自然语言文本经解析并标注完毕的各词中,提取相应属性对应的文本作为关键数据;和/或,第二数据提取模块,用于根据所述待提取的关键数据对应的属性,从与所述自然语言文本相关的源数据中提取相应属性对应的文本作为关键数据。优选的,还包括本地数据提取模块,用于根据所述待提取的关键数据对应的属性,从本地设备信息中提取对应属性的关键数据。与现有技术相比,本申请包括以下优点本申请通过将用户的个性化信息转换为自然语言文本(比如,将语音转换为自然语言文本),通过对自然语言文本进行语义理解的方式分析对应的用户行为,将自然语言转换为与用户行为的对应功能的个人的结构化数据进行管理。在这个过程中,用户只需要输入个性化信息(比如说一句话),后续的对语义的分析处理由本申请自动完成,实现了语义数据的自动处理;另外,通过本申请对输入的语音信息的自然语言文本的识别,查找相应业务类别的处理逻辑,自动生成相应操作指令对输入的个性化信息(比如语音信息,及相应源数据)进行处理,实现了以统一管理入口对不同业务类别的个人信息的存储和管理,使各种业务类别的信息被高效调用。
图I是本申请一种个性化信息处理方法的流程示意图;图2是本申请优选的解析行为信息的流程示意图;图3是本申请优选的数据提取过程的流程示意图;图4是本申请一种个性化信息处理装置的结构示意图;图5是本申请优选的解析模块的结构示意图;图6是本申请优选的数据提取模块的结构示意图。
具体实施例方式为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式
对本申请作进一步详细的说明。本申请的核心思想之一在于,通过对用户输入的语义信息进行自动识别,识别其业务类别和操作类别,然后根据业务类别信息提取用户输入的语义信息中的关键数据,在基于这些关键数据、业务类别、操作类别自动生成操作命令,最后执行所述操作命令即可对输入的个人信息进行存储、管理等操作,无需用户分别进入各种业务类别的系统中,按照各业务类别系统的规则逐步输入用户的个人信息(比如,现有技术中,对于记账系统,其基本上是将各种维度的信息表格化,如时间栏,地点栏,费用栏等,用户点击进入记账系统后,根据自己的情况逐个将信息输入表格中各栏目中),实现了语义数据的自动处理,以统一管理入口对不同业务类别的个人信息的存储和管理,使各种业务类别的信息被高效调用。参照图1,示出了本申请一种个性化信息处理方法的流程示意图,具体可以包括步骤110将输入的语音信息转换为自然语言文本;本申请首先会接收用户输入的语音信息;比如用户输入的语音等。比如用户输入语音“今儿又吃了 12块5的包子”。然后,将所述语音信息在识别引擎中转换为自然语言文本,比如对于前述语音,将所述语音转换为自然语言文本“今儿又吃了 12块5的包子”。步骤120,对所述自然语言文本进行语义分析,得到用户对应的行为信息;得到所述自然语言文本后,则本申请可解析所述自然语言文本,得到用户对应的行为信息。本申请中用户对应的行为信息包括业务类别和操作类型,即确认自然语言文本对于匹配的业务类别和操作类型。比如前述“今儿又吃了 12块5的包子”可解析其业务类别为记账,即为记账类别的信息处理。操作类型为添加,即为将消费信息进行添加存储。优选的,参照图2,对所述自然语言文本进行语义分析,得到用户对应的行为信息包括步骤All,解析所述自然语言文本,并标注解析所述自然语言文本所得各词对应的属性;为了解析自然语言文本的语义,本申请首先会解析和标注所述自然语言文本中各词的属性。比如前述“今儿又吃了 12块5的包子”可标注为“[日期I今儿][吃了 I动词][12块5|数词][包子I食物]”。优选的,所述解析所述自然语言文本,并标注解析所述自然语言文本所得各词对应的属性,包括步骤A111,利用停用词表去除所述自然语言文本中的停用词;本步骤利用预存的停用词表去除停用词去除无意义的词,比如“的”,“啦”,“啊”等无异议的词或字。步骤A112,利用知识类词表标注所述自然语言文本中的知识类词;即利用预存的知识类词进行知识类词标注根据预先加载的知识类词表来标注查询。比如“书名”,“电影名”,“电视节目名”等知识类信息。步骤A113,利用预存的命名体词表标注所述自然语言文本中的命名体词;即命名体词表进行命名体识别利用命名体识别来把查询中的命名体标注出来,比如“地名”,“机构名”,“时间”,“日期”,“人名”等。比如“今天上午”,则通过命名体词表,识别“今天上午”的意思为“时间”,即标注“今天上午”为时间。步骤A114,利用短语义段词表标注所述自然语言文本中简单且具有独立语义的文字段。即进行短语义段标注简单且有独立语义的文字段,比如“能否帮我”,“你知不知道”,“帮我查一下”等。在前述步骤Al 12和Al 13之中,知识类词表和命名体词表可能包括相同的词,导致对自然语言文本的标注存在多种情况,比如对于自然语言文本“南京市长江大桥”,其中“南京”及其同义词“南京市”可为知识类词“行政区划”,也可为命名体词“地名”;那么“南京市长江大桥”可标注为I南京I行政区划” “市长I职务” “江大桥I人名”;或者2南京市I地名” “长江大桥I地名”。对于该种情况,本申请可采取多种处理方式1、将多种标注结果返回给用户端,等待用户端确认一种标注结果。2、根据用户端的行为习惯,选择与其行为习惯最相似的标注结果。比如通过分析用户的行为信息,发现用户关注政治信息的概率为40%,旅游地点为30%,其他为30%,那么其关注政治信息行为概率最高,可与政治信息最相近的“南京I行政区划” “市长I职务” “江大桥I人名”作为最终标注结果。对于前述将“今儿又吃了 12块5的包子”可标注为“[今儿I日期][吃了 I动词][12块5|数词][包子I食物]”,那么,其中“包子”被标注为食 物,即表示知识类词“食物”,“今儿”被标注为日期,即表示命名体,“又” “的”采用停用词表进行去除。“吃了”和“12块5”按照正常的标注方式分别标注为动词“动词”和数词“数词”。步骤A12,根据所述各词对应的属性,分析自然语言文本对应匹配的行为信息。比如对于前述行为信息包括的业务类别、操作类别,那么在得到自然语言文本中各词的属性后,即可根据各词的属性确认自然语言文本对应匹配的业务类别、操作类别。优选的,根据所述各词的属性,确认自然语言文本对应匹配的行为信息包括步骤B11,将所述标注完毕的自然语言文本中所述各词对应的属性与意图模板库中的意图模板进行匹配;在将自然语言文本的各词进行属性标注后,将标注完的结果与语义模板库中的意图模板进行匹配,实现自然语言文本的语义分析。比如前述“[今儿I日期][吃了 I动词][12块5|数词][包子I食物]”与意图模板库中的意图模板进行匹配后,为[吃了 I动词][12块5|数词][包子I食物],那么动作“吃了”与食物结合,即可确认动作为“吃饭”,数词“12块5”可确认为价格,按自然语言文本为汉语分析得到价格的单位为“元”,即“12. 5元”,则确认“[今儿I日期][吃了 I吃饭][12. 5元I价格][包子I食物]”,即将属性标注各词的词义进行解释。步骤B12,根据匹配结果分析所述自然语言文本,得到自然语言文本对应的行为信
肩、O通过前述步骤匹配了意图模板后,即可得到用户自然语言文本对应的意图模板。而意图模板与用户的行为信息对应。如,将包括了标注属性“[ I吃饭]+ [ I价格]+ [ I食物]”,“[ I购物]+ [ I价格]+ [ I物品]”的意图模板对应添加记账的行为信息。其中,在意图模板中没有出现明确指令的情况下默认为添加操作。如果在标注过程中标注出明确指令,则优先根据指令判断所述自然语言文本对应的行为信息,比如用户的自然语言中包括“帮我查一下”,则系统可根据将其识别为“查询操作”相关行为信息。那么对于前述自然语言文本匹配结果“[今儿I日期][吃了 I吃饭][12.5元I价格][包子I食物]”对应的意图模板为“[ I日期]-[ I吃饭]-[ I价格]-[ I食物]”,其没有明确的行为指令,则默认为添加操作的行为信息,其中包括了“? I吃饭]、?
价格]、[ I食物]”那么自然语言文本对应匹配的行为信息为对当前的餐饮消费行为进行记录。在本申请中可将其行为信息解析为业务类别记账,操作类别添加等。对应于具体的意图模板,还可根据意图模板解析其具体行为信息,比如前述意图模板为“[ I日期]-[ I吃饭]-[ I价格]-[ I食物]”,可将其行为信息对应业务类别记账,操作类别添加,消费类别餐饮等行为信息。在本步骤中,通过用户输入自然语言的行为信息,然后即可根据行为信息将对用户输入数据的操作转入相应的业务类别中进行处理,即可利用统一的接口对各种业务类别的输入数据进行识别和接入。步骤130,根据所述行为信息,从所述自然语言文本、和/或与所述自然语言文本相关的源数据中提取关键数据;在用户的行为信息确认后,则可根据行为信息对应的数据提取模板,提取对应自然语言文本的关键数据。在本申请中,每种行为信息对应一种提取关键数据的数据提取模板,比如记录当前消费的行为信息,其对应的数据提取模板,比如[消费类别?,消费类型?,日期?,时间?,价格?,内容?,地点?,店铺?]。其中,如果某项不存在,可做缺省处理,将其暂置为空。对于本申请解析的业务类别和操作类别的情况下,在业务类别和操作类别确认后,则可根据业务类别和操作类别对应的数据提取模板,提取对应自然语言文本的关键数据。比如,对于前述“[今儿I日期][吃了 I吃饭][12. 5元I价格][包子I食物]”,其行为信息为业务类别记账;操作类别添加,那么其数据提取模板可为[业务类别记账,操作类型添加,消费类别?,消费类型?,日期?,时间?,价格?,内容?,地点?,店铺?],可根据数据提取模板提取对应自然语言文本的关键数据。其中当某些关键数据不存在时,可将其设置为空。参照图3,优选的,根据所述业务类别和操作类别对应的数据提取模板,提取对应自然语言文本的关键数据包括步骤C11,根据所述行为信息,确认数据提取模板;所述数据提取模板中包括待提取的关键数据对应的属性;比如前述“[今儿I日期][吃了 I吃饭][12. 5元I价格][包子I食物]”,对应的行为信息中业务类别记账;操作类别添加,那么其数据提取模板可为[业务类别记账,操作类型添加,消费类别?,消费类型?,日期?,时间?,价格?,内容?,地点?,店铺?],可根据数据提取模板提取对应自然语言文本的关键数据。当所述标注完属性的自然语言文本与意图模板库中的意图模板进行匹配时,意图模板库中存在至少两个与所述标注完属性的意图模板匹配,则根据用户的行为习惯,选择与用户行为习惯最相符的意图模板。本实施例中,使用预设的意图模板来匹配标注结果,但是由于同一句话可能有多重可能性,导致意图模板可能有多种可能,那么可根据预设的规则和模型来来为所有的可能性排序,并从中获取最有可能的意图模板。比如根据用户的自身行为习惯确定对应该用户的该自然语言文本的每个意图模板的概率。比如,用户说“帮我登陆微博”,根据用户以前的记录,其通过APP应用登陆微博的次数为1000次,通过网页登陆微博的次数为100次,那么对应意图模板中登陆方式中APP应用登陆方式概率高,对应意图模板中登陆方式可设置为APP应用登陆方式。优选的,还包括记录用户当前查询之前的会话信息;将所述标注完属性的自然语言文本与意图模板库中的意图模板进行匹配时,根据记录的所述当前查询之前的会话信息,补充当前自然语义文本中缺失的语义信息。
比如对于前一次的会话信息I :用户的对手机说“我今天都吃什么了?”在步骤110-140中根据用户的输入来标记词义获取语义,根据意图模板获取到业务类别为[记账],操作类型为[检索],然后找到相应数据提取模板[业务类别记账,操作类型检索,时间2012-6-1,消费类别餐饮]在步骤150中生成检索命令[业务类别记账,操作类型检索,时间2012-6-1,消费类别餐饮],在步骤160中执行检索命令获取搜索结果,结果为[早餐,9:12在立水桥的庆丰包子吃的包子,消费12. 5元][午餐,13:15在五道口的全聚德烤鸭吃烤鸭I盐水鸭肝I火燎鸭心...等菜品,消费200元],将结果按特定的格式展现给用户。那么对前一次的会话信息进行记录。而本次会话信息2为接着上一条会话信息,用户对应用说“把午餐的小票帮我调出来看看”,那么在步骤110-140中,系统进行标注时,在进行意图模板匹配分析时,会将语义信息“午餐”对应的时间补齐为2012-6-1的午餐,然后获得意图模板对应的数据提取模板[业务类别记账,操作类型检索,获取信息消费单据,时间2012-6-1,消费类型午餐],根据数据提取模板在步骤150中生成检索命令[业务类别记账,操作类型检索,获取信息消费单据,时间2012-6-1,消费类型午餐],其中的时间是从上一次检索中继承
回来的信息,在步骤160中从数据库中获取内容./lunchbill. j pg,并以图片的形式为用户展现出来。步骤C12,根据所述待提取的关键数据对应的属性,从所述标注完属性的自然语言文本中,提取相应属性对应的文本作为关键数据;和/ 或,根据所述待提取的关键数据对应的属性,从与所述自然语言文本相关的源数据中,提取相应属性对应的文本作为关键数据。另外,本申请还可包括根据所述待提取的关键数据对应的属性,从本地设备信息中提取对应属性的关键数据。在本申请中,优选的,结合上述步骤,如果还有非文本类型的源数据,则结合本地设备信息进行处理,比如对于“[今儿I日期][吃了 I吃饭][12. 5元I价格][包子I食物]”中,食物对应内容,即包子,价格为12. 5元,时间则根据提取当前终端时间为9:12,日期也提取当前终端日期为2012-6-1,地点也可提取当前终端的地点为立水桥,店铺可提取当前终端的店铺为庆丰包子,其中地点和店铺等位置信息可由GPS信息获得。即得到的数据提取模板为[业务类别记账,操作类型添加,消费类别餐饮,消费类型早餐,日期2012-6-1,时间9:12,价格12. 5元,内容包子,地点立水桥,店铺庆丰包子]。又比如,当与所述自然语言文本相关的源数据为午餐小票的图片,而操作类别为添加记账信息时,则调用OCR (Optical Character Recognition,光学字符识别)识别图片中的文本信息,然后从该文本信息中提取关键数据。其中,所述源数据还可为其他类型,本申请不对其加以限制。在提取关键数据时,如果对应数据提取模板中的某个待提取的关键数据,源数据中不能提取出该关键数据,那么可将其设置为空,比如店铺无法确认,那么可将店铺设置为空null。优选的,还包括步骤C13,检测从本地设备信息中提取对应属性的关键数据,与从所述自然语言文本经解析并标注完毕的各词中,提取相应属性对应的文本作为关键数据之间,是否存在冲突和歧义;步骤C14,如果存在,根据预设逻辑对所述冲突或者歧义进行修正,或者将所述冲突或歧义反馈至用户。比如,用户输入的词为“今天早上又花了 10块钱吃了顿早餐包子”,但是终端当前的实际时间为下午5:00,首先通过前面的分析步骤获得的消费类型为早餐,但是当前时间为下午5:00,那么根据客观时间的逻辑,可将消费类型修改为“晚餐”,即消除了冲突和歧义。还可将冲突或者歧义反馈至用户,通知用户对冲突或者歧义进行修正。如果不存在,那么直接进入步骤150。优选的,所述根据所述行为信息,从与所述自然语言文本相关的源数据中提取关键数据包括 当从与所述自然语言文本相关的源数据为非文本类型数据时,根据所述待输入的非文本类型数据的源数据类型,选择相应的源数据类型数据解析方式,从所述非文本类型数据中提取文本信息;解析和标注所述文本信息,并从所述文本信息中提取对应的关键数据。在实际中,用户输入命令中,从与所述自然语言文本相关的源数据除了语音命令夕卜,还包括语音命令对应的对象。比如用户在中午的时候又到全聚德烤鸭店和朋友一起吃了 200元的餐,之后用手机把小票拍照下来,之后用语音对手机说“帮我记账”,那么输入系统的源数据则包括了小票的图片。之后在步骤110将输入的语音信息转换为自然语言文本;即将输入的语音信息转化为自然语言文本“帮我记账”;然后进入步骤120对所述自然语言文本进行语义分析,得到用户对应的行为信息;对所述“帮我记账”进行语义分析,得到用户对应的行为信息。即可利用短语义段词表等语义分析的方法,解析“帮我记账”中各词的属性[帮我I祈使词][记账I动词],再匹配意图模板得到[记账I记账],再根意图模板[记账I记账]与行为信息的对应关系,得到自然语言文本对应的行为信息为记录账目,其记录账目的对象为小票图片(其中,可将意图模板[记账I记账]对应的行为信息设置为记录账目,记录对象为与用户输入语言的自然语言文本对应的源数据(在此为小票))。之后在步骤130,根据所述行为信息,从所述自然语言文本、和/或与所述自然语言文本相关的源数据中提取关键数据。在此,首先将根据小票图片通过OCR(C)PticalCharacter Recognition,光学字符识别)识别引擎进行识别录入,再可结合前述行为信息“记录账目”确认数据提取模板,提取出相应的属性“记账”作为关键数据,并结合数据提取模板[业务类别?,操作类型?,消费类别?,消费类型?,日期?,时间?,价格?,内容?,地点?,商铺?,消费单据?],然后以该数据提取模板为基础,在对小票图片进行OCR识别后的结果中提取具体的字符数据一同作为关键数据,得到[业务类别记账,操作类型添加,消费类别餐饮,消费类型午餐,日期2012-6-1,时间13:15,价格200元,内容烤鸭I火燎鸭心I芥末鸭掌I盐水鸭肝I米饭,地点五道口,商铺全聚德烤鸭,消费单据./lunchbill. j pg],然后进入步骤140。当然,上述只简单描述了与用户输入的自然语言对应的图片类型源数据的处理方式,其他类型源数据的处理方式类似。
本步骤可在利用统一接口接入各种业务类别的输入数据后,自动从用户输入数据中提取相应的关键数据,再可由步骤140自动生成相应的操作命令,使用户无需任何额外的操作,即可完成其目标动作(比如添加,查询等)。步骤140,根据所述行为信息和所述关键数据词生成相应操作命令,并调用所述操作命令进行执行。当得到用户的行为信息和相应行为信息的关键数据后,比如记账和待记录的相应数据(时间,地点,价格,内容等)生成相应的操作指令,然后调用所述操作命令进行执行。在本申请中,所述的操作命令可为数据库的SQL语句,将数据存入预置的数据库。比如,对于前述的行为信息和关键数据,即在哪一个业务类别,做什么业务操作等行为信息,和进行相应操作需要的关键数据。比如“[业务类别记账,操作类型添加,消费类别餐饮,消费类型早餐,日期2012-6-1,时间9:12,价格12. 5元 ,内容包子,地点立水桥,店铺庆丰包子]”,则可对应生成操作命令。比如生成SQL添加语句,其添加对象为消费类别餐饮,消费类型早餐,日期2012-6-1,时间9:12,价格12. 5元,内容包子,地点立水桥,店铺庆丰包子。在生成添加命令时,对于非文本的源数据,比如前述午餐小票的图片,在存储时,也可将其进行存储,与其文本内容进行一一对应。在步骤C12、C13、C14存在其中至少一个的情况下,所述根据所述行为信息和所述关键数据生成相应操作命令包括步骤S141,结合从自然语言文本中提取的关键数据,和/或从所述对应所述自然语言文本的源数据中提取的关键数据,和/或从本地设备信息中提取的关键数据,和所述行为信息生成相应操作命令。其中,所述本地设备信息包括本地时间信息,本地地理位置信息等信息。如前所述,当用户需要存储消费小票中的信息时,可将小票中的信息,结合提取的本地设备信息中的位置信息生成相应操作命令。比如对于SQL语句,执行前述的操作命令,根据SQL添加语句的逻辑将消费类别餐饮,消费类型早餐,日期2012-6-1,时间9:12,价格12. 5元,内容包子,地点立水桥,店铺庆丰包子添加进入预置的数据库中,并对该条记录的类别字段标注“记账”即可。也可将非文本的源数据进行相应存储,比如图片,语音文件,影像文件等等。参照图4,其示出了本申请一种个性化信息处理装置,其特征在于,包括语音信息处理模块310,用于将输入的语音信息转换为自然语言文本;语义分析模块320,用于对所述自然语言文本进行语义分析,得到用户对应的行为信息;其中,参照图5,优选的,所述语义分析模块包括 解析标注模块321,用于解析所述自然语言文本,并标注解析所述自然语言文本所得各词对应的属性;其中,所述标注解析所述自然语言文本所得各词对应的属性包括利用停用词表去除所述自然语言文本中的停用词;和/或利用知识类词表标注所述自然语言文本中的知识类词;和/或利用命名体词表标注所述自然语言文本中的命名体词;
和/或利用短语义段词表标注所述自然语言文本中简单且具有独立语义的文字段。类别确认模块322,用于根据所述各词对应的属性,分析自然语言文本对应匹配的行为信息。优选的,所述类别确认模块包括第一匹配模块,用于将所述标注完属性的自然语言文本与意图模板库中的各意图模板进行匹配;第一判断模块,用于根据匹配结果判断所述自然语言文本,得到自然语言文本对应的行为信息。优选的,还包括记录模块,用于记录用户当前查询以前的会话信息。优选的,所述语义分析模块对所述自然语言文本进行语义分析,得到用户对应的行为信息包括根据记录的所述当前查询以前的会话信息,补充当前自然语义文本中缺失的语义信息。优选的,所述语义分析模块对所述自然语言文本进行语义分析,得到用户对应的行为信息包括当所述标注完属性的自然语言文本与数据提取模板库中的数据提取模板进行匹配时,数据提取模板库中存在至少两个与所述标注完属性的数据提取模板匹配,则根据用户的行为习惯,选择与用户行为习惯最相符的数据提取模板。数据提取模块330,用于根据所述行为信息,从所述自然语言文本、和/或对应所述自然语言文本的源数据中提取关键数据;其中,参照图6优选的,所述数据提取模块包括第一数据提取模块331,用于根据所述行为信息,确认数据提取模板;所述数据提取模板中包括待提取的关键数据对应的属性;第一数据提取模块332,用于根据所述待提取的关键数据对应的属性,从所述标注完属性的自然语言文本中,提取相应属性对应的文本作为关键数据;和/或,第二数据提取模块,用于根据所述待提取的关键数据对应的属性,从所述对应所述自然语言文本的源数据中,提取相应属性对应的文本作为关键数据。还包括,本地数据提取模块,用于根据所述待提取的关键数据对应的属性,从本地设备信息中提取对应属性的关键数据。优选的,进一步的,还包括信息冲突检测模块333,用于检测从本地设备信息中提取对应属性的关键数据,与从所述标注完属性的自然语言文本中,提取相应属性对应的文本作为关键数据之间,是否存在冲突和歧义;修正反馈模块334,用于如果存在,根据预设逻辑对所述冲突或者歧义进行修正,或者将所述冲突或歧义反馈至用户。优选的,所述数据提取模块中,当所述对应所述自然语言文本的源数据为非文本类型数据时,根据所述待输入的非文本类型数据的源数据类型,选择相应的源数据类型数据解析方式,从所述非文本类型数据中提取文本信息;解析和标注所述文本信息,并从所述文本信息中提取对应的关键数据。命令处理模块340,用于根据所述行为信息和所述关键数据词生成相应操作命令,并调用所述操作命令进行执行。。本申请通过将用户的个性化信息转换为自然语言文本,通过对自然语言文本进行语义理解的方式分析对应的用户行为,将自然语言转换为与用户行为的对应功能的个人的结构化数据进行管理。在这个过程中,用户只需要输入个性化信息,后续的对语义的分析处理由本申请自动完成,实现了语义数据的自动处理;另外,通过本申请对输入的个性化信息的自然语言文本的识别,查找相应业务类别的处理逻辑,自动生成相应操作指令对输入的个性化信息进行处理,实现了以统一管理入口对不同业务类别的个人信息的存储和管理,使各种业务类别的信息被高效调用。对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关
之处参见方法实施例的部分说明即可。本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。以上对本申请所提供的一种个性化信息处理方法和装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式
及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对
本申请的限制。
权利要求
1.一种个性化信息处理方法,其特征在于,包括 将输入的语音信息转换为自然语言文本; 对所述自然语言文本进行语义分析,得到用户对应的行为信息; 根据所述行为信息,从所述自然语言文本、和/或与所述自然语言文本相关的源数据中提取关键数据; 根据所述行为信息和所述关键数据生成相应操作命令,并调用所述操作命令进行执行。
2.根据权利要求I所述的方法,其特征在于,所述对所述自然语言文本进行语义分析,得到用户对应的行为信息包括 解析所述自然语言文本,并标注解析所述自然语言文本所得各词对应的属性; 根据所述各词对应的属性,分析自然语言文本对应匹配的行为信息。
3.根据权利要求2所述的方法,其特征在于,所述根据所述各词对应的属性,分析自然语言文本对应匹配的行为信息包括 将标注完毕的所述各词对应的属性与意图模板库中的各意图模板进行匹配; 根据匹配结果分析所述自然语言文本,得到自然语言文本对应的行为信息。
4.根据权利要求I或2所述的方法,其特征在于,所述根据所述行为信息,从所述自然语言文本、和/或与所述自然语言文本相关的源数据中提取关键数据包括 根据所述行为信息,确认数据提取模板;所述数据提取模板中包括待提取的关键数据对应的属性; 根据所述待提取的关键数据对应的属性,从所述自然语言文本经解析并标注完毕的各词中,提取相应属性对应的文本作为关键数据; 和/或,根据所述待提取的关键数据对应的属性,从与所述自然语言文本相关的源数据中提取相应属性对应的文本作为关键数据。
5.根据权利要求4所述的方法,其特征在于,还包括 根据所述待提取的关键数据对应的属性,从本地设备信息中提取对应属性的关键数据。
6.根据权利要求5所述的方法,其特征在于,所述根据所述行为信息和所述关键数据生成相应操作命令包括 结合从自然语言文本中提取的关键数据,和/或从与所述自然语言文本相关的源数据中提取的关键数据,和/或从本地设备信息中提取的关键数据,和所述行为信息生成相应操作命令。
7.根据权利要求4所述的方法,其特征在于,还包括 检测从本地设备信息中提取的对应属性的关键数据,与从与所述自然语言文本相关的源数据和/或所述自然语言文本经解析并标注完毕的各词中所提取相应属性对应的文本作为的关键数据之间,是否存在冲突和歧义; 如果存在,根据预设逻辑对所述冲突或者歧义进行修正,或者将所述冲突或歧义反馈至用户。
8.根据权利要求I所述的方法,其特征在于,还包括 当从与所述自然语言文本相关的源数据为非文本数据时,根据所述非文本数据的源数据类型,选择相应的解析方式从所述非文本数据中提取文本信息; 解析所述文本信息,并标注解析所述文本信息中所得的关键数据。
9.根据权利要求1、2或3所述的方法,其特征在于,还包括 记录用户的历史会话信息,并将所述历史会话信息对应的属性补充至当前输入的自然语言文本中经解析并标注完毕的各词对应缺失的属性。
10.一种个性化信息处理装置,其特征在于,包括 语音信息处理模块,用于将输入的语音信息转换为自然语言文本; 语义分析模块,用于对所述自然语言文本进行语义分析,得到用户对应的行为信息;数据提取模块,用于根据所述行为信息,从所述自然语言文本、和/或与所述自然语言文本相关的源数据中提取关键数据; 命令处理模块,用于根据所述行为信息和所述关键数据生成相应操作命令,并调用所述操作命令进行执行。
11.根据权利要求10所述的装置,其特征在于,所述语义分析模块包括 解析标注模块,用于解析所述自然语言文本,并标注解析所述自然语言文本所得各词对应的属性; 类别确认模块,用于根据所述各词对应的属性,分析自然语言文本对应匹配的行为信肩、O
12.根据权利要求10或11所述的装置,其特征在于,所述数据提取模块包括 数据提取模板确认模块,用于根据所述行为信息,确认数据提取模板;所述数据提取模板中包括待提取的关键数据对应的属性; 第一数据提取模块,用于根据所述待提取的关键数据对应的属性,从所述自然语言文本经解析并标注完毕的各词中,提取相应属性对应的文本作为关键数据; 和/或,第二数据提取模块,用于根据所述待提取的关键数据对应的属性,从与所述自然语言文本相关的源数据中提取相应属性对应的文本作为关键数据。
13.根据权利要求12所述的装置,其特征在于,还包括 本地数据提取模块,用于根据所述待提取的关键数据对应的属性,从本地设备信息中提取对应属性的关键数据。
全文摘要
本申请提供了一种个性化信息处理方法和系统,涉及计算机技术领域。所述方法包括将输入的语音信息转换为自然语言文本;对所述自然语言文本进行语义分析,得到用户对应的行为信息;根据所述行为信息,从所述自然语言文本、和/或与所述自然语言文本相关的源数据中提取关键数据;根据所述行为信息和所述关键数据生成相应操作命令,并调用所述操作命令进行执行。本申请用户只需要输入语音信息,后续的对语义的分析处理由本申请自动完成,实现了语义数据的自动处理;本申请对语音信息的自动识别,自动生成相应操作指令对输入的个性化信息进行处理,实现了以统一管理入口对不同业务类别的个人信息的存储和管理,使各种业务类别的信息被高效调用。
文档编号G06F17/30GK102880649SQ20121030761
公开日2013年1月16日 申请日期2012年8月27日 优先权日2012年8月27日
发明者张帆 申请人:北京搜狗信息服务有限公司, 北京搜狗科技发展有限公司