问句信息处理方法及装置的制造方法
【专利摘要】本发明公开了一种问句信息处理方法及装置。该方法包括:获取语料数据;对语料数据进行预处理,并提取其中的问句信息;根据相似度计算对问句信息进行聚类处理,聚类处理包括:获取第M个问句信息与已聚类的N个问句信息组之间的最大语义相似度值,当最大语义相似度值大于预设值时,将第M个问句信息聚类到最大语义相似度值对应的问句信息组中;当最大语义相似度值小于预设值时,将第M个问句信息作为第N+1个问句信息组,N小于或等于M?1借助于本发明的技术方案,能够提高在知识库中添加知识点的效率,避免了人力资源的浪费。
【专利说明】
问句信息处理方法及装置
技术领域
[0001]本发明涉及信息处理技术领域,特别是涉及一种问句信息处理方法及装置。
【背景技术】
[0002]在现有技术中,智能问答知识库中包括了多个知识点,在将新的知识点添加到知识库中时,需要人工审核领域语料,从语料中提取知识点,并创建知识点的标准问、多个扩展问和答案。但是,上述知识点的创建方法由于是通过人工审核,需要耗费大量的人力物力财力,并且效率低下。
【发明内容】
[0003]鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的问句信息处理方法及装置。
[0004]本发明提供一种问句信息处理方法,包括:
[0005]获取语料数据;
[0006]对语料数据进行预处理,并提取其中的问句信息;
[0007]根据相似度计算对问句信息进行聚类处理,聚类处理包括:获取第M个问句信息与已聚类的N个问句信息组之间的最大语义相似度值,当最大语义相似度值大于预设值时,将第M个问句信息聚类到最大语义相似度值对应的问句信息组中;当最大语义相似度值小于预设值时,将第M个问句信息作为第N+1个问句信息组,N小于或等于M-1。
[0008]本发明还提供了一种问句信息处理装置,包括:
[0009]获取模块,用于获取语料数据;
[0010]预处理模块,用于对语料数据进行预处理,并提取其中的问句信息;
[0011]聚类模块,用于根据相似度计算对问句信息进行聚类处理,聚类处理包括:获取第M个问句信息与已聚类的N个问句信息组之间的最大语义相似度值,当最大语义相似度值大于预设值时,将第M个问句信息聚类到最大语义相似度值对应的问句信息组中;当最大语义相似度值小于预设值时,将第M个问句信息作为第N+1个问句信息组,N小于或等于M-1。
[0012]本发明有益效果如下:
[0013]通过根据相似度计算对提取的问句信息进行自动聚类处理,解决了现有技术中人工审核语料耗费大量的人力物力财力并且效率低下的问题,能够提高在知识库中添加知识点的效率,避免了人力资源的浪费。
[0014]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。
【附图说明】
[0015]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0016]图1是本发明实施例的问句信息处理方法的流程图;
[0017]图2是本发明实施例的问句信息处理方法的详细处理的流程图;
[0018]图3是本发明实施例的问句信息处理装置的结构示意图。
【具体实施方式】
[0019]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0020]为了解决现有技术人工审核语料耗费大量的人力物力财力并且效率低下的问题,本发明提供了一种问句信息处理方法及装置,以下结合附图以及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
[0021 ]方法实施例
[0022]根据本发明的实施例,提供了一种问句信息处理方法,图1是本发明实施例的问句信息处理方法的流程图,如图1所示,根据本发明实施例的问句信息处理方法包括如下处理:
[0023]步骤101,获取语料数据。
[0024]在本发明实施例中,语料数据可以包括智能问答日志和/或从互联网爬取的问答数据。其中,智能问答日志是指:用户在使用智能问答系统过程中产生的交互日志,每条日志至少包括:用户的问句信息以及系统反馈的答案信息。此外,在从互联网爬取问答数据时,可以从论坛、网络百科、网络知道上爬取问答数据。
[0025]步骤102,对语料数据进行预处理,并提取其中的问句信息。
[0026]在步骤102中,预处理具体可以包括如下处理:去除语料数据中的无效格式,并将其余语料数据的格式统一为文本格式,过滤脏词、敏感词和停用词中的一种或多种,并将过滤后的文本数据按照标点划分为多行,得到问答形式的文本数据。在实际应用中,上述标点可以是问号、叹号、分号或句号,也就是说,可以将过滤后的文本数据按照问号、叹号、分号或句号划分为多行。
[0027]优选地,在步骤102之后,还可以对提取的问句信息进行分词处理,并通过新词发现方法获取新词,并根据新词重新进行分词处理,此外,还可以通过同义词发现方法从语料数据中获取语义相同的词语,以用于后续的语义相似度值计算。例如,后续在进行相似度计算时,如果通过同义词发现方法确认两个词为同义词,则会提高最后的语义相似度值的准确率。
[0028]具体地,分词处理可以采用字典双向最大匹配法、viterbi方法、HMM方法和CRF方法中的一种或多种进行。新词发现方法具体可以包括:互信息、共现概率、信息熵等方法,利用新词发现方法可以获取新的词语,根据获取的信的词语可以更新分词词典,那么在进行分词处理时,可以根据更新后的分词词典进行分词,增加了分词处理的准确率。同义词发现方法具体可以包括:W2V和编辑距离等方法,利用同义词发现方法可以发现具有相同含义的词语,例如:通过同义词发现方法发现组合词、简化词是同义词,那么后续进行语义相似度值计算时,根据发现的同义词就可以提高语义相似度值计算的准确率。
[0029]步骤103,根据相似度计算对问句信息进行聚类处理,其中,聚类处理包括:获取第M个问句信息与已聚类的N个问句信息组之间的最大语义相似度值,当最大语义相似度值大于预设值时,将第M个问句信息聚类到最大语义相似度值对应的问句信息组中;当最大语义相似度值小于预设值时,将第M个问句信息作为第N+1个问句信息组,N小于或等于M-1,也就是说,每个问句信息组中至少包括一个问句信息。
[0030]本实施例在进行聚类处理之前,并不需要预先确定聚类结果的数目,即当聚类处理后得到K个问句信息组时,K数值是自动聚类的结果,在聚类之前并不清楚也没有限定聚类的结果,从而实现了自动聚类。
[0031]此外,本实施例将语义相似度值比较高的问句聚类在一个问句信息组中,从而可以将一个问句信息组中的问句作为同一个知识点的拓展问,采用这样的方法建立包括多个知识点的问答知识库,可以提高问答的准确率。
[0032]在步骤103中,第M个问句信息与已聚类的问句信息组之间的语义相似度值可以通过以下方式确定:
[0033]当已聚类的问句信息组包括的问句信息数目小于或等于J个时,分别计算第M个问句信息与每个问句信息的语义相似度值,并将语义相似度值的平均值作为第M个问句信息与问句信息组之间的语义相似度值,从而得到准确的语义相似度值。
[0034]当已聚类的问句信息组包括的问句信息数目大于J个时,计算第M个问句信息与其中J个问句信息的语义相似度值,并将语义相似度值的平均值作为第M个问句信息与问句信息组之间的语义相似度值,从而使得计算更加高效。需要说明的是,此时J个问句信息可以随机选择,也可以选择特定的J个问句信息。
[0035]在实际应用中,J的取值可以根据实际情况进行设置,通过上述方式确定语义相似度值,在兼顾计算效率的情况下,能够得到比较准确的语义相似度值。
[0036]需要说明的是,在本发明的其它实施例中,无论已聚类的问句信息组中包括的的问句信息数目为多少,还可以采用以下任一种方式计算第M个问句信息与已聚类的问句信息组之间的语义相似度值:
[0037]I)分别计算第M个问句信息与每个问句信息的语义相似度值,并将语义相似度值的平均值作为第M个问句信息与问句信息组之间的语义相似度值;
[0038]2)分别计算第M个问句信息与每个问句信息的语义相似度值,并将其中最大的语义相似度值作为第M个问句信息与问句信息组之间的语义相似度值;
[0039]3)分别计算第M个问句信息与每个问句信息的语义相似度值,并将其中最小的语义相似度值作为第M个问句信息与问句信息组之间的语义相似度值;
[0040]4)分别计算第M个问句信息与每个问句信息的语义相似度值,并将其中最小的语义相似度值和最大的语义相似度值的平均值作为第M个问句信息与问句信息组之间的语义相似度值。
[0041]优选地,在实际应用中,根据相似度计算对问句信息进行聚类处理时,可以采用基于向量空间模型,根据每个问句数据的向量依次计算每个问句信息与当前向量空间模型中已聚类的N个问句信息组的语义相似度值,并根据语义相似度值依次对每个问句信息进行聚类。
[0042]需要说明的是,聚类后的问句信息作为知识点的扩展问,为了形成一个真正的知识点,还可以分别为每个问句信息组设置一个标准问以及答案。其中的标准问可以是扩展问中的一个,也可以是扩展问之外的问法。通过上述处理,每个知识点中均包括一个标准问、至少一个扩展问、以及对应的答案。
[0043]在本发明实施例中,为了提高聚类处理的正确率,还可以计算聚类处理的准确率,如果准确率小于预定准确率阈值,则对知识点进行合并和/或拆分。在本发明实施例中,计算聚类处理的准确率时,可以依据给出的每个聚类处理是否正确的指示来确定聚类处理的准确率。
[0044]如果采用向量空间模型进行聚类处理,如果准确率大于预定准确率阈值,则表示向量空间模型稳定已经完成训练,可以开始进行聚类处理,如果准确率小于预定准确率阈值,则表示向量空间模型还未完成训练,需要继续对该向量空间模型进行训练,直到准确率大于预定准确率阈值。
[0045]以下结合附图,对本发明实施例的上述技术方案进行详细说明。
[0046]图2是本发明实施例的问句信息处理方法的详细处理的流程图,如图2所示,具体包括如下处理:
[0047]步骤201,获取智能问答日志以及从互联网爬取的问答数据,形成语料数据;
[0048]步骤202,对语料数据进行预处理:去除语料数据中的无效格式,并将其余语料数据的格式统一为文本格式,过滤脏词、敏感词和停用词中的一种或多种,并将过滤后的文本数据按照标点(? !。)划分为多行,得到问答形式的文本数据;
[0049]步骤203,通过新词发现方法获取新词;
[0050]步骤204,判断获取的新词是否为需要的领域内的词,如果判断为是,执行步骤205,否则,抛弃新词;
[0051]步骤205,根据新词对分词词典进行更新,根据更新后的分词词典进行分词处理;
[0052]步骤206,通过同义词发现方法从语料数据中获取语义相同的词语;
[0053]步骤207,基于语义相同的词语,利用向量空间模型根据相似度计算对问句信息进行聚类处理;
[0054]步骤208,计算聚类处理的准确率,判断聚类处理的准确率是否小于预定准确率阈值,如果判断为是,执行步骤209,否则,执行步骤211;
[0055]步骤209,对知识点进行合并和/或拆分;
[0056]步骤210,根据合并和/或拆分后的知识点更新向量空间模型,执行步骤207;
[0057]步骤211,向量空间模型训练结束。
[0058]综上所述,借助于本发明实施例的技术方案,通过根据相似度计算对提取的问句信息进行自动聚类处理,解决了现有技术中人工审核语料耗费大量的人力物力财力并且效率低下的问题,能够提高在知识库中添加知识点的效率,避免了人力资源的浪费。
[0059]装置实施例
[0060]根据本发明的实施例,提供了一种问句信息处理装置,图3是本发明实施例的问句信息处理装置的结构示意图,如图3所示,根据本发明实施例的问句信息处理装置包括:获取模块30、预处理模块32、以及聚类模块34,以下对本发明实施例的各个模块进行详细的说明。
[0061 ]获取模块30,用于获取语料数据。
[0062]在本发明实施例中,语料数据包括智能问答日志和/或从互联网爬取的问答数据。
[0063]预处理模块32,用于对语料数据进行预处理,并提取其中的问句信息。
[0064]预处理模块32具体用于:去除语料数据中的无效格式,并将其余语料数据的格式统一为文本格式,过滤脏词、敏感词和停用词中的一种或多种,并将过滤后的文本数据按照标点划分为多行,得到问答形式的文本数据。在实际应用中,上述标点可以是问号、叹号、分号或句号,也就是说,可以将过滤后的文本数据按照问号、叹号、分号或句号划分为多行。
[0065]聚类模块34,用于根据相似度计算对问句信息进行聚类处理,聚类处理包括:获取第M个问句信息与已聚类的N个问句信息组之间的最大语义相似度值,当最大语义相似度值大于预设值时,将第M个问句信息聚类到最大语义相似度值对应的问句信息组中;当最大语义相似度值小于预设值时,将第M个问句信息作为第N+1个问句信息组,N小于或等于M-1。也就是说,每个问句信息组中至少包括一个问句信息。
[0066]聚类模块34具体用于:
[0067]当已聚类的问句信息组包括的问句信息数目小于或等于J个时,分别计算第M个问句信息与每个问句信息的语义相似度值,并将语义相似度值的平均值作为第M个问句信息与问句信息组之间的语义相似度值;从而得到准确的语义相似度值。
[0068]当已聚类的问句信息组包括的问句信息数目大于J个时,计算第M个问句信息与其中J个问句信息的语义相似度值,并将语义相似度值的平均值作为第M个问句信息与问句信息组之间的语义相似度值。从而使得计算更加高效。需要说明的是,J个问句信息可以随机选择,也可以选择特定的J个问句信息。
[0069]在实际应用中,J的取值可以根据实际情况进行设置,通过上述方式确定语义相似度值,在兼顾计算效率的情况下,能够得到比较准确的语义相似度值。
[0070]需要说明的是,在本发明的其它实施例中,无论已聚类的问句信息组中包括的的问句信息数目为多少,还可以采用以下任一种方式计算第M个问句信息与已聚类的问句信息组之间的语义相似度值:
[0071]I)分别计算第M个问句信息与每个问句信息的语义相似度值,并将语义相似度值的平均值作为第M个问句信息与问句信息组之间的语义相似度值;
[0072]2)分别计算第M个问句信息与每个问句信息的语义相似度值,并将其中最大的语义相似度值作为第M个问句信息与问句信息组之间的语义相似度值;
[0073]3)分别计算第M个问句信息与每个问句信息的语义相似度值,并将其中最小的语义相似度值作为第M个问句信息与问句信息组之间的语义相似度值;
[0074]4)分别计算第M个问句信息与每个问句信息的语义相似度值,并将其中最小的语义相似度值和最大的语义相似度值的平均值作为第M个问句信息与问句信息组之间的语义相似度值。
[0075]优选地,在实际应用中,聚类模块34根据相似度计算对问句信息进行聚类处理时,可以采用基于向量空间模型,根据每个问句数据的向量依次计算每个问句信息与当前向量空间模型中已聚类的N个问句信息组的语义相似度值,并根据语义相似度值依次对每个问句信息进行聚类。
[0076]优选地,上述问句信息处理装置还可以包括:
[0077]分词处理模块,用于对提取的问句信息进行分词处理,并通过新词发现方法获取新词,并根据新词重新进行分词处理,具体地,分词处理模块可以采用字典双向最大匹配法、V i t erb i方法、HMM方法和CRF方法中的一种或多种进行分词处理。利用新词发现方法可以获取新的词语,根据获取的信的词语可以更新分词词典,那么在进行分词处理时,可以根据更新后的分词词典进行分词,增加了分词处理的准确率。
[0078]同义词发现模块,用于通过同义词发现方法从语料数据中获取语义相同的词语,以用于后续的语义相似度值计算。例如,后续在进行相似度计算时,如果通过同义词发现方法确认两个词为同义词,则会提高最后的语义相似度值。
[0079]同义词发现模块利用同义词发现方法可以发现具有相同含义的词语,例如:通过同义词发现方法发现组合词、简化词是同义词,那么后续进行语义相似度值计算时,根据发现的同义词就可以提高语义相似度值计算的准确率。
[0080]聚类后的问句信息作为扩展问,为了形成一个真正的知识点,问句信息处理装置还包括:
[0081]知识点模块,用于分别为每个问句信息组设置一个标准问以及答案。通过上述处理,每个知识点中均包括一个标准问、至少一个扩展问、以及对应的答案。
[0082]在本发明实施例中,为了提高聚类处理的正确率,问句信息处理装置可以包括优化模块,用于计算聚类处理的准确率,如果准确率小于预定准确率阈值,则对知识点进行合并和/或拆分。在本发明实施例中,计算聚类处理的准确率时,可以依据给出的每个聚类处理是否正确的指示来确定聚类处理的准确率。
[0083]如果采用向量空间模型进行聚类处理,如果准确率大于预定准确率阈值,则表示向量空间模型稳定已经完成训练,可以开始进行聚类处理,如果准确率小于预定准确率阈值,则表示向量空间模型还未完成训练,需要继续对该向量空间模型进行训练,直到准确率大于预定准确率阈值。
[0084]综上,借助于本发明实施例的技术方案,通过根据相似度计算对提取的问句信息进行自动聚类处理,解决了现有技术中人工审核语料耗费大量的人力物力财力并且效率低下的问题,能够提高在知识库中添加知识点的效率,避免了人力资源的浪费。
[0085]显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
[0086]在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
[0087]在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
[0088]类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循【具体实施方式】的权利要求书由此明确地并入该【具体实施方式】,其中每个权利要求本身都作为本发明的单独实施例。
[0089]本领域那些技术人员可以理解,可以对实施例中的客户端中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个客户端中。可以把实施例中的模块组合成一个模块,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者客户端的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
[0090]此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
[0091]本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的加载有排序网址的客户端中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
[0092]应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
【主权项】
1.一种问句信息处理方法,其特征在于,包括: 获取语料数据; 对所述语料数据进行预处理,并提取其中的问句信息; 根据相似度计算对所述问句信息进行聚类处理,所述聚类处理包括:获取第M个问句信息与已聚类的N个问句信息组之间的最大语义相似度值,当所述最大语义相似度值大于预设值时,将第M个问句信息聚类到所述最大语义相似度值对应的问句信息组中;当所述最大语义相似度值小于预设值时,将第M个问句信息作为第N+1个问句信息组,所述N小于或等于M-102.如权利要求1所述的问句信息处理方法,其特征在于,所述预处理包括:去除所述语料数据中的无效格式,并将其余语料数据的格式统一为文本格式,过滤脏词、敏感词和停用词中的一种或多种,并将过滤后的文本数据按照标点划分为多行,得到问答形式的文本数据。3.如权利要求1所述的问句信息处理方法,其特征在于,所述方法还包括:对提取的问句信息进行分词处理,并通过新词发现方法获取新词,并根据所述新词重新进行分词处理,通过同义词发现方法从所述语料数据中获取语义相同的词语,以用于后续的语义相似度值计算。4.如权利要求1所述的问句信息处理方法,其特征在于,第M个问句信息与已聚类的问句信息组之间的语义相似度值通过以下方式确定: 当已聚类的问句信息组包括的问句信息数目小于或等于J个时,分别计算第M个问句信息与每个问句信息的语义相似度值,并将语义相似度值的平均值作为第M个问句信息与所述问句信息组之间的语义相似度值; 当已聚类的问句信息组包括的问句信息数目大于J个时,计算第M个问句信息与其中J个问句信息的语义相似度值,并将语义相似度值的平均值作为第M个问句信息与所述问句信息组之间的语义相似度值。5.如权利要求1所述的问句信息处理方法,其特征在于,聚类后的所述问句信息作为扩展问,所述方法还包括:分别为每个问句信息组设置一个标准问以及答案,形成一个知识点。6.如权利要求1所述的问句信息处理方法,其特征在于,所述方法还包括:计算所述聚类处理的准确率,如果所述准确率小于预定准确率阈值,则对所述知识点进行合并和/或拆分。7.如权利要求1所述的问句信息处理方法,其特征在于,所述语料数据包括智能问答日志和/或从互联网爬取的问答数据。8.一种问句信息处理装置,其特征在于,包括: 获取模块,用于获取语料数据; 预处理模块,用于对所述语料数据进行预处理,并提取其中的问句信息; 聚类模块,用于根据相似度计算对所述问句信息进行聚类处理,所述聚类处理包括:获取第M个问句信息与已聚类的N个问句信息组之间的最大语义相似度值,当所述最大语义相似度值大于预设值时,将第M个问句信息聚类到所述最大语义相似度值对应的问句信息组中;当所述最大语义相似度值小于预设值时,将第M个问句信息作为第N+1个问句信息组,所述N小于或等于M-1。9.如权利要求8所述的问句信息处理装置,其特征在于,所述预处理模块具体用于:去除所述语料数据中的无效格式,并将其余语料数据的格式统一为文本格式,过滤脏词、敏感词和停用词中的一种或多种,并将过滤后的文本数据按照标点划分为多行,得到问答形式的文本数据。10.如权利要求8所述的问句信息处理装置,其特征在于,所述问句信息处理装置还包括: 分词处理模块,用于对提取的问句信息进行分词处理,并通过新词发现方法获取新词,并根据所述新词重新进行分词处理; 同义词发现模块,用于通过同义词发现方法从所述语料数据中获取语义相同的词语,以用于后续的语义相似度值计算。11.如权利要求8所述的问句信息处理装置,其特征在于,所述聚类模块具体用于: 当已聚类的问句信息组包括的问句信息数目小于或等于J个时,分别计算第M个问句信息与每个问句信息的语义相似度值,并将语义相似度值的平均值作为第M个问句信息与所述问句信息组之间的语义相似度值; 当已聚类的问句信息组包括的问句信息数目大于J个时,计算第M个问句信息与其中J个问句信息的语义相似度值,并将语义相似度值的平均值作为第M个问句信息与所述问句信息组之间的语义相似度值。12.如权利要求8所述的问句信息处理装置,其特征在于,聚类后的所述问句信息作为扩展问,所述问句信息处理装置还包括:知识点模块,用于分别为每个问句信息组设置一个标准问以及答案,形成一个知识点。13.如权利要求8所述的问句信息处理装置,其特征在于,所述问句信息处理装置还包括: 优化模块,用于计算所述聚类处理的准确率,如果所述准确率小于预定准确率阈值,则对所述知识点进行合并和/或拆分。14.如权利要求8所述的问句信息处理装置,其特征在于,所述语料数据包括智能问答日志和/或从互联网爬取的问答数据。
【文档编号】G06F17/27GK105975460SQ201610369479
【公开日】2016年9月28日
【申请日】2016年5月30日
【发明人】张昊, 朱频频
【申请人】上海智臻智能网络科技股份有限公司