确定词语相似度的方法及装置的制造方法
【技术领域】
[0001] 本公开涉及计算机领域,尤其涉及确定词语相似度的方法及装置。
【背景技术】
[0002] 相关技术中,在人工智能中的自然语言处理领域中,自然语言的处理内容,包括: 命名实体识别,词性标注,短文本聚类,知识抽提,信息检索等。其中,短文本聚类是知识抽 提的必要环节,可以用短文本的模板来抽取短文本中的知识点。短文本聚类的依据就是短 文本的相似度。而短文本之间的相似度则是短文本中每个词的相似度所决定的。
【发明内容】
[0003] 为克服相关技术中存在的问题,本公开提供一种确定词语相似度的方法。利用简 单的算法计算两个词之间的相似度,节约了大量的计算量,并且提高了计算的准确度。
[0004] 根据本公开实施例的第一方面,提供一种确定词语相似度的方法,包括:从短文本 中获取多个结构词;针对所述多个结构词中的每两个结构词,将所述两个结构词分别与预 设的模板进行匹配,确定匹配成功的模板和模板数量;确定所述两个结构词共同匹配成功 的模板的共同模板数量;根据所述共同模板数量和所述两个结构词分别对应的模板数量, 确定所述两个结构词之间的结构相似度;在预设短文本集合中,确定所述两个结构词共同 匹配成功的短文本的共同短文本数量;根据所述共同短文本数量,确定所述两个结构词之 间的校正值;根据所述结构相似度及校正值,计算所述两个结构词之间的相似度。
[0005] 本公开的实施例提供的技术方案可以包括以下有益效果:通过根据两个结构词 上下文的信息计算两个结构词的结构相似度,再根据两个结构词出现在相同短文本中的次 数,计算两个结构词之间的校正值,根据结构相似度及校正值,计算两个结构词之间的相似 度。利用简单的算法计算两个结构词之间的相似度,节约了大量的计算量,并且提高了计算 的准确度。
[0006] 所述根据所述共同模板数量和所述两个结构词分别对应的模板数量,确定所述两 个结构词之间的结构相似度是通过以下公式计算,所述公式包括其
【主权项】
1. 一种确定词语相似度的方法,其特征在于,包括: 从短文本中获取多个结构词; 针对所述多个结构词中的每两个结构词,将所述两个结构词分别与预设的模板进行匹 配,确定匹配成功的模板和模板数量; 确定所述两个结构词共同匹配成功的模板的共同模板数量; 根据所述共同模板数量和所述两个结构词分别对应的模板数量,确定所述两个结构词 之间的结构相似度; 在预设短文本集合中,确定所述两个结构词共同匹配成功的短文本的共同短文本数 量; 根据所述共同短文本数量,确定所述两个结构词之间的校正值; 根据所述结构相似度及校正值,计算所述两个结构词之间的相似度。
2. 如权利要求1所述的方法,其特征在于,所述根据所述共同模板数量和所述两个结 构词分别对应的模板数量,确定所述两个结构词之间的结构相似度是通过以下公式计算, 所述公式包括:
其中,Ss为两个结构词之间的结构相似度,T为两个结构词共同匹配成功的模板的共同 模板数量,Ta为一个结构词匹配成功的模板的数量,Tb为另一个结构词匹配成功的模板的 数量。
3. 如权利要求1所述的方法,其特征在于,所述根据所述共同短文本数量,确定所述两 个结构词之间的校正值是通过以下公式计算,所述公式包括: C = (W+1) 9; 其中,C为两个结构词之间的校正值,W为所述两个结构词共同匹配成功的短文本的共 同短文本数量,0为校正系数,0为正整数。
4. 如权利要求1-3中任一权利要求所述的方法,其特征在于,所述根据所述结构相似 度及校正值,计算所述两个结构词之间的相似度是通过以下公式计算,所述公式包括: C 其中,S为所述两个结构词之间的相似度。
5. 如权利要求1所述的方法,其特征在于,所述确定匹配成功的模板和模板数量,还包 括: 获得模板出现的次数; 当模板出现的次数大于预设阈值时,根据所述模板出现的次数从多到少的顺序进行排 列; 确定所述模板出现的次数从多到少的顺序中排在前N位的模板为匹配成功的模板,其 中,N为预设的正整数。
6. 如权利要求1所述的方法,其特征在于,所述模板是通过以下方式生成的: 从预设的短文本集合中获取短文本; 在所述短文本中根据除顿号以外的分隔符号,确定两个分隔符号之间的文本段为短 句; 确定所述短句中的结构词; 根据所述结构词及所述短句中词语的词性,生成模板。
7. -种确定词语相似度的装置,其特征在于,包括: 第一获取模块,用于从短文本中获取多个结构词; 第一确定模块,用于针对所述多个结构词中的每两个结构词,将所述两个结构词分别 与预设的模板进行匹配,确定匹配成功的模板和模板数量; 第二确定模块,用于确定所述两个结构词共同匹配成功的模板的共同模板数量; 第三确定模块,用于根据所述共同模板数量和所述两个结构词分别对应的模板数量, 确定所述两个结构词之间的结构相似度; 第四确定模块,用于在预设短文本集合中,确定所述两个结构词共同匹配成功的短文 本的共同短文本数量; 第五确定模块,用于根据所述共同短文本数量,确定所述两个结构词之间的校正值; 计算模块,用于根据所述结构相似度及校正值,计算所述两个结构词之间的相似度。
8. 如权利要求7所述的装置,其特征在于,所述第一确定模块,还包括: 获得子模块,用于获得模板出现的次数; 排序子模块,用于当模板出现的次数大于预设阈值时,根据所述模板出现的次数从多 到少的顺序进行排列; 确定子模块,用于确定所述模板出现的次数从多到少的顺序中排在前N位的模板为匹 配成功的模板,其中,N为预设的正整数。
9. 如权利要求7所述的装置,其特征在于,所述模板是通过以下装置生成的: 第二获取模块,用于从预设的短文本集合中获取短文本; 第六确定模块,用于在所述短文本中根据除顿号以外的分隔符号,确定两个分隔符号 之间的文本段为短句; 第七确定模块,用于确定所述短句中的结构词; 生成模块,用于根据所述结构词及所述短句中词语的词性,生成模板。
10. -种确定词语相似度的装置,其特征在于,包括: 处理器; 用于存储处理器可执行指令的存储器; 其中,所述处理器被配置为: 从短文本中获取多个结构词; 针对所述多个结构词中的每两个结构词,将所述两个结构词分别与预设的模板进行匹 配,确定匹配成功的模板和模板数量; 确定所述两个结构词共同匹配成功的模板的共同模板数量; 根据所述共同模板数量和所述两个结构词分别对应的模板数量,确定所述两个结构词 之间的结构相似度; 在预设短文本集合中,确定所述两个结构词共同匹配成功的短文本的共同短文本数 量; 根据所述共同短文本数量,确定所述两个结构词之间的校正值; 根据所述结构相似度及校正值,计算所述两个结构词之间的相似度。
【专利摘要】本公开是关于一种确定词语相似度的方法及装置。所述方法,包括:从短文本中获取多个结构词;针对多个结构词中的每两个结构词,将两个结构词分别与预设的模板进行匹配,确定匹配成功的模板和模板数量;确定两个结构词共同匹配成功的模板的共同模板数量;根据共同模板数量和两个结构词分别对应的模板数量,确定两个结构词之间的结构相似度;在预设短文本集合中,确定两个结构词共同匹配成功的短文本的共同短文本数量;根据共同短文本数量,确定两个结构词之间的校正值;根据结构相似度及校正值,计算两个结构词之间的相似度。利用简单的算法计算两个词之间的相似度,节约了大量的计算量,并且提高了计算的准确度。
【IPC分类】G06F17-27, G06F17-30
【公开号】CN104699668
【申请号】CN201510138290
【发明人】刘毅超, 汪平仄, 代阳
【申请人】小米科技有限责任公司
【公开日】2015年6月10日
【申请日】2015年3月26日