确定词语相似度的方法及装置的制造方法

文档序号：8380928阅读：269来源：国知局

确定词语相似度的方法及装置的制造方法
【技术领域】
[0001] 本公开涉及计算机领域，尤其涉及确定词语相似度的方法及装置。
【背景技术】
[0002] 相关技术中，在人工智能中的自然语言处理领域中，自然语言的处理内容，包括：命名实体识别，词性标注，短文本聚类，知识抽提，信息检索等。其中，短文本聚类是知识抽提的必要环节，可以用短文本的模板来抽取短文本中的知识点。短文本聚类的依据就是短文本的相似度。而短文本之间的相似度则是短文本中每个词的相似度所决定的。

【发明内容】

[0003] 为克服相关技术中存在的问题，本公开提供一种确定词语相似度的方法。利用简单的算法计算两个词之间的相似度，节约了大量的计算量，并且提高了计算的准确度。
[0004] 根据本公开实施例的第一方面，提供一种确定词语相似度的方法，包括：从短文本中获取多个结构词；针对所述多个结构词中的每两个结构词，将所述两个结构词分别与预设的模板进行匹配，确定匹配成功的模板和模板数量；确定所述两个结构词共同匹配成功的模板的共同模板数量；根据所述共同模板数量和所述两个结构词分别对应的模板数量，确定所述两个结构词之间的结构相似度；在预设短文本集合中，确定所述两个结构词共同匹配成功的短文本的共同短文本数量；根据所述共同短文本数量，确定所述两个结构词之间的校正值；根据所述结构相似度及校正值，计算所述两个结构词之间的相似度。
[0005] 本公开的实施例提供的技术方案可以包括以下有益效果：通过根据两个结构词上下文的信息计算两个结构词的结构相似度，再根据两个结构词出现在相同短文本中的次数，计算两个结构词之间的校正值，根据结构相似度及校正值，计算两个结构词之间的相似度。利用简单的算法计算两个结构词之间的相似度，节约了大量的计算量，并且提高了计算的准确度。
[0006] 所述根据所述共同模板数量和所述两个结构词分别对应的模板数量，确定所述两个结构词之间的结构相似度是通过以下公式计算，所述公式包括其
【主权项】
1. 一种确定词语相似度的方法，其特征在于，包括：从短文本中获取多个结构词；针对所述多个结构词中的每两个结构词，将所述两个结构词分别与预设的模板进行匹配，确定匹配成功的模板和模板数量；确定所述两个结构词共同匹配成功的模板的共同模板数量；根据所述共同模板数量和所述两个结构词分别对应的模板数量，确定所述两个结构词之间的结构相似度；在预设短文本集合中，确定所述两个结构词共同匹配成功的短文本的共同短文本数量；根据所述共同短文本数量，确定所述两个结构词之间的校正值；根据所述结构相似度及校正值，计算所述两个结构词之间的相似度。
2. 如权利要求1所述的方法，其特征在于，所述根据所述共同模板数量和所述两个结构词分别对应的模板数量，确定所述两个结构词之间的结构相似度是通过以下公式计算，所述公式包括：
其中，Ss为两个结构词之间的结构相似度，T为两个结构词共同匹配成功的模板的共同模板数量，Ta为一个结构词匹配成功的模板的数量，Tb为另一个结构词匹配成功的模板的数量。
3. 如权利要求1所述的方法，其特征在于，所述根据所述共同短文本数量，确定所述两个结构词之间的校正值是通过以下公式计算，所述公式包括： C = (W+1) 9；其中，C为两个结构词之间的校正值，W为所述两个结构词共同匹配成功的短文本的共同短文本数量，0为校正系数，0为正整数。
4. 如权利要求1-3中任一权利要求所述的方法，其特征在于，所述根据所述结构相似度及校正值，计算所述两个结构词之间的相似度是通过以下公式计算，所述公式包括： C 其中，S为所述两个结构词之间的相似度。
5. 如权利要求1所述的方法，其特征在于，所述确定匹配成功的模板和模板数量，还包括：获得模板出现的次数；当模板出现的次数大于预设阈值时，根据所述模板出现的次数从多到少的顺序进行排列；确定所述模板出现的次数从多到少的顺序中排在前N位的模板为匹配成功的模板，其中，N为预设的正整数。
6. 如权利要求1所述的方法，其特征在于，所述模板是通过以下方式生成的：从预设的短文本集合中获取短文本；在所述短文本中根据除顿号以外的分隔符号，确定两个分隔符号之间的文本段为短句；确定所述短句中的结构词；根据所述结构词及所述短句中词语的词性，生成模板。
7. -种确定词语相似度的装置，其特征在于，包括：第一获取模块，用于从短文本中获取多个结构词；第一确定模块，用于针对所述多个结构词中的每两个结构词，将所述两个结构词分别与预设的模板进行匹配，确定匹配成功的模板和模板数量；第二确定模块，用于确定所述两个结构词共同匹配成功的模板的共同模板数量；第三确定模块，用于根据所述共同模板数量和所述两个结构词分别对应的模板数量，确定所述两个结构词之间的结构相似度；第四确定模块，用于在预设短文本集合中，确定所述两个结构词共同匹配成功的短文本的共同短文本数量；第五确定模块，用于根据所述共同短文本数量，确定所述两个结构词之间的校正值；计算模块，用于根据所述结构相似度及校正值，计算所述两个结构词之间的相似度。
8. 如权利要求7所述的装置，其特征在于，所述第一确定模块，还包括：获得子模块，用于获得模板出现的次数；排序子模块，用于当模板出现的次数大于预设阈值时，根据所述模板出现的次数从多到少的顺序进行排列；确定子模块，用于确定所述模板出现的次数从多到少的顺序中排在前N位的模板为匹配成功的模板，其中，N为预设的正整数。
9. 如权利要求7所述的装置，其特征在于，所述模板是通过以下装置生成的：第二获取模块，用于从预设的短文本集合中获取短文本；第六确定模块，用于在所述短文本中根据除顿号以外的分隔符号，确定两个分隔符号之间的文本段为短句；第七确定模块，用于确定所述短句中的结构词；生成模块，用于根据所述结构词及所述短句中词语的词性，生成模板。
10. -种确定词语相似度的装置，其特征在于，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为：从短文本中获取多个结构词；针对所述多个结构词中的每两个结构词，将所述两个结构词分别与预设的模板进行匹配，确定匹配成功的模板和模板数量；确定所述两个结构词共同匹配成功的模板的共同模板数量；根据所述共同模板数量和所述两个结构词分别对应的模板数量，确定所述两个结构词之间的结构相似度；在预设短文本集合中，确定所述两个结构词共同匹配成功的短文本的共同短文本数量；根据所述共同短文本数量，确定所述两个结构词之间的校正值；根据所述结构相似度及校正值，计算所述两个结构词之间的相似度。
【专利摘要】本公开是关于一种确定词语相似度的方法及装置。所述方法，包括：从短文本中获取多个结构词；针对多个结构词中的每两个结构词，将两个结构词分别与预设的模板进行匹配，确定匹配成功的模板和模板数量；确定两个结构词共同匹配成功的模板的共同模板数量；根据共同模板数量和两个结构词分别对应的模板数量，确定两个结构词之间的结构相似度；在预设短文本集合中，确定两个结构词共同匹配成功的短文本的共同短文本数量；根据共同短文本数量，确定两个结构词之间的校正值；根据结构相似度及校正值，计算两个结构词之间的相似度。利用简单的算法计算两个词之间的相似度，节约了大量的计算量，并且提高了计算的准确度。
【IPC分类】G06F17-27, G06F17-30
【公开号】CN104699668
【申请号】CN201510138290
【发明人】刘毅超, 汪平仄, 代阳
【申请人】小米科技有限责任公司
【公开日】2015年6月10日
【申请日】2015年3月26日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘毅超;汪平仄;代阳;
技术所有人：小米科技有限责任公司;
我是此专利的发明人

上一篇：一种文本字数统计的方法及装置的制造方法
上一篇：改进的基于语义词典的词语相似度计算方法和装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。