技术总结
本发明公开了一种基于深度学习的在线中医文本命名实体识别方法,包括:通过网络爬虫获取在线中医文本数据,利用已有的专业词典及人工辅助对获取的在线中医文本数据中的命名实体进行标注;利用word2vec工具在大规模的无标注语料上进行学习,获取固定长度的词向量并组成相应的词汇表;将在线中医文本数据进行分词,通过查找词汇表,将词语转化为固定长度词向量作为卷积神经网络的输入,当句子长度不足时以空白符填充;将卷积神经网络的输出作为双向长短时记忆循环神经网络的输入,输出待识别的在线中医文本数据词语的识别结果。本发明的方法相比于使用传统方法进行命名实体识别,减少了特征提取的复杂性和工作量,简化了处理过程,显著提高了识别效率。
技术研发人员:文贵华;陈佳浩
受保护的技术使用者:华南理工大学
文档号码:201710003685
技术研发日:2017.01.04
技术公布日:2017.05.17