1.基于中医药领域专业词向量的中药处方用药安全检测方法,其特征在于:包括如下步骤:
1)首先爬取百科网站上中医药相关的词条信息;
2)提取中药材、方剂的公开信息,进行筛选、过滤、去重,建立本地词料信息库;
3)将第2步所得的词条去掉停用词,构建word2vec的训练集;
4)训练word2vec模型,构造词向量矩阵;
5)对于每一条中药材、方剂词条信息,利用谷歌、百度等通用搜索引擎提供的文本检索功能,获取其配伍禁忌、毒性、不良反应信息和它们所在源网页的内容;
6)对于第5步中得到的每一个源网页,去掉包括html标签、js代码、css代码的内容,然后利用crf模型与最长单词匹配方法相组合进行分词,去掉停用词,得到源网页的文本信息;
7)利用第6步所得文本和第4步得到的词向量矩阵训练doc2vec模型,即用第3步的词向量矩阵初始化doc2vec中的词向量矩阵,更新时保持词向量矩阵不变,只更新文档向量,训练完后便得到各源网页的文档向量;
8)根据各源网页的文档向量与对应的中药材、方剂词向量的余弦相似度对第5步中得到的候选风险信息集进行重排和过滤,选出相似度高于预设阈值的风险信息集,作为候选风险信息集;
9)加工处理风险信息,进行分词,去除停用词,区分准确度,建立方药风险信息库,库中包含方药的配伍禁忌、毒性、不良反应、适应人群、来源、准确度等信息;
10)查询方药风险时,根据输入的方药内容,提取方药配伍信息,检索方药风险信息库,进行配伍禁忌匹配,同时进行毒性检测,不良反应检测;
11)查询患者风险时,根据输入的患者特征,检索方药风险信息库,进行患者配伍禁忌匹配,同时进行毒性检测,不良反应检测。