本申请涉及计算机技术领域,特别是涉及一种关键词新增方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,用户可以通过手机终端上安装的应用程序进行线上问诊,以实现线上看病,只有遇到线上无法解决的问题时,才会转到线下科室进行处理。然而,由于医院门诊科室名称种类繁多,且与线上问诊科室名称不尽相同,要实现线上线下的转诊,需要进行翻译。
传统地,由于历史数据量较小,因此会出现推算不出关键词,或是关键词搜索不到结果,导致科室推荐失败,因此继续对该问题进行解决。
技术实现要素:
基于此,有必要针对上述技术问题,提供一种能够针对提高科室推荐成功率的关键词新增方法、装置、计算机设备和存储介质。
一种关键词新增方法,所述方法包括:
查询无搜索结果的搜索记录,并获取所述搜索记录对应的不同维度的本体词;
弹出关键词映射管理界面,并将所述不同维度的本体词输入至所述关键词映射管理界面中的对应维度的属性值中;
通过所述关键词映射管理界面接收录入的关键词;
关联存储所述属性值和所述关键词。
在其中一个实施例中,所述方法还包括:
接收针对关联存储后的所述属性值和所述关键词的状态修改指令;
根据所述状态修改指令,将所述关联存储后的所述属性值和所述关键词对应的搜索记录的状态修改为存在搜索结果;
并将所述关联存储后的所述属性值和所述关键词添加至关键词映射管理库。
在其中一个实施例中,所述方法还包括:
接收终端获取的输入的问诊数据;
对所述问诊数据进行分词处理得到分词数据;
通过转义词库对所述分词数据进行推导得到不同维度的本体词;
将不同维度的所述本体词与关键词映射管理库中的关键词的属性值进行匹配;
当不同维度的所述本体词与关键词映射管理库中的关键词的属性值匹配未得到目标关键词时,则将所述问诊数据对应的搜索记录标记为无搜索结果。
在其中一个实施例中,所述方法还包括:
当不同维度的所述本体词与关键词映射管理库中的关键词的属性值匹配得到目标关键词时,则搜索与所述目标关键词对应的科室;
当未搜索到与所述目标关键词对应的科室时,则将所述问诊数据对应的搜索记录标记为无搜索结果。
在其中一个实施例中,所述通过转义词库对所述分词数据进行推导得到不同维度的本体词之前,还包括:
接收所述终端获取的当前场景;
根据所述当前场景加载对应的转义词库。
在其中一个实施例中,所述通过转义词库对所述分词数据进行推导得到不同维度的本体词,包括:
检索所述转义词库中是否存在与当前分词对应的;
当所述转义词库中存在与所述当前分词对应的本体词时,则对所述本体词进行维度处理得到不同维度的本体词,并输出所述不同维度的本体词;
当所述转义词库中不存在与所述当前分词对应的本体词时,检索所述转义词库中是否存在与所述当前分词对应的近义词;
当所述转义词库中存在与所述当前分词对应的近义词时,则通过所述近义词更新所述当前分词,并继续检索所述转义词库中是否存在与当前分词对应的本体词。
一种关键词新增装置,所述装置包括:
查询模块,用于查询无搜索结果的搜索记录,并获取所述搜索记录对应的不同维度的本体词;
第一输入模块,用于弹出关键词映射管理界面,并将所述不同维度的本体词输入至所述关键词映射管理界面中的对应维度的属性值中;
第一接收模块,用于通过所述关键词映射管理界面接收录入的关键词;
存储模块,用于关联存储所述属性值和所述关键词。
在其中一个实施例中,所述装置还包括:
第二接收模块,用于接收针对关联存储后的所述属性值和所述关键词的状态修改指令;
修改模块,用于根据所述状态修改指令,将所述关联存储后的所述属性值和所述关键词对应的搜索记录的状态修改为存在搜索结果;
添加模块,用于并将所述关联存储后的所述属性值和所述关键词添加至关键词映射管理库。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
上述关键词新增方法、装置、计算机设备和存储介质,首先获取到无搜索结果的搜索记录,然后自动将搜索记录对应的不同维度的本体词,弹出关键词映射管理界面,并自动将搜索记录对应的不同维度的本体词填写到对应维度的属性值中,然后用户输入对应的关键词,从而建立了关键词和属性值的匹配关系,新增了本条关键词记录,从而在下次搜索科室时,针对该些属性值即会给出对应的科室,提高了科室推荐的成功率。
附图说明
图1为一个实施例中关键词新增方法的应用场景图;
图2为一个实施例中关键词新增方法的流程示意图;
图3为一个实施例中的关键词映射管理界面的示意图;
图4为一个实施例中的无搜索结果的搜索记录的示意图;
图5为一个实施例中的搜索过程的步骤流程图;
图6为一个实施例中的前缀树的示意图;
图7为一个实施例中的有向无环图的示意图;
图8为一个实施例中的转义词库的示意图;
图9为一个实施例中的关键词映射管理库的示意图;
图10为一个实施例中关键词新增装置的结构框图;
图11为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的关键词新增方法,可以应用于如图1所示的应用环境中。其中,终端通过网络与服务器进行通信。用户通过在终端安装的应用程序输入问诊数据,终端获取该问诊数据并上传至服务器,从服务器得到对应的搜索结果即得到科室推荐结果,当服务器未搜索到对应的科室时,即存在无搜索结果的搜索记录,则显示所查询到的搜索记录。服务器获取搜索记录对应的不同维度的本体词,弹出关键词映射管理界面。并且将不同维度的本体词输入至对应维度的属性值中。通过关键词映射管理界面接收录入的关键词。关联存储属性值和关键词,以完成关键词的新增,从而在下次搜索科室时,针对该些属性值即会给出对应的科室,提高了科室推荐的成功率。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种关键词新增方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
s202:查询无搜索结果的搜索记录,并获取搜索记录对应的不同维度的本体词。
具体地,无搜索结果的搜索记录是服务器根据终端发送的用户的问诊数据无法得到对应的关键词,或者是即使得到了对应的关键词,服务器也无法根据该所得到的关键词搜索到对应的科室。
具体地,不同维度的本体词是根据该搜索记录对应的用户输入的问诊数据所生成的,具体地,用户通过终端输入问诊数据,终端将用户输入的问诊数据发送至服务器,服务器对该问诊数据进行处理得到不同维度的本体词。例如服务器可以首先对问诊数据进行分词得到分词数据,然后根据分词数据通过对应的转义词库进行推导得到不同维度的本体词。
s204:弹出关键词映射管理界面,并将不同维度的本体词输入至关键词映射管理界面中的对应维度的属性值中。
对于该种情况的无搜索结果的搜索记录,服务器可以弹出关键词映射管理界面,用于对关键词的映射管理,具体地,可以参见图3,图3为一个实施例中的关键词映射管理界面的示意图,在该关键词映射管理界面中存在多个字段,包括:科室、cat描述、cat分类、部位、脏器、人群、症状、病种、病因、非病、特殊、临床、外因、检查、处置、药物以及方向权重,其中,关键词=搜素关键词;科室=标准科室名称;cat描述=国际疾病分类标准的描述;cat分类=国际疾病分类标准代码;部位=人体的部位;脏器=人体器官;人群=人的分类,如男,女,老人,儿童;症状=疾病的症状,如“发热”;病种=疾病的种类,如“病毒感染类”;病因=疾病发生的原因,如“术后并发”;非病=并非疾病的表述,如“惧怕肥胖”;特殊=其他;临床=临床表现;外因=疾病的外部原因,比如“蛇咬”;检查=临床检查,如“x光检查”;处置=临床处置,如“静脉输液”;药物=药品名称;方向权重=数字类型,正数表示关键字有效,负数表示关键字命中的结果要排除。正数越大,排序约靠前。
可选地,对于上述无搜索结果的搜索记录服务器可以进行标记,例如标记为“待解决”状态,具体可以参见图4所示,图4为一个实施例中的无搜索结果的搜索记录的示意图,服务器可以根据标记的状态从所有的搜索记录中查询到该无搜索结果的搜索记录,并将该无搜索结果的搜索记录显示在服务器的显示界面上,例如可以根据搜索记录的搜索时间进行排序,从而用户可以根据需要进行处理,例如对于出现频率较高的搜索记录优先进行处理等。例如用户可以根据需要对无搜索结果的搜索记录对应的进行操作,服务器可以接收用户输入的录入指令,根据该录入指令从而弹出对应的关键词映射管理界面,然后再继续后续的操作。
具体地,参见图4,图4中在每一条搜索记录后存在两个操作按钮“解决”和“规则录入”,其中“规则录入”按钮是用于对该条无搜索结果的搜索记录进行添加录入操作的按钮,当用户点击该“规则录入”按钮后,服务器会弹出关键词映射管理界面,以便于用户对该条无搜索结果的搜索记录进行修改和管理。
在关键词映射管理界面的时候,为了减少用户的再次分析和输入过程,服务器可以直接将搜索过程中所查询到的不同维度的本体词,然后将不同维度的本体词填写到对应维度的属性值中,例如在搜索过程中生成了维度为“部位”的对应的本体词“腹部”,则服务器可以直接在关键词映射管理界面的时候,将“腹部”输入至维度为“部位”的属性值中,这样可以减少用户输入,且避免由用户输入所产生的输入错误的情况。
s206:通过关键词映射管理界面接收录入的关键词。
具体地,服务器将对应的本体词输入到对应维度的属性值中,然后用户根据输入的属性值将对应的关键词填写到关键词映射管理界面中。
可选地,对于上文中的方向权重,服务器可以根据所填写的对应的属性值和关键词生成对应的方向权重,例如基于机器学习模型进行的,例如将训练样本集,即关键词、关键词对应的属性值以及关键词对应的方向权重输入至原始机器学习模型中进行训练得到训练后的机器学习模型。且可选地,可以通过验证样本集中的关键词对应的属性值和关键词输入至训练后的机器学习模型中得到经过机器学习模型后的方向权重,然后与该验证样本集中的对应的方向权重进行比较,如果两者相同,或者是两者的误差在允许范围内,则该训练后的机器学习模型可用,否则根据比较后的验证样本集来修正该训练后的机器学习模型,以提高机器学习模型的准确性。
当训练得到机器学习模型后,可以将关键词对应的属性值和关键词输入至该机器学习模型,从而可以直接得到该关键词对应的方向权重,并将该生成的方向权重直接填写到对应的方向权重的字段中。
s208:关联存储属性值和关键词。
具体地,在获取到对应的属性值和关键词后,服务器将该属性值和关键词进行关联存储,以便于下一次搜索科室时,针对该些属性值即会给出对应的科室,提高了科室推荐的成功率。
可选地,用户可以在关键词映射关联界面点击“保存”按钮,从而服务器在检索到用户点击“保存”按钮的指令后,可以将所输入的关键词、方向权重以及自动填写的属性值进行存储。
上述关键词新增方法,首先获取到无搜索结果的搜索记录,然后显示该无搜索结果的搜索记录,从而用户可以输入针对该无搜索结果的搜索记录的录入指令,根据录入指令弹出关键词映射管理界面,并自动将搜索记录对应的不同维度的本体词填写到对应维度的属性值中,然后用户输入对应的关键词,从而建立了关键词和属性值的匹配关系,新增了本条关键词记录,从而在下次搜索科室时,针对该些属性值即会给出对应的科室,提高了科室推荐的成功率。
在其中一个实施例中,上述关键词新增方法还可以包括:接收针对关联存储后的属性值和关键词的状态修改指令;根据状态修改指令,将关联存储后的属性值和关键词对应的搜索记录的状态修改为存在搜索结果;并将关联存储后的属性值和关键词添加至关键词映射管理库。
具体地,在规则录入结束后,为了后续可以在下次搜索科室时,针对该些属性值即会给出对应的科室,服务器接收用户输入的针对关联存储后的属性值和关键词的状态修改指令,即将图4中的“待解决”状态修改为“解决”状态,例如用户可以点击界面上所显示的“解决”按钮,从而服务器可以将关联存储后的属性值和关键词对应的本条搜索记录的状态修改为存在搜索结果,并遍历其他无搜索结果的搜索记录,将其他无搜索结果的搜索记录进行遍历,如果其他无搜索结果的搜索记录对应的属性值与关联存储后的属性值和关键词中的属性值相同时,则将对应的其他无搜索结果的搜索记录的状态对应也修改为“解决”状态,这样可以减少手动操作的次数。
且进一步地,服务器将关联存储后的属性值和关键词添加至关键词映射管理库,从而在下一次服务器获取到对应的本体词后,可以匹配到对应的属性值,从而匹配到对应的科室,保证了线下科室的匹配的成功率。
上述实施例中,在对该条记录新增了关键词后,则用户通过点击界面的“解决”按钮,将该条记录的状态标记为“已解决”,然后服务器将该条录入的规则添加至关键词映射管理库中,以便于下一次遇到该种情况的时候,可以自动应用,而不需要再次添加,从而可以提高效率,例如下次在遇到该该种情况时,在通过ici匹配属性值时,可以匹配到该条记录,从而可以确定相关的关键词。
在其中一个实施例中,上述关键词新增方法还可以包括:接收终端获取的输入的问诊数据;对问诊数据进行分词处理得到分词数据;通过转义词库对分词数据进行推导得到不同维度的本体词;将不同维度的本体词与关键词映射管理库中的关键词的属性值进行匹配;当不同维度的本体词与关键词映射管理库中的关键词的属性值匹配未得到目标关键词时,则将问诊数据对应的搜索记录标记为无搜索结果。
在其中一个实施例中,上述关键词新增方法还可以包括:当不同维度的本体词与关键词映射管理库中的关键词的属性值匹配得到目标关键词时,则搜索与目标关键词对应的科室;当未搜索到与目标关键词对应的科室时,则将问诊数据对应的搜索记录标记为无搜索结果。
具体地,参见图5所示,图5为一个实施例中的搜索过程的步骤流程图,在该实施例中,主要包括以下步骤:
s502:接收终端获取的输入的问诊数据。
具体地,用户可以通过终端中的应用程序输入问诊数据,然后终端获取到用户所输入的问诊数据,终端将用户所输入的问诊数据发送至服务器,即服务器接收终端获取的用户输入的问诊数据。
其中用户输入的问诊数据可以是用户通过终端的虚拟键盘输入的文本,或者是通过终端输入的语音,并且终端将输入的语音转化为相应的文本后发送至服务器,从而服务器接收终端获取的用户输入的问诊数据。
s504:对问诊数据进行分词处理得到分词数据。
具体地,对问诊数据进行分词处理得到分词,即时将所获取的问诊数据,一般是以句子形式的问诊数据进行分词,得到具有独立含义的多个分词。
对所获取的问诊数据进行分词处理得到分词数据,可以包括:加载预设字典,并根据所加载的预设字典生成前缀树;根据前缀树以及问诊数据中的字生成有向无环图,有向无环图用于表示问诊数据中的字所能组成词语的情况;通过动态路径查找有向无环图中的最大概率路径,并获取与最大概率路径对应的分词数据。且可以选地,对于没有出现在有向无环图中的字还可以进行如下处理:从问诊数据中选取未出现在有向无环图中的字;获取预设的隐马尔科夫模型;通过隐马尔科夫模型对所选取的字进行分词处理得到分词数据。
具体地,服务器可以首先加载预先存储的字典,该字典可以是从网上下载的字典,或者是根据各种医疗网站等生成的字典,或者是用户自定义的字典,服务器根据该些字典生成前缀树,具体可以参见图6所示,其中该前缀树的基本性质包括根节点不包含字符,除根节点外的每一个子节点都包含一个字符。从根节点到某一个节点,路径上经过的字符连接起来,为该节点对应的字符串。每个节点的所有子节点包含的字符互不相同。从第一字符开始有连续重复的字符只占用一个节点,比如图6中的to,和ten,中重复的单词t只占用了一个节点。
其次服务器根据前缀树以及问诊数据中的字生成有向无环图,有向无环图用于表示问诊数据中的字所能组成词语的情况,具体地,参见图7所示,图7为一个实施例中的有向无环图的示意图,其中有向无环图是根据前缀树的每一个根节点进行生成的,首先获取到与文本中的字复印的前缀树,然后根据该前缀树的根节点生成对应的有向无环图。
第三,服务器通过动态路径查找有向无环图中的最大概率路径,并获取与最大概率路径对应的分词数据,具体地,动态规划是基于有向无环图进行的,首先查找待分词问诊数据中已经切分好的词语,对该词语查找该词语出现的频率(次数/总数,在字典中给出了每个词的频率和词性),如有字典中没有该词语,则将词典中出现频率最小的那个词语的频率作为该词的频率,然后从右往左计算最大概率路径。即通过从右往左的频率相乘得到的概率最大的路径。如图7中,有-意见-分歧的概率最大,则最后得到的分词为“有”、“意见”和“分歧”。
第四,服务器从问诊数据中选取未出现在有向无环图中的字;获取预设的隐马尔科夫模型;通过隐马尔科夫模型对所选取的字进行分词处理得到分词数据。中文词汇按照bems四个状态来标记,b是开始begin位置,e是end,是结束位置,m是middle,是中间位置,s是singgle,单独成词的位置,没有前,也没有后,也就是说,采用了状态为(b,e,m,s)这四种状态来标记中文词语,比如北京可以标注为be,即北/b京/e,表示北是开始位置,京是结束位置,中华民族可以标注为bmme,就是开始、中间、中间、结束,从而服务器根据开始和结束位置即可以获取到没有出现在有向无环图中的字的分词数据。
s506:通过转义词库对分词数据进行推导得到不同维度的本体词。
具体地,参见图8,转义词库是用于将分词数据转换成多个不同维度的本体词的词库,其中存储了分词数据和不同维度的本体词之间的转义关系,例如分词“肚子疼”其通过转义词库可能转换为{部位:腹部,症状:疼痛}。其中转义词库中本体词的维度可以包括:人群分类(男性、女性、儿童、老人等)、科室诉求、检查诉求、器官、部位、分类系统、症状、处置(例如手术、拔牙等)。其中:人群分类(population):男性、女性、儿童、老人、孕妇等;科室诉求(department):用户意向就诊的科室,例如用户要挂口腔科;检查诉求(examination):问诊过程中已确定用户应该检查的项目或用户指明要检查的项目,例如四维彩超;脏器(organ):用户疾病和症状所属的人体脏器、器官,例如肠胃、心脏、乳腺等;部位(bodypart):用户疾病和症状所属的人体部位,例如胸部、腹部、四肢、头面等;分类系统(categorysystem):用户疾病和症状所属的医学分类系统,例如女性生殖系统及乳腺、泌尿系统、呼吸系统等;症状(symptom):用户疾病症状,例如咳痰、嗜睡、痛等;处置(procedure):建议的治疗方式,例如手术、拔牙等。
且转义词库中存在两类转义关系,包括本体转义关系和近似转义关系,其中本体转义转系是转义词库中可以直接进行转义得到不同维度的本体词的映射关系,近似转义关系是转义词库中将一个分词数据转换为另外一个分词数据的映射关系。具体可以参见8所示的转义词库。
服务器在加载完对应的转义词库后,将分词处理得到的分词数据与转义词库中对应的词语进行匹配,例如将得到的分词数据与转义词库中不同的词语进行匹配,从而可以获取到不同维度的本体词,即服务器将分词数据与转义词库中的不同词语进行匹配,当匹配成功时,则获取到该词语对应的维度,并将该维度与该词语进行输出,例如当匹配到腹部时,则获取腹部的维度为部位,则输出“部位:腹部”,当匹配到疼痛时,则获取到疼痛的维度为症状,则输出“症状:疼痛”。其中匹配的方式可以采用模糊匹配,从而可以提高匹配的成功率。
s508:将不同维度的本体词与关键词映射管理库中的关键词的属性值进行匹配。
具体地,关键词映射管理库是用于存储关键词和关键词属性值的库,其中每一个关键词均对应有以下属性值:科室、cat描述、cat分类、部位、脏器、人群、症状、病种、病因、非病、特殊、临床、外因、检查、处置、药物以及方向权重。其中科室=标准科室名称;cat描述=国际疾病分类标准的描述;cat分类=国际疾病分类标准代码;部位=人体的部位;脏器=人体器官;人群=人的分类,如男,女,老人,儿童;症状=疾病的症状,如“发热”;病种=疾病的种类,如“病毒感染类”;病因=疾病发生的原因,如“术后并发”;非病=并非疾病的表述,如“惧怕肥胖”;特殊=其他;临床=临床表现;外因=疾病的外部原因,比如“蛇咬”;检查=临床检查,如“x光检查”;处置=临床处置,如“静脉输液”;药物=药品名称;方向权重=数字类型,正数表示关键字有效,负数表示关键字命中的结果要排除。正数越大,排序约靠前。参见图9,图9为一实施例中的关键词映射管理库。其中用户可以通过点击“修改”按钮、“删除”按钮和“复制”按钮等对相应的关键词进行匹配。
该匹配过程主要是本体词与关键词中的属性值进行匹配的过程,即将相同为对的本体词和关键词进行匹配,将维度和属性值都匹配成功的目标关键词输出,或者可选地将维度和属性值的匹配成功率达到预设值的目标关键词输出。
s510:当不同维度的本体词与关键词映射管理库中的关键词的属性值匹配未得到目标关键词时,则将问诊数据对应的搜索记录标记为无搜索结果。
具体地,服务器将不同维度的本体词与关键词映射管理库中的关键词的属性值进行匹配,如果没有匹配成功,即没有属性值与本体词对应的关键词时,则将问诊数据对应的搜索记录标记为无搜索结果,即标记为“待解决”状态,具体可以参见图4所示。
可选地,参见下表,为了提高匹配效率,当存在下表中的属性值的维度的组合方式时,则默认一定能够匹配到目标关键词,因此如果根据下表的属性值的维度组合没有匹配到目标关键词时,则可以进行报错,以便于及时处理。
s512:当不同维度的本体词与关键词映射管理库中的关键词的属性值匹配得到目标关键词时,则搜索与目标关键词对应的科室。
具体地,当服务器将不同维度的本体词与关键词映射管理库中的关键词的属性值进行匹配,且匹配得到了对应的目标关键词,则根据目标关键词搜索对应的科室,例如根据目标关键词进行搜索时,通过方向权重来匹配对应的科室。
方向权重是关键词属性值中的其中一个,其是在生成关键词的时候,由人工填入的,其中方向权重的数值越大表示对应的上述几个属性值与关键词的相关度越高。其中方向权重可以设置为正值或负值,正值表示正相关,在根据关键词得到科室时,应该包含该关键词;负值表示负相关,在根据关键词得到科室时,应该从得到的结果中删除包含该关键词的选项。
服务器根据方向权重得到对应的科室,例如查询是否存在方向权重为正值的目标关键词。
s514:当未搜索到与目标关键词对应的科室时,则将问诊数据对应的搜索记录标记为无搜索结果。
具体地,当未搜索到与目标关键词对应的科室时,具体地,即不存在方向权重为正值的目标关键词时,则服务器将问诊数据对应的搜索记录标记为无搜索结果,即标记为“待解决”状态,具体可以参见图4所示。
s516:当搜索到与目标关键词对应的科室时,则根据目标关键词得到对应的科室,并将所得到的科室推荐给终端。
具体地,服务器在获取到目标关键词后,然后得到目标关键词对应的方向权重,然后获取到方向权重为正值的目标关键词对应的科室作为最终的科室。
例如:用户本体词-儿童贫血,命中关键词属性中的人群-儿童、症状-贫血,推算出两个目标关键词“儿科”和“耳鼻喉”,其中“儿科”的方向权重为5,“耳鼻喉”的方向权重为-1,那么在搜索线下科室时,应匹配关键词包含“儿科”且不包含“耳鼻喉”的科室,即匹配方向权重为正的目标关键词对应的线下科室。
可选地,当存在多个方向权重为正值的目标关键词时,可以按照下面为处理方式进行处理:首先根据方向权重对目标关键词进行排序,例如正值排在负值之前,大的排在小的之前,然后获取到方向权重为正值的关键词对应的科室,将方向权重最大的关键词对应的科室作为最终科室。
例如:如用户会输入问诊数据“我家宝宝咳嗽发烧,鼻子不通”,目标关键词“宝宝”、“咳嗽发烧”、“鼻子不通”,那么“宝宝”+“咳嗽发烧”是儿科,但是“宝宝”+“鼻子不通”则可能会推出“耳鼻喉科”,在此种情况下由于更适合“儿科”,其中,儿科的权重为+5,耳鼻喉科的权重为+3,经过排序后+5>+3,所以排除“耳鼻喉科”。
在获取到科室后,服务器将该科室发送至终端,从而终端将该科室进行显示,以供用户进行参考。
可选地,当得到科室并推荐给用户后,终端还可以接收用户输入的挂号指令,服务器可以根据用户输入的挂号指令,以及终端当前所处的位置,所推荐给终端的科室,选取距离用户最近的医院的相应科室进行推荐,以便于用户及时挂号。可选地还可以将多个医院的相应科室按照距离进行排序,以便于用户进行选择。
上述科室推荐方法,服务器在接收到终端获取的问诊数据后,首先对问诊数据进行分词处理得到分词数据,然后通过转义词库对分词数据进行推导得到不同维度的本体词,将本体词与用关键词映射管理库中的属性值进行匹配得到目标关键词,最后根据目标关键词得到对应的科室,从而可以将科室推荐给终端,不需要人工进行审核,提高了推荐效率,且可以将没有搜索结果的搜索记录,例如没有匹配到目标关键词或者是匹配到目标关键词但是根据目标关键词没有得到对应的搜索结果的搜索记录进行自动标记,避免人工标记效率较低。
在其中一个实施例中,通过转义词库对分词数据进行推导得到不同维度的本体词之前,还可以包括:接收终端获取的当前场景;根据当前场景加载对应的转义词库。
在其中一个实施例中,通过转义词库对分词数据进行推导得到不同维度的本体词,可以包括:检索转义词库中是否存在与当前分词对应的;当转义词库中存在与当前分词对应的本体词时,则对本体词进行维度处理得到不同维度的本体词,并输出不同维度的本体词;当转义词库中不存在与当前分词对应的本体词时,检索转义词库中是否存在与当前分词对应的近义词;当转义词库中存在与当前分词对应的近义词时,则通过近义词更新当前分词,并继续检索转义词库中是否存在与当前分词对应的本体词。
当前场景是指用户在使用终端进行操作时所处于的客户端的场景,其中该场景是在设计客户端的时候预置的,例如可以包括科室推荐场景、药品推荐场景、医生推荐场景等,终端可以根据用户操作所处于的当前客户端的位置来获取到对应的当前场景,或者是根据标志位的方式获取到对应的当前场景。
在服务器中,不同的场景对应了不同的转义词库,这是由于在不同的场景下,相同的分词可能对应不同的本体词,例如在科室推荐场景下,发烧可能对应内科,但是在药品推荐场景下,发烧可能对应感冒,因此在获取到对应的场景后,首先服务器加载与场景对应的转义词库,以为下一步推导奠定基础。
具体地,获取场景是终端首先根据用户所处的操作位置得到场景,即根据预先的埋点获取用户所处的操作的位置,从而将该操作位置发送至服务器,从而服务器可以获取到对应的当前操作位置,从而判断该操作位置所处于的场景,由于场景是在设计客户端的时候预置的,即在设计客户端的时候首先建立埋点与场景的映射关系,即操作位置与场景的映射关系,当服务器获取到当前操作位置时,则首先根据预置的操作位置与场景的映射关系得到对应的场景,例如科室推荐场景、药品推荐场景还是医生推荐场景等,进而服务器可以根据场景获取到对应的转义词库,这样可以避免不同的场景的转义词库的不同,且同一个词在不同的场景下其可能代表的含义不同所造成的本体词匹配错误的情况的出现,提高了匹配的准确率,且选择其中的一个转义词库进行匹配,从而可以降低匹配的次数,提高匹配的效率。
具体地,转义词库具体可以参见上文图5所示,服务器首先获取当前分词,然后检测转义词库中是否存在与当前分词对应的本体词,即首先检测转义词库中是否存在与当前分词向匹配的本体词,其中匹配方式可以通过模糊匹配进行。且可选地,为了提高匹配效率,可以分线程进行同步匹配,即多个分词均衡分配在不同的线程中进行同步匹配,从而可以提高匹配效率。
当转义词库中存在与当前分词对应的本体词时,则获取到本体词对应的维度,例如上述的人群,系统划分,部位和器官,症状,病因,检查,药品,临床处置,比如:{部位:腹部,症状:疼痛},服务器输出该不同维度的本体词。
近义词是指与当前分词具有近似关系的词汇,当服务器未检索到与当前分词对应的本体词时,则检索转义词库中是否存在与当前分词对应的近义词,其中可以根据分词与近义词的近似关系库进行检索,该近似关系库中存储了分词与近义词的近似关系,即首先检索近似关系库是否存在与当前分词对应的预检索近义词,然后从转义关系库中获取到与预检索近义词对应的近义词。
当转义关系库中存在与当前分词对应的近义词时,则通过该近义词在转义关系库中继续进行检索,即获取到该近义词对应的本体词,从而可以输出该近义词对应的不同维度的本体词,当未检索到近义词时,则服务器向终端返回无检索结果的处理结果。
在实际应用中,服务器首先获取到分词后的词汇,然后进行本体关系检索,当存在本体词时,即存在与分词后的词汇对应的本体词时,则输出该本体词以及该本体词的词性(即对应的维度);当不存在本体时,即不存在与分析后的词汇对应的本体词时,则继续进行近义词检索,即通过近似关系进行检索,当未检索到近义词,则无结果输出,当检索到近义词时,则继续以该近义词为词汇输出,进行本体关系检索,直至存在本体词输出或者是直至不存在其他的近义词。
上述实施例中,首先进行通过转义词库中的本体关系进行检索,当检索失败时,再通过转义词库中的近似关系进行检索,提高了检索结果的准确性。
应该理解的是,虽然图2和图5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2和图5中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图10所示,提供了一种关键词新增装置,包括:查询模块100、输入模块200、第一接收模块300和存储模块400,其中:
查询模块100,用于查询无搜索结果的搜索记录,并获取搜索记录对应的不同维度的本体词。
输入模块200,用于弹出关键词映射管理界面,并将不同维度的本体词输入至关键词映射管理界面中的对应维度的属性值中。
第一接收模块300,用于通过关键词映射管理界面接收录入的关键词。
存储模块400,用于关联存储属性值和关键词。
在其中一个实施例中,关键词新增装置还可以包括:
第二接收模块,用于接收针对关联存储后的属性值和关键词的状态修改指令。
修改模块,用于根据状态修改指令,将关联存储后的属性值和关键词对应的搜索记录的状态修改为存在搜索结果。
添加模块,用于并将关联存储后的属性值和关键词添加至关键词映射管理库。
在其中一个实施例中,关键词新增装置还可以包括:
第三接收模块,用于接收终端获取的输入的问诊数据。
分词模块,用于对问诊数据进行分词处理得到分词数据。
推导模块,用于通过转义词库对分词数据进行推导得到不同维度的本体词。
匹配模块,用于将不同维度的本体词与关键词映射管理库中的关键词的属性值进行匹配。
第一标记模块,用于当不同维度的本体词与关键词映射管理库中的关键词的属性值匹配未得到目标关键词时,则将问诊数据对应的搜索记录标记为无搜索结果。
在其中一个实施例中,关键词新增装置还可以包括:
搜索模块,用于当不同维度的本体词与关键词映射管理库中的关键词的属性值匹配得到目标关键词时,则搜索与目标关键词对应的科室。
第二标记模块,用于当未搜索到与目标关键词对应的科室时,则将问诊数据对应的搜索记录标记为无搜索结果。
在其中一个实施例中,关键词新增装置还可以包括:
第四接收模块,用于接收终端获取的当前场景。
加载模块,用于根据当前场景加载对应的转义词库。
在其中一个实施例中,推导模块可以包括:
检索单元,用于检索转义词库中是否存在与当前分词对应的。
第一推导单元,用于当转义词库中存在与当前分词对应的本体词时,则对本体词进行维度处理得到不同维度的本体词,并输出不同维度的本体词。
第二推导单元,用于当转义词库中不存在与当前分词对应的本体词时,检索转义词库中是否存在与当前分词对应的近义词。
第三推导单元,用于当转义词库中存在与当前分词对应的近义词时,则通过近义词更新当前分词,并继续检索转义词库中是否存在与当前分词对应的本体词。
关于关键词新增装置的具体限定可以参见上文中对于关键词新增方法的限定,在此不再赘述。上述关键词新增装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储关键词映射管理库的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种关键词新增方法。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:查询无搜索结果的搜索记录,并获取搜索记录对应的不同维度的本体词;弹出关键词映射管理界面,将不同维度的本体词输入至关键词映射管理界面中的对应维度的属性值中;通过关键词映射管理界面接收录入的关键词;关联存储属性值和关键词。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:接收针对关联存储后的属性值和关键词的状态修改指令;根据状态修改指令,将关联存储后的属性值和关键词对应的搜索记录的状态修改为存在搜索结果;并将关联存储后的属性值和关键词添加至关键词映射管理库。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:接收终端获取的输入的问诊数据;对问诊数据进行分词处理得到分词数据;通过转义词库对分词数据进行推导得到不同维度的本体词;将不同维度的本体词与关键词映射管理库中的关键词的属性值进行匹配;当不同维度的本体词与关键词映射管理库中的关键词的属性值匹配未得到目标关键词时,则将问诊数据对应的搜索记录标记为无搜索结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:当不同维度的本体词与关键词映射管理库中的关键词的属性值匹配得到目标关键词时,则搜索与目标关键词对应的科室;当未搜索到与目标关键词对应的科室时,则将问诊数据对应的搜索记录标记为无搜索结果。
在一个实施例中,处理器执行计算机程序时所实现的通过转义词库对分词数据进行推导得到不同维度的本体词之前,还可以包括:接收终端获取的当前场景;根据当前场景加载对应的转义词库。
在一个实施例中,处理器执行计算机程序时所实现的通过转义词库对分词数据进行推导得到不同维度的本体词,可以包括:检索转义词库中是否存在与当前分词对应的;当转义词库中存在与当前分词对应的本体词时,则对本体词进行维度处理得到不同维度的本体词,并输出不同维度的本体词;当转义词库中不存在与当前分词对应的本体词时,检索转义词库中是否存在与当前分词对应的近义词;当转义词库中存在与当前分词对应的近义词时,则通过近义词更新当前分词,并继续检索转义词库中是否存在与当前分词对应的本体词。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:查询无搜索结果的搜索记录,并获取搜索记录对应的不同维度的本体词;弹出关键词映射管理界面,将不同维度的本体词输入至关键词映射管理界面中的对应维度的属性值中;通过关键词映射管理界面接收录入的关键词;关联存储属性值和关键词。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:接收针对关联存储后的属性值和关键词的状态修改指令;根据状态修改指令,将关联存储后的属性值和关键词对应的搜索记录的状态修改为存在搜索结果;并将关联存储后的属性值和关键词添加至关键词映射管理库。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:接收终端获取的输入的问诊数据;对问诊数据进行分词处理得到分词数据;通过转义词库对分词数据进行推导得到不同维度的本体词;将不同维度的本体词与关键词映射管理库中的关键词的属性值进行匹配;当不同维度的本体词与关键词映射管理库中的关键词的属性值匹配未得到目标关键词时,则将问诊数据对应的搜索记录标记为无搜索结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:当不同维度的本体词与关键词映射管理库中的关键词的属性值匹配得到目标关键词时,则搜索与目标关键词对应的科室;当未搜索到与目标关键词对应的科室时,则将问诊数据对应的搜索记录标记为无搜索结果。
在一个实施例中,计算机程序被处理器执行时所实现的通过转义词库对分词数据进行推导得到不同维度的本体词之前,还可以包括:接收终端获取的当前场景;根据当前场景加载对应的转义词库。
在一个实施例中,计算机程序被处理器执行时所实现的通过转义词库对分词数据进行推导得到不同维度的本体词,可以包括:检索转义词库中是否存在与当前分词对应的;当转义词库中存在与当前分词对应的本体词时,则对本体词进行维度处理得到不同维度的本体词,并输出不同维度的本体词;当转义词库中不存在与当前分词对应的本体词时,检索转义词库中是否存在与当前分词对应的近义词;当转义词库中存在与当前分词对应的近义词时,则通过近义词更新当前分词,并继续检索转义词库中是否存在与当前分词对应的本体词。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。