基于模糊匹配的医疗平台智能用户实体搜索系统的制作方法

文档序号:33400038发布日期:2023-03-08 16:01阅读:32来源:国知局
基于模糊匹配的医疗平台智能用户实体搜索系统的制作方法

1.本发明属于互联网医疗技术领域,具体涉及基于模糊匹配的医疗平台智能用户实体搜索系统。


背景技术:

2.信息检索(information retrieval)是用户进行信息查询和获取的主要方式,是查找信息的方法和手段。狭义的信息检索仅指信息查询(information search)。即用户根据需要,采用一定的方法,借助检索工具,从信息集合中找出所需要信息的查找过程。广义的信息检索是信息按一定的方式进行加工、整理、组织并存储起来,再根据信息用户特定的需要将相关信息准确的查找出来的过程。又称信息的存储与检索。一般情况下,信息检索指的就是广义的信息检索。
[0003]“看病难”是一个重大民生问题。医疗服务信息专业复杂,时间就是生命,如何让患者更全、更快、更准地获取医疗服务信息,是互联网医疗行业关注的重大问题。现在的搜索引擎,类似百度、google,会采用全部文本域命中求交的方式,但对于医疗行业来说,也使用类似实现方式,可能会产生大量的误搜索。精准的判断用户意图,依然是目前的医疗行业亟待决绝的问题。
[0004]
申请号为cn2012103859925a的专利公开了一种嵌入gis的医疗服务信息检索平台,包括医疗服务信息查询模块:对医疗信息进行查询;线路查询模块:通过线路查询,可以获得到达目的地的线路,以及该线路会经过的站点,地图上大致的行程路线,以及相应公交车的起末班时间、价格、站点周围的相关建筑信息;地图操作模块:用于公交线路和站点信息的添加删减,地图的放大、缩小、漫游、图层控制选择功能;医务人员或患者可通过gis地图并根据一定的相关条件,查询满足条件的医疗机构、药房信息。
[0005]
该发明利用gis系统为患者就诊提供详细的医疗信息作为支撑,大大提升了患者就诊效率,为患者带来了方便,但该方案在仅在输入较为精确的检索内容时能够为用户提供较为准确的结果,且在数据量较大时,检索效率也会显著下降。


技术实现要素:

[0006]
本发明的主要目的在于提供基于模糊匹配的医疗平台智能用户实体搜索系统,其通过将输入的搜索词进行纠错,提升了搜索的准确率,同时在进行匹配查询时,通过模糊匹配的方式,高效率地得到了多个派生词,基于这些派生词更能得到全面的匹配查询结果,使得结果的多样性更高。
[0007]
为达到上述目的,本发明的技术方案是这样实现的:
[0008]
基于模糊匹配的医疗平台智能用户实体搜索系统,所述系统包括:输入单元、搜索词纠错单元、实体识别单元、实体词库和结果处理单元;所述实体词库按照派生树形结构存储匹配数据,所述派生树形结构由主树和分层数据库组成,所述主树的每个节点均为按照地域分级后的一个地域层级,所述分层数据库由多个彼此包含的多层数据集合组成,每个
数据集合与一个地域层级构成映射关系;所述输入单元,配置用于提供给用户输入搜索词;所述搜索词纠错单元,配置用于对搜索词基于语义纠错模型,进行智能纠错,得到纠错搜索词;所述实体识别单元,配置用于将纠错搜索词进行分解,分别得到主体词和地域词,然后分别对主体词和地域词进行模糊转换,得到主体派生词组和地域派生词组,每个主体派生词组包括主体词和基于主体词模糊转换得到的多个派生主体词,每个地域派生词组包括地域词和基于主体词模糊转换得到的多个派生地域词,然后首先基于每个地域派生词组在实体词库中的主树中进行匹配查询,得到地域派生词组匹配结果,基于地域派生词组匹配结果和映射关系,找到对应的数据集合,基于主体派生词组在数据集合中进行匹配查询,得到主体派生词组匹配结果,对主体派生词组匹配结果与主体词进行归一化相似度计算,得到归一化相似度,若归一化相似度在设定的阈值区间内,则将主体派生词组匹配结果作为检索结果;所述结果处理单元,配置用于按照主体派生词组匹配结果中的每个结果与主体词的相似度从高到底进行排序,呈现给用户。
[0009]
优选地,所述搜索词纠错单元,对搜索词基于语义纠错模型,进行智能纠错,得到纠错搜索词的过程包括:对所述搜索词进行邻接熵纠错,得到第一纠错搜索词;对所述搜索词进行中心熵纠错,得到第二纠错搜索词;分别所述第一纠错搜索词和所述第二纠错搜索词与搜索词的偏差值,将偏差值最低的纠错搜索词确定为搜索词的纠错搜索词。
[0010]
优选地,所述对所述搜索词进行邻接熵纠错,得到第一纠错搜索词的过程包括:通过预设邻接熵列表,按照从所述搜索词中的第一个字到最后一个字的顺序,计算所述搜索词的正向邻接熵;通过所述预设邻接熵列表,按照从所述搜索词中的最后一个字到第一个字的顺序,计算所述搜索词的反向邻接熵;根据得到的正向邻接熵和反向邻接熵确定邻接熵搜索词;确定所述第一纠错搜索词;所述邻接熵列表中每一行值均包括一个邻接熵值和其对应的汉字编码或ascii码,在计算正向邻接熵时,首先按照从所述搜索词中的第一个字到最后一个字的顺序,生成每个字的汉字编码或ascii码,然后基于汉字编码和ascii分别进行匹配查询得到搜索词中每个字的邻接熵,通过正向邻接熵计算公式得到搜索词的正向邻接熵,同样地,在计算反向邻接熵时,首先按照从所述搜索词中的最后一个字到第一个字的顺序,生成每个字的汉字编码或ascii码,然后基于汉字编码和ascii分别进行匹配查询得到搜索词中每个字的邻接熵,通过反向邻接熵计算公式得到搜索词的反向邻接熵。
[0011]
优选地,所述正向邻接熵计算公式使用如下公式进行表示:优选地,所述正向邻接熵计算公式使用如下公式进行表示:所述反向邻接熵计算公式使用如下公式进行表示:熵计算公式使用如下公式进行表示:其中,其中:s
l
是候选词w的左邻接字的集合;sr是候选词w的右邻接字的集合;p(w
l
∣w)表示w
l
是候选词w的左邻接字的条件概率;p(wr∣w)表示w,为候选词w的右邻接字的条件概率;p(w
l
∣w)和p(w,∣w)的计算式为:∣w)和p(w,∣w)的计算式为:∣w)和p(w,∣w)的计算式为:其中:n(w
l
,w)表示w
l
和w共同出现的次数;n(w)表示w出现的次数;同理,n(w,,w)表示w,和w共同出现的次数;n(w)表示w出现
的次数;中的|为择一运算,当为汉字编码时,取值为当为ascii码时,取值为n为搜索词中字的个数。
[0012]
优选地,对所述搜索词进行中心熵纠错,得到第二纠错搜索词的过程包括:通过预设中心熵列表,按照从所述邻接熵搜索词中的第一个字到最后一个字的顺序,计算所述搜索词的正向中心熵;通过所述预设中心熵列表,按照从所述邻接熵搜索词中的最后一个字到第一个字的顺序,计算所述搜索词的反向中心熵;根据所述正向中心熵和反向中心熵,确定所述第二纠错搜索词;所述中心熵列表中每一行值均包括一个中心熵值和其对应的汉字编码或ascii码,在计算正向中心熵时,首先按照从所述搜索词中的第一个字到最后一个字的顺序,生成每个字的汉字编码或ascii码,然后基于汉字编码和ascii分别进行匹配查询得到搜索词中每个字的中心熵,通过正向中心熵计算公式得到搜索词的正向中心熵,同样地,在计算反向中心熵时,首先按照从所述搜索词中的最后一个字到第一个字的顺序,生成每个字的汉字编码或ascii码,然后基于汉字编码和ascii分别进行匹配查询得到搜索词中每个字的中心熵,通过反向中心熵计算公式得到搜索词的反向中心熵。
[0013]
优选地,所述正向中心熵计算公式使用如下公式进行表示:优选地,所述正向中心熵计算公式使用如下公式进行表示:所述反向中心熵计算公式使用如下公式进行表示:中心熵计算公式使用如下公式进行表示:其中,其中:c是候选词w的中心邻接字的集合;p(w
l
∣w)表示w
l
是候选词w的左邻接字的条件概率;
[0014]
p(wr∣w)表示w,为候选词w的右邻接字的条件概率;p(w
l
∣w)和p(w,∣w)的计算式为:其中:n(w
l
,w)表示w
l
和w共同出现的次数;n(w)表示w出现的次数;同理,n(w,,w)表示w,和w共同出现的次数;n(w)表示w出现的次数;中的|为择一运算,当为汉字编码时,取值为当为ascii码时,取值为n为搜索词中字的个数,为中心极限,xi为搜索词中每个字的汉字编码值或ascii码值,μ为中心极限的期望值,n为方差。
[0015]
优选地,所述实体识别单元分别对主体词和地域词进行模糊转换,得到主体派生词组和地域派生词组的过程包括:将地域词中按照第一个字到最后一个字的顺序,依次保留一个字,将其他字用通配符进行表示,从实体词库中分别进行匹配检索,将匹配检索的结果和地域词的集合作为模糊转换得到的地域派生词组;将主体词转换为对应的拼音,然后基于拼音,生成拼音一致的其他词组,将生成的其他词组和主体词作为模糊转换得到的主体派生词组。
[0016]
优选地,所述主体派生词组和地域派生词组生成后,还将对主体派生词组中的派生主体词或地域派生词组中的派生地域词再次进行模糊转换,按照设定的次数循环执行后,将得到多级的主体派生词组和多级的地域派生词组;所述多级的主体派生词组和多级的地域派生词组的级数等于循环次数加1。
[0017]
优选地,所述多级的主体派生词组和多级的地域派生词组在进行匹配查询时,仅需要对生成的最后一级主体派生词或地域派生词进行匹配查询。
[0018]
优选地,所述实体识别单元对主体派生词组匹配结果与主体词进行归一化相似度计算,得到归一化相似度的过程包括:计算主体派生词组匹配结果中每个词语主体词的汉字编码或ascii码的差值,然后进行算术平均运算,得到最后的归一化相似度。
[0019]
本发明的基于模糊匹配的医疗平台智能用户实体搜索系统,具有如下有益效果:
[0020]
1.效率高:本发明的搜索系统在进行匹配查询时,使用了基于模糊匹配的方式,该方式相较于现有技术,其效率更高,因为传统的技术中一班使用通配符的方式来进行模糊查询,这种查询方式在数据量较大时,检索效率极低,而本发明首先通过通配符生成可能的固定结果,以及通过拼音转换的方式生成某些固定结果,一方面实现了模糊查询,但另一方面模糊查询的过程又不需要太过于繁琐,提升了效率。
[0021]
2.准确率高:本发明针对输入的搜索词使用了基于邻接熵和中心熵的纠错方法,使得搜索词在出现输入错误的情况下能够准确地得到想要检索的结果,且检索结果的准确率更高。因为在对搜索词进行纠错时,使用的是基于邻接熵和中心熵结合的方式,更显著提升了准确率,相较于现有技术基于语义的方法,效率也相对来说高一些。
附图说明
[0022]
图1为本发明实施例提供的基于模糊匹配的医疗平台智能用户实体搜索系统的系统结构示意图;
[0023]
图2为本发明实施例提供的基于模糊匹配的医疗平台智能用户实体搜索方法的主树结构示意图;
[0024]
图3为本发明实施例提供的基于模糊匹配的医疗平台智能用户实体搜索方法的生成多级派生词组的原理示意图;
[0025]
图4为本发明实施例提供的基于模糊匹配的医疗平台智能用户实体搜索方法的模糊匹配的原理示意图。
具体实施方式
[0026]
下面结合附图及本发明的实施例对本发明的方法作进一步详细的说明。
[0027]
实施例1
[0028]
如图1所示,基于模糊匹配的医疗平台智能用户实体搜索系统,系统包括:输入单元、搜索词纠错单元、实体识别单元、实体词库和结果处理单元;实体词库按照派生树形结构存储匹配数据,派生树形结构由主树和分层数据库组成,主树的每个节点均为按照地域分级后的一个地域层级,分层数据库由多个彼此包含的多层数据集合组成,每个数据集合与一个地域层级构成映射关系;输入单元,配置用于提供给用户输入搜索词;搜索词纠错单元,配置用于对搜索词基于语义纠错模型,进行智能纠错,得到纠错搜索词;实体识别单元,
配置用于将纠错搜索词进行分解,分别得到主体词和地域词,然后分别对主体词和地域词进行模糊转换,得到主体派生词组和地域派生词组,每个主体派生词组包括主体词和基于主体词模糊转换得到的多个派生主体词,每个地域派生词组包括地域词和基于主体词模糊转换得到的多个派生地域词,然后首先基于每个地域派生词组在实体词库中的主树中进行匹配查询,得到地域派生词组匹配结果,基于地域派生词组匹配结果和映射关系,找到对应的数据集合,基于主体派生词组在数据集合中进行匹配查询,得到主体派生词组匹配结果,对主体派生词组匹配结果与主体词进行归一化相似度计算,得到归一化相似度,若归一化相似度在设定的阈值区间内,则将主体派生词组匹配结果作为检索结果;结果处理单元,配置用于按照主体派生词组匹配结果中的每个结果与主体词的相似度从高到底进行排序,呈现给用户。
[0029]
具体的,输入单元提供给用户输入了搜索词后。将直接搜索,而搜索词纠错单元进行纠错的过程是在进行搜索过程中自动进行的。
[0030]
实体词库本质上是一个数据库,该数据库的数据结构为两个构成映射的子数据库构成。一个数据库是树形数据库,该数据库的结构为树形结构。参考图2,由于地址是逐层递进的关系,因此通过树形结构可以更加方便而直观地存储地域数据。
[0031]
分层数据库则是用来存储医院的实体数据的。
[0032]
在实践中,每个主体词由词文本本身加上地域信息组成唯一主体词。目前有三种实体类型拥有地域性质,为医生、自定义科室、医院/机构,其它主体词类型都没有地域性质,不同地域主体词类型相同。当多个主体词存在类型冲突时,优先级高的实体类型优先,优先级由高到低的顺序为:医院/机构、高频自定义科室、自定义科室、医生、公共科室、疾病、商品分类、医生职称、机构等级、服务项目、内容导向。
[0033]
在每一级的地域中,比如在某个城市下,包含了各级乡镇的医院数据,而在某个乡镇下,则包含了该乡镇内所有医院的数据。
[0034]
因此针对一个地域,则构成了对应的映射关系的实体数据组成的集合。
[0035]
实施例2
[0036]
在上一实施例的基础上,搜索词纠错单元,对搜索词基于语义纠错模型,进行智能纠错,得到纠错搜索词的过程包括:对搜索词进行邻接熵纠错,得到第一纠错搜索词;对搜索词进行中心熵纠错,得到第二纠错搜索词;分别第一纠错搜索词和第二纠错搜索词与搜索词的偏差值,将偏差值最低的纠错搜索词确定为搜索词的纠错搜索词。
[0037]
具体的,搜索词的纠错基于邻接熵来进行。词语作为一个可以独立存在的语言单元,词语的各个字之间存在一定的相关性。所以字与字或词与字之间的相关性越大,说明字与字或词与字成词的概率也就越大。互信息可以计算两个物体相互依赖的程度,而且互信息值越大,代表两个物体的依赖程度也就越大,所以可以用互信息计算新词的内部成词概率。
[0038]
互信息的计算公式可以使用如下公式进行表示:其中:p(x)、p(y)表示字或词x、y单独出现在语料集中的概率;p(x,y)表示x和y共同在语料集中出现的概率;mi(x,y)表示x和y的关联程度。若mi(x,y)》0,表示x和y是相互关联的,而且mi的值越大,表示两者相关联的程度越大,也就越有可能成为新词;若mi(x,y)=0,则表示x
和y是彼此独立的。互信息可以用来计算两个事物的关联程度,所以互信息可用于发现二元新词,但却无法处理三元及以上的新词。经过大量的语料进行新词发现的实验后归纳出11种构词模式,而且发现单字模式“1+1”“1+1+1”“1+1+1+1”占新词总数的61.4%,模式“2+1”“3+1”占新词总数的31.2%。从上述可以看出三元及以上的新词在新词的总数中占有一定的比例,如何识别三元及以上的新词是一个可待解决的问题。
[0039]
实施例3
[0040]
在上一实施例的基础上,对搜索词进行邻接熵纠错,得到第一纠错搜索词的过程包括:通过预设邻接熵列表,按照从搜索词中的第一个字到最后一个字的顺序,计算搜索词的正向邻接熵;通过预设邻接熵列表,按照从搜索词中的最后一个字到第一个字的顺序,计算搜索词的反向邻接熵;根据得到的正向邻接熵和反向邻接熵确定邻接熵搜索词;确定第一纠错搜索词;邻接熵列表中每一行值均包括一个邻接熵值和其对应的汉字编码或ascii码,在计算正向邻接熵时,首先按照从搜索词中的第一个字到最后一个字的顺序,生成每个字的汉字编码或ascii码,然后基于汉字编码和ascii分别进行匹配查询得到搜索词中每个字的邻接熵,通过正向邻接熵计算公式得到搜索词的正向邻接熵,同样地,在计算反向邻接熵时,首先按照从搜索词中的最后一个字到第一个字的顺序,生成每个字的汉字编码或ascii码,然后基于汉字编码和ascii分别进行匹配查询得到搜索词中每个字的邻接熵,通过反向邻接熵计算公式得到搜索词的反向邻接熵。
[0041]
具体的,以新词“细思恐极”举例,当统计出候选二元新词“细思”时,向右扩展,计算“细思”与“恐”的互信息。若高于阈值,则继续向右扩展,计算“细思恐”与“极”的互信息,以此得出新词“细思恐极”。
[0042]
实施例4
[0043]
在上一实施例的基础上,正向邻接熵计算公式使用如下公式进行表示:反向邻接熵计算公式使用如下公式进行表示:其中,其中:s
l
是候选词w的左邻接字的集合;sr是候选词w的右邻接字的集合;p(w
l
∣w)表示w
l
是候选词w的左邻接字的条件概率;p(wr∣w)表示w,为候选词w的右邻接字的条件概率;p(w
l
∣w)和p(w,∣w)的计算式为:其中:n(w
l
,w)表示w
l
和w共同出现的次数;n(w)表示w出现的次数;同理,n(w

,w)表示w,和w共同出现的次数;n(w)表示w出现的次数;中的|为择一运算,当为汉字编码时,取值为当为ascii码时,取值为n为搜索词中字的个数。
[0044]
具体的,在本发明中,针对不同的编码,使用不同的公式,本发明的邻接熵是依据与编码来的,而不是依据字本身。
[0045]
在使用不同的编码时,其公式中参数取值不同。
[0046]
而由于使用了编码进行邻接熵的计算,因此需要对同时进行调整,在实践中,邻接熵的值与编码的字的数量高度相关,且与条件概率的对数形成正比关系。
[0047]
实施例5
[0048]
在上一实施例的基础上,对搜索词进行中心熵纠错,得到第二纠错搜索词的过程包括:通过预设中心熵列表,按照从邻接熵搜索词中的第一个字到最后一个字的顺序,计算搜索词的正向中心熵;通过预设中心熵列表,按照从邻接熵搜索词中的最后一个字到第一个字的顺序,计算搜索词的反向中心熵;根据正向中心熵和反向中心熵,确定第二纠错搜索词;中心熵列表中每一行值均包括一个中心熵值和其对应的汉字编码或ascii码,在计算正向中心熵时,首先按照从搜索词中的第一个字到最后一个字的顺序,生成每个字的汉字编码或ascii码,然后基于汉字编码和ascii分别进行匹配查询得到搜索词中每个字的中心熵,通过正向中心熵计算公式得到搜索词的正向中心熵,同样地,在计算反向中心熵时,首先按照从搜索词中的最后一个字到第一个字的顺序,生成每个字的汉字编码或ascii码,然后基于汉字编码和ascii分别进行匹配查询得到搜索词中每个字的中心熵,通过反向中心熵计算公式得到搜索词的反向中心熵。
[0049]
同理,针对中心熵值也是同样的道理。
[0050]
实施例6
[0051]
在上一实施例的基础上,正向中心熵计算公式使用如下公式进行表示:反向中心熵计算公式使用如下公式进行表示:心熵计算公式使用如下公式进行表示:其中,其中:c是候选词w的中心邻接字的集合;pwl|w表示wl是候选词w的左邻接字的条件概率;p(wr∣w)表示w,为候选词w的右邻接字的条件概率;p(w
l
∣w)和p(w,∣w)的计算式为:其中:n(w
l
,w)表示w
l
和w共同出现的次数;n(w)表示w出现的次数;同理,n(w,,w)表示w,和w共同出现的次数;n(w)表示w出现的次数;中的|为择一运算,当为汉字编码时,取值为当为ascii码时,取值为n为搜索词中字的个数,为中心极限,xi为搜索词中每个字的汉字编码值或ascii码值,μ为中心极限的期望值,n为方差。
[0052]
具体的,使用中心熵或者邻接熵的方式来进行纠错,实现了智能化的文字纠错。因为中心熵或者邻接熵是基于条件概率的,而在实际中,每个字的表达是高度倚赖于相邻字的,通过对相邻字的判断,则可以实现更加准确的纠错。
[0053]
实施例7
[0054]
参考图3,在上一实施例的基础上,实体识别单元分别对主体词和地域词进行模糊转换,得到主体派生词组和地域派生词组的过程包括:将地域词中按照第一个字到最后一个字的顺序,依次保留一个字,将其他字用通配符进行表示,从实体词库中分别进行匹配检
索,将匹配检索的结果和地域词的集合作为模糊转换得到的地域派生词组;将主体词转换为对应的拼音,然后基于拼音,生成拼音一致的其他词组,将生成的其他词组和主体词作为模糊转换得到的主体派生词组。
[0055]
在针对地域词或者主体词进行模糊匹配查询时,过程中涉及到对模糊匹配的结果进行保留或者放弃的过程。保留下来的则为模糊匹配查询的结果。
[0056]
实施例8
[0057]
参考图3,在上一实施例的基础上,主体派生词组和地域派生词组生成后,还将对主体派生词组中的派生主体词或地域派生词组中的派生地域词再次进行模糊转换,按照设定的次数循环执行后,将得到多级的主体派生词组和多级的地域派生词组;多级的主体派生词组和多级的地域派生词组的级数等于循环次数加1。
[0058]
具体的,多级派生词组的生成,有效提升了结果的多样性,使得检索结果更加全面。
[0059]
实施例9
[0060]
在上一实施例的基础上,多级的主体派生词组和多级的地域派生词组在进行匹配查询时,仅需要对生成的最后一级主体派生词或地域派生词进行匹配查询。
[0061]
实施例10
[0062]
在上一实施例的基础上,实体识别单元对主体派生词组匹配结果与主体词进行归一化相似度计算,得到归一化相似度的过程包括:计算主体派生词组匹配结果中每个词语主体词的汉字编码或ascii码的差值,然后进行算术平均运算,得到最后的归一化相似度。
[0063]
具体的,归一化相似度高时,则说明匹配效果越好。
[0064]
在实际中,还可以添加一个反馈单元,根据每一次匹配查询的结果,对实体词库进行修正。利用有监督的机器学习或者神经网络的方式进行反馈修正。
[0065]
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些具体实施方式仅是举例说明,本领域的技术人员在不脱离本发明的原理和实质的情况下,可以对上述方法和系统的细节进行各种省略、替换和改变。例如,合并上述方法步骤,从而按照实质相同的方法执行实质相同的功能以实现实质相同的结果则属于本发明的范围。因此,本发明的范围仅由所附权利要求书限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1