1.本发明涉及专用翻译检测系统技术领域,尤其涉及一种基于数据标签的医学翻译检索系统。
背景技术:2.随着互联网技术的不断发展,传统医学领域的信息加速交流。不管是日常生活中的药品说明书、器械说明书、在线诊疗方案等,还是医学研发结构如高校、研究所、医药公司的研究论文,无不涉及大量的专业信息需要翻译。而这些翻译信息由于时效性的原因显然不能通过传统的手段如查书籍资料获取,借助互联网系统进行医学翻译检索成为必然。
3.目前对于检索系统的建设,已有普适性并且成熟的方案。大体包括以下几个步骤(如图1所示):用户通过不同的客户端输入关键词;由程序处理进入到不同类型的数据库进行模糊匹配;对匹配结果进行排序;获取到一系列数据。
4.然而应对一般性数据这种方案完全可以胜任,但是对于医学领域而言,由于其特殊的专业性,同一数据在不同的细分结果下,翻译结果存在非常大的差异。比如special interest通常翻译成“特殊兴趣”,但是在临床试验场景下需要翻译成“特别关注”;withdrawal在医学知情同意书场景下翻译成“撤回”,但是在临床试验场景下要翻译成“退出”等等,因而我们需要能够尽可能分辨并获取到相应的检索结果。通过现有手段产生的结果质量就无法达到医学翻译的检索要求。而如果通过人工审查筛选的方式,面对大量数据也必然无法保证时效性。
5.综上可知,现有技术在实际使用上显然存在不便与缺陷,所以有必要加以改进。
技术实现要素:6.针对上述的缺陷,本发明的目的在于提供一种基于数据标签的医学翻译检索系统,其可以提高检索结果准确性和时效性,为用户使用提供便利,所获取的数据标签代表数据核心业务特征,为后续医学数据分析提供数据基础,同时基于数据标签技术,不仅可以解决医学翻译检索的准确性问题,而且由于缩小了数据范围,在时效性和维护成本上也有较大收益问题,更近一步,可以通过高度精炼化的数据标签代替原始数据进行相应数据分析。
7.为了实现上述目的,本发明提供一种基于数据标签的医学翻译检索系统,包括第一阶段和第二阶段,所述第一阶段为库数据初始化,所述第二阶段为翻译检索,在数据集及检索模式不变时,所述第一阶段只执行一次,所述翻译检索针对关键句段进行检索。
8.根据本发明的基于数据标签的医学翻译检索系统,所述第一阶段包括以下步骤:
9.s1:流式读取原始库数据,并提取相应数据标签,所述数据标签为n维数据标签a,
10.a={a1,a2…an
}
11.其中n需根据实际场景选择;
12.s2:根据提取结果选取标准数据标签,按照表征性非空优先原则,即高表征性的标签非空数量最多的数据标签作为标准数据标签b,
13.b={b1,b2…bn
};
14.s3:逐一计算库数据标签和标准数据标签间的相似度,采用加权hamming distance算法,相似度计算公式为:
[0015][0016]
其中
[0017][0018]
权重ti根据数据标签对数据区分的表征性决定,计算后得到最大相似度max(h)和最小相似度min(h);
[0019]
s4:根据数据量预设归集数为m,所有数据按照相似度划分成m-1个区间,分别为1个区间,分别为
[0020]
s5:根据相似度区间,作数据归集,生成m个细分库,并记录细分库与相似度区间的映射关系,
[0021]
r=(n,h
l
,hr)
[0022]
其中n为细分库,h
l
为左区间值,hr为右区间值。
[0023]
根据本发明的基于数据标签的医学翻译检索系统,所述数据标签由医学翻译领域模型特征决定
[0024]
根据本发明的基于数据标签的医学翻译检索系统,所述第二阶段包括以下步骤:
[0025]
c1:用户输入检索句段,针对此句段进行数据标签提取得到k={k1,k2…kn
},接着根据所述步骤s1和s2得到此句段的数据标签和标准数据标签的相似度值h(k,a);
[0026]
c2:确定相似度值所属的区间后,根据步骤s3和s4的映射关系得到目标库,并开始进行数据检索;
[0027]
c3:由于传统模糊匹配过程效率较低,因而需要采用基于倒排索引技术的搜索引擎加快检索速度;同时将检索句段按照第一阶段的归集步骤进行归集,得到检索结果后取最相近的数据返回并展示。
[0028]
根据本发明的基于数据标签的医学翻译检索系统,所述步骤c1在求解相似度的过程中,所选取的权重值需要与初始化的权重保持一致。
[0029]
根据本发明的基于数据标签的医学翻译检索系统,若所述分类标签的表征强于方向标签,则相应权重就高。
[0030]
本发明提供了一种基于数据标签的医学翻译检索系统,包括第一阶段和第二阶段,所述第一阶段为库数据初始化,所述第二阶段为翻译检索,在数据集及检索模式不变时,所述第一阶段只执行一次,所述翻译检索针对关键句段进行检索,综上,本发明产生的技术效果是提高了检索结果准确性和时效性,为用户使用提供便利,所获取的数据标签代表数据核心业务特征,为后续医学数据分析提供数据基础,同时基于数据标签技术,不仅可
以解决医学翻译检索的准确性问题,而且由于缩小了数据范围,在时效性和维护成本上也有较大收益问题,更近一步,可以通过高度精炼化的数据标签代替原始数据进行相应数据分析。
附图说明
[0031]
图1是本发明的检索系统流程示意图;
[0032]
图2是本发明的库数据初始化流程示意图;
[0033]
图3是本发明的翻译检索流程示意图;
[0034]
图4是本发明的检索倒排索引流程示意图;
具体实施方式
[0035]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明,应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0036]
参见图1,本发明提供了一种基于数据标签的医学翻译检索系统,该基于数据标签的医学翻译检索系统包括第一阶段和第二阶段,所述第一阶段为库数据初始化,所述第二阶段为翻译检索,在数据集及检索模式不变时,所述第一阶段只执行一次,所述翻译检索针对关键句段进行检索。
[0037]
参见图2和图3,优选的是,本发明的所述第一阶段包括以下步骤:
[0038]
s1:流式读取原始库数据,并提取相应数据标签,所述数据标签为n维数据标签a,
[0039]
a={a1,a2…an
}
[0040]
其中n需根据实际场景选择;
[0041]
s2:根据提取结果选取标准数据标签,按照表征性非空优先原则,即高表征性的标签非空数量最多的数据标签作为标准数据标签b,
[0042]
b={b1,b2…bn
};
[0043]
s3:逐一计算库数据标签和标准数据标签间的相似度,采用加权hamming distance算法,相似度计算公式为:
[0044][0045]
其中
[0046][0047]
权重ti根据数据标签对数据区分的表征性决定,如分类标签的表征强于方向标签,则相应权重就高,计算后得到最大相似度max(h)和最小相似度min(h);
[0048]
s4:根据数据量预设归集数为m,所有数据按照相似度划分成m-1个区间,分别为
[0049]
s5:根据相似度区间,作数据归集,生成m个细分库,并记录细分库与相似度区间的映射关系,
[0050]
r=(n,h
l
,hr)
[0051]
其中n为细分库,h
l
为左区间值,hr为右区间值
[0052]
参见图2、图3和图4,另外,本发明的所述第二阶段包括以下步骤:
[0053]
c1:用户输入检索句段,针对此句段进行数据标签提取得到k={k1,k2…kn
},接着根据所述步骤s1和s2得到此句段的数据标签和标准数据标签的相似度值h(k,a);
[0054]
c2:确定相似度值所属的区间后,根据步骤s3和s4的映射关系得到目标库,并开始进行数据检索;
[0055]
c3:由于传统模糊匹配过程效率较低,因而需要采用基于倒排索引技术的搜索引擎加快检索速度;同时将检索句段按照第一阶段的归集步骤进行归集,得到检索结果后取最相近的数据返回并展示。
[0056]
进一步的,本发明的所述步骤c1在求解相似度的过程中,所选取的权重值需要与初始化的权重保持一致。
[0057]
综上所述,本发明提供了一种基于数据标签的医学翻译检索系统,包括第一阶段和第二阶段,所述第一阶段为库数据初始化,所述第二阶段为翻译检索,在数据集及检索模式不变时,所述第一阶段只执行一次,所述翻译检索针对关键句段进行检索,综上,本发明产生的技术效果是提高了检索结果准确性和时效性,为用户使用提供便利,所获取的数据标签代表数据核心业务特征,为后续医学数据分析提供数据基础,同时基于数据标签技术,不仅可以解决医学翻译检索的准确性问题,而且由于缩小了数据范围,在时效性和维护成本上也有较大收益问题,更近一步,可以通过高度精炼化的数据标签代替原始数据进行相应数据分析。
[0058]
当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
[0059]
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。