专利名称:一种医学数据库的建立方法
技术领域:
本发明涉及一种医学数据库(即医学文献检索系统)的建立方法。
背景技术:
现有的医学数据库都是基于最常规的检索方法建立的,这些检索方法多是通过 关键词检索或者利用布尔逻辑运算进行简单的组合检索。然而,通过上述方法检索后, 会得到非常多的检索结果,没有办法进一步筛选相关性最高的文献信息,通过人工筛选 将会非常费时费力。虽然可以通过增加检索词的数量减少检索结果,但是这种情况下很 容易出现将相关度很高的文献漏检的情况。另外,对于不同的用户,对医学知识的理解程度会存在差异,并不是相关度越 高的文献对用户就越有用,这与用户的知识水平有关,而现有的医学数据库并没有针对 于此采取相应的对策。中国的医务工作者的专业水平有很大差距,如果能够使医学数据 库为基层医务工作者服务,使其能够方便地检索到与自己的知识水平相适应的医学文献 数据,肯定会有利于提高基层医务工作者的从业水平。
发明内容
本发明的目的是提供一种能够准确地检索到与用户知识水平相适应的医学文献 的医学数据库的建立方法。本发明提供的医学数据库的建立方法包括以下步骤(1)将源文档转换为能 够进行文本查找的全文数据,建立以下检索索引a.全文检索索引,b.注释性索引,c.文 献外部特征索引,d.难易程度评分索引;(2)选择所述检索索引的一部分分配权重,构 建基于检索词出现频度的加权评分排序程序。较佳的,所述b.注释性索引包括标引索引和特征词索引,所述标引由主题词和 副主题词两部分组成,所述主题词为全文内容中的一些词汇的等同释义词,所述副主题 词为所述主题词所属的包括医学学科在内的表示医学领域的词语;所述特征词为表征患 者类别的词语。所述C.文献外部特征索引的文献外部特征可以包括题目、作者姓名、出版者和 文献编号。较佳地,分配权重的检索索引为标引索引的标引词、特征词索引的特征词、全 文检索中的内容和概述。所述标引词、特征词、内容和概述的权重可以分别为2、1.4、 1.1 禾口 1.3。较佳地,所述构建基于检索词出现频度的加权评分排序程序的评分公式为 score (q,d) = sum (tf (t in d) * idf(t) * getBoost (t.field in d) * IengthNorm (t.field in d) *
coord (q,d) * queryNorm (q)),其中, score (q,d)评分分值;
tf(tin d):基于搜索项或者短语在文档中出现次数的分值因子;idf ω 针对特定索引的简单搜索项的分值因子; getBoost(t.field in d)针对搜索项字段的增益因子;
IengthNorm(t.field in d)对一个给定字段,其中包含的搜索项的总数的标准值; coord(q,d):基于文档包含的所有查询搜索项碎片的分值因子; queryNorm(q):对给定的查询,所有查询搜索项的权重的总和的标准值。利用本发明提供的方法建立的医学数据库,能够根据用户的知识水平检索到相 关度非常高,适于该用户使用的医学文献。能够大大提高检索效率,方便具有不同级别 医学知识的用户使用。
具体实施例方式为了更清楚地说明本发明,下面描述一种具体实施方式
,同时说明利用这种实 施方式建立的医学数据库的使用方法。1.索引的建立 1.1. 记录的索引字段 1.1.1.全文检索索引
建立一个全文检索系统,首先要将源文档转换为能够进行文本查找的全文数据库, 包括全文的分割处理以及规范格式等,即前处理工作,前处理完成后,即可开始建立索 引,先过滤掉源文档中的排版符号,格式控制符等,再把源文档中的每一个字、词、短 语的出现为止信息记录到索引库中。1.1.2.标引索引和特征词索引
全文检索的索引词全部来自于文献内容,但当用户输入的搜索关键词为文献内容中 词语的同义词、别名等情况时,就不能通过全文检索的索引检索到自己需要的内容,因 此,全文检索不能满足用户的所有需求。在此基础上,将全文文献拆分至有独立医学意 义的最小段落,并对最小段落进行标引,提取其中的特征词,将标引主题词和副主题词 建立标引索引,将文献特征词建立了特征词索引。标引由主题词和副主题词两部分组成。主题词指从自然语言中经过规范处理和优化处理的,并能够反映生物医学概 念的词语。主题词为专指的概念,能独立的表达医学概念。副主题词也叫限定词,用于限定主题词,即用于强调主题词所表示的概念的 某些专指的方面。副主题词均为泛指的概念,信息量小,不能单独使用,需要和主题词 组配使用。如,病理学,药理学,治疗,诊断,药物疗法,康复,并发症,等。特征词针对临床医生、生物医学科研人员以及医学教学人员感兴趣的并经常 遇到的、具有特殊意义的词或词组,如,男(雄)性,女(雌)性,婴儿,儿童,老年 人,妊娠,等。1.1.3.文献外部特征索引
文献外部特征是一种文献检索语言。文献外部特征的检索语言主要是指对文献的篇 名(题目)、作者姓名、出版者、报告号、专利号等内容的检索。将不同的文献按照篇 名、作者名称的字序进行排列,或者按照报告号、专利号的数序进行排列,所形成的以 篇名、作者及号码的检索途径来满足用户需求的检索语言。
为了帮助用户更加快速准确的找到需要的内容,数据库添加了高级搜索功能, 用户可以通过书名、出版社等文献的外部特征进行查询。对这些外部特征同时做了分词 和不分词两种索引,保证用户检索的查全率和查准率。1.1.4.难易程度评分索引
根据内容难易程度由医学编辑进行评分,经医学专家认可后将评分建立索引。用户 注册后,根据其注册信息,由医学编辑对用户的知识水平进行大致评级。根据用户评级 和评分索引,帮助用户方便的找到与其知识水平相符合的医学知识。1.2. 权重分配 1.2.1.加权对象
分为Filed和Document两种。Filed包括标引、特征词、具体内容、书名、出版
社、学科。1.2.2.加权设置
根据对用户需求的调查及用户心理分析,运用不同的加权设置进行试验,以期达到 帮助用户查找到最需要的内容的目的。结果如下 标弓I词boots=2 特征词boots=1.4 内容 boots= 1.1
Document (专指“概述”)boots= 1.3
2.搜索 2.1. 评分
首先将全文内容进行切词,把词语在文中出现的频度按照以下公式进行评分 score (q,d) = sum( tf(t in d) * idf(t) * getBoost (t.field in d) * IengthNorm (t.field in d) * coord (q,d) * queryNorm (q))
其中
tf(tind)基于搜索项或者短语在文档中出现次数的分值因子。idf(t):针对特定索引的简单搜索项的分值因子。getBoost (t.field in d)针对搜索项字段的增益因子。IengthNorm(t.field in d)对一个给定字段,其中包含的搜索项的总数的标准值。
这个值保存在索引中。这些值和字段增益一起,保存在索引中,通过搜索代码和每一个 搜索结果的每一个字段的分值相乘。匹配较长的字段精度较低,所以这个实现方法通常在numTikuns较大时返回较 小的分值,而在numTokens较小时返回较大的分值。coord(q,d):基于文档包含的所有查询搜索项碎片的分值因子。出现大部分的查询搜索项表示更好的匹配查询,所以这个实现方法通常当这些 参数的比率较大时返回较大的分值,而这些比率较小时返回较小的分值。queryNorm(q):对给定的查询,所有查询搜索项的权重的总和的标准值。这个值 用于和每一个查询搜索项相乘。例“按1999年10月我国高血压防治指南提出的标准。正常成人在未服用 抗高血压药的情况下,不同时间两次以上所测血压,收缩压M40mmHg和(或)舒张压≥90mmHg定为高血压(表1)。”
搜索“高血压”,高雪压在文中出现过3次默认的Boost是1.0分 score (q,d) = sum( tf(t in d) * idf(t) * getBoost (t.field in d) * IengthNorm (t.field in d) * coord (q,d) * queryNorm (q))
score (q,d) =3*1.8351948*1.0*0.036002904*3*0.066072345 =0.3929
2.2.加权(boots)公式 score_d = score (q,d) *boots
2.3.检索过程 2.3.1.提取记录
用户输入关键词后,系统将关键词在索引库中进行检索,将与关键词相关的记录根 据评分加权规则进行评分,按分值从高到低进行排序,提取前一百条符合用户知识水平 的记录。经试验分析,一百条以后的记录与关键词相关度较差,为了提高检索效率,故 只提取前一百条记录。2.3.2.过滤重复记录
根据文献名称、内容分类、文献ID对提取的记录进行过滤,去掉其中重复的记录。2.3.3.搜索结果分类
将搜索结果按照学科进行分类并展示给用户。与关键词相关度最高的学科的搜索结 果将被优先展示。2.3.4.医学知识展示
用户在搜索结果列表中找到自己需要的内容,点击查看详细时,页面可直接定位到 搜索关键词在文中所在的位置。
权利要求
1.一种医学数据库的建立方法,其特征在于,包括以下步骤(1)将源文档转换为 能够进行文本查找的全文数据,建立以下检索索引a.全文检索索引,b.注释性索引, c.文献外部特征索引,d.难易程度评分索引;(2)选择所述检索索引的一部分分配权 重,构建基于检索词出现频度的加权评分排序程序。
2.根据权利要求1所述的医学数据库的建立方法,其特征在于,所述b.注释性索引包 括标引索引和特征词索引,所述标引由主题词和副主题词两部分组成,所述主题词为全 文内容中的一些词汇的等同释义词,所述副主题词为所述主题词所属的包括医学学科在 内的表示医学领域的词语;所述特征词为表征患者类别的词语。
3.根据权利要求1所述的医学数据库的建立方法,其特征在于,所述C.文献外部特征 索引的文献外部特征包括题目、作者姓名、出版者和文献编号。
4.根据权利要求1所述的医学数据库的建立方法,其特征在于,分配权重的检索索 引为标引索引的标引词、特征词索引的特征词、全文检索中的内容和概述。
5.根据权利要求4所述的医学数据库的建立方法,其特征在于,所述标引词、特征 词、内容和概述的权重分别为2、1.4、1.1和1.3。
6.根据权利要求5所述的医学数据库的建立方法,其特征在于,所述构建基于检索 词出现频度的加权评分排序程序的评分公式为score (q,d) = sum (tf (t in d) * idf (t) * getBoost (t.field in d) * IengthNorm (t.field in d) * coord (q,d) * queryNorm (q)),其中, score (q,d)评分分值;tf(tin d):基于搜索项或者短语在文档中出现次数的分值因子; idf ω 针对特定索引的简单搜索项的分值因子; getBoost (t.field in d)针对搜索项字段的增益因子;IengthNorm(t.field in d)对一个给定字段,其中包含的搜索项的总数的标准值; coord(q,d):基于文档包含的所有查询搜索项碎片的分值因子; queryNorm(q):对给定的查询,所有查询搜索项的权重的总和的标准值。
全文摘要
本发明提供了一种医学数据库的建立方法,包括以下步骤(1)将源文档转换为能够进行文本查找的全文数据,建立以下检索索引a.全文检索索引,b.注释性索引,c.文献外部特征索引,d.难易程度评分索引;(2)选择所述检索索引的一部分分配权重,构建基于检索词出现频度的加权评分排序程序。利用本发明提供的方法建立的医学数据库,能够根据用户的知识水平检索到相关度非常高,适于该用户使用的医学文献,能够大大提高检索效率,方便具有不同级别医学知识的用户使用。
文档编号G06F17/30GK102024027SQ20101054772
公开日2011年4月20日 申请日期2010年11月17日 优先权日2010年11月17日
发明者史彤毅, 成飞, 高瞻 申请人:北京健康在线网络技术有限公司