一种生物力学调控骨改建文本挖掘交互网站构建方法

文档序号:31206334发布日期:2022-08-20 02:41阅读:111来源:国知局
一种生物力学调控骨改建文本挖掘交互网站构建方法

1.本发明涉及生物力学网站构建技术领域,尤其涉及一种生物力学调控骨改建文本挖掘交互网站构建方法。


背景技术:

2.骨组织先天性发育不足、发育异常、骨组织缺损或缺失是较为常见的临床问题,对患者颜面外观、心理健康、生活质量影响极大。对此,机械刺激、应力牵张等基于生物力学原理的治疗手段是目前较为安全可靠、高效经济的应对措施。因此,明确力学刺激下骨改建的生物分子机制,是进一步发展精准治疗、高效治疗的首要前提。目前,生物力学调控骨改建研究领域已具有海量研究数据,但信息分散,难以整合,因此构建高效获取重要信息的知识网络技术平台,将为快速推动该领域研究发展提供重要手段。
3.阐明骨相关细胞对生物力学刺激的响应过程是骨生理、病理研究的基本前提。开放共享的知识平台极大的促进了近代科学的发展,但不断增长的出版物数量和海量信息使得研究者通过手动整理文献进行文献梳理及挖掘愈发困难。在大数据时代,采用机器语言处理模式,调用自然语言处理工具(nlp)来对生物医药相关文献进行整合梳理,是一种高效、可靠、具有极大潜力的应用模式。
4.目前,tagger、itextmine、geneshot等计算机语言工具可被用于区分生物医学文本中的专业术语及特定表达方式,为针对生物医学文本的计算机语言处理策略提供了可能。近年来,lion lbd、glad4u等,都利用nlp工具,进行生物文本挖掘,对数据进行整合梳理,提供研究相关信息。
5.然而,在骨相关生物力学研究领域,上述的文本研究工具却难以发挥有效作用,主要体现在以下几方面:
6.1、编程能力限制:现存多数文本处理工具面向为具有一定编程能力的用户,如tagger、itextmine、geneshot等,需要用户掌握一定的自然语言处理知识,而对于多数生物医学科研工作者而言,操作难以实现。
7.2、背景数据库冗余:生物过程是是精确且有条件限制的,虽然现有的nlp工具能够提取并结构化存储的大量数据信息,但大多使用未经过滤的背景数据库,会造成不相关信息的纳入,造成结果的假阳性。对于特定的生物学领域,特别是生物力学这类相对小众的研究领域,难以在泛医学研究背景库内得到较好的搜索结果。因此,研究者需要一种有针对性的、更适合骨相关生物力学研究的nlp工具。
8.3、缺乏可视化展示:对于复杂交互的网络结构而言,纯文本信息相较于图形化的展示方式,难以提供清晰、有逻辑性的框架结构,因此,本实施例需要一种可视化模式,对分子间的连接和交互关系进行梳理,以便于研究者能够快速了解通路信息并定位所需的目标。


技术实现要素:

9.本技术为了解决上述技术问题提供一种生物力学调控骨改建文本挖掘交互网站构建方法。
10.本技术通过下述技术方案实现:
11.一种生物力学调控骨改建文本挖掘交互网站构建方法,所述方法包括:
12.s1,根据相关词条筛选文献中基因信息文本词,获取基因分子互作关系对,构建文献数据库;
13.s2,基于文献数据库中的基因分子互作关系对,采用权重算法计算目标检索因子与经典力学敏感通路的相关性;
14.s3,将目标检索因子与经典力学敏感通路之间的相关性进行可视化展示,并将经典力学敏感通路中的基因分子显示为互相连接的节点,通过单击节点之间的连线可以链接到文献数据库中相应的文献。
15.进一步的,所述步骤s1与步骤s2之间,还包括对pmc数据库进行深度神经网络训练,筛选带生物信息的文本关键词,构建语料库。
16.进一步的,所述生物信息包括力学类型、研究物种、细胞类型。
17.优选地,所述步骤s1中相关词条包括生物力学、骨相关词条。
18.进一步的,所述步骤s1包括对基因信息文本词进行计算机语言归一化和预处理。
19.进一步的,所述步骤s1还包括采用pubtator识别基因信息文本词,并通过调用ncbi基因数据库的api将基因信息文本词转换为正式名称。
20.进一步的,所述步骤s2中权重算法的公式为:
[0021][0022]
式中,r(g,p)为基因g与经典力学敏感通路p的相关系数,ni表示经典力学敏感通路p中第i个基因在文献数据库中相关实体总数,n
p
为经典力学敏感通路p所有基因在文献数据库中相关实体的总数,ωg、ω
p
分别表示基因g和经典力学敏感通路p的集合。
[0023]
优选地,所述经典力学敏感通路包括hippo、bmp、tgfβ、wnt、notch、pi3k/akt、mapk、ras中的至少一种。
[0024]
进一步的,所述步骤s3中,还包括可视化展示目标检索因子在kegg数据库中的通路信息。
[0025]
进一步的,所述步骤s3中,还包括可视化展示目标检索因子在string数据中的基因分子互作关系对。
[0026]
与现有技术相比,本技术具有以下有益效果:
[0027]
1、使用网页工具提供开放搜索端口,便于用户自定义搜索范围,无需用户掌握复杂的计算机编程能力。
[0028]
2、通过设定严格的文献数据库纳入标准,明确了骨相关生物力学信息。对于复杂的骨相关生物力学调控网络而言,可在很大程度上过滤假阳性信息,使结果更为可信、有
效。
[0029]
3、采用可视化网络图的模式,保证用户的交互操作,使计算机文献挖掘为研究者所用,以一种更用户友好模式,促进信息传播及理解。
[0030]
4、将经典力学敏感通路与文本挖掘结果相结合,使用户能够通过生物学通路来定位目标基因或基因集。基于文献数据库和权重算法,计算得出目标检索因子与各个经典力学敏感通路之间关联度,同时提供该通路及基因交互搜索,使得基因导航更具说服力和意义。
附图说明
[0031]
此处所说明的附图用来提供对本技术实施方式的进一步理解,构成本技术的一部分,并不构成对本发明实施方式的限定。
[0032]
图1是本发明的流程框图;
[0033]
图2是语料库的深度神经网络训练示意图;
[0034]
图3是本发明的检索窗口界面图;
[0035]
图4是本发明的检索结果界面图;
[0036]
图5是图4中板块1-3的示意图;
[0037]
图6是图4中板块4-6的示意图;
[0038]
图7是图4中板块7的示意图。
具体实施方式
[0039]
为使本技术的目的、技术方案和有益效果更加清楚,下面将结合实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述。显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。通常在此处附图中描述和示出的本发明实施方式的组件可以以各种不同的配置来布置和设计。
[0040]
1.数据库构建和文本标记
[0041]
本发明网站根据“生物力学”、“骨”相关研究为中心,以关键词集作为文献资源的收录标准。筛选纳入了从2010年1月1日至2020年12月31日之间发表的34937篇文章,在对文本词进行计算机语言归一化和预处理后,每篇文章中的基因信息首先经pubtator识别,然后通过调用ncbi基因数据库的api转换为正式名称。
[0042]
ncbi为ncbi entrez系统提供e-utilities api,并允许访问所有entrez数据库,包括pubmed、pmc、gene和protein,这有利于批处理和大量文本字检索(https://www.ncbi.nlm.nih.gov/home/develop/api/)。文本数据由每篇文章的标题和摘要组成,首先通过文本处理库自然语言工具包(nltk,http://www.nltk.org/)进行标记、解析和规范化,从而避免模糊的描述,并确保后续处理的可识别性。然后执行名称实体识别(ner)来提取所需的每篇论文的详细信息。一方面,pubtator(https://www.ncbi.nlm.nih.gov/research/pubtator/)作为一种成熟的生物医学术语识别工具,在识别模糊和复杂的生物医学术语名称方面取得了很好的效果,被用于对文本数据库中出现的基因和蛋白质进行标注。基因id随后通过biopython(https://biopython.org/)转化为基于访问ncbi基因数据库的标准名称。
[0043]
另一方面,为其他特殊术语,如力的类型、细胞类型和种类,建立了一个自编语料库,对有关力学类型、研究物种和细胞类型等信息进行提取,然后通过将规范化的文本内容与语料库进行比较来识别名称实体。通过自建语料库,基于自建库的分类和数据检索,用户可在网页选项内更改搜索范围以指定给定的力条件或设置的细胞系,有助于获得更具体化的结果。
[0044]
自建语料库通过下列方式实现:如图2所示,设计了一个基于预训练的语言模型bert的深度神经网络,并对网络参数进行了优化改进,主要参数如下:batch size:32;epochs:4;learning rate:5e-5;hidden_size:128。对全英语语料库pmc中13.5百万个词、生物文献语料库pubmed中4.5百万个词进行训练,得到了带生物信息的文本关键词提取模型。
[0045]
2.力学生物学通路间交互作用
[0046]
细胞和组织感知、传递机械信息的方式取决于基因之间的相互作用,而交互的级联网络,就组成了生物信号通路。如图2所示,在路径导航部分,本实施例首先展示了调节这一过程的典型通路以及它们之间的相互作用。
[0047]
如图3所示,在通路导航部分,本实施例中的网站展示了经典力学敏感通路,如hippo、bmp、tgfβ、wnt、notch、pi3k/akt、mapk、ras信号通路等,并探究了其在机械转导中的交互关系,为用户提供力学生物学领域的背景信息。
[0048]
在这种模式下,本实施例梳理出可信路径及其相互作用,为用户提供一般的背景信息。通过结合hippo、bmp、wnt、gpcr、tgf-beta、igf、整合素和细胞连接相关的可信通路,使基因在机械感觉和机械转导中的导航更有说服力和意义。
[0049]
其次,对单一分子的理解通常较为片面和局限,相比之下,将分子和通路联系起来,更有利于研究人员对其作用机制的理解和进一步探索。因而在一种可能的设计中,将常态路径与文本挖掘结果结合起来,使用户能够通过生物学过程定位其目标基因或基因集。通过将提交的基因与每条通路的注释基因集进行匹配,对基因和机械相关途径之间的相关性进行评分,并基于文本挖掘技术提供可能的连接。
[0050]
为了得到一个合理的评分系统,本技术基于文献数据库内分子互作关系对,计算得出与目标检索因子和各个经典力学敏感通路的相关性,可帮助研究者快速定位相关生物学信号传导模式。评分计算方式如下:
[0051][0052]
上式中,r(g,p)为基因g与经典力学敏感通路p的相关系数,ni表示经典力学敏感通路p中第i个基因在文献数据库中相关实体总数,n
p
为经典力学敏感通路p所有基因在文献数据库中相关实体的总数,ωg、ω
p
分别表示基因g和经典力学敏感通路p的集合。
[0053]
使用权重算法,可凸显通路明星分子重要性,符合文本数据挖掘逻辑,当目标检索分子与通路明星分子共现时,可认为目标检索分子与该通路关联可能性更大。
[0054]
3.可视化网站构架
[0055]
为了支持跨平台的可视化,该网站的web架构基于django框架,后端数据库使用mysql实现,语义ui用于前端架构。
[0056]
作为nlp web工具,本发明网站结合了演示和预测策略,提出了一种有效且可信的方法来梳理在骨骼中进行机械感觉和机械传导的分子之间的连接和串扰。
[0057]
本发明网站使用图形网络将所有力学通路中的分子显示为互相连接的节点,通过单击节点之间的连线可以链接到相应的原始文献,此功能通过网页前端和服务器数据库交互技术实现,为现有技术,此处不再赘述。
[0058]
通过上述自建语料库可以对从文献数据库中检索到的实体进行子分类,使得用户可以选择关注特定力的类型或特定的细胞系,从而有助于更精确和有针对性的基于文献的发现。同时,本发明网站创造性地采用了通路拟合方法,基于权重算法,系统可以根据nlp结果显示目标检索分子与经典力学路径的相关性得分,将用户的靶向分子与经典途径的组成部分联系起来,使之更适合生物医学研究。
[0059]
4.相关性识别和可视化
[0060]
根据用户定义的范围,本发明网站可以自动检索与目标检索分子相关的实体以及与通路之间的相关性,并将其可视化。交互式操作适用于图形插图,可以实现用户自定义的可取布局以及每个实体的详细信息。点击实体之间的边缘后,弹出窗口可以显示确认信息以及相应句子以红色高亮显示的资源文章。原始文本的收集使用户能够决定人工智能发现的连接的重要性和可靠性,这可能是有效的和准确的。分层搜索使第二层和第三层关系提取能够放大网络,有利于新分子的开发。
[0061]
管理通路图和骨定位机制生物学在很大程度上取决于连续的反应和相互作用的几个途径,如上所述。考虑到这一点,本实施例确定了涉及机械敏感性和机械转导的经典途径与可信的证据。概述路径及其与站立证明的交互可视化通过图表和svg.js,一个用于操作和动画svg文件的轻量级库。每个路径的元素都在kegg(kyoto encyclopedia of genes and genomes)上搜索,然后与本实施例的数据集进行比较,这些数据集为每个路径包含的项目列表做出了贡献,通过相关系数可对目标基因和途径之间的相关性进行排序,并进行可视化显示。
[0062]
除了评分外,生物力学调控骨改建文本挖掘交互网站还提供了一个交互选择,将目标通路的所有/选择性成分加入到nlp网络中,形成一个分子到通路网络,从而发现更多的间接连接。
[0063]
下面将详细阐述结果界面内容:
[0064]
结合图4-图7,结果界面左侧集中展示了力学通路关联搜索结果,具体如下:如图5所示,板块1展示了目标检索分子与各经典力学通路的关联度;板块2处,用户可选择感兴趣通路,在网络中加入通路分子合并搜索;板块3处,用户可以快速了解目标检索分子在kegg数据库中的通路信息,以便更全面地了解该分子的作用途径提。如图6所示,结果页中部主要将分子互作信息可视化,同时提供多种“string”按钮选项。string是一个包含基于研究证据和算法预测的蛋白相互作用信息的数据库,将string的结果与原始nlp网络集成,可为新兴分子的研究提供思路。通过单击本发明网站提供的分层搜索功能,用户可以放大关系网络至第2、3层,扩大网络搜索范围,有利于通路中新分子的发现。网站中相应的图标提供了更改展示模式、图片下载,以及图片重置的功能。可更改分子关联图的展示模式,下载保
存当前关联图及恢复上一版关联图展示。对于相应来源文献的检索,用户可通过鼠标点击节点之间的连接,如图7所示,弹窗将显示其相关性以及相对应的文献,相应语句也以红色突出显示。
[0065]
本实施例选择用共现来定义相关性,而不是采用机器学习的方法来识别语法数据进行关系抽取为了保证预测结果的可信度,本实施例选择让用户告诉嵌入在语料库中的关系,而不是机器。基于每个规范化句子的关系检索和可视化,实体通过共现关联,然后标记出相应的句子。同现得分记录相应具有同现标签的物品的数量。这些句子和相应的实体被存储在一个关系数据库中,并由sqlite(https://www.sqlite.org/index.html)实现。字符串(https://string-db.org/)用于对目标的全面搜索,本实施例提供了二级和/或字符串搜索选项,可以有助于更多的结果。
[0066]
本发明网站的使用方法:用户在本发明网站的检索窗口界面中输入目标检索因子,在检索窗口界面展示了部分经典力学敏感通路,为用户提供力学生物学领域的背景信息,可帮助用户快速确定经典力学敏感通路。当输入完成后,界面会转换至检索结果界面,检索结果界面分为7个板块进行展示。界面左边为板块1-3,界面中部为板块4-6,界面右边有1个板块7。
[0067]
板块1采用柱状图展示了目标检索分子与各经典力学敏感通路的相关性;板块2展示了用户可选择的感兴趣通路,可在网络中加入通路分子合并检索;在板块3,用户可以快速了解目标检索分子在kegg数据库中的通路信息,以便更全面地了解目标检索分子的作用途径。
[0068]
通过单击板块5提供的分层搜索功能,用户可以放大关系网络至第2、3层,扩大网络搜索范围。板块6提供了更改展示模式、图片下载、图片重置的功能图标,点击图标可更改分子关联图的展示模式、下载保存当前关联图、恢复上一版关联图展示。
[0069]
对于相应来源文献的检索,用户可通过鼠标点击板块4中节点之间的连接,板块7内的弹窗将显示其相关性以及相对应的文献,相应语句也以红色突出显示。
[0070]
综上,本发明网站基于开放文献资源,利用自然语言处理(nlp)策略,挖掘文本数据库,构建一个网页交互工具。创建了首个骨相关生物力学文本数据库,创新性地引入可视化模式,将复杂晦涩地文本信息图像化;采用自创权重算法,计算目标检索因子与经典力学敏感通路之间的相关性,建立一种以生物学通路为基础的全新分析策略;同时,引入网页交互工具,将生物学文献探索过程可视化、简易化,可极大促进骨相关力学生物学的分子机制研究,推动更有效的数据处理和知识共享方式。
[0071]
本技术不再依赖于未经过滤的资源,而是在骨骼机械生物学过程中指定目标,并根据自组织文库检索分类信息。通过这种方式,用户可以选择在所有与机械相关的文章中进行探索,甚至可以指定他们的目标来强制类型、细胞系或物种,有利于知识共享的讨论式生物医学平台为研究人员提供了前所未有的范围和棘手的大量信息。同时,本技术采用以路径为中心的策略,运用加权评分和组合算法,使机械生物学过程中单个基因或集合的导航和探索成为可能。
[0072]
以上的具体实施方式,对本技术的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明
的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1