一种多源病例数据处理方法及装置与流程

文档序号:33046921发布日期:2023-01-24 22:39阅读:51来源:国知局
一种多源病例数据处理方法及装置与流程

1.本发明涉及多源病例数据处理技术领域,具体涉及一种多源病例数据处理方法及装置。


背景技术:

2.在临床研究中,真实世界证据是药物有效性和安全性评价证据链的重要组成部分,而真实世界数据则是产生真实世界证据的基础。真实世界数据来源于日常收集的各种与患者健康状况或诊疗及保健相关的数据,只有满足适用性的真实世界数据经恰当和充分地分析后才有可能形成真实世界数据。
3.目前真实世界数据的记录、采集、存储等流程缺乏严格的质量控制,可能存在数据不完整,数据标准、数据模型和描述方法不统一等问题,对真实世界数据的有效使用形成了障碍;并且由于数据转化、提取、结构化的规则因临床研究方案的具体情况千差万别,传统的数据结构和技术很难支持系统自定义配置相关规则,导致数据处理规则的创建和修改极其困难且费时费力,很难支持研究者自行设定规则,严重影响效率。


技术实现要素:

4.因此,本发明要解决的技术问题在于克服现有技术中对病例原始数据进行逐一结构化处理,由于没有明确的处理方向和目的,对于数据筛选、数据转化和数据提取没有具体规则,处理过程费时费力,无法一步到位的生成可用数据的缺陷,从而提供一种多源病例数据处理方法及装置。
5.为解决上述技术问题,本发明公开实施例至少提供一种多源病例数据处理方法及装置。
6.第一方面,本发明公开实施例提供了一种多源病例数据处理方法,包括:获取待处理病例源数据;基于用户输入信息和第一crf模板表单生成第一crf处理表单,所述第一crf模板表单预设至少两种数据处理方式,所述第一crf处理表单包含用户设定的数据处理方式;根据所述第一crf处理表单生成病例数据处理模型;由所述病例数据处理模型按照用户设定的数据处理方式对所述病例源数据进行处理。
7.可选地,该方法还包括:将所述病例数据处理模型处理过的所述病例源数据存入第一crf数据表单。
8.可选地,所述第一crf模板表单、所述第一crf处理表单和所述第一crf数据表单采用json结构,所述第一crf模板表单、所述第一crf处理表单和所述第一crf数据表单设有数据结果属性,在所述基于用户输入信息和第一crf模板表单生成第一crf处理表单之前,所述方法还包括:获取所述用户输入信息,在用户填写所述第一crf模板表单的同时,监听用户操
作,更新所述第一crf处理表单中的结果属性。
9.可选地,所述至少两种数据处理方式和所述用户设定的数据处理方式包括数据提取路径、数据处理逻辑参数、数据算法集成、数据处理结果和结果处理动作。
10.可选地,所述由所述病例数据处理模型按照用户设定的数据处理方式对所述病例源数据进行处理包括:按照所述用户设定的数据处理方式对所述待处理病例源数据进行数据提取;按照所述用户设定的数据处理方式对所述待处理病例源数据进行数据筛选;按照所述用户设定的数据处理方式对所述待处理病例源数据进行数据转化。
11.可选地,所述按照所述数据提取方式对所述待处理病例源数据进行数据提取包括:若所述待处理病例源数据是大文本类型,则通过nlp模型进行数据提取。
12.第二方面,本发明公开实施例还提供一种多源病例数据处理装置,包括:源数据获取模块,用于获取待处理病例源数据;处理方式设置模块,用于基于用户输入信息和第一crf模板表单生成第一crf处理表单,所述第一crf模板表单预设至少两种数据处理方式,所述第一crf处理表单包含用户设定的数据处理方式;处理模型生成模块,用于根据所述第一crf处理表单生成病例数据处理模型;数据处理模块,用于由所述病例数据处理模型按照用户设定的数据处理方式对所述病例源数据进行处理。
13.可选地,该装置还包括:处理结果存储模块,用于将所述病例数据处理模型处理过的所述病例源数据存入第一crf数据表单。
14.第三方面,本发明公开实施例还提供一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
15.第四方面,本发明公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
16.本发明的实施例提供的技术方案可以具有以下有益效果:以临床研究项目方案为依据,设计专属的crf表格,为用户提供配置页面,便于用户自定义数据筛选规则和数据转化规则,达到只筛选与项目相关的数据,跳过大量不相关数据的目的,配置专属转化规则,实现用户对系统数据处理规则的可配置化,对多数据源下的数据进行统一处理,使收集的真实世界数据能够成为或经处理后能够成为满足临床研究目的所需的分析数据。形成高质量数据,全程无需额外开发人员参与,有效提高识别率和转化率,流程清晰,操作简洁方便,节约大量人工成本。
17.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
18.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的
附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
19.图1示出了本发明公开实施例所提供的一种多源病例数据处理方法的流程图;图2示出了本发明公开实施例所提供的另一种多源病例数据处理方法的流程图;图3、图4、图5、图6示出了本发明公开实施例中选择数据结果表单填写示意图;图7示出了本发明公开实施例中信息采集页面示意图;图8示出了本发明公开实施例中变量嵌套显示示意图;图9示出了本发明公开实施例中数据解析后的呈现样式显示示意图;图10示出了本发明公开实施例中同级变量联动示意图;图11示出了本发明公开实施例所提供的一种多源病例数据处理装置的结构示意图;图12示出了本发明公开实施例所提供的一种计算机设备的结构示意图。
具体实施方式
20.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
21.实施例1如图1所示,本发明公开实施例所提供的一种多源病例数据处理方法的流程图,所述方法包括:s11:获取待处理病例源数据;s12:基于用户输入信息和第一crf(病例报告表,case report form)模板表单生成第一crf处理表单,第一crf模板表单预设至少两种数据处理方式,第一crf处理表单包含用户设定的数据处理方式;s13:根据第一crf处理表单生成病例数据处理模型;s14:由病例数据处理模型按照用户设定的数据处理方式对病例源数据进行处理。
22.可以理解的是,本实施例提供的技术方案,以临床研究项目方案为依据,设计专属的crf表格,为用户提供配置页面,便于用户自定义数据提取规则和数据转化规则,达到只筛选与项目相关的数据,跳过大量不相关数据的目的;配置专属转化规则,实现用户对系统数据处理规则的可配置化,对多数据源下的数据进行统一处理,使收集的真实世界数据能够成为或经处理后能够成为满足临床研究目的所需的分析数据。形成高质量数据,全程无需额外开发人员参与,有效提高识别率和转化率,流程清晰,操作简洁方便,节约大量人工成本。
23.实施例2如图2所示,本发明公开实施例所提供的另一种多源病例数据处理方法的流程图,所述方法包括:s21:获取待处理病例源数据;在具体实践中,接收来自不同数据源的病例数据,利用统一格式的mysql数据库表
结构,将来自不同数据源的数据存入所述mysql数据库表,通过source字段对不同的数据源进行分类。
24.s22:获取用户输入信息,在用户填写第一crf模板表单的同时,监听用户操作,更新第一crf数据表单中的结果属性;s23:基于用户输入信息和第一crf模板表单生成第一crf处理表单,第一crf模板表单预设至少两种数据处理方式,第一crf处理表单包含用户设定的数据处理方式;s24:根据第一crf处理表单生成病例数据处理模型;s25:由病例数据处理模型按照用户设定的数据处理方式对病例源数据进行处理;s26:将病例数据处理模型处理过的病例源数据存入第一crf数据表单。
25.其中,第一crf模板表单、第一crf处理表单和第一crf数据表单采用json结构,第一crf模板表单、第一crf处理表单和第一crf数据表单设有数据结果属性。
26.用户在填写表单的时候,相应的选择、填写等动作会被监听,进而更新第一crf处理表单中的结果属性,达到了同时记录规则设置结果的目的。例如选择数据结果如图3所示。
27.如图4所示,选项被选择后,selected的值会变成1,如图5示出了填空选项的数据结构,图6示出了,填写后,result属性会记录值。
28.在具体实践中,数据操作有很多种,本实施例以包括三部分数据操作类型为例,具体的,其一,数据筛选操作,比如包含某些关键词或者某些变量与另一个变量之间的比较值等。其二,数据提取操作,是指在满足某一数据筛选条件时需要进行的具体操作,如保留或者舍弃等;其三,数据转化操作,是指在数据提取操作为保留的条件下,对该数据进行的转化操作,如脱敏操作、数据值转化操作、定性转定量和定量转定性等。
29.本实施例通过第一crf模板表单、第一crf处理表单和第一crf数据表单针对不同的数据操作配置不同的处理规则,采用json计算机文本格式对配置规则的参数进行定义,并通过web端node.js的解析。具体的,据json结构中的类型,采用html的格式进行编码,呈现出json结构中的数据,如图7所示,形成信息采集页面,供用户自行选择,满足文本资料下的数据处理规则配置。
30.传统的数据处理规则,只定义数据治理的三个信息,三个信息包括数据操作的类型、数据处理之前数值和数据处理之后数值,这样设计的缺点是无法实现规则自动化配置,具体的规则仍然需要人工开发,无法实现自动配置。
31.本技术实施例,通过第一crf模板表单、第一crf处理表单和第一crf数据表单针实现了一种改进的数据处理规则,该处理规则包括数据提取路径、数据处理逻辑参数、数据算法集成、数据处理结果和结果处理动作五个属性。
32.下面以手术前3小时的白细胞计数必须小于10为例对上述处理规则进行说明,其中:数据提取路径,用来明确原始数据提取的出处,便于后续数据核对时候的溯源。例如,用户点击数据预览页面,获取源数据的本地路径,接着点击进入,获取excel表格文件的sheet页名,列名,行数,进而确认某个单元格的位置。本条规则需要依次获取手术时间、血常规检测时间,血细胞计数检测值这三个数值的来源路径。
33.数据处理逻辑参数,用来明确规则处理逻辑所需的参数数值,并对数据进行记录。
在配置页面中,将需要带入计算的变量选中,成为数据处理参数。在本规则中将手术时间、血常规检测时间,血细胞计数检测值作为数据处理参数进行日志记录。
34.数据算法集成,用来明确该规则的数据处理逻辑,数据处理过程分为数据筛选、数据提取、数据转化三种,数据筛选是指通过预设的判断条件对源数据进行逻辑判断,对不符合条件的数据进行筛除;数据提取是指对一些错误数据或者敏感数据进行脱敏或者转化;数据转化是指,因数据同义词问题或者语法不统一,需要将不用的数据进行归类或者归一化处理;在预制的数据处理规则类型列表中选择数据算法类型,如选择时间比较算法,将条件设定为小于3小时。
35.数据处理结果,用来记录数据处理参数经过数据算法集成后的运算结果,并对数据进行记录,便于核对算法运行的准确性。将数据算法的计算结果进行提取并记录。如,拿到规则的结果,通过或者未通过。
36.结果处理动作,用来定义数据处理结果下的数据处理动作:比如不符合某种筛选条件,可以执行删除操作;或者达到某种条件下,可以认定为通过,允许将数据向下传递,作为其他规则的参数。
37.在具体实践中,步骤s25由病例数据处理模型按照用户设定的数据处理方式对病例源数据进行处理包括(图中未示出):s251:按照用户设定的数据处理方式对待处理病例源数据进行数据提取;s252:按照用户设定的数据处理方式对待处理病例源数据进行数据筛选;s253:按照用户设定的数据处理方式对待处理病例源数据进行数据转化。
38.在具体实践中,若待处理病例源数据是大文本类型,则通过nlp模型进行数据提取。
39.在具体实践中,上述病例数据处理模型中,从结构的角度,表单类型包括普通表格、嵌套表格和量表结构,从数据种类类型上分为文本、单选、多选、时间选择、下拉单选、公式计算类型等。从逻辑实现的角度,支持不同变量之间的嵌套,支持复合信息的录入,支持变量填充逻辑判断及联动显示功能,通过内置的显示逻辑,回显不同选择下需要填写的不同信息。图8示出了不同变量的嵌套。
40.上述json结构中,最外层是诊断变量,类型是多选(checkbox),但是用户需要在选择某个疾病名称后,继续选择该疾病的诊断时间,因此在json的设计中,运行了嵌套,将诊断时间嵌套到哮喘的疾病名称下,这样数据解析后的呈现样式如图9所示。
41.图10示出了同级变量下的联动显示。
42.上述的json结构中,role_list属性中对轻度变量的两个选项”有“和”无“,进行了配置,意为如果选择了”有“选项,则会联动显示id为2,3的变量,如果选择了”无”选项,则无动作,这样就实现了联动显示功能,显示效果如图10所示。
43.可以理解的是,本实施例提供的技术方案,以临床研究项目方案为依据,设计专属的crf表格,为用户提供配置页面,便于用户自定义数据提取规则和数据转化规则,将crf表单转化为通用数据模型,按照模型中的每个变量设置数据治理规则,系统按照规则识别提取转化原始数据,并将结果写入crf表单,整个转化过程中将保留稽查轨迹的记录,形成完整的数据证据链。达到只筛选与项目相关的数据,跳过大量不相关数据的目的;配置专属转
化规则,实现用户对系统数据处理规则的可配置化,对多数据源下的数据进行统一处理,使收集的真实世界数据能够成为或经处理后能够成为满足临床研究目的所需的分析数据。实现对多数据源的数据整合,经过数据筛选、数据转化,数据提取等环节,最终实现对数据的高自由度自定义化提取,形成真实有效的真实世界数据证据。形成高质量数据,全程无需额外开发人员参与,有效提高识别率和转化率,流程清晰,操作简洁方便,节约大量人工成本。
44.实施例3如图11所示,本发明实施例还提供一种多源病例数据处理装置,包括:源数据获取模块111,用于获取待处理病例源数据;处理方式设置模块112,用于基于用户输入信息和第一crf模板表单生成第一crf处理表单,所述第一crf模板表单预设至少两种数据处理方式,所述第一crf处理表单包含用户设定的数据处理方式;处理模型生成模块113,用于根据所述第一crf处理表单生成病例数据处理模型;数据处理模块114,用于由所述病例数据处理模型按照用户设定的数据处理方式对所述病例源数据进行处理。
45.在具体实践中,该装置还包括:处理结果存储模块,用于将所述病例数据处理模型处理过的所述病例源数据存入第一crf数据表单。
46.可以理解的是,本实施例提供的技术方案,以临床研究项目方案为依据,设计专属的crf表格,为用户提供配置页面,便于用户自定义数据提取规则和数据转化规则,达到只筛选与项目相关的数据,跳过大量不相关数据的目的;配置专属转化规则,实现用户对系统数据处理规则的可配置化,对多数据源下的数据进行统一处理,使收集的真实世界数据能够成为或经处理后能够成为满足临床研究目的所需的分析数据。形成高质量数据,全程无需额外开发人员参与,有效提高识别率和转化率,流程清晰,操作简洁方便,节约大量人工成本。
47.实施例4基于同一技术构思,本技术实施例还提供了一种计算机设备,包括存储器1和处理器2,如图12所示,所述存储器1存储有计算机程序,所述处理器2执行所述计算机程序时实现上述任一项所述的多源病例数据处理方法。
48.其中,存储器1至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、磁性存储器、磁盘、光盘等。存储器1在一些实施例中可以是ott视频业务监控系统的内部存储单元,例如硬盘。存储器1在另一些实施例中也可以是ott视频业务监控系统的外部存储设备,例如插接式硬盘,智能存储卡(smart media card, smc),安全数字(secure digital, sd)卡,闪存卡(flash card)等。进一步地,存储器1还可以既包括ott视频业务监控系统的内部存储单元也包括外部存储设备。存储器1不仅可以用于存储安装于ott视频业务监控系统的应用软件及各类数据,例如ott视频业务监控程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
49.处理器2在一些实施例中可以是一中央处理器(central processing unit, cpu)、控制器、微控制器、微处理器或其他多源病例数据处理芯片,用于运行存储器1中存储的程序代码或处理数据,例如执行ott视频业务监控程序等。
50.可以理解的是,本实施例提供的技术方案,以临床研究项目方案为依据,设计专属
的crf表格,为用户提供配置页面,便于用户自定义数据提取规则和数据转化规则,达到只筛选与项目相关的数据,跳过大量不相关数据的目的;配置专属转化规则,实现用户对系统数据处理规则的可配置化,对多数据源下的数据进行统一处理,使收集的真实世界数据能够成为或经处理后能够成为满足临床研究目的所需的分析数据。形成高质量数据,全程无需额外开发人员参与,有效提高识别率和转化率,流程清晰,操作简洁方便,节约大量人工成本。
51.本发明公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的多源病例数据处理方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
52.本发明公开实施例所提供的多源病例数据处理方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行上述方法实施例中所述的多源病例数据处理方法的步骤,具体可参见上述方法实施例,在此不再赘述。
53.本发明公开实施例还提供一种计算机程序,该计算机程序被处理器执行时实现前述实施例的任意一种方法。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(software development kit,sdk)等等。
54.可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
55.需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
56.流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
57.应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
58.本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
59.此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如
果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
60.上述提到的存储介质可以是只读存储器,磁盘或光盘等。
61.在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
62.尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1