基于大数据的药品通用名清洗方法及系统、服务器及介质与流程

文档序号:20683461发布日期:2020-05-08 18:37阅读:298来源:国知局
基于大数据的药品通用名清洗方法及系统、服务器及介质与流程

本发明涉及医疗大数据技术领域,尤其涉及一种基于大数据的药品通用名清洗方法及系统、服务器及介质。



背景技术:

如今不同药企的药品通用名由于地域性、习惯性差异,往往同种药品的名称不尽相同,想要跨药店分析药品的销售情况,对会员购药行为分析十分困难,对产品进行决策产生了巨大的阻碍。

目前通用做法是停留在投入大量人力方法上,将各个药店的药品名称进行综合排重,然后交给运营部门按照64大分类进行药品通用名的一一核实,对于名称产生歧义的,需要借助其药性、成分、厂家对比,同时借助百度百科相关资料,以及向专业的药师进行一一咨询,造成极大的人力物力时间成本浪费,无法达到药店合并带来的新增药品的数据清洗需求



技术实现要素:

有鉴于此,本发明实施例提供了一种基于大数据的药品通用名清洗方法及系统、服务器及介质,以能够自动实现新增的药企新数据分析。

本发明实施例的第一方面,提供了一种基于大数据的药品通用名清洗方法,包括如下步骤:

构建标准通用名数据库:利用网络爬虫技术爬取药品的通用名数据,并获取已清洗过的药品的通用名数据,将爬取的药品的通用名数据与已清洗过的药品的通用名数据合并排重、清洗以获得标准通用名数据,并将标准通用名数据导入标准通用名数据库;

对每一个新增的药企数据进行通用名清洗:将药企新增的通用名与标准通用名数据库中的标准通用名数据进行匹配,若满足匹配要求则入相应的数据库,并更新标准通用名数据库。

本发明实施例的第二方面,提供了一种基于大数据的药品通用名清洗系统,包括:

标准通用名数据库构建模块,其用于利用网络爬虫技术爬取药品的通用名数据,并获取已清洗过的药品的通用名数据,将爬取的药品的通用名数据与已清洗过的药品的通用名数据合并排重、清洗以获得标准通用名数据,并将标准通用名数据导入标准通用名数据库;

通用名清洗模块,其用于将药企新增的通用名与标准通用名数据库中的标准通用名数据进行匹配,若满足匹配要求则入相应的数据库,并更新标准通用名数据库。

本发明实施例的第三方面,提供了一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述基于大数据的药品通用名清洗方法的步骤。

本发明实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上所述基于大数据的药品通用名清洗方法的步骤。

本发明提供的基于大数据的药品通用名清洗方法及系统、服务器及介质,其通过构建标准通用名数据库,并将药企新增的通用名与标准通用名数据库中的标准通用名数据进行匹配,以实现自动化的对每一个新增的药企数据中的通用名进行清洗,其在保证准确率的基础上,减少了人力投入,降低了药品通用名清洗成本。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于大数据的药品通用名清洗方法的流程框图;

图2为本发明实施例提供的基于大数据的药品通用名清洗系统的结构框图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

如图1所示,本发明实施例提供的一种基于大数据的药品通用名清洗方法,包括如下步骤:

s1、构建标准通用名数据库:利用网络爬虫技术爬取药品的通用名数据,并获取已清洗过的药品的通用名数据,将爬取的药品的通用名数据与已清洗过的药品的通用名数据合并排重、清洗以获得标准通用名数据,并将标准通用名数据导入标准通用名数据库;

其中,采用网络爬虫技术selenium爬取药品的通用名数据一般为中国药品公开的通用名数据,一般大致为16万数据,而已清洗过的药品的通用名数据一般为目前大数据平台上已经清洗过的7万数据。其中,上述药品的通用名数据均至少包括该药品的字段国药准字、通用名、条形码、生产厂家。

获取上述通用名数据后,需要将上述两部分来源的数据进行合并排重、清洗,并能够得到大致约19万的数据,而该19万数据则可作为标准通用名数据。

s2、对每一个新增的药企数据进行通用名清洗:将药企新增的通用名与标准通用名数据库中的标准通用名数据进行匹配,若满足匹配要求则入相应的数据库,并更新标准通用名数据库。

具体来说,所述将药企新增的通用名与标准通用名数据库中的标准通用名数据进行匹配,若满足匹配要求则入相应的数据库,并更新标准通用名数据库,包括:

采用jieba结巴分析算法提取标准通用名数据中标准通用名的关键词以及药企新增的通用名的关键词,并进行匹配;

若药企新增的通用名匹配的标准通用名数据库中的标准通用名有且仅有一个,则药企新增的通用名入相应的数据库,并更新标准通用名数据库;

若药企新增的通用名匹配的标准通用名数据库中的标准通用名为多个,则按照国药准字进行精准匹配,其匹配方式可采用现有的常规方式,不作赘述,匹配完成后,则药企新增的通用名入相应的数据库,并更新标准通用名数据库;

若药企新增的通用名匹配的标准通用名数据库中的标准通用名为零个,则采用模糊匹配算法进行匹配,若匹配成功则入相应的数据库,并更新标准通用名数据库,否则作为噪音数据。

在实际应用中,一般85%左右的药企新增的通用名能够直接在标准通用名数据库中匹配到一个标准通用名,而这一部分药企新增的通用名可直接入相应的药企数据库,对于少量的匹配多个则采用国药准字进行精准匹配以入相应的药品数据库,而对于无法匹配到标准通用名数据库中的标准通用名的药企新增的通用名,则采用模糊算法进行匹配,具体如下:

根据levenshtein相似度模糊匹配算法和difflib模糊匹配算法对药企新增的通用名的字符串进行配合,并采用不同的权重判断二者匹配的概率,若概率大于设定值,则匹配成功。

上述两种模糊匹配算法均可匹配出药企新增的通用名与标准通用名对应的概率,而为了提高匹配的准确性,本实施例采用不同的权重判断二者匹配的概率,具体为所述levenshtein相似度模糊匹配算法的权重为0.7,所述difflib模糊匹配算法的权重为0.3,经过上述权重匹配后,若概率大于设定值,例如大于0.7,则可认为匹配成功,且匹配成功后则药企新增的通用名入其对应的药品数据库,并更新标准通用名数据库。

而对于匹配不成功的则作为噪音数据,为了避免遗漏,对噪音数据一般采用人工筛选处理,也即这一部分药企新增的通用名经由药师确认之后挑出部分准确通用名,并入相应的药企数据库、更新标准通用名数据库。

应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

本发明提供的基于大数据的药品通用名清洗方法及系统、服务器及介质,其通过构建标准通用名数据库,并将药企新增的通用名与标准通用名数据库中的标准通用名数据进行匹配,以实现自动化的对每一个新增的药企数据中的通用名进行清洗,其在保证准确率的基础上,减少了人力投入,降低了药品通用名清洗成本。且本实施例经过试验验证,其平均准确率高达92%以上。

上面主要描述了一种基于大数据的药品通用名清洗方法,下面将对一种基于大数据的药品通用名清洗系统进行详细描述。

图2示出了本发明实施例提供的基于大数据的药品通用名清洗系统的一个功能模块框图。如图2所示,所述基于大数据的药品通用名清洗系统包括:

标准通用名数据库构建模块10,其用于利用网络爬虫技术爬取药品的通用名数据,并获取已清洗过的药品的通用名数据,将爬取的药品的通用名数据与已清洗过的药品的通用名数据合并排重、清洗以获得标准通用名数据,并将标准通用名数据导入标准通用名数据库;

通用名清洗模块20,其用于将药企新增的通用名与标准通用名数据库中的标准通用名数据进行匹配,若满足匹配要求则入相应的数据库,并更新标准通用名数。

本实施例还提供一种服务器,所述服务器为提供计算服务的终端设备,通常指具有较高计算能力,通过网络提供给多个用户使用的计算机,本实施例的所述服务器包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于大数据的药品通用名清洗方法的步骤。

下面对终端设备的各个构成部件进行具体的介绍:

存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行终端的各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

在存储器上包含基于大数据的药品通用名清洗方法的可运行程序,所述可运行程序可以被分割成一个或多个模块/单元,所述一个或多个模块/单元被存储在所述存储器中,并由处理器执行,以完成通知的传递并获取通知实现过程,所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述服务器中的执行过程。例如,所述计算机程序可以被分割为标准通用名数据库构建模块、通用名清洗模块。

处理器是服务器的控制中心,利用各种接口和线路连接整个终端设备的各个部分,通过运行或执行存储在存储器内的软件程序和/或模块,以及调用存储在存储器内的数据,执行终端的各种功能和处理数据,从而对终端进行整体监控。可选的,处理器可包括一个或多个处理单元;优选的,处理器可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器中。

系统总线是用来连接计算机内部各功能部件,可以传送数据信息、地址信息、控制信息,其种类可以是例如pci总线、isa总线、vesa总线等。处理器的指令通过总线传递至存储器,存储器反馈数据给处理器,系统总线负责处理器与存储器之间的数据、指令交互。当然系统总线还可以接入其他设备,例如网络接口、显示设备等。

所述服务器应至少包括cpu、芯片组、内存、磁盘系统等,其他构成部件在此不再赘述。

在本发明实施例中,该终端所包括的处理器执行的可运行程序具体为:一种基于大数据的药品通用名清洗方法,包括如下步骤:

构建标准通用名数据库:利用网络爬虫技术爬取药品的通用名数据,并获取已清洗过的药品的通用名数据,将爬取的药品的通用名数据与已清洗过的药品的通用名数据合并排重、清洗以获得标准通用名数据,并将标准通用名数据导入标准通用名数据库;

对每一个新增的药企数据进行通用名清洗:将药企新增的通用名与标准通用名数据库中的标准通用名数据进行匹配,若满足匹配要求则入相应的数据库,并更新标准通用名数据库。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各实施例的模块、单元和/或方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1