数据处理方法、装置、计算机可读存储介质及设备与流程

文档序号:25724139发布日期:2021-07-02 21:09阅读:69来源:国知局
数据处理方法、装置、计算机可读存储介质及设备与流程

本发明涉及人图像处理技术领域,具体涉及一种数据处理方法、装置、计算机可读存储介质及设备。



背景技术:

问卷调查法是一种书面的调查方法,是以书面的方法调查研究的手法,被调查者填写关于问题的建议、意见,是一种获得资料信息的方法。

问卷调查法的作用是通过这样的一种问卷调查方式去了解使用这款产品的人数,产品的效果,需要作出什么改进。问卷调查法的作用是能够让生产者和消费者之间进行沟通,然后来了解消费者的需求,从而作出改进,让消费者更加满意。问卷调查法能够让被调查者填写问卷来搜集信息,作出分析和研究,进行数据统计,得到的结论反馈给厂家,让厂家改进产品,作出更优秀的产品。

在对问卷进行收集时,有些是通过将问卷图片上传至平台进行汇总,然而在上传图片时会存在重复上传的情况,这样就增加了数据的收集、统计、分析的工作量。



技术实现要素:

鉴于以上所述现有技术的缺点,本发明的目的在于提供一种数据处理方法、装置、计算机可读存储介质及设备,用于解决现有技术存在的问题。

为实现上述目的及其他相关目的,本发明提供一种数据处理方法,包括:

获取第一数据与第二数据;所述第一数据为上传的数据,所述第一数据包括第一承载数据和第一标识数据;所述第二数据为数据库中的数据,所述第二数据包括第二承载数据和第二标识数据;

计算所述第一承载数据与所述第二承载数据的相似度;

若所述第一承载数据与所述第二承载数据的相似度超过第一相似度阈值,则计算所述第一标识数据与所述第二标识数据的相似度;

根据所述第一标识数据与所述第二标识数据的相似度以及第二相似度阈值判断所述第一数据与所述第二数据是否是重复数据。

可选地,所述第一承载数据包括第一文本数据和第一图片数据,所述第二承载数据包括第二文本数据和第二图片数据。

可选地,所述计算所述第一承载数据与所述第二承载数据的相似度,包括:

获取所述第一文本数据与所述第二文本数据的第一相似度;

获取所述第一图片数据与所述第二图片数据的第二相似度;

基于所述第一相似度与所述第二相似度计算所述第一承载数据与所述第二承载数据的相似度。

可选地,所述获取所述第一文本数据与所述第二文本数据的第一相似度,包括:

从所述第一数据中提取所述第一文本数据,从所述第二数据中提取所述第二文本数据;

采用word2vec模型将所述第一文本数据转换为第一文本向量以及将所述第二文本数据转换为第二文本向量;

计算所述第一文本向量与所述第二文本向量的相似度,得到所述第一文本数据与所述第二文本数据的第一相似度。

可选地,所述获取所述第一图片数据与所述第二图片数据的第二相似度,包括:

获取所述第一图片数据的指纹信息与所述第二图片数据的指纹信息,其中所述指纹信息为哈希值;

根据所述第一图片数据的指纹信息与所述第二图片数据的指纹信息,计算所述第一图片数据与所述第二图片数据的相似度。

可选地,所述计算所述第一标识数据与所述第二标识数据的相似度,包括:

对所述第一标识数据与所述第二标识数据进行拆分,得到若干个标识段,所述第一数据的标识段与所述第二数据的标识段一一对应;

依次计算所述第一标识数据的标识段与对应的所述第二标识数据的标识段的相似度,得到若干个相似度值;

可选地,若每个相似度值均超过设定阈值,则认为第一标识数据与所述第二标识数据相同,即所述第一数据与所述第二数据为重复数据。

为实现上述目的及其他相关目的,本发明提供一种数据处理装置,包括:

数据获取模块,用于获取第一数据与第二数据;所述第一数据为上传的数据,所述第一数据包括第一承载数据和第一标识数据;所述第二数据为数据库中的数据,所述第二数据包括第二承载数据和第二标识数据;

第一相似度计算模块,用于计算所述第一承载数据与所述第二承载数据的相似度;

第二相似度计算模块,用于在所述第一承载数据与所述第二承载数据的相似度超过第一相似度阈值,则计算所述第一标识数据与所述第二标识数据的相似度;

比对模块,用于根据所述第一标识数据与所述第二标识数据的相似度以及第二相似度阈值判断所述第一数据与所述第二数据是否是重复数据。

为实现上述目的及其他相关目的,本发明提供一种数据处理设备,包括处理器,所述处理器和存储器耦合,所述存储器存储有程序指令,当所述存储器存储的程序指令被所述处理器执行所述的方法。

为实现上述目的及其他相关目的,本发明提供一种计算机可读存储介质,其特征在于,包括程序,当其在计算机上运行时,使得计算机执行所述的方法。

如上所述,本发明提供的一种数据处理方法、装置、计算机可读存储介质及设备,具有以下有益效果:

本发明的一种数据处理方法,包括:获取第一数据与第二数据;所述第一数据为上传的数据,所述第一数据包括第一承载数据和第一标识数据;所述第二数据为数据库中的数据,所述第二数据包括第二承载数据和第二标识数据;计算所述第一承载数据与所述第二承载数据的相似度;若所述第一承载数据与所述第二承载数据的相似度超过第一相似度阈值,则计算所述第一标识数据与所述第二标识数据的相似度;根据所述第一标识数据与所述第二标识数据的相似度以及第二相似度阈值判断所述第一数据与所述第二数据是否是重复数据。本发明方法实现数据内容的相似识别,实现了图片重复上传的监测,并获得准确率与效率的平衡。

附图说明

图1为本发明一实施例一种数据处理方法的流程图;

图2为本发明一实施例计算所述第一承载数据与所述第二承载数据的相似度的流程图;

图3为本发明一实施例获取所述第一文本数据与所述第二文本数据的第一相似度的流程图;

图4为本发明一实施例获取所述第一图片数据与所述第二图片数据的第二相似度的流程图;

图5为本发明一实施例计算所述第一标识数据与所述第二标识数据的相似度的流程图;

图6为本发明一实施例一种数据处理装置的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。

需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。

如图1所示,本申请实施例提供一种数据处理方法,包括:

s11获取第一数据与第二数据;所述第一数据为上传的数据,所述第一数据包括第一承载数据和第一标识数据;所述第二数据为数据库中的数据,所述第二数据包括第二承载数据和第二标识数据;

s12计算所述第一承载数据与所述第二承载数据的相似度;

s13若所述第一承载数据与所述第二承载数据的相似度超过第一相似度阈值,则计算所述第一标识数据与所述第二标识数据的相似度;

s14根据所述第一标识数据与所述第二标识数据的相似度以及第二相似度阈值判断所述第一数据与所述第二数据是否是重复数据。

本发明方法实现数据内容的相似识别,实现了图片重复上传的监测,并获得准确率与效率的平衡。

在一实施例中,第一数据可以是纸质的调查问卷转换成的能够在计算机设备中进行处理的数据,即所述问卷图片。在用户填写完调查问卷后,通过智能手机或其他能够进行图像采集的设备对调查问卷进行拍照,然后,将问卷图片上传到一平台,由平台进行后续处理。

或者通过扫描仪,将纸质调查问卷作为扫描对象,扫描后生成问卷图片,扫描终端扫描纸质调查问卷获得问卷图片后,会将问卷图片通过预先配置的网络通信配置信息,如ip地址、端口号等,发送到用于对问卷图片中的内容进行识别以及对识别出的内容进行统计的问卷处理设备,所述问卷处理设备是计算机。在上传到平台后,平台会记录上传数据的地址。

需要说明的是,在将纸质调查问卷转换为问卷图片时,需要保证得到的问卷图片的大小或分辨率大致相同,并且保证问卷图片中的文字、图像清晰。

在一实施例中,所述第一承载数据包括第一文本数据和第一图片数据,所述第二承载数据包括第二文本数据和第二图片数据。

在一实施例中,如图2所示,所述计算所述第一承载数据与所述第二承载数据的相似度,包括:

s21获取所述第一文本数据与所述第二文本数据的第一相似度;

s22获取所述第一图片数据与所述第二图片数据的第二相似度;

s23基于所述第一相似度与所述第二相似度计算所述第一承载数据与所述第二承载数据的相似度。

在一实施例中,如图3所示,所述获取所述第一文本数据与所述第二文本数据的第一相似度,包括:

s31从所述第一数据中提取所述第一文本数据,从所述第二数据中提取所述第二文本数据;

具体地,可以基于ocr技术提取上传的第一数据中的文本数据作为第一文本数据,基于ocr技术提取数据库中存在的数据的文本数据作为第二文本数据。

opticalcharacterrecognition,光学字符识别,指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。

s32采用word2vec模型将所述第一文本数据转换为第一文本向量以及将所述第二文本数据转换为第二文本向量;

word2vec,是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。

s33计算所述第一文本向量与所述第二文本向量的相似度,得到所述第一文本数据与所述第二文本数据的第一相似度。

具体地,对第一文本数据进行分词,然后经过word2vec模型得到由多个词向量组成的第一文本向量;对第二文本数据进行分词,然后经过word2vec模型得到由多个词向量组成的第二文本向量;计算第一文本向量与第二文本向量的相似度,作为第一相似度。

在一实施例中,如图4所示,所述获取所述第一图片数据与所述第二图片数据的第二相似度,包括:

s41获取所述第一图片数据的指纹信息与所述第二图片数据的指纹信息,其中所述指纹信息为哈希值;

s42根据所述第一图片数据的指纹信息与所述第二图片数据的指纹信息,计算所述第一图片数据与所述第二图片数据的相似度。

所述哈希值可以为通过不同的算法得到。例如,可以为均值哈希算法的哈希值、感知哈希算法的哈希值、差值哈希算法的哈希值中的一个;也可以通过两种或三种哈希算法得到的哈希值进行计算得到,例如,多种哈希算法得到的哈希值的平均值。其中,均值哈希算法的哈希值为第一哈希值,感知哈希算法的哈希值为第二哈希值,差值哈希算法的哈希值为第三哈希值;本实施例以平均值进行说明。

具体地,分别获取第一图片数据与第二图片数据的第一哈希值、第二哈希值、第三哈希值;

根据第一图片数据与第二图片数据的第一哈希值,计算第一图片数据与第二图片数据的第一相似度;

根据第一图片数据与第二图片数据的第二哈希值,计算第一图片数据与第二图片数据的第二相似度;

根据第一图片数据与第二图片数据的第三哈希值,计算第一图片数据与第二图片数据的第三相似度;

计算所述第一相似度、第二相似度、第三相似度的平均值,得到第一图片数据与第二图片数据的相似度。

在一实施例中,如图5所示,所述计算所述第一标识数据与所述第二标识数据的相似度,包括:

s51对所述第一标识数据与所述第二标识数据进行拆分,得到若干个标识段,所述第一数据的标识段与所述第二数据的标识段一一对应;

具体地,标识数据可以是数据的地址,数据在上传的时候,平台会记录下数据的地址数据。可以把第一标识数据的拆分为5个标识段。例如,第一标识数据为a,则可以把第一标识数据拆分为a1、a2、a3、a4、a5;

对第二标识数据的标识段与第一标识数据的标识地址段一一对应,即也是把第二标识数据拆分为5个标识段。例如,第二标识数据的标识为b,则可以把第二标识数据拆分为b1、b2、b3、b4、b5。则第一标识数据的标识段a1与第二标识数据的标识段b1相对应,第一标识数据的标识段a2与第二标识数据的标识段b2相对应,第一标识数据的标识段a3与第二标识数据的标识段b3相对应,第一标识数据的标识段a4与第二标识数据的标识段b4相对应,第一标识数据的标识段a5与第二标识数据的标识段b5相对应。

s52依次计算所述第一标识数据的标识段与对应的所述第二标识数据的标识段的相似度,得到若干个相似度值;

具体地,计算标识段a1与标识段b1的相似度值一,计算标识段a2与标识段b2的相似度值二,计算标识段a3与地标识b3的相似度值三,计算标识段a4与标识段b4的相似度值四,计算标识段a5与标识段b5的相似度值五。

在一实施例中,若每个相似度值均超过设定阈值,则认为第一标识数据与所述第二标识数据相同,即所述第一数据与所述第二数据为重复数据。即相似度值一至相似度值五均超过设定阈值,可以认为第一标识数据与第二标识数据相同,则可以进一步认为第一数据与第二数据相同,此时,存在重复上传的可能。

本说明书提供了如实施例或流程图的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。

如图6所示,本申请实施例提供一种数据处理装置,包括:

数据获取模块61,用于获取第一数据与第二数据;所述第一数据为上传的数据,所述第一数据包括第一承载数据和第一标识数据;所述第二数据为数据库中的数据,所述第二数据包括第二承载数据和第二标识数据;

第一相似度计算模块62,用于计算所述第一承载数据与所述第二承载数据的相似度;

第二相似度计算模块63,用于在所述第一承载数据与所述第二承载数据的相似度超过第一相似度阈值,则计算所述第一标识数据与所述第二标识数据的相似度;

比对模块64,用于根据所述第一标识数据与所述第二标识数据的相似度以及第二相似度阈值判断所述第一数据与所述第二数据是否是重复数据。

上述实施例中提供的系统可执行本发明任意实施例所提供的方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的一种数据处理方法。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、设备和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

需要说明的是,通过以上的实施方式的掐述,本领域的技术人员可以清楚地了解到本申请的部分或全部可借助软件并结合必需的通用硬件平台来实现。所述功能如果以软件功能单元的形式实现并作为独立地产品销售或使用时,还可以存储在一个计算机可读取存储介质中基于这样的理解,本发明实施例提供一种计算机可读存储介质,包括程序,当其在计算机上运行时,使得计算机执行如图1所示的方法。

本发明实施例提供一种数据处理设备,包括处理器,所述处理器和存储器耦合,所述存储器存储有程序指令,当所述存储器存储的程序指令被所述处理器执行时实现如图1所示的方法。

基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可包括其上存储有机器可执行指令的一个或多个机器可读介质,这些指令在由诸如计算机、计算机网络或其他电子设备等一个或多个机器执行时可使得该一个或多个机器根据本申请的实施例来执行操作。例如电力资源管理方法中的各步骤等。机器可读介质可包括,但不限于,软盘、光盘、cd-rom(紧致盘一只读存储器)、磁光盘、rom(只读存储器),ram(随机存取存储器),eprom(可擦除可编程只读存储器),eeprom(电可擦除可编程只读存储器)、磁卡或光卡、闪存或适于存储机器可执行指令的其他类型的介质/机器可读介质。其中,所述存储介质可位于本地服务器也可位于第三方服务器中,如位于第三方云服务平台中。在此对具体云服务平台不做限制,如阿里云、腾讯云等。本申请可用于众多通用或专用的计算系统环境或配置中。例如:被配置为分布式系统中一个节点的个人计算机、专用服务器计算机、大型计算机等。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统、设备和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1