专利名称:比较并选择数据净化服务提供者的制作方法
技术领域:
本发明涉及数据净化,尤其涉及比较并选择数据净化服务提供者。
技术背景
1.背景和相关技术
计算机系统和相关技术影响社会的许多方面。的确,计算机系统处理信息的能力已转变了人们生活和工作的方式。计算机系统现在通常执行在计算机系统出现以前手动执行的许多任务(例如,文字处理、日程安排和会计等)。最近,计算机系统彼此耦合并耦合到其他电子设备,以形成计算机系统和其他电子设备可以在其上传输电子数据的有线和无线计算机网络。因此,许多计算任务的执行跨多个不同的计算机系统和/或多个不同的计算环境分布。
在一些计算环境中,各种不同类型的数据被存储在数据库中并从数据库中访问。 一些数据库存储指定类型的数据,诸如,例如,客户地址、员工信息等。通常,数据是手动输入数据库的。手动数据输入易造成人为错误。此外,许多错误一旦输入就变得实际上无法检测到,因为一旦数据被输入,与数据的进一步人为交互如果有也很少。此外,一些错误,诸如,电话号码中多余数字,难以被标识。其他数据不一致性可能由不同存储中的相似条目的不同数据字典定义、或由传输和/或存储错误所导致。因此,数据库可能随时间积累了各种数据错误和不一致性。
管理地,不正确或不一致数据可导致在公共和私人范围上的错误的结论和方向错误的投资。例如,政府可能希望分析人口普查图来决定哪些区域需要在基础设施和服务上进一步花费和投资。在此情况中,访问可靠数据避免错误的财政决定将是重要的。
在商业世界,不正确的数据可能是代价昂贵的。许多公司使用客户信息数据库,其中记录了诸如联系信息、地址,和偏好的数据。如果例如,地址不一致,公司将付出重发邮件甚至丢失客户的代价。
因此,有时,数据库管理者可“净化”或“擦洗”数据。数据净化或数据擦洗包括,从记录集、表,或数据库检测和纠正(或移除)破坏的或不准确的记录。常常被用于数据库, 数据净化或擦洗可标识不完整的、不正确的、不准确的、不相关的等数据部分,并随后替换、 修改,或删除这些“脏”数据。在净化之后,数据集与其他类似数据集一致(至少更一致)。
数据净化的实际过程可涉及移除打字错误或相对于已知条目列表确认并纠正值。 确认可能是严格的(诸如拒绝不具有有效邮政编码的任何地址)或模糊的(诸如纠正与现存已知的记录部分地匹配的记录)。
已知条目的列表可由配置用于净化指定类型数据的数据净化服务提供者提供。例如,数据净化服务可被配置为净化美国的邮政地址或电话号码。对于一些类型的数据,可存在多个(潜在大量)不同数据净化服务提供者。然而,来自不同数据净化服务提供者的结果的充分性可能显著变化。评估多个不同数据净化服务提供者以标识对于指定类型数据的 “最佳”数据净化服务可能是手动的且劳动密集的过程。发明内容
本发明涉及用于比较并选择数据净化服务提供者的方法、系统和计算机程序产品。在一些实施例中,标识用于净化的参考数据服务提供者。样本数据源被映射到所选数据域。数据域与具有指定数据安排的数据元素相关联。样本数据源具有已知的数据不一致性。
多个参考数据服务提供者的列表配置用于净化在所选数据域中的数据的数据元素。接收要对被探查的多个参考数据服务提供者的子集的选择。样本数据源被提交给参考数据服务提供者的子集中的每个参考数据服务提供者。从参考数据服务提供者的子集中的每个参考数据服务提供者接收回净化样本数据源的结果。对于每个参考数据服务提供者, 该结果包括从样本数据源获取的所谓已净化了的样本数据源。
来自多个参考数据服务提供者的子集中的每个参考数据服务提供者的结果被剖析。剖析包括确定每个参考数据服务提供者如何处理样本数据源中的已知数据不一致性。 在显示设备上显示多个参考数据服务提供者的子集间的比较。所显示的比较基于所剖析的结果。从所显示的比较接收对参考数据服务提供者的用户选择。将所选参考数据服务提供者指示为适合净化数据域中的进一步的数据。
提供本发明内容以便以简化的形式介绍将在以下的具体实施方式
中进一步描述的一些发明内容。本发明内容并不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
本发明的附加特征和优点将在以下描述中叙述,且其一部分根据本描述将是显而易见的,或可通过对本发明的实践来获知。本发明的特征和优点可通过在所附权利要求书中特别指出的工具和组合来实现和获得。本发明的这些和其他特征将通过以下描述和所附权利要求书变得更加显而易见,或可通过对下文中所述的本发明的实践来领会。
为了描述可获得本发明的上述和其他优点和特征的方式,将通过参考附图中示出的本发明的具体实施例来呈现以上简要描述的本发明的更具体描述。可以理解,这些附图仅描述本发明的典型实施例,从而不被认为是对其范围的限制,本发明将通过使用附图用附加特征和细节来描述和说明,在附图中
图1示出了便于比较和选择数据净化服务提供者的示例计算机体系结构。
图2示出了用于标识用于净化数据的数据净化服务提供者的示例方法的流程图。
具体实施方式
本发明涉及用于比较并选择数据净化服务提供者的方法、系统和计算机程序产品。在一些实施例中,标识用于净化的参考数据服务提供者。样本数据源被映射到所选数据域。数据域与具有指定数据安排的数据元素相关联。样本数据源具有已知的数据不一致性。
多个参考数据服务提供者的列表配置用于净化在所选数据域中的数据的数据元素。接收对要被探查的多个参考数据服务提供者的子集的选择。样本数据源被提交给参考数据服务提供者的子集中的每个参考数据服务提供者。从参考数据服务提供者的子集中的每个参考数据服务提供者接收回净化样本数据源的结果。对于每个参考数据服务提供者, 该结果包括从样本数据源获取的所谓已净化了的样本数据源。
来自多个参考数据服务提供者的子集中的每个参考数据服务提供者的结果被剖析。剖析包括确定每个参考数据服务提供者如何处理样本数据源中的已知数据不一致性。 在显示设备上显示多个参考数据服务提供者的子集间的比较。所显示的比较基于所剖析的结果。从所显示的比较接收对参考数据服务提供者的用户选择。将所选参考数据服务提供者指示为适合净化数据域中的进一步的数据。
本发明的各实施例可包括或利用专用或通用计算机,该专用或通用计算机包括诸如例如一个或多个处理器和系统存储器等计算机硬件,如以下更详细讨论的。本发明范围内的各实施例还包括用于携带或存储计算机可执行指令和/或数据结构的物理介质和其他计算机可读介质。这些计算机可读介质可以是通用或专用计算机系统能够访问的任何可用介质。存储计算机可执行指令的计算机可读介质是计算机存储介质(设备)。携带计算机可执行指令的计算机可读介质是传输介质。由此,作为示例而非限制,本发明的各实施例可包括至少两种完全不同类型的计算机可读介质计算机存储介质(设备)和传输介质。
计算机存储介质(设备)包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储或其他磁存储设备、或可用于存储计算机可执行指令或数据结构形式的所需程序代码装置的且可由通用或专用计算机访问的任何其他介质。
“网络”被定义为允许在计算机系统和/或模块和/或其他电子设备之间传输电子数据的一个或多个数据链接。当信息通过网络或另一个通信连接(硬连线、无线、或者硬连线或无线的组合)传输或提供给计算机时,该计算机将该连接适当地视为传输介质。传输介质可包括可用于携带计算机可执行指令或数据结构形式的所需程序代码装置且可由通用或专用计算机访问的网络和/或数据链接。上述的组合也应被包括在计算机可读介质的范围内。
此外,在到达各种计算机系统组件之后,计算机可执行指令或数据结构形式的程序代码装置可从传输介质自动传输到计算机存储介质(设备)(或反之亦然)。例如,通过网络或数据链接接收到的计算机可执行指令或数据结构可被缓存在网络接口模块(例如, “NIC”)内的RAM中,然后最终被传输到计算机系统RAM和/或计算机系统处的较不易失性的计算机存储介质(设备)。因而,应当理解,计算机存储介质(设备)可被包括在还利用 (甚至主要利用)传输介质的计算机系统组件中。
计算机可执行指令例如包括,当在处理器处执行时使通用计算机、专用计算机、或专用处理设备执行某一功能或某组功能的指令和数据。计算机可执行指令可以是例如二进制代码、诸如汇编语言之类的中间格式指令、或甚至源代码。尽管用结构特征和/或方法动作专用的语言描述了本主题,但可以理解,所附权利要求书中定义的主题不必限于上述特征或动作。相反,上述特征和动作是作为实现权利要求的示例形式而公开的。
本领域的技术人员将理解,本发明可以在具有许多类型的计算机系统配置的网络计算环境中实践,这些计算机系统配置包括个人计算机、台式计算机、膝上型计算机、消息处理器、手持式设备、多处理器系统、基于微处理器的或可编程消费电子设备、网络PC、小型计算机、大型计算机、移动电话、PDA、寻呼机、路由器、交换机等等。本发明也可在其中通过网络链接(或者通过硬连线数据链接、无线数据链接,或者通过硬连线和无线数据链接的组合)的本地和远程计算机系统两者都执行任务的分布式系统环境中实施。在分布式系统环境中,程序模块可位于本地和远程存储器存储设备中。
图1示出了便于比较和选择数据净化服务提供者的示例计算机体系结构100。参考图1,计算机体系结构100包括计算机系统102和数据质量服务器103。数据质量服务器 103还包括域映射器104、服务提供者选择模块106、服务提供者查询模块107,以及结果剖析器108。所描绘的计算机系统和组件中的每一个可通过诸如例如局域网(“LAN”)、广域网(“WAN”)或甚至因特网等网络(或作为网络的一部分)彼此连接。因此,所描绘的计算机系统及组件中的每一个以及任何其他连接的计算机系统及它们的组件都可以创建消息相关数据并通过网络交换消息相关数据(例如,网际协议(“IP”)数据报和利用IP数据报的其他更高层协议,诸如传输控制协议(“TCP”)、超文本传输协议(“HTTP”)、简单邮件传输协议(“SMTP”)等)。
如所描绘的,源数据121可被大约存储在某些类型的数据储存库中,诸如,例如, 文件、表格、数据库等。源数据121可以是指定类型的数据,诸如例如,客户数据、员工数据、 邮寄地址数据、电话号码数据、数学计算、统计数据、公司数据、财务数据、经济数据、地理数据等。
通常,数据质量服务器103帮助用户102探查不同参考数据服务提供者并比较数据质量结果。样本数据可被净化并针对不同参考服务提供者剖析,以提高质量。
域映射器104配置以接收样本数据源并将样本数据源映射到数据域。域映射器 104具有对定义各种不同数据域(诸如,例如数据域112A、112B、112C等)的数据的访问。 每个数据域可以对应于一种类型的数据,诸如例如,客户数据、员工数据、邮寄地址数据、电话号码数据、数学计算、统计数据、公司数据、财务数据、经济数据、地理数据等。数据域也可以是对特定国家、区域、主题,或分类专用的。例如,美国邮寄地址的数据域可不同于英国邮寄地址的数据域。
在接收样本数据源后,域映射器104可将所接收到的样本数据源中数据元素的安排和/或格式与定义每个不同数据域的数据进行比较。在数据元素的安排和/或格式类似 (或匹配)于定义特定数据域的数据时,可为样本数据源选择该数据域。
服务提供者选择模块106配置用于接收数据域的指示,并标识为该数据域净化数据的数据净化服务提供者的列表。服务提供者选择模块106可参考服务提供者数据库113。 服务提供者数据库113可为不同数据域维护数据净化服务提供者的列表。服务提供者选择模块106可将数据域与服务提供者数据库113中为该数据域净化数据的多个数据净化服务提供者进行匹配。服务提供者选择模块106可向计算机系统102返回多个数据净化(例如, 在显示设备上)供用户102查看。
服务提供者查询模块107配置用于接收对一个或多个数据净化服务提供者的用户选择。响应于用户选择,服务提供者查询模块107将样本数据源提交给一个或多个数据净化服务提供者的每一个。
来自一个或多个数据净化服务提供者的每一个的净化结果被返回到结果剖析器 108。结果剖析器108剖析净化结果。剖析可包括确定每个数据净化服务提供者如何解决样本数据源中的已知数据不一致性。结果剖析器108可生成服务提供者比较,以(例如,在显示设备上)呈现给用户。
图2示出了用于标识用于净化数据的数据净化服务提供者的示例方法200的流程图。方法200将参考计算机体系结构100的组件和数据来描述。
用户101是计算机系统102的用户。用户101渴望寻找服务提供者以净化源数据 121。因此,计算机102(按用户101的指令)可将数据样本111提交给数据质量服务器103。 数据样本111可以是源数据121的有代表性的部分或类似地格式化了的其他数据。样本数据111可包括已知数据不一致性(例如,不完整数据、不正确数据、不准确数据、不相关数据寸J ο
方法200包括将样本数据源映射到所选数据域的动作,该数据域与具有指定的数据安排的数据元素相关联,样本数据源具有已知的数据不一致性(动作201)。例如,域映射器104可接收数据样本111。域映射器104基于数据样本111中的数据元素的安排和内容, 可为数据样本111标识合适的(例如,最接近地匹配的)数据域。例如,域映射器104可将数据样本111映射到数据域1KB。
方法200包括提供配置用于净化所选数据域中的数据的多个参考数据服务提供者的列表的动作(动作20 。例如,域映射器104可将数据域112B发送到服务提供者选择模块106。服务提供者选择模块106可参考服务提供者数据库113,来获取配置用于为数据域112B净化数据的多个数据净化服务提供者的列表。服务提供者选择模块106可将该多个数据净化服务提供者的列表包括在服务提供者列表114中。服务提供者选择模块106可将服务提供者列表114发送到计算机系统102。
计算机系统102可接收服务提供者列表114。计算机系统102可将服务提供者列表114在显示设备上显示给用户102。使用输入装置,用户101可选择一个或多个(可能全部)包括在服务提供者列表114中的数据净化服务提供者,用于基于数据样本111的探查。例如,用户102可从服务提供者列表114中选择服务提供者109A、109B,和109C。计算机102(按用户101的指导)可将服务提供者选择发送回数据质量服务器103。例如,计算机102可将服务提供者选择116发送到数据质量服务器103。服务提供者选择116可标识服务提供者109A、109B,和109C用于探查。
方法200包括接收对要被探查的多个参考数据服务提供者的子集的选择的动作 (动作20 。例如,服务提供者查询模块107可接收服务提供者选择116。
对于多个参考数据服务提供者的子集中的每个参考数据服务提供者,方法200包括将样本数据源提交给参考数据服务提供者的动作(动作204)。例如,服务提供者查询模块可将数据样本111提交给服务提供者109A、109B,和109C的每一个。
对于多个参考数据服务提供者的子集中的每个参考数据服务提供者,方法200包括从参考数据服务提供者接收回净化样本数据源的结果的动作,该结果包括从样本数据源获取的所谓已净化的样本数据源(动作205)。例如,结果剖析器108可从服务提供者109A、 109B,和109C分别接收净化结果117A、117B,和117C。每个净化结果117A、117B,和117C可包括从数据样本111获取的所谓已净化了的数据样本。
方法200包括剖析来自多个参考数据服务提供者的子集中的每个参考数据服务提供者的结果的动作,包括确定每个参考数据服务提供者如何处理样本数据源中的已知数据不一致性(动作206)。例如,结果剖析器108可剖析净化结果117A、117B,和117C的每一个。从结果117A、117B,和117C,结果剖析器108可确定服务提供者109A、109B,和109C 的每一个如何分别处理数据样本111中的已知数据不一致性。
剖析净化结果可包括以下各项中的一个或多个标识净化结果中的假否定(未解决的不一致性),标识净化结果中的假肯定(对一致数据的改变),并确定是否包括补充的丰富数据(例如地理编码数据)。
从已剖析的结果,结果剖析器108可为每个数据净化服务提供者生成服务质量值。例如,结果剖析器108可从剖析的结果117A、117B,和117C为每个服务提供者109A、 109B,和109C分别生成服务质量值。服务质量值提供服务提供者净化数据样本111有多好的总体评级。
结果剖析器108可在服务提供者比较118中包括每个服务提供者109A、109B,和 109C的服务质量值和可能的其他剖析数据。结果剖析器108可将服务提供者比较118发送到计算机系统102。
方法200包括将多个参考数据服务提供者的子集间的比较显示在显示设备上的动作,所显示的比较基于剖析结果(动作207)。例如,计算机系统102可将服务提供者比较 118在显示设备上显示给用户101。
方法200包括从所显示的比较接收用户对参考数据服务提供者的选择的动作,所选参考数据服务提供者被指示为适合净化数据域中的进一步的数据(动作208)。例如,计算机系统102可以从用户102接收服务提供者选择119。服务提供者选择119可指示服务提供者109C被选来净化源数据121。
响应于服务提供者选择119或在某些其他时间,计算机系统102可将源数据121 提交给服务提供者109C。服务提供者109C可净化源数据121以生成已净化数据122。服务提供者109C可返回已净化数据122。已净化数据123可被合并回源数据121中。
因此,本发明的实施例允许用户探查不同的数据净化服务提供者,并以提高了的自动化来比较来自不同的数据净化服务提供者的质量结果。本发明可具体化为其它具体形式而不背离其精神或本质特征。所描述的实施例在所有方面都应被认为仅是说明性而非限制性的。因此,本发明的范围由所附权利要求书而非前述描述指示。落入权利要求书的等效方案的含义和范围内的所有改变被权利要求书的范围所涵盖。
权利要求
1.在包括一个或多个处理器、系统存储器,和显示设备的计算机系统处,一种用于标识用于净化数据的参考数据服务提供者的方法,所述计算机系统还包括数据质量模块,所述方法包括将样本数据源(111)映射到所选数据域(112B)的动作,所述数据域(112B)与具有指定的数据安排的数据元素相关联,所述样本数据源具有已知的数据不一致性;提供配置用于净化所述所选数据域(112B)中的数据的多个参考数据服务提供者的列表(114)的动作;接收对要被探查的多个参考数据服务提供者(109A,109B,109C)的子集的选择(116) 的动作;对于所述多个数据服务提供者(109A,109B,109C)的所述子集中的每个参考数据服务提供者将所述样本数据源(111)提交给参考数据服务提供者(109A,109B, 109C)的动作;以及从所述参考数据服务提供者(109A,109B,109C)接收回净化所述样本数据(111)源的结果(117A,117B,117C)的动作,所述结果(117A,117B,117C)包括从所述样本数据源获取所谓已净化了的样本数据源;剖析(117A,117B,117C)来自所述多个参考数据服务提供者(109A,109B,109C)的所述子集中的每个参考数据服务提供者的结果的动作,包括确定每个参考数据服务提供者如何处理所述样本数据源中的已知数据不一致性;将所述多个参考数据服务提供者的所述子集间的比较(118)显示在显示设备上的动作,所显示的比较(118)基于剖析结果;以及从所显示的比较接收对参考数据服务提供者的用户选择(119)的动作,所选参考数据服务提供者被指示为适合净化所述数据域中的进一步的数据。
2.如权利要求1所述的方法,其特征在于,将样本数据源映射到所选数据域的动作包括映射到从以下选出的数据域的动作客户数据、员工数据、邮寄地址数据、电话号码数据、 数学计算、统计数据、公司数据、财务数据、经济数据,和地理数据。
3.如权利要求1所述的方法,其特征在于,将样本数据源映射到所选数据域的动作包括映射到对特定国家、区域、主题,或分类专用的数据域的动作。
4.如权利要求1所述的方法,其特征在于,提供配置用于净化所述所选数据域中的数据的多个参考数据服务提供者的列表的动作,包括提供配置用于净化从以下选出的所选数据域中的数据的多个参考数据服务提供者的列表的动作客户数据、员工数据、邮寄地址数据、电话号码数据、数学计算、统计数据、公司数据、财务数据、经济数据,和地理数据。
5.如权利要求1所述的方法,其特征在于,剖析来自所述多个服务提供者的所述子集中的每个参考数据服务提供者的结果的动作,包括确定来自所述每个参考数据服务提供者的假否定的数量的动作。
6.如权利要求1所述的方法,其特征在于,剖析来自所述多个服务提供者的所述子集中的每个参考数据服务提供者的结果的动作,包括确定来自所述每个参考数据服务提供者的假肯定的数量的动作。
7.如权利要求1所述的方法,其特征在于,剖析来自所述多个参考数据服务提供者的所述子集中的每个参考数据服务提供者的结果的动作,包括确定所述参考数据服务提供者的任何一个是否用其他数据丰富了所述结果的动作。
8.一种供在计算机处使用的计算机程序产品,所述计算机系统包括数据质量模块,所述计算机程序产品用于实现一种用于标识用于净化数据的参考数据服务提供者的方法,所述计算机程序产品包括其上存储有计算机可执行指令的一个或多个计算机存储设备,所述指令在处理器处执行时,使得所述计算机系统执行所述方法,包括以下将样本数据源(111)映射到所选数据域(U2B),所述数据域(112B)与具有指定的数据安排的数据元素相关联,所述样本数据源具有已知的数据不一致性;提供配置用于净化所述所选数据域(112B)中的数据的多个参考数据服务提供者的列表(114);接收对要被探查的多个参考数据服务提供者(109A,109B,109C)的子集的选择(116);对于所述多个数据服务提供者(109A,109B,109C)的所述子集中的每个参考数据服务提供者将所述样本数据源(111)提交给所述参考数据服务提供者(109A,109B,109C);以及从所述参考数据服务提供者(109A,109B,109C)接收回净化所述样本数据(111)源的结果(117A,117B,117C),所述结果(117A,117B,117C)包括从所述样本数据源获取所谓已净化了的样本数据源;剖析(117A,117B,117C)来自所述多个参考数据服务提供者(109A,109B,109C)的所述子集中的每个参考数据服务提供者的结果,包括确定每个参考数据服务提供者如何处理所述样本数据源中的已知数据不一致性;将所述多个参考数据服务提供者的所述子集间的比较(118)显示在显示设备上,所显示的比较(118)基于剖析结果;以及从所显示的比较接收对参考数据服务提供者的用户选择(119),所选参考数据服务提供者被指示为适合净化所述数据域中的进一步的数据。
9.如权利要求8所述的计算机程序产品,其特征在于,在被执行时使得所述计算机系统将样本数据源映射到所选数据域的计算机可执行指令包括,在被执行时使得所述计算机系统映射到选自以下的数据域的计算机可执行指令客户数据、员工数据、邮寄地址数据、 电话号码数据、数学计算、统计数据、公司数据、财务数据、经济数据,和地理数据。
10.如权利要求8所述的计算机程序产品,其特征在于,在被执行时使得所述计算机系统将样本数据源映射到所选数据域的计算机可执行指令包括,在被执行时使得所述计算机系统映射到对特定国家、区域、主题,或分类专用的数据域的计算机可执行指令。
11.如权利要求8所述的计算机程序产品,其特征在于,在被执行时使得所述计算机系统提供配置用于净化所述所选数据域中的数据的多个参考数据服务提供者的列表的计算机可执行指令包括,在被执行时使得所述计算机系统提供配置用于净化所选数据域中的数据的多个参考数据服务提供者的列表的计算机可执行指令,所述数据域选自以下客户数据、员工数据、邮寄地址数据、电话号码数据、数学计算、统计数据、公司数据、财务数据、经济数据,和地理数据。
12.如权利要求8所述的计算机程序产品,其特征在于,在被执行时使得所述计算机系统剖析来自所述多个参考数据服务提供者的所述子集中的每个参考数据服务提供者的结果的计算机可执行指令包括,在被执行时使得所述计算机系统确定来自所述每个参考数据服务提供者的假否定的数量的计算机可执行指令。
13.如权利要求8所述的计算机程序产品,其特征在于,在被执行时使得所述计算机系统剖析来自所述多个参考数据服务提供者的所述子集中的每个参考数据服务提供者的结果的计算机可执行指令包括,在被执行时使得所述计算机系统确定来自所述每个参考数据数据服务提供者的假肯定的数量的计算机可执行指令。
14.如权利要求8所述的计算机程序产品,其特征在于,在被执行时使得所述计算机系统剖析来自所述多个参考数据服务提供者的所述子集中的每个参考数据服务提供者的结果的计算机可执行指令包括,在被执行时使得所述计算机系统确定所述参考数据服务提供者的任何一个是否用其他数据丰富了所述结果的计算机可执行指令。
15.一种数据净化系统,所述数据净化系统包括用户计算机系统(102),所述用户计算机系统(102)包括一个或多个处理器和系统存储器;多个参考数据服务提供者(109A,109B,109C),每个数据净化服务提供者(109A,109B, 109C)配置用于净化指定数据域(112A,112B,112C)中的数据;以及数据净化服务器(103),所述数据净化服务器包括 一个或多个处理器; 系统存储器;以及一个或更多个其上存储有计算机可执行指令的计算机存储设备,代表域映射(104)、服务提供者选择模块(106)、服务提供者查询模块(107),以及结果剖析器(108),其中所述域映射器(104)配置用于从所述用户计算机系统(10 接收样本数据源(111);将所述样本数据源(111)映射到所选数据域(112B),所述数据域(112B)与具有指定的数据安排的数据元素相关联,所述样本数据源具有已知的数据不一致性;以及将所选数据域(112B)发送到所述服务提供者选择模块(106); 其中所述服务提供者选择模块(106)配置用于 从所述域映射器(104)接收所述所选数据域(112);参考服务提供者数据库(113),以从被配置来净化所述所选数据域(112B)中的数据的多个数据净化服务提供者中标识参考数据服务提供者列表;将所述参考数据服务提供者列表(114)提供给所述用户计算机系统(102); 其中所述服务提供者查询模块(107)配置用于 从所述用户计算机系统接收样本数据源(111);从所述参考数据服务提供者列表(114)接收参考数据服务提供者(109A,109B,109C) 的子集的选择,参考数据服务提供者(109A,109B,109C)的所选子集标识要被探查的参考数据服务提供者;对于参考数据服务提供者(109A,109B,109C)的子集中的每个参考数据服务提供者, 将所述样本数据源提交给所述参考数据服务提供者(109A,109B, 109C); 其中所述结果剖析器被配置成对于参考数据服务提供者(109A,109B,109C)的子集中的每个参考数据服务提供者, 从所述参考数据服务提供者(109A,109B,109C)接收回净化所述样本数据源(111)的结果(117A,117B, 117C),所述结果包括从所述样本数据源获取的所谓已净化了的样本数据源;剖析来自所述参考数据服务提供者(109A,109B,109C)的所述子集中的每个参考数据服务提供者的结果,包括确定每个服务提供者如何处理所述样本数据源(111)中的已知数据不一致性;基于所剖析的结果,生成参考数据服务提供者的子集间的比较(118);以及将所述比较(118)发送到所述用户计算机系统(102)。
全文摘要
本发明揭示了比较并选择数据净化服务提供者。本发明涉及用于探查并选择数据净化服务提供者的方法、系统和计算机程序产品。本发明的实施例允许用户探查不同的数据净化服务提供者,并比较来自不同的数据净化服务提供者的质量结果。样本数据被映射到指定数据域。向用户提供用于为所选数据域净化数据的服务提供者列表。用户选择服务提供者子集。样本数据被提交给服务提供者子集,该服务提供者子集返回包括所谓已净化了的数据的结果。剖析结果,并将服务提供者子集的比较呈现给用户。当净化进一步的数据时,用户选择一个服务提供者来使用。
文档编号G06F17/30GK102521226SQ20111030776
公开日2012年6月27日 申请日期2011年9月28日 优先权日2010年9月29日
发明者E·胡迪斯, E·齐克利克, G·皮莱格, N·哈比 申请人:微软公司