对数据的自动识别和洞察的制作方法

文档序号:25584077发布日期:2021-06-22 16:44阅读:122来源:国知局
对数据的自动识别和洞察的制作方法

本申请是申请日为2014年7月31日、申请号为201480043733.1的发明专利申请“对数据的自动识别和洞察”的分案申请。



背景技术:

随着计算技术的快速发展,对各种类型和形式的数据的分析、处理和可视化已经变成了日常事务的主要的部分,甚至是很多人个人生活的主要的部分。从诸如销售、市场调查之类的商业数据到学校中学生表现数据,来自各种背景和技能水平的人查看、处理并努力理解日益增长量的数据。

数据分析和查看的典型方案包括用户查看包含各种维度的数据的电子表格,试图通过公式或图表来分析,通常通过手动配置来设置。甚至为了达到一定水平的自动化,用户通常不得不在数据面前对数据有大概理解,选择部分数据(总体数据内的数据集),选择适当的分析工具(例如,趋势公式、图表参数等)。对于少量的数据,这可能不是困难的任务,但是少量的数据也提供对总体情节的较不精确的概括。当期望有更精确的结果或者可用数据量很大时,普通的、基于手动配置的工具在最好的情况下不够好,在最坏的情况下不可用。

此外,数据集的大小通常在用户直接控制下不成问题。除非用户手工制作数据,否则用户可能从另一源获得数据。很多数据源,尤其是更加结构化的源(例如,数据库、来自政府的公共可获得的数据集等),可能足够大而使得在没有正确的工具和适当的技能的情况下很难进行手动分析。



技术实现要素:

提供该发明内容以便以下文在具体实施方式中进一步描述的简化形式来引入精选的概念。该发明内容不旨在排他地标识出权利要求主题的关键特征或主要特征,也不旨在作为确定权利要求主题的范围的辅助。

实施例涉及各种类型数据的自动识别和洞察呈现。在一些示例中,总体数据可以被分析,并且在总体数据内的整个范围内的数据集被确定,以便于推导用户数据的位置。用户的数据集然后可以经过各种分析,诸如统计、启发和类似的分析,以确定诸如趋势、相关性、离群值、比较和模式之类的洞察。洞察可以采用以下形式呈现给用户:自动优化可视化(高亮显示所确定的洞察),在所呈现的原始数据上强调、数据格式化建议、以及类似的具有进一步探索能力的形式。

根据对下面具体实施方式的阅读以及对相关附图的浏览,这些以及其它的特征和优点将变得显而易见。应当理解,前面的概述和下面的具体实施方式二者都是说明性的,且不限制要求保护的方面。

附图说明

图1是示出了根据一些实施例的数据分析和洞察呈现的示例性实现方式的概念图;

图2示出了在电子表格环境中自动识别和洞察呈现的实现方式;

图3示出了基于自动识别和洞察确定将示例性基于图表的数据呈现为表格数据的呈现;

图4示出了根据一些实施例的自动识别和洞察呈现的流程的框图;

图5是其中可以实现根据实施例的系统的简化的网络环境;

图6是其中可以实现实施例的示例性计算操作环境的框图;以及

图7示出了根据实施例的提供自动识别和洞察呈现的过程的逻辑流程图。

具体实施方式

如上面简要概述,可以分析可用的数据来推导用户数据的位置。用户的数据然后可以经过各种分析以确定诸如趋势、相关性、离群值、比较和模式之类的洞察(insight)。洞察可以按如下形式呈现给用户:自动优化可视化、在呈现的原始数据上强调、数据格式化建议、以及类似的形式。

在下面的具体实施方式中,参考了附图,附图构成具体实施方式的一部分,并且在附图中通过示例说明的方式示出了特定实施例或示例。这些方面可以组合,可以使用其它方面,可以进行结构改变,而不偏离本公开的精神或范围。因此,下面的具体实施方式不应从限制的意义上考量,且本发明的范围由随附的权利要求及其等价物来限定。

虽然在结合在计算设备上的操作系统上运行的应用程序执行的程序模块的通常上下文中描述实施例,但是本领域技术人员将认识到各方面可以结合其它程序模块来实现。

一般地,程序模块包括例程、程序、组件、数据结构以及执行特定任务或实现特定抽象数据类型的其它类型的结构。而且,本领域技术人员将意识到,实施例可以利用包括手持式设备、微处理器系统、基于微处理器或可编程消费电子设备、小型计算机、大型计算机、以及类似的计算设备在内的其它计算机系统配置来实践。实施例还可以在通过通信网络链接的远程处理设备来执行任务的分布式计算环境中来实践。在分布式计算环境中,程序模块可以位于本地存储器存储设备或远程存储器存储设备二者中。此外,实施例可以实现在能够进行除了键盘和鼠标输入之外的触摸、姿势、眼睛跟踪、语音命令、陀螺仪、笔、以及类似的交互机制的计算设备中。

实施例可以被实现为计算机实现的过程(方法)、计算系统,或者实现为制品,诸如计算机程序产品或计算机可读介质。计算机程序产品可以是能够由计算机系统来读取的、并且对包括用于使计算机或计算系统执行示例过程的指令的计算机程序进行编码的计算机存储介质。计算机可读存储介质是计算机可读存储器设备。计算机可读存储介质可以例如经由易失性计算机存储器、非易失性存储器、硬盘驱动器或闪速驱动器中的一种或多种来实现。

在整个本说明书中,术语“平台”可以是用于提供对分析数据的自动识别和洞察呈现的软件组件和硬件组件的组合。平台的示例包括但不限于在多个服务器上执行的托管服务、在单个计算设备上执行的应用、以及类似的系统。术语“服务器”一般是指通常在网络环境中执行一个或多个软件程序的计算设备。然而,服务器还可以被实现为在视作网络上的服务器的一个或多个计算设备上执行的虚拟服务器(软件程序)。关于这些技术的更多细节和示例性实施例可见于下面的说明书中。

图1是示出了根据一些实施例的数据分析和洞察呈现的示例性实现方式的概念图。

如图100所示,提供分析和洞察呈现的过程可以开始于基础数据108。基础数据102可以是结构化的、非结构化的以及以各种格式来格式化的。在网络环境中,基础数据108可以通过服务器110表示的托管服务来管理并且经由一个或多个网络106通过在用户的客户端设备104上执行的厚或薄的客户端应用来提供给用户102。可替代地,用户102可以直接从数据存储设备取回基础数据108并且使用托管服务(例如,包括电子表格应用在内的产品套件)来分析和理解。

根据一些实施例,基础数据102可以首先被分析以标识用户数据(即,总体数据内的用户感兴趣的数据集)。在该初始分析中可以考虑数据类型、数据处理的上下文、用户偏好、用户许可、数据的结构以及类似因素。一旦推导出用户数据的位置,则可以将诸如统计、变换、启发式等各种分析应用于用户数据集以确定诸如趋势、模式、相关性、比较和类似的洞察之类的洞察。

然后可以通过可视化来将洞察呈现给用户,诸如图表112被选择且被配置为高亮显示所呈现的洞察(例如,模式114)。洞察还可以通过在原始数据上强调(例如,高亮显示、加阴影或以其它方式强调电子表格上的特定数据集或其子集)或数据格式化建议(也是在电子表格上)来呈现。

根据一些实施例,可以采用机器学习算法或类似技术来检测跟随洞察呈现之后的用户动作(例如,特定列被改变或修改,特定洞察被保留而其它洞察被删除,等等)并且从那些动作中学习。学习机制然后可用来调节未来的识别和洞察呈现操作。

除了托管服务环境之外,实施例还可以通过在本地安装的数据处理应用诸如电子表格应用、数据库应用、呈现应用、做笔记应用或甚至是文字处理应用来实现。此外,可以采用诸如键盘/鼠标、触摸、姿势、笔、眼睛跟踪、语音命令、陀螺仪和类似输入机制等各种交互机制来与系统交互以及选定各种参数。

图2示出了在电子表格环境中自动识别和洞察呈现的实现方式。

示意图200显示出数据处理应用的用户界面,诸如以表格格式呈现数据的电子表格应用。虽然所呈现的数据206为了该示例说明的目的并不重要,但是应当注意数据包括诸如列和行的维度。自动识别和洞察呈现可以在将数据装载到应用或者检测到控制元件208的激活时自动开始。

在一个示例性实施例中,以二维表格呈现给用户的表格数据可以包括不同的维度。例如,列可以代表各种产品,而行可以代表不同时间段(例如,按月)的销售图。此外,电子表格可以包括各种用户可能感兴趣的完整的和/或不完整的数据的部分。电子表格还可以在多个工作表中包含数据,将第三维度添加到方案中。

用于检测用户数据的位置的初始分析可以显现关于数据的总体统计,诸如多少行/列,多少不完整的行,等等。在检测到数据范围(换言之,用户数据集)时,诸如语义缩放的各种能力可以被启用。接着,可以在总体数据和任何用户特定信息的上下文内分析用户数据集以确定对数据的洞察。该级别的分析可以包括统计、变换、启发式和类似分析。在一些实施例中,所得到的洞察可以以可视化(例如,图表)的形式呈现给用户。高亮显示所发现的洞察的建议的图表可以被呈现为每个分析的工作表下的页。在其它实施例中,多个建议(图表)可以以微型化的形式(例如,工作表202、204)来呈现,并且可以在选择一个微型化建议时显示出可视化的细节。

图3示出了基于对表格数据的自动识别和洞察确定的示例性的基于图表的数据可视化的呈现。

示意图300显示出一个示例性可视化,其包括在电子表格310本身的三维背景上显示的总体数据的一个列中检测到的趋势的三维图表304。电子表格310用作背景可以向用户提供可视连接,将可视化的洞察与其基础数据在电子表格上的位置关联。在示例方案中,可视化的数据集可以是根据邮政编码的销售图,其中图表304以渐增趋势呈现该销售图(使得趋势可见并且使用户能够图形地比较不同邮政编码之间的差别)。进一步的增强可以包括诸如文本和/或图形强调特定数据点(具有最低306销售图值和最高308销售图值的邮政编码)之类的高亮显示。

如上所述,对于单个数据集可以生成多个可视化,例如,一个高亮显示检测到的趋势,另一个高亮显示离群值、又一个高亮显示比较。此外,可以在同一电子表格内对于与用户相关联的多个数据集生成不同的可视化。这些可视化可以诸如图标302的微型化形式呈现为图标以供选择。虽然在示例用户界面上显示出一个图标,但是很多这样的图标可以以扩展或折叠的形式呈现以供用户选择。

在一些实施例中,可以使用户能够通过选择可用的选项来改变可视化(或洞察的其它呈现)参数、切换到基础数据、基于呈现的洞察来尝试可替代方案等等来进一步探索数据和洞察。选择可以在用户界面上或用户界面外以各种方式(例如,下拉菜单、径向菜单、弹出式菜单、基于触摸/姿势的直接动作等)来呈现。选择还能够取决于基础数据、可视化类型、用户偏好和类似的因素来动态地变化。

如图300所示,图表304可以放置(自动地或者基于用户选择)在背景中的包含数据基础部分的部分上并且与提供进一步可视相关的列对准。诸如颜色、条尺寸、边界等其它参数可以被预先定义,可以是用户可选择的,和/或能够基于场景的组成而自动配置。

根据一些实施例可以使用多个可视化。例如,两个或更多个基于三维条形图的可视化可以与它们相应的基础数据对准地呈现在表格数据背景(电子表格)上,允许用户以可视的方式比较数据的趋势和变化。可视化不限于条形图或任何图表。还可以采用其它可视化,诸如自由形式表示。除了将基础数据用作背景之外,还可以自动地选择或者通过用户选择将诸如与基础数据(例如,代表自行车销售数据的自行车图片、建造中的建筑物建造计划、与基础数据相关联的地理区域的地图等)相关联的图像或图形的其它背景选为背景。

图4示出了根据一些实施例的用于自动识别和洞察呈现的流程的框图。

如图400所示,诸如电子表格的基础数据402可以经过统计、变换、启发式和类似的分析(404)以确定数据内的诸如趋势、相关性、离群值、比较、模式等洞察(406)。然后,洞察可以呈现(408)为可视化,在原始数据上的强调、数据格式化建议以及类似的形式。因此,数据处理应用或服务可以通过为用户自动可视化来探索并且学习数据,而无需用户选择数据的部分,定义分析参数,标识可视化配置,等等。

根据实施例的系统可以自动地推导用户数据的位置,而无需用户在接收可视化之前执行任何预先选择或高亮显示。可以采用各种启发式方法来标识数据集的边界。通过使用一组统计、变换和启发式方法扫描用户数据来揭露趋势、相关性、离群值和比较,可以允许用户自动地发现关于其数据的洞察。例如,用户可以被告知冰淇淋销售与温度相关(随着温度升高而增加),或者在七月份的冰淇淋销售与其它月份相比是离群值。每个洞察可由可视化支撑,以使得向用户提供进一步探索的证据和能力。

自动发现的洞察可以包括但不限于关于数据的总体统计、维度(例如,行/列)数、不完整行数、无用数据百分比、数据内的特定数据类型/值的数量、特定实体内的数据的浓度或百分比、诸如最低、最高、最快增长值的趋势以及类似洞察。

图1至图4的示例的方案和概要以特定组件、分析类型、洞察、可视化和配置来显示。实施例不限于根据这些示例的系统。提供自动识别和洞察呈现可以利用本文描述的原理在应用和用户接口中采用更少或额外组件的配置来实现。

图5是示例的网络环境,其中可以实现实施例。用于对数据的自动识别和洞察呈现的系统可以经由在诸如托管服务的一个或多个服务器514上执行的软件来实现。平台可以通过网络510与诸如智能电话513、膝上型计算机512、或桌面式计算机511的个体计算设备(“客户端设备”)上的客户端应用进行通信。

在客户端设备511-513中的任何设备上执行的客户端应用可以便于经由由服务器514所执行的应用来进行通信,或者便于经由在单个服务器516上执行的应用来进行通信,为用户提供数据可视化、分析、报告等等。作为电子表格应用或服务的一部分执行的洞察引擎可以执行本文所描述的动作。与洞察和可视化相关联的更新或额外的数据可以直接存储在数据存储设备519中或者通过与托管服务相关联的数据库服务器518而存储在数据存储设备519中。

网络510可以包括服务器、客户端、因特网服务提供商、和通信介质的任意拓扑。根据实施例的系统可以具有静态或动态拓扑。网络510可以包括安全网络,诸如企业网,不安全网络,诸如无线开放式网络,或者因特网。网络510还可以在诸如公共开关电话网络(pstn)或蜂窝网络之类的其它网络上协调通信。此外,网络510可以包括短程无线网,诸如蓝牙或类似网络。网络510提供本文所描述的节点之间的通信。通过示例的方式而不是限制的方式,网络510可以包括诸如声波、rf、红外和其它无线介质的无线介质。

可以采用计算设备、应用、数据源和数据分布系统的很多其它配置来提供对数据的自动识别和洞察呈现。此外,在图5中讨论的网络环境仅为了示例性目的。实施例不限于示例性应用、模块或过程。

图6及其相关的讨论旨在提供可以在其中实现实施例的适当的计算环境的简要的、总体描述。参考图6,示出了根据实施例的用于应用的示例的计算操作环境的框图,诸如计算设备600。在基本配置中,计算设备600可以是根据实施例执行诸如电子表格应用之类的数据处理应用的任何计算设备,并且包括至少一个处理单元602和系统存储器604。计算设备600还可以包括在执行的程序中协作的多个处理单元。取决于计算设备的确切配置和类型,系统存储器604可以是易失性的(诸如ram)、非易失性的(诸如rom、闪速存储器等)或者两者的某种组合。系统存储器604典型地包括适合控制平台操作的操作系统605,诸如华盛顿的雷德蒙的微软公司(microsoftcorporation)的操作系统。系统存储器604还可以包括一个或多个软件应用,诸如程序模块606、数据处理应用622、洞察引擎624和可视化模块626。

数据处理应用622可以在可用数据上执行各种任务,诸如分析、呈现、使能修改、更新等。数据处理应用622可以与洞察引擎624和可视化模块626相结合地操作以分析总体数据并且提供如上所述的自动识别和洞察呈现。该基本配置通过图6中的虚线608内的那些组件来图示出。

计算设备600可以具有额外的特征或功能。例如,计算设备600还可以包括额外的数据存储设备(可移除的和/或非可移除的),例如,磁盘、光盘或磁带。这些额外的存储设备在图6中由可移除存储设备609和非可移除存储设备610来图示出。计算机可读存储介质可以包括以任何方法或技术实现的、用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的易失性和非易失性的、可移除和非可移除的介质。系统存储器604、可移除存储设备609和非可移除存储设备610都是计算机可读存储介质的示例。计算机可读存储介质包括但不限于ram、rom、eeprom、闪速存储器或其它存储器技术、cd-rom、数字多功能盘(dvd)或其它光学存储设备、磁带、磁盘存储或其它磁存储设备、或者能够用于存储所期望的信息且能够由计算设备600访问的任何其它介质。任何这样的计算机可读存储介质可以是计算设备600的部分。计算设备600还可以具有输入设备612,诸如键盘、鼠标、笔、语音输入设备、触摸输入设备、用于检测姿势的光学捕捉设备以及类似的输入设备。还可以包括输出设备614,诸如显示器、扬声器、打印机以及其它类型的输出设备。这些设备是本领域公知的,无需在此赘述。

计算设备600还可以包含通信连接616,该通信连接允许设备诸如经由在分布式计算环境中的有线或无线网、卫星链路、蜂窝链路、短程网络和类似机制与其它设备618进行通信。其它设备618可以包括执行通信应用、网络服务器和类似设备的计算机设备。通信连接616是通信介质的一个示例。通信介质可以在其中包括计算机可读指令、数据结构、程序模块或其它数据。通过示例而不是限制的方式,通信介质包括诸如有线网络或直接接线连接的有线介质,以及诸如声波、rf、红外和其它无线介质的无线介质。

示例性实施例还包括方法。这些方法可以通过任意多种方式来实现,包括在该文献中描述的结构。一种这样的方式是通过在该文献中描述的类型的设备的机器操作。

另一种可选的方式是与执行一些操作的一个或多个人类操作员相结合地执行方法的各个操作中的一个或多个。这些人类操作员无需彼此配合,而是每个人类操作员可以仅有执行程序的一部分的机器。

图7示出了根据实施例的用于提供自动识别和洞察呈现的过程的逻辑流程图。过程700可以与数据处理服务或诸如电子表格应用的应用内的洞察模块相结合地实现。

过程700开始于操作710,其中可以在数据处理应用处接收基础数据,例如,以电子表格应用处的电子表格的形式。虽然此处为了示例的目的使用了电子表格应用和数据,但是实施例不限于在电子表格环境中的实现方式,并且可以应用于任何数据处理环境中的任何数据形式,诸如文字处理应用中的表格、数据库应用,等等。

在操作720中,存在于电子表格内的全部的数据集可以被标识出以便自动推导用户数据(数据集)的位置。在操作730中,可以采用诸如统计、变换、启发式和类似的分析之类的各种分析技术来分析所标识出的用户数据集。

在操作740中,可以基于分析结果来确定对数据的洞察。洞察可以包括模式、趋势、相关性、离群值、比较和类似的确定。在可选的操作750处,洞察然后可以呈现给用户,采用可视化、在原始数据集上的强调、数据格式化建议和类似方式中的一种或多种。诸如可视化的呈现可以自动优化以高亮显示所发现的洞察。例如,可以自动选择图表类型和图表参数以对于特定数据集以可视化方式高亮显示所检测到的趋势。

在过程700中包含的操作是为了说明性目的。对数据的自动识别和洞察呈现可以通过具有较少或额外步骤的类似过程来实现,而且可以利用本文所描述的原理按不同的操作顺序来实现。

上面的说明书、示例和数据提供了对实施例的构成物的制造和使用的完整描述。虽然以特定于结构特征和/或方法行为的语言描述了主题,但是应当理解在随附权利要求中限定的主题不必限制于上述的特定特征或行为。相反,上述的特定特征或行为被公开为实现权利要求和实施例的示例形式。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1