使用词同现和情感分析解释视觉分析中的含糊意图修饰语的制作方法

文档序号：35394427发布日期：2023-09-09 15:39阅读：62来源：国知局

所公开的实现总体上涉及数据可视化，并且更具体地涉及使得用户能够使用自然语言表达与数据可视化进行交互并分析数据的系统、方法和用户界面。

背景技术：

1、数据可视化应用使用户能够在视觉上理解数据集，包括分布、趋势、离群值和对做出商业决策重要的其他因素。一些数据集非常大或复杂，并且包括许多数据字段。可以使用各种工具来帮助理解和分析数据，包括具有多个数据可视化的仪表板。然而，一些功能可能难以使用或难以在复杂的用户界面中找到。大多数系统响应于查询仅返回非常基本的交互式可视化，而其他系统需要专家建模来创建有效的查询。其他系统需要简单的封闭式问题，然后只能返回单个文本答案或静态可视化。

2、自然语言已经获得了作为用于创建可视化并与可视化交互的有用模态的好处。自然语言交互技术通过使用户能够将他们的分析目标表达为自然语言话语，提供了即使对于非专家也容易、直观地参与数据的前景。当自然语言交互支持关于用户信息需要的问题时，该自然语言交互是有效的。然而，支持自然语言与视觉分析系统的交互常常具有挑战性。例如，用户倾向于提供语言学上俗称的、不明确的或含糊的话语，而视觉分析系统具有相对于底层数据和分析功能实现这些话语的更复杂的细微差别。用户还期望此类自然语言界面的高精度和检索。在这方面，许多自然语言界面不能准确地确定用户的信息需求。

3、此外，与数据可视化工具的自然语言交互通常涉及使用含糊且相当主观的话语修饰语，诸如“向我展示正在工作的分区”和“在附近哪里买房好？”解释这些修饰语对于传统的数据可视化工具通常是困难的，因为修饰语缺乏清晰的语义，并且部分地由上下文和个人用户偏好来定义。

技术实现思路

1、需要支持与视觉分析系统的自然语言交互的改进的系统和方法。公开文本描述了一种数据可视化应用，其采用一组用于处理自然语言命令中的含糊修饰语以生成有用的数据可视化的技术。数据可视化应用使用界面默认值来生成有用的数据可视化。一些实现采用词同现和情感分析来确定哪些数据字段和过滤器范围与含糊和/或主谓结构相关联。一些实现将源结果示出为可以由用户修复和/或细化的交互式文本。

2、根据一些实现，在计算设备处执行方法，该计算设备具有显示器、一个或多个处理器，和存储配置用于由一个或多个处理器执行的一个或多个程序的存储器。计算设备接收第一用户输入以指定指向数据源的自然语言命令。自然语言命令包括对关于数据源的信息的请求。计算设备在自然语言命令中标识第一关键字，该第一关键字是修改自然语言命令中的第二关键字的可读形容词。该计算设备还基于使用同现度量对同现进行量化，从数据源识别数字数据字段，该数字数据字段的字段名称与自然语言话语的预定义存储语料库中的自然语言话语中的第一关键字同现。该计算设备基于第一关键字的情感极性与数字数据字段的字段名称的相关性而计算数字数据字段的值的数值范围。该计算设备还基于根据数字数据字段的数值范围对来自数据源的数据行进行过滤，生成并显示数据可视化，该数据可视化包括表示从数据源取得的数据的多个视觉标记。

3、在一些实现中，计算数字数据字段的数值的数值范围包括计算(i)数字数据字段在从med+mad到max的范围内中的值的top n，或(ii)数字数据字段在从min到abs(med–mad)的范围中的值的bottom n。元素“med”、“mad”、“min”和“max”是数字数据字段的中值、中值绝对偏差、最小值和最大值。

4、在一些实现中，计算数字数据字段的数值的数值范围包括：(i)当第一关键字的语义极性与数字数据字段的字段名称的语义极性正相关时，计算第一数字数据字段的值的top n；以及(ii)当第一关键字的语义极性与数字数据字段的字段名称的语义极性负相关时，计算数字数据字段的值的bottom n。

5、在一些实现中，计算设备基于域特定信息来确定数字数据字段的值的默认范围。

6、在一些实现中，计算设备显示交互式文本以示出第一关键字的解释的来源。

7、在一些实现中，计算设备显示一个或多个用户界面小部件以显示、修复和/或细化数值范围。

8、在一些实现中，计算设备使用一个或多个颜色编码来显示第一关键字的情感极性和数字数据字段的字段名称。

9、在一些实现中，同现度量测量第一关键字的所有n元语法组合与来自数据源的多个数字数据字段的字段名称之间的同现。

10、在一些实现中，同现度量针对来自数据源的相应的数字数据字段的每个数据字段名称计算逐点互信息测量(pmi)分数，测量相应的数据字段名称与第一关键字的耦合。

11、在一些实现中，生成数据可视化包括生成指定数据源、多个视觉变量和来自数据源的多个数据字段的视觉规范。每个视觉变量与多个数据字段中相应的一个或多个数据字段相关联，并且每个数据字段被标识为维度或度量。在一些情况下，第一关键字对应于多个数据字段中的一个或多个第一数据字段，一个或多个视觉变量根据数字数据字段的值的数值范围与一个或多个第一数据字段相关联。

12、通常，电子设备包括一个或多个处理器、存储器、显示器和存储在存储器中的一个或多个程序。程序配置用于由一个或多个处理器执行，并且配置为执行本文描述的任何方法。

13、在一些实现中，非暂时性计算机可读存储介质存储配置用于由具有一个或多个处理器、存储器和显示器的计算设备执行的一个或多个程序。一个或多个程序配置为执行本文描述的任何方法。

14、因此，公开了允许用户通过使用自然语言命令有效地生成和修改在数据可视化应用内显示的数据的方法、系统和图形用户界面。

15、前面的一般性描述和下面的详细描述都是示例性和解释性的，并且旨在提供对所要求保护的本发明的进一步解释。

技术特征：

1.一种用于从自然语言表达生成数据可视化的方法，包括：

2.根据权利要求1所述的方法，其中计算所述数字数据字段的值的数值范围包括：

3.根据权利要求1所述的方法，还包括：

4.根据权利要求1所述的方法，还包括：

5.根据权利要求1所述的方法，还包括：

6.根据权利要求1所述的方法，还包括：

7.根据权利要求1所述的方法，其中所述同现度量测量所述第一关键字的所有n元语法组合与来自所述数据源的多个数字数据字段的字段名称之间的同现。

8.根据权利要求1所述的方法，其中所述同现度量针对来自所述数据源的相应的数字数据字段的每个数据字段名称计算逐点互信息测量(pmi)分数，其测量相应的数据字段名称与所述第一关键字的耦合。

9.根据权利要求1所述的方法，其中生成所述数据可视化包括：

10.一种计算设备，包括：

11.根据权利要求10所述的计算设备，其中计算所述数字数据字段的值的数值范围包括：

12.根据权利要求10所述的计算设备，还包括：

13.根据权利要求10所述的计算设备，还包括：

14.根据权利要求10所述的计算设备，还包括：

15.根据权利要求10所述的计算设备，其中所述同现度量测量所述第一关键字的所有n元语法组合与来自所述数据源的多个数字数据字段的字段名称之间的同现。

16.根据权利要求10所述的计算设备，其中所述同现度量针对来自所述数据源的相应的数字数据字段的每个数据字段名称计算逐点互信息测量(pmi)分数，其测量所述相应的数据字段名称与所述第一关键字的耦合。

17.根据权利要求10所述的计算设备，其中生成所述数据可视化包括：

18.一种存储一个或多个程序的非暂时性计算机可读存储介质，所述一个或多个程序配置用于由具有一个或多个处理器、存储器和显示器的计算设备执行，所述一个或多个程序包括用于以下的指令：

19.根据权利要求18所述的计算机可读存储介质，其中计算所述数字数据字段的值的数值范围包括：

20.根据权利要求18所述的计算机可读存储介质，其中生成所述数据可视化包括：

技术总结
一种生成数据可视化的方法。设备接收第一用户输入以指定指向数据源的自然语言命令。自然语言命令包括第一关键字，该第一关键字是修改自然语言命令中的第二关键字的等级形容词。该设备基于使用同现度量对同现进行量化，从数据源识别数字数据字段，该数字数据字段的字段名称与自然语言话语的预定义存储语料库中的自然语言话语中的第一关键字同现。该设备基于第一关键字的情感极性与数字数据字段的字段名称的相关性而计算数字数据字段的值的数值范围。然后，该设备基于根据数字数据字段的数值范围过滤来自数据源的数据行生成用于数据源的数据可视化。

技术研发人员：V·R·塞特勒,A·库马尔
受保护的技术使用者：塔谱软件公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：R
技术所有人：塔谱软件公司
我是此专利的发明人

上一篇：一种室外网关设备的制作方法
下一篇：一种针织面料生产用清洗装置的制作方法

该领域下的技术专家

1、李老师：1.计算力学 2.无损检测

2、毕老师：机构动力学与控制

3、袁老师：1.计算机视觉 2.无线网络及物联网

4、王老师：1.计算机网络安全 2.计算机仿真技术

5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！