基于流媒体语义服务器的APP检测方法和系统

文档序号：27947748发布日期：2021-12-11 15:21阅读：215来源：国知局

基于流媒体语义服务器的app检测方法和系统
技术领域：
1.本发明涉及一种网页的app检测方法和系统。

背景技术：

2.随着互联网的爆发式发展，各式各样的网页app和移动端app如雨后春笋般出现。巨大的用户群体和各式各样的app也对app自动化检测领域发起新的挑战。在app无障碍可访问性检测领域，更是缺少一种真正贴切残疾人使用习惯的检测方法。
3.目前，常见的app黑盒检测方法有以下三种：基于移动设备开发者工具套件的ui自动化测试、基于摄像头cv识别和webdriver的检测套件、基于摄像头cv识别和机械臂的检测套件。他们仍存在以下问题(1)无法利用到ui控件对应的屏幕朗读内容来辅助识别ui控件(2)摄像头cv识别对cv算法和摄像头本身要求很高(3)基于移动设备开发者工具套件的ui自动化测试需要对多平台开发不同的检测方式并且使用不同的测试套件，有很大的人工工作量。(4)对于app无障碍可访问性检测，上述的所有检测方法都难以真正贴切残疾人使用习惯，包括缺少对屏幕朗读器朗读内容以及产生的屏幕聚焦框的识别和使用。
4.另外，目前也缺乏一个能够规模化管理机械臂平台来实现检测任务分发到多台机械臂上执行的检测任务调度平台。

技术实现要素：

5.针对现有技术的以上问题和难点，本发明提出了一种基于流媒体语义服务器的app检测方法和系统。
6.与目前的三种app黑盒检测方法(基于移动设备开发者工具套件的ui自动化测试、基于摄像头cv识别和webdriver的检测套件、基于摄像头cv识别和机械臂的检测套件)相比，本发明有以下特点：本发明能够很好利用屏幕朗读器来帮助创建控件的多媒体复合语义；检测平台(机械臂和嵌入式系统)边缘化程度高，流媒体语义服务器、检测平台和推流端设备无须通过硬件信号线连接上位机，仅通过无线网络通信，具有极高的灵活性；使用屏幕直播推流的方式，不依赖高精度的摄像头，同时也降低了图像算法的识别难度；分离推送音频流和视频流，有效降低了分别抓取音频流和视频流时的延迟；将分离后的视频流转码为sorenson
‑
h263，相对于原h.264编码格式，能够极大提升截图的可靠性，并极大地降低延迟；本发明所述的检测任务调度中心是一个具有自动化任务调度功能的高级服务，它维护一个检测任务队列，能自动化分发检测任务到空闲的边缘节点，并对边缘节点的检测报告进行完整性、合法性校验后接收。检测任务调度中心同时还提供web化的可视化管理面板，管理员可以查看当前检测平台上的资源使用情况，包括有多少空闲的边缘节点和忙碌的边缘节点，检测任务调度中心还支持直接将可执行代码发送到指定的空闲的边缘节点上执行。
7.一种基于流媒体语义服务器的app检测方法，具体步骤如下：
8.s1：手机推流端开启屏幕阅读器功能，开启推流工具并保持向流媒体语义分析服
务器持续推送音频流和视频流，边缘节点已经注册到检测任务调度中心并开始发送心跳消息，检测任务调度中心向边缘节点下发检测任务，并将该边缘节点标记为“忙碌”状态；
9.s2：边缘节点完成准备工作，包括启动待检测的app，机械臂开始通过在手机屏幕上滑动操作对app的功能图标进行遍历；
10.s3：在s2的遍历过程中，边缘节点向流媒体语义分析服务器请求当前聚焦框的屏幕阅读器朗读的语音语义和当前的推流画面；
11.s31：嵌入式系统在控制机械臂滑动的后，向流媒体语义分析服务器发送索要当前的手机推流画面的请求；
12.s311：流媒体语义服务器立即从音视频流中截取当前的推流画面并保存；
13.s312：流媒体语义服务器在响应请求中写入当前保存的推流画面截图的可访
14.问路径；
15.s313：嵌入式系统在获取到当前的推流画面后，进行滑动或点击行为的决策
16.以及相关条目的检测；
17.s32：嵌入式系统在控制机械臂滑动的同时，向流媒体语义分析服务器发送索要当前聚焦框的屏幕阅读器朗读的语音语义；
18.s321：流媒体语义服务器立即从音视频流中截取一段音频并保存；
19.s322：流媒体语义服务器调用语音识别算法，将截取到的音频识别为文字；
20.s323：流媒体语义服务器在响应请求中写入语音识别结果；
21.s324：嵌入式系统在获取到当前聚焦框的屏幕阅读器朗读的语音语义后，进行滑动或点击行为的决策以及相关条目的检测；
22.s4:嵌入式系统对在s3中获取的当前聚焦框的复合语义进行分析决策，指示机械臂在推流端设备上做出下一步动作；
23.s5：边缘节点重复进行获取信息、分析决策(包含检测)、指示动作流程，直到完成app的检测任务，并向检测任务调度中心汇报检测结果；
24.s6:检测任务调度中心对s5边缘节点发送的检测报告进行查收并返回查收结果，边缘节点在收到来自检测任务调度中心的查收信号后，完成一系列收尾工作；s61：检测任务调度中心检查检测报告，并自动确认检测报告完整性和合法性后，向边缘节点发送确认签收的通知；
25.s62：边缘节点收到确认签收通知，开始进行收尾工作；
26.s621：关闭当前已完成检测的app；
27.s622：清除临时文件；
28.s623：生成作业日志，等待接收下一次检测任务；
29.s63：如果在s61中，检测任务调度中心在检查检测报告时发现报告检测项目有漏检等情况，通知边缘节点进行补检或重检；
30.s7：边缘节点在完成一系列收尾工作后，通知检测任务调度中心，检测任务调度中心将该边缘节点标记为“就绪”状态；
31.s8：流媒体语义分析服务器保留在s1
‑
s5过程中产生的多媒体文件，并提供这些多媒体文件的管理接口，包括访问、删除等管理操作，目的在与便于被生成的检测报告所引用，以及为后续的其他检测方法提供检测资源；
32.具体地，步骤s1中所述的流媒体语义分析服务器和边缘节点以及推流端设备之间仅仅通过网络通信，无需任何硬件信号线连接。步骤s1所述的屏幕阅读器选用android的屏幕阅读器为talkback，或者ios的屏幕阅读器为voiceover；所述的边缘节点包括机械臂和嵌入式系统。
33.具体地，步骤s2中启动待检测的app可以由人工打开app，或者在下发任务的任务描述中提供待检测app的图标和app名称，由边缘节点自行在推流端设备上寻找并启动待检测的app。
34.优选地，步骤s3中流媒体语义分析服务器在分析当前聚焦框的复合语义时，对来自推流端的音视频流做了拆分处理，相比于不拆分处理，拆分处理有效降低了分别抓取音频流和视频流时的延迟，来自推流端的视频流编码格式为h.264，音频流编码格式为aac
‑
lc，传输协议使用rtmp(real time messaging protocol：实时消息传送协议)；流媒体语义分析服务器对来自推流端的音视频流做了拆分处理(原音视频流拆分后分别推流到only
‑
audio和only
‑
video这两个stream)，将视频流单独拆分出来并转码为sorenson
‑
h263编码格式，将音频流单独拆分出来不做转码处理；其他编码参数可以参考图2但不做要求。
35.具体地，步骤s4所述的复合语义包括音频语义和图像语义。
36.具体地，步骤s5中所述的检测报告的内容需要包含但不限于以下几项：本次检测任务需要完成的所有检测条目；本次检测任务所使用的检测条目的版本；本次检测任务的检测结果，每个检测项需要有检测通过情况、修改建议、补充描述、检测用到的多媒体文件的直接可访问地址或间接地址等。
37.具体地，步骤s5中边缘节点在完成遍历过程中，需要向检测任务调度中心发送心跳消息，消息包括但不限于：当前检测任务的进度；当前检测任务的活跃状态；边缘节点的健康状态；
38.具体地，步骤s1、s5、s6、s7中的检测任务调度中心的详细描述如下：检测任务调度中心是一个具有自动化任务调度功能的高级服务，它维护一个检测任务队列，能自动化分发检测任务到空闲的边缘节点，并对边缘节点的检测报告进行完整性、合法性校验后接收；检测任务调度中心同时还提供web化的可视化管理面板，管理员可以查看当前所有边缘节点上的资源使用情况，包括有多少空闲的边缘节点和忙碌的边缘节点；检测任务调度中心还支持直接将可执行代码发送到指定的空闲的边缘节点上执行。
39.本发明还包括一种基于流媒体语义分析服务器的app检测系统，包括存储器、处理器，以及存储在存储器上并可以在处理器上运行的计算机程序，处理器执行所述的计算机程序时实现上述方法的步骤。
40.本发明有以下优点：本发明能够很好利用屏幕朗读器来帮助创建控件的多媒体复合语义；检测平台(机械臂和嵌入式系统)边缘化程度高，流媒体语义服务器、检测平台和推流端设备无须通过硬件信号线连接上位机，仅通过无线网络通信，具有极高的灵活性；使用屏幕直播推流的方式，不依赖高精度的摄像头，同时也降低了图像算法的识别难度；分离推送音频流和视频流，有效降低了分别抓取音频流和视频流时的延迟；将分离后的视频流转码为sorenson
‑
h263编码格式，相对于原h.264编码格式，能够极大提升截图的可靠性，并极大地降低延迟；本发明所述的检测任务调度中心是一个具有自动化任务调度功能的高级服务，它维护一个检测任务队列，能自动化分发检测任务到空闲的边缘节点，并对边缘节点的
检测报告进行完整性、合法性校验后接收。检测任务调度中心同时还提供web化的可视化管理面板，管理员可以查看当前所有边缘节点上的资源使用情况，包括有多少空闲的边缘节点和忙碌的边缘节点，还可以直接将可执行代码发送到指定的空闲的边缘节点上执行。
附图说明：
41.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
42.图1是本发明方法的整体架构示意图；
43.图2是本发明方法的流媒体推流参数参考图；
44.图3是本发明方法的网络拓扑图。
45.具体实施方法：
46.下面结合附图具体说明本发明的技术方案。
47.本实例以某个app为例，一种基于流媒体语义服务器的app检测方法包括如下具体步骤：
48.s1：手机推流端开启屏幕阅读器功能(android的屏幕阅读器为talkback，ios的屏幕阅读器为voiceover)，开启推流工具并保持向流媒体语义分析服务器持续推送音频流和视频流，边缘节点已经注册到检测任务调度中心并开始发送心跳消息，检测任务调度中心向边缘节点(机械臂和嵌入式系统)下发检测任务，并将该边缘节点标记为“忙碌”状态；
49.s2：边缘节点(机械臂和嵌入式系统)完成准备工作，包括启动待检测的app，机械臂开始通过在手机屏幕上滑动操作对app的功能图标进行遍历；
50.s3：在s2的遍历过程中，边缘节点向流媒体语义分析服务器请求当前聚焦框的屏幕阅读器朗读的语音语义和当前的推流画面；
51.s31：嵌入式系统在控制机械臂滑动的后，向流媒体语义分析服务器发送索要当前的手机推流画面的请求；
52.s311：流媒体语义服务器立即从音视频流中截取当前的推流画面并保存；
53.s312：流媒体语义服务器在响应请求中写入当前保存的推流画面截图的可访
54.问路径；
55.s313：嵌入式系统在获取到当前的推流画面后，进行滑动或点击行为的决策
56.以及相关条目的检测；
57.s32：嵌入式系统在控制机械臂滑动的同时，向流媒体语义分析服务器发送索要当前聚焦框的屏幕阅读器朗读的语音语义；
58.s321：流媒体语义服务器立即从音视频流中截取一段音频并保存；
59.s322：流媒体语义服务器调用语音识别算法，将截取到的音频识别为文字；
60.s323：流媒体语义服务器在响应请求中写入语音识别结果；
61.s324：嵌入式系统在获取到当前聚焦框的屏幕阅读器朗读的语音语义后，进行滑动或点击行为的决策以及相关条目的检测；
62.s4:嵌入式系统对在s3中获取的当前聚焦框的复合语义(音频语义和图像语义)进
行分析决策，指示机械臂在推流端设备上做出下一步动作；
63.s5：边缘节点重复进行获取信息、分析决策(包含检测)、指示动作流程，直到完成app的检测任务，并向检测任务调度中心汇报检测结果；
64.s6:检测任务调度中心对s5边缘节点发送的检测报告进行查收并返回查收结果，边缘节点在收到来自检测任务调度中心的查收信号后，完成一系列收尾工作；s61：检测任务调度中心检查检测报告，并自动确认检测报告完整性和合法性后，向边缘节点发送确认签收的通知；
65.s62：边缘节点收到确认签收通知，开始进行收尾工作；
66.s621：关闭当前已完成检测的app；
67.s622：清除临时文件；
68.s623：生成作业日志，等待接收下一次检测任务；
69.s63：如果在s61中，检测任务调度中心在检查检测报告时发现报告检测项目有漏检等情况，通知边缘节点进行补检或重检；
70.s7：边缘节点在完成一系列收尾工作后，通知检测任务调度中心，检测任务调度中心将该边缘节点标记为“就绪”状态；
71.s8：流媒体语义分析服务器保留在s1
‑
s5过程中产生的多媒体文件，并提供这些多媒体文件的管理接口，包括访问、删除等管理操作，目的在与便于被生成的检测报告所引用，以及为后续的其他检测方法提供检测资源；
72.本发明还包括一种基于流媒体语义分析服务器的app检测系统，包括存储器、处理器，以及存储在存储器上并可以在处理器上运行的计算机程序，处理器执行所述的计算机程序时实现上述方法的步骤。
73.本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周晟;胡伟;卜佳俊;王炜;于智
技术所有人：浙江大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。