用于确定动作执行的系统、方法及终端与流程

文档序号：25347841发布日期：2021-06-08 12:35阅读：77来源：国知局

1.本发明涉及计算机技术领域，尤其涉及一种用于确定动作执行的系统、方法及终端。

背景技术：

2.在很多应用场景下，经常需要计算机在特定的时机生成动作指令。例如某个应用程序上，当用户网络从wifi网络切换到4g网络的时候，需要判断是否弹窗提醒用户切换到低分辨率视频播放。由此可知，在该场景下，需要计算机通过算法，根据当前状态生成动作指令，从而能够给用户带来最好的体验。然而，弹窗会中断用户的观看过程，形成打扰，而不弹窗容易让用户耗费大量的流量。
3.除此之外，每次生成的动作指令可能会对用户自身的状态产生影响，进而影响用户的长期体验。例如，手机的消息通知功能推送给了用户一条消息，形成了打扰，那么接下来一段时间即使有更好的内容，用户可能也会因为厌烦进行一些负面反馈，例如关掉系统通知等。
4.由上述可知，目前来说，这些需要生成动作指令的场景，多数情况下都是用一些简单的策略。例如，每隔多长时间弹窗一次、或者展示一次卡片、应用程序启动的时候记录上一次关闭的页面，等等。然而，这些策略显然并不是最优的。
5.综上所述，现有技术中，在特定时机判断是否执行与业务相对应的业务动作的准确度较低。

技术实现要素：

6.本发明实施例提供一种用于确定动作执行的系统、方法用于确定动作执行的系统、方法及终端，以解决现有技术中在特定时机判断是否执行与业务相对应的业务动作的准确度较低的问题。
7.根据本发明实施例的第一方面，提供一种用于确定动作执行的系统，包括：
8.特征调用单元，用于响应于接收到的携带有账户信息的访问请求，采集与所述账户信息对应的目标业务的特征信息；
9.动作确定模型，用于接收所述特征调用单元发送的所述目标业务的特征信息，并基于所述目标业务的特征信息生成所述目标业务对应的动作指令，其中，所述动作指令用于指示是否执行与所述目标业务相对应的业务动作；
10.所述特征调用单元还用于将接收到的所述动作确定模型发送的所述动作指令，返回给所述访问请求的发送方；
11.其中，所述动作确定模型是根据包含多项业务的特征信息、对应所述特征信息的动作指令、以及相应账户对执行所述动作指令的反馈信息的训练样本进行训练获得的。
12.可选的，还包括：样本拼接单元、数据流单元和模型训练单元；
13.其中，所述样本拼接单元用于获取多项业务的特征信息、对应所述特征信息的动
作指令、以及相应账户对执行所述动作指令的反馈信息，并拼接为训练样本，发送给所述数据流单元；
14.所述数据流单元用于将所述训练样本拼接为状态转移样本流；
15.所述模型训练单元用于接收所述数据流单元发送的所述状态转移样本流，并对所述状态转移样本流进行训练，获得所述动作确定模型。
16.可选的，所述数据流单元将所述训练样本拼接为状态转移样本流的过程包括：
17.将属于同一个用户且在时间上相邻的两个所述训练样本，拼接为一个所述状态转移样本流。
18.可选的，所述模型训练单元对所述状态转移样本流进行训练的过程包括：
19.采用时序差分方法，对所述状态转移样本流进行训练。
20.可选的，所述模型训练单元采用时序差分方法，对所述状态转移样本流进行训练的过程包括：
21.将所述状态转移样本流存储到数据仓库hive中；
22.将所述数据仓库hive中存储的数据转换为与所述动作确定模型相匹配的数据格式，获得待训练样本；
23.将所述待训练样本存储到分布式文件系统hdfs中；
24.读取所述分布式文件系统hdfs中的数据，采用时序差分方法进行训练。
25.可选的，还包括：
26.数据队列，所述数据队列用于接收所述特征调用单元发送的多项业务的特征信息，以及所述动作确定模型发送的与所述特征信息对应的动作指令，根据相邻两个所述动作指令的反馈信息的时间间隔，存储所述特征信息和所述动作指令，并将所述的特征信息和所述动作指令发送给所述样本拼接单元；
27.所述样本拼接单元将所述特征信息、所述动作指令和所述反馈信息拼接为训练样本的过程包括：
28.根据相邻两个所述反馈信息之间的时间间隔，以及所述数据队列中相邻两个所述特征信息之间的延迟时间，将所述特征信息、所述动作指令和所述反馈信息拼接为训练样本。
29.根据本发明实施例的第二方面，提供一种用于确定动作执行的方法，包括：
30.响应于接收到的携带有账户信息的访问请求，采集与所述账户信息对应的目标业务的特征信息；
31.将所述目标业务的特征信息输入预先确定的动作确定模型，输出所述目标业务对应的动作指令；
32.将所述动作指令发送给所述访问请求的发送方；
33.其中，所述动作确定模型是根据包含多项业务的特征信息、对应特征信息的动作指令、以及相应账户对执行所述动作指令的反馈信息的训练样本进行训练获得的。
34.可选的，所述动作确定模型通过如下过程训练获得：
35.获取多项业务的特征信息、对应所述特征信息的动作指令、以及相应账户对执行所述动作指令的反馈信息；
36.将所述特征信息、所述动作指令和所述反馈信息拼接为训练样本；
37.将所述训练样本拼接为状态转移样本流；
38.对所述状态转移样本流进行训练，获得所述动作确定模型。
39.可选的，所述将所述训练样本拼接为状态转移样本流，包括：
40.将属于同一个用户且在时间上相邻的两个所述训练样本，拼接为一个所述状态转移样本流。
41.可选的，对所述状态转移样本流进行训练，包括：
42.采用时序差分方法，对所述状态转移样本流进行训练。
43.可选的，所述采用时序差分方法，对所述状态转移样本流进行训练，包括：
44.将所述状态转移样本流存储到数据仓库hive中；
45.将所述数据仓库hive中存储的数据转换为与所述动作确定模型相匹配的数据格式，获得待训练样本；
46.将所述待训练样本存储到分布式文件系统hdfs中；
47.读取所述分布式文件系统hdfs中的数据，采用时序差分方法进行训练。
48.可选的，获取对应所述特征信息的动作指令，包括：
49.获取所述动作确定模型输出的对应所述特征信息的动作指令；
50.所述将所述特征信息、所述动作指令和所述反馈信息拼接为训练样本，包括：
51.根据相邻两个所述动作指令的反馈信息的时间间隔，存储所述特征信息和所述动作指令；
52.根据相邻两个所述反馈信息之间的时间间隔，以及存储的相邻两个所述特征信息之间的延迟时间，将所述特征信息、所述动作指令和所述反馈信息拼接为训练样本。
53.根据本发明实施例的第三方面，提供一种终端，该终端包括：
54.处理器；
55.被配置为存储该处理器可执行指令的存储器；
56.其中，该处理器被配置为执行以实现如本发明提供的用于确定动作执行的方法所执行的操作。
57.根据本发明实施例的第四方面，提供一种终端，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的用于确定动作执行的程序，所述用于确定动作执行的程序被所述处理器执行时实现本发明中所述的任意一种用于确定动作执行的方法的步骤。
58.根据本发明实施例的第五方面，提供一种计算机可读存储介质，所述计算机可读存储介质上存储有用于确定动作执行的程序，所述用于确定动作执行的程序被处理器执行时实现本发明中所述的任意一种用于确定动作执行的方法的步骤。
59.与现有技术相比，本发明具有以下优点：
60.本发明实施例提供的用于确定动作执行的系统，通过特征调用单元响应于接收到的携带有账户信息的访问请求，并采集与该账户信息对应的目标业务的特征信息，从而将该特征信息发送给动作确定模型，由动作确定模型输出与该目标业务对应的动作指令，并返回给特征调用单元，从而由特征调用单元将动作指令返回给访问请求的发送方，其中，动作确定模型是根据包含多项业务的特征信息、对应所述特征信息的动作指令、以及相应账户对执行所述动作指令的反馈信息的训练样本进行训练获得的。因而本发明实施例的系
统，可以建立在对多项业务的特征信息、动作指令和用户对执行动作指令对应的功能的反馈信息进行训练学习的基础上，生成动作指令来指示是否执行与目标业务相对应的业务动作，因而生成的动作指令会更加符合各个业务的特征信息，使得生成的动作指令的准确性更高，更加符合用户的要求，从而提升用户体验。
61.上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。
附图说明
62.通过阅读下文优选实施方式的详细描述，各种优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。
63.在附图中：
64.图1是本发明实施例一的用于确定动作执行的系统的示意图；
65.图2是本发明实施例二的用于确定动作执行的系统的示意图；
66.图3是本发明实施例中用于确定动作执行的系统的具体实施方式的示意图；
67.图4是根据本发明实施例三的用于确定动作执行的方法的步骤流程图；
68.图5是根据本发明实施例四的一种终端的结构框图。
具体实施方式
69.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。
70.实施例一
71.参照图1，示出了本发明实施例一的一种用于确定动作执行的系统，该用于确定动作执行的系统可以包括：
72.特征调用单元，用于响应于接收到的携带有账户信息的访问请求，采集与所述账户信息对应的目标业务的特征信息；
73.动作确定模型，用于接收所述特征调用单元发送的所述目标业务的特征信息，并基于所述目标业务的特征信息生成所述目标业务对应的动作指令，其中，所述动作指令用于指示是否执行与所述目标业务相对应的业务动作；
74.所述特征调用单元还用于将接收到的所述动作确定模型发送的所述动作指令，返回给所述访问请求的发送方；
75.其中，所述动作确定模型是根据包含多项业务的特征信息、对应所述特征信息的动作指令、以及相应账户对执行所述动作指令的反馈信息的训练样本进行训练获得的。
76.本发明实施例中，目标业务为终端可以实现的某项业务，例如使用视频应用程序观看视频的业务、使用浏览器搜索信息的业务、终端进行网络切换的业务等。其中，可以理解的是，这里只是对目标业务的举例说明，并不限于目标业务所包括的内容只限于此处的
描述。
77.其中，用于获取动作确定模型的多项业务为终端可以实现的业务，例如使用视频应用程序观看视频的业务、使用浏览器搜索信息的业务、终端进行网络切换的业务等。其中，可以理解的是，这里只是对业务的举例说明，并不限于上述业务所包括的内容只限于此处的描述。对应特征信息的动作指令，为控制发送方执行该特征信息对应的业务的控制指令，从而实现对应的功能。反馈信息即为发送方对执行动作指令后所实现的功能的反馈。
78.另外，上述特征信息包括用户画像、场景特征、历史行为和内容特征中的至少一项。具体地，这几项内容的具体说明如下所述：
79.用户画像，包括用户的属性信息，如年龄、性别、兴趣爱好、以及在终端上的历史浏览记录等。
80.场景特征，用于描述目标业务的应用场景，比如目标业务的应用时间、所应用的网络类型等。
81.历史行为：包括用户针对目标业务的操作行为，比如在预定时间段的点击数、点赞数等。
82.内容特征：包括目标业务的显示界面所展示的内容的特征，例如信息推送的时候，推送内容本身的属性，广告竞价的时候，竞价物品本身的价值等。
83.此外，根据动作指令执行业务动作的发送方的运行状态会发生变化，例如目标业务为利用视频应用程序观看视频，动作指令为推送视频，则终端接收到该动作指令后，会在刷新页面时显示被推送的视频列表。
84.由上述可知，本发明实施例的用于确定动作执行的系统，通过特征调用单元响应于接收到的携带有账户信息的访问请求，并采集与该账户信息对应的目标业务的特征信息，从而将该特征信息发送给动作确定模型，由动作确定模型输出与该目标业务对应的动作指令，并返回给特征调用单元，从而由特征调用单元将动作指令返回给访问请求的发送方，其中，动作确定模型是根据包含多项业务的特征信息、对应所述特征信息的动作指令、以及相应账户对执行所述动作指令的反馈信息的训练样本进行训练获得的。因而本发明实施例的系统，可以建立在对多项业务的特征信息、动作指令和用户对执行动作指令对应的功能的反馈信息进行训练学习的基础上，生成动作指令来指示是否执行与目标业务相对应的业务动作，因而生成的动作指令会更加符合各个业务的特征信息，使得生成的动作指令的准确性更高，更加符合用户的要求，从而提升用户体验。
85.实施例二
86.参照图2，示出了本发明实施例二的用于确定动作执行的系统，该用于确定动作执行的系统可以包括：
87.特征调用单元，用于响应于接收到的携带有账户信息的访问请求，采集与所述账户信息对应的目标业务的特征信息；
88.动作确定模型，用于接收所述特征调用单元发送的所述目标业务的特征信息，并基于所述目标业务的特征信息生成所述目标业务对应的动作指令，其中，所述动作指令用于指示是否执行与所述目标业务相对应的业务动作；
89.所述特征调用单元还用于将接收到的所述动作确定模型发送的所述动作指令，返回给所述访问请求的发送方；
90.其中，所述动作确定模型是根据包含多项业务的特征信息、对应所述特征信息的动作指令、以及相应账户对执行所述动作指令的反馈信息的训练样本进行训练获得的；
91.样本拼接单元、数据流单元和模型训练单元；
92.其中，所述样本拼接单元用于获取多项业务的特征信息、对应所述特征信息的动作指令、以及相应账户对执行所述动作指令的反馈信息，并拼接为训练样本，发送给所述数据流单元；
93.所述数据流单元用于将所述训练样本拼接为状态转移样本流；
94.所述模型训练单元用于接收所述数据流单元发送的所述状态转移样本流，并对所述状态转移样本流进行训练，获得所述动作确定模型。
95.其中，所述动作确定模型是根据包含多项业务的特征信息、对应所述特征信息的动作指令、以及相应账户对执行所述动作指令的反馈信息的训练样本进行训练获得的。
96.本发明实施例中，目标业务为终端可以实现的某项业务，例如使用视频应用程序观看视频的业务、使用浏览器搜索信息的业务、终端进行网络切换的业务等。其中，可以理解的是，这里只是对目标业务的举例说明，并不限于目标业务所包括的内容只限于此处的描述。
97.其中，用于获取动作确定模型的多项业务为终端可以实现的业务，例如使用视频应用程序观看视频的业务、使用浏览器搜索信息的业务、终端进行网络切换的业务等。其中，可以理解的是，这里只是对业务的举例说明，并不限于上述业务所包括的内容只限于此处的描述。对应特征信息的动作指令，为控制发送方执行该特征信息对应的业务的控制指令，从而实现对应的功能。反馈信息即为发送方对执行动作指令后所实现的功能的反馈。
98.另外，上述特征信息包括用户画像、场景特征、历史行为和内容特征中的至少一项。具体地，这几项内容的具体说明如下所述：
99.用户画像，包括用户的属性信息，如年龄、性别、兴趣爱好、以及在终端上的历史浏览记录等。
100.场景特征，用于描述目标业务的应用场景，比如目标业务的应用时间、所应用的网络类型等。
101.历史行为：包括用户针对目标业务的操作行为，比如在预定时间段的点击数、点赞数等。
102.内容特征：包括目标业务的显示界面所展示的内容的特征，例如信息推送的时候，推送内容本身的属性，广告竞价的时候，竞价物品本身的价值等。
103.此外，根据动作指令执行业务动作的发送方的运行状态会发生变化，例如目标业务为利用视频应用程序观看视频，动作指令为推送视频，则终端接收到该动作指令后，会在刷新页面时显示被推送的视频列表。
104.并且，本发明的实施例中，训练动作确定模型，需要海量数据，即需要海量业务的特征信息和动作指令以及用户对动作指令对应的功能的反馈信息，进行训练。而在进行训练的过程中，首先需要将业务的特征信息、动作指令以及反馈信息进行拼接，得到训练样本，其中，一个训练样本中包括一项业务的特征信息、与该项业务对应的动作指令以及用户对该动作指令对应的功能的反馈信息。
105.具体地，一个训练样本的数据格式可如下所示：
106.特征信息：字典类结构，每个条目对应着特征名及其对应的值；
107.动作指令：字典类结构，每个条目对应着模型给出的动作指令或补充信息；
108.反馈信息：字典类结构，每个条目对应一种形式的奖赏，例如点击、点赞等等。
109.动作指令序列序号(episode id)：用于标识训练样本属于哪个动作指令序列。例如，可以一个episode是对于一个用户一天内的动作指令序列。其中，那么此种情况下，可以将用户id作为episode id。
110.在获得训练样本后，可以对训练样本进行状态转移拼接。其中，状态转移拼接与监督式学习不同，可以强化学习优化一个动作序列的整体效果，因而，本发明实施例中，在训练动作确定模型的过程中，对训练样本进行状态转移拼接，可以优化强化学习优化属于一个动作指令序列的整体效果，从而可以提升动作确定模型输出的动作指令可以实现更加符合用户需求的功能，即提升动作确定模型生成动作指令的准确度。
111.在获得状态转移样本流后，则可以对状态转移样本流进行训练，从而获得动作确定模型。
112.可选的，所述数据流单元在将所述训练样本拼接为状态转移样本流的过程包括：
113.将属于同一个用户且在时间上相邻的两个所述训练样本，拼接为一个所述状态转移样本流。
114.即本发明的实施例中，可以将属于同一个用户且在时间上相邻的两个训练样本，拼接为一个状态转移样本流。例如，获得用户a的第一训练样本、第二训练样本和第三训练样本，这三个训练样本，且这三个训练样本的时间排序为：第一训练样本、第二训练样本和第三训练样本，则第一训练样本和第二训练样本可以拼接为一个状态转移样本流，第二训练样本和第三训练样本可以拼接为一个状态转移样本流。
115.可选的，所述模型训练单元对所述状态转移样本流进行训练的过程包括：
116.采用时序差分方法，对所述状态转移样本流进行训练。
117.其中，时序差分方法是模拟(或者经历)一段序列，每行动一步(或者几步)，根据新状态的价值，然后估计执行前的状态价值。因而，采用时序差分法对状态转移样本进行训练来获得动作确定模型，可以使得后续由动作确定模型输出的动作指令更加与业务的特征信息相匹配，即可以提高生成动作的指令准确度。
118.可选的，所述模型训练单元采用时序差分方法，对所述状态转移样本流进行训练的过程包括：
119.将所述状态转移样本流存储到数据仓库hive中；
120.将所述数据仓库hive中存储的数据转换为与所述动作确定模型相匹配的数据格式，获得待训练样本；
121.将所述待训练样本存储到分布式文件系统hdfs中；
122.读取所述分布式文件系统hdfs中的数据，采用时序差分方法进行训练。
123.其中，与动作确定模型相匹配的数据格式例如可以为tfrecord数据格式。其中，tfrecord内部使用了“protocol buffer”二进制数据编码方案，它只占用一个内存块，只需要一次性加载一个二进制文件的方式即可，简单，快速，尤其对大型训练数据很友好。而且当我们的训练数据量比较大的时候，可以将数据分成多个tfrecord文件，来提高处理效率。
124.由此可知，本发明的实施例中，在采用时序差分方法对状态转移样本流进行训练
时，需要经过一系列标准化流程，例如先存储到hive，再转换成动作确定模型需要的格式并存储到hdfs，从而读取hdfs上的数据训练动作确定模型。在训练过程中，将算法和业务区分开，在算法层面，支持dqn(深度状态动作值函数网络)、ddpg(深度确定策略梯度网络)等强化学习算法及对应的评价指标，这方面对所有业务通用；在业务层面，各个业务有其自定义的特征配置、业务指标。因此，针对全新的业务，只需要定义业务相关部分，便可以进行模型的训练。
125.其中，hive是基于hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类sql查询功能。hive具有：可扩展性(例如hive可以自由的扩展集群的规模，一般情况下不需要重启服务)、延展性(例如hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数)、良好的容错性(例如节点出现问题sql仍可完成执行)。因而，本发明的实施例中，在训练动作确定模型的过程中，将状态转移样本流存储到hive中，便于数据的查询和分析。
126.另外，hdfs具有高容错性的特点，并且设计用来部署在低廉的硬件上。而且它提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集的应用程序，可以实现流的形式访问文件系统中的数据。因而，在训练动作确定模型的过程中，将转换为动作确定模型所匹配的数据格式的状态转移样本流存储到hdfs中，便于持久化和分布式训练。
127.可选的，还包括：
128.数据队列，所述数据队列用于接收所述特征调用单元发送的多项业务的特征信息，以及所述动作确定模型发送的与所述特征信息对应的动作指令，根据相邻两个所述动作指令的反馈信息的时间间隔，存储所述特征信息和所述动作指令，并将所述的特征信息和所述动作指令发送给所述样本拼接单元；
129.所述样本拼接单元将所述特征信息、所述动作指令和所述反馈信息拼接为训练样本的过程包括：
130.根据相邻两个所述反馈信息之间的时间间隔，以及所述数据队列中相邻两个所述特征信息之间的延迟时间，将所述特征信息、所述动作指令和所述反馈信息拼接为训练样本。
131.由此可知，本发明的实施例，还可动作确定模型的输出的动作指令以及用户对该动作指令的反馈，进一步对动作确定模型进行更新，从而进一步提升生成动作指令的准确度，进而提升用户体验。
132.其中，由于在利用动作确定模型进行线上服务时，动作指令的输出时刻与反馈信息的获得时刻之间往往存在延迟，例如动作指令是推送视频，反馈信息是观看视频时，往往在判断出需要为用户推送视频后，间隔很久用户才观看视频。因而，需要根据相邻反馈信息之间的时间间隔，将对应的特征信息和动作指令存储在数据队列中，从而能够根据反馈信息的间隔时间，以及数据队列中相邻两个特征信息之间的延迟时间确定特征信息和动作指令与反馈信息之间的对应关系，从而避免了特征信息和动作指令与反馈信息之间的不对应，保证了数据的正确性。
133.另外，在利用动作模型输出的动作指令，以及该动作指令对应的特征信息和反馈信息对动作模型进行更新的过程中，首先需要将特征信息、动作指令以及反馈信息进行拼接，得到训练样本，其中，一个训练样本中包括一项业务的特征信息、与该项业务对应的动
作指令以及用户对该动作指令对应的功能的反馈信息。在获得训练样本后，可以对训练样本进行状态转移拼接，获得状态转移样本流，然后采用时序差分方法，对状态转移样本流进行训练，最终实现对动作确定模型的更新。
134.综上所述，本发明实施例的用于确定动作执行的系统的具体实施方式的示意图可如图3所示，即上述所述的发送方可以为客户端，特征调用单元可以为rpc(远程过程调用)服务。
135.如图3所示，具体可以分为线上服务和强化学习数据流两部分。
136.其中，对于线上服务部分：客户端会携带一些必要的信息访问rpc(远程过程调用)服务，rpc服务搜集业务的特征信息，输入到动作确定模型，输出结果，保存到数据队列中，并返回给客户端。
137.对于强化学习数据流部分：主要作用是为机器学习模型提供训练数据，整个流程包括如下几个模块：
138.客户端日志模块：用于记录动作指令产生之后的反馈信息。例如，给用户发送了一条推送，用户是否有点击行为。客户端日志通过流的形式，一部分记录当做历史行为记录下来。另一方面，作为上次动作指令的反馈，也就是强化学习的奖赏，保存到样本拼接单元里。
139.其中，需要注意的是，客户端在最初保存的是动作确定模型还未建立时，对现有的方案生成的动作指令(例如每隔一定时间弹出一个提示窗口的行为、应用启动时显示上一次退出时的页面等)的反馈信息。随着后续动作确定模型离线训练的完成，客户端日志模块中则会存储用户对动作确定模型输出的动作指令对应的功能的反馈信息。
140.数据队列：用于保存业务的特征信息。其中，数据队列中最初保存的是动作确定模型还未建立时，现有的方案生成的动作指令(例如每隔一定时间弹出一个提示窗口的行为、应用启动时显示上一次退出时的页面等)的对应的业务的特征信息。随着后续动作确定模型离线训练的完成，rpc服务在接受线上的请求的时候，同时也通过数据队列的方式保存一份特征信息。
141.样本拼接单元：用于将数据队列中的特征信息和动作指令与客户端日志模块中的反馈信息进行拼接，形成训练样本。其中，在特征信息的存储方面，采用数据队列的形式，是因为特征信息总是比反馈信息先到达。并且，将输入到动作确定模型的特征信息保存到数据队列中，从根本上保证了模型训练与模型服务的数据的一致性，从工程上避免了在任何阶段出现数据不一致的可能。
142.数据流单元：用于将同一个用户且时间上相邻的训练样本拼接成一个状态转移，便于通过时序差分的方式训练强化学习模型。这一步完成之后，便形成了状态转移样本流。
143.需要注意的是，在最初保存的是动作确定模型还未建立时，从数据流单元中输出的是，根据现有的方案生成的动作指令，及其对应的业务特征信息和反馈信息得到的，因而在此种情况下，对状态转移样本进行训练的目的是为了得到动作确定模型。其中，具体的训练流程可如下对训练模块的介绍所述。
144.训练模块：将状态转移样本流经过一系列标准化流程，例如先存到hive，再转换成动作确定模型需要的格式存储到hdfs，从而使用读取hdfs上的数据训练模型。训练结束之后将模型导入到模型服务里面。
145.其中，离线训练好的动作确定模型，进行上线服务。
146.在此之后，随着动作确定模型的上线，可以直接从数据流单元读取根据动作确定模型输出的动作指令，及其对应的业务特征信息和反馈信息，形成的状态转移样本流，对动作确定模型进行实时，从而可以使用实时更新的模型对外提供服务。
147.综上所述，本发明实施例的用于确定动作执行的系统，通过特征调用单元响应于接收到的携带有账户信息的访问请求，并采集与该账户信息对应的目标业务的特征信息，从而将该特征信息发送给动作确定模型，由动作确定模型输出与该目标业务对应的动作指令，并返回给特征调用单元，从而由特征调用单元将动作指令返回给访问请求的发送方，其中，动作确定模型是根据包含多项业务的特征信息、对应所述特征信息的动作指令、以及相应账户对执行所述动作指令的反馈信息的训练样本进行训练获得的。因而本发明实施例的系统，可以建立在对多项业务的特征信息、动作指令和用户对执行动作指令对应的功能的反馈信息进行训练学习的基础上，生成动作指令来指示是否执行与目标业务相对应的业务动作，因而生成的动作指令会更加符合各个业务的特征信息，使得生成的动作指令的准确性更高，更加符合用户的要求，从而提升用户体验。并且，本发明的实施例还可以利用动作确定模型输出的动作指令，以及该动作指令对应的反馈信息和特征信息，对动作确定模型进行更新，从而进一步提升生成的动作指令结果的准确度，进一步提升用户体验。
148.实施例三
149.参照图4，示出了本发明实施例四的一种用于确定动作执行的方法的步骤流程图。该用于确定动作执行的方法可以包括以下步骤：
150.步骤401：响应于接收到的携带有账户信息的访问请求，采集与所述账户信息对应的目标业务的特征信息。
151.本发明实施例中，目标业务为终端可以实现的某项业务，例如使用视频应用程序观看视频的业务、使用浏览器搜索信息的业务、终端进行网络切换的业务等。其中，可以理解的是，这里只是对目标业务的举例说明，并不限于目标业务所包括的内容只限于此处的描述。
152.所述特征信息包括用户画像、场景特征、历史行为和内容特征中的至少一项。其中，对于特征信息所包括的这几项内容的具体说明如下所述：
153.用户画像，包括用户的属性信息，如年龄、性别、兴趣爱好、以及在终端上的历史浏览记录等。
154.场景特征，用于描述目标业务的应用场景，比如目标业务的应用时间、所应用的网络类型等。
155.历史行为：包括用户针对目标业务的操作行为，比如在预定时间段的点击数、点赞数等。
156.内容特征：包括目标业务的显示界面所展示的内容的特征，例如信息推送的时候，推送内容本身的属性，广告竞价的时候，竞价物品本身的价值等。
157.步骤402：将所述目标业务的特征信息输入预先确定的动作确定模型，输出所述目标业务对应的动作指令。
158.所述动作确定模型是根据包含多项业务的特征信息、对应特征信息的动作指令、以及相应账户对执行所述动作指令的反馈信息的训练样本进行训练获得的。
159.其中，用于获取动作确定模型的多项业务为终端可以实现的业务，例如使用视频
应用程序观看视频的业务、使用浏览器搜索信息的业务、终端进行网络切换的业务等。其中，可以理解的是，这里只是对业务的举例说明，并不限于上述业务所包括的内容只限于此处的描述。对应特征信息的动作指令，为控制发送方执行该特征信息对应的业务的控制指令，从而实现对应的功能。反馈信息即为发送方对执行动作指令后所实现的功能的反馈。
160.可选的，所述动作确定模型通过如下过程训练获得：
161.获取多项业务的特征信息、对应所述特征信息的动作指令、以及相应账户对执行所述动作指令的反馈信息；
162.将所述特征信息、所述动作指令和所述反馈信息拼接为训练样本；
163.将所述训练样本拼接为状态转移样本流；
164.对所述状态转移样本流进行训练，获得所述动作确定模型。
165.本发明的实施例中，训练动作确定模型，需要海量数据，即需要海量业务的特征信息和动作指令以及用户对动作指令对应的功能的反馈信息，进行训练。而在进行训练的过程中，首先需要将业务的特征信息、动作指令以及反馈信息进行拼接，得到训练样本，其中，一个训练样本中包括一项业务的特征信息、与该项业务对应的动作指令以及用户对该动作指令对应的功能的反馈信息。
166.具体地，一个训练样本的数据格式可如下所示：
167.特征信息：字典类结构，每个条目对应着特征名及其对应的值；
168.动作指令：字典类结构，每个条目对应着模型给出的动作指令或补充信息；
169.反馈信息：字典类结构，每个条目对应一种形式的奖赏，例如点击、点赞等等。
170.动作指令序列序号(episode id)：用于标识训练样本属于哪个动作指令序列。例如，可以一个episode是对于一个用户一天内的动作指令序列。其中，那么此种情况下，可以将用户id作为episode id。
171.在获得训练样本后，可以对训练样本进行状态转移拼接。其中，状态转移拼接与监督式学习不同，可以强化学习优化一个动作序列的整体效果，因而，本发明实施例中，在训练动作确定模型的过程中，对训练样本进行状态转移拼接，可以优化强化学习优化属于一个动作指令序列的整体效果，从而可以提升动作确定模型输出的动作指令可以实现更加符合用户需求的功能，即提升动作确定模型生成动作指令的准确度。
172.在获得状态转移样本流后，则可以对状态转移样本流进行训练，从而获得动作确定模型。
173.可选的，所述将所述训练样本拼接为状态转移样本流，包括：
174.将属于同一个用户且在时间上相邻的两个所述训练样本，拼接为一个所述状态转移样本流。
175.例如，获得用户a的第一训练样本、第二训练样本和第三训练样本，这三个训练样本，且这三个训练样本的时间排序为：第一训练样本、第二训练样本和第三训练样本，则第一训练样本和第二训练样本可以拼接为一个状态转移样本流，第二训练样本和第三训练样本可以拼接为一个状态转移样本流。
176.可选的，对所述状态转移样本流进行训练，包括：
177.采用时序差分方法，对所述状态转移样本流进行训练。
178.其中，时序差分方法是模拟(或者经历)一段序列，每行动一步(或者几步)，根据新
状态的价值，然后估计执行前的状态价值。因而，采用时序差分法对状态转移样本进行训练来获得动作确定模型，可以使得后续由动作确定模型输出的动作指令更加与业务的特征信息相匹配，即可以提高生成动作的指令准确度。
179.可选的，所述采用时序差分方法，对所述状态转移样本流进行训练，包括：
180.将所述状态转移样本流存储到数据仓库hive中；
181.将所述数据仓库hive中存储的数据转换为与所述动作确定模型相匹配的数据格式，获得待训练样本；
182.将所述待训练样本存储到分布式文件系统hdfs中；
183.读取所述分布式文件系统hdfs中的数据，采用时序差分方法进行训练。
184.其中，与动作确定模型相匹配的数据格式例如可以为tfrecord数据格式。其中，tfrecord内部使用了“protocol buffer”二进制数据编码方案，它只占用一个内存块，只需要一次性加载一个二进制文件的方式即可，简单，快速，尤其对大型训练数据很友好。而且当我们的训练数据量比较大的时候，可以将数据分成多个tfrecord文件，来提高处理效率。
185.由此可知，本发明的实施例中，在采用时序差分方法对状态转移样本流进行训练时，需要经过一系列标准化流程，例如先存储到hive，再转换成动作确定模型需要的格式并存储到hdfs，从而读取hdfs上的数据训练动作确定模型。在训练过程中，将算法和业务区分开，在算法层面，支持dqn(深度状态动作值函数网络)、ddpg(深度确定策略梯度网络)等强化学习算法及对应的评价指标，这方面对所有业务通用；在业务层面，各个业务有其自定义的特征配置、业务指标。因此，针对全新的业务，只需要定义业务相关部分，便可以进行模型的训练。
186.其中，hive是基于hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类sql查询功能。hive具有：可扩展性(例如hive可以自由的扩展集群的规模，一般情况下不需要重启服务)、延展性(例如hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数)、良好的容错性(例如节点出现问题sql仍可完成执行)。因而，本发明的实施例中，在训练动作确定模型的过程中，将状态转移样本流存储到hive中，便于数据的查询和分析。
187.另外，hdfs具有高容错性的特点，并且设计用来部署在低廉的硬件上。而且它提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集的应用程序，可以实现流的形式访问文件系统中的数据。因而，在训练动作确定模型的过程中，将转换为动作确定模型所匹配的数据格式的状态转移样本流存储到hdfs中，便于持久化和分布式训练。
188.可选的，获取对应所述特征信息的动作指令，包括：
189.获取所述动作确定模型输出的对应所述特征信息的动作指令；
190.所述将所述特征信息、所述动作指令和所述反馈信息拼接为训练样本，包括：
191.根据相邻两个所述动作指令的反馈信息的时间间隔，存储所述特征信息和所述动作指令；
192.根据相邻两个所述反馈信息之间的时间间隔，以及存储的相邻两个所述特征信息之间的延迟时间，将所述特征信息、所述动作指令和所述反馈信息拼接为训练样本。
193.由此可知，本发明的实施例，还可动作确定模型的输出的动作指令以及用户对该动作指令的反馈，进一步对动作确定模型进行更新，从而进一步提升生成动作指令结果的
准确度，进而提升用户体验。
194.其中，由于在利用动作确定模型进行线上服务时，动作指令的输出时刻与反馈信息的获得时刻之间往往存在延迟，例如动作指令是推送视频，反馈信息是观看视频时，往往在判断出需要为用户推送视频后，间隔很久用户才观看视频。因而，需要根据相邻反馈信息之间的时间间隔，将对应的特征信息和动作指令存储在数据队列中，从而能够根据反馈信息的间隔时间，以及数据队列中相邻两个特征信息之间的延迟时间确定特征信息和动作指令与反馈信息之间的对应关系，从而避免了特征信息和动作指令与反馈信息之间的不对应，保证了数据的正确性。
195.另外，在利用动作模型输出的动作指令，以及该动作指令对应的特征信息和反馈信息对动作模型进行更新的过程中，首先需要将特征信息、动作指令以及反馈信息进行拼接，得到训练样本，其中，一个训练样本中包括一项业务的特征信息、与该项业务对应的动作指令以及用户对该动作指令对应的功能的反馈信息。在获得训练样本后，可以对训练样本进行状态转移拼接，获得状态转移样本流，然后采用时序差分方法，对状态转移样本流进行训练，最终实现对动作确定模型的更新。
196.步骤403：将所述动作指令发送给所述访问请求的发送方。
197.其中，根据动作指令执行业务动作的发送方的运行状态会发生变化，例如目标业务为利用视频应用程序观看视频，动作指令为推送视频，则终端接收到该动作指令后，会在刷新页面时显示被推送的视频列表。
198.综上所述，本发明实施例的用于确定动作执行的方法，通过响应于接收到的携带有账户信息的访问请求，并采集与该账户信息对应的目标业务的特征信息，从而将该特征信息输入到动作确定模型输出与该目标业务对应的动作指令，并返回给访问请求的发送方，其中，动作确定模型是根据包含多项业务的特征信息、对应所述特征信息的动作指令、以及相应账户对执行所述动作指令的反馈信息的训练样本进行训练获得的。因而本发明实施例的方法，可以建立在对多项业务的特征信息、动作指令和用户对执行动作指令对应的功能的反馈信息进行训练学习的基础上，生成动作指令来指示是否执行与目标业务相对应的业务动作，因而生成的动作指令会更加符合各个业务的特征信息，使得生成的动作指令的准确性更高，更加符合用户的要求，从而提升用户体验。
199.实施例四
200.参照图5，示出了本发明实施例四的一种终端的结构框图。
201.本发明实施例的终端可以包括：存储器、处理器及存储在存储器上并可在处理器上运行的用于确定动作执行的程序，用于确定动作执行程序被处理器执行时实现本发明中所述的任意一种用于确定动作执行的方法的步骤。
202.图5是根据一示例性实施例示出的一种终端500的框图。例如，终端500可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。
203.参照图5，终端500可以包括以下一个或多个组件：处理组件502，存储器504，电源组件506，多媒体组件508，音频组件510，输入/输出(i/o)的接口512，传感器组件514，以及通信组件516。
204.处理组件502通常控制装置500的整体操作，诸如与显示，电话呼叫，数据通信，相
机操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器520来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件502可以包括一个或多个模块，便于处理组件502和其他组件之间的交互。例如，处理部件502可以包括多媒体模块，以方便多媒体组件508和处理组件502之间的交互。
205.存储器504被配置为存储各种类型的数据以支持在终端500的操作。这些数据的示例包括用于在终端500上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。
206.电源组件506为终端500的各种组件提供电力。电源组件506可以包括电源管理系统，一个或多个电源，及其他与为终端500生成、管理和分配电力相关联的组件。
207.多媒体组件508包括在所述终端500和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件508包括一个前置摄像头和/或后置摄像头。当终端500处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
208.音频组件510被配置为输出和/或输入音频信号。例如，音频组件510包括一个麦克风(mic)，当终端500处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。
209.i/o接口512为处理组件502和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。
210.传感器组件514包括一个或多个传感器，用于为终端500提供各个方面的状态评估。例如，传感器组件514可以检测到终端500的打开/关闭状态，组件的相对定位，例如所述组件为终端500的显示器和小键盘，传感器组件514还可以检测终端500或终端500一个组件的位置改变，用户与终端500接触的存在或不存在，装置500方位或加速/减速和终端500的温度变化。传感器组件514可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器，如cmos或ccd图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件514还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。
211.通信组件516被配置为便于终端500和其他设备之间有线或无线方式的通信。终端500可以接入基于通信标准的无线网络，如wifi，2g或3g，或它们的组合。在一个示例性实施例中，通信部件516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件516还包括近场通信(nfc)模块，以促进短程通信。例
如，在nfc模块可基于射频识别(rfid)技术，红外数据协会(irda)技术，超宽带(uwb)技术，蓝牙(bt)技术和其他技术来实现。
212.在示例性实施例中，终端500可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现，用于执行用于确定动作执行的方法，具体地用于确定动作执行的方法包括：
213.响应于接收到的携带有账户信息的访问请求，采集与所述账户信息对应的目标业务的特征信息；
214.将所述目标业务的特征信息输入预先确定的动作确定模型，输出所述目标业务对应的动作指令；
215.将所述动作指令发送给所述访问请求的发送方；
216.其中，所述动作确定模型是根据包含多项业务的特征信息、对应特征信息的动作指令、以及相应账户对执行所述动作指令的反馈信息的训练样本进行训练获得的。
217.可选的，所述动作确定模型通过如下过程训练获得：
218.获取多项业务的特征信息、对应所述特征信息的动作指令、以及相应账户对执行所述动作指令的反馈信息；
219.将所述特征信息、所述动作指令和所述反馈信息拼接为训练样本；
220.将所述训练样本拼接为状态转移样本流；
221.对所述状态转移样本流进行训练，获得所述动作确定模型。
222.可选的，所述将所述训练样本拼接为状态转移样本流，包括：
223.将属于同一个用户且在时间上相邻的两个所述训练样本，拼接为一个所述状态转移样本流。
224.可选的，对所述状态转移样本流进行训练，包括：
225.采用时序差分方法，对所述状态转移样本流进行训练。
226.可选的，所述采用时序差分方法，对所述状态转移样本流进行训练，包括：
227.将所述状态转移样本流存储到数据仓库hive中；
228.将所述数据仓库hive中存储的数据转换为与所述动作确定模型相匹配的数据格式，获得待训练样本；
229.将所述待训练样本存储到分布式文件系统hdfs中；
230.读取所述分布式文件系统hdfs中的数据，采用时序差分方法进行训练。
231.可选的，获取对应所述特征信息的动作指令，包括：
232.获取所述动作确定模型输出的对应所述特征信息的动作指令；
233.所述将所述特征信息、所述动作指令和所述反馈信息拼接为训练样本，包括：
234.根据相邻两个所述动作指令的反馈信息的时间间隔，存储所述特征信息和所述动作指令；
235.根据相邻两个所述反馈信息之间的时间间隔，以及存储的相邻两个所述特征信息之间的延迟时间，将所述特征信息、所述动作指令和所述反馈信息拼接为训练样本。
236.在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器504，上述指令可由终端500的处理器520执行以完成上述用于确定动
作执行的方法。例如，所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。当存储介质中的指令由终端的处理器执行时，使得终端能够执行本发明中所述的任意一种用于确定动作执行的方法的步骤。
237.本发明实施例提供的用于确定动作执行的方法，通过响应于接收到的携带有账户信息的访问请求，并采集与该账户信息对应的目标业务的特征信息，从而将该特征信息输入到动作确定模型输出与该目标业务对应的动作指令，并返回给访问请求的发送方，其中，动作确定模型是根据包含多项业务的特征信息、对应所述特征信息的动作指令、以及相应账户对执行所述动作指令的反馈信息的训练样本进行训练获得的。因而本发明实施例的方法，可以建立在对多项业务的特征信息、动作指令和用户对执行动作指令对应的功能的反馈信息进行训练学习的基础上，生成动作指令来指示是否执行与目标业务相对应的业务动作，因而生成的动作指令会更加符合各个业务的特征信息，使得生成的动作指令的准确性更高，更加符合用户的要求，从而提升用户体验。
238.对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
239.在此提供的用于确定动作执行的方案不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造具有本发明方案的系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
240.在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。
241.类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。
242.本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
243.此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的
范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
244.本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明实施例的用于确定动作执行的方案中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。
245.应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：姜飞;韩帅;卞俊杰;王天驹;杨乃君;叶璨
技术所有人：北京达佳互联信息技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。