一种获取APP类型的数据处理系统的制作方法

文档序号：33191742发布日期：2023-02-04 08:47阅读：39来源：国知局

一种获取app类型的数据处理系统
技术领域
1.本发明涉及app处理技术领域，特别是涉及一种获取app类型的数据处理系统。

背景技术：

2.随着智能化的普及和发展，越来越多的应用软件(app)出现在设备端的应用平台中，技术的不断创新与发展，使得应用软件的类型越来越多，每个类型下应用软件的数量也越来越多，如何对设备端应用平台中的应用软件进行清晰的分类处理成为热门研究问题，通过获取app标签从而对app进行精准分类，能够为用户提供更加精准化服务。
3.目前，现有技术中，获取app分类的方法为：基于app的id获取对应的描述信息，将对应的描述信息输入模型中生成向量，基于app的id获取预设安装序列生成向量，将生成的所有向量输入到分类模型中进行app类型的输出，以上所述获取app类型的方法存在的问题：
4.一方面，因方法的局限性，app标签简单化，使得对app分类的精确度较低；
5.另一方面，因app数量的巨大，只局限于对特定部分的app进行分类，不能全面自动覆盖所有app，使获取到的app类型的准确度较低。

技术实现要素：

6.针对上述技术问题，本发明采用的技术方案为：一种获取app类型的数据处理系统，系统包括：第一数据库、第二数据库、第三数据库、处理器和存储有计算机程序的存储器，其中，第一数据库包括原始app集，其中，原始app集为所有的应用平台中所有app的集合，第二数据库包括样本app集，其中，样本app集包括第一样本app集和第二样本app集，第三数据库包括非样本app集，其中，非样本app集为原始app集中除所述样本app集之外的app集合，当计算机程序被处理器执行时，实现以下步骤：
7.s10，从非样本app集中获取第一非样本app列表fa＝{fa1，
……
，fa
α
，
……
，fa
λ
}和第二非样本app列表fb＝{fb1，
……
，fb
β
，
……
，fb
γ
},fa
α
为第α个第一非样本app信息，α＝1
……
λ，λ为第一非样本app的数量，fb
β
为第β个第二非样本app信息，β＝1
……
γ，γ为第二非样本app的数量。
8.s20，根据第一样本app集，获取初始app列表b＝{b1，
……
，bi，
……
，bm}、b对应的初始文本列表c＝{c1，
……
，ci，
……
，cm}和b对应的初始pkg列表q＝{q1，
……
，qi，
……
，qm}，bi为第i个初始app名称，ci为bi对应的初始app文本，qi为bi对应的pkg名称,i＝1
……
m，m为初始app的数量。
9.s30，根据b和c，获取b对应的目标标签集d'＝{d'1，
……
，d'i，
……
，d'm}，d'i为bi对应的目标标签列表。
10.s40，根据fa
α
和bi，获取fa
α
对应的最终标签列表。
11.s50，根据fb
β
和qi，获取fb
β
对应的最终标签列表。
12.s60，根据fa
α
对应的最终标签列表和fb
β
对应的最终标签列表，获取到fa
α
对应的
app类型和fb
β
对应的app类型。
13.本发明与现有技术相比具有明显的有益效果，借由上述技术方案，本发明提供的一种获取app类型的数据处理系统可达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有以下有益效果：
14.本发明提供了一种获取app类型的数据处理系统，系统包括：第一数据库、第二数据库、第三数据库、处理器和存储有计算机程序的存储器，其中，第一数据库包括原始app集，其中，原始app集为所有的应用平台中所有app的集合，第二数据库包括样本app集，其中，样本app集包括第一样本app集和第二样本app集，第三数据库包括非样本app集，其中，非样本app集为原始app集中除所述样本app集之外的app集合，当计算机程序被处理器执行时，实现以下步骤：从非样本app集中获取第一非样本app列表和第二非样本app列表，根据第一样本app集获取到的初始app列表和初始app列表对应的初始文本列表获取初始app对应的目标标签列表，根据第一非样本app和初始app获取第一非样本app的最终标签，根据第二非样本app和初始app获取第二非样本app的最终标签，根据第一非样本app的最终标签和第二非样本app的最终标签获取非样本app对应的app类型。可知，本发明一方面，通过模型训练获取样本标签并且将样本的标签进行处理，使app标签复杂化，使得获取到的app标签的精确度较高；另一方面，不局限于对特定部分的app进行分类，通过对app采用不同的处理方式，能够全面自动覆盖到所有app，使获取到的app类型的准确度较高。
附图说明
15.图1为本发明实施例提供的一种获取app类型的数据处理系统的执行计算机程序的流程图。
具体实施方式
16.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
17.需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
18.本发明提供了一种获取app类型的数据处理，所述系统包括：第一数据库、第二数据库、第三数据库、处理器和存储有计算机程序的存储器，其中，所述第一数据库包括原始app集，其中，所述原始app集为所有的应用平台中所有app的集合，第二数据库包括样本app集，其中，样本app集包括第一样本app集和第二样本app集，第三数据库包括非样本app集，其中，所述非样本app集为原始app集中除所述样本app集之外的app集合，当所述计算机程
序被处理器执行时，实现以下步骤，如图1所示：
19.s10，从所述非样本app集中获取第一非样本app列表fa＝{fa1，
……
，fa
α
，
……
，fa
λ
}和第二非样本app列表fb＝{fb1，
……
，fb
β
，
……
，fb
γ
},fa
α
为第α个第一非样本app信息，α＝1
……
λ，λ为第一非样本app的数量，fb
β
为第β个第二非样本app信息，β＝1
……
γ，γ为第二非样本app的数量。
20.具体的，所述初始文本为用于描述初始app的文本。
21.具体的，所述第一非样本app信息包括第一非样本app名称且不包括第一非样本app的app文本和第一非样本app的pkg名称。
22.具体的，所述第二非样本app信息包括第二非样本app的pkg名称且不包括第二非样本app的app文本和第二非样本app的名称。
23.s20，根据所述第一样本app集，获取初始app列表b＝{b1，
……
，bi，
……
，bm}、b对应的初始文本列表c＝{c1，
……
，ci，
……
，cm}和b对应的初始pkg列表q＝{q1，
……
，qi，
……
，qm}，bi为第i个初始app名称，ci为bi对应的初始app文本，qi为bi对应的pkg名称,i＝1
……
m，m为初始app的数量。
24.具体的，在s20中还包括如下步骤：
25.s210，获取第一样本app集h＝{h1，
……
，hj，
……
，hn}，hj＝{h
j1
，
……
，h
jy
，
……
，h
jq(j)
}，h
jy
为第j个app应用平台对应的第y个第一样本app信息，j＝1
……
n，n为app应用平台的数量，y＝1
……
q(j)，q(j)为第j个app应用平台对应的第一样本app的数量，其中，所述第一样本app信息包括第一样本app名称和第一样本app的app文本。
26.s220，遍历h且从h中获取h
jy
对应的关键app列表u
jy
＝{u
1jy
，
……
，u
ejy
，
……
，u
fjy
}，其中，u
ejy
为h
jy
对应的第e个关键app信息，e＝1
……
f，f为关键app的数量，其中，所述关键app信息包括关键app名称和关键app的app文本，其中，每一u
ejy
中关键app名称与h
jy
中第一样本app名称一致。
27.s230，根据u
jy
，获取u
jy
对应的文字字符数量列表sl
jy
＝{sl
1jy
，
……
，sl
ejy
，
……
，sl
fjy
}，sl
ejy
为u
ejy
对应的app文本中字符数量。
28.s240，遍历sl
jy
且当sl
ejy
为sl
jy
中最大app文本中字符数量时，将u
ejy
插入值b中。
29.上述，通过获取关键app对应的文字字符数量最大的文本，使得获取到的app的信息更加准确，有效的确定出app名称和对应的app文本，进而避免因不同的app应用平台导致同一app出现不同的文本对app进行描述。
30.s30，根据b和c，获取b对应的目标标签集d'＝{d'1，
……
，d'i，
……
，d'm},d'i为bi对应的目标标签列表。
31.具体的，在s30中还包括如下步骤：
32.s310，根据bi和ci，获取bi对应的目标词向量列表di＝{b
0i
，c
0i1
，
……
，c
0ix
，
……
，c
0ip(i)
}，b
0i
为bi对应的第一词向量，c
0ix
为ci对应的第x个第二词向量，x＝1
……
p(i)，p(i)为ci对应的第二词向量的数量。
33.在一个具体的实施例中，在s310之前还包括如下步骤：
34.s3101，对ci进行分词处理，获取ci对应的第一初始词列表，其中，本领域技术人员知晓，可以根据实际需求采取现有技术中任一分词处理的方法，在此不再赘述。
35.s3103，从ci对应的第一初始词列表删除预设词列表中预设词，获取到ci对应的第
二初始词列表；其中，本领域技术人员知晓，根据实际需求设置预设词列表，例如，预设词为“的”、“得”等，在此不再赘述。
36.s3105，将ci对应的第二初始词列表中任一第二初始词输入至词嵌入模型中，获取第二词向量。
37.进一步的，bi和ci的向量维度一致，本领域技术人员知晓，根据实际需求确定任一词嵌入模型获取初始app名称对应的词向量和初始app文本中任一词与对应的词向量，在此不再赘述。
38.s320，将di输入至预设的第一神经网络模型中，获取bi对应的第一中间标签列表d
0i
。
39.具体的，所述样本app集还包括第二样本app集。
40.在一个具体的实施例中，在s320中通过如下步骤获取第一神经网络模型：
41.s3201，根据所述第二样本app集，获取所述第二样本app集对应的第一样本词向量，其中，所述第二样本app集合中每一第二样本app信息包括：第二样本app名称、第二样本app名称的app文本和第二样本app名称对应的app标签列表。
42.具体的，所述获取第一样本词向量的方式与获取目标词向量的方式一致。
43.上述，通过采用相同的获取词向量的方式，能够保证获取到的样本词向量和目标词向量的表示方式一致，为后续进行app分类提供有效的数据，使得获取到的app类型的准确度较高。
44.s3203，将所述第二样本app集对应的第一样本词向量集作为训练数据集输入至预设的第一初始神经网络模型中，获取到所述第二样本app集对应的样本标签集，所述样本标签集包括第二样本app名称对应的第一样本标签列表，其中，本领域技术人员知晓训练神经网络模型的过程，在此不再赘述。
45.s3205，根据所述第二样本app名称对应的第一样本标签列表和第二样本app名称对应的app标签列表，获取到第一神经网络模型。
46.上述，通过app名称和app文本训练神经网络模型进而获取到第一神经网络模型，能够准确的确定出app标签，进而准确的获取到的无文本描述的app类型。
47.s330，当d
0i
＝null时，将bi对应的初始app作为第一app。
48.s340，当d
0i
≠null且k
0i
≥k0时，将bi对应的初始app作为第一app，其中，k
0i
为d
0i
对应的第一中间标签数量，k0为预设的标签数量阈值。
49.具体的，所述预设的标签数量阈值k0的取值范围为1～3，其中，本领域技术人员知晓，根据实际需求进行k0的选取，在此不再赘述。
50.上述，基于第一神经网络模型获取到的标签数量过多的app，将标签数量过多的app进行进一步的确定app标签，使得app获取到更加准确的标签，进而准确的获取到无文本描述的app类型。
51.s350，当d
0i
≠null且k
0i
＜k0时，将bi对应的初始app作为第二app。
52.上述，能够通过初始app名称和初始app文本，准确的确定出app的初始app的标签，进而基于初始app的标签，准确的获取到无文本描述的app类型。
53.s360，对所述第一app进行第一标记处理，获取第一app对应的目标标签。
54.具体的，所述第一标记处理为通过标记员对app进行标记标签的处理。
55.s370，对所述第二app进行第二标记处理，获取第二app对应的目标标签。
56.具体的，在s370中还包括如下步骤：
57.s3701，根据任一第二app对应的第一中间标签列表，获取第二app对应的第二中间标签列表g＝{g1，
……
，gr，
……
，gs}，gr为第二app对应的第r个第二中间标签，r＝1
……
s，s为第二app对应的中间标签的数量。
58.s3703，获取预设app标签列表g0＝{g
01
，
……
，g
0t
，
……
，g
0g
}，g
0t
为第t个预设app标签，t＝1
……
g，g为预设app标签的数量，其中，预设app标签为预设的表征虚拟现实的app对应的标签。
59.s3705，当gr≠g
0t
时，将第二app对应的第一中间标签作为第二app对应的目标标签。
60.s3707，当gr＝g
0t
时，将第二app对应的目标词向量列表输入至预设的第二神经网络模型，获取所述第二app对应的第三中间标签列表。
61.在一个具体的实施例中，在s3707中通过如下步骤获取第二神经网络模型：
62.s37071，根据第三样本app集，获取所述第三样本app集对应的第二样本词向量，其中，所述样本app集中还包括第三样本app集，所述第三样本app集合中每一第三样本app信息包括：第三样本app名称、第三样本app名称的app文本和第三样本app名称对应的app标签列表，其中，所述第三样本app为表征虚拟现实的app。
63.具体的，所述获取第二样本词向量的方式与获取目标词向量的方式一致。
64.s37073，将所述第三样本app集对应的第二样本词向量作为训练数据集输入至预设的第二初始神经网络模型中，获取到所述第三样本app集对应的第二样本标签集，所述第二样本标签集包括第三样本app名称对应的第二样本标签列表，其中，本领域技术人员知晓训练神经网络模型的过程，在此不再赘述。
65.s37075，根据所述第三样本app名称对应的第二样本标签列表和第三样本app名称对应的app标签列表，获取到第二神经网络模型。
66.s3709，将所述第二app对应的第三中间标签列表中第三中间标签作为第二app对应的目标标签。
67.上述，对于表征虚拟现实的app需要通过单独的神经网络模型获取标签，避免因采用同一神经网络模型，无法准确的确定出此类app的标签，导致无法准确的获取到无文本描述的app类型，通过对虚拟现实的app进行进一步的标签处理，进而生成对虚拟现实的app的更加准确的标签，进而准确的获取到无文本描述的app类型。
68.s380，根据第一app对应的目标标签和第二app对应的目标标签，获取b对应的目标标签集d'＝{d'1，
……
，d'i，
……
，d'm},d'i为bi对应的目标标签列表。
69.上述，通过app名称和app文本准确的获取到app的标签，以使得根据app的标签，对文本描述的app进行分类，使得app应用平台中大部分app具有标签。
70.s40，根据fa
α
和bi，获取fa
α
对应的最终标签列表。
71.具体的，在s40中还包括如下步骤：
72.s410,根据fa和b，获取fa对应的第一相似度列表f＝{f1，
……
，f
α
，
……
，f
λ
},f
α
＝{f
1α
，
……
，f
iα
，
……
，f
mα
}，f
iα
为fa
α
和bi之间的第一相似度。
73.具体的，在s410之前还包括如下步骤：
74.s4101，获取fa
α
对应的第一中间字符串。
75.s4103，遍历fa
α
对应的第一中间字符串且将fa
α
对应的第一中间字符串中非中文字符删除，获取fa
α
对应的第二中间字符串。
76.s4105，根据fa
α
对应的第二中间字符串，获取fa
α
对应的第一中间词向量。
77.s4107，根据fa
α
对应的第一中间词向量和b
0i
，获取f
iα
，本领域技术人员可以实际需求确定获取向量之间的相似度方法，例如，向量之间的余弦相似度，在此不再赘述。
78.上述，将app中涉及非中文的词删除，避免影响到app名称之间相似度的准确性，进而可以准确的确定出此类app的标签，以使得准确的获取到无文本描述的app类型。
79.s430，当f
iα
为最大的第一相似度且f
iα
≥f
01
时，将d'i作为fa
α
对应的最终标签列表，其中，f
01
为预设的第一相似度阈值。
80.具体的，所述预设的第一相似度阈值f
01
的取值范围为0.8～0.9，本领域技术人员根据实际需求设置第一相似度阈值，在此不再赘述。
81.s450，当f
iα
为最大的第一相似度且f
iα
＜f
01
时，根据bi和ci，获取fa
α
对应的最终标签列表。
82.具体的，在s450中还包括如下步骤：
83.s4501，获取ci对应的第二初始词列表。
84.s4503，根据ci对应的第二初始词列表，获取ci对应的第二初始词列表中任一关键词的优先级yx
vi
,其中，其中，η
vi
为ci对应的第二初始词列表中第v个第二初始词在ci中出现的次数，λ
vi
为ci对应的第二初始词列表中第v个第二初始词在b和c中出现的总次数，μ
vi
为在d'i对应的目标标签中bi的数量。
85.s4507，当yx
vi
≥yx0时，将yx
vi
对应的第二初始词作为d'i的关键词，其中，yx0为关键词的优先级阈值，本领域技术人员知晓，根据实际需求设置关键词的优先级阈值，在此不再赘述。
86.s4509，根据d'i的关键词与fa
α
之间的相似度，获取fa
α
对应的最终标签列表；可以理解为：将d'i的关键词转化成d'i的关键词向量，根据d'i的关键词向量与fa
α
对应的第一中间词向量，获取d'i的关键词与fa
α
之间的相似度，当d'i的关键词与fa
α
之间的相似度不小于第一相似度阈值时，基于d'i的关键词在d'中对应的所有目标标签，构建fa
α
对应的最终标签列表。
87.上述，能够避免因无文本描述的app名称无法匹配时，导致无法获取到无文本描述的app的标签，提高了获取无文本描述的app的标签的准确性和范围。
88.s50，根据fb
β
和qi，获取fb
β
对应的最终标签列表。
89.具体的，在s50中还包括如下步骤：
90.s510,根据fb和q，获取fb对应的第二相似度列表f'＝{f'1，
……
，f'
β
，
……
，f'
γ
},f'
β
＝{f'
1β
，
……
，f'
iβ
，
……
，f'
mβ
}，f'
iβ
为fb
β
和qi之间的第二相似度。
91.具体的，所述获取第二相似度列表的方式与获取第一相似度列表的方式一致。
92.s530，当f'
iβ
为最大的第二相似度且f'
iβ
≥f
02
时，将d'i作为fb
β
对应的最终标签列表，其中，f
02
为预设的第二相似度阈值。
93.具体的，所述预设的第二相似度阈值f
02
的取值范围为0.8～0.9，本领域技术人员
根据实际需求设置第二相似度阈值，在此不再赘述。
94.s550，当f
iα
为最大的第二相似度且f
iα
＜f
02
时，未生成fb
β
对应的最终标签列表。
95.在另一个具体的实施例中，所述非样本app集合中还包括第三非样本app列表，其中，所述第三非样本app信息包括第三非样本app名称和第三非样本app的pkg名称且不包括app文本，当所述计算机程序被处理器执行时，实现以下步骤：
96.s1，根据第三非样本app名称与b，确定出第三非样本app对应的最终标签列表，其中，根据第三非样本app名称与b，确定出第三非样本app对应的最终标签列表的方法与s40一致，在此不再赘述。
97.s2，当第三非样本app名称与d'i的关键词之间的相似度小于第一相似度阈值时，根据第三非样本app的pkg名称与q，确定出第三非样本app对应的最终标签列表，其中，根据第三非样本app的pkg名称与q，确定出第三非样本app对应的最终标签列表的方法与s50一致，在此不再赘述。
98.上述，通过对不同的app采用不同的处理方式，能够全面自动覆盖到所有app，使获取到的app类型的准确度较高。
99.s60，根据所述fa
α
对应的最终标签列表和所述fb
β
对应的最终标签列表，获取到fa
α
对应的app类型和fb
β
对应的app类型。
100.上述，通过具有文本描述的app，获取到无文本描述的app的标签，进而根据无文本描述的app的标签，能够准确的对app应用平台中的app进行分类，以使得更多的app划分到准确的类型中，便于用户查找。
101.本发明提供了一种获取app类型的数据处理系统，系统包括：第一数据库、第二数据库、第三数据库、处理器和存储有计算机程序的存储器，其中，第一数据库包括原始app集，其中，原始app集为所有的应用平台中所有app的集合，第二数据库包括样本app集，其中，样本app集包括第一样本app集和第二样本app集，第三数据库包括非样本app集，其中，非样本app集为原始app集中除所述样本app集之外的app集合，当计算机程序被处理器执行时，实现以下步骤：从非样本app集中获取第一非样本app列表和第二非样本app列表，根据第一样本app集获取到的初始app列表和初始app列表对应的初始文本列表获取初始app对应的目标标签列表，根据第一非样本app和初始app获取第一非样本app的最终标签，根据第二非样本app和初始app获取第二非样本app的最终标签，根据第一非样本app的最终标签和第二非样本app的最终标签获取非样本app对应的app类型。可知，本发明一方面，通过模型训练获取样本标签并且将样本的标签进行处理，对app的分类更加精确，使得获取到的app标签的准确度较高；另一方面，不局限于对特定部分的app进行分类，通过对app采用不同的处理方式，能够全面自动覆盖到所有app，使获取到的app类型的准确度较高。
102.虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：段永康董霖叶新江朱为宁
技术所有人：每日互动股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。