本发明涉及信息处理领域,尤其涉及一种确定应用标签的方法和装置。
背景技术:
随着移动互联网技术的快速发展,以智能手机为主的移动手持设备大大普及并不断改变和影响着人们的生活。为了满足智能终端用户的需求,功能性社交应用快速兴起,终端的应用市场亦称为应用商店,专门为移动设备手机,平板电脑等提供收费或免费应用,通过安装不同的应用软件为人们的工作生活带来了极大的便利。
目前,用户在应用市场中进行应用搜索时,首先,输入关键词,然后,应用市场在接收到用户输入的关键词之后,查询各应用的标签以获取与输入关键词对应的目标应用,并将搜索结果显示给用户。需要说明的是,现有应用标签的确定方式为人工手动定义应用标签,这个过程费事费力,且技术人员往往是根据应用描述的某一句话,或者是基于自己对应用的了解定义应用标签,这样,定义的应用标签往往不准确,由此,现有技术中存在人工定义应用标签效率差,准确率低的问题。
技术实现要素:
有鉴于此,本发明实施例期望提供一种确定应用标签的方法和装置,旨在根据应用描述的内容自动确定应用标签,无需人工参与,提高了确定应用标签的效率,提升了确定应用标签的准确率,进而提高用了户体验。
为达到上述目的,本发明的技术方案是这样实现的:
第一方面,本发明实施例提供一种确定应用标签的方法,所述方法包括:获取应用数据;判断应用数据是否满足预设条件;在应用数据满足预设条件时,提取应用数据的应用描述中的至少一个关键词;根据关键词确定应用数据的应用标签。
在上述方案中,判断应用数据是否满足预设条件,包括:根据应用数据的标识信息,判断应用数据是否缺少标签;或,根据应用数据的版本信息,判断应用数据是否需要更新当前的应用标签。
在上述方案中,在应用数据满足预设条件之后,上述方法包括:根据应用标签为应用数据添加标签;或,根据应用标签更新应用数据当前的应用标签。
在上述方案中,提取应用数据的应用描述中的至少一个关键词,根据关键词确定应用数据的应用标签,包括:对应用描述中的词进行停用词过滤和词性筛选,提取至少一个关键词;根据至少一个关键词在应用描述中出现的频率,对至少一个关键词进行评分,得到至少一个关键词对应的评分结果;提取评分结果超过预设分值的关键词,作为第一关键词集合;根据第一关键词集合确定应用标签。
在上述方案中,根据第一关键词集合确定应用标签,包括:将第一关键词集合内的关键词与标签近义词库中的词进行比对;若第一关键词集合内的关键词与标签近义词库中的词相同,计算第一关键词集合内的相应的关键词的权重加M,其中,M为正整数;若第一关键词集合内的相应的关键词与标签近义词库中的词相近,计算第一关键词集合内的关键词权重加N,其中,N为正整数,且M大于N;将第一关键词集合内的关键词按照预设权重规则排列,作为应用标签。
第二方面,本发明实施例提供了一种确定应用标签的装置,所述装置包括:获取模块,用于获取应用数据;判断模块,用于判断应用数据是否满足预设条件;处理模块,用于在应用数据满足预设条件时,提取应用数据的应用描述中的至少一个关键词,根据关键词确定应用数据的应用标签。
在上述方案中,判断模块,包括:第一判断子模块,用于根据应用数据的标识信息,判断应用数据是否缺少标签;或,第二判断子模块,用于根据应用数据的版本信息,判断应用数据是否需要更新当前的应用标签。
在上述方案中,上述装置还包括:添加模块,用于根据应用标签为应用数据添加标签;或,更新模块,用于根据应用标签更新应用数据当前的应用标签。
在上述方案中,处理模块,包括:第一提取子模块,用于对应用描述中的词进行停用词过滤和词性筛选,提取至少一个关键词;评分子模块,用于根据至少一个关键词在应用描述中出现的频率,对至少一个关键词进行评分,得到至少一个关键词对应的评分结果;第二提取子模块,用于提取评分结果超过预设分值的关键词,作为第一关键词集合;确定子模块,用于根据第一关键词集合确定应用标签。
在上述方案中,确定子模块,包括:比对单元,用于将第一关键词集合内的关键词与标签近义词库中的词进行比对;第一计算单元,用于若第一关键词集合内的关键词与标签近义词库中的词相同,计算第一关键词集合内的相应的关键词的权重加M,其中,M为正整数;第二计算单元,用于若第一关键词集合内的关键词与标签近义词库中的词相近,计算第一关键词集合内的相应的关键词权重加N,其中,N为正整数,且M大于N;处理单元,用于将第一关键词集合内的关键词按照预设权重规则排列,作为应用标签。
本发明实施例提供了一种确定应用标签的方法和装置,首先,获取应用数据,其次,判断应用数据是否满足预设条件;然后,在应用数据满足预设条件时,提取应用数据的应用描述中的至少一个关键词;最后,根据关键词确定应用数据的应用标签,也就是说,本申请所提供的确定应用标签的方法,在获取到应用数据之后,对该应用数据进行预设条件的判断,在满足预设条件时,触发确定应用标签的步骤,这里,预设条件可以是应用数据首次上线,也可以是应用数据升级,此时,应用数据中的应用描述就会发生改变,进而,根据应用描述确定应用标签,可见,本申请提供的确定应用标签的方法全程自动化处理,无需人工参与,提高了确定应用标签的效率以及准确率。
附图说明
图1为实现本发明各个实施例的一个可选的移动终端的硬件结构示意图;
图2为本发明实施例提供的移动终端能够操作的通信系统结构示意图;
图3为本发明实施例提供的确定应用标签的方法的第一种流程示意图;
图4为本发明实施例提供的确定应用标签的方法的第二种流程示意图;
图5为本发明实施例提供的确定应用标签的方法的第三种流程示意图;
图6为本发明实施例提供的确定应用标签的装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
现在将参考附图1来描述实现本发明各个实施例的移动终端。在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身并没有特定的意义。因此,"模块"与"部件"可以混合地使用。
移动终端可以以各种形式来实施。例如,本发明中描述的终端可以包括诸如移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA)、平板电脑(PAD)、便携式多媒体播放器(PMP)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。下面,假设终端是移动终端。然而,本领域技术人员将理解的是,除了特别用于移动目的的元件之外,根据本发明的实施方式的构造也能够应用于固定类型的终端。
图1为实现本发明各个实施例的移动终端的硬件结构示意。
移动终端100可以包括无线通信单元110、音频/视频(A/V)输入单元120、用户输入单元130、感测单元140、输出单元150、存储器160、接口单元170、控制器180和电源单元190等等。图1示出了具有各种组件的移动终端,但是应理解的是,并不要求实施所有示出的组件,可以替代地实施更多或更少的组件,将在下面详细描述移动终端的元件。
无线通信单元110通常包括一个或多个组件,其允许移动终端100与无线通信系统或网络之间的无线电通信。例如,无线通信单元可以包括广播接收模块111、移动通信模块112、无线互联网模块113、短程通信模块114和位置信息模块115中的至少一个。
广播接收模块111经由广播信道从外部广播管理服务器接收广播信号和/或广播相关信息。广播信道可以包括卫星信道和/或地面信道。广播管理服务器可以是生成并发送广播信号和/或广播相关信息的服务器或者接收之前生成的广播信号和/或广播相关信息并且将其发送给终端的服务器。广播信号可以包括TV广播信号、无线电广播信号、数据广播信号等等。而且,广播信号可以进一步包括与TV或无线电广播信号组合的广播信号。广播相关信息也可以经由移动通信网络提供,并且在该情况下,广播相关信息可以由移动通信模块112来接收。广播信号可以以各种形式存在,例如,其可以以数字多媒体广播(DMB)的电子节目指南(EPG)、数字视频广播手持(DVB-H)的电子服务指南(ESG)等等的形式而存在。广播接收模块111可以通过使用各种类型的广播系统接收信号广播。特别地,广播接收模块111可以通过使用诸如多媒体广播-地面(DMB-T)、数字多媒体广播-卫星(DMB-S)、数字视频广播-手持(DVB-H),前向链路媒体(MediaFLO@)的数据广播系统、地面数字广播综合服务(ISDB-T)等等的数字广播系统接收数字广播。广播接收模块111可以被构造为适合提供广播信号的各种广播系统以及上述数字广播系统。经由广播接收模块111接收的广播信号和/或广播相关信息可以存储在存储器160(或者其它类型的存储介质)中。
移动通信模块112将无线电信号发送到基站(例如,接入点、节点B等等)、外部终端以及服务器中的至少一个和/或从其接收无线电信号。这样的无线电信号可以包括语音通话信号、视频通话信号、或者根据文本和/或多媒体消息发送和/或接收的各种类型的数据。
无线互联网模块113支持移动终端的无线互联网接入。该模块可以内部或外部地耦接到终端。该模块所涉及的无线互联网接入技术可以包括WLAN(无线LAN)(Wi-Fi)、Wibro(无线宽带)、Wimax(全球微波互联接入)、HSDPA(高速下行链路分组接入)等等。
短程通信模块114是用于支持短程通信的模块。短程通信技术的一些示例包括蓝牙TM、射频识别(RFID)、红外数据协会(IrDA)、超宽带(UWB)、紫蜂TM等等。
位置信息模块115是用于检查或获取移动终端的位置信息的模块。位置信息模块115的典型示例是GPS(全球定位系统)。根据当前的技术,作为GPS的位置信息模块115计算来自三个或更多卫星的距离信息和准确的时间信息并且对于计算的信息应用三角测量法,从而根据经度、纬度和高度准确地计算三维当前位置信息。当前,用于计算位置和时间信息的方法使用三颗卫星并且通过使用另外的一颗卫星校正计算出的位置和时间信息的误差。此外,作为GPS的位置信息模块115能够通过实时地连续计算当前位置信息来计算速度信息。
A/V输入单元120用于接收音频或视频信号。A/V输入单元120可以包括相机121和麦克风122,相机121对在视频捕获模式或图像捕获模式中由图像捕获装置获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元151上。经相机121处理后的图像帧可以存储在存储器160(或其它存储介质)中或者经由无线通信单元110进行发送,可以根据移动终端的构造提供两个或更多相机121。麦克风122可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风122接收声音(音频数据),并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由移动通信模块112发送到移动通信基站的格式输出。麦克风122可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。
用户输入单元130可以根据用户输入的命令生成键输入数据以控制移动终端的各种操作。用户输入单元130允许用户输入各种类型的信息,并且可以包括键盘、锅仔片、触摸板(例如,检测由于被接触而导致的电阻、压力、电容等等的变化的触敏组件)、滚轮、摇杆等等。特别地,当触摸板以层的形式叠加在显示单元151上时,可以形成触摸屏。
感测单元140检测移动终端100的当前状态,(例如,移动终端100的打开或关闭状态)、移动终端100的位置、用户对于移动终端100的接触(即,触摸输入)的有无、移动终端100的取向、移动终端100的加速或减速移动和方向等等,并且生成用于控制移动终端100的操作的命令或信号。例如,当移动终端100实施为滑动型移动电话时,感测单元140可以感测该滑动型电话是打开还是关闭。另外,感测单元140能够检测电源单元190是否提供电力或者接口单元170是否与外部装置耦接。感测单元140可以包括接近传感器141将在下面结合触摸屏来对此进行描述。
接口单元170用作至少一个外部装置与移动终端100连接可以通过的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。识别模块可以是存储用于验证用户使用移动终端100的各种信息并且可以包括用户识别模块(UIM)、客户识别模块(SIM)、通用客户识别模块(USIM)等等。另外,具有识别模块的装置(下面称为"识别装置")可以采取智能卡的形式,因此,识别装置可以经由端口或其它连接装置与移动终端100连接。接口单元170可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到移动终端100内的一个或多个元件或者可以用于在移动终端和外部装置之间传输数据。
另外,当移动终端100与外部底座连接时,接口单元170可以用作允许通过其将电力从底座提供到移动终端100的路径或者可以用作允许从底座输入的各种命令信号通过其传输到移动终端的路径。从底座输入的各种命令信号或电力可以用作用于识别移动终端是否准确地安装在底座上的信号。输出单元150被构造为以视觉、音频和/或触觉方式提供输出信号(例如,音频信号、视频信号、警报信号、振动信号等等)。输出单元150可以包括显示单元151、音频输出模块152、警报单元153等等。
显示单元151可以显示在移动终端100中处理的信息。例如,当移动终端100处于电话通话模式时,显示单元151可以显示与通话或其它通信(例如,文本消息收发、多媒体文件下载等等)相关的用户界面(UI)或图形用户界面(GUI)。当移动终端100处于视频通话模式或者图像捕获模式时,显示单元151可以显示捕获的图像和/或接收的图像、示出视频或图像以及相关功能的UI或GUI等等。
同时,当显示单元151和触摸板以层的形式彼此叠加以形成触摸屏时,显示单元151可以用作输入装置和输出装置。显示单元151可以包括液晶显示器(LCD)、薄膜晶体管LCD(TFT-LCD)、有机发光二极管(OLED)显示器、柔性显示器、三维(3D)显示器等等中的至少一种。这些显示器中的一些可以被构造为透明状以允许用户从外部观看,这可以称为透明显示器,典型的透明显示器可以例如为TOLED(透明有机发光二极管)显示器等等。根据特定想要的实施方式,移动终端100可以包括两个或更多显示单元(或其它显示装置),例如,移动终端可以包括外部显示单元(未示出)和内部显示单元(未示出)。触摸屏可用于检测触摸输入压力以及触摸输入位置和触摸输入面积。
音频输出模块152可以在移动终端处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时,将无线通信单元110接收的或者在存储器160中存储的音频数据转换音频信号并且输出为声音。而且,音频输出模块152可以提供与移动终端100执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出模块152可以包括扬声器、蜂鸣器等等。
警报单元153可以提供输出以将事件的发生通知给移动终端100。典型的事件可以包括呼叫接收、消息接收、键信号输入、触摸输入等等。除了音频或视频输出之外,警报单元153可以以不同的方式提供输出以通知事件的发生。例如,警报单元153可以以振动的形式提供输出,当接收到呼叫、消息或一些其它进入通信(Incoming Communication)时,警报单元153可以提供触觉输出(例如,振动)以将其通知给用户。通过提供这样的触觉输出,即使在用户的移动电话处于用户的口袋中时,用户也能够识别出各种事件的发生。警报单元153也可以经由显示单元151或音频输出模块152提供通知事件的发生的输出。
存储器160可以存储由控制器180执行的处理和控制操作的软件程序等等,或者可以暂时地存储已经输出或将要输出的数据(例如,电话簿、消息、静态图像、视频等等)。而且,存储器160可以存储关于当触摸施加到触摸屏时输出的各种方式的振动和音频信号的数据。
存储器160可以包括至少一种类型的存储介质,所述存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等等。而且,移动终端100可以与通过网络连接执行存储器160的存储功能的网络存储装置协作。
控制器180通常控制移动终端的总体操作。例如,控制器180执行与语音通话、数据通信、视频通话等等相关的控制和处理。另外,控制器180可以包括用于再现(或回放)多媒体数据的多媒体模块181,多媒体模块181可以构造在控制器180内,或者可以构造为与控制器180分离。控制器180可以执行模式识别处理,以将在触摸屏上执行的手写输入或者图片绘制输入识别为字符或图像。
电源单元190在控制器180的控制下接收外部电力或内部电力并且提供操作各元件和组件所需的适当的电力。
这里描述的各种实施方式可以以使用例如计算机软件、硬件或其任何组合的计算机可读介质来实施。对于硬件实施,这里描述的实施方式可以通过使用特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计为执行这里描述的功能的电子单元中的至少一种来实施,在一些情况下,这样的实施方式可以在控制器180中实施。对于软件实施,诸如过程或功能的实施方式可以与允许执行至少一种功能或操作的单独的软件模块来实施。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来实施,软件代码可以存储在存储器160中并且由控制器180执行。
至此,已经按照其功能描述了移动终端。下面,为了简要起见,将描述诸如折叠型、直板型、摆动型、滑动型移动终端等等的各种类型的移动终端中的滑动型移动终端作为示例。因此,本发明能够应用于任何类型的移动终端,并且不限于滑动型移动终端。
如图1中所示的移动终端100可以被构造为利用经由帧或分组发送数据的诸如有线和无线通信系统以及基于卫星的通信系统来操作。
现在将参考图2描述其中根据本发明的移动终端能够操作的通信系统。
这样的通信系统可以使用不同的空中接口和/或物理层。例如,由通信系统使用的空中接口包括例如频分多址(FDMA)、时分多址(TDMA)、码分多址(CDMA)和通用移动通信系统(UMTS)(特别地,长期演进(LTE))、全球移动通信系统(GSM)等等。作为非限制性示例,下面的描述涉及CDMA通信系统,但是这样的教导同样适用于其它类型的系统。
参考图2,CDMA无线通信系统可以包括多个移动终端100、多个基站(BS)270、基站控制器(BSC)275和移动交换中心(MSC)280。MSC280被构造为与公共电话交换网络(PSTN)290形成接口。MSC280还被构造为与可以经由回程线路耦接到基站270的BSC275形成接口。回程线路可以根据若干己知的接口中的任一种来构造,所述接口包括例如E1/T1、ATM,IP、PPP、帧中继、HDSL、ADSL或xDSL。将理解的是,如图2中所示的系统可以包括多个BSC275。
每个BS270可以服务一个或多个分区(或区域),由多向天线或指向特定方向的天线覆盖的每个分区放射状地远离BS270。或者,每个分区可以由用于分集接收的两个或更多天线覆盖。每个BS270可以被构造为支持多个频率分配,并且每个频率分配具有特定频谱(例如,1.25MHz,5MHz等等)。
分区与频率分配的交叉可以被称为CDMA信道。BS270也可以被称为基站收发器子系统(BTS)或者其它等效术语。在这样的情况下,术语"基站"可以用于笼统地表示单个BSC275和至少一个BS270。基站也可以被称为"蜂窝站"。或者,特定BS270的各分区可以被称为多个蜂窝站。
如图2中所示,广播发射器(BT)295将广播信号发送给在系统内操作的移动终端100。如图1中所示的广播接收模块111被设置在移动终端100处以接收由BT295发送的广播信号。在图2中,示出了几个全球定位系统(GPS)卫星300。卫星300帮助定位多个移动终端100中的至少一个。
在图2中,描绘了多个卫星300,但是理解的是,可以利用任何数目的卫星获得有用的定位信息。如图1中所示的作为GPS的位置信息模块115通常被构造为与卫星300配合以获得想要的定位信息。替代GPS跟踪技术或者在GPS跟踪技术之外,可以使用可以跟踪移动终端的位置的其它技术。另外,至少一个GPS卫星300可以选择性地或者额外地处理卫星DMB传输。
作为无线通信系统的一个典型操作,BS270接收来自各种移动终端100的反向链路信号。移动终端100通常参与通话、消息收发和其它类型的通信。特定基站270接收的每个反向链路信号被在特定BS270内进行处理。获得的数据被转发给相关的BSC275。BSC提供通话资源分配和包括BS270之间的软切换过程的协调的移动管理功能。BSC275还将接收到的数据路由到MSC280,其提供用于与PSTN290形成接口的额外的路由服务。类似地,PSTN290与MSC280形成接口,MSC与BSC275形成接口,并且BSC275相应地控制BS270以将正向链路信号发送到移动终端100。
基于上述移动终端硬件结构以及通信系统,提出本发明方法各个实施例。
实施例一
参见图3,其示出了本发明实施例提供的确定应用标签的方法的第一种流程示意图,该方法可以应用于服务器,本实施例的确定应用标签的方法包括:
S301:获取应用数据;
这里,可以理解地,应用数据可以是客户端的应用数据,例如,可以是手机客户端的应用数据、电子邮件客户端的应用数据或者万维网(Web,World Wide Web)使用的网页浏览器的应用数据。这里,获取应用数据可以是,服务器获取手机客户端的应用数据、服务器获取电子邮件客户端的应用数据或者服务器获取Web客户端的应用数据。当然本领域的技术人员应当理解的是,应用数据还可以是其他客户端的应用数据,本发明实施例并不对此做具体地限定。
S302:判断应用数据是否满足预设条件;
这里,可以理解地,以S301获取到的应用数据为手机客户端的应用数据为例进行说明,例如,该手机客户端的应用数据可以是Android安装包(APK,Android Package)的安装数据,这里,判断应用数据是否满足预设条件可以是,判断安装数据是否为整套数据,或,判断安装数据是否为差量数据,差量数据指应用更新后的安装数据与更新前的安装数据的差异数据。
S303:在应用数据满足预设条件时,提取应用数据的应用描述中的至少一个关键词;
这里,可以理解地,根据S302判断出应用数据满足预设条件包括:安装数据是整套数据,或,安装数据是差异数据。例如,手机客户端的应用首次上线时,服务器获取到的安装数据就是整套数据,当手机客户端的应用升级之后,服务器获取到的安装数据就是差异数据。随之,提取手机客户端的应用数据的应用描述中的至少一个关键词。例如,服务器提取到手机客户端的应用A的应用数据的应用描述中的一个关键词为:学习;或者,服务器提取到手机客户端的应用B的应用数据的应用描述中的六个关键词为:四六级、外语、托福、考试、背单词、英文。当然本领域的技术人员应当理解的是,本实施例中提取的关键词的个数可以是一个,也可以是多个,本发明实施例并不对此做具体地限定。
S304:根据关键词确定应用数据的应用标签。
这里,可以理解地,在S303提取到应用数据的应用描述中的至少一个关键词之后,根据上述关键词确定应用数据的应用标签。例如,服务器根据提取到应用A的关键词:学习,确定该应用A的应用标签为学习;服务器根据提取到应用B的关键词:四六级、外语、托福、考试、背单词、英文,确定该应用B的应用标签为四六级、外语、托福、考试、背单词、英文。
需要说明的是,本实施例中,确定应用数据的应用标签是基于应用数据的应用描述的全文信息进行的,这里,可以对应用描述的全文信息进行预处理,过滤掉一些出现频率很高,但实际意义不大的词,然后,根据处理后的应用描述内容提取关键词,以确定应用数据的应用标签,由此,提高了确定应用标签的准确率。
由此可以看出,在本实施例中,首先,服务器获取应用数据,其次,判断上述应用数据是否满足预设条件;然后,在上述应用数据满足预设条件时,提取上述应用数据的应用描述中的至少一个关键词;最后,根据上述关键词确定应用数据的应用标签,可见,与现有技术中人工手动定义应用标签相比,本申请在应用首次上线或者应用升级时,触发服务器根据应用数据的应用描述确定该应用数据的应用标签,全程自动化处理,无需人工参与,提高了确定应用标签的效率以及准确率。
实施例二
基于前述实施例相同的技术构思,S302判断应用数据是否满足预设条件,可以包括:
Step1:根据应用数据的标识信息,判断应用数据是否缺少标签;
这里,可以理解地,标识信息可以是全局唯一识别码(UUID,Universally Unique Identifier),也可以是数字,在应用发布时,应用标识信息可由服务器自动为应用分配,用于唯一识别应用。服务器可以根据UUID码来识别应用数据是否首次上线,例如,服务器获取到应用数据之后,在数据库中查找是否存在与获取到的应用数据中的UUID码一致的UUID码,这里,因为每个应用对应于唯一的一个UUID码,若服务器没有查找到该UUID码,说明该UUID码对应的应用数据是首次上线的应用数据,由此,判断出应用数据缺少应用标签。
或,Step2:根据应用数据的版本信息,判断应用数据是否需要更新当前的应用标签。
这里,可以理解地,版本信息是用于区别应用软件不同的版本的,本实施例中,可以用数字即版本号表示应用数据的版本信息,例如,对于首次上线的应用数据,对应的版本号为9.23,在该应用软件第一次升级之后,对应的版本号为10.0。在实际应用中,在原有的应用软件使用过程中,发现了许多存在的问题,这些问题有可能导致数据的不完整或者系统的崩溃等等,所以需要对该应用软件进行升级,另外还可以通过应用升级,增加或者调整某些功能,使得应用软件的通用性和可用性更大,此时,该应用数据的描述信息也会发生改变。服务器获取到应用数据中的版本信息之后,判断该版本信息的版本号是否比数据库中已有的版本号高,若该版本信息的版本号比数据库中已有的版本号高,则该应用数据需要更新当前的应用标签。
在本实施例中,在应用数据满足预设条件之后,还可以根据应用标签为应用数据添加标签;或,根据应用标签更新应用数据当前的应用标签。
这里,可以理解地,在Step1判断应用数据缺少应用标签之后,根据确定的应用数据的应用标签为该应用数据添加标签,也就是说,在应用首次上线时,根据确定的应用数据的应用标签为该应用添加标签,这里,还可以为已上线,但没有标签的应用,根据确定的应用标签添加标签;或,在Step2判断应用数据需要更新当前的应用标签之后,根据确定的应用数据的应用标签为该应用数据更新标签,也就是说,在应用升级时,此时的应用描述发生了改变,根据变化后的描述信息确定应用数据的应用标签,并为该应用更新更为准确的标签。
实施例三
基于前述实施例相同的技术构思,参见图4所示,其示出了本发明实施例提供的确定应用标签的方法的第二种流程示意图,本实施例中,提取应用数据的应用描述中的至少一个关键词,根据关键词确定应用数据的应用标签,可以包括:
S401:对应用描述中的词进行停用词过滤和词性筛选,提取至少一个关键词;
这里,可以理解地,为了提高确定应用标签的准确率,本实施例中,首先,对应用描述进行停用词过滤和词性筛选。例如,服务器利用神经网络语言模型对应用描述进行停用词过滤和词性筛选,得到词语集合;其次,服务器利用神经网络语言模型提取上述词语集合中的至少一个关键词,这里,本申请的网络语言模型是已经过训练的模型,在训练的过程中,训练语料为通用语料,来自网页中的海量的词,或某部小说、某篇文章的词;最后,在服务器利用神经网络语言模型提取到至少一个关键词的同时,还可以获取该关键词在通用语料中的上下文语义关系。
S402:根据上述至少一个关键词在应用描述中出现的频率,对上述至少一个关键词进行评分,得到上述至少一个关键词对应的评分结果;
这里,可以理解地,为了便于说明,以S401对应用描述中的词进行停用词过滤和词性筛选,提取两个以上的关键词为例,服务器利用神经网络语言模型对应用描述进行停用词过滤和词性筛选,得到词语集合之后,服务器利用神经网络语言模型提取上述词语集合中的两个以上关键词,例如,这里提取了10个关键词,服务器根据每个关键词在上述词语集合中出现的频率,对获取到的10关键词进行评分,得到每个关键词所对应的评分结果。
S403:提取评分结果超过预设分值的关键词,作为第一关键词集合;
这里,可以理解地,为了便于说明,在S402提取到10个关键词,并获取到上述10个关键词所对应的评分结果之后,为提高确定应用标签的准确率,这里,可以根据预设分值对上述10个关键词作进一步的筛选,例如,提前设置的预设分值为6,对应于关键词在词语集合中出现的次数为6次,以此,过滤掉上述10个关键词中,出现次数不超过6次的关键词,得到出现次数超过6次的关键词,例如,经过上述筛选,得到上述10个关键词中的5个关键词,作为第一关键词集合C={C1,C2,C3,C4,C5}。当然本领域的技术人员应当理解的是,本实施例中的预设分值还可以是其他分值,本发明实施例并不对此做具体地限定。
S404:根据第一关键词集合确定应用标签。
这里,可以理解地,在S403提取到评分结果超过预设分值的5个关键词作为第一关键词集合之后,根据第一关键词集合确定应用标签,例如,将上述5个关键词(C1,C2,C3,C4,C5)作为应用数据的应用标签。
需要说明的是,本实施例中,通过将关键词在通用语料中的上下文语义关系与词频率统计相结合的方式,将评分结果大于预设分值的词作为第一关键词集合,根据该第一关键词集合确定应用数据的应用标签的方式,既能按照统计理论挖掘出具有代表性的词,又能深入语义层面,使得提取的关键词在统计和语义层面都能代表应用描述文本内容的关键度,进一步提高了关键词提取的准确性。
实施例四
基于前述实施例相同的技术构思,在本实施例中,参见图5所示,其示出了本发明实施例提供的确定应用标签的方法的第三种流程示意图,本实施例中,根据第一关键词集合确定应用标签,可以包括:
S501:将第一关键词集合内的关键词与标签近义词库中的词进行比对;
这里,可以理解地,标签近义词库是与第一关键词集合内的关键词对应的特定领域的近义词库,该标签近义词库存储在服务器的数据库中,将上述S404获取到的5个关键词{C1,C2,C3,C4,C5}分别与标签近义词库中的词进行比对,以得到上述5个关键词与近义词库中的词之间存在的关系。
需要说明的是,本申请前述实施例中,服务器利用神经网络语言模型对应用描述进行关键词提取的过程中,由于神经网络模型训练语料是通用词库中的词,大量的通用词库中的词可以在一定程度上为提取关键词提供精确率,但为了进一步确定应用标签的精确率,本实施例中,将第一关键词集合内的关键词与标签近义词库中的词进行比对,也就是将关键词与特定技术领域相结合,得到第一关键词集合内的关键词与其所属领域的标签近义词库中的词进行比对的比对结果,为确定应用数据的应用标签提供了更为精确的数据支持。
S502:若第一关键词集合内的关键词与标签近义词库中的词相同,计算第一关键词集合内的关键词的权重加M,其中,M为正整数;
这里,可以理解地,若第一关键词集合内的某一关键词与标签近义词库中的词相同,计算该关键词的权重加2,当第一关键词集合内的关键词为多个时,分别将每个关键词与标签近义词库中的词进行比对,计算每个关键词所对应的权重。
S503:若第一关键词集合内的关键词与标签近义词库中的词相近,计算第一关键词集合内的关键词权重加N,其中,N为正整数,且M大于N;
这里,可以理解地,若第一关键词集合内的某一关键词与标签近义词库中的词相近,计算该关键词的权重加1,当第一关键词集合内的关键词为多个时,分别将每个关键词与标签近义词库中的词进行比对,计算每个关键词对应的权重。
这里,可以根据S501获取到的5个关键词{C1,C2,C3,C4,C5},计算第一关键词集合中的关键词Ci(i=1,2,3,4,5)是否与数据库中的标签近义词库中的词相同,在相同的情况下,计算关键词Ci的权重加2;在相近的情况下,计算关键词Ci的权重加1,以此,得到关键词Ci(i=1,2,3,4,5)对应的权重。
S504:将第一关键词集合内的关键词按照预设权重规则排列,作为应用标签。
这里,可以理解地,根据S502和S503中的关键词的权重计算结果,得到关键词Ci(i=1,2,3,4,5)对应的权重Qi,根据Qi降序排列的方式,将关键词进行有序排列,作为应用标签。例如,当Q2>Q5>Q1>Q4>Q3时,将关键词进行有序排列的结果为(C2,C5,C1,C4,C3),将该排序结果作为应用数据的应用标签。这里,在根据搜索关键词进行应用搜索时,客户端将按照应用标签中的关键词的排序,将应用标签中的关键词依次与搜索关键词匹配,本实施例中将标签中的关键词进行有序排序,可以提高应用搜索的匹配效率及匹配的精确度。
这里,当应用数据为差量数据时,差量数据指应用更新后的安装数据与更新前的安装数据的差异数据,在S501之前,确定应用数据的应用标签的方法还包括:
步骤一:将第一关键词集合内的关键词与更新前的应用数据的标签内的词进行比对;
这里,可以理解地,将S404中获取到的5个关键词{C1,C2,C3,C4,C5}分别与更新前的应用数据的标签内的词进行比对,以得到上述5个关键词与更新前的应用数据的标签内的词之间存在的关系。
步骤二:若第一关键词集合内的关键词与更新前的应用数据的标签内的词相同,计算权重加N,其中,N为正整数。
这里,可以理解地,若第一关键词集合内的某一关键词与更新前的应用数据的标签内的词相同,计算该关键词的权重加1。
这里,可以将第一关键词集合内的关键词Ci(i=1,2,3,4,5)与更新前的应用数据的标签内的词进行比对,在相同的情况下,计算关键词Ci的权重加1,以此,得到关键词Ci(i=1,2,3,4,5)对应的权重。
由此可以看出,在本实施例中,服务器利用神经网络语言模型对应用描述进行停用词过滤和词性筛选,得到词语集合,服务器利用神经网络语言模型提取上述词语集合中的至少一个关键词,对上述关键词进行词频统计并获取到上述关键词在通用词库中的上下文语义关系之后,再根据上述关键词与标签近义词库中的词进行比对的方式,进一步精确应用数据的应用标签,这里,将关键词与标签近义词库进行比对的目的是根据特定领域的应用场景对关键词进行权重计算,以便于获取不同关键词与应用描述的紧密程度,提高了确定应用数据的应用标签的准确率,进而提高了用户体验。
实施例五
基于同一发明构思,本实施例提供一种确定应用标签的装置,与上述一个或者多个实施例中的服务器一致。
这里,参见图6所示,该装置600包括:获取模块601,用于获取应用数据;判断模块602,用于判断应用数据是否满足预设条件;处理模块603,用于在应用数据满足预设条件时,提取应用数据的应用描述中的至少一个关键词,根据关键词确定应用数据的应用标签。
在本实施例中,上述判断模块,包括:第一判断子模块,用于根据应用数据的标识信息,判断应用数据是否缺少标签;或,第二判断子模块,用于根据应用数据的版本信息,判断应用数据是否需要更新当前的应用标签。
在本实施例中,上述装置还包括:添加模块,用于根据应用标签为应用数据添加标签;或,更新模块,用于根据应用标签更新应用数据当前的应用标签。
在本实施例中,上述处理模块,包括:第一提取子模块,用于对应用描述中的词进行停用词过滤和词性筛选,提取至少一个关键词;评分子模块,用于根据至少一个关键词在应用描述中出现的频率,对至少一个关键词进行评分,得到至少一个关键词对应的评分结果;第二提取子模块,用于提取评分结果超过预设分值的关键词,作为第一关键词集合;确定子模块,用于根据第一关键词集合确定应用标签。
在本实施例中,上述确定子模块,包括:比对单元,用于将第一关键词集合内的关键词与标签近义词库中的词进行比对;第一计算单元,用于若第一关键词集合内的关键词与标签近义词库中的词相同,计算第一关键词集合内的相应的关键词的权重加M,其中,M为正整数;第二计算单元,用于若第一关键词集合内的关键词与标签近义词库中的词相近,计算第一关键词集合内的相应的关键词权重加N,其中,N为正整数,且M大于N;处理单元,用于将第一关键词集合内的关键词按照预设权重规则排列,作为应用标签。
这里需要指出的是:以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果,因此不做赘述。对于本发明装置实施例中未披露的技术细节,请参照本发明方法实施例的描述而理解,为节约篇幅,因此不再赘述。
这里需要指出的是:
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。