短信类别识别方法及装置的制造方法
【技术领域】
[0001]本发明涉及信息识别技术领域,特别是一种短信类别识别方法及装置。
【背景技术】
[0002]随着移动终端的应用发展,短信已经成为人与人之间交流的一种重要的手段,短信在加强彼此联系的同时,也出现了诸如中奖之类的骚扰短信,影响了用户的正常工作和生活,用户对此十分不满。
[0003]目前,主要由人工对短信标记类别,如中奖、诈骗、房地产、股票等类别,并利用人工标记好的类别对短信进行过滤,以实现骚扰短信的拦截。一般人工标记时,一天大概能标记5000条短信,对于大量过去的短信以及每天产生的新短信,通过人工标记的方式显然费时费力,效率较低,因而亟待提供一种有效的短信类别识别方案。
【发明内容】
[0004]鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的短信类别识别方法及装置。
[0005]依据本发明的一方面,提供了一种短信类别识别方法,应用于客户端,包括:
[0006]当接收到一待识别短信时,调用在所述客户端预先构建的字典库,其中,所述字典库中的特征词的长度包含一个或多个字符;
[0007]将所述待识别短信的文本内容与所述字典库中的特征词进行匹配,确定所述待识别短信的包含相应特征词的多个分词;
[0008]根据所述多个分词对所述待识别短信进行打分,得到所述待识别短信的打分值;
[0009]根据所述待识别短信的打分值识别出所述待识别短信的类别。
[0010]可选地,将所述待识别短信的文本内容与所述字典库中的特征词进行匹配,包括:
[0011]定义初始长度的窗口 ;
[0012]利用所述初始长度的窗口从所述待识别短信的文本内容中提取初始长度的文本内容,并与所述字典库中的特征词进行匹配。
[0013]可选地,利用所述初始长度的窗口从所述待识别短信的文本内容中提取初始长度的文本内容,并与所述字典库中的特征词进行匹配,包括:
[0014]利用所述初始长度的窗口从所述待识别短信的文本内容的第一位置提取第一初始长度的文本内容;
[0015]将所述第一初始长度的文本内容与所述字典库中的特征词进行匹配;
[0016]若存在匹配的特征词,则将所述第一初始长度的文本内容作为所述待识别短信的包含相应特征词的分词。
[0017]可选地,将所述第一初始长度的文本内容与所述字典库中的特征词进行匹配之后,还包括:
[0018]若不存在匹配的特征词,则从所述第一位置移动所述初始长度的窗口,提取第二位置的第二初始长度的文本内容;
[0019]将所述第二初始长度的文本内容与所述字典库中的特征词进行匹配;
[0020]若存在匹配的特征词,则将所述第二初始长度的文本内容作为所述待识别短信的包含相应特征词的分词;
[0021]若不存在匹配的特征词,则从所述第二位置移动所述初始长度的窗口,提取第三位置的第三初始长度的文本内容,将所述第三初始长度的文本内容与所述字典库中的特征词进行匹配,以此类推,确定所述待识别短信的包含相应特征词的多个分词。
[0022]可选地,利用所述初始长度的窗口从所述待识别短信的文本内容中提取初始长度的文本内容,并与所述字典库中的特征词进行匹配之后,还包括:
[0023]将所述窗口的初始长度调整为当前长度;
[0024]利用所述当前长度的窗口从所述待识别短信的文本内容提取当前长度的文本内容,并与所述字典库中的特征词进行匹配。
[0025]可选地,根据所述多个分词对所述待识别短信进行打分,包括:
[0026]确定所述多个分词的权重;
[0027]根据确定的权重和所述多个分词对所述待识别短信进行打分。
[0028]可选地,确定所述多个分词的权重,包括:
[0029]获取在所述客户端预先建立的所述字典库的特征词与权重的对应关系;
[0030]根据所述对应关系,查找所述多个分词的权重。
[0031]可选地,通过以下步骤建立所述对应关系:
[0032]采用预置的短信分类规则,构造多分类的短信分类器,其中,所述短信分类器中的各个权重参数依据短信的各个特征词进行设置;
[0033]获取多种类别的短信,其中,每种类别的短信包含多条;
[0034]将所述多种类别的短信作为训练语料对所述短信分类器进行训练,计算所述短信分类器中的各个权重参数;
[0035]在所述各个特征词与所述各个权重参数之间建立所述对应关系。
[0036]可选地,采用预置的短信分类规则,构造多分类的短信分类器,包括:
[0037]采用线性分类库Liblinear构造多分类的短信分类器;或者,
[0038]采用支持向量机分类库Libsvm构造多分类的短信分类器。
[0039]可选地,采用线性分类库Liblinear构造多分类的短信分类器,包括:
[0040]调用所述Liblinear的动态分类库;
[0041]利用调用的动态分类库构造多分类的短信分类器。
[0042]可选地,根据所述待识别短信的打分值识别出所述待识别短信的类别,包括:
[0043]获取预先建立的打分区间与短信类别的映射关系,在所述映射关系中查找所述待识别短信的打分值所属的打分区间;
[0044]根据所述待识别短信的打分值所属的打分区间,确定所述待识别短信的类别。
[0045]可选地,所述方法还包括:
[0046]当所述待识别短信为指定类别时,生成提示消息通知用户。
[0047]可选地,所述方法还包括:
[0048]当接收到一待识别短信时,判断该待识别短信对应的电话号码是否为陌生电话号码;
[0049]若是,则执行调用在所述客户端预先构建的字典库的操作。
[0050]可选地,所述方法还包括:
[0051]当接收到一待识别短信时,判断该待识别短信对应的电话号码的归属地和/或地区编码号段是否与所述客户端所在终端的电话号码的归属地和/或地区编码号段相同;
[0052]若不同,则执行调用在所述客户端预先构建的字典库的操作。
[0053]可选地,所述方法还包括:
[0054]当接收到一待识别短信时,获取所述客户端所在终端的当前所在地信息;
[0055]判断该待识别短信对应的电话号码的归属地是否与所述客户端所在终端的当前所在地相同;
[0056]若不同,则执行调用在所述客户端预先构建的字典库的操作。
[0057]可选地,所述方法还包括:
[0058]当接收到一待识别短信时,获取所述客户端所在终端中保存的通讯录信息;
[0059]判断所述通讯录中是否存在与该待识别短信对应的电话号码具有相同归属地和/或地区编码号段的电话号码;
[0060]若不存在,则执行调用在所述客户端预先构建的字典库的操作。
[0061]依据本发明的另一方面,还提供了一种短信类别识别装置,应用于客户端,包括:
[0062]调用模块,适于当接收到一待识别短信时,调用在所述客户端预先构建的字典库,其中,所述字典库中的特征词的长度包含一个或多个字符;
[0063]匹配模块,适于将所述待识别短信的文本内容与所述字典库中的特征词进行匹配,确定所述待识别短信的包含相应特征词的多个分词;
[0064]打分模块,适于根据所述多个分词对所述待识别短信进行打分,得到所述待识别短信的打分值;
[0065]识别模块,适于根据所述待识别短信的打分值识别出所述待识别短信的类别。
[0066]可选地,所述匹配模块还适于:
[0067]定义初始长度的窗口 ;
[0068]利用所述初始长度的窗口从所述待识别短信的文本内容中提取初始长度的文本内容,并与所述字典库中的特征词进行匹配。
[0069]可选地,所述匹配模块还适于:
[0070]利用所述初始长度的窗口从所述待识别短信的文本内容的第一位置提取第一初始长度的文本内容;
[0071]将所述第一初始长度的文本内容与所述字典库中的特征词进行匹配;
[0072]若存在匹配的特征词,则将所述第一初始长度的文本内容作为所述待识别短信的包含相应特征词的分词。
[0073]可选地,所述匹配模块还适于:
[0074]若不存在匹配的特征词,则从所述第一位置移动所述初始长度的窗口,提取第二位置的第二初始长度的文本内容;
[0075]将所述第二初始长度的文本内容与所述字典库中的特征词进行匹配;
[0076]若存在匹配的特征词,则将所述第二初始长度的文本内容作为所述待识别短信的包含相应特征词的分词;
[0077]若不存在匹配的特征词,则从所述第二位置移动所述初始长度的窗口,提取第三位置的第三初始长度的文本内容,将所述第三初始长度的文本内容与所述字典库中的特征词进行匹配,以此类推,确定所述待识别短信的包含相应特征词的多个分词。
[0078]可选地,所述匹配模块还适于:
[0079]将所述窗口的初始长度调整为当前长度;
[0080]利用所述当前长度的窗口从所述待识别短信的文本内容提取当前长度的文本内容,并与所述字典库中的特征词进行匹配。
[0081 ] 可选地,所述打分模块还适于:
[0082]确定所述多个分词的权重;
[0083]根据确定的权重和所述多个分词对所述待识别短信进行打分。
[0084]可选地,所述打分模块还适于:
[0085]获取在所述客户端预先建立的所述字典库的特征词与权重的对应关系;
[0086]根据所述对应关系,查找所述多个分词的权重。
[0087]可选地,所述装置还包括:
[0088]建立模块,适于采用预置的短信分类规则,构造多分类的短信分类器,其中,所述短信分类器中的各个权重参数依据短信的各个特征词进行设置;
[0089]获取多种类别的短信,其中,每种类别的短信包含多条;
[0090]将所述多种类别的短信作为训练语料对所述短信分类器进行训练,计算所述短信分类器中的各个权重参数;
[0091]在所述各个特征词与所述各个权重参数之间建立所述对应关系。
[0092]可选地,所述建立模块还适于:
[0093]采用线性分类库Liblinear构造多分类的短信分类器;或者,
[0094]采用支持向量机分类库Libsvm构造多分类的短信分类器。
[0095]可选地,所述建立模块还适于:
[0096]调用所述Liblinear的动态分类库;
[0097]利用调用的动态分类库构造多分类的短信分类器。
[0098]可选地,所述识别模块还适于:
[0099]获取预先建立的打分区间与短信类别的映射关系,在所述映射关系中查找所述待识别短信的打分值所属的打分区间;
[0100]根据所述待识别短信的打分值所属的打分区间,确定所述待识别短信的类别。
[0101]可选地,所述装置还包括:
[0102]提示模块,适于当所述待识别短信为指定类别时,生成提示消息通知用户。
[0103]可选地,所述装置还包括:
[0104]判断模块,适于当接收到一待识别短信时,判断该待识别短信对应的电话号码是否为陌生电话号码;若是,则执行调用在所述客户端预先构建的字典库的操作。
[0105]可选地,所述判断模块还适于:
[0106]当接收到一待识别短信时,判断该待识别