短信类别识别方法及装置的制造方法_3

文档序号:9417443阅读:来源:国知局
信发送方的电话号码,根据电话号码设置各个参数。
[0140]这里,根据电话号码设置各个参数,举例来说,可以通过对电话号码进行分类的方式,即将电话号码的分类来表示短信的分类。另外,陌生号码所属的分类信息包括:号码归属地信息和号码所属领域信息,或者号码归属地信息、号码所属领域信息和号码所属使用者的信息。例如:“15210XXXXXX,我爱我家”,则通过预先训练的分类器,通过信息匹配,可以得知此号码的所属分类信息为房产中介。
[0141]服务器可以统计一个星期或者一个月等时间段内多个监测装置上传的同一陌生号码所属的类别,据此可确定该陌生号码的分类信息。例如,云端服务器在一周内接收6次监测装置上报的同一陌生号码,以及该陌生号码的类别,此时有五个监测装置上报的同一陌生号码所属类别为“房产中介”,一个监测装置上报的该陌生号码的类别为“快递”,此时,可判定该陌生号码的分类信息为“房产中介”。
[0142]在本发明实施例中,也可以通过用户设备举报信息确定陌生号码的分类,例如,通过接收用户设备的举报信息,获知来电号码的类型,或者通过判断某一号码拨打的号码多为陌生号码,且通话时间很短(例如,通话时间小于20秒)来确定该号码为骚扰号码。在确定出来电号码的类型之后,对该号码进行标注,从而确定出指示来电号码的类型的标注。
[0143]在步骤S108中,本发明实施例具体可以获取预先建立的打分区间与短信类别的映射关系,在该映射关系中查找待识别短信的打分值所属的打分区间,进而根据待识别短信的打分值所属的打分区间,确定待识别短信的类别。进一步,当待识别短信为指定类别时,生成提示消息通知用户,例如,当待识别短信为诈骗短信时,生成提示消息通知用户。
[0144]在本发明一实施例中,当接收到一待识别短信时,判断该待识别短信对应的电话号码是否为陌生电话号码,若是,则执行步骤S102调用在客户端预先构建的字典库的操作。若否,则确定是白名单中的电话号码还是黑名单中的。在本实施例中,预先设置的黑名单、白名单中的具体内容本实施例不限定,为了能够根据预先设置的黑、白名单来筛选需要拦截或放行的通信信息,本实施例提供的方法中,黑名单包括需要拦截的号码,用于筛选需要拦截的短信,白名单包括可放行的号码,用于筛选需要放行的短信。预先设置黑名单/白名单时,可根据通讯录中记录的电话号码来设置黑名单/白名单中的号码,或者,将用户输入的号码设置为黑名单/白名单中的号码,本实施例不对设置黑名单/白名单的方式进行限定。
[0145]在本发明一实施例中,当接收到一待识别短信时,判断该待识别短信对应的电话号码的归属地和/或地区编码号段是否与客户端所在终端的电话号码的归属地和/或地区编码号段相同,若不同,则执行步骤S102调用在客户端预先构建的字典库的操作。若相同,则标记该待识别短信为指定类别的短信。
[0146]在本发明一实施例中,当接收到一待识别短信时,获取客户端所在终端的当前所在地信息,判断该待识别短信对应的电话号码的归属地是否与客户端所在终端的当前所在地相同,若不同,则执行步骤S102调用在客户端预先构建的字典库的操作。若相同,则标记该待识别短信为指定类别的短信。
[0147]在本发明一实施例中,当接收到一待识别短信时,获取客户端所在终端中保存的通讯录信息,判断通讯录中是否存在与该待识别短信对应的电话号码具有相同归属地和/或地区编码号段的电话号码,若不存在,则执行步骤S102调用在客户端预先构建的字典库的操作。若存在,则标记该待识别短信为指定类别的短信。
[0148]下面通过一具体实施例详细介绍本发明的短信类别识别方法的实现过程。图4示出了根据本发明另一实施例的短信类别识别方法的流程图。参见图4,该方法至少可以包括步骤S402至步骤S412。
[0149]步骤S402,当接收到一待识别短信时,调用在客户端预先构建的字典库,其中,该字典库中的特征词的长度包含一个或多个字符。
[0150]步骤S404,定义初始长度的窗口。
[0151]步骤S406,利用初始长度的窗口从待识别短信的文本内容中提取初始长度的文本内容,并与字典库中的特征词进行匹配,确定待识别短信的包含相应特征词的多个分词。
[0152]该步骤中,可以利用初始长度的窗口从待识别短信的文本内容的第一位置提取第一初始长度的文本内容,将第一初始长度的文本内容与字典库中的特征词进行匹配,若存在匹配的特征词,则将第一初始长度的文本内容作为待识别短信的包含相应特征词的分词。反之,若不存在匹配的特征词,则从第一位置移动初始长度的窗口,提取第二位置的第二初始长度的文本内容,将第二初始长度的文本内容与字典库中的特征词进行匹配。接着,判断第二初始长度的文本内容是否与字典库中的特征词匹配,若存在匹配的特征词,则将第二初始长度的文本内容作为待识别短信的包含相应特征词的分词;若不存在匹配的特征词,则从第二位置移动初始长度的窗口,提取第三位置的第三初始长度的文本内容,将第三初始长度的文本内容与字典库中的特征词进行匹配,以此类推,最后确定出待识别短信的包含相应特征词的多个分词。
[0153]这里,可以采用前向匹配的方式,S卩,将第一位置设置在待识别短信的文本内容的开始位置,从该开始位置移动初始长度的窗口,依次进行匹配,最后得到待识别短信的包含相应特征词的多个分词。
[0154]此外,若确定出的待识别短信的包含相应特征词的分词个数小于指定阈值或者为了进一步提高骚扰短信识别的效率,本发明实施例还可以对窗口的初始长度进行调整,如调整为当前长度,调整之后利用当前长度的窗口从待识别短信的文本内容中提取当前长度的文本内容,并与字典库中的特征词进行匹配,这里的当前长度小于初始长度。
[0155]步骤S408,确定多个分词的权重,进而根据确定的权重和多个分词对待识别短信进行打分,得到待识别短信的打分值。
[0156]该步骤中,可以参考上文介绍的确定多个分词的权重,此处不再赘述。
[0157]步骤S410,获取预先建立的打分区间与短信类别的映射关系,在该映射关系中查找待识别短信的打分值所属的打分区间。
[0158]步骤S412,根据待识别短信的打分值所属的打分区间,确定待识别短信的类别。
[0159]在该步骤中,当待识别短信为指定类别时,生成提示消息通知用户,例如,当待识别短信为诈骗短信时,生成提示消息通知用户
[0160]本发明实施例中,通过待识别短信的打分值识别该短信的类别,从而解决了现有技术中通过人工查看并标记而存在的费时费力、效率较低的问题。并且,本发明实施例直接调用在客户端预先构建的字典库,对待识别短信的文本内容进行分词,对多个分词打分得到待识别短信的打分值,根据打分值直接识别出待识别短信的类别,整个过程无需与服务器进行信息交互,可以应用在客户端无网络连接的情况。
[0161]基于同一发明构思,本发明实施例还提供一种短信类别识别装置,应用于客户端。图5示出了根据本发明一实施例的短信类别识别装置的结构示意图。参见图5,该装置至少可以包括:调用模块510、匹配模块520、打分模块530以及识别模块540。
[0162]现介绍本发明实施例的短信类别识别装置的各组成或器件的功能以及各部分间的连接关系:
[0163]调用模块510,适于当接收到一待识别短信时,调用在客户端预先构建的字典库,其中,字典库中的特征词的长度包含一个或多个字符;
[0164]匹配模块520,与调用模块510相耦合,适于将待识别短信的文本内容与字典库中的特征词进行匹配,确定待识别短信的包含相应特征词的多个分词;
[0165]打分模块530,与匹配模块520相耦合,适于根据多个分词对待识别短信进行打分,得到待识别短信的打分值;
[0166]识别模块540,与打分模块530相耦合,适于根据待识别短信的打分值识别出待识别短信的类别。
[0167]在本发明一实施例中,上述匹配模块520还适于:
[0168]定义初始长度的窗口 ;
[0169]利用初始长度的窗口从待识别短信的文本内容中提取初始长度的文本内容,并与字典库中的特征词进行匹配。
[0170]在本发明一实施例中,上述匹配模块520还适于:
[0171]利用初始长度的窗口从待识别短信的文本内容的第一位置提取第一初始长度的文本内容;
[0172]将第一初始长度的文本内容与字典库中的特征词进行匹配;
[0173]若存在匹配的特征词,则将第一初始长度的文本内容作为待识别短信的包含相应特征词的分词。
[0174]在本发明一实施例中,上述匹配模块520还适于:
[0175]若不存在匹配的特征词,则从第一位置移动初始长度的窗口,提取第二位置的第二初始长度的文本内容;
[0176]将第二初始长度的文本内容与字典库中的特征词进行匹配;
[0177]若存在匹配的特征词,则将第二初始长度的文本内容作为待识别短信的包含相应特征词的分词;
[0178]若不存在匹配的特征词,则从第二位置移动初始长度的窗口,提取第三位置的第三初始长度的文本内容,将第三初始长度的文本内容与字典库中的特征词进行匹配,以此类推,确定待识别短信的包含相应特征词的多个分词。
[0179]在本发明一实施例中,上述匹配模块520还适于:
[0180]将窗口的初始长度调整为当前长度;
[0181]利用当前长度的窗口从待识别短信的文本内容提取当前长度的文本内容,并与字典库中的特征词进行匹配。
[0182]在本发明一实施例中,上述打分模块530还适于:
[0183]确定多个分词的权重;
[0184]根据确定的权重和多个分词对待识别短信进行打分。
[0185]在本发明一实施例中,上述打分模块530还适于:
[0186]获取在客户端预先建立的字典库的特征词与权重的对应关系;
[0187]根据对应关系,查找多个分词的权重。
[0188]在本发明一实施例中,如图6所示,上文图5展示的装置还可以包括:
[0189]建立模块550,与打分模块530相耦合,适于采用预置的短信分类规则,构造多分类的短信分类器,其中,该短信分类器中的各个权重参数依据短信的各个特征词进行设置;获取多种类别的短信,其中,每种类别的短信包含多条;将多种类别的短信作为训练语料对短信分类器进行训练,计算短信分类器中的各个权重参数;在各个特征词与各个权重参数之间建立对应关系。
[0190]在本发明一实施例中,上述建立模块550还适于:
[0191]采用线性分类库Liblinear构造多分类的短信分类器;或者,
[0192]采用支持向量机分类库Libsvm构造多分类的短信分类器。
[0193]在本发明一实施例中,上述建立模块550还适于:
[0194]调用Liblinear的动态分类库;
[0195]利用调用的动态分类库构造多分类的短信分类器。
[0196]在本发明一实施例中,上述识别模块540还适于:
[0197]获取预先建立的打分区间与短信类别的映射关系,在映射关系中查找待识别短信的打分值所属的打分区间;
[0198]根据待识别短信的打分值所属的打分区间,确定待识别短信的类别。
[0199]在本发明一实施例中,如图6所示,上文图5展示的装置还可以包括:
[0200]提示模块560,与识别模块540相耦合,适于当待识别短信为指定类别时,生成提示消息通知用户。
[0201]在本发明一实施例中,如图6所示,上文图5展示的装置还可以包括:
[0202]判断模块570,与调用模块510相耦合,适于当接收到一待识别短信时,判断该待识别短信对应的电话号
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1