识别号码的方法和装置的制造方法

文档序号:8530766阅读:366来源:国知局
识别号码的方法和装置的制造方法
【技术领域】
[0001]本公开涉及计算机技术领域,特别涉及一种识别号码的方法和装置。
【背景技术】
[0002]商家或者快递机构通常以短信的形式向用户下发快递信息。其中,快递信息通常包括快递机构名称、快递单号、发货时间等信息。
[0003]快递单号用于唯一标识一件快递物品。用户通过快递单号,可查询获取该快递单号对应的物品信息、物流信息、配送员信息以及快递机构信息等相关内容。目前,需要用户自行从商家或者快递机构下发至用户终端的快递信息中获取快递单号。

【发明内容】

[0004]本公开实施例提供了一种识别号码的方法和装置。所述技术方案如下:
[0005]根据本公开实施例的第一方面,提供了一种识别号码的方法,所述方法包括:
[0006]检测目标通信信息中是否包含快递机构名称;
[0007]若所述目标通信信息中包含所述快递机构名称,则从所述目标通信信息中提取η个字符序列,η多I ;
[0008]从所述η个字符序列中识别出属于快递单号的字符序列。
[0009]可选地,所述从所述η个字符序列中识别出快递单号,包括:
[0010]采用完成训练的分类模型预测所述η个字符序列中每个字符序列各自所属的分类,得到属于第一分类的P个字符序列,属于第二分类的q个字符序列,p+q = η ;其中,所述第一分类是被预测为属于快递单号的字符序列对应的分类,所述第二分类是被预测为不属于快递单号的字符序列对应的分类;
[0011]从所述P个字符序列中识别出所述属于快递单号的字符序列。
[0012]可选地,所述采用完成训练的分类模型预测所述η个字符序列中每个字符序列各自所属的分类,得到属于第一分类的P个字符序列,属于第二分类的q个字符序列,包括:
[0013]对于所述η个字符序列中的第i个字符序列,从所述目标通信信息中提取所述第i个字符序列对应的特征项组合,I ^ i ;其中,所述特征项组合包含快递机构名称、所述快递机构名称与所述字符序列间的字符间隔距离、所述字符序列的长度、所述字符序列的前缀、用于指示所述字符序列中是否包含英文字符的指示符、所述目标通信信息中包含的字符序列的总数中的至少一个特征项;
[0014]将所述第i个字符序列对应的特征项组合中包含的各个特征项以数值进行量化;
[0015]采用完成训练的SVM(Support Vector Machine,支持向量机)分类模型依据所述第i个字符序列对应的量化后的特征项组合,计算所述第i个字符序列对应的预测值;
[0016]判断所述第i个字符序列对应的预测值是属于所述第一分类对应的预测值区间还是属于所述第二分类对应的预测值区间;
[0017]当所述第i个字符序列对应的预测值属于所述第一分类对应的预测值区间时,将所述第i个字符序列分类至所述第一分类;
[0018]当所述第i个字符序列对应的预测值属于所述第二分类对应的预测值区间时,将所述第i个字符序列分类至所述第二分类。
[0019]可选地,所述方法还包括:
[0020]构建所述SVM分类模型;
[0021]通过预先获取的a个训练样本对所述SVM分类模型进行训练,a多I ;
[0022]其中,每一个训练样本包含一个字符序列对应的特征项组合和期望分类结果。
[0023]可选地,所述从所述P个字符序列中识别出所述属于快递单号的字符序列,包括:
[0024]当P小于或等于预设阈值时,将所述P个字符序列全部识别为所述属于快递单号的字符序列。
[0025]可选地,所述方法还包括:
[0026]当P大于所述预设阈值时,从所述P个字符序列中剔除属于非快递单号的字符序列;其中,所述非快递单号包括订单号、电话号码、银行卡号、验证码和日期时间中的至少一种;
[0027]当剩余的字符序列的数量小于或等于所述预设阈值时,将所述剩余的字符序列识别为所述属于快递单号的字符序列;
[0028]当所述剩余的字符序列的数量大于所述预设阈值时,将所述剩余的字符序列中与所述快递机构名称间的字符间隔距离最小的字符序列识别为所述属于快递单号的字符序列。
[0029]可选地,所述从所述P个字符序列中剔除属于非快递单号的字符序列,包括:
[0030]当所述P个字符序列中的目标字符序列符合第一预定条件时,将所述目标字符序列识别为属于订单号的字符序列,并从所述P个字符序列中剔除所述目标字符序列;其中,所述第一预定条件是指所述目标字符序列之前包含订单关键字;
[0031 ]当所述P个字符序列中的目标字符序列符合第二预定条件时,将所述目标字符序列识别为属于电话号码的字符序列,并从所述P个字符序列中剔除所述目标字符序列;其中,所述第二预定条件包括所述目标字符序列中包含电话区号、所述目标字符序列中包含移动电话号码前缀、所述目标字符序列的长度为预设长度中的至少一项;
[0032]当所述P个字符序列中的目标字符序列符合第三预定条件时,将所述目标字符序列识别为属于银行卡号的字符序列,并从所述P个字符序列中剔除所述目标字符序列;其中,所述第三预定条件是指所述目标字符序列中包含BIN(Bank Identity Number,银行标识代码);
[0033]当所述P个字符序列中的目标字符序列符合第四预定条件时,将所述目标字符序列识别为属于验证码的字符序列,并从所述P个字符序列中剔除所述目标字符序列;其中,所述第四预定条件是指所述字符序列所在分句中包含验证码关键字;
[0034]当所述P个字符序列中的目标字符序列符合第五预定条件时,将所述目标字符序列识别为属于日期时间的字符序列,并从所述P个字符序列中剔除所述目标字符序列;其中,所述第五预定条件是指所述目标字符序列符合日期时间的正则表达式。
[0035]可选地,所述预设阈值为I。
[0036]可选地,所述从所述目标通信信息中提取η个字符序列,包括:
[0037]从所述目标通信信息中提取η个符合预检测条件的字符序列;
[0038]其中,所述预检测条件包括字符序列的长度大于长度下限阈值、字符序列的长度小于长度上限阈值、字符序列中包含数字中的至少一项。
[0039]可选地,所述方法还包括:
[0040]获取所述目标通信信息所对应的发送方号码;
[0041]根据所述发送方号码检测所述目标通信信息是否为通知类信息;
[0042]当所述目标通信信息为所述通知类信息时,执行所述检测目标通信信息中是否包含快递机构名称的步骤。
[0043]根据本公开实施例的第二方面,提供了一种识别号码的装置,所述装置包括:
[0044]检测模块,被配置为检测目标通信信息中是否包含快递机构名称;
[0045]提取模块,被配置为当所述目标通信信息中包含所述快递机构名称时,从所述目标通信信息中提取η个字符序列,n ^ I ;
[0046]识别模块,被配置为从所述η个字符序列中识别出属于快递单号的字符序列。
[0047]可选地,所述识别模块,包括:预测子模块和识别子模块;
[0048]所述预测子模块,被配置为采用完成训练的分类模型预测所述η个字符序列中每个字符序列各自所属的分类,得到属于第一分类的P个字符序列,属于第二分类的q个字符序列,p+q = η ;其中,所述第一分类是被预测为属于快递单号的字符序列对应的分类,所述第二分类是被预测为不属于快递单号的字符序列对应的分类;
[0049]所述识别子模块,被配置为从所述P个字符序列中识别出所述属于快递单号的字符序列。
[0050]可选地,所述预测子模块,包括:提取子模块、量化子模块、计算子模块、判断子模块、第一分类子模块和第二分类子模块;
[0051 ] 所述提取子模块,被配置为对于所述η个字符序列中的第i个字符序列,从所述目标通信信息中提取所述第i个字符序列对应的特征项组合,l^i^n ;其中,所述特征项组合包含快递机构名称、所述快递机构名称与所述字符序列间的字符间隔距离、所述字符序列的长度、所述字符序列的前缀、用于指示所述字符序列中是否包含英文字符的指示符、所述目标通信信息中包含的字符序列的总数中的至少一个特征项;
[0052]所述量化子模块,被配置为将所述第i个字符序列对应的特征项组合中包含的各个特征项以数值进行量化;
[0053]所述计算子模块,被配置为采用完成训练的SVM分类模型依据所述第i个字符序列对应的量化后的特征项组合,计算所述第i个字符序列对应的预测值;
[0054]所述判断子模块,被配置为判断所述第i个字符序列对应的预测值是属于所述第一分类对应的预测值区间还是属于所述第二分类对应的预测值区间;
[0055]所述第一分类子模块,被配置为当所述第i个字符序列对应的预测值属于所述第一分类对应的预测值区间时,将所述第i个字符序列分类至所述第一分类;
[0056]所述第二分类子模块,被配置为当所述第i个字符序列对应的预测值属于所述第二分类对应的预测值区间时,将所述第i个字符序列分类至所述第二分类。
[0057]可选地,所述装置还包括:
[0058]构建模块,被配置为构建所述SVM分类模型;
[0059]训练模块,被配置为通过预先获取的a个训练样本对所述SVM分类模型进行训练,a多I ;
[0060]其中,每一个训练样本包含一个字符序列对应的特征项组合和期望分类结果。
[0061]可选地,所述识别子模块,包括:第一识别子模块;
[0062]所述第一识别子模块,被配置为当P小于或等于预设阈值时,将所述P个字符序列全部识别为所述属于快递单号的字符序列。
[0063]可选地,所述识别子模块,还包括:剔除子模块、第二识别子模块和第三识别子模块;
[0064]所述剔除子模块,被配置为当P大于所述预设阈值时,从所述P个字符序列中剔除属于非快递单号的字符序列;其中,所述非快递单号包括订单号、电话号码、银行卡号、验证码和日期时间中的至少一种;
[0065]所述第二识别子模块,被配置为当剩余的字符序列的数量小于或等
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1