本发明涉及通信技术与人工智能领域,具体涉及一种应用于移动设备的短信上下行发送处理方法及系统。
背景技术:
1、短信凭借着独特的优势,在人们的生活中占据着重要的位置。可以说,短信记录了人们生活的点点滴滴。在对短信进行上下行发送处理的过程中,对正常用户短信的识别困难重重,由于短信文本很短,导致特征值会多而散,非常的不明显,对短信进行识别很难达到预想的效果。
2、目前,国内外的商业公司越来越多的将目光聚焦于移动设备,虽然关于自然语言处理和文本分类的研究已经相对成熟,但是难以将其运用于短信上下行发送处理的过程,这种困难性是由短信的先天特质而决定的。
3、因此,本发明通过特征词表对短信文本进行识别,针对短信文本特征值多而散的情形取得了预期的识别效果,提高了短信上下行发送处理的效率。
技术实现思路
1、鉴于上述问题,提出了本发明以便提供一种克服上述全部或至少一部分问题的应用于移动设备的短信上下行发送处理方法及系统。
2、根据本发明的一个方面,提供了一种应用于移动设备的短信上下行发送处理方法,包括:
3、获取所述移动设备的短信上行数据队列集合,在所述数据队列集合中加载用于对短信进行识别的特征词表,其中,所述特征词表包括预定义类别以及相应的级别权重;
4、从所述移动设备的短信库中读取短信,对所述短信进行分词得到特征词集合;
5、将所述特征词表和所述特征词集合输入至短信识别模型,得到所述短信的类别概率,将所述移动设备的短信类别概率作为前缀发送至短信下行网关。
6、更进一步地,所述类别概率的计算公式为:
7、
8、其中,pci|d)为短信d属于类别ci的概率,p(tj|ci)为第j个特征词tj在类别ci中出现的概率,f(ci)为类别ci中短信数量,d为短信的编号,n为短信上行数据队列集合数量,m为类别的数量,k为特征词的维度。
9、更进一步地,所述级别权重的计算公式为:
10、
11、其中,i(t,c)为特征词t在类别c中的级别权重,f(t,c)为属于类别c的特征词t的数量,f(c)为类别c中的短信数量,avglen(c)为类别c短信的平均文本长度,termnum(c)为类别c中的特征词t的数量。
12、更进一步地,所述类别概率的计算公式为:
13、
14、其中,pci|d)为短信d属于类别ci的概率,p(tj|ci)为第j个特征词tj在类别ci中出现的概率,f(ci)为类别ci中短信数量,d为短信的编号,n为短信上行数据队列集合数量,m为类别的数量,k为特征词的维度或影响因子,avglen(c)为类别c短信的平均文本长度,len(d)为短信d的文本长度。
15、更进一步地,所述短信识别模型为贝叶斯模型;
16、所述将所述特征词表和所述特征词集合输入至短信识别模型,得到所述短信的类别概率进一步包括:
17、分别统计决策树和所述贝叶斯模型在训练过程中分类正确的训练样本个数和训练样本总数,分别得到所述统计决策树和所述贝叶斯模型的分类准确度,计算所述决策树模型分别对所述类别概率的训练准确度;
18、将所述类别概率的训练准确度与所述贝叶斯模型的后验概率进行加权得到最终的所述类别概率。
19、更进一步地,所述类别概率的训练准确度的计算公式为:
20、
21、其中,p(yk|x)tree为类别为yk时对各个样本x所属类别的后验概率,bk为决策树的分类准确度,tree定义为决策树,k=1,2…,m,m为类别的数量,t为预设阈值。
22、更进一步地,所述加权得到最终的所述类别概率的计算公式为:
23、
24、其中,p(yk|x)为加权得到最终的所述类别概率,p(yk|x)tree为类别为yk时对各个样本x所属类别的后验概率,p(yk|x)bayes为类别为yk时对各个样本x所属类别的后验概率,atree为决策树的分类准确度,abayes为贝叶斯的分类准确度,bayes定义为朴素贝叶斯,tree定义为决策树,k=1,2…,m,m为类别的数量。
25、更进一步地,所述在所述数据队列集合中加载用于对短信进行识别的特征词表进一步包括:
26、对所述短信进行分词,得到每个文档及其词条的集合,对于每个所述词条,利用特征值提取方法计算其在所述数据队列集合中的级别权重值;
27、对所述词条进行降序排列,取前预设数量的词条作为特征词,将所述特征词及其在所述类别中的级别权重值输出到所述特征词表中。
28、更进一步地,所述将所述移动设备的短信类别概率作为前缀发送至短信下行网关进一步包括:
29、通过所述短信下行网关读取所述短信,在所述移动设备的通知栏中将所述短信类别概率作为前缀显示。
30、根据本发明的另一方面,提供了一种应用于移动设备的短信上下行发送处理系统,包括:
31、获取模块,用于获取所述移动设备的短信上行数据队列集合,在所述数据队列集合中加载用于对短信进行识别的特征词表,其中,所述特征词表包括预定义类别以及相应的级别权重;
32、处理模块,用于从所述移动设备的短信库中读取短信,对所述短信进行分词得到特征词集合;
33、预测模块,用于将所述特征词表和所述特征词集合输入至短信识别模型,得到所述短信的类别概率,将所述移动设备的短信类别概率作为前缀发送至短信下行网关。
34、根据本发明提供的方案,获取所述移动设备的短信上行数据队列集合,在所述数据队列集合中加载用于对短信进行识别的特征词表,其中,所述特征词表包括预定义类别以及相应的级别权重;从所述移动设备的短信库中读取短信,对所述短信进行分词得到特征词集合;将所述特征词表和所述特征词集合输入至短信识别模型,得到所述短信的类别概率,将所述移动设备的短信类别概率作为前缀发送至短信下行网关。本发明通过特征词表对短信文本进行识别,针对短信文本特征值多而散的情形取得了预期的识别效果,提高了短信上下行发送处理的效率。
1.一种应用于移动设备的短信上下行发送处理方法,其特征在于,包括:
2.根据权利要求1所述的应用于移动设备的短信上下行发送处理方法,其特征在于,所述类别概率的计算公式为:
3.根据权利要求2所述的应用于移动设备的短信上下行发送处理方法,其特征在于,所述级别权重的计算公式为:
4.根据权利要求3所述的应用于移动设备的短信上下行发送处理方法,其特征在于,所述类别概率的计算公式为:
5.根据权利要求1所述的应用于移动设备的短信上下行发送处理方法,其特征在于,所述短信识别模型为贝叶斯模型;
6.根据权利要求5所述的应用于移动设备的短信上下行发送处理方法,其特征在于,所述类别概率的训练准确度的计算公式为:
7.根据权利要求6所述的应用于移动设备的短信上下行发送处理方法,其特征在于,所述加权得到最终的所述类别概率的计算公式为:
8.根据权利要求1所述的应用于移动设备的短信上下行发送处理方法,其特征在于,所述在所述数据队列集合中加载用于对短信进行识别的特征词表进一步包括:
9.根据权利要求8所述的应用于移动设备的短信上下行发送处理方法,其特征在于,所述将所述移动设备的短信类别概率作为前缀发送至短信下行网关进一步包括:
10.一种应用于移动设备的短信上下行发送处理系统,该系统基于如权利要求1-9任一项所述的应用于移动设备的短信上下行发送处理方法,其特征在于,包括: