训练,从而学习社交短文本数据的类别信息,具有更好的泛化能力, 能够应用于识别社交短文本数据的类别信息,且识别速度快,准确度更高,分类效果更好。
[0103] 在本发明所提供的几个实施例中,应该理解到,所公开的装置和方法,可W通过其 它的方式实现。例如,W上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅 仅为一种逻辑功能划分,实际实现时可W有另外的划分方式。
[0104] 另外,在本发明各个实施例中的各功能模块可W集成在一个处理模块中,也可W 是各个模块单独物理存在,也可W两个或两个W上模块集成在一个模块中。上述集成的模 块既可w采用硬件的形式实现,也可w采用硬件加软件功能模块的形式实现。
[0105] 上述W软件功能模块的形式实现的集成的模块,可W存储在一个计算机可读取存 储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用W使得一台计算 机设备(可W是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发 明各个实施例所述方法的部分步骤。而前述的存储介质包括;U盘、移动硬盘、只读存储器 巧ead-Only Memoir, ROM)、随机存取存储器(Random Access Memoir, RAM)、磁碟或者光盘 等各种可W存储程序代码的介质。
[0106] W上所述,仅为本发明的【具体实施方式】,但本发明的保护范围并不局限于此,任何 熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵 盖在本发明的保护范围之内。因此,本发明的保护范围应W所述权利要求的保护范围为准。
【主权项】
1. 一种用于识别社交短文本的类别的方法,其特征在于,所述方法包括: 获取社交短文本数据; 从所述社交短文本数据提取文本特征数据; 以所述文本特征数据作为输入,从经训练的至少两个短文本分类模型分别获取所述社 交短文本数据的第一类别信息; 根据获取的所述社交短文本数据的第一类别信息确定所述社交短文本数据的第二类 别信息。2. 根据权利要求1所述的方法,其特征在于,所述文本特征数据包括以下至少一种:纯 文本特征数据、撰写习惯特征数据、社交特征数据和用户特征数据。3. 根据权利要求2所述的方法,其特征在于, 所述纯文本特征数据包括从所述社交短文本数据切出的字的重要性指数的数据, 所述撰写习惯特征数据包括预定的表情符号在所述社交短文本数据中出现的频率的 数据, 所述社交特征数据包括以下至少一种反馈的数量:转发、评论、点赞、回复、跟踪、顶和 踩, 所述用户特征数据包括以下至少一种关联用户的数量:粉丝、关注、朋友、互粉、发布短 文本和发表评论。4. 根据权利要求3所述的方法,其特征在于,所述多个短文本分类模型基于至少两个 以下分类模型:支持向量机分类模型、逻辑斯蒂回归分类模型和随机森林分类模型。5. 根据权利要求1~4中任一项所述的方法,其特征在于,所述第二类别信息是新闻事 件类、广告类、非商业分享类或私人对话类。6. 根据权利要求5所述的方法,其特征在于,所述第一类别信息包括所述社交短文本 数据为各个所述第二类别信息的置信度值, 所述根据获取的所述社交短文本数据的第一类别信息确定所述社交短文本数据的第 二类别信息的处理包括: 分别计算每个所述第二类别信息对应于从各个所述短文本分类模型获取的置信度值 的平均值,并将平均值中的最大值对应的第二类别信息作为所述社交短文本数据的第二类 别信息。7. 根据权利要求6所述的方法,其特征在于,所述从所述社交短文本数据提取文本特 征数据的处理包括: 对所述社交短文本数据进行切字,并根据词频逆向文件频率(TF-IDF)算法分别计算 切出的字的TF-IDF值作为所述社交短文本数据的纯文本特征数据。8. -种短文本分类模型的训练方法,其特征在于,所述方法包括: 获取多个标注的样本数据,每个所述标注的样本数据包括社交短文本数据、标注的文 本特征数据及类别信息; 利用所述多个标注的样本数据对短文本分类模型进行训练,以学习社交短文本数据的 类别信息。9. 根据权利要求8所述的方法,其特征在于,所述文本特征数据包括以下至少一种:纯 文本特征数据、撰写习惯特征数据、社交特征数据和用户特征数据。10. 根据权利要求9所述的方法,其特征在于,所述类别信息是新闻事件类、广告类、非 商业分享类或私人对话类。11. 根据权利要求10所述的方法,其特征在于,所述短文本分类模型是支持向量机分 类模型、逻辑斯蒂回归分类模型或随机森林分类模型。12. -种用于识别社交短文本的类别的装置,其特征在于,所述装置包括: 文本数据获取模块,用于获取社交短文本数据; 特征数据提取模块,用于从所述社交短文本数据提取文本特征数据; 类别信息获取模块,用于以所述文本特征数据作为输入,从经训练的至少两个短文本 分类模型分别获取所述社交短文本数据的第一类别信息; 类别信息确定模块,用于根据获取的所述社交短文本数据的第一类别信息确定所述社 交短文本数据的第二类别信息。13. 根据权利要求12所述的装置,其特征在于,所述文本特征数据包括以下至少一种: 纯文本特征数据、撰写习惯特征数据、社交特征数据和用户特征数据, 所述第二类别信息是新闻事件类、广告类、非商业分享类或私人对话类。14. 根据权利要求13所述的装置,其特征在于,所述纯文本特征数据包括从所述社交 短文本数据切出的字的重要性指数的数据, 所述撰写习惯特征数据包括预定的表情符号在所述社交短文本数据中出现的频率的 数据, 所述社交特征数据包括以下至少一种反馈的数量:转发、评论、点赞、回复、跟踪、顶和 踩, 所述用户特征数据包括以下至少一种关联用户的数量:粉丝、关注、朋友、互粉、发布短 文本和发表评论。15. 根据权利要求14所述的装置,其特征在于,所述多个短文本分类模型基于至少两 个以下分类模型:支持向量机分类模型、逻辑斯蒂回归分类模型和随机森林分类模型。16. 根据权利要求12~15中任一项所述的装置,其特征在于,所述第一类别信息包 括所述社交短文本数据为各个所述第二类别信息的置信度值,所述类别信息确定模块用于 分别计算每个所述第二类别信息对应于从各个所述短文本分类模型获取的置信度值的平 均值,并将平均值中的最大值对应的第二类别信息作为所述社交短文本数据的第二类别信 息。17. 根据权利要求16所述的装置,其特征在于,所述特征数据提取模块用于对所述 社交短文本数据进行切字,并根据词频逆向文件频率(TF-IDF)算法分别计算切出的字的 TF-IDF值作为所述社交短文本数据的纯文本特征数据。18. -种短文本分类模型的训练装置,其特征在于,所述装置包括: 样本数据获取模块,用于获取多个标注的样本数据,每个所述标注的样本数据包括社 交短文本数据、标注的文本特征数据及类别信息; 分类模型训练模块,用于利用所述多个标注的样本数据对短文本分类模型进行训练, 以学习社交短文本数据的类别信息。19. 根据权利要求18所述的装置,其特征在于,所述文本特征数据包括以下至少一种: 纯文本特征数据、撰写习惯特征数据、社交特征数据和用户特征数据, 所述类别信息是新闻事件类、广告类、非商业分享类或私人对话类。20.根据权利要求19所述的装置,其特征在于,所述短文本分类模型是支持向量机分 类模型、逻辑斯蒂回归分类模型或随机森林分类模型。
【专利摘要】本发明实施例提供了一种识别社交短文本类别的方法、分类模型训练方法及装置。其中,用于识别社交短文本的类别的方法包括:获取社交短文本数据;从所述社交短文本数据提取文本特征数据;以所述文本特征数据作为输入,从经训练的至少两个短文本分类模型分别获取所述社交短文本数据的第一类别信息;根据获取的所述社交短文本数据的第一类别信息确定所述社交短文本数据的第二类别信息。本发明实施例的识别社交短文本类别的方法、分类模型训练方法及装置,能够自动、准确地识别社交短文本的类别信息,从而提高了对海量社交短文本的分类效果及准确率,广泛应用于各种短文本分析场景,且提升用户网络体验。
【IPC分类】G06F17/30
【公开号】CN104951542
【申请号】CN201510346581
【发明人】莫洋, 沈剑平, 李炫 , 宋元峰, 骆金昌, 陈玉光
【申请人】百度在线网络技术(北京)有限公司
【公开日】2015年9月30日
【申请日】2015年6月19日