技术编号:12363710
提示:您尚未登录,请点 登 陆 后下载,如果您还没有账户请点 注 册 ,登陆完成后,请刷新本页查看技术详细信息。本发明涉及机器学习领域,具体而言,涉及一种语料筛选方法及装置。背景技术在文本机器学习中,通过训练文本来训练语言模型,其中,训练文本即训练样本。通常,影响机器学习效果的主要因素有:1)训练样本集中噪声训练样本,即与训练主题无关的文本;2)训练样本集中文本的维度噪声,即与训练主题没明显关联度的词汇,比如,助词等。在语言模型的训练过程中,训练样本直接决定了语言模型的好坏,因此训练样本集的筛选、构造就非常重要。在理想情况下,提供的训练样本越多,样本的分布越接近实际环境中文本的分布,那么训练出来的语言模型...
注意:该技术已申请专利,请尊重研发人员的辛勤研发付出,在未取得专利权人授权前,仅供技术研究参考不得用于商业用途。
该专利适合技术人员进行技术研发参考以及查看自身技术是否侵权,增加技术思路,做技术知识储备,不适合论文引用。
请注意,此类技术没有源代码,用于学习研究技术思路。