一种非参数的话题自动标注的分布式系统和标注方法
【技术领域】
[0001] 本发明涉及一种统计学习技术应用领域的大数据处理方法,尤其是涉及话题标注 的自动建模、分布式部署及业务应用自动处理的系统。
【背景技术】
[0002] 随着互联网的技术和产品的日益成熟,互联网的信息飞速膨胀,人们依赖各种载 体在各种平台和媒体上留下自己的痕迹,比如,人们在电商平台上对物品发表评论,在微博 上发表自己感兴趣的话题,直接体现在快速积累大量数据,由此产生了大量的文本数据,而 如何从这些文本中通过语义、统计学习等技术从中挖掘用户表达的话题思想成为业界关注 的也是极其有价值的技术问题,因为大量的业务应用都会基于这些挖掘出来的信息进行精 准的营销和数据产品应用,当前学术界和工业界在这个领域的技术已经有了大量的研宄。
[0003] 但是我们在实际使用和研宄中发现,现有技术至少存在以下问题:现有技术都基 于文本的单词分布或隐含主题分布服从某假设分布,进而进行的后续参数迭代和模型的训 练,这种方法的一个弊端是当实际文本的单词和用户的真实主题不服从假设的分布时,基 于这个假设下训练出来的模型结果就会出现严重有偏;也有一些机器学习的算法,如SVM、 神经网络等具备较强的预测能力,但这些算法由于高计算复杂度,限制了其在大数据时代 的工业应用,影响工业应用的推广;现有技术需要人工定期更新模型参数,自学习能力尚不 具备。
【发明内容】
[0004] 为了克服以上缺陷,本发明提供了一种非参数的话题自动标注的分布式系统,包 括:R封装调用层和分布式数据处理层;所述R封装调用层包括参数配置模块、第一通信解 析模块和主函数模块;所述分布式数据处理层包括第二通信解析模块、任务调度模块、模型 管理模块、算法处理模块和企业应用模块;其中,所述参数配置模块用于接受配置信息;所 述主函数模块用于接受对算法调度、信息反馈处理及其他处理所进行的个性化开发,并据 此生成所述分布式数据处理层可执行的配置和需要执行的任务信息发送给所述分布式数 据处理层;所述第一通信解析模块用于与所述第二通信解析模块通信连接,用于在R封装 调用层和分布式数据处理层之间建立通信并对通信内容进行解析;所述任务调度模块用于 接收所述主函数模块发送的可执行的配置和需要执行的任务信息,并相应地控制和协调所 述模型管理模块、所述算法处理模块和所述企业应用模块的工作;所述模型管理模块用于 构建模型,指令所述算法处理模块计算模型参数,并将所述算法处理模块回传的模型参数 进行整合,生成模型参数文件;所述算法处理模块接收所述模型管理模块的指令对模型参 数进行计算,并返回结果;所述企业应用模块用于将接收的语料进行预处理,并根据所述模 型管理模块生成的模型参数文件生成话题标注。
[0005] 优选地,所述企业应用模块在预处理时将语料分词后建立标签-词语的IF-IDF矩 阵;其中,标签为话题的标注,设为7;IF-IDF为每个单词即预测变量在每个语料中出现的 频数变换,设为尤
[0006] 优选地,所述算法处理模块按照以下方法求解参数估计/?、最优窗宽AS支持向 量尤中的至少其中之一:a)构建类预测方程和似然函数,=丨,采用非参数方 法对其泛化,得到更一般的,类极大似然函数£??ιτ1 (成+1…+/VCU:),其中,/为似然函 ! : 1 数多项式逼近的阶数;b)对原特征进行核特征空间映射,得到非参数的类极大似然函数: +…+/#.<+ .V,X. -Λ?·,极大化该似然函数,采用梯度下降直至收敛得 ,V 到Λ?+Ι/(/?) = /lil/(y/+U:/./〇),其中,/?)表示参数/?的估计值;C)按下式求解窗宽:
【主权项】
1. 一种非参数的话题自动标注的分布式系统,包括:R封装调用层和分布式数据处理 层; 所述R封装调用层包括参数配置模块、第一通信解析模块和主函数模块; 所述分布式数据处理层包括第二通信解析模块、任务调度模块、模型管理模块、算法处 理模块和企业应用模块;其中, 所述参数配置模块用于接受配置信息; 所述主函数模块用于接受对算法调度、信息反馈处理及其他处理所进行的个性化开 发,并据此生成所述分布式数据处理层可执行的配置和需要执行的任务信息发送给所述分 布式数据处理层; 所述第一通信解析模块用于与所述第二通信解析模块通信连接,用于在R封装调用层 和分布式数据处理层之间建立通信并对通信内容进行解析; 所述任务调度模块用于接收所述主函数模块发送的可执行的配置和需要执行的任务 信息,并相应地控制和协调所述模型管理模块、所述算法处理模块和所述企业应用模块的 工作; 所述模型管理模块用于构建模型,指令所述算法处理模块计算模型参数,并将所述算 法处理模块回传的模型参数进行整合,生成模型参数文件; 所述算法处理模块接收所述模型管理模块的指令对模型参数进行计算,并返回结果; 所述企业应用模块用于将接收的语料进行预处理,并根据所述模型管理模块生成的模 型参数文件生成话题标注。
2. 根据权利要求1所述的系统,其特征在于: 所述企业应用模块在预处理时将语料分词后建立标签-词语的IF-IDF矩阵; 其中,标签为话题的标注,设为7;IF-IDF为每个单词即预测变量在每个语料中出现的 频数变换,设为尤
3. 根据权利要求2所述的系统,其特征在于: 所述算法处理模块按照以下方法求解参数估计/?、最优窗宽A及支持向量尤中的至少 其中之一: a) 构建类预测方程和似然函数,
采用非参数方法对其泛化,得到更 一般的,类极大似然函数
,其中,7为似然函数多项式逼近的阶 数; b) 对原特征进行核特征空间映射,得到非参数的类极大似然函数:
极大化该似然函数,采用梯度下降直至收敛得到,
,其中, /?)表示参数/?的