专利名称:基于文本主题模型的商品分类的数据处理方法
基于文本主题模型的商品分类的数据处理方法技术领域:
本发明涉及一种电子商务的数据处理技术,涉及一种基于文本主题模型的商品分类的数据处理方法。背景技术:
在互联网的电子商务市场上,现有的商品分类系统都是通过网站编辑进行手工分类。存在3个问题1)大量的商品可能会导致过多人力的消耗;2) —个商品可能具有多个类别属性,可以分到多个类别,而人工分类会因编辑个人对事物属性理解的不到位或其对事物的某些偏见导致最终分类效果并不理想;3)对某个商品进行分类时,编辑无法准确地给出一个该分类的可信度。
2011-9-21公开的,公开号为102193936A的中国发明专利揭示了一种数据分类方法及装置,该方法为获取需要进行分类的各商品的相关数据,并提取出其中的商品标题; 对各商品标题分别进行分词划分,并确定各分词的权重,其中,各分词的权重用于表示该分词的历史出现频率;针对不同的商品分别选取权重取值符合预设条件的分词组成分词序列;将针对各商品选取的分词序列进行比较,并将分词序列相同的商品的相关数据进行合并。这样,大大减少了需要处理的商品相关数据的数量,可以在较短时间内迅速、准确地实现商品分类,从而有效提高了商品分类流程的执行效率,降低了商品相关数据的管理复杂度,也减轻了系统的运算负荷。但该专利仍存在如下不足
I、其仅针对商品标题文本进行分析,而未针对商品相关的所有文本,包括商品简述,购买用户评论等;
2、其使用文本分词方法是为了得出关键词(分词结果)并通过出现频率确定其权重,这种分类的结果不会很精确;
3、并未考虑文本的潜在语义问题,因此仅能从商品类型层面对其进行分类合并;
4、需要对分词结果人工编辑各商品的主属性,该方法依赖编辑人员的个人经验, 由于编辑人员信息不足,可能导致结果偏离客观事实。
发明内容
本发明要解决的技术问题,在于提供一种基于文本主题模型的商品分类的数据处理方法,考虑到潜在语义,降低编辑人员主观因素的影响,使商品分类更为准确。
本发明是这样实现的一种基于文本主题模型的商品分类的数据处理方法,包括 步骤10、对分词系统的通用词库中导入业务相关的中英文词汇,并针对品牌及常见商品英文,导入业务相关的白名英文单词;同时,进一步扩充分词系统的停用词词库;步骤20、基于上一个步骤提供的分词系统,对商品的描述文字部分进行分词,继而使每个商品拥有一个顺序无关的词袋;步骤30、根据对分词结果进行统计后,得到频率较高的非常用词汇,以此构建一优先词库;并指定总体分类数量并设置相关参数,执行快速Gibbs抽样,并获得潜在语义关联,分别与所述优先词库、通用词库以及停用词词库比较,再对比较结果进行计算,得出商品最可能的分类并利用词袋对分类进行标识。
进一步的,所述步骤20之前,还可包括步骤10 ’、先人工将商品简单地分进具有明显差异的大类;且所述步骤10’与步骤10无先后顺序之分。
进一步的,所述步骤30中是根据TF-IDF算法过滤出对商品描述贡献较大的关键词,并统计得到频率较高的非常用词汇,以此构建一优先词库,其中,所述TF-IDF算法是先采用通用词典进行分词,然后统计每件商品文本描述中每个词的出现次数以及每个词在所 2.. 1有商品中出现的次数,然后通过TF-IDF公式t+fi.j = .ψ-一一计算出每件商品中每个词的权重,根据阈值保留高权重的词放入优先词库,式中,丨^^表示文档i中词汇j出现的频率, Hij表示j在文档i中出现的次数,分母则是文档j中所有字词出现的次数之和;再用逆向文档频率idf^计算一个词普遍重要性的度量,计算式为
其中,|dI是文档总数,分母是包含词\的文档数目;
tfidij权值Wij计算公式为
Wij = tfi, j*idfj*,
该权值即为词j在文档i中的TF-IDF值,该值表明了词j能够在多大程度上反映文档i的内容。
进一步的,本发明还包括步骤40、对商品的描述进行分析,分析时假设所有商品的描述是一个LDA主题模型,LDA主题模型是一个三层贝叶斯概率模型,包含词、主题和文档三层结构,文档到主题服从Dirichlet分布,主题到词服从多项式分布,LDA模型对每一个商品描述的文档,从主题分布中抽取一个主题赋予给一个商品,并从上述被抽到的主题所对应的词的分布中抽取一个词,重复上述过程直至遍历商品文档中的每一个词,由此得出的计算结果是,可以对每件商品赋予相关度最高的A个主题,A为可变阈值,同时可得出每个主题中各关键字对主题的贡献度,抽取对商品主题贡献度最高的10个关键词作为商品的主要属性,并以此计算各商品之间的相似度。
本发明具有如下优点本发明采用的LDA (Latent Dirichlet Allocation)模型, LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document col lection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。由于本发明考虑到潜在语义,降低编辑人员主观因素的影响,使商品分类更为准确。
下面参照附图结合实施例对本发明作进一步的说明。
图I为本发明方法一较佳实施例的执行流程图。
具体实施方式
本发明的基于文本主题模型的商品分类的数据处理方法,包括
步骤10’、先人工将商品简单地分进具有明显差异的大类;
步骤10、对分词系统的通用词库中导入业务相关的中英文词汇,并针对品牌及常见商品英文,导入业务相关的白名英文单词;同时,进一步扩充分词系统的停用词词库;
其中,所述步骤10’与步骤10无先后顺序之分。
步骤20、基于上一个步骤提供的分词系统,对商品的描述文字部分进行分词,继而使每个商品拥有一个顺序无关的词袋;
步骤30、根据对分词结果进行统计后,根据TF-IDF算法过滤出对商品描述贡献较大的关键词,并统计得到频率较高的非常用词汇,以此构建一优先词库;并指定总体分类数量并设置相关参数,执行快速Gibbs抽样,并获得潜在语义关联,分别与所述优先词库、通用词库以及停用词词库比较,再对比较结果进行计算,得出商品最可能的分类并利用词袋对分类进行标识。
其中,TF-IDF算法是一种简单快捷的文档特征词抽取方法,通过统计文档中的词频来对文档进行主题分类。TF-IDF(term frequency-inverse document frequency)是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。TF-IDF其主要思想是,如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力, 适合用来分类。TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数。IDF反文档频率(Inverse Document Frequency)是指,如果包含词条的文档越少,IDF 越大,则说明词条具有很好的类别区分能力。使用TF-IDF可以计算某个关键字在某篇文章里面的重要性,可以用此关键词来表达文档所包含的含义。词频Term Frequency (tfj表示文档i中词汇j出现的频率,计算公式如下
权利要求
1.一种基于文本主题模型的商品分类的数据处理方法,其特征在于包括 步骤10、对分词系统的通用词库中导入业务相关的中英文词汇,并针对品牌及常见商品英文,导入业务相关的白名英文单词;同时,进一步扩充分词系统的停用词词库; 步骤20、基于上一个步骤提供的分词系统,对商品的描述文字部分进行分词,继而使每个商品拥有一个顺序无关的词袋; 步骤30、根据对分词结果进行统计后,得到频率较高的非常用词汇,以此构建一优先词库;并指定总体分类数量并设置相关参数,执行快速Gibbs抽样,并获得潜在语义关联,分别与所述优先词库、通用词库以及停用词词库比较,再对比较结果进行计算,得出商品最可能的分类并利用词袋对分类进行标识。
2.根据权利要求I所述的基于文本主题模型的商品分类的数据处理方法,其特征在于所述步骤20之前,还包括 步骤10’、先人工将商品简单地分进具有明显差异的大类; 且所述步骤10’与步骤10无先后顺序之分。
3.根据权利要求I所述的基于文本主题模型的商品分类的数据处理方法,其特征在于 所述步骤30中是根据TF-IDF算法过滤出对商品描述贡献较大的关键词,并统计得到频率较高的非常用词汇,以此构建一优先词库,其中,所述TF-IDF算法是先采用通用词典进行分词,然后统计每件商品文本描述中每个词的出现次数以及每个词在所有商品中出现的次数,然后通过TF-IDF公式tfy = : 计算出每件商品中每个词的权重,根据阈值保留高权重的词放入优先词库,式中,tfu表示文档i中词汇j出现的频率,Iiij表示j在文档i中出现的次数,分母则是文档j中所有字词出现的次数之和; 再用逆向文档频率idfi计算一个词普遍重要性的度量,计算式为 .lf msdfi = i g P7i--Ji 其中,Id I是文档总数,分母是包含词\的文档数目; tfidfij权值Wij计算公式为 Wij = tfi,j*idfJ, 该权值即为词j在文档i中的TF-IDF值,该值表明了词j能够在多大程度上反映文档i的内容。
4.根据权利要求I所述的基于文本主题模型的商品分类的数据处理方法,其特征在于还包括 步骤40、对商品的描述进行分析,分析时假设所有商品的描述是一个LDA主题模型,LDA主题模型是一个三层贝叶斯概率模型,包含词、主题和文档三层结构,文档到主题服从Dirichlet分布,主题到词服从多项式分布,LDA模型对每一个商品描述的文档,从主题分布中抽取一个主题赋予给一个商品,并从上述被抽到的主题所对应的词的分布中抽取一个词,重复上述过程直至遍历商品文档中的每一个词,由此得出的计算结果是,可以对每件商品赋予相关度最高的A个主题,A为可变阈值,同时可得出每个主题中各关键字对主题的贡献度,抽取对商品主题贡献度最高的10个关键词作为商品的主要属性,并以此计算各商品之间的相似 度。
全文摘要
本发明提供一种基于文本主题模型的商品分类的数据处理方法,对分词系统的通用词库中导入业务相关的中英文词汇,并针对品牌及常见商品英文,导入业务相关的白名英文单词;进一步扩充分词系统的停用词词库;对商品的描述文字部分进行分词,继而使每个商品拥有一个顺序无关的词袋;根据对分词结果进行统计后,得到频率较高的非常用词汇,以此构建一优先词库;并指定总体分类数量并设置相关参数,执行快速Gibbs抽样,并获得潜在语义关联,分别与所述优先词库、通用词库以及停用词词库比较,再对比较结果进行计算,得出商品最可能的分类并利用词袋对分类进行标识。本发明考虑到潜在语义,降低编辑人员主观因素的影响,使商品分类更为准确。
文档编号G06F17/30GK102929937SQ20121036637
公开日2013年2月13日 申请日期2012年9月28日 优先权日2012年9月28日
发明者刘德建, 陈宏展, 欧宁, 吴拥民, 陈澄宇 申请人:福州博远无线网络科技有限公司