一种虚假交易信息识别方法

文档序号:6584922阅读:939来源:国知局
专利名称:一种虚假交易信息识别方法
技术领域
本发明涉及互联网技术领域,特别是涉及一种虚假交易信息识别方法。
背景技术
随着互联网的发展,网上的信息变得越来越泛滥,越来越真假难辨。对于电子商务或分类信息等类型的网站,如果能够为用户提供安全、真实的商品信息,已经成为一项重要而又基本的内容,于是如何识别用户发布信息的真假已经成为了确保信息安全的关键,这也是很多网站都面临的问题。在识别虚假交易信息上,目前的方法主要是通过人工的审核,外加一些技术手段,例如确定黑名单的IP (Internet Protocol,网络之间互连的协议)地址、确定发布的信息内容或格式不合法、价格区间不合法等将完全确定信息不合法的信息删除。现有策略的缺点是人工审核太消耗人力、辅助的技术手段只能删除少部分的虚假交易信息,还有大量的虚假交易信息逃脱,可以删除100%确定为虚假的信息,但是对有85%可能为假的信息无能为力,因为都不能判断信息为假的程度。

发明内容
本发明要解决的技术问题是提供一种虚假交易信息识别方法置,用以解决现有技术进行虚假交易信息识别上人工消耗大、虚假交易信息识别率低的问题。为解决上述技术问题,一方面,本发明提供一种虚假交易信息识别方法,包括步骤S101,获取用户发布信息的信息特征、信息内容和/或图片信息;步骤S201,根据用户发布信息的信息特征、信息内容和/或图片信息,对用户发布消息进行虚假交易信息识别。进一步,在获取用户发布信息的信息特征之前,包括以下步骤步骤S1011,获取之前用户发布消息的基本数据;步骤S1012,根据获取的之前用户发布消息的基本数据,提取训练数据,确定正负样本;步骤S1013,对正负样本中的数据进行特征转换,得到设定数据格式的数据;步骤S1014,根据设定数据格式的数据,建立回归模型。进一步,步骤S1013具体包括将正负样本中的每条数据的特征确定为数值型或枚举型两类;数值型的维度值不变,在数值型数据处于样本中的位置处置该数值型数据的数值;枚举型的维度值先计算其md5值,然后将md5值对W取模,得到取模结果;在样本中将处于取模结果位置的数值置I。进一步,步骤S1014具体包括将步骤S1013得到的设定数据格式的数据转化为稀疏矩阵;
在模型训练程序中输入产生的稀疏矩阵(Xl,X2, X3, X4, X5,……,Xp),p为设定数据格式的数据的数据量;得到每一条记录对应的参数(i^,P1, β2,β3,β4,β5,……,βρ);建立回归模型,回归模型为
权利要求
1.一种虚假交易信息识别方法,其特征在于,包括 步骤S101,获取用户发布信息的信息特征、信息内容和/或图片信息; 步骤S201,根据用户发布信息的信息特征、信息内容和/或图片信息,对用户发布消息进行虚假交易信息识别。
2.如权利要求1所述的虚假交易信息识别方法,其特征在于,在获取用户发布信息的信息特征之前,包括以下步骤 步骤S1011,获取之前用户发布消息的基本数据; 步骤S1012,根据获取的之前用户发布消息的基本数据,提取训练数据,确定正负样本; 步骤S1013,对正负样本中的数据进行特征转换,得到设定数据格式的数据; 步骤S1014,根据设定数据格式的数据,建立回归模型。
3.如权利要求2所述的虚假交易信息识别方法,其特征在于,步骤S1013具体包括 将正负样本中的每条数据的特征确定为数值型或枚举型两类; 数值型的维度值不变,在数值型数据处于样本中的位置处置该数值型数据的数值;枚举型的维度值则先计算其md5值,然后将md5值对W取模,得到取模结果;在样本中将处于取模结果位置的数值置I。
4.如权利要求3所述的虚假交易信息识别方法,其特征在于,步骤S1014具体包括 将步骤S1013得到的数据转化为稀疏矩阵; 在模型训练程序程序中输入产生的稀疏矩阵(Xl,x2) X3, X4, x5,……,xP),P为设定数据格式的数据的数据量;得到每一条记录对应的参数(i^,P1, β2,β3,β4,β5,……,βρ); 建立回归模型,回归模型为=;其中g(x) = βο+βιΧι+β2Χ2+···+ βρΧρ。
5.如权利要求4所述的虚假交易信息识别方法,其特征在于,在建立回归模型之后,当接收到用户发布信息时,则步骤SlOl具体为 步骤S1015,获取用户发布消息的基本数据;包括提取用户发布消息的基本特征和获取元特征;基本特征与元特征一起作为挖掘的基本数据。
6.如权利要求5所述的虚假交易信息识别方法,其特征在于,在获取用户发布消息的基本数据之后,步骤S201具体包括以下步骤 步骤S2011,对获取用户发布消息的基本数据进行特征转换,得到设定数据格式的数据; 步骤S2012,将步骤S2011得到的设定数据格式的数据转化为稀疏矩阵的形式,通过回归模型进行虚假消息识别;其中,Ρ>Μ,则Y=l,表示用户发布信息为真实交易信息;反之,P ( Μ,则Υ=0,表示用户发布信息为虚假交易信息;Μ是预先设定的阈值。
7.如权利要求1或6所述的虚假交易信息识别方法,其特征在于,在获取用户发布信息的信息内容之前,包括以下步骤 步骤S1021,获取之前用户发布消息的信息内容并进行审核,将通过审核与没通过审核的信息分为两类,作为分类的样本数据; 步骤S1022,对样本中的信息内容进行分词;步骤S1023,通过计算,抽取特征词; 步骤S1024,计算每类中每篇文档内的每个特征词的特征值; 步骤S1025,根据获取每类中每篇文档内的每个词的特征值,通过训练得到识别模型。
8.如权利要求7所述的虚假交易信息识别方法,其特征在于,步骤S1023具体包括 对每个词都求CHI值;开方检验公式为办其中,A :在这个分类下包含这个词的文档数量;B :不在该分类下包含这个词的文档数量;C :在这个分类下不包含这个词的文档数量;D :不在该分类下,且不包含这个词的文档数量;N :表示文章总数;t 表示当前求CHI值的词;c :表示分类的类别;x2 :表示开放检验CHI值; 然后取所有词中CHI值最大的P个值作为特征词; 步骤S1024具体包括 采用TFIDF算法,计算每类中每篇文档内的每个特征词的次数,以及包含这个词的文档数,用TFIDF的值作为特征值;其中,将每篇文档转化为类别ID\t特征序号\丨特征值的格式;TFIDF公式为TFIDF=TFX IDF,其中,TF为某个特征词在这篇文档中出现的频率,IDF为反文档频率,即总文档树除以包含这个词的文档数。
9.如权利要求8所述的虚假交易信息识别方法,其特征在于,在获取用户发布消息的信息内容之后,步骤S201具体包括以下步骤 步骤S2021,对用户发布消息的信息内容进行分词; 步骤S2022,通过计算,抽取特征词; 步骤S2023,计算用户发布消息的信息内容中的每个词的特征值; 步骤S2024,根据得到的识别模型,对用户发布消息的信息内容进行虚假交易信息识别。
10.如权利要求1、6或9所述的虚假交易信息识别方法,其特征在于,根据用户发布信息的图片信息,对用户发布消息进行虚假交易信息识别,具体包括以下步骤 步骤S2031,查询图片库,判断当前图片是否在图片库中出现,如果出现,则进一步判断发帖内容是否相同,以及位置是否相同,如果都不同,则判定包含该图片的用户发布信息是虚假交易信息;否则,则判定包含该图片的用户发布信息是真实交易信息; 或者,判断图片上是否有水印,如果有,则进一步判断图片上的水印是否合法,如果不合法,则判定包含该图片的用户发布信息是虚假交易信息;否则,则判定包含该图片的用户发布信息是真实交易信息。
全文摘要
本发明公开了一种虚假交易信息识别方法,包括步骤S101,获取用户发布信息的信息特征、信息内容和/或图片信息;步骤S201,根据用户发布信息的信息特征、信息内容和/或图片信息,对用户发布消息进行虚假交易信息识别。本发明可以大大的减少交易信息的虚假量,提高交易信息的真实性,增加用户体验,同时可以大大减少人力成本。
文档编号G06Q30/02GK103064987SQ20131003769
公开日2013年4月24日 申请日期2013年1月31日 优先权日2013年1月31日
发明者王永康, 张爱华 申请人:五八同城信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1