网购用户买假指数模型的生成方法及系统与流程

文档序号：15230652发布日期：2018-08-21 19:23阅读：339来源：国知局

本发明涉及一种网购用户买假指数模型的生成方法及系统。

背景技术：

据相关搜索与比对发现，现有的网购用户大指数设计与编制技术有：

2015年，阿里巴巴基于全年在线上风险控制中的主动发现拦截上架、消费者投诉中被核实的售假商品链接，以及背后被阿里处罚关闭的上百万涉嫌售假商品数据，所构建的中国的假货活跃指数地图。但是该假货活跃指数的数据主要是通过对发布商品的基本信息与消费者投诉得出的，对于发布商品的基本信息，包括文字信息与图片信息，不包含关键词的，且消费者未投诉的买假，也称为知假买假，或买假不知假等，不能进行监测。

上述问题是在网购用户买假指数模型的生成过程中应当予以考虑并解决的问题。

技术实现要素：

本发明的目的是提供一种网购用户买假指数模型的生成方法及系统，能综合反映不同平台、不同地区、不同商品类目、不同人群的消费者买假行为与买假行为态度倾向时序指标模型，通过买假评论指数、买假行为指数以及买假舆情指数来综合监测与预测网购用户的买假行为及其态度的发展趋势，解决现有技术中存在的通过对发布商品的基本信息与消费者投诉得出的，对于发布商品的基本信息，包括文字信息与图片信息，不包含关键词的，且消费者未投诉的买假，不能进行监测的问题。

本发明的技术解决方案是：

一种网购用户买假指数模型的生成方法，分别生成买假评论指数、买假行为指数和买假舆情指数，包括以下步骤：

s1、生成买假评论指数，具体为：

s11、获取电商平台上的用户商品评论文本数据；

s12、数据的预处理，获得用户商品评论文本数据后，进行数据预处理，识别并排除店铺商家存在的违规违约的刷评论数据，以得到有效用户评论数据；

s13、买假评论文本的识别，获得有效用户评论数据之后，再根据用户评论语句的相似度算法来计算和识别这些用户商品评论数据的内容是否为买假评论，并计数买假评论数量；

s14、买假评论指数的生成；

s2、生成买假行为指数，具体为：

s21、投诉数据获取，包括获取电商平台的用户商品投诉数据与线下用户商品投诉数据；

s22、数据的预处理，获得步骤s21的投诉数据后，确定投诉数据中属于网购用户买假投诉用户，并备案相关基础信息(包括网购用户买假投诉用户姓名、性别、年龄、平台账户id，商品名称、购物所在平台名称、购物所在商铺名称)，然后通过网购用户买假投诉用户备案基础信息，追溯并识别出非欺诈性买假行为和欺诈性买假行为；

s23、生产网购用户买假行为指数，编制与计算网购用户欺诈性买假行为指数；

s3、生成买假舆情指数，具体为：

s31、进行买假舆情数据采集，并将采集到的网络舆情数据进行文本分析和主题分类；

s32、按照不同的主题分为欺诈性买假和非欺诈性买假这两大主题来统计三类主体包括主流新闻、企业人士和普通网这三大主体的买假舆情，并通过网络舆情模糊评估模型进行指标评判，计算出各指标的舆情指数；

s33、通过加权算法计算不同主题、不同主体的网络舆情综合指数。

进一步地，步骤s12中，数据预处理具体为：

s121、去除商家自评论数据；

s122、去除评论字数不规范的评论数据；

s123、去除评论文字雷同的评论数据；

s124、去除违规刷屏的评论数据。

进一步地，步骤s13中，相似度算法具体为，按假冒商品类型划分构建网购用户买假语料库，通过关键词匹配实现识别。

进一步地，步骤s13的相似度算法中，对于复杂文本，建立基于语料库的买假用户评论识别案例推理模型进行识别。

进一步地，步骤s14具体为，

s141、生成f类目i商品j店铺的网购用户买假评论指数：获得买假评论条目后，除以有效用户评论，即得出网购该商品的所有用户买假评论比例值，其等于其中，mbc为购买该商品的网购用户买假评论数量，m为购买该商品的网购用户有效评论数量；

s142、生成f类目i商品的网购用户买假评论指数：其等于f类目的i商品下的所有店铺的网购用户买假评论的比例值的累和平均值，计算公式为：

其中，n为f类目下i商品所有店铺数量；

s143、生成f类目商品的网购用户买假评论指数：其等于f类目下的所有商品的网购用户买假评论的比例值的累和平均值，计算公式为：

其中，n为f类目下i商品所有店铺数量，k为f类目下所有商品的数量；

s144、生成网购用户买假评论指数：其等于所有类目网购商品的网购用户买假评论的比例值的累和平均值，计算公式为：

其中，19为商品类目主体数量值，n为f类目下i商品所有店铺数量，k为f类目下所有商品的数量。

进一步地，步骤s22中，数据预处理具体为：

s221、确认属实的网购用户的买假投诉，完成这些属实的网购用户的买假投诉的备案信息采集，包括用户个人的基础信息、被投诉商家的基础信息、用户个人的历史交易、被投诉商家的历史交易信息、被投诉商家所对应的商品的历史评论信息、被投诉的商家其他商品的历史评论信息、被投诉商家所对应的商品的历史评论信息中的所有用户基础信息；

s222、通过文本挖掘与机器学习算法来识别与区分被投诉商品评论中非欺诈性买假用户与欺诈性买假用户，并得出被投诉商品评论中非欺诈性买假用户比例与欺诈性买假用户比例；其中通过文本挖掘与机器学习算法来识别与区分被投诉商品评论中非欺诈性买假用户与欺诈性买假用户，具体为：

首先，判断网购用户是否为评论用户，如是则继续判断该网购用户是否为差评用户，如是差评用户则该网购用户为欺诈性买假用户，如该网购用户不是差评用户，则该网购用户为好评用户或中评用户，这时需与知假买假用户行为特征库进行比对，判断得出是否为非欺诈性买假用户；

如判断网购用户不是为评论用户，判断是否为客服投诉用户，如是客服投诉用户，则该网购用户为欺诈性买假用户；如不是客服投诉用户，则该网购用户为未发现被欺诈用户或非欺诈性买假用户，这时需与知假买假用户行为特征库进行比对，判断得出是否为非欺诈性买假用户或未发现被欺诈的欺诈性买假用户。

进一步地，步骤s23，具体为，

s231、生成f类目i商品网购用户欺诈性买假投诉指数

其中，为t期用户购买到f类目i假冒商品后的已投诉、非好评以及不知情的总人数，为t期用户购买到f类目i假冒商品的总人数，为基期用户购买到f类目i假冒商品后的已投诉、非好评以及不知情的总人数，为基期用户购买到f类目i假冒商品的总人数；

s232、生成f类目商品网购用户欺诈性买假投诉指数：

其中，n为从已经研判为是假冒且为f类目的商品中抽样得到商品总数量；

s233、生成网购用户欺诈性买假投诉指数：

其中，19为商品类目数量值，可参照图7商品类目划来计算；

s234、生成f类目i商品网购用户非欺诈性买假指数

其中，为t期用户购买到f类目i假冒商品后的不投诉、不评论及非差评评论总人数，为t期用户购买到f类目i假冒商品后的总人数，t为基期用户购买到f类目i假冒商品后的不投诉、不评论及非差评评论总人数，为基期用户购买到f类目i假冒商品后的总人数；

s235、生成f类目商品网购用户非欺诈性买假指数，

其中，n为从已经研判为是假冒且为f类目的商品中抽样得到商品总数量；

s236、生成网购用户欺诈性买假投诉指数：

其中，19为商品类目数量值，可参照图7商品类目划来计算；

进一步地，步骤s31具体为，对买假舆情数据进行两个主题和三大主体分类，具体为，对买假舆情数据进行文本分析预处理，根据舆情主题分类体系中的主题曾经划分方法，采用支持向量机对1级和2级主题进行自动文本分类，采用关键词匹配算法对3级主题词进行自动搜索分类，包括以下步骤，

s311、按照不同类型的网络信息类别，分别预先采集部分文本数据，并进行关键词语与摘要提取；

s312、基于人机结合的方式，对预先采集文本的关键词语与摘要进行两个主题类别标记和三个主体类别标记，不断训练svm买假舆情主题分类器，并形成svm分类模型；

s313、将测试文本进行关键词语摘要提取后，分别导入svm分类模型中，进行自动买假舆情分类。

进一步地，步骤s33具体为，

s331、生成主流新闻舆情指数：

其中，i为地区归属标识，j为平台归属标识，k为商铺名称归属标识，z为商品名称归属标识，为基期买假舆情事件主流新闻数量，为t期买假舆情事件主流新闻数量，主流新闻买假舆情总指数等于地区、平台、商店名称、商品类目和商品名称买假舆情事件主流新闻舆情分指数的累加和平均；

s332、生成企业人士舆情指数：

其中，i为地区归属标识，j为平台归属标识，k为商铺名称归属标识，z为商品名称归属标识，为基期买假舆情事件企业人士发表意见数量，为t期买假舆情事件企业人士发表意见数量，企业人士买假舆情总指数等于是地区、平台、商店名称、商品类目和商品名称买假新闻舆情分指数的累加和平均；

s333、生成普通网民舆情指数：

其中，其中，i为地区归属标识，j为平台归属标识，k为商铺名称归属标识，z为商品名称归属标识，为基期普通网民买假舆情事件回帖、转贴、点击数量的累加和平均值，为t期普通网民买假舆情事件回帖、转贴、点击数量的累加和平均，普通网民买假舆情总指数等于是地区、平台、商店名称、商品类目和商品名称买假新闻舆情分指数的累加和平均。

一种采用上述任一项所述的网购用户买假指数模型的生成方法的网购用户买假指数模型的生成系统，包括买假评论指数生成模块、买假行为指数生成模块和买假舆情指数生成模块，包括以下步骤：

买假评论指数生成模块：获取电商平台上的用户商品评论文本数据；获得用户商品评论文本数据后，进行数据预处理，识别并排除店铺商家存在的违规违约的刷评论数据，以得到有效用户评论数据；买假评论文本的识别，获得有效用户评论数据之后，再根据用户评论语句的相似度算法来计算和识别这些用户商品评论数据的内容是否为买假评论，并计数买假评论数量；生成买假评论指数。

买假行为指数生成模块：投诉数据获取，包括获取电商平台的用户商品投诉数据与线下用户商品投诉数据；数据的预处理，获得步骤s21的投诉数据后，确定投诉数据中属于网购用户买假投诉；买假行为指数的生成，包括f类目i商品网购用户欺诈性、非欺诈性买假行为指数、f类目商品网购用户欺诈性、非欺诈性买假行为指数、网购用户欺诈性、非欺诈性买假行为指数；

买假舆情指数生成模块：进行买假舆情数据采集，并将采集到的网络舆情数据进行文本分析和主题分类；按照三类主体和两大主题，并通过网络舆情模糊评估模型进行指标评判，计算出各指标的舆情指数；通过加权算法计算各主题网络的舆情综合指数。

本发明的有益效果是：该种网购用户买假指数模型的生成方法及系统，所生成的网购用户买假指数模型的计算数据易获取，模型输出结果唯一、较为稳定，且可动态监测与预测某段时间内，特定商品、特定消费群体的买假评论状态、买假行为与买假舆情分布特征及整体发展状态。

附图说明

图1是本发明实施例网购用户买假指数模型的生成方法的流程示意图。

图2是实施例中数据获取的流程示意图。

图3是实施例中买假评论数据预处理的流程示意图。

图4是实施例中生成买假舆情指数的流程示意图。

图5是实施例中假冒(仿冒)商品类型划分表的示意图。

图6是实施例中网购用户买假指数指标体系的说明示意图。

图7是实施例中网购商品类目表的示意图。

图8是实施例中欺诈性与非欺诈性买假用户识别算法的示意图。

具体实施方式

下面结合附图详细说明本发明的优选实施例。

实施例

实施例中，买假评论指数是指买到假货的用户通过商品评论的方式来表达自身看法的数量比例与分布随时间变化的指标模型。买假行为指数是指网购用户欺诈性买假行为与非欺诈性买假行为的比例与分布随时间变化的指标模型。买假舆情指数是指不同社会主体(消费者、新闻媒体与商家企业)对网购用户买假行为的评论与态度倾向评价模型。

实施例中，由于评论买假指数、买假行为指数以及买假舆情指数所需要的数据不同，且具体的编制与计算方法存在较大差异，实施例将分别生成以上三个指数。

一种网购用户买假指数模型的生成方法，分别生成买假评论指数、买假行为指数和买假舆情指数，如图1，包括以下步骤：

s1、生成买假评论指数，具体为：

s11、获取电商平台上的用户商品评论文本数据；用户商品评论文本数据包括用户注册信息、用户交易信息、平台名、商品名、商品类目名、店铺名，其中，用户注册信息包括性别、年龄、地区，用户交易信息包括交易次数、交易量、交易额。

用户商品评论文本数据是阿里、京东、苏宁等各大电商平台上的用户商品评论文本数据。这些数据可由各地电商提供特定数据接口api来获取，也可以利用网络爬虫技术进行获取。具体数据获取步骤可按照图2所给的流程图，按照关键词，依此进行检索和获取相关数据，其中，实线有向箭头是数据检索和获取路线，虚线表示双向关联，即获取对应数据后可双向检索。

s12、数据的预处理，获得用户商品评论文本数据后，进行数据预处理，识别并排除店铺商家存在的违规违约的刷评论数据，以得到有效用户评论数据；

获得特定平台、特定类目、特定商品、特定店铺的所有用评论数据后，首先图3所示进行数据预处理，重点是识别并排除店铺商家可能存在的违规违约的刷评论数据，以便提高指数计算的精确性。从而得到有效评论数据。诚然，有效评论数据的鉴别还包括删除商家回答、广告以及与本商品无关的评论数据。

步骤s12中，数据预处理具体为：

s121、去除商家自评论数据；

s122、去除评论字数不规范的评论数据；

s123、去除评论文字雷同的评论数据；

s124、去除违规刷屏的评论数据。

获得有效用户评论数据之后，再根据用户评论语句(关键词)的相似度算法来计算和识别这些用户商品评论所阐述的内容是否为买假评论，并计数买假评论数量。这里的识别方法需按图5中的假冒(仿冒)商品类型划分表，所构建一个网购用户买假语料库，通过关键词匹配就可实现识别。对于复杂文本而言，可建立一个基于语料库的买假用户评论识别案例推理模型进行识别。

s14、买假评论指数的生成；步骤s14具体为，

s142、生成f类目i商品的网购用户买假评论指数：其等于f类目的i商品下的所有店铺的网购用户买假评论的比例值的累和平均值，计算公式为：

其中，n为f类目下i商品所有店铺数量；

s143、生成f类目商品的网购用户买假评论指数：其等于f类目下的所有商品的网购用户买假评论的比例值的累和平均值，计算公式为：

其中，n为f类目下i商品所有店铺数量，k为f类目下所有商品的数量；

s144、生成网购用户买假评论指数：其等于所有类目网购商品的网购用户买假评论的比例值的累和平均值，计算公式为：

其中，n为f类目下i商品所有店铺数量，19为商品类目主体数量值，k为f类目下所有商品的数量。

步骤s14中，其他属性网购用户买假评论指数的计算，后续分组指数和综合指数的编制与计算与上述过程是一致的。所不同的是，分地区指数计算，需要区分网购用户的地区归属id，分人群特征归属的指数计算需要区分用户的性别与年龄。

s2、生成买假行为指数，具体为：

s21、投诉数据获取，包括获取电商平台的用户商品投诉数据与线下用户商品投诉数据；该指数构建所需的投诉数据依然是阿里、京东、苏宁等各大线上电商平台备案的用户商品投诉数据以及315等消费者维权机构备案的线下用户商品投诉数据。

步骤s22中，数据预处理具体为：

步骤s22中，获得投诉数据之后，需要确定哪些投诉数据属于网购用户买假投诉。此时，需政府相关职能部门与各电商平台协作，进一步确定这些网购用户买假投诉哪些是属实的。并基于这些属实案件历史备案线索，追溯和备案其历史商品信息、交易信息、评论信息与投诉信息等。然后通过根据图8的算法以及文本挖掘算法来区分非欺诈性买假用户(用户知晓所购商品是假货)比例与欺诈性买假用户(用户不知晓所购商品是假货)比例。此时依然可按图5区分出假冒仿冒商品、伪劣商品、偷漏税商品、违禁商品以及不合格商品等欺诈性买假与非欺诈性买假比率与分布情况。

考虑到多数被欺诈的消费者会进行事后投诉或事后评论，故本部分仅给出欺诈性买假行为指数的编制与计算过程，其具体内容与步骤s14中的买假评论指数编制与计算过程类似。在所有已经侦察属实并定案的所有售假商家历史评论基础上，排除掉被欺诈用户(可通过是否事后进行差评，是否事后进行投诉和维权来排除)后，剩余的基本属于知假买假用户。其计算过程与欺诈性用户指数的计算是相同的。

s23、买假行为指数的生成，包括f类目i商品网购用户欺诈性、非欺诈性买假行为指数、f类目商品网购用户欺诈性、非欺诈性买假行为指数、网购用户欺诈性、非欺诈性买假行为指数；步骤s23，具体为，

s231、生成f类目i商品网购用户欺诈性买假投诉指数

s232、生成f类目商品网购用户欺诈性买假投诉指数：

其中，n为从已经研判为是假冒且为f类目的商品中抽样得到商品总数量；

s233、生成网购用户欺诈性买假投诉指数：

其中，19为商品类目数量值，可参照图7商品类目划来计算；

s234、生成f类目i商品网购用户非欺诈性买假指数

s235、生成f类目商品网购用户非欺诈性买假指数，

其中，n为从已经研判为是假冒且为f类目的商品中抽样得到商品总数量；

s236、生成网购用户欺诈性买假投诉指数：

其中，19为商品类目数量值，可参照图7商品类目划来计算；

步骤s23中，其他属性网购用户欺诈性买假投诉指数的计算，后续分组指数和综合指数的编制与计算与上述过程是一致的。所不同的是，分地区指数计算，需要区分网购用户的地区归属id，分人群特征归属的指数计算需要区分用户的性别与年龄。

s3、生成买假舆情指数，如图4，具体为：

s31、进行买假舆情数据采集，并将采集到的网络舆情数据进行文本分析和主题分类；买假舆情数据包括：新闻、用户和企业发帖内容，发帖时间、发帖数量、回帖时间、回帖数量、点击数、回帖数、转发数。

步骤s31具体为，对买假舆情数据进行两个主题和三大主体分类，具体为，对买假舆情数据进行文本分析预处理，根据舆情主题分类体系中的主题曾经划分方法，采用支持向量机对1级和2级主题进行自动文本分类，采用关键词匹配算法对3级主题词进行自动搜索分类，包括以下步骤，

s311、按照不同类型的网络信息类别，分别预先采集部分文本数据，并进行关键词语与摘要提取；

s313、将测试文本进行关键词语摘要提取后，分别导入svm分类模型中，进行自动买假舆情分类。

需要注意的是，买假舆情分类的过程必须采用统一的编码方式，需要对文本进行分词，生成的关键表和文本摘要也需要进行停用词的过滤。

s32、按照不同的主题分为欺诈性买假和非欺诈性买假这两大主题来统计三类主体包括主流新闻、企业人士和普通网这三大主体的买假舆情，并通过网络舆情模糊评估模型进行指标评判，计算出各指标的舆情指数。

买假舆情指数三级指标的计算，包括两种类型，第一种是直接通过网络数据采集数据进行统计。例如买假舆情发布新闻的数量。另一种是需要进行深度的文本处理与语义识别后再进行相应指标的计算。例如买假态度倾向性的计算。

网购用户买假舆情态度倾向性的计算主要是分别对新闻媒体、企业与消费者这三类主体的网购买假舆情的支持、中立与反对的倾向性进行量化、计算与判断。例如对各全国大主流媒体的网购买假事件新闻报道文本进行分词，获得特征词(关键词)和新闻摘要后，再进行词性标注和情感分析，即可计算出各新闻媒体的买假舆情态度倾向。对企业的网购用户买假舆情的计算主要是对全国各地区知企业自身新闻媒体发布平台及其ceo等高级管理人员的买假问题的新闻报道文本进行分词与情感分析，计算出其舆情倾向。对全国各地区消费者网购买假舆情的计算，主要是根据网络用户的发帖和回帖信息进行买假态度倾向计算。

步骤s33具体为，

s331、生成主流新闻舆情指数：

s332、生成企业人士舆情指数：

s333、生成普通网民舆情指数：

关于网购用户买假指数模型设计与编制技术最大的难点在于相关维权行为指标选择、细化、具体化与具体子指标的计算模型设计与编制。实施例针对这些技术难点，给出各指标设计与详细计算模型，解决了具体子指标与总指数计算的技术难点。

网购用户买假指数的指标体系首先划分为买假评论指数、买假行为指数和买假舆情指数三个二级指标，其中每个二级指标又划分为总指数和分组指数，最小指标粒度时数量、金额与比例，且可从地区归属、平台归属、类目归属和人群归属这四个横向指标进行交叉，具体内容如图6所示。其中分指数和总指数是相对而言的，其主要是指明按什么分类维度进行划分，而总指数仅仅是其分指数的累加平均。例如，模型计算的输入数据，经地区标签识别后，都指向用户的商品收货地址都是来自某个相同地区i，并按步骤s1、s2、s3及其他们的分步骤分别计算出来买假指数ai，即为i地区网购用户买假分指数。通过上述多个地区的ai指数累加平均数学计算，即计算出来所有地区买假总指数a。诸如此类，按平台归属、商品类目归属和用户人群归属所定义的分指数和总指数的关系的计算逻辑也是相同的。

需要注意的是，地区归属，是按国家省、市、县地区区域划分，划分到县一级；平台归属划分，是按照苏宁、京东和阿里等平台企业名称进行划分，商品类目归属是按照国家工商局给出的商品类目以及几个电商平台的商品类目进行修正之后得到的划分标准，如图7；人群归属划分，主要是从用户的年龄和性别两个维度进行划分。

实施例的网购用户买假指数模型的生成方法及系统，所得到的网购用户买假指数模型的计算数据易获取，模型输出结果唯一、较为稳定，且可动态监测与预测某段时间内，特定商品、特定消费群体的买假评论状态、买假行为与买假舆情分布特征及整体发展状态。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈瑞义;江烨;钱鹏程
技术所有人：南京邮电大学
我是此专利的发明人

上一篇：一种用于治疗乳腺癌的中药胶囊及其制备方法与流程
上一篇：一种柴油发电机组的发电机散热机构的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。