本发明涉及网络信息分析与数据挖掘技术领域,特别是涉及一种论坛帖子评价方法、装置及系统。
背景技术:
随着计算机网络的不断发展,网络信息成为日常生活中的重要组成部分,互联网以及成为人们获取信息、交流沟通的重要场所。用户可以在各种主题的论坛中发布信息、获取信息、交流经验等,在这些海量的帖子蕴含着巨大的潜在价值。
现有技术中,对网络论坛的帖子评价主要是基于内容识别后进行质量级别分类,通常将帖子分成好、中、差、垃圾等几个等级,但是这样的评价方法存在以下缺陷:1、当需要对同级别的帖子进行排序时,往往只能随机排序,很难再区分各个帖子的细微质量差异,而基于个性化推荐、排序等需求往往需要对每个帖子进行精确评分;2、只考虑内容因素,缺乏用户参与,不适用于社区类产品的运营;3、缺乏考虑时间因素,无法保证帖子时效性,往往高分的帖子是一些过时帖子。
技术实现要素:
本发明主要解决的技术问题是提供一种论坛帖子评价方法、装置及系统,能够快速对论坛帖子进行评价。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种论坛帖子评价方法,所述方法包括:服务器获取帖子的内容和对应的用户对所述帖子的操作信息,以获取帖子特征;对所述帖子特征进行数据分布的分析,并进行特征变换以得到特征向量;以及利用预先建立的评价模型,根据所述特征向量以及权重向量确定评价分数,以利用所述评价 分数对所述帖子进行评价;其中,所述评价模型为score为所述评价分数,wei为所述权重向量,xi为所述特征向量。
其中,所述利用预先建立的评价模型,根据所述特征向量以及预先得到的权重向量确定评价分数,以利用所述评价分数对所述帖子进行评价的步骤具体为:利用最小二乘法从训练库中得到所述权重向量wei;其中,所述训练库根据评价人员对论坛帖子库中抽取的样本帖子进行评分评价而得到;利用所述评价模型,根据所述特征向量和所述权重向量确定所述评价分数,以利用所述评价分数对所述帖子进行评价。
其中,所述对所述帖子特征进行数据分布的分析,并进行特征变换以得到特征向量的步骤具体为:对所述帖子特征的数据分布特点进行分析,以及数据分布曲线进行分析;根据所述帖子特征的数据分布特点的分析结果,识别并截去极值,以及根据所述帖子特征的数据分布曲线的分析结果,通过函数转换得到线性曲线,得到特征向量。
其中,所述方法还包括:至少显示所述帖子的标题和评价分数。
其中,所述方法还包括:发送包括所述帖子的评价分数的特征信息至另一服务器,使所述另一服务器对所述特征信息进行分析以确定相关信息。
其中,所述发送包括所述帖子的评价分数的特征信息至另一服务器,使所述另一服务器对所述特征信息进行分析以确定相关信息的步骤具体为:根据所述帖子的特征信息对完成评价的帖子进行分类;对每一类中包含的帖子按照评价分数从高到低的顺序进行排列,以确定每一类中评价分数最高的帖子的特征信息;以及将确定的每一类中评价分数最高的帖子的特征信息发送至所述另一服务器,使所述另一服务器对帖子特征进行分析以获取相关信息。
为解决上述技术问题,本发明采用的另一个技术方案是:提供一种论坛帖子特征评价装置,所述装置包括:特征获取模块,用于获取帖子的内容和对应的用户对所述帖子的操作信息,以获取帖子特征;特征分析模块,用于对所述特征获取模块获取的帖子特征进行数据分布的分析,并进行特征变换以得到特征向量;评价模块,用于利用预先建立的 评价模型,根据所述特征分析模块得到的所述特征向量以及权重向量确定评价分数,以利用所述评价分数对所述帖子进行评价;其中,所述评价模型为score为所述评价分数,wei为所述权重向量,xi为所述特征向量。
其中,还包括计算模块,用于利用最小二乘法从训练库中得到所述权重向量wei;其中,所述训练库根据评价人员对论坛帖子库中抽取的样本帖子进行评分评价而得到。
为解决上述技术问题,本发明采用的另一个技术方案是:提供一种论坛帖子评价系统,所述系统包括第一服务器和第二服务器,其中,所述第一服务器包括:特征获取模块,用于获取帖子的内容和对应的用户对所述帖子的操作信息,以获取帖子特征;特征分析模块,用于对所述特征获取模块获取的帖子特征进行数据分布的分析,并进行特征变换以得到特征向量;评价模块,用于利用预先建立的评价模型,根据所述特征分析模块得到的所述特征向量以及权重向量确定评价分数,以利用所述评价分数对所述帖子进行评价;其中,所述评价模型为score为所述评价分数,wei为所述权重向量,xi为所述特征向量;以及传送模块,用于发送包括所述帖子的评价分数的特征信息至所述第二服务器,使所述第二服务器对所述特征信息进行分析以确定相关信息。
其中,所述第一服务器与所述第二服务器通信连接,所述第二服务器为专业机构服务器。
本发明的有益效果是:本发明提供的一种论坛帖子评价方法、装置及系统,通过对帖子的内容和操作信息确定帖子特征,对帖子特征进行分析和特征变换而得到特征向量,并根据特征向量和权重向量,利用预先建立的评价模型确定评价分数,以对帖子进行评价,从而实现快速对帖子进行评价。
附图说明
图1是本发明一种论坛帖子评价方法的第一实施方式的流程图;
图2是图1所示的一种论坛帖子评价方法中进行帖子评价的方法的流程图;
图3是本发明一种论坛帖子评价方法的第二实施方式的流程图;
图4是本发明显示论坛帖子评价结果的一实施方式的示意图;
图5是本发明一种论坛帖子评价方法的第三实施方式的流程图;
图6是本发明一种论坛帖子评价装置的第一实施方式的结构示意图;
图7是本发明一种论坛帖子评价装置的第二实施方式的结构示意图;
图8是本发明一种论坛帖子评价装置的第三实施方式的结构示意图;
图9是本发明一种论坛帖子评价系统一实施方式的结构示意图。
具体实施方式
下面结合附图和实施方式对本发明进行详细说明。
请参阅图1,为本发明一种论坛帖子评价方法的第一实施方式的流程图,该实施方式示出的方法包括:
步骤S10:服务器获取帖子的内容和对应的用户对帖子的操作信息,以获取帖子特征。
用户登录服务器运行的论坛等信息发布平台发布帖子,发布的帖子通常包括标题和内容。并且,发布的帖子还包含发布者的身份信息ID,例如,用户名、用户的网络地址等。
其中,该帖子特征中,根据帖子的内容可以确定的特征信息包括:标题长度、内容长度、图片数量;根据用户对帖子的操作信息可以确定的特征信息包括:用户自回复帖子数量、自动回复的前N个帖子的字数、自动回复的前N个帖子的图片数量、收藏用户数量、浏览人数、浏览次数、回复人数、回复次数、每分钟浏览人数、帖龄,N为自然数。
在本实施方式中,N=10。
如上所述的帖子特征的具体解释如下:
(1)标题长度:帖子标题字数;
(2)内容长度:帖子正文字数;
(3)图片数量:帖子正文包含的图片张数;
(4)用户自回复条数:帖子作者回复本帖的条数;
(5)自回复前10条字数:帖子作者回复本帖按时间顺序排序,取前10条的帖子的字数;
(6)自回复前10条图片数:帖子作者回复本帖按时间顺序排序,取前10条帖子包含的图片张数;
(7)收藏用户数:帖子被多少个用户收藏;
(8)浏览人数:帖子被多少个用户浏览;
(9)浏览次数:帖子被浏览了多少次;
(10)回复人数:帖子被多少人回复;
(11)回复次数:帖子被回复了多少次;
(12)每分钟浏览人数:帖子平均每分钟被多少人浏览;
(13)贴龄:帖子发布时间距离当前时间多少分钟。
在本实施方式中,根据帖子内容和用户行为特点,同时选取如上所述的13个特征作为帖子的特征,还可以从如上所述的13个特征中选择一个或多个特征作为帖子的特征。但是,在其他实施方式中,可以根据情况选择帖子的特征,并不仅限于如上列出的13个特征。
步骤S11,对该帖子特征进行数据分布的分析,并进行特征变换以得到特征向量。
其中,对帖子特征的数据分布分析包括数据分布特点的分析以及数据分布曲线的分析。
具体地,根据帖子特征的数据分布特点的分析结果,识别并截去极值,以及根据帖子特征的数据分布曲线的分析结果,通过函数转换得到线性曲线,进而得到特征向量。
帖子特征的数据分布特点的分析,即,对如上所述的帖子特征进行数据分布特点的分析,例如,布尔型、离散型、连续型等。
帖子特征的数据分布曲线的分析,即,对如上所述的帖子特征进行 数据分布曲线的分析,例如,线性函数、幂函数、指数函数、分段函数等。
将上面所述的分析结果进行特征转换,从而得到特征向量,具体包括:
(1)非线性数据均衡:将数据分布曲线由非线性曲线通过函数转换,得到线性曲线。
例如,密函数的曲线函数为:y=a+bxn;
对应的转换函数为:x=n√y;
指数函数的曲线函数为:y=a+bnx,对应的转换函数为:x=logey。
(2)规避极值影响:识别截断点,自动截去极值,具体操作步骤如下:
1.将[0-1]以0.01步长分成100个桶;
2.取依次以yii∈[1…n]为截断点,对数据进行归一化,放入对应的桶,计算桶内元素分布标准差stdi;
3.确定截断点,split=ym,m=argmin m∈[1…n]stdm,即,桶内元素分布标准差最小的点split为截断点;
4.将大于截断点split的数据丢弃,即完成极值规避。
步骤S12,利用预先建立的评价模型,根据该特征向量以及权重向量确定评价分数,以利用该评价分数对帖子进行评价。
其中,该评价模型为score为该评价分数,wei为该权重向量,xi为该特征向量。
利用本发明实施方式,通过对帖子的内容和操作信息确定帖子特征,对帖子特征进行分析和特征变换而得到特征向量,并根据特征向量和权重向量,利用预先建立的评价模型确定评价分数,以对帖子进行评价,从而实现快速对帖子进行评价。
请同时参阅图2,步骤S12,即,利用预先建立的评价模型,根据该特征向量以及权重向量确定评价分数,以利用该评价分数对该帖子进行评价的步骤,具体通过如下步骤实现:
步骤S120,利用最小二乘法从训练库中得到该权重向量wei。
其中,该训练库根据评价人员对论坛帖子库中抽取的样本帖子进行评分评价而得到。
例如,随机从帖子库里抽取10000篇帖子,组织专家团队对各个帖子进行评分,作为机器学习训练的知识库,即,训练库。
步骤S121,利用该评价模型,根据该特征向量和权重向量确定评价分数,以利用评价分数对帖子进行评价。
具体地,帖子评分涉及多个互相独立的特征维度,评分值为连续空间,采用多元线性函数构建评分模型:
特征向量:F=[x1,x2,x3,...,xn-1,xn];
权重向量:W=[w1,w2,w3,…,wn-1,wn];
评分:
请参阅图3,为本发明一种论坛帖子评价方法的第二实施方式的流程图,该实施方式与图1所示的实施方式相比,还包括如下步骤:
步骤S23,至少显示帖子的标题与评价分数。
图3中的其他步骤请参见图1及其对应的文字说明部分。
请参阅图4,根据如图1或图3所述的论坛帖子评价方法对论坛中的若干个帖子进行评价,已得到每个帖子对应的评分。在图4中,显示了帖子对应的用户ID、标题、摘要以及评价分数。
在其他实施方式中,还可以根据用户的操作历史、或者预先设定的规则,显示帖子的相关特征信息。
请参阅图5,为本发明一种论坛帖子评价方法的第三实施方式的流程图,该实施方式与图1或图3所示的实施方式相比,还包括如下步骤:
步骤S34,根据帖子特征对完成评价的帖子进行分类。
在本实施方式中,当显示帖子的标题与评价分数等帖子特征时进行步骤S34。在其他实施方式中,还可以在完成帖子的评价时就进行步骤S34。
步骤S35,对每一类中包含的帖子按照评价分数从高到底进行排列, 以确定每一类中评价分数最高的帖子的特征信息。
步骤S36,将确定的每一类中评价分数最高的帖子的特征发送至另一服务器,使该另一服务器对帖子特征进行分析以获取相关信息。
在如图5所示的帖子评价方法中,服务器可以根据显示的帖子的特征信息对帖子进行分类,以及将相同类别的帖子的评价分数按照从高到底的顺序进行排列,以确定同一类别的帖子中评价最高的一个(或者评价最差的一个)。其中,对帖子进行分类,可以根据用户ID、标题、摘要中的关键字等特征信息进行分类。当然,也可以对帖子不进行分类,只根据帖子的评价分数确定评价最高的一个(或几个),或者评价最低的一个(或几个)。
当确定同一类别(或者全部)的帖子中,评价最高的一个(或几个)帖子时,服务器还将这些帖子的特征信息发送至相应的服务器进行信息分析、保存、操作、管理等相关操作。
例如,当论坛为生理健康知识相关的论坛时,用户在该论坛中发布的帖子基本上均为养生、治疗、症状等相关内容的帖子。根据如上所述的论坛帖子评价方法对每个(或从中抽取的特定数量的)帖子进行评价而得到对应的评价分数。然后,根据这些帖子的标题(还可以是其他帖子特征)进行分类,例如可以分成如下几类:颈椎、头部、妇科,然后对每一类的帖子的评价分数按照从高到低的顺序进行排列,并确定每一类中评价分数最高的帖子,例如分别为:颈椎A、头部C、妇科E。该服务器将这些帖子的特征信息(用户ID、帖子摘要等)发送至一医院网站服务器,使该医院网站服务器从这些帖子中提取帖子摘要关键字,或者用户ID等帖子特征,并进行相关的数据分析以得到所需信息,如,现在的网络用户对这些疾病的理解、常用的处置方式、活跃的用户等等,以此为医院提供有效信息。
当根据本发明实施方式中的帖子评价方法对论坛帖子进行评价而得到评价结果后,这些评价结果还可以应用在搜索排序、个性化推荐、用户质量评价、等级体系构建等应用场景中。但是,可应用场景并仅限于如上所述的内容。例如,用户可以根据评价分数对关注的内容进行搜 索、排序,以快速获取相关帖子;论坛的管理员还可以根据帖子的评价分数判断用户的质量。
利用本发明实施方式,通过对帖子的内容和操作信息确定帖子特征,对帖子特征进行分析和特征变换而得到特征向量,并根据特征向量和权重向量,利用预先建立的评价模型确定评价分数,以对帖子进行评价,从而实现快速对帖子进行评价。
请参阅图6,为本发明实施方式的一种论坛帖子评价装置的结构示意图,该装置40包括:特征获取模块41、特征分析模块42以及评价模块43。
该特征获取模块41用于获取帖子的内容和对应的用户对帖子的操作信息,以获取帖子特征。
其中,该帖子特征中,根据帖子的内容可以确定的特征信息包括:标题长度、内容长度、图片数量;根据用户对帖子的操作信息可以确定的特征信息包括:用户自回复帖子数量、自动回复的前N个帖子的字数、自动回复的前N个帖子的图片数量、收藏用户数量、浏览人数、浏览次数、回复人数、回复次数、每分钟浏览人数、帖龄,N为自然数。
在本实施方式中,N=10。
如上所述的帖子特征的具体解释如下:
(1)标题长度:帖子标题字数;
(2)内容长度:帖子正文字数;
(3)图片数量:帖子正文包含的图片张数;
(4)用户自回复条数:帖子作者回复本帖的条数;
(5)自回复前10条字数:帖子作者回复本帖按时间顺序排序,取前10条的帖子的字数;
(6)自回复前10条图片数:帖子作者回复本帖按时间顺序排序,取前10条帖子包含的图片张数;
(7)收藏用户数:帖子被多少个用户收藏;
(8)浏览人数:帖子被多少个用户浏览;
(9)浏览次数:帖子被浏览了多少次;
(10)回复人数:帖子被多少人回复;
(11)回复次数:帖子被回复了多少次;
(12)每分钟浏览人数:帖子平均每分钟被多少人浏览;
(13)贴龄:帖子发布时间距离当前时间多少分钟。
在本实施方式中,根据帖子内容和用户行为特点,同时选取如上所述的13个特征作为帖子的特征,还可以从如上所述的13个特征中选择一个或多个特征作为帖子的特征。但是,在其他实施方式中,可以根据情况选择帖子的特征,并不仅限于如上列出的13个特征。
该特征分析模块42用于对该特征获取模块42获取的帖子特征进行数据分布的分析,并进行特征变换以得到特征向量。
其中,该特征分析模块42对帖子特征的数据分布分析包括数据分布特点的分析以及数据分布曲线的分析。
具体地,该特征分析模块42根据帖子特征的数据分布特点的分析结果,识别并截去极值,以及根据帖子特征的数据分布曲线的分析结果,通过函数转换得到线性曲线,进而得到特征向量。
帖子特征的数据分布特点的分析,即,对如上所述的帖子特征进行数据分布特点的分析,例如,布尔型、离散型、连续型等。
帖子特征的数据分布曲线的分析,即,对如上所述的帖子特征进行数据分布曲线的分析,例如,线性函数、幂函数、指数函数、分段函数等。
进一步地,该特征分析模块42将上面所述的分析结果进行特征转换,从而得到特征向量,具体包括:
(1)非线性数据均衡:将数据分布曲线由非线性曲线通过函数转换,得到线性曲线。
例如,密函数的曲线函数为:y=a+bxn;
对应的转换函数为:x=n√y;
指数函数的曲线函数为:y=a+bnx,对应的转换函数为:x=logey。
(2)规避极值影响:识别截断点,自动截去极值,具体操作步骤如下:
1.将[0-1]以0.01步长分成100个桶;
2.取依次以yii∈[1…n]为截断点,对数据进行归一化,放入对应的桶,计算桶内元素分布标准差stdi;
3.确定截断点,split=ym,m=argmin m∈[1…n]stdm,即,桶内元素分布标准差最小的点split为截断点;
4.将大于截断点split的数据丢弃,即完成极值规避。
该评价模块43用于利用预先建立的评价模型,根据特征分析模块42得到的特征向量以及权重向量确定评价分数,以利用评价分数对帖子进行评价。
其中,该评价模型为score为该评价分数,wei为该权重向量,xi为该特征向量。
具体地,该评价模块43利用最小二乘法从训练库中得到该权重向量wei,以及利用该评价模型,根据该特征向量和权重向量确定评价分数,以利用评价分数对帖子进行评价。
其中,该训练库根据评价人员对论坛帖子库中抽取的样本帖子进行评分评价而得到。例如,随机从帖子库里抽取10000篇帖子,组织专家团队对各个帖子进行评分,作为机器学习训练的知识库,即,训练库。
帖子评分涉及多个互相独立的特征维度,评分值为连续空间,采用多元线性函数构建评分模型:
特征向量:F=[x1,x2,x3,...,xn-1,xn];
权重向量:W=[w1,w2,w3,…,wn-1,wn];
评分:
请参阅图7,为本发明一种论坛帖子评价装置的第二实施方式的结构示意图,该实施方式与图6所示的实施方式相比,还包括处理模块54,该处理模块54用于至少显示帖子的标题与评价分数。
图7中的其他模块请参见图6及其对应的文字说明部分。
请再次参阅图4,显示了帖子对应的用户ID、标题、摘要以及评价 分数。在其他实施方式中,还可以根据用户的操作历史、或者预先设定的规则,显示帖子的相关特征信息。
请参阅图8,为本发明一种论坛帖子评价装置的第三实施方式的结构示意图,该实施方式与图7或图8所示的实施方式相比,还包括分类模块65、排列模块66和传送模块67。
该分类模块65用于根据帖子特征对完成评价的帖子进行分类。在本实施方式中,当该处理模块64显示帖子的标题与评价分数等帖子特征时,该分类模块65根据帖子特征对完成评价的帖子进行分类。在其他实施方式中,当该评价模块63对帖子完成评价时,该分类模块65即根据帖子特征对完成评价的帖子进行分类。
该排序模块66用于对每一类中包含的帖子按照评价分数从高到底进行排列,以确定每一类中评价分数最高的帖子的特征。
该传送模块67用于将该排序模块66确定的每一类中评价分数最高的帖子的特征发送至另一服务器,使该另一服务器对帖子特征进行分析以获取相关信息。
请参阅图9,为本发明一种论坛帖子评价系统的结构示意图,该实施方式示出的系统70包括第一服务器71和第二服务器72。该第一服务器71包括特征获取模块710、特征分析模块711、评价模块712以及传送模块713。该第二服务器72为医院网站服务器、学校网站服务器等专业机构服务器,该第二服务器72的类型还可以根据该第一服务器71进行评价的帖子所在论坛的类型进行选择。
该特征获取模块710用于获取帖子的内容和对应的用户对帖子的操作信息,以获取帖子特征。其中,该帖子特征中,根据帖子的内容可以确定的特征信息包括:标题长度、内容长度、图片数量;根据用户对帖子的操作信息可以确定的特征信息包括:用户自回复帖子数量、自动回复的前N个帖子的字数、自动回复的前N个帖子的图片数量、收藏用户数量、浏览人数、浏览次数、回复人数、回复次数、每分钟浏览人数、帖龄,N为自然数。
该特征分析模块711用于用于对该特征获取模块710获取的帖子特 征进行数据分布的分析,并进行特征变换以得到特征向量。其中,该特征分析模块711对帖子特征的数据分布分析包括数据分布特点的分析以及数据分布曲线的分析。
该评价模块712用于利用预先建立的评价模型,根据特征分析模块42得到的特征向量以及权重向量确定评价分数,以利用评价分数对帖子进行评价。其中,该评价模型为score为该评价分数,wei为该权重向量,xi为该特征向量。
具体地,该评价模块712利用最小二乘法从训练库中得到该权重向量wei,以及利用该评价模型,根据该特征向量和权重向量确定评价分数,以利用评价分数对帖子进行评价。
其中,该训练库根据评价人员对论坛帖子库中抽取的样本帖子进行评分评价而得到。例如,随机从帖子库里抽取10000篇帖子,组织专家团队对各个帖子进行评分,作为机器学习训练的知识库,即,训练库。
帖子评分涉及多个互相独立的特征维度,评分值为连续空间,采用多元线性函数构建评分模型:
特征向量:F=[x1,x2,x3,...,xn-1,xn];
权重向量:W=[w1,w2,w3,…,wn-1,wn];
评分:
该传送模块713用于发送包括帖子的评价分数的特征信息至该第二服务器72,使该第二服务器72对该特征信息进行分析以确定相关信息。
本发明提供的一种论坛帖子评价方法、装置及系统,通过对帖子的内容和操作信息确定帖子特征,对帖子特征进行分析和特征变换而得到特征向量,并根据特征向量和权重向量,利用预先建立的评价模型确定评价分数,以对帖子进行评价,从而实现快速对帖子进行评价。
以上所述仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。