论坛内容筛选方法、装置、计算机设备和存储介质与流程

文档序号:16669603发布日期:2019-01-18 23:29阅读:179来源:国知局
论坛内容筛选方法、装置、计算机设备和存储介质与流程

本申请涉及互联网技术领域,尤其涉及一种论坛内容筛选方法、装置、计算机设备和存储介质。



背景技术:

论坛是互联网上常见的用于信息服务的web系统,主要是为用户提供限低于的相互沟通的平台,在各个领域方向都有相应的论坛类站点存在,供有相同兴趣的用户进行讨论。在这些论坛中沉淀着许多优质内容,但是由于论坛内容页页面结构层次较为复杂,布局比较分散,从而导致对论坛内容筛选比较困难。

相关技术中,往往依赖一些用户的行为,如点击数、点赞数等对论坛内容进行筛选。这种筛选方法可能会存在用户对数据作弊导致筛选出无价值的内容情况,从而导致优质内容的筛选准确率较低。



技术实现要素:

本申请提出一种论坛内容筛选方法、装置、计算机设备和存储介质,用于解决相关技术中论坛内容的筛选方法,优质内容的筛选准确率较低的问题。

本申请一方面实施例提出了一种论坛内容筛选方法,包括:

获取待筛选论坛内容;

从所述待筛选论坛内容中提取楼主发布内容的内容特征和互动性特征;以及

根据所述楼主发布内容的内容特征和互动性特征对所述待筛选论坛内容进行筛选。

本申请实施例的论坛内容筛选方法,通过首先获取待筛选论坛内容,然后从待筛选论坛内容中提取楼主发布内容的内容特征和互动性特征,再根据楼主发布内容的内容特征和互动性特征对所待筛选论坛内容进行筛选。由此,通过根据待筛选论坛内容的内容特征和互动性特征,对待筛选论坛内容进行筛选,可以避免传统筛选方法中容易出现的筛选出的内容空洞、可作弊等问题,并可显著提高内容筛选的准确率。

本申请另一方面实施例提出了一种论坛内容筛选装置,包括:

第一获取模块,用于获取待筛选论坛内容;

提取模块,用于从所述待筛选论坛内容中提取楼主发布内容的内容特征和互动性特征;以及

筛选模块,用于根据所述楼主发布内容的内容特征和互动性特征对所述待筛选论坛内容进行筛选。

本申请实施例的论坛内容筛选装置,通过首先获取待筛选论坛内容,然后从待筛选论坛内容中提取楼主发布内容的内容特征和互动性特征,再根据楼主发布内容的内容特征和互动性特征对所待筛选论坛内容进行筛选。由此,通过根据待筛选论坛内容的内容特征和互动性特征,对待筛选论坛内容进行筛选,可以避免传统筛选方法容易出现的筛选出的内容空洞、可作弊等问题,并可显著提高内容筛选的准确率。

本申请另一方面实施例提出了一种计算机设备,包括处理器和存储器;

其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现上述一方面实施例所述的论坛内容筛选方法。

本申请另一方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述一方面实施例所述的论坛内容筛选方法。

本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1为本申请实施例提供的一种论坛内容筛选方法的流程示意图;

图2为本申请实施例提供的另一种论坛内容筛选方法的流程示意图;

图3为本申请实施例提供的另一种论坛内容筛选方法的流程示意图;

图4为本申请实施例提供的一种论坛内容筛选装置的结构示意图;

图5为本申请实施例提供的另一种论坛内容筛选装置的结构示意图;

图6示出了适于用来实现本申请实施方式的示例性计算机设备的框图。

具体实施方式

下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的论坛内容筛选方法、装置、计算机设备和存储介质。

本申请实施例,针对相关技术中的论坛内容筛选方法,内容筛选准确率低的问题,提出一种论坛内容筛选方法。

本申请实施例的论坛内容筛选方法,通过根据待筛选论坛内容的内容特征和互动性特征,对待筛选论坛内容进行筛选,可以避免传统筛选方法容易出现的筛选出的内容空洞、可作弊等问题,并可显著提高内容筛选的准确率。

图1为本申请实施例提供的一种论坛内容筛选方法的流程示意图。

本申请实施例提供的论坛内容筛选方法,可由本申请提供的论坛内容筛选装置执行,上述装置可配置于计算机设备中,用于实现根据楼主发布内容的内容特征和互动性特征,对待筛选论坛内容进行筛选。

如图1所示,该论坛内容筛选方法包括:

步骤101,获取待筛选论坛内容。

本实施例中,待筛选的论坛内容可以是各个领域的论坛中楼主发布的内容。具体地,可以将论坛中帖子中的内容作为待筛论坛内容。

步骤102,从待筛选论坛内容中提取楼主发布内容的内容特征和互动性特征。

相关技术中,在对论坛内容进行筛选时,往往依赖于用户的行为,如点击数、点赞数等,此种方法筛选出的数据内容可以反映出用户关注的焦点内容,但也会存在由于用户对数据作弊导致筛选出无价值的内容,同时也会出现有些优质内容在筛选中被遗漏,导致内容筛选的准确率较低。

基于此,本实施例中,从待筛选论坛内容中提取楼主发布内容的内容特征和互动性特征。

其中,内容特征可包括楼主发布内容和回复内容中总的关键词数量、图片数量、视频数量等;其中,回复内容包括楼主的回复内容和其他用户的回复内容。

互动性特征主要体现待筛选论坛内容中用户之间的互相联动特征,如楼主回复数量、参与回复的用户数量等。

步骤103,根据楼主发布内容的内容特征和互动性特征对待筛选论坛内容进行筛选。

由于内容特征体现了待筛选论坛内容的特征,互动性特征体现了用户之间的互动,由此根据楼主发布的内容特征和互动特征共同对待筛选论坛内容进行筛选,以筛选出质量高的内容。

具体而言,可预先根据训练数据,对深度学习模型进行训练,得到筛选策略。其中,训练数据可由论坛中各楼主发布内容的内容特征和互动性特征组成。

之后,根据从待筛选论坛内容中提取的楼主发布内容的内容特征和互动性特征,利用筛选策略,确定待筛选论坛内容是否为优质内容。

本申请实施例的论坛内容筛选方法,不仅考虑了楼主发布内容的内容特征,而且充分利用了互动性特征,相比根据用户的点赞数、分享数等,筛选论坛内容,可以避免传统筛选方法中容易出现的筛选出的内容空洞、可作弊等问题,大大提高了内容筛选的准确率。

图2为本申请实施例提供的另一种论坛内容筛选方法的流程示意图。

在本申请实施例一种可能的实现方式中,如图2所示,上述步骤103可包括:

步骤201,根据内容特征获取待筛选论坛内容的内容质量得分。

本实施例中,内容质量得分用于指示待筛选论坛内容的质量高低。其中,内容质量得分越高,待筛选论坛内容的质量越高。

在获取内容质量得分时,可根据文本长度、视频长短等,获取待筛选论坛内容的内容质量得分。

例如,可预先建立文本长度与内容质量得分之间的对应关系,由此根据楼主发布内容的文本长度,查找该对应关系,可确定对应的内容质量得分。

步骤202,根据互动性特征和内容质量得分判断待筛选论坛内容是否为优质内容。

本实施例中,互动性特征可包括互动次数、回复间隔时间、回复内容的回复质量等。

在具体实现时,首先判断内容质量得分是否大于预设质量阈值,如果小于或者等于预设质量阈值,可以认为待筛选论坛内容不是优质内容。

如果内容质量得分大于预设质量阈值,进一步判断互动次数是否大于预设次数阈值。如果互动次数小于或者等于预设次数阈值,说明互动不频繁,可以认为待筛选论坛内容不是优质内容;如果互动次数大于预设次数阈值,则进一步判断回复间隔时间是否小于预设时间阈值。

如果回复间隔时间大于或者等于预设时间阈值,说明回复不及时,可以认为待筛选论坛内容不是优质内容;如果回复间隔时间小于预设时间阈值,则对回复内容进行打分,以生成回复内容质量评分值。在进行打分时,可根据回复内容的文本长度、视频长短等进行打分,例如文本长度越长、视频时间越长,回复内容质量评分值越高。

在生成回复内容质量评分值后,将回复内容质量评分值与预设质量评分阈值进行比较。如果回复内容质量评分值大于预设质量评分阈值,则确定待筛选论坛内容是优质内容;如果回复内容质量评分值小于或者等于预设质量评分阈值,则确定待筛选论坛内容不是优质内容。

需要说明的是,预设质量阈值、预设次数阈值、预设时间阈值、预设质量评分阈值的大小,可根据实际需要设置。

本实施例中,利用互动性特征和内容质量得分共同判断待筛选论坛内容是否为优质内容,可以大大提高内容筛选的准确率。

步骤203,如果待筛选论坛内容不为优质内容,则将待筛选论坛内容过滤。

在确定待筛选论坛内容不是优质内容时,将待筛选论坛内容过滤掉,例如,对其不进行保存。

步骤204,如果待筛选论坛内容为优质内容,则将优质内容保存。

在确定待筛选论坛内容为优质内容时,可将优质内容进行保存,可便于后续进行推荐,例如,推荐给论坛用户、第三方应用等。

本申请实施例的论坛内容筛选方法,通过对内容特征进行打分,得到内容质量得分,并利用互动性特征和内容质量得分共同确定待筛选论坛内容是否为优质内容,从而可以大大提高优质内容筛选的准确率。

在实际应用中,楼主的粉丝数量、楼主发帖数等,对优质内容的筛选也会产生影响。例如,楼主的粉丝量越多,说明该楼主发布的内容比较受欢迎,那么该楼主发布的内容为优质内容的可能性越大。基于此,可根据楼主的用户特征对优质内容进行修正。下面通过图3进行说明,图3为本申请实施例提供的另一种论坛内容筛选方法的流程示意图。

如图3所示,该论坛内容筛选方法还可包括:

步骤301,获取楼主的用户特征。

其中,楼主的用户特征可包括楼主发帖数、楼主粉丝数、楼主等级等。

本实施例中,可根据楼主的用户标识如账号信息等,可获取楼主粉丝数量、统计论坛中楼主发帖数量等,以获得楼主的用户特征。

步骤302,根据楼主的用户特征对优质内容进行修正。

本实施例中,可先根据楼主发帖数和楼主粉丝数,确定待筛选论坛是否为优质内容。

具体而言,将楼主发帖数与预设帖数阈值,楼主粉丝数与预设粉丝数阈值进行比较。如果楼主发帖数大于预设帖数阈值,且楼主粉丝数大于预设粉丝数阈值,说明楼主发布的内容比较受欢迎,则确定待筛选论坛内容为优质内容;如果楼主发帖数小于或等于预设帖数阈值,或楼主粉丝数小于或等于预设粉丝数阈值,说明楼主发帖的内容质量不高,不太受欢迎,则确定待筛选论坛内容不是优质内容。

然后,根据互动性特征和内容特征确定的结果,结合根据楼主的用户特征确定的结果,判断待筛选论坛内容是否为优质内容。

作为一种可能的实现方式,如果根据互动性特征和内容特征,确定待筛选论坛内容为优质内容,根据楼主的用户特征也确定待筛选论坛内容为优质内容,则认为待筛选论坛内容为优质内容。如果根据互动性特征和内容特征,确定待筛选论坛内容不为优质内容,根据楼主的用户特征也确定待筛选论坛内容不为优质内容,则认为待筛选论坛内容不为优质内容。

如果根据互动性特征和内容特征确定的结果,与根据楼主的用户特征确定的结果不一致,可以将根据互动性特征和内容特征确定的结果,作为最终的判断结果。从而,根据互动性特征、内容特征、楼主的用户特征共同确定待筛选论坛内容是否为优质内容,可以进一步提高筛选的准确率。

作为另一种可能的实现方式,如果根据互动性特征和内容特征确定待筛选论坛内容为优质内容,而根据楼主的用户特征确定待筛选论坛内容不是优质内容,则将判断结果调整为待筛选论坛内容不是优质内容。

本申请实施例的论坛内容筛选方法,通过用户特征对优质内容进行修正,可以大大提高优质内容筛选的准确率。

为了实现上述实施例,本申请实施例还提出一种论坛内容筛选装置。图4为本申请实施例提供的一种论坛内容筛选装置的结构示意图。

如图4所示,该论坛内容筛选装置可包括:第一获取模块410、提取模块420、筛选模块430。

第一获取模块410用于获取待筛选论坛内容。

提取模块420用于从待筛选论坛内容中提取楼主发布内容的内容特征和互动性特征。

筛选模块430用于根据楼主发布内容的内容特征和互动性特征对待筛选论坛内容进行筛选。

图5为本申请实施例提供的另一种论坛内容筛选装置的结构示意图。

在本申请实施例一种可能的实现方式中,如图5所示,上述筛选模块430包括:

获取单元431,用于根据内容特征获取待筛选论坛内容的内容质量得分;

判断单元432,用于根据互动性特征和内容质量得分判断待筛选论坛内容是否为优质内容;

过滤单元433,用于在待筛选论坛内容不为优质内容时,将待筛选论坛内容过滤;以及

保存单元434,用于在待筛选论坛内容为优质内容时,将优质内容保存。

在本申请实施例一种可能的实现方式中,该装置还可包括:

第二获取模块,用于获取楼主的用户特征;

修正模块,用于根据楼主的用户特征对优质内容进行修正。

在本申请实施例一种可能的实现方式中,互动性特征包括互动次数、回复间隔时间以及回复内容的回复质量,判断单元432还用于:

判断所内容质量得分是否大于预设质量阈值;

如果大于预设质量阈值,则进一步判断互动次数是否大于预设次数阈值;

如果大于预设次数阈值,则进一步判断回复间隔时间是否小于预设时间阈值;

如果回复间隔时间小于所述预设时间阈值,则对回复内容进行打分以生成回复内容质量评分值;

如果回复内容质量评分值大于预设质量评分阈值,则判断待筛选论坛内容为优质内容。

在本申请实施例一种可能的实现方式中,楼主的用户特征包括楼主发帖数和楼主粉丝数,修正模块还用于:

如果楼主发帖数大于预设帖数阈值,且楼主粉丝数大于所述预设粉丝数阈值,则判断待筛选论坛内容为优质内容;

如果楼主发帖数小于或等于预设帖数阈值,或楼主粉丝数小于或等于预设粉丝数阈值,则判断待筛选论坛内容不为优质内容。

需要说明的是,前述对论坛内容筛选方法实施例的解释说明,也适用于该实施例的论坛内容筛选装置,故在此不再赘述。

本申请实施例的论坛内容筛选装置,通过首先获取待筛选论坛内容,然后从待筛选论坛内容中提取楼主发布内容的内容特征和互动性特征,再根据楼主发布内容的内容特征和互动性特征对所待筛选论坛内容进行筛选。由此,通过根据待筛选论坛内容的内容特征和互动性特征,对待筛选论坛内容进行筛选,可以避免传统筛选方法容易出现的筛选出的内容空洞、可作弊等问题,并可显著提高内容筛选的准确率。

为了实现上述实施例,本申请实施例还提出一种计算机设备,包括处理器和存储器;

其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现上述实施例所述的论坛内容筛选方法。

图6示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图6显示的计算机设备12仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。

如图6所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(industrystandardarchitecture;以下简称:isa)总线,微通道体系结构(microchannelarchitecture;以下简称:mac)总线,增强型isa总线、视频电子标准协会(videoelectronicsstandardsassociation;以下简称:vesa)局域总线以及外围组件互连(peripheralcomponentinterconnection;以下简称:pci)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(randomaccessmemory;以下简称:ram)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(compactdiscreadonlymemory;以下简称:cd-rom)、数字多功能只读光盘(digitalvideodiscreadonlymemory;以下简称:dvd-rom)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(localareanetwork;以下简称:lan),广域网(wideareanetwork;以下简称:wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的方法。

为了实现上述实施例,本申请实施例还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例所述的论坛内容筛选方法。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。

应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1