一种广告识别方法及装置与流程

文档序号：19155959发布日期：2019-11-16 00:46阅读：353来源：国知局

本申请涉及自然语言处理
技术领域：
，尤其涉及一种广告识别方法及装置。
背景技术：
：各类社交平台，例如微博、微信、贴吧和论坛等，往往会成为广告投放者的目标。广告投放者通过在各个社交平台大量注册账号，并大量生成广告留言、回复等方式进行广告投放，导致社交平台的正常内容中穿插了大量的广告内容，降低了社交平台的内容质量，使用户在社交平台浏览内容时被动地浏览到广告信息，影响用户的使用体验。目前，为了治理在社交平台中出现的各类广告，社交平台的管理者或运营者通常会设置一些具有审核权限的账号，并由持有这些账号的人员以人工巡查的方式找出广告并进行删除。但是，广告投放者为了提高广告投放量通常使用软件进行自动投放，广告投放数量巨大，导致采用人工巡查去除广告的方法难以对这些广告进行有效且及时地遏制。因此，社交平台的广告问题始终得不到有效地解决。技术实现要素：本申请实施例提供了一种广告识别方法及装置，以解决现有技术无法及时有效地识别社交平台内广告的问题。第一方面，本申请实施例提供了一种广告识别方法，包括：使用包含分类表达式的分类模型从用户发布的媒体信息中获取疑似广告信息；根据预设的至少一种权重因素生成所述疑似广告信息的广告权重；所述权重因素包括所述疑似广告信息占所述媒体信息全文的长度比重，用户已发布的广告信息占用户已发布的全部媒体信息的比重，以及所述疑似广告信息中的图片数量中的一个或多个；将所述广告权重大于预设阈值的所述疑似广告信息确定为广告信息。第二方面，本申请实施例提供了一种广告识别装置，包括：信息获取模块，用于使用包含分类表达式的分类模型从用户发布的媒体信息中获取疑似广告信息；权重生成模块，用于根据预设的至少一种权重因素生成所述疑似广告信息的广告权重；所述权重因素包括所述疑似广告信息占所述媒体信息全文的长度比重，用户已发布的广告信息占用户已发布的全部媒体信息的比重，以及所述疑似广告信息中的图片数量中的一个或多个；广告确定模块，用于将所述广告权重大于预设阈值的所述疑似广告信息确定为广告信息。由以上技术方案可知，本申请实施例提供了一种广告识别方法及装置，能够使用包含分类表达式的分类模型从用户发布的媒体信息中获取疑似广告信息；根据预设的至少一种权重因素生成所述疑似广告信息的广告权重；所述权重因素包括所述疑似广告信息占所述媒体信息全文的长度比重，用户已发布的广告信息占用户已发布的全部媒体信息的比重，以及所述疑似广告信息中的图片数量中的一个或多个；将所述广告权重大于预设阈值的所述疑似广告信息确定为广告信息。本申请实施例提供的技术方案，使用分类模型和广告权重对媒体信息进行两级筛选，先确定疑似广告信息，再基于疑似广告信息的字符长度、内容和疑似广告信息对应的用户行为等因素确定其广告权重，并根据广告权重确定疑似广告信息是否是广告，从而准确识别广告，解决了现有技术无法及时有效地识别社交平台内广告的问题。附图说明为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。图1是本申请实施例提供的一种广告识别方法的流程图；图2是本申请实施例提供的获取疑似广告信息长度的流程图；图3是本申请实施例提供生成疑似广告信息的广告权重的流程图；图4是本申请实施例提供的对发布广告的用户进行管理的流程图；图5是本申请实施例提供的一种广告识别装置的结构示意图。具体实施方式为了使本
技术领域：
的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。各类社交平台，例如微博、微信、贴吧和论坛等，往往会成为广告投放者的目标。广告投放者通过在各个社交平台大量注册账号，并大量生成广告留言、回复等方式进行广告投放，导致社交平台的正常内容中穿插了大量的广告内容，降低了社交平台的内容质量，使用户在社交平台浏览内容时被动地浏览到广告信息，影响用户的使用体验。现有技术中，网页中的广告至少有两种形式，一种是网站服务商、广告商或各个广告联盟在网页中指定位置投放的文字广告、图片广告和弹窗广告等，这种广告可以通过网页元素过滤的方式进行屏蔽；另一种是在各类社交平台，例如微博、微信、贴吧和论坛中，广告投放者用这些平台账号进行发帖、留言、回复等方式发布的广告，这些广告本身属于社交平台内容的一部分，因此无法用上述网页元素过滤的方式进行屏蔽。对此，为了治理在社交平台中出现的各类广告，社交平台的管理者或运营者通常会设置一些具有审核权限的账号，并由持有这些账号的人员以人工巡查的方式找出广告并进行删除。但是，广告投放者为了提高广告投放量通常使用软件进行自动投放，广告投放数量巨大，导致采用人工巡查去除广告的方法难以对这些广告进行有效且及时地遏制。因此，社交平台的广告问题始终得不到有效地解决。本申请实施例提供了一种广告识别方法及装置，以解决现有技术无法及时有效地识别社交平台内广告的问题。下面是本申请的方法实施例。本申请的方法实施例提供了一种广告识别方法。图1是该广告识别方法的流程图。该方法可以应用于服务器、pc(个人电脑)、平板电脑、手机等多种设备中。如图1所示，该方法包括以下步骤：步骤s101，使用包含分类表达式的分类模型从用户发布的媒体信息中获取疑似广告信息。本申请实施例中使用的分类模型从结构上来说，包括：至少一个分类节点，每个分类节点对应一个广告类别，每个广告类别对应一个类别权重；每个分类节点包括至少一个分类表达式，分类表达式用于从所述媒体信息中识别出所述疑似广告信息。本申请实施例中使用的分类模型从内容上来说，由本体、要素和概念这三个部分组成。其中，广告描述中可能出现的业务性表述，根据其内容和语义建成不同的要素，每个要素对应一种业务分类；广告描述中可能出现的语言通用性的表述，根据其内容和语义建成不同的概念，每个概念包含至少一个表述相同语义的概念表达式；至少一个概念表达式通过“与”“或”“非”“距离”“顺序”等各种算子组合形成分类表达式；至少一个业务分类和业务分类中的至少一个分类表达式，集成在一起就构成了模型的本体。表1示出了分类模型的结构。表1如表1所示，要素对应的业务分类包括“高权重广告识别”，在“高权重广告识别”分类下包括多个分类表达式，以分类表达式“c_推销网址+{0，30}c_尝试或沟通”为例，它包括“c_推销网址”和“c_尝试或沟通”这两个概念，以及“+”这一“与”算子和“{0，30}”这一距离算子。进一步地，每个概念可以对应设置有概念树，概念树中包括至少一个概念表达式，用于从语料中匹配出该概念对应的内容，例如：“推销话术”这一概念中可以包括例如“温和.*亲肤”“亲肤嫩肤”等概念表达式(其中，“.”“*”等均为算子，可以依照正则表达式的规则编写)。因此，分类表达式“c_推销网址+{0，30}c_尝试或沟通”能够匹配到的内容为：匹配“c_推销网址”并且在0-30个字符范围内还匹配到“c_尝试或沟通”的语料内容。本申请实施例中，分类节点可以包括多个广告类别，例如表1中的“高权重广告识别”，以及“低权重广告类别”等(表1中未示出)。对于不同的广告类别，本申请实施例对应设置有不同的类别权重，例如：设置“高权重广告识别”的类别权重w1为2，设置“低权重广告类别”的类别权重w1为1。本申请实施例使用上述分类模型对用户发布的媒体信息进行内容匹配，如果媒体信息与分类模型中的某个表达式匹配，则该媒体信息就是疑似广告信息。分类模型可以根据预设的“广告类别”将疑似广告信息分为“高权重广告信息”和“低权重广告信息”，其中，“高权重广告信息”是指包括网站链接、联系方式、优惠信息、运费信息等的疑似广告信息；“低权重广告信息”是指只包含推销话术的疑似广告信息。示例地，高权重广告信息：关注我，3分钟高效选股，一辈子受益无穷。qq：xxxxxx，微信：xxxxxx示例地，低权重广告信息：温和干净，亲肤嫩肤，不伤角质层，是一款不可多得的好洁面在从媒体信息中获取疑似广告信息之前，本申请实施例还对媒体信息进行预处理，以提高获取疑似广告信息的准确性。预处理的过程包括从媒体信息中去除特定字符，对媒体信息进行字符转换，以及对媒体信息进行汉字转数字的一个或多个。例如，一些广告发布者会刻意使用一些特殊字符对广告内容进行处理，以规避审核，因此，预处理的过程首先就要把特殊字符去除，例如：想改变自己现在的现状不妨拿出你的手机加【微】【信】abc111111，咨询咨询吧！去除特殊字符之后为：想改变自己现在的现状不妨拿出你的手机加微信abc111111，咨询咨询吧！除上述例子中示出的“【”“】”等特殊字符之外，能够被去除的特殊字符还包括：！～#$^&<>[]{}()*？/,.【】等，本申请实施例不再赘述。在去除了特殊字符之后，下一个步骤是对媒体信息进行字符转换，例如宽体字转换为窄体字、繁体字转换为简体字、大写字母转换为小写字母等。以繁体字转换为简体字为例：转换前：在家做兼職，日結，每小時佰園转换后：在家做兼职，日结，每小时百元在对字符进行转换之后，下一个步骤是对数字进行归一化处理，具体是将汉字或谐音字表达的数字转换成阿拉伯数字，例如：重庆易瑞沙代购_易瑞沙价格_印度易瑞沙代购服务热线：幺三九二二五xxxxx转换为：重庆易瑞沙代购_易瑞沙价格_印度易瑞沙代购服务热线：139225xxxxx通过上述预处理之后，媒体信息变的比较规整，便于使用分类表达式进行识别，由此能够提高疑似广告信息提取的准确性。步骤s102，根据预设的至少一种权重因素生成所述疑似广告信息的广告权重；所述权重因素包括所述疑似广告信息占所述媒体信息全文的长度比重，用户已发布的广告信息占用户已发布的全部媒体信息的比重，以及所述疑似广告信息中的图片数量中的一个或多个。本申请实施例中，确定了至少三个权重因素，包括：1、疑似广告信息占媒体信息全文的长度比重。示例地，某个用户在某论坛的一次回帖中，发布了50个字符，其中有20个字符被识别成疑似广告信息，那么，在本次回帖中，疑似广告信息占媒体信息全文的长度比重x2＝20/50＝0.4。图2是本申请实施例提供的获取疑似广告信息长度的流程图。在一个实施例中，如图2所示，获取疑似广告信息长度具体包括以下步骤：步骤s201，分别获取每个分类表达式匹配到的所述疑似广告信息的起始位置和结束位置。示例地，媒体信息(语料)为：温和干净，亲肤嫩肤，不伤角质层，是一款不可多得的好洁面其匹配到所有的概念表达式和位置如表2所示：概念名称概念表达式匹配内容起始位置结束位置1推销话术温和.*亲肤温和干净，亲肤082推销话术亲肤嫩肤亲肤嫩肤610表2从表2可以看出，行1的概念表达式匹配内容的起始位置为0，结束位置为8；行2的概念表达式匹配内容的起始位置为6，结束位置为10。步骤s202，根据所述起始位置和结束位置判断所述疑似广告信息的位置是否存在交集。结合表2，由于行1的起始位置小于行2的起始位置，并且，行1的结束位置大于行2的起始位置，并且，行1的结束位置小于行2的结束位置，因此行1和行2匹配的内容存在交集。步骤s203，如果所述疑似广告信息的位置存在交集，将所述疑似广告信息中的结束位置最大值与起始位置最小值的差值作为所述疑似广告信息的长度。结合表2，由于疑似广告信息的位置存在交集，并且，疑似广告信息的结束位置的最大值为10，起始位置的最小值为0，因此，疑似广告信息的长度为行2的结束位置10减去行1的起始位置0，即10-0＝10；而文本总长度为28，因此x2＝10/28。2、用户已发布的广告信息占用户已发布的全部媒体信息的比重。示例地，可以根据用户发布媒体信息使用的账号id、用户名和ip地址等身份信息对用户进行行为追踪和统计，包括统计用户发布的全部媒体信息的数量c1和广告信息的数量c2。基于上述统计的信息，用户已发布的广告信息占用户已发布的全部媒体信息的比重x3＝c2/c1。3、疑似广告信息中的图片数量。示例地，某个用户在某论坛的一次回帖被识别为包含疑似广告信息，并且该回帖中包含3张图片，则疑似广告信息中的图片数量x4＝3。图3是本申请实施例提供生成疑似广告信息的广告权重的流程图。如图2所示，基于上述三种权重因素，本申请实施例采用以下步骤得到疑似广告信息的广告权重：步骤s301，将每一种所述权重因素乘以对应的权重系数，得到每一种所述权重因素的权值。其中，疑似广告信息占媒体信息全文的长度比重x2对应第一权值，该第一权值为疑似广告信息占媒体信息全文的长度比重x2与第一权重系数w2的乘积，即：w2x2。其中，第一权重系数w2是本申请实施例预设的一个参数，取值大于0。另外，用户已发布的广告信息占用户已发布的全部媒体信息的比重x3对应第二权值，该第二权值为用户已发布的广告信息占用户已发布的全部媒体信息的比重x3与第二权重系数w3的乘积，即：w3x3。其中，第二权重系数w3是本申请实施例预设的一个参数，取值大于0。另外，疑似广告信息中的图片数量x4对应第三权值，该第三权值为疑似广告信息中的图片数量x4与第三权重系数w4的乘积，即：x4w4。第三权重系数w4是本申请实施例预设的一个参数，取值大于0。需要补充说明的是，上述第一权重系数w2、第二权重系数w3、第三权重系数w4的取值，可以灵活确定，例如：当需要重点监控一些用户多次投放广告的行为时，可以设置第二权重系数w3为较大的值；当一些论坛、社交平台等出现以图片广告为主的广告投放行为时，可以设置第三权重系数w4为较大值。步骤s302，将所述疑似广告信息的类别权重与各个所述因素权重的权值相加，得到所述广告权重。本申请实施例中，广告权重表示某个媒体信息(包括论坛发帖、社交平台的各类动态等)是广告的可能性。如果将广告权重用x来表示，则：x＝w1+w2x2+w3x3+x4w4步骤s103，将所述广告权重大于预设阈值的所述疑似广告信息确定为广告信息。本申请实施例中，预先设定一个阈值m，并与上述广告权重x比较数值大小，如果广告权重x大于或者等于阈值m，则确定媒体信息是广告，如果广告权重x小于阈值m，则确定媒体信息不是广告。阈值m的可以根据对广告的识别策略灵活确定。如果需要执行严格的广告识别策略，阈值m可以取较小值，此时，能够将广告以及具有广告倾向的媒体信息一并识别出来，而不考虑误杀；如果需要执行宽松的广告识别策略，阈值m可以取较大值，此时，仅识别较为明显的广告，而不考虑遗漏。由于论坛或者社交媒体在运营时，会根据管理成本、对用户使用体验的影响等多方面的因素确定采用哪种强度的广告过滤方式，因此，阈值m具体可以由论坛或者社交媒体运营商在实践中自行确定，本申请实施例中不做具体限定。图4是本申请实施例提供的对发布广告的用户进行管理的流程图。如图4所示，在一个实施例中，本申请实施例在确定疑似广告信息为广告之后，还包括以下步骤，以对发布广告的用户进行管理：步骤s401，更新用户已发布的广告信息的数量。本申请实施例中，针对每个用户，统计其发布的广告信息的数量，如果识别到该用户发布了新的广告信息，则对统计的数量进行更新。其中，本申请实施例可以根据用户的ip地址、手机号码、邮箱号码、实名制认证信息等辨别发布广告的用户是否为同一个用户，如果是同一个用户，则合并计算该用户发布广告信息的数量，从而，防止一些用户为了躲避管理而注册多个账号发布广告的行为发生。步骤s402，判断用户已发布的广告信息的数量是否大于数量阈值。步骤s403，当用户已发布的广告信息的数量大于数量阈值时，封禁用户的ip地址并删除用户的账号信息。本申请实施例中，删除用户的账号信息可以使发送广告信息的用户无法继续登录账号，封禁用户的ip地址用于防止用户重新注册账号，从而，从根本上杜绝了用户发布广告的现象。在一些实施例中，在对用户发布的广告信息的数量进行统计时，可以分段统计用户在最近一个预设时间段内发布的广告信息的数量，例如：统计用户一小时内发布广告的数量或者用户一天内发布的广告数量等。同时，针对每个时间段分别设置数量阈值，例如：一个小时对应的数量阈值为3、一天对应的数量阈值为5、一周对应的数量阈值为10，等等。在步骤s402判断用户已发布的广告信息的数量是否大于数量阈值时，只要用户在任一个时间段内发布的广告信息的数量大于对应的阈值，就会触发步骤s403，以封禁用户的ip地址并删除用户的账号信息。由以上技术方案可知，本申请实施例提供了一种广告识别方法，包括：使用包含分类表达式的分类模型从用户发布的媒体信息中获取疑似广告信息；根据预设的至少一种权重因素生成所述疑似广告信息的广告权重；所述权重因素包括所述疑似广告信息占所述媒体信息全文的长度比重，用户已发布的广告信息占用户已发布的全部媒体信息的比重，以及所述疑似广告信息中的图片数量中的一个或多个；将所述广告权重大于预设阈值的所述疑似广告信息确定为广告信息。本申请实施例提供的方法，使用分类模型和广告权重对媒体信息进行两级筛选，先确定疑似广告信息，再基于疑似广告信息的字符长度、内容和疑似广告信息对应的用户行为等因素确定其广告权重，并根据广告权重确定疑似广告信息是否是广告，从而准确识别广告，解决了现有技术无法及时有效地识别社交平台内广告的问题。下面是本申请的装置实施例，提供了一种广告识别装置，该广告识别装置可用于执行本申请的方法实施例，有关本申请装置实施例中未公开的技术细节，请参照本申请的方法实施例。图5是本申请实施例提供的一种广告识别装置的结构示意图。如图5所示，该装置包括：信息获取模块501，用于使用包含分类表达式的分类模型从用户发布的媒体信息中获取疑似广告信息；权重生成模块502，用于根据预设的至少一种权重因素生成所述疑似广告信息的广告权重；所述权重因素包括所述疑似广告信息占所述媒体信息全文的长度比重，用户已发布的广告信息占用户已发布的全部媒体信息的比重，以及所述疑似广告信息中的图片数量中的一个或多个；广告确定模块503，用于将所述广告权重大于预设阈值的所述疑似广告信息确定为广告信息。由以上技术方案可知，本申请实施例提供了一种广告识别装置，该装置用于：使用包含分类表达式的分类模型从用户发布的媒体信息中获取疑似广告信息；根据预设的至少一种权重因素生成所述疑似广告信息的广告权重；所述权重因素包括所述疑似广告信息占所述媒体信息全文的长度比重，用户已发布的广告信息占用户已发布的全部媒体信息的比重，以及所述疑似广告信息中的图片数量中的一个或多个；将所述广告权重大于预设阈值的所述疑似广告信息确定为广告信息。本申请实施例提供的装置，使用分类模型和广告权重对媒体信息进行两级筛选，先确定疑似广告信息，再基于疑似广告信息的字符长度、内容和疑似广告信息对应的用户行为等因素确定其广告权重，并根据广告权重确定疑似广告信息是否是广告，从而准确识别广告，解决了现有技术无法及时有效地识别社交平台内广告的问题。本领域技术人员在考虑说明书及实践这里公开的申请后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本
技术领域：
中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：任宁;晋耀红;李德彦
技术所有人：中科鼎富(北京)科技发展有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。