一种基于商旅行程业务数据的异常用户生成内容识别方法与流程

文档序号:36491909发布日期:2023-12-26 23:38阅读:39来源:国知局
一种基于商旅行程业务数据的异常用户生成内容识别方法与流程

本发明涉及数据处理,尤其涉及一种基于商旅行程业务数据的异常用户生成内容识别方法。


背景技术:

1、随着互联网技术的发展,线上到线下的商旅行程服务在人们的日常生活中发挥着越来越重要的作用。随着在线订票的普及,在商旅行程业务中,用户会生成各种行程数据,需要尽早地识别用户信息是否有异常,确保商旅行程业务的正常运行,避免不必要的事件发生,增加用户的体验。现有的监测识别方式对商旅行程业务数据的异常用户生成内容识别效果不够高效,不能及时监测和识别异常用户生成内容,为此提出一种基于商旅行程业务数据的异常用户生成内容识别方法。


技术实现思路

1、为了解决上述问题,本发明提出一种基于商旅行程业务数据的异常用户生成内容识别方法,以更加确切地解决上述所述现有的监测识别方式对商旅行程业务数据的异常用户生成内容识别效果不够高效,不能及时监测和识别异常用户生成内容的问题。

2、本发明通过以下技术方案实现的:

3、本发明提出一种基于商旅行程业务数据的异常用户生成内容识别方法,所述方法为:

4、s1:通过日志记录、爬虫技术实时监测和记录商旅行程的各项数据,其中各项数据包括行程信息、用户操作、数据异常;

5、s2:根据行程数据的完整性、一致性、频率以及用户的操作行为,基于聚类的方法通过局部离群因子检测法的思想融合成改进算法,改进算法对各个数据的异常分数进行计算,判断行程数据所属用户是否存在异常;

6、s3:根据判断结果,通过sql查询语句或者使用数据库操作工具筛选出可能存在异常的用户,并获取其相关的行程数据;

7、s4:通过正则表达式匹配或者字符串处理函数将获取的行程数据中的各项信息提取出来,并转换成统一的格式后,将不同来源的行程数据进行合并,以便后续的分析处理;

8、s5:通过自然语言处理对合并后的行程数据进行异常内容识别,识别出行程数据中的异常情况;

9、s6:将识别出异常的内容记录到数据库或输出到文件中,并提供给相关人员进行查看和处理,以便相关人员采取相应的措施。

10、进一步的,所述根据行程数据的完整性、一致性、频率以及用户的操作行为,基于聚类的方法通过局部离群因子检测法的思想融合成改进算法,改进算法对各个数据的异常分数进行计算,判断行程数据所属用户是否存在异常的步骤中,包括;

11、将数据聚类后,区分聚类后的大小簇,并将每簇按数据量大小从大到小排序后计算异常分数,若数据点属于大簇,则计算其与当前簇的聚类中心的距离,若数据点属于小簇,则计算他与最近的大簇的聚类中心的距离;得出异常分数,即计算出用户的行程数据的完整性异常得分、一致性异常得分、频率异常得分、操作行为异常得分指标,根据指标来判断用户是否异常;若用户的各数据的异常分数得分高于设定的阈值,则判定该用户为异常用户。

12、进一步的,所述数据聚类,包括;通过设为一组数据,记为集合a;设为数据不同的簇,记为集合b,且使用聚类算法后数据形成的簇,需要满足,则k为确定的聚类簇数。

13、进一步的,所述区分聚类后的大小簇,包括;

14、设为满足数据聚类条件的集合簇,各个簇按元素从小到大排序即满足;由此定义两个参数分别为、,以及设c为小簇和小簇的分界,则c满足或;即大簇,小簇,其中当 时,表示大簇的数据数量和需要占超过x%的数据,表示前一个簇的数量是后一个簇数量的x倍。

15、进一步的,所述计算异常分数的在步骤中,包括;计算第t个点的异常分数值f,f定义为:。

16、进一步的,所述通过正则表达式匹配或者字符串处理函数将获取的行程数据中的各项信息提取出来,并转换成统一的格式后,将不同来源的行程数据进行合并,以便后续的分析处理的步骤中,包括;

17、通过正则表达式匹配或字符串处理函数,提取出行程数据中不同的格式的起始时间、结束时间、地点、交通工具数据信息后,将数据信息转换成统一的格式,以方便后续的比较和分析;根据行程数据的特点和需求进行选择,将不同渠道或平台提供的数据合并成一个统一的数据集。

18、进一步的,所述通过自然语言处理对合并后的行程数据进行异常内容识别,识别出行程数据中的异常情况的步骤中,包括;

19、通过nlp技术对行程数据中的文本进行分词、词性标注和实体识别处理;将正常行程数据和异常行程数据作为训练样本通过机器学习算法训练自动判断行程数据是否异常的模型;利用训练好的模型对合并后的行程数据进行预测和分类;根据模型的输出结果,确定用户行程数据存在异常情况。

20、进一步的,所述将识别出异常的内容记录到数据库或输出到文件中,并提供给相关人员进行查看和处理,以便相关人员采取相应的措施的步骤中,包括;

21、对记录到数据库或输出到文件中的内容进行安全处理,对数据进行加密、限制数据库访问权限,以保护异常内容的隐私。

22、本发明的有益效果:通过实时监测和记录商旅行程数据,结合改进算法对行程数据的分析和判断,从整体上评估用户的行程数据是否存在异常,可以及时发现存在异常的用户和行程数据,通过自动化的方法对行程数据进行异常检测和识别,减少了人工审查的工作量,只有被标记为异常的行程数据才需要人工干预,其识别方法更加高效及时,节省了大量时间和资源。



技术特征:

1.一种基于商旅行程业务数据的异常用户生成内容识别方法,其特征在于,所述方法为:

2.根据权利要求1所述的一种基于商旅行程业务数据的异常用户生成内容识别方法,其特征在于,所述根据行程数据的完整性、一致性、频率以及用户的操作行为,基于聚类的方法通过局部离群因子检测法的思想融合成改进算法,改进算法对各个数据的异常分数进行计算,判断行程数据所属用户是否存在异常的步骤中,包括;

3.根据权利要求2所述的一种基于商旅行程业务数据的异常用户生成内容识别方法,其特征在于,所述数据聚类,包括;

4.根据权利要求3所述的一种基于商旅行程业务数据的异常用户生成内容识别方法,其特征在于,所述区分聚类后的大小簇,包括;设为满足数据聚类条件的集合簇,各个簇按元素从小到大排序即满足;由此定义两个参数分别为、,以及设c为小簇和小簇的分界,则c满足或;即大簇,小簇,其中当时,表示大簇的数据数量和需要占超过x%的数据,表示前一个簇的数量是后一个簇数量的x倍。

5.根据权利要求4所述的一种基于商旅行程业务数据的异常用户生成内容识别方法,其特征在于,所述计算异常分数的在步骤中,包括;计算第t个点的异常分数值f,f定义为:。

6.根据权利要求1所述的一种基于商旅行程业务数据的异常用户生成内容识别方法,其特征在于,所述通过正则表达式匹配或者字符串处理函数将获取的行程数据中的各项信息提取出来,并转换成统一的格式后,将不同来源的行程数据进行合并,以便后续的分析处理的步骤中,包括;

7.根据权利要求1所述的一种基于商旅行程业务数据的异常用户生成内容识别方法,其特征在于,所述通过自然语言处理对合并后的行程数据进行异常内容识别,识别出行程数据中的异常情况的步骤中,包括;

8.根据权利要求1所述的一种基于商旅行程业务数据的异常用户生成内容识别方法,其特征在于,所述将识别出异常的内容记录到数据库或输出到文件中,并提供给相关人员进行查看和处理,以便相关人员采取相应的措施的步骤中,包括;


技术总结
本发明提出一种基于商旅行程业务数据的异常用户生成内容识别方法,实时监测和记录商旅行程的各项数据;基于改进算法对各个数据的异常分数进行计算,判断行程数据所属用户是否存在异常;筛选出可能存在异常的用户;将各项信息提取出来,换成统一的格式后,将不同来源的行程数据进行合并,进行异常内容识别,记录到数据库或输出到文件中,以便相关人员采取相应的措施;通过实时监测和记录商旅行程数据,结合改进算法对行程数据的分析和判断,从整体上评估用户的行程数据是否存在异常,可以及时发现存在异常的用户和行程数据,通过自动化的方法对行程数据进行异常检测和识别,只有被标记为异常才需要人工干预,其更加高效及时。

技术研发人员:戴青平,廖伟山,花钰
受保护的技术使用者:广东美亚商旅科技有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1