基于数据标签建立人口画像的数据处理方法及系统与流程

文档序号:21187835发布日期:2020-06-20 18:15阅读:824来源:国知局
基于数据标签建立人口画像的数据处理方法及系统与流程

技术领域清

本发明涉及数据处理技术领域,尤其涉及一种基于数据标签建立人口画像的数据处理方法、系统、计算机可读存储介质以及计算机。



背景技术:

随着国家大数据战略的实施以及数字中国的建设进程,数据的开放共享为充分释放政府海量政务信息数据价值提供了有利条件。

基于海量异构政务信息数据,实现用户画像的构建越来越重要。用户画像能够利用数据的多维度视图,客观真实的反映出用户的行为轨迹、习惯特点及服务需求等,为各领域的服务能力提升,数据分析的挖掘提供了必要的技术支撑,在政府大数据融合和认知领域,随着近几年的实体和用户画像匹配任务在人工智能、机器学习等领域中逐渐变得热门。

但是目前对海量异构政务信息数据没有建立有效的模型,当采集到新的政务数据后系统架构需要相应调整,导致数据分析系统的扩展性和灵活性较差。



技术实现要素:

有鉴于此,本发明提供一种基于数据标签建立人口画像的数据处理方法、计算机可读存储介质以及计算机,以提高对海量异构政务信息数据分析的扩展性和灵活性。

第一方面,本发明提供一种基于数据标签建立人口画像的数据处理装置,包括:接收来自多个信息采集渠道的人口信息数据;对所述人口信息数据进行分类,得到多个类别,并根据所述多个类别建立人口主题库模型,所述人口主题库模型每一个主题库对应一个类别;根据所述人口主题库模型的数据以及预先建立的人口标签数据,利用预设的大数据处理算法,确定人口个体画像以及人口群体画像;接收查询索引信息,并根据所述人口个体画像以及人口群体画像,调取及显示所述查询索引信息对应的人口信息。

另一方面,本发明还提供一种基于数据标签建立人口画像的数据处理系统,包括:数据采集单元,用于采集来自多个信息采集渠道的人口信息数据;数据建模单元,用于对所述人口信息数据进行分类,得到多个类别,并根据所述多个类别建立人口主题库模型,所述人口主题库模型每一个主题库对应一个类别;数据分析单元,用于根据所述人口主题库模型的数据以及预先建立的人口标签数据,利用预设的大数据处理算法,确定人口个体画像以及人口群体画像;数据应用单元,用于接收查询索引信息,并根据所述人口个体画像以及人口群体画像,调取及显示所述查询索引信息对应的人口信息。

又一方面,本发明提供一种计算机可读存储介质,存储有程序,所述程序包括用于执行所述方法的指令。

再一方面,本发明提供一种计算机,包括存储有计算机程序的可读介质,所述程序包括用于执行所述方法的指令。

本发明基于数据标签建立人口画像的数据处理方法以及装置,通过按人口信息数据分类建模,再实现人口群体画像,数据分类建模时按人口信息数据建立人口主题库模型,并基于人口主题库模型的数据关联分析,进行人口标签刻画,进而生成人口群体画像数据,以便支撑开展根据查询索引信息反馈人口相关政务数据的应用和服务,人口主题库模型基于业务需求建模和按主题分类自动建模扩展多维人口实体数据分析模型,在采集新的人口实体数据后可以根据各类别进行归类,不改变人口主题模型架构,数据处理灵活、扩展性好。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1为根据本发明示例性第一实施例的基于数据标签建立人口画像的数据处理方法的流程图;

图2为根据本发明示例性第二实施例的基于数据标签建立人口画像的数据处理系统的软件架构图;

图3为根据本发明示例性第三实施例的基于数据标签建立人口画像的数据处理系统的结构框图。

具体实施方式

下面结合附图对本发明实施例进行详细描述。

需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合;并且,基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。

需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

如图1所示,本发明一种基于数据标签建立人口画像的数据处理方法,包括:

步骤101:采集来自多个信息采集渠道的人口信息数据。

具体地,可以利用大数据技术提供大数据采集能力,统一汇集多源异构人口信息数据,采集数据来源可以包括公安户籍信息、教育信息、民政信息、人保信息、住房信息、人口统计信息、卫生信息、计生信息、税务信息、住房公积金信息等多源数据;

步骤102:对所述人口信息数据进行分类,得到多个类别,并根据所述多个类别建立人口主题库模型,所述人口主题库模型每一个主题库对应一个类别。

具体地,可以提供可视化数据建模能力,按人口实体抽象数据建模,构建人口主题库模型,具体按人口实体属性分类组织和管理多维人口主题模型,分类维度包括人口基本信息、户口、人事档案、教育、劳动就业、民政、住房、社保、公积金等信息。通过提供可视化数据集成能力,进行多源数据集成加工处理,实现业务系统数据关联聚合生成人口主题模型数据。

步骤103:根据所述人口主题库模型的数据以及预先建立的人口标签数据,利用预设的大数据处理算法,确定人口个体画像以及人口群体画像。

具体地,可以利用机器学习、数据标签及gis服务等技术提供深度数据挖掘分析能力,基于人口主题库数据挖掘分析,构建人口标签库进行人口多维分析、人口群体画像、人口标签取数、人口预测分析等生成个性化的人口应用数据。

步骤104:接收查询索引信息,并根据所述人口个体画像以及人口群体画像,调取及显示所述查询索引信息对应的人口信息。比如:具体可以通过数据建模和群体画像,将人口信息与住房地址进行绑定,进而实现通过住房信息获取人员的社保等其他信息。

具体地,关于数据应用,可以提供可视化数据分析能力,基于人口应用数据,面向政府和公众提供全面、直观、可视化人口应用服务。比如:低保用户画像、与gis服务结合通过房屋地址获取和展现人口的相关信息和活动轨迹、人口群体趋势预测等。

本实施例数据标签建立人口画像的数据处理方法首先按人口实体数据建模,再根据数据建模实现群体画像,数据建模时按实体汇聚人口相关政务信息数据,建立人口主题模型,并基于人口主题数据关联分析,进行人口标签刻画,进而生成人口群体画像数据,以便支撑开展人口相关政务数据应用和服务,基于业务需求建模和按主题分类自动建模扩展多维人口实体数据分析模型,在采集新的人口实体数据后可以根据各类别进行归类,不改变人口主题模型架构,数据处理灵活、扩展性好。

具体以基于数据标签建立人口画像的数据处理方法用于提供企业群体画像为例进行解释说明,具体包括:

首先,进行数据采集:

具体操作时,可以提供丰富的数据接入方式包括jdbc(javadatabaseconnectivity,java数据库连接)、ftp(filetransferprotocol,文件传输协议)、http(hypertexttransferprotocol,超文本传输协议)等适配接入多源异构(结构化/非结构化)数据,支持包括关系型数据库数据、文件数据、大数据、流式数据等采集汇聚;

其次,进行人口主题库建模。

具体操作时,可以按实体抽象建模,基于实体(如人口)属性分类,将同类属性信息项作为同一分类定义数据结构来管理、集成、存储数据。如人口身份证号、姓名、性别、年龄、民族、籍贯等基本属性,都属于人口基本信息分类,因此,将人口基本信息作为人口库的一个分类,身份证号、姓名等作为该分类下的信息项。

具体操作时,主题库模型可以采用星型+雪花型模型设计,可清晰直观展示模型结构和关联关系,且易于扩展。基于主题模型,通过可视化数据映射集成方式,实现(源)业务数据到(目标)主题模型数据集成,汇聚。如图2所示,报表设计器支持集成大量的开源图表组件,覆盖全部常用报表需求强大的图表样式编辑、图表操作功能。星性多维模型结构,支持灵活钻取、切面、切片、自由关联、图表联动分析提供丰富的数据聚合算法,支持数据深度挖掘分析采用缓存技术提供高效的数据聚合处理。预置通用维度模型、政务常用维度指标体系、提供丰富的数据接口适配,快速对接完善维度指标体系。

再次,建立人口标签体系,具体包括但不限于:

基础标签:性别、年龄、政治面貌、籍贯、户籍、学历、婚姻状况、行业、职业、工作年限、社保缴纳状态等;

属地标签:居住城区、街道、社区、网格,工作城区、街道、社区、网格,便民服务站等;

政策标签:人才标签,如海外人才、杰出人才、高级人才、国家级领军人才、地方级领军人才等;

服务标签:人才津贴、科研配套、住安居房、配偶就业、子女入学、医疗保障、租房补贴、生活补助、薪酬奖励等。

最后,进行人口数据分析。具体分析过程结合标签体系,以主题库数据为基础,利用机器学习、文本挖掘、自然语言处理、聚类算法、预测算法、gis地图服务等技术,面向数据应用需求进行数据挖掘分析,实现人口数据标签管理和自动打标签,支撑个体和群体画像,以及更多个性化的人口数据应用。

具体标签画像数据应用(即人口数据应用)可以包括:

基于人口标签数据,通过数据可视化技术展示个体和群体画像;

结合主题库数据和人口标签数据进行关联聚合,多维分析,提供各类人口专题数据分析,辅助决策;

基于主题库数据和人口标签数据进行预测分析,提供人口发展趋势预测等;

基于标签数据进行取数,针对惠民等政策推广和申请,可快捷提取目标群体,智能推荐等。

本实施例基于应用创建和管理人口标签体系,结合标签体系对人口主题库,利用机器学习和预测算法等技术进行数据关联聚合、挖掘分析,生成人口数据标签和关系图谱,以及提供预测分析功能等;此外,还基于标签数据提供数据应用服务,利用数据可视化、gis服务、即席查询、全文检索等技术提供多维分析、群体画像、基于标签取数和智能推荐等数据应用。

如图3所示,本发明示例性第三实施例的基于数据标签建立人口画像的数据处理系统的结构框图,图1-图2所示实施例的解释说明可以应用于本实施例,该基于数据标签建立人口画像的数据处理系统包括:

数据采集单元301,用于采集来自多个信息采集渠道的人口信息数据;

数据建模单元302,用于对所述人口信息数据进行分类,得到多个类别,并根据所述多个类别建立人口主题库模型,所述人口主题库模型每一个主题库对应一个类别;

数据分析单元303,用于根据所述人口主题库模型的数据以及预先建立的人口标签数据,利用预设的大数据处理算法,确定人口个体画像以及人口群体画像;

数据应用单元304,用于接收查询索引信息,并根据所述人口个体画像以及人口群体画像,调取及显示所述查询索引信息对应的人口信息。

具体操作时,数据应用单元304的应用维度可以多样,人口标签的应用,除人口及群体画像可视化外,通常在政府数据应用中还可以包含以下应用:

多维分析:基于人口标签的多维分析,按照应用需求圈定特定群体范围,实现对群体数据的智能化标记、筛选、分析,建立360度全方位个性化档案,通过关系图谱展示、可视化线索分析、智能化推荐等来实现用户对于目标群体的精准定位,提供个性化应用服务。基于标签的多维分析是非常重要的数据服务能力,标签可更好的连接数据和业务人员,赋能业务人员参与数据分析,降低数据获取和操作的难度。

标签取数:人口标签和画像的数据,可支撑政府相关人口管理部门的日常取数需求,也可作为其他部门及系统的数据分析和应用支撑的来源。

智能推荐:精准惠民和帮扶政策推荐是人口标签和画像重要的数据服务功能之一,通过不同的标签组合,可智能圈定一批人口群体进行惠民和帮扶政策推荐,数据可推送至政府相关宣传和办事中心的短信平台、应用平台等进行短信、邮件、公告通知。

本实施例利用大数据、多维分析及机器学习等技术,实现海量异构政务信息数据采集汇聚、业务建模、标签刻画,实现城市人口群体画像,并基于群体画像开展社会公共服务、政策帮扶审批等政务数据应用和服务,有助于全面提高政务服务质量和效率,进而提升公众对政府惠民服务和政策的获得感。

本发明还提供一种计算机可读存储介质,存储有程序,所述程序包括用于执行上述方法的指令。

本发明还提供一种计算机,包括存储有计算机程序的可读介质,所述程序包括用于执行上述方法的指令。上述计算机可读存储介质以及计算机具有上述基于数据标签建立人口画像的数据处理方法相应的技术效果,不再赘述。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1