一种基于互联网数据采集构建租房价格指数的方法

文档序号:29457325发布日期:2022-03-30 13:02阅读:173来源:国知局
一种基于互联网数据采集构建租房价格指数的方法

1.本发明涉及一种房屋租赁价格指数构建方法,特别是涉及一种基于互联网数据采集的实时房屋租赁价格指数构建方法。


背景技术:

2.本专利结合大数据思维与技术,摒弃了房产机构上报与调查员实地采价相结合的传统数据收集方式,使用网络开源房屋租赁挂牌数据测度房屋租赁价格的动态变化特征,并在此基础上提出了既能满足开源数据异质性又能满足最佳指数编制理论的统计方法:hedonic-fisher链式指数模型,通过实际数据验证了该方法的有效性并进行指数质量评估。房地产租赁市场是房地产发展状况的晴雨表,其租金涨跌指数(房屋租赁价格指数)直接反映房地产市场的景气状况;建立房屋租赁价格指数有助于解决房屋租赁信息发散、失真和不对称等问题,有利于指导市场参与者理性消费和理性投资,是房屋行政管理市场化、规范化的必要技术手段。


技术实现要素:

3.为了达成上述目的,本专利的解决方案是一种基于互联网数据采集的情绪指数构建方法,包括如下步骤:步骤1,获取开源房地产交易平台中当日房屋租赁的挂单信息;步骤2,对当日爬虫获得的数据是包含有自然语言的非标准化数据需要进行批量清洗与处理;需要批量清洗数据,得到满足后续的建模要求的标准化数据;步骤3,根据设定的房屋租赁价格指标建模;步骤4,将当日数据代入模型,使用逐步回归的方式拟合方程,将当日计算的参数代入如下公式计算当日房屋租赁价格指数。
4.房屋租赁价格指数等于:
ꢀꢀ
(1) (2)本专利结合大数据思维与技术,摒弃了房产机构上报与调查员实地采价相结合的传统数据收集方式,使用网络开源房屋租赁挂牌数据测度房屋租赁价格的动态变化特征,并在此基础上提出了既能满足开源数据异质性又能满足最佳指数编制理论的统计方法:hedonic-fisher链式指数模型,通过实际数据验证了该方法的有效性并进行指数质量评估。
5.与现有技术相比,本发明的有益效果是:
(1)基于hedonic-fisher链式指数模型构造的实时房屋租赁价格指数,相比于双加权平均法和中位数价格法具有较好的计算质量,能够客观真实地反映了流通环节中房屋租赁价格的变动方向和变动幅度,可为租房者、投资者以及房屋租赁中介商提供及时、可靠的价格参考。
6.(2)该指数能够揭示房产属性变量与房屋租赁价格的异质关系,在时效性上具有先行性,领先70个大中城市商品住宅销售价格指数约35~45天,可以更好地服务房屋租赁行业,为房屋租赁市场提供实时价格指引,指导市场参与者理性消费和理性投资。
7.(3)指数的实时性从可视化的角度检验了宏观经济政策的微观效度,验证了房屋租赁价格适度上涨的客观事实。
附图说明
8.图1为本发明的房屋租赁网络交易页面抓取流程图。
9.图2为本发明的租赁数据实览图。
10.图3为本发明的目标网页html结构层次图。
11.图4为本发明的原始数据拆分处理图。
12.图5为本发明的原始数据剔除单位处理图。
13.图6为本发明的原始数据转换数据类型处理图。
14.图7为本发明的青岛市指数试算结果及与其他指数的比较图。
15.图8为本发明的技术路线图或流程图。
具体实施方式
16.下面结合附图和示例来对本发明进行详细说明。
17.上述步骤1的详细内容是:获取房屋租赁网络交易数据是建立在web爬虫技术的基础上的,通过对热门房屋租赁平台网站进行网页解析,从中获取实时、大量的房屋租赁交易界面,之后再利用html以及正则表达式等web相关知识,从解析的页面中提取房屋租赁交易数据,编制房屋租赁价格指数所需的数据主要包括建筑面积、带看次数、总楼层数、房屋户型、所在楼层、房屋采光面(朝向)房屋类型、所属辖区等。
18.1.1 爬行策略与网页属性解析本专利的数据获取部分使用python3.5编程,对房屋租赁网络交易数据进行采集。利用python3.5抓取房地产网络交易数据的流程用图1(房屋租赁网络交易页面抓取流程)来表示。
19.在房地产开源网站房屋租赁板块租赁资讯发布页面的基础上,本专利将房屋租赁网络交易数据作为研究和分析的样本,选择链家网房屋租赁交易网页作为初始信息起点,网站的起始网址分别为:http://www.lianjia.com/。
20.下面开始对房屋租赁交易数据进行爬虫抓取,制定网址采集规则:(1)以链家网为例,解析其各级网页特征,制定爬行策略;(2)设定爬虫url循环获取规则;(3)编写数据框,使得爬虫以我们制定的数据框形式展示爬取的数据。
21.在爬虫的过程中,尽量多元化的建设数据框以减少后续清洗数据的难度,通过网络爬虫获取的数据有房产业务指标(如:浏览人数、带看次数,以及房产信息的发布时间)、房产建筑特征(如:所在小区名称、户型、面积大小、朝向、装修情况、楼层、供暖情况)、价格(按月租价)、区位特征(如:所在区域/街道、小区位置)。另外,页面上还有一些其他信息,比如挂单标题、距离最近地铁站和公交车站多远、供暖类型、交通是否便利、是否随时看房等以及房产中介公司的名称与中介工作者的证件联系方式。
22.根据上述指标与网页数据结构,本专利编制了如表1的爬虫数据框:表1爬虫数据框1.2 html属性解析为体现数据的真实可靠性,以及方便对房屋租赁交易数据的理解,本专利现从实际目标网页中随机截取一套房屋租赁信息进一步制定爬虫运行规则。
23.图2(租赁数据实览)中可以看到网页包含房产业务指标(如:浏览人数、带看次数,以及房产信息的发布时间)、房产建筑特征(如:所在小区名称、户型、面积大小、朝向、装修情况、楼层、供暖情况)、价格(按月租价)、区位特征(如:所在区域/街道、小区位置)。
24.对目标网页源代码进行分析:根据目标网站源代码可知,html网页结构是以0为开始计数。本专利所需的每套房产的租价、房屋面积、户型等数据是存放在《ul》呈用《class》分类以《li》标签排列的形式。具体到某个房产的子类数据则分别存放与《div》和《div》标签中。比如:《li data-index="0"》表示页面中第一套房屋的网页界面,在其之下《div》标签标
志新类别的开始,《div class="pic-panel"》和《div class="info-panel"》分别包含了该套房产的外在和内在,即实景照片与房产属性。在《div》标签之下,《div class="info-panel"》标签类中《h2》和《div class="col-1"》、《div class="col-2"》、《div class="col-3"》等标签则用来具体描述房产所在位置、户型、面积、朝向,街道、楼层、年代、楼型,交通状况、房产现状、供暖方式、装修情况和面积、租价等内容。
25.网页的html结构可用图3(目标网页html结构层次)表示。
26.上述步骤2的详细内容是:2.1 数据的清洗与处理本专利所编码的爬虫程序以制定的爬虫规则与网页属性为基础,将爬取的数据按照设定的数据框表出并筛重存储在数据库当中。部分原始数据如表2所示:表2房屋租赁原始数据纵向展示2.1.1数据的清洗(1)拆分处理因为网页html格式的缘故,在页面上爬取数据时经常会把不同含义的一串文本数据统一保存在数据框的一个变量中,对于变量build与ceng,二者均为包含多种含义的变量。此情况下我们需要对该变量数据进行量化处理,处理详细过程如图4(原始数据拆分处理)所示。
27.(2)提取信息在爬虫程序按照数据框形式在网页上爬取数据的时候,数据的表现形式可能多种多样,在爬虫的过程当中尽量避免同时对数据进行清洗,因此在页面上爬取数据时经常包含其原有的单位名称,致使变量数据以数据+单位的形式表出,例如变量mianji、jiedao和date,二者均为数值型变量,需要对mianji等变量数据进行处理。处理详细过程如图5(原始数据剔除单位处理)所示。
28.(3)转换数据类型因为网站编码的缘故,在页面上爬取数据时经常会把同一语义的一串数据转码,致使如数值型变量以其他形式表出,例如变量price与bianhao,二者均为数值型变量,需要对price变量数据进行转换数据类型处理,而变量bianhao无实际意义,故在此不作处理。处理详细过程如图6(原始数据转换数据类型处理)所示。
29.2.1.2 数据量化经过简单处理的原始数据包括房产的租价、建筑面积、带看次数、建筑年代、楼型、户型、所在街道、所在楼层位置、总楼层和朝阳面等变量。本专利挖掘到的信息都是原始的非结构数据,主要是文本数据,这些数据具有大量的、不完全的、模糊的特征,除此之外,文本数据不能够直接加减乘除,不利于统计模型的构建。为进行建模分析,首先需要对数据进行清洗和转化,把描述型变量转化为分类变量虚拟变量。表3详细介绍了不同数据的量化方法。
30.表3原始数据的量化展示上述步骤3的详细内容是:3.1价格影响因素的确定住宅价格的不同,反映了住宅本身特征数量的差异,这一观点已经被普遍接受。不同地
区房屋租赁价格的影响因素不同,各影响因素对房屋租赁价格的影响程度也不同。本专利通过理论研究与假设,确立了表4所示的影响房产租赁价格的典型变量并进行了量化处理。
31.表4房屋变量及量化值在表4所列出的房屋变量中,很多变量具有共线性,需要筛选变量并剔除,以达到数据降维的目的。比如房屋户型与客厅数、卧室数、建筑类型、建筑年代存在很强的关联性,只需选择房屋户型这一房屋变量即可。根据这一思路,并考虑山东省住宅租赁市场特点与开源数据的可得性,初步确定影响房屋租赁价格的因素包括以下几个方面:建筑面积、实景图数、总楼层数、房屋户型、客厅数、卧室数、房屋采光面(朝向)和所属辖区等。
32.3.2模型构建为求达到最好的拟合效果,本专利根据实际房屋租赁交易数据,具体分析所研究地区的房屋租赁市场和样本情况,对上述四种模型进行进一步的回归分析,比较上述四种模型的拟合度(置信度取90%),以探求与数据契合的hedonic模型的函数形式,最终选择采用对数线性形式的hedonic模型。根据上述编制方案与变量的选择,确定最终的hedonic模型为:
ꢀꢀ
(1)式中,xi为房屋特征连续变量,如建筑面积等,dj为房屋特征虚拟变量,如所属辖区等;α0为模型常数项;αi为各连续变量回归系数(i=1,2,

,m);βj为虚拟变量的回归系数(j=1,2,

,n),ε是服从正态分布的干扰项。当在模型中出现对数形式时,由于虚拟变量dj取值为0或1,无法进行有效的对数化处理,所以一般在这类模型中仅将连续变量xi进行对数处理,而对虚拟变量不做任何处理。在对连续变量进行对数处理时,个别变量有取值为0的情况(如带看次数),将只对取值不为0的连续变量进行对数处理。
33.上述步骤4的详细内容是:将当日数据代入模型,使用逐步回归的方式拟合方程,将当日计算的参数代入如下公式计算当日房屋租赁价格指数,公式为:(2)
ꢀꢀ
(3)(2)式中,l与k分别代表报告期与基期,、、和代表相应时期特征变量的均值。f
l
与fk分别是根据报告期与基期数据拟合的hedonic模型。将环比指数序列连乘,得到衡量指标值长期变化水平或趋势的链式指数,即(3)式,本专利中房屋租赁价格指数均以链式指数的形式表出。
34.以专利效果示例来阐述本专利的效果,示例样本空间时间跨度为2017年12月-2018年3月,无重复数据总计89526条。设定2017年11月31日为基期,进行指数试算并与传统中位数价格法和我国官方计算商品住宅销售价格指数的双加权平均计算方法进行比较,计算结果见图7(青岛市指数试算结果及与其他指数的比较)。
35.从总体上看,用不同方法计算的三类指数在趋势上是一致的,2018年3月中旬青岛市的房屋租赁价格总水平较基期分别6.25%,符合居民日常生活感知。2017年末青岛市房屋租赁价格水平处于比较稳定的状态;随着2017年12月20日中央经济工作会的召开,两市均受“租购并举”政策影响,租赁价格有了明显的提速。
36.为了进一步验证本指数模型的优势,根据指数质量检验的前沿研究,选择三种常用的检验方法。对房屋租赁价格指数进行趋势平稳性、波动性和相对趋势的离散程度三个维度的检验,并将之与双加权平均法和中位数价格法的试算结果进行比较,评估结果见表5。
37.表5三种模型估计效果对比分析
计算结果清楚地表明,本专利编制的房屋租赁价格指数无论在波动性(vol)还是相对趋势的整体离散程度(ssd)方面,均具有最高的计算质量。相比之下,本专利提出的构建实时房屋租赁价格指数的统计方法对房产等异质性商品的处理更为科学,能有效地降低因质量变化而引起的价格指数的偏差,可以准确反映租赁价格总水平的变动。
38.最后附上本发明的技术路线图或流程图,如图八所示。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1