首发于学习编程
如何拿链家网的租房数据做些有意思的事情?

如何拿链家网的租房数据做些有意思的事情?

周末周六两天,做了链家网的爬虫,可能有很多朋友做过,当然很多人只是练爬虫,但没有对爬取数据进行一些可视化去发现一些比较有意思的东西,今天想要通过抓取的数据进行一些比较有趣的统计分析。

如果你想要这份数据:关注公众号:(路人甲TM),回复(链家数据

今天文章分成两大部分

  • 对链家网的租房信息数据进行一些简单统计分析
  1. 探索最高租价房源
  2. 利用距离模拟画出南京市地铁路线图
  3. 南京市的高层建筑在哪里?


  • 解释链家网爬虫代码的重要部分
  • 最后链家数据的获取方式

第一大部分:对链家的数据进行一些简单统计分析

1、探索最高租价房源

首先我此次分析的主题是南京的租房状况,所以这里我先抓取了南京的租房的信息,数据出来之后放入表格中的样子是这样的,包含:小区名、租价、经度、维度、房屋面积、室厅卫、是否整租、楼层高度、房屋方向、到最近地铁的距离。


对于以上的数据,刚拿到我就开心的扔到了tableau里面,发现有点问题。一开始没意识到的问题,链家中的地理位置信息使用的是百度地图的,百度地图经纬度有所偏移。


好在,百度提供了这个接口webapi/guide/changeposition - Wiki ,可以通过这个把经纬度转成正确的经纬度坐标。有同学有兴趣的话可以尝试写一个批量转换的脚本,这里十分期待你们的脚本。同时,一种偷懒的解决方法:计算出经纬度的校正值,这边我使用的经纬度校正值是:

经度:0.012774687519
维度:0.00394531687912

校正经纬度之后,数据为问题就已经解决了,下面就开始进入统计分析阶段。首先放上的就是标题上的图片,南京的租房房源数量与房价之间的分布图片。


红色越深代表当前区域的平均租房房价越低,蓝色越深代表当前渔区的平均租房房价越高。白色区域的租价在3500/月左右,取了最低值1200元/月,最高值10000元/月。

圆圈越大代表当前趋于的房源越多,越小代表房源越少。

图上的大体分布基本上也是符合南京的房价状况的,中心地段普遍租价较高,而在桥北等地方租房房价普遍偏低并且房源数量较多。这样的图片看的还是不怎么清晰,为了让图片更加的通俗易懂,这里,我分别提取了平均房租高于10000的点。


好,先看看这个颜色最深的点,不出意外,看位置在新街口附近,接下来去验证。


这个经纬度下找到了民族大厦,但是对于这个最高点,我充满疑惑。很显然在新街口,这个民族大厦并不是最好的位置,但是为什么周边却没有高出民族大厦房租的其他 小区呢?我想到的第一个原因是,在此片区域,链家上并没有其他相关的租房信息,于是我去赶集网查看了一下此片区域的租房情况。

我们按照关键词新街口地铁口搜索:【南京新街口地铁租房信息】南京租房网站-南京赶集网,在赶集上我也没有找到比这个更高的房租,我又查阅了其他几个网站同样没有。

第二个原因:链家网上的信息可能有误,很多网站会存在这种虚假信息,于是我去找到了此房源:民族大厦 1室1厅1卫 527平米 40000元


没有一张图片,也没有任何说明,同时发现发布时间为一年之前,我猜测可能为虚假信息,但是并不能这么轻易的下结论,也是为了发现正确信息,为此我查找了一些资料,发现了以下的图片,很显然民族大厦的租价不可能打到40000元/月,因此判断为虚假信息。


那么,到底最高的租房房价在哪里呢?我们继续找刚刚的第二个点。按照以上的思路分析,得到最高租价房源为:涟城 2室0厅0卫 191平米 35000元

2、根据据离地铁的远近,我们来画一个地铁线吧!

这个应该比较有意思呢!我们抓出来的数据中有房源距离地铁的远近,那我突然就有个想法。如果我把这些距离较小的点都集中了,那是不是就能简单绘出地铁线吗?这真是很有趣,当然如果每一个距离地铁的距离能加上几号线可能绘图会更加准确,但是这里我只保留了距离地铁的距离,所以这里画出的地铁线会不区分几号线。

画出下图:圆圈大小代表离地铁的远近,越小离地铁越近。我有一个大胆的想法,把这些小点连起来不就是我们想要的地铁线路吗?


图片出来,ok,用一下美图秀秀~电脑上没有ps!如下因为图片过大,这里只能画市区以及南部地区的路线图,桥北的无法再现!


把所有的小圆圈链接起来即可,很显然,这个图是有很大问题的,那么如何解决这个问题呢?在对抓下来的数据处理过程中,一定要保留是哪一号线地铁,这样在连线的过程中有更加有针对性,并且图像会更加准确!期待大家的作品。


3、南京市的高层建筑在哪里?


从上图中会很好的发现,低层建筑很多,同时低层建筑中包围了很多的中高层建筑,我认为随着发展,原先的很多低层建筑在发展过程中逐渐被中高层取代掉~这些现象在市区附近最为明显。但是在桥北等地区,不是很明显。

在桥北地区,一个很明显的发展现象是:西南方向的中高层建筑越来越多,这是不是意味着桥北地区的一个发展趋势呢?

第二部分:Talk is cheap,Show me your CODE.

很多次在公众号收到这样的回复,那么今天就稍微解释一下链家网的爬虫,其实是很简单的。

一部分是抓取,每一页面上的房源链接


另一部分是解析这个房源链接上的内容

大概就是这样!代码不全,请自行脑补。

编辑于 2019-04-13

文章被以下专栏收录