杭州二手房

零、写在前面

家里有在杭州买房的需求,自己还在忙着找工作,只能说结合着来了XD。

这几天恰好围观了下GitHub上的这个repository

star数蹭蹭蹭往上涨啊

其实作者的数据真的是相当得全了

但是作为一个强迫症,幻想着如果能在一张图内显示所有自己需要的数据就好了啊


一、数据

需要的数据

杭州二手房看房、询价、谈判、过户技巧

这篇看下来受益良多,大致也能分析出我们在去找中介之前,

自己的需求:

  1. 预算

  2. 交通

  3. 户型和大小

  4. 楼层

  5. 学区

  6. 朝向

etc…

网上所需要收集的数据:

  1. 小区位置
  2. 小区单价:其实这里还需少户型,但是这个数据批量不好找
  3. 小区年代:老房子会有很多问题,新房子肯定贵
  4. 地铁位置
  5. 主干道交通
  6. 周边学校、商场、医院、菜场、超市等

收集数据

小区的数据:

一个爬虫解决,链家的数据还是比较靠谱的。

地铁的数据:

杭州运行的地铁(截止2018.2.27)只有三条,在建2条,其余的均为规划。

参考:杭州市轨道交通三期线路及沿线用地控制规划(草案)

人力把能找到的地铁经纬度全部找了出来,部分连周边道路都是规划中的除外(萧山有部分地铁站真的是荒郊野岭)

用了最简单也是最强大的excel,然后把数据导出为csv,再导入MySQL。

其余数据:

准备使用地图的api,所以不用收集。


处理数据

计算出每个地铁站和小区之间的距离,每个小区取最小值,为其最近地铁站。

UPDATE lianjia_xiaoqu AS r,
(
SELECT
 a.housecode,
 a.distance,
 b.metro,
 b.metro_line 
FROM
 ( SELECT housecode, min( distance ) AS distance FROM xiaoqu_metro_distance GROUP BY housecode ) AS a,
 xiaoqu_metro_distance AS b 
WHERE
 a.housecode = b.housecode 
 AND a.distance = b.distance 
 ) AS t 
 SET r.metro = t.metro,
 r.metro_line = t.metro_line,
 r.distance = t.distance 
WHERE
 t.housecode = r.housecode

这里吐槽下百度地图的api,界面被高德甩了好几条街不说,导入的scv文件的格式固定完全不友好

但是链家爬下来的数据都是百度的,必须转换

参考:坐标转换

4月1日更新的分界线

在看了两周的房子以后,我定下来了……老破小