Menu
您的位置:中国房产新闻网 > 数据研究 > >

专访链家蔡白银:大数据如地产新闻何解决房产领域痛点推动行业进步

新闻来源:中华网  2018-03-04 02:42

  数学统计学的知识能够让我们对数据更具有把控,同时也能更好的对数据的结果进行解释。当然工具的使用也是必不可少,例如SPSS、SAS等主流统计分析软件的技能,尤其推荐对R的学习。R包含了丰富的统计分析库,且具备将结果进行可视化的高品质图表生成功能,可以通过简单的命令来运行。

  房源“真实存在”,不是虚构或虚拟房源;

  InfoQ:接下来,链家对大数据的利用,关注点会放在哪儿?有什么计划吗?

  个人建议最好也要会python。python学习起来简单方便,能够快速上手,且拥有丰富的统计学习包和机器学习的包和数据可视化的包,NumPy ,SciPy ,Scikit-learn,matplotlib, pandas等。

  至于政策,政策的影响对价格的影响是很大的,未来会有什么样的政策出台以及会带来多少影响,也不能尽知。政策的影响也不太容易做特征化。 因此,我们在估价模型的训练样本的选择上,我们只选择了近半年的成交房源,同时样本特征里加入时间因子,把政策的影响放在时间因子中,让非线性模型自己去学习政策对价格带来的持续性影响。

  从技术和数据上来说:链家首先建立了一个楼盘字典。这个字典里包含有30多个城市,近7000万套房屋的关键信息,除此之外还采集了小区物业费、采暖设施和配套设施等大家公认的信息

  InfoQ:请问您能给InfoQ的读者们介绍下您的背景经历吗?百度口碑如何利用大数据?和链家的业务有类似的地方吗?为什么选择了链家?

  蔡白银: 链家对大数据的使用依旧会集中在如何更好的服务用户,如何提高买卖体验上。

  数据科学家大多要求具备计算机专业知识,要求具备编程能力。除了一般的脚本编程语言, 知道常用的数据库知识外, 最好具备处理大数据所必需的Hadoop、Mahout,spark等大规模并行处理技术与机器学习相关的技能。

  (2) 数学、统计学和数据挖掘

  从机制上说,品控检查,内部经纪人监督检举以及消费者监督。链家承诺假一赔百。

  InfoQ:链家的数据源如何获取的?如何保证数据的实时性?

  房源真假如何判断

  蔡白银: 链家的大数据架构目前如下图所示:从下往上依次是数据采集层、存储计算层、DW层、分析计算层和应用挖掘层。

  线上数据包括在掌上链家app,链家网web端和链家网m站的各种行为数据,以及经纪人在link作业app上的行为数据等。

  基于此, 链家在真房源的保障上,做了如下几件事:

  存储计算层我们采用的是业界一直使用的HDFS和Hadoop体系。

  InofQ:能介绍下链家大数据团队的情况吗?你们看重团队成员什么方面的背景?哪些数据科学技能?

  在应用挖掘层,为了实时的update用户画像以及房源推荐,我们还引入了spark streaming 和 Elastic search,关于这点,可以参见之前在大数据杂谈上的分享。贯穿始终的是认证权限安全系统和调度系统。

  至于房型,极端的例子是同一个商圈里既有别墅,又有普通户型。由于链家的楼盘字典里,将房屋类型都做了明确的标记,因此基于我们的历史成交数据有丰富的房源类型和成交价格之间的关系。建模时,我们的样本里将房源类别特征做了离散化,因此模型能够很好的判断出房型对价格的影响

  蔡白银: 分别回答如下:

  对于卖房者同样如此

  “真实图片”,房源图片与真实房屋一对一匹配

  受访嘉宾介绍:蔡白银 ,毕业于北京大学。目前任 链家网大数据架构师 ,负责链家网大数据体系的建设,运用大数据挖掘技术助力房产领域的O2O,提升房屋买卖体验;在大数据数据挖掘领域有多年的经验。加入链家网之前就职于百度,负责百度口碑后端策略架构,使得口碑的污染率低于2%,有效的保证了内容的准确性和公正性。

物联网

  和虚假房源对应的就是真实房源,所以这个问题也可以翻译成链家在保障房源真实性上做了哪些保障。 那么,如何定义“真房源”?侠义上来说,“真房源”的4个标准:

物联网

  InfoQ:能讲一下链家大数据架构是怎么样的吗?

  三管齐下,保证了房源的真实性。

  (3) 数据可视化

  这几个问题的解决都仰赖于大数据。 楼盘字典的7000万数据解决了房源真假的问题;基于大数据的房屋估价可以供用户和卖家定出合适的价格;房源和小区推荐,让用户快速触达适合自己的房屋;基于用户画像的房客图谱和客源解读,让经纪人的服务能力得到更好的体现,让用户感知到越来越好的服务体验。总结一句话就是:技术推动行业进步,让买卖房屋不再难。

  “真实价格”,在各渠道发布房源价格以业主委托报价为基准;

  蔡白银: 链家的大数据团队有60多人,分为四个子方向,分别为基础数据建设方向、数据开发方向、数据分析方向和数据挖掘方向。 我们看重的是大家对数据的热情、对数据的敏感度和做事的靠谱度,以及对于数据价值的深度思考。

  蔡白银: 链家的数据来源于线下和线上两个渠道。线下渠道包括经纪人录入的数据,例如用户的带看行为,带看反馈等等,还不得不说的是链家网的6000万楼盘字典数据, 是我们的工作人员一栋一栋梳理出来的第一手的房屋数据, 十分珍贵。

  经纪人如何才能更好的了解客户的真实需求,从而提升服务体验。

  蔡白银: 链家网的数据都是真实的房源数据、成交数据和挂牌数据,所以这些数据都是可以拿来做分析使用的。 链家集团和其他地产公司的一些对数据比较敏感的经纪人,会持续收集链家的数据,形成自己的分析知识体系。

  InfoQ:如果靠爬虫爬取链家网上的数据,这些数据是否可有效利用?有什么反爬措施没?

  数据是和具体的业务紧密相关的,没有业务场景的数据是价值寥寥的。所以数据从业者需要对业务知识尽可能深入掌握,从而做到数据取之于业务,也用于业务。

  至于为何选择链家。之前一直在纯互联网行业工作,对于传统行业和互联网密切联系的垂直领域O2O一直很感兴趣,同时也知道自己的几个非常优秀的同事加入了链家, 仔细了解了链家的规划和愿景后,就毫不犹豫的加入链家了。目前很庆幸自己当初的选择,深感当前的平台宽广而深远,工作内容能够带来助力行业进步的成就感,也充满挑战性。加之周围同事都很优秀,『每个人都像一支队伍』,这种感觉我很喜欢。

  蔡白银: 上次在Qcon2016北京全球软件开发者大会的分享中有提到,房地产行业自古而今,一直存在的痛点可以总结为:

免责声明:凡本网注明 “来源:XXX(非中国房产新闻网)” 的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。

最新资讯

滚动播报

更多