excel学习库

excel表格_excel函数公式大全_execl从入门到精通

如何用机器学习预测新房积分

大家好~!这里是魔都小房弟团队

买房记得找小房弟哦,以下是正文:

在上海买新房,既要算钱也要算分。通常情况下,我们只能通过销售或者网上看看别人的估分来大概猜一下多少分。

那么,有没有什么方法,让我们可以自己预测一下新房积分区间呢?

本文就带你用机器学习的方法来预测新房积分。提前说明,文章不涉及数学公式,也不涉及代码编程,对小白非常友好。只要你能大概了解基本概念,就完全可以照着操作。

Part1 机器学习基本概念

机器学习,顾名思义,就是让它根据我们提供的数据,自己学习规则。

按照我们提供数据的不同,又分为监督式学习(学习的数据有标签)和非监督式学习(学习的数据无标签)。

监督式学习主要解决分类和拟合问题,非监督式学习主要解决聚类问题。

我们将要用到的支持向量机(SVM,support vector machine)就是一种非常流行的解决分类问题的监督式机器学习模型。

它的原理非常简单,就是找一个平面把两类物体分开。

如图所示,我们只要找到这样一条直线,就可以把红色的点和蓝色的点分开。

那如果红色和蓝色混合在一起,我们找不到这样的直线呢?二维找不到我们可以放到三维空间。

假设红颜色的球比较重,蓝颜色的球比较轻,我们一拍桌子,蓝色弹起来比较高,红色弹起来比较低,这样我们就可以找一个平面把两者分开了。

再复杂的情况,我们都可以通过函数映射到高维度空间,然后在这个空间中,找一个“平面”把两者分开。

听起来好像支持向量机只能做两分类,多分类可以吗? 当然可以啦,我们多找几个“平面”,多分几次,不就可以多分类了么。

以上只是简单的原理介绍,没看懂也没有关系,我们只需要知道支持向量机这个工具适合用来做分类就可以啦,下面我们就用它来建立我们自己的积分预测模型。

Part2 搜集数据

我们首先来头脑风暴一下哪些因素跟积分相关呢?地段,价格等等各种因素都跟积分有关。

经过讨论,我们选取了这几个影响因素:板块,套数,价格,入围比,与周边二手房的到挂率(新房价格/二手房价格)。

根据以上因素,我们开始在网上找2021年的数据。我们知道,数学模型只能处理数字,板块这个因素怎么考虑进来呢?我们可以定义一个和数字之间的映射关系。

当然不同的区域可以可以进行微调。比如虹桥板块,虽然地处外环外,地段配套完全不输外环内。

同样前滩,唐镇板块都可以相应上调,北上海可以根据环线相应下调。这样相同的数字大概能够代表相同的地段水平。

我们再根据不同的积分来打上相应的标签,为了方便,我们统一用社保分数0.1,60分作为基准。

(整理的部分数据)

Part3 模型建立

支持向量机工具,我们用网上比较流行的libsvm(https://www.csie.ntu.edu.tw/~cjlin/libsvm/)。

也可以在github上把文件都下载下来(https://github.com/cjlin1/libsvm)。

我们不需要安装它的python版本,只需要安装python环境和gunplot就够了。

这些网上都有教程,如何安装这里就不赘述了。

根据这个工具的输入要求,我们需要把上面数据转换成下面的形式:

<分类标签>

1:<第一个影响因素>

2:<第二个影响因素>

3:<第三个影响因素>

所以我们将Excel表格另存为csv文件,再另行编辑成上面的格式:

数据都准备好了,我们还可以用checkdata.py这个小程序检验一下。

接下来我们开始来训练模型,libsvm为我们新手贴心地提供了easy.py小程序(在tools文件夹里面)。

从输出可以看出我们经历了五个步骤:

1. 训练数据缩放。为了避免数据过大或者过小的影响,我们要把数据统一缩放到一个区间里。这里就解释了我们挂率数据有没有带上百分号和价格没有带上万对结果都没有影响。

2. 交叉验证寻找最优的模型参数。

3. 训练模型。

4. 测试数据缩放。

5. 预测测试数据,得出准确率。

我们用训练的数据做测试,正确率有97.2%而不是100%,这说明我们模型没有过拟合,泛化性能也不错。

这里可以理解成,我们训练的模型还是挺成功的。

Part4 预测验证

我们再来找一找样本外的数据试一试,我们来看一看2022年的新盘:

我们把上面数据按照格式保存为score_2022.txt:

再来跑一下我们的程序:

因为我们预测文件中的分类都是0(<60分),程序认为我们预测都是错的,所以正确率是0。

那程序觉得相应的分类是什么呢?

我们打开score_2022.txt.predict文件,程序认为正确的分类是:金鼎首府是2(65-70分),森兰名苑是5(80分以上),金科御桥博萃是2(65-70分)。

总结

实际上,按照0.1社保积分,60分基准分计算,金鼎首府是70.8分,森兰名苑82.2分,金科御桥博萃并未触发积分。

从横向比较来看,如果金科御桥博萃没有开发商风险的话,大概率跟金鼎首府热度相同。

我们所用的模型还有很多局限性,比如开发商的违约风险等一些重要因素并未包含在模型中,文中所用的数据也较为有限,导致结果也会有所偏差。

以上来自Zark的投稿,如果你买房碰到问题,可以随时找小房弟聊聊,欢迎大家咨询。

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

«    2024年12月    »
1
2345678
9101112131415
16171819202122
23242526272829
3031
控制面板
您好,欢迎到访网站!
  查看权限
网站分类
搜索
最新留言
    文章归档
      友情链接