机器学习房产新闻实战_中国房产新闻网

机器学习房产新闻实战

新闻来源：中国网 2018-03-21 11:33

表1.1就是我们已有的数据集合，也就是训练样本集。这个数据集有两个特征，即打斗镜头数和接吻镜头数。除此之外，我们也知道每个电影的所属类型，即分类标签。用肉眼粗略地观察，接吻镜头多的，是爱情片。打斗镜头多的，是动作片。以我们多年的看片经验，这个分类还算合理。如果现在给我一部电影，你告诉我这个电影打斗镜头数和接吻镜头数。不告诉我这个电影类型，我可以根据你给我的信息进行判断，这个电影是属于爱情片还是动作片。而k-近邻算法也可以像我们人一样做到这一点，不同的地方在于，我们的经验更”牛逼”，而k-邻近算法是靠已有的数据。比如，你告诉我这个电影打斗镜头数为2，接吻镜头数为102，我的经验会告诉你这个是爱情片，k-近邻算法也会告诉你这个是爱情片。你又告诉我另一个电影打斗镜头数为49，接吻镜头数为51，我”邪恶”的经验可能会告诉你，这有可能是个”爱情动作片”，画面太美，我不敢想象。 (如果说，你不知道”爱情动作片”是什么？请评论留言与我联系，我需要你这样像我一样纯洁的朋友。) 但是k-近邻算法不会告诉你这些，因为在它的眼里，电影类型只有爱情片和动作片，它会提取样本集中特征最相似数据(最邻近)的分类标签，得到的结果可能是爱情片，也可能是动作片，但绝不会是”爱情动作片”。当然，这些取决于数据集的大小以及最近邻的判断标准等因素。

使用算法：错误率在可接受范围内，就可以运行k-近邻算法进行分类。

比如，现在我这个k值取3，那么在电影例子中，按距离依次排序的三个点分别是动作片(108,5)、动作片(115,8)、爱情片(5,89)。在这三个点中，动作片出现的频率为三分之二，爱情片出现的频率为三分之一，所以该红色圆点标记的电影为动作片。这个判别过程就是k-近邻算法。

# -*- coding: UTF-8 -*- import numpy as np """ 函数说明:打开并解析文件，对数据进行分类：1代表不喜欢,2代表魅力一般,3代表极具魅力 Parameters: filename - 文件名 Returns: returnMat - 特征矩阵 classLabelVector - 分类Label向量 Modify: 2017-03-24 """ def file2matrix(filename): #打开文件 fr = open(filename) #读取文件所有内容 arrayOLines = fr.readlines() #得到文件行数 numberOfLines = len(arrayOLines) #返回的NumPy矩阵,解析完成的数据:numberOfLines行,3列 returnMat = np.zeros((numberOfLines,3)) #返回的分类标签向量 classLabelVector = [] #行的索引值 index = 0 for line in arrayOLines: #s.strip(rm)，当rm空时,默认删除空白符(包括'\n','\r','\t',' ') line = line.strip() #使用s.split(str="",num=string,cout(str))将字符串根据'\t'分隔符进行切片。 listFromLine = line.split('\t') #将数据前三列提取出来,存放到returnMat的NumPy矩阵中,也就是特征矩阵 returnMat[index,:] = listFromLine[0:3] #根据文本中标记的喜欢的程度进行分类,1代表不喜欢,2代表魅力一般,3代表极具魅力 if listFromLine[-1] == 'didntLike': classLabelVector.append(1) elif listFromLine[-1] == 'smallDoses': classLabelVector.append(2) elif listFromLine[-1] == 'largeDoses': classLabelVector.append(3) index += 1 return returnMat, classLabelVector """ 函数说明:对数据进行归一化 Parameters: dataSet - 特征矩阵 Returns: normDataSet - 归一化后的特征矩阵 ranges - 数据范围 minVals - 数据最小值 Modify: 2017-03-24 """ def autoNorm(dataSet): #获得数据的最小值 minVals = dataSet.min(0) maxVals = dataSet.max(0) #最大值和最小值的范围 ranges = maxVals - minVals #shape(dataSet)返回dataSet的矩阵行列数 normDataSet = np.zeros(np.shape(dataSet)) #返回dataSet的行数 m = dataSet.shape[0] #原始值减去最小值 normDataSet = dataSet - np.tile(minVals, (m, 1)) #除以最大和最小值的差,得到归一化数据 normDataSet = normDataSet / np.tile(ranges, (m, 1)) #返回归一化数据结果,数据范围,最小值 return normDataSet, ranges, minVals """ 函数说明:main函数 Parameters: 无 Returns: 无 Modify: 2017-03-24 """ if __name__ == '__main__': #打开的文件名 filename = "datingTestSet.txt" #打开并处理数据 datingDataMat, datingLabels = file2matrix(filename) normDataSet, ranges, minVals = autoNorm(datingDataMat) print(normDataSet) print(ranges) print(minVals)

运行上述代码，得到结果如图2.5所示。

上述代码使用的algorithm参数是auto，更改algorithm参数为brute，使用暴力搜索，你会发现，运行时间变长了，变为10s+。更改n_neighbors参数，你会发现，不同的值，检测精度也是不同的。自己可以尝试更改这些参数的设置，加深对其函数的理解。

1.2 距离度量

我们已经知道k-近邻算法根据特征比较，然后提取样本集中特征最相似数据(最邻近)的分类标签。那么，如何进行比较呢？比如，我们还是以表1.1为例，怎么判断红色圆点标记的电影所属的类别呢？如图1.1所示。

图2.5 归一化函数运行结果

我们使用sklearn.neighbors.KNeighborsClassifier就可以是实现上小结，我们实现的k-近邻算法。KNeighborsClassifier函数一共有8个参数，如图3.4所示。

三 k-近邻算法实战之sklearn手写数字识别 3.1 实战背景免责声明：凡本网注明 “来源：XXX(非中国房产新闻网)” 的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。

标签：: 机器学习实战,Python3

分享到：

上一篇：httpwatch怎么用？HttpWa房产新闻tch网页数据分析详细图文教程
下一篇：大数据安全分房产新闻析的前世今生

热点资讯

一周

机器学习房产新闻实战

热点资讯

最新资讯

未来商业新范本IBC...

智慧之光连接世界，...

满京华集团深港双年...

传家之宅，引爆星城...

滚动播报