Menu
您的位置:中国房产新闻网 > 数据研究 > >

用Python进行简房产新闻单的数据分析

新闻来源:中华网  2018-03-16 16:35

  2.数据内容预览

  lc.columns

  关于如何使用python进行数据分析的文章很多,相关的书籍也有很多。本文是基于Excel思维使用python进行数据分析,换句话说就是本文不是传统意义上的专业python文章。文章的内容共分为8个部分,从最基础的数据导入和读取到分析结果的图表化输出。这其中包含了很多与Excel非常相似的函数和分析功能,如SUM,COUNTIF,TRANSPOSE函数,以及数据筛选,分类汇总和数据透视表等功能等等,这些在python中都能找到对应的代码。因此,只要你会使用基本的Excel函数就能看懂文中的python代码,并可以使用Python进行简单的数据分析。文章中的数据源来自Lending Club 2017-2011年的公开数据。

  lc.shape

用Python进行简房产新闻单的数据分析

  Columns是查看表中各个字段名称的代码,以方便后续的分析工作。这里由于字段数量较多,python只列出了一部分字段的名称。

  import matplotlib.pyplot as plt

  import pandas as pd

  首先查看我们刚刚读取数据表的大小。通过下面的的结果可以看到Lending Club的数据表有4万多行,111个字段。想要进一步查看数据表中更具体的内容可以通过后面的代码来实现。

  在上面读取数据的代码中,使用了pandas库(pd)中的功能,首先读取LoanStats3a.csv文件,并设置标题行header=1。然后将读取的csv文件转成DataFrame并将这个数据表取名lc。

用Python进行简房产新闻单的数据分析

用Python进行简房产新闻单的数据分析

  或者将数据所在位置的路径设置为工作目录。具体方法如下:

  import os as os

  数据读取工作完成后,可以开始对数据进行简单的预览。预览内容主要包括了解数据表的大小,字段的名称,数据格式等等。为接下来的数据分析工作做准备。

  我们继续查看数据表中具体的数据内容,由于这个数据表行数较多我们不查看所有数据,只查看开始和结束的几行。下面的的结果中显示了数据表前5行的数据内容。head后面的()括号中可以输入要查看的具体行数,为空时默认只显示前5行的数据。在前5行的数据表中可以发现,很多字段中都是NaN值,这可能导致后面的字段不可用。不过到底包含多少NaN值,我们在后面的数据清洗部门会进行详细的统计。

用Python进行简房产新闻单的数据分析

  1.开始前的准备工作

  os.getcwd()

用Python进行简房产新闻单的数据分析

  导入功能库后,就可以开始读取数据了。这里需要注意的是如果数据文件没有保存在Jupyter Notebook的工作目录中,在导入的过程中需要说明数据所在的路径。如果你觉得输入路径太麻烦的话,可以使用OS库查看或更高操作系统中的工作目录。将数据文件直接拷到Jupyter Notebook的工作目录中,通过下面的代码可以查看Jupyter Notebook的工作目录位置。

用Python进行简房产新闻单的数据分析

  os.chdir(‘C:\\Users\\cliffwang\\Desktop\\python’)

  import numpy as np

  我们将Lending Club的数据保存在Jupyter Notebook工作目录开始读取数据。Python可以读取多种数据格式,如csv,xls和txt等等。Lending Club的数据源是csv格式的。我们通过下面的代码完成读取数据和创建数据表的工作。

  使用Python进行数据分析之前,需要预先导入相对应的功能库。数据分析最常用的库包括用于数值计算的numpy,基于numpy构建的用于科学计算的Pandas库,用于数据可视化的matplotlib和提供各种操作系统功能接口的OS库。我们将这几个库导入到python中, import后是导入库的名称 as后是库的简称。例如pandas库的简称是pd,在后面的代码中看到pd就表示这个操作使用了pandas库。具体代码如下:

  lc=pd.DataFrame(pd.read_csv(‘LoanStats3a.csv’,header=1))

免责声明:凡本网注明 “来源:XXX(非中国房产新闻网)” 的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。

最新资讯

滚动播报

更多