2.数据内容预览
lc.columns
关于如何使用python进行数据分析的文章很多,相关的书籍也有很多。本文是基于Excel思维使用python进行数据分析,换句话说就是本文不是传统意义上的专业python文章。文章的内容共分为8个部分,从最基础的数据导入和读取到分析结果的图表化输出。这其中包含了很多与Excel非常相似的函数和分析功能,如SUM,COUNTIF,TRANSPOSE函数,以及数据筛选,分类汇总和数据透视表等功能等等,这些在python中都能找到对应的代码。因此,只要你会使用基本的Excel函数就能看懂文中的python代码,并可以使用Python进行简单的数据分析。文章中的数据源来自Lending Club 2017-2011年的公开数据。
lc.shape
Columns是查看表中各个字段名称的代码,以方便后续的分析工作。这里由于字段数量较多,python只列出了一部分字段的名称。
import matplotlib.pyplot as plt
import pandas as pd
首先查看我们刚刚读取数据表的大小。通过下面的的结果可以看到Lending Club的数据表有4万多行,111个字段。想要进一步查看数据表中更具体的内容可以通过后面的代码来实现。
在上面读取数据的代码中,使用了pandas库(pd)中的功能,首先读取LoanStats3a.csv文件,并设置标题行header=1。然后将读取的csv文件转成DataFrame并将这个数据表取名lc。
或者将数据所在位置的路径设置为工作目录。具体方法如下:
import os as os
数据读取工作完成后,可以开始对数据进行简单的预览。预览内容主要包括了解数据表的大小,字段的名称,数据格式等等。为接下来的数据分析工作做准备。
我们继续查看数据表中具体的数据内容,由于这个数据表行数较多我们不查看所有数据,只查看开始和结束的几行。下面的的结果中显示了数据表前5行的数据内容。head后面的()括号中可以输入要查看的具体行数,为空时默认只显示前5行的数据。在前5行的数据表中可以发现,很多字段中都是NaN值,这可能导致后面的字段不可用。不过到底包含多少NaN值,我们在后面的数据清洗部门会进行详细的统计。
1.开始前的准备工作
os.getcwd()
导入功能库后,就可以开始读取数据了。这里需要注意的是如果数据文件没有保存在Jupyter Notebook的工作目录中,在导入的过程中需要说明数据所在的路径。如果你觉得输入路径太麻烦的话,可以使用OS库查看或更高操作系统中的工作目录。将数据文件直接拷到Jupyter Notebook的工作目录中,通过下面的代码可以查看Jupyter Notebook的工作目录位置。
os.chdir(‘C:\\Users\\cliffwang\\Desktop\\python’)
import numpy as np
我们将Lending Club的数据保存在Jupyter Notebook工作目录开始读取数据。Python可以读取多种数据格式,如csv,xls和txt等等。Lending Club的数据源是csv格式的。我们通过下面的代码完成读取数据和创建数据表的工作。
使用Python进行数据分析之前,需要预先导入相对应的功能库。数据分析最常用的库包括用于数值计算的numpy,基于numpy构建的用于科学计算的Pandas库,用于数据可视化的matplotlib和提供各种操作系统功能接口的OS库。我们将这几个库导入到python中, import后是导入库的名称 as后是库的简称。例如pandas库的简称是pd,在后面的代码中看到pd就表示这个操作使用了pandas库。具体代码如下:
lc=pd.DataFrame(pd.read_csv(‘LoanStats3a.csv’,header=1))
免责声明:凡本网注明 “来源:XXX(非中国房产新闻网)” 的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。