python基础知识及数据分析工具安装及简单使用(Numpy/Scipy/Matplotlib/Pandas/StatsModels/Scikit-Learn/Keras/Gensim))_综合

Python介绍、 Unix & Linux & Window & Mac 平台安装更新 Python3 及VSCode下Python环境配置配置
python基础知识及数据分析工具安装及简单使用(Numpy/Scipy/Matplotlib/Pandas/StatsModels/Scikit-Learn/Keras/Gensim))
数据探索（数据清洗）①——数据质量分析（对数据中的缺失值、异常值和一致性进行分析）
数据探索（数据清洗）②—Python对数据中的缺失值、异常值和一致性进行处理
数据探索（数据集成、数据变换、数据规约）③—Python对数据规范化、数据离散化、属性构造、主成分分析降维
数据探索（数据特征分析）④—Python分布分析、对比分析、统计量分析、期性分析、贡献度分析、相关性分析
挖掘建模①—分类与预测
挖掘建模②—Python实现预测
挖掘建模③—聚类分析(包括相关性分析、雷达图等)及python实现
挖掘建模④—关联规则及Apriori算法案例与python实现

python基础知识及数据分析工具安装及简单使用(Numpy/Scipy/Matplotlib/Pandas/StatsModels/Scikit-Learn/Keras/Gensim

计算器
变量
类型
判断与循环
循环
- while
- for
函数
数据结构
- List（列表）/Tuple（元组）
- - 列表与元组
  - 一些常见的与列表/元组相关的函数
  - 作为对象来说，列表本身自带了很多实用的方法
- Dictionary（字典）
- 创建一个字典的基本方法
- Set（集合）
- 函数式编程
- lambda
- map
- reduce
- filter
库的导入与添加
Python数据分析工具
- Numpy
- - 安装
  - 使用
- Scipy
- - 安装
  - 使用
- Matplotlib
- - 安装
  - 解决显示问题
  - - 中文
    - 负号
  - 使用
- Pandas
- - 安装
  - 使用
- StatsModels
- - 安装
- Scikit-Learn
- - 安装
  - 使用
- Keras
- - 安装
  - 使用
- Gensim

计算器

# 加和减
print(5 + 5)
print(5 - 5)
# 乘和除
print(3 * 5)
print(10 / 2)
# 指数运算
print(4 ** 2)
# 取余数
print(18 % 7)
# 复利计算 假设你有100元，以每年10%的回报率投资。计算10年后你最终拥有多少钱，并打印结果？
print(100 * 1.1**10)

变量

变量有意义的名字避免使用像a、x Python中的变量名是区分大小写的

height = 1.70
weight = 55
bmi = weight / height ** 2  # 体重÷身高^2
print(bmi)

类型

print(type(1.11))  # float
print(type(1))  # int
print(type(True))  # bool
print(type("hello"))  # str
print(type("123"))  # str
print(type(int("123")))  # str->int int(str)
print('12'+'34')  # 1234
print(int('12')+int('34'))  # 46

判断与循环

需要特别指出的是，Python一般不用花括号{}，也没有end语句，它是用缩进对齐作为语句的层次标记。同一层次的缩进量要一一对应，否则报错。

if 条件1:语句2
elif 条件3:语句4
else:语句5

循环

while

s,k = 0
while k < 101: #该循环过程就是求1+2+3+...+100k = k + 1s = s + k
print s

for

s = 0
for k in range(101): #该循环过程也是求1+2+3+...+100s = s + k
print s

in是一个非常方便、而且非常直观的语法，用来判断一个元素是否在列表/元组中，range用来生成连续的序列，一般语法为range(a, b, c)，表示以a为首项、c为公差且不超过b-1的等差数列，如：

s = 0
if s in range(4):print u's在0, 1, 2, 3中'
if s not in range(1, 4, 1):print u's不在1, 2, 3中'

函数

Python用def来自定义函数：

def add2(x):return x+2
print add2(1) # 输出结果为3

Python的函数返回值可以是各种形式，比如返回列表，甚至返回多个值

def add2(x = 0, y = 0): # 定义函数，同时定义参数的默认值return [x+2, y+2] # 返回值是一个列表
def add3(x, y):return x+3, y+3 # 双重返回
a, b = add3(1,2) # 此时a=4,b=5

Python支持用lambda对简单的功能定义“行内函数”，这有点像Matlab中的“匿名函数”：

f = lambda x : x + 2 # 定义函数f(x)=x+2
g = lambda x, y: x + y # 定义函数g(x,y)=x+y

数据结构

List（列表）/Tuple（元组）

从外形上看，列表与元组的区别是，列表是用方括号标记的，如a = [1, 2, 3]，而元组是用圆括号标记的，如b = (4, 5, 6)，访问列表和元组中的元素的方式都是一样的，如a[0]等于1，b[2]等于6，等等。

c = [1, 'abc', [1, 2]]
# c是一个列表，列表的第一个元素是整型1，第二个是字符串'abc'，第三个是列表[1, 2]

family = ['me', 1.73, 'sister', 1.68, 'mom', 1.71, 'dad', 1.89]
# index : 0 1 2 3 4 5 6 7
# -8 -7 -6 -5 -4 -3 -2 -1
print(type(family))  # list
print(family[3])  # 取单个元素 list_name[index]
print(family[0:2])  # 取连续的一串元素 list_name[start:end] end 代表的元素并不包含在结果中
print(family[:2])  # 省略模式 从头部开始取数，或结束在尾部时
print(family[-2:])
print(family[:])  # 表示全部
print(family[1:7:2])  # 设置特定的步长间隔 隔2个取数
# 修改
family[7] = 1.86
family[0:2] = ['taller_me', 1.78]
# 增加
family = family + ['brother', 0.85]
# family.append("brother")
# family.append("1.79")
# 删除
del(family[2:4])family2 = [['me', 1.73], ['sister', 1.68], ['mom', 1.71], ['dad', 1.89]]
# index : 0 1 2 3
# -4 -3 -2 -1
print(family2[1][1])

x = ['a', 'b', 'c']
y = x
y[0] = 'd'
print(id(x))  # 获取对象的内存地址
print(id(y))
z = list(x)  # 或 z = x[:]
print(id(x))  # 获取对象的内存地址
print(id(z))

Python使用对象模型来存储数据，任何类型的值都是一个对象，所有对象都具备三个特性：身份（ID）、值（value）、类型（type）。这里的列表自然也是对象，x、y、z这类列表名称是ID，它们所指向的内容才是value。所以当使用 y = x 时，只是将ID进行传递，它们所指向的值是同一个。但是使用 z = list(x)，则是创建了一个新的对象z。
在这里插入图片描述

列表与元组

列表可以被修改，而元组不可以。
比如，对于a = [1, 2, 3]，那么语句a[0] = 0，就会将列表a修改为[0, 2, 3]，
元组b = (4, 5, 6)，语句b[0] = 1就会报错。

要注意的是，如果已经有了一个列表a，同时想复制a，命名为变量b，那么b = a是无效的，这时候b仅仅是a的别名（或者说引用），修改b也会修改a的。正确的复制方法应该是b = a[:]。

跟列表有关的函数是list，跟元组有关的函数是tuple，它们的用法和功能几乎一样，都是将某个对象转换为列表/元组，如list(‘ab’)的结果是[‘a’, ‘b’]，tuple([1, 2])的结果是(1, 2)。

一些常见的与列表/元组相关的函数

在这里插入图片描述

作为对象来说，列表本身自带了很多实用的方法

在这里插入图片描述

Dictionary（字典）

Python引入了“字典”这一方便的概念。从数学上来讲，它实际上是一个映射。通俗来讲，它也相当于一个列表，然而它的“下标”不再是以0开头的数字，而是自己定义的“键”（Key）。

创建一个字典的基本方法

d = {
    'today':20, 'tomorrow':30}

这里的’today’、'tomorrow’就是字典的键，它在整个字典中必须是唯一的，而20、30就是键对应的值。

还有其他一些比较方便的方法来创建一个字典，如通过dict()函数转换，或者通过dict.fromkeys来创建：

dict([['today', 20], ['tomorrow', 30]]) # 也相当于{'today':20, 'tomorrow':30}
dict.fromkeys(['today', 'tomorrow'], 20) # 相当于{'today':20, 'tomorrow':20}

Set（集合）

Python内置了集合这一数据结构，跟数学上的集合概念基本上是一致的，它跟列表的区别在于：

它的元素的不重复的，而且是无序的；
它不支持索引。一般我们通过花括号{}或者set()函数来创建一个集合：

s = {
    1, 2, 2, 3} # 注意2会自动去重，得到{1, 2, 3}
s = set([1, 2, 2, 3]) # 同样地，它将列表转换为集合，得到{1, 2, 3}

由于集合的特殊性（特别是无序性），因此集合有一些特别的运算：

a = t | s # t和s的并集 
b = t & s # t和s的交集 
c = t – s # 求差集（项在t中，但不在s中） 
d = t ^ s # 对称差集（项在t或s中，但不会同时出现在二者中）

函数式编程

函数式编程（Functional programming）或者函数程序设计，又称泛函编程，是一种编程范型，它将计算机运算视为数学上的函数计算，并且避免使用程序状态以及易变对象。简单来讲，函数式编程是一种“广播式”的编程，一般来说结合前面提到过的lambda定义函数，用于科学计算中，会显得特别简洁方便。

lambda

map

# 给列表中的每个元素都加2得到一个新列表
b = [i+2 for i in a]
b = map(lambda x: x+2, a) # 首先定义一个函数，然后再用map命令将函数逐一应用到（map）列表中的每个元素，最后返回一个数组
b = list(b) #结果是[3, 4, 5]

reduce

有点像map，但map用于逐一遍历，而是reduce用于递归计算。

# 算出n的阶乘
reduce(lambda x,y: x*y, range(1, n+1))

其中range(1, n+1)相当于给出了一个列表，元素是1~n这n个整数。lambda x,y: x*y构造了一个二元函数，返回两个参数的乘积。reduce命令首先将列表的头两个元素作为函数的参数进行运算，然后将运算结果与第三个数字作为函数的参数，然后再将运算结果与第四个数字作为函数的参数…依此递推，直到列表结束，返回最终结果。

filter

是一个过滤器，用来筛选出列表中符合条件的元素

b = filter(lambda x: x > 5 and x < 8, range(10)) 
b = list(b) #结果是[6, 7]

使用filter首先需要一个返回值为bool型的函数，如上述的lambda x: x > 5 and x < 8定义了一个函数，判断x是否大于5且小于8，然后将这个函数作用到range(10)的每个元素中，如果为True，则“挑出”那个元素，最后将满足条件的所有元素组成一个列表返回。

库的导入与添加

import math
math.sin(1) #计算正弦
math.exp(1) #计算指数
math.pi #内置的圆周率常数

import math as m
m.sin(1) #计算正弦

from math import exp as e #只导入math库中的exp函数，并起别名e
e(1) #计算指数
sin(1) #此时sin(1)和math.sin(1)都会出错，因为没被导入

from math import * #直接的导入，也就是去掉math.，但如果大量地这样引入第三库，就容易引起命名冲突。
exp(1)
sin(1)

在这里插入图片描述

Python数据分析工具

Python本身的数据分析功能不强，需要安装一些第三方扩展库来增强它的能力。
在这里插入图片描述

Numpy

Python并没有提供数组功能。虽然列表可以完成基本的数组功能，但它不是真正的数组，而且在数据量较大时，使用列表的速度就会慢得难以接受。

为此，Numpy提供了真正的数组功能，以及对数据进行快速处理的函数。Numpy还是很多更高级的扩展库的依赖库，有Scipy、Matplotlib、Pandas等库都依赖于它。值得强调的是，Numpy内置函数处理数据的速度是C语言级别的，因此在编写程序的时候，应当尽量使用它们内置的函数，避免效率瓶颈的现象（尤其是涉及到循环的问题）。

安装

pip 安装

pip install numpy

自行下载渊源代码，然后执行下面安装

python setup.py install

Linux

sudo apt-get install python-numpy

使用

# -*- coding: utf-8 -*
import numpy as np  # 一般以np作为numpy的别名
a = np.array([2, 0, 1, 5])  # 创建数组
print(a)  # 输出数组
print(a[:3])  # 引用前三个数字（切片）
print(a.min())  # 输出a的最小值
a.sort()  # 将a的元素从小到大排序，此操作直接修改a，因此这时候a为[0, 1, 2, 5]
b = np.array([[1, 2, 3], [4, 5, 6]])  # 创建二维数组
print(b*b)  # 输出数组的平方阵，即[[1, 4, 9], [16, 25, 36]]

在这里插入图片描述

Scipy

Numpy提供了多维数组功能，但它只是一般的数组，并不是矩阵，比如当两个数组相乘时，只是对应元素相乘，而不是矩阵乘法。Scipy提供了真正的矩阵，以及大量基于矩阵运算的对象与函数。

SciPy包含的功能有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算，显然，这些功能都是挖掘与建模必备的。

安装

pip 安装

pip install scipy

ubuntu

sudo apt-get install python-scipy

使用

# -*- coding: utf-8 -*
# 求解非线性方程组2x1-x2^2=1,x1^2-x2=2
from scipy import integrate  # 导入积分函数
from scipy.optimize import fsolve  # 导入求解方程组的函数def f(x):  # 定义要求解的方程组x1 = x[0]x2 = x[1]return [2*x1 - x2**2 - 1, x1**2 - x2 - 2]result = fsolve(f, [1, 1])  # 输入初值[1, 1]并求解
print(result)  # 输出结果，为array([ 1.91963957, 1.68501606])# 数值积分def g(x):  # 定义被积函数return (1-x**2)**0.5pi_2, err = integrate.quad(g, -1, 1)  # 积分结果和误差
print(pi_2 * 2)  # 由微积分知识知道积分结果为圆周率pi的一半

在这里插入图片描述

Matplotlib

Matplotlib是最著名的绘图库，它主要用于二维绘图，当然它也可以进行简单的三维绘图。它不仅提供了一整套和Matlab相似但更为丰富的命令，让我们可以非常快捷地用Python可视化数据，而且允许输出达到出版质量的多种图像格式。

安装

pip 安装

pip install matplotlib

ubuntu

sudo apt-get install python-matplotlib

解决显示问题

中文

在作图之前手动指定默认字体为中文字体，如黑体（SimHei）

plt.rcParams['font.sans-serif'] = ['SimHei'] #这两句用来正常显示中文标签

负号

保存作图图像时，负号有可能显示不正常，可以通过以下代码解决：

plt.rcParams['axes.unicode_minus'] = False #解决保存图像是负号'-'显示为方块的问题

使用

# -*- coding: utf-8 -*-
import numpy as np
import matplotlib.pyplot as plt  # 导入Matplotlibx = np.linspace(0, 10, 1000)  # 作图的变量自变量
y = np.sin(x) + 1  # 因变量y
z = np.cos(x**2) + 1  # 因变量zplt.figure(figsize=(8, 4))  # 设置图像大小
plt.plot(x, y, label='$\sin x+1$', color='red',linewidth=2)  # 作图，设置标签、线条颜色、线条大小
plt.plot(x, z, 'b--', label='$\cos x^2+1$')  # 作图，设置标签、线条类型
plt.xlabel('Time(s) ')  # x轴名称
plt.ylabel('Volt')  # y轴名称
plt.title('A Simple Example')  # 标题
plt.ylim(0, 2.2)  # 显示的y轴范围
plt.legend()  # 显示图例
plt.show()  # 显示作图结果

在这里插入图片描述

Pandas

Pandas是Python下最强大的数据分析和探索工具（貌似没有之一）。它包含高级的数据结构和精巧的工具，使得在Python中处理数据非常快速和简单。Pandas建造在NumPy之上，它使得以NumPy为中心的应用很容易使用。Pandas的名称来自于面板数据（panel data）和python数据分析（data analysis），它最初被作为金融数据分析工具而开发出来，由AQR Capital Management于2008年4月开发，并于2009年底开源出来。

Pandas的功能非常强大，支持类似SQL的数据增、删、查、改，并且带有丰富的数据处理函数；支持时间序列分析功能；支持灵活处理缺失数据；等等。

安装

pip install xlrd #为Python添加读取Excel的功能
pip install xlwt #为Python添加写入Excel的功能

首先，Pandas基本的数据结构是Series和DataFrame，Series顾名思义就是序列，类似一维数组，DataFrame则是相当于一张二维的表格，类似二维数组，它的每一列都是一个Series。为了定位Series中的元素，Pandas提供了Index这一对象，每个Series都会带有一个对应的Index，用来标记不同的元素，Index的内容不一定是数字，也可以是字母、中文等，它类似于SQL中的主键。

类似地，DataFrame相当于多个带有同样Index的Series的组合（本质是Series的容器），每个Seiries都带有一个唯一的表头，用来标识不同的Series。

使用

# -*- coding: utf-8 -*-
import pandas as pd #通常用pd作为pandas的别名。s = pd.Series([1,2,3], index=['a', 'b', 'c']) #创建一个序列s
d = pd.DataFrame([[1, 2, 3], [4, 5, 6]], columns = ['a', 'b', 'c']) #创建一个表
d2 = pd.DataFrame(s) #也可以用已有的序列来创建表格d.head() #预览前5行数据
d.describe() #数据基本统计量#读取文件，注意文件的存储路径不能带有中文，否则读取可能出错。
pd.read_excel('data.xls') #读取Excel文件，创建DataFrame。
pd.read_csv('data.csv', encoding = 'utf-8') #读取文本格式的数据，一般用encoding指定编码。

StatsModels

Pandas着眼于数据的读取、处理和探索，而StatsModels则更加注重数据的统计建模分析，它使得Python有了R语言的味道。StatsModels支持与Pandas进行数据交互，因此，它与Pandas结合，成为了Python下强大的数据挖掘组合。

安装

安装StatsModels相当简单，既可以通过pip安装，又可以通过源码安装，对于Windows用户来说，官网上甚至已经有编译好的exe文件供下载。如果手动安装的话，需要自行解决好依赖问题，StatModel依赖于Pandas（当然也依赖于Pandas所依赖的），同时还依赖于pasty（一个描述统计的库）。

pip install statsmodels

Scikit-Learn

Scikit-Learn是Python下强大的机器学习工具包，它提供了完善的机器学习工具箱，包括数据预处理、分类、回归、聚类、预测、模型分析等。

安装

Scikit-Learn依赖于NumPy、SciPy和 Matplotlib，因此，只需要提前安装好这几个库，然后安装Scikit-Learn就基本上没有什么问题了，安装方法跟前几节一样，要不就是pip install scikit-learn安装，要不就是下载源码自己安装。

pip install scikit-learn

使用

所有模型提供的接口有：
model.fit(): 训练模型，对于监督模型来说是 fit(X, y)，对于非监督模型是 fit(X)
监督模型提供：
model.predict(X_new): 预测新样本
model.predict_proba(X_new): 预测概率，仅对某些模型有用（比如 LR）
model.score(): 得分越高，fit越好
非监督模型提供：
model.transform(): 从数据中学到新的“基空间”。
model.fit_transform(): 从数据中学到新的基并将这个数据按照这组“基”进行转换。

Keras

Scikit-Learn已经足够强大了，然而它并没有包含一种强大的模型——人工神经网络。人工神经网络是功能相当强大的、但是原理又相当简单的模型，在语言处理、图像识别等领域都有重要的作用。近年来逐渐火起来的“深度学习”算法，本质上也就是一种神经网络，可见在Python中实现神经网络是非常必要的。

事实上，Keras并非简单的神经网络库，而是一个基于Theano的强大的深度学习库，利用它不仅仅可以搭建普通的神经网络，还可以搭建各种深度学习模型，如自编码器、循环神经网络、递归神经网络、卷积神经网络等等。由于它是基于Theano的，因此速度也相当快。

安装

安装Keras之前首先需要安装Numpy、Scipy、Theano。安装Theano首先需要准备一个C++编译器，这在Linux下是自带的。因此，在Linux下安装Theano和Keras都非常简单，只需要下载源代码，然后用python setup.py install安装就行了，具体可以参考官方文档。

可是在Windows下就没有那么简单了，因为它没有现成的编译环境，一般而言是先安装MinGW（Windows下的GCC和G++），然后再安装Theano（提前装好Numpy等依赖库），最后安装Keras，如果要实现GPU加速，还需要安装和配置CUDA（天下没有免费的午餐，想要速度、易用两不误，那么就得花点心思）。
值得一提的是，在Windows下的Keras速度会大打折扣，因此，想要在神经网络、深度学习做更深入研究的读者，请在Linux下搭建相应的环境。

使用

用Keras搭建神经网络模型的过程相当简洁，也相当直观，它纯粹地就像搭积木一般。我们可以通过短短几十行代码，就可以搭建起一个非常强大的神经网络模型，甚至是深度学习模型。如简单搭建一个MLP（多层感知器）：
要注意的是，Keras的预测函数跟Scikit-Learn有所差别，Keras用model.predict()方法给出概率，model.predict_classes()给出分类结果。

# -*- coding: utf-8 -*-
from keras.models import Sequential
from keras.layers.core import Dense, Dropout, Activation
from keras.optimizers import SGDmodel = Sequential() #模型初始化
model.add(Dense(20, 64)) #添加输入层（20节点）、第一隐藏层（64节点）的连接
model.add(Activation('tanh')) #第一隐藏层用tanh作为激活函数
model.add(Dropout(0.5)) #使用Dropout防止过拟合
model.add(Dense(64, 64)) #添加第一隐藏层（64节点）、第二隐藏层（64节点）的连接
model.add(Activation('tanh')) #第二隐藏层用tanh作为激活函数
model.add(Dropout(0.5)) #使用Dropout防止过拟合
model.add(Dense(64, 1)) #添加第二隐藏层（64节点）、输出层（1节点）的连接
model.add(Activation('sigmoid')) #输出层用sigmoid作为激活函数sgd = SGD(lr=0.1, decay=1e-6, momentum=0.9, nesterov=True) #定义求解算法
model.compile(loss='mean_squared_error', optimizer=sgd) #编译生成模型，损失函数为平均误差平方和model.fit(X_train, y_train, nb_epoch=20, batch_size=16) #训练模型
score = model.evaluate(X_test, y_test, batch_size=16) #测试模型

Gensim

Gensim是用来处理语言方面的任务，如文本相似度计算、LDA、Word2Vec等，这些领域的任务往往需要比较多的背景知识。

需要一提的是，Gensim把Google在2013年开源的著名的词向量构造工具Word2Vec编译好了，作为它的子库，因此需要用到Word2Vec的读者也可以直接用Gensim而无需自行编译了。据说Gensim的作者对Word2Vec的代码进行了优化，所以它在Gensim下的表现据说比原生的Word2Vec还要快。（为了实现加速，需要准备C++编译器环境，因此，建议用到Gensim的Word2Vec的读者在Linux下环境运行。）

参考Python数据分析与挖掘实战张良均