Python的numpy库介绍 NumPy初体验

时间：2020-03-07 12:55:06人气：次作者：快盘下载我要评论

NumPy是什么

NumPy(Numerical Python) 是 Python 语言的一个扩展程序库，支持大量的维度数组与矩阵运算，此外也针对数组运算提供大量的数学函数库。NumPy 是一个运行速度非常快的数学库，Matplotlib 是 Python 编程语言及其数值数学扩展包 NumPy 的可视化操作界面。它为利用通用的图形用户界面工具包，如 Tkinter, wxPython, Qt 或 GTK+ 向应用程序嵌入式绘图提供了应用程序接口（API）。

NumPy主要作用

用于数组计算，包含：一个强大的N维数组对象 ndarray；广播功能函数；整合 C/C++/Fortran 代码的工具；线性代数、傅里叶变换、随机数生成等功能等。

NumPy 通常与 SciPy（Scientific Python）和 Matplotlib（绘图库）一起使用，这种组合广泛用于替代 MatLab，是一个强大的科学计算环境，有助于我们通过 Python 学习数据科学或者机器学习。SciPy 是一个开源的 Python 算法库和数学工具包。SciPy 包含的模块有最优化、线性代数、积分、插值、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算。

numeric python 数字化的python（）

numpy中最重要的一个形式叫ndarray：n dimension array 工程数学(线性代数)。零维度：标量 1；一维：向量 [1,2,3,4,5,6]；二维：矩阵 A=[[1,2,3],[1,2,3]] A.shape(2x3)；三维及以上：张量。Python 本身支持的数值类型有 int（整型，python2 中存在 long 长整型）、float（浮点型）、bool（布尔型）和 complex（复数型）。而 Numpy 支持比 Python 本身更为丰富的数值类型，细分如下：

 1 '''
 2 1. bool：布尔类型，1 个字节，值为 True 或 False。
 3 2. int：整数类型，通常为 int64 或 int32 。
 4 3. intc：与 C 里的 int 相同，通常为 int32 或 int64。
 5 4. intp：用于索引，通常为 int32 或 int64。
 6 5. int8：字节（从 -128 到 127） tinyint（tinyint 1字节 -2 ^7 ~ 2^7-1 (-128~127)）
 7 6. int16：整数（从 -32768 到 32767） smallint(smallint 2字节 -2 ^15 ~ 2^15-1 (-32768~32765))
 8 7. int32：整数（从 -2147483648 到 2147483647） int（int 4字节 -2 ^31~ 2^31-1 (-2147483648~2147483647)）
 9 8. int64：整数（从 -9223372036854775808 到 9223372036854775807） bigint（bigint 8字节 -2 ^63 ~ 2^63-1）
10 9. uint8：无符号整数（从 0 到 255） unsigned
11 10. uint16：无符号整数（从 0 到 65535）
12 11. uint32：无符号整数（从 0 到 4294967295）
13 12. uint64：无符号整数（从 0 到 18446744073709551615）
14 13. float：float64 的简写。
15 14. float16：半精度浮点，5 位指数，10 位尾数
16 15. float32：单精度浮点，8 位指数，23 位尾数
17 16. float64：双精度浮点，11 位指数，52 位尾数
18 17. complex：complex128 的简写。
19 18. complex64：复数，由两个 32 位浮点表示。
20 19. complex128：复数，由两个 64 位浮点表示。
21 '''

在 Numpy 中，上面提到的这些数值类型都被归于 dtype（data-type数据类型）对象的实例。我们可以用 numpy.dtype(object, align, copy) 来指定数值类型。而在数组里面，可以用 dtype= 参数。

numpy创建数组：

1). np.ndarray(shape [, dtype] )：随机生成一个ndarray。

2). np.array(object [, dtype=None, copy=True, order=None, subok=False, ndmin=0] )：将列表或元组转换为ndarray数组;object:表示列表或元组等，dtype：数据类型(如未给出，则类型为被保存对象所需的最小类型)，copy：布尔来写，默认 True，表复制对象。

3). np.arange(start, stop [, step, dtype=None] )：生成一个有规律增长的一维数组，在给定区间内创建一系列均匀间隔的值，[开始，停止)半开半闭区间。step:步长用于设置值之间的间隔。dtype可以设置返回ndarray 的值类型。

4). np.linsapce(start, stop [, num=50, endpoint=True, retstep=False, dtype=None] )：生成一个有规律增长的一维数组,和arange方法很像，在指定的区间内返回间隔均匀的值，全闭区间。start：序列的起始值； stop：序列的结束值；num：生成的样本数。默认值为50；endpoint：布尔值，如果为真，则最后一个样本包含在序列内；retstep：布尔值，如果为真，返回间距；dtype：数组的类型。

5). np.ones(shape[, dtype=None, order='C'])：生成一个元素全部都为1的数组；shape：用于指定数组形状，例如(1,2)或 3。 dtype：数据类型。 order：{'C'，'F'}，按行或列方式储存数组。

6). np.zeros(shape, dtype=None, order='C')：生成一个元素全部为0的数组 ,zeros 方法和 ones 方法非常相似。

7). np.full(shape,fill_value=num)：自定义填充值的数组;用于创建一个自定义形状的数组，可以自己指定一个值，该值填满整个矩阵。

8). np.eye(N, M=None, k=0, dtype=

9). np.random.randint(low,high,size)：生成随机的整数型矩阵，low 表示最小值， high表示最大值，size 是一个元祖类型 size = shape。

10). np.random.randn( )：生成标准的正太分布，没有固定的参数，每多加一个数字，代表多增加一个维度，高斯正太分布=高斯分布，分布：是统计学中的。标准的高斯分布的中间值是0 ，最好的范围是1 -1，超出范围的都是异常值。

11). np.random.random(size)：生成0-1之间的元素数组，size 表形状，random随即生产的范围是0-1之间，每个随机数都是一个维度。

12). np.random.rand( )：生成0-1之间的元素数组，和 np.random.random有一样的功能，random 需要 size来描述形状，而rand只需要我们直接给值,通过值的数量来确定形状。

13). np.random.normal(loc,scale,size)：生成一个正太分布的数组，location 是定位的的值， scale 是波动值，size 是数据长度。

14). np.logspace(start，stop，num，base=10.0)：生一个有规律的求对数的一维数组，线性生成，全闭区间，start从几开始，stop 到数字结尾， num生成多少个数默认50，base是底数默认以10为底。

15). np.diag(v,k=0)：生成一个对角矩阵，v可以是一维或二维的矩阵，k

代码演示示例：

 1 import numpy as np
 2 
 3 # 1.随机生成一个ndarray
 4 np.ndarray(shape=(5,4,3),dtype=np.uint8)
 5 
 6 # 2.将列表或元组转换为 ndarray 数组
 7 arr1 = np.array([1, 2, 3, 4, 5])            # array([0, 1, 2, 3, 4])
 8 arr2 = np.array((1,2,3,4,5))                # array([0, 1, 2, 3, 4])
 9 np.array(range(5))                          # array([0, 1, 2, 3, 4])
10 
11 # 3.生成一个有规律增长的一维数组，左闭右开区间
12 np.arange(0,10,2,np.float16)                # array([0., 2., 4., 6., 8.], dtype=float16)
13 
14 # 4.生成一个有规律增长的一维数组，全闭区间
15 np.linspace(0,10,num=10,dtype='uint8')      # array([ 0,  1,  2,  3,  4,  5,  6,  7,  8, 10], dtype=uint8)
16 
17 # 5.生成一个元素全部都为1的数组
18 np.ones((10,10))                            # 十行十列全部为 1 的多维数组
19 
20 # 6.生成一个元素全部为0的数组
21 zeros = np.zeros((3,3))                     # 三行三列全为 0 的数组
22 
23 # 7.自定义填充值的数组
24 np.full((3,3),'你好')                        # 三行三列全为‘你好’的数组，dtype='<U2'
25 
26 # 8.生成一个单位矩阵
27 I = np.eye(3)                               # 三行三列对角线为1，其余全为 0 的数组
28 
29 # 9.生成随机的整数型矩阵
30 np.random.randint(low=10,high=150,size=(5,4))  # 生成10-150之间的五行四列整数数组
31 
32 # 10.标准的正太分布
33 np.random.randn(3，3)                       # 三行三列-1~1之间的数组
34 
35 # 11./12.生成0-1之间的元素数组
36 np.random.random(size=(3,3))                # 三行三列0-1之间的元素数组
37 np.random.rand(3,3)                         # 三行三列0-1之间的元素数组
38 
39 # 13.生成一个正太分布的数组
40 np.random.normal(10,scale=10,size=(3,3))    # 生成0-20之间的数，三行三列有异常值的数组
41 
42 # 14.生一个有规律的求对数的一维数组 
43 np.logspace(0,49,base=10.0)                 # 生成50个0-49之间的以10为底的数组
44 #   np.log2(N):底数为二的对数
45 #   np.log10(N):为10的对数
46 
47 # 15.生成一个对角矩阵
48 np.diag([1,2],k=-1)                         # array([[0, 0, 0],
49                                             #        [1, 0, 0],
50                                             #        [0, 2, 0]])

【补充】：

range()是一个可迭代对象；arange()直接生成一个数组类型

字典可以转变为数组，但是无法使用；arr=np.array({'a':1,"b":2})

零矩阵 = 代数中的0，单位矩阵=代数中的1；主对角线上全为1的矩阵是单位矩阵，单位矩阵必定是一个方阵

线性代数的乘法；线性代数中有+ — × 但是没有除法(逆矩阵)，*只能做普通代数乘法，矩阵的乘法是 np.dot(A,B)，np.dot():线性代数的乘法，A*B != B*A

numpy中的属性：

 1 '''
 2 ndarray.size:查看元素的总量   *****
 3 ndarray.ndim:查看数组的维度
 4 ndarray.shape:查看数组的形状  *****
 5 ndarray.dtype:查看数据类型    *****
 6 ndarray.imag:获取复数的虚数部分
 7 ndarray.real:获取复数的实数部分
 8 ndarray.T:数组的转置
 9 ndarray.itemsize:查看数组占用的字节数
10 ndarray.nbytes:查看数组中每个元素总和的字节数
11 ndarray.strides:数字的递进字节数  数据步长  *****
12 ndarray.transpose():数组的转置
13 ndarray.astype()：转变数据类型，但是不会对原数据产生影响
14 '''

numpy的索引：

一维数组与列表一样；numpy的索引支持层级索引；index可以重复

 1 B = np.array([[[1,2,3],[4,5,6],[7,8,9]]])
 2 B  # array([[[1, 2, 3],     
 3              [4, 5, 6],
 4              [7, 8, 9]]])
 5 B[0][0][0]   # 1  取出第一行第一列
 6 B[0,0,0]     # 1  取出第一行第一列，这样的层级索引list不支持
 8 
 9 nd = np.arange(10,20)
10 nd                  # array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19])  
11 nd[[0,0,0,1,0,0]]   # array([10, 10, 10, 11, 10, 10]) 里面是索引，使用列表的方式可以重复的去获取

重设形状 reshape：

reshape 可以在不改变数组数据的同时，改变数组的形状；numpy.reshape(nd,shape) == array.reshape(shape) ；该函数不对原数组产生影响，元素的总量不能改变；如果在reshape写上-1，代表剩余的元素数量；nd.reshape(-1)：表示数组的展开。

 1 nd = np.arange(10,20)
 2 nd.shape                 # (10,)
 3 # np.reshape(nd,(2,5)) 相当于 np.reshape(nd,(-1,5)) 相当于nd.reshape((2,5))
 4 np.reshape(nd,(2,5))     #array([[10, 11, 12, 13, 14],
 5                          #       [15, 16, 17, 18, 19]])
 6 # nd.reshape(5,2) 相当于 nd.reshape(5,-1)   
 7 nd.reshape(5,2)
 8        # array([[10, 11],
 9        #       [12, 13],
10        #       [14, 15],
11        #       [16, 17],
12        #       [18, 19]])

数组展开 ravel：无论是几维的数组，直接展开变为一维，ndarray.ravel() ；数组的展开，变成一维数组ndarry.reshape(-1) 。

级联 concatenate：

级联就是将多个数组进行合并。axis:轴。axis=1,列合并，行必须相等 x轴的事；axis=0,行合并，列必须相等 y轴的事；np.concatenate((a1,a2,...)):需要被合并的数组可以放在元祖中；np.concatenate([a1,a2,...]):也可以放在列表中。

堆做级联 hstack|vstack。hstack：水平的合并；vstack：垂直的合并。这两个函数中没有axis参数，填入的参数必须被小括号或中括号包裹。水平 np.hstack((nd1，nd2))；垂直 np.vstack([nd1，nd2])。

副本：所有赋值运算不会为ndarray的任何元素创建副本。对赋值后的对象的操作也对原来的对象生效。可使用ndarray.copy()函数创建副本。

聚合函数：

 1 # axis：轴，轴的排序y-x-z = 0,1,2
 2 # 每一个聚合函数中都有axis，我们可以对指定的维度进行计算
 3 '''
 4 np.sum():求和
 5 np.nansum():将NaN当作0处理
 6 np.max():求最大值
 7 np.min():求最小值
 8 np.mean():均值
 9 np.argmax():找出最大值的索引
10 np.argmin():找出最小值的索引
11 np.std():求标准差
12 np.var()：方差
13 np.argwhere()：条件查询，并返回符合条件的索引(最好能展开)
14 '''

代码演示示例：

 1 # 一维数组
 2 nd1 = np.random.randint(0,10,10)
 3 np.sum(nd1)
 4 nd1.sum()
 5 
 6 # 二维的数组
 7 nd2 = np.random.randint(0,100,(5,4))
 8 nd3.sum()                      # 求数组元素的总和
 9 nd3.sum(axis=0)                # 将行的值全加和，得到的是列的个数
10 nd3.sum(axis=1)                # 将列的值全加和，得到的是行的个数
11 
12 # 三维的数组
13 nd3 = np.random.randint(0,100,(5,4,3))
14 nd3.sum(axis=-1)               # 求最和一维的和
15 nd3.sum(axis=-1).sum(axis=-1)  # 求最后两维的和
16 nd3.sum(axis=(-1,-2))          # 求最后两维的和，axis支持元祖类型的值
17 
18 # 求最大值
19 nd3.max()
20 nd3.min(axis=-1)               # 最后一维
21 np.max(nd3,axis=-1)            # 最后一维
22 
23 # 求平均值
24 nd3.mean()
25 
26 # 返回的是最小数的下标,第一个出现的
27 np.argmin(np.array([0,1,2,3,4,5,6,7,8,9,10,0,0,]))     # 0
28 # 返回的是最大数的下标,第一个出现的
29 np.argmax(np.array([1,2,3,4,5,6,7,8,9,10,10,10]))      # 9
30 
31 # argwhere是条件查询的方法，返回符合条件的索引
32 A = np.random.randint(0,100,(4,4))
33 display(A) 
34      # array([[88, 21, 57, 99],
35      #           [54, 10, 42, 92],
36      #           [93,  0,  1, 88],
37      #           [50, 23, 34, 49]])
38 
39 index = np.argwhere(A.ravel()>=50)
40 index.ravel()                 # array([ 0,  2,  3,  4,  7,  8, 11, 12], dtype=int64)
41 
42 # 要想查找某个制定的值，我们可以先展开数组，再展开索引
43 A.ravel()                     # array([88, 21, 57, 99, 54, 10, 42, 92, 93,  0,  1, 88, 50, 23, 34, 49])
44 A.ravel()[index.ravel()]      # array([88, 57, 99, 54, 92, 93, 88, 50])
45 
46 # 另一种方式
47 cond = A.ravel()>=50
48 cond       # array([ True, False,  True,  True,  True, False, False,  True,  True, False, False,  True,  True, False, False, False])
49 #如果索引是bool型，值返回结果为True的
50 A.ravel()[cond]      # array([61, 93, 53, 76, 88, 66, 96, 76, 77, 88, 92, 84, 50, 98])

注意：NaN ！= NaN；NaN + 任何数 = NaN

数组元素的循环：

 1 # 列表
 2 list_ = [0, 1, 2]
 3 list_*3           # list会循环3次 , [0, 1, 2, 0, 1, 2, 0, 1, 2]
 4 #list_ + 3        # 会报错
 5 
 6 # 数祖
 7 ndarr =  np.array(range(10))
 8 ndarr             # array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
 9 ndarr*3           # array([ 0,  3,  6,  9, 12, 15, 18, 21, 24, 27])  向量 × 标量
10 ndarr+3           # array([ 3,  4,  5,  6,  7,  8,  9, 10, 11, 12])
11 ndarr/3           # array([0, 1, 2, 0, 1, 2, 0, 1, 2, 0])
12 np.tile(ndarr,3)  # 将所有的元素循环3次，array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
13 
14 # 二维数组
15 ndarr2 = np.random.randint(0,10,(3,3))
16 ndarr2
17         #array([[7, 7, 8],
18         #       [2, 2, 5],
19         #       [5, 7, 4]])
20 np.tile(ndarr2,3)
21         #array([[7, 7, 8, 7, 7, 8, 7, 7, 8],
22         #       [2, 2, 5, 2, 2, 5, 2, 2, 5],
23         #       [5, 7, 4, 5, 7, 4, 5, 7, 4]])
24 
25 np.repeat(ndarr2,3)         # array([7, 7, 7, 7, 7, 7, 8, 8, 8, 2, 2, 2, 2, 2, 2, 5, 5, 5, 5, 5, 5, 7, 7, 7, 4, 4, 4])
26 np.repeat(ndarr2,3,axis=0)  # 行增加
27 #     array([[7, 7, 8],
28 #           [7, 7, 8],
29 #           [7, 7, 8],
30 #           [2, 2, 5],
31 #           [2, 2, 5],
32 #           [2, 2, 5],
33 #           [5, 7, 4],
34 #           [5, 7, 4],
35 #           [5, 7, 4]])
36 np.repeat(ndarr2,3,axis=1)  # 列增加
37 #    array([[7, 7, 7, 7, 7, 7, 8 , 8 , 8],
38 #           [2, 2, 2, 2, 2, 2, 5 , 5 , 5],
39 #           [5, 5, 5, 7, 7 , 7, 4 , 4 , 4]])

ndarray的矩阵操作：

算术运算符：加减乘除。ndarray.dot():矩阵乘法。ndarray.multiply()：普通乘法。np.add()：加法，要求行列相同。np.linalg.inv()：逆矩阵。

np.add(nd1,nd2) == nd1+nd2 ：普通的加法，将两个矩阵的对应位置进行相加，行列相同

nd1 + 3 ：普通的加法，将矩阵的每个位置都加3

nd1 - 3 ：普通的加法，将矩阵的每个位置都减3

nd1*nd2 == np.multiply(nd1,nd2) ：是普通的乘法，将两个矩阵的对应位置进行相乘法，不是矩阵的乘法

nd1/2 ：普通的除法，将两个矩阵的对应位置都除以2

np.dot(nd1.T,nd2） #矩阵乘法np.dot() 4*5 dot 5*4 = 4*4
np.dot(nd1,nd2.T) #矩阵乘法np.dot() 5*4 dot 4*5 = 5*5

矩阵的算术中没有除法，只有逆矩阵。

满秩矩阵(一定要是一个方阵，一个方阵不一定是满秩矩阵，可能是奇异矩阵：a = np.matrix([[1,2],[3,4]])

逆矩阵：矩阵自己 × 自己的逆 = 单位 1

a = np.matrix([[1,2],[3,4]]) -------.> a_inv = np.linalg.inv(a） --------> np.dot(a,a_inv) # 1

广播机制：广播机制值得是数组除以或乘以某一个标量，会使得每一个数组元素都乘以或除以该标量

ndarray的排序：

快速排序。np.sort()与ndarray.sort()都可以，但有区别； np.sort()不改变输入；ndarray.sort()本地处理，不占用空间，但改变输入。

ndarray.sort(axis=-1,kind='quicksort',order=None)

numpy.sort(a,axis=-1,kind='quicksort',order=None)

axis：排序沿着数组的方向，0表示按行，1表示按列；kind：排序的算法，提供了快排、混排、堆排，'quicksort', 'mergesort', 'heapsort' ---> 快速归并排序堆排序；order：不是指的顺序，以后用的时候再去分析这个。

部分排序。ndarray.partition() == np.partition(a,k)，有的时候我们不是对全部数据感兴趣，我们可能只对最小或最大的一部分感兴趣。当k为正时，我们想要得到最小的k个数；当k为负时，我们想要得到最大的k个数。

ndarr3 = np.random.randint(0,20,10)
ndarr3.sort() # 对原数据产生影响
ndarr3[::-1]  # 降序排列

# 部分排序
# 获取最小的5个数
ndarr4 = np.random.randint(0,10000,100)
ndarr4.partition(5)
ndarr4[:5]
# 获取最大的5个数
ndarr4.partition(-5)
ndarr4[::-1][:5]

文件 I/O 创建数组
CSV文件：
#方法一：
保存文件
np.savetxt('gb.csv',A) #没报错就代表成功 A表示一个一维或者二维的数组即可
读取文件
np.loadtxt('gb.csv')

#方法二：
使用 numpy.save 与 numpy.load 保存和读取：
保存的是.npy类型的文件
保存文件
np.save('a.npy',A)
读取文件
np.load('a.npy')