• 数据处理:Numpy & Pandas(1)


    数据处理:Numpy & Pandas

    本文来自B站up莫烦python的视频教学,在此感谢
    https://www.bilibili.com/video/BV1Ex411L7oT

    1 Numpy

    导入numpy

    import numpy as np
    
    • 1

    1.1 Numpy数组

    创建数组
    a = np.array([2,3,4]) # 一维
    b = np.array([[2,3,4],[1,2,3]]) # 二维
    c = np.zero((3,4)) # 三行四列元素全为0的矩阵
    d = np.ones((3,4)) # 三行四列元素全为1的矩阵
    """
    array([[1, 1, 1, 1],
           [1, 1, 1, 1],
           [1, 1, 1, 1]])
    """
    e = np.empty((3,4)) # 数据为empty,3行4列
    """
    array([[  0.00000000e+000,   4.94065646e-324,   9.88131292e-324,
              1.48219694e-323],
           [  1.97626258e-323,   2.47032823e-323,   2.96439388e-323,
              3.45845952e-323],
           [  3.95252517e-323,   4.44659081e-323,   4.94065646e-323,
              5.43472210e-323]])
    """
    f = np.arange(10,20,2) # 10-19 的数据,2步长
    """
    array([10, 12, 14, 16, 18])
    """
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    指定元素类型
    a = np.array([2,3,4],dtype=np.float)
    print(a.dtype)
    
    • 1
    • 2
    改变形状
    a = np.arange(12).reshape((3,4))    # 3行4列,0到11
    """
    array([[ 0,  1,  2,  3],
           [ 4,  5,  6,  7],
           [ 8,  9, 10, 11]])
    """
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    linspace:arrange的“变种”
    a = np.linspace(1,10,20)    # 开始端1,结束端10,且分割成20个数据,生成线段
    """
    array([  1.        ,   1.47368421,   1.94736842,   2.42105263,
             2.89473684,   3.36842105,   3.84210526,   4.31578947,
             4.78947368,   5.26315789,   5.73684211,   6.21052632,
             6.68421053,   7.15789474,   7.63157895,   8.10526316,
             8.57894737,   9.05263158,   9.52631579,  10.        ])
    """
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8

    1.2 Numpy的运算1

    Numpy支持元素的+、-、*运算

    此外还有

    乘方
    c=b**2  # array([0, 1, 4, 9])
    
    • 1
    三角函数的运算
    c=10*np.sin(a)  
    # array([-5.44021111,  9.12945251, -9.88031624,  7.4511316 ])
    
    • 1
    • 2
    逻辑判断

    (返回的是一个bool类型的矩阵)

    print(b<3)  
    # array([ True,  True,  True, False], dtype=bool)
    
    • 1
    • 2
    标准矩阵乘法 dot
    a=np.array([[1,1],[0,1]])
    b=np.arange(4).reshape((2,2))
    
    print(a)
    # array([[1, 1],
    #       [0, 1]])
    
    print(b)
    # array([[0, 1],
    #       [2, 3]])
    
    c_dot = np.dot(a,b)
    # array([[2, 4],
    #       [2, 3]])
    
    c_dot_2 = a.dot(b)
    # array([[2, 4],
    #       [2, 3]])
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    其他运算

    Numpy矩阵对 randommaxminsum 的应用

    a=np.random.random((2,4))
    print(a)
    # array([[ 0.94692159,  0.20821798,  0.35339414,  0.2805278 ],
    #       [ 0.04836775,  0.04023552,  0.44091941,  0.21665268]])
    # 生成2行4列矩阵,每个元素0-1的随机数
    
    np.sum(a)   # 4.4043622002745959
    np.min(a)   # 0.23651223533671784
    np.max(a)   # 0.90438450240606416
    
    
    print("a =",a)
    # a = [[ 0.23651224  0.41900661  0.84869417  0.46456022]
    # [ 0.60771087  0.9043845   0.36603285  0.55746074]]
    
    print("sum =",np.sum(a,axis=1))
    # sum = [ 1.96877324  2.43558896]
    # 按行求合
    
    print("min =",np.min(a,axis=0))
    # min = [ 0.23651224  0.41900661  0.36603285  0.46456022]
    # 每一列的最小值
    
    print("max =",np.max(a,axis=1))
    # max = [ 0.84869417  0.9043845 ]
    # 每一行的最大值
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26

    1.3 Numpy的运算3

    最大值和最小值

    求矩阵最小值和最大值的索引

    import numpy as np
    A = np.arange(2,14).reshape((3,4)) 
    
    # array([[ 2, 3, 4, 5]
    #        [ 6, 7, 8, 9]
    #        [10,11,12,13]])
             
    print(np.argmin(A))    # 0
    print(np.argmax(A))    # 11
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    均值与中位数

    整个矩阵的均值中位数

    print(np.mean(A))        # 7.5
    print(np.average(A))     # 7.5
    print(A.median())       # 7.5
    
    • 1
    • 2
    • 3

    axis的操作同样适用与均值,同时还可以指定权重

    b = np.array([1, 2, 3, 4])
    wts = np.array([4, 3, 2, 1])
    print('不指定权重\n', np.average(b))
    print('指定权重\n', np.average(b, weights=wts))
    
    • 1
    • 2
    • 3
    • 4
    两种矩阵转置
    print(np.transpose(A))    
    print(A.T)
    
    # array([[14,10, 6]
    #        [13, 9, 5]
    #        [12, 8, 4]
    #        [11, 7, 3]])
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    累加函数与累差函数
    print(np.cumsum(A)) 
    
    # [2 5 9 14 20 27 35 44 54 65 77 90]
    
    print(np.diff(A))    
    
    # [[1 1 1]
    #  [1 1 1]
    #  [1 1 1]]
    
    # A = array([[ 2, 3, 4, 5]
    #        	[ 6, 7, 8, 9]
    #        	[10,11,12,13]])
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    其他函数

    nonzero(),将矩阵中所有非0元素的行和列拆成两个矩阵

    print(np.nonzero(A))    
    
    # (array([0,0,0,0,1,1,1,1,2,2,2,2]),array([0,1,2,3,0,1,2,3,0,1,2,3]))
    
    • 1
    • 2
    • 3

    排序

    print(np.sort(A))    
    
    # array([[11,12,13,14]
    #        [ 7, 8, 9,10]
    #        [ 3, 4, 5, 6]])
    
    • 1
    • 2
    • 3
    • 4
    • 5

    clip()函数:将矩阵中的元素都转换为固定区间的元素

    print(A)
    # array([[14,13,12,11]
    #        [10, 9, 8, 7]
    #        [ 6, 5, 4, 3]])
    
    print(np.clip(A,5,9))    
    # array([[ 9, 9, 9, 9]
    #        [ 9, 9, 8, 7]
    #        [ 6, 5, 5, 5]])
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9

    1.4 Numpy 索引

    Numpy 支持[]索引,和数组一样

    如果矩阵是二维的,则有

    A = np.arange(3,15).reshape((3,4))
    """
    array([[ 3,  4,  5,  6]
           [ 7,  8,  9, 10]
           [11, 12, 13, 14]])
    """
             
    print(A[2])         
    # [11 12 13 14]
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    二维索引
    访问单个元素的两种办法
    print(A[1][1])      # 8
    print(A[1, 1])      # 8
    
    • 1
    • 2
    切片操作
    print(A[1, 1:3])    # [8 9]
    
    • 1
    逐行输出和逐列输出
    for row in A:
        print(row)
    """    
    [ 3,  4,  5, 6]
    [ 7,  8,  9, 10]
    [11, 12, 13, 14]
    """
    
    for column in A.T:
        print(column)
    """  
    [ 3,  7,  11]
    [ 4,  8,  12]
    [ 5,  9,  13]
    [ 6, 10,  14]
    """
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    迭代输出
    A = np.arange(3,15).reshape((3,4))
             
    print(A.flatten())   
    # array([3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14])
    
    for item in A.flat:
        print(item)
        
    # 3
    # 4
    ……
    # 14
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12

    1.5 Numpy array 合并

    上下合并 vstack()
    import numpy as np
    A = np.array([1,1,1])
    B = np.array([2,2,2])
             
    print(np.vstack((A,B)))    # vertical stack
    """
    [[1,1,1]
     [2,2,2]]
    """
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    左右合并 hstack()
    D = np.hstack((A,B))       # horizontal stack
    
    print(D)
    # [1,1,1,2,2,2]
    
    print(A.shape,D.shape)
    # (3,) (6,)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    newaxis()

    有些矩阵可能无法通过 .T 进行转置,这时候可以借助newaxis()

    print(A[np.newaxis,:])
    # [[1 1 1]]
    
    print(A[np.newaxis,:].shape)
    # (1,3)
    
    print(A[:,np.newaxis])
    """
    [[1]
    [1]
    [1]]
    """
    
    print(A[:,np.newaxis].shape)
    # (3,1)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    多个矩阵操作:concatenate()
    C = np.concatenate((A,B,B,A),axis=0)
    
    print(C)
    """
    array([1 1 1 2 2 2 2 2 2 1 1 1])
    """
    
    D = np.concatenate((A,B,B,A),axis=1)
    
    print(D)
    """
    array([[1, 2, 2, 1],
           [1, 2, 2, 1],
           [1, 2, 2, 1]])
    """
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15

    1.6 Numpy Array分割

    创建array

    A = np.arange(12).reshape((3, 4))
    print(A)
    """
    array([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])
    """
    
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    等量分割
    纵向分割
    print(np.split(A, 2, axis=1))
    """
    [array([[0, 1],
            [4, 5],
            [8, 9]]), array([[ 2,  3],
            [ 6,  7],
            [10, 11]])]
    """
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    横向分割
    print(np.split(A, 3, axis=0))
    
    # [array([[0, 1, 2, 3]]), array([[4, 5, 6, 7]]), array([[ 8,  9, 10, 11]])]
    
    • 1
    • 2
    • 3

    这两种也可以有其他的实现方式

    print(np.vsplit(A, 3)) #等于 print(np.split(A, 3, axis=0))
    
    # [array([[0, 1, 2, 3]]), array([[4, 5, 6, 7]]), array([[ 8,  9, 10, 11]])]
    
    
    print(np.hsplit(A, 2)) #等于 print(np.split(A, 2, axis=1))
    """
    [array([[0, 1],
           [4, 5],
           [8, 9]]), array([[ 2,  3],
            [ 6,  7],
            [10, 11]])]
    """
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    不等量的分割
    print(np.array_split(A, 3, axis=1))
    """
    [array([[0, 1],
            [4, 5],
            [8, 9]]), array([[ 2],
            [ 6],
            [10]]), array([[ 3],
            [ 7],
            [11]])]
    """
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10

    1.7 Numpy copy

    创建变量

    import numpy as np
    
    a = np.arange(4)
    # array([0, 1, 2, 3])
    
    b = a
    c = a
    d = b
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8

    试着改变值

    a[0] = 11
    print(a)
    # array([11,  1,  2,  3])
    
    b is a  # True
    c is a  # True
    d is a  # True
    
    d[1:3] = [22, 33]   # array([11, 22, 33,  3])
    print(a)            # array([11, 22, 33,  3])
    print(b)            # array([11, 22, 33,  3])
    print(c)            # array([11, 22, 33,  3])
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12

    使用copy() 则可以使这种关联失效

    b = a.copy()    # deep copy
    print(b)        # array([11, 22, 33,  3])
    a[3] = 44
    print(a)        # array([11, 22, 33, 44])
    print(b)        # array([11, 22, 33,  3])
    
    • 1
    • 2
    • 3
    • 4
    • 5
  • 相关阅读:
    ssm基于微信小程序的食堂线上预约点餐系统--计算机毕业设计
    jetson nano——ubuntu换源
    48 路径总和 III
    史上最详细的hadoop安装教程
    《剑指 Offer 》—16. 数值的整数次方
    只会加班的项目经理,迟早被淘汰
    Java程序设计2023-第二次上机测试
    路径中的斜杠与反斜杠
    PostgreSQL的视图pg_rules
    Http实战之Wireshark抓包分析
  • 原文地址:https://blog.csdn.net/m0_46369272/article/details/127837894