• 一、K近邻算法K-NN(有监督学习)


    一、算法思路

    K近邻算法,k-nearest neighbor,即K-NN
    通俗来说:给定一个元素,然后以该元素坐标为圆心开始画圆,其中K值是超参数需要人为给定,圆的半径逐渐增大(距离度量采用欧氏距离),直到包含其他K个元素为止,然后看所包含的K个元素都属于哪些类别,根据决策规则(采用少数服从多数原则),看K个元素属于哪些类别多,那么x就归为哪类。

    应用场景:已知有两个类别绿色五边形和蓝色六边形,新加入一个橙色元素x,问x可归为哪一类?
    在这里插入图片描述

    三要素:距离度量、K值、决策规则

    ①距离度量

    空间中,距离越近的元素越容易是同一个类别,因为其相似度较高。
    距离度量方法很多,常用的有欧式距离、曼哈顿距离、余弦距离等

    Ⅰ、欧氏距离

    两点之间距离公式:在这里插入图片描述
    当然可以是更高维度的距离,同样道理计算方法都一样,高维度也可以应用。

    Ⅱ、曼哈顿距离

    两个点在坐标系上的绝对轴距总和:在这里插入图片描述

    Ⅲ、余弦距离

    向量空间中两个向量夹角的余弦值:在这里插入图片描述

    距离度量目的是看未知元素与哪个已存在的类别最近,那么新来的元素就可以归为这类

    ②K值

    K值可以理解为结束条件,是个超参数,需要人为给定
    不同的K值最终算法表现出来的效果也不尽相同,甚至可以会差异很大
    通常使用交叉验证的方法来确定最优K值
    交叉验证可参考博文:十、评估指标二、模型评估方法

    ③决策规则

    常见的决策规则有:少数服从多数原则、加权平均原则等

    Ⅰ、少数服从多数

    这个很容易了解,比如K个元素,看哪个出现的类别多,那么新来的元素就是这个类别

    Ⅱ、加权平均

    这种情况提前是所有的类别均有对应的权值,将K个元素所对应的类别权重相加取平均,看该值离哪个类别权重值最近,就归为这个类别

    二、官网API

    官网API

    class sklearn.neighbors.KNeighborsClassifier(n_neighbors=5, *, weights='uniform', algorithm='auto', leaf_size=30, p=2, metric='minkowski', metric_params=None, n_jobs=None)
    
    • 1

    这里的参数还是比较多的,具体的参数使用,可以根据官网给的demo进行学习,多动手尝试;这里就以一些常用的参数进行说明。
    导包:from sklearn.neighbors import KNeighborsClassifier

    ①n_neighbors

    该参数就是三要素中的K值,就是结束的条件,找到K个元素之后就停止,然后看K个值中类别最多的那个,就把新来的元素规定为这个类别;默认情况下是5

    具体官网详情如下:
    在这里插入图片描述

    使用方式

    KNeighborsClassifier(n_neighbors=2)

    ②weights

    权重函数设置选择
    uniform’:所有元素的权重都是一样,一视同仁,默认使用
    distance’:离的近的元素权重更大
    当然也可以自定义权重函数

    具体官网详情如下:
    在这里插入图片描述

    使用方式

    KNeighborsClassifier(weights={'distance'})
    KNeighborsClassifier(weights={'uniform'})

    ③algorithm

    采用什么算法去计算相邻元素

    具体官网详情如下:
    在这里插入图片描述
    ball_tree’:采用BallTree算法去求解
    kd_tree’:采用KDTree算法去求解
    'brute’:暴力BF算法求解
    auto’:尝试根据传递给拟合方法的值决定最合适的算法

    使用方式

    KNeighborsClassifier(algorithm="ball_tree")
    KNeighborsClassifier(algorithm="kd_tree")
    KNeighborsClassifier(algorithm="brute")
    KNeighborsClassifier(algorithm="auto")

    其他参数的具体使用流程以及作用可以看官网进行学习

    ④最终构建模型

    KNeighborsClassifier(n_neighbors=4,algorithm=“auto”)

    三、代码实现

    ①导包

    这里需要评估、训练、保存和加载模型,以下是一些必要的包,若导入过程报错,pip安装即可

    import numpy as np
    import pandas as pd 
    import matplotlib.pyplot as plt
    import joblib
    %matplotlib inline
    import seaborn as sns
    from sklearn.preprocessing import LabelEncoder
    from sklearn.model_selection import train_test_split
    from sklearn.neighbors import KNeighborsClassifier
    from sklearn.metrics import confusion_matrix, classification_report, accuracy_score
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10

    ②加载数据集

    数据集可以自己简单整个,csv格式即可,我这里使用的是6个自变量X和1个因变量Y
    在这里插入图片描述

    fiber = pd.read_csv("./fiber.csv")
    fiber.head(5) #展示下头5条数据信息
    
    • 1
    • 2

    在这里插入图片描述

    ③划分数据集

    前六列是自变量X,最后一列是因变量Y

    常用的划分数据集函数官网API:train_test_split
    在这里插入图片描述
    test_size:测试集数据所占比例
    train_size:训练集数据所占比例
    random_state:随机种子
    shuffle:是否将数据进行打乱
    因为我这里的数据集共48个,训练集0.75,测试集0.25,即训练集36个,测试集12个

    X = fiber.drop(['Grade'], axis=1)
    Y = fiber['Grade']
    
    X_train, X_test, y_train, y_test = train_test_split(X,Y,train_size=0.75,test_size=0.25,random_state=42,shuffle=True)
    
    print(X_train.shape) #(36,6)
    print(y_train.shape) #(36,)
    print(X_test.shape) #(12,6)
    print(y_test.shape) #(12,)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9

    ④构建KNN模型

    参数可以自己去尝试设置调整

    knn = KNeighborsClassifier(n_neighbors=4,algorithm="auto")
    
    • 1

    ⑤模型训练

    就这么简单,一个fit函数就可以实现模型训练

    knn.fit(X_train,y_train)
    
    • 1

    ⑥模型评估

    把测试集扔进去,得到预测的测试结果

    y_pred = knn.predict(X_test)
    
    • 1

    看看预测结果和实际测试集结果是否一致,一致为1否则为0,取个平均值就是准确率

    accuracy = np.mean(y_pred==y_test)
    print(accuracy) # 0.8333333333333333
    
    • 1
    • 2

    也可以通过score得分进行评估,计算的结果和思路都是一样的,都是看所有的数据集中模型猜对的概率,只不过这个score函数已经封装好了,当然传入的参数也不一样,需要导入accuracy_score才行,from sklearn.metrics import accuracy_score

    score = knn.score(X_test,y_test)
    print(score)
    
    • 1
    • 2

    ⑦模型测试

    拿到一条数据,使用训练好的模型进行评估
    这里是六个自变量,我这里随机整个test = np.array([[16,18312.5,6614.5,2842.31,25.23,1147430.19]])
    扔到模型里面得到预测结果,prediction = knn.predict(test)
    看下预测结果是多少,是否和正确结果相同,print(prediction)

    test = np.array([[16,18312.5,6614.5,2842.31,25.23,1147430.19]])
    prediction = knn.predict(test)
    print(prediction) #[2]
    
    • 1
    • 2
    • 3

    ⑧保存模型

    knn是模型名称,需要对应一致
    后面的参数是保存模型的路径

    joblib.dump(knn, './knn.model')#保存模型
    
    • 1

    ⑨加载和使用模型

    knn_yy = joblib.load('./knn.model')
    
    test = np.array([[11,99498,5369,9045.27,28.47,3827588.56]])#随便找的一条数据
    prediction = knn_yy.predict(test)#带入数据,预测一下
    print(prediction) #[4]
    
    • 1
    • 2
    • 3
    • 4
    • 5

    完整代码

    模型训练和评估,不包含⑧⑨。

    import numpy as np
    import pandas as pd 
    import matplotlib.pyplot as plt
    import joblib
    %matplotlib inline
    import seaborn as sns
    from sklearn.preprocessing import LabelEncoder
    from sklearn.model_selection import train_test_split
    from sklearn.neighbors import KNeighborsClassifier
    from sklearn.metrics import confusion_matrix, classification_report, accuracy_score
    
    fiber = pd.read_csv("./fiber.csv")
    
    X = fiber.drop(['Grade'], axis=1)
    Y = fiber['Grade']
    
    X_train, X_test, y_train, y_test = train_test_split(X,Y,train_size=0.75,test_size=0.25,random_state=42,shuffle=True)
    
    knn = KNeighborsClassifier(n_neighbors=4,algorithm="auto")
    
    knn.fit(X_train,y_train)
    
    y_pred = knn.predict(X_test)
    
    accuracy = np.mean(y_pred==y_test)
    print(accuracy) # 0.8333333333333333
    score = knn.score(X_test,y_test)
    print(score)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
  • 相关阅读:
    Observability:使用 Elastic Agent 来进行 Uptime 监控
    UEFI实战——键盘操作
    前端 CSS(一)
    【C++】类和对象 (下篇)
    MySQL十秒插入百万条数据
    CMake 判断操作系统类型
    UE4.27.2 自定义 PrimitiveComponent 出现的问题
    Windows下载安装RabbitMQ客户端(2024最新篇)
    什么是轻量应用服务器?腾讯云轻量服务器可以干什么?
    PMP考试多少分算通过?
  • 原文地址:https://blog.csdn.net/qq_41264055/article/details/132916434