KNN学习代码理解尝试

KNN介绍

KNN（K-Nearest Neighbor）算法，意思是K个最近的邻居，从这个名字我们就能看出一些KNN算法的蛛丝马迹了。K个最近邻居，毫无疑问，K的取值肯定是至关重要的。那么最近的邻居又是怎么回事呢？其实啊，KNN的原理就是当预测一个新的值x的时候，根据它距离最近的K个点是什么类别来判断x属于哪个类别。

图中绿色的点就是我们要预测的那个点，假设K=3。那么KNN算法就会找到与它距离最近的三个点（这里用圆圈把它圈起来了），看看哪种类别多一些，比如这个例子中是蓝色三角形多一些，新来的绿色点就归类到蓝三角了

但是，当K=5的时候，判定就变成不一样了。这次变成红圆多一些，所以新来的绿点被归类成红圆。从这个例子中，我们就能看得出K的取值是很重要的。

KNN实现步骤

计算距离（欧几里得距离或者马氏距离）

升序排列

取前K个

K的取值

K太大：导致分类模糊

K太小：受个例影响，波动较大

加权平均

经验

KNN代码实战应用

KNN算法求病人癌症检测的正确率

数据

代码及注释


import csv
#Python提供了一个标准的类库CSV文件。这个类库中的reader()函数用来导入CSV文件。当CSV文件被读入后，可以利用这些数据生成一个NumPy数组，用来训练算法模型。：
import random
#导入随机函数模块
 
# 读取数据
with open("D:\Prostate_Cancer.csv", "r") as f:
 
    render = csv.DictReader(f)
    #csv.DictReader()读到的第一行数据就是键
    print(render)
    #<csv.DictReader object at 0x000002404794B910>
    datas = [row for row in render]
    #一行一行读取render里的数据放入列表，#使得每一个字典数据为列表中的元素
    # print(datas)
    #列表里放字典数据
 
# 分组，打乱数据
random.shuffle(datas)
#random.shuffle()用于将一个列表中的元素打乱顺序，值得注意的是使用这个方法不会生成新的列表，只是将原列表的次序打乱。
n = len(datas) // 3
#获取数据1/3长度用于下面数据分开为测试类和训练类
 
test_data = datas[0:n]
#选取一部分数据用于测试
train_data = datas[n:]
#选取一部分数据用于训练
 
# print (test_data)
# print (train_data)
 
print (train_data[0])
# #输出训练列表第一个
# print (train_data[0]["id"])
# #输出训练列表第一个字典的id键对应的值
 
 
# 计算对应的距离
#"distance": distance(data, train)
def distance(x, y):
    #函数传入两个参数后，我们定义一个元组，定义一个变量k依次遍历，元组中的值，
    # 而传入的x和y都是我们列表中的字典，这样我们可以求得字典所对应键值的value值，
    # 同时我们又发现value值为字符串模式，且存在大量小数，采用转型变成float型进行运算，并返回开方值
    res = 0
    for k in ("radius", "texture", "perimeter", "area", "smoothness", "compactness", "symmetry", "fractal_dimension"):
        res += (float(x[k]) - float(y[k])) ** 2
    return res ** 0.5
 
 
 
def knn(data, K):
    # 1. 计算距离
    res = [
        {"result": train["diagnosis_result"], "distance": distance(data, train)}
        for train in train_data
    ]
    # 2. 排序
    sorted(res, key=lambda x: x["distance"])
    #输入是传入到参数列表X的值，输出是根据表达式distance(data, train)计算得到的值
    # print(res)
 
    # 3. 取前K个
    res2 = res[0:K]
 
    # 4. 加权平均
    result = {"B": 0, "M": 0}
 
    # 4.1 总距离
    sum = 0
    for r in res2:
        sum += r["distance"]
        #前K个的总距离
 
    # 4.2 计算权重
    for r in res2:
        # print(r)
        # print(r['result'])
        # print(result[r['result']])
        result[r['result']] += 1 - r["distance"] / sum
        #给权重赋值
 
    # 4.3 得出结果
    if result['B'] > result['M']:
        #输出概率大的结果
        return "B"
    else:
        return "M"
 
 
# print(distance(train_data[0],train_data[1]))
# 预测结果和真实结果对比，计算准确率
#计算k取1-10的情况
for k in range(1, 11):
    correct = 0
    #记录正确的个数
    for test in test_data:
        result = test["diagnosis_result"]
        #测试类的结果，良性肿瘤用“B”，恶性肿瘤用“M”表示
        result2 = knn(test, k)
        if result == result2:
            #相等时正确，正确数加1
            correct += 1
    print("k=" + str(k) + "时，准确率{:.2f}%".format(100 * correct / len(test_data)))
    #100 * correct / len(test_data，正确个数占测试个数的比例

运行结果

相关阅读:
C语言--每日五道选择题--Day11
天玑900和麒麟810性能哪个好？
Qwt开发环境搭建（保姆级教程）
Ubuntu下配置hive
vue+typescript的几个坑，尤其是typescript的版本必须4.1以上，这个是大坑
【人工智能】百度文心一言智能体：AI领域的新里程碑
前端基础入门之JS的call、apply和argument
Docker容器化部署企业级应用集群
设计模式之解释器模式
wordpress 上传附件中文文件名乱码解决办法(for Windows)

原文地址：https://blog.csdn.net/qq_63202674/article/details/127720797