• 十、补码朴素贝叶斯算法(Complement NB,Complement Naive Bayes)(有监督学习)


    Rennie 等人(2003 年)所描述的补码朴素贝叶斯分类器Complement Naive Bayes 分类器
    该分类器旨在纠正标准多项式直觉贝叶斯分类器的 “严重假设”
    它特别适用于不平衡数据集

    一、算法思路

    二、官网API

    官网API
    导包:from sklearn.naive_bayes import ComplementNB

    class sklearn.naive_bayes.ComplementNB(*, alpha=1.0, force_alpha='warn', fit_prior=True, class_prior=None, norm=False)
    
    • 1

    这里的参数还是比较多的,具体的参数使用,可以根据官网给的demo进行学习,多动手尝试;这里就以一些常用的参数进行说明。

    ①平滑参数alpha

    加法(拉普拉斯/利德斯通)平滑参数(设置 alpha=0 和 force_alpha=True 表示不平滑)
    浮点数,默认为1.0
    也可以传入array形式,array为各个类别数

    具体官网详情如下:
    在这里插入图片描述

    使用方法

    ComplementNB(alpha=1.2)
    或者
    beyond = [1,2,3]
    categorical = ComplementNB(alpha=beyond)

    ②force_alpha

    如果为False,且alpha小于1e-10,则会将alpha设置为1e-10,默认值
    如果为True,alpha将保持不变
    如果alpha太接近0,可能会导致数字错误

    具体官网详情如下:
    在这里插入图片描述

    使用方法

    ComplementNB(force_alpha=True)

    ③fit_prior

    是否学习类别先验概率。如果为False,将使用统一先验;默认值为True

    具体官网详情如下:
    在这里插入图片描述

    使用方法

    ComplementNB(fit_prior=False)

    ④类别先验概率class_prior

    class_prior类别的先验概率;如果指定,则不会根据数据调整先验概率;默认值为None

    具体官网详情如下:
    在这里插入图片描述

    使用方法

    beyond = [1,2,3]
    complement = ComplementNB(class_prior=beyond)

    ⑤标准化norm

    norm,是否对权重进行第二次标准化,默认为False

    具体官网详情如下:
    在这里插入图片描述

    使用方法

    ComplementNB(norm=True)

    ⑥最终构建模型

    complement = ComplementNB(alpha=1.2,force_alpha=True,fit_prior=False,norm=True)

    三、代码实现

    ①导包

    这里需要评估、训练、保存和加载模型,以下是一些必要的包,若导入过程报错,pip安装即可

    import numpy as np
    import pandas as pd 
    import matplotlib.pyplot as plt
    import joblib
    %matplotlib inline
    import seaborn as sns
    from sklearn.preprocessing import LabelEncoder
    from sklearn.model_selection import train_test_split
    from sklearn.naive_bayes import ComplementNB
    from sklearn.metrics import confusion_matrix, classification_report, accuracy_score
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10

    ②加载数据集

    数据集可以自己简单整个,csv格式即可,我这里使用的是6个自变量X和1个因变量Y
    在这里插入图片描述

    fiber = pd.read_csv("./fiber.csv")
    fiber.head(5) #展示下头5条数据信息
    
    • 1
    • 2

    在这里插入图片描述

    ③划分数据集

    前六列是自变量X,最后一列是因变量Y

    常用的划分数据集函数官网API:train_test_split
    在这里插入图片描述
    test_size:测试集数据所占比例
    train_size:训练集数据所占比例
    random_state:随机种子
    shuffle:是否将数据进行打乱
    因为我这里的数据集共48个,训练集0.75,测试集0.25,即训练集36个,测试集12个

    X = fiber.drop(['Grade'], axis=1)
    Y = fiber['Grade']
    
    X_train, X_test, y_train, y_test = train_test_split(X,Y,train_size=0.75,test_size=0.25,random_state=42,shuffle=True)
    
    print(X_train.shape) #(36,6)
    print(y_train.shape) #(36,)
    print(X_test.shape) #(12,6)
    print(y_test.shape) #(12,)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9

    ④构建ComplementNB模型

    参数可以自己去尝试设置调整

    complement = ComplementNB(alpha=1.2,force_alpha=True,fit_prior=False,norm=True)
    
    • 1

    ⑤模型训练

    就这么简单,一个fit函数就可以实现模型训练

    complement.fit(X_train,y_train)
    
    • 1

    ⑥模型评估

    把测试集扔进去,得到预测的测试结果

    y_pred = complement.predict(X_test)
    
    • 1

    看看预测结果和实际测试集结果是否一致,一致为1否则为0,取个平均值就是准确率

    accuracy = np.mean(y_pred==y_test)
    print(accuracy)
    
    • 1
    • 2

    也可以通过score得分进行评估,计算的结果和思路都是一样的,都是看所有的数据集中模型猜对的概率,只不过这个score函数已经封装好了,当然传入的参数也不一样,需要导入accuracy_score才行,from sklearn.metrics import accuracy_score

    score = complement.score(X_test,y_test)#得分
    print(score)
    
    • 1
    • 2

    ⑦模型测试

    拿到一条数据,使用训练好的模型进行评估
    这里是六个自变量,我这里随机整个test = np.array([[16,18312.5,6614.5,2842.31,25.23,1147430.19]])
    扔到模型里面得到预测结果,prediction = complement.predict(test)
    看下预测结果是多少,是否和正确结果相同,print(prediction)

    test = np.array([[16,18312.5,6614.5,2842.31,25.23,1147430.19]])
    prediction = complement.predict(test)
    print(prediction) #[2]
    
    • 1
    • 2
    • 3

    ⑧保存模型

    complement是模型名称,需要对应一致
    后面的参数是保存模型的路径

    joblib.dump(complement, './complement.model')#保存模型
    
    • 1

    ⑨加载和使用模型

    complement_yy = joblib.load('./complement.model')
    
    test = np.array([[11,99498,5369,9045.27,28.47,3827588.56]])#随便找的一条数据
    prediction = complement_yy.predict(test)#带入数据,预测一下
    print(prediction) #[4]
    
    • 1
    • 2
    • 3
    • 4
    • 5

    完整代码

    模型训练和评估,不包含⑧⑨。

    import numpy as np
    import pandas as pd 
    import matplotlib.pyplot as plt
    import joblib
    %matplotlib inline
    import seaborn as sns
    from sklearn.preprocessing import LabelEncoder
    from sklearn.model_selection import train_test_split
    from sklearn.naive_bayes import ComplementNB
    from sklearn.metrics import confusion_matrix, classification_report, accuracy_score
    
    fiber = pd.read_csv("./fiber.csv")
    fiber.head(5) #展示下头5条数据信息
    
    X = fiber.drop(['Grade'], axis=1)
    Y = fiber['Grade']
    
    X_train, X_test, y_train, y_test = train_test_split(X,Y,train_size=0.75,test_size=0.25,random_state=42,shuffle=True)
    
    print(X_train.shape) #(36,6)
    print(y_train.shape) #(36,)
    print(X_test.shape) #(12,6)
    print(y_test.shape) #(12,)
    
    complement = ComplementNB(alpha=1.2,force_alpha=True,fit_prior=False,norm=True)
    complement.fit(X_train,y_train)
    y_pred = complement.predict(X_test)
    
    accuracy = np.mean(y_pred==y_test)
    print(accuracy)
    score = complement.score(X_test,y_test)#得分
    print(score)
    
    test = np.array([[16,18312.5,6614.5,2842.31,25.23,1147430.19]])
    prediction = complement.predict(test)
    print(prediction) #[2]
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
  • 相关阅读:
    mysql常见约束条件
    Java 反射
    SQL Server安装提示安装程序无法通过windows update服务搜索更新
    开始在 Windows 上使用 Python(初学者)
    Python-Flask 蓝图以及钩子函数(5)
    Linux初识
    深入 Qt5 信号槽新语法
    【今日文章】:Web端常用的Observer监听器
    Concurrent
    图像二值化阈值调整——cv2.threshold方法
  • 原文地址:https://blog.csdn.net/qq_41264055/article/details/133241523