• Python实现ABC人工蜂群优化算法优化支持向量机分类模型(SVC算法)项目实战


    说明:这是一个机器学习实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取。

    1.项目背景

    人工蜂群算法(Artificial Bee Colony, ABC)是由Karaboga于2005年提出的一种新颖的基于群智能的全局优化算法,其直观背景来源于蜂群的采蜜行为,蜜蜂根据各自的分工进行不同的活动,并实现蜂群信息的共享和交流,从而找到问题的最优解。人工蜂群算法属于群智能算法的一种。

    本项目通过ABC人工蜂群优化算法优化支持向量机分类模型。

    2.数据获取

    本次建模数据来源于网络(本项目撰写人整理而成),数据项统计如下:

     数据详情如下(部分展示):

    3.数据预处理

    3.1 用Pandas工具查看数据

    使用Pandas工具的head()方法查看前五行数据:

     

    关键代码:

    3.2数据缺失查看

    使用Pandas工具的info()方法查看数据信息:

     

    从上图可以看到,总共有7个变量,数据中无缺失值,共1000条数据。

    关键代码:

    3.3数据描述性统计

    通过Pandas工具的describe()方法来查看数据的平均值、标准差、最小值、分位数、最大值。

     关键代码如下:  

    4.探索性数据分析

    4.1 y变量柱状图

    用Matplotlib工具的plot()方法绘制柱状图:

    4.2 y=1样本x1变量分布直方图

    用Matplotlib工具的hist()方法绘制直方图:

     4.3 相关性分析

    从上图中可以看到,数值越大相关性越强,正值是正相关、负值是负相关。

    5.特征工程

    5.1 建立特征数据和标签数据

    关键代码如下:

     

    5.2 数据集拆分

    通过train_test_split()方法按照80%训练集、20%测试集进行划分,关键代码如下:

    6.构建ABC人工蜂群优化算法优化支持向量机分类模型

    主要使用ABC人工蜂群优化算法优化SVC算法,用于目标分类。

    6.1 算法介绍

         说明:ABC算法介绍来源于网络,供参考,需要更多算法原理,请自行查找资料

    算法原理:

    在 ABC 算法里,用蜜源的位置来表示解,用蜜源的花粉数量表示解的适应值。所有的蜜蜂划分为雇佣蜂、跟随蜂、探索蜂三组。雇佣蜂和跟随蜂各占蜂群总数的一半。雇佣蜂负责最初的寻找蜜源并采蜜分享信息,跟随蜂负责呆在蜂巢里根据雇佣蜂提供的信息去采蜜,探索蜂在原有蜜源被抛弃后负责随机寻找新的蜜源来替换原有的蜜源。与其他群智能算法一样,ABC 算法是迭代的。对蜂群和蜜源的初始化后,反复执行三个过程,即雇佣蜂、跟随蜂、探索蜂阶段,来寻找问题的最优解。每个阶段描述如下:

    蜂群的初始化:

    对ABC算法的参数进行初始化,这些参数有蜜源数SN、蜜源确定被抛弃的次数limit、迭代终止次数。在标准ABC算法里,蜜源的数目SN与雇佣蜂数相等,也与跟随蜂数相等。产生某个蜜源的公式为:

    雇佣蜂阶段:

    在雇佣蜂阶段,雇佣蜂用以下公式来寻找新蜜源:

    跟随蜂阶段:

    雇佣蜂阶段结束,跟随蜂阶段开始。在该阶段,雇佣蜂在舞蹈区分享蜜源信息。跟随蜂分析这些信息,采用轮盘赌策略来选择蜜源跟踪开采,以保证适应值更高的蜜源开采的概率更大。跟随蜂开采过程与雇佣蜂一样,利用式(2)找寻新蜜源,并留下更优适应者。

    蜜源拥有参数space,当蜜源更新被保留时,space为 0;反之,space加 1。从而  能统计出一个蜜源没有被更新的次数。

    探索蜂阶段:

    如果一个蜜源经过多次开采没被更新,也就是space值过高,超过了预定阈值limit,那么需抛弃这个蜜源,启动探索蜂阶段。这体现了 ABC 里自组织的负反馈和波动属性 。在该阶段里,探索蜂利用式(3)随机寻找新的蜜源来代替被抛弃蜜源。

    算法流程:

    人工蜂群算法流程:

    step1.初始化算法参数,生成蜜蜂初始位置。

    step2.雇佣蜂计算适应度值,比较并保存最优值。

    step3.跟随蜂选择雇佣蜂更新蜜源位置,计算适应度值,保存最佳值。

    step4.若有侦察蜂出现,则重新生成初始位置并执行更新选优,否则继续执行step5。

    step5.若迭代次数小于预设的迭代次数,则转到step2;否则输出最优解。

    6.2 ABC人工蜂群优化算法寻找最优参数值

    关键代码:

     迭代过程数据:

    适应度迭代曲线图:

     最优参数:

    6.3 最优参数值构建模型

    7.模型评估

    7.1评估指标及结果

    评估指标主要包括准确率、查准率、查全率、F1分值等等。

     从上表可以看出,F1分值为0.8947,说明模型效果良好。

    关键代码如下:

     7.2 查看是否过拟合

    从上图可以看出,训练集和测试集分值相当,无过拟合现象。

    7.3 分类报告

     从上图可以看出,分类为0的F1分值为0.90;分类为1的F1分值为0.89。

    7.4 混淆矩阵

     从上图可以看出,实际为0预测不为0的 有6个样本;实际为1预测不为1的 有14个样本,整体预测准确率良好。  

    8.结论与展望

    综上所述,本文采用了ABC人工蜂群优化算法寻找支持向量机SVC算法的最优参数值来构建分类模型,最终证明了我们提出的模型效果良好。此模型可用于日常产品的预测。

    1. # 本次机器学习项目实战所需的资料,项目资源如下:
    2. # 项目说明:
    3. # 链接:https://pan.baidu.com/s/1Wm1j0SZ-gRGTis15FmFD7Q
    4. # 提取码:rho0
    5. # 查看数据前5行
    6. print('*************查看数据前5行*****************')
    7. print(df.head())
    8. # 数据缺失值统计
    9. print('**************数据缺失值统计****************')
    10. print(df.info())
    11. # 描述性统计分析
    12. print(df.describe())
    13. print('******************************')
    14. # y变量柱状图
    15. plt.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体
    16. plt.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题
    17. # kind='bar' 绘制柱状图
    18. df['y'].value_counts().plot(kind='bar')
    19. plt.xlabel("y变量")
    20. plt.ylabel("数量")
    21. plt.title('y变量柱状图')
    22. plt.show()
  • 相关阅读:
    Prometheus+Grafana监控K8S集群(基于K8S环境部署)
    CopyOnWriteArrayList 是如何保证线程安全的?
    达梦数据库整合在springboot的使用教程
    端侧需要向量数据库吗
    这三款手机视频拼接软件,可以帮你把视频拼出高级感
    基于matlab和Simulink的不同阶QAM调制解调系统误码率对比仿真
    【数据结构&C++】二叉平衡搜索树-AVL树(25)
    剖析虚幻渲染体系(16)- 图形驱动的秘密
    HarmonyOS—低代码开发Demo示例
    flink增量检查点启动恢复的时间是很久的,业务上不能接受,怎么处理
  • 原文地址:https://blog.csdn.net/weixin_42163563/article/details/127833958