• 机器学习_10、集成学习-AdaBoost


    AdaBoost

    AdaBoost(Adaptive Boosting的简称)是一种集成学习方法,它的核心思想在于将多个弱学习器组合起来,形成一个强学习器。通过这种方式,AdaBoost能够显著提高分类性能。下面详细介绍AdaBoost的主要概念和工作原理:

    1. 弱学习器(Weak Learner)

    • 弱学习器指的是那些仅比随机猜测略好的模型,例如决策树、小神经网络等。在AdaBoost中,通常使用深度非常浅的决策树(如单层决策树,也称为决策树桩)作为弱学习器。

    2. 自适应(Adaptive)

    • AdaBoost之所以称为自适应增强,是因为它能够根据前一个学习器的表现调整数据的权重分布,使得之前被错误分类的数据在后续的学习器中获得更多的关注。这种自适应的过程使得模型能够专注于那些难以正确分类的样本。

    3. 工作原理

    • 初始化权重:开始时,每个训练样本被赋予相同的权重。
    • 循环训练弱学习器:AdaBoost算法会进行多轮迭代,每一轮都会训练一个新的弱学习器。在每一轮中:
      • 基于当前的权重分布,从训练集中训练出一个弱学习器。
      • 计算该弱学习器的错误率。
      • 根据错误率计算该弱学习器的权重(即该学习器对最终结果的贡献)。错误率越低的学习器权重越大。
      • 更新训练样本的权重,增加被当前学习器错误分类样本的权重,减少正确分类样本的权重。
      • 进入下一轮迭代。
    • 组合弱学习器:所有的弱学习器根据各自的权重组合成最终的模型。分类决策通常是通过对所有学习器的加权投票来实现的。

    4. 特点和优势

    • 准确率高:通过组合多个弱学习器,AdaBoost能够达到很高的准确率。
    • 易于编码:AdaBoost算法相对简单,易于实现。
    • 自动处理特征选择:AdaBoost在训练过程中会自动选择有用的特征,从而简化了模型的复杂度和提高了模型的泛化能力。
    • 不太容易过拟合:在弱学习器的选择和数量控制得当的情况下,AdaBoost不太容易过拟合。

    5. 应用

    AdaBoost被广泛应用于各种分类问题,包括二分类和多分类问题,如人脸识别、客户流失预测、文本分类等领域。

    1. #coding=utf-8
    2. #AdaBoostClassifier.py
    3. import pandas as pd
    4. from sklearn.model_selection import train_test_split
    5. #from sklearn.naive_bayes import GaussianNB
    6. from sklearn.tree import DecisionTreeClassifier
    7. from sklearn.ensemble import AdaBoostClassifier
    8. # 加载数据
    9. filename="./glass.data"
    10. glass_data = pd.read_csv(filename,index_col=0,header=None)
    11. # 先从DataFrame中取出数组值(.value
    12. X,y = glass_data.iloc[:,:-1].values, glass_data.iloc[:,-1].values
    13. #X,y = glass_data.iloc[:,:-1], glass_data.iloc[:,-1]
    14. # 划分训练集与测试集
    15. X_train, X_test, y_train, y_test = train_test_split(
    16. X, y, shuffle=True, stratify=y, random_state=1)
    17. # 创建基本分类器对象
    18. #base_clf = GaussianNB()
    19. base_clf = DecisionTreeClassifier(max_depth=2,random_state=0)
    20. # 创建AdaBoostingClassifier对象
    21. ada_clf = AdaBoostClassifier(base_estimator=base_clf,
    22. random_state=0,n_estimators=1000)
    23. for clf in (base_clf, ada_clf):
    24. clf.fit(X_train, y_train)
    25. print(clf.__class__.__name__,"训练集准确率:",
    26. clf.score(X_train, y_train), sep="")
    27. print(clf.__class__.__name__,"测试集准确率:",
    28. clf.score(X_test, y_test), sep="")
    29. print(clf.__class__.__name__,
    30. "对测试集前2个样本预测的分类标签:\n",
    31. clf.predict(X_test[:2]), sep="")
    32. print(clf.__class__.__name__,
    33. "对测试集前2个样本预测的分类概率:\n",
    34. clf.predict_proba(X_test[:2]), sep="")
    35. print("分类器中的标签排列:",clf.classes_)
    36. # 概率预测转化为标签预测
    37. print("根据预测概率推算预测标签:",end="")
    38. for i in clf.predict_proba(X_test[:2]).argmax(axis=1):
    39. print(clf.classes_[i], end=" ")
    40. print()
    41. print("测试集前2个样本的真实标签:",y_test[:2],sep="")
  • 相关阅读:
    java计算机毕业设计组成原理教学网站(附源码、数据库)
    算法-版本号升级
    【算法练习Day21】组合&&剪枝
    Java框架 特殊SQL的执行
    maven的下载、配置
    函数栈的变化过程
    使用 Netty 实现简易版 Dubbo RPC 远程调用过程
    基于SpringBoot的高校运动会管理系统设计与实现(源码+lw+部署文档+讲解等)
    详解SurfaceView和TextureView
    我的开源之路:耗时 6 个月发布线程池框架,GitHub 1.7k Star!
  • 原文地址:https://blog.csdn.net/cfy2401926342/article/details/136413516