• Python梯度提升决策树的方法示例


    梯度提升决策树(Gradient Boosting Decision Tree,简称GBDT)是一种基于集成学习的算法,它通过构建多个决策树模型,并将它们组合在一起来实现更好的预测性能。GBDT的核心思想是在每轮迭代中,根据当前模型的残差(真实值与预测值之差)来训练一个新的决策树,然后将这个新树添加到模型中,以不断减少预测误差。

    1. 示例一:使用鸢尾花(Iris)数据集进行分类任务

    1.1 内容介绍

    (1)初始化:首先,GBDT初始化一个弱的预测模型(通常是一个常数,如所有训练样本标签的平均值)。

    (2)迭代:对于每轮迭代,执行以下步骤:

    • 计算残差:计算当前模型预测值与真实值之间的残差。

    • 拟合残差:使用决策树模型拟合残差。

    • 更新模型:将新拟合的决策树模型添加到之前的模型中,通过一定的学习率(shrinkage)来控制新树对最终预测的影响。

    (3)输出:最终模型是所有迭代中生成的决策树模型的加权和。

    1.2 代码示例

    下面是一个使用Python的scikit-learn库实现GBDT的简单示例。我们将使用鸢尾花(Iris)数据集进行分类任务。

    1. from sklearn.datasets import load_iris
    2. from sklearn.model_selection import train_test_split
    3. from sklearn.ensemble import GradientBoostingClassifier
    4. from sklearn.metrics import accuracy_score
    5. # 加载数据
    6. iris = load_iris()
    7. X = iris.data
    8. y = iris.target
    9. # 划分训练集和测试集
    10. X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    11. # 初始化GBDT分类器
    12. gbdt = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1, max_depth=3, random_state=42)
    13. # 训练模型
    14. gbdt.fit(X_train, y_train)
    15. # 预测测试集
    16. y_pred = gbdt.predict(X_test)
    17. # 计算准确率
    18. accuracy = accuracy_score(y_test, y_pred)
    19. print(f"Accuracy: {accuracy}")
    20. # 如果我们想查看模型的特征重要性,可以这样做:
    21. print("Feature importances:")
    22. for feature_idx, importance in enumerate(gbdt.feature_importances_):
    23. print(f"Feature {iris.feature_names[feature_idx]}: {importance}")

    1.3 参考价值和实际意义

    GBDT是一种非常强大的机器学习算法,尤其适用于处理具有复杂交互和非线性关系的数据。由于它能够处理缺失值、异常值和不同尺度的特征,因此在许多实际问题中都有广泛的应用。此外,GBDT还提供了特征重要性的度量,这对于特征选择和解释模型预测结果非常有用。

    在上面的示例中,我们使用了鸢尾花数据集,这是一个简单的三分类问题。然而,GBDT也可以应用于更复杂的回归和分类问题,包括多分类、多标签分类和回归预测等。通过调整GBDT的参数(如学习率、树的数量、树的深度等),我们可以获得不同的模型复杂度和预测性能,以适应不同的数据和任务需求。

    下面我将更具体地介绍梯度提升决策树(GBDT)的一些应用实例。

    2. 示例二:房价预测(回归问题)

    2.1 问题描述

    假设我们有一组关于房地产市场的数据,包括房屋面积、位置、房龄等特征,以及对应的房价。我们的目标是建立一个模型,能够根据这些特征来预测房价。

    2.2 GBDT应用

    (1)模型构建:使用GBDT回归模型,将房屋面积、位置、房龄等特征作为输入,房价作为输出。

    (2)参数设置:可以设置n_estimators=100(表示使用100棵决策树),learning_rate=0.1(学习率),max_depth=3(决策树的最大深度)等参数来控制模型的复杂度和性能。

    (3)训练与预测:使用训练数据拟合模型,然后用测试数据评估模型的预测性能。

    2.3 代码示例

    首先,我们需要假设一个数据集,但这里为了简单起见,我们使用scikit-learn提供的合成数据生成器来模拟房价数据。

    1. from sklearn.datasets import make_regression  
    2. from sklearn.model_selection import train_test_split  
    3. from sklearn.ensemble import GradientBoostingRegressor  
    4. from sklearn.metrics import mean_squared_error  
    5. import numpy as np  
    6.  
    7. # 生成模拟的房价数据  
    8. X, y = make_regression(n_samples=1000, n_features=4, noise=0.1, random_state=42)  
    9.  
    10. # 划分训练集和测试集  
    11. X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)  
    12.  
    13. # 初始化GBDT回归模型  
    14. gbdt_reg = GradientBoostingRegressor(n_estimators=100, learning_rate=0.1, max_depth=3, random_state=42)  
    15.  
    16. # 训练模型  
    17. gbdt_reg.fit(X_train, y_train)  
    18.  
    19. # 预测测试集  
    20. y_pred = gbdt_reg.predict(X_test)  
    21.  
    22. # 计算均方误差  
    23. mse = mean_squared_error(y_test, y_pred)  
    24. print(f"Mean Squared Error: {mse}")  
    25.  
    26. # 查看特征重要性  
    27. print("Feature importances:")  
    28. for feature_idx, importance in enumerate(gbdt_reg.feature_importances_):  
    29.    print(f"Feature {feature_idx}: {importance}")

    2.4 结果分析

    GBDT模型能够处理非线性关系,对于房价预测这类具有复杂交互的问题非常有效。通过调整模型参数,我们可以获得不同的预测精度和模型复杂度。

    3. 示例三:垃圾邮件分类(分类问题)

    3.1 问题描述

    在电子邮件系统中,我们经常需要区分垃圾邮件和非垃圾邮件。这可以看作是一个二分类问题,其中邮件内容、发件人等信息可以作为特征,邮件是否为垃圾邮件作为标签。

    3.2 GBDT应用

    (1)文本处理:首先需要将邮件内容转换为数值型特征,这通常可以通过文本向量化(如TF-IDF)或词嵌入(如Word2Vec)等方法实现。

    (2)模型构建:使用GBDT分类模型,将处理后的文本特征作为输入,邮件类别(垃圾邮件/非垃圾邮件)作为输出。

    (3)参数设置:与房价预测类似,可以设置适当的参数来控制模型的复杂度和性能。

    (4)训练与预测:使用训练数据拟合模型,并用测试数据评估模型的分类性能。

    3.3 代码示例

    对于垃圾邮件分类,我们需要一个真实的文本数据集。这里我们使用scikit-learn提供的20个新闻组数据集作为示例,并假设其中一个类别代表垃圾邮件。

    1. from sklearn.datasets import fetch_20newsgroups  
    2. from sklearn.model_selection import train_test_split  
    3. from sklearn.feature_extraction.text import TfidfVectorizer  
    4. from sklearn.ensemble import GradientBoostingClassifier  
    5. from sklearn.metrics import accuracy_score  
    6.  
    7. # 加载新闻组数据集,并假设某个类别为垃圾邮件  
    8. categories = ['alt.atheism', 'talk.religion.misc', 'comp.graphics', 'sci.med']  
    9. news = fetch_20newsgroups(subset='all', categories=categories, shuffle=True, random_state=42)  
    10. X, y = news.data, news.target  
    11.  
    12. # 将文本数据转换为TF-IDF特征向量  
    13. vectorizer = TfidfVectorizer(stop_words='english')  
    14. X_tfidf = vectorizer.fit_transform(X)  
    15.  
    16. # 划分训练集和测试集  
    17. X_train, X_test, y_train, y_test = train_test_split(X_tfidf, y, test_size=0.2, random_state=42)  
    18.  
    19. # 初始化GBDT分类模型  
    20. gbdt_clf = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1, max_depth=3, random_state=42)  
    21.  
    22. # 训练模型  
    23. gbdt_clf.fit(X_train, y_train)  
    24.  
    25. # 预测测试集  
    26. y_pred = gbdt_clf.predict(X_test)  
    27.  
    28. # 计算准确率  
    29. accuracy = accuracy_score(y_test, y_pred)  
    30. print(f"Accuracy: {accuracy}")  
    31.  
    32. # 查看特征重要性(注意:这里显示的是TF-IDF特征的重要性,而不是原始文本的重要性)  
    33. print("Feature importances:")  
    34. for feature_idx, importance in enumerate(gbdt_clf.feature_importances_):  
    35.    print(f"Feature {feature_idx}: {importance}")

    3.4 结果分析

    GBDT分类模型能够处理类别不平衡等问题,并通过调整损失函数和决策树结构来优化分类性能。此外,GBDT的决策树结构天然适合进行特征重要性的评估,这有助于我们理解哪些特征对分类结果影响最大。

    4. 示例四:特征选择

    4.1 问题描述

    在机器学习项目中,我们经常面临特征选择的问题,即确定哪些特征对模型的预测性能最重要。

    4.2 GBDT应用

    GBDT的决策树结构天然适合进行特征重要性的评估。在训练GBDT模型后,我们可以查看每个特征的重要性得分,从而确定哪些特征对模型的预测结果影响最大。

    4.3 代码示例

    为了强调特征选择的概念,我们可以进一步选择最重要的特征来训练模型,并查看模型在新特征集上的表现。

    1. # 假设我们想要选择最重要的10个特征
    2. n_features_to_select = 10
    3. importances = gbdt_clf.feature_importances_
    4. indices = np.argsort(importances)[::-1]
    5. selected_features = indices[:n_features_to_select]
    6. # 提取选定的特征
    7. X_train_selected = X_train[:, selected_features]
    8. X_test_selected = X_test[:, selected_features]
    9. # 初始化GBDT分类模型(使用选定的特征)
    10. gbdt_clf_selected = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1, max_depth=3, random_state=42)
    11. # 训练模型
    12. gbdt_clf_selected.fit(X_train_selected, y_train)
    13. # 预测测试集
    14. y_pred_selected = gbdt_clf_selected.predict(X_test_selected)
    15. # 计算准确率
    16. accuracy_selected = accuracy_score(y_test, y_pred_selected)
    17. print(f"Accuracy with selected features: {accuracy_selected}")
    18. # 输出选定的特征名称(注意:这里假设我们有特征名称的映射,但在这个例子中我们仅知道特征索引)
    19. print("Selected features (indices):", selected_features)
    20. # 如果我们有原始特征名称的映射,我们可以这样做:
    21. # feature_names = vectorizer.get_feature_names_out() # 注意:这通常是在fit_transform之后获得的
    22. # selected_feature_names = [feature_names[i] for i in selected_features]
    23. # print("Selected features (names):", selected_feature_names)

    注意:在真实应用中,我们可能需要从原始文本数据中提取特征(如TF-IDF、词袋模型等),并有一个明确的特征名称到索引的映射。在这个例子中,为了简单起见,我们只使用了特征索引。如果我们有特征名称的映射,我们可以轻松地将其添加到上面的代码中。

    4.4 结果分析

    特征选择是一种重要的技术,可以帮助我们理解数据,减少过拟合,并提高模型的解释性。在上面的例子中,我们选择了最重要的10个特征来训练模型,并查看了模型在新特征集上的表现。我们可以尝试选择不同的特征数量,并比较模型的性能,以找到最佳的特征子集。通过GBDT的特征重要性评估,我们可以更好地理解数据,并确定哪些特征对于解决问题最为关键。这有助于我们进行更有效的特征选择和模型优化。

    5. 总结

    GBDT是一种功能强大的机器学习算法,适用于回归、分类和特征选择等多种任务。通过调整模型的参数和结构,我们可以获得不同的性能表现,以适应不同的数据和任务需求。

  • 相关阅读:
    【Vue】具名插槽
    2022年世界大学声誉排名(完整版)
    Maven基本操作详解
    harrypotter1-aragog靶机攻略
    [极致用户体验] 我又来帮掘金修专栏bug了,顺便教你个超牛逼的分割线CSS!
    搭建Lua开发环境(Lua解释器+IDEA编译器)
    你不知道的原生js国际化接口
    MCU常见通信总线串讲(四)—— SPI总线协议
    从零开始在window10系统下mysql5.7安装审计插件(亲测绝对可用)
    搭建HBase2.x完全分布式集群(CentOS 9 + Hadoop3.x)
  • 原文地址:https://blog.csdn.net/m0_72958694/article/details/139858883