Pipeline知识小记

在scikit-learn（通常缩写为sklearn）中，Pipeline是一个非常重要的工具，它允许你将多个数据转换步骤（如特征选择、缩放等）和估计器（如分类器、回归器等）组合成一个单一的估计器对象。这种组合使得数据预处理和模型训练变得更加简洁和高效。

使用Pipeline的主要好处包括：

简化工作流：你可以在一个对象中定义整个数据处理和建模流程。
避免数据泄露：在交叉验证或其他评估过程中，Pipeline会确保每一步都是单独地应用于每个训练/测试分割，从而避免数据泄露。
易于使用：你可以像使用任何其他sklearn估计器一样使用Pipeline，包括fit、predict、score等方法。

下面是一个简单的示例，展示了如何使用Pipeline将特征缩放（使用StandardScaler）和逻辑回归（使用LogisticRegression）组合在一起：

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

# 加载数据集
iris = load_iris()
X, y = iris.data, iris.target
#X,y = load_iris(return_X_y=True)

# 划分数据集为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建Pipeline
steps = [
    ('scaler', StandardScaler()),
    ('logistic', LogisticRegression(max_iter=1000, solver='lbfgs'))
]
pipeline = Pipeline(steps)

# 使用Pipeline进行训练
pipeline.fit(X_train, y_train)

# 使用Pipeline进行预测
predictions = pipeline.predict(X_test)

# 评估Pipeline的性能
score = pipeline.score(X_test, y_test)
print(f"Accuracy: {score}")

在这个示例中，我们首先加载了鸢尾花数据集，并将其划分为训练集和测试集。然后，我们定义了一个包含两个步骤的Pipeline：scaler（使用StandardScaler进行特征缩放）和logistic（使用LogisticRegression进行分类）。最后，我们使用Pipeline进行训练、预测和评估。

相关阅读:
QML 调试笔记
Nodejs安装及快速入门
[附源码]计算机毕业设计JAVA“原创音乐爱好者”交流网站论文
Mybatis - Spring整合后一级缓存失效了
阿里云 OSS 上传插件layui-aliossuploader升级为带进度条及单项回调
Task05|joyfulpandas|变形
Android服务器的通信方式
探索 GO 项目依赖包管理与Go Module常规操作
运放专题：虚短、虚短
linux快速安装nodejs与pm2

原文地址：https://blog.csdn.net/liujianjun1536500976/article/details/139870113