

在介绍流水线之前,先来了解几个重要概念:
要构建一个 Pipeline流水线,首先需要定义 Pipeline 中的各个流水线阶段PipelineStage(包括转换器和评估器),比如指标提取和转换模型训练等。
有了这些处理特定问题的转换器和评估器,就可以按照具体的处理逻辑有序地组织PipelineStages 并创建一个Pipeline
pipeline = Pipeline(stages=[stage1,stage2,stage3])
然后就可以把训练数据集作为输入参数,调用 Pipeline 实例的 fit 方法来开始以流的方式来处理源训练数据。
这个调用会返回一个 PipelineModel 类实例,进而被用来预测测试数据的标签
流水线的各个阶段按顺序运行,输入的DataFrame在它通过每个阶段时被转换

值得注意的是,流水线本身也可以看做是一个估计器。
在流水线的fit()方法运行之后,它产生一个PipelineModel,它是一个Transformer。
这个管道模型将在测试数据的时候使用。 下图说明了这种用法。
