一步一步认知机器学习

1，前言

之前学习并且实操了一些算法框架用来探索相关方向的可能性，但是总不了解相关的步骤。因为一步一步按照别人给出的步骤去操作，解决一些操作时出现的问题，基本可以达到目的。但是这个也基本限制了在那个框架而已。对于算法还是知之甚少。这两天碰到了scikit-learn，觉得很不错，于是去敲敲代码，了解了解。文章主要为我学习所需，记录和强化我的认知。觉得有用则看，无用则略过

2，机器学习方式

ch02_机器学习基础/第二章_机器学习基础.md · zhucoding/DeepLearning-500-questions - Gitee.com

a,监督学习--体现为标记输入数据集（最常用）：分类，回归

b,非监督式学习--体现为未标记输入数据集：聚类

c,半监督式学习:相当于监督学习的延伸，未标记的数据用来预测

d,弱监督式学习:

3，监督学习步骤

①数据集创建和分类：标记数据

②数据增强：对图片数据进行旋转，平移，颜色转换，裁剪，仿射变换等

③特征工程：特征提取和特征选择---特征工程的方法和步骤_特征工程流程-CSDN博客

④构建预测模型和损失

⑤训练

⑥验证和模型选择

⑦测试和应用

3，例子

使用scikit learning鸢尾花数据，去模拟大致跑一次基础流程先

基本流程

获取数据（包括特征值x，目标属性y）-->划分训练集、测试集-->选好模型(支持向量机，LR分类模型，随机森林分类模型)-->开始进行训练集训练（交叉验证，调超参）-->得到训练集最佳模型识别率和置信度-->开始进行测试集训练（交叉验证，调超参）-->得到测试集集最佳模型识别率和置信度


# 模型加入了调参
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split,GridSearchCV
from sklearn.svm import SVC
 
dataset = load_iris()  # 得到鸢尾花的数据
 
x = dataset.data
 
y = dataset.target
print(x)
print(y)
 
train_x, test_x, train_y, test_y = train_test_split(x, y, test_size=0.2, random_state=0)
 
svm_model = SVC()
 
params = [
    {'kernel': ['linear'], 'C': [1, 10, 100, 100]},
    {'kernel': ['poly'], 'C': [1], 'degree': [2, 3]},
    {'kernel': ['rbf'], 'C': [1, 10, 100, 100], 'gamma': [1, 0.1, 0.01, 0.001]}
]
 
# 在这里进行了交叉验证 和 调参
best_model = GridSearchCV(svm_model, param_grid=params, cv=5, scoring='accuracy')
best_model.fit(train_x, train_y)
 
print('svm模式在训练集上的精准度为：%.4f'%best_model.best_score_)
print(best_model.best_params_)
print(best_model.cv_results_)
 
best_model1 = GridSearchCV(svm_model, param_grid=params, cv=5, scoring='accuracy')
best_model1.fit(test_x, test_y)
 
print('svm模式在验证集上的精准度为：%.4f'%best_model.best_score_)
print(best_model1.best_params_)
print(best_model1.cv_results_)

新手！如有不对，敬请指出

参考：机器学习超详细实践攻略(8)：使用scikit-learn构建模型的通用模板【万字长文】 - 知乎 (zhihu.com)

相关阅读:
【CUDA编程】CUDA内存模型
前端开发核心知识进阶 —— 宏任务和微任务
Springboot企业差旅报销系统_5h38k计算机毕业设计-课程设计-期末作业-毕设程序代做
Vue3+Ts+Vite项目(第十五篇)——tailwindcss安装及使用详解，css原子化如何实现
k8s 中的 ingress 使用细节
【云原生系列第五章】---Serverless架构中如何避免冷启动带来的影响
黄素单核苷酸小麦麦清白蛋白纳米粒|石杉碱甲乳清白蛋白纳米粒Huperzine-whey protein|化学试剂
MySQL InnoDB引擎优势以及共享表空间扩容和日志文件详解
构造与方法重载
如何使用 etcd 实现分布式 /etc 目录

原文地址：https://blog.csdn.net/xiaoyifeishuang1/article/details/133942160