• Day1 初学机器学习:机器学习的概述、特征工程


    • 人工智能,深度学习,机器学习三者关系:

    1.1 人工智能概述 

    达特茅斯会议-人工智能的起点

    机器学习是人工智能的一个实现途径

    深度学习是机器学习的一个方法发展而来的

    1.2 机器学习,深度学习用来干什么

    • 传统预测
    • 图像识别
    • 自然语言处理

    2.1 什么是机器学习

    机器学习就是从数据中自动分析获得模型,并利用模型对未知数据进行预测。

    2.2 数据集的构成:特征值+目标值

    对于每一行数据称之为样本;有些数据可以没有目标值。

    2.3 机器学习算法分类

    监督学习

            目标值:类别--分类问题

                    k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归。

            目标值:连续型数据--回归问题

                    线性回归、领回归。

    无监督学习:

            目标值:无--无监督学习

                    聚类 K-means。

    2.4 机器学习开发流程

    1)获取数据

    2)数据处理

    3)特征工程

    4)机器学习算法进行训练

    5)模型评估

    6)应用

    学习阶段可用数据集网站:

    • sklearn:https://scikit-lean.org/stable/datasets/index.html#datasets
    • kaggle:https://www.kaggle.com/datasets
    • UCI:https://archive.ics.uci.edu/ml/

    3.1 sklearn数据集使用:

    自己找API去看

    3.2 特征工程介绍

    特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的工程。

    3.3 什么是特征工程

    sklearn是特征工程

    pandas:数据清洗,数据处理

            特征抽取/特征提取:将任意数据转换为了用于机器学习的数字特征。

                                                    API:sklearn.feature_exteaction。

            特征预处理:通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程。

            

     

            特征降维:降维是指在某些限制条件下,降低随机变量(特征)的个数,得到一组“不相关”主变量的过程。

        3.4主成分分析(PCA):将高维数据转换为低维数据的过程,过程中可能会舍去原有数据、创造新的变量。

    作用:是数据维数的压缩,尽可能的降低原数据的维数(复杂度),损失少量的信息。

    应用:回归分析或者聚类分析当中。

                    

     


    1. # 人工智能阶段
    2. # 机器学习 三天
    3. # 深度学习 三天
    4. # 量化交易 四天
    5. #
    6. # 传统的机器学习算法
    7. # 机器学习概述、特征工程 1天
    8. # 分类算法 1天
    9. # 回归算法、聚类 1天
    10. #
    11. # 机器学习概述
    12. # 1.1 人工智能概述
    13. # 达特茅斯会议-人工智能的起点
    14. # 机器学习是人工智能的一个实现途径
    15. # 深度学习是机器学习的一个方法发展而来
    16. # 1.1.2 机器学习、深度学习能做些什么
    17. # 传统预测
    18. # 图像识别
    19. # 自然语言处理
    20. # 1.2 什么是机器学习
    21. # 数据
    22. # 模型
    23. # 预测
    24. # 从历史数据当中获得规律?这些历史数据是怎么的格式?
    25. # 1.2.3 数据集构成
    26. # 特征值 + 目标值
    27. # 1.3 机器学习算法分类
    28. # 监督学习
    29. # 目标值:类别 - 分类问题
    30. # k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归
    31. # 目标值:连续型的数据 - 回归问题
    32. # 线性回归、岭回归
    33. # 目标值:无 - 无监督学习
    34. # 聚类 k-means
    35. # 1、预测明天的气温是多少度? 回归
    36. # 2、预测明天是阴、晴还是雨? 分类
    37. # 3、人脸年龄预测? 回归/分类
    38. # 4、人脸识别? 分类
    39. # 1.4 机器学习开发流程
    40. # 1)获取数据
    41. # 2)数据处理
    42. # 3)特征工程
    43. # 4)机器学习算法训练 - 模型
    44. # 5)模型评估
    45. # 6)应用
    46. # 1.5 学习框架和资料介绍
    47. # 1)算法是核心,数据与计算是基础
    48. # 2)找准定位
    49. # 3)怎么做?
    50. # 1、入门
    51. # 2、实战类书籍
    52. # 3、机器学习 -”西瓜书”- 周志华
    53. # 统计学习方法 - 李航
    54. # 深度学习 - “花书”
    55. # 4)1.5.1 机器学习库与框架
    56. #
    57. # 特征工程
    58. # 2.1 数据集
    59. # 2.1.1 可用数据集
    60. # 公司内部 百度
    61. # 数据接口 花钱
    62. # 数据集
    63. # 学习阶段可以用的数据集:
    64. # 1)sklearn
    65. # 2)kaggle
    66. # 3)UCI
    67. # 1 Scikit-learn工具介绍
    68. # 2.1.2 sklearn数据集
    69. # sklearn.datasets
    70. # load_* 获取小规模数据集
    71. # fetch_* 获取大规模数据集
    72. # 2 sklearn小数据集
    73. # sklearn.datasets.load_iris()
    74. # 3 sklearn大数据集
    75. # sklearn.datasets.fetch_20newsgroups(data_home=None,subset=‘train’)
    76. # 4 数据集的返回值
    77. # datasets.base.Bunch(继承自字典)
    78. # dict["key"] = values
    79. # bunch.key = values
    80. # 思考:拿到的数据是否全部都用来训练一个模型?
    81. # 2.1.3 数据集的划分
    82. # 训练数据:用于训练,构建模型
    83. # 测试数据:在模型检验时使用,用于评估模型是否有效
    84. # 测试集 20%~30%
    85. # sklearn.model_selection.train_test_split(arrays, *options)
    86. # 训练集特征值,测试集特征值,训练集目标值,测试集目标值
    87. # x_train, x_test, y_train, y_test
    88. # 2.2 特征工程介绍
    89. # 算法 特征工程
    90. # 2.2.1 为什么需要特征工程(Feature Engineering)
    91. # 2.2.2 什么是特征工程
    92. # sklearn 特征工程
    93. # pandas 数据清洗、数据处理
    94. # 特征抽取/特征提取
    95. # 机器学习算法 - 统计方法 - 数学公式
    96. # 文本类型 -》 数值
    97. # 类型 -》 数值
    98. # 2.3.1 特征提取
    99. # sklearn.feature_extraction
    100. # 2.3.2 字典特征提取 - 类别 -> one-hot编码
    101. # sklearn.feature_extraction.DictVectorizer(sparse=True,…)
    102. # vector 数学:向量 物理:矢量
    103. # 矩阵 matrix 二维数组
    104. # 向量 vector 一维数组
    105. # 父类:转换器类
    106. # 返回sparse矩阵
    107. # sparse稀疏
    108. # 将非零值 按位置表示出来
    109. # 节省内存 - 提高加载效率
    110. # 应用场景:
    111. # 1)pclass, sex 数据集当中类别特征比较多
    112. # 1、将数据集的特征-》字典类型
    113. # 2、DictVectorizer转换
    114. # 2)本身拿到的数据就是字典类型
    115. # 2.3.3 文本特征提取
    116. # 单词 作为 特征
    117. # 句子、短语、单词、字母
    118. # 特征:特征词
    119. # 方法1:CountVectorizer
    120. # 统计每个样本特征词出现的个数
    121. # stop_words停用的
    122. # 停用词表
    123. # 关键词:在某一个类别的文章中,出现的次数很多,但是在其他类别的文章当中出现很少
    124. # 方法2:TfidfVectorizer
    125. # TF-IDF - 重要程度
    126. # 两个词 “经济”,“非常”
    127. # 1000篇文章-语料库
    128. # 100篇文章 - "非常"
    129. # 10篇文章 - “经济”
    130. # 两篇文章
    131. # 文章A(100词) : 10次“经济” TF-IDF:0.2
    132. # tf:10/100 = 0.1
    133. # idf:lg 1000/10 = 2
    134. # 文章B(100词) : 10次“非常” TF-IDF:0.1
    135. # tf:10/100 = 0.1
    136. # idf: log 10 1000/100 = 1
    137. # 对数?
    138. # 2 ^ 3 = 8
    139. # log 2 8 = 3
    140. # log 10 10 = 1
    141. # TF - 词频(term frequency,tf)
    142. # IDF - 逆向文档频率
    143. #
    144. # 特征预处理
    145. # 2.4.1 什么是特征预处理
    146. # 为什么我们要进行归一化/标准化?
    147. # 无量纲化
    148. # 2.4.2 归一化
    149. # 异常值:最大值、最小值
    150. # 2.4.3 标准化
    151. # (x - mean) / std
    152. # 标准差:集中程度
    153. # 应用场景:
    154. # 在已有样本足够多的情况下比较稳定,适合现代嘈杂大数据场景。
    155. #
    156. # 特征降维
    157. # 2.5.1 降维 - 降低维度
    158. # ndarray
    159. # 维数:嵌套的层数
    160. # 0维 标量
    161. # 1维 向量
    162. # 2维 矩阵
    163. # 3维
    164. # n维
    165. # 二维数组
    166. # 此处的降维:
    167. # 降低特征的个数
    168. # 效果:
    169. # 特征与特征之间不相关
    170. # 2.5.1 降维
    171. # 特征选择
    172. # Filter过滤式
    173. # 方差选择法:低方差特征过滤
    174. # 相关系数 - 特征与特征之间的相关程度
    175. # 取值范围:–1≤ r ≤+1
    176. # 皮尔逊相关系数
    177. # 0.9942
    178. # 特征与特征之间相关性很高:
    179. # 1)选取其中一个
    180. # 2)加权求和
    181. # 3)主成分分析
    182. # Embeded嵌入式
    183. # 决策树 第二天
    184. # 正则化 第三天
    185. # 深度学习 第五天
    186. # 主成分分析
    187. # 2.6.1 什么是主成分分析(PCA)
    188. # sklearn.decomposition.PCA(n_components=None)
    189. # n_components
    190. # 小数 表示保留百分之多少的信息
    191. # 整数 减少到多少特征
    192. # 2.6.2 案例:探究用户对物品类别的喜好细分
    193. # 用户 物品类别
    194. # user_id aisle
    195. # 1)需要将user_id和aisle放在同一个表中 - 合并
    196. # 2)找到user_id和aisle - 交叉表和透视表
    197. # 3)特征冗余过多 -> PCA降维

  • 相关阅读:
    Unity基于C#事件委托机制
    订单超时未支付自动取消8种实现方案
    python应用(9)——将一个文件夹里的图片分配到多个文件夹内
    国网云(华为组件)使用
    uniapp制作——交友盲盒
    什么是Bean的循环依赖?解决方案是什么?
    P4 开发实践 — NG-SDN Tutorial — Exercise 4: Enabling ONOS Built-in Services
    Perl爬虫程序
    GB/T 41817-2022 信息安全技术 个人信息安全工程指南 学习笔记 附下载地址
    QTday06(人脸识别项目前置知识)
  • 原文地址:https://blog.csdn.net/qq_53914420/article/details/127654819