• R语言进行相关的操作


    实践分析

    22. 哪些变量是绝对的,哪些是连续的?

    23. 使用软件,构建数据集的前10条记录的表,以获得对数据的感觉

    24. 调查我们是否有任何相关的变量。

    25. 对于每个类别数据变量,构建一个变量的柱状图,覆盖目标变量。必要时标准化。

    a.讨论每个变量与目标变量之间的关系(如果有的话)。

    b.在我们所使用的任何数据挖掘类别数据模型中,您希望哪些变量具有重要的作用?

    26. 对于每一对类别数据变量,构建一个交叉列表。讨论你的显著成果。

    27. (如果你的软件支持的话。)构建一个类别数据变量的网络图。对图表进行微调,以便出现有趣的结果。讨论你的发现。

    28. 根据您的EDA报告该数据集中是否存在异常字段,这些字段是什么,以及我们应该做些什么。

    29. 报告每个数值变量的平均值、中位数、最小值、最大值和标准偏差。

    30.构建每个数值变量的直方图,覆盖目标变量收入。必要时标准化。

    a.讨论每个变量与目标变量之间的关系(如果有的话)。

    b.在我们所使用的任何数据挖掘类别数据模型中,您希望哪些变量具有重要的作用?

    31. 对于每一对数值变量,构建变量的散点图。讨论你的显著成果。

    32. 根据到目前为止的EDA,确定值得进一步研究的数据集中有趣的记录子组。

    33. 对一个数值变量应用装箱。这样做的方式,以最大限度地发挥所创建的类的效果(遵循文本中的建议)。现在就这样做一种最小化阶级影响的方法,以减少阶级之间的差异。发表评论。

    34. 请参阅前面的练习。对这个变量应用其他两个装箱方法(相同宽度和相同记录数量)。比较结果并讨论差异。你喜欢哪种方法?

    35. 从以上练习中总结你的显著的EDA发现,就像你在写报告一样。

    1.2 试验平台

    图4-4 找到前十条数据的年龄和性别与收入之间的关系探索

    图4-5 教育与收入之间的关系探索

    上述的教育图中,上面是频次图,下面是频率图

    图4-6 探究不同教育程度的收入等级差异

     

    图4-7 探索受教育年限对收入的影响

     

    图4-8 探究婚姻状况对收入的影响

    可以发现,married-civ-spouse(已婚平民配偶)和married-AF-spouse(已婚军属)类型的收入>50k群体占比大。

     

                       

    box_age <- ggplot(adult1, aes(x = class, y = age ,fill = class))+

      geom_boxplot()+theme_bw()+labs(x = 'class', y = 'age')

    box_edu <- ggplot(adult1, aes(x = class, y = education.num ,fill = class))+

      geom_boxplot()+theme_bw()+labs(x = 'class', y = 'education.num')

    box_work <- ggplot(adult1, aes(x = class, y = hours.per.week ,fill = class))+

      geom_boxplot()+theme_bw()+labs(x = 'class', y = 'hours.per.week')

    图4-9  性别、年龄、受教育年限、每周工作时间与收入关系图

    从图中大致可以发现,收入高的群体一般男性居多、年龄较大、每周工作时间较长、受教育年限较长。

     

    图4-21 某些变量的结果图

    图4-12 部分展示图

    [1] Gotelli, N. J. 2008. A Primer of Ecology . Sunderland, MA: Sinauer.

    [2] Messier, F. 1994. Ungulate population models with predation: A case study with North American moose. Ecology 75:478-488.

    [3] Pervez, A., and Omkar, A. 2005. Functional responses of coccinellid predators: illustration of a logistic approach. Journal of Insect Science 5:1-6.

    [4]基本R绘图 | R语言教程 (pku.edu.cn) 重要的画图方法

  • 相关阅读:
    C#好资源网址推荐
    SQL——基础查询
    从0搭建Vue3组件库(十):如何搭建一个 Cli 脚手架
    腾讯云网站备案详细流程_审核时间说明
    数论专题(3)逆元
    企业数字化转型建设过程中需要哪些能力?
    搞定了 6 种分布式ID,分库分表哪个适合做主键?
    Spring启动流程
    Wireshark与Nginx
    Flask 学习-34.restful-full 请求参数自定义参数校验类型 (reqparse.RequestParser() )
  • 原文地址:https://blog.csdn.net/matlab_python22/article/details/126089717