• 第05章 Tableau数据可视化


    序言

    1.内容介绍

    ​ 本章介绍了简单视图、负责视图、统计分析可视化的操作,侧重实战动手操作。

    2.理论目标

    • 了解简单视图的分类
    • 掌握复杂视图的分类
    • 掌握统计分析可视化的步骤

    3.实践目标

    • 掌握简单视图的基本操作
    • 掌握复杂视图的核心操作

    4.实践案例

    • 简单视图实战操作
    • 复杂视图实战操作
    • 统计分析的可视化

    5.内容目录

    • 1.简单视图的可视化
    • 2.复杂视图的可视化
    • 3.统计分析的可视化
    • 4.地理数据的可视化

    第1节 简单视图的可视化

    1. 条形图

    • 条形图是一种把连续数据绘制成数据条的表现形式,通过比较不同组的条形长度,从而比较不同组的数据量大小,例如客户的性别、受教育程度、购买方式等。绘制条形图时,不同组之间是有空隙的,如果没有就是直方图,可分为垂直条和水平条。
    • 条形图的主要类型如下:
      (1)簇状条形图和三维簇状条形图:簇状条形图比较各个类别的值。簇状条形图通常垂直轴显示类别,三维簇状条形图以三维格式显示水平矩形。
      (2)堆积条形图和三维堆积条形图:堆积条形图显示单个项目与整体之间的关系。三维堆积条形图以三维格式显示水平矩形,而不以三维格式显示数据。
      (3)百分比堆积条形图和三维百分比堆积条形图:通常用于比较各个类别的每一数值所占总数值的百分比大小。
    • 例如,要创建一个不同子类别商品的利润额条形图,具体步骤如下:
    • 连接“商品订单表.xlsx”数据源后,将度量下的“利润额”字段拖放到列功能区,维度下的“子类别”字段拖放到行功能区,Tableau会自动生成条形图,显示商品在各个子类别上的利润额。

    • 然后将“利润额”字段拖入“颜色”和“标签”标记,设置图形颜色,并添加视图标题等。

    2. 饼形图

    • 饼形图(即饼图)用于展示数据系列中各项与总和的比例,图中的数据点显示为占总体的百分比,每个数据系列具有唯一的颜色或图案,并且用图例表示。
    • 饼图的主要类型如下:
      (1)三维饼图:以三维格式显示每一数值相对于总数值的大小。
      (2)复合饼图:将数值从主饼图中提取并组合到第二个饼形图或堆积条形图的饼图。
      (3)分离型饼图:显示每一数值相对于总数值的大小,同时强调每个数值。
    • 例如,要创建一个不同地区的销售额饼图,具体步骤如下:
    • 将度量下的“销售额”字段拖放到行功能区,将“地区”字段拖放到列功能区,会自动生成柱形图。
    • 单击“智能显示”中的饼图视图,它显示每个地区在总销售额中的占比。

    • 为了使图形更加直观,我们还需要进一步美化。单击“颜色”按钮,对各个地区的颜色进行编辑。单击“大小”标记后,拖动滑块可以放大或缩小饼图,还可以将“地区”和“销售额”拖入“标签”标记给每组加上标签等。

    3. 直方图

    直方图是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况,一般用横轴表示数据类型,纵轴表示分布情况。直方图的主要类型如下:
    (1)标准型直方图:图形呈现中间高、两边低,左右近似对称。
    (2)孤岛型直方图:图形的左侧或右侧出现孤立的小岛。
    (3)双峰型直方图:图形中出现两个山峰。
    (4)折齿型直方图:图形呈现凹凸不平的形状,
    (5)陡壁型直方图:图形像高山一样陡壁,向一边倾斜。
    (6)偏态型直方图:图形的顶峰有时偏向左侧、有时偏向右侧。
    (7)平顶型直方图:图形没有突出的顶峰,呈平顶型。

    例如,要创建一个显示不同订单金额区间的直方图,具体步骤如下:
    在度量中选择“销售额”字段,将其拖放到行功能区,还需要单击“智能显示”中的直方图视图,用于创建直方图。显示企业在各个销售额区间的订单次数。

    将“支付方式”字段拖入“筛选器”功能区中,例如选择子类别类型为“支付宝”。
    将“销售额”字段拖入“颜色”和“标签”标记,并为视图添加标题等,现在可以看出使用支付宝这种支付方式的订单销售额分布情况。
    为了能够更清晰的查看销售额分布情况,还可以将横轴的坐标刻度进行固定,这里设置为0到15000(即0K到15K)。

    4. 折线图

    折线图是用直线将各个数据点连接起来而组成的图形,以折线方式显示数据的变化趋势。折线图可以显示随时间而变化的连续数据,因此非常适合显示相等时间间隔的数据趋势。在折线图中,类别数据沿水平轴均匀分布,值数据沿纵轴均匀分布。
    数据分析中常常会用到折线图和面积图,看起来很相似,可以完成同一类的分析,但是他们却是不能互换的,正确使用折线图的几点注意事项:
    (1)折线图的横坐标只能是时间,如果变成了省份等分类变量,就没有趋势可言。
    (2)折线图展示的是一定日期内的数值趋势,而面积图展示的是总值趋势。

    例如,要创建一个显示不同订单日期的销售额折线图,具体步骤如下:
    将“订单日期”拖放到列功能区,将“销售额”拖放到行功能区。
    为了观察订单按月份的趋势,可以单击列功能区中的“年(订单日期)”,然后选择“月 2015年5月”选项。

    我们还可以通过“标记”下的“颜色”“大小”和“标签”等对视图进行美化,并给视图添加标题。

    5. 气泡图

    气泡图可用于展示三个变量之间的关系绘制时将一个变量放在横轴,另一个变量放在纵轴,而第三个变量则用气泡的大小来表示。
    气泡图与散点图类似,不同之处在于:气泡图允许在图中额外加入一个表示气泡大小的变量。

    例如,要创建一个不同省市销售额大小的气泡图,具体步骤如下:
    将度量下的“销售额”字段拖放到列功能区,将维度下的“省市”字段拖放到行功能区,拖放完成后,Tableau会自动生成条形图。

    通过Tableau右上方的“智能显示”调整样式,选择“气泡图”选项。
    然后将“销售额”字段拖放到“颜色”标记,为视图添加标题,进一步编辑颜色和美化视图。

    第2节 复杂视图的可视化

    1. 树状图

    树状图通过在嵌套的矩形中显示数据,使用维度定义树状图的结构,使用度量定义各个矩形的大小或颜色。可以将度量放在“大小”和“颜色”标记上,在“颜色”标记上可以包括多个维度,添加维度只会将视图分为更多的较小矩形。

    例如:要创建不同类型商品的利润额树状图,具体步骤如下:
    将“子类别”拖放到列功能区,将“利润额”拖放到行功能区,当列功能区上有一个维度且行功能区上有一个度量时,Tableau会显示一个默认图表,单击工具栏上的“智能显示”按钮,然后选择“树状图”视图类型。

    将“商品类别”拖放到标记卡的“颜色”上,视图将被分为三个独立的区域,“商品类别”将确定矩形的颜色。将“销售额”拖放到标记卡的“标签”上,并为视图添加标题等。

    2. 散点图

    散点图表示一个变量随另一个变量变化的大致趋势,据此判断两变量之间是否存在某种关联,从而选择合适的函数对数据进行拟合。
    散点图的主要类型如下:
    (1)散点图矩阵:用于同时绘制多个变量之间的两两相关性的散点图。
    (2)三维散点图:由3个变量确定的三维空间中研究变量之间的关系。

    例如,要创建订单的实际配送天数和计划配送天数的散点图,具体步骤如下:
    将“实际配送天数”拖放到行功能区,将“计划配送天数”拖放到列功能区,同时取消菜单栏“分析”下的“聚合度量”选项。

    将“配送延迟天数”拖放到“颜色”和“形状”标记上,并为视图添加标题等,从视图可以看出商品的配送延迟天数分布情况。

    3. 箱形图

    箱形图又称为箱线图或盒须图,是一种用作显示一组数据分散情况资料的统计图。箱形图主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较等。
    箱线图的绘制方法是:先将数据进行排序,找出一组数据的上边缘、下边缘、中位数和两个四分位数,然后连接两个四分位数画出箱体,再将上边缘和下边缘与箱体相连接,中位数在箱体中间。

    例如,要创建不同类型商品的折扣箱形图,具体步骤如下:
    将“商品类别”和“地区”拖放到列功能区,将“折扣”拖放到行功能区,Tableau将创建一个条形图。单击工具栏中的“智能显示”按钮,然后选择“盒须图”视图类型。

    将“折扣”拖放到“标签”标记,并为视图添加标题等,从视图可以看出不同类型商品的折扣分布情况。

    4. 环形图

    环形图是由两个及其以上大小不一的饼形图叠加而成,挖去中间的部分所构成的图形,环形图与饼形图类似,但又有区别,环形图中间有一个“空洞”。

    例如,要创建不同地区退单量的环形图,具体步骤如下:
    将度量中的“记录数”拖放到行功能区,重复两次操作,并在标记卡上选择“饼图”。
    将视图显示方式调整为适应“整个视图”,选择第一个饼图,单击“大小”标记,修改饼图的大小。

    在行功能区,将两个记录数的聚合计算类型由“总和”修改为“平均值”。
    在第一个度量上,将“地区”字段拖放到“颜色”标记,“利润额”字段拖放到“角度”标记,并设置快速表计算类型为“合计百分比”。

    在第二个度量上,鼠标右击纵坐标轴,选择“双轴”选项。
    然后鼠标右击纵坐标轴,选择“同步轴”选项。

    再右击纵坐标轴,选择“编辑轴”选项,设置轴的范围,使得圆环图置于视图的中间位置,选择“固定”选项,并输入初始值,固定开始为0.8,固定结束为1.2。
    然后使用“大小”标记适当调整两个饼形图的大小,使其更加美观。

    设置标签,在第一个度量上,将“地区”和“是否退单”拖放到“标签”标记,并设置“是否退单”的快速表计算类型为“合计百分比”。
    设置第二个饼图(内部小的饼图)的颜色,选择第二个饼图,然后选择“颜色”标记,选择颜色类型为“无”,最后,为视图添加标题等,使其更加美观。

    5. 倾斜图

    倾斜图可以展示单个指标在不同时期的变化情况,既能展示值的大小变化,又能展示排名变化等。
    例如,我们需要绘制企业各个门店在2018年和2019年销售业绩排名的倾斜图。
    数据包含门店名称、2018年排名、2019年排名三个字段。

    绘制倾斜图之前,首先需要对基础数据进行整理,创建“排名变化”新字段,即计算“2018年排名”与“2019年排名”的差值。
    注意:由于“2018年排名”和“2019年排名”都为非聚合字段,因此在公式中需要对字段进行聚合处理,如添加SUM函数,才能让两个字段进行计算。

    要创建的斜线图,其横轴是“2018年排名”和“2019年排名”两个字段,纵轴是排名,相对前面介绍的视图,绘制过程比较复杂,具体操作步骤如下:
    将维度下的“度量名称”和度量下的“度量值”分别拖放到列功能区和行功能区。
    在左下角“度量值”区域保留“2018年排名”和“2019年排名”两个度量值,删除其他选项,标记类型选择“线”。

    将“排名变化”字段拖放到“大小”标记,将“门店名称”拖放到“标签”标记。
    单击标记卡中的“标签”,修改标签的对齐和标签标记选项。

    倒转坐标轴,在纵轴上通过鼠标右键进入“编辑轴”页面,将纵坐标轴设置为“倒序”,使得排名按照从上往下的顺序,体现球队排名从高到低。
    将“度量值”拖放到“标签”标记,单击“标签”进入其设置页面,将标签设置为“<度量值>.<门店名称>”,在视图中将按照设置好的格式进行显示。

    对创建的斜线图进行美化,包括添加视图标题、调整“度量值”的数字格式、去除纵坐标轴标题、添加线条颜色等。

    第3节 统计分析的可视化

    1. 相关分析

    • 相关分析使用相关系数表示变量之间的关系;首先判断是否有关系,接着判断关系为正相关或者负相关,相关系数大于0为正相关,反之为负相关,也可以通过散点图直观的查看变量的关系;最后判断关系紧密程度。通常绝对值大于0.7时认为两变量之间表现出非常强的相关关系,绝对值大于0.4时认为有着强相关关系,绝对值小于0.2时相关关系较弱。
    • 相关系数有三类:Pearson、Spearman和Kendall相关系数,它们均用于描述相关关系程度,判断标准也基本一致。
      (1)Pearson相关系数:用来反映两个连续性变量之间的线性相关程度。
      (2)Spearman相关系数:用来反映两个定序变量之间的线性相关程度。
      (3)Kendall相关系数:用来反映两个随机变量拥有一致的等级相关性。

    1.1 创建简单散点图

    例如:需要分析“门店A销售额”与“门店A利润额”两个连续变量之间的关系。
    将“门店A销售额”与“门店A利润额”分别拖至列功能区和行功能区,此时视图区域仅有一个点,这是由于Tableau会把两个度量按照“总和”进行聚合。选择菜单栏“分析”下的“聚合度量”选项,移除选中标记,即解聚这两个度量字段。

    1.2 创建散点图矩阵

    散点图矩阵是散点图的高维扩展,可以帮助探索两个及以上变量的两两关系。
    例如,需要分析门店A、门店B、门店C三家门店销售额两两之间的关系。
    将“门店A销售额”“门店B销售额”“门店C销售额”等分别拖至行功能区和列功能区,并通过“分析”菜单下的“聚合度量”对三个度量进行解聚。

    2. 回归分析

    在Tableau创建散点图之后,可以通过添加趋势线对存在相关关系的变量进行回归分析,拟合其回归直线。在向视图添加趋势线时,Tableau将构建一个回归模型,即趋势线模型。截至目前,Tableau内置了线性、对数、指数、多项式和幂等5种趋势线模型。
    (1)线性:回归方程是线性函数关系y=a+bx1+ cx2+……。
    (2)对数:回归方程是对数函数关系y= logax。
    (3)指数:回归方程是指数函数关系y= a^x。
    (4)多项式:回归方程是多项式函数关系y=a+bx+cx2+dx3+……。
    (5)幂:回归方程是幂函数关系y=x^a。
    例如,需要对“门店A销售额”与“门店A利润额”两个变量进行回归分析。

    2.1 构建回归模型

    将“门店A销售额”与“门店A利润额”分别拖至行功能区和列功能区,然后通过菜单栏“分析”下的“聚合度量”对变量进行解聚,生成简单散点图。
    在Tableau中,为散点图添加趋势线有两种方法:
    方法1:在散点图上单击鼠标右键,选择“趋势线”下的“显示趋势线”,注意默认构建线性回归模型。

    方法2:拖放“分析”窗口中的“趋势线”到右侧视图中,可以选择构建模型的类型,有线性、对数、指数、多项式、幂等5类。

    下面以“线性”模型为例进行介绍,首先对简单散点图的横坐标起始范围进行设置,范围为40到190。生成趋势线后将鼠标悬停在趋势线上,这时可以查看趋势线方程和模型的拟合情况。

    2.2 优化回归模型

    在视图上单击鼠标右键,选择“趋势线”下的“编辑趋势线”选项,Tableau弹出“趋势线选项”页面,此时可以重新选择趋势线的类型等。

    2.3 评估回归模型

    添加趋势线后,如果想查看模型的拟合优度,我们只需在视图中右击鼠标,选择“趋势线”下的“描述趋势模型”选项,打开“描述趋势模型”页面。

    3. 聚类分析

    • 聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,要求能合理地按各自的特性进行合理的分类,没有任何模式可供参考或依循,即在没有先验知识的情况下进行的分析,主要有K均值聚类、系统聚类等。Tableau嵌入的聚类模型是K均值聚类算法。
    • K均值聚类(K-Means)是一种迭代求解的算法,其步骤是:首先指定聚类数K,软件会随机选取K个点作为初始的聚类中心点。然后计算每个对象与K个初始聚类中心之间的距离,并把每个对象分配给距离它最近的聚类中心点。聚类中心以及分配给它们的对象就代表一个类,每个类的聚类中心会根据类中现有的对象重新计算,计算每个类中对象的坐标平均值,这个过程将不断重复直到满足终止条件。

    3.1 构建聚类模型

    下面以企业经营数据为例,对门店A和门店B在3月份销售额数据进行聚类分析。
    将“门店A销售额”拖放到列功能区,将“门店B销售额”拖放到行功能区。通过菜单栏“分析”下的“聚合度量”对变量进行解聚。然后设置横轴和纵轴的刻度范围,都从100开始。

    拖放“分析”窗口中的“群集”到右侧视图中,在视图的左上方会显示创建群集的信息。
    根据绘制的散点图可以看出,分为4类比较合适,因此在弹出的“群集”对话框中的“群集数”中输入4。

    将生成的“群集”字段添加到“标记”卡上的“标签”和“形状”控件,然后,对视图进行适当的美化,聚类分析的结果如图所示。

    3.2 描述聚类模型

    在“群集”下拉框中,选择“描述群集”选项。Tableau会弹出“描述群集”页面,其中在“摘要”选项卡中,描述已创建的预测模型,包括“要进行聚类分析的输入”、“汇总诊断”等。

    3.3 编辑聚类模型

    在“群集”下拉框中,选择“编辑群集”选项,在“群集”页面,可以添加聚类变量和修改聚类数。

    4. 时间序列分析

    • 时间序列分析法是根据过去的变化预测未来的发展,前提是假定事物的过去延续到未来。时间序列分析,正是根据客观事物发展的连续规律性,运用过去的历史数据,通过统计分析,进一步推测未来的发展趋势。事物的过去会延续到未来这个假设前提包含两层含义:一是不会发生突然的跳跃变化,以相对小的步伐前进;二是过去和当前的现象可能表明现在和将来活动的发展变化趋向。
    • Tableau内嵌了对周期性波动数据的预测功能,可以分析数据规律、自动拟合、预测未来数据等,同时还可以对预测模型的参数进行调整,评价预测模型的精确度等。但是,Tableau嵌入的预测模型主要考虑数据本身的变化特征,无法考虑外部影响因素,因此适用于存在明显周期波动特征的时间序列数据。

    4.1 构建时间序列模型

    • 时间序列图是一种特殊的折线图,以时间作为横轴,纵轴是不同时间点上变量的数值。
    • 下面以企业经营数据为例,创建3月份门店A利润额的时间序列图。
    • 将“门店A利润额”拖放到行功能区,将“月份”字段拖放到列功能区,并单击右键,在弹出的下拉框中选择“天”,切换日期字段的级别,视图区即显示3月份门店A利润额的时间序列图。

    4.2 时间序列预测

    • Tableau嵌入了“指数平滑”的预测模型,即基于历史数据引入一个简化的加权因子,即平滑系数,以迭代的方式预测未来一定周期内的变化趋势。
      该方法之所以称为指数平滑法,是因为每个级别的值都受到前一个实际值的影响,且影响程度呈指数下降,即数值离现在越近权重就越大。
      通常,时间序列中的数据点越多,所产生的预测就越准确。如果要进行季节性建模,那么需要具有足够的数据,因为模型越复杂,就需要越多的数据进行训练。

    • 截至目前,Tableau有3种方式生成预测曲线:

      • 方法1:菜单栏“分析”→“预测”→“显示预测”;
      • 方法2:在视图上任意一点单击鼠标右键,选择“预测”→“显示预测”;
      • 方法3:拖放“分析”窗口中的“预测”模型到视图中。
    • 优化预测模型。Tableau默认的预测模型可能不是最优的。可以通过依次单击菜单栏“分析”→“预测”→“预测选项”选项,打开“预测选项”页面,查看Tableau默认的模型类型和预测选项并进行适当的修改。

    • 在“预测选项”窗口中,将“预测长度”选项设置为“自动”,“聚合方式”选项设置为“自动”,“预测模型”选项设置为“自动”,然后单击“确定”按钮。

    4.3 评估预测模型

    • 依次单击菜单栏“分析”→“预测”→“描述预测”选项,打开“描述预测”对话框,可以查看模型的详细描述,分为“摘要”选项卡和“模型”选项卡。
    • 在“摘要”选项卡中,描述了已创建的预测模型,上半部分汇总了Tableau创建预测所用的选项,一般由软件自动选取,也可以在“预测选项”对话框中指定。

    第4节 地理数据的可视化

    地理数据一般是通过绘制地图实现可视化,地图是指依据一定的数学法则,使用制图语言表达地球上各种事物的空间分布、联系及时间的发展变化状态而绘制的图形。

    下面简单介绍一下Tableau绘制地图的步骤:
    (1)设置角色:构建地图的第一步是指定包含位置数据的字段。Tableau会自动将地理角色分配给具有公用位置名称的字段。
    (2)标记地图:在创建地图时,需要将生成的纬度(生成)和经度(生成)分别拖放到行功能区和列功能区,并将地理字段(如“城市”)拖放到“详细信息”标记。
    (3)添加字段信息:为了使地图更加美观,需要添加更多字段信息,可以通过从“数据”窗格中将度量或连续维度拖放到“标记”卡实现。
    (4)设置地图选项:在创建地图时,有多个选项可以帮助我们控制地图的外观,菜单栏依次单击“地图”→“地图选项”,打开“地图选项”窗格。
    (5)自定义地图:创建地图时,可以使用不同方式浏览视图并与其交互,可以放大和缩小视图、平移、选择标记,甚至可以通过地图搜索具体地点等。

    开始实验

  • 相关阅读:
    微服务【同步和异步通讯详解】第6章
    LeetCode刷题---无重复字符的最长子串
    如果企业商标被抢注了,该怎么追回?
    告别卡顿,迎接流畅!你的mac电脑清洁利器CleanMyMac一键轻松解决所有问题!
    easyRL学习笔记:强化学习基础
    升级版4850竖曲线
    MongoDB数据迁移之迁移工具Kettle
    PixCake:让你的照片焕发新生的AI人像处理技术修图软件
    docker数据卷和数据卷容器
    Python语法--for、while循环操作
  • 原文地址:https://blog.csdn.net/a1234556667/article/details/126446966