本章介绍了简单视图、负责视图、统计分析可视化的操作,侧重实战动手操作。
直方图是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况,一般用横轴表示数据类型,纵轴表示分布情况。直方图的主要类型如下:
(1)标准型直方图:图形呈现中间高、两边低,左右近似对称。
(2)孤岛型直方图:图形的左侧或右侧出现孤立的小岛。
(3)双峰型直方图:图形中出现两个山峰。
(4)折齿型直方图:图形呈现凹凸不平的形状,
(5)陡壁型直方图:图形像高山一样陡壁,向一边倾斜。
(6)偏态型直方图:图形的顶峰有时偏向左侧、有时偏向右侧。
(7)平顶型直方图:图形没有突出的顶峰,呈平顶型。
例如,要创建一个显示不同订单金额区间的直方图,具体步骤如下:
在度量中选择“销售额”字段,将其拖放到行功能区,还需要单击“智能显示”中的直方图视图,用于创建直方图。显示企业在各个销售额区间的订单次数。
将“支付方式”字段拖入“筛选器”功能区中,例如选择子类别类型为“支付宝”。
将“销售额”字段拖入“颜色”和“标签”标记,并为视图添加标题等,现在可以看出使用支付宝这种支付方式的订单销售额分布情况。
为了能够更清晰的查看销售额分布情况,还可以将横轴的坐标刻度进行固定,这里设置为0到15000(即0K到15K)。
折线图是用直线将各个数据点连接起来而组成的图形,以折线方式显示数据的变化趋势。折线图可以显示随时间而变化的连续数据,因此非常适合显示相等时间间隔的数据趋势。在折线图中,类别数据沿水平轴均匀分布,值数据沿纵轴均匀分布。
数据分析中常常会用到折线图和面积图,看起来很相似,可以完成同一类的分析,但是他们却是不能互换的,正确使用折线图的几点注意事项:
(1)折线图的横坐标只能是时间,如果变成了省份等分类变量,就没有趋势可言。
(2)折线图展示的是一定日期内的数值趋势,而面积图展示的是总值趋势。
例如,要创建一个显示不同订单日期的销售额折线图,具体步骤如下:
将“订单日期”拖放到列功能区,将“销售额”拖放到行功能区。
为了观察订单按月份的趋势,可以单击列功能区中的“年(订单日期)”,然后选择“月 2015年5月”选项。
我们还可以通过“标记”下的“颜色”“大小”和“标签”等对视图进行美化,并给视图添加标题。
气泡图可用于展示三个变量之间的关系绘制时将一个变量放在横轴,另一个变量放在纵轴,而第三个变量则用气泡的大小来表示。
气泡图与散点图类似,不同之处在于:气泡图允许在图中额外加入一个表示气泡大小的变量。
例如,要创建一个不同省市销售额大小的气泡图,具体步骤如下:
将度量下的“销售额”字段拖放到列功能区,将维度下的“省市”字段拖放到行功能区,拖放完成后,Tableau会自动生成条形图。
通过Tableau右上方的“智能显示”调整样式,选择“气泡图”选项。
然后将“销售额”字段拖放到“颜色”标记,为视图添加标题,进一步编辑颜色和美化视图。
树状图通过在嵌套的矩形中显示数据,使用维度定义树状图的结构,使用度量定义各个矩形的大小或颜色。可以将度量放在“大小”和“颜色”标记上,在“颜色”标记上可以包括多个维度,添加维度只会将视图分为更多的较小矩形。
例如:要创建不同类型商品的利润额树状图,具体步骤如下:
将“子类别”拖放到列功能区,将“利润额”拖放到行功能区,当列功能区上有一个维度且行功能区上有一个度量时,Tableau会显示一个默认图表,单击工具栏上的“智能显示”按钮,然后选择“树状图”视图类型。
将“商品类别”拖放到标记卡的“颜色”上,视图将被分为三个独立的区域,“商品类别”将确定矩形的颜色。将“销售额”拖放到标记卡的“标签”上,并为视图添加标题等。
散点图表示一个变量随另一个变量变化的大致趋势,据此判断两变量之间是否存在某种关联,从而选择合适的函数对数据进行拟合。
散点图的主要类型如下:
(1)散点图矩阵:用于同时绘制多个变量之间的两两相关性的散点图。
(2)三维散点图:由3个变量确定的三维空间中研究变量之间的关系。
例如,要创建订单的实际配送天数和计划配送天数的散点图,具体步骤如下:
将“实际配送天数”拖放到行功能区,将“计划配送天数”拖放到列功能区,同时取消菜单栏“分析”下的“聚合度量”选项。
将“配送延迟天数”拖放到“颜色”和“形状”标记上,并为视图添加标题等,从视图可以看出商品的配送延迟天数分布情况。
箱形图又称为箱线图或盒须图,是一种用作显示一组数据分散情况资料的统计图。箱形图主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较等。
箱线图的绘制方法是:先将数据进行排序,找出一组数据的上边缘、下边缘、中位数和两个四分位数,然后连接两个四分位数画出箱体,再将上边缘和下边缘与箱体相连接,中位数在箱体中间。
例如,要创建不同类型商品的折扣箱形图,具体步骤如下:
将“商品类别”和“地区”拖放到列功能区,将“折扣”拖放到行功能区,Tableau将创建一个条形图。单击工具栏中的“智能显示”按钮,然后选择“盒须图”视图类型。
将“折扣”拖放到“标签”标记,并为视图添加标题等,从视图可以看出不同类型商品的折扣分布情况。
环形图是由两个及其以上大小不一的饼形图叠加而成,挖去中间的部分所构成的图形,环形图与饼形图类似,但又有区别,环形图中间有一个“空洞”。
例如,要创建不同地区退单量的环形图,具体步骤如下:
将度量中的“记录数”拖放到行功能区,重复两次操作,并在标记卡上选择“饼图”。
将视图显示方式调整为适应“整个视图”,选择第一个饼图,单击“大小”标记,修改饼图的大小。
在行功能区,将两个记录数的聚合计算类型由“总和”修改为“平均值”。
在第一个度量上,将“地区”字段拖放到“颜色”标记,“利润额”字段拖放到“角度”标记,并设置快速表计算类型为“合计百分比”。
在第二个度量上,鼠标右击纵坐标轴,选择“双轴”选项。
然后鼠标右击纵坐标轴,选择“同步轴”选项。
再右击纵坐标轴,选择“编辑轴”选项,设置轴的范围,使得圆环图置于视图的中间位置,选择“固定”选项,并输入初始值,固定开始为0.8,固定结束为1.2。
然后使用“大小”标记适当调整两个饼形图的大小,使其更加美观。
设置标签,在第一个度量上,将“地区”和“是否退单”拖放到“标签”标记,并设置“是否退单”的快速表计算类型为“合计百分比”。
设置第二个饼图(内部小的饼图)的颜色,选择第二个饼图,然后选择“颜色”标记,选择颜色类型为“无”,最后,为视图添加标题等,使其更加美观。
倾斜图可以展示单个指标在不同时期的变化情况,既能展示值的大小变化,又能展示排名变化等。
例如,我们需要绘制企业各个门店在2018年和2019年销售业绩排名的倾斜图。
数据包含门店名称、2018年排名、2019年排名三个字段。
绘制倾斜图之前,首先需要对基础数据进行整理,创建“排名变化”新字段,即计算“2018年排名”与“2019年排名”的差值。
注意:由于“2018年排名”和“2019年排名”都为非聚合字段,因此在公式中需要对字段进行聚合处理,如添加SUM函数,才能让两个字段进行计算。
要创建的斜线图,其横轴是“2018年排名”和“2019年排名”两个字段,纵轴是排名,相对前面介绍的视图,绘制过程比较复杂,具体操作步骤如下:
将维度下的“度量名称”和度量下的“度量值”分别拖放到列功能区和行功能区。
在左下角“度量值”区域保留“2018年排名”和“2019年排名”两个度量值,删除其他选项,标记类型选择“线”。
将“排名变化”字段拖放到“大小”标记,将“门店名称”拖放到“标签”标记。
单击标记卡中的“标签”,修改标签的对齐和标签标记选项。
倒转坐标轴,在纵轴上通过鼠标右键进入“编辑轴”页面,将纵坐标轴设置为“倒序”,使得排名按照从上往下的顺序,体现球队排名从高到低。
将“度量值”拖放到“标签”标记,单击“标签”进入其设置页面,将标签设置为“<度量值>.<门店名称>”,在视图中将按照设置好的格式进行显示。
对创建的斜线图进行美化,包括添加视图标题、调整“度量值”的数字格式、去除纵坐标轴标题、添加线条颜色等。
例如:需要分析“门店A销售额”与“门店A利润额”两个连续变量之间的关系。
将“门店A销售额”与“门店A利润额”分别拖至列功能区和行功能区,此时视图区域仅有一个点,这是由于Tableau会把两个度量按照“总和”进行聚合。选择菜单栏“分析”下的“聚合度量”选项,移除选中标记,即解聚这两个度量字段。
散点图矩阵是散点图的高维扩展,可以帮助探索两个及以上变量的两两关系。
例如,需要分析门店A、门店B、门店C三家门店销售额两两之间的关系。
将“门店A销售额”“门店B销售额”“门店C销售额”等分别拖至行功能区和列功能区,并通过“分析”菜单下的“聚合度量”对三个度量进行解聚。
在Tableau创建散点图之后,可以通过添加趋势线对存在相关关系的变量进行回归分析,拟合其回归直线。在向视图添加趋势线时,Tableau将构建一个回归模型,即趋势线模型。截至目前,Tableau内置了线性、对数、指数、多项式和幂等5种趋势线模型。
(1)线性:回归方程是线性函数关系y=a+bx1+ cx2+……。
(2)对数:回归方程是对数函数关系y= logax。
(3)指数:回归方程是指数函数关系y= a^x。
(4)多项式:回归方程是多项式函数关系y=a+bx+cx2+dx3+……。
(5)幂:回归方程是幂函数关系y=x^a。
例如,需要对“门店A销售额”与“门店A利润额”两个变量进行回归分析。
将“门店A销售额”与“门店A利润额”分别拖至行功能区和列功能区,然后通过菜单栏“分析”下的“聚合度量”对变量进行解聚,生成简单散点图。
在Tableau中,为散点图添加趋势线有两种方法:
方法1:在散点图上单击鼠标右键,选择“趋势线”下的“显示趋势线”,注意默认构建线性回归模型。
方法2:拖放“分析”窗口中的“趋势线”到右侧视图中,可以选择构建模型的类型,有线性、对数、指数、多项式、幂等5类。
下面以“线性”模型为例进行介绍,首先对简单散点图的横坐标起始范围进行设置,范围为40到190。生成趋势线后将鼠标悬停在趋势线上,这时可以查看趋势线方程和模型的拟合情况。
在视图上单击鼠标右键,选择“趋势线”下的“编辑趋势线”选项,Tableau弹出“趋势线选项”页面,此时可以重新选择趋势线的类型等。
添加趋势线后,如果想查看模型的拟合优度,我们只需在视图中右击鼠标,选择“趋势线”下的“描述趋势模型”选项,打开“描述趋势模型”页面。
下面以企业经营数据为例,对门店A和门店B在3月份销售额数据进行聚类分析。
将“门店A销售额”拖放到列功能区,将“门店B销售额”拖放到行功能区。通过菜单栏“分析”下的“聚合度量”对变量进行解聚。然后设置横轴和纵轴的刻度范围,都从100开始。
拖放“分析”窗口中的“群集”到右侧视图中,在视图的左上方会显示创建群集的信息。
根据绘制的散点图可以看出,分为4类比较合适,因此在弹出的“群集”对话框中的“群集数”中输入4。
将生成的“群集”字段添加到“标记”卡上的“标签”和“形状”控件,然后,对视图进行适当的美化,聚类分析的结果如图所示。
在“群集”下拉框中,选择“描述群集”选项。Tableau会弹出“描述群集”页面,其中在“摘要”选项卡中,描述已创建的预测模型,包括“要进行聚类分析的输入”、“汇总诊断”等。
在“群集”下拉框中,选择“编辑群集”选项,在“群集”页面,可以添加聚类变量和修改聚类数。
Tableau嵌入了“指数平滑”的预测模型,即基于历史数据引入一个简化的加权因子,即平滑系数,以迭代的方式预测未来一定周期内的变化趋势。
该方法之所以称为指数平滑法,是因为每个级别的值都受到前一个实际值的影响,且影响程度呈指数下降,即数值离现在越近权重就越大。
通常,时间序列中的数据点越多,所产生的预测就越准确。如果要进行季节性建模,那么需要具有足够的数据,因为模型越复杂,就需要越多的数据进行训练。
截至目前,Tableau有3种方式生成预测曲线:
优化预测模型。Tableau默认的预测模型可能不是最优的。可以通过依次单击菜单栏“分析”→“预测”→“预测选项”选项,打开“预测选项”页面,查看Tableau默认的模型类型和预测选项并进行适当的修改。
地理数据一般是通过绘制地图实现可视化,地图是指依据一定的数学法则,使用制图语言表达地球上各种事物的空间分布、联系及时间的发展变化状态而绘制的图形。
下面简单介绍一下Tableau绘制地图的步骤:
(1)设置角色:构建地图的第一步是指定包含位置数据的字段。Tableau会自动将地理角色分配给具有公用位置名称的字段。
(2)标记地图:在创建地图时,需要将生成的纬度(生成)和经度(生成)分别拖放到行功能区和列功能区,并将地理字段(如“城市”)拖放到“详细信息”标记。
(3)添加字段信息:为了使地图更加美观,需要添加更多字段信息,可以通过从“数据”窗格中将度量或连续维度拖放到“标记”卡实现。
(4)设置地图选项:在创建地图时,有多个选项可以帮助我们控制地图的外观,菜单栏依次单击“地图”→“地图选项”,打开“地图选项”窗格。
(5)自定义地图:创建地图时,可以使用不同方式浏览视图并与其交互,可以放大和缩小视图、平移、选择标记,甚至可以通过地图搜索具体地点等。
开始实验