按照具体取值形式的不同,数值变量可以分为离散变量和连续变量。
如果离散变量只有少数几个可能的取值,那么对这样的离散数据可以采取与类别数据类似的方法制作频数分布表,即分别统计一组数据中每一个取值出现的次数和所占的百分比。
大多数情况下,离散变量的可能取值往往较多,而连续变量是在区间范围内取值,均不适合一一列举。因此,对数值数据进行描述分析,通常需要先分组,再制作频数分布表。
图表区(画图)
网格线
绘图区
轴标题
坐标轴
图表标题(title)
数据标签
图例
误差线
趋势线
涨\跌柱线
用条形的长度表示各类别频数的多少,其宽度(表示类别)则是固定不变的。条形图的矩形是分开排列。主要展示分类数据。
条形图的用途最广泛,它是最为简洁明了的基本图形。条形图用于二维数据之间的对比,利用条形的长短对比不同数据的差异。对于所有的中小规模数据集,条形图都工作得非常好;
还可以根据分析需要将上述两个类别变量绘制在同一个条形图中进行交叉比较,这就是复式条形图。
是将一个圆划分成多个扇形,用每个扇形的面积(即角度)大小代表不同类别的频数在总频数中所占的百分比。它主要用于表示一个样本(或总体)中各组成部分的数据占据全部数据比例,对于研究结构性问题十分有用。
饼图不是一种好操纵的图形,饼图最明显的两个局限在于它不能同时展示过多的数据类,也容易缩小不同类别的差距。使用饼图时的通常做法是将一个整圆切割为几个扇形,每个扇形代表一类数据,通过对不同扇形面积的比较来判断不同数据的差异。与条形图不同,人类很难区分出饼图中的细微差异,因此将一个饼图划分为过多的小扇形是没有意义的,同一个饼图中最多不要超过5个扇形。
环形图是将两个或两个以上的饼图叠放在一起,然后“挖去”中间的部分所构成的图形。
环形图中用每一个环形代表不同的样本,同一个样本(同一个环)的不同构成部分则用环上的不同分段来表示。环形图与饼图的基本功能类似,但如果需要同时对比多个样本数据的构成结构,环形图将更为直观和简洁。
分组是将变量的所有取值划分为若干个区间,每一个区间作为一组,区间的最小值称为组下限,最大值称为组上限。分组应遵循“不重不漏”的基本原则,也就是不同区间的划分应该使得所有的数据都能够并且只能够被归属到某一个区间内。数值数据的分组步骤如下:
用于展示分组数据分布的一种图形,它是用矩形的宽度和高度(即面积)来表示频数分布的。用横轴表示数据分组(宽度表示各组的组距),纵轴(高度)表示频数或频率。宽度和高度均有意义。由于分组数据具有连续性,直方图的各矩形通常是连续排列。主要展示数值型数据。
注意:直方图和条形图外观近似,但实际上其性质和功能完全不同。
条形图主要用于描述类别数据的频数分布,通常用矩形代表不同的类别,因此其宽度并没有实际意义,在绘制条形图时不同类别的矩形往往是分开排列的。而直方图则主要适用于描述数值数据的频数分布,矩形的宽度代表的是分组后各组的组距,有实际的数值含义,因此绘制直方图时各个矩形必然是连续排列的。
又称为盒须图、盒式图。是由一组数据的最大值(max),最小值(min),中位数(median),两个四分位数(quartiles)这五个特征值绘制而成的,它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较,用于连续型数据,查找异常值。
首先,找出一组数据的三个四分位数,画出箱子。上、下四分位数构成封闭箱子的边界,中位数位于箱子内部。
然后,计算出内围栏和相邻值,画出须线。内围栏是分别低于下四分位数和高于上四分位数1.5倍四分位差的两个值,取值位于上下内围栏之间的数据的最大值和最小值(即非离群点的最大值和最小值)称为上、下相邻值,用直线将上下相邻值分别与箱子连接,形成须线。
最后,标出离群点。离群点是大于上内围栏或小于下内围栏的数值。
箱线图既可以用于观察未分组数据的分布形态和离散程度,还可以用于识别异常值。此外,箱线图的另一个重要用途是可以针对多个数值变量的多组数据,方便地比较其分布特征。
是用于展示两个数值变量之间关系的一种常用图形。用二维坐标展示两个变量之间关系的一种图形。它是用坐标横轴代表变量x,纵坐标代表变量y,每组数据(x,y)在坐标系中用一个点表示。
散点图既可以用于对比二维数据,也可以用于对比三维数据。散点图注重多个维度之间的比较,如果拿不准数据集是否适合做回归分析,散点图可以帮助数据分析师看清数据的分布趋势。在聚类分析中,散点图同样能够帮助数据分析师直观了解不同类别的差别;
可用于展示三个变量之间的关系,与散点图类似,绘制时将一个变量放在横轴,另一个变量放在纵轴,而第三个变量则用气泡的大小来表示。
气泡图是散点图的升级版,它不但能够在三维空间里体现出数据的分布,还可以通过气泡的大小体现不同数据的重要度。还可以通过气泡的颜色体现数据的类别。例如,在词频分析中,一个单词出现的次数越多,这个单词就越大,这就是一种气泡图的经典变形。
是从一个点出发,用不同方向的射线分别代表不同的变量,将同一个样本各个变量的取值落在射线上的点连接成一个“蜘蛛网”,多个样本则形成多个“蜘蛛网”。
是显示多个变量的常用图示方法。利用雷达图也可以研究多个样本之间的相似程度。
它可以同时比较5维左右的数据,但不能超过6维。此外,雷达图也不能比较太多的数据。这种局限性使得雷达图的用处十分有限,但对于适合使用雷达图展示的数据来说,雷达图能最大限度地展示数据信息。
如果数值型数据是在不同时间上取得的,及时间序列数据,则可以绘制线图。主要用于反映现象随时间变化的特征。绘制线图时,时间一般绘在横轴,观测值绘在纵轴。
折线图同样用于对比二维数据,与条形图不同,它展示的重点不是不同数据的差异,而是数据整体的趋势走向,因此在所有涉及时间的数据都会运用折线图,对于金融数据来说,尤其是这样。
截面数据:相同时间,不同地点产生的数据;
时间序列:和时间相关产生的数据;
从一般性而言,图表的最大优势就是直观、形象。既要有助于引导读者理解数据,又要避免造成错误的印象,绘制图表时应注意以下几点:
第一,正确理解不同图表的用途,合理选择适用的图表。
第二,真实展示数据特征,合理安排图表结构。
第三,遵循图表制作规范。
一张好的图形应具有的基本特征:
鉴别图形优劣的五条准则:
知乎:https://www.zhihu.com/question/40903517/answer/130611180
可读性
精准性
客观性
统一性
知乎:https://www.zhihu.com/question/40903517/answer/130611180
可读性
精准性
客观性
统一性