这是给自己看的描述统计学笔记,第二课展现数据,Visualizing Data.
其实突然间就跳转到数据可视化有些突然,毕竟通常统计学都是从平均数等等开始的。不过大概这也是从直观上去了解数据的动向与趋势吧。
这节课回答的问题是,“怎样看出数据的分布?”
之前的课程:第一课
Frequency, Proportion 与 Percentage
其实这些属于相当容易理解的内容:
- Frequency 频次即每个项目出现的次数
- Proportion 份额则是每个项目的频次,占所有项目总频次的份额,用小数表示
- Percentage 百分比就是将份额用百分比表示
用一个简单的 2013 年世界各大陆人口数量的表格来表示则是:
Continent | Population (Frequency) | Proportion | Percentage |
Asia | 4,298,723,000 | 0.60 | 60% |
Africa | 1,110,635,000 | 0.16 | 16% |
Europe | 742,452,000 | 0.10 | 10% |
North America | 565,265,000 | 0.08 | 8% |
South America | 406,740,000 | 0.06 | 6% |
Australia and Oceania | 38,304,000 | 0.01 | 1% |
Antarctica | 0 | 0.00 | 0% |
World (Total) | 7,162,119,000 | 1.00 | 100% |
需要注意的是,对于这种单选的分类(即一个个体只能属于一个项目,例如一个人只能属于一个大洲),份额的范围在 0 到 1 之间,各项目之和必为 1;百分比同理。
其实这个对于自己的工作来说是最基本的地方,连实习生都能轻易理解。
Histogram 与 Bar Graph
Histogram 直方图,与 Bar Graph 条形图,均为使用条形来显示 Proportion 或者 Percentage 的图形。如下图所示,左方为 50 个学生考试的成绩分布图,右方为上述世界按各大陆人口的分布图:
两者之间虽然均为展示 Percentages 的图,然而还是有些不尽一样的地方:
Histogram | Bar Chart | |
X 轴内容 | 数值 (numeric) | 名称 (categorical) |
X 轴顺序 | 不能调换 | 能够调换;通常从大到小,或从小到大,或按字母排序 |
X 轴数量 | 可根据间隔 (bin) 调整 | 固定 |
Histogram 当中的 x 轴是根据 bin 的间隔 (bin size) 而变化的,例如上方的 61-70 分作为一个 bin, 其间隔为 10. 如果将 bin 间隔设置为 5 的话,则会从 4 个 bin 变成 8 个。将 bin 间隔设置为多少,并且需要多少个 bin, 则根据实际的需求来决定。
对于 Histogram 来说,根据数据的偏差情况,基本上可以分成三种:
- Normal Distribution 正态分布,数据频率集中在中间的 bin.
- Positive Skewed Distribution, 数据频率集中在左方的 bin.
- Negative Skewed Distribution, 数据频率集中在右方的 bin.
其实 Lesson 02 的内容很简单,然而对 Histogram 与 Bar Chart 的区分对于自己来说也是很重要,毕竟一直以来自己都以为这两者是一样的。
另外, Excel 2016 终于能添加 Histogram 了,只是只能显示 Frequency 还不能显示 Percentage 而已。
[…] 之前的课程:第一课 第二课 […]
[…] 之前的课程:第一课 第二课 第三课 […]
[…] Normal Distribution 并不能适应所有分布。在第二课当中也提起过,分布还会有 positive skewed 与 negative skewed […]
[…] 之前的课程:第一课 第二课 第三课 第四课 第五课 […]