给自己看的笔记-描述统计学-02 展现数据

这是给自己看的描述统计学笔记,第二课展现数据,Visualizing Data.

其实突然间就跳转到数据可视化有些突然,毕竟通常统计学都是从平均数等等开始的。不过大概这也是从直观上去了解数据的动向与趋势吧。

这节课回答的问题是,“怎样看出数据的分布?”

之前的课程:第一课

Lesson 02 - Visualizing Data

 

Frequency, Proportion 与 Percentage

其实这些属于相当容易理解的内容:

  • Frequency 频次即每个项目出现的次数
  • Proportion 份额则是每个项目的频次,占所有项目总频次的份额,用小数表示
  • Percentage 百分比就是将份额用百分比表示

用一个简单的 2013 年世界各大陆人口数量的表格来表示则是:

Continent Population (Frequency) Proportion Percentage
Asia 4,298,723,000 0.60 60%
Africa 1,110,635,000 0.16 16%
Europe 742,452,000 0.10 10%
North America 565,265,000 0.08 8%
South America 406,740,000 0.06 6%
Australia and Oceania 38,304,000 0.01 1%
Antarctica 0 0.00 0%
World (Total) 7,162,119,000 1.00 100%

需要注意的是,对于这种单选的分类(即一个个体只能属于一个项目,例如一个人只能属于一个大洲),份额的范围在 0 到 1 之间,各项目之和必为 1;百分比同理。

其实这个对于自己的工作来说是最基本的地方,连实习生都能轻易理解。

 

Histogram 与 Bar Graph

Histogram 直方图,与 Bar Graph 条形图,均为使用条形来显示 Proportion 或者 Percentage 的图形。如下图所示,左方为 50 个学生考试的成绩分布图,右方为上述世界按各大陆人口的分布图:

Descriptive-Statistics-Lesson-02-01 Descriptive-Statistics-Lesson-02-02

两者之间虽然均为展示 Percentages 的图,然而还是有些不尽一样的地方:

Histogram Bar Chart
X 轴内容 数值 (numeric) 名称 (categorical)
X 轴顺序 不能调换 能够调换;通常从大到小,或从小到大,或按字母排序
X 轴数量 可根据间隔 (bin) 调整 固定

Histogram 当中的 x 轴是根据 bin 的间隔 (bin size) 而变化的,例如上方的 61-70 分作为一个 bin, 其间隔为 10. 如果将 bin 间隔设置为 5 的话,则会从 4 个 bin 变成 8 个。将 bin 间隔设置为多少,并且需要多少个 bin, 则根据实际的需求来决定。

对于 Histogram 来说,根据数据的偏差情况,基本上可以分成三种:

  • Normal Distribution 正态分布,数据频率集中在中间的 bin.
  • Positive Skewed Distribution, 数据频率集中在左方的 bin.
  • Negative Skewed Distribution, 数据频率集中在右方的 bin.

 

其实 Lesson 02 的内容很简单,然而对 Histogram 与 Bar Chart 的区分对于自己来说也是很重要,毕竟一直以来自己都以为这两者是一样的。

另外, Excel 2016 终于能添加 Histogram 了,只是只能显示 Frequency 还不能显示 Percentage 而已。

About the author

secangel

双子座 AB 型,资深女校男生

4 comments

回复 Simply Simple» Blog Archive » 给自己看的笔记-描述统计学-05 标准化 Cancel reply

About Author

secangel

双子座 AB 型,资深女校男生

Keep In Touch