给自己看的笔记-描述统计学-01 研究方法

很久之前自己在学习各种网络课程之后就发现一个问题,自己并没有将当时能够理解的新知识与新内容以一种自己方便回顾的方式记录下来。固然那些课程大部分自己都有在用思维导图等等方式记录下来,然而终须只是听课时候的笔记,事后就会容易淡忘。

具体到统计学这个其实和现在自己的工作相关的学科,在 Coursera 以及其他网站上面自己曾经上过不下十门的课程,只是由于缺乏总结自己发现这些课程并未对自身帮助很大。目前自己在 Udacity 上面学习一门描述统计学一门推论统计学,课程本身尽管耗时但解释明了易懂,自己也认为应该要把目前所理解的内容记录下来方便以后自己更加快速地捡回来。

而目前的是描述统计学的第一课,Research Methods. 这节课回答的问题是,“怎样用统计学来分析现象?”

descriptive-stat-lesson-01

 

一点背景

统计学是以小窥大的科学,使用数学工具来描述部分样本来明白整个总体的方法。而统计学总体来说可以分成描述统计学 Descriptive Statistics 与推论统计学 Inferential Statistics. 前者描述数据,后者则通过数据进行推理寻因。

说句题外话,自己觉得统计学与概率论是数学当中最实用的部分了,比三角函数还实用啊。

 

Construct 与 Operational Definition

Construct 是难以测量的主体或者对象,例如人的智慧,或者说人的成功,这些都不是可以能够直接衡量的事物。与 Construct 相对的则是能够量化的事物,例如说月薪、身高等等。

然而如果一定要对 Construct 进行衡量的话,则需要设定 Operational Definition 进行衡量。例如说评论一个人如何成功,其中一个 Operational Definition 就是收入水平, 通过这种 Operational Definition 去衡量成功这种 Construct. 诚然选择 Operational Definition 并非易事,正如只有收入不代表成功程度。

对自己来说,自己的项目平时总会有一个研究对象,如消费者的满意度、品牌的忠诚度等等,自己才察觉原来这些也属于 Construct 这种并非容易测量的事物,需要通过各种 Operational Definition 同时去衡量与界定。

 

Population, Sample 与 Sampling Error

Population 作为总体,通常是数量巨大并非容易就能取得所有信息的集合。这个时候需要对总体进行取样 Sampling, 取出一部分样本 Sample 进行研究与分析,并通过结果 (Statistics) 推测 Population 的特征 (Parameter).

取样的过程与方法十分关键,不正确的取样得到的 Sample 所产生的数据可能会与 Population 本身的特征与性质相差甚远。评定这种取样当中的误差则是 Sampling Error, 为 Population 的平均数 μ 与 Sample 的平均数 x̄ 之间的差值:

Sampling Error = μ – x̄

取样的重要性对自己说也是至关紧要,每个项目的配额设置都是头疼之处,因为收集到的数据是否有理能解释问题,因此不得掉以轻心。

 

Independent Variable, Dependent Variable 与 Extraneous Factors

如果要查看两个变量或者因素之间的关系,通过散点图可以从视觉上直观地看到两者是否有相关关系,一个点代表一个样本。

X 轴放置的是 Independent Variable 或者说 Predictor Variable 自变量,Y 轴放置的是 Dependent Variable 或者说 Outcome 因变量,通常用来查看 X 轴的 Independent Variable 是否会对 Dependent Variable 造成影响。有时候 Dependent Variable 就会是上面的 Operational Definition, 用来衡量与评定 Construct.

例如说用收入水平这个 Operational Definition 来评定成功程度这个 Construct, 就可以将收入水平作为 Dependent Variable 放在 Y 轴。Independent Variable 可以有很多选择,例如说工作年限。毕竟, 通常来说工作年限会影响收入水平,而不会是收入水平影响工作年限。

正常来说工作年限越长,收入水平就会越高,两者之间存在一个相关 Correlation 的关系。然而除去工作年限,也会有其他一些 Extraneous Factors 或者说 lurking variables 外部的因素影响到收入水平,例如说教育程度或者职业类型。

因此,有 Correlation 相关关系并不意味着有 Causation 因果关系

同样需要补充的是事情的先后顺序亦不意味着有因果关系。

正如如果在一次考试前,全班同学都吃了米饭,之后大家都及格了,吃米饭的人群与及格之间有个相关的关系,吃了米饭在先之后大家才及格,但是并不意味着吃了米饭就能够及格。

 

Research Methods: Observation, Survey 与 Experiment

研究方法有许多种,而课程当中则描述了三种:

  • 要衡量 Correlation, 请用 Observation 观察与 Survey 调查
  • 要衡量 Causation, 请用 Experiment 实验

尽管是简单的分类,对于自己来说却是明白了许多。自己的主职是通过调查进行研究,因而得出的结论应该是 Correlation 居多才是。

 

Survey

Survey 的优势还是显而易见的:

  • 容易获得关于 Population 的信息
  • 相对便宜
  • 能远程操控,不需要亲自前往
  • 任何人在得到授权的情况下都能使用数据进行分析

不过 Survey 亦并非万灵药,也有其劣势:

  • 受访者的作答有可能不真实
  • 受访者的作答可能会有所偏差
  • 受访者可能并不明白题目的意思
  • 受访者可能会拒绝作答

 

Experiment

旨在寻找 Causation 关系的 Experiment, 则是需要在有 Controlled Factor 受控因素的前提下,才能对实验组与对照组进行不同的实验。Controlled Factor 并不作为原因之一;例如说实验组与对照组的实验时间是一样的话,时间就不能作为实验结果不同的理由了。

实验组是会接受到实验,或者说假设的原因;而对照组则是接受到 Placebo 伪装是实验的对待,正常来说不会影响到结果。

实验的对象需要进行 Random Assignment 以确保结果的可代表性。同时,实验也需要进行 Blind 或者 Double Blind 的处理。前者只是实验对象并不清楚自己是实验组或者是对照组;而后者则是在评定实验结果时,连工作人员都不知道实验对象属于哪个组别。通常来说后者更加严谨,因为 Double Blind 更加能减少来自人的先入为主。

 

其实这个作为提纲携领的第一课,只是在阐述一些概念而并非充斥着各种数学运算。尽管如此,对于自己来说却是将平时的感性认识总结而成的理性认识;也开始明白自己平时在做的事情,在 Research 这个大框架之下属于怎样的位置,有着怎样的着重点与局限。

在这里总结之前,自己已经在 Surface 上面用 Bamboo Paper 来手写做笔记了。尽管手写笔在平板电脑上面的笔触感觉依然不真实,然而再次使用到这种自己当年对自身最为有效的整理方法,还是希望这次也能有些作用的,毕竟当时用到这种方法的都是需要用心记录的知识了。

About the author

secangel

双子座 AB 型,资深女校男生

7 comments

About Author

secangel

双子座 AB 型,资深女校男生

Keep In Touch