信度 (Reliability) 与效度 (Validity)

研究生入学考试的时候有两本语言学参考书;而在自己考试的前一年考试当中,其中一本书涉及到的内容很少,以至于自己当时都有些故意忽略了那本次要的参考书。

虽然结果有些悲催,故意忽略的这本参考书反而在自己考试的时候占了很大的分量,以至于自己差点没有过分数线;即便这本书在自己之后的考试就变得不需要了。

之所以记得那么清楚,这本次要的参考书当中介绍了信度 (reliability) 与效度 (validity), 一直都是自己一知半解的内容;大抵还是因为当时故意忽略的结果了吧。

在自己也是一个市场研究人员的现在,把这两个经常在研究领域当中出现的概念搞清楚也好。搜索了一下,这篇文章基本上说得挺有条理的,先根据它来整理一下。

测量方法多种多样,而判断测量方法出来的结果是否足以有用,通常需要考虑两个因素:

  • 信度 (reliability), 测量的结果是否一致。
  • 效度 (validity), 测量的结果是否就是想要测量的结果。

虽然中文翻译的“可信”与“有效”和 reliable (可靠)与 validity (精准)之类的会有些微妙的不同,不过既然已经是约定俗成的中文翻译那就依照惯例吧。

信度 (Reliability)

信度关注的是测量结果的一致性,通常包括三种:

  1. 跨越时间的一致性(再测试的稳定性,Test-Retest Reliability)
  2. 跨越变量的一致性(内部一致性,Internal Consistency)
  3. 跨越研究人员的一致性(评分者之间的一致性,Inter-Rater Reliability)

跨越时间的一致性(再测试的稳定性,Test-Retest Reliability)

经过一段时间之后再次对同一群人/对象进行同一个测试,结果应该一致。

衡量的方法则是隔一段时间之后再次测试同一群人/对象,将两次的结果列出散点图,相关系数应该足够高 (+0.80 或以上)。这个一段时间不能太短,否则测试对象记忆犹新;也不能太长,以免测试对象自身已经成长改变。

跨越变量的一致性(内部一致性,Internal Consistency)

测试对象在类似变量的相关性表现应该类似。

例如说问卷有询问个人收入与一年去旅行的次数,通常是成正比;同时也问手机的价格,这个也通常是与个人收入成正比。这些同样由个人收入所影响的两个变量之间存在的关系,不同的测试对象,应该能体现一致性。

衡量的方法可以用折半法 (split-half correlation), 把题目分成前半/后半,或者是奇数/偶数顺序的题目,两半之间的题型、内容与难度类似;然后将测试对象的作答作为散点图,相关系数应该足够高 (+0.80 或以上)。

衡量内部一致性有个数字叫做 Conbach’s α. 例如说,把 10 个变量分成两组( 5 个一组)有 252 种方法(排列组合),每种分法都能计算出一个相关系数。α 则是这 252 个相关系数的平均数。

跨越研究人员的一致性(评分者之间的一致性,Inter-Rater Reliability)

有些测试会有研究人员的主观观察。当研究人员不止一个的时候,可以查看不同研究人员对同一个事情的看法是否高度相关。

效度 (Validity)

效度则是,测量结果(操作化定义)是否真的能测量出来想测量的东西(概念定义)。

例如说,通过询问一年去旅行的次数或者手机的价钱,来测量这个人的收入水平(高效度);又或者说,通过测量一个人的食指长度来测量这个人的自信水平(低效度)。

效度分为几种:

  1. 表面效度 (Face Validity), 结果看起来是不是“有理有据”
  2. 内容效度 (Content Validity), 结果是否已经包含所需要测量的信息
  3. 条件效度 (Criterion Validity), 结果是否与预期应该相关的变量有着预期的相关关系
  4. 区分效度 (Discriminant Validity), 与条件效度相反,结果是否与预期不应该相关的变量有着预期的不相关关系

表面效度 (Face Validity)

表面效度就是测量的结果与结论是不是看上去就让人觉得“有理有据,让人信服”。通常这是凭借直觉或者非正式的方法去评判,然而也可以使用定量的方法去衡量,看看是否众多人有着同样的相关性。

表面效度通常比较薄弱。一来这个评判基本上是基于人自身的想法与判断,而这个很容易出错;二来一些没有表面效度的测量方法反而会行之有效。

内容效度 (Content Validity)

如果一个概念或者测试的目标已经知道它包含哪些变量或者条件,那么这个概念/测试目标的构成则需要包含这些变量与条件。这需要了解概念/测试目标本身是什么,包括什么内容。

例如说,如果把“考试焦虑”定义为紧张情绪与负面想法的混合,那么衡量“考试焦虑”的时候就要衡量“紧张情绪”与“负面想法”这两者。

条件效度 (Criterion Validity)

如果认为某个测量结果与其他的变量应该有着相关关系,那么做这样的相关性测试也能体现条件效度。

例如说,“考试焦虑”的分数越高,通常认为考试出来的分数就越低;如果结果能体现出来这样的负相关关系则能代表这个“考试焦虑”体现出来条件效度。

条件效度也分不同的情况:

  • 如果这些条件是与测量结果同时进行(“考试焦虑”与考试同时进行),这个叫做“同期效度” (concurrent validity)
  • 如果条件是在测量结果之后进行(先进行“考试焦虑”然后未来再考试),这个叫做“预期效度” (predictive validity)
  • 如果条件还包含测量结果当中的其他要素,即新的测量结果与使用同样要素的已有测量结果正相关,这个叫做“趋同效度” (convergent validity)

区分效度 (Discriminant Validity)

如果已经认为测量结果与某个条件之间并没有相关的关系,那么就不该有相关关系,才能体现出区分效度。例如说一个人的认知能力与“考试焦虑”应该不存在相关关系。

信度与效度基本上是都会见到的概念,弄清楚也会对之后的自己有所帮助吧。

About the author

secangel

双子座 AB 型,资深女校男生

2 comments

About Author

secangel

双子座 AB 型,资深女校男生

Keep In Touch