信度 (Reliability) 与效度 (Validity)

研究生入学考试的时候有两本语言学参考书；而在自己考试的前一年考试当中，其中一本书涉及到的内容很少，以至于自己当时都有些故意忽略了那本次要的参考书。

虽然结果有些悲催，故意忽略的这本参考书反而在自己考试的时候占了很大的分量，以至于自己差点没有过分数线；即便这本书在自己之后的考试就变得不需要了。

之所以记得那么清楚，这本次要的参考书当中介绍了信度 (reliability) 与效度 (validity), 一直都是自己一知半解的内容；大抵还是因为当时故意忽略的结果了吧。

在自己也是一个市场研究人员的现在，把这两个经常在研究领域当中出现的概念搞清楚也好。搜索了一下，这篇文章基本上说得挺有条理的，先根据它来整理一下。

测量方法多种多样，而判断测量方法出来的结果是否足以有用，通常需要考虑两个因素：

信度 (reliability), 测量的结果是否一致。
效度 (validity), 测量的结果是否就是想要测量的结果。

虽然中文翻译的“可信”与“有效”和 reliable （可靠）与 validity （精准）之类的会有些微妙的不同，不过既然已经是约定俗成的中文翻译那就依照惯例吧。

信度 (Reliability)

信度关注的是测量结果的一致性，通常包括三种：

跨越时间的一致性（再测试的稳定性，Test-Retest Reliability）
跨越变量的一致性（内部一致性，Internal Consistency）
跨越研究人员的一致性（评分者之间的一致性，Inter-Rater Reliability）

跨越时间的一致性（再测试的稳定性，Test-Retest Reliability）

经过一段时间之后再次对同一群人/对象进行同一个测试，结果应该一致。

衡量的方法则是隔一段时间之后再次测试同一群人/对象，将两次的结果列出散点图，相关系数应该足够高 (+0.80 或以上）。这个一段时间不能太短，否则测试对象记忆犹新；也不能太长，以免测试对象自身已经成长改变。

跨越变量的一致性（内部一致性，Internal Consistency）

测试对象在类似变量的相关性表现应该类似。

例如说问卷有询问个人收入与一年去旅行的次数，通常是成正比；同时也问手机的价格，这个也通常是与个人收入成正比。这些同样由个人收入所影响的两个变量之间存在的关系，不同的测试对象，应该能体现一致性。

衡量的方法可以用折半法 (split-half correlation), 把题目分成前半/后半，或者是奇数/偶数顺序的题目，两半之间的题型、内容与难度类似；然后将测试对象的作答作为散点图，相关系数应该足够高 (+0.80 或以上）。

衡量内部一致性有个数字叫做 Conbach’s α. 例如说，把 10 个变量分成两组（ 5 个一组）有 252 种方法（排列组合)，每种分法都能计算出一个相关系数。α 则是这 252 个相关系数的平均数。

跨越研究人员的一致性（评分者之间的一致性，Inter-Rater Reliability）

有些测试会有研究人员的主观观察。当研究人员不止一个的时候，可以查看不同研究人员对同一个事情的看法是否高度相关。

效度 (Validity)

效度则是，测量结果（操作化定义）是否真的能测量出来想测量的东西（概念定义)。

例如说，通过询问一年去旅行的次数或者手机的价钱，来测量这个人的收入水平（高效度）；又或者说，通过测量一个人的食指长度来测量这个人的自信水平（低效度）。

效度分为几种：

表面效度 (Face Validity), 结果看起来是不是“有理有据”
内容效度 (Content Validity), 结果是否已经包含所需要测量的信息
条件效度 (Criterion Validity), 结果是否与预期应该相关的变量有着预期的相关关系
区分效度 (Discriminant Validity), 与条件效度相反，结果是否与预期不应该相关的变量有着预期的不相关关系

表面效度 (Face Validity)

表面效度就是测量的结果与结论是不是看上去就让人觉得“有理有据，让人信服”。通常这是凭借直觉或者非正式的方法去评判，然而也可以使用定量的方法去衡量，看看是否众多人有着同样的相关性。

表面效度通常比较薄弱。一来这个评判基本上是基于人自身的想法与判断，而这个很容易出错；二来一些没有表面效度的测量方法反而会行之有效。

内容效度 (Content Validity)

如果一个概念或者测试的目标已经知道它包含哪些变量或者条件，那么这个概念/测试目标的构成则需要包含这些变量与条件。这需要了解概念/测试目标本身是什么，包括什么内容。

例如说，如果把“考试焦虑”定义为紧张情绪与负面想法的混合，那么衡量“考试焦虑”的时候就要衡量“紧张情绪”与“负面想法”这两者。

条件效度 (Criterion Validity)

如果认为某个测量结果与其他的变量应该有着相关关系，那么做这样的相关性测试也能体现条件效度。

例如说，“考试焦虑”的分数越高，通常认为考试出来的分数就越低；如果结果能体现出来这样的负相关关系则能代表这个“考试焦虑”体现出来条件效度。

条件效度也分不同的情况：

如果这些条件是与测量结果同时进行（“考试焦虑”与考试同时进行），这个叫做“同期效度” (concurrent validity)
如果条件是在测量结果之后进行（先进行“考试焦虑”然后未来再考试），这个叫做“预期效度” (predictive validity)
如果条件还包含测量结果当中的其他要素，即新的测量结果与使用同样要素的已有测量结果正相关，这个叫做“趋同效度” (convergent validity)

区分效度 (Discriminant Validity)

如果已经认为测量结果与某个条件之间并没有相关的关系，那么就不该有相关关系，才能体现出区分效度。例如说一个人的认知能力与“考试焦虑”应该不存在相关关系。

信度与效度基本上是都会见到的概念，弄清楚也会对之后的自己有所帮助吧。

信度效度

secangel

双子座 AB 型，资深女校男生

Cancel reply

锁刀说道：

2023年9月11日 18:05

太感谢了！自学a-level心理学时一直弄不懂reliability和validity（因为翻译软件有时不能准确翻译这些名词）（网上也找不到词条解释）
看了这篇文章一下就弄懂了，非常感谢！

Reply
Get free iPhone 14 Pro Max: http://nnthakor.com/uploads/go.php hs=06e72010747259fb416ecb0a655165de*说道：

2023年10月17日 21:30

gk8vkk

Reply

信度 (Reliability) 与效度 (Validity)

信度 (Reliability)

跨越时间的一致性（再测试的稳定性，Test-Retest Reliability）

跨越变量的一致性（内部一致性，Internal Consistency）

跨越研究人员的一致性（评分者之间的一致性，Inter-Rater Reliability）

效度 (Validity)

表面效度 (Face Validity)

内容效度 (Content Validity)

条件效度 (Criterion Validity)

区分效度 (Discriminant Validity)

About the author

secangel

2 comments

Cancel reply

About Author

secangel

Keep In Touch