文本学习一

当前位置：课程学习>>第四章>>文本学习>>知识点二

第四章测验的信度

知识点二信度的估计方法

我们知道，心理测量实际上是无法直接测量到真分数和真分数方差的，所以对信度只能作估计。信度是反映测量中随机误差大小的指标。由于造成测量的随机误差的方式或来源多种多样，所以信度的估计方法也多种多样。下面所介绍的信度估计方法主要有重测信度、复本信度、内部一致性系数、评分者信度。使用时要注意它的含义及适用范围。

一、重测信度

1. 含义及计算方法

重测信度(Test-retest Reliability),也称稳定性系数，是一组被试在不同时间用同一测验测量两次（两次测验间隔一段时距），两次测验分数的相关系数。

时距可长可短，依实际研究需要和测验性质而定。同时还需要尽可能保证两次测验的被试状态和测试条件相同。

然后计算两次施测结果的相关系数。

计算公式

rxx= （4.8）

式中X1、X2为同一被试的两次测验分数，、为全体被试两次测验的平均数，S1、S2为两次测验的标准差，N为被试人数。

例4.3：假设有一份主观幸福感调查问卷表，先后两次施测于10名学生，时间间隔为半年，结果如下表4-1所示，求该测验的重测信度。（为了便于理解和计算，本章估计信度的例子都是小样组，实际应用时应采用大样组。）

解：

根据表和计算公式，可算出：

=1324， =112， =110， =1334， =1324

代入重测信度计算公式：

rxx= =0.97

2. 使用的前提条件

重测信度的特点是用同一工具对同一批人测了两次，因此，它只能在允许重测的情况下进行计算。具体的说，它必须满足3个条件：（1）所测量的心理特性必须是稳定的。例如，成人的性格特点一般是稳定的，所以许多人格测验常使用重测信度。但是，儿童的识字量是很不稳定的，只要两次施测的间隔时间稍长，儿童的识字量就会有很大变化，当采用重测的信度估计法时就不科学了。因为测量结果的不一致可能是被试水平的变化所致，而不能说明测量工具是否稳定。（2）遗忘和练习的效果相互抵消。如在做第一次测验时，被试可能会获得某种技巧，但只要间隔的时间合适，练习效果会基本上会被遗忘掉。通常，智力测验的间隔时间一般在6个月左右。（3）在两次施测的间隔时间内，被试在所要测查的心理特质方面没有获得更多的学习和训练。实际上，也就是要我们保证被试具有稳定的心理特质。

这里我们需要注意到，同样一个量表，随着第二次测量的时间不同，它可以有不同的重测信度。所以，我们在报告重测信度时，应说明两次施测的间隔，以及此期间被试的有关经历。例如，在中国修订的《韦氏儿童智力量表手册（C-WISC）》中，就曾对重测信度的计算报告了被试的情况（6~16岁城市儿童151名，农村儿童74名且各年龄儿童分配较均匀），并报告了两次测验的间隔时间（2~7周）以及两次的相关系数（城市：0.59~0.86，农村：0.59~0.81）等。

3. 重测信度的优缺点

重测信度的优点在于它能提供有关测验是否随时间而变异的资料，可作为被试将来行为表现的依据，但在实际中会遇到不少因难：

①要实施两次测验，耗费的人力、物力和时间较多。

②如果有一个变量影响了其中的—次测验，或对两次测验的影响程度不同，就会影响两次测验的相关系数，即任何一次测验中的误差，都会影响稳定性系数。

③第二次测验的结果，显然受到被测试者差别学习的影响，受到记亿和练习的影响。

④如果两次测验的间隔时间较长，在此期间的干扰因素是难以控制的。

⑤第二次测验对于学生并没有吸引力，不能引起他们的兴趣，如果受试者不配合，将无法获得可靠的成绩。

由于上述种种原因，对于教师自编的测验，往往是很难得到稳定性系数的。

而且，在评估重测信度时，必须注意重测间隔的时间。如：对于人格测验，重测间隔在两周到6个月之间比较合适。

二、复本信度

1.定义

复本信度(Alternate-form Reliability)：根据一组被试在两个平行测验上的得分计算的相关系数（等值性系数）—皮尔逊积差相关系数。它的高低反映了两个互为复本的测验等价的程度，而不是反映一个测验本身受随机误差影响的大小。关键取决于复本测验的选择，因而施测题目取样问题，或者说是测验的内容取样问题。

根据两个复本测验实施的时间不同，复本信度所表达的含义不同。如果两个复本测验是同时连续施测的，称这种复本信度为等值性系数，等值性系数的大小主要反映着两个复本测验的题目差别所带来的变异情况。如果两个复本测验是间隔一段时间分两次施测的，则称这种复本信度为稳定--等值性系数。这时，两个题目间的差别、两次施测时的情境、被试特质水平等方面的差别都会成为测验结果不一致的重要原因。与其它信度系数相比，稳定性与等值性系数是对信度最严格的检验，其值最低。

估计副本信度方法：应用A卷施测，间隔一段时间再应用B卷施测。在实际的操作过程中，为抵消施测的顺序效应，一般可以随机地选择一半被试先做A卷后做B卷，则另一半被试先做B卷后做A卷。

例4.4：假设用A、B两种平行的创造力复本测验对初中一年级10个学生施测。结果列表如4-2，，分别代表A、B两份平行测验。

解：根据表可计算出：

=2494， =158， =151， =2600， =2409

代入相关系数公式：

rxx==0.94

2. 使用前提条件

使用复本信度估计法时，我们必须保证两个条件，首先，是要构造出两份或两份以上真正平行的测验（即A、B卷）。这里所谓的真正平行是指，复本测验之间必须在题目内容、数量、形式、难度、区分度、指导语、时限以及所用的例题、公式和测验等其他方面都相同或相似。换句话说，平行测验就是那种用不同的题目测量同样的内容，而且测量结果的平均值和标准差都相同的两个测验。当然，这样的测验只是我们的想要实现的理想，真正严格的平行测验是很难构造的。再者，被试要有条件接受两个测验，这里要考虑时间、经费等方面的因素。

3. 复本信度的优缺点

复本信度优于重测信度的地方是，它避免了重测带来的记忆效应和练习效应，可用于长期追踪研究前后测量，而且减少了作弊的可能性。但是，在实际中常常会遇到的主要问题是，要编制两份等值的测验是很困难的工作，特别是对于教师自编测验。

重测复本信度，即稳定等值系数，它比单一的重测信度或复本信度都要严格、全面一些。在报告结果时，也应报告两次施测的间隔，以及在此间隔内被试的有关经历。

三、内部一致性信度

内部一致性信度，主要反映的是测验内部题目之间的关系，考察测验的各个题目是否测量了相同的内容或特质。它又分为分半信度和同质性信度。

(一)分半信度

1.定义及计算方法

分半信度（Split-half Reliability）是指将一个测验分成对等的两半后，所有被试在这两半上所得分数的一致性程度。这里对等的两半测验可以看成是在最短时距内施测的两个平行测验。

分半信度的计算方法和等值复本信度的计算方法相似，区别在于被试在两半测验上得分的相关系数是半个测验的信度，必须要用斯皮尔曼-布郎公式加以校正：

（4.9）

其中rxx 为原长度时的信度，rhh 为分半信度。

例4.5 假设用一个自尊测验对10名被试施测，被试在奇偶两半测验上的得分如表4-3所示，试估计该测验的分半信度。

采用公式（4.9）计算奇偶两半测验的积差相关系数，计算方法与重测信度相同。求得积差相关系数为0.875。将rhh=0.875代入公式（4.7），得：

该测验的分半信度系数为0.93。

当两半测验分数的方差（即变异数）不相等时，分半信度往往被低估，在这种情况下，可以采用弗朗那根（Flanagan）公式或卢伦（Kulon）公式直接估计整个测验的信度。

弗朗那根公式：

(4.10)

式中，、分别为所有被试在两半测验上得分的方差，为全体被试在整个测验上的总分的方差。

卢仑公式：

(4.11)

式中，为所有被试在两半测验上得分之差的方差，为全体被试在整个测验上的总分的方差。

2.分半的方法

把测验分成两半的方法有多种，比较常见的是将测验按测题序号奇偶分半。但是测验题目的内容我们必须考虑，如有的测验题目按难度顺序排列，有的测验题目是随机排列的，分半时必须保证所有题目是平行的（要么难度相等，要么性质一致，即是测同一个心理特质的）。如果测验有多个分量表，应在分量表内部排好顺序，再把各分量表的两半组合起来求相关。

这样，因将一个测验分成两半的方法很多（如题号的奇偶性分半、按题目的难度分半、按题目的内容分半等），在同一个测验上通常可以有多个分半信度值。

3.使用前提条件及范围

使用分半信度应注意的问题：

（1）分半信度通常在测验只能施测一次或没有复本的情况下使用。当一个测验无法分为等值的两半时，则不宜使用分半信度。

（2）在使用奇偶题分半时，如果一组题目是涉及同一个问题，例如阅读测验中的某段文章或某个机械图，应把整组题目原封不动地分到同一半。假如将这组题目分到不同的两半测验中，两半测验分数的相似性就会假性提高，而高估信度。因为对于这个问题理解上的任何一个错误都会同时影响两半测验的分数。

（3）奇偶题分半法不适用于速度测验。由于速度测验中的题目难度偏低，如果给予足够的时间，每个被试都有能力答对所有题目；但由于回答时间的严格限制，使得没有人能够答完所有题目。若以奇偶题将测验分半，两半测验的得分必定相等或接近相等。假设有一个100题的速度测验，某被试做了80道题，全对。若按奇数题和偶数题分半，奇数题和偶数题各答对40题。在这种情况下所求出的两半测验分数必然有高相关，这种相关显然是假性相关，无法准确估计信度。

（二）同质性信度

1. 含义和计算

同质性信度（homogeneity reliability）是指测验内部所有题目的一致性。即所有题目测的都是同一种心理特质，表现为所有题目得分之间都具有较高的正相关。所以，同质性信度就是一个测验所测内容或特质的相同程度。

如果当一个测验有较高的同质性信度时，说明测验主要测的是某一单个心理特质，那么，实测结果就是该特质水平的反映。如果一个测验同质性信度不高，则说明测验结果可能是几种心理特质的综合反映。这时，我们对测量结果就不能作唯一解释。但是，可以把一个异质的测验分解成多个具有同质性的分测验，再根据被试在分测验上的得分分别作解释。

可是，一些表面上看起来是测量同一种心理特质的题目，如果其题目间不具有较高的正相关，则不能认为它们具有同质性。也就是说，测量单一心理特性是同质性高的必要条件，但非充分条件。反过来说，同质性高才是测验测得单一心理特性的充分条件。同质性信度的目的就在于判断一个测验是否测到单一特质，以及估计所测到特质的一致性程度。

2. 计算及适用范围

同质性信度的粗略估计方法是求测验的分半信度，但是由于有太多分半方法，结果不唯一。求各种分半信度的平均数的办法操作起来也是工程浩大。于是人们提出通过求所有题目间的相关来求得同质性信度。

rxx = K / rij [ 1 +（K - 1）rij ]（4.12）

K为测验的题目个数，rij为所有题目间相关系数的平均值。

4.12理论上虽然合理，但是公式计算起来是很不方便的。于是导出了以下几种计算方法：

（1）K-R20公式：

由库德（G.F.Kuder）-理查逊（M.W.Richardson）1937年提出，仅适用于（0、1）记分，即答对一题记一分，答错无分的测验。

（4.13）

式中，rKR20为信度；K为题目数；Pi和qi分别表示答对和答错第i题的被试人数比例；S2为测验总分的方差。

例4.6 10名被试在某测验上的得分情况见表4.4，试估计该测验的同质性信度。

① 求出

=0.16+0.21+0.25+0.25+0.24+0.24=1.35

② 求出所有被试测验总分的方差（即求1、2、2、3、3、3、4、4、5、6的方差）

S2=2.01

③ 将pq=1.35、S2=2.01、K=6代入公式（3-9）得：

（2）K-R21公式：

只有当各测题难度相同或近似的情况时使用。

（4.14）

（3）克龙巴赫α系数：

由克龙巴赫（Cronbach）提出，不仅可以使用于计算以（0、1）记分的测验，也可使用于多重记分测验。

（4.15）

式中，K为题目数，为所有被试在第i题上得分的方差，为所有被试测验总分的方差。

需要说明的是，α还是所有可能的分半信度的平均值，只是测量信度的下界的一个估计值。即α值大，必有测量信度高，但是α值小，却不能断定测量信度不高。

α值的计算一般按下述步骤进行：①按一定要求抽取n个被试的试卷，首先计算出这几个人测验总分的方差Sx2②这几个人在每一个题上都会有一个得分，分别求出这几个人在每道题上得分的方差Si2(i=1,2,…,K) ,并求出的值。③按公式（4.15）求出α值。

例4.7 某人格量表共7题，100个被试在各题上得分的方差分别是0.80，0.84，0.79，0.83，0.86，0.76，0.77，测验总分的方差为14，则此测量的α信度为：

α=

= =0.70

（4）荷伊特信度：

由荷伊特（C.Hoyt）1941年提出，运用方差分析估计信度的思想，将一组测验分数的总方差分成三个来源：人与人的差异，项目之间的差异，以及人与项目之间相互作用的差异。由于这种方法的计算较之其他方法要复杂的多，现在不常用。

rxx = 1 - MS人×题/ MS人（4.16）

MS人×题为误差方差估计值，MS人为被试方差估计值。

3. 内部一致性信度的优缺点

内部一致性信度的优点在于只需施测一次，就可以估计信度系数，省时节力。不足之处在于求分半信度时，分半的方法不同，估计出的信度系数就不同。而且，测验要求具有同质性，所以异质的人格测验，通常就不能用内部一致性系数来估计信度。值得注意的是，我们在研究中一般用于预测的测验或学绩测验可不考虑同质性。而验证理论构想效度时必须考虑同质性。因为，同质性不但与信度有关，还与效度有关。

四、评分者信度

1.定义及计算方法

评分者信度（Scorer Reliability）指的是多个评分者给同一组被试的同一份测量结果进行评分的一致性程度。在心理与教育测量的工作中，客观题的评分很少出现误差（如机器阅卷），但主观题的评分常常会造成误差。因此可以通过考查评分者信度来提高心理与教育测量工作的质量。

当评分者为2人时，评分者信度等于2个评分者给同一批被试的答卷所给分数的相关系数（积差相关或等级相关）。当评分者超过两人时，评分者信度可以用肯德尔和谐系数进行估计。

W=12 [ΣR i2 -（ΣR i）2 / N] / [K2（N3 -N）] （4.17）

K是评分者人数，N是被评对象人数，R i为第i个被试被评的水平等级之和。

当K=3 ~ 20；N=3 ~ 7时，信度是否符合要求可直接查W表检验。当计算的W值大于表中相应值时，说明评分所得信度较高。当被评对象多于7个时，可计算χ2值，作χ2检验。χ2 = K（N - 1）W （df = N – 1）

若评分中有相同等级时，需校正：

W=12[ΣR i2 -（ΣR i）2 / N] / [K2（N2 -N）- KΣΣ（n3 - n）/12] （4.18）

例4.8 假设有三位语文老师给六篇学生作文评等级，结果如表4-5所示，试计算此次评分的评分者信度。

解：分别求出各篇作文的等级之和Ri，

=8+12+3+14+17+6=60，

=64+144+9+196+289+36=738

而K=3，N=6，

把以上各值代入公式（4.16），可得

W=0.88

2.评分者信度的适用范围

在心理测量中，投射测验、学业测验中的高考作文水平的测试、职业选拔中的面试等，被试得分常常会受到评分者主观判断的影响，这时，就有必要考虑评分者之间的一致性了。

一般要求在成对的受过训练的评分者之间平均一致性达到0.90以上，才认为评分是客观的。

小结：

以上介绍的各种信度估计方法都是对测验的一致性进行估计，但由于考虑的误差来源不同，他们的研究的侧面各不相同，说明的是信度的不同方面，应用不同的教育与心理测验中。

重测信度：估计测验中跨时间的一致性(应用于人格、速度测验)

复本信度：估计测验中跨形式的一致性（应用于智力、学绩、速度测验）

稳定-等值系数：估计测验中跨时间和形式的一致性（应用于智力、学绩、人格测验）

内部一致性系数：估计测验跨项目或两个分半测验之间的一致性（应用于学绩、智力、选拨测验）

评分者信度：估计测验跨评分者的一致性（应用于作文、创造力、投射、道德判断测验）

选择信度指标应注意的问题：

1.估计信度的方法有多种，有多少误差的来源，就有多少估计信度的方法。

2.根据实际情况选择不同的信度，原则上一个测验哪种误差大就应该选哪种误差估计。

3.有时一个测验需要有几种信度系数，这样可以把总分数的变异数分成不同的分支。