当前位置:课程学习>>第四章>>文本学习>>知识点三


第四章 测验的信度



知识点三 信度的影响因素和提高方法


一、影响信度的主要因素

信度是测量过程中随机误差大小的反映。在测量过程中凡是能引起测量的随机误差的因素都会影响测量信度,像被试、主试、测试内容、施测情境等都是影响因素,现具体讨论如下:

1.被试方面:

就单个被试而言,被试的身心健康状况、应试动机、注意力、耐心、求胜心、作答态度等都会影响测量误差,而这些因素往往会影响被试心理特质水平的稳定性。

就被试团体而言,被试团体的异质性和团体的平均能力水平都会影响测量信度。因为我们所计算的信度估计值大都是以相关为基础的,而相关系数的大小往往取决于被试得分的分布情况。当被试团体同质性越高(即个体差异越小),所得相关系数(信度)就越低。反之,当被试团体异质性越高(即个体差异越大),所得相关系数(信度)就越高。此外,如果被试团体平均能力水平太高就容易都得高分,分数分布范围窄,以及被试的水平太低,凭猜测得分,信度低。

这一思想也可以从信度系数的公式推导检验其合理性。由信度系数公式

可得

在同一个全体施测对象里,一个测验应用于有代表性的两个群体,这个时候,我们可以假定这两个不同差异范围的测量误差的标准差,也就是测量标准误差是相等的。那么,就可以根据其中一个群体的信度系数和分数分布的标准差和另一个群体的分数分布的标准差,利用来估计另一个群体的信度系数。

基于这一思想,克莱推导出如下公式(克莱公式):

(4.19)

式中是信度系数已知的分布标准差,S是信度系数未知的分布标准差,roo,rxx分别是两个分布的信度系数。

至此,我们从此公式就能看出分布标准差,实质上也就是分数分布的范围对信度系数的影响。所以,我们在编制量表,抽选被试时,往往要考虑选择不同层次的被试,以使得测验团体呈异质性,从而使得信度提高。反之,当需要同质团体的信度时,就应该尽量选取同一层次的被试。

例4.9 一思维能力测验实施于某市全体高中生,其分数的标准差为8,信度系数为0.85,若将该测验施测于高一年级,其分数标准差为5,求高一年级的信度系数估计值。

解: =0.62

标准差从8降至5,信度系数也从0.85降至0.62。

显而易见,每个信度系数都要建立对信度系数的团体的描述。在编制测验时,应把常模团体按年龄、性别、文化程度、职业等分为更同质的亚团体,并分别报告每个亚团体的信度系数,这样测验才能适用于各种团体。

2.主试方面:

就施测者而言,若他不按指导手册中的规定施测,或者故意制造紧张气氛,或者在实测过程中给被试一定的暗示、协助等,则测量信度会大大降低。

就阅卷评分者而言,若评分标准掌握不一,或者前紧后松,甚至是随心所欲,则也会降低测量信度。

3.施测情境方面:

在施测时,测试现场的物理环境,像温度不适、光线过暗、背景声音(如过于安静或一直有噪音)、桌椅不适、空间大小不当、通风不够等诸多情况都会产生测量误差。另外,测试中的意外干扰,像突然停电、噪音,或缺考、计时表失灵、题目印刷不清,或装订错误等一些不能预见的干扰都会影响到测量的信度。

4.测量工具方面

弄清楚影响测量工具稳定性的因素对于做好测量工作非常重要。试题取样、试题之间的同质性程度、试题的难度等是影响测验稳定性的重要因素。

如果一个测验的试题取样不当(或题目数量太少,或者考察的内容不全面),则难以测查到被试心理特质的全面情况。当被考察的方面是随机的时候,测查的结果必然是随机的,那么这种测量的信度必然不会高。相反,当一份测验中同质性的题目数量增多之后,同一心理特质被考察到的数量就会增多,被试的成绩也就会因为个体差异被有效拉开,整个团体的测验分数分布就会更广,从而提高测量的信度。

凭直接经验,我们知道只有一道题的测验通常都不如由10道题、甚至更多测题组成的测验可靠。假设有两份小学数学测验:

测验A只有一道测题:1+1=_

测验B有1+1=_,3+4=_,5-4=_,4+2=_…等共30道测题

这样,被试在测验A的得分完全取决于一道题目,无法全面而真实地考察被试的学习状况。而测验B考察的知识范围则远远大于测验A,能够较全面地反映出被试的学习水平,显然测验B要比测验A可靠得多。

利用数学公式的推导,我们可以根据要求达到的信度值反过来求n,即决定测验长度的变化。n= (4.20)

式中是长度已知测验的信度,是长度未知测验的信度。这样,当一个长度较短的测验,信度较低时,我们就可以求得需要把长度扩大到原来长度的多少倍才能达到想要的信度。

例4.10 某一个测验有8个项目,信度是0.70,问测验应增加到多少个项目时才能使信度达到0.90?

解:n= =3.9

3.9 ×10=39

所以,测验项目应增加到39个才能满足要求。

如果一个测验内部的试题之间彼此异质(即测查的是不同的心理特质),则无法使测量的内部一致性系数提高。例如,如果某个测验试题全部是关于发散思维能力的测题,就比测验中有发散、集中等各种思维能力的测验题目的测验的信度要高。前者注重了测验各个项目的内部一致性,信度系数高。

如果测验的题目太难,则会引起被试的随机猜答,并使得大部分人的得分偏低,整个分数的分布变窄,从而影响测验的信度。如果题目太容易,则大部分被试都将获得高分,同样会使测验的分布变窄,影响测验的信度。

那么测验结果的分数分布应该呈什么状况时,才能说明难度较为适当呢?这要根据题目的类型来决定。如果是简答型试题,最好使平均得分为总分的一半,分数的分布范围尽可能低至0分,高至接近满分。如果是二择一的是非题,考生猜对的几率高达50%,如果是五择一的选择题,猜对的几率也可达到20%。我们把纯猜测得到的分数称为“期望的机遇分数”,然后把“期望的机遇分数”和“总分”之间的中点作为估计理想平均难度的依据。例如,对于某个由100个是非题组成的测验,每题的得分为1分,它的“期望的机遇分数”是50,总分是100,那么,它的理想的平均分数为75。同样,对于某个由100个五择一的选择题组成的测验,“期望的机遇分数”是20,总分是100,那么,它的理想的平均分数就是60。如果我们所编测的测验能符合上述理想的难度水平,则全体受测者的得分分布范围将趋于最大,这样可提高测验结果的可靠性。

5.两次施测的间隔时间方面

在计算重测信度和稳定性与等值性系数时,两次测验相隔时间越短,其信度值越大;两次测验相隔时间越长,其他因素带来影响的机会就多,因而其信度值就可能越小。

6.信度估计的方法方面

对于同一个测验结果,所用的估计信度方法不同,所得到的结果也不相同。

(1)重测法 用该方法估计得到的信度,从中信度系数到高信度系数。如果两次测验的实施间隔较短,则得到的信度系数可能会高于分半法所得到的结果,如果两次测验的实施间隔较长,则得到的信度系数较低。

(2)复本法(同时实施) 该方法所得到的信度系数也是从中信度至高信度。有低于重测法(重测的间隔较短)的倾向。

(3)复本法(间隔实施) 用该方法所得到的信度系数较低。如果两个测验的间隔越长,则信度系数越低。

(4)分半法 用该方法所得到的信度系数最高。如果测验中要求被试做题速度成分所占的比重较大,则会造成虚假的高相关。

总之,在对测验结果的信度进行评价时,还要考虑到估计信度的不同方法所产生的影响。用分半法所求得的信度最高,在评价时也要格外小心。如果在整个测验中,速度是主要的因素,则所求得的分半信度是不可接受的。用间隔实施的复本法所求得的信度最低,这是因为该方法考虑到了所有可能的误差变异来源(如时间、内容取样、实施程序等)。所以,这是一种最严格的估计信度的方法,其所得的结果必然较低,因此,在评价测验信度时,不能将它和用其它方法所求得的信度系数相比较。

二、提高测量信度的常用方法

1. 适当增加测验的长度

由于项目数量太少会降低测量的信度,所以,提高测量信度的一个常用方法是增加一些与原测验项目中具有较好的同质性的项目,增大测验长度。

这里有两点必须注意:(1)新增项目必须与试卷中原有项目同质。(2)新增项目的数量必须适度。事实上,增加测验长度的效果遵循报酬递减规律。即测验过长有可能引起被试的疲劳和反感,降低测量的信度。若已知测验的现有信度,而且知道所要求的信度标准。则可以代入公式(4.20)之中求出n值,得到一个恰当的增加项目。

2. 使测验中所有试题的难度接近正态分布,并控制在中等水平

难度对信度的影响,只存在于某些测验中,如智力测验、成就测验、能力倾向测验等,对于人格测验、兴趣测验、态度测验等不存在难度问题,因为这些测验的题目没有正确或错误答案之分。

就难度和信度之间的关系而言,并没有简单的对应关系。然而,若测验对某团体太难或太易,则分数范围将缩小,从而使信度降低。从理论上讲,当测验中所有试题的难度接近正态分布并控制在中等水平时,被试团体的得分分布也会接近正态分布,且标准值会较大,以相关为基础的信度值必然也会增大。事实上,难度为0.50只适合简答型题目,对于选择型题目由于存在着猜测因素,难度应该提高。

3. 努力提高测试题的区分度

区分度是测验题目的质量指标,一份测验所有试题区分度高低直接影响测验的信度。努力提高测验中所有试题的区分度,可望获取较高的测验信度。

4. 选取恰当的被试团体,提高测验在各同质性较强的亚团体上的信度

由于被试团体的平均水平和内部差异情况均会影响测量信度,所以在检验测量的信度时,一定根据测验的使用目的来选择被试。即在编制和使用测验时,一定要弄清楚常模团体的年龄、性别、文化程度、职业、爱好等因素。一个特别异质的团体上获得的信度值并不等于其中某些较同质的亚团体的信度值。只有各亚团体上信度值都合乎要求的测验才能够广泛的应用。

5. 减少无关因素的干扰

测试过程中,主试者严格执行实测规程,评分者严格按照按标准给分,实测场地按测验手册的要求进行布置,尽可能地避免无关因素的影响。

6. 提高评分的客观性

评分是否客观是影响测验信度的一个因素。评分者在评分上的主观性是造成评分结果偏差的主要因素。要降低这类误差,最好的方法是提高评分标准和步骤的客观性。在评分前对评分者进行训练,让评分者切实掌握评分标准和步骤,在评分时尽可能做到客观评分,以提高测验分数的可靠性。