当前位置:课程学习>>第五章>>文本学习>>知识点四
严格地说,凡是与测量目的无关的变异来源都会影响测量的效度,也就是说效度受系统误差和随机误差的影响。测验本身的构成、受测被试的特点、施测的过程、计分与评分方法、分数的转换和解释、所选择的效标的特性等一切与测量有关的因素都可能影响测量的效度。在编制或选择测验时,这些因素都应该考虑到,以保证测验的准确性。
(一)测验本身
效度是指测验对所要测量的心理属性测量的准确程度,测验本身是以测题的形式来反映所测心理属性,测验的下述特点都会影响效度。
测题内容的选取影响效度。测验题目的内容是否符合测验目的,是否能测到所要测量的特质会影响到测验的效度。
测题的难度影响效度。常模参照测验的平均难度应为0.50左右,并有适当的难度分布。过难或过易的题目无法对个体做出有效区分。标准参照测验的难度应该同教学目标的要求一致。实际上,测验过难或过易对所测内容的代表性不强,对它们的回答水平不能准确反映施测群体某种心理属性的一般性特征。影响测验的效度。
测题的语言表达影响效度。在题意的表达、反应方式的要求上要明确,不能模糊,避免产生误解、曲解,而且不能有暗示性内容。举例来说,可能在小学低年级的数学测验中有学生读不出的生僻字,影响对题意的理解或对回答方式的选择,测量得到的结果中就夹杂着阅读能力的干扰,继而影响到数学测验的效度。
测题的编排要合理,一般按照先易后难的顺序排列。难题在前,可能影响个体在限定时间内对简单测题的回答情绪和时间安排,不能准确测量个体的真实水平,影响测验结果的效度。
测验的长度影响效度。测验的长度和测验的信度系数也影响测验效度。所以,在编制测量工具时,除考虑测验的试题类型、编排方式、难度和区分度外,还要注意这两方面的影响。当测验由于测验信度或测验长度的因素导致效度较低时,一般而言,通过增加测验的长度提高测量信度,进而提高测量效度还是可行的。
(二)测验实施
1.主试的影响因素
测验实施过程中,主试的因素会影响效度。主试是否遵从测验使用手册的各项规定进行标准化的施测,指导语是否统一正确,测验的时限是否一致,评分是否合理,都会影响测验的效度。如果以上条件任何一项不能标准化,都会使测验效度降低。比如,联合型瑞文推理测验的时限为40分钟,要求主试在测验进行到20分钟和30分钟时各报时一次。如果主试在测量时缩短或延长测验时间,任意改变报时次数或报时间隔,就会影响个体答题的标准化情境,从而影响对测题选择的数量和质量,如果仍将这种测验成绩用标准化的测验手册中的常模进行解释,对个体的评定就不准确。
2.被试的影响因素
被试在测验时的兴趣、动机、情绪、作答态度和身心状况、健康状态以及是否充分合作等,都会影响被试在测验情境中的反应,因而会影响测验结果的效度。被试的反应定势也会降低测验的效度。
此外,测验情境也会对被试造成影响,如场地的布置、材料的准备情况、测验场所有无噪音和其他物理干扰因素等也会影响到被试的反应,进而测验的效度。
(三)样本团体
测验的效度和样本团体的特点具有很大的关系。同一测验对于不同的样本团体其效度有很大的不同,因此在作效度分析时,必须选择具有代表性的样本团体。下面对样本团体的异质性和干涉变量两个主要影响因素加以讨论。
1.样本团体的异质性
与信度系数一样,如果其他条件相同,样本团体越同质,分数分布范围(全距)越小,测验效度就越低;样本团体越异质,分数分布范围(全距)越大,测验效度就越高。
如果以选拔上的被试为样本团体参加效度研究,就会降低测验的效度。例如,研究一个选拔测验的效度,所能研究的团体样本往往是那些已经初试合格留用的被试,分析他们的测验成绩与效标的相关,而大量没有被录取的被试不可能或很少作为研究对象,这样无形中缩小了样本的个别差异,使预测效度降低。
2.干涉变量
样本团体的性质对效度的影响还表现在:对于不同性质的团体,同一测验的效度会有很大的不同。这些性质包括年龄、性别、教育水平、智力、动机、兴趣、职业等任何有关的特征。由于这些性质的影响强度不同,他们与所要测量的特质间存在交互作用,使得测验对于不同的团体具有不同的预测能力,测量学上称这些特征为调节变量(moderator variable)。例如,对参加公务员笔试的被试施测能力倾向测验,发现测验成绩与之后工作表现之间的相关仅为0.30,这是相当低的预测效度了。但是,当把对公务员工作感兴趣的被试挑选出来单独计算效度时,效度系数达到0.60,预测能力大大提高。很明显,效度的降低与一部分对公务员职业无兴趣的考生没认真完成测验有关,其中的兴趣就是干涉变量。
干涉变量仅通过表面上的观察分析很难推断其是否影响到了测量效度,美国心理学家吉赛利(E.E.Ghiselli)提出了如何找出干涉变量的一套方法:
首先,用回归方程求得每个人的预测效标分数,将该分数与实际效标分数相比较,获得差异分数D。如果D的绝对值很大,说明测验中可能存在干涉变量。
其次,根据样本团体的组成分析,找出对照组,分别计算效度,从而像上述关于公务员的例子一样,找出干涉变量。
最后,对于预测团体,根据某些易见的干涉变量将其区分为预测性高和预测性低的两个亚团体。对于预测性高的团体,获得的测验效度会有所提高。
(四)效标性质
效标关联效度是以测验分数与效标分数的相关系数来表示的,效标资料和测验分数的性质关系到何种计算公式的选用。效标与测验分数之间的关系是否是线性关系是很重要的一个因素。皮尔逊积差相关系数的前提是假设两个变量的关系是线性的,如果测验分数与效标之间的关系是非线性的,皮尔逊积差相关会低估效标关联效度的大小。
另外,效标测量本身的可靠性如何也是必须重视的。效标测量的可靠性即效标测量的信度。如果效标测量的信度不可靠,它与测验分数之间的关系也无可靠性可言。前面在相关法估计效标关联效度中曾涉及到效标信度与测验信度对效标关联效度的影响。所以,当效标的测量误差比较大时,信度就会偏低,测验的效度就有被低估的趋势,需要利用如下公式对效度系数进行校正。
要想提高测量效度,就必须设法控制随机误差、减少系统误差,同时,还要选择好恰当的效标,把效标系数准确地计算出来。具体来说,有下述方法用来提高测量效度。
(一)提高测验编制质量
由于测验取材的代表性、测验长度、试题类型、难度、区分度以及编排方式等都会影响效度。要提高测验的效度,应保证测验材料必须对整个内容具有代表性,在测题设计时应尽量避免容易引起误差的题型(如是非题)。测题表述要清晰、不模糊。测题难度要适当,具有较高的区分度。我们知道,常模参照测验往往是通过分析被试得分的变异来推断个体在团体中的相对位置,当测题的难度平均在0.5左右时,不会出现太难或太易的测题,区分优差生的效度较高。一般,测题的排列按先易后难顺序,既保证学生在规定时间内完成测题,又能适应心理承受能力的发展,较好的测出学生的真实水平。当然,测验长度要恰当,即要有一定的测题量,所编制的测题应该适合所要测量的学习结果。此外,测验试卷的印制、题目作答的要求、评分计分的标准、题目意思的表述等,都必须严格检查,避免一切可避免的误差的出现。
(二)提高施测的标准化程度
在测验实施过程中,系统误差一般不太明显,但随机误差却有可能失控。这就要求测验主试在测验场地如何布置,测验材料如何发放,对被试的各种提问如何回答,演示材料的示范,测试时间的控制等方面,要严格按照手册指导语进行操作。有些主试可能感到某些测验环节过于繁琐,想要简化,认为这样更有益。但一定要注意,测验实施的标准化就是指测验实施过程的一致性,如果不能和测验指导手册的规定相一致,那么任何改动都是不可取的。因为测验的计分、评分和分数解释方法的开发,都是按照测验手册实施测验,获取数据,进行分析的结果。变化了测验实施环节,将直接影响测验结果及其解释。
在各种测验中,有些被试往往因种种原因而发挥不出应有水平(如过分焦虑导致的考试发挥失常),因此,我们应让被试调整好应试心态,让他们从心理上、生理上、学识上等做好应有的准备。否则,焦虑因素和其他因素影响过大,必然会降低测量效度,不能准确测出个体的真实水平。
(三)提高样本团体界定的明确性
由于被试的性别、年龄、民族、心理健康状况、文化程度和社会背景等方面的不同,在心理属性和行为发展上会有不同的水平,所以一个测验如果用于同编制测验时的样本团体具有较高同质的团体时,效度较高,如果用于同质性较低的团体时,效度就会降低。比如,如果将韦氏成人智力量表用于测量儿童的智力水平,效度就不会高。只有当所要测量的群体和用来建立效度资料的样本具有同质性时,才能有较理想的测验效度。这就要求对测验编制时使用的样本团体和用来验证测验效度所选取的样本团体进行明确界定,比如明确界定样本在年龄、性别、教育程度、民族等同测验有关的变量上的分布情况,以便后来的测验使用者可对照这些变量的分布考察测验是不是适用于新的样本团体。选择适用的测验才能满足对效度的要求。
(四)提高所选效标的质量
在评价一个测验是否有效时,效标的选择是一个重要方面。假若所选效标不当,或所选效标无法量化,则很难正确地估计出测量的效标关联效度。因为效标的种类很多,特别是当有些测验很难获得一个适当的客观效标时,会采用主观评定作为效标。既然是主观评定,就容易受评定者的主观印象和成见的影响,所以要尽量提高效标测量的客观性。当效标是由主观评定得到时,要特别防止效标污染。为了避免效标污染,可以不让评定者看到测验分数,保证效标评定与测验分数各自独立、互不影响,这样,效标的客观性会相对地得到保障。除了效标及效标测量都要合乎要求外,用相关法计算效标关联效度要正确选择计算公式。
以上我们探讨了测验效度的影响因素及提高方法。其实,在有些人看来,效度问题还和使用测验的公平性问题、测验偏差问题紧密相关。但是效度、测验公平性和测验偏差是三个独立的问题。例如,对于一个有效地测验,我们既可以公平地使用它,也可能不公平地使用它。下面两个根据相关资料摘取出的专栏简要介绍了这方面的问题。