当前位置:课程学习>>第八章>>知识讲解>>文本学习>>知识点三

第八章  教育测验的类型与质量分析



知识点三:教育测验的信度与效度


一、测验的信度

(一)定义

信度是指可靠性或一致性程度。测验的信度是指测验结果的可靠性或一致性程度。一个好的测验,对同一组被试先后施测两次,测验的结果应保持一致,否则测验就不可靠。信度高低通常以相关系数来表示。

(二)测验信度估计的主要方法

1.重测信度

也叫稳定性系数,是估计测验跨时间的一致性的指标。用同一种测验对同一组被试先后施测两次,被试两次测验分数间的相关系数即为重测信度,一般用积差相关系数来表示。如果第一次测验中得高分的被试,在第二次测验中的分数也倾向于较高,则信度系数就高,说明测验结果的一致性高。

重测信度需要测试两次,并且易受两次测验间隔时间长短和间隔期间被试活动的影响。重测间隔时间短,则被试对上次测验内容会有所记忆;若间隔时间长,则这段时间被试知识、能力的变化以及各种活动又将成为影响因素。究竟以多长时间为宜,要根据测验的性质、目的来确定。如果测验是为了测量被试短时期内某种特性的稳定性,则间隔时间可短些;如果测验是为了测量未来几年的学生成就,那么重测时间就间隔长些。在报告重测信度时,也应该说明间隔时间及在此间隔时间内被试的有关活动。

2.复本信度

也叫等值稳定性系数,是估计测验间跨形式的一致性指标。用等值测验(即A、B卷)在短时间内,对同一组被试施测两次,两次测验得分间的相关系数即为复本信度。等值测验或复本,是指两种形式相同的测验,其具体试题不同,但这些试题都是从同一领域中选出的,其题型、题数、难度、区分度、指导语、时限等方面应相似或相同。复本信度一般用积差相关系数。两次等值测验的成绩如果相关程度较高,则说明在测量被试某种行为特性时不同试题组间的一致性较高,也说明了试题取样具有充分的代表性。因此,如果要检验测验内容对测量目标的代表性,可采用复本法评价其可靠性。

3.同质性信度

又叫内部一致性系数,是估计测验内部跨测题的一致性指标。这里讲的一致是指测题得分的一致,试题所测特质的一致。估计同质性信度可采用分半法、库理法、克伦巴赫系数法等。而分半法是最常用的信度估计方法,所有这里主要介绍分半法。

分半法主要是斯皮尔曼-布朗校正公式。其程序是,先按正常的程序实施测验,并将全部试题分为相等的两半(一般采用奇偶题分半),再计算被试在两半试题上得分的相关系数(积差相关系数),最后用斯布公式进行校正,即

是两半试题得分的相关系数)

采用斯布校正公式的条件是分半后两组试题在平均得分、标准差、测题的组间相关、分数的分布形态及内容上大致相同。但是在测验中往往不能完全满足这些条件,这时,可采用弗朗那根公式和卢伦公式。

弗朗那根公式:;卢伦公式:

式中,分别为两半测验分数的方差;为整个测验分数的方差;为两半考试分数之差的方差。

(三)影响测验信度的因素

教师要提高测验的信度,必须认清影响测验信度的各种因素。

1.测验长度。一般来说,测验越长,信度值就越高。一方面测验加长,可能改进项目取样的代表性,从而能更好地反映受测者的真实水平;另一方面,测验的项目越多,在每个项目上的随机误差就可以互相抵消。

2.测验的难度。试题难度和测验的信度没有直接关系,但试题的难度直接影响测验分数的分布。如果其他条件相同,分数分布的范围越大,对学生的区分作用就越明显,则信度高。所以试题的平均难度控制在中等水平,可获得理想的分数分布。

3.测验内容的同质性。即测验测量的行为特征的一致性。同质性越高,其内部相依性越大,就会提高测验的信度。性质相同的测验内容,对应试者也要求相同的能力、知识或技能。因此,在编制试卷时,应注意试题样本所测量的行为特征越集中越好。行为特征越集中,测验结果的可靠性就越高。

4.被试者差异。被试的能力或特性的分布范围宽窄也影响测验的信度。分数的分布影响测验的信度,而分数的分布形态受被试能力、特性影响。被试的能力全距越宽,或者说被试的差距越大,则测验结果的可靠性越高。

5.评分的客观性。信度系数根据实得分数算出,所以评分是否客观对信度影响很大。客观性测验评分标准明确,评分客观,故有助于提高测验的信度。主观性测验由于评分者对评分标准的把握难以完全统一,以致评分比较主观,从而会影响测验信度。

总之,影响信度的因素很多,其他因素如测验内容取样是否恰当、施测情境是否良好、测验时间是否充裕等都会影响测验的信度。在实践中要采取可行措施提高测验信度,如适当增加试题的数量,合理安排试卷结构;科学设置答题要点和评分细则;严格挑选、培训评卷人员,多个评分者评分;采用多种测试方法等。

二、测验的效度

(一)含义与性质

编制测验,希望测验能比较好的反映要测的特质的水平,这就是测验的效度,即测验实际测量出其所要测量的特质的程度。测验的效度始终是对一定的测验目的而言的。判断某种测验效度的高低,主要看它达到测验目的的程度。

第一,效度极为重要。教育测量的现象大都是精神现象,只能通过对其具有可测性的外部表现(如语言、动作、行为)进行测量。这种间接的测量,完全有可能偏离原定的测量目标,因此效度问题是测验质量的根本问题。

第二,效度是相对的。任何测验只是根据欲测特质选定一组行为样本,并非全部目标,试题的代表性决定了对目标的测量程度。一般情况下,对目标完全没有代表性和对目标

有百分之百代表性的测验几乎是不存在的。

第三,效度高的测验一定可靠。效度高的测验其信度一定高。因为如果某测量工具对某事物的测量结果是有效的,那么测量结果一定真实地反映了事物的某种属性和特征,因此必然是可靠的。

(二)效度的估计方法

常用的效度估计方法主要有两种:

1.内容效度及其估计方法

内容效度是指测验试题对欲测量内容或行为目标代表性程度。如学业测验所要测量的内容就是课程标准所规定的全部内容。而这么多内容不可能在一次测验中全部测量,只能选择其中一部分编成试题加以测量。如果测验的试题能较好地代表要测量的内容,那么测验的内容效度就高;反之,其内容效度就低。

确定内容效度最常用的方法是专家评价法。一般由有关学科专家和有经验的教师在系统分析课程标准、教科书和测验试题的基础上,对试题与原定内容范围的符合程度作出判断。专家或教师在评价测验内容效度时,要把自己当做一名被试来阅读和回答每个问题,这样可以发现试题或答案中的某些问题。

确定内容效度时,主要是检验测验试题反映的内容、目标、试题比例等与原定编题计划的内容范围比例是否符合,对其符合程度作出恰当的判断。这是一种逻辑分析,所以这种效度又叫逻辑效度。

2.效标关联效度及其估计方法

(1)定义。效标是指测验所欲测量的目标,即被试的某种行为特质,这种行为特质是测验所要估计或所要预测的,是用以检验效度的参照标准。效标关联效度是以效标为标准来衡量测验是否有效的数量指标,常以测验分数与效标测量值之间的相关系数来表示。效标测量值常以一种测验分数来表示。例如,分析高考的效度,如果把大学学习能力作为效标,则常用学生入大学后一年级学习成绩作为效标测量值。

(2)种类。由于获得效标测量值的时间不同,效标关联效度可分为同时效度和预测效度。同时效度指效标资料可以与测验分数同时获得,如学生学业成绩可作为智力测验的标准。而高考的效度则是一种预测效度,因为效标测量值在考试以后隔一段时间才能获得。

(3)估计方法。

无论是同时效度还是预测效度,都可以用测验分数与效标测量值之间的相关系数来表示,称为效度系数,这是求效标关联效度常用的方法。

当测验分数与效标分数均为连续变量且为正态分布时,计算效度系数可用积差相关法;当成绩以等级表示时,可用等级相关法;当测验成绩为连续变量,而效标分数为二分变量时,可采用点二列相关法。

(三)提高测验效度的措施

第一,控制系统误差。系统误差常常是由于测量工具不符合标准,题目和指导语有暗示性,答案有明显的规律等原因产生,控制这些因素可降低系统误差,从而提高效度。

第二,关注测验的内容与形式。一是测验内容要确实能体现测验的目的。二是测验材料必须对整个内容具有代表性。三是题目表述必须清楚简明,所用字、词、句能为被试理解,内容应引起应试者的兴趣。四是题目排列由易到难,前面题目不应暗示后面题目的答案,题目难度合适并有足够的区分度。

第三,适当增加测验的长度。增加测验的长度可提高信度,而效度的最大值又与信度有关,所以也可适当提高效度。不过增加测验长度对效度的影响小于对信度的影响。但如果原测验效度不高,想用增加题量去提高效度,是达不到目的的。增加试题数量对效度的影响公式为:

式中,为试题增加后的效度系数;为原考试的信度系数;为原考试的效度系数;n为增加后试题数除以原来题数所得的商。

如某测验原有30题,信度系数为0.63,效度系数0.70,如果把测试题增加到90题,其效度系数估计是多少?

解:依据题意,=0.63,=0.70,n=,所以

==0.81

第四,控制测验实施过程中的因素。测验的实施应严格按照测验手册进行,不作超出规定的解释,掌握好时间;主试的指导语应统一;测验场地无噪音和其他因素干扰;评分者应遵循评分标准,仔细登记,避免错误。

 

进入知识归纳的学习