文本学习二

当前位置：课程学习>>第八章>>知识讲解>>文本学习>>知识点三

第八章教育测验的类型与质量分析

继续学习

知识点三：教育测验的信度与效度

一、测验的信度

（一）定义

信度是指可靠性或一致性程度。测验的信度是指测验结果的可靠性或一致性程度。一个好的测验，对同一组被试先后施测两次，测验的结果应保持一致，否则测验就不可靠。信度高低通常以相关系数来表示。

（二）测验信度估计的主要方法

1．重测信度

也叫稳定性系数，是估计测验跨时间的一致性的指标。用同一种测验对同一组被试先后施测两次，被试两次测验分数间的相关系数即为重测信度，一般用积差相关系数来表示。如果第一次测验中得高分的被试，在第二次测验中的分数也倾向于较高，则信度系数就高，说明测验结果的一致性高。

重测信度需要测试两次，并且易受两次测验间隔时间长短和间隔期间被试活动的影响。重测间隔时间短，则被试对上次测验内容会有所记忆；若间隔时间长，则这段时间被试知识、能力的变化以及各种活动又将成为影响因素。究竟以多长时间为宜，要根据测验的性质、目的来确定。如果测验是为了测量被试短时期内某种特性的稳定性，则间隔时间可短些；如果测验是为了测量未来几年的学生成就，那么重测时间就间隔长些。在报告重测信度时，也应该说明间隔时间及在此间隔时间内被试的有关活动。

2．复本信度

也叫等值稳定性系数，是估计测验间跨形式的一致性指标。用等值测验（即A、B卷）在短时间内，对同一组被试施测两次，两次测验得分间的相关系数即为复本信度。等值测验或复本，是指两种形式相同的测验，其具体试题不同，但这些试题都是从同一领域中选出的，其题型、题数、难度、区分度、指导语、时限等方面应相似或相同。复本信度一般用积差相关系数。两次等值测验的成绩如果相关程度较高，则说明在测量被试某种行为特性时不同试题组间的一致性较高，也说明了试题取样具有充分的代表性。因此，如果要检验测验内容对测量目标的代表性，可采用复本法评价其可靠性。

3．同质性信度

又叫内部一致性系数，是估计测验内部跨测题的一致性指标。这里讲的一致是指测题得分的一致，试题所测特质的一致。估计同质性信度可采用分半法、库理法、克伦巴赫系数法等。而分半法是最常用的信度估计方法，所有这里主要介绍分半法。

分半法主要是斯皮尔曼-布朗校正公式。其程序是，先按正常的程序实施测验，并将全部试题分为相等的两半（一般采用奇偶题分半），再计算被试在两半试题上得分的相关系数（积差相关系数），最后用斯布公式进行校正，即

（是两半试题得分的相关系数）

采用斯布校正公式的条件是分半后两组试题在平均得分、标准差、测题的组间相关、分数的分布形态及内容上大致相同。但是在测验中往往不能完全满足这些条件，这时，可采用弗朗那根公式和卢伦公式。

弗朗那根公式：；卢伦公式：

式中，与分别为两半测验分数的方差；为整个测验分数的方差；为两半考试分数之差的方差。

（三）影响测验信度的因素

教师要提高测验的信度，必须认清影响测验信度的各种因素。

1．测验长度。一般来说，测验越长，信度值就越高。一方面测验加长，可能改进项目取样的代表性，从而能更好地反映受测者的真实水平；另一方面，测验的项目越多，在每个项目上的随机误差就可以互相抵消。

2．测验的难度。试题难度和测验的信度没有直接关系，但试题的难度直接影响测验分数的分布。如果其他条件相同，分数分布的范围越大，对学生的区分作用就越明显，则信度高。所以试题的平均难度控制在中等水平，可获得理想的分数分布。

3．测验内容的同质性。即测验测量的行为特征的一致性。同质性越高，其内部相依性越大，就会提高测验的信度。性质相同的测验内容，对应试者也要求相同的能力、知识或技能。因此，在编制试卷时，应注意试题样本所测量的行为特征越集中越好。行为特征越集中，测验结果的可靠性就越高。

4．被试者差异。被试的能力或特性的分布范围宽窄也影响测验的信度。分数的分布影响测验的信度，而分数的分布形态受被试能力、特性影响。被试的能力全距越宽，或者说被试的差距越大，则测验结果的可靠性越高。

5．评分的客观性。信度系数根据实得分数算出，所以评分是否客观对信度影响很大。客观性测验评分标准明确，评分客观，故有助于提高测验的信度。主观性测验由于评分者对评分标准的把握难以完全统一，以致评分比较主观，从而会影响测验信度。

总之，影响信度的因素很多，其他因素如测验内容取样是否恰当、施测情境是否良好、测验时间是否充裕等都会影响测验的信度。在实践中要采取可行措施提高测验信度，如适当增加试题的数量，合理安排试卷结构；科学设置答题要点和评分细则；严格挑选、培训评卷人员，多个评分者评分；采用多种测试方法等。

二、测验的效度

（一）含义与性质

编制测验，希望测验能比较好的反映要测的特质的水平，这就是测验的效度，即测验实际测量出其所要测量的特质的程度。测验的效度始终是对一定的测验目的而言的。判断某种测验效度的高低，主要看它达到测验目的的程度。

第一，效度极为重要。教育测量的现象大都是精神现象，只能通过对其具有可测性的外部表现（如语言、动作、行为）进行测量。这种间接的测量，完全有可能偏离原定的测量目标，因此效度问题是测验质量的根本问题。

第二，效度是相对的。任何测验只是根据欲测特质选定一组行为样本，并非全部目标，试题的代表性决定了对目标的测量程度。一般情况下，对目标完全没有代表性和对目标

有百分之百代表性的测验几乎是不存在的。

第三，效度高的测验一定可靠。效度高的测验其信度一定高。因为如果某测量工具对某事物的测量结果是有效的，那么测量结果一定真实地反映了事物的某种属性和特征，因此必然是可靠的。

（二）效度的估计方法

常用的效度估计方法主要有两种：

1．内容效度及其估计方法

内容效度是指测验试题对欲测量内容或行为目标代表性程度。如学业测验所要测量的内容就是课程标准所规定的全部内容。而这么多内容不可能在一次测验中全部测量，只能选择其中一部分编成试题加以测量。如果测验的试题能较好地代表要测量的内容，那么测验的内容效度就高；反之，其内容效度就低。

确定内容效度最常用的方法是专家评价法。一般由有关学科专家和有经验的教师在系统分析课程标准、教科书和测验试题的基础上，对试题与原定内容范围的符合程度作出判断。专家或教师在评价测验内容效度时，要把自己当做一名被试来阅读和回答每个问题，这样可以发现试题或答案中的某些问题。

确定内容效度时，主要是检验测验试题反映的内容、目标、试题比例等与原定编题计划的内容范围比例是否符合，对其符合程度作出恰当的判断。这是一种逻辑分析，所以这种效度又叫逻辑效度。

2．效标关联效度及其估计方法

（1）定义。效标是指测验所欲测量的目标，即被试的某种行为特质，这种行为特质是测验所要估计或所要预测的，是用以检验效度的参照标准。效标关联效度是以效标为标准来衡量测验是否有效的数量指标，常以测验分数与效标测量值之间的相关系数来表示。效标测量值常以一种测验分数来表示。例如，分析高考的效度，如果把大学学习能力作为效标，则常用学生入大学后一年级学习成绩作为效标测量值。

（2）种类。由于获得效标测量值的时间不同，效标关联效度可分为同时效度和预测效度。同时效度指效标资料可以与测验分数同时获得，如学生学业成绩可作为智力测验的标准。而高考的效度则是一种预测效度，因为效标测量值在考试以后隔一段时间才能获得。

（3）估计方法。

无论是同时效度还是预测效度，都可以用测验分数与效标测量值之间的相关系数来表示，称为效度系数，这是求效标关联效度常用的方法。

当测验分数与效标分数均为连续变量且为正态分布时，计算效度系数可用积差相关法；当成绩以等级表示时，可用等级相关法；当测验成绩为连续变量，而效标分数为二分变量时，可采用点二列相关法。

（三）提高测验效度的措施

第一，控制系统误差。系统误差常常是由于测量工具不符合标准，题目和指导语有暗示性，答案有明显的规律等原因产生，控制这些因素可降低系统误差，从而提高效度。

第二，关注测验的内容与形式。一是测验内容要确实能体现测验的目的。二是测验材料必须对整个内容具有代表性。三是题目表述必须清楚简明，所用字、词、句能为被试理解，内容应引起应试者的兴趣。四是题目排列由易到难，前面题目不应暗示后面题目的答案，题目难度合适并有足够的区分度。

第三，适当增加测验的长度。增加测验的长度可提高信度，而效度的最大值又与信度有关，所以也可适当提高效度。不过增加测验长度对效度的影响小于对信度的影响。但如果原测验效度不高，想用增加题量去提高效度，是达不到目的的。增加试题数量对效度的影响公式为：

式中，为试题增加后的效度系数；为原考试的信度系数；为原考试的效度系数；n为增加后试题数除以原来题数所得的商。

如某测验原有30题，信度系数为0.63，效度系数0.70，如果把测试题增加到90题，其效度系数估计是多少?

解：依据题意，=0.63，=0.70，n=，所以

==0.81

第四，控制测验实施过程中的因素。测验的实施应严格按照测验手册进行，不作超出规定的解释，掌握好时间；主试的指导语应统一；测验场地无噪音和其他因素干扰；评分者应遵循评分标准，仔细登记，避免错误。

进入知识归纳的学习

第八章 教育测验的类型与质量分析

知识点三：教育测验的信度与效度

第八章教育测验的类型与质量分析