当前位置:课程学习>>第六章>>文本学习>>知识点一
测验编制过程中,为了改善和提高测验的信度和效度,在组成测验之前,应对每个测题进行分析,这就是项目分析(或称测题分析)。所以项目分析就是对组成测验的每个测题进行分析。项目分析可分为质的分析和量的分析。所谓质的分析是指分析测题的内容和形式。量的分析则采用统计方法来分析试题的品质,主要包括难度分析和区分度分析等,以作为筛选和修改测题的依据。
比如研究生入学考试,英语和政治是公共科目,出题部门如何知道某题出得好或坏,又如何控制试卷难度,以使招生工作顺利进行,这就不仅仅需要专家从内容和形式上进行讨论(如内容效度的研究,也即质的分析),还需要进行一系列对项目的量的分析,如难度、区分度等。本章主要涉及量的分析。
另外,测试的功能之一是评价教学效果。人们日益重视教学质量,但测试作为一种评价教学质量的工具,其自身的质量也应该给予足够的重视。评价教学效果必须是客观的,准确的,公正的,而测试本身存在着许多问题,如信度、效度等,测试的结果有时候很难反映学生真实的能力。尤其是教师自编的测试,一般不进行预测,不求信度和效度,不做项目分析就直接使用,这样的测试,即使其编制者经过仔细的精心的设计也难免存在诸多缺陷。对于有缺陷的项目,Henning认为应该予以鉴定并从测试中删除,因此,在使用测验测量受测者的能力之前,必须“对测验进行检验”。所谓对测验进行检验就是对测验的每一个项目做定量分析,即利用一定的技术鉴定项目的优劣,然后确定对有缺陷的项目是删除还是加以修改后再使用。鉴定项目的优劣有两个指标,项目难度和项目区分度,前者是“项目的数量性指标”,后者是“项目的质量性指标”。本章将主要介绍如何对已经编制好的心理测验中的项目进行定量的项目分析,以达到优化测验质量的目的。
难度(difficulty),即是表示题目难易程度的指标。这一概念在能力测验里称为项目的难度水平,而在非能力测验里,称为“通俗性”或“流行性”水平(指一总体中被试在答案范围里回答项目的程度)。两者都是指在总体中,能够正确或确切回答某项目的人数。难度的指标通常以通过率表示,即以答对或通过该题的人数百分比来表示。项目难度用难度指数P表示。例如70%考生答对某个项目,该项目的难度指数为0.7,20%考生答对某个项目,该项目的难度指数为0.2。由于难度指数值与实际难度相反,因此,常常有人建议,将“难度指数”这个术语用“容易指数”来代替。但也有人认为,只要正确理解其意义,并不会造成认识上的混乱。难度指数P值越大,表示答对率越高,因而该项目越容易。反之,P值越小,表示答对率越低,因而该项目就越难。
(一)二分法记分项目的难度
1.通过率
心理测验的项目大多数为选择题,通过记1分,错误记0分。对这类题目可直接用公式6.1计算:
P=R/N×100% (6.1)
其中,P: 试题的难度;
R: 答对该题的人数;
N: 参加测验者的总数。
例6.1 设有80名学生参加某个测验,答对其中某题目的有32人则该题的难度是:
P=32/80=0.40
难度值的范围在[0, 1]之间,若两个项目难度分别为0.91和0.72,则项目2的难度大。所以P值越小的项目,其难度越大。
2.极端分组法
当被试人数较多时,则可根据测验总成绩将被试分成三组:分数最高的27%被试为高分组,分数最低的27%被试为低分组,中间46%的被试为中间组。也可以取50%、1/3、1/4的比例,但是27%最精确,这是凯利(Kelley)在1939年的一项研究中提出的。分别计算高分组和低分组的通过率,以两组通过率的平均值作为每一道题的难度。计算难度公式为:
P=(PH+PL)/2 (6.2)
其中,P代表难度,PH和PL分别代表高分组和低分组通过率。
例:设有370名被试,取其中成绩最高的27%(100)人定为高分组,成绩最低的27%(100)人定为低分组,对于某一道试题,若高分组有60人答对,低分组有30人答对,则;
PH=60/100=0.60 ,
PL=30/100=0.30
所以该题难度为:P=(PH+PL)/2 =(0.60+0.30)/2=0.45
(二)非二分法记分项目的难度
如何确定适宜的难度水平?一个测验的难度是有组成测验的各个题目的难度决定的。整个测验的难度水平的确定可以从两个方面考虑。
(一)项目的难度
进行难度分析的主要目的是为了筛选项目,项目的难度多高合适,取决于测验的目的,性质以及项目的形式。
大多数的标准测验,都希望能准确测量个体的差异。如果在某题上,被试全答对或全打错,则该题无法提供个别差异的信息,也不会影响测验分数的分布,因此对测验的信度和效度没有多大的作用。对项目难度来说,如果项目过难或过易,就会造成被试基本上都答错或基本上都答对了,也就是P值接近0或1,这样也就不能区分被试能力的差异。大体而言,项目难度为0.50时最理想,此时项目具有最大鉴别力。
为了使测验具有更大的鉴别力,选择难度在0.50左右的试题比较合适。在实际操作时,一般只需使项目的平均难度接近0.50而各个项目的难度在0.50±0.20之间变化。
如果测验是用于选拔或诊断,则最好多选一些难度与录取线接近的项目。例如测验是要辨别或选择少数优秀的被试,测验就应该有较大的难度,P值应该较小。如果录取率为20%,那么难度最好确定为20%,恰好使得20%的优秀被试通过;假如测验是要筛选出少数较差的被试,则测题P值应该高,使得只有少数被试不能通过。在项目选择上还有一个要注意的问题是:当项目形式是选择题时,要考虑到让P值大于概率水平,否则项目是无效的。当P值等于概率,说明题目可能过难或题意不清,被试凭猜测作答。P值小于概率无意义,说明题目质量有问题。对于是非题而言,其难度值应为0.75最为合适。对于四选一的项目,其难度值为0.63是最为合适。
(二)测验的难度
测验的难度直接依赖于组成测验的项目的难度。通过考察测验分数的分布,可以对测验的难度做出直观检验。由于人的心理特性基本上是呈正态分布的,而我们目前所采用的统计方法又多以正太分布为前提,因此大多数测验在设计时希望分数呈现常正态分布。如果被试样本具有代表性,对于中等难度的测验,其测验总分应该是接近正态分布的。
当然,也不是所有测验都要求测验分数呈正态分布。有些测验,如掌握性测验或标准参照测验,分数分布出现偏态是允许的,这类测验的难度可根据实际需要来确定。若呈正偏态分布,则大多数分数集中在低端,测验难度较大。正偏态分布适合于筛选性测验(选拔性,竞争性测验),如大学入学考试、数学竞赛,或者一个单位从近百人中招聘5人;若负偏态分布,则大多数分数集中在高分端,测验难度较小。比如中学会考,大部分题目都是比较简单的。
难度的指标是根据样本水平来确定的,具有相对性。P值所反映的是项目的相对难度,即心理难度,而不是绝对难度。一个项目的P值大小,除了与内容或技术本身的难易有关外,还与样本团体的能力水平有关。一个很难的内容,也可能因为受测者学过相关的知识而变的容易,也就是“难者不会,会者不难”。因此,仅仅依靠主观判断或定性分析来确定项目难度是不可靠的,这也是测验需要预测的原因之一。