当前位置:课程学习>>第七章>>文本学习>>知识点三


第七章 心理测验的编制



知识点三 心理测验的合成与标准化


一、合成测验

(一)选择与审定试题

1. 选择试题形式

测验编制者必须确定测验内容的表现方式,是纸笔测验还是操作测验;是只要被试认出正确答案,还是需要他自己做出正确答案。在大多数情况下,任何内容都可以用几种形式呈现,问题是如何选择“最优的”表现方式。在选择题目形式的时候要考虑以下的问题:

(1)测验的目的和材料的性质

如果要考查学生对概念和原理的记忆,宜用简答题;要考查对事物的辨别和判断的能力,宜用选择题;要考查综合运用知识的能力,宜用论文题。

(2)接受测验的团体的特点

如对幼儿宜用口头测验,对于文盲或识字不多的人不宜采用要求读和写的项目,而对有言语缺陷的人如聋哑、口吃则要尽量采用操作项目。

(3)各种实际因素

譬如,当被试人数过多,测验时间和经费又有限时,宜用选择题进行团体纸笔测验,而人数少,时间充裕,又有某些实验仪器和设备时,则可用操作测验。廖世承、陈鹤琴先生几十年前曾提出以下几条选择测验形式的原则:使被试者容易明了测验做法;在做测验时不会弄错;做法简明、省时;计分省时省力;经济。

2. 审定题目

制订项目的过程包括编写、编辑、预测和修改等一系列过程。在获得一个令人满意的项目之前,这些步骤是不断重复的。在这个过程中,编制者和有关方面专家要对项目反复审查修订,改正意义不明确的词语,取消一些重复的和不适用的项目。然后将初步选定的项目汇集起来组成一个预备测验。在审定项目时,不但要考虑项目分析所提供的资料,还要考虑测验的目的、性质与功能。最好的项目,就是只测定所需要的特征,并能对该特征加以有效区分的难度合适的项目。一般说来,项目的区分度越高越好,这是选择项目的一条重要标准。特别是对于选拔测验,此标准尤为重要。选择项目的另一个指标是难度。难度多大为合适并无一个绝对标准,而要根据测验目的来确定。有的要求难一些,有的则要求容易一些,有的可不考虑难度。就是同一张试卷,题目难度也可以不同,只要整个测验的难度分布符合要求即可。根据项目分析资料选出的项目,还要与测验计划再次对照,看看材料内容以及所测量的行为目标是否与计划相符,必要时加以适当调整。此外项目的数量还必须适合于所限定的时间。(具体相关内容详见第六章)审定试题要注意以下的几个问题:

(1)题目的范围应与测验计划所列的内容技能双向细目表一致。也就是说材料的内容以及所测量的认知技能上的比率要与拟定的编题计划相符合,必要时要加以调整。

(2)题目的数量要比最后所需的数目多一倍至几倍,以备筛选和编制复本。在编制一个新的问卷的过程中,经过预测和项目分析以及因素分析,问卷的结构会被精简,测题的数目会相应的缩减,因此起初题目的数量要多一些。

(3)题目的难度必须符合测验目的的要求。

(4)题目的说明必须清楚明白。

对测题的审定除考虑题目本身的性质,还应该考虑各类题目的适当比例,再看看每一个备选中的题目是否叙述清楚,是否提供了额外线索。另外,要检查测题是否适合施测对象和施测条件,题目的难度和区分度是否恰当,题目是否相互独立,有没有重叠。

(二)测题的编排

项目选出之后,必须根据测验的目的与性质,并考虑被试作答时的心理反应,加以合理安排。虽然,测验的种类多种多样,编排也会因人因测验而异,但是测验编排也有其一般原则:

1. 测题的难度排列宜逐步上升

测验开头的题目(两道左右)应是十分容易的题目,这样的安排易于消除和缓解紧张情绪,之后再进入较难的题目,形成先易后难的测题排列模式。当然也可以在测验的最后设置一些难度大的题目,考察被试的最高水平。

2. 尽可能将同类型的测题组合在一起

这样做的主要目的在于相同类型的题目只做一次答题的解释说明即可,为测验编制者和受测者双方都省时省力,因为被试在答题的过程中相同的题目会有相同的反应方式,同时可以简化记分工作和对测验结果的统计分析。

3. 注意根据各种类型测题本身的特点排列题目

如果是非题或选择题中必须避免将选择相同的选项的测题安排在一起,以避免引起被试的定势反应:在匹配题和重组题中,所有的选项必须安排在同一张纸上。此外,论文题目必须和回答内容在同一张纸上,并留有足够的空间。

 两种常见的排列方式:

(1)并列直进式

将整个测验按试题材料的性质归为若干分测验,在同一分测验的测题则依其难度由易到难排列。如韦克斯勒成人智力测验(WAIS)。将整个测验按测题材料的性质归为若干分测验,在同一个分测验中的测题,则依其难度由易到难排列。

(2)混合螺旋式

先将各类试题依难度分成若干不同的层次,再将不同性质的试题予以组合,作交叉式的排列。其难度则渐次提高。如比西智力量表。将各种类型的测题依难度分成若干不同的层次,将同等难度水平中不同性质和类型的题目组合在一起,再依难度渐次排列。此种编排的优点是可使被试对各类测题循环作答,从而维持兴趣。

二、预测与项目分析

初步筛选出来的项目虽然在内容和形式上符合要求,但是是否具有适当的难度与鉴别作用,还必须通过实践来检验,也就是说要通过预测进行项目分析,为进一步筛选题目和为编排测验提供客观依据。

(一)预测

当开发者设计一个新的测验的时候,他们不能假定测验一定具有预期的特点。正像工程师设计了一驾新的飞机以后,要先看看飞机的飞行的功能是怎么样的,测验的开发者也需要进行相应的研究以判断新测验的功能如何。即测题初步确定以后,在小样本被试内试验一下是有必要的,以获得测题性能优劣的客观性资料,同时也为进一步筛选题目提供客观依据。预测应注意以下几个问题。

① 预测时所用的被试应该是从测验对象这个全域中抽取的,也即取样时同样应注意其代表性。例如,对于预备适用于6—8岁儿童的智力测验,进行预试时的被试必须是从6—8岁的儿童中按随机分层抽样抽取的,任何低于6岁或高于8岁的儿童都应该排除在样本之外。

② 关于预测的人数问题,一般说来,不必太多,绝大多数的被试必须留到后面的正式测验中但也不可过少,在教育测验上通常以370人为宜,智力测验至少要30人。如果测题的项目很多,需要占用的时间较长,而被试的来源又比较方便的话,在保证样本代表性的前提下可以考虑对不同样组的被试实施不同的分测验。

③ 预测应力求按正规的要求进行,使其与将来正式测验的情况相似。

④ 预测的实施,应使被试有足够的完成测试的时间,以便搜集充分的反应资料使统计分析结果可靠。

⑤ 在预测的过程中,应就被试的反应情况随时加以记录,如一般的被试完成预测所花费的时间、题意有哪些不清之处、被试对哪些测题产生误解、长时间的停顿等方面,这些都表明某一项目会产生混淆,都要一一加以记录。

预测的目的在于获得被试对项目如何反应的资料,它既能提供哪些项目意义不清、容易引起误解等质量方面的信息,又能提供关于项目好坏的数量指标,而且通过预测还可以发现一些原来想不到的情况,如检验时限多长合适,在施测过程中还有哪些条件需要进一步控制等。

(二)项目分析

预测完成以后可以对预测的结果进行项目分析。项目分析主要涉及到测题的难度、鉴别力、验证测验结构的合理性分析等。根据分析结果对测题进行选择、修改,最后选择较好的测题组成测验。对项目的分析包括质的分析和量的分析两个方面。前者从内容取样的适合性、题目的思想性以及表达是否清楚等方面加以评鉴;后者对预测结果进行统计分析,确定题目的难度、区分度、备选答案的合适度等。根据分析的结果,再选择、编制出较好的测验。此外,为了检验所选出的项目的性能是否真正的符合要求,通常要再选取出来自同一总体的另一样本再测一次,并根据其结果进行第二次的项目分析,看两次分析的结果是否一致。如果题目前后差距较大,说明该题的性能值得怀疑。

三、信度和效度考察

编好的测验可在小范围内试用,以对其可靠性和有效性进行鉴定,初步确定该测验是否可用。然后再在较大的范围内试用,进一步检验其信度和效度。

(一)信度

信度就是对测量一致性程度的估计。作为测验的基本特点之一,信度相当重要。虽然一份测验的最终目的是求得较高的效度,但是信度的高、低对测验性能的优劣依然影响很大。举一个简单的例子,假设有一名被试参加了某项智力测验智商为120。隔一个月后,在相同条件下再测了一次,智商为90。显然,两次结果相差太远。后经调查,发现被试在这两次测试期间没有明显的应试状态和身体情况的变化。那么,该测验结果的不稳定现象只能说明这项智力测验本身是不可靠的,当然也就不能推广使用了。因此,真正可以使用的量表和问卷一般都必须具有较高的信度。一般性能良好的能力与学习成就测验的信度系数应达到0.90以上,性格、兴趣、价值观等人格测验的信度系数应达到0.8以上。

(二)效度

效度是针对测验结果的,接着上面的例子,当对某一儿童实施一套智力测验时,儿童的父母首先可能会提出“这个测验有效吗?”这样的问题。实际上,他们是在问“这个测验真的测得出智力吗?测验的结果真的代表了孩子的智力水平吗?”可以看出,测验的有效性是针对测验结果而言的,即测验效度是“测验结果”的有效性程度。

测验都是为了特定的目的而设计的.没有一种对任何测量目的都有效的测验。例如,卡持尔16PF人格测验是测量人格的,它对于智力的测量就缺乏有效性,所以在描述和评价一个测验的效度时,必须考虑到这一测验的特殊用途,指明该测验对测量什么有效。

另外,效度只有程度上的差异,而不是“全”或“无”的差别。在对效度进行评价时,我们不能说某个测验结果“有效”或“无效”,而要在考虑到其用途的基础上,用“高效度”、“中等效度”或“低效度”来对它进行评价。有关测验的信效度的详细内容请参照第四、五章的内容。


四、常模制订

没有附加的可解释的资料,任何心理测验的原始分数(即使经过矫正)都是没有太大意义的。单说某人正确解决了15道数学推理测验题,在词汇测验中能再认34个单词或者在57秒之内成功地组装了一机械物体,并不能给我们提供关于他在这方面能力的任何信息,起码信息很少。即使是我们平时所熟悉的百分制分数(Percentage)也不能提供一个满意的关于分数解释的方案。例如,一份词汇测验上的65%可能等于另一份的30%的正确性,或等于另一份的85%的正确性。测验的难度决定着分数的意义。心理测量分数通常用参照常模的办法解释。所谓常模即指标准化样本的测验作业情况,一般把用作比较的团体叫做常模团体,常模团体的一般平均分数叫做常模。简单的说,常模就是代表一般人同类行为的分数。

建立常模的方法是在将来要使用测验的全体对象中,选择有代表性的一部分人(称标准化样本),对此样本施测并将所得的分数加以统计整理。得出一个具有代表性的分数分布,此即是该测验的常模。

五、编写指导手册

编写指导手册是测验编制的最后一步,一个测验的指导手册应包含的内容有:

① 测验的目的和功能。通常测验的指导手册要说明测验可用来测量哪种心理结构,是能力倾向还是人格特征,其功用是筛选还是诊断,或是其他的用途。

② 测验编制的理论背景以及测验中的材料是根据什么原则、应用什么方法选择出来的。

③ 如何实施测验的说明。这部分主要包括测验分为几个部分,每部分有多少测题,如何作答,做例题的方法,对主试的训练要求、时限以及其它注意事项。

④ 测验的标准答案和记分标准。

⑤ 常模资料,包括常模表、常模适用的团体及对测验分数如何做解释。

⑥ 测验的基本特征,包括难度、鉴别力、信度、效度和因素分析的资料,以及这些资料取得的条件和情境,包括调查的样本和时间。