文本学习二

当前位置：课程学习>>第十章>>知识讲解>>文本学习>>知识点三

第十章教育测验的编制

知识点三：教育测验编制的基本程序

一、搜集测验材料

制定了测验蓝图，测验编制者就应该着手收集相应的测验内容材料作为命题取材的依据。一个测验的好坏和测验材料的选择适当与否有密切关系。学业成就测验只是所要测量的学生学习效果的一个有代表性的样本，不可能顾及所有的构成要素与层次，而样本的代表性和教材的重点与难点、资料的丰富性与普遍性密切相关。教师只有在平时做个有心人，留意教材的重点与难点，注意搜集试题并分类储存，才有可能使试题的内容更有针对性，从而使编制的测验可信和有效。为此，教师在日常教学中，要随时把教材中重要的地方做好标记；在批阅作业或日常考试的试卷时，要记载学生常见的错误；在让学生出题的探索中，把学生出的好的试题积累下来；经常搜集其他教师编拟的现成试题，并随时把搜集到的或自编的试题记在卡片上，分科分类储存，以建立试题库。在搜集测验材料时要注意：

第一，测验材料要适合测验目的。这样才能提高测验的正确性和有效性。如初中毕业会考，其目的是考查初中生是否掌握了初中阶段所学科目的基础知识和基本技能，选材时应注意材料的基础性、代表性和广泛性，以全面性为准。

第二，资料要丰富，能够代表该科教材的全部内容。测验是选择所学全部内容中的一部分内容进行的。因此，这部分材料必须是该科教材全部内容的一个好的代表性样本，有足够的覆盖面，能突出基本内容和教学重点，各部分材料的比重与测验蓝图设计的比重相吻合。

第三，资料要有普遍性，体现公平原则。所选择的材料对全部测验对象要尽可能公平，即被试都有相等的学习机会。学科成就测验的编制要以统一的课程标准和统编教材作为选材依据，是大多数至全部被试都已学过的内容，要考虑大多数教师和专家的意见。

第四，材料要适合学生的程度并能区别学生的学习水平。选择的材料必须大部分都适合相应年级学生的程度和思维特点，难易适当，表述恰当。同时，能够将不同程度的学生区分开来。这样材料应该有一定的难度分布范围。

第五，材料要富有进取性并切合社会生活需要。即测验材料对学生的学习要产生一定的激励功能，既有底线标准，又有较高要求。如有些材料比学生的程度稍低，使最低程度的学生也能完成，促使其树立信心；有些材料比学生的程度略高，让程度高的学生也不容易完成，从而促使其进一步努力。同时，测验的材料要体现社会发展水平和实际社会，有时代意义且具有一定的实用价值。

二、选择试题形式

依据测验目的和材料确定测验内容的表现方式，如是纸笔测验还是操作测验；是让被试选择答案还是需要他提供正确答案。在大多数情况下，同一内容或目标可以用多种形式呈现。选择测验项目形式时，要依据测验的目标和材料的性质。如果要考查学生对概念和原理的记忆，宜用是非题、填空题等；要考查对事物的辨别和判断的能力，宜用选择题；要考查综合运用知识的能力，宜用论述题。在一个测验中，经常是采用多种题型相结合。

三、编写测验试题

测验试题编制包括出题、编辑、修改等一系列过程。这个过程中，编制者和有关学科专家要对试题反复审查修订，改正意义不明确的词语，取消一些重复的和不适用的试题等。然后将初步选定的试题汇集起来组成一个预备试卷。因此，测验试题编制是一个反复的过程。在编写测验试题时要注意：

第一，试题的内容范围要与测验蓝图一致，对测验内容范围和目标有代表性。

第二，所需试题数量要恰当。使大多数被试能在规定的时间内完成解答，又使他们感到时间并不十分充裕。同时，所处试题的数量要比最后所需的数目多一倍至几倍，以备筛选和编制复本。

第三，试题的难度必须符合测验目的和测验对象的需要。各类难度不同试题的比例，视测验对象和目的而定，但必须要适合大多数被试的水平，由易到难，能测出不同考生在知识和能力方面的差异。

第四，各个试题之间应保持互相独立。避免不同试题之间互相影响和暗示。

第五，试题的表述必须清楚明白。试题中用词要准确，文句要简明扼要，对解题要求的叙述必须清楚明了。

第六，题型应多样化。测验编制者应根据所要考查的目标及各种题型的特点，按照各种题型的命题原则来选择试题类型。

四、试题的试测与分析

初步编制出的试题虽然在内容和形式上符合要求，但是否具有适当的难度与区分度，必须通过实践来检验，即通过预测进行项目分析，为进一步筛选项目提供客观依据。

（一）试测

试题性能之优劣，不能仅凭测验编制者主观臆测来决定，必须将初步筛选出的试题组合成一种或几种预备测验，经过实际的试测而获得客观性资料，如被试对测验题目做何反应，哪些题目意义不清、容易引起误解等。试测时应注意以下几个问题。

第一，试测对象应来自将来正式测验准备施用的群体。如对于一个学业成就测验，参加试测的学生必须和以后正式施测的学生属于同一年级，并且具有相同的课程背景。试测人数不必太多，但要有代表性。

第二，试测的实施过程与情境应力求与将来正式测试时的情况相近似。

第三，试测的时限可稍宽一些，应使每个被试都能将试题做完，以便搜集充分的反应资料使得统计分析结果可靠。

第四，试测的过程中，应随时记录被试的反应情况，如在不同时限内一般被试所完成的题数、题意不清之处、长时间的停顿等方面，以便修改题目时参考。

（二）题目分析

测验的题目分析就是对试测结果进行分析，从质和量两个方面进行。前者是从内容取样的适当性、题目的思想性以及表达是否清楚等方面加以分析，后者是对预测结果进行统计分析，确定项目的难度、区分度、备选答案的适宜性等。根据分析结果对测验题目进行选择、修改，最后选择较好的测题组成测验。

编制一套测验，特别是大规模的正式测验，由于试测的被试样本可能有取样误差，只依据一次预测的结果所进行的试题分析是不够的。为了检验所选出的试题性能是否真正符合要求，有时需选取来自同一总体的另一样本再测一次，并根据结果进行第二次试题分析，比较两次结果的一致性。如果某个试题的测试结果前后相差较大，说明该试题的性能值得怀疑，应该删除。

五、合成测验

试测和题目分析后，选出性能优良的题目，加以适当的编排，合成测验。合成测验时应注意：

第一，先易后难。在测验开头应安排几道较容易的试题，尔后逐渐增加试题难度。这样可以使被试熟悉作答程序，解除紧张情绪，建立信心，较快进入测验情境。对试题总的编排原则是由易到难，在测验最后安排少数难度较大的试题，这样既可以避免被试在难题上耽搁时间太多，而影响对后面问题的解答，同时还可以测出被试的最高水平。

第二，同类组合。即尽可能将同一类型的试题组合在一起。这样使每一类型的试题仅需作一次回答说明，也使被试可用相同的反应方式来回答。

第三，讲究测验题目编排方式。一是并列直进式，将整个测验依据试题材料的性质，分为若干个分测验；对同一分测验的题目，由易到难排列。二是混合螺旋式，先将各种类型的试题依照难度分成若干不同的层次，再将不同性质的试题予以组合，作交叉式的排列，其难度则渐次升进。此种排列的优点是，被试对各类项目循序作答，从而维持作答的兴趣。

六、编制复本

为增加实际的效用，一种测验有时需要两份以上的等值测验，也叫复本。复本越多，使用起来愈便利。如学校用于验证某个教学实验效果的学绩测验，需要在实验前后做两次测验予以比较。这时若有几个复本替换使用，就可以很好的分析实验效果和学生进步情况。

复本测验的关键是等值，这就需要符合下列条件：

第一，各份测验具有相同的测验目标与测验内容，但题目不应重复。

第二，各份测验题型相同，题目数量相等，且难度和区分度大体相同。

编制复本需要有足够数量的测验题目。这也是前面为什么强调所编制试题数应是测验所需题数的二到三倍。具体做法是先将所有适用的题目按难度排列，其次序为1、2、3、4、……。如果要分成两个复本测验，可采用下面的分法：

A本：1、4、5、8、9、12、13、16、17、20……

B本：2、3、6、7、10、11、14、15、18、19……

如果要分成三个复本，可采用下面的分法：

Ａ本：1、6、7、12、13、18、19、24……

Ｂ本：2、5、8、11、14、17、20、23……

Ｃ本：3、4、9、10、15、16、21、22……

依照上述方法所编成的两个或三个复本，在难度上大致相等，其分数分布可大致相同。复本编成以后，应该再试测一次，以判定各本究竟是否等值。

七、测验使用标准化

对于一些大规模使用的学业成就测验，如高考、中考、大学英语四级考试等，为了减少误差，需要控制无关因素对测验的影响。这个控制的过程，称做标准化。测验使用的标准化包括施测过程标准化、评分计分标准化、分数解释标准化三个环节。

（一）指导语和时限

尽管所有被试使用相同的题目，但如果施测时各行其是，所得的分数便不能进行比较。为了使测验条件相同，必须有统一的指导语和时间限制。

1.指导语

通常包括对测验目的的说明和被试应该如何反应的指示等，一般印在测验的开始部分，要求简单明确。如果题目形式对被试是生疏的，还应有一些例题。

为了保证测验情境的一致，还要有对主试的指导语，它与测验是分开的。主要是对测验细节作进一步解释，以及其他一些有关事项，如测验材料的分发，如何计时、记分，对被试的各种提问如何回答等。由于主试的一言一行，甚至表情动作都会对被试产生影响，所以主试一定要严格遵守施测指导，不要任意发挥和解释。即无论什么人在什么时候什么地点使用同一测验，都必须做同样的事，说同样的话。

2.时限

测量学生的学业成就，速度是需要考虑的一个重要因素。确定测验的时限，要考虑测量的目标要求、施测条件和实际情况的限制、被试的特点。通常所用的时限是使大约百分之九十的被试能在规定时间内完成全部测验。时限一般通过试测来确定。在试测现场挂一只时钟，每个被试做完后即将当时的时间写在试卷末尾，试卷收齐之后再根据被试完成情况规定合适的时限。

（二）评分与记分

评分时，必须客观、准确。为使评分尽可能客观，要遵循以下要求：

第一，及时而清楚地记录反应情况。特别是对口试和操作测验，必要时可以录音和录像。

第二，要有一张标准答案。如论述题的标准答案包括一系列正确的答案和允许的变化；作文题的标准答案包含各种可接受答案的要点。

第三，将被试的反应和标准答案进行对比，对反应进行分类。如对问答题、论文题、操作题等，需要对评分规则作详细的说明，评分者将每一个人的反应和评分说明书上所提供的样例相比较，然后按最接近的答案样例给分。

（三）分数解释

一个标准化测验，不但编制、施测和评分要标准化，对分数的解释也要标准化，如果同一个分数可做出不同的推论，测量便失去了客观性。如韦克斯勒智力测验A被试115分，B被试115分，它们的意义是一样的。

测验分数必须与某种参照系统比较，方能显出它所代表的意义。如大学英语四级考试，把考生成绩与一个特定的大学生样本的一般水平进行比较，以判断考生成绩是否合格。这个参照系统就是我们所说的“常模”。

建立常模的方法是，在将来要使用测验的全体对象中，选择有代表性的一部分人称标准化样本，对此样本施测并将所得的分数加以统计整理，得出一个具有代表性的分数分布，此即为该测验的常模。如我国高考标准化测验的分数解释模型是：（）；韦克斯勒智力测验分数为：（）

这里的Z叫做标准分数，是测验分数与其所在团体的算术平均数之差除以标准差所得的商，即：

，这里，表示原始测验分数的算术平均数；表示原始测验分数的标准差。

标准分数从分数对平均数的位置、该组分数的离中趋势两方面来表示原始分数的地位，是一个相对地位量数，一般取值是-3到+3之间，是标准正态分布曲线横坐标上的值。每个原始数据转化为标准分数后，消除了原始数据的测量单位，因此，标准分数具有可加性、可比性和位置确定性等特点。

如某地区中考，语文平均成绩为110分，标准差为19.7分；英语的平均成绩为98分，标准差为17.5分，一考生的语文成绩为140分，英语成绩为128分。问该生中考哪科考得好一些？

解：不同学科成绩，用于所用试卷不同，测量的特质不同，所以不是同质数据，不能直接比较大小。将不同学科原始分数转换为标准分数就可以比较高低了。

，， ﹤

表面上看，该生语文成绩远高于英语成绩，但从离开所在团体平均水平的距离来看，英语成绩实际上更好。所以，用标准分数进行比较更加客观、准确。

有些测验并不将被试的分数与其他人比较，而是看其是否达到某种标准，如体育达标测验、中学会考等。无论哪种测验，都要参照某个系统对原始分数加以转换，才能作出有意义的解释。

八、编写测验手册

对于大规模使用的测验或标准化测验，需要编写测验手册，详尽而明确的说明下列问题。

1.本测验的目的和功能。

2.测验编制的理论背景和选择试题的依据。

3.测验的实施方法、时限与注意事项。

4.测验的标准答案和评分标准的规定。

5.测验分数解释的依据。

6.测验的信度、效度资料，包括信度、效度系数以及这些数据是在什么情境下得到的。

经过以上八个步骤，一个测验便可正式交付使用了。

进入知识归纳的学习

第十章 教育测验的编制

知识点三：教育测验编制的基本程序

第十章教育测验的编制