当前位置:课程学习>>第五章>>文本学习>>知识点二


第五章 测验的效度



知识点二 效度验证的方法


1985年,美国教育研究会、美国心理学会和国家测量委员会联合发表了《教育与心理测量标准》手册。认为效度是对测验分数进行推论的证据。存在三种类型的证据:内容相关的证据、结构相关的证据、效标相关的证据 。

其实,由于效度是对测量结果是否准确测出了某种心理属性的反映,所以测量效度的估计在很大程度上取决于人们对所测量的心理属性的界定。比较常见的界定角度有3种:一是从具体内容角度来界定;二是用某种心理学理论来做心理属性的结构界定;三是用实证性指标对心理属性做功能界定。

因此,效度一般可以分为三大类:即内容效度、结构效度和效标关联效度。本节将着重介绍内容效度、结构效度和效标关联效度的含义与估计方法。当然,还有一些观点(如1999年修订版的《教育与心理测量标准》)认为,效度是一个整合的概念,反对将其分类,不过大多研究者认为这种区分还是必要的。

一、内容效度

(一)含义

内容效度(content validity)是指一个测验实际测到的内容与所要测量的内容之间的符合程度。对于内容效度的考察可以确定测验是否是所要测量的行为领域的代表性取样。

例如,对于心理专业的硕士研究生入学考试命题,不可能将本科学习的所有内容都进行考核,这时就需要确定一组具有代表性的知识与技能内容,通过对这些内容的考核推知本科生掌握心理学科基本知识与技能的水平。被选进试卷的题目的代表性就是内容效度要考察的对象。主要从两个方面考察,第一要考察测题的内容是不是心理专业学生本科学习内容范围内的,第二要考察测题对所学内容是否具有代表性。也就是说内容效度实际考察的是在规定范围内测题对所要测量的内容的代表性程度。

但是,内容效度的测验总体并不一定是同质的,就像智力测验中包括了各种能力与技能,高度同质性的项目组合既不能满足取样的充分代表性也不能达到测验的目的。然而各个能力维度内的细目之间需要有较高的同质性。当然,当心理测验测量某种心理特质时,则必须有较高的同质性。

(二)应用范围

从内容效度考察的角度可以看出,不必对所有的测验都考察内容效度。在教育成就测验和某些选拔测验中,测验题目是否是要测量领域的代表性取样,对测验题目的反应是否受无关变量的影响是完成测验功能的重要影响因素,内容效度高就成为有效使用这类测验的必要条件。

内容效度之所以适合应用于成就测验,因为成就测验主要是测量被试掌握某种技能或者学习某门功课所达到的程度。如果内容效度高,则可以把被试在该测验上的分数推论到他在相应的知识总体上的行为表现,继而说他在某个方面水平处在一个什么样的位置。反之,如果内容效度低,则可以说这种推论是无效的。

内容效度也适合于某些用于选拨和分类的职业测验。这种测验所要测的内容就是实际工作所需的知识和技能,编制这种测验首先必须对实际工作进行较细的分析,否则,题目取样的代表性就难以令人满意。例如教师职业需要较高的口语表达能力、逻辑思维能力、教学组织能力、教育心理学知识、学科知识、教学技能等方面的能力和知识,录取教师的测验题目取样就要围绕上述方面展开,才可能有较为满意的内容效度。

内容效度不适合用于能力倾向测验和人格测验。在这两种测验中,测验与所取样的行为领域的内在相似度较低,被试对相同的测验项目做出反应时,心理特质可能有很大的不同。同一测题可能测量出不同个体的不同心理特质,很难从检查测验内容来确定测验所测量的心理特质。

(三)注意事项

内容效度关注的是测验的内容方面,也就是说,考察测验题目对有关内容或行为领域取样的代表性。在使用测验时,需要考虑具体的应用情境,当与测验的编制者设定的内容范围相同时,高的内容效度才有意义。

当然也应该注意测验使用的时代背景,因为可能随着时间的推移,过往成熟的测验未必和当下的环境匹配,内容范围的定义发生变化时,就会影响到测验的内容效度。所以,测验使用者必须考虑在当前的测验情境下,是否存在原测验的内容未被充分表达或过多表达的情况,并及时做出相应的调整。

(四)评估方法

1.专家判断法

确定一个测验内容效度的方法很多,最常用的是请有关专家对测验题目与原定内容的符合性进行反复的对照比较后做出判断,看测验的题目是否代表规定的内容。如果专家认为测验题目恰当地代表了所测内容,则测验具有较高内容效度。由于这种估计效度的方法,是依据专家头脑中严密的逻辑分析和慎重的比较,因此内容效度有时又称为“逻辑效度”(logical validity)。

为了使内容效度的确定过程更为客观,弥补不同专家对同一测验的主观判断可能不一致的不足,通常严格采用如下几个步骤:

(1)明确测验内容的总体范围,并根据特定目的确定好各部分内容所占的比例;

(2)编制双向细目表。

(上表选自金瑜主编,《心理测量》,华东师大出版社,2005:175)

双向细目表是两维的,左边一列表示教材内容,第一行表示所要测量的学习结果,表中的数据表示对于某一内容达到某种结果所占的权重。编制双向细目表时,先要列出教材重点(学科内容)和所要测量的学习结果(能力层次),再根据教材重点的相对重要性决定它们的权重。编制好命题双向细目表,明确规定了应测领域后,就可以根据每个部分的权重来确定这个部分的题量、分数值,再根据这些权重随机抽取测题。当然,在抽选测题时,还必须考虑到统计上的特殊要求,总的说来,抽选测题也不是完全随机的,还要在随机抽选的基础上进行综合平衡。

双向细目表除了可以提高测验的内容效度外,还可以用来克服专家评定方法中所存在的一些不足,比方说,要求专家根据明确细致的双向细目表来判断测验的内容效度,这可以避免不同人的观点、侧重点不同所带来的判断不一致。

(3)制定评定量表来考察测验的内容效度,考察测验的内容广度、技能要求与题目难度之间的差异、材料的重要程度、题目形式对内容的适用性等。由每位评判者在评定量表上做出判断,获得测验内容效度的证据。

2.统计分析法

(1)平行测验相关法

克伦巴赫提出,通过计算取自同一内容范围的两个平行测验在同一被试群体中得分的相关,来估计内容效度。如果相关系数高,可以推出测验有较高的内容效度;如果相关系数低,可能是两个测验中至少有一个缺乏内容效度。但是,相关系数高理论上还有一种可能,即虽然在内容取样上较为一致,但可能两者的内容都不能反映出所要测的内容。

(2)再测法

另外,可以采用再测法估计内容效度。即一组被试进行某种学习之前进行一次测验,学习之后再进行一次测验。如果后测成绩显著高于前测成绩则说明测验所测内容正是学习内容,测验对学习内容的内容效度理想。

3.经验推测法

在判定测验的内容效度时,可以根据常识或者经验来检验测验是否有效。例如对于韦氏儿童智力测验(中国修订版)中的言语分量表来说,如果其中的“常识”维度随着儿童年龄的增加得分随之增加,就符合常识随年龄发展而发展的特点。一般而言,当发现测验项目的分数或通过的百分比是随着年龄的增长而增加时,可以推论该测验内容效度的有效性。

4.内容效度比率

Lawshe(1975)提出用内容效度比率(content validity radio)进行内容效度的评估。公式为:

(5-1)

其中, ne为判定需要该题项的专家人数,N为参与题项判定的专家总数。

例如,请10位专家对某一测验进行内容效度的评价,对其中的第3题,有3位专家认为该题对测验内容来说是必要的。请计算第3题的内容效度比率。

解: CVR==-0.4

有研究认为,10名专家评定时,CVR的最小值要达到0.62时,才有意义。因此,该测验的第三题内容效度不理想。

(五)表面效度

表面效度(face validity)是指由外行对测验作表面上的检查确定的测验有效程度。表面效度经常与内容效度混淆。其实表面效度并不一定反映测验实际测量的东西,只是指测验表面上看来好像是测量什么。

虽然对表面效度的估计不是真正的测验效度研究,但是这并不意味着可以忽略表面效度。它涉及到受测者对测验题目的知觉,或者说涉及到受测者对测验要测量的东西的理解,因此会影响他们对题目反映的真实程度。

根据测验类型的不同,对表面效度有着不同的要求。最高行为测验(成就测验等)要求有较高的表面效度,以使受测者有较强的动机,尽最大努力去完成测验,表现出自己的最好水平。如果测验内容让受测者感觉同对自己能力的评价或有关部门要做的选拔不相干,就会产生不配合、敷衍了事的态度,影响测验对其真实水平的评定。例如,《韦氏成人智力测验(中国修订版)》分言语和操作两大部分测验,言语部分有6个分量表,操作部分有5个分量表,有的分量表又有大量测题,被试在测验时很容易疲劳,有的被试在做到“数字广度”测验时,因为知觉到这个测验是测自己的记忆能力的,不想因为自己没有尽力使记忆得分差,就会尽最大的努力去配合测验。

相反,典型行为测验(人格测验、态度测验等)却要求较低的表面效度。如果受测者很容易从测验题目看出测验的目的,就可能产生反应偏差(如掩饰等)。只有当受测者不知到每个题目测量什么或者不了解人格测验的目的时,才会按自己的典型方式真实作答,否则就会按一般的要求或社会赞许的方面去回答问题,测验结果也就不是他自己真正的人格特征或态度倾向了。例如,对同性恋倾向的测验,如果表面效度过高,在一定的文化背景下,就会使受测者考虑到对同性恋若持赞同态度,可能会影响别人对自己的评价,而选择大多数人都会采取的反应作答。

对于一个具体的测量目标来说,有表面效度的题目不一定真正有效,没有表面效度的题目也可能有效,表面效度不能作为确定内容效度的客观指标。

二、结构效度

(一)含义及其应用范围

结构效度(construct validity)是指一个测验实际测到所要测量的理论结构或特质的程度,或者说测验分数能够说明心理学某种理论结构或特质的程度,也称为构想效度。结构是指用来解释人类某种心理或行为属性的理论框架。如按照马斯洛的需要层次理论,人类的需要就可以分为生理需要、安全需要、归属与爱的需要、尊重的需要和自我实现的需要等。

由于心理属性的抽象性,在编制心理测验的过程中,按照某种理论结构对心理属性进行界定是测验编制的基础环节。从某种意义上说,依据哪种理论进行心理属性的界定,直接影响测题编制的维度和内容。反过来,对测题的测量值进行分析,就可以了解测验对界定心理属性的理论结构表达的程度。

假设要编制一个智力测验,首先就要根据现有智力理论选取或建构某种智力定义,并随之对其结构进行分析。假如选取凯斯等人提出的智力的PASS理论作为智力测验编制的理论基础,智力的结构可以分为计划、注意、同时性加工和继时性加工的能力。接着就要分别选取这四个结构的具体的代表性行为取样编制测验题目。如果题目取样的内容是各维度定义的行为范围内的代表性取样,则在进行结构效度检验时就会有较为理想的结果。反之,结构效度可能不理想。

结构效度主要用于智力测验、人格测验等方面,尤其用于检验某种理论构想的测验。它的大小首先取决与事先假定的心理特质理论,如果人们对同一种心理特质有着不同的定义或假设,则会使得关于该特质测验的结构效度的研究结果无法比较。例如,同样是人格测验,《卡氏16PF》和《艾森克人格问卷》就具有不同的结构效度。根据不同理论定义编制的测验的结构效度不宜进行比较。

当实际的测量值无法证实理论假设时,并不一定说明该测验结构效度不高,因为还有可能出现理论假设不成立,或者需要修正等情况。所以,结构效度的验证需要从多方面搜寻证据。从另一方面来说,对结构效度的考察过程实际也是对原有理论结构进行完善的良机。

(二)结构效度的估计方法

结构效度没有单一的指标,要从多方面搜集和积累资料,才能逐步验证测验的结构效度。具体地说,结构效度的估计可以有以下一些方法:

1.对测验本身的分析

这类方法是通过研究测验内部的特点来界定理论构想,从而为结构效度提供证据。

(1)内容效度可以作为结构效度的证据

对测验所取样的内容或行为范围了解后,就可利用这些资料来分析测验所要测量的构想的程度。例如,《艾森克人格问卷》主要测内外向、精神质、神经质和掩饰性四个维度的人格特征,内容效度很高,那么它可能测到其它结构(如聪慧性)的可能性就很小。所以,较高的内容效度是结构效度的保证。

(2)受测者对题目的反应可以作为结构效度的证据

通常的做法是:要求被试在个别施测的条件下,边测试边讲出自己分析测题时的心理活动过程,通过对这些心理活动的研究,考察测验是否测到了想要测量的心理属性的结构。

(3)测验的同质性可以作为结构效度的证据

可以通过测验的内部一致性指标推断测验是测量单一特质还是测量多种特质,看它与所预期的结构的符合程度,从而为评估测验结构效度提供证据。测验的内部一致性信度可以由分半信度、克龙巴赫 系数、KR20、KR21等指标来衡量。若测验不同质,则可以推断该测验结构效度不高。当然,测验同质并不一定结构效度高,同质性只是结构效度高的必要条件。

2.测验间的比较

这类方法是分析几个测验间的相互关系,找出其共同或相异之处,来确定这些测验结构效度如何。

(1) 会聚效度(convergent validity)

会聚效度,当一个测验同与其具有重叠结构的其他变量或测验具有高度相关时,就表明其具有会聚效度。例如,当两个包含了智力一般因素的智力测验,在异质性被试中施测时,就会有高相关。实际上,如果一个新智力测验同已有智力测验没有达到中等以上程度的相关,那么它就会因为不具有会聚效度受到质疑。

一个特定测验的结构效度证据可以从多方面获得,如果其它已有的测量同样或类似结构的测验效度良好,那么若新测验的分数同已有测验的分数具有高相关,就是会聚效度的证据之一,说明新测验的会聚效度高。

当然,测验的会聚效度不仅可以从与同类结构(identical construct)的测验相关中获得,也可以从与相关结构(related construct)测验的相关中获得。例如,新测验要测量考试焦虑的结构,一般来说我们希望它同已有的测量测验焦虑的测验具有高的正相关。但是,我们也可以从它与已有的一般焦虑测验的中等程度的相关中获得会聚效度的证据 。

(2)区分效度(discriminate validity)

区分效度(Discriminant validity),当一个测验同与其不同的测验无相关时,它就具有了区分效度。例如,社会兴趣和智力在理论上无关,所以关于这两种理论建构的测验应该相关很低或者根本不相关。

Campbell和Fiske(1959)提出了多质多法矩阵(multitrait-multimethod matrix),可以同时验证心理测验的聚合效度和区分效度。这种矩阵适合于对使用两种或两种以上的方法来评估两个或两个以上的特质的测验进行评估。

3.因素分析法(factor analysis)

因素分析法是一种多变量统计分析方法。因素分析法的基本思想是,根据相关性大小把变量分组,使得同组内的变量间相关较高,不同组变量间相关较低。每组变量代表一个基本结构,即因素。

(1)因素分析法的种类

因素分析法是考察测验结构效度的常用方法。可以分为探索性因素分析(exploratory factor analysis,EFA)和验证性因素分析(confirmatory factor analysis,CFA)。

Floyd 和Widaman(1995)认为探索性因素分析就是“用来评估、抽取因素,决定保留多少因素,并将因素旋转到可以解释的方向的过程”。所以,实际上探索性因素分析就是采用一系列数学程序,从一个测验内的测题中或多个测验的测题中抽取出共同因素,并计算出测题在各因素上的因素负荷(factor loading)值的过程。

进行验证性因素分析时,往往有一个明确的理论结构假设,使用观测变量的协方差矩阵来验证这一理论结构与数据之间的拟合程度。简言之,验证性因素分析就是使用测量值对理论结构进行验证的过程。

(2)探索性因素分析的实施

使用探索性因素分析法获取结构效度的证据时,对样本数量有一定的要求。根据Gorsuch(1983)的观点,作因素分析时,必须满足施测的被试量应该与测验项目(变量)数目的比例不小于5:1。实际上,他认为这个比例最好能够达到10~25倍,不过在现实中这个工作量是很难实现的,如果能做到样本量是题量的5~10倍之间,结果就算令人满意的。而且总的样本量尽量不要少于100。

使用探索性因素分析时,首先要考察取样适当性量数。当KMO值越大时,表示变量间的共同因素越多,越适合进行因素分析。根据学者Kaiser(1974)认为,KMO>0.9时非常合适进行因素分析;0.8

探索性因素分析最常使用的方法是主成份分析法。

其基本步骤如下:

①计算变量间相关矩阵或共变量矩阵。如果一个变量与其它变量间相关很低,在下一个分析步骤中可考虑剔除此一变量。

②选取估计因素负荷量的方法决定因素抽取的方法。可用主成份分析法、主轴法、一般化最小平方法、未加权最小平方法、最大概似法、Alpha因素抽取法与映像因素抽取法等。建议研究者多采用主成份分析法来估计因素负荷量。

③决定转轴方法转轴的目的在于改变题项在各共同因素上负荷量的大小。转轴后,每个共同因素的特征值会改变,与转轴前不一样,使转轴前较大因素负荷量变得更大,转轴前较小的因素负荷量变得更小,但每个变量的共同性(每个共同因素之因素负荷量的平方总和)不会改变。常用的转轴方法,有最大变异法、四次方最大值法、相等最大值法、直接斜交转轴法、Promax转轴法,其中前三者属“直交转轴”法,在直交转轴法中,因素与因素间没有相关,即其相关为0,因素轴间的夹角等于90°;后两者属于斜交转轴,采用斜交转轴法,表示因素与因素间有某种程度的相关,即因素轴间的夹角不是90°。

④决定因素与命名。转轴后,要决定因素数目,选取较少数量的因素,但要获得较大的解释量。并根据各因素中题项的内容为因素命名。

(3) 验证性因素分析的实施

通常采用LISREL、Amos等软件包进行验证性因素分析。首先要形成明确、完善的理论假设,再根据假设收集资料,最后检验修改原假设。由于其目的在于对假设进行检验,因而对验证性因素分析而言,假设的质量是研究顺利与否的重要保证。

进行一个验证性因素分析的基本程序为:

①模型界定。即对观测变量的数目,潜在变量的数目,潜在变量与观测变量间的关系,潜在变量之间的相互关系,独特性因素与观测变量的关系,独特性因子之间的相互关系等形成明确的假设,用方程式的形式表述出来。

②模型确定性。模型中的所有参数是否都只有一种方法求解,也就是模型是否有解及解的唯一性问题。对验证性因素分析而言,模型的确定性是对模型进行参数估计的必要前提。

③模型估计以及矩阵表示。

④模型合理性检验与修订。合理性检验包括每个参数的合理性(如方差、协方差的非负性)检验与显著性检验,整个模型的总的适切性检验等等。检验不仅为模型合理性提供了量化依据,也为下一步研究,为模型改进指明了方向。进行研究时,模型的修改和检验不能使用同一组数据。

三、效标关联效度

(一)效标关联效度的含义及用途

效标关联效度(criterion-related validity)是指一个测验对处于特定情境中的个体行为进行估计的有效程度。效标关联效度由于需要实证数据进行分析,所以又称之为实证效度。该效度主要重视测验对那些与测验独立的效标行为的推测力。效标关联效度对于完成测验的预测、诊断、选拔等功能非常重要。例如,当我们用MBA考试测查了许多被试,一段时间后若有证据表明测验高分组的实际工作成绩确实优于低分组的实际工作成绩,则可认为该测验具有较高的效标关联效度,能够较为充分地对工作绩效做出预测。

(二)效标

1.什么是效标

效标是衡量一个测验是否有效的外在标准,它独立于测验,是在效标关联效度考察中被估计或预测的行为,是检验测验效度的参照标准,简称效标。

阿斯丁(A.W.Astin)将效标分为观念效标和效标测量,我们所取样的行为往往是一个观念上的东西(观念效标),它必须用一个数字或等级来进行量化表达(效标测量)。

2.效标的性质

效标本身具有四个特性:

(1)多样性。一个测量工具可以用多种效标来衡量效标关联效度,也就是说,效标本身具有多样性。例如对于一个智力测验来说,可以选取考试成绩、教师评价、工作绩效等多种效标。一般来说,一份标准化测验,同时采用几种效标更为合适,因为这样可以从多方面来反映效标效度,使测验具有更广泛的实用价值。表5-2列出了一系列教育、临床和组织背景中经常使用的多种效标。

(2)复杂性。效标行为是由多种成分组成的。比如,产品数量这一效标就包含着专业知识、熟练程度、反应速度、体力状况等多种成分。加上个体之间的差异,更增加了效标的复杂性。在效标成分复杂的情况下,应采取分析的方法,找出几种主要成分,并给予不同的权重,进而确定测验的效标。

(3)特定性。在特定情境下形成的效标有其特定性,只适合于估计测验对于同样情境下的行为的预测力。效标的特殊性要求测验编织者在测验说明书中必须对效标的特点和取样样本特点作具体说明,以便作为他人选择使用测验的依据。

(4)时效性。从时间上考察效标可以分近期效标和最终效标。比如,对于一个机械能力测验,可以用机械学院学生在校的学习成绩作为效标,这是近期效标;而最终效标是毕业生从事实际工作,设计制造出的机器的质量。由于获得最后效标需要很长时间,容易受到许多无关变量的影响,使最终效标相对的失去作用,因此,人们经常以近期效标来证明测验是否有效。

3.好效标的标准

那么,一个良好的效标应该具备哪些条件呢?起码应具备四个条件,即有效性、可靠性、客观性和实用性。

(1)效标必须能最有效地反映测验的目标,即效标测量本身必须有效。

(2)效标测量必须具有较高的信度,稳定可靠,不随时间等因素而变化。

(3)效标可以客观地加以测量,可用数据或等级来表示。

(4)效标测量的方法简单,省时省力,经济实用。

(5)效标测量过程应不存在效标污染(Criterion contamination)。效标污染指的是效标测量过程混有测验本身的影响,会造成效标关联效度值提高。换言之,效标污染使测验在某种程度上进行着对测验本身的预测和推测。

(三)效标关联效度的分类

根据效标资料搜集的时间差异,效标关联效度可以分成同时效度(Concurrent validity)和预测效度(Predictive validity)两种。

同时效度指的是将测验分数与效标测量的分数同时获取后,对它们相关程度进行分析所得的指标。通常与心理特征的评估及诊断有关。例如智力测验以学生当时的学业成绩为效标,由于学业成绩是可以当场收集到的资料,所以这种效度称为同时效度。

预测效度是指测验分数对某些效标测量预测的程度。预测效度的效标资料需要间隔一段时间才能搜集到,通常用于选拨。例如各类职业选拔考试可用员工入职后的工作绩效作效标,因为效标资料在考试以后相隔一段时间后才能获得,所以职业选拔考试的效度是一种预测效度。

综上,同时效度和预测效度虽然以效标获取的时间不同来定义,但实际上,同时效度和预测效度分类的实质差异,不是因为效标获取的时间不同,而是因为不同测验目的的需要。同时效度多用于用来诊断现状的测验,预测效度用于预测将来结果的测验。

(四)效标关联效度的评估方法

在收集校标关联效度的证据时,我们先要明确观念效标,确定好效标测量,之后再考察测验分数与效标测量的关系。效标关联效度有多种评估方法。

1.相关法

相关法是评估效标关联效度最常用的方法,它是求测验分数与效标资料间的相关,这一相关系数称为效度系数。在计算效度系数时,我们需要分辨清测量数据的性质,这决定着计算公式的选用。

(1)积差相关

当测验分数和效标资料都是连续变量时,计算效度系数最常用的是积差相关法。

(5-2)

其中,X是预测分,Y是效标分,n是被试总数,,分别是X和Y变量的标准差。

例5.1 假设有8名考生通过了国家某事业单位公务员专业考试(满分50分),其考试分数如下表中第一行所示,三年后他们年终工作评估总成绩(满分10分)如表中第二行所示。问该公务员专业测验的预测效度如何?

把表中数据代入公式,可得

rxy==0.652

(2)二列相关

当测验成绩是连续变量,而效标资料是二分变量时,计算效度系数可用点二列相关公式或二列相关公式。点二列相关与二列相关的区别是前者其中一个变量是真正的二分称名变量,而后者两个变量原来都是连续变量,其中一个由于某种原因,被人为地分成两个类别,变成了二分称名变量。下面的公式为二列相关公式。

(5.3)

其中,代表二列相关系数,p是人为的分为两个类别的变量中,“优秀”一项所占的比率;

q是1-p,“一般”一项的比率;

xp是p部分的X数列平均值;

xq是q部分的X数列平均值;

St全部连续变量X的标准差;

Y是p的常态曲线下纵轴高度。

例5.2 假设某厂进行一项技能抽查测验对16名技工检测,13名一般,3名优秀,最初进厂之前优秀者的能力倾向得分均值为80,一般者的能力倾向得分均值为70,所有技工的能力倾向得分的标准差为8,计算二列相关系数。

解:p=3/16=0.1875 ,q=0.8125;查表后得出常态曲线下p所对应的Y值为0.2685,

已知xp=80,xq =70,St=8,

代入公式 =0.71

(3)信度对相关法估计效标关联效度的影响

用相关法估计效标关联效度时,测验和效标的信度水平,对效标关联效度会有影响。

2.区分法

区分法就是考察测验分数能否对在效标水平上不同的个体进行有效区分的一种方法。它的基本过程是,根据效标成绩将被试分成水平高、低的两组。然后比较效标水平高、低两组被试在测验分数上的差异,若这两组人的测验分数差异显著,则说明该测验有较高的效标关联效度;若这两组人的测验分数差异不显著,则说明该测验效标关联效度较低。

区分法考察效标关联效度实质上就是两个独立样组的差异显著性检验(t检验)。计算公式如下:

(5.4)

式中表示高分组平均分,表示低分组平均分,表示高分组方差,表示低分组方差。t值越大效度越高。

例5.3 一项智力测验,选取学生高考成绩做效标。智力测验高分组的高考成绩平均分为645分,标准差为20,有40人;智力测验低分组高考平均成绩为234分,标准差为25,有40人。问该智力测验与高考成绩间的效标关联效度如何?

解:由题可知

代入公式 173.278

查t表(自由度是NH+NT-2=78),t=173..278>3.41(P<.001),所以,高分组和低分组的高考分数差异显著,也即该智力测验与高考成绩间的效标关联效度很高。

用此种方法来估计效度的问题是,组间平均数差异在统计上的显著性会受团体大小的影响。当团体较大时,平均数间的小差异在统计上也变得有意义,但通过测验来区分团体的实际效用很小。为避免这一点,应该计算高分组与低分组分布的重叠量。重叠量一方面可通过计算一组得分平均数超过(或低于)另一组平均数的人数百分比得出。另一方面,还可以通过计算两组分数分布的共同区的百分比得出。重叠量越大,说明两组分数差异越小,即测验的效度越差。

3.命中率法

命中率法是当测验用来做取舍的依据时,用其正确决定的比例作为效度指标的一种方法。

先将测验分数和效度资料按某一标准各分为两类。对测验分数的处理是确定一个临界分数(即分数线),高于临界分数者预测其成功,低于临界分数者预测其失败;对效标资料的处理是根据实际的工作或学习成绩,确定一合格标准,在标准之上者为成功,在标准之下者为失败。这样便会有四种情况:预测成功实际上也成功;预测成功但实际上失败;预测失败而事实上成功;预测失败且实际上也失败。我们称正确的预测为命中,不正确的预测为失误。见表5-4。

命中率的计算有两种方法,一是计算总命中率(pcr),另一种是计算正命中率(pcp)。

(5.5)

(5.6)

总命中率实际上是取舍正确性的指标。这个比例越高,说明测验越有效,总命中率是测验效度的指标之一。

正命中率是录取正确性的指标,是考察在测验成功后被录取的人数中效标成绩也成功的人数所占的比例。正命中率也是预测效度的指标,测验效度越高,正命中率越高。