教育评价学作为一门新兴学科,出现也不过几十年的时间,但今天的教育评价正是由于经历了当初的酝酿、萌芽、产生和发展的历史过程,才具有现在的水平。研究学科历史可以让我们理清它的发展脉络,从而帮助我们更好地理解它的现在,探索和预测它的未来。这正是本节讨论教育评价历史与发展的目的所在。
一、西方教育评价的发展阶段
虽然教育评价制度的最初萌芽是我国古代的考试制度,但教育评价制度和理论的真正形成和发展是19世纪后半期以来西方尤其是美国教育家努力的结果。对于西方教育评价历史发展过程阶段的划分,国内外有着不一的看法。有学者划分为考评、测量、描述、判断、建构五个阶段,而有学者认为主要是测量、描述、判断、建构四个阶段。作为一个学科涉及到一系列因素和范畴,而这些因素和范畴在整个学科中的地位和发展水平是不一致的,因此一个学科的产生与发展往往没有一个截然的绝对的界限,而只有一个相对清楚的时间段。教育评价也是如此,因此,教育评价发展历史阶段的划分宜粗不宜细。西方教育评价的发展历史经历了测验与评价两大阶段。
(一)教育测验阶段
教育评价是从教育测验中发展起来的。从19世纪后半期开始到20世纪30年代,以考试和测验为主要特征。前期主要采用口试法和面试法,但是随着现代学校教育的普及和中国科举制度的不断传入,西方教育评价开始采用笔试这种新方法。这一阶段的中心问题是学生个体测验的客观化和标准化问题。
1.萌芽期
中国素有“考试之乡”之称,考试经验十分丰富,尤其到了科举考试时期,考试制度有了新的发展。这些引起了在中国任官的外国人和到过中国的传教士及外交使节的浓厚兴趣,他们积极将中国当时先进的考试制度带回自己国家,并进行广泛的宣传推广。这些行动客观上有力地促进了西方教育评价方法的发展。
19世纪上半期以前的西方各国,学校考试主要是对学生逐个进行口试。1845年,美国初等学校普及,学生人数剧增,对众多的学生一一口试已不可能。于是,在美国著名教育家贺拉斯•曼(Horace Mann)的倡导下,波士顿市教育委员会率先在美国以笔试代替口试,从而开始了以统一的试卷测验众多学生的新时期。
为了提高书面测验的客观性,力求测验的客观化,英国格林威治医学院院长费舍(G.Fisher)搜集了许多学生的考试成绩,并依据一定的价值标准汇编成成绩量表,试图为当时的考试提供一个可供参考的客观标准。但由于种种原因,费舍的工作没有引起当时人们的足够重视。
1897年的莱斯(Joseph Rice)拼字测验引起了人们对教育测验问题的极大关注。这一年,莱斯发表了他对20个学校一万六千名学生所做的拼字测验的结果,结果表明:8年中每天花45分钟同每天花15分钟进行拼字练习的学生测验成绩并没有什么区别。这一结论尽管遭到了不少人的反对,但它引起了人们对测验问题的普遍关心,推动了教育测验问题的研究。莱斯也因此被称为教育测量的先躯。
2.开拓期
前面提到的教育测验先驱们,仅仅是试图用一定的测验尺度寻求一定客观量的结果。这一时期教育测验的客观化、标准化受到很大重视,人们做出了积极的努力,并取得了显著的成绩。
教育测验的开拓期是指从1904年到1915年这十余年的时间。1904年,美国心理学家桑代克(E.L.Thorndike)发表了《心理与社会测量导论》,标志着教育测验开拓期的开始和教育测验运动的开始。在这本书中,桑代克系统地介绍了统计方法以及编制测验的基本原理,并提出了著名的论断:“凡是存在的东西都有数量,凡有数量的东西都可测量。”这一论断对教育测验的发展起了很大的推动作用。
3.兴盛期
教育测验的兴盛期是指自1916年至1930年这15年的时间。1916年斯坦福大学教授推孟(L.M.Terman)主持修订了法国心理学家比奈(A.Binet)的智力量表,首次引用了德国人斯登(W.Stem)提出的智商概念,从而使心理测验达到了较为成熟的阶段。
在心理测验的基础上,教育测验也迅速发展起来。这一时期的教育测验已发展成为包括上述智力测验、学历测验和人格测验三种不同性质的测验,教育测量方法被广泛地采用。在学历测验方面,据统计,到1928年止,已有标准心理测验和学历测验三干多种;在人格测验方面,1921年,华纳德(G.G.Fernald)着手试做人格测验,1924年至1929年,哈芝恩(H.Hartshorne)等人组织了人格教育委员会,专门研究人格测验工具,并使之相当精密。十多年的时间里各种标准化试卷被大量使用。各种关于教育测量的出版物在这一时期也极为活跃。教育测量研究到了狂热的程度。
(二)教育评价阶段
随着教育测验的发展,教育测验的一些弱点也逐步暴露出来。20世纪30年代,教育评价的概念被提了出来,开启了价值判断时期。这一阶段一般可分为三个阶段:
1.测验运动的批评期
随着教育测量运动的发展,教育测量的弱点逐渐暴露出来。尽管可以使考试客观化、标准化,能把人的一些能力换算成数字,但是教育测量毕竟无法把有关人的全部领域,如社会态度,兴趣爱好,思想品德等都精确地用数字表示出来。基于此,教育测验运动在很多方面受到人们的批评。当然,教育测验运动在这一时期受到批评,还有其深刻的政治、经济原因。1929年,美国发生了大规模的经济危机,经济危机使得大批青年失去了就业机会,只能涌向中学。而当时中学课程的设置主要是以升大学为目的,不适应整个社会和失业青年的需要。在这种情况下,美国俄亥俄州立大学教授泰勒(Ralph W.Tyler)在卡内基基金会的资助下,于1934年开始了历时8年的课程研究,并于1940年的报告中第一次提出关于教育评价的较为完整的指导思想和方法。这就是教育评价史上著名的“八年研究”。泰勒提出了一套以教育目标为核心和依据的课程编制和测验编制的原则,试图以此把社会的要求和学生个人的需要反映在课程和测验之中,并正式提出了教育评价的概念。这为后来系统教育评价理论的形成奠定了重要基础。
2.平衡发展期
这一时期主要是指从1940年到1957年,基本可以称为“泰勒时期”。这一时期里,泰勒“八年研究”报告中关于教育评价的理论和方法逐步被人们接受,人们普遍认识到教育评价是教育领域中的重要课题,因此,不少人着手发展泰勒的评价模式,并研究每种教育活动的教育目标。比较有代表性的研究是布鲁姆(B.S.Bloom)关于教育目标分类的工作,于1956年完成了建立认知领域教育目标分类学的研究任务。所有关于教育目标的研究对于完善泰勒的教育评价理论均起了重要作用。但总的来说,这一时期教育评价处于平稳发展的时期,没有什么新成就和新突破。
3.专业化时期
这一时期是指从1957年至今。1957年,前苏联第一颗人造地球卫星上天,在美国朝野引起了巨大反响。美国人在深刻反省后的结论是他们在科技方面的落后反映了教育上的落后。为此,他们开始了较大规模的教育改革。在教育评价领域,人们也重新考察了当时占统治地位的泰勒模式,认为泰勒模式存在着根本性的缺陷。具体地说,教育评价如果以目标为中心和依据,那么目标的合理性又根据什么来判断呢?教育活动除了达到预期的目标之外,还会产生一些非预期的效应与效果,这些非预期的效应和效果要不要进行评价呢?等等。在这种背景下,泰勒模式的权威性受到挑战,并逐渐丧失其权威地位。西方教育评价界形成了百花齐放,众说纷纭的局面,各种新的评价模式和理论不断地被提出,并不断得到发展、改进。如,斯塔弗尔比姆(L.D.Stuffle.beam)的CIPP模式、斯克里芬(M.Scriven)的目标游离模式等等。各种评价模式的出现,又更进一步激发了人们对评价活动的研究兴趣。各种研究机构、评价组织和专业性杂志如雨后春笋般的涌现,西方教育评价真正进入专业化深入发展时期。
二、我国教育评价的发展阶段
我国教育评价思想源远流长,由来已久。美国教育评论家鲍塞克(P.H.Bosrck):教育评价思想渊于中国。从我国教育评价发展阶段来看,大致可分为两个时期。
(一)古代教育评价非系统化时期
从先秦的选士到清朝末年废除科举制,我国古典教育评价经历了大约3000年的发展的历史。在古典教育评价时期,我国教育评价制度先后出现了:西周、春秋的选士制度、两汉的察举制、魏晋南北朝的九品中正制、隋、唐、宋、元、明、清的科举制这样几种形态。据《礼记·学记》记载,西周的大学是这样对学生进行评价的:“比年入学,中年考校。一年视离经辨志,三年视敬业乐群,五年视博习亲师,七年视论学取友,谓之小成。九年知类通达,强立而不反,谓之大成。”其中科举制度最具典型性。隋炀帝大业二年(公元606年)设“进士科”,科举制初具雏形。唐高祖武德四年(公元621年)下诏恢复明经秀才、俊士和进士等科考试,第二年又诏令规定士人可以“自举”,国家设科公开招考,从此科举制度正式确立。经过宋、元、明的发展,到清朝时期,中国科举制度已发展到了极致。中国古代教育评价在考生来源、考试科目与分法、录用程序等方面都形成一套较为完备的制度,为系统教育评价时期的到来奠定了基础。日本学者梶田叡一认为,中国科举制度是古代国家建立的具有划时代意义的和合理性的一种评价制度。
(二)近现代教育评价系统化发展时期
从1905年科举制度被废止开始,中国教育评价步入近现代系统化发展时期。其中,20世纪80年代以前主要是现代教育评价大规模发展的理论奠基时期。其主要内容是介绍和改造外国教育评价研究成果。高考回复后,中国教育评价进入全面发展阶段。
1.西方教育测量的引入阶段
这一阶段大概从1905年到1949年,主要表现为对国外教育测验理论与实践的引入,同时伴随有自己的独立研究,但仍以引入改造为主。当我国科举制度正式废除时,正值西方教育测量运动的兴起,其理论也很快传入我国,并于20世纪二三十年代形成了中国的教育测量运动。由于内忧外患,当时我国教育评价发展时断时续。其中“五四”前后到1928年和30年代初到1937年7月抗日战争爆发前,出现了两个小高潮。就成果而言,翻译出版了大批教育测验类理论著作,如:比纳-西蒙著、费培杰译的《儿童心智发达测量法》(上海商务印书馆19922年5月初版);张秉洁、胡国钰编《教育测量》(北京高等师范1922年8月出版);吴天敏《中国比纳西蒙智力测验之经过(第二次修订)》(1936年6月出版);汤鸿普《教育测验》(1933年8月出版)等。并且在著名学者艾伟、陆志伟、陈鹤琴、萧孝嵘等人倡议组织下,“中国测验学会”于1931年正式成立,这是我国教育测量和评价方面的第一个学术研究组织。
2.教育评价的停滞、恢复与引进
停滞时期大概从1949年到1977年,主要特点是教育评价研究与实践几乎全面停止。新中国成立后,我国教育评价研究受“斗资”、“批修”和“文化大革命” 的影响一度中断几十年。1977年恢复高考,新的招生制度对教育评价提出了新的要求,极大推动了教育评价理论与实践改革。1978年党的十一届三中全会召开,随着拨乱反正的进行,我国教育评价又开始蓬勃发展。这一时期的主要成果是引进和介绍海外现代教育评价研究成果。80年代初开始,许多教育期刊陆续译介国外及台湾地区有关教育评价的文章和专著,如台湾李聪明的《教育评价的理论和方法》、加拿大梅森的《教育评价》等。邀请国外教育评价专家来华讲学,并于1984年加入“国际教育成就评价协会”(简称IEA),同时在中央教科所建立“中国国际教育成就评价中心”。
3.教育评价的全面探索与发展
80年代中后期,教育评价理论研究在我国轰轰烈烈地开展起来。这一时期的主要特点是:一是制度上有了保证;二是成立了专门的教育评价机构和专业的教育评价研究机构;三是教育评价理论研究有了长足发展,创办了教育评价的专业杂志,出版了教育评价专著。
1985年5月,《中共中央关于教育体制改革的决定》颁布,标志着我国教育评价的研究和实践全面展开。1990年10月,国家发改委发布14号令,正式颁布实施了《普通高等学校教育评估暂行规定》,对教育评价的目的与作用、基本形式、组织程序以及相关政策都做了规定。这是新中国成立以来第一个关于教育评价的行政性法规,标志着我买过教育评价理论与实践工作走向了规范化,并为进一步发展提供了主要的制度保证。这一时期全国成立了许多教育评价研究机构。如1990年10月,全国普通教育评价专业委员会成立;1994年1月,全国高等教育评价研究会成立,各省还成立了地方教育评价学会。《教育督导与评价》、《教育评价》等专业杂志创办,为教育评价研究的专业化发展及教育评价研究的交流与互动搭建了良好的平台。
4.教育评价发展的新时代
主要是从20世纪90年代末至今。1999年6月,颁布了《中共中央国务院关于深化教育改革全面推进素质教育的决定》,其中第13条要求“加快改革招生考试和评价制度”、要“建立符合素质教育要求的对学校、教师和学生的评价机制”。2001年6月8日颁布了《基础教育课程改革纲要(试行)》,其中关于课程评价的规定是要“建立促进学生全面发展的评价体系”、“促进教师不断提高的评价体系”、“促进课程不断发展的评价体系”。2002年12月教育部颁布了《教育部关于积极推进中小学评价与考试制度改革的通知》,在对原有中小学评价与考试制度批判的基础上,要求构建促进学生发展为目标的评价体系。新的教育评价体系突出以下特点:全面性、发展性、多元性、个性化、过程性等。这是建国以来教育部发布的第一个较为全面的中小学评价与考试改革的指导性文件。《国家中长期教育改革和发展规划纲要(2010-2020年)》在人才培养体制改革方面提出:“改革教育质量评价和人才评价制度;在学生评价方面,完善学生成长记录,做好综合素质评价,探索促进学生发展的多种评价方式,激励学生乐观向上、自主自立、努力成才。”总之,伴随着新一轮课程改革和推进和新时期基础教育改革的深入,全面、多元、开放、民主的教育评价体系初步形成,开创了我国教育评价的新时代。