如何使用本书
本书可以用作自学用书,使你深入了解如何设计和解释评价,并利用这些评价来设计有意义的评分。随着各个章节的内容展开,会有相应的练习。完成这些练习,并将你的答案与本书后面的答案进行比较,这一点非常重要。这样的互动一方面是对内容的回顾;另一方面使你可以检查自己对内容的理解程度。
希望深入研究评价和评分主题的教师团队或全体教员,也可以使用这本书。在这种情况下, 教师团队应该独立完成练习,然后在小组和大组中比较他们的答案。
评价和评分是K-12教育中谈论很多且时常被误解的两个方面。本书力求在一定程度上阐明一种特定类型的评价——形成性评价,并通过一些建议来探索其如何与传统和非传统评分实践相互作用。在本章中,我们回顾了支持这些建议的研究和理论。我们首先讨论反馈,评价和评分的根本原因都是反馈。
反馈
反馈及其对学生成绩的影响是研究者和实践者非常感兴趣的话题。事实上,关于两者之间关系的研究相当丰富,并且跨越了大约三十年。为了给反馈下一个操作性定义,研究者约翰·哈蒂解释说,反馈的目的是缩小当前的理解和表现与目标之间的差异。 研究员瓦莱丽·舒特说,反馈是传达给学习者的信息,旨在改变他或她的思维或行为,以改善学习。
反馈可以是正式的,也可以是非正式的,可以小组为单位或者一对一沟通。它可以采取多种形式。正如前面的定义所言,反馈重要的和主要的特征是,它告诉学生和教师如何大限度地促进学生的学习。
在考虑将形成性评价用于实践时,需要牢记两件事。一是,根据定义,形成性评价与课堂上正式和非正式的教学过程密切相关。换言之,使用由测试者设计的 "现成"形成性评价并不是这里所说的教学过程中的形成性评价。詹姆斯·波帕姆严厉批评了盲目使用市场上的形成性评价。他指出 :
随着教师们逐渐了解布菜克和威廉得出的结论,突然之间,测试出版商开始将他们的许多测试重新贴上 "形成性" 的标签。越来越多的教育者认为形成性评价可以提高学生的考试成绩,还能帮助学校规 避许多针对他们的问责。在这种观念刺激下,产生了更换名字的销售 策略。
套用詹姆斯 ·波帕姆的话,外部开发的评价根本不符合形成性评价的典型特征。洛里 ·谢泼德提出了同样的观点 :
紧密植根于课堂教学过程,以研究为基础的形成性评价的概念已经被以获利为目的的测试出版商接管或者说 "劫持" 。同时,形成性评价反而被用来指代那些形式化的测试系统, 称为 "基准测评" 或 "阶段性评价系统" 。
因经常违反真正的形成性评价的许多基本假设,许多学区制定的 "基准"评价可能会招致类似的批评.正如詹姆斯·麦克米伦所解释的 :
这些测试通常由学区或以获利为目的的测试出版商提供,定期进行,将学生的成绩与"基准"进行比较。这些 "基准"衡量学生的表现,表明学生应该在年终重大测试中达到哪些要求……
尽管在商业测试市场中,基准评价 ( benchmark)这个术语经常与形成性评价互换使用, 但两者有重要的区别。基准评价是形式化、结构化的测试,它通常无法提供适当的教学纠正措施所需的细节。
二是,尽管研究者普遍认为,形成性评价作为工具能够提高学生的成绩,但是形成性评价的详细规范尚未形成。事实上,大多数形成性评价的描述实质上都是泛泛而谈。例如,布莱克和威廉在他们原创性的研究中指出,"形成性评价没有严格的定义和广泛接受的含义"。 迪伦·威廉和西奥本·莱希对形成性评价的描述如下:
限定词“形成性”不是指评价,甚至不是指评价的目的,而是指评价实际服务的功能。如果来自评价的信息被反馈回系统,并且实际上在某种程度上被用来改进系统的业绩表现 (即评价形成改进的方向 ),那么这种评价就是形成性的。
根据朱迪斯·阿尔特等人的描述,形成性评价是为了学习的评价,而不是对学习的评价:
为了学习的评价在学习过程中进行。这是我们在整个教学和学习过程中进行的评价,目的是诊断学生的需求,规划我们的下一步教学,为学生提供可以用来提高他们学习质量的反馈,并帮助学生看到和感觉到他们把控着自己通往成功之路。这不是问责,而是通过评价来学习。这是为了变得更好。
苏珊·布鲁克哈特解释说,形成性评价是一个循环:学生和教师专注于一个学习目标,根据目标评价当前学生的学习,采取行动使学习更接近目标,然后周而复始。
除了这些一般性的描述,研究人员还提供了关于形成性评价实践的一些详情。遗憾的是, 在具体做法上没有形成明确的普遍认可的模式。例如,一些倡导者强调不应该记录形成性评价,而其他人认为应该记录。一些人主张,在设计成绩方案时不应考虑形成性评价;而另一些人则认为,在确定学生真实的学业状态时,形成性评价应该占有一席之地。在很大程度上,本书的目的是,针对形成性评价实践,系统地阐述一套精心设计的具体做法。
学习进阶已经成为形成性评价领域的一个突出的焦点。玛格丽特解释了学习进阶与形成性评价之间的联系,如下所示 :
形成性评价的目的是在学习过程中向教师和学生提供反馈,了解学生当前表现和期望表现之间的差距,以便采取措施缩小差距。为了有效地做到这一点,教师需要明白在任何特定知识领域学习是如何连续发展的,以便他们能够断定学生当前的学习状态,并决定采取教学 行动来推动学生的学习。那些清晰阐明某一领域的学习进程的学习进阶表,可以提供学习内容的全貌,为教学规划提供支撑,并成为形成性评价的检验标准。
在讨论形成性评价或其他评价时,需要牢记一个事实,即所有评价在某种程度上都是不**的。经典测试理论中的一个基本公式明确表达了这一点,这个公式可以表示为:观察分数=真实分数 错误分数。
马扎诺解释说 :
该公式表明学生在评价中的观察分数 (教师评定的分数) 由两部分组成,即学生的真实分数和学生的错误分数。学生的真实分数代表了学生对被测主题的真实理解水平或技能。错误分数是观察分数的一部分,它是由学生的理解水平或技能之外的因素造成的。
在教学语境中,任何关于评价的讨论都会导致对评分的讨论。如书名所示,本书既注重形成性评价,也注重评分。教师不仅负责在某个时间点,通过课堂评价来评价学生的知识或技能水平,还负责将评价获得的所有信息转化为对学生在某个固定时间段 (通常是一个季度、三个月或一个学期)的表现的总体评价。这种总体评价以某种形式的总评成绩的形式呈现,通常称为 "综合成绩" (omnibus grade)。不幸的是,评分使评价过程又平添了一层新的错误。
布鲁克哈特讨论了与评分相关的困难 :
评分同时用于三个目的:排名 (区分有资格接受高等教育的学生和没有资格接受高等教育的学生 ) ;报告结果 (向家长说明学生学习规定课程的程度) ;以及促进学习 (提供反馈和激励学生)。
虽然这三个目的都有确实的根据,但它们提供了截然不同的视角来考察学生的成绩。由于各个学校和学区的教师没有统一的评分理念,他们不得不设计自己的评分系统。
多年来一直使用的一种评分方法是报告学生相对于彼此的表现水平。 这可以称为常模参照评分(norm-referencedgrading)。肯尼斯·哈珀斯托尔在他的博士论文中指出,常模参照评分可能推动了19世纪中期所谓的 "分级制度"。根据该制度,学生按照知识和技能水平以及年龄分组,以便教师可以向这些同质群体提供更有针对性的教学。他解释说,甚至早在那个时候, 詹姆斯·鲍德温 (James Baldwin) 就发现了该系统的问题。詹姆斯·鲍德温指出,关于学生如何 "分级"或由谁 "分级" 的标准还没有建立起来。 "分级" 的决定是主观的,可能由教育厅长、教学秘书或教育委员会成员当中的任何人来做出。
当前正在使用的评分方案,即使有,也很少使用严格的常模参照评分。但在班级排名法和曲线评分法的实践中仍可找到常模参照评分的痕迹。
当教师用曲线评分法评分时,他或她会给在评价中表现好的学生打高分,然后依据这个标准,对其他学生的表现进行相应的排名,来给他们打分。这个评分体系实质上是对照学生的表现来给他们打分。因此,它的基础是常模参照。曲线评分法的支持者认为这种方法公平合理,因为大多数班级在任何特定学科领域的成绩都是正态分布的。
然而,托马斯·格斯基坚持认为曲线评分法并不能表明学生已经学到了什么或能够做什么。它不是告诉教师一个学生学到了什么,而只是报告他或她相对于他或她的同学学到了多么多或者多么少。他还援引本杰明·布鲁姆的研究并指出,如果教师的教学水平突出,学生的成绩不一定呈现正态分布。因此,仅仅对照学生之间的表现来给他们打分可以,提供 学生在班级中的排名信息,但不能说明学生的学业成就。
自我参照评分与个人过去的表现有关。支持者说,它可能会减少课堂上的竞争,有助于激励学生。直观来看,这种评分似乎很有道理:每个学生的参考点是他或她的个人成长和参与学习的积极程度。 但布鲁克哈特指出, 这种形式的评分往往主要用于能力低的学生。尽管强调诸如努力、行为、态度和参与度等因素似乎有积极意义,但强调这些因素也正是这种评分形式受到诟病的原因之一。将非学业能力与学业能力混为一谈会损害分数的意义。