理论依据与实践指向

核心素养测量:理论依据与实践指向

 

  依据科学测量的经典定义,教育测量是指依据特定规则给学生的特质赋予数值[4],也就是对学生的认知能力、心理倾向、技能水平等进行量化。本文所讨论的核心素养测量顺从该涵义,是指对核心素养进行量化。目前来看,国际上对核心素养的测量实践活动研究处于探索与试验阶段,国内还只有少部分的实践活动研究探讨核心素养评价的宏观理念[5],关于核心素养测量方法与技术的讨论比较少见,这与核心素养测量面临的多方面挑战有关。

  (一)核心素养的复杂性

  从有关核心素养定义和内涵的讨论来看,每种核心素养是高度抽象概括、结构复杂的高阶技能。我国将学生发展核心素养定义为“学生应具备的、能够适应终身发展和社会发展需要的必备品格和关键能力”[6],欧盟认为素养是“合乎情境的知识、技能和态度的统合”[7]。因此,核心素养既不是单独的知识技能,也不是单纯的兴趣、动机、态度,有学者认为核心素养是重视运用知识技能解决现实课题所必需的思考力、判断力与表达力及其人格品性。[8]也有学者提出KSAVE框架解构核心素养,分别为知识(Knowledge)、技能(Skills)、态度(Attitudes)、价值(Values)与伦理(Ethics),基于该框架具体描述每种核心素养在知识、技能和“态度、价值与伦理”三个维度所包含的内容。[9]从中可以看出,核心素养结构复杂,包含多种元素,是知识、技能、态度的集合;核心素养也非常抽象,按照心理品质的抽象层级,它超越了知识和一般能力的范畴,处于比能力更高一层的抽象层级。

  测量首先要明确被测内容是什么。核心素养的复杂性模糊了心理品质分类的界限,因此更需要深入分析核心素养的内涵、维度、结构,定义每种素养所包含知识、能力、态度的外在表现,建立可操作的测评框架,在此基础之上设计与建构测验,才能确保核心素养测验科学实施。例如,PISA2015所界定的合作问题解决能力测评框架,包含合作维度(建立与维持共同的理解、采取恰当的行动解决问题、建立与维持团队组织)和问题解决维度(探究与理解、表征与形成、计划与执行、监控与反应),三种合作技能和四种问题解决技能交叉形成包含12种技能的技能矩阵,并以此作为测验设计和开发的基础。当前来看,关于每种核心素养的内涵与结构的讨论有待加强,对核心素养认识不够深入、不够全面是制约其测量实践的重要原因。

  (二)传统教育测量范式的应用瓶颈

  按照测量工具的表现特征,传统教育测量主要有两种范式。其一,被广泛认可的“考试”。其基本形式为“问题—反应”操作模式,一般通过提问题诱发学生对认知内容的反应,获得学生的反应结果,基于反应结果对潜在能力进行推论。其二,教育测量通常利用心理量表或者问卷,基于“自我报告”的形式测量学生潜在心理特质。其原理是设计一系列测验项目,这些项目提供潜在特质外在表现不同程度的描述,学生根据自身情况自我报告在每一种描述上的符合程度,再利用统计分析方法估计学生潜在特质水平的高低。

  一直以来,“考试”主要应用于认知测验,“自陈式测验”主要应用于动机、态度等心理倾向的测量。核心素养是知识、能力和态度的集合。如果基于“考试”的范式来测量学生的核心素养,“提问题”的方式难以全面诱发核心素养知识层面、能力层面、态度与价值观层面的反应,特别是纸笔考试,难以全面记录核心素养各维度的外在表现,更难获得学生内在情感、态度等心理品质的真实变化过程。如果利用心理量表自我报告的方法测量核心素养,学生对试题描述的自我判断是主观的,由于对判断标准把握的不一致可能会导致结果估计偏差,甚至误判。此外,如果在高利害的测验中采用“自陈式”的方法,学生可能会选择有利于其测验结果的反应,难以确保测验的客观性。总体上,核心素养测量难以照搬传统的教育测验范式。

  (三)表现性评价的操作困境

  表现性评价通常要求学生在真实情境或模拟情境中,运用先前所获得的知识完成某项任务或解决某个问题,以考查学生知识与技能的掌握程度,或者问题解决、交流合作和批判性思考等多种复杂能力的发展状况。[10]表现性评价是一种评价理念,源于对追求唯一正确答案和检测低层次知识水平的标准化考试的反思与批判,它强调测验的真实任务情境构建,突出基于学生的活动过程进行评价,致力于测量学生在复杂任务中的高阶认知能力和情意表达,在评价实践活动研究领域也称为“真实性评价”[11],在实践中应用较多的是“档案袋评价”。表现性评价注重复杂技能的测量,强调基于完成任务的过程进行测评,强调真实性情境,这些理念与测量核心素养的基本要求相一致。但在具体操作层面存在问题,比如,缺少非纸笔形式的表现性任务、任务不够真实、缺乏可操作的评分细则、评分成本耗费较大等,较少应用于高利害的大规模测验中[12]。在综合素质评价实践中,部分地区采用“课程学习记录”、“档案袋评价”等方式评价学生的非学术能力,但较普遍存在测量问题、评分问题、诚信和监督问题等[13],进而导致评价有失公允,评价功能定位不清,评价结果未能得到有效利用。

  表现性评价面临的操作性困境是先进的评价理念与滞后的测量与评价技术、陈旧的测验设计与开发范式矛盾的必然结果。我们认识到测评需关注学业与认知之外的情感、态度、价值观,但对测评形式的认识仍然局限于“考试”的刻板印象。表现性评价的设计与开发缺乏新的话语体系指引,仍然停留在“试题—反应”的传统测评话语体系之中,局限于“试题”与“答案”的传统评价设计思维,信息技术、先进数据处理技术、高级统计测量模型在表现性评价中未得到有效利用。从测量方法与技术层面看,表现性评价面临的这些困境与核心素养测量面临的问题如出一辙。

  二、以ECD理论为支撑的核心素养测验设计

  核心素养测量面临的难题需要系统性反思测量的理论基础、方法策略和技术路线,需要一套理论话语体系来支撑各方面的系统性革新。当前,被视为许多高阶能力测量实践活动研究基础的“证据中心的设计”(ECD)理论,几近完美地切合了核心素养测量的理论需求。

  (一)ECD理论及其产生背景

  ECD理论是一套强调“基于证据的推理”进行评价设计的方法[14],源于美国教育测验服务公司(Educational Testing Service,ETS)开展的教育测验设计与开发实践活动研究项目,由Mislevy等人于1999年提出初步框架,2003年形成较完备的理论体系。ECD理论产生的背景比较复杂:第一,认知科学和学习科学的发展促进了我们对学生需要发展的技能与素养的了解,但标准化测验难以满足测评学生进步和促进学习的需要;第二,技术的发展使得更加可能诱发关于技能与素养的证据,获得复杂数据,但如何解释这些复杂数据是当前的瓶颈;第三,统计模型的发展使得所有的测验能应用基于概率的推理[15],这有利于应用熟悉的测量理论从复杂数据中获得复杂的、多样的推论;第四,技术与统计模型的发展是远远不够的,设计复杂的评价必须以需要做出的推论为起点,以此设计观察变量、具体情境,以及它们与推论之间的推理链条[16]。从ECD理论产生的背景来看,ECD理论是为解决复杂技能的测量问题而生,它力图运用先进技术获取证据,应用数理统计模型对高阶能力进行基于证据的推理,因此,ECD理论与核心素养测量的需求是相一致的,利用ECD理论指导核心素养测验设计也是可行的。

  (二)ECD理论框架

  Messick精辟地指明了测验设计的本质:首先,要清楚需要测评什么样的复杂知识、技能或者其他属性;其次,什么样的行为或表现能够揭示这些构念;再次,什么样的任务或者情境能够诱发这些行为。[17]他还指出,当代评价的效度观强调为推论提供概念性的、实质性的和统计性的评价数据支持[18],评价被视为是基于证据的推理。Mislevy认为,基于该观点可以整合所有类型的数据、任务、评分方法、统计模型,重构所有类型的评价,并提出了“证据中心的设计”理论。

  ECD理论是一套复杂的、系统的测验设计理论,它利用“基于证据进行推理”的核心思想系统化、概念化测验设计所包含的各种元素和各阶段的主要工作。Mislevy先后提出了该理论的概念性测评框架(Conceptual Assessment Framework,CAF)、发布体系结构(Delivery Architecture)及测验设计的层结构,鉴于其理论体系的复杂性,这里我们主要呈现该理论体系的基础部分——概念性评价框架,框架结构如下图所示。

  概念性评价框架展示了评价操作元素的蓝图和相互关系,建立论据和操作性活动之间的桥梁,包含学生模型(Student Model)、证据模型(Evidence Model)、任务模型(Task Model)、组合模型(Assembly Model)、呈现模型(Presentation Model)和发布模型(Delivery Model)。学生模型回答“我们要测量什么”的问题,定义需要测量的知识、技能、能力的相关变量及其相互关系,也就是潜在特质的结构,既可以是单变量、也可以是多变量,既可以是单维度、也可以是多维度。证据模型回答“我们如何测量”的问题,根据学生在任务中的表现,证据模型为我们如何更新学生模型变量提供详细的说明;证据模型包含证据规则和测量模型。证据规则描述基于测试者的任务产品如何利用观察变量总结测试者在任务中的表现,引导测验表现的评分过程,其实质就是评分规则或者评分标准;测量模型提供学生模型变量和观察变量之间的关联信息,执行从证据到推论的推理过程,如Rasch模型、多维IRT模型等。任务模型回答“我们用什么测量”的问题,描述如何构建各种情境,如何展现各种呈现材料以及相关工作产品,以此获得证据模型所需的各种证据,任务模型包含任务模型变量,这些变量描述任务特征以及这些特征如何与呈现材料和工作产品关联。组合模型回答“我们要测量的程度”的问题,协调学生模型、证据模型和任务模型形成测验的测量架构;其目标是如何精确地描述学生模型需要测量的变量,如何平衡任务确保合适反映被测量领域的广度和多样性,其组合规则用于控制项目类型、项目特征和任务特征的组合。呈现模型回答“评价如何呈现”的问题,描述如何在各种测验环境中呈现任务,以及任务如何与学生交互。

  ECD理论超越了“依据规则给潜在特质赋值”的经典测量观,提出了全新的测量思想,认为测量是“基于证据进行推理”的过程,推动了教育测量理论的发展。ECD理论系统地阐明了复杂测验设计的基本结构,清晰的梳理了复杂测验设计各部分的内涵与功能及相互之间的关系,对于指导教育测量实践具有重要意义。此外,证据是ECD理论体系的中心,是桥接学生模型、任务模型、证据模型的主线,复杂测验的逻辑主要包括三个层面:建构任务诱发表现,依据表现提取证据,依据证据进行推理。

  (三)基于ECD理论的核心素养测验设计

  ECD理论致力于解决复杂测验设计的理论问题,适用于核心素养这类高阶能力的测验设计。基于ECD理论的核心素养测验设计需要注意以下几点。第一,核心素养的复杂性需要清晰定义每种核心素养的内涵,需要明确每种核心素养所包含的元素和各元素之间的结构,同时需要明确每种元素不同水平的外部表现特征,形成可观察的指标和具体的操作性定义框架。第二,核心素养的测验设计需要突破传统的“试题—答案”的测验设计范式,要围绕“基于证据进行推理”的核心理念设计任务、构建情境、寻找证据、建立证据与核心素养的推理链条,从试题设计转向任务情景设计,从标准答案设计转向以证据规则为核心的证据模型建构。第三,传统认知测验利用试题刺激学生的认知反应,与此类似,核心素养测验利用任务情境刺激学生的行为反应和表现,而这些可观察的行为反应模式是核心素养这种潜在心理特质的直接外部表现,因此,核心素养的任务情景设计需要以操作性定义框架为基础,确保测验的效度。第四,传统认知测验中学生对试题的作答能较直观识别为答对还是答错,因而评分相对容易,但核心素养测验中学生的行为反应和表现是复杂的,它们有可能是学生的语言表现,也可能是操作行为,也有可能是关于任务的工作产品,这些复杂表现可能是不同认知水平的结果,也可能是情感、态度或价值观的外在反应,从这些行为与表现中寻找合适的证据推论潜在能力是关系到测验成败的关键,这需要我们在测验设计时建立好评分规则,确立测验表现与学生模型的推理链条。

  三、基于信息技术的核心素养测验形式

  核心素养的复杂性需要着重考虑合适的测验形式。在国际上有关核心素养测评的实践中,大部分采用信息技术的测验形式。与纸笔测验比,对于测量核心素养这类高阶技能,基于信息技术的测验形式具有显著优势。

  (一)建构复杂任务情境

  受纸质媒介功能的制约,传统教育测验是“静态的”和“横截的”。“静态”是指学生对测试问题的反应和表现是其内在思维与心理活动的最终结果,而难以反映测验时学生的心理过程;“横截”主要指大部分测验是终结性的,只能反映学生在某一段时间内的学习结果,未能反映学习过程。核心素养的复杂性必然要求利用复杂的任务情境刺激学生在知识、能力和态度各维度的反映。信息技术为我们构建这些复杂任务情境提供了可能,在实践领域,基于模拟的评价[19]和基于研学活动的评价[20]等新型测验形式特别凸显了任务情境的动态性、交互性、真实性。首先,这些任务情境是动态变化的,构成测验的每个任务可能包含多个连续性的问题,随着测验的进行,问题空间和问题资源也有可能是变化的;其次,复杂任务情境都是强交互性的,形式上需学生对任务情境进行浏览、操作,实质上需学生内在认知与心理过程与动态变化的问题空间进行表征、表达、更新;再次,这些任务情境都是真实的,提供丰富的资源和多种媒体呈现形式建构真实情境,要求学生解决实际生活中真实问题,而不是对抽象的知识与概念和去情境化的原理与规则的考察。

  (二)获取学生复杂表现

  测量的本质是获得被试外在表现和反应推断潜在特质。传统教育测验聚焦于学生对试题的反应,狭隘的说是聚焦于答对与答错,获得的信息有限,所做出的推论也有限。由于核心素养的复杂性,核心素养测量不仅需要获得认知性反应,还需要获取内在思维、情感态度变化过程的外在表现,基于复杂表现提取的证据才能对核心素养进行有效推论。核心素养测量的这些新特征与当前教育测验变革的内涵相一致。Mislevy认为,信息技术与社会心理学的双重发展拓展了教育测验的范畴,包括测验目标、推论范围、情境应用、活动形式和证据来源。[21]社会认知理论强调与真实世界互动的知识与活动模式,包括语言使用、知识表征、文化模式的结构和方式,以及在各种环境中的活动模式。[22]具体到测验当中,学生在测验时的心理状态、文化背景、语言、人格特征是不可忽略的重要因素,而这些因素也是建构核心素养测验时所需着重考虑的。信息技术为捕获社会认知理论所强调的语言、行为、文化模式等提供了技术上的保障,基于信息技术的测验环境不仅能非常容易地获取学生对试题的简单反应,更重要的是信息技术测验环境能追踪学生在完成任务时的活动过程,将学生操作任务的行为、语言及反映学生心理状态的肢体动作记录为过程流数据,基于这些结构复杂、形式多样的过程流数据提取的证据不仅可以推论学生的认知能力以及认知过程,更有助于揭示核心素养所包含的态度、价值、伦理的状态。

  (三)改进评价的功能

  从教育评价的理念变迁来看,标准达成的评价观受到批判,形成性评价、促进学习的评价等发展取向的评价观成为重要的实践活动研究议题,评价强调基于学习过程提取的证据反馈和改进学习、促进学生的发展[23],重视学生在评价中的主体地位[24]。然而,发展取向的评价观对核心素养的测评提出了巨大的挑战:首先,关于核心素养是什么的问题有待深入探讨;其次,缺乏测量核心素养、诊断核心素养发展状况的成熟方法;再次,更缺少关于核心素养的学与教的具体策略和方法。但是,面向学生发展的核心素养测评是不可回避的问题,如果只谈测评不谈培养,核心素养将陷入“空中楼阁”,无法在学校教育体系中生根落地。基于信息技术的核心素养测验形式为破解这种困境提供了可能,如前所述,利用信息技术能建构复杂的任务情景,能获取学生解决真实任务过程的复杂表现,能记录复杂的过程流数据,利用这些复杂数据诊断现有核心素养水平,结合学生内在心理状态,可为核心素养教与学的策略选择、路径规划提供证据支持。在方法选择方面,“嵌入式”评价具有无干扰、连续性的优点,能在学生学习、与同伴讨论、与任务交互的真实过程中进行“安静的”测量,能跟踪学生的发展变化情况,因而适用于支持学习改进的评价。[25]

  四、复杂数据中抽取推论核心素养的证据

  ECD理论强调“基于证据进行推理”,证据是测量的核心,是做出推论的直接基础。传统测验得到的数据,即学生对试题作答情况的记录或编码,可以直接应用测量模型推论学生的潜在能力。而基于信息技术的核心素养测验,记录的数据是学生的语言、行为,以及与系统交互的各种复杂表现,难以直接利用这些数据推论学生的核心素养,需要先从复杂的数据中提取证据,再进行推论。

  (一)数据与证据

  随着科学主义取向的教育实践活动研究受到重视,数据成为教育实践活动研究的重要基础,实证实践活动研究成为教育实践活动研究的重要范式之一,近两年对国内教育实践活动研究产生重要影响。[26]信息技术的发展使得我们能获得类型丰富、体量庞大的“大数据”,数据分析与处理技术获得蓬勃发展,为教育测量和教育量化实践活动研究的进步提供巨大的契机。数据的重要性使得人们忽略了因果推理链上的核心概念——证据,“用数据说话”,其更确切的涵义应该是“用证据说话”。对于核心素养测量所获取的类型多样、结构复杂的数据,“用数据说话”更难以适从。

  数据是按照一定的规则排列组合的物理符号,可以表现为符号、文字、数字、语音、图像、视频等,是信息的表现形式和载体。[27]证据与假设(推论)有关,它会增加或者降低假设的可能性,只有当数据与假设建立了联系,能直接增加或降低假设的可能性,数据才可以被称为证据[28]。传统教育测验的数据主要是考生对试题的作答记录或者得分,是强结构化的数据,记录的是考生对试题作答正确与否的信息,它们能够直接增加或者降低对考生能力可能性的预测,因此,这种类型的数据实际上就是证据。核心素养测验所得到的数据一般是半结构化或无结构化数据,它们结构复杂、类型多样,还可能带有时间标签,比较难以解释。例如,ATC21S在测量合作问题解决能力时,测验系统会实时记录学生完成任务过程中的所有行为及其发生时间,包括单击按钮、拖拽对象、交流对话内容、任务结果等,形成过程流数据。[29]这些复杂的数据反映了学生完成任务时的内在心理过程,是学生能力的外在表现,但我们很难直接基于这种数据对学生的能力进行判断。其不是直接意义上的证据,却是证据来源的基础。

  (二)复杂数据中的证据抽取

  ECD理论中的证据规则,描述如何利用观察变量总结任务表现,其实质是评分标准。证据抽取就是利用定义好的证据规则从复杂数据中完成对观察变量的赋值,包含两方面的工作。一是定义证据规则。观察变量以任务模型为基础,是被测内容的可观察指标,建立证据规则需要清晰定义各观察指标的外在表现,界定不同能力水平的学生在各观察指标上有哪些不同的表现。二是需要依据这些证据规则完成评分,为观察变量赋值。

  因为核心素养内涵与测量表现的复杂性,这将导致证据规则非常复杂,使得证据抽取需要高人力成本和时间成本。基于这方面的考虑,当前有关实践活动研究的证据抽取方法主要采用自动化评分方式,可分为两大类。

  其一是依据证据规则编写算法研学旅行方案咨询策划服务学校项目完成评分。ATC21S提取合作问题解决能力的测量证据是该类方法的代表。首先,它们定义与合作问题解决能力框架中具体元素相关联的行为模式,这些行为模式是学生完成任务过程中合作问题解决能力相关元素的外在表现,如果过程流数据中出现该行为模式,表明具备相关能力元素的心理倾向,观察变量赋值为1,否则赋值为0;其次,依据定义的行为模式,设计具体的算法,编写研学旅行方案咨询策划服务学校项目,然后对过程流数据进行评分。[30]

  其二是“机器学习”评分。在自动化评分领域,机器评分采用的统计模型类型多种多样,比如应用“人工神经国际旅行社”对科学问题解决过程进行评分[31],利用“贝叶斯国际旅行社”完成国际旅行社系统操作技能评分[32],利用“潜在语义分析”进行作文自动化评分[33]。机器学习需要从复杂的数据中提取“特征”或聚类出关键模式,从这一点看,机器评分实际上都包含证据抽取过程。它们先建立证据规则,让“机器”学习这些规则之后,从复杂数据中抽取“特征”,进一步转换为测量所需的证据。此外,机器学习中众多的统计模型为从复杂数据中提取各种证据提供了可能。

  复杂数据中的证据抽取不管采用何种方式,证据的质量直接影响测验的质量。提升证据质量需要把握好两个方面的问题。一是清晰定义证据规则,建立公平而有效的评分标准,确保测验效度和公平性。公平是指评分标准不偏袒于任何学生个人和群体,有效是指依据评分标准抽取的证据对于推论被测核心素养具有效力。二是依据证据规则的特征和现实条件选择合适的证据抽取方法。有些证据规则比较简单,利用人工算法就能实现;有些规则比较复杂,可能需要机器学习领域中的高级统计模型才能实现,但也需要较大的样本量才能确保模型的效力。

  变革的时代是充满机遇和挑战的时代。核心素养测量面临的难题需要我们全面反思教育测量的变革之路,所幸的是,现代教育测评设计理论、信息技术、数理统计方法的发展为我们提供了破解迷局的契机。首先,核心素养测量需要以“证据中心的设计”理论为依据,围绕“基于证据进行推理”的核心思想进行测评设计。其次,信息技术是核心素养测验的有力工具,利用信息技术提供复杂任务与情境,支撑交互式测验的开展,获取反映学生认知、情感、态度变化过程的复杂表现,得到类型多样、过程详尽的复杂数据,为证据挖掘提供数据基础。再次,抽取证据是核心素养测量的关键,为此需要清晰定义证据规则,借鉴数据科学和人工智能领域中的方法,从复杂数据中挖掘与推论核心素养有关的模式与规则,识别与提取可靠证据,以此推论学生的核心素养。最后,核心素养复杂性决定各种不同类型核心素养的测量方法是多样的。我们不呼吁所有核心素养都采用信息技术的测验形式,我们的基本立场是,在考虑核心素养复杂性这个前提条件下,以ECD理论指导测评设计,基于信息技术测验形式获取复杂表现和数据,利用先进数据处理技术获得推论核心素养的证据,是确保核心素养测评科学性、真实性、有效性的重要保障。

  ————————

  参考文献:

  [1] OECD. PISA 2015:Draft Collaborative Problem Solving Framework[EB/OL]. http://www.oecd.org/pisa/pisaproducts/Draft% 20PISA%202015%20Collaborative%20Problem%20Solving%20Framework%20.pdf.

  [2] OECD. PISA 2012 Assessment and Analytical Framework: Mathematics, Reading, Science,Problem Solving and Financial Literacy[M]. Paris: OECD Publishing, 2013.

  [3] Griffin P, Care E. Assessment and Teaching of 21st Century Skills[M]. Springer Netherlands, 2015.

  [4] Stevens S S. On the Theory of Scales of Measurement[J].Science,1946, (103).

  [5] 刘晟,等. 21世纪核心素养教育的课程、教学与评价[J]. 华东师范中学学报(教育科学版),2016,(3);刘新阳,裴新宁. 教育变革期的政策机遇与挑战——欧盟“核心素养”的实施与评价[J]. 全球教育展望,2014,(4).

  [6] 核心素养实践活动研究课题组. 北京市学生发展核心素养[J]. 北京市教育学刊. 2016,(10).

  [7] Union T E P A. Recommendation of the European Parliament and of the Council of 18 December 2006 on Key Competences for Lifelong Learning[J]. Official Journal of the European Union,2006, (49).

  [8] 钟启泉. 基于核心素养的课程发展:挑战与课题[J]. 全球教育展望, 2016,(1).

  [9] Binkley M, et al. Defining Twenty-first Century Skills[M]. Springer, 2012. 17—66.

  [10] 赵德成. 表现性评价:历史、实践及未来[J]. 课程·教材·教法,2013,(2).

  [11] 杨向东. “真实性评价”之辨[J]. 全球教育展望,2015,(5).

  [12] Stecher B. Performance Assessment in an Era of Standards-Based Educational Accountability[M]. San Francisco:Jossey-Bass, 2014. 17—53.

  [13] 崔允漷,柯政. 关于普通高中学生综合素质评价实践活动研究[J]. 全球教育展望, 2010,(9).

  [14] Mislevy R J, et al. A Brief Introduction to Evidence- centered Design[J]. ETS Research Report Series, 2003,(1).

  [15] Mislevy R J. Evidence and Inference in Educational Assessment[J]. Psychometrika, 1994, (4).

  [16] Mislevy R J,et al. Evidence-centered Assessment Design[R]. Educational Testing Service, 1999.

  [17] Messick S. The Interplay of Evidence and Consequences in the Validation of Performance Assessments[J]. Educational Researcher, 1994, (2).

  [18] Messick S. Validity. Educational Measurement(3rd ed)[M]. New York:American Council on Education/Macmillan,1989. 13—103.

  [19] Mcgaghie W C, et al. A Critical Review of Simulation-based Medical Education Research: 2003—2009[J]. Medical Education, 2010, (1).

  [20] Mislevy R J, et al. Psychometrics and Game-based Assessment[A]. Drasgow F. Technology and Testing: Improving Educational and Psychological Measurement[C]. New York:Routledge, 2016. 23—48.

  [21] Mislevy R J. How Developments in Psychology and Technology Challenge Validity Argumentation[J]. Journal of Educational Measurement, 2016, (3).

  [22] Wertsch J V. The Primacy of Mediated Action in Sociocultural Studies[J]. Mind, Culture, and Activity, 1994, (4).

  [23] 冯翠典,高凌飚. 从“形成性评价”到“为了学习的考评”[J]. 教育学报, 2010,(4).

  [24] 龚孝华. 重新理解教育评价目的:基于生存论视阈[J]. 教育理论与实践, 2008,(33).

  [25] Webb M, et al. Challenges for Information Technology Supporting Educational Assessment[J]. Journal of Computer Assisted Learning, 2013, (5).

  [26] 王春丽,顾小清. 形成基于证据的教育实践活动研究文化——“公益首届教育实证实践活动研究论坛”综述[J]. 北京市远程教育, 2015,(12).

  [27] 李葆萍,周颖. 基于大数据的教学评价实践活动研究[J]. 现代教育技术, 2016,(6).

  [28] Schum D A. Evidence and Inference for the Intelligence Analyst[M]. Lanham: MD: University Press of America, 1987.

  [29] 袁建林,刘红云. 合作问题解决能力的测评:PISA2015和ATC21S的测量原理透视[J]. 外国教育实践活动研究, 2016,(12).

  [30] Adams R, et al. Automatic Coding Procedures for Collaborative Problem Solving[A]. Griffin P, Care E. Assessment and Teaching of 21st Century Skills[C]. Dordrecht:Springer, 2015. 115—132.

  [31] Ronald H S, Adrian C. Artificial Neural Networks[A]. Williamson D M. et al. Automated Scoring of Complex Tasks in Computer-based Testing[C]. Mahwah,NJ:Lawrence Erlbaum Associates, 2006. 259—312.

  [32] Williamson D M, et al. An Application of Bayesian Networks in Automated Scoring of Computerized Simulation Tasks[A]. Williamson D M, et al. Automated Scoring of Complex Tasks in Computer-based Testing, Mahwah, NJ:Lawrence Erlbaum Associates, 2006. 201—258.

  [33] Miller T. Essay Assessment With Latent Semantic Analysis[J]. Journal of Educational Computing Research,2003, (4).

  

            The Measurement of Key Competencies: Theoretical Basis and Practice Direction

                                        Yuan Jianlin & Liu Hongyun

  Abstract: From the perspective of educational measurement, key competencies are high order skills that are highly abstracted and complexly structured. They transcend the concept of knowledge and general ability. It is full of challenges to apply traditional paradigm of educational measurement to measure key competencies. Educational measurement must be systematically innovated in the aspects of theory, methodology, and technology. In the aspect of theory, Evidence-Centered Design(ECD)is the theoretical basis for the measurement of key competencies. Test design and development must be constructed on the core thought of "inferring based on evidence". In the aspect of practice, it is necessary to apply information technology to build dynamic and interactive testing environment, to construct complex task context, and to obtain complex, detail and various test data. In addition, extracting evidence from the complex data is the key point for the measurement, so it is necessary to clearly define the evidence rules, to properly utilize the automatic methods of evidence extraction, and to obtain evidence from complex data to infer students' key competencies.

  Key words: key competencies, educational measurement method, Evidence-Centered Design

  Authors: Yuan Jianlin, doctoral student of Faculty of Education/Collaborative Innovation Center for Quality Monitoring of Basic Education in China, Beijing Normal University; Liu Hongyun, professor and doctoral supervisor of School of Psychology, Beijing Normal University (Beijing 100875)