版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、7A 版优质实用文档机器学习会取代计量心理学吗?“尽管教育领域有着结构上的保守性,教育考试还是在变得 越来越陌生。考试工具(比如,在线虚拟模拟)在变化,数 据在变化(编码光标和点击的数据),应用在变化,领域也 在拓展。因此,数据分析方法也将会改变。我认为机器学习 方法必将取而代之。” 几个月前,这个有点醒目的观点出现在我的邮件箱里。一场 有趣的辩论发生在一次邮件讨论中,就在那里,一位美国的 计量心理学家(Psychometrician) 写下了 这个观点。 它就如微凉的周日清晨的教堂钟声一般,发出阵阵清晰冷彻 的回响。曾经有一段时间,我计划将由我掌管的教育评估 (EducationalAsse
2、ssment)部门转型 成数据 科学和机 器学 习团队。就在上周这些计划终于有了成果,正式成立的心理 测量与分析(Psychometrics&Analytics)部门将是 澳大利 亚第一个拥有法定权力的教育部门。我最初的目的是两方面的。一是巩固现有的计量心理学专业 知识,并以此为基础来建设。二是通过让团队学习诸如人工 神经 网络( artificialneuralnetworks)、支 持向量机 (supportvectormachines), 以及分类 和回归树 (ClassificationandRegressionTrees)这样的 模型,来 发展团队在机器学习方面的能力。我已经开始将这
3、些模型应 用在已有的数据上了。下一步是利用大数据技术,如 Hadoop、M apReduce 和 Spark,来 开发专 业技术。 之前, 我已使我们的团队完成了在软件工具使用上的转型,在处理7A 版优质实用文档7A 版优质实用文档心 理 测 量 和 自 动 报 告 生 成 的 工 作 时 从 SAS 转 向 了 R;并 且 我 想发展我们使用另一种被广泛使用的机器学习语言 Pyt hon 的 技 能 。 但那封来自于我美国同行的邮件比我过去一直思考的东西 有更深远的意义。计量心理学这门有百年历史的学科是应用 统 计 学 的 一 个 分 支 , 主 要 基 于 查 尔 斯 斯 皮 尔 曼( S
4、p earm an ,1904)的 工 作 发 展 而 来 。不 过 ,也 许 再 过 不 久 , 计量心理学对教育评估来说就不那么有用或相关了。 这是一个有点大胆的预言,并且有可能激起计量心理学家们 过 度 的 反 应 。还 有 ,试 题 反 应 理 论( It em Resp onseTheo ry) 1 对 于 复 杂 的 在 线 考 试 系 统 , 比 如 计 算 机 自 适 应 测 试( Com pu terized Ad aptiveTesting ) 2, 来 说 难 道 不 是 必 不 可少的吗?试题反应理论 (ItemResponseTheory ):一系列心理统计学模型的总
5、称。 IRT 是用来分析考试成绩或者问卷调查数据的数学模型。这些模型的目标是来确定 的潜在心理特征( latenttrait ),比如语言能力( languageproficiency ),是 否可以通过测试题被反应出来,以及测试题和被测试者之间的互动关系。目前 广泛应用在心理和教育测量领域。计算机自适应测试( ComputerizedAdaptiveTesting ): 以试题反应理论为 基础建立题库,并由计算机根据被试者能力水平自动选择测题,最终对被试者 能力作出估计的一种新型测验(比如, GRE 考试)。 这个问题的答案毫无疑问是肯定的,但是这个问题没有抓住 那个预言的重点。不是说考试测
6、验必须变成在线的(有些时 候我们会在教育部门的走廊里或者会议室听到这样的言7A 版优质实用文档7A 版优质实用文档论),而是说教育评估的本质可能会受到数字技术引发的深 远变革的影响。然而,当前的在线考试评估在结构、形式和内容上基本照搬 了传 统的笔 试测验( pencilandpaperbasedtest)。进 行网 上考试的学生很可能会回答一些跟纸质考试中遇到过的类 似的多选题。偶然地,学 生也会遇到用 HTML、CSS 和 Javascript 语 言“打扮”的被称为 “技术增强题 (Technology-enhancedItems)。这 类多选 题的选项 可能 是一个下拉菜单,而被试者则
7、可能被要求将选项进行排序, 或把选项拖拽到屏幕上恰当的位置里。但是不管怎么样,对被试者来说他们还是像在考传统考试一 样:给每个选项题选个答案,选完后到下一题,直到全部做 完 。考 完 之 后 马 上 或 者 过 一 段 时 间 ,被 试 者 会 收 到 考 试 成 绩 。 考试成绩要么是回答正确的题目的总数(如果这个考试是线 性计 算机考 试(LinearComputerBasedTest)的 话),要么 是一个按照量表转换后的 分数( scalescore)(如果这个考 试是比如计算机自适应测 试(CAT)的话)。被试者也可能 会收到一些描述性的反馈,告诉他们哪些内容他们掌握了, 哪些还需要
8、提高。线性计算机考试( LinearComputerBasedTest):与计算机自适应测试 ( CAT)不同,线性计算机考试的整套试题是在考试开始前随机整合完成。虽然该形式 基本保证了每个被测者拿到的整套试题不同,但不能像 CAT 一样根据每道题的 答题情况对被测者进行能力估计,进而选出下一题。7A 版优质实用文档7A 版优质实用文档考试评估真如开头那段引述的话里所说的,正在变的“面目 全非”吗?可能还不至于。但一些略具雏形的创新科技正在 涌现,它们阻断了传统方法对在线考试的统治。这方面,我 们可 以参考 一下帕特 里克格里芬( PatrickGriffin) 教授在 协作 性问题 解决(C
9、ollaborativeProblemSolving)方面 的 工作(请参考凯尔和格里芬 20GG 年发表的论文,以及视频 访谈)。在今年的二月,我有幸邀请到了格里芬教授来做了 一个关于他工作的讲话;之后我和我的一位同事一起展示了 格里芬教授设计的考试平台。合作性问题解决( CollaborativeProblemSolving):CPS 被定义为当个人的能力和资源不足以解决一个问题的时候所需要依靠的一整套技能。 其核心是在面 对复杂问题时, 个人如何去与他人协作整合不同的资源和技能。 具体有五项构成 要素:参与、视角选择、社交管理、认知管理,以及知识学习。格里芬教授开发的这项技术将一个问题解
10、决任务,同时向至 少两个使用不同电脑的人展示。每个被试者看到的问题都是 不完整的,从而被试者必须通过通讯软件协同解决问题。不 同于简单地记录正确和不正确的答案,这个平台会详细记录 参与者在完成任务过程中,包括沟通信息在内的所有屏幕活 动。这些数据被附在日志文件中用于之后的分析。 日志中的某些数据被认为是和协作性问题解决中涉及的社 交和 认知两 个要素( 比如视角 选择和 任务管理 )紧密联 系的。 人们根据数据和每个要素的关系强度,把数据以正整数(或 分数 )的 形式进行编码(数 值越大,关系 强度越高)。之后, 这些 编好的 数据被 Rasch 部 分给分模 型7A 版优质实用文档7A 版优
11、质实用文档( RaschPartialCreditModel)(Masters,1982)5 分 析, 以 获得 要素的 难度(difficulty)和 被试者能力(ability)的估 计值。Rasch 部分给分模型( PartialCreditModel ): 试题反应理论( IRT)模型的一 种,被用来分析部分给分数据。数据中被试者的得分 s=0,1,2,3,是,一k,道k试题的最高得分。该模型由马斯特斯( Masters )在 1982 年根据 Rasch(1960) 的二分模型( dichotomousmodel )发展而来。我对格里芬平台的一个重要的观察所得是,尽管平台评估的 是人
12、的认知能力,但却不同于任何传统的计量心理 考试。格 里芬的平台能使学生专注在更重要的任务上 学习如何 与 其他人实时协作解决问题。因为被试者看不到评估的具体内容,传统的考试策略如考试 技巧、作文的前期准备、猜题或者直接作弊等都不管用了。 确实 ,这样的评估相 较于传统 考试更 好。格里芬 的研究 发现, 在他的平台上的测试不会出现国家间倾向 (between-nationbias)。而 标准化的 国际学 生评估项 目 (PISA)的试题 却一直 因这种倾 向被诟病 (Kreiner&Christensen,20GG) 。格里 芬平台的 测试对学 生使用的不同语言也是稳 健的( robust)(
13、 Vi st a,Car ean d Gri f fi n ,20 GG) 。国际学生评估项目( ProgramforInternationalStudentAssessment): 一个由经济合作与发展组织筹划的对全世界 15 岁学生学习水平的测试计划,最早 开始于 20GG 年,每三年进行一次。该计划旨在发展教育方法与成果。是目前 世界上最具影响力的国际学生学习评价项目之一。 47 万名 15 岁学生,共代表7A 版优质实用文档7A 版优质实用文档65 个国家和地区,参加了 20GG 年的测试。另外 5 万名学生代表 9 个国家于 20GG 年做了测试。 2015 年超过 53 万名学生代
14、表 72 国参与测试 (摘自维基百 科)。事实上,考试评估回避了一个重要问题:计量心理建模分析 到底有什么价值?它真的有贡献吗?为了满足一个老旧的、 以纸质考试框架为基础而设计的计量心理模型的条件,我们 不得不将丰富的数据编成整数序列。这真的有必要吗,或者 说这是我们想要的吗? 用机器学习模型岂不是更有效吗?毕竟我们从机器学习了 解到 ,IRT 心理测量所 基于的逻辑 回归 (logisticregression)模型 可能不再 是做分 类的最佳 选择 了。为什么我们不能使用随机森林处理数据,把跟协作性问题解 决有强相关的数据特征提炼出来呢?那些被认为是重要的 数据特征会在进行提升回归决策树(
15、boostedregressiontree)分析后 显现出来呢?人工神经 网络会建议被试者在接下来完成什么样的问题解决任务 呢?我们能否使用分层聚类分析 (hierarchicalclusteringanalysis)识 别出问 题解决中 需要 用到的技能和知识,并在之后把这些结果实时地报告给学生 和老师呢? 再进一步来看,成年人的社交媒体数据(如果被允许获取的 话)可以告诉我们哪些在协作问题解决中跟社交有关的信息 (比如视角选择、参与,以及社交规范)呢?对他们的脸书7A 版优质实用文档7A 版优质实用文档数据进行的机器学习 试中的表现呢?他们 题解决的社交层面精 行业 里去? 或者,是 决的
16、认知和社交方面 再者,要是格里芬的 解决任务的内容范围 丰富。举个例子,优 协作性问题解决中的 知道确切的答案,但 同时进行。举例来说 要什么样的问题解决 海面平台上的同事协 这些思考将能力评估 问题对计量心理模型 那么,计量心理学家 要。但是在现实中, 量心 理学家 自己。只 试,至少还会有岗位 业经验。但是,迅速而高调的 我相信招聘那些专门 相对狭小领域的人才 供机器学习培训方面分析有没有准确预 的领英数据能告诉 通的人,是不是会 不是很多行业会要 掌握优秀的技能? 平台纳入虚拟现实 将得到极大的延伸 秀的运动技能或手 任务管理要素相联 是现实生活场景可 ,一队潜水员在修 技巧?他们该如何
17、 作呢?带入了极有趣且未 来说过于复杂。需要学习机器学习 这完全取决于特定 要立法者继续要求 需要从业者具备心数据科学职业发展 喜爱把定量模型应 会变得困难。入门 的支持。这不仅可测他们在格里芬测 我们些什么?在问 被吸引到某些特定的 求从业人员在问题解 技术会怎么样?问题 ,结果数据流也会被 眼协调能力是如何与 系的呢?我们很难 以被研究、模拟,或 理海上石油钻井时需 彼此协作,并如何与知的领域里;但这些吗?很可能他们需 的环境、问题以及计 进行大规模标准化考 理测量技能和教育行 不能被忽略。为此, 用在计量心理这个 级的职位至少应该提 以吸引更多的有才干7A 版优质实用文档7A 版优质实用
18、文档的申请者,也可能造就一支能处理更有趣的项目而不只是考 试评估的团队。这样的团队将具备与更广大的数据科学社区 建立联系的潜能。毫无疑问的,会有人对此持怀疑态度。就在去年,一位计量 心理学家在喝咖啡的时候评论说我的工作应该“只是一个 进行处理工作的角色”。电子技术和机器学习持续发展所带 来的在数据分析、存储和可视化方面的进步,很可能使计量 心理学家们的守旧的职责和期望受到轻视。培养计量心理学 家的老方法是设立大学研究中心;把被理论创立者承认接受 的计量心理模型(如 Rasch 模型 vs2参数模型和 3 参数模型) 教授给新手们;让新手们使用被创立者认可的昂贵又功能有 限的软件;鼓励新手们写那
19、些要花费数月或数年才能发表的 学术论文;然后为他们提供大多局限于教育或教职方面的职 业道路。在不远的将来,这些不会成为“最佳实践”,即使 现在还未到来。时间 会证明 一切,但 我想应该 不远了 。因为前沿 的评估 平台, 像格里芬的平台,产生出的数据比传统心理测量测试产生的 更接近于大数据。机器学习将很可能取代计量心理学。ReferencesCare,E.and Griffin,P. (20GG). Anapp roachtoassessm ento f collabo rat ivep rob lem so lving. ResearchandPracticein Te chnolo gyEn hancedLearnin g,9,367- 388.Kreiner,S.& Christensen,K.B.(20GG). An aly
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 普通述职报告
- 新应急预案编制
- 保护家庭网络安全的方法
- 股票实战课件教学课件
- 交通安全人人有责
- DB1304T 492-2024农村消防设施管理指南
- 传媒经营管理
- 校园艾滋病健康
- 初中引体向上教案
- 菱形的性质说课稿
- GB/T 16716.5-2024包装与环境第5部分:能量回收
- 2024年消防月全员消防安全知识专题培训-附20起典型火灾案例
- 恒牙临床解剖-上颌中切牙(牙体解剖学课件)
- 戏剧鉴赏学习通超星期末考试答案章节答案2024年
- NBT 31021-2012风力发电企业科技文件规档规范
- 2024年国家公务员考试行测真题及解析(完整版)
- 《县委书记的榜样-焦裕禄》课件
- 10以内口算100道题共16套-直接打印版
- 群众问题诉求台帐.doc
- 高强Q460钢焊接作业指导书
- APL-期刊模板
评论
0/150
提交评论