建立学科评量量尺课件_第1页
建立学科评量量尺课件_第2页
建立学科评量量尺课件_第3页
建立学科评量量尺课件_第4页
建立学科评量量尺课件_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、建立學科評量量尺之理論基礎第二組OMS096125 康金雲OMS096102 羅文虹OMS096111 歐瑞蘭大綱一、序論二、IRT為基礎的試卷等化原理三、學科評量量尺之建立四、如何應用與執行等化設計於國內大型 測驗計畫五、學生成就量尺之應用六、結論序論一、問題背景 1.傳統聯招一試定終生 一年多試的機會 2.記分方式以原始分數(或加權分數)加總極具 爭議性。 等化各科量尺 數學超難,大部分分數集中在1030分;國文簡單,大部分分數集中在6090分。對於數學好但是國文差的學生不利各學科原始分數所參照量尺的刻不同。 二、建立評量量尺之重要性:美國教育測驗社(ETS)之模式以美國SAT(schol

2、astic aptitude test)為例:SAT:美國各大學申請入學的重要參考條件之一 A生數學能力中等,語文中上 B生數學能力中上,語文中等B生數學比A生好 數語文A夏500580 B秋600500A生語文比B生好SAT量尺的潛在意義 1.由不同時段所獲得的分數高低,其評量量尺之意 義大抵上是一致的。(隔一段時間後,兩生重測得分不會有太大變化,除非是“非常” 賣力地準備與複習。) 2.評量量尺之分數高低是具意義的。 3.各學科評量量尺之刻度大抵上是一致的。 4.分數相當可靠。 試卷等化程序SAT量尺的潛在意義1995年SAT評量量尺定為平均數500,標準差110(以1990年考生為參照群

3、體)。以後每年的數學和語文以此為設定標準。年與年間考生得分高低的比較需謹慎行之,假如年代差距太遠,比較考生在該次樣本中的百分等級高低可能較有意義。ETS不鼓勵把SAT的數學和語文分數加總,表面上評量單位相同,但實際上卻不一樣 IRT為基礎的試卷等化原理常用的幾種試題反應理論模式簡介測驗資料之搜集與設計重新調節IRT統計參數之單位非等化係數的等化方法應用IRT等化兩試卷之原始分數常用的幾種試題反應理論模式簡介單一參數模式(one-parameter logistic model)二參數模式(two-parameter logistic model)三參數模式(three-parameter lo

4、gistic model)多分計分法模式(partial credit model,PCM)一般性多分計分法模式(generalized partial credit model,GPCM)多分計分法模式(partial credit model,PCM) (Masters,1982)為Rasch模式的延伸。假設試題 i 的計分由0分到m分之間,當受試者 j 之潛在能力為,回答試題 i 而被評k分的機率以公式一表示:(公式一)(公式二)是考生在題目 i 得k分而非得k-1分的難度值, 被界定為0,是題目 i 的難度值,代表考生在題目 i 分別得k分的相對難度值。一般性多分計分法模式(Murak

5、i,1992)(generalized partial credit model,GPCM)針對Master之模式修改而成。允許每題的鑑別度值不一樣。可用於問答題。測驗資料之搜集與設計單一平衡樣本(Single Group with Counterbalancing)隨機等組設計(Random Equivalent Groups)共同試題-不等組樣本(Common Items-Nonequivalent Groups)試卷內編輯涵蓋經被刻度過之試題(Precalibrating Items) 單一平衡樣本(Single Group with Counterbalancing)只選擇一組樣本,這

6、組樣本必須施測A和B兩份試卷。缺點:考生同時接受兩份試卷,厭倦的因素將影響表現,並可能左右等化的結果。可使用於等化兩份不是很長的試卷,很少用於大型測驗計畫。隨機等組設計(Random Equivalent Groups)基本假設:從母群體裡隨機抽取數組樣本,這些樣 本能力的分布狀態應是相似的。必要條件:採行大的樣本(如3000位考生的樣本大小)應用: 在這些施測版本中,通常一版本已在前一次施測中被使用過,而此 版本將作為建立新版本分數量尺之橋樑。考生在新版本中的得分必 須轉化為舊版本之分數量尺。生1、生2、生3、生4、生5、生6 卷A 卷B 卷C 卷D共同試題-不等組樣本(Common Ite

7、ms-Nonequivalent Groups)同時編輯數份不同版本之試卷,每一份試卷裡須編輯部份(大約四分之一以上)共同試題。編製共同試題的原則:1.應是整份試卷的縮影。2.在試卷裡的位置必須一樣或非常相似。3.計算分數時,通常不併入計分。在這些施測版本中,通常一(或二)版本中有部分題目已在前一次施測中被使用過,而這些題目將作為建立新版本分數量尺之橋樑。考生在新版本中的得分必須轉化為舊版本之分數量尺。試卷內編輯涵蓋經被刻度過之試題(Precalibrating Items)在每一份被等化的試卷裡,編輯部份(大約四分之一以上)已被刻度過之試題,再以這些被刻度過之試題為橋樑,將每一不同能力的樣本

8、在每一試卷所產生的分數,轉化到這些已被刻度過的試題之量度上。測驗資料之搜集與設計原則試卷間有相同試題(或部分題目已被刻度過)施測之樣本相同(或施測樣本能力大抵相同)重複考生在兩份不同試卷的反應是否可為試卷等化之資料收集方法之一?作者認為:重複考生在第二次(後來)試卷的反應表現深受能力、成長、試卷難度、評量誤差等因素所左右,而其中成長與試卷難度因素對試卷反應所產生之影響無法被明確分離,將造成等化試卷的困擾。重新調節IRT統計參數之單位-1即使在對任何一測驗資料作試題刻度時,每一受試樣本之能力評量單位通常都被標準化為平均數等於零和標準差等於一,然而原來每一組樣本之能力評量單位亦可能不同。所以當同一

9、組題目被施測在能力不同的兩組考生並分別作試題刻度時,所得之兩組試題統計參數估計值並不同,此乃歸因其對應到不同的量尺。解決方法:強制每組試題參數估計值對應於共同的能力單位上。在兩組樣本之條件下,此共同能力之單位乃依據以下的線性轉換步驟而成A為等化係數之斜率 B為等化係數之截距R代表基礎的樣本 E代表被等化的樣本*代表從等化樣本之量尺轉換成基礎樣本之量尺重新調節IRT統計參數之單位-2IRT三參數模式的線性轉換:一般性之多分計分模式:經過以上之轉換其等化組的能力單位已反映至基礎組的能力單位上。可知IRT參數估計值之單位可再被重新調節,其基本條件為 採用之IRT模式能適切地解釋測驗資料。非等化係數的

10、等化方法同時校準法連接業經刻度之試題參數設定各隨機樣本之能力單位相同同時校準法定義:藉由測驗資料的收集設計與IRT電腦軟體所提供之功能之結合,將所收集之數筆測驗資料同時執行試題校準。校準後,從任何一份試卷之題目參數估計值皆能被刻度在相同的評量單位上。優點:與其他等化方法相比,使用最多的試題參數訊息,以及共同試題參數估計值之變異數共變數矩陣,因此可能產生較小的誤差。缺點:若施測樣本間之能力分布狀態差異太大,則可能 1.無法得到收斂。 2.有些試題,無法找到合適的參數估計值。 3.得到的參數估計值其標準誤可能偏高。共同試題-不等組樣本使用Bilog等化樣本試 題 題 號兩份試卷的共同試題A試卷B試

11、卷12345678910678910甲樣本1000甲樣本對共同試題的反應甲樣本對A試卷中非共同試題的反應假定甲樣本亦施測B試卷這些題目,然而未能夠完成乙樣本1000乙樣本對共同試題的反應假定甲樣本亦施測B試卷這些題目,然而未能夠完成乙樣本對B試卷中非共同試題的反應連接業經刻度之試題參數前提:在一份試卷中某些題目已有參數值 而部份則無的情況。目的:設定此無參數題目與有參數題目之 評量單位相同。方法:執行IRT電腦程式的過程中將有參數 題目之參數值固定不變且不再被重 新估計。設定各隨機樣本之能力單位相同隨機等組設計:兩份不同的試卷被施測於兩組隨機之樣本上,在”分別“估計兩份試卷之試題參數時,只要將

12、能力的單位共同訂為一樣,經刻度後,兩份試卷所得到的試題參數值之單位是相同的。且兩組樣本的能力估計值之單位也是相同的。單一樣本設計:兩份不同的試卷被施測於單一樣本之情境,可視同兩份不同的試卷被施測於兩組隨機之樣本上。應用IRT等化兩試卷之原始分數介紹IRT-真實分數等化法的原因: 1.與IRT-原始分數法比較,計算過程較簡易。2.無須依賴考生能力之分布狀態。3.已被測驗公司(如ETS)所採用。IRT-真實分數等化法的兩個主要步驟:1.將兩試卷試題參數值對應在相同之量尺上。2.使用IRT分數為橋樑,試圖製造兩份試卷間真實分數之對應表。學科評量量尺之建立一、測驗資料之收集與等化技術之結合 1. 隨機

13、等組樣本與等化技術之結合 (1)連接不同之舊版本 (2)連接相同之舊版本 (3)同時連接兩份舊版本 2.共同試題不等組樣本與等化技術之結合 計畫一、二、三、四二、設計連接計畫之參考準則隨機等組樣本與等化技術之結合定義:一版本已在前一次施測中被使用過,而此一版本將做為建立與新版本之橋樑。新版本之原始總分需轉化為舊版本之原始總分。大樣本下,此法可同時等化數種不同版本試卷。方法有: 連接不同之舊版本 連接相同之舊版本 同時連接兩份舊版本連接不同之舊版本每一次施測試卷皆連接至不同的舊版本。優點:每次選用的舊版本不同,題目的保密性周全。缺點:四次等化誤差。I卷等化到A卷需經過四次程序。等化程序施測次數試

14、卷樣本建立量尺1AB, C 等化到A2ABCD, E 等化到C3CDEF, G 等化到E4EFGH, I 等化到G5GHI 為何同時等化試卷之版本,總是為二,可以增加嗎 ?連接相同之舊版本每一次施測的試卷接連接到相同的舊版本優點:只產生一次等化誤差。缺點:欠缺保密性,因為同樣的舊版本重複被使用。等化程序施測次數試卷樣本建立量尺1AB, C 等化到A2ABCD, E 等化到A3ADEF, G 等化到A4AFGH, I 等化到A5AHI同時連接兩份舊版本起始連接階段時僅連接單一舊版本,經過數次後則轉換為同時連接兩份舊版本。可修正連接不同之舊版本方法所帶來的等化誤差。若實務上之考量可行的狀況下,此為

15、較佳的選擇。等化程序施測次數試卷樣本建立量尺1AB, C 等化到A2ABCD, E 等化到C3CDEF, G 等化到B&E4B&EFGH, I 等化到D&G5D&GHI兩次等化結果可能不太相同,若僅有微些差異,則取兩者之平均;差異甚大時,須深入探討可能影響之因素(許多考生已練習過版本B)筆者之意見以上三種連接方法,皆不適合目前國內的施測環境。(補教業盛行,凡考過必留下痕跡)實務上,為了使考生的平均數、標準差,甚至分布狀態也相同,所以相同百分等級等化法,常被用來再次等化。當資料為單一樣本設計的等化法同隨機等組樣本等化技術,然而,同時等化試卷之版本數量有限,通常為二。共同試題不等組樣本與等化技術之

16、結合ETS採用IRT-真實分數等化法,將IRT分數之單位轉化為類似原始分數之單位。其優點: 製造試卷間原始分數轉化表(A卷10分B卷12分) 從題庫裡選了試題樣本後,即可開始製造試卷 間之分數轉化表,無須等待取得考生對試卷的 作答反應矩陣。注意:雖共同試題不等組設計不要求樣本能力分布狀態需相同,但能力分布差太大,可能使等化結果不可靠。 第一連接計畫同樣季節之試卷版本應等化至同樣季節之版本其中只有一次例外,如第一年秋季版等化至第一年春季版優點:考慮到春秋兩季考生能力分布狀態的不同缺點:同年代不同季節版本的測驗分數難於做比較年連接計畫(一)春季秋季1AB2CD3EF第二連接計畫將新版本等化至前一次

17、之舊版本優點:考慮到盡量減少鄰近版本間之連接次數,使鄰近版本之分數易於比較缺點:忽略兩季考生能力分布狀態可能不同而影響等化結果年連接計畫(二)春季秋季1AB2CD3EF第三連接計畫每一施測版本皆等化至第一年第一次版本。強調未來的新版本中所使用之量尺與與原來第一次第一版本所建立之量尺單位相同。年連接計畫(三)春季秋季1AB2CD3EF第四連接計畫混合第一和第二連接計畫考慮到兩季考生能力分布狀態之不同可能造成的等化偏誤。有時則著重於減少鄰近版本間之連接數,使鄰近版本之分數易於比較。年連接計畫(四)春季秋季1AB2CD3EF二、設計連接計畫之參考準則盡量減少鄰近版本間之連接數,使得鄰近版本之分數易於

18、比較。(計畫一違反)以季節相同之試卷版本等化至季節相同之版本。(計畫一符合,計畫四部份符合)盡量減少連接至“用以建立量尺之版本” 次數【盡量減少等化誤差】 (連接相同之舊版本,計畫三符合)避免重複連接相同之舊版本【增加保密性】 (連接相同之舊版本,計畫三違反)魚與熊掌難以兼得任何連接計畫皆難以完全符合此四項準則。主要以測驗目的來加以衡量與抉擇。若測驗目標在於了解學生學習成就之高低趨勢,那準則三即為適當且重要的考量。如何應用與執行等化設計於國內之大型測驗計畫不作等化試卷的潛在問題難度考生成長分數考生進步分數試卷一試卷二考生一504758考生二505352考生三50532-1當考生在第二次施測之平

19、均分數低於低第一次施測情況下,才考慮作試卷等化,會較遲緩而無法事先做全盤統整之規劃。一年多試的考試計畫必須藉助試卷等化技術。國內之大型測驗計畫草案試卷等化設計: 1.隨機分配考生受測於某一試卷版本 2.編輯部份共同試題於每份試卷佳試題連接與分數等化程序設計一份主試卷及三份次試卷。三份次試卷為主試卷之縮影,長度為主試卷的四分之一。三份次試卷編入主試卷中,形成三份不同試卷。施測計分後,主試卷計分且公佈,次試卷不被計分並保密。國內之大型測驗計畫草案S1F :S(計分score) 1(第一年) F(月份)L11F:L(連接試題link) 1(第一年) 1(第一份次試卷) F(月份)年次月份第一份試卷第

20、二份試卷第三份試卷1二(F)S1F(計分)L11FS1F(計分)L12FS1F(計分)L13F七(J)S1J(計分)L11JS1J(計分)L12JS1J(計分)L13J2二(F)S2F(計分)L21FS2F(計分)L22FS2F(計分)L23F七(J)S2J(計分)L21JS2J(計分)L22JS2J(計分)L23J*如何執行國內之大型測驗計畫建議由教育評量專家來掌管參與考試事務執行試卷等化工作: (一)統計技術 (二)設定考試法令與規則 執行試卷等化工作統計技術選擇等化係數之考生樣本(約3000位) 1.去除重複考生2.去除主、次試卷得分相關低,且在次試卷 百分等級相對高的考生刪除不適用的題目 1.估算連接試題在兩次理想考生樣本的難度, 並計算其相關係數 2.若相關值極低且它在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论