教育测量与评价课件

上传人：子*** IP属地：未知上传时间：2024-01-27 格式：PPTX 页数：108 大小：221.23KB 积分：15 举报 版权申诉

已阅读5页，还剩103页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第一章

緒論第一節教育測量與評價的基本概念第二節教育測量與評價的發展歷史第三節學習教育測量與評價的意義第一節教育測量與評價的概念一、教育測量（Ｅducationalmeasurement)教育測量就是根據一定的法則用數字對教育現象加以描述。法則是指測量所依據的規則和方法。數字就是代表某一事物屬性的量，數字也是作為事物的符號，有時有確定的意義。數字具有一定意義時就是數值，數值具有區分性，如：１是１、２是２；具有序列性，如：１＜２＜３；具有等距性即有可加性．教育測量具有兩個基本的要素，即參照點和單位．二、教育測驗（Educationaltesting)測驗就是對行為樣本進行測量的系統程式。行為是指被試對測題所作的反應。行為樣本是指一組有代表性的行為。系統程式是指測驗在編制、實施、評分、解釋方面都依據確定的規則。測驗的類型：標準化與非標準化測驗個別測驗與團體測驗速度測驗與難度測驗客觀測驗與非客觀測驗文字測驗與非文字測驗最高作為測驗與典型作為測驗構造性測驗與投射性測驗按測驗的功能可分為：１、智力測驗２、能力傾向測驗３、成就測驗４、人格測驗

按測驗的目的分類１、描述性測驗２、診斷性測驗３、預測性測驗三、教育評價（Educationalevaluation)

教育評價就是按照一定的價值標準，對教育現象及其變化的主因素進行的價值判斷。對教育評價可從三個方面來理解：１、教育評價的本質在於“價值判斷”，必然要涉及教育價值問題。所謂教育價值是指作為客體的教育現象的屬性與主體需要的關係。教育價值包括個體價值與社會價值。２、教育評價的對象是教育現象，特別是受教育者，因而評價的重點是學生。３、教育評價的出發點是價值準則。價值準則是指評價主體對評價對象進行評價的依據四、教育評估（Educationalassessment)

教育評估是對教育現象進行評論估計，不含有價值的意義。但漢語中特別是口語評價與評估交替使用。教育評價中的概念理解誤區１、把測量當評價。即以事實當判斷。２、把評比當評價。即把評定優劣當作評定價值。第二節教育測量與評價的發展歷史一、教育測量的發展歷史

(一）、教育測量運動產生的背景

1、工業革命的發展需要專門的職業訓練和職業輔導。

2、十九世紀西方社會開始重視智力落後者和精神失常者，並對其進行診斷和訓練。

3、心理學家開始重視個別差異的研究。

4、中國的科舉制度傳入西方，西方各國建立了現代考試制度。（二）、教育測量運動的先驅

1、心理學史家波林指出：“在測驗領域中，十九世紀八十年代是高爾頓的十年，九十年代是卡特爾的十年，二十世紀頭十年則是比奈的十年。高爾頓是英國的生物學家和心理學家，高爾頓首先用進化論的理論研究個體差異，對977個歷史上著名人物的家譜、生活史進行了研究。1889年出版了《遺傳的天才》一書，設計了多種感覺、運動強度、反映速度的測驗，採用自由聯想法、問卷法、等級評定法，分析個性差異。

2、卡特兒將實驗心理學與測驗運動結合起來，在自己的實驗室內編制了五十多個測驗，對美國大批兒童和學生進行了測量研究，1890年他發表了《心理測驗與測量》一文，描述了這些測驗，並在該文中首創心理測驗這一術語。3、智力測量的鼻祖是法國心理學家比奈，他1889年建立了第一個法國心理學實驗室，創辦了第一種法文心理學雜誌。1903年他以自己的兩個女兒為被試，用填字、圖片解釋來測驗其智力，發表了《智力的實驗研究》一書。1904年比奈作為法國公立學校中低能班管理委員會的委員，極力主張用測驗法去辯別心理缺陷兒童。1905年他與助手西蒙發表了題為“診斷異常兒童智力的新方法”一文，介紹了第一個智力量表。比西量表有30個難易不同的專案組成。（三）、教育測量運動的發展教育測量運動自本世紀初興起，二十年代進入狂熱，四十年代達到高峰，五十年代轉入穩步發展時期。這期間的發展主要有以下特點：

1、編制了一批操作測驗，以彌補語言文字量表的缺陷。可用於文盲和有語言障礙的人，並進行跨文化研究。

2、編制了一批團體測驗，擴大了測驗的應用範圍，如軍隊甲種、乙種測驗。3、編制了多維度標準化測量，如韋科斯勒兒童智力量表（WISC)、成人智力量表(WICS)、學前智力量表(WPPSI)。

4、編制了標準化的教育成就測量。在美國於1944年成立了教育測驗中心（ETS),該中心為目前世界上最大的測驗編制了研究機構。5、發展了性向測驗、興趣測驗、性格測驗、人格測驗等。（四）、教育測量的發展趨勢

1、統計與計算技術為教育測量的發展提供了廣闊的前景。

2、新的測量理論提高了測量的精確性和有效性。

3、心理學理論的發展特別是認知心理學的發展為教育測量提供了堅實的理論基礎。

4、實驗與測量的關係更加緊密，相互吸收，相互補充，共同發展。二、教育評價的發展歷史（一）教育評價的萌動階段二十世紀初，教育測量運動對教育評價產生了直接的影響，其中影響廣泛的評價包括1910年Flexner對美國醫學教育評價所進行的研究，Carttler對大學研究生院所進行的教育評價研究，1913年美國大學制定了大學認定評價體系。

（二）教育評價的探索階段從三十年至四十年代，美國出現了新教育運動，積極推行教育改革，最著名的是“八年研究”。三十年代美國進步主義教育協會組織了一個“中學與大學關係委員會”。經過充分討論，達成了一致意見，提出了一個實驗方案。挑選了7所大學和30多所中學聯合實驗，要求用八年的時間完成，時間為1933年到1940年，故稱“八年研究”。“八年研究”形成了Tyler評價體系。

（三）教育評價的發展時期

50年代至60年代，標準化測驗取得了飛速的發展，促進了教育評價的進一步發展，1956年出版了Bloom的《教育目標分類學：認知領域》，1964年出版了Krathwohl的《教育目標分類學：情感領域》，教育評價進一步用於課程研製、課程開發。

（四）教育評價的新生時期

70年代至80年代，一些國家通過法律、檔形式規定了教育評價工作，使教育評價得到了蓬勃發展，教育評價的研究機構增多，國際教育評價學會的會員國逐年增多，教育評價理論的研究向縱深發展，不僅注重宏觀研究，而且注重各學科的專業性評價。教育行政機構更加關心教育評價，並作為教育管理工作的一個基本環節，重視發揮評價的多種功能。（五）後現代時期後現代教育評價興起於80年代後期，其特徵有二：一是增加了教師在評價領域中的權威，以教師評價取代專業評價，二是對某些測量原則的適切性提出了質疑，以開放性的結論和評定取代以前的評價。第一節教育測驗編制的一般程式教育測驗的編制一般包括：確定測驗的目的，分析測量目標，制定編題藍圖或計畫，編輯題目，決定測驗時間和測題數量，確定計分方法，實施試測，題目分析，鑒定測驗測量標準，編制測驗量表及說明書，拼題並建立題庫。一、確定測驗的目的

1、確定測量對象

2、確定測量目標（一般要將目標轉化成可操作的術語）

3、確定測量的功用（常與評價目標結合在一起）如是診斷性測驗還是選拔性測驗。

二、分析測量目標並制定編題計畫美國心理學家布魯姆（Bloom)最早提出教育目標的分類問題。他把學習的心理活動過程分成認知、情感二個領域。又把認知領域具體分為知識（記憶事實、條件、方法、原理等的能力）、理解、應用、分析、綜合、評價六個層次。布魯姆教育目標分類體系詳細結構如下：1、知識

1.1具體知識

1.2處理具體事物方式方法的知識

1.3學科領域中的普遍原理和抽象概念的知識2、理解

2.1轉化

2.2解釋

2.3推斷3、應用

4.分析

4.1要素分析

4.2關係分析

4.3組織原理分析

5.綜合

5.1進行獨特的交流

5.1制定計畫或操作步驟

5.3推導出一套抽象關係

6.評價

6.1依據內在的證據來判斷

6.2依據外部準則來判斷情感領域的目標分類1.接受(注意)：探討學習者是否願意接受或注意學習內容

1.1覺察是指在提供適當機會時學生對某些客觀刺激的意識.1.2願意承受特定刺激的行為

1.3控制或選擇的注意,是指有意識或半意識的從內容或情境中辯別某種特定的刺激.2反應所關心的是學生受到動機的充分驅動,積極地注意學習內容

2.1默認的反應,這種反應強調行為的被動性,一般產生遵從或順從.2.2願意的反應,學生完全致力於表現自己的行為,是自己想做或自願去做.2.3滿意的反應,它關心的是伴隨著行為有一種滿意的感覺或一種情緒反應,即愉快、興奮或快樂。3價值判斷，它一般是指學習者對某事物、某現象或行動所產生的意義或價值。包括個人的價值判斷和社會的價值判斷。

3.1價值的接受,它所關心的是把價值歸結為與某種現象、行為、客體等相聯的東西。

3.2價值的偏愛,是指對某價值的單純接受和參與某一領域的傾向.3.3價值的信奉,是指毫不懷疑的確信.4組織化:反映相關的價值狀態的價值體系,它是價值內化的結果.4.1價值的概念化,是指價值的一貫的穩定的價值傾向.4.2價值體系的組織化,是指把各種價值組成一個複合體,形成了一種和諧的內在的統一.5價值或價值複合體的個性化,是指各種社會價值體系在個體價值結構中的位置,並控制著個體的行為.5.1泛化心向,是指在任何特定的時候都對態度和價值體系有一種內在的一致的心向.5.2個性化,是內化過程的最高水準,它包括隱蔽的現象和外顯的行為的更加廣泛的目標,是人的宇宙觀、人生觀和世界觀的反應。它是一種生活哲學。動作技能領域的教育目標分類該目標分類是Simpson提出的試驗方案，它是通過身體的活動來掌握教育目標。1知覺：是通過聽覺、視覺、觸覺、味覺、嗅覺的作用，尋求實現教育目標的有效手段。2精神準備：是指做好完成目標的準備狀態或進行調整的能力。3接受指導的反應：是指學生在接受教師指導時能模仿典型動作的行為，並具有做出適當反應的能力。4作用過程：是指必要時形成反應所自動產生的行為過程。如心理定勢。5複合動作：是指通過複雜的示範動作來實現運動技能的目標。6適應：是指把以學會的運動技能應用於新的目標之中的能力，即遷移能力。7創作：是指實行新的動作或形成新的動作能力的表現。小學自然常識測驗編題細目表

目標內容識記理解應用分析綜合評價合計生物世界35632120資源利用23311010動力機械23420112物質能量56832125氣象24322013宇宙25410012地球2221108合計1828301383100三、編輯題目（類型、數量、記分方法）

1、搜集有關資料（1）材料要豐富（2）材料要有普遍性

2、選擇測驗形式（1）測驗的目的和材料的性質（2）接受測驗的團體的特點（3）各種實際因素

3、編定和修訂專案應注意：（1）題目的範圍要有測驗的計畫所列內容與目標相一致。（2）題目的難度符合測驗的目的。（3）題目的說明要清楚明白。四、題目的試用、分析、篩選

1、預測（1）預測對象要取自將來正式測驗準備應用的群體。（2）預試的實施過程與情境應與正試測驗相近似。（3）預試的時限可稍寬，儘量使每個被試答完。（4）預試過程中被試的反應應隨時記錄。

2、專案分析主要包括：確定題目的難度、區分度、被選答案的合適度。

五、集合成測驗（拼題）（一）試題的選擇最好的題目，就是只測定所需要的特徵，並能對該特徵加以有效區分的難度合適的題目。（二）試題的編排最常見的編排方式是：

1、並列直進式

2、混合螺旋式（三）編造複本複本的等值需具備以下幾個條件：

1、各份測驗測量的是同一種心理特徵。

2、各份測驗具有相同的內容和形式。

3、各份測驗的題目不應有重複的地方。

4、各份測驗題目數量相等，並且有大體相同的難度和區分度。

5、各份測驗的分數分佈（平均數和差異度）大致相等。

六將測驗標準化測驗標準化包括以下幾個方面：（一）內容的標準化，即對所有受測者施測相同的或等值的題目。（二）施測的標準化，即測驗實施過程要有相同的指導語、時限和客觀的物理情境。（三）評分的標準化（四）常模，是測驗使用者解釋測驗分數的依據。測驗分數必須與常模比較才能顯示出它所代表的意義。建立常模的方法是：它將來要使用測驗的全體對象中，選擇有代表性的一部分人（稱標準化樣本），對此樣本施測並將所得的分數加以統計整理，得出一個具有代表性的分數分配，標準化樣本的平均數，即為該測驗的常模。常見的常模有：年齡常模、年級常模、地域常模、民族常模、職業常模等。

七測驗的信、效度分析（一）信度指的是測驗的可靠性或一致性。（二）效度就是測驗的有效程度。衡量測驗的有效程度是看測驗所測量的是不是它所要測的東西。八編寫測驗說明書一份說明書主要包括：（一）本測驗的目的和功用（二）編制測驗的理論背景以及選擇題目的根據。（三）測驗的實施方法、時限及注意事項。（四）測驗的標準答案和評分方法（五）常模資料，包括常模表、常模適用的團體及對分數如何做解釋。（六）測驗的信度、效度資料，包括信度係數、效度係數以及這些數據是什麼情境下得到的。第二節測題的編制技術一、命題的一般原則命題應遵循以下原則：1、試題要符合測驗的目的。2、內容取樣要有代表性。3、題目格式不要使被試發生誤解。4、文字要簡明扼要，即排除與解題無關的因素，又不可遺漏解題所依據的必要條件，要避免使用艱深的字詞。5、應有不致引起爭論的確定答案（創造力測驗、人格測驗除外。6、各個試題必須彼此獨立，不可互相牽連，不要使一個題目的回答影響另一個題目的回答。7、題目中不可含有暗示題或其他題正確答案之線索。8、題目內容不要超出受測題體的知識和能力。9、所提問題應避免涉及社會禁忌與隱私。10、施測與評分省時。二、測題的種類及編制要領根據應答方式，測題的種類分為兩大類，即自由應答型和固定應答型。自由應答型題目是讓受測者用自己的語言或行動來對某一問題做出回答，包括填充題、簡答題、應用題、論文題、聯想題、操作題等。固定應答型題目又稱客觀性題目，是讓受測者從測驗編制者事先定好的答案中辯認出一個正確答案，包括了多選題、是非題、匹配題等。（一）多選題多選題在結構上包含兩部分，一為題幹，由直接問句或不完全的陳述句所構成，另一為選項，包含一個正確答案及若干個錯誤答案。多選題可適用於文字、數字和圖形等不同性質的材料，可以考察記憶、分析、鑒別、推型、理解和應用知識的能力。下邊是幾種常見的變式。1、計算：例：小明給了弟弟2支鉛筆，自己還剩8支，，小明原來有幾支？（A）4（B）6（C）8（D）102、類比：已知甲和乙的關係，推出丙和丁的關係。例：船------水，飛機------？（A）大地（B）白雲（C）天空（D）海洋3、找不同類：每一題內有幾項屬於同一類事物，只有一項不屬於這一類，要劃去。例：（A）狗（B）鳥（C）樹（D）魚4、最好理由：幾個備選答案都是對的，但其中一個最好，要把它找出來。例：偷東西的人應該受懲罰，因為：（A）罰款可使他不敢再犯。（B）偷竊為法律所不容。（C）偷東西的人不是好人。（D）偷竊擾亂社會治安。多選題的優點是：1、單位時間內可以施測很多專案，從而有保證取樣的廣泛性，使測驗更有效。2、評分客觀，加上題目數量多，可以減少隨機因素的影響，從而能保證測驗的可靠性。3、便於對題目進行分析，易於調整題目的難度。4、閱卷方便迅速，並可用機器評分，被試多時比較經濟。5、好的題目可存入題庫，重複使用。多選題的缺點是：1、有固定答案，測不出組織材料的能力、文字表達能力和創造力。2、題量大，並要為每個題目考慮幾個似是而非的答案，因而編寫困難費時，需要一定技巧。編擬多選題的要領及原則如下：1、根據測驗的目的和內容來選擇最適當的題型。2、備選答案要簡略，必要的敘述或相當的修飾語應全部置於題幹中。3、每題只能環繞一個中心，並只有一個正確答案，該答案在內容和形式上不可特別突出，但其正確性必須確鑿無疑。4、題幹應當包括解題所必須的共同要素，並盡可能做到精煉、準確、清楚，不要把選項夾在題幹中間。5、錯誤答案對被試具有迷惑性，不要錯得太明顯。這種答案可以是人們經常出現的錯誤，也可以是一般性的誤解和似是而非的內容。6、各個選項在形式上應該協調一致，或為數字，或為圖形，或為人名，應該一律，文字長短也應大體相當，以免對正確回答提供線索。7、選項之間不應相互重迭，相互包括，相互依賴。8、幾個選項最好按邏輯順列或隨機排列。正確答案在每個位置上出現的次數要大致相等，且不要形成固定的格式。9、所有選項在邏輯上和語法上都能與題幹相接，否則本來正確的答案，會因為邏輯上或語法上與題幹不一致而放棄。反之，如果干擾答案在邏輯上或語法上與題幹不吻合，被試就會根據常識，發覺它們之間的矛盾而加以排除。10、題幹要儘量創新的情境，文字要自己擬定，避免重複書本上的現成實例或措詞。（二）是非題是非題是指出一個論點要被試判斷是否正確，或從是非兩個答案中做出選擇。是非題回答方便，適於考查學生對簡單觀念或知識的瞭解，其缺點是易受猜測因素的影響，重要的材料有時不能用對和錯簡單回答，缺乏教育診斷作用，故在能力測驗中應用不如多選題廣泛。編擬是非題應注意下麵幾點：1、內容應以有意義的事實、概念或原理為基礎，避免無關重要的問題或瑣碎的細節。2、每題應只包含一個觀念，避免兩個以上的觀念在同一題中出現，而造成題目“似是而非”或“半對半錯”。3、論點要簡明扼要，意義明確，不要有艱深難懂的詞句或含糊不確定的文字敘述。4、對論點的陳述要重新組織，不要照搬教科書上的詞句或僅僅加上否定詞就構成錯誤專案。5、避免使用具有暗示性的特殊字詞，如“絕不”“完全”等。6、儘量採用正面肯定的敘述，避免反面陳述或雙重否定的文句。7、“是”與“非”的題數應大致相等，且隨機排列。8、題數不能太少。（三）匹配題匹配題包括並列的兩行，一行為刺激專案，另一行為反應專案，被試的任務是由後者中選出與前者相適合的專案，可以是完全匹配，也可以是不完全匹配。匹配題是選擇題的一種變式，一個匹配題實際上就是一套多選題，適用於測量概念與事實之間的關係，其優缺點與多選題相同。編制匹配題的要領是：1、一個題目的各個刺激專案及各個反應專案應在內容上同質，若涉及年代都為年代，涉及地點都為地點，涉及符號都為符號。2、在指導語中要講匹配依據，告訴被試每個反應可用幾次。3、配對專案不可過多或過少，如在十對以下，最好應用不完全配合，使反應專案比題專案多出一兩個。以增加其可靠性。4、每個刺激專案應有一個而且只有一個反應專案相匹配。5、按一定邏輯次序安排反應專案，同時要避免答案的固定格式。6、同一組專案應印在同一頁上，以免造成作答時的困擾。（四）填空題與簡答題填空題與簡答題要求的是對正確答案的回憶，即由被試自己寫出答案。填空題和簡答題的編寫原則如下：1、填空題目所空出的應該是關鍵字句，並且要和上下文有密切聯繫，不要空出無關緊要的字詞。2、一句內不要有太多的空白，空白太多，不容易明瞭題意。3、空白最好放在句子的尾部，免得空格多少為答案提供線索。4、測題句子避免直接引用教科書的措詞。5、問題要具體，範圍要確定，要使受測者知道答案的類型、長度和確切程度。6、準備一個正確答案和可接受的變式的標準，如果部分正確也適當給分，則要做出更具體的規定。（五）論文題論文題適合測驗組織能力、綜合能力、文字表達能力，同時還可測量評價能力和創造能力。編擬論文題目要注意以下幾點：1、要讓被試知道答案的範圍和方向。2、最好要求被試在新的情境下，應用知識去解決新的問題。3、題目不要少或大，數量要適當多些，內容要適當具體些。4、要選用具有可接受的正確答案的題目，不用那些僅測量意見和態度的問題。5、在測驗前，對每一個題目編制幾個“理想”的答案，並對部分正確的問答如何評分做出盡可能具體的規定。6、一般不要有任選題，因為兩個論文題目很難做到等值。（六）應用題應用題是敘述一個具體的情境並提出一些有關的數據，讓被試解決所提出的問題。應用題適合測驗計算技能、數學和科學推理，以及運用知識到新情境中的能力。編寫應用題要遵循以下原則1、題目的陳述要使被試明白讓他幹什麼，答案應以什麼形式出現。2、題目中應包括對解題所需要的一切數據和資訊，也可包含一些無關數據和資訊。3、採用新的情境和例子，不要重複過去已用過的。4、應向被試指明是否要求寫出解答步驟，以及對各個步驟詳細到什麼程度等。5、對一個問題的答案不論正確與否，都不影響另一個問題的解答。6、文字要通俗易懂，不要變成閱讀理解測驗。（七）操作題在測驗中有些專案是讓被試實際操作，如畫圖、拼配物體等。制定操作專案的主要原則是：使被試明確知道要他們幹什麼和在什麼條件下幹，如何使用工具以及時間限制。操作專案可以根據完成的數量和錯誤次數客觀記分，有些專案則需要給出評分標準，把整個操作分成許多部分技能，分別定出評分標準。第一節教育評價模式的變革

教育評價專家古巴和林肯將教育評價模式劃分為四代：一、第一代評價第一代評價興起於19世紀末至20世紀30年代，評價在本質上以測驗或測量的方式，測定學生對知識的記憶狀況或某項特質。其基本特點是：認為評價就是測量，評價者的工作就是測量技術員的工作——選擇測量工具、組織測量、提供測量數據。二、第二代評價第二代評價興起於20世紀30年代，這代評價認為，評價在本質上是描述——描述教育結果與教育目標相一致的程度。其基本特點：認為評價過程是將教育結果與預定的教育目標相對照的過程，是根據預定教育目標對教育結果進行客觀描述的過程，評價的關鍵是確定清晰的、可操作的行為目標；評價不等於“考試”和“測驗”，儘管考試和測驗可以成為評價的一部分。同第一代相比，評價已走上的科學化的歷程。三、第三代評價第三代評價萌生於1957年以後，持續到80年代，其基本特點是：把評價視為價值判斷的過程，評價不只是根據預定目標對結果的描述，預定目標本身也需要進行價值判斷；既然目標並非評價的固定不變的鐵的標準，那麼評價就應當走出預定目標的限制，過程本身的價值也應當是評價的有機構成。

上述三代評價的嚴重缺陷表現在以下方面：

1、管理主義傾向，造成四種不合理的後果。（1）管理者無過失。（2）管理者與評價者的關係有失公平。（3）評價者無法在評價中維護自己的利益，闡述自己的見解。（4）管理者用各種辦法保護自己不受損害，評價者則保證使用管理者認可的方法。

2、忽視價值的多元性。

3、過分依賴實證科學範式。四、第四代評價第四代評價的中心思想是，認為評價在本質上是一種通過協商而形成的心理建構，堅持價值多元性的信念，反對管理主義傾向。其基本特點是：把評價視為評價者和被評價者“協商”進行的共同心理建構過程，評價是受“多元主義”價值觀所支配的；評價是一種民主協商、主體參與的過程，而非評價者對被評價者的控制過程，學生（被評價者）也是評價評價的參與者、評價的主體；評價的基本方法是“質的研究”方法。第二節教育評價的類型一、根據評價機能分類

1、診斷性評價，是指在活動開始之前，為使其計畫更加有效的實施而進行的評價。也稱為事前評價。要求把握被評價事物的兩種狀態：一是症狀診斷；二是原因診斷。

2、形成性評價，是指在活動運行的過程中，為使活動效果更好而修正本身發展的進程而進行的評價，其目的為了明確活動中存在的問題，並加以改進。布盧姆認為形成性評價的任務是（1）調整學習活動，（2）強化學生的學習，（3）發現存在的問題，（4）提供學習的矯正處方。

3、總結性評價，又稱作事後評價。是指在活動後為判斷其效果而進行的評價。二、根據價值標準分類

1、相對評價，是指在團體內以自己所處的地位同他人相比較而進行的評價。

2、絕對評價，是指以完成既定目標的程度而進行的評價。3、自我評價，是指在個人內部就其自身的狀態進行縱橫比較所做的價值判斷。三、根據評價內容分類

1、狀況評價，是指通過現狀分析為選擇目標提供依據而進行的評價。

2、選擇評價，是指為完成目標而選擇有效途徑所進行的評價。

3、過程評價，是指判斷實施方案有無需要改善的地方所進行的評價。

4、成果評價，是指為判斷計畫實施所取得的成果而進行的評價。第三節教育評價模式一、教育評價模式的含義模式是指內涵在一定的思想取向，並表現為一定的操作規則和方法步驟的體系。教育評價模式是指描述評價客體中同一類實體的共同特徵的示範方法。是評價主體建立的評價參照框架。二、教育評價的主要模式（1）資格認定模式。資格認定模式是對從事某種活動應具備的條件或身份等的認可方式。這種評價模式的著眼點在於判斷條件是否得到滿足，同時對可能產生的後果做出必要的預測和判斷。（2）品質判斷模式。是對評價對象物的品質優劣的判斷方式。這種評價模式的任務是判斷教育計畫實施所帶來的變化。（3）目標成達模式。是對既定目標到達程度的判斷方式。這種評價模式所要解決的問題，是判斷行為結果與既定目標的距離，以及達到何種程度。（4）目標游離模式。要求脫離預定目標，以活動的全部實際結果為評價對象，盡可能全面客觀的展現這些結果。（5）優秀遴選模式。優秀遴選模式是通過評價活動選拔優秀的方式。（6）回應模式。以所有與方案有利害關係或切身利益的人所關心的問題為中心的一種評價。其評價問題可以包括：新舊方案哪個更優越？哪個方案是否更可行？哪些方案容易達到目的？三、教育評價與教育價值觀（1）目標取向評價的教育價值觀，其本質是受“科技理性”或“工具理性”的支配，核心是追求對被評價對象的有效控制和改進。第一節測驗的實施標準化心理測驗實施的最基本要求是使所有的被測者都在相同的條件下去表現自己的真正行為，這就要求使用預先規定的施測批示語，標準的時間限制，合適的測施環境和條件以及實施過程中可能影響測試結果的任何其他因素。一、測驗實施的程式1、標準化指示語指示語有兩種：一種是對被試的，一種是對主試的。2、標準時限時限的確定最重要的考慮是測量目標的要求，一般採用嘗試法，即通過預測來確定。3、測驗的環境條件指施測的周圍環境，如安靜而寬敞和地點，適當的光線等等。二、測驗實施時，主試的職責

1、測驗前的準備工作

2、測驗中主試的職責三、測驗施測中，被試的反應及其影響因素在測驗標準化過程必須考慮被試可能的反應和可能的影響因素。

1、測驗的技巧及練習因素（1）測驗的技巧（2）練習的效應

（3）教學與輔導因素

2、焦慮和動機因素（1）應試動機（2）測驗焦慮

3、反應定勢反應定勢即反應的方式或反應風格，是指獨立於測驗內容的反應傾向，即由於每個人回答問題習慣的不同，而使得有相同能力的被試獲得不同的分數。第二節測驗的計分

一、計分的一般程式1、計分的基本步驟和要求基本步驟歸納起來有三步：（1）記錄反應，即及時和清楚地記錄被試的反應。（2）標準答案，有時又稱計分鍵。（3）反應和計分鍵的比較，也就是將反應歸類或賦予分數值。2、論文題計分論文題主要缺點是評分不夠客觀，計分經常受到評分者的情感、態度的影響。常見的誤差有：寬容定勢和目暈效應。寬容定勢指主試的計分過於寬鬆，目暈效應指給予被試某道題較高的分數僅僅是由於他們在另一些試題上也獲得了高分，即對被試的一般印象影響到具體某個問題的評價。主觀題計分的原則是：（1）與測量目標無關的回答不予計分，或單獨給分數。（2）確定標準答案（3）評分時最好按題目順序進行（4）最好在評閱時不知道被試的名字，以減少個人偏見。（5）可能的話，由兩個以上的主試來給論文題計分取其平均值。（6）計分時可以給予分數也可以給予等級評定。3、客觀題計分客觀題計分採用計分套板以節省時間。二、猜測的較正在客觀題中有一個重要的問題是：測驗分數確定反映了被試的真實狀況，還是因為猜測而獲得的成功？因此，有必要對猜測進行校正。

1、猜測修正的性質常用的猜測修正公式為：

S=R-[W/(h-1)]

其中S是正確分數，R為被試答對的題目數，W為被試答錯的題目數，h為選項題目。此公式的基本假設是：被試不知道正確答案時，完全憑藉猜測作答，所能猜對的題數完全依賴隨機原則。2、猜測修正的優缺點實際生活中，很少符合上述假設基礎，因此對公式的應用存在很大分歧。第一節參照常模的分數解釋

參照常模解釋分數通常是將被試的分數直接或間接地以在某個團體中的相對等級或相對位置來表示。這個用來比較的參照團體，稱為常模團體。一、常模團體

1、常模團體的性質常模團體是具有某種共同特徵的人所組成的一個群體，它用一個標準的、規範的分數表示出來，以提供比較的基礎。

對測驗編制者來說，常模的選擇是基於對測驗將要施測的總體的認識。其工作包括：確定一般總體、確定目標總體、確定樣本。對於測驗的使用者的主要問題是：現有的常模團體中哪一個最為合適。

2、在確定和選擇常模時，要注意常模的要求：（1）群體必須明確；（2）常模團體必須是所測群體的代表性樣本；（3）樣本大小要適當；（4）注意常模的時間性；（5）注意一般常模與特殊常模的結合。3、常模團體的取樣的要求在確定常模時常用的取樣方法有：（1）簡單隨機抽樣；（2）系統抽樣；（3）分組抽樣；（4）分層抽樣；（5）題目取樣。二、參照常模的類型及解釋常模的類型也就是常模參考分數的類型，通常有：全國常模、區域常模和特殊群體常模；另一種方法是：年齡和年級常模、百分位常模和標準分數常模等。1、發展常模（1）智力年齡；（2）年級當量（3）發展順序量表，以行為發展的次序為常模。

2、百分等級（1）未分組資料的百分等級計算。

PR=100–[（100R-50）/N]R指排名順序，N指總人數。

（2）分組資料的百分等級求法

PR=（100/N）[（X–L）fp/h+Cf]

其中X指任意原始分數，L指原始分數所在組的精確下限，fp是該分數所在組的次數，Cf是指L以下的累積次數，h為組距。（3）標準分數常模標準分數是一種有相等單位的量表。標準分數常模包括許多所需的平均數與標準差的轉換分數。

三、常模的表示方法常模的表示方法有兩種：轉化表和剖析圖。

1、轉化表。它由原始分數表、相對應的導出分數表和對常模團體的具體描述三個要素組成。

2、剖析圖。它是將測驗分數的轉換關係用圖形表示出來。從剖析圖上可以直觀地看出被試在各個分測驗上的表現及其對應的位置。第二節參照效標的分數解釋

一、內容參照分數內容參照分數是依據被試確定材料內容的掌握程度來表示和解釋。

1、掌握分數

2、正確百分數二、信度的作用

1、解釋真實分數與實得分數的相關

2、比較信度可以接受的水準

3、解釋個人分數的意義第二節信度的類型及估計方法一、重測信度和複本信度

1、重測信度，又稱穩定性係數，它的計量方法是採用重測法，即使用同一測驗，在不同時間對同一群體施測兩次，此兩次測驗分數的相關係數，即為穩定性係數。2、複本信度，它是以兩個等值但題目不同的測驗來測量同一個群體，然後求得被試在這兩個測驗上得分的相關係數。二、內部一致性信度內部一致性信度係數主要反映的是題目之間的關係，表示測驗能夠測量相同內容或特性的程度。

1、分半信度分半信度是指採用分半法估計所得到的信度係數。通常是在測驗實施後將測驗分為等值的兩半，並分別計算每位被試在兩半測驗上的得分，求出這兩半分數的相關係數。這個相關係數就代表了兩半測驗內容取樣的一致性程度。（1）分半法中的斯皮爾曼-布朗修正公式為：

rxx=2rnn/(1+rnn)其中，rnn

為兩半測驗的相關係數，rxx為測驗在原長度時的估計值。它的假設條件為：兩半測驗的方差相等。（2）蘆倫公式只要求將被試在兩半測驗的分數之差的方差（Sd2)和測驗總分的方差（Sx2)代入如下公式即可直接計算分半信度。

rxx=1-Sd2/Sx2(3)費拉那根公式也可直接計算分半信度

rxx=2[1-(Sa2+Sb2)/Sx2]

其中，Sa2

與Sb2

是兩個分測驗分數的方差，Sx2

為總分方差。2、同質性信度同質性主要代表所有測驗題目得分的一致性。同質性是測量單一特質的必要非充分條件。（1）庫德—理查遜估計方法

rtt=(k/(k-1))(1-∑pq/σt2))(2)柯龍巴赫α係數法

rtt=(k/(k-1))（1-∑σi2/σt2)

三、評分者信度

1、兩評分者估計法：可採用積差相關或等級相關來計算

2、柯龍巴赫估計法

3、肯德爾和諧係數法

rtt=ssr/[(1/12)k2(n3-n)]

第三節影響信度的因素一、樣本團體的性質影響信度係數一個重要因素是所測樣本團體的性質。這是因為：1、任何相關係數都要受到團體中分數分佈的影響。2、信度係數也受到樣本團體異質性的影響。3、測驗的信度不僅受取樣團體中個別差異範圍的影響，也會由於不同團體間平均能力水準的不同而有所不同。二、測驗的長度測驗越長，信度值越高，這種影響主要來自兩個方面：第一，測驗越長，則試題取樣或內容取樣越恰到好處當。第二，較長的測驗也不易受到猜測的影響。三、測驗的難度測驗難度與信度沒有簡單的對應關係。但是，當測驗分數分佈範圍縮小時，測驗的信度降低。只有當測驗的難度水準可以使測驗分數分佈範圍最大時，測驗的信度才可能最高。四、測驗的速度測驗中的速度成份會影響信度係數的高低，若測驗的速度因素影響較大時，不宜採用分半信度法求。五、測驗專案的同質性測驗專案越具有同質性，越有對其信度估計偏高的可能性，因為越是同質，專案間的一致性程度就越高。六、測驗的客觀性越具有客觀性，評分的結果越具有一致性，其信度就不受評分者的影響。的肯定是長度。但是在教育和心理的測量中，由於被測試的對象非常複雜，只能採用間接測量的方法，由此就產生了效度的問題。測量的有效性是良好測驗的最基本條件，一個缺乏效度的測量是毫無價值的。效度的形式化定義是指與測驗目的有關的真實變異數Sv2

和實得分數變異數Sx2

之比，即效度。

rxy=Sv2/Sx2二、效度的種類美國心理學會1974年發行的《教育和心理測驗的標準》一書中將效度區分為內容效度、效標關聯效度和結構效度。

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

教育测量与评价课件

文档简介

温馨提示

最新文档

评论

教育测量与评价课件

文档简介

温馨提示

最新文档

评论

相关文档