测验的信度与效度_第1页
测验的信度与效度_第2页
测验的信度与效度_第3页
测验的信度与效度_第4页
测验的信度与效度_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

测验的信度与效度第一页,共五十页,编辑于2023年,星期日信度與效度以打靶為例信度(reliability)測驗資料的可靠性效度(validity)測驗結果的真確性第二页,共五十页,编辑于2023年,星期日信度第三页,共五十页,编辑于2023年,星期日信度的意義測量的一致性(就內容而言)或穩定性(就時間而言),幾次測驗結果是否一致的程度範例一天之內以同一磅秤多次測量某人體重結果一:大致相同→測量結果可靠結果二:有顯著性的差異→測量結果不可靠第四页,共五十页,编辑于2023年,星期日信度並非「全有或全無」,而是程度的問題。若多次重複測量的結果都非常接近,則說明該評量結果信度高;反之,若各次評量結果的變異大,則信度低。第五页,共五十页,编辑于2023年,星期日與物質、生理特徵的測量相較,心理測驗的測量精確度較低。誤差來源個人狀況(身體不適、大意)題目本身的合宜性(太難、太容易)測驗情境的影響(實施、計分的錯誤)第六页,共五十页,编辑于2023年,星期日信度的原理第七页,共五十页,编辑于2023年,星期日實得分數與真正分數實得分數(X)=真正分數(T)+誤差分數(E)實得分數變異數(S2X)=真正分數變異數(S2T)+誤差分數變異數(S2E)信度變異=S2T/S2X第八页,共五十页,编辑于2023年,星期日信度的類型第九页,共五十页,编辑于2023年,星期日信度的類型再測信度(test-retestreliability)係指以同一種測量工具,對同一群受試者,前後測驗兩次的相關係數。又稱穩定係數。通常時間越長,再測信度越低常見於:智力、性向、人格等測驗通常個別化診斷測驗信度係數須達.90,團體測驗為.80,篩選測驗為.60優缺點?第十页,共五十页,编辑于2023年,星期日信度的類型複本信度(a1ternate-formreliability)同一群受試者接受兩種複本測驗的得分之相關係數。複本常見於團體化測驗,可相互替代使用(例如前後測),使用便利複本測驗需要在內容、型式、題數、難度、測驗指導與時間等都需要與原測驗相等,主要誤差來源:內容取樣、時間間隔、練習效果、學習遷移優缺點?第十一页,共五十页,编辑于2023年,星期日信度的類型內部一致性係數(coefficientofinternalconsistency)反映測量工具內部同質性、一致性或穩定度。同質性越高,代表量表試題是在測量相同的特質。常用方法有:方法庫李(KR20)(1937)適用於二分變數(對錯)的測量Cronbach’sα(1951)適用於多元尺度變數(多元計分)的測量折半信度(split-halfreliability):測驗題目依題目的單雙數或其他方法分成兩半,計算受測者在兩半測驗上的分數的相關係數。優缺點?第十二页,共五十页,编辑于2023年,星期日第十三页,共五十页,编辑于2023年,星期日信度的類型評分者間信度(inter-raterreliability):不同的評量者的觀察、紀錄、評分的一致性。傳統:相關係數、同意百分比法近代:類推性理論第十四页,共五十页,编辑于2023年,星期日影響信度的因素影響信度的關鍵因素是測量誤差,可以減低誤差的方法,即能夠提高信度。基本原理:中央極限定理、測量標準誤、共變量的計算影響信度的因素受試者因素(如受測者的身心健康狀況、動機、注意力、持久性、作答態度等變動)主試者因素(如非標準化的測驗程序、主試者的偏頗與暗示、評分的主觀性等等)測驗情境因素(測驗環境條件如通風、光線、聲音、桌面、空間因素等皆有影響的作用)測驗內容因素(試題取樣不當、內部一致性低、題數過少等)時間因素第十五页,共五十页,编辑于2023年,星期日效度第十六页,共五十页,编辑于2023年,星期日效度的意義效度的意義測量的正確性,指測驗或其他測量工具確能測得其所欲測量的特質或功能之程度測量的效度愈高,表示測量的結果愈能顯現其所欲測量對象的真正特徵第十七页,共五十页,编辑于2023年,星期日評估效度的方法判斷法(informedjudgment)測量特性與質的評估實徵法(gatheringofempiricalevidence)根據具體客觀的量化指標來進行評估第十八页,共五十页,编辑于2023年,星期日效度的類型內容效度(contentvalidity)效標關聯效度(criterion-relatedvalidity)建構效度(constructvalidity)第十九页,共五十页,编辑于2023年,星期日內容效度

(contentvalidity)

內容效度反映測量工具本身內容廣度的適切程度,強調測量內容(教材內容或預期的行為)的廣度、涵蓋性與豐富性,以做為外在推論的主要依據。針對測量工具的目標和內容,以系統的邏輯方法來詳細分析,又稱為邏輯效度(1ogicalvalidity)表面效度(facevalidity),指測量工具在外顯形式上的有效程度限制:出於邏輯判斷,缺乏實證的統計數據評估指標,需以判斷法來進行效度評估第二十页,共五十页,编辑于2023年,星期日內容效度的判斷方式專家效度雙向細目表表格左方表示教學所欲達成的目標,上方表示教材內容範圍,並逐一檢視每一試題以考驗整份測驗之內容效度第二十一页,共五十页,编辑于2023年,星期日雙向細目表題數內容範圍行為目標細胞能量代謝光合作用呼吸作用生物分子總題數分數百分比知識02110446.7理解201227711.7應用121116610.0分析112116610.0綜合211217711.7評鑑01121558.3情意10111446.7技能10010223.3簡答題1111151931.7總題數98912846

分數1110141510

60

百分比18.316.723.325.016.7

100第二十二页,共五十页,编辑于2023年,星期日提高內容效度的方法列出教材內容各項重點與所要測量的學習結果或行為各項教材重點和學習結果要以相對的重要性來加權依據雙向細目表來編製測驗,所編製的測驗越符合細目表各細格所佔的比重,則內容效度越高。第二十三页,共五十页,编辑于2023年,星期日效標關聯效度意義

(criterion-relatedvalidity)

效標關聯效度測驗分數與外在效標之間的一致程度外在效標:測驗所要測量的某些行為或特質的代表量數又稱實證效度、統計效度。以測驗分數和特定效標(criterion)之間的相關係數,表示測量工具有效性之高低。個別測驗效度係數小於.70,團體測驗效度係數小於.60,就需要謹慎地解釋第二十四页,共五十页,编辑于2023年,星期日效標關聯效度類型同時效度(concurrentvalidity):效標資料需在測量同時可以獲得之數據係指一種測驗與現有效標之間的相關程度所建立的效度。例如新編製一份「幼兒發展量表」,欲建立其效度,可對具有代表性的幼兒施測,並得一組分數,然後收集該群幼兒在校實際發展情形,又得到一組分數,並計算兩組之間的關係,所得相關係數即為該測驗的同時效度。第二十五页,共五十页,编辑于2023年,星期日效標關聯效度類型預測效度(predictivevalidity)

:效標需在測量後再行收集者係指測驗分數與實施測驗一段時間後的實際行為表現,兩者之間的相關係數為預測效度,主要目的存使用測驗分數預測個人未來的表現。例如,想了解「幼兒認知能力測驗」的效度,可先施測一群幼兒,等到孩子讀小學後,再蒐集其學業成績做為效標,計算效標與早期測驗分數之相關,所求得的相關係數就足預測效度。第二十六页,共五十页,编辑于2023年,星期日效標關聯效度的思考流程透過與效標間的相關待檢驗其有效性的評量工具(如數學科成就測驗)作為效標的工具(如數理邏輯能力測驗)以推論特質

(如數理邏輯能力)第二十七页,共五十页,编辑于2023年,星期日效標關聯效度的判斷方式相關係數第二十八页,共五十页,编辑于2023年,星期日建構效度建構效度(constructvalidity)建構:是指一種理論性的架構,用以說明某種具有持續性的心理特質或屬性(例:智力、性向、人格….)建構效度:指測量工具能測得一個抽象概念或特質的程度建構效度的檢驗需建立在特定的理論基礎上,透過理論的澄清,引導出各項相關於潛在特質或行為表現的基本假設,並以實徵的方法,查核測量結果是否符合理論假設的內涵第二十九页,共五十页,编辑于2023年,星期日建構效度範例-魏氏智力測驗魏氏兒童智力量表便認為「智力是一種總體性的行為表現」(陳榮華,民86,頁2),測驗編製採用Wechsler的定義,將智力界定為個體能夠有目的地行動、理性地思考、並且有效地應付環境。智力的構念解析為第一層次兩個向度之能力:語文與作業,以及第二層次的各個分測驗面向第三十页,共五十页,编辑于2023年,星期日第一層次第二層次常識類同算術語文辭彙理解記憶廣度智力圖形補充符號替代連環圖系作業圖形設計物形配置符號尋找迷津測驗第三十一页,共五十页,编辑于2023年,星期日字彙空間第三十二页,共五十页,编辑于2023年,星期日魏氏智力測驗的構念效度便在探討分測驗中的各個題目是否可聯合相互支持說明第二層次的分測驗面向;而第二層次的分測驗各面向又是否能夠相互支持解釋上屬第一層次的向度能力;最後,此二不同向度能力是否能夠組合起來解釋總體智力的運作狀況。如此階層性地將構念解析到最小單位一測驗題目,便是建立構念效度的第一步驟。第三十三页,共五十页,编辑于2023年,星期日獲得建構效度的方法

(1)發展上的改變對比樣本許多學前發展量表或智力測驗在建立效度時是以年齡差異為主要效標例如「貝萊嬰幼兒發展量表」以生理年齡來驗證其效度,瞭解測驗分數是否隨年齡增加而增加。第三十四页,共五十页,编辑于2023年,星期日各年齡層在托尼非語文智力測驗甲乙兩式量表得分關係圖,第三十五页,共五十页,编辑于2023年,星期日第三十六页,共五十页,编辑于2023年,星期日獲得建構效度的方法

(2)相關研究新編製的測驗與一份大家公認有效的類似測驗之間所求得的相關。例如新編的智力測驗分數和魏氏兒童智力量表的相關不錯,表示此新編的測驗也能測量類似魏氏兒童智力量表中智力這個構念。第三十七页,共五十页,编辑于2023年,星期日第三十八页,共五十页,编辑于2023年,星期日第三十九页,共五十页,编辑于2023年,星期日第四十页,共五十页,编辑于2023年,星期日第四十一页,共五十页,编辑于2023年,星期日獲得建構效度的方法

(3)內部一致性分析,試題分析內部一致性分析的特徵是以測驗本身的總分為效標,如果採用對照團體的方法分析時,可依據測驗總分的高低將受試者分成高分組與低分組,然後比較兩組在各個題目上的答對比例,如果題目顯示高分組答對比例不顯著高於低分組,則此題目是無效的,應該刪除或加以修改(郭生玉,民76)。除了對照團體方法外,也可採用相關方法及計算分測驗與總分之間的相關,求取效度。第四十二页,共五十页,编辑于2023年,星期日獲得建構效度的方法

(4)因素分析(factoranalysis)因素分析是一種統計方法,主要足藉著共同因素的發現以確定題目中的結構成份如果原測驗有30個題目,經由因素分析程序,減少為五個因素,倘若此五個因素能解釋30個題目,我們即以五個因素類型表示測驗的特性。第四十三页,共五十页,编辑于2023年,星期日第四十四页,共五十页,编辑于2023年,星期日獲得建構效度的方法

聚斂效度(convergentvalidity)與區別效度(dischminantvalidity)

(5)多元特質多重方法矩陣法一個測驗分數,不僅要與同樣構念的其他測驗分數有高相關,也要與不同構念的其他測驗分數有低相關,前者為聚斂性效度,後者為區別效度。第四十五页,共五十页,编辑于2023年,星期日多元特質多重方法矩陣法-範例

問卷評定量表能力態度能力態度問卷能力.89態度-.13.93評定量表能力.59-.37.95態度-.39.62-.20.95紅:單一特質-單一方法。複本信度(相關最高)

藍:單一特質-多重方法。聚斂效度(相關次高)

綠:多元特質-單一方法。區辨效度(低相關或無相關)第四十六页,共五十页,编辑于2023年,星期日多元特質多重方法矩陣法

範例國語數學客觀測驗1作業評等1客觀測驗1作業評等1國語客觀測驗2ABC

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论