常模及测验标准化_第1页
常模及测验标准化_第2页
常模及测验标准化_第3页
常模及测验标准化_第4页
常模及测验标准化_第5页
已阅读5页,还剩85页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

常模及测验标准化第一页,共九十页,编辑于2023年,星期六(五)心理測驗

教學進度:單元週日期

內容Topic-2A19月09日Introduction、TheOriginsofPsychologicalTestingTopic-2B29月16日EarlyTestingintheUnitedStatesTopic-1A39月23日TheNatureandUseofPsychologicalTestsTopic-1B49月30日EthicalandSocialIssuesinTestingTopic-2B510月7日考試一、TheTestingProcessTopic-3A610月14日NormsandTestStandardizationTopic-3B710月21日ConceptsofReliability810月28日考試二Topic-4A911月4日BasicConceptsofValidityTopic-4A1011月11日Validity-Application

1111月18日考試三第二页,共九十页,编辑于2023年,星期六Topic3A常模及測驗標準化

NormsandTestStandardizationCaseExhibit3.1OutmodedTestsandOutdatedNormsRawScoresEssentialStatisticalConceptsRawScoreTransformationsSelectingaNormGroupCriterion-ReferencedTestsSummary第三页,共九十页,编辑于2023年,星期六KeyTermsandConceptsnormgroup常模團體Rawscore原始分數frequencydistribution次數分配Mean平均數,median中位數,mode眾數percentcorrect正確(答對)百分比percentilerank百分等級normaldistribution常態分配curve曲線standarddeviation標準差variance變異數expectancytable期望(預期)表normalizedstandardscore常態化標準分數skewness偏態staninescale標準九stenscale標準十第四页,共九十页,编辑于2023年,星期六

名詞解釋percentile百分位數受試者在標準化樣本的百分比,是由原始分數轉化而來的,可表各受試者在測驗分數上的相對地位,其數值介於是0到100之間。

Thepercentageofpersonsinthestandardizationsamplewhoscoredbelowaspecificrawscore;percentilesvaryfrom0to100.standardscore標準分數是將原始分數轉換後的分數,可說明原始分數距離算數平均數一個標準差單位是多少。Atransformedscoreinwheretheoriginalscoreisexpressedasthedistancefromthemeaninstandarddeviationunits.

TscoreT分數是一種轉換分數,其平均數是50,標準差為10。

atransformedscorewithmeanof50andstandarddeviationof10.normalizedstandardscore常態標準分數是用非直線轉換方式將偏態分配轉換成常態分配的一種轉換分數Ascoreobtainedbyatransformationthatrendersaskeweddistributionintoanormaldistribution。staninescale標準九為一種量尺,將原始分數分成九個等分,從1到9。ascaleinwhichallrawscoresareconvertedtoasingle-digitsystemofscoresrangingfrom1to9.stenscale標準十量表將分數分成10個單位,在平均數上、下兩邊各包含5個單位的常態標準分數。a10-unitscalewithfiveunitsaboveandfiveunitsbelowthemean.CscaleC量尺將標準九兩端各加一個單位,故有11個單位。

avariantonthestaninescalewith11units.

第五页,共九十页,编辑于2023年,星期六randomsampling隨機取樣

Aselectionstrategyinwhicheverysubjecthasanequalchanceofbeingchosen.

是種篩選的策略,目的是讓每位受試者被選到的機率是相等的。stratifiedrandomsampling分層隨機抽樣Aselectionstrategyinwhichsubjectsarechosenrandomly,withtheconstraintthatthesamplematchesthepopulationonrelevantbackgroundvariablessuchasrace,sex,occupation,andsoon.

是種篩選策略,受試者被隨機選擇,而且樣本被限制需與母群背景,如種族、性別、職業等配合。agenorm年齡常模Atypeofstandardizationthatdepictstheleveloftestperformanceforeachseparateagegroupinthenormativesample.是種標準化類型,在一常態樣本下,描述各年齡群組在測驗表現的水準(層次)。gradenorm年級常模Atypeofstandardizationthatdepictstheleveloftestperformanceforeachseparateschoolgradeinthenormativesample.是種標準化類型,在一常態樣本下,描述各學校年級在測驗表現的水準(層次)。localnorms地區(區域)常模

Normsderivedfromarepresentativelocalsample,asopposedtoanationalsample.

常模是由具代表性的區域樣本而來,是相對於全國樣本。

名詞解釋第六页,共九十页,编辑于2023年,星期六描述次數分配的四個統計量數集中量數

centraltendency

.

平均數M2.

中位數Mdn3.

眾數Mo變異量數

variability

.

變異數σ2.

四分差Q3.

全距偏態

skewness

.

常態.

正偏態positive.

負偏態negative峰度

kurtosis

1

高狹峰leptokurtic低闊峰platykurtic第七页,共九十页,编辑于2023年,星期六第八页,共九十页,编辑于2023年,星期六原始分數轉換percentiles百分位數percentilerank百分等級standardscores標準分數standardscore標準z分數TscoreT分數(直線轉換)TscaledscoreT量表分數(非直線轉換)(normalizedstandardscore常態化標準分數)staninescale標準九(USAF,WWⅡ)stenscale標準十(Canfield,1951)CscaleC量尺(Guilford&Fruchter,1978)

分11級第九页,共九十页,编辑于2023年,星期六

累積百分比0.1%2.3%15.9%50%84.1%97.7%99.9%

T分數20304050607080

百分等級PR1215405060859899

標準九的百分比4%7%

12%

17%

20%17%12%7%4%STANINE123456789

CEEB分數200300400500600700800

AGCT分數406080100120140160

斯比離差智商526884100116132148

魏氏離差智商557085100115130145

圖二各種衍生分數間的關係第十页,共九十页,编辑于2023年,星期六第十一页,共九十页,编辑于2023年,星期六標準九的百分比STANINE1234567894%7%12%17%20%17%12%7%4%-2.25

-1.75-1.25-.75-.25.25.751.251.75

~~~~~~~~~-1.75-1.25-.75

-.25.25.751.251.752.25

4%

11%23%40%60%77%89%96%第十二页,共九十页,编辑于2023年,星期六TOPIC3A

常模以及測驗分數的解釋常模norm的定義:是一具有代表性的樣本團體在測驗上的表現或分數分布,其可作為心理測驗中原始資料轉換的依據,可表示個體在標準化常態樣本下的相對測驗表現。使用常模的目的:可知個體在群體中所處的相對位置。可作為互相比較及評估之用。第十三页,共九十页,编辑于2023年,星期六常模的類別一、發展性常模年齡常模年級常模順序量表ordinalscales二、組內常模百分位數(百分等級)標準分數(1)T分數(2)離差智商(3)其他量尺三、全國性常模與特定的團體常模第十四页,共九十页,编辑于2023年,星期六發展性常模developmentalnorm1.mentalage以心理年齡來取樣。例如智力測驗的常模。以相同心智年齡的人來作常模,而不管其生理年齡為何。缺點:心理年齡的單位大小不恆為一致,有隨著生理年齡的增加,單位逐漸縮小的現象。智力隨時在變。2.gradeequivalents以實際年級來區分的,是使用最普遍的一種。缺點:教材的內容每個年級並不相同,且在主題、重點以及進度上都不一定相同,所以在比較上可能產生問題。容易造成錯誤的解釋。例如一位四年級的學生在算術測驗上得到年級等級值為6.9,這只代表他的算術能力高出同年級的人,但並不代表他已經熟悉六年級的算術歷程,同時也不應該將年級常模視為學業成就的標準。3.ordinalscales將每個年齡層中,具代表性的各種功能性的行為發展描述出來,再用實徵的方法來取得各階層的年齡。此法為發展心理學家常用。最早的研究是Gesell及同事列出一系列行為的模式,陳述出嬰兒每個月在動作、適應、語言及個體—社會四個層面可能發展出來的各項行為。後來根據Piaget的發展理論,設計出一套測量工具,這套測量工具即是一種順序量表,亦即必須等到前一個階段的概念發展完整之後,才到達下一個階段。第十五页,共九十页,编辑于2023年,星期六組內常模Within-groupnorms定義:指個體的行為表現與同等的團體做比較,提供特定“量”方面的意義。種類:1.百分分數percentile2.標準分數standardscore3.離差智商deviationIQ。百分位數是用標準化樣本在某一特定原始分數以下所佔的人數百分比來表示,可看出受試者在團體中的相對位置。優點:1.易計算、易了解。2.能做比較,故使用廣泛。缺點:單位大小不一,越靠近分配的兩端,單位的不等性越明顯。所以它只能指出某人在常態樣本下的相對位置,並不能說出兩個百分位數的差距。標準分數是以該分配的標準差來表達個體與平均數的差距。將個體的分數與常模團體平均數的差距,除以該分配的標準差,即是z分數。常態化標準分數(normallystandardscores)是指已經轉成合乎常態曲線的分配N(0,1)的標準分數,而這些分數可以根據常態分配表查出落於平均數某一標準差間的人數百分比而計算出來。離差智商早期的智力測驗指的是採用了比率智商,此智商是將心理年齡與生理年齡的比值乘以100。而目前的趨勢皆以離差智商所取代N(100,15)。它是以100為平均值,以魏氏智力量表的標準差為其標準差。若選用15為標準差,其得到的分數便可依照解釋斯比量表的比率智商的方式加以解釋,或是我們也可用任何已熟悉的量表分配來互相對照。第十六页,共九十页,编辑于2023年,星期六第十七页,共九十页,编辑于2023年,星期六第十八页,共九十页,编辑于2023年,星期六第十九页,共九十页,编辑于2023年,星期六第二十页,共九十页,编辑于2023年,星期六標準化常態樣本

normativesample用以建立常模的標準化常態樣本的特質:particular:每份測驗都有其限制使用的對象representative:此樣本必須代表它的母群。largeenough:取樣的個數要夠大。selectivefactor:避免有針對某些特殊對象的因素。常模的特性:notabsolute:不是絕對的,只是做參考,因常模中的樣本只是母群中的一部份。notuniversal:不是普遍性的,常模的樣本是有特定範圍的。notpermanent:不是永久的,會因時間的不同而使常模失去效用。第二十一页,共九十页,编辑于2023年,星期六常模團體的選取NationalAnchorNorms:全國性標準定錨常模

ETS在1973年建立了一個NationalAnchorNorms,即是建立一個標準定錨常模,使得兩個不同測驗的結果可以相互比較。為美國國小學生常用的七個閱讀成就測驗,提供了真正可以比較且具代表性的全國性常模。SpecificNorms特定的常模有兩種形式:subgroupnorm:對不同的次級團體做不同的常模。localnorm:對不同地區做不同常模。FixedReferenceGroup:固定參照常模可以說是沒有所謂的常模,或說是每年都在做常模。它只跟當時的人做比較,以當時的人為參照標準,用他們來作常模,以計算某人在當時的團體中的相對位置。目的:1.comparative:可使分數能做比較;

2.continuity:有連續性,其常模不因時間的不同而失去效用。第二十二页,共九十页,编辑于2023年,星期六expectancytable期望表Atablethatportraystheestablishedrelationshipbetweentestscoresandexpectedoutcomeonarelevanttask.

精確地描述測驗分數與期望結果間的關係的對照表是常模的一種實用形式,可預測受試者在效標criterion上表現良好的可能性。第二十三页,共九十页,编辑于2023年,星期六第二十四页,共九十页,编辑于2023年,星期六第二十五页,共九十页,编辑于2023年,星期六Criterion-ReferencedTests

和Norm-ReferencedTests的比較Dimension效標參照測驗常模參照測驗用途受試表現和標準比較受試表現彼此比較試題內容與實務相近較扁狹的技能非直接相近較寬闊的技能試題選取多數題目難度相似難度水準變異大分數解釋用百分比或事先訂定的通過標準解釋用標準分數、百分等級或年級等值gradeequivalent第二十六页,共九十页,编辑于2023年,星期六10/14隨堂考1.X=75M=50SD=20z=(75-50)/20=1.25PR=89.44T=1.25*10+50=62.52.X=45M=50SD=20z=(45-50)/20=-0.25PR=40.13T=-0.25*10+50=47.53.X=75標準九等級為8X=45標準九等級為54.甲生IQ=110,乙生T=60,丙生PR=75

甲z=.67乙z=1.0丙z=.68故乙>丙>甲第二十七页,共九十页,编辑于2023年,星期六第一次考試試題

填空題:22%(每格2分)1.developedthe"thought

"tomeasuretheessentialspeedofthought.2.Thehypothesisthatweinadvertentlydiscloseourinner-most

,fantasies,and

whenrespondingtoambiguousor

stimuliisknownasthe

hypothesis.3.Intesting,

isacomfortable,warm

thatservestomotivateexamineesandelicitcooperation.4.Atestisas

procedurefors

behavioranddescribingitwithcategoriesorscores.5.Thefirstpersontowriteaboutthedifferencebetweenmentalillnessandmentalretardationwas

.(a.Binetb.Esquirolc.Freudd.Seguin)第二十八页,共九十页,编辑于2023年,星期六名詞解釋:30%(每題6分)informedconsentETSMMPI&KMHQArmyα&ArmyβPersonalDataSheet問答題:48%(每題12分)OscarBuros和L.M.Terman對心理測驗各有何貢獻?舉例說明常模參照測驗和效標參照測驗criterion-referencedtest。心理測驗有哪些主要功能(各舉一例說明之)。影響測驗結果主要有那些來源?第二十九页,共九十页,编辑于2023年,星期六Topic3B信度的概念

ConceptsofReliabilityCaseExhibit3.2:TestReliabilityandCourtroomTestimonyClassicalTheoryandtheSourcesofMeasurementErrorSourcesofMeasurementErrorMeasurementErrorandReliabilityTheReliabilityCoefficientTheCorrelationCoefficientTheCorrelationCoefficientasaReliabilityCoefficientReliabilityasTemporalStabilityReliabilityasInternalConsistencyItemResponseTheoryandtheNewRulesofMeasurementSpecialCircumstancesintheEstimationofReliabilityTheInterpretationofReliabilityCoefficientsReliabilityandtheStandardErrorofMeasurement第三十页,共九十页,编辑于2023年,星期六KeyTermsandConceptsClassicalTheoryofMeasurement古典測量理論Reliability信度/asTemporalStability;asInternalConsistency內部一致性

1.inter-scorer評分者間2.test-retest再測

3.alternateforms複本(parallelforms平行版本)

4.Split-half折半Spearman-Brown斯布校正公式

5.Kuder-Richardsonformula庫李公式

6.Coefficientalphaα係數MeasurementError測量誤差SystematicMeasurementError系統性測量誤差&truescore真分數Generalizabilitytheory概化理論CorrelationCoefficient相關係數,ReliabilityCoefficient信度係數ItemResponseTheory試題反應理論LatenttraitTheory潛在特質理論RaschModelRasch模型Speedtest速度測驗powertest難度測驗EstimationofReliability信度估計Confidenceinterval信賴區間StandardErrorofMeasurement測量標準誤StandardErrorofthedifference差異分數標準誤第三十一页,共九十页,编辑于2023年,星期六古典測量理論

(classicalmeasurementtheory)ObservedScore(OS)受三個影響:(1)真實得分(TrueScore;TS)(2)獨特得分(UniqueScore;US)(3)誤差得分(ErrorScore;ES)「離職意向」的例子:OS1=TS+US1+ES1(第一題)OS2=TS+US2+ES2(第二題)OS3=TS+US3+ES3(第三題)第三十二页,共九十页,编辑于2023年,星期六變異量(Variance)及

共變量(Covariance)--以變異量及共變量驗證構念間之關係--樣本整體變異量(ObservedVariances;O),

包括:(1)真實差異(TrueVariance;T)(2)獨有因素帶來的差異(UniqueVariance;U)(3)隨機誤差帶來的差異(ErrorVariance;E)

O=T+U+E第三十三页,共九十页,编辑于2023年,星期六信度(reliability)

(1)E佔O的比重(2)因為E是隨機的,信度為測量的工具免於 隨機誤差的程度(3)測量結果的一致性或穩定性第三十四页,共九十页,编辑于2023年,星期六信度係數的估計:

為了與統計上的相關係數看齊,我們一般會取兩次測量的共變量比例的平方根,來合計信度,稱之為信度係數(reliabilitycoefficient)。E1E2T+U第三十五页,共九十页,编辑于2023年,星期六信度係數的方程式信度係數=第三十六页,共九十页,编辑于2023年,星期六信度(reliability)的估計--兩次測量的相關係數:(a)再測信度(test-retestreliability)(b)複本信度(alternativeformsreliability)(c)折半信度(split-halfreliability)(d)項目間的一致性(internalconsistency reliability):Coefficientalpha;α (SPSS“reliability”的指令)--一般來說信度係數要在0.7以上

第三十七页,共九十页,编辑于2023年,星期六測量工具的信度係數

第三十八页,共九十页,编辑于2023年,星期六把R0除以r1及r2的平方根,

便可求得Rt

第三十九页,共九十页,编辑于2023年,星期六Rt

與Ro的關係

(CorrectionforAttenuation)

削弱校正

IninvestigatingtestvaliditythetestscorestobevalidatedarecalledXandtheyarevalidatedagainstacriterioncalledY.Forexample,XmightbeSATverbalscoresandYcouldbegradepointaverageinfreshmanyearincollege.ThenthecorrelationbetweenXandYisavaliditycoefficient.Spearmanderivedanequationwhichdisplaystheeffectsofalteringthelengthofboththetestandthecriteriononvalidity.ThenthevalidityofaperfecttestforpredictingaperfectcriterioniscalledSpearman’s

Correction

for

Attenuation.Ityieldsanestimateofthetruescorecorrelation.ConditionsunderwhichthisformulaisusefulhavebeenpresentedbyZimmermanandWilliams(1997)第四十页,共九十页,编辑于2023年,星期六影響信度的主要因素受測量者方面(動機、情緒等)主持測量者方面測量內容方面itemselection測量情境方面testadministration時間影響方面測量誤差MeasurementError的來源1.itemselection2.testadministration3.Testscoring4.SystematicMeasurementError

系統性測量誤差第四十一页,共九十页,编辑于2023年,星期六共同因子(commonfactor)的概念CommonFactor=CFEF1+UF1EF2+UF2EF3+UF3OS1OS2OS3CF第四十二页,共九十页,编辑于2023年,星期六共同因子(commonfactor):共變量T=共同因子的變異量

(各項目的共變量:沒有測量誤差的變異量)C13C12U1+E1C23U2+E2TU3+E3第四十三页,共九十页,编辑于2023年,星期六傳統測驗主要以古典真分數(truescore)理論為基礎,古典測驗理論的假設較少,且容易滿足,有時又被稱為弱勢理論(weaktheory);相反的,適性測驗則以試題作答理論(itemresponsetheory;IRT)為理論根據,IRT係晚近從數學發展出來的測量理論,理論較嚴謹,假設也較難滿足,因此也被稱為強勢理論(strongtheory)。第四十四页,共九十页,编辑于2023年,星期六一般而言,題庫會因測驗評量方式之不同而有不同程序之建立方法。例如,以古典測量理論(classicalmeasurementtheory)為基礎所編製的傳統式測驗(conventionaltest),常以團體為基礎的試題統計量數(group-baseditemstatistics)(如p值)來建立結構化的試題組合。以此種方式建立的題庫有其難以克服的缺點(何榮桂,民80)。在教學活動中,測驗評量是獲得學生學習情況的主要訊息來源,測驗結果的量化分析隨著資訊科技的進步,近年來已產生了相當大的變革,其中較重要且有效的方法就是所謂的試題反應理論(ItemResponseTheory,簡作IRT)(簡茂發、劉湘川、許天維與郭伯臣,民83)。由於許多學者對這方面的投入,新的理論與應用方法愈來愈精進,愈來愈實用。第四十五页,共九十页,编辑于2023年,星期六電腦化適性測驗(computerizedadaptivetests;CAT)是測驗理論(主要以itemresponsetheory,IRT,為理論基礎)與實務伴隨電腦科技的發展而形成的產物。至目前為止,CAT的理論與技術均已十分成熟,一些常見的測驗工具(如ETS的托福測驗等)也以CAT的方式施測;適性(adaptive)測驗是量身訂製(tailored)的測驗,是個別測驗(individualtest),也是真正的個別化測驗(individualizedtest)。量身訂製或個別化的測驗,意指給受試者做符合她/他能力(或特質)水準的題目最能反映她/他的能力或特質。對某一受試者而言,太難或太簡單的題目都沒有必要;也就是說,對某一受試者而言,題目太難或太簡單,即使此受試者答了這些題目,也無法從這些題目獲得此受試者之特質,或是說,這些題目並無法回饋受試者的訊息給主試者,這樣的測量就失去意義。第四十六页,共九十页,编辑于2023年,星期六一、信度的意義測驗信度:一測驗在某持久性心理特質的一致性或穩定性影響測驗信度主要有三個因素:1.測驗長度、2.受試的變異性、3.間隔時間的長短。表各種信度估計法的誤差變異量主要來源信度估計法誤差變異量來源1.折半法

2.複本法(立即)3.重測法

4.複本重測法

5.庫李法或α係數

6.多人主觀評分法

試題內容的取樣試題內容的取樣時間上的取樣時間取樣+內容取樣試題內容取樣和內容同質性評分者之間的差異

第四十七页,共九十页,编辑于2023年,星期六分數的變異來源第四十八页,共九十页,编辑于2023年,星期六估計信度方法與測驗版本及施測次數的關係測驗版本一種二種施測次數一次折半法庫李法或α係數(內部一致性係數)複本法(立即)(等值係數)二次重測法

(穩定係數)複本重測法(延宕)(穩定等值係數)第四十九页,共九十页,编辑于2023年,星期六求評分者信度可用的統計方法評分者人數二名二名以上評分方式名次法斯比爾曼等級相關係數肯德爾和諧係數分數法皮爾遜積差相關係數變異數分析(Hoyt法)第五十页,共九十页,编辑于2023年,星期六二、信度的類別及其求法(1)內部一致法,為一種內部一致性量數,其高低受到內容取樣和樣本異質性兩種誤差變異量的影響。(2)複本法alternative-formreliability。同一測驗有兩種以上複本,將兩種複本分別實施於同一群受試者,再以其分數計算相關係數,即得複本信度,如兩者同時連續實施,其複本信度又稱等值係數;如隔一段時間或分兩次實施,其複本信度又稱穩定與等值係數(3)重測法,同一測驗,同一群受試者,前後測兩次,再計算其相關係數,或稱再測信度retestreliability(又稱穩定係數)(4)評分者信度,指不同的評分者或同一個評分者在不同的時間,在測驗過程中觀察、記錄、記分等一致性而言,方法為隨機抽權相當份數的測驗卷,由兩位評分者按記分要點評分,然後依兩個分數計算其相關係數。第五十一页,共九十页,编辑于2023年,星期六內部一致法1.折半信度(split-halfreliability),依正常程序施測,將全部試題分為相等的兩半(大多依單、雙數題),計算每位受試者在兩半測驗的總得分,再以這兩半分數計算其相關係數。因僅計算測驗兩半之相關,故需用公式校正,其中常用的是斯布校正公式(Spearman-BrownProphecyFormula),如下頁右;但若兩半變異數不等,則宜用范氏公式(如下頁左)。2.庫李信度〈Kuder-RichardsonReliability,1937〉僅適用二分法測驗。3.Cronbach’sα係數(1951)適用各種計分法之測驗。4.Hoyt信度係數

(C.Hoyt,1941)信度乃真正分數變異數在實得分數總變異數中所佔之比率。rH=1-MSerrors/MSindividuals【附註:上述公式中之k為題數,p為某題答對率,q為答錯率,M為測驗總分X的平均數,SD為測驗總分X的變異數,SDi為某題分數的標準差。】第五十二页,共九十页,编辑于2023年,星期六第五十三页,共九十页,编辑于2023年,星期六內部一致性信度係數的求法舉例I1I2I3I4I5I6XXX奇數偶數乘積A011111525236B111010416313C00110024111D111111636339E01000011010SUM2443321882991941616994324平方和244332822321SD0.4898990.490.48991.85471.16620.9798V43.441.360.96pq41.28KR20=0.7535rH=Hoyt信度係數rF=0.651范氏公式α=0.75350.7535=1-0.1767/0.7167rF=2*(1-(1.36+0.96)/3.44)第五十四页,共九十页,编辑于2023年,星期六折半相關變異來源SSdfMSFPr=(19/5-1.8*1.8)/(1.1662*0.9798)受試間2.866740.71674.057r=0.4901試題0.850.160.906斯布校正誤差3.5333200.1767rSB=2*0.4901/(1+0.4901)總數7.229r=0.6578利用變異數求Hoyt信度係數1.斯布校正公式(Spearman-BrownProphecyFormula)SSt=18-18*18/30=7.2SSb=(82-18*18/5)/6=2.8667SSitem=(58-18*18/6)/5=0.8[用IA程式計算所得]Coe.ofKuder-Richardsonformula:0.7535Coe.ofSplit-halfreliability:0.4901Coe.ofSpearman-Brownformula:0.6578Coe.ofRulonformula:0.6512rH=1-MSerrors/MSindividuals= 1-0.1767/0.7167= 0.7535 第五十五页,共九十页,编辑于2023年,星期六相關係數的解釋相關係數求得後,可根據樣本人數N的大小,查「相關係數顯著性臨界值」表,以決定該相關值是否由機遇造成。不能僅憑其數值大小而斷言其相關的高低。相關是共變關係,僅表示兩個變項相互關係而已,不表示具有因果關係。相關係數的值介於+1至-1之間。+1稱為完全正相關,-1稱為完全負相關,相關係數為0時稱為完全零相關。Pearson積差相關為直線相關,若兩變項為非直線關係則不適用。相關係數的平方稱為決定係數,乃表示X變項解釋Y變項變異量的百分比。第五十六页,共九十页,编辑于2023年,星期六測量標準誤

standarderrorofmeasurement在測量中,對同一受試者測無限多次的平均數為真正分數,但每次測量的實得分數與真正分數間不一定一致,而有誤差,稱為「測量誤差」,而無限多次的測量誤差將形成一常態分配,測量誤差分配的標準差,特稱為「測量標準誤」。

(個人真正分數的推定。測量標準誤是由信度係數衍生而來的一個統計數值,對測驗分數的解釋有重要的用途,測量標準誤最大的功能便是協助我們去對測驗各層面上誤差的大小有所了解。其公式如下:SEM=SD

(√1-rxx)confidenceinterval信賴區間較理想的測量分數解釋是同時使用實得分數和測量標準誤,來估計真正分數,通常用區間估計來呈現;例如某人在魏氏智力測驗智商為108,該測驗之信度係數為.91,則其真正智商的信賴區間如下:測量標準誤=15(√1-.91)=4.595%信賴區間=108±2(4.5)=99~11799%信賴區間=108±2.58(4.5)=96.4~119.6[註:上式中2為概率95%的z值的近似值;2.58為概率99%的z值]第五十七页,共九十页,编辑于2023年,星期六測量標準誤SEM

(StandardErrorofMeasurement)信度表示測量分數的穩定與可靠性,亦表示測量受到測量誤差的影響程度測量分數的變異量,受到測量誤差影響的部分,稱為測量誤差變異量,開方後稱為測量標準誤(σe)測量誤差被假設呈常態分配,因此測量標準誤配合常態化機率可以用來進行測量分數的區間估計rxx

X特質的測驗信度X分數的95%的信心區間Ex.某測驗變異數100,信度.80,測量標準誤為何?某生得分80分,95%信心估計為何?第五十八页,共九十页,编辑于2023年,星期六差異分數標準誤

standarderrorofthedifferenceAstatisticalindexthatcanhelpatestuserdeterminewhether,foranindividualexaminee,thedifferencebetweenscoresontwotestsorsubtestsissignificant.用於個人測驗分數的解釋,可幫助受試者了解其在兩測驗或分測驗所得分數間,是否達顯著差異。兩項測驗分數的比較。應用差異分數的標準誤,其公式如下:SEdiff=SD(√2-rxx-ryy)例如小華在語文測驗得T分數56,空間關係測驗得T分數48,已知語文測驗信度係數為.84,空間關係測驗信度係數為.91,則其差異分數的標準誤=10*0.5=5。當α=.05,其臨界值=1.96*5=9.8,而兩測驗分數差異為八分(56-48=8),小於臨界值,故差異不顯著。第五十九页,共九十页,编辑于2023年,星期六信度係數的樣本依賴性:信度係數會因樣本的變異性而受到影響,其依變項可分為:個別差異:當樣本的個別差異範圍越小時,所得的信度係數會偏低。能力水準:當樣本的能力水準越接近時,所得的信度亦會偏低。測量標準誤SEM:所謂的測量標準誤是指因各種隨機誤差的影響,所測量的分數會在真實分數附近變動而形成一個常態分配,而此常態分配的標準差,即是測量標準誤。SEM可被用來估計個體真實分數的合理範圍。兩分數差異的SEM必大於任一分數的SEM,故效標參照測驗的信度:可利用複本信度及折半信度來計算,以避免試題重複。用一般測mastery,減低了個別差異,故所得信度偏高。不適用於對preestablishedmastery的人做信度分析。第六十页,共九十页,编辑于2023年,星期六generalizabilitytheory概化理論

或譯作概推度理論Adomainsamplingmodelofreliabilitythatrecognizesseveralalternativesofgeneralizationfortestresults.是Cronbach發展出的一套辨識測量誤差來源的統計模型。逐漸取代古典測驗理論來定義及估計測驗的信度。它與古典測驗理論的不同在於,認為測量誤差除了隨機誤差之外,尚有系統性誤差,例如主試者的施測或評分習性,或施測地點、季節等。概化理論是運用變異數分析的方法以瞭解測驗誤差的來源,測驗信度及測量標準誤的一種理論。第六十一页,共九十页,编辑于2023年,星期六概化理論研究及應用前景作者:

劉桔,<<心理科學>>2003年第26卷第03期

期刊-核心期刊

QCode:xlkx2003030141972年,Cronbach和他的同事們提出概化理論之後,概化理論在行為與心理測量領域得到了廣泛的應用,較之經典測量理論,它的優勢逐漸地顯露:(1)測量的多種誤差來源可以在同一個分析中分別估計;(2)可以指導決策者選擇最優測量方案;(3)提供可靠性係數:概化係數(G係數)和依存性指標(ψ係數)用於不同的決策任務;(4)排除了嚴格平行測驗的假設.概化理論以它的精確性和可靠性受到了信度測量領域研究者們的青睞,本文旨在對概化理論的基本框架、產生、發展及應用前景進行詳細論述StudiesandApplicationProspectsofGeneralizabilityTheory第六十二页,共九十页,编辑于2023年,星期六測驗理論主要可以分為兩大類:古典測驗理論(classicaltesttheory,CTT)與試題反應理論(itemresponsetheory,IRT)。古典測驗理論的名稱確立於Gullikson(1950)的經典之作「心理測驗理論」(TheoryofMentalTest),但是有學者認為古典測驗理論的基礎可以追溯到Spearman早在1913就已經提出相關的理論(Embretson&Reuse,2000)。該理論簡單易行,在20世紀引領著測驗編製發展。試題反應理論又稱為潛在特質理論(latenttraittheory,LTT),該理論的名稱的確立主要是由Lord&Novick(1968)的經典作品(Statisticaltheoriesofmentaltestscores),引發學者對「潛在特質」概念的重視與研究。試題反應理論背後之數學模式較為複雜,而且受限於早期電腦的運算速度,以致於理論推展較緩慢。近年來由於學者學者們持續的重視與推展,再加上電腦運算速度大幅提升,大有後來居上,凌駕古典測驗理論之趨勢(余民寧,2002)。目前許多重要的入學考試與證照測驗,例如國內的國中基本學力測驗、美國的托福測驗(TOEFL,TestofEnglishasaForeignLanguage)、多益測驗(TOEIC,TestofEnglishforInternationalCommunication)、臺灣理財規劃顧問認證測驗等,其測驗編製與考生能力估計都是採用試題反應理論來進行。第六十三页,共九十页,编辑于2023年,星期六試題反應理論

試題反應理論(ItemResponseTheory,IRT)以試題目特徵函數(ItemCharacteristicFunction,ICF)表達受試者能力和測驗反應間之關係,因函數中所採用的參數個數不同,通常被分成單參數、雙參數以及三參數等三種模式。在受試能力和反應的關係上,IRT以機率概念的數學模式來表達,較古典測驗理論以線性關係來說明,更能契合受試特質測量的意義[DowningSM,2003;McHorneyCA.,2003;王文中,1997)。

第六十四页,共九十页,编辑于2023年,星期六試題反應理論IRT

概要第六十五页,共九十页,编辑于2023年,星期六試題反應理論IRT

CAT理論基礎主要是源自於試題反應理論(itemresponsetheory,

IRT)。基於IRT的單向度(unidimensionality)假定,以及受試者的能力估計的不變性(invariance),使接受不同試題的受試者能力可以被放在同一個尺度上互相比較(Hambleton&Swaminathan,1985;Waineretal.,1990)。第六十六页,共九十页,编辑于2023年,星期六試題反應理論Itemresponsetheory至於最近發展的試題反應理論則對試題分析提供更豐富的訊息,並使測驗的應用有更多的發展。以下概略說明試題反應理論的意義與特色:1.試題特徵曲線ICC(ItemCharacteristicCurve,參看圖三)是現代心理計量學最強有力的理論之一—試題反應理論(Itemresponsetheory)或稱潛在特質理論(Latenttraittheory)的基礎。2.某個試題的試題特徵曲線就是該題答對機率對考生能力的迴歸線。3.試題反應理論的基本假設是:單一維度uni-dimensionality指測驗只測一個特質或能力。試題局部獨立localindependence,就某一受試能力而言,試題間無相關,也就是統計獨立。第六十七页,共九十页,编辑于2023年,星期六IRT三參數模式ICC

:ci是試題猜測的程度,ai及bi分別為試題的鑑別度及難度,D值設在1.7。

P(θ)

轉折點

圖三試題特徵曲線ICC第六十八页,共九十页,编辑于2023年,星期六試題反應理論

Itemresponsetheory4.IRT三參數模式:ci是試題猜測的程度,ai及bi分別為試題的鑑別度及難度,D值設在1.7。5.試題反應理論的三個優點:(1)對考生能力的估計不受試題難度的影響;(2)試題之間相對的難度及鑑別度是根據考生得分情形來估計;(3)每個試題對測量某種能力的精確度可藉由統計方法估計出來。第六十九页,共九十页,编辑于2023年,星期六試題反應理論

Itemresponsetheory6.IRT的實際應用(1)誘答項訊息GettingInformationaboutAbilityfromDistracters。(2)編製電腦適性測驗ComputerizedTailoredTesting。簡稱CAT,乃指利用電腦進行施測,處理選題,計分及能力估計等問題的一種測驗方式。(3)特殊測驗的試題分析,如篩選測驗(screeningtest)或關鍵計分法測驗(criterion-keyedtests)—MMPI(4)偵測試題偏誤detecttestbias。(5)分數等化。測驗的連結(linking)與等化(equating)是現代測驗理論再實際應用的一大領域。第七十页,共九十页,编辑于2023年,星期六Item-test-regression

第七十一页,共九十页,编辑于2023年,星期六試題特徵曲線ICC

第七十二页,共九十页,编辑于2023年,星期六item-characteristiccurve

試題特徵曲線ICCAgraphicaldisplayoftherelationshipbetweentheprobabilityofacorrectresponseandtheexaminee’spositionontheunderlyingtraitmeasuredbythetest.可表示受試在測驗中所測到特質與正確反應百分比的關係的曲線。IRF試題反應函數第七十三页,共九十页,编辑于2023年,星期六一、IRT的概念與發展j為考生j的能力,bi

是試題i的難度,Pij是受測者答對某個題目的機率試題反應理論(itemresponsetheory;IRT)的基本概念第七十四页,共九十页,编辑于2023年,星期六試題反應理論(IRT)與古典測驗理論(CTT)比較試題反應理論傳統測驗理論模式特性試題的作答反應模式。不同IRT模式適用不同測驗。

測驗總分的模式。各種測驗都使用同一套模式。試題參數題目參數估計不變性。題目參數會受到受試者能力影響能力量尺能力估計不變性。根據概似函數估計程度,理論基礎強。可直接參照題目或發展參照標準來解釋分數可算出等距量尺。受試者能力受到題目特性影響。各題目配分直接加總,缺乏理論基礎需發展參照標準才能解釋分數。群體為常態分布才能算出等距量尺。第七十五页,共九十页,编辑于2023年,星期六信度測量精確度(訊息量)隨著受試者能力以及所接受的題目特性而不同。接受同一測驗的所有受試者其測量精確度(信度)都相同。應用編製測驗(量表)、分數等化,編製題庫、電腦化適性測驗、組合測驗編製測驗(量表)整體評估優點:能力估計不變性、具有題目參數估計不變性、測量精準度的概念較合理、應用層面較廣。缺點:不易理解、能力估計與試題參數估計較麻煩,須仰賴電腦軟體來分析優點:模式簡單易理解,能力與試題參數容易計算。缺點:等測量標準誤假設不合理、應用較狹隘,受試者程度受題目特性影響、題目參數受受試者特性影響。試題反應理論(IRT)與古典測驗理論(CTT)比較(續)第七十六页,共九十页,编辑于2023年,星期六評量系統公司

當代IRT的發展向度數量計分方式參數個數模式提出者適用軟體單向度二元計分單參數模式(Rasch模式)Rasch(1960)Bigstep,BILOG,BILOG-MG二參數模式Lord(1952)三參數模式Birnbaum(1968)多元計分類別反應模式(nominalresponsemodel)Bock(1972)MULTILOG,ConQuest等級反應模式(graderesponsemodel)Samejima(1969)部份給分模式(partialcreditmodel)Wright&Masters(1982)評定量尺模式(ratingscalemodel)Andrich(1978)多向度二元計分多向度二參數模式Mckinley&Reckas

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论