从试卷编制看普通话水平测试的信度(共9页)_第1页
从试卷编制看普通话水平测试的信度(共9页)_第2页
从试卷编制看普通话水平测试的信度(共9页)_第3页
从试卷编制看普通话水平测试的信度(共9页)_第4页
从试卷编制看普通话水平测试的信度(共9页)_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、从试卷编制看普通话水平(shupng)测试的信度 刘晓红 湘南学院(xuyun)中文系,湖南郴州423000摘要普通话水平测试的科学性和权威性取决于测试的质量。信度是评估语言测试质量的主要(zhyo)指标之一,试卷编制是语言测试信度的基础和保障。本文通过分析普通话水平测试试卷构成的要求,对各种题型的信度进行了较为深入细致的研究,对试卷编制中存在的问题提出了一些改进意见,旨在促进普通话水平测试工作健康有序开展。关键词普通话水平测试、信度、试卷编制 一 引 言普通话水平测试(简称PSC)是测查和评定应试人掌握和运用普通话所达到的规范程度和熟练程度,认定其普通话水平等级的一种国家级口语考试。普通话水

2、平是测试是我国现阶段推广普通话工作的一项重大举措,标志着我国推广普通话工作走上了制度化、规范化、科学化的新阶段。普通话水平测试极大地提高了全社会的普通话水平和汉语规范化水平,普通话水平测试工作的健康开展必将对社会的语言生活产生深远的影响。我国幅员辽阔,汉语方言复杂,语音、词汇、语法存在明显的分歧和差异。开展普通话水平测试必须坚持统一的标准,保证测试的科学性和严肃性,维护测试的权威性和规范性。而测试能否科学、客观、准确、公正,取决于测试的质量。关于语言测试的质量,国内外许多专家学者都会谈到信度、效度等评估标准。(桂诗春,1986)普通话水平测试实施纲要(以下简称纲要)科学而明确地提出:“测试题目

3、必须尽可能兼顾信度和效度的统一。”与其他语言考试研究相比,普通话水平测试在信度、效度等方面的研究还比较薄弱,其中,测试信度的研究,尤其值得我们关注。二 信度及其测定方法 信度原是计量学中的重要概念,它表示测量手段所获资料的可靠程度,通常用信度系数评价。上世纪30年代被引入语言测试领域,成为评估语言测试的主要指标之一。语言测试的信度主要是指测试的可靠性,或者说是测试结果的一致性。它表示测量手段所获资料的可靠程度。通常用信度系数评价。如果测试的信度高,那么一个测试对象的成绩经反复测试能保持基本一致,或一组测试对象的成绩序列经反复测试能保持大致相同。(席爱玲等,2000)事实上,绝对的可靠性和一致性

4、是不可能的,因为各种人为因素不可避免。信度的测定(cdng),通常有以下几种方法。一、重复(chngf)测量信度。该法采用同一问卷在同一人群中测量(cling)两次,评价两次测量的相关性。由于研究对象的特征可能随时间、环境等发生变化。且重复测量受前一次测量的影响,不一定能真实反映研究对象的特征。因此,重复测量的间隔时间不宜太长,也不宜太短,以24周较为合适。二、复本测量信度。设计两套在测量内容、应答形式及评价方法等方面高度类似的问卷,同时测量研究对象,评价两套问卷对同一样本人群测量结果的相关性。这种方法在实际操作中受其他因素的干扰相对较少,测定结果会更为准确。但要设计出完全等值的试卷是非常困难

5、的。三、折半测量信度。最常用的做法是将一个问卷分折为奇数和偶数两半,对同一样本人群进行测量,评价测量结果的相关性。无论采取哪种方法测量信度,如果分数大致相同或成绩序列基本一致,说明信度较高,反正则证明信度不够高。在语言测试中,信度一般包括试卷的编制、测试的实施、测试员评判三个方面。其中测试试卷的编制尤为重要,它是测试的前提和基础,是提高测试信度的基本要求和有效保障。本文通过分析普通话水平测试试卷构成的要求,对各种题型的信度进行了较为深入细致的探讨,对试卷编制中存在的问题提出了一些改进意见。三 试卷分析普通话水平测试试卷包括读单音节字词、读多音节词语、选择判断、朗读短文、命题说话5个部分,分值分

6、别为10分、20分、10分、30分、30分。同时,普通话水平测试大纲(以下简称大纲)说明,各省、自治区、直辖市语言文字工作部门可以根据测试对象或本地区实际情况,决定是否免测“选择判断”测试项。如免测此项,则将其分值纳入“命题说话”。目前,不少地区测试试卷已经取消了“选择判断”测试项。普通话水平测试内容虽然包含语音、词汇、语法等方面,但语音检测是最主要的内容,在试卷各个部分都有体现。因此,本文主要对读单音节字词、读多音节词语、朗读短文、命题说话四个部分的语音进行分析。(一)读单音节字词读单音节字词部分共有(n yu)100个音节,目的是测查应试人普通话声母、韵母、声调的标准程度。这个测试项对字词

7、的选取有较为明确具体的要求。大纲和纲要规定:(1)所有字词均出自国家测试机构编制的普通话水平测试用普通话词语表(2)100个音节(ynji)中,70%选自普通话水平测试用普通话词语表“表一”,其中频率在4000以前(yqin)的最常用字词占40%,其他字词占30%;30%选自“表二”。 (3)100个音节中,每个声母出现次数一般不少于3次,不超过6次;每个韵母出现次数一般不少于2次,不超过4次;4个声调出现次数大致均衡。(4)音节的排列要避免同一测试要素连续出现。(5)计算机拟卷也应符合上述要求。专业人员要对计算机拟制的试卷进行必要的人工干预。从上述规定和要求,我们不难看出,读单音节字词部分在

8、语音方面有以下特点:(1)音节数量较为适宜。普通话声母和韵母按照配合规律,可以拼出400个左右基本音节。读单音节字词部分有100个音节,占基本音节总数的四分之一,数量比较适宜。(2)语音具有广泛性和综合性,覆盖了几乎所有的22个声母(包括零声母)、39个韵母(er、ueng选定幅度为10次,不选)和4个声调。(3)难易度比较均衡,每个声母、韵母、声调的出现频率在不同试卷中大致相同,不会出现某一个音或某一些音过于集中的情况。这些规定和要求,使试卷的信度在一定程度上得到了保证。但如果仔细分析,还是存在一些问题。首先,100个音节不是以拼音而是以汉字呈现,汉字的使用频率同样有显著差异。汉语中有大量同

9、音字或音近字,这些字有的使用率高,覆盖面广,更容易认读,而有的使用率低,覆盖面窄,认读起来有一定的困难。如yi这个音节,“衣、移、以、艺”与“贻、倚、翌、熠”相比,han这个音节,“含、汗、寒、汉、喊、韩”与“翰、撼、悍、憨、罕”相比,难易程度有明显差异。其次,成词语素、不成词语素和没有意义的字的区别问题。无论是人工拟卷还是计算机拟卷,100个字词中既有成词语素,也有不成词语素和没有意义的字。在实际语言运用中,不成词语素和没有意义的字是不能单说、单用的。如“皑、蔼、鄙、皈、诡、赂、尴尬、讴、纫、湍”等。这些语素和字出现越多,试卷难度越大。如果这些语素和字在试卷中出现几率不同,试卷的均衡一致无法

10、保证。显而易见,这些因素对试卷的难易度和测试的可靠性都有一定的影响。(二)读多音节词(du yn ji c)语读多音节词(du yn ji c)语部分共有100个音节,目的(md)是测查应试人声母、韵母、声调和 HYPERLINK /view/763512.htm t _blank 变调、轻声、儿化读音的标准程度。大纲和纲要对这个测试项词语的选取同样有较为明确具体的规定。除了与读单音节字词相同的要求外,还要求上声与上声相连的词语不少于3个,上声与非上声相连的词语不少于4个,轻声不少于3个,儿化不少于4个(应为不同的儿化韵母)。尽管有这些明确细致的规定和要求,但实际编制出来的试卷在难易程度上仍存

11、在差异。与单音节字词部分相同或相似的问题,这里不再赘述。我们来重点考察一下轻声和儿化。轻声和儿化是普通话的重要语音特色,自然应该成为普通话测试的内容。作为一种特殊的变调现象,轻声音节的能量较弱,是音高、音强、音长、音色综合变化的效应,其中音高和音长这两个比较重要的因素所起的作用更大。固定读轻声的主要有单音节助词、语气词、叠音词、构词用的虚语素“子、头”等。但绝大多数轻声是一批老资格的口语双音节词,读多音节词语中的轻声选取的就是这一类。普通话水平测试用必读轻声词语表共收录了必读轻声词语548条,扣除“子”尾词207条,还有341条。对于母语没有轻声这一语音现象的应试人来说,记住并读准数量如此多的

12、轻声词,难度可想而知。另外,轻声词本身也存在差异。我们进行的一些实验结果显示,在准确率上,“爱人、窗户、豆腐、姑娘、漂亮、舒服、学生、衣服”等轻声词普遍高于 “棒槌、嘟囔、喇嘛、眯缝、牌楼、拾掇、眨巴、字号”等轻声词。说明使用频率高的、语义明确易懂的轻声词,相对而言更容易被大多数人理解和掌握。儿化在普通话里有构词和修辞等语用功能。普通话有相当多的词在需要负载上述功能时,都可以儿化。而在不需要附加上述功能时,一般不会儿化。从儿化词语的掌握、使用看,北方人比南方人更容易一些。这是因为北方方言区有相当数量的地方有儿化现象,而几乎所有的南方方言都没有儿化现象,南方人对儿化语感较差。南方人掌握儿化词语的

13、困难主要表现在儿化韵的发音方面。有的人将“儿”发成一个独立的音节,缺乏将“儿”与前面音节融为一体的意识。有的人虽然知道把“儿”化到前一个音节上,但由于母语发音习惯的影响,融合不够彻底,“儿”隐约可见。对测试结果影响更大的是,有的人对不同儿化韵的发音表现不一,大多数人发“名牌儿、快板儿、有点儿、纳闷儿、一会儿”比发“摸黑儿、板凳儿、花瓶儿、小熊儿、酒盅儿”容易。虽然试卷中的儿化词语数量相同,但如果发音难易程度不一,在某种程度上也会导致测试结果的差异。(三)朗读(lngd)短文这项测试(csh)的目的(md)是测查应试人使用普通话朗读书面作品的水平。在测查声母、韵母、声调读音标准程度的同时,重点测

14、查连读音变、停连、语调以及流畅程度。大纲对朗读短文的要求是:(1)短文从普通话水平测试用朗读作品中选取。 (2)评分以朗读作品的前400个音节(不含标点符号和括注的音节)为限。我们认为,与前两个测试项比较,朗读短文的要求显得过于简单、笼统,尤其是对声母、韵母、声调以及音变的分布没有做出具体明确的规定。这对于一个分值高达30分的测试项,对于一个以语音为主要测试内容的口语考试,显得不够严谨科学。朗读作品是普通话水平测试中一项有文字凭借的综合性测试,入选作品必须符合测试目的与测试要求,并使训练与测试的要求尽可能一致。目前供测试用的朗读作品共6 0篇,各篇字数平均控制在4 5 0字以内。在选文方面,纲

15、要朗读作品选编课题组(刘彦等,2004)根据训练的要求,特别是测试的需要,提出了主要涉及选材范围、体裁、内容、语言文字规范、测试要素(包括各篇用字的字数、语音覆盖情况)的大致均衡等七八个方面的要求,还对作品的前 4 0 0音节 ,采用人工统计与计算机统计相结合的方法 ,逐篇进行了用字量和声、韵、调、儿化覆盖的统计工作。不可否认,这些选取语料的要求在某种程度上保证了朗读作品的信度。但从测前培训和测试实际来看,朗读作品还是存在一些问题。最主要的问题是难点音总量、分布不够均匀。难点音指的是应试人在培训中难掌握、在测试中易失分的一些音,常见的有翘舌音、鼻音、后鼻音、轻声、儿化等。朗读短文的评分虽然多达

16、六项,但大多数应试人的失分仍然集中在第一项,即音节错误和漏读增读,而且主要是音节错误。有相当一部分应试人在读单音节字词、读多音节词语中能较好地控制难点音,但在朗读短文时因更注重流畅度、语调、情感等因素,顾此失彼,导致难点音失误增加。如果试卷中难点音不一致,对测试结果也有影响(yngxing)。因此,无论是从试卷编制的科学性来说,还是从测试结果的可靠性来说,入选短文的难点音应该在总量和分布上尽可能均和一致。但实际情况并非如此。我们对朗读短文进行了抽样统计,对前400个音节中难点音的数量和分布列表如下。 朗读短文中难点音的数量及分布(fnb)(单位:个)作品编号翘舌音鼻音后鼻音轻声儿化难点音总数5

17、67251437170156253641014425522041670180355124441013845751422701455573848401169通过上表,我们不难看出,不同朗读作品中的难点音在数量上有悬殊,如作品25与作品35相差42个。在类型上分布也不均衡,如鼻音多的有20个,少的只有1个;轻声多的达67个,少的只有27个;儿化多的达7个,有的作品一个儿化都没有。这对应试人来说,显失公平。我们认为,不应该忽视(hsh)这些差异对测试信度的影响。(四)命题说话这项测试的目的是测查应试人在无文字凭借的情况下说普通话的水平,重点测查语音标准程度、词汇语法规范程度和自然流畅程度。 大纲要求

18、:(1)说话话题从普通话水平测试用话题中选取,由应试人从给定的两个话题中选定1个话题,连续说一段话。(2)应试人单向说话。如发现应试人有明显背稿、离题、说话难以继续等表现(bioxin)时,主试人应及时提示或引导。与前面有文字凭借的测试项相比,说话这个无文字凭借的测试项难度更大,能更准确地反映应试(yngsh)人普通话的规范程度和熟练程度。这个部分的分值高达40分,对应试人的最终成绩起着十分关键的作用。说话部分共有(n yu)30个话题,这些话题只是规定话题的大致范围,并不规定话题的具体内容。对于口头表达能力较强,能比较自如地运用普通话的人来说,这些话题中的任何一个都能轻松应对。但对于口头表达

19、能力较弱,普通话运用不够熟练地人来说,话题的难易度有些差异。在培训过程中,学习者普遍反映有的话题容易一些,有的话题难一些。大多数人认为:1号“我的愿望(或理想)”、3号“我尊敬的人”、8号“我的朋友”、12号“我喜欢的季节(或天气)”、20号“我的家乡(或熟悉的地方)”、30号“购物(消费)的感受”有话可说,比较容易。4号“我喜爱的动物(或植物)”、9号“我喜爱的文学(或其他)艺术形式”、14号“谈谈服饰”、17号“谈谈科技发展与社会生活”、26号“我喜欢的明星(或其他知名人士)”则比较难。在测试实践中,我们对此也有同感。这可能跟爱好、习惯、传统、性别有关,也可能与社会有关。这种情况无疑会影响

20、命题说话部分的得分。看来,普通话水平测试话题的选定仍需仔细斟酌。 四 我们的建议随着普通话水平测试工作的健康有序开展,推广普通话工作取得了前所未有的成绩,人们的汉语规范意识不断增强,全社会的汉语规范化水平逐步提高。目前,普通话水平测试已成为语言学及应用语言学专业的一个分支学科,对普通话水平测试理论和实践的研究也不断深入细致,但各研究领域的发展尚不平衡。根据聂丹(2011)对中国知网(CNKI)1980-2010年相关论文的统计,1203篇普通话水平测试研究论文中主要研究试卷编制的只有6篇,只有总量的0.5%,显得十分薄弱。作为普通话水平测试的主要依据之一,科学合理的试卷编制能在很大程度上保证测

21、试结果的可靠性,提升测试的信度。为此,我们提出以下建议,希望能推进普通话水平测试工作健康有序的开展。(一)字词项部分的语料选择应遵循词频原则和通识原则。汪磊(2005)应综合考虑所选语料在时间(shjin)、行业、地域、语体等领域的分布状况,应以大多数人常用、理解为基本原则。试卷用字应建立在科学的字频统计基础上,应以常用字为主。所选用的字词,应语义明确,通俗易懂,是大多数人认识和掌握的。另外,对试卷中的不成词语素和没有意义的字,要严格控制数量。(二)朗读短文部分,要对短文的字量、字种、字频、声韵调的覆盖、难点音的分布做出明确的规定和科学的测定。目前入选的60篇短文,经测定后符合要求的,可以保留

22、,不符合要求的,应予更换。可以利用计算机对大型语料库中的语料按上述(shngsh)要求进行筛选,再进行必要的专业人员的干预,确保试卷的质量。(三)话题的难易程度(chngd)应均衡一致。普通话水平测试是面向全国、面向不同社会层面的标准参照性考试,话题应是大多数应试人比较熟悉的、有话可说的。我们可以通过调研征集一定数量的话题,公之于众,广泛听取意见,选择大家普遍认同的话题作为普通话水平测试命题说话的话题。参考文献1桂诗春.标准化考试理论、原则与方法M.广州:广东高等教育出版社,1986.2刘彦.关于普通话水平测试用“朗读作品”的分析报告J.语言文字应用,2004年第3期:20-28页.3汪磊.试论普通话水平测试语料的选择原则J.语言文字应用,2005年第2期:67-72.4席爱玲,王玉环,修旭东.论语言测试的信度与效度J.郑州工业大学学报(社会科学版),2000年第2期:63-65. ON Evaluating the Prestige of Putonghua Test from the Test Paper ArrangementAbstract: The scientific and authoritative feature of putonghua test is

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论