




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
语料库与对外汉语教学研究2015221946李
娴2015221947黄亚丽2015221948金淑珍2015221955彭佩佩提纲1.语料库简介2.语料库在汉语研究中的作用3.基于语料库的对外汉语研究4.卢伟《语料库在对外汉语教学中的应用》
5.黄伟《字形特征对汉字文化圈中高级水平学习者书写汉字的影响——基于“HSK动态作文语料库”的观察》6.HSK动态作文等语料库的使用7.建议1.语料库简述1.1概念与特征1)语料库(corpus,corpora):存储语料的数据库,以电子文本(或电子图片)形式存贮在计算机中、借助软件进行管理并可以通
过软件进行查询检索的一定数量的语言材料的集合;是进行语言研究的一种普遍资源。1.语料库简述2)特征:(1)理论指导与研究目标。(2)语料收集方法科学:语言运用的自然语料(naturally-occurring
date)。
(3)语料是连续的文本或话语片断,而不是孤立的句子和词汇。(4)语料的代表性(representativeness)。1.语料库简述
(5)真实语料需要经过加工处理(分析和标注),才能成为更有用的资源。(6)语料库是承载语言知识的基础资源。
(7)基于语料库的研究以量化研究为基石,以概率统计为基本手段,以“数据驱动”为基本理念。1.语料库简述
(8)语料库既是一种研究方法,又代表着一种新的研究思维,并以当代先进的计算机技术为研究手段。
(9)重要优势:资源优势;速度优势;精确度提高。(杨惠中,2002:36-40)
(10)语料库可以表明语言事实,但不能解释为什么,更不能直接说明应该怎样改进教学。1.语料库简述1.2发展第一代计算机语料库:20世纪60-70年代。
小规模(百万词级),以语言研究为导向,词法级。Brown、LOB、London-Lund
Corpus(LLC)。1.语料库简述第二代计算机语料库:20世纪80年代。
大规模(千万词级),词典编纂-应用导向,句法级。
Bank
of
English、Longman、ICE(TheInternational
corpus
of
English)。http://www.collins.co.uk/index.html1.语料库简述•第三代计算机语料库:20世纪90年代——超大规模(上亿词级),标准编码体系深度标注/多语种NLP应用,语义和语用级。BNC、LDC(语言学资料共享计划)、法兰西语
料库、俄罗斯国家语料库、NERC(欧洲参考资料语料库网/欧洲语料库网。1.语料库简述第四代语料库:互联网作为语料库。……可以把不断发展的因特网作为虚拟语料库。1.语料库简述1.3我国的语料库建设始于70年代末80年代初,发展迅速。例如:汉语现代文学作品语料库(1979),527万字;汉语词频统计语料库(1983):200万字次;国家语委现代汉语语料库(1991):7000万字次;中文五地区共时语料库:每年收入的语料达6亿至8亿多字次;北京大学CCL语料库:4.77亿字
:8080/ccl_corpus/index.jsp?dir=gudai;北京语言大学BCC语料库:150亿字,报刊、文学、微博,。1.语料库简述1.4汉语中介语语料库建设北语:汉语中介语语料库系统(1995)HSK动态作文语料库(2006)92:8060/hsk/login.asp汉语学习者口语语料库(2007)首都外国留学生汉语文本语料库(2008-10)1.语料库简述本世纪前10年建成的语料库:留学生汉语中介语语料库(暨南大学华文学院)
留学生书面语语料库:
/corpus3/Search.a
spx
口语语料库:
/corpus5/Default.
aspx汉字偏误标注的汉语连续性中介语语料库(中山大学):/外国学生汉语中介语偏误信息语料库(南京师范大学)1.语料库简述
2010年以来,关注语料库、建设语料库的人日益增多,汉语中介语语料库建设迎来繁荣发展的重要时期。
上海交通大学、厦门大学、北京大学、中国人民大学、北京师范大学、鲁东大学、苏州大学、四川外国语学院,等等2.语料库在语言研究中的作用2.1语言学研究为什么需要统计?
语言,无论从其本身的具体表现形式(言语)来看,还是从研究角度来看,都可以看作是个统计现象。(朱晓农,2008:31)
样本是从一个总体中取样而来的,而结果又会概化到总体中去。2.语料库在语言研究中的作用由于对“语言事实的观察是可以定量统计的”,研究中可以避免对某种语言现象使用“频度和罕见度的主观臆测”。(黄昌宁、李涓子,2002:153-156)2.语料库在语言研究中的作用2.2语料库的地位与价值
计算机语料库以其语料的充分性、客观性、可验证性、使用的便捷性,正在使语言学的研究与应用产生量与质的飞跃。
将计算机、软件和大语料库相结合,已经使语言学家看到了过去从未看到或想到过的现象,发现了过去从未留意过的类型。
基于语料库的研究方法,已经成为当代语言学和应用语言学研究中的一种主流方法。(王建新,2005:3)2.语料库在语言研究中的作用……语料库的使用,为语言学的研究提供了一种新的思维角度,辅助人们的语言“直觉”和“内省”判断,从而克服研究者本人的主观性和片面性,逐渐成为语言学研究的主流方法。……从某种意义上说,语料库的使用,是语言学研究的一次革命性的进步。(冯志伟,2006:14)2.语料库在语言研究中的作用2.3具体作用1)为语言研究及汉语习得研究提供客观依据。
2)为定量分析奠定了坚实基础,使研究具有普遍意义。3)为研究者提供语料来源和理论依据。4)验证以往的理论、观点。5)发现新的语言事实6)提高效率2.语料库在语言研究中的作用结论:(1)作用:看到新的语言现象;(2)理念:客观性、普遍性、稳定性;(3)影响:“拍脑袋”→科学。3.基于语料库的对外汉语教学研究3.1中介语语料库对语言教学的意义3.2词汇学习考察3.3对外汉语教学与习得研究的新模式3.基于语料库的对外汉语教学研究3.1中介语语料库对语言教学的意义:学习者语料库在语言教学中的价值是显而易见的。它为语言教学提供了有关学习者语言运用和典型困难的可靠信息。(Rundell,1996:6,转引自杨惠中2002:53)3.基于语料库的对外汉语教学研究达到一定规模的中介语语料库可以反映出学生在字、词、句、篇等方面的习得情况,可以告诉我们学生已经掌握了哪些语言现象,还没有掌握哪些语言现象;哪些偏误是具有普遍意义的典型现象,哪些是不具备普遍意义的偶然现象。从而使教学更有针对性,可以显著提高教学效率,提高对外汉语教学研究的水平。3.基于语料库的对外汉语教学研究例如:基于中介语语料库的汉语句法研究(赵金铭)基于中介语语料库的汉语词汇专题研究(张博)
外国学生汉语句式学习难度及分级排序研究(肖奚强)基于语料库的外国人汉语句式习得研究(张宝林)3.基于语料库的对外汉语教学研究3.2词汇学习考察
1)上世纪80年代以来,对外汉语词汇大纲的研
制渐成高潮,出现了包括《汉语水平等级标准和
等级大纲》[试行]、《汉语水平词汇与汉字等级
大纲》、《汉语水平等级标准与语法等级大纲》、《高等学校外国留学生汉语言专业教学大纲》等在内的一大批研究成果。3.基于语料库的对外汉语教学研究
“超纲词”:引起人们广泛关注。有研究认为,超纲词达到69%-85%,“导致课堂上无效输入量增大”。
《汉语水平词汇与汉字等级大纲》收词8822个。张凯、姜德悟都认为应达到10000至12000词;
李清华调查发现,大纲词汇量偏低正是造成中高级汉语教材超纲词过多的重要原因,提出汉语教学的词汇量应为15000左右。3.基于语料库的对外汉语教学研究
2)张、姜、李三位说的是《汉语水平词汇与汉字等级大纲》,而《高等学校外国留学生汉语言专业教学大纲》、《高等学校外国留学生汉语教学大纲(长期进修)》、《高等学校外国留学生汉语教学大纲(短期强化)》的词汇量也是不合理的。3.基于语料库的对外汉语教学研究大纲名称
学习时间
词汇量专业教学大纲4年7554长期进修大纲半年-3年8042短期强化大纲半年以内8000学习时间与要求掌握的词汇量严重不合逻辑!3.基于语料库的对外汉语教学研究
3)在“HSK动态作文语料库”(1.1版)中,考生用到的词汇总数为2,825,427个,不同的词
27,065个。其中:单音节词:2238;双音节词:18852;三音节词语:2936;四音节词语:2921;五音节以上的词语:118。3.基于语料库的对外汉语教学研究
用《汉语水平词汇与汉字等级大纲》衡量,共计用到纲内词7371个。其中:甲级:945
(1033-945=88)乙级:1858
(2018-1858=160)丙级:1877
(2202-1877=325)丁级:2691
(3569-2691=878)3.基于语料库的对外汉语教学研究超纲词共有19752。其中:单音节超纲词:701双音节超纲词:13406三音节超纲词:2741四音节超纲词:2786五音节以上超纲词:1183.基于语料库的对外汉语教学研究3)初步的分析与推测:
(1)现代汉语词汇以双音节词为主,单音节、三音节、四音节的词汇都相对较少,五音节以上的更少。考生使用词汇的上述情况是符合现代汉语词汇以双音节为主的实际的。
(2)考生使用的词汇数量按级别由低到高逐步递升:甲级词最少,丁级词最多,这种情况符合参加高等考试的学生的基本情况:都是高级阶段或准高级阶段的考生。3.基于语料库的对外汉语教学研究(3)甲级词使用率:98.44%乙级词使用率:95.28%丙级词使用率:88%丁级词使用率:75.61%低等级的词掌握得好,高等级的词相对差一些。符合第二语言词汇学习的自然规律的。
表明加强高等级词汇教学的重要性、必要性和紧迫性。3.基于语料库的对外汉语教学研究
(4)考生使用的词汇总数为27065个,在《汉语水平词汇与汉字等级大纲》中有的词仅为7371个,占27.23%;而超纲词有19752个,占72.98%。思考:
a.词汇等级大纲中的8822个词的数量太少,远远不能满足教学的实际需要;
b.大纲词汇数量少,学习者却掌握了如此众多的词汇,原因何在?——超纲词+实实在在的词汇教学。
超纲词带来的未必是“无效输入量”,而是学生词汇量的极大扩充。353.基于语料库的对外汉语教学研究4)词汇偏误概况在424万字语料中,词汇偏误共86266处,3大类:
1)缺词偏误,共17563处,约占词汇偏误总数的
20.36%。
2)多词偏误,共19422处,约占词汇偏误总数的
22.51%。
3)错词偏误,共49281处,约占词汇偏误总数的
57.13%。3.基于语料库的对外汉语教学研究有关研究表明:一年的稳态词语有18663个五年的稳态词语为13066个十年的稳态词语为12477个十五年的稳态词语为12183个20年的稳态词语为11833个。
稳态词语的研究为词汇等级大纲的研究提供了选词及确定收词数量的最为重要的依据。——基于“动态流通语料库”的研究3.基于语料库的对外汉语教学研究3.3对外汉语教学与习得研究的新模式语料库+定量分析+定性分析+实证研究↓基于大规模真实语料的、定量分析与定性分析相结合的实证性研究。4.语料库在对外汉语教学中的应用——卢伟以语料为基础的语言研究方法及其成果语料库,在对外汉语教学与研究方面可以得到广泛的应用。现代汉语语料库不仅可以为编制教学大纲提供定量依据,为编写教材提供真实的语言素材,为编纂教学专用辞书提供语料和语言信息,还有助于研究语言形式的语境意义和用法,有助于发现第二语言学习和习得的规律,有助于发现和修正语言规律,促进汉语研究和教学的发展。因此,有必要加强我国语料库建设及其在对外汉语教学与研究中的应用。4.语料库在对外汉语教学中的应用
4.1为研制汉语词汇、语法和汉字教学大纲提供科学的参考依据如果我们建成一个学科覆盖范围广泛的大规模现代汉语语料库为从事对外汉语教学和研究的人员提供大量反映各种语体和语域的真实语料,便于对现代汉语的字、词和语法项目进行更加科学、客观、准确的定量统计分析。可见,汉语作为外语或第二语言教学的各种等级大纲,如果能够建立在语料库提供的汉字、词汇和语法项目使用频率的定量统计基础上,就更具有广泛性、客观性、科学性和权威性,因而对教学实践和相关的学术研究也更有指导意义。2020-4.语料库在对外汉语教学中的03-1应9
用4.3.有助于研究语言形式在语境中的意义和用法如果没有语料库为我们提供大量的语言材料,仅仅依靠有限的语料对语言形式进行意义和用法研究,可能会因为材料不足导致研究结论不够准确全面。因此,利用语料库进行各种语言形式在语境中的语义和语用研究,可以避免分析和判断的失误,有助于更加全面准确地认识汉语语言形式在交际语境中的意义和用法,据此所进行的描写也更加可靠。4.语料库在对外汉语教学中的应用4.4可提供第二语言学习者的“中介语”(interlanguage)形式与人工收集有限的学生病句卡片资料相比,“中介语”语料库能够更加真实详尽地反映第二语言学习者的汉语中介语本来面貌,帮助我们更加全面系统地观察他们学习和习得汉语的过程,了解影响学习和习得的各种因素,所发现的规律反过来可以为第二语言教学的总体设计、教材编写、课堂教学、测试等各个环节的研究提供依据。此外,建立在中介语语料库基础上的偏误分析,也有助于预测和纠正第二语言学习者的言语错误。4.语料库在对外汉语教学中的应用4.5.为编写第二语言教学专用的辞书提供真实的语料和相关的语言信息如果对外汉语教学专用的汉语词典能够以大型的汉语语料库为基础,那么,这样的词典必将更加具有统计学的定量依据,对词语的意义和用法的描述也会更加客观全面,其科学性和权威性也就更强,对教学与研究也就更有参考价值。4.语料库在对外汉语教学中的应用4.6.有助于从汉语的实际使用情况中发现和修正语言规律以语料库的大量语料为基础所进行的语言研究,更有可能使语言研究者发现原有对某些语法现象的解释与自然语言中的实际情况不相符合,这就使得他们有机会去修正或补充前人的结论,促进语言研究不断发展。因此,语料库不但有助于汉语语言的应用研究,而且为高效、全面、科学地进行现代汉语的理论研究提供了强大的现代化技术保证,特别是在发现和修正语言规律方面大有可为。我国语料库建设发展较慢,这对于一贯重视利用真实语料进行语言研究的我国语言研究传统来说,显得很不适应,尤其是在对外汉语教学的应用方面。况且还有很多理论和技术问题没有解决。诸如怎样汲取和应用西方语料库语言学的研究方法和建库经验,现有的语料库规模偏小,语料标注加工的广度和深度不够,语料检索软件还有待改进,等等。4.语料库在对外汉语教学中的应用针对这些不足,我们认为至少必须重视以下几个方面的工作。首先必须继续学习西方语料库语言学的理论和方法,并结合汉语特点加以汲取和应用。其次,继续收集样本语料扩充并标注现有的语料库,使之语料更丰富,覆盖面更广,标注更科学。第三,有关部门统一组织力量研制不同用途的新语料库。第四,在技术方面,提高现有语料库的运行速度,引进国外的或者改进现有的标注和检索程序,开发新的工具软件,使语料检索更加方便快捷。第五,尽最大可能地发挥现有语料库的作用。已建成的语料库不要只局限于小范围内的研究人员使用,而
应该推向社会,至少应该对全国从事对外汉语教学与研究的人员开放。5.字形特征对汉字文化圈中高级水平学习者书写汉字的影响——基于“HSK动态作文语料库的观察”本文通过对“HSK动态作文语料库”中汉字的使用情况进行分析统计发现,在
汉字文化圈高级汉语水平学习者的书写任务中,笔画数效应显著,部件数效应和结构类型效应不显著。这三个字形因素对学习者书写汉字的影响程度不同。从错误率的平均值来看:独体字错误率显著低于多笔画独体字错误率,少笔画、中笔画和多笔画合体字的书写错误率显著递增。2部件、3部件、多部件合体字的错误率依次递增。5.1研究材料和方法本研究的语料来自“HSK动态作文语料库”,它是母语非汉语的学习者参加中国汉语水平考试HSK高等作文考试的作文语料库。424万字的语料共使用3880个汉字,累计使用3820326次。覆盖了2500常用字中的2452字,1000次常用字中的832字,合计3284字,占3500常用字的93.83%。本研究将这3284个字建立了数据库,主要字段包括汉字、笔画数、部件数、结构类型、使用频次、错误频次和错误率。本文主要参考了汉字字形因素对汉字书写的影响,所说的字的错误是指该语料库中标注为“错字”的情况,即字形书写有误。5.1研究材料和方法确定汉字笔画数的主要依据是“汉字属性数据库”(邢红兵,2007:148),该数据库在部件拆分上以《信息处理用GB13000.1字符
集汉字部件规范》(GF3001-1997)为准。确定部件数和结构类型的依据是《现代常用独体字规范》(GF0013-2009)和《现代常用字部
件及部件名称规范》(GF0014-2009)。这两个规范在部件和结构类型的界定上更符合汉字教学的需求和汉字习得的规律。为了便于统计和与同类研究进行比较,我们根据这两个规范将汉字的结构类型归纳为独体、左右、上下、包围和框架结构5大类。由于框架结构的字太少(3284字中只有9个),统计分析中暂且忽略了这种结构类型。5.2数据5.2.1独体、合体因素对汉字书写错误率的影响5.2数据5.2.2笔画数对独体
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 加油站租赁协议合同(2025版)
- 货物运输合同正规(2025版)
- 二零二五版长租公寓租赁合同范本
- 2025版电力系统智能化改造电力安装工程承包协议
- 2025版酒吧安保人员劳动合同书
- 二零二五年度医药代理销售合同范本含市场准入支持
- 2025年度房地产开发企业土地购置及开发合同范本
- 2025版专业渔船购置及运营管理协议
- 二零二五年度装配式建筑钢筋班组分包合同实施细则
- 二零二五年度环保清洁公司保洁员劳动合同模板
- 《慢性阻塞性肺疾病中医肺康复指南》
- 旅店会客登记制度
- 消防工程施工方案范本
- 会议室改造方案
- 高中英语40篇英语短文搞定高考3500词记忆本册单词背诵本带翻译
- 新生儿亚低温治疗及护理
- 二次根式计算专项训练150题含答案
- 2024年双簧管行业培训资料
- 医院信息化-刘帆
- 病案科应用PDCA提高病历归档合格率PDCA质量持续改进案例
- 量具能力准则Cg-Cgk评价报告
评论
0/150
提交评论