版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、语料库在外语教学研究中语料库在外语教学研究中的应用研修班的应用研修班8.1-8.38.1上午上午一、基本概念 真正的研究要用语料库来验证结果 Ts Text (readable) Type 类符 Token 形符 (语料库容量) Cs concordance 索引 collocation (词汇层面的搭配) colligation (类联接) context (一)梁茂成(一)梁茂成二、为什么要研究语料库语言学 1)使语言学研究更具科学性 2)可验证,不是玩具 3)大数据,更具说服力 4)enables you to look at a lot of language at once(二)李文
2、中(二)李文中lBrown-Raw 语料库范例 Span 跨距 (KWIC,一般左5右5) 检索排序(sort),以necessarily为例,观 察得出结论:经常与not连用。lWhy concordancing? 上下看强形式搭配,左右看综合分析用法。l基本概念 type (独特词形),token,KW/SW/Node word span (一个span可视作一个mini text) collocates (观察从collocationcolligationsemantic meaning) cotext, context, co-occurrence(同现),recurrence(复现)
3、 8.1上午上午Words cluster as people doe.g. Search: no attempt 用法 Regex: bnobsbattempts?(ed/ing)b 观察collocation and co-occurrence作业:hair: 单数与复数的隐喻 body metaphor(三)许家金(三)许家金lPowerConc设计原则设计原则 most powerful least effort doing more with less8.1上午上午基本操作基本操作lN-gram list:n词词表lHits:相当于 Token概念lItems:相当于Type概念lS
4、ize:包括单词、符号、数字lFilter mode:过滤掉不需要的 : datamin10, 即过滤掉频率10的词 : IS+|CS+表示介词+连词 exclude 表排除 不勾选表示选中l“Save distribution” 保存分布信息,即按文本单独保存。(一)李文中(一)李文中1. 标注信息的添加与使用标注信息的添加与使用 e.g. 用PowerConc检索 dataleanerseccl 问题:男生与女生在口语中使用情态动词有无差异 Step1 打开Sub-corpus creator,导入seccel(只能导入 单个文件夹),显示文本文件,勾选case sensitive(区分大
5、小写),file contains “T1=”,获得男生/女生文本,保存生成子库。 Step2 用PowerConc对两个子库进行比较。8.1下午下午2 趋势趋势 small & specific contrastive studies3 建库准备建库准备 建库原则,文本收集,文本分类,文本处理,标记(外部信息),标注(annotating notes,语言学标注) e.g. 1990Male(二)许家金(二)许家金 语料库采集与整理语料库采集与整理1. 基本要素基本要素 Text format: . txt Filename: short&alphanumeric(字母数字组
6、 合,不超过8词,不用汉字,不出现空格) encoding ANSI:英语,汉语 三种格式: UTF8:平行语料库 Unicode:其他语言 versions of corpora: RAW, POS, with metadata8.1下午下午2. 批量文件名修改批量文件名修改 insert SuperbBatchRenamer replace e.g.replace:空格1不填,空格2填 ST$,出现从1开始排序的新文件名。3. 文本清理,元信息标记、语言学标记文本清理,元信息标记、语言学标记(三)梁茂成(三)梁茂成 语料库的标注l标注与干净文本原则l标注的常见类型l词性标注l手工标注8.1
7、下午下午标注与干净文本原则标注与干净文本原则l标注(annotation): The process of applying additional information to corpus data.l标记(mark-up)与标注lSinclair和他的clean text policy (Sinclair认为语料库语言学应摒弃旧理论一切重来)l语料库语言学界对标注的态度(大部分研究者认为应该标注),世界最大的语料库Bank of English可以进行词类检索。l标注的主题标注的主题 1. 人工标注 (Brown语料库) 2. 机器标注(准确率97-98%)l标注的客体标注的客体 1. 语
8、音与音调的标注 2. 词性标注(part-of-speech tagging) 3. 句法标注(parsing,斯坦福大学做的较好) 4. 语义标注(semantic tagging) 5. 错误标注(error tagging 学习者语言,人工) 6. 停顿标注等。标注的常见类型标注的常见类型l标注必须基于科学、合理的分类体系 1. 与研究目的相关 2. 分类的穷尽性 3. 各子类不应该相互重叠 4. 关于“其他”类(应该是最小类)标注的常见类型标注的常见类型l标注集/赋码集(tagset)是标注中所使用的代码集,是对分类体系的操作化。lTagset: A collection of tag
9、s (or coldes) in a tagging scheme.lCaution: A tagset usually adheres to a particular decriptive 词性标注词性标注l常见的词性标注工具 (POS-tagger) ANSI符号,_, / 1)Brill Tagger, 最早的词性标注,基于规则的 2)ClAWS,130多个代码,准确,但付费, Lancaster大学开发。 3)TreeTagger, 30多个代码,准确率高,免费, 能对多语言进行标注。 word_Pos1)自动标注)自动标注 TreeTagger word-Pos_Lemma(原形)
10、2) 手工标注手工标注: BFSU Qualitative Coder8.2上午上午(一)梁茂成一)梁茂成 手工标注手工标注 BFSU Qualitative Coder 1.1 1)根据codelist,修改制定需要的mycodelist 2)打开BFSU Qualitative Colder 3) 打开需标注的.txt文档,导入mycodelist,进 行手工标注 4)BFSU中可做统计(点statistics,跳出网页) 5)保存为.txt文档后,用powerconc检索分析,如:检索 free hand语料库的手工标注语料库的手工标注(二)李文中(二)李文中 主题词分析主题词分析l 分
11、析文本时注意备份,把需分析的语料放入新建的文件夹中。l 练习:使用语料:04Academic/4Genres_RAW/Four_Genres/01_General_corpora/Data 8.2上午上午1. 创建创建2个对比文件夹,用个对比文件夹,用PowerGREP转换转换格式,并把格式,并把text放入这放入这2个文件夹个文件夹Step1:新建文件夹1:observeText 新建文件夹2:referenceCorpusStep2:安装PowerGREP Step3: 设置PowerGREP(preferencegeneral,勾选1、2空格)Step4: 格式转换(格式转换(UTF-8
12、转换成转换成ANSI):): 1) 找到04Academic,单击右键单击右键,出现search with PowerGREP(若有子文件,选第search subfolders) 2) Action type collect data, 并勾选Dot matches newlines 3) search:输入 (A.*?z) ,需在英语状态下输入。 collect:输入 $1($指向括号,1代表第一个括号) 4) Target file creation 选择 save one file for each searched file Target file location 选择刚才新建文件
13、夹referencecorpus Target file text encoding 选择 Windows936,即ANSI Back file naming style 选择 no backups5) 点击 collect6) 回到新建文件夹referencecorpus查看,已有ANSI文档生成。Step5 主题词表生成主题词表生成1) 从referencecorpus中拷贝Text10到observeText文件夹中。 到此为止,人为做成两个用于练习的对比语料库。2)生成主题词表2)生成主题词表)生成主题词表 打开PowerConc, 导入referencecorpus进行N-gram统
14、计,结果save到PowerConc根目录下,命名为academicOnewordlist. 打开academicOnewordlist, 删除前4行,保存。 再打开PowerConc,导入observetext,N-gram,count,出结果后,点击keyness,出现load Ref.wordlist,导入academicOnewordlist, count自设主题词临界值,如前20词,按照by value进行比较。理据理据l我们对真实世界的理解表达为知识我们对真实世界的理解表达为知识l知识表现为不同的语义场知识表现为不同的语义场l语义场表现为各种词语场语义场表现为各种词语场l各种词语场
15、实现为各个词群(单词或短语)各种词语场实现为各个词群(单词或短语)l特定话题触发独特词群特定话题触发独特词群l具有特定话题的文本包含独特词群,该词群一具有特定话题的文本包含独特词群,该词群一般不在其它话题中出现般不在其它话题中出现因此因此l某个特定话题的文本包含的独特词群具有异常某个特定话题的文本包含的独特词群具有异常高频高频l参照语料库代表了某一类型语言运用的常态参照语料库代表了某一类型语言运用的常态l对比两个词表,可以提取那些超常高频的词群对比两个词表,可以提取那些超常高频的词群比什么:条件控制比什么:条件控制l控制相似变量控制相似变量l突出差异焦点突出差异焦点描述描述l观察文本观察文本
16、具有明确主题的完整文本或一致主题的文本集具有明确主题的完整文本或一致主题的文本集l参照语料库参照语料库 具有足够的代表性具有足够的代表性 足够大足够大 同质语料同质语料 主题词表观察文本 参照语料库(三)(三) 许家金许家金语料库三大功能语料库三大功能 1. concordance 索引 2. N-gram 词表 3. 主题词表8.2上午上午Aspects of LT methodologyl语言观语言观l语言学习观语言学习观l教学实施方案教学实施方案两大教学法之一:听说法两大教学法之一:听说法l语言观:语言观:结构主义结构主义 (音标、词汇等构成的)l语言学习观:语言学习观:行为主义行为主义
17、 (行为主义)l教学实施方案:教学实施方案:句型操练句型操练两大教学法之二:交际法两大教学法之二:交际法l语言观:语言观:功能主义功能主义l语言学习观:语言学习观:交际与互动交际与互动l教学实施方案:教学实施方案:任务教学、小组活动任务教学、小组活动What and howl教什么教什么l怎么教怎么教词汇中心教学法词汇中心教学法lThe Lexical Approachl许家金,2009,词汇中心教学法的交际观:理论溯源与反思,中国外语教育(4):38-45.基本观点基本观点l词汇中心教学法坚持以词项(词汇中心教学法坚持以词项(lexis)单词短)单词短语结构为基本单位的语言观;重视频率在大缸
18、语结构为基本单位的语言观;重视频率在大缸设计及教学中的作用;词汇中心教学法本质上设计及教学中的作用;词汇中心教学法本质上采取的是交际法,它强调将词项置于真实语言采取的是交际法,它强调将词项置于真实语言素材中,并贯穿于真实任务中加以学习。同时素材中,并贯穿于真实任务中加以学习。同时提倡学生自主的发现式学习。提倡学生自主的发现式学习。基本观点基本观点l然而,由于过分依赖频率信息,语言观和语言然而,由于过分依赖频率信息,语言观和语言教学完全基于词项,将词汇中心教学法嫁接于教学完全基于词项,将词汇中心教学法嫁接于任务型教学且缺乏创新,归纳式的自主。任务型教学且缺乏创新,归纳式的自主。实例演示实例演示l
19、新闻英语教学设计新闻英语教学设计l以新闻英语常用动词教学设计为例以新闻英语常用动词教学设计为例lpowerConc with China Daily Political new 2011 得出结论:得出结论: reporting verbs: said told added 检索检索make,2-gram词表词表 make +adj 教学实施要点教学实施要点l真实语言材料,真实语境l频率优先原则(材料的编排与选择)l归纳式、发现式学习l常用词语、常用结构、常用义项(先学先教)答疑答疑l参照语料库是观察语料库的5倍为宜。lTreetagger依据是传统语法,不需保存,自动保存。l语义的褒贬,只能
20、手工标注l不要用于诗歌的分析,诗歌追求个性,语料库强调频率。l词性合并:词性合并: 将100多词性合成为8种左右,通过n-gram词性,排序分析。 具体做法具体做法: PowerConc Pos Categeries load list load“PowerConc/Sys/ClawsTagger Pos-reduction” Data Type选择Poscategory Count(N-gram list) (一)梁茂成(一)梁茂成l正则表达式正则表达式 1)Treetagger对crobRaw进行标注 2)安装EditPadPro对1)中的pos文件进行检索练习,具体做法: * 打开1个文
21、本 * search show search panel * 右下角勾选regular expression (如区分大小写,勾选case sensitive) * 练习:w 所有字母,除空格和标点 S+_DTsS+_NNS 检索”定冠词+名词复数“,检索可由”常量+变量“组成 3)用PowerGREP检索刚刚标注过的文本 results选项: matches without context, per unique match, show totals grouped matches 检索结果拷贝到EditPadPro进行编辑,删除无用信息。 做法如下:8.2下午下午EditPadPro对检索
22、结果行编辑对检索结果行编辑l用search&replace删除无用信息 D.*?rn+ 替换成 d+t.*?t D.*?Corpus match in.*? (d+)ss(Academic.*?) 替换成 $2t$1returnnew line制表符制表符tab例例1:检索:检索 “冠词冠词+(adv.)adj.+n”例例2: 检索检索所有动词的完成时所有动词的完成时Regex:S+_VHS?sS+sVBDHVN 检索生成结果,可通过search&replace,用正则表达式清理数字等,拷贝到Excel制成表格。(二)许家金(二)许家金 类联接类联接lKey Points *
23、Colligation: From “c”to “g” * BFSU PowerConc * Case studiesColligation: From “cto “g”lBoth collocation and colligation tell about the co-occurrence or co-selection.* collocation L5 L4 L3 decision L1 make R1 decision R3 R4 R5* colligation L5 L4 L3 NN1 L1 VV0 R1 NN1 R3 R4 R5Colligation: From “cto “g”*
24、 英语进行体的对比研究* 情态序列研究 (语料:02_Learner_corpora)练习:检索练习:检索it is adj that句型句型lIt_S+sS+_VBS*sS+_JS+sthat_S+lPowerConc可以简化正则表达式,方法如下: load corpus 勾选Lemmatize,表示包含所有动词的原形 勾选 Pos categorise load list (检索工具02BFSUPowerConc/sys/Claws7Tagset_POS_reduction.txt) (我的理解: 可以根据Claws7Tagset_POS_reduction.txt改写成自己想要的redu
25、ction.txt) 这样,就可以用reduced的正则表达式 e.g. S+_VM可用* VM代替(*代表一个单词,与VM间有空格) its adj that句型可以表示为 itbe #adj that (三)李文中(三)李文中语料库用于X教学?X=翻译,听力,阅读,写作,口语-data-driven learning or learning-driven data语料库用于文学?- descriptive vs interpretativeTechnophobia or technomaniacobjectiveslTo identify patterns of unusually hig
26、h co-occurrence - co-occurrence: node+ collocateslDifferent co-occurences - culturally or mentally co-occurences: cow-milk, morning-tea - frequency of co-occurrence - range of co-occurenceQuestions to ponderlWhat research hypotheses or questions have I formulated?lWhat observations could I make in a
27、n attempt to test my hypotheses or answer my research questions?lDo I know what I am looking for?Only know part of what I am searchingl-intra-word focus: bw+s|zationbl- inter-word focus: (w+)s$1(重复前面的词) 如 very very good 作业作业正则表达式检索 1) 所有V:S+_VS+ 所有N:S+_NS+ 过去分词:S+_VwN 2) 被动语态: long passives short pa
28、ssives 哪些动词趋向于long, 哪些趋向于short. 3) 虚拟条件句 (一)梁茂成(一)梁茂成 rec.9建库论证结合学科,涉及学科本质问题采样标准转写或文本采集规模,各部分的比重文本清洁标注集确定标注语料库软件建设与开发软件语料库应用外语教学外语研究8.3上午上午工具工具lPowerConc: 词汇分析,主题词分析,检索,类联结,通用工具lTreeTagger: 自动标注lBFSU Qualitative Coder 手工标注lEditpad Pro 练习正则表达式,建议替换记事本lPowerGREP 文本整理和清洁,批量替换。例1:“一个空格”替换“一个/多个空格/tap键”,
29、不能选dot matches new line,把s+, t+替换成s例2:码词混合显示的实现:用PG的替换功能(二)(二) 许家金许家金l语料库驱动语料库驱动(corpus-driven) 从无到有Corpus driven, trust the text, trust the text onlyl基于语料库基于语料库(corpus-based) 对已有的认知加以验证案例案例1l验证Chinglish narrow down,from vague to concrete find research gapl选题 中国学习者英语口头叙事中的话语中国学习者英语口头叙事中的话语评价评价研究研究 用
30、语料库的方法做二语习得研究Eight conceptual domainslJarvis & Pavlenko(2008)summarises 8 conceptual domains for cross-linguistic influence. i.e.l运动概念 Motionl物体表征 Object l情感模式 Emotionl人称范畴 Personhoodl性别范畴 Genderl数的范畴 Numberl时体范畴 Timel空间模式 Space DatalPear Stories (China Pears Corpus) -800 subjects, corpus size c
31、a. 1m words/charactersl60 texts by 30 Applied Linguistics major graduates narratives -30 SP English, 30 SP Chinesel30 native English speakers spoken narragtives 采用的不是常规意义的语料库,只是一种语料库方法采用的不是常规意义的语料库,只是一种语料库方法Pear story film:l30个中国学生,30个英美学生l讲述同一个图片故事中介语综合对比中介语综合对比 BFSU手工标注软件使用补充手工标注软件使用补充手工标注中的自动标注手工
32、标注中的自动标注Autocode设置设置 codelist,autocode后检查修正。后检查修正。(三)(三) 李文中李文中lPut it all together研究案例研究案例2:研究问题:研究问题:l专业英语学生口语和笔语中对各个词类的使用专业英语学生口语和笔语中对各个词类的使用是否存在差异?是否存在差异?l如果存在差异,其差异特征有哪些?如果存在差异,其差异特征有哪些?工作流程工作流程1. 准备文本准备文本 建立文件夹,拷贝文件,重命名文件2. 赋码赋码 打开treetagger, 赋码3. 生成词表生成词表 PowerConc,赋码表4. 统计检验统计检验 打开打开LL.xls(已
33、存(已存log-likelihood统计表格,能自动计算)统计表格,能自动计算) 对比语料库(同质平行比较(size可以一样大)-各自特点,观察与参照(5倍)比较-主题词) Log-likelihood(对数似然值) 3.84 sig. P0.05,存在显著性差异5. 解释结果解释结果6. 讨论讨论 具体操作具体操作1)准备语料:)准备语料: 把语料放入两个文件夹 spokendata, writtendata2)赋码:)赋码: 用treetagger赋码3)改文件名)改文件名 Powerconc无法打开.pos文件,所以要用PowerGREP批量改文件名。 选择文件夹右键“search wi
34、th PowerGREP”search type“rename files” search”(S+.txt).pos” replacement “$1”rename 凡是正则表达式中有的符号,需要在之前加(escape),使得后 的符号不具备正则表达式的符号含义。 4)转码:)转码: 1)action type: collect 2)勾选dot matches newlines 3)search (A.*?z) 4)collect $1 5)encode file naming style: 9365)生成词码表进行)生成词码表进行“主题词主题词”对比对比(written & spok
35、en两个词码表)PowerConc Data type: POScount保存 1)written语料库词码生成保存,删去前4行 2)spoken 语料库生成词码,keyness,count, 保存两个语料库的对比词码表a。 3) 用Excel打开词码表a 4)把word, freq1, freq 2三栏拷贝到LL.xls进行计算,观察log-likelihood和sig.结果 5)用PowerConc 检索显著性差异的词码,进行讨论分析。 (四)(四) 梁茂成梁茂成 rec.11l词与多词单位词与多词单位l多词单位提取方法多词单位提取方法l案例分析:学习者书面语中的词块分析案例分析:学习者书
36、面语中的词块分析作业回顾作业回顾l被动语态1)EditPadPro S+_VBS?s(S+_RS+s)*S+_VSNs2) 拷贝到PowerGrep检索lIf非真实条件句 bif_S+s(|S+_w+s)would_S+词与词块词与词块l词在传统语言学中的地位词在传统语言学中的地位l意义单位和短语学的兴起意义单位和短语学的兴起 案例分析案例分析案例分析案例分析案例分析案例分析案例分析:学习者书面语中的词块分析案例分析:学习者书面语中的词块分析l高分作文(30)的词块提取出来l低分作文(90)中用了多少高分作文中的词块l即用30篇作为尺子来衡量90篇lHits相当于形符lItem相当于类符lRe
37、sult拷贝到Excel,重新拷贝粘贴到excel新文档,“选择性粘贴转置”,获得竖列数据。PowerConc加载加载90篇篇Concordance:batch search 搜出索引行搜出索引行右下角右下角Stats.出现下面结果,出现下面结果,保存为保存为result.txt.Editpadpro打开打开result.txt,把不需要的部分删,把不需要的部分删除,保存。拷贝到除,保存。拷贝到Excel。 excel文档拷贝粘贴到excel新文档,“选择性粘贴转置”,获得竖列数据。从从120篇作文中篇作文中(excel文档文档)按照分数高低取后按照分数高低取后90篇篇作文,拷贝到刚才的的作文
38、,拷贝到刚才的的excel文档,确保一一对应,文档,确保一一对应,然后用然后用SPSS做分数与词串使用频率的相关性分析。做分数与词串使用频率的相关性分析。分数与频率的相关性分析分数与频率的相关性分析 (一)(一) 许家金许家金1.光盘内容提示光盘内容提示2.图书和文献资料图书和文献资料3.可利用的网络资源可利用的网络资源4.老师联系方式老师联系方式5.iResearch咨询交流平台咨询交流平台8.3下午下午资源资源l语料库:库语料库:库 + 一套工具一套工具 1)Generalcorpora 一般在一般在100万以上万以上 2)Crown_CLOB与与Torch可以对比研究:可以对比研究: 时间相近,采集样本方式一致,都包含时间相近,采集样本方式一致,都包含15 个领域。个领域。 3) 视频,视频,subtitles可以下载,多语种可以下载
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 租赁厂房合同协议
- 招标文件评审的实践操作与评审标准
- 家庭护理家政工雇佣合同
- 土地居间合作合同书
- 现金赎楼服务合同还款还款监管政策
- 借款保证协议模板
- 个人社会救助借款合同范本
- 河砂砾石采购协议
- 林业采伐合作合同
- 抗洪项目论证招标
- 卵圆孔未闭封堵术术前宣教
- 中建室外落地式卸料平台施工方案
- 《回收式自身输血》课件
- 自主实习申请表
- 医用耗材配送服务方案
- 2022-2023学年广东省清远市英德市人教PEP版五年级上学期11月期中英语试卷
- 2021 IPC-1401A中文版 企业社会责任管理体系标准评审稿
- FREE高考英语核心词汇1783
- 武松人物介绍
- 比色法和分光光度法
- 化学概论知到章节答案智慧树2023年东北师范大学
评论
0/150
提交评论