版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
(优选)常见语料库使用入门ppt本文档共58页;当前第1页;编辑于星期一\16点55分PPT模板下载:行业PPT模板:节日PPT模板:素材下载:PPT背景图片:图表下载:优秀PPT下载:教程:Word教程:教程:资料下载:课件下载:范文下载:试卷下载:教案下载:论坛:
主要部分第一节
语料库及其分类第二节公共语料库检索第三节
个人语料库创建0本文档共58页;当前第2页;编辑于星期一\16点55分第一节语料库及其分类本文档共58页;当前第3页;编辑于星期一\16点55分语料库及其分类1语料库(corpus):存放语言材料的仓库。现代的语料库是指存放在计算机里的原始语料文本或经过加工后带有语言学信息标注的语料文本的汇集。三点基本认识:A.必须是实际使用中真实出现过的语言材料;B.须以计算机为必要载体;C.材料分析加工后才有用。本文档共58页;当前第4页;编辑于星期一\16点55分语料库及其分类2本文档共58页;当前第5页;编辑于星期一\16点55分语料库及其分类3本文档共58页;当前第6页;编辑于星期一\16点55分第二节公共语料库检索本文档共58页;当前第7页;编辑于星期一\16点55分公共语料库检索4统计频率
查找例句验证分析参数设置带着问题收集证据基于检索本文档共58页;当前第8页;编辑于星期一\16点55分公共语料库检索5我国21个知名语料库01.中央研究院近代汉语标记语料:02.中央研究院汉籍电子文献:03.国家现代汉语语料库:1:8080/04.国家语委现代汉语语料库:05.树图数据库:06.语料库语言学在线:07.北京大学CCL语料库:本文档共58页;当前第9页;编辑于星期一\16点55分公共语料库检索6我国21个知名语料库08.北京大学《人民日报》标注语料库:09.北京语言大学的语料库:10.清华大学TH-ACorpus:11.山西大学语料库:12.台湾南岛语典藏:13.闽南语典藏:14.香港城市大学LIVAC共时语料库:本文档共58页;当前第10页;编辑于星期一\16点55分公共语料库检索7我国21个知名语料库15.浙江师范大学的历史文献语库:16.中科院计算所语料库:17.中文语言资源联盟:18.SKETCHENGINE多语言语料库:19.LIVAC共时语料库:20.红楼梦汉英平行语料库:21.北京语言大学BCC语料库:本文档共58页;当前第11页;编辑于星期一\16点55分公共语料库检索8国外18个知名英语语料库01.国际英语语料库(ICE):02.美国国家语料库(ANC):http://www.anc.org/03.美国当代英语语料库(COCA):http://www.americancorpus.org/04.美国近当代英语语料库(COHA):http://05.英国国家语料库(BNC):http://06.柯林斯英语语料库(BOE):http://www./wordbanks/07.英国英语语料库(SEU):08.澳大利亚英语语料库(ACE):09.新规范语料库(NMC):http://www.s本文档共58页;当前第12页;编辑于星期一\16点55分公共语料库检索9国外18个知名英语语料库10.LLC口语语料库:.uib.no/icame/manuals/11.COBUILD语料库:http://www.12.ICE东非等分库:13.ARCHER语料库:14.CEECS语料库:l.htm15.SCTS语料库:http://www./16.VOICE语料库:17.ELFA语料库:18.朗曼语料库:http://www.long-/dictionaries/corpus/index.html本文档共58页;当前第13页;编辑于星期一\16点55分公共语料库检索10小问题:
一种语言现象我们至少得收集多少条语料呢?徐杰教授认为,语料多多益善,至少应收集500条。大数定律(LawofLargeNumbers):
指在随机试验中,每次出现的结果不同,但是大量重复试验出现的结果的平均值却几乎总是接近于某个确定的值。本文档共58页;当前第14页;编辑于星期一\16点55分公共语料库检索11由收集验证到实证分析需要学点统计学抽样与调查离散与连续频率与分布描述与图示样本与总体估计与检验统计置信区间T检验本文档共58页;当前第15页;编辑于星期一\16点55分公共语料库检索12由收集验证到实证分析需要学点统计学集中趋势的特征数:平均数、众数、中位数、调和平均数、几何平均数变异程度的特征数:极差、四分位差、平均差、方差、标准差参数估计与假设检验——以样本对总体的推断一般步骤(1)明确问题(2)收集信息(3)提出假设(4)构建模型(5)模型求解(6)分析检测本文档共58页;当前第16页;编辑于星期一\16点55分公共语料库检索13由收集验证到实证分析需要学点统计学在自然现象和社会现象中,大量的随机变量都服从或近似地服从正态分布。大部分参数检验,比如t检验,方差分析,回归分析等,要求数据符合正态分布。三个基本点:1)呈钟形,形态如左图;2)两个参数,均值和标准差;3)图象大致表示:平均数周围的属性值在总体上占到大多数。正态分布本文档共58页;当前第17页;编辑于星期一\16点55分公共语料库检索14公共语料库的检索说明——以BCC语料库为例初阶的进阶的仅输入关键字查找关键字特殊符号检索式搜索语料库检索≠百度一下本文档共58页;当前第18页;编辑于星期一\16点55分公共语料库检索15公共语料库的检索说明——以BCC语料库为例统计本文档共58页;当前第19页;编辑于星期一\16点55分公共语料库检索16公共语料库的检索说明——以BCC语料库为例检索式说明检索式可以是字串、词串、词性的组合而成的查询模式。例如:如果检索“我想吃”后面紧接着一个名词的语言实例,检索式为:我想吃n,这里n是词性符号,表示名词。本文档共58页;当前第20页;编辑于星期一\16点55分公共语料库检索17公共语料库的检索说明——以BCC语料库为例检索式示例本文档共58页;当前第21页;编辑于星期一\16点55分公共语料库检索18公共语料库的检索说明——以BCC语料库为例检索式示例本文档共58页;当前第22页;编辑于星期一\16点55分公共语料库检索19公共语料库的检索说明——以BCC语料库为例特殊含义符号本文档共58页;当前第23页;编辑于星期一\16点55分公共语料库检索20公共语料库的检索说明——以BCC语料库为例特殊含义符号本文档共58页;当前第24页;编辑于星期一\16点55分公共语料库检索21公共语料库的检索说明——以BCC语料库为例词性列表本文档共58页;当前第25页;编辑于星期一\16点55分公共语料库检索22公共语料库的检索说明——以BCC语料库为例构词本文档共58页;当前第26页;编辑于星期一\16点55分公共语料库检索23公共语料库的检索说明——以BCC语料库为例构词合成词本文档共58页;当前第27页;编辑于星期一\16点55分公共语料库检索24公共语料库的检索说明——以BCC语料库为例搭配本文档共58页;当前第28页;编辑于星期一\16点55分公共语料库检索25公共语料库的检索说明——以BCC语料库为例离合本文档共58页;当前第29页;编辑于星期一\16点55分公共语料库检索26公共语料库的检索说明——以BCC语料库为例句型本文档共58页;当前第30页;编辑于星期一\16点55分公共语料库检索27公共语料库的检索说明——以BCC语料库为例定界本文档共58页;当前第31页;编辑于星期一\16点55分公共语料库检索28公共语料库的检索说明——以BCC语料库为例构式本文档共58页;当前第32页;编辑于星期一\16点55分公共语料库检索29公共语料库的检索说明——以BCC语料库为例构式本文档共58页;当前第33页;编辑于星期一\16点55分公共语料库检索30公共语料库的检索说明——以BCC语料库为例自定义搜索本文档共58页;当前第34页;编辑于星期一\16点55分公共语料库检索31公共语料库的检索说明——以BCC语料库为例检索结果本文档共58页;当前第35页;编辑于星期一\16点55分公共语料库检索32公共语料库的检索说明——以BCC语料库为例历时检测本文档共58页;当前第36页;编辑于星期一\16点55分公共语料库检索33公共语料库的检索说明——以BCC语料库为例检索统计本文档共58页;当前第37页;编辑于星期一\16点55分公共语料库检索34公共语料库的检索说明——以BCC语料库为例筛选查看上下文如果想对检索结果进一步筛选,可以使用筛选功能,对检索结果进一步剔除或者仅仅保留符合筛选检索式的实例。本文档共58页;当前第38页;编辑于星期一\16点55分公共语料库检索35公共语料库的检索说明——以BCC语料库为例下载高级设置本文档共58页;当前第39页;编辑于星期一\16点55分公共语料库检索36公共语料库的检索说明——以BCC语料库为例句法树本文档共58页;当前第40页;编辑于星期一\16点55分注意检索格式多摸索多使用
依据调查需要设置调查项目学点儿统计学学点编程语言
公共语料库检索37本文档共58页;当前第41页;编辑于星期一\16点55分第三节
个人语料库创建本文档共58页;当前第42页;编辑于星期一\16点55分个人语料库创建38材料/工具准备阶段1、电脑、办公软件2、语料的选取标准3、语料库大小设定4、已收好集的语料5、采取txt格式保存生语料库熟语料库加工标注词性标记句法标记词义标记篇章指代标记韵律标记……若只是要词频数据,则生语料库足够,word/wps或txt记事本都可以建立word/wps的“查找替换”工具即可,txt记事本的“编辑-查找”工具也行。“宏”本文档共58页;当前第43页;编辑于星期一\16点55分个人语料库创建39熟语料库加工阶段需要工具/材料:1、电脑、办公软件2、语料库加工工具2、语料的选取标准3、语料库大小设定4、已存的生语料库5、采取txt格式保存本文档共58页;当前第44页;编辑于星期一\16点55分个人语料库创建40熟语料库加工阶段可以采用这个工具双击打开软件本文档共58页;当前第45页;编辑于星期一\16点55分个人语料库创建41熟语料库加工阶段需要说明的是:自己找到的语料库必须是已经集中放好到“语料库”这样的文件夹中。点击打开文件本文档共58页;当前第46页;编辑于星期一\16点55分个人语料库创建42熟语料库加工阶段打开“语料库”文件夹本文档共58页;当前第47页;编辑于星期一\16点55分个人语料库创建43熟语料库加工阶段比如,选择“痴人”这个语料本文档共58页;当前第48页;编辑于星期一\16点55分个人语料库创建44熟语料库加工阶段然后,点击“切分标注”即可本文档共58页;当前第49页;编辑于星期一\16点55分个人语料库创建45熟语料库加工阶段然后,点击全选,复制到新建的一个txt文档,保存文件,得到一个熟语料然后,把新存的那个熟语料文件保存到一个新建的“熟语料库”文件夹中依据此法,逐一对生语料库中的单个语料进行“词性标注”,然后逐一保存到“熟语料库”中。这时,初加工的自建熟语料库的完成了。本文档共58页;当前第50页;编辑于星期一\16点55分个人语料库创建46语料库的检索阶段双击该软件进入界面推荐使用的软件AntConc本文档共58页;当前第51页;编辑于星期一\16点55分个人语料库创建47语料库的检索阶段接下来,英语不好的话,可以设置语言,点击“GlobalSettings”菜单,找到“LanguageEncodings”,点击该菜单,再点击右手边的“Edit”,这时会弹出一些选项,选择“ChineseEncodings”,在选择该项目右边的“Chinese(euc-cn),最后点击右下方的“Apply”。本文档共58页;当前第52页;编辑于星期一\16点55分个人语料库创建48语料库的检索阶段这时,会自动回到这个界面本文档共58页;当前第53页;编辑于星期一\16点55分个人语料库创建49语料库的检索阶段点击“File”选项,再选择“openfiles”,然后得找到“熟语料库”文件夹,点击。本文档共58页;当前第54页;编辑于星期一\16点55分个人语料库创建50
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024劳务安全生产专项合作合同版B版
- 2(2024版)城市基础设施建设项目合同
- 2024商业房产转让协议模板简化版版B版
- 2024年大数据分析:市场调查与消费者行为研究合同
- 2024家装油漆施工合同范本
- 2024委托检验协议书
- 2024年工程合作三方保证金合同范本版B版
- 2024年定制规格片石订货协议版B版
- 2024年个人借款协议简化格式
- 2024年度9A文卫星遥感应用技术开发合同
- GB/T 36547-2024电化学储能电站接入电网技术规定
- 2025届高三化学一轮复习 电离平衡常数及其应用(公开课)课件
- GB/T 19342-2024手动牙刷一般要求和检测方法
- 2024年度仓储管理外包协议
- 售后服务人员培训资料课件
- 中小学生安全事故
- 2024年港股通知识测评试题
- 新疆2024年中考化学真题(含答案)
- 中华传统文化之戏曲瑰宝学习通超星期末考试答案章节答案2024年
- 2024年山东省淄博市中考地理试题卷(含答案及解析)
- 非遗漆扇扇子科普宣传
评论
0/150
提交评论