基于Web检索的陕北民歌语料库设计_第1页
基于Web检索的陕北民歌语料库设计_第2页
基于Web检索的陕北民歌语料库设计_第3页
基于Web检索的陕北民歌语料库设计_第4页
基于Web检索的陕北民歌语料库设计_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于Web检索的陕北民歌语料库方案摘要:运用语料库语言学的根本不雅点,探究陕北民歌语料库构建原那么及eb办理体系的方案实现方案了陕北民歌aess语料数据库,此中包罗全文语料数据表、句子语料数据表、陕北民歌词表数据表共3个。先容语料库的在线检索和办理成效,提出字词频统计成效和eb在线检索成效实现的要领,开拓基于asp的陕北民歌开放性语料库eb办理体系,用户可以便利地通过ie欣赏器举行语料检索、词频统计、语料提取等操纵。关键词:语料库;陕北民歌;频度统计;eb检索中图分类号:tn911-34;tp311文献标识码:a文章编号:1004-373x(2022)22-0038-02designfflks

2、ngrpusbasednebretrievalzhangtng-xuan(anageentffiefsuthapus,einanteaheruniversity,einan714000,hina)收稿日期:2022-06-28基金工程:渭南师范学院2022专项基金帮助工程(10ykz055)语料库作为底子研究是比年来应用语言学研究的一个紧张生长。创立陕北民歌语料库是一个浩荡工程,也是陕北民歌研究获得新打破的底子工程。陕北民歌是特定的期间、特定地理情况中的特定产物,是陕北劳感人民抒发情感的最妙本领。陕北民歌研究始于20世纪初,到20世纪80年代中后期,在各个方面的研究都获得了不少效果1。不外,传

3、统研究每每着眼于作品的人文及艺术特性,研究者多数依赖自身精良的文化修养与“强闻博记,凭感悟直接掌握作品的内在,对作品的语言全貌举行横向或纵向的精细阐发时,每每显得力有未逮2。20世纪80年代以来,随着盘算机应用技能的不竭生长,以语料库为底子的研究在语言学和盘算机科学研究中都获得了丰富的效果。无论是在语言学研究,照旧在天然语言处置惩罚范畴,语料库都已经成为紧张的底子资源,发挥了越来越紧张的作用。1陕北民歌语料库方案1.1陕北民歌语料库建立原那么语料库通常指为语言研究网络的、用电子情势保存的语言质料,由天然出现的书面语或白话样本搜集而成,用来代表特定语言或语言变体。通过语料库可以不雅察和掌握语言终

4、究,阐发和研究语言体系纪律。语料库已经成为语言学理论研究和语言工程不成缺少的底子资源,对它的研究已生长成为一个跨世纪、跨学科的语言研究学科。陕北民歌语料库是“专用性语料库(speializedrpus),是为陕北民歌研究办事的。在语料样本的选择上,力图反响陕北民歌语言的真实面目,以网罗到的民歌原始文本作为样本。单个语料样本的巨细是由原始文本的篇幅决定的,篇幅较小的原始样本单独成篇,作为一个样本,篇幅较大的(如陕北说书、陕北道情等)那么切分成巨细相称的片断,每个片断作为一个样本。如许的语料样本提供的上下文语境更为普及,越发得当举行语篇研究。在语料的代表性上,一是保持白话语料与书面语料的平衡,如实

5、反响陕北民歌的根本面目,语料库以民间网罗的白话文本为主,同时分身种种已经汇编出书的陕北民歌著作;二是保持方言语料与平凡话语料的平衡,以网罗本地原生态民歌(特殊是网罗年事大、没有担当过文化教诲的老年人唱的土歌)为主,得当网罗一些专业歌手的新陕北民歌。1.2陕北民歌语料数据库方案陕北民歌语料库中样本没有举行语言属性标注,建立的语料库是“生语料库。按照研究者对语料库的检索要求,该语料库方案研制了3个数据表,一是全文语料库数据表,即每个语料库样本作为一条数据记载存放在数据表中,以提供全文语境,便利于语篇的研究。检索项包罗篇章标题、作者、演唱者、传播地域、文体情势、内容分类以及篇章全文;二是将全文样本切

6、分成句子,然后将每个句子当1条数据记载存放在数据表中,目的是举行句子单元的语言研究,可以实现词语搭配、例句提娶句型检索等;三是陕北民歌词表数据表,此表是基于统计抽词并团结刘育林编著的?陕北方言辞书?3、张崇编著的?陕西方言词搜集?4等文献文籍举行增补创立的,词库有2个重要字段:1个是词条,1个是词条利用频度(该字段初始值为0,用来存放词频统计效果)。2陕北民歌语料库语料的加工语料库的成效重要与3个因素有关,一是语料库的范围;二是语料的漫衍;三是语料的加工程度。语料的加工重要指文本格式处置惩罚和文本形貌,而语料加工的深度决定了这个语料库能为利用者提供什么样的语言学信息。没有篇体形貌信息的语料叫做

7、生语料,颠末词语切分、词性标注处置惩罚的语料可以得到更多的语言学信息。陕北民歌语料数据库共包罗陕北民歌2000余首,通过以词语为单元的切分和标注词性加工成熟语料。陕北民歌词切分标注的根本加工范例是从词义的团体性、词布局的团体性和定型性、详细的语言情况等尺度和参考?陕北方言辞书?、?陕西方言词搜集?等东西书来确定的,同时从得当盘算机处置惩罚的角度动身,把词按词性分类修订为13大类:名词n,动词v,形容词a,数词,量词q,代词r,副词d,介词p,连词,助词u,叹词e,语气词y,拟声词。名词类可以分为时间词t,方位词f,人名nr和地名ns;按布局分为12大类:名词性并列布局n、动词性并列布局v、形容

8、词性并列布局a、动宾布局v、动补布局v、主谓布局sp、名词性偏正布局xn、动词性偏正布局xv、形容词性偏正布局xa、方位布局nf、数目布局q、介宾布局p。为了得到高精度的加工效果,有用的要领是起首由呆板举行开端切分,然后由人工举行校对。加工工程包罗“词切分和“词性标注。比方对生语料?半夜里来了你这勾命的鬼?的切分和标注效果如下:骑上/v阿谁/r毛驴/n哟/y狗/n咬/v腿/n,/半夜里/t来/v了/u你/r这/r勾/v命/n的/u鬼/n。/搂住/v阿谁/r亲人/n哟/e亲上个嘴/v,/肚子/n里/f的/u疙瘩/n化/k成/v了/u水/n。/3陕北民歌语料库的eb办理体系方案有语料库检察和语料库

9、办理两大成效。语料库是开放的,以是任何用户都可以通过eb在线举行检察,可以实现语料欣赏、语料检索、词频统计成效。语料库办理是通过授权用户举行办理,可以举行语料和词表的添加、编纂、删除等。3.1字词频统计成效的实现字词频度统计是对全文数据记载样本文档内容举行字词频度统计,并阐发统计效果。字频统计是对多个汉字利用频度的统计,实现要领是先获得全文样本数据表内里存放的全部汉字字符串,然后依次取出1个汉字,按照汉字的内码值和范例,将其内码转化为一维线性地点,该一维线性地点对应一个数组的下标,把对应数组项值加1,做累计操纵,最跋文录这个汉字串的特性信息,并保存统计效果。词频统计是对2个或2个以上汉字构成的

10、词的利用频度举行统计。实现要领是先获得全文数据表里存放的汉字串,按最长优先匹配算法将汉字串举行主动切分成词,词的切分是基于词表数据表这个根本词库,做累计操纵,最跋文录特性信息5。3.2eb在线检索成效的实现该语料库办理体系接纳b/s布局,数据库接纳aess,检索步伐接纳asp语言编写。检索成效利用sql语句支持的“like与“%团结利用的匹配方法,限定包罗指定关键字的匹配条件。在数据库查询方案中接纳了ad2.0中rerdset记载集东西封装的getstring要领,进步数据库查询服从,即把输出的全部效果放在一个很长的字符串里,办事器只需说明一遍respnse.rite语句6。通过replaei

11、th语句即可实现检索字符串的高亮表现。该体系实现了全文模糊检索、检索效果分页表现及语料提取和词频统计。检索字符串可以是简体汉字的恣意字符串,切合检索条件的语料样本均可分面表现出来。表现检索效果时,检索关键字赤色高亮表现,以便快速寻到关键词在语料中的位置。举行句子语料数据库检索时,表现效果举行“关键字居中。全部检索效果容许复制或保存。4结语构建基于文学研究的陕北民歌语料库及eb办理体系,为陕北民歌的搜集整理、理论研究、开拓利用提供了新的本领,翻开新的范畴,将为天下以致全天下陕北民歌、语言文化研究者提供富厚、有代价的第一手资料,为庇护和救济陕北民歌这一人类文化宝贝,救济性地掘客这一渐渐消散的文化中的活化石,增强陕西的对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论