


版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 利用词性标注语料库自动推断维吾尔语词缀变体的研究 阿布都哈力力阿布都热依木+邹帅+余长江Summary:即对词根和词缀以维吾尔语语法为基础,作出语法和词汇定义,通过现代信息处理事业广泛运用的机器学习方法,计算词缀和词根聚合概率,将概率意义为主,自动推断文本中的单词聚合失误和符合词根的词缀自动选择原理。Key:维吾尔语词法分析;词根;词缀;语音和谐律;MeCab-uyghur:N945.23 :A :1009-3044(2016)28-0171-031 背景维吾尔语在内的阿勒泰语系语言中词根与词缀相互聚合时,词根和词缀含有的元音和辅音之间存在相互限制和被限制关系,此种现象通称语音和谐律(199
2、9.竹内.现代维吾尔语)。现代维吾尔语共有32个字母,其中有8个元音,24个辅音。元音按发音位置分为前元音、中元音、后元音。语音和谐律一个词根粘附的词缀有选择性和若干种变体。例如:符合汉语中“向”词的与格维吾尔语中有着“?a, qa, g?,k?” 等4中变体。这些变体根据跟前的独立词在内的元音和辅音类型选择。即举例“bazar”这一词,由于该词属于尾部由响音结尾的舌面前元音,连接开头由响音开始的舌面前元音变体“?a”,构成“bazar + ?a =bazar?a”。词缀不仅按照词根元音和辅音类型选择,有时在词缀的影响下词根语音发生变化。例如:“imla+ing=imlaying”是以元音结束
3、的词连接以元音开头的词缀时中间将会加上辅音,“bar+ip=berip”是以元音开头的词缀对词根产生压力,将会引起语音的弱化,“orun+i=orni”是以元音开头的词缀影响词根的元音引起元音的减音。由于记录维吾尔语的文字属于有声文字,以上变化也在文字直接表达。2 目前信息化处理情况上述语音和谐和变化现象在书面语发生的比较明显。有些人在书面材料上把语音拼写,影响意念的正确表达。这些问题此前未突出明显,但在信息技术上属必须解决的重要问题。至于信息技术领域如何解决以上问题,主要采取两种方法。其一,对词根和词缀未作出任何语法或词汇范畴定义的情况下,分别作为单位编写词典,自动聚合方法。虽通过这个方式所
4、形成的词库能解决错字问题,但无法解决像没有语音和谐律的汉语等语言与维吾尔语之间机器翻译系统和词典中的一对一问题(UyghurEdit, n.d.)。其二,将词根和词缀的构形作为一个单词编入词典的处理方法。虽方法简单,维吾尔语的词缀为数较多,文本中的聚合情况复杂,无法将全部构形编入词典。在这里我们要提出不同与上述方法的另一种方法。即对词根和词缀以维吾尔语语法为基础,作出语法和词汇定义,通过现代信息处理事业广泛运用的机器学习方法,计算词缀和词根聚合概率,将概率意义为主,推断文本中的单词聚合失误和符合词根的词缀自动选择原理。3 词性标注和处理方法用维吾尔语形态分析工具Mecab-uyghur 把给予
5、的文章分成单词和词缀。3.1 语音的和谐类型的处理首先把词根和词缀分为合适的部类,并人工匹配语音和谐律的单词大义上归属于和谐类型范畴。第二阶段,区别元音和谐类型,辅音和谐类型,元音和辅音和谐类型等三个类型。语音的和谐法列入到1至3的表格里,词法形式表示词根的语法形式。 词根和词缀类型进一步细化到下一列词典形里。作为附加信息, 词音和谐类型列入下一个列里。词根和词缀的元音和辅音作为一个和谐因素列入到下一个相对应的列里。 最后, 与词音和谐法无关的部分标记为Null.3.2 语音的变化类型的处理将语音变化大义上归属于语音变化类型范畴。作为小分类分别为语音弱化类型,语音増音类型,语音减音类型等三个类
6、型。语音的变化规律列入到4至6的表格里,其中语音上有变化词语的词典型和本文形分别列入到词典形该列里。语音的和谐法作为一个附加信息列入到下一列里,而词根的结束语音和附加词的字首语音作为一个影响语音变化规律的因素列入到一个列里。最后要列入语音的变化原因。4 实验4.1 计算方式本研究上我们使用维吾尔语词法分析Mecab-uyghur系统。Mecab-uyghur系统是由日语的开源词法分析系统Mecab添加维吾尔语词典及语法规则开发演变而来,此系统具体使用方法及其他情况不在此做详细说明;Mecab-uyghur 系统的计算方式:以最小开销法,利用了单词的产生权重,以及连接权重这两个概念。单词的产生权
7、重是从语料库出现的单词频度获取,连接权重是从语法概念获取。4.2 训练把上述介绍的语法范畴用于传统语言学词类的附加识别因素(区别性特征), 并通过人工匹配建立1万句的词性标注语料库。利用Mecab-uyghur训练法,获取单词的产生权重、语法范畴的连接概率。此连接概率是通过维吾尔语语法作为基础作推断。5 测试为验证上述方法的准确性及可靠性,利用在训练阶段推断出的模型,将词根与词缀分别进行聚合,例如:bazar + ?a =bazar?a,bazar + qa =bazarqa, bazar + g ?= bazarg ?, bazar + k ?= bazark ?;将此四种词型利用Mecab
8、-Uyghur系统进一步分析,具体分析结果如下图所示:bazar?a,bazarqa, bazarg ?, bazark ?从左到左开始读取,从词典里面获取有记录的词典序列。上图为分解图,其中方框内的蓝色数字表示该词的产生权重,红色数字表示连接权重,连接线上的咖啡色数字表示该文法段和它的左端文法段的连接权重。由上图可知,bazar?a 这一个序列,bazar 的产生权重为10,?a 的产生权重为40, ?a 词缀-和谐类型-前元音-清辅音的连接权重为200。在四种序列中第一个序列的总共成本是10+700+40+200=950;第二个序列的总共成本是10+4500+38+150=4698;第三个
9、序列的总共成本是 10+6000+70+250=6330;第四个序列的总共成本是10+4000+29+190=4229;这些序列里第一个序列的成本最小。因此,正确的是第一个序列。6 结束语论文主要阐述利用传统语言规则及现代信息技术处理方法将维吾尔语词根与词缀聚合的办法。以多次试验举例验证了此猜想的正确性,以上举例为其中以典型案例,此方法的研究证实不仅为维吾尔语和其他语言的机器翻译、词典学开辟了一条先河,而且为维吾尔语正字法的校对工作提供了基础。Reference:1 吐尔逊卡得. 维吾尔语柯坪土语研究D. 北京: 中央民族大学, 2011.2 祖木拉提阿扎提. 多语环境下伊犁维吾尔族人群语言使用状况调查研究D. 新疆: 新疆大学, 2012.3 木哈拜提哈斯木. 从来源方面来看维吾尔语方言词的特点J. 新疆大学学报:哲学社会科学版, 2005(1).4 李经纬. 试论现代维吾尔语方言词的类型及其对划分方言的意义J. 语言与翻译, 1986(3).5 陈宗振. 维语方言研究的回顾与展望J. 语言与翻译, 2000(4).6 杨雅婷, 马博, 王磊, 等. 维吾尔语语音识别中发音变异现象C/ 第十一届全国人机语音通讯学术会议论文集(一). 2011.7 杨雅婷, 马博, 王磊, 等. 多发音字典在维吾尔语方言语音识别中的应用C/第十一届全国人机语音通讯
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 住宅小区场地租赁及消防安全协议
- 融资租赁厂房股权转让协议书样本
- 商业写字楼场地租赁及物业管理服务合同
- 餐饮企业拆伙退伙合同(员工安置)
- 智能家居市场拓展场营销策划协议
- 绿色能源产品全国独家代理销售合同样本
- 离婚财产分割中的股票期权行权合同
- 厂房施工与建筑垃圾减量化处理协议
- 高端特色餐饮店租赁合同范本
- 企事业单位多功能厅租赁合同
- 新产品研发与实施进度表
- 2024年江苏省《辅警招聘考试必刷500题》考试题库附答案(能力提升)
- 《小儿推拿学》考试复习题及答案
- 2025届湖北省武汉市高考数学一模试卷含解析
- 关于签订房屋租赁合同的函
- 黄帝内经与治未病
- 《智慧监狱建设探究的国内外文献综述》6200字
- 北京海淀2025届高考语文三模试卷含解析
- 地域文化(专)-终结性考试-国开(SC)-参考资料
- 燃气锅炉房工程施工方案
- 2024年全县金融工作会议讲话材料例文(5篇)
评论
0/150
提交评论