版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
藏文数词识别与翻译报告人:孙萌2012年11月5日研究背景藏文是一种具有逻辑格语法体系的拼音文字藏文分词是藏文信息处理的基础藏文数词识别与翻译是分词和翻译的难点藏文的特点和研究的难点词与词之间没有空格分词是藏文信息处理必须解决的问题藏文是拼音文字,拼写形式复杂,具有曲折变化汉语的一些成熟的分词方法难以直接用于藏文的分词藏文分词标注语料库规模较少对分词容错性较高的藏汉翻译方法藏文数词阿拉伯数字,比如“2012”藏文基本数字构件༠(0),༡(1),༢(2),༣(3),༤(4),༥(5),༦(6),༧(7),༨(8),༩(9)༢༠༡༢(2012)藏文组合数词是由藏文数词基本构件以一定的规则组合而成སུམ་ཅུ་ལྔ་(35)研究现状HuidanLiu提出的基于数词组件分类的藏文数词识别算法定义6种标签,通过迭代操作修改标签,识别数词藏文数词组成规律基本数词构件基本数词序数词分数单位词时间词总体框架藏文句子边界识别基本数词识别与翻译复杂数词识别与翻译数词和翻译基本构件表最优路径决策基本数词规则库有限自动机复杂数词规则库泛化基本数词边界识别模型基数词数量词数词前缀小数点否定数词数词后缀藏文数词构件识别基本数词识别与翻译模型举例藏文数词ཉིས་ཁྲི་དགུ་བརྒྱ་བཅུ་མེད་བདུན་(20907)先进行数词基本构件划分,得到如下序列:ཉིས་(前缀词-二)ཁྲི་(数量词-万)དགུ་(基数词-九)བརྒྱ་(数量词-百)བཅུ་(数量词-十)མེད་(否定词-没有)བདུན་(基数词-七)依次扫描输入的构件序列,进行状态转移:S-->1-->2-->3-->2-->2-->5-->3-->E。复杂数词的识别与翻译模型序数词:སྐབས་X-->第X届先进行数词基本构件时间词:X1ལོའི་ཟླ་X2པའི་ཚེས་X3-->X1年X2月X3日分数:X1ཆ་X2-->百分之X2(subjecttoX1=100)单位词:སྨིས་X1-->X1米数词识别与翻译实验
识别识别与翻译准确率0.98570.9845召回率0.99200.9908F值0.98880.9873数词识别与翻译对藏汉翻译的影响系统开发集测试集层次短语基线系统0.426329.13+藏文数词识别与翻译0.433831.77结论提出三层模型,通过基于最优路径决策的数词构件边界识别模型、基于自动机的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医生党课课件教学课件
- 神经内科电场治疗方案
- 新人入职培训规章制度
- 糖尿病伤口处理
- 眼耳鼻喉科护理查房
- 老年病科科普讲解大赛
- 博物馆奇案教案反思
- 化学肥料说课稿
- 好玩的竹梯说课稿
- 过秦论的说课稿
- 学校财务处理程序制度
- 塔里木河流域胡杨林生态恢复成效评估
- 环境保护Theenvironmentalprotection英语演讲课件
- 2023年事故序列模型介绍
- 儿童免疫性疾病课件
- 行为金融学中国大学mooc课后章节答案期末考试题库2023年
- 中图版八年级地理上册《世界气候》复习课件
- 家族财富传承法商
- 无损检测通用作业指导书
- 2023年中考语文复习:150个文言实词-课件(共183张PPT)
- 蛋糕经济学:如何实现企业商业价值和社会责任的双赢
评论
0/150
提交评论