已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第 2 2卷第 2期 2 0 0 8年 3月 中文信 息学 报 J OURNAL OF CHI NES E I NFORMATI ON P ROCES S I NG Vo 1 2 2 NO 2 M a r 20 08 文章编 号 1 0 0 3 0 0 7 7 2 0 0 8 0 2 0 0 4 7 0 8 基于派生文法 的 日一蒙动词短语机器翻译研究 百 顺 筑波大学 大学 院图书馆情报媒体研究科 日本 筑波市 3 0 5 8 5 5 0 摘 要 本文探 索 了源语为 日语 目标语为 蒙古语的动词短语机 器翻译 系统 的实现方式 基 于主张 日语不 活用的 派生文法 重新分析 日语附加 成分 将 日语 的词 干和附加成 分转换到 蒙古语 的词干和 附加 成分之 后 运用 蒙古语 的语 音 规 则 来处 理 并 生成 动 词 短 语 在 此 基 础 上 试 做 了 日一 蒙 动 词 短 语 机 器 翻 译 系 统 对 3 O篇 日文 报 道 的 4 0 3 个 动词 短语 进 行 测 试 取 得 了 9 5 7 8 的 正 确 率 关键词 人工智能 机器翻译 派生文法 日语附加成分的分析 语音规 则 短语生成 中 图分 类 号 TP 3 9 1 文献 标 识 码 A Re s e a r c h o n Ja p a n e s e M o n g o l i a n M a c hi n e Tr a n s l a t i o n o f Ve r b Ph r a s e Ba s e d o n t h e De r i v a t i o n a l Gr a m ma r BAI S hu n Gr a d u a t e S c h o o 1 o f Li b r a r y I n f o r ma t i o n a n d M e d ia S t u d i e s Un i v e r s i t y o f Ts u k u b a Ts u k u b a 3 0 5 8 5 5 0 J a p a n Ab s t r a c t Th i s p a p e r d e s c r i b e s t h e i mp l e me n t a t i o n o f a J a p a n e s e Mo n g o l i a n v e r b a l p h r a s e ma c h i n e t r a n s l a t i o n s y s t e m o f v e r b p h r o s e s I n t h e J a p a n e s e d e r i v a t i o n a l g r a mma r t h e r e i s n o c o n c e p t o f c o n j u g a t i o n s a wo r d i s a n a l y z e d i n t o s t e ms a n d s u f f i x e s Af t e r t r a n s l a t i n g J a p a n e s e s t e ms a n d s u f f i x e s in t o Mo n g o l i a n s t e ms a n d s u f f i x e s Mo n g o l i a n p h o n e t i c r u l e s a r e u s e d t O p r o c e s s a n d g e n e r a t e v e r b a l p h r a s e s W e i mp l e me n t e d a J a p a n e s e Mo n g o l i a n v e r b a l p h r a s e ma c h i n e t r a n s l a t i o n s y s t e m W e a l s o t e s t e d 4 0 3 v e r b p h r a s e s f r o m 3 0 J a p a n e s e r e p o r t s a n d a c h i e v e d a 9 5 7 8 a c c ur a c y Ke y wo r d s a r t i f i c i a l i n t e l l i g e n c e ma c h i n e t r a n s l a t i o n d e r i v a t i o n a l g r a mma r J a p a n e s e s u f f i x e s a n a l y s i s p h o n e t i c r ul e ph r as e ge ne r a t i o n 1 引言 日一蒙机器翻译系统 尚未问世 对蒙古语文信 息处理来说 从英语 以及 日语 到蒙古语的机器 翻译 的研 究是具 有非 常 重 要 的理 论 和 实 践 意义 的课 题 于是 作者做 了以激 活 日语 和 蒙古 语 的类似 性 实现 日一蒙机 器翻译 系统为 目标 的一 些 尝试 性 研究 所 谓 的短语是 由两 个 或两个 以上 的词 或 短语 按 照一 定 的公式构成的 能够在句子中承担某种功能的语法单 位I 3 J 在本 文中描述 的动词短语 是 由动 词词 干 包括 动词性合 成词词干 上接加 附加 成分 串而构成 的 蒙 古语 属 于 黏着 型语 言 语 法 体 系和 日语 有 很 多相 似之 处 特别 是 两种 语 言 的 句法 是 几 乎 相 同 的 因此 对于从 日语 到蒙 古语 的翻译来 说 把 日语 语句 的分 析结果直 接 翻译 为 蒙 古语 也 可 以 译 出一 定 程度 的译 文 当然 对 日语 和蒙古 语而 言 两 种语 言之 间的语音 变化 构词 构 形 和语 法 等 方 面也 存 在 很 多不 同点 也有 必要 对 词 干 和 附加 成分 的 翻译 进 行适 当的择词 等处 理 在 日语 方 面 运 用 了 派 生 文 法 理 由 是 1 日语传统语法 的活用形处理是机器翻译中的难 点之一 2 派 生 文 法 是 基 于 黏 着 语 性 质 的语 法 它是把 日语 的构 词构形 作为词 干上 接加 附加成 分描 收稿 日期 2 0 0 7 0 4 1 8定稿 日期 2 0 0 7 0 9 0 7 作者简介 百顺 1 9 6 4 男 博士生 主要研究方 向为机器翻译 自然语 言处理 维普资讯 4 8 中 文 信 息 学 报 2 0 0 8 位 述 的 因此 不 需要活 用形 处理 3 日语 派 生文法 比传统 语法更 为 接 近蒙 古语 语 法 因此 本 文 利用 派生文 法对 日语 词法 分析结 果 中的附加 成分 重新加 以分析 把 日语 的词 干 和 附加 成 分转 换 成 蒙 古语 的 词干 和附加成 分 运用 蒙 古语 语 音 规则 生 成 蒙 古语 动词 短语 并 提 出 了 日 蒙动 词 短语 机 器 翻译 系统 的实现 手法 2基 于 派 生 文法 的 日语 动 词 短语 的解 析 基 于 日语 作 为 黏着语 的性 质 派 生 文 法 的观 点 认 为 日语 没 有 活用 性 山 所 谓 黏 着 语 就 是 其 语 法机 能 由附加成分 表现 来 的语 言 的总称 它 的 构词 构形 是词干 上接加不 同附加 成分 来完成 的 派 生文法 对 日语 动 词 短 语 的 描 述 概 括 起 来 有 下 列 特 征 2 1 动 词短语 的形成 派生 文法把 日语 的独立 词大体 上分为 动作 动词 词 于 形 状动词 词 干 实名 词 词干 形 状 名 词词 干 等 四种 这 些分类 与 日语传 统语 法 中的动词 形容 词 名 词 形 容动词相 对应 派 生文法 的动 词短 语 是 由动作 动 词 词干 一次 词干 上接加 附加成 分 串构 成 的 附加 成分 大体上 可分 为两种 机 能附加 成分和派 生附 加成 分 2 2派生 附加成分 和机 能 附加成 分 对 于派 生文法 来 说 把 耆 力七 L J 解 析 为 k a k a s e I U 即词 干 k a k 一 上 接 加 附 加 成 分 a s e 一 而 派 生 二 次词 干 害 力七 J k a k a s e 一 这 是 动作 动 词 词 干上 接 加附加成分而派生 的新的词干 这种附加成分叫做 派 生附加 成分u j 对派 生附加 成分 而言 像一 r L l 这样不派 生新 词干 的附加成 分叫做机 能 附加成分 动作 动词 词 干上 接加 多个 附加成分 时 机 能 附加 成分 排在最 后 2 3元音词 干和 辅音词 干 动词 的不 变 化部 分 即去 掉附 加 成分 之后 剩 下 的部分 叫做 动词 词 干 以传 统 语 法 的一 段 动词 起 年 L J 食 L J 为例 不 变化部 分 起 年J 食 J 是动 词词 干 这些 词 干 都 以 i 或 e来 结 尾 像 这 种 以元 音 结 尾的动 词词 千叫 做元音词 干 以五 段活用 动词 灭J 为 例 在 传 统 语 法 中词 尾 变 化 是 寸 J J 灭J 七J 括 J 从 语音 学 的角 度能 把 这 些活 用形 考虑 为 r h a n a s a j r h a n a s i 2 r h a n a s U J r h a n a s e j r h a n a s O j 其 中 h a n a s是 不 变 化 部 分 像 这 种 以辅音结 尾 的动词词 干 叫做 辅音 词干 2 4连接 辅音 和连接 元音 动 作动 词 词干 上 接加 附 加成 分 时 必须 遵 从 以 下 2条规 则 规则 1 辅音 结尾 的词 干上 接 加 以辅 音 为 首韵 附加成 分时 附加成 分首 的辅音 要脱落 规则 2 元 音结 尾 的词 干上 接 加 以元 音 为 首 的 附加成分 时 附加成 分首 的元音 要脱落 规则 1 这 种会脱 落 的辅音 叫做连接 辅音 u 例 如 辅音 词 干 h a n a s上缀 接附 加成分 r u时 附加 成 分首 的辅音 r 就会 脱落 变成 h a n a s u 规则 2 这 种会 脱落 的元音 叫做 连接元 音I 例 如 元音词干 t a b e上缀接附加成分 t a时 附加成 分首 的元音 i 就会脱 落 变 成 t a h e t a 派生文 法 中为 了表 示 以上 所看 到 的这 些语法 现 象 必 须 由音 素单位 的罗马字 来表 述 2 5词干 的词 类变化 派生 文法 所述 的是在 词干上 接加 附加成分 时会 产 生词类 变化 因此 把 词 干后 接 的 附加 成 分看 作 是 有限状 态 自动机 的输 入 其词 类变化 为状态 变迁 如 图 1 所 示 的是在派 生文 法 中词 干上接 加 附加成分 图 1派 生 文法 的有 限 状态 自动 机 模 型 维普资讯 2期 百顺 基 于派生文法 的 日一蒙 动词短语 机器翻译研究 4 9 时所 发 生的语 法机 能 变化 模 型 词 干 的语 法 机 能 的变 化就 是 自动机 的状 态 变迁 这是 由于 派 生 附加 成分 的特 性 使 词 干 的 词 类 变 化 所 产 生 的 结 果 譬 如 图 1中显示 的是 一 次 词 干 的 动作 动 词 词 干上 接 加 附加成 分而 出现 的 状 态 变迁 也 就 是 说 从 一 种词 干变 迁到 另一 种新 的词 干的例 子 3用派生文法的动词短语的翻 译 日语 和蒙 古 语 都具 有 黏 着语 的 性 质 所 以两 种 语言 的动词 短语 的形成 具有 共 同 的特 点 都 是词 干 上接加 附 加 成 分 所 形 成 的 例 如 和 日语 词 干 食 J 相对 应 的蒙 古 语 词 干 是 r i d e 表 达使 役 态 时 把 使役态 附加 成分 r 一 s a s e J 接加 在词 干上 就 派 生 为 食 K s a s e J 同样 在 蒙 古 语 的词 干上 接 加 相对 应 的使动 态 附加 成 分 g u l J 就 派生 为 i d e g u l J 同 时也存在一些不同点 例如 由于两种语言在敬语 方面 的表达 方式 有 所 不 同 表达 尊 敬 的 日语 附加 成 分r r a r e j 和r 一 i ma s z 相对 应 的蒙古 语 的附加 成 分就不存在 还有 日语使役态附加成分r s a s e J 相 对应 的 蒙 古 语 的 使 动 态 附加 成 分 有 Go l g u l J r i Ga l g e j r G a g e j 等三 组 现 阶段 本系 统 只 限 于 第一 组 r Go l g u l j 为 了 便 于 处 理 以 后 把 r Go l g u l j 等 表达 同样 的语法 意义并 且 相对 立 的这 种 附加 成分记为 G g o u 1 J 下面把 日语动词短语 翻译 为蒙古语 的过程表 示 为图 2 目语动词短语 附加成分的罗马字转换 派生文法的解析结果 日一 蒙转 换 蒙古语 语音规则处理 蒙占语动词短语 食 d 食 s a s e t a 食 一一 s a s e 一 i t a i d e f Gg o u l b a e i d e g ul b e i d e g ul b e 图 2 基 于 派 生 文 法 的动 词 短 语 翻 译 例 4 翻译过程 中存在的难点 日语和蒙 古语 虽然 在句 法和构 词 方面有 很 多相 似之处 但也有 不 同点 例如 否定 性动 词短 语 中的 附加成分的结构不同 还有 日语 和蒙古语不能一 一 对 应 的现象 在这 种情 况下生 成 的动词 短语 就成 为不正确 的或 不 自然 的译 文 在 本 章里 将对 这 些 问题 举例 说 明 4 1 同形附加 成分 的 区分 日语 在 派生 文 法 中存 在 同 形 附加 成分 但 其对 应的 蒙古语 的 附加 成 分 就 不 同 例 如 表达 愿 望 的 附加成分和表达过去式 的附加 成分都是 一 i t a J 而且 对 同一个 表达过 去式 的附加 成分 来说 它的 连 体 形 和终止 形 也 是 一 i t a j 但 其 蒙古 语 的译 文是 不 相 同的 如 图 3所示 语法机 能 愿望 过去式连体形 过 去式终止形 目语 香 k i tai 香 itamo n o I 蒙古 语 b i q i ye b i q i g s e n y a Go ma 耆 I b i q i b e 图 3 同形 附加成分相对应 的蒙古语附加成分例 以上三 种 附加成 分 的形状都 是 一 i t a j 但 其 在 蒙古语 中 表达愿望 的附加成分相对应的附加成分 为 y e j 表 达 过 去式 附加 成 分 的 连 体 形 为 g s e n j 表 达过 去式 附加 成 分 的终 止 形 为 b e j 因此 要 翻 译 日语 附加成 分r 一 i t a j 时 必须根 据其 机 能和 动词 形 从 r y e j g s e n j 和r b e j 中进行适 当的选择 4 2 变 名 词和 变动 词的翻 译 问题 在 日语里 像 勉强亨为j 感谢亨 为j 似的 存在 一 些名词上后接r 亨 为J 的词 这类名词叫做寸变 名词 名词后接 亨 为J 把名词动词化的词 在语 法上叫做寸变动词 寸变名词通常指的是表示动作 的名词 和廿变动词一起 作为合成词来使用 日 语 里 寸变 名词 和寸变 动词 的数量 很 多 在蒙古语中 和r 亨为J 相当的单词是r h i h u J 譬 如 日语 的 勉 强 j 相 对 应 的 动词 是 s o r o l q a j 作 为合成 词来使 用 的 勉 强 寸 为J 要 译 成 蒙 文 时 如 果 把 勉强J 和r 亨 为J 直接翻译 的话 就成为两个动 词r s o r o l q a j h i h u j 这 样 的译文是 不正 确或 不 自然 的 其实蒙文里有 r s o r o l q a h o j 这样的译文 于是 要正确翻译 勉强J r 亨为J 必须使它变为 勉强寸 r u j 这 样一 个词 干上 接加 附加成分 的 形态 4 3语序 的不 一致 日语 和蒙 古语 语 序虽 然 有 很 多相 似 之处 但 也 有不 同点 例 如 表 达否 定性 动词短语 的过去式 时 两种 语言 的附加 成分 的顺 序就会 有不 同之处 表 达 现在 和未 来式 的时候 蒙古语 有 必要追 加 附加成分 这是作者根据派生文法研究 出来的有限状态 自动机模型 维普资讯 5 0 中 文 信 息 学 报 2 0 0 8 正 下 面 以 食 Kn a k a t t a j 和 食 Kn a i j 两个 动 词 短语 为 例 看看两种语言之间的不同点 例 1 食 n a k a t t a 日语 动 词词 干 否定 式附 加成分 蒙古语 动词词 干 过 去式 附加成分 日语 过 去式 附加成分 蒙古语 否 定式 附加成分 例 2 食 n a i 日语 动词 词 干 蒙古语 动 词词干 非过去 式 附加成分 日语 否定式 附加成分 附加成 分 蒙古语 否定 式 附加成分 附加成 分 例 1表示 日语 附 加 成 分 的顺 序 是 否 定 式 附 加成 分在前 而过 去式 附 加成 分 在 后 蒙 古语 附 加成 分 的顺 序是 过去 式 附加 成 分 在前 而 否 定性 附 加成 分 在后 例 2 表 示 日语否定 性 附加 成分 直 接和 词 干 连接 而蒙古语 的词 干和 否定 性 附 加 成分 之 间必 须要 追加非 过去 式附加成 分 有 一些 日语 附加成分 没有相对应 的译文 譬 如本例 中的 i J 就是其 中的 一 个 5 对难点 问题的解决 本 文不 仅 要利 用 语言 之 间 的类 似性 而 且要 进 行句法分 析 下 面要 论述对 第 四章 里提 出的 疑难 问 题 的解决 方法 5 1 同形 附加成分 的 区分 同形附 加成分 的 区分 是要根据 句法 单位 内 的附 加成分 的黏着 前状 态和黏 着后状 态来决 定 的 所谓 的附 加成分 的黏着 前 状 态就 是 黏 着什 么 样 的词 干 所谓 附加成 分的黏 着后状 态就 是黏着 之后派 生什 么 样 的二次词 干或者 形成 动词形 的连用 形 连 体形 终 止形和命令形 的哪一种 譬如对附加成分r i t a d 来说 在表示愿望和表示过去式的场合 虽然黏着前 状态 都是 动词词 干 但 是 黏着 后 状 态就 不 同 前 者 的 黏着后状 态是形 状 动 词词 干 后 者 是 动作 动 词 连 体 形和终 止形 这 种不 同状态 能使 同形 附加成分 有 区分 开来 的可 能性 因此 本 系统 解 决 了对 同形 附 加成 分 的区分 问题 也实 现 了图 3中的 表 示愿 望 的 i t a d 译为 r y e j 表示 过去 式 附 加成 分 i t a d 的连 体形 译为 F g s e n j 终止 形译 为r b e j 5 2 对寸 变名 词和 变动 词的翻 译 问题 的处 理 关于第四章里提出的寸变名词和寸变动词翻译 问题 的对 策是 把 同一 个句法 单位 的寸变 名词 和寸变 动词 用 以下规 则来合 成一个 动作 动词 规则 寸 变名 词 寸 变动词 一 动作 动词 例如 把 勉强J 和 穸 弓J 合并为 勉强亨 弓J 因此 把词干部分 勉强亨J 和附加成分 r u d 分别 译为 r s o r o l q a j 和 h o j 这 样 就 生 成 了r s o r o l q a h o J 的很 自然 的蒙古语 译 文 5 3 语序不 一 致的调 整 本文从 派生文 法 的角度把 日语句 法单位 看作 是 词干 上接 加附加成 分 串的形式 关 于第 四章第 3节 里举 的否定 性动 词短 语 的问题 对 附加 成分 的顺序 制作 了调整 规则 运 用 这些 规 则对 附加 成分 的顺序 进行 处理 以下表 示 的是具体 的规则 规则 1 动作 动词词 干 否 定式 附加 成分 过去 式附 加成分 一 动作 动词 词 干 过去 式 附加成 分 否定 式附 加成分 规则 2 动作动词词 干 否定 式附加成分 一 动作 动词 词 干 非 过 去 式 附 加 成 分 否定 式 附加 成分 运用 以上规 则解 决 了在 第 四章第 3节 中举 的例 1 例 2的 附加成分 的调 整 问题 把 日语 的词 干 和附 加 成分转 换成 蒙古 语 的词 干和 附 加成 分 用 语 音规 则 生成 动 词 短 语 结 果 是 把 食 n a k a t t a j 译 为 F i d e g s e n u g e i j 把 食 n a i j 译 为 i d e h u u g e i J 的很 自然 的译文 6机器翻译 系统 的实现 6 1系统 的构造 本 系统 由四个部分 组成 图 4 也就 是词 法 句 法分 析 基于派 生文法 的 附加成分 分析 日语一 蒙古 语转 换 和蒙古语 短语生 成等 词法分 析 利 用 了 日语 词 法 分 析 系统 J UMAN 句法 分析 利用 了 日语句 法分 析系 统 K NP 对 于 KNP分 析 出来 的 短语 进 行基 于派 生 文法 的附加成 分分析 和蒙古 语语 音规 则处理 6 2 基 于派生 文法 的附加成 分 分析 本模块是由 5 个部分模块组成 图 5 6 2 1 词 干整 理 派 生 文法 基 于 日语作 为 黏 着语 的性质 认 为词 维普资讯 2期 百顺 基于派生文法的 日一蒙动词短语机器翻译研究 5 1 日文 I 词法 句法分析 I 基于派生语法的附加成分分析 f 日语一 蒙古语转换 f 蒙古语短语生成 I 蒙古文 图 4 日一蒙 机器 翻译系统 流程 图 词法和句法 分析结果 二二工二二 词干整理 二二 二 根据 活用形抽 出 附加成 分 二二 二二 假 名罗马字转换 二二工二 附加成分分析 二二工二 语序调整 二二工二 臼语词干和 附加成分串 活用形附 加成分对 应表 假名罗马 字转换表 附加成 分 定 义表 图 5 附加成分分析模 块 干上 接加 附加成 分 而构词或 构形 词 干整 理基 于这 个观点 把 KNP分析 结果 的短 语 当作 一个 词 干 和 附加 成 分 的 连 接 形 式 但 是 日语 句 法 分 析 系 统 K NP分 析 出来 的短 语 里有 可 能 存 在多 个 独 立词 的 情 况 针 对 这 个 问题 有 必 要 把 这 些 多 个 独 立 词 并 为 一 个 合 成 词 来 处 理 例 如 在 r 一 括 妞 理 寸 6 J 的短语里包含r 一括 J r 妞理 J 寸 6 J 等三个 独 立词 把 这 三 个 独 立 词 并 为 一 个 r 一 括 魍 理 寸 6 j 的合 成 词 合 成 词 的 词 类 由最 后 的 独 立 词 的 词 类来 决 定 6 2 2 根据 活用 形抽 出 附加 成 分 派 生文 法认 为 日语 不存 在活 用 也就 是说 动 词 含形 容词 形 容动 词 是 在 词 干 上接 加 附加 成 分 而构成 的 因此存 在 着构 成 各 种 活 用形 的机 能 附 加 成 分 例如 表 1所 表 示 的是 构 成辅 音 动 词 耆 J 的活用形 的 附加 成 分 根据 活用形 抽 出附加 成分 的 目的是 要 抽 出表 1 所表 示 的那种构 成 动词 含 形容 词 形 容 动 词 的活 用形 的 附加 成分 方 法是 利用 J UMAN 分析 出来 表 1活用形形成附加成分的例 子 活 用 形 传统文法 派生文法 附加成分 未 然 形 害 加 k a k a a 基本连用形 害 善 k a k i l 基本形 害 k a k U U 基本条件形 害f 于 f k a k e b a e b a 意志形 害二 j k a k O U o U 命令形 害 f 于 k a k e e 表 2活用形附加成 分对应表 的一 部分 活用形一活用形 附加成分 辅音 动词 力行一未然形 a 辅音动词 力行一基本形 U 辅音动词 力行一意志形 o U 辅音动词力行一命令形 e 辅音动词力行一基本条件形 e b a 辅音动词力行一基本连用形 l 的有 活用 形 的独 立词 动词 形容 词 形 容动 词 的活 用形和活用形的信息 作 了附加成分表 根据这个 表 进行 构 成活用 形 的附加 成 分 的抽 出 表 2所表 示 的是 由于活用 型和 活用形 而得 出 的附加成 分表 的 一 部分 6 2 3 附属 词 的罗马字 转换 派 生文 法 是 以语 音 学 形 态 学 为 中心 的 文 法 把附加成分作为语音单位来考虑 因此必须用罗马 字来 表示 附加成 分 的罗 马字转 换正 是从 这个观 点 出发 的 因此 作 者制 作 了 日语 的假 名 和 罗马 字 对 应表 根据 这 个 表 对 J UMAN 的 词 法 分 析 出来 的 附加 成分 进行罗 马字 转换 处理 表 3 表 示 的是假名 和罗 马字对 应表 的一 部分 表 3 假名和 罗马宇对应表的一部分 假 名 世 岛 札 允 罗 马字 S e r a r e t a 6 2 4 附加成 分 的分析 根 据 附加 成 分定 义 表 对词 干 上接 加 的 附加 成 分 串进行 重新 分 析 派生 文 法 是 正规 文 法 因此 可 以作 为有 限状 态 自动 机来 处 理 图 1 根据 附 加成 分定义 表 把 自动机 的状态作 为词 干种类 输入 为附 加 成 分 因此 这 个 表具 有 使 附 加成 分 模 型化 的意 义 定义表记录 了派生文法 中包 含的全部附加成 维普资讯 5 2 中 文 信 息 学 报 2 0 0 8拄 分 具 体 的分析方 法是这 个 自动 机接 受正规 表达 式 对 附加成分 的匹配 附加 成分定 义表 的一部 分为 表 4所示 6 2 5 附加 成分 的顺序调 整 附加 成 分顺 序 的调 整在 第 5章第 3节 中说 明 过 此 处不再 赘 述 表 4附加 成 分 定 义 表 的 一 部 分 黏着前状态 语法机能 黏着后状态 附加成分 动作动词词干 非完成态肯定 动作动词连体形 r U 动作动词词干 完成态肯定 动作动词连体形 i t a 动作动词词干 前望态肯定 动作动词连体形 y o n 动作动词词干 使役 动作动词词干 S a s e 动作 动词词干 被动 动作动词词干 r a r e 形状 动词词干 非完成态 形状动词终止形 l 形状 动词 词 干 完成 态 形 状 动 词 终 止 形 k a t t a 6 3 日一蒙转换模块 7实 验评 价 利用 E l 蒙 词 干 词 典 和 E l 一 蒙 附 加 成 分 对 照 表 把 E l 语 的词 干和 附加 成 分 分别 译 为 蒙古 语 的 词 干 和附加成 分 E l 蒙 附 加 成 分 对 照 表 包 括 派 生 文 法 的 全 部 附 加成 分 和根 据 翻译 系统 的需 要 而 补 充 的一 些 附 加 成分 在蒙 古语 附加 成 分 里 有 很 多 同音 异 形 附 加 成分 因此 蒙 古语 附 加 成分 的译 文 里 不 只是 一 对 一 还 有 一 对 多 的 情 况 例 如 E l 语 属 格 助 词 J 相 对 应 的蒙 古 语 附加 成 分 是 y i n o n u n o u 等 五种 6 4蒙古 语生成 模块 运用语音规 则把蒙古 语 词干 和附加 成分 连接 起 来 生成蒙古语短语 蒙古语 语音规则 是根据 蒙古语 语法嘲 又从符合 自然语言处理的角度制作的 蒙古 语语音规 则主要包 括元 音和谐 规则 元音 和辅 音相连 规则 辅音 和谐 规 则 连 接元 音 书写 规则 等 图 6表 示 的是应 用语音 规则生成蒙古语短语 的例 子 日语 短语 食 s a s e t a 附 加 成分 分 析 食 一 s a s e 一 i t a 日一 蒙转换 i d e E G g E o u 1 G g J s E a e 元音和谐规则 i d e E G g u l E G g s e n 辅音 和谐 规 则 元音辅音结合规则 i d e g u l g s e n 连接元音书写规则 i d e g u l U g s e n 蒙古语短语生 成 i d e g u l u g s e n 图 6 应 用 语 音 规 则 生 成 蒙 古语 短语 的例 子 在本 章里 运 用作 者试作 的翻译 系统进 行 了动 词短语 的实验 并做 出评 价 7 1 对 象数 据 为 了试 验本 系统 的翻 译 精度 在 日本 每 日报L 9 的有 关农 林 牧 水 的 3 1 0个 新 闻报道 中 用机械选 择了 3 o个新闻报道作为测试数据库 其余的 2 8 0 个新 闻报 道作 为训练数 据库 而且 以测试 数据库 作 为对 象 用 本系统 进行 了翻译 对其 生成 的 4 0 3 个 不 同动 词短语 进行 了评价 7 2 评价 方法 评 价是 由作者 以外 的一 位蒙 古族 人 来 实施 的 在这里 所谓的正确译文就是作为蒙古语完全正确 的表述 所谓的错误译文就是语法或意义上不正确 的表述 这次评 价 因 为不 是 整 个句 子 的评 价 而 是 以短语为单位 并且重点放在附加成分 的分析和蒙 古语 语音 规则 的准 确 率上 所 以对 词典 里 没 有记 录 的单词 进 行 了一些适 当的补充 7 3结果和 考察 针 对 测 试 数 据 库 3 0篇 新 闻 报 道 进 行 翻 译 的 结 果 生 成 了 4 8 1个 蒙 古 语 动 词 短 语 其 中 有 一 些 重 复 的 不 同 动 词 短 语 的 数 量 为 4 O 3个 正 确 翻译 的动 词短 语 有 3 8 6个 获 得 了 9 5 7 8 的 正 确率 表 5 维普资讯 2期 百顺 基于派生文法 的 日一蒙动词短语机器 翻译研究 5 3 表 5正确 翻 译 率 不 同动词短语数 正确翻译数 正确翻译率 4 03 38 6 9 5 7 8 下面 把错误 译文 的详 细原 因表示 为表 6 表 6 错误翻译 的原 因细 目 错 误 翻译 的 原 个 数 错 误 翻 译 率 同形附加成分的区分 O 廿 变 名 词 和 廿 变 动 词 处 O 语序 的不 一致 O 附加成分分析失败 1 0 2 5 语音 规则 处 理 1 3 3 2 3 多 义 词 3 0 7 4 合 计 1 7 4 2 2 表 6当 中的同形 附加 成 分 的 区分 廿 变 名 词 和 廿变 动词 的处理 以及语 序 的不一 致是 在第 四章里 谈 到 的问题 这 次试验 当 中同形 附加成 分 的区分 问题 出现 的次数 为 1 O 3次 其 中表 示愿 望 的场合 是 1 次 表示过 去式 连体形 的场 合是 2 1次 表示 过去 式终 止 形 的场合是 8 1次 由于本系统的特殊处理而全部 翻译为正 确译 文 关 于廿 变名 词 和 廿 变 动 词 的处 理 8 5次 和语 序 的不一 致 1 6 次 问题 由于本 系 统 中采 取适 当 的 对应 措施 而 翻译 的译 文也 是全部 正确 的 关 于附加成 分 的分析是 基 于派生 文法 的最 关键 的环节 在文献 5 里附加成分分析的失败 占错误 翻译 率的 8 5 通 过 附加 成 分 定 义 规 则 的强 化 这 次试验 中失 败 的个 数 是 1个 不 过 这也 是 在 含 有 文 言文 的动词 短语 的场 合 出现的失 败 这 次试 验 中需 要 语 音 规 则 处 理 的地 方 有 5 6 9 个 词 干和 附加成 分 附加 成 分 和 附加 成 分 之 间 的 连 接处都 需要 语 音规 则 的处理 所 以 语音 规则 处 理 的个数 比动词 短语 要多得 多 语音 规则 处理 的总 数 5 6 9 次 中 由语 音 规则而 引起 的失 败个 数是 2个 由补助 动词 的处理 而导 致 的失败个 数 是 1 1 个 蒙古语语音规则里有一些特殊现象 要对这些 特殊现 象进 行处理 现 在的语 音规 则还 不够充 分 还 需 要探讨 和强 化 还 有 在 本 文 中是 把 补 助 动 词作 为 附加成 分来 处理 的 这 次试 验 中补助 动词语 音处 理 的失败 次 数最 多 譬 如 本 系 统 把 生 麈 L 0 为J 翻 译 为 u i l e d b u r i l e j u b a i n e J 这 是 错 误 译 文 正确译 文 应该是 u i l e d b u r i l e j u b a i n a j 这 是 因 为 现 系统 中 日语 动词短 语 和蒙古语 动词 短语都 是 由词 干上 接加 附加成 分 串构成 的 特 别是蒙 古语 的语音 处 理 是 由词 干 一次词 干 的性质 决定 附加成 分的性 质 并 且选择 符 合 一 次词 干 性 质 的 附加 成 分 例子 中的一 次 词 干 u i l e J 是 阴性 词 干 按 元 音 和 谐 规 则 一 次词 干 阴性 上 接加 的附加 成分都 是 阴性 的 但 是 蒙古 语 的补 助 动 词 b a i n a J 是 个 独 立 词 也 是 词干上 后接 附加 成 分构 成 的 因此 按 理说 是 补 助 动词 的词 干 b a i J 决 定 其 后 接 加 的 附加 成 分 的性 质 但是 现在 的 系统 是 补 助动 词 词 干 上接 加 的 附 加成 分也 受 一 次 词 干 r u i l e J 的制 约 所 以导 致 语 音 规则 处理 的失 败 对 补助 动词 的语音 规则处 理 问题 作 为今 后 的研究课 题保 留 多义词 处理 是整个 机器 翻译 的难点 之一 对 于 日一 蒙机 器 翻译 来 说 多 义词 包括 词 干 的多 义 和 附 加 成分 的多 义两 种 对 附 加成 分 的多 义而 言 日语 动 词构 词构 形 附加 成 分 的多 义 词 不 多 其 中 在本 文 里对某 些 多义 附 加 成 分进 行 了 处理 比如 说 在 第 五章第 1节 里 解决 的 同形 附加 成 分 i t a J 的 区 分 就是在 某 种意义 上 的多义词 处理 是根据 词 干和 附加 成分 的连 接前 状态 和连接 后状态 处理 的 在 本 文 中 对词 干 的多义 词还没 有进 行处 理 譬 如 本 系 统把 南 为 茎J 翻译 为 b a i n a q a Gj 这 是 错误 译 文 正 确 译 文应 该 是 r j a r i m u y e j 这 次 试 验 当 中 出现 了 向这 种不 符合原 文意 思 的译 文 只 3 个 这是 因为 其 一 日语 和蒙 古语 有 很 多相 似 之处 其 二 本 系统 训 练数 据 库 和 测 试 数 据 库 都 是 关 于农 林 牧 水 的新 闻报道 为 了提高 本系统 的正 确翻译 率 对 多义词 的处 理作 为下一 个 阶段 的研究 目标 8 结 论 本 文 以 日语 到蒙古 语 的机器 翻译 系统 的开发 为 目标 提 出并 实现 了基 于 日语 派 生 文法 的动 词短 语 的翻译 方式 根 据 试验 结 果 证 明 了动 词 短 语 的高 精 度 的翻译是 可 能的 今后 为 了提 高动词 短语 的正确 翻译 率 强 化对 补 助动 词的处 理 研究 的重点 放在 多义词 的处 理并 实现具 有 实用性 的 日 蒙 机器 翻译 系统 致谢 日本 东京 大学 石川徼 也特 任教授 和筑 波 大学长 谷部 纪元 教授对 本研究 给 予 了极 大 的支持和 精心的指导 在此表示衷心的感谢 维普资讯 5 4 中 文 信 息 学 报 2 0 0 8 正 参考文献 1 2 3 4 清濑 羲三 郎 则府 日本 藉 文法 新输一派 生 文 法序 税 M 东京 桉枫社 1 9 8 9 清格尔泰 蒙古语语 法 M 呼和浩特 内蒙古人 民出 版社 1 9 9 1 巴达玛敖德斯尔 面向机器 翻译 的汉蒙 短语转换 规则 研究 M 呼和浩 特 内蒙古教育 出版社 2 0 0 5 那顺乌 日图 刘群 巴达玛敖德斯 尔 关于 汉蒙机 器辅 助翻译 系统 J AL TA I HA KP O 2 0 0 1 1 1 3 5 4 1 百
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 培训工作季度汇报模板
- 培训课件散文优美段落
- “安全生产月”活动总结(32篇)
- 隐患排查整改报告(29篇)
- 合同说明函的格式
- 四下五单元作文教育课件
- 休息室服务培训课件
- 如何管理学生教育课件
- 《创业有方》课件
- 《广告的社会功能》课件
- 【新教材】统编版(2024)七年级上册语文期末复习课件129张
- 全国川教版信息技术八年级上册第三单元第1节《体验生活中的策略》教案设计
- 《找规律》(教案)-2023-2024学年人教版数学一年级下册
- 人工智能知识竞赛题库及答案(500题)
- 肿瘤病人的膏方治疗
- 电梯安装管理制度
- 三方合作新能源协议范本
- 生活中的经济学智慧树知到期末考试答案章节答案2024年中国地质大学(武汉)
- 注塑车间工作总结
- 中国非物质文化遗产智慧树知到期末考试答案章节答案2024年云南大学
- MOOC 行政法与行政诉讼法学-西南政法大学 中国大学慕课答案
评论
0/150
提交评论