




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
述語項構造に基づいた統計
翻訳における語句の並べ替え2006年11月18日(日)奈良先端大松本研(M2)小町守2述語項構造を用いた並べ替えpleasewritedownyouraddresshere住所をここに書い下さいて住所をここに書い下さいて並べ替えによって翻訳モデルの改善を狙う3概要述語項構造解析を用いた統計翻訳のための並べ替えを行った日本語の語順を英語の語順に近く並べ替えることによって翻訳モデルの単語アライメントが改善IWSLT2006日英翻訳タスクにてBLEU0.1431・NIST5.2105(ベースラインからBLEUで22%・NISTで11%向上)4研究目的言語の「構造」や「意味」を用いた翻訳モデルはまだ成功していない述語項構造解析器を使って語順の異なる言語間での歪みモデルの改善述語項構造解析を用いた統計翻訳の改善語順の並べ替えによる語句の対応の向上5述語項構造解析器SynChaIidaetal.,2006と小町ら,2006に基づいた述語項構造解析器述語(動詞・形容詞・名詞+だ)と事態性名詞の項(ガ・ヲ・ニ格)を同定NAISTテキストコーパス
http://cl.naist.jp/nldata/corpus/
で学習係り受け関係にない格要素も出力ゼロ照応・省略も扱える文内の項だとだいたいF値で0.8くらい6住所をここに書い下さいて住所をここに書い下さいて住所をここに書い下さいてWO-ACCNI-LOCpredicate述語項構造解析の手順7並べ替えの手順住所をここに書い下さいて住所をここに書い下さいて述語(動詞・形容詞・事態性名詞)を探す英語の語順に近くなるようヒューリスティックに並べ替え形態素解析を利用(NiessenandNey,2001)構文解析を利用(Collinsetal.,2005)8コーパスの前処理日本語側形態素解析・分かち書き:茶筌係り受け:南瓜述語項構造:新茶(SynCha)英語側分かち書き:tokenizer.sed(LDC)形態素解析:MXPOST単語は全部小文字にしてトレーニング9会話文の対応付け訓練コーパス39,953会話対から45,909文対を人手でアライメントかしこまり
まし
た
。
この
用紙
に
記入
し
て
下さい
。sure.pleasefilloutthisform.かしこまり
まし
た
。この
用紙
に
記入
し
て
下さい
。sure.pleasefilloutthisform.10コーパスの並べ替え述語項構造解析結果による並べ替えこの
用紙
に
記入
し
て
下さい
。pleasefilloutthisform.記入
し
て
この
用紙
に
下さい
。いずれの文対も訓練事例に追加GIZA++で単語対応を学習文対数交差減少33,874交差増加7,959増減なし4,076総計45,909文対数並べ替えあり18,539交差あり39,979左・上:コーパスの統計11翻訳モデルと言語モデル翻訳モデルGIZA++(OchandNey,2003)言語モデルPalmkit(Ito,2002)により英語側のコーパスを用いてバックオフ単語trigramモデル作成デコーダWMT2006sharedtaskのベースラインシステム(Pharaohを元にしたもの)Pharaohのパラメータは誤り最小化学習で最適化12誤り最小化学習(MERT)Pharaohのパラメータの最適化句翻訳確率(日→英・英→日)単語翻訳確率(日→英・英→日)句ペナルティ句の歪み確率語順の並べ替えを行っていない500文を用いてトレーニング13ベースラインとの比較実験WMT2006のベースラインシステムをそのままデフォルトで使ったモデル(パラメータの最適化なし)並べ替えた文をコーパスに加えて単語対応を学習したモデル(パラメータの最適化なし)上記のモデルに対して誤り最小化学習を行いパラメータの最適化をしたモデル14比較実験結果テストセットシステムBLEUNIST音声認識1-BESTベースライン0.10814.3555提案手法(MERTなし)0.13664.8438提案手法(MERTあり)0.13114.8372書き起こしベースライン0.11704.7078提案手法(MERTなし)0.14595.3649提案手法(MERTあり)0.14315.210515考察ベースラインシステムよりは精度向上並べ替えによる翻訳モデル改善に成功内容語に重点を置いた評価尺度では比較的高精度・個々の単語選択に重点を置いた評価尺度では低精度用言の直前の格助詞のペアを切り離すことで句の対応が悪くなる16考察の続き誤り最小化学習で性能が下がるのは変原因が特定できない語順を並べ替えた文をコーパスに追加しているのにパラメータチューニングには元々の語順の文だけ使っているのが問題かもうまく項が当たっていないケースが邪魔している可能性新聞記事でトレーニングした述語項構造解析器を旅行会話に使ったため17まとめ述語項構造に基づく統計翻訳のための語句並べ替えモデルを提案IWSLT2006日英翻訳タスクにて、BLEUスコア0.1431・NISTスコア5.2105を達成ベースラインからはBLEUスコアで22%、NISTスコアで11
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农药配方用户友好性设计考核试卷
- 执业管理办法试行
- 2024年西藏昂仁县事业单位公开招聘工作人员考试题含答案
- 按期交货管理办法
- 快递发放管理办法
- 执行落实管理办法
- 招商基金管理办法
- 房租发票管理办法
- 枇杷枝条管理办法
- 拍卖管理办法工商
- 菜品委托开发合同协议
- 2025-2030中国护发素销售预测分析及市场产销供需现状研究报告
- 2025年安徽合肥庐阳国有资产投资控股集团招聘笔试参考题库附带答案详解
- 基层工会经费收支管理
- 轨道交通地铁施工工程安全生产风险分级管控和隐患排查治理双体系方案
- 湖北段废弃露天矿山生态修复遥感监测
- 人工智能辅助软件开发项目进度管理计划
- GB/T 45236-2025化工园区危险品运输车辆停车场建设规范
- 川教版信息技术七年级上册全册教案
- 眼外伤病人的护理查房
- 学校食堂配送服务方案
评论
0/150
提交评论