半构造化文书対木构造文字列_第1页
半构造化文书対木构造文字列_第2页
半构造化文书対木构造文字列_第3页
半构造化文书対木构造文字列_第4页
半构造化文书対木构造文字列_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、半構造化文書対木構造文字列組合自動生成法山田泰寛* 池田大輔* 廣川佐千男*九州大学大学院情報科学府*九州大学情報基盤発表手順w 抽出:w PLRw PLR自動生成法w 実験w 今後課題背景異間情報比較巡情報記録記憶手間時間背景異自動的統合統合容易比較可能()発見収集()抽出整列()統合w 1上Web同種内容含、大量存在、同種内容抽出n同一持生成問題w 与上Web集合、同種内容抽出作成問題w 入力:同種内容含Web集合w 出力:集合生成w 部分特定n中広告無関係情報含nGUI訓練例半自動的手法w 表現方法n文字列lLR(Kushmerick, 1997)n木構造lTree (村上, 2001)

2、LR.廣川佐千男.Address: hirokawa.xxx.jp.山田泰寛.Address: .名前左区切文字列: 5“右区切文字列: /f項目囲左右区切文字列左右区切文字列特定同項目囲区切文字列同一LR問題点.廣川佐千男.Address: hirokawaxxx.jp.山田泰寛.Address: .左区切文字列: “右区切文字列: /a左区切文字列特定Tree木構造用表現bodyfontfontaa廣川佐千男山田泰寛Address: hirokawaxxx.jpAddress: 名前-TEXT-TEXTTree問題点bodyfontfontaaAddress: hirokawaxxx.jp

3、 Address: 不必要文字列抽出統合際PLRw PLR(Path-Left-Right)n木構造特定n左右区切文字列bodyaaAddress: hirokawaxxx.jpAddress: -TEXT左区切文字列Address: 右区切文字列NULL発表手順w 抽出:w PLRw PLR自動生成法w 実験w 今後課題生成入力:1上複数半構造化文書(1) 部分特定部分特定(3)不要削除不要削除出力:(2)抽出抽出高頻度部分(赤)低頻度部分(黒)低頻度部分(黒)分境界決、抽出出現頻度低捨部分特定文字列高頻度部分(赤)低頻度部分(黒)構造記述部分部分対応対応w 高頻度部分:頻度高部分文字列現部

4、分w 部分文字列長 n 頻度上位 a (%)決定n頻度高部分文字列構造部分現部分特定w 長 n 小n頻度高部分文字列構造記述部分両方現文書文書文書部分特定w 長 n 大n部分頻度下n頻度高部分文字列構造記述部分現文書文書文書位置頻度(a) 長 2(b) 長 5部分特定w 長 n 大n構造記述部分頻度下n再、頻度高部分文字列構造記述部分両方現文書文書文書部分特定n: 小a: 小n: 小a: 大n: 大a: 小n: 大a: 大分割行、境界数大n: 大(山田他、Discovery Science 2001)交代数初期状態(n,a)(2,1)長 n 割合 a 決定%長aa+112234nn+1(n,

5、a)交代数 (n+1, a)、(n, a+1)交代数比較極小交代数時、長n頻度上位a十分大判断出力例w 例w 例生成入力:1上複数半構造化文書(1) 部分特定部分特定(3)不要削除不要削除出力:(2)抽出抽出高頻度部分(赤)低頻度部分(黒)低頻度部分(黒)分境界決、抽出出現頻度低捨生成w 特定n入力文書木構造展開n低頻度部分(黒)含特定生成w 区切文字列抽出n前特定特定n左区切文字列、高頻度部分低頻度部分境界前出現文字列共通最長文字列n右区切文字列、低頻度部分高頻度部分境界後出現文字列共通最長文字列n共通文字列無場合“NULL”。hirokawaxxx.jp。daisukexxx.jp。左区切

6、文字列“”右区切文字列“。”生成入力:1上複数半構造化文書(1) 部分特定部分特定(3)不要削除不要削除出力:(2)抽出抽出高頻度部分(赤)低頻度部分(黒)低頻度部分(黒)分境界決、抽出出現頻度低捨不要削除w 有用項目判断n項目出現注目n文書現、文書現項目w 半数以上文書抽出採用生成入力:1上複数半構造化文書(1) 部分特定部分特定(3)不要削除不要削除出力:(2)抽出抽出高頻度部分(赤)低頻度部分(黒)低頻度部分(黒)分境界決、抽出出現頻度低捨発表手順w 抽出:w PLRw PLR自動生成法w 実験w 今後課題実験w 産経新聞(日本語, 50)n本文, 日付, 見出, w Altavista

7、(英語, 50)n検索結果件数n左区切文字列“We_found_”n右区切文字列“_results” TEXTSankei-NULLSankei-internationalWe_found_187,302_results失敗例(1)w 左右区切文字列特定問題点n産経新聞日付n項目部分区切文字列一部含n項目部分一部高頻度部分含原因日付TEXT2002.01.1NULL2002.01.12日位低頻度部分失敗例(2)w 同一複数項目n例日付種類n左右区切文字列特定問題点_2003,09,18_openssh_項目、左区切文字列“_”右区切文字列“_”項目同時項目抽出Tree問題点段落1段落2段落3産経新聞本文部分Tree問題点同項目挟場合、細分段落本文全体、段落抽出、全体抜出、細抜出判断難w PLR自動生成法nTre

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论