中文语音文件摘要使用主题混合模型_第1页
中文语音文件摘要使用主题混合模型_第2页
中文语音文件摘要使用主题混合模型_第3页
中文语音文件摘要使用主题混合模型_第4页
中文语音文件摘要使用主题混合模型_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文語音文件摘要使用主題混合模型陳怡婷、游斯涵、李家豪、陳柏琳GraduateInstituteofComputerScience&InformationEngineeringNationalTaiwanNormalUniversity1outline前言摘要模型詞層次混合模型(w-TMM)實驗設定餘弦評估ROUGE評估實驗結果結論與未來展望前言網際網路已成為現代人獲取資訊的主要來源,大量的資訊傳遞與分享於全球各地。而一些具時序系的多媒體影音內容,往往長達數分鐘或數小時,造成使用者在瀏覽及查詢上,花費大量的時間。自動語音文件摘要的目的即在解決此種問題,讓使用者可以快速且方便地了解影音文件或檔案的要點與主題資訊。目前一般常見的摘要式自動摘要方法大致上可分為三大類,分別是:以文句結構或位置為基礎以索引特徵統計值為基礎以機率模型為基礎摘要模型詞層次混合模型(w-TMM)

詞層次主題混合模型將每個詞視為包含K潛藏主題的機率模型,每ㄧ個詞對於不同的潛藏主題有不同權重值,並且同時在不同的潛藏主題下每ㄧ個詞的機率分佈亦有所不同。每ㄧ個詞與另ㄧ個詞之間的關係可透過K個潛藏主題來表示:

:為unigrammodel,表示詞於潛藏主題中的機率分佈:詞的對於潛藏主題的權重值:詞的詞模型生成詞的機率摘要模型對於一篇被摘要語音文件D,文件D與文件D中的任ㄧ文句的相關程度,可由文句中所有的詞的主題混合機率模型生成文件D中所有詞的機率來決定::滿足:詞對於潛藏主題的權重:文件中詞於潛藏主題中的機率分佈實驗設定1.實驗語料文件語音文件收集於News98新聞網2001年8月1日至

8月24日中午12:00到13:00的FM廣播新聞,ㄧ共200則廣播新聞。自動轉寫部分為師大資工所LVCSR辨識後之結果,其辨識字正確率達85.83%。實驗設定2.評估方式:

我們所採用的人工摘要結果包含有摘錄式摘要及非摘錄式摘要。摘錄式摘要依不同的摘要比例而產生不同長度的摘要內容,例如:10%、20%、30%、50%等摘要比例。非摘錄式摘要根據特別摘要比例(例如:20%~30%)且針對文件內容所重寫的摘要內容。

實驗設定2.1餘弦評估此評估方法是以計算自動摘要與人工摘要結果的相關度作為評估標準。:某篇文章D之自動摘要m%摘要比例的結果:第z個人對文件D以摘錄方式選取m%摘要比例的結果:第z個人對文件D重寫摘要結果實驗設定2.2ROUGE評估

ROUGE是計算自動摘要結果與人工摘要結果的重疊單位元次數,單位元可為N-連詞(N-gram)、詞順序(WordSequences)、詞對(WordPairs)。

以詞N-連單位元的評估為例,其計算公式如下::人工摘要結果集合:個別的人工摘要結果:自動摘要結果與人工摘要的重疊單位元次數:單位元:人工摘要結果的單位元次數實驗結果1.基礎實驗結果:分別以向量空間模型(SVM)、最大臨界相關(MMR)、潛藏語意分析模型(LSA)、文句特徵值分數方法(SIG)。機率式模型-隱藏式馬可夫模型(HMM)與主題混合模型(TMM)。實驗結果2.詞層次混合模型實驗結果我們將訓練語料中的全部文件,共一萬四千多個檔案,與其對應關係用於訓練詞層次主題混合模型所需之機率值及。在使用詞層次主題混合模型於語音文件摘要時,我們會同時考慮每ㄧ個詞實際上出現於文句的機率分佈,並將其與式(3)結合成為:

之後,根據式(12)的機率值來進行文句的排名。實驗結果實驗結果結論與未來展望多數的摘要方法均屬於逐字比對的方式

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论