传媒语言语料库的建设与应用-侯敏-PowerPoint_第1页
传媒语言语料库的建设与应用-侯敏-PowerPoint_第2页
传媒语言语料库的建设与应用-侯敏-PowerPoint_第3页
传媒语言语料库的建设与应用-侯敏-PowerPoint_第4页
传媒语言语料库的建设与应用-侯敏-PowerPoint_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

传媒语言语料库的

建设与应用

1主要内容一、建设传媒语言语料库的目的二、传媒语言语料库的结构三、语料的采集与标注四、传媒语言语料库的应用五、目前存在的问题2一、建设传媒语言语料库的目的语料库已成为语言研究和自然语言信息处理研究的信息源和知识源,成为一种必要的现代化的研究工具和手段;广播电视语言对社会语言生活具有深远的影响;为我院教师、研究生研究广播电视语言搭建一个平台,提供语言资源及现代化工具,为教学服务;为所有对传媒有声语言、尤其是广播电视语言有兴趣的人员提供研究资源及现代化工具,为社会服务。3二、传媒语言语料库的结构传媒语料库文本语料库音视频语料库文本生语料库文本熟语料库音视频生语料库音视频熟语料库4生语料库检索界面5熟语料库检索界面6音视频语料库点播系统界面7三、语料的采集与标注语料的采集

文本语料的采集

音视频语料的采集语料的标注

文本语料的标注

音视频语料的标注8音视频采集工作站磁盘阵列语料加工工作站服务器用户浏览查询终端DVD录像机数字化工作站转写工作站互联网工作流程9音频语料的采集和标注语料规模:大约400小时语料内容:以新闻节目为主电视节目:340小时广播节目:50小时其他:10小时已标注:1小时标注工具:开发了一个面向汉语的语音标注系统10将Tcl的跨平台性能、Tk卓越的图形界面、Snack的可视化语音功能整合在一起,在绘制波形、语图、音高曲线等方面省时省力;标注文件可以和其他语音处理软件兼容,如PRAAT等;中文界面,实现了中文语音文件的汉字标注。基于Tcl/Tk+Snack开发的语音标注工具界面11基于Tcl/Tk+Snack工具开发的标注工具界面及标注实例汉字层拼音层声韵层停断层重音层12采集原则:以节目文本为单位,全面采样,力求均衡;语料来源:电台、电视台网站的节目文本;选样参数:大陆与港台、中央与地方、不同的语言样态不同的受众群体、不同的内容领域……目前规模:目前已达到5000万字(不包括篇头信息)

电视语料4000万;包括17家电视台,165个电视栏目;广播语料1000万;包括22家电台,133个广播栏目;总共有12396个文件。文本语料的采集13文本语料的标注篇头信息:各种背景信息的标注(元数据)篇体信息:自动分词词性信息标注语体信息标注句法信息标注语义关系信息标注语用信息标注篇章关系标注已做正在做14

许多/m游客/n在/p景点/n前/f“/w望票兴叹/v/i/ls”/w。/w游客/n是/v“/w车/n到/v山/n前/f”/w,/w进退两难/v/i,/w大老远/a/ky

慕名而来/v/l

,/w如/c不/d进去/v游览/v,/w实在/d不/d甘心/v,/w而/c要/v了却/v“/w到此一游/v/l”/w的/u心愿/n,/w一行/n三五/m人/n就/d得/v先/d掏/v几百/m元/q的/u“/w进门费/n/ls

”/w。/w词性标注样本熟语的双层标注语体信息标注15XWLB040415-001

<P>(DJ_ZJ(O1_SU胡/nr锦涛/nr)(I1主持/v)(O2_OB仪式/n)(I2欢迎/v)(O3_OS_NP(A_LS拉脱维亚/ns)(!总统/n))(I3访华/v))</P>

XWLB040415-138(YF(O_SU孔/nr泉/nr)(I说/v),/w)(DJ_ZJ

(E1_SJ_NP4月/t13号/t,/w)(O_DS_NP(A1_NU_QP17/m名/q)(A2_LS中国/ns)(!船员/n)(E2_CS_PP在/p印度/ns孟加拉湾/ns海域/n)(E3_YY_PP因/p沉船/v)(I遇险/v)。/w)XWLB040415-005

(DJ_ZJ(E_SJ_FP中拉关系/n正常化/v以来/f,/w)(O_DS_NP(A_LS_NP两/m国/n)(!关系/n))(E_ZT顺利/a)(I发展/v)。/w)

句法、语义关系标注样本16篇章标注(RST树图分析)样本17目标与特点语音(音节、韵律标注)

文字

词语(分词、词性标注、语体信息、语用信息)

短语(浅层分析、短语结构标注)

句子(句法、语义关系标注)

篇章(篇章关系标注)

多层次一体化18四、传媒语言语料库的应用研制语料库分词标注系统

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论