大陆中文校对规则_第1页
大陆中文校对规则_第2页
大陆中文校对规则_第3页
大陆中文校对规则_第4页
大陆中文校对规则_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Nuance中文项目部分校对规范转写基本规范l 文本内容基本转写规范对于基本文本内容,要求听到什么就写什么,完全以声音为标准进行听写。 l 标点符号转写问题听写内容中,原本需要的标点符号一律由空格代替,例:中午吃饭 下午逛街 晚上睡觉。如果发音人读出标点,则按如下格式标注:发音人发音。 (标点符号及其标注与前后字词之间需要用空格隔开。)例如,声音文件中,发音人读出了“句号”,则在转写中标注为:“。句号”。注意,波折号需要写成“”(两道横杠)l URL及文件扩展名转写规范(标注与前后中文字词间需要用空格隔开。)发音人的发音转写点 C A.ca点_CA点 com .com点_com点 C O M

2、.com点_C_O_M点 E D U .edu点_EDU点 net .net点_net点 N E T .net点_N_E_T点 gov .gov点_gov点 G O V .gov点_G_O_V点 org .org点_org点 O R G .org点_O_R_GH T T P http:/HTTPH T T P W W Whttp:/www.HTTPWWW_dotW W W 点www.WWW_点三 W 点www.三_W_点点 T X T.txt点_TXTT X TTXT点 R T F.rtf点_RTFR T FRTF例如:www.WWW_点 MySpace .com点_comhttp:/www.

3、HTTPWWW_点 McDonalds fast food .com点_com如果发音人拼读了URL中的一部分,则该部分需要按如下格式转写:字母_字母_字母。例如:发音人发音:W W W 点 B A I D U 点 com转写: www.WWW_点 B_A_I_D_U .com点_com发音人发音: W W 点 开心零零一 点 com转写: www.WW_点 开心零零一 .com点_com原始URL: http:/发音人发音: H T T P 冒号 斜杠斜杠 W W W 点 Google 点 com转写: http:/ HTTP_冒号_斜杠_斜杠 www. WWW_点 Google .com点

4、_com以下情况除外(习惯拼读的英文或名称,如果http, www, edu, AOL, IBM等):http:/HTTPhttp:/www.HTTPWWW_dotwww.WWW_dot.cadot_CA.edudot_EDUAOL_dot_coml 中文中出现的英文转写规则专有名词(公司名称,常识性专有名词等)如果声音文件中出现英文专有名词(如公司名称,人名,常识性专有名词等),则转写时需要根据常识拼写准确(包括大小写),如果有疑问的拼写请查google或百度确认。例如: IBM,Microsoft,Sony,eBay等 (公司名称) Mary,Barbara等(人名) iPod_Touch

5、,iPhone_3Gs,AIDS等(其他专有名词)关于拼读如果发音人拼读了某个单词或英文片段(除IBM等惯用拼读的单词外),则需要用大写字母转写下来。(字母间,及字母与前后中文字间均用空格隔开)例如: 发音人发音:L E D A C 转写: L E D A Cl 声音文件中出现的普通人名发音人读出的一些人名(或某些地名,不能在百度上确定怎么写的)不能确定字是怎么写的,只能确定读音,这类情况需按如下方式转写::sp符合读音的字例如:发音人发音:yang(二声) shen(一声) 转写: :sp杨深 或 :sp杨申 均可(只要读音符合)sp:和之后的文字之间没有空格l 数字的转写声音文件中出现的所

6、有数字均要写成中文的数字(一,二,三,幺,两,俩,零等),文本中不能出现阿拉伯数字。单个数字转写,每个数字之前需要保留空格。例如:发音人发音:1 2 3 4 5转写:一 二 三 四发音人发音:56.5转写:五十六 .点 五l 发音人的口头语发音人在说话过程中可能出现一些无意义的口头语(如嗯,啊,呃等),这样的口头语在标注中应按如下格式标出:(标注与前后字词间需要用空格隔开。)pf:umpf:ahpf:ehpf:erpf:uh。例如: 发音人发音:呃 我今天想做的事情有 转写: pf:er 我今天想做的事情有l 发音人没读清楚的字,词等语音片段在声音文件中,可能会出现发音人对某个字或某个词读的不

7、清楚,这样的情况下如果可以猜出读音的,需要按以下格式标注:(标注与前后字词间需要用空格隔开。) 猜测的读音对于不能猜出的语音片段,则需按以下格式标注:(标注与前后字词间需要用空格隔开。) unintelligible:例如: 发音人发音:我知da我觉得 转写: 我知 道 我觉得 发音人发音:我?我觉得 (?表示不能猜出的语音片段) 转写: 我 unintelligible: 我觉得 转写: 酗凶 酒l 对于不符合要求的声音文件的转写规则以下声音文件属于“坏文件”需要按如下规则转写:用于测试的声音文件有些声音文件明显是进行测试用的(如“一二三测试测试”等),这样的的声音不用写出具体内容,用g进行

8、标注即可。空白的声音文件用o进行标注。显示“声音文件错误”等的文件用ae进行标注。明显与需要录制内容不相关的文件用BAD WAVE进行标注。如果其中有某一段是与录制内容相关的,则用“p相关内容p”进行标注。如果一段声音文件中有一段小部分是发音人说一些与录制内容无关的内容,则用“ 无关内容”进行标注。(如果可以听清,则无关内容需要写出)除英文和中文之外的内容除英语和中文之外的其他语言内容不用转写,用i标注相应部分。l 语音及非语音噪音发音人发出的非语音噪音对于发音人发出的噪音(如lip-smack,sneeze,laughter,cough, throat-clear等),用如下规则进行标注:(

9、标注与前后字词间用空格隔开)noise:例如: 我认为 noise:lip-smack 这个问题应该这样回答 昨天我 noise:cough 和家人出去玩儿背景非语音噪音对于发音人发出的噪音(如开门声,鼠标或键盘敲击声,音乐,铃声等),用如下规则进行标注:(标注与前后字词间用空格隔开)noise:例如: 我认为 noise: 这个问题应该 noise: 这样回答 昨天我 noise: 和家人出去玩儿背景语音噪声除发音人之外的第二人声音出现在声音文件中时,需要在相应位置用“noise:bgspeech”进行标注。(标注与前后字词间用空格隔开)需要用到的tags:Tag定义:sp不能确定写法的字词。用于不能确定准确写法的字词,如果人名,不能通过网络查到的地名等。 该标注与前后字词间需要用空格隔开。pf:发音人的口头语。用于发音人无意义的口头语,如啊,呃,嗯等。 该标注与前后字词间需要用空格隔开。可以猜测出的模糊字词。用于发音人没法清楚,但是可以猜出的字词。 该标注与前后字词间需要用空格隔开。unintelligible:不能猜测出的模糊字词。用于发音人没法清楚,且不能猜出的字词。 该标注与前后字词间需要用空格隔开。g用于测试的声音文件o用于空白的声音文件ae用于错误的声音文件BAD WAVE用于与需要录制文件内容无关的声音文件p用于在bad wave文件中,标注与录制内

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论