香港中文大学图书馆系统University Library System_第1页
香港中文大学图书馆系统University Library System_第2页
香港中文大学图书馆系统University Library System_第3页
香港中文大学图书馆系统University Library System_第4页
香港中文大学图书馆系统University Library System_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、香港中文大學圖書館系統University Library SystemThe Chinese University of Hong Kong香港香港 Innovative 用户协会重订用户协会重订单一码与单一码与CCCII/EACC对应表对应表 第五届中国第五届中国INNOPAC用户协会年会用户协会年会, 2004年11月9-10日 上海华东师范大学上海华东师范大学何以業何以業2004年11月9日 University Library System, CUHK 香港中文大學大學圖書館系統香港中文大學大學圖書館系統香港 Innopac 用户协会重订. 2004年11月9日, 何以業2鸣谢鸣谢重

2、订工作由 香港Innovative用户协会 (Hong Kong Innovative Users Group) 下的单一码计划工作小组 (HKIUG Working Group on Unicode Project) 负责。 小组成员馆的代表为:林纪达先生 (香港科技大学)黄秉杰先生 (香港城市大学)陈伟明先生 (香港大学)何以业 (香港中文大学)以下的报告内容取材自黄秉杰先生与我在2003年12月第4届 Hong Kong Innovative Users Group Meeting 中的报告.hk/meetings/am2003/presentatio

3、ns/philip_ho_yee_ip.ppt University Library System, CUHK 香港中文大學大學圖書館系統香港中文大學大學圖書館系統香港 Innopac 用户协会重订. 2004年11月9日, 何以業3報告梗概報告梗概1.背景2.难题3.目标与方法4.工序5.对 Innovatives 的要求6.尚未解决的问题7.用户注意事项8.将来 University Library System, CUHK 香港中文大學大學圖書館系統香港中文大學大學圖書館系統香港 Innopac 用户协会重订. 2004年11月9日, 何以業41. 背景背景 汉字编码字符集汉字编码字符集

4、多种字符集支援中日韩字(CJK)资料来源: 林纪达, “Overview of Chinese Character Encoding”, .hk/seminar/unicode/kt_lam_files/frame.htm字符集名称 (character sets)流行范围GB (国标)中国BIG5 (大五码)香港,台湾等地CCCII (Chinese Character Code for Information Interchange 中文信息交换码)图书馆EACC (East Asian Character Code 东亚字码)美国国会图书馆字码

5、标准 (MARC 21 standard) /marc/specifications/specchareacc.htmlUnicode (单一码)电脑操作系统广泛采用,e.g.:Windows 2000, XP University Library System, CUHK 香港中文大學大學圖書館系統香港中文大學大學圖書館系統香港 Innopac 用户协会重订. 2004年11月9日, 何以業51. 背景背景 字符集支援范围字符集支援范围字符数码点版本发布支援繁简连结特质BIG513,05314,7581984繁体无GB 1803027,0001.6百万200

6、0繁简无CCCII75,684830,5841980繁简有EACC15,728830,5841983繁简有Unicode82,2701.1百万2000 (v. 3) 繁简无 University Library System, CUHK 香港中文大學大學圖書館系統香港中文大學大學圖書館系統香港 Innopac 用户协会重订. 2004年11月9日, 何以業61. 背景背景 (代代) 码点码点 (code point)同一个字形,在不同字符集会使用不同的码点字符集 余 的码点 备考BIG5A745GB 180305164CCCII213131276076餘 216076 後4碼連結:余杭餘杭EA

7、CC276076餘 216076 後4碼連結:余杭餘杭Unicode4F59 University Library System, CUHK 香港中文大學大學圖書館系統香港中文大學大學圖書館系統香港 Innopac 用户协会重订. 2004年11月9日, 何以業71. 背景 内存代码 (internal code) Innopac 以 EACC/CCCII 形式存储 CJK 字符 Innopac 内存代码不是 Unicode100 1 余秋雨100 1 276076214f29215f51 University Library System, CUHK 香港中文大學大學圖書館系統香港中文大學大

8、學圖書館系統香港 Innopac 用户协会重订. 2004年11月9日, 何以業81. 背景 对应表 (mapping table) Innopac 用对应表把内存代码在客户端与系统之间往来转换接口(界面)客户端编码Innopac内存代码Telnet BIG5WebPAC BIG5BIG5 (大五码)EACC/CCCIIMilleniumWebPAC UTF-8UTF-8 (单一码)EACC/CCCII University Library System, CUHK 香港中文大學大學圖書館系統香港中文大學大學圖書館系統香港 Innopac 用户协会重订. 2004年11月9日, 何以業92.

9、难题 (一)复数对应难题 1UTF-8对应表 (diac.utf8) 中, 有多个内存代码对应同一个客户端编码查询用的代码不一定是所期望的代码对应次序各馆不同,Z39.50查找结果不定UTF-8表中 台 的复数变换EACC - 内存代码Unicode - 客户端编码字义283b7d53F0檯的简体27605d53F0颱的简体21353853F0台 本身是正字27542b53F0臺的简体 University Library System, CUHK 香港中文大學大學圖書館系統香港中文大學大學圖書館系統香港 Innopac 用户协会重订. 2004年11月9日, 何以業102. 难题 (二)EA

10、CC 与 CCCII 重叠难题 2EACC 与 CCCII 用码不同, 各馆内存不一,资料交换带来麻烦。EACC/CCCIIBIG5UTF-8 备考余213131 (CCCII)A7454F59独立代码,不与 餘 216076 连结276076 (EACC)A7454F59与 餘 216076 连结 University Library System, CUHK 香港中文大學大學圖書館系統香港中文大學大學圖書館系統香港 Innopac 用户协会重订. 2004年11月9日, 何以業112. 难题 (三)错误与缺漏难题 3 UTF8 (Release 2002 Phrase 3) 中有小毛病 错

11、误 27615F U+53CB 友 该对应 U+53D1 发 缺漏 缺 213F30 U+3007 University Library System, CUHK 香港中文大學大學圖書館系統香港中文大學大學圖書館系統香港 Innopac 用户协会重订. 2004年11月9日, 何以業122. 难题 (四)选取不一致难题 4BIG5 和 UTF-8 产生的复数对应不一致,香港 Innovative 用户协会决定进行此单一码计划:BIG5客户端 对应表选前一个对应码UTF8客户端 对应表选后头一个对应码 University Library System, CUHK 香港中文大學大學圖書館系統香港

12、中文大學大學圖書館系統香港 Innopac 用户协会重订. 2004年11月9日, 何以業132. 难题 (四)选取不一致 (续) 才 的对应BIG5 (WebPAC 或 Telnet) 对应表选前一个对应码内存BIG5213f7bA47EBIG5选前一个28736dA47EUTF-8 (WebPAC 或Millennium) 对应表选后一个对应码内存UTF-8213f7b624D28736d624D UTF-8选后一个 University Library System, CUHK 香港中文大學大學圖書館系統香港中文大學大學圖書館系統香港 Innopac 用户协会重订. 2004年11月9日

13、, 何以業143. 目标与方法 . 香港中文大学于2003年7月举行了讨论会: .hk/seminar/unicode/单一码计划工作小组 (HKIUG Working Group on Unicode Project) 亦于同年7月成立目标1.解决 BIG5 和 UTF-8 选取不一致的难题2.决定对应表中的那些应是 一对一 或是 多对一3.决定对应表 应否只用 纯粹 EACC 或是 EACC+CCCII4.清除错误与缺漏5.为将来以单一码为内存的资料库做好准备 University Library System, CUHK 香港中文大學大學圖書館

14、系統香港中文大學大學圖書館系統香港 Innopac 用户协会重订. 2004年11月9日, 何以業153. 目标与方法 (续) 单一码计划工作小组研究后提出如下方案: 不再修订 BIG5 对应表 (因为: 字符集字量少; 只支援繁体字; 复数对应太多. 等等) 建议重订一张新的 UTF-8 对应表 (diac.utf8)EACCUnicode 以美国国会图书馆MARC 21为标准尾4码相同者,容许复数对应;尾4码不同者,需决定优先选取者;例: 台 (见 2. 难题1)EACC 与 CCCII 重叠时,删除CCCII将馆内以该CCCII为内码的资料转换为对应的 EACC对应表需包括 纯粹CCCI

15、I以照顾不常用字 University Library System, CUHK 香港中文大學大學圖書館系統香港中文大學大學圖書館系統香港 Innopac 用户协会重订. 2004年11月9日, 何以業164. 工序 建成 diac.utf8.hkiug 以下部分直接摘用黄秉杰先生在2003年12月第4届 Hong Kong Innovative Users Group Meeting报告内的Procedures 部分参见:.hk/meetings/am2003/presentations/philip_ho_yee_ip.pptdiac.utf8.hkiu

16、gcreated diac.utf8.hkiugdiac.utf8LC EACC22717EACC/CCCII Subtracted 66 Substitutes for Missing (U+3013)15673EACC7044 pureCCCII+Remapped 287 PUASelected preferences in multi-mapping linked and unlinked casesCorrected LC mappingsprepared list for CCCII to EACC data conversionSubtracted 955 with EACC eq

17、uivalent15739 EACC merged7999 CCCII extracted source from LCMerged tables from LCs EACC to UCS/Unicode Mappings/marc/specifications/specchareacc.html Included pure CCCII from UTF-8 table (Rel 2002 Phase 3)CCCII with no EACC equivalents (pure CCCII)e.g.217455 坓22483E 洣7,044Added to n

18、ew tableCCCII with EACC equivalentse.g.213131 (CCCII) 余276076 (EACC) 余955Excluded from new table.Sent to III for data conversionsource from diac.utf8re-mapped PUARe-mapped 297 Private User Area (PUA) to suggested alternatesSelected preference in multiple mapping EACCMultiple mappingExample# of cases

19、Enhanced indexing?Labeled asPreferenceLinkedsame lower order bytes4B3178 倩213178 倩160(320 char)Yesmulti-mapping linkednot matterUnlinkeddifferent lower order bytes283B7D 台27605D 台213538 台27542B 台49(108 char)Nomulti-mapping unlinkedselected case by case (based on HKUST study on word frequency & meani

20、ng)selected preferenceLinked cases: HKIUG preference indicatedselected preference (cont)Selected preference in EACC multiple mapping linkedUnlinked cases: HKIUG preference indicatedselected preference (cont)Selected preference in EACC multiple mapping unlinkedUpdated LC mappings Referenced from othe

21、r sourcesUnihanOCLCUSMARC Character Set for Chinese, Japanese, Korean (printed) Examples:273C67LC mapped to U+E9D8Remapped to U+5E72 (干)4B3C2bLC mapped to U+E9C7Remapped to U+67C3 (柃)updated LC mappingCCCII with EACC Equivalents- for data conversionCCCIIEACClist for conversionPrepared list for data

22、conversion University Library System, CUHK 香港中文大學大學圖書館系統香港中文大學大學圖書館系統香港 Innopac 用户协会重订. 2004年11月9日, 何以業265. 对对 Innovatives 的要求的要求 .交给交给Innovatives 的的 付项付项1. diac.utf8.hkiug 是 HKIUG 设定的 EACC/CCCIIUTF-8 对应表EACC 15,673纯粹CCCII 7,044合共22,7172. hasEACC.txt CCCII 重叠 EACC 表 (955)3. 单一码计划工作小组的报告Innovatives 可

23、做的工作可做的工作 (IUG CN可参照实行可参照实行)1.为各馆的 Innopac 安装 diac.utf8.hkiug 2.依照 hasEACC.txt 所示, 把图书馆资料库内的 CCCII 转换成对应的 EACC (各馆可自行转换) University Library System, CUHK 香港中文大學大學圖書館系統香港中文大學大學圖書館系統香港 Innopac 用户协会重订. 2004年11月9日, 何以業276. 尚未解决的问题尚未解决的问题 LC的错误美国国会图书馆 (LC) MARC 21 标准中有一个错误 : 23355CLC MARC21 标准23355C U+86C

24、3蛃USMARC character set for Chinese, Japanese, Korean.Washington, D.C. : Library of Congress, 1986.23355C豣 U+8C63 University Library System, CUHK 香港中文大學大學圖書館系統香港中文大學大學圖書館系統香港 Innopac 用户协会重订. 2004年11月9日, 何以業287. 用户注意事项用户注意事项 复数对应选字复数对应 : 历 U+5386请参考香港科技大学的复数对应选择表: lc-multi-eacc.xls歷21462A历27462A设定为优先对

25、应歷的简体274349设定为非优先对应曆的简体曆214349 University Library System, CUHK 香港中文大學大學圖書館系統香港中文大學大學圖書館系統香港 Innopac 用户协会重订. 2004年11月9日, 何以業297. 用户注意事项用户注意事项 复数对应选字(续1)数据正确性书名: 历法内存代码 备考数据正确 ?以字符输入: 历27462A与 歷 21462A连结索引错误若以代码输入: 274349274349与 曆 214349连结索引正確* 可用附加追寻项,以字符输入:历27462A与 歷 21462A连结索引 University Library Sy

26、stem, CUHK 香港中文大學大學圖書館系統香港中文大學大學圖書館系統香港 Innopac 用户协会重订. 2004年11月9日, 何以業307. 用户注意事项用户注意事项 复数对应选字(续2)Millenium editor 暂依 UTF-8 对应表在储存目录时修改内码。这会使数据不正确。此为 Millennium 的软件缺点,由于目录从 server 交到 client,在 client 重存时,内存代码会依对应表的优先对应的规定来改码。如果只是修改 item, checkin, order, global update 等,由于不会在 client 重存 bib 目录,内存代码不会改

27、变。内存代码数据正确 ?Telnet 以代码输入: 274349274349 正确Millennium中, 不做任何修改,储存后, 在Telnet 中检看:27462A 错误 University Library System, CUHK 香港中文大學大學圖書館系統香港中文大學大學圖書館系統香港 Innopac 用户协会重订. 2004年11月9日, 何以業317. 用户注意事项用户注意事项 复数对应选字(续3)Innovatives 打算在 Sliver version 中修正软件缺点。非优先对应的内存代码,会在Millenium editor 以字符显示,而且不会在重存目录时修改内码。内存

28、代码数据正确 ?Telnet 以代码输入: 274349274349Millennium中, 不作任何修改,储存后还保留並显示为:274349 正确 University Library System, CUHK 香港中文大學大學圖書館系統香港中文大學大學圖書館系統香港 Innopac 用户协会重订. 2004年11月9日, 何以業327. 用户注意事项用户注意事项 复数对应选字(续4)暂时可用 Anzio-Win 作 Telnet client1. 设定可参考香港中文大学图书馆网页: .hk/cataw/Internet/System_DIY.pdf2. 上述网页提到的 CCCII.UNI , 香港中文大学愿意提供。3. 但 ANZIO-Win 有缺点:CCCII.UNI 为 1 EACC 1 Unicode. 非优先对应者,一概不用 University Library System, CUHK 香港中文大學大學圖書館系統香港中文大學大學圖書館系統香港 Innopac 用户协会重订. 2004年11月9日, 何以業337. 用户注意事项用户注意事项 复数对应选字(续5)EACCdiac.utf8.hkiug 资料Webopac / Millennium 显示Anzio-Win

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论