版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
香港中文大學圖書館系統UniversityLibrarySystemTheChineseUniversityofHongKong香港Innovative用户协会重订《单一码与CCCII/EACC对应表》–第五届中国INNOPAC用户协会年会,2004年11月9-10日
––上海华东师范大学–何以業2004年11月9日1香港Innopac用户协会重订<单一码与CCCII/EACC对应表>.2004年11月9日,何以業鸣谢重订工作由香港Innovative用户协会(HongKongInnovativeUsersGroup)下的单一码计划工作小组(HKIUGWorkingGrouponUnicodeProject)负责。 小组成员馆的代表为:林纪达先生(香港科技大学)黄秉杰先生(香港城市大学)陈伟明先生(香港大学)何以业(香港中文大学)以下的报告内容取材自黄秉杰先生与我在2003年12月第4届HongKongInnovativeUsersGroupMeeting中的报告http://hkiug.ln.edu.hk/meetings/am2003/presentations/philip_ho_yee_ip.ppt2香港Innopac用户协会重订<单一码与CCCII/EACC对应表>.2004年11月9日,何以業報告梗概背景难题目标与方法工序对Innovatives的要求尚未解决的问题用户注意事项将来3香港Innopac用户协会重订<单一码与CCCII/EACC对应表>.2004年11月9日,何以業1.背景汉字编码字符集多种字符集支援中日韩字(CJK)资料来源:林纪达,“OverviewofChineseCharacterEncoding”,http://www.lib.cuhk.edu.hk/seminar/unicode/kt_lam_files/frame.htm字符集名称(charactersets)流行范围GB(国标)中国BIG5(大五码)香港,台湾等地CCCII(ChineseCharacterCodeforInformationInterchange中文信息交换码)图书馆EACC(EastAsianCharacterCode东亚字码)美国国会图书馆字码标准(MARC21standard)http://www.loc.gov/marc/specifications/specchareacc.htmlUnicode(单一码)电脑操作系统广泛采用,e.g.:Windows2000,XP4香港Innopac用户协会重订<单一码与CCCII/EACC对应表>.2004年11月9日,何以業1.背景字符集支援范围字符数码点版本发布支援繁简连结特质BIG513,05314,7581984繁体无GB1803027,0001.6百万2000繁简无CCCII75,684830,5841980繁简有EACC15,728830,5841983繁简有Unicode82,2701.1百万2000(v.3)繁简无5香港Innopac用户协会重订<单一码与CCCII/EACC对应表>.2004年11月9日,何以業1.背景(代)码点(codepoint)同一个字形,在不同字符集会使用不同的码点字符集[余]的码点备考BIG5A745GB180305164CCCII213131276076[餘]216076
後4碼連結:余杭<->餘杭EACC276076[餘]216076
後4碼連結:余杭<->餘杭Unicode4F596香港Innopac用户协会重订<单一码与CCCII/EACC对应表>.2004年11月9日,何以業1.背景内存代码(internalcode)Innopac以EACC/CCCII形式存储CJK字符Innopac内存代码不是Unicode1001余秋雨1001{276076}{214f29}{215f51}7香港Innopac用户协会重订<单一码与CCCII/EACC对应表>.2004年11月9日,何以業1.背景对应表(mappingtable)Innopac用对应表把内存代码在客户端与系统之间往来转换接口(界面)客户端编码Innopac内存代码TelnetBIG5WebPACBIG5BIG5(大五码)EACC/CCCIIMilleniumWebPACUTF-8UTF-8(单一码)EACC/CCCII8香港Innopac用户协会重订<单一码与CCCII/EACC对应表>.2004年11月9日,何以業2.难题(一)复数对应难题1UTF-8对应表(diac.utf8)中,有多个内存代码对应同一个客户端编码查询用的代码不一定是所期望的代码对应次序各馆不同,Z39.50查找结果不定UTF-8表中[台]的复数变换EACC-内存代码Unicode--客户端编码字义283b7d53F0[檯]的简体27605d53F0[颱]的简体21353853F0[台]本身是正字27542b53F0[臺]的简体9香港Innopac用户协会重订<单一码与CCCII/EACC对应表>.2004年11月9日,何以業2.难题(二)EACC与CCCII重叠难题2EACC与CCCII用码不同,各馆内存不一,资料交换带来麻烦。EACC/CCCIIBIG5UTF-8备考余213131(CCCII)A7454F59独立代码,不与[餘]216076连结276076(EACC)A7454F59与[餘]216076连结10香港Innopac用户协会重订<单一码与CCCII/EACC对应表>.2004年11月9日,何以業2.难题(三)错误与缺漏难题3UTF8(Release2002Phrase3)中有小毛病错误27615F<>U+53CB [友]该对应U+53D1 [发]缺漏缺213F30<>U+3007 [〇]11香港Innopac用户协会重订<单一码与CCCII/EACC对应表>.2004年11月9日,何以業2.难题
(四)选取不一致难题4BIG5和UTF-8产生的复数对应不一致,香港Innovative用户协会决定进行此单一码计划:BIG5客户端
对应表选前一个对应码UTF8客户端
对应表选后头一个对应码12香港Innopac用户协会重订<单一码与CCCII/EACC对应表>.2004年11月9日,何以業2.难题(四)选取不一致(续)[才]的对应BIG5(WebPAC
或Telnet)对应表选前一个对应码
内存
BIG5
213f7b A47E
BIG5选前一个 28736d A47EUTF-8(WebPAC或Millennium)对应表选后一个对应码
内存
UTF-8 213f7b 624D
28736d 624D UTF-8选后一个13香港Innopac用户协会重订<单一码与CCCII/EACC对应表>.2004年11月9日,何以業3.目标与方法.香港中文大学于2003年7月举行了讨论会:http://www.lib.cuhk.edu.hk/seminar/unicode/单一码计划工作小组(HKIUGWorkingGrouponUnicodeProject)亦于同年7月成立目标解决BIG5和UTF-8选取不一致的难题决定对应表中的那些应是‘一对一’或是‘多对一’决定对应表应否只用‘纯粹EACC’或是‘EACC+CCCII’清除错误与缺漏为将来‘以单一码为内存的资料库’做好准备14香港Innopac用户协会重订<单一码与CCCII/EACC对应表>.2004年11月9日,何以業3.目标与方法(续)
单一码计划工作小组研究后提出如下方案:不再修订BIG5对应表(因为:字符集字量少;只支援繁体字;复数对应太多….等等)
建议重订一张新的UTF-8对应表(diac.utf8)EACC<>Unicode以美国国会图书馆MARC21为标准尾4码相同者,容许复数对应;尾4码不同者,需决定优先选取者;例:[台](见2.难题1)EACC与CCCII重叠时,删除CCCII将馆内以该CCCII为内码的资料转换为对应的EACC对应表需包括‘纯粹CCCII’以照顾不常用字15香港Innopac用户协会重订<单一码与CCCII/EACC对应表>.2004年11月9日,何以業4.工序建成diac.utf8.hkiug以下部分直接摘用黄秉杰先生在2003年12月第4届HongKongInnovativeUsersGroupMeeting报告内的Procedures部分
参见:http://hkiug.ln.edu.hk/meetings/am2003/presentations/philip_ho_yee_ip.ppt16香港Innopac用户协会重订<单一码与CCCII/EACC对应表>.2004年11月9日,何以業Proceduresdiac.utf8.hkiugcreateddiac.utf8.hkiugdiac.utf8LCEACC22717EACC/CCCIISubtracted66SubstitutesforMissing(U+3013)15673EACC7044pureCCCII+Remapped287PUASelectedpreferencesinmulti-mappinglinkedandunlinkedcasesCorrectedLCmappingspreparedlistforCCCIItoEACCdataconversionSubtracted955withEACCequivalent15739EACCmerged7999CCCIIextracted17香港Innopac用户协会重订<单一码与CCCII/EACC对应表>.2004年11月9日,何以業ProceduressourcefromLCMergedtablesfromLC'sEACCtoUCS/UnicodeMappingshttp://www.loc.gov/marc/specifications/specchareacc.html
18香港Innopac用户协会重订<单一码与CCCII/EACC对应表>.2004年11月9日,何以業ProceduresIncludedpureCCCIIfromUTF-8table(Rel2002Phase3)CCCIIwithnoEACCequivalents(pureCCCII)e.g.217455坓22483E洣7,044AddedtonewtableCCCIIwithEACCequivalentse.g.213131(CCCII)余276076(EACC)余955Excludedfromnewtable.SenttoIIIfordataconversionsourcefromdiac.utf819香港Innopac用户协会重订<单一码与CCCII/EACC对应表>.2004年11月9日,何以業Proceduresre-mappedPUARe-mapped297PrivateUserArea(PUA)tosuggestedalternates20香港Innopac用户协会重订<单一码与CCCII/EACC对应表>.2004年11月9日,何以業ProceduresSelectedpreferenceinmultiplemappingEACCMultiplemappingExample#ofcasesEnhancedindexing?LabeledasPreferenceLinkedsamelowerorderbytes4B3178
倩213178倩160(320char)Yes"multi-mappinglinked"notmatterUnlinkeddifferentlowerorderbytes283B7D
台27605D
台213538台27542B
台49(108char)No"multi-mappingunlinked"selectedcasebycase(basedonHKUSTstudyonwordfrequency&meaning)selectedpreference21香港Innopac用户协会重订<单一码与CCCII/EACC对应表>.2004年11月9日,何以業ProceduresLinkedcases:HKIUGpreferenceindicatedselectedpreference(cont)SelectedpreferenceinEACCmultiplemappinglinked22香港Innopac用户协会重订<单一码与CCCII/EACC对应表>.2004年11月9日,何以業ProceduresUnlinkedcases:HKIUGpreferenceindicatedselectedpreference(cont)SelectedpreferenceinEACCmultiplemappingunlinked23香港Innopac用户协会重订<单一码与CCCII/EACC对应表>.2004年11月9日,何以業ProceduresUpdatedLCmappingsReferencedfromothersourcesUnihanOCLCUSMARCCharacterSetforChinese,Japanese,Korean(printed)Examples:273C67LCmappedtoU+E9D8RemappedtoU+5E72(干)4B3C2bLCmappedtoU+E9C7RemappedtoU+67C3(柃)updatedLCmapping24香港Innopac用户协会重订<单一码与CCCII/EACC对应表>.2004年11月9日,何以業ProceduresCCCIIwithEACCEquivalents-fordataconversionCCCIIEACClistforconversionPreparedlistfordataconversion25香港Innopac用户协会重订<单一码与CCCII/EACC对应表>.2004年11月9日,何以業5.
对Innovatives的要求.交给Innovatives的付项diac.utf8.hkiug–是HKIUG设定的EACC/CCCII<>UTF-8对应表EACC 15,673纯粹CCCII 7,044合共 22,717 hasEACC.txt–CCCII重叠EACC表(955)单一码计划工作小组的报告Innovatives可做的工作(IUGCN可参照实行)为各馆的Innopac安装diac.utf8.hkiug依照hasEACC.txt所示,把图书馆资料库内的CCCII转换成对应的EACC(各馆可自行转换)26香港Innopac用户协会重订<单一码与CCCII/EACC对应表>.2004年11月9日,何以業6.
尚未解决的问题
LC的错误美国国会图书馆(LC)MARC21标准中有一个错误:23355C
LCMARC21标准23355C<>U+86C3[蛃]USMARCcharactersetforChinese,Japanese,Korean.Washington,D.C.:LibraryofCongress,1986.23355C[豣]U+8C6327香港Innopac用户协会重订<单一码与CCCII/EACC对应表>.2004年11月9日,何以業7.用户注意事项
复数对应选字复数对应:[历]U+5386请参考香港科技大学的复数对应选择表:lc-multi-eacc.xls歷21462A历27462A设定为优先对应歷的简体274349设定为非优先对应曆的简体曆21434928香港Innopac用户协会重订<单一码与CCCII/EACC对应表>.2004年11月9日,何以業7.用户注意事项复数对应选字(续1)数据正确性
书名:历法…内存代码备考数据正确?以字符输入:历27462A与[歷]21462A连结索引错误若以代码输入:274349274349与[曆]214349连结索引正確*可用附加追寻项,以字符输入:历27462A与[歷]21462A连结索引29香港Innopac用户协会重订<单一码与CCCII/EACC对应表>.2004年11月9日,何以業7.用户注意事项
复数对应选字(续2)Milleniumeditor暂依UTF-8对应表在储存目录时修改内码。这会使数据不正确。此为Millennium的软件缺点,由于目录从server交到client,在client重存时,内存代码会依对应表的优先对应的规定来改码。如果只是修改item,checkin,order,globalupdate等,由于不会在client重存bib目录,内存代码不会改变。
内存代码数据正确?Telnet以代码输入:274349{274349}正确Millennium中,不做任何修改,储存后,在Telnet中检看:{27462A}错误30香港Innopac用户协会重订<单一码与CCCII/EACC对应表>.2004年11月9日,何以業7.用户注意事项复数对应选字(续3)Innovatives打算在Sliverversion中修正软件缺点。非优先对应的内存代码,会在Milleniumeditor以字符显示,而且不会在重存目录时修改内码。
内存代码数据正确?Telnet以代码输入:274349{274349}Millennium中,不作任何修改,储存后还保留並显示为:{274349}正确31香港Innopac用户协会重订<单一码与CCCII/EACC对应表>.2004年11月9日,何以業7.用户注意事项复数对应选字(续4)暂时可用Anzio-Win作Telnetclient设定可参考香港中文大学图书馆网页:http://www.lib.cuhk.edu.hk/cataw/Internet/System_DIY.pdf上述网页提到的CCCII.UNI,香港中文大学愿意提供。但ANZIO-Win有缺点:CCCII.UNI为1EACC<>1Unicode.
非优先对应者,一概不用
32香港Innopac用户协会重订<单一码与CCCII/EACC对应表>.2004年11月9日,何以業7.用户注意事项复数对应选字(续5)
EACCdiac.utf8.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年石材干挂工程合作协议
- 2024年中国微机箱式多用炉机组市场调查研究报告
- 瑜伽扭转力量课程设计
- 2024年03月重庆浦发银行重庆分行春季校园招考笔试历年参考题库附带答案详解
- 管网课程设计排水
- 电子琴教学课程设计
- 2025年度数据中心消防系统安装合同2篇
- 2025版西瓜采摘体验园投资建设合同3篇
- 2025版许可使用合同(商业秘密)3篇
- 2024年安岳县中医医院高层次卫技人才招聘笔试历年参考题库频考点附带答案
- 场地道路施工方案
- 2024-2025学年江苏省南通市海安市二年级(上)期中数学试卷
- 医疗机构医疗废物管理规范考试试题及答案
- GB/T 15723-2024实验室玻璃仪器干燥器
- 吊篮操作和维护保养管理制度
- 2023-2024学年广东省广州市番禺区高二(上)期末地理试卷
- 广东省江门市2023-2024学年高一上学期物理期末试卷(含答案)
- 2024年安徽省公务员录用考试《行测》真题及答案解析
- 车间班长年度述职报告
- 2024-2030年中国智慧港口行业深度调研及投资前景预测报告
- 2024年贵州省公务员考试《行测》真题及答案解析
评论
0/150
提交评论