数字化华升汉字编码系统 - 博客大巴_第1页
数字化华升汉字编码系统 - 博客大巴_第2页
数字化华升汉字编码系统 - 博客大巴_第3页
数字化华升汉字编码系统 - 博客大巴_第4页
数字化华升汉字编码系统 - 博客大巴_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、说明书(简体字版)华升码中文+日文输入法第一版摘要华升码中文+日文输入法(HuaShengMa 或 HSM),简称华升码,采用GB18030字符集另有90000多个字组,适用于一般中文和日文的数字化计算机处理,可以适配几乎任何语言背景的计算机。华升码的命名,意在纪念北宋活字版发明家毕升。华升码参考了王云(雲)五先生发明的四角号码检字法,用19九位阿拉伯数字代表汉字以及日文假名的九类笔画,与传统的汉字部首/偏旁、单字以至字组结合起来,编造出相应的代码,以此反映汉字象形、拟声、会意的特点,也易于从代码向笔画、字元乃至汉字的反推导,无须汉语拼音,所以易学难忘,能做到华升码与汉语汉字学习相辅相成,达到

2、学以致用的目的,诚然是汉语识字课和写字课的继续,有望促进中文输入法的国际化。一、笔画(一)笔画的编码和采码原则就是根据汉字尤其是繁体汉字的笔画顺序和字元结构,以最少的码位覆盖最多笔画,使用取大优先、先入为主的编码和采码方法;同时注意它们的方位、直观形象以及人们的汉字书写笔顺和习惯(详见注和)。不过,只有不交叉的笔画才可以拆分和编码,并且原则上须保持笔画结构的完整性。(二)表一 笔画代码简表 类别横垂点/捺叉串包围角/拐八小单笔和复笔一 乛丨亅 丿丶 宀亠十乄廾丰卅卌丯扌口囗乚乙丁 丂匕己万厶了刀乁厂冫卜丬幺丆冖弓廿凸凹臼八人丷入亻儿几二刂巜小三氵川巛一位码123456789复笔艹爻耂吕回囙北比

3、癶止厃厄弜卝片爿丱斤厉臽匀円厸亖火灬介仌从仒竹州汌二位码4466778899复笔品丏危氶厽刕刕虍此虍厽众金釒亚灮尛三位码666777888999注:水平的、基本上平直的或自左下向右上的走笔。垂直或基本垂直的竖笔,以及从上向左下方的走笔丿。点和带点的组合字元以及捺笔。两笔交叉,不论方位,艹-44(在上),如:莽-44.435。(注:“”只用于示意。)一笔与多笔交叉,不论方位和结构,如:西-156;东-578;莽-44.435。包围(不论结构),就是多笔交合构成的规则方框。有交叉的包围产生代码之后,6要保留。拐,主要是拐笔、半包围、不规则方框等,它们交叉产生代码后,7要保留。八字形以及平行的两顺笔

4、。丷被分隔时也是8,如:米848。忄-28。小字形以及三顺笔,如:步-779;少-92;-93;心-97;必-947 0只用作补足码位,详见下文。中文和日文的,都作6。 笔画末端的勾不须计码,要与角和拐(7)严格区分。 在具体的字元里,须维持7、8、9所代表的笔画完整性,如:辰-297;马-771;馬-75.88;款-419.78(不是499.78)。但是又须取大优先,先入为主,所以:主-341(不作384);言-386(不作396);隹-831。 小结。(一)丶-丷-丿-(3、8、9、2)与一-冖-(1、7)交合或交叉的时候,后者须被忽略,不另计码),如:家-3.787;市-347;农-42

5、7;鹤-421731;前-8.788;立-38;旁-38.37;骨-678;应329;当971。(二)一、冖被兼并,如:立-38;旁-38.37;应329;常-96.47。(三)半包围与相邻笔画吻合的,作6,如:奂-763;且-68;典-558;骨-678。不吻合的,作7如:奥278.43;耍-778.57。(四)须注意7和8两顺笔的差别:冷-7.837;冻-7.578。寒-358.8;冬-748。(五)华升码笔画编码口诀(参考胡适先生的笔画号码歌)1横2垂3点捺,4叉5串6包围,7拐8八9是小,码位不够补个0。1、7“兼并”须忽略,6、7“保留”要加码。(注:参见上述。参见上述。参见上述和)

6、总结-汉字笔画及其编码华升码的笔画称说与四角号码以及一般字典是大同小异,但拆分方法则是小同大异。华升码的特点是:交合的可分,交叉的不可分;取大优先,先入为主;注重直观,多用试错。四角号码采用十类笔形(09),以汉字的外角为编码顺序;华升码则采用九类汉字笔画(19)为编码基础并遵循其书写笔顺,且以字元为采码根据,所以差异很大,详见表一。此外,要注意笔画结构的直观性和书写习惯,以求获得最佳的切合点,所以:不-19;骨-678或67.78;囧-686;年-857;少-92;步-779;卜-7;下-73;上-71;卅-5;丰-5。二、字元 字元是华升码对于汉字部件或部首(包括偏旁)和字根的称说。以金-

7、釒-钅、朩-木、水-氵、火-灬、士-土为例,右边的字元只可用作部首,左边的字元多用作字根,或者用作独立的单个汉字。一个字元最多采三位码,即首码、次码、末码,详见表一和表二。表二 字元代码代码字元134679114-干;143-天丙;147-无亐両帀148-兩雨;15-开;151-酉153-两155-再;156-西更162-鬲17-下18-丌兀;184-平;188-灭19-不;192-巠2241-香;247-黍;248-禾先朱2482-鬥;25-手牜牛升;251-生257-毛兎;261-白;262.-躬躯264-阜身卑囟甶;267-鬼268-自血鼻皃烏鳥27-山么乃 阝;274-及龜277-水屵

8、氺;278-舟;28-忄288-釆;29-爪爫;293-寽297-辰;298-豸采331-;32-广327-鹿広庀327.-席度慶庶庻328-庂329-应34-义文;344-麻348-齐;358.-寒塞;362-户365.8366-高;367-襄亨良褱衰褱368-宜369-京亰37-讠疒它亡卞方玄宁宆刃373-之辶;378-充亥齊38-亣六亢立宂穴;381-音384-辛卒交;386-言訁咅竒髙387-衣衤;389-龍;39-礻397.-宓441-土土;414-鼓417-壱壳壺壼;418-走419-款;42-才犭饣乡423-长424-皮;43-寸大弋;433-太犬443-龙尨;444-孝453-

9、447-考布老;448-黄45-卉;46-古右464-;469-直47-卋冇厷尢七切巾凶九冘卂力屮;474-支友卆叟孛476-加;477-韋出乜禸厹劜478-肉办尭有兇48-木朩;483-麥朮术5514-麦;518-责青尧53-夫戋戈;531-或534-戎;535-奉戒555-冓56-曳申由史中車吏563-央曵虫夀蟗;567-电甹568-東束柬;577-也帇兂屯世57-丸巿专韦击丗丮571-;575-车聿肀冉577-帇隶;578-东朿肃粛58-本耒未末;587.-孷661-日曰彑617-艮62-尸;6262-門623-尺;627-尼巴651-里655-毋;657-黾658-母果;661-黽66

10、7-;668-咠67-巳;677-彖冎鼎678-足骨68-目且耳四囚兄只皿688-見貝囬黑77.627-色71-卫与上甘闩彐刁孒弖纟717-卮丐卡印718-疋仧;72-饣乡727.48-樂73-歹夕久勺卪737-匄夗外死乤74-子又丑夂氏罓孓冈区廴742-牙;747-豖;749-孙75-夊冊用舁匆弁弔匁刄753-成咸威戚戌戍烕丹756-軍革;758(75.88)-馬76-可戶句冋占巨臣;761-鱼亟764-卤夏敻圅敻;766-靣768-魚767-色象包禼龟亀兔免768-頁面鹵魚77.發祭励鹐矦顾発留771-丘马乌刍写丠;772-矛773-瓦歺瓜鼠卡;774-攴反775-幾甬争角册羋芈777-齿

11、氶危此虍丏齒778-而页匃负贞虎歨睿78-见贝共冗勽勿欠月兒787-豕罔岡79-厼糸糹尔;799-髟881.命俞佱814-钅;815-侖龠817-气;82-丫彳工亍;82.修候攸倏條;823-風828-首巫;831-隹836-倉837-今令食飠84-王斗风父仐什攵壬午841-玍;843-关头矢847-缶五丟屰;848-米朵兲85-羊半并;851-酋;853-856-重;861-亘曾866-僉868-豆每兑兌874-殳至;877-兆;88-火881-业並丛;883-886-谷;887-;888-金釒益889-佥佘89-示尒尓丕;891-韭899-非993-尐947-必;96.堂常;966-畺97

12、-心;976-尚978-辵肖;98-乍注:1. 表二所列字元只是较常用的。它们当中许多还是完整的单个汉字(单元字、双元字或三元字)。但是,从总体上说它们要相互配伍或者与其他字元匹配才能构成单个汉字,所以上表列出的只是相应字元代码,不完全是各别单字的代码。 2. 带小数点“.”的代码,例如“82.”是要凸显那些单字左边的字元,输入时即可显示。三、单元字表一所列的笔画,有些本身就是字元或单元字;表二所列的字元有些就是单元字或双元字(见下文)。表一和表二要结合起来考虑和应用。单元字的编码和采码方法与字元相同。单元字的分类是:(一)凡是自然码最多三位的字,包括简单双元字以及简单三元字,如:金-888;

13、木-48;水-277;火-88;土-41;东-578;西-156;南-474;北-77;中56;衣-387;示-89;吕66;品666;众-888;厽-777;侣866;仁88;仨89;认378;竺998;尧-518;马-771;乌-771。(二)凡是不可以拆分的或不易拆分的单字或字元(多余的码位须忽略不计),如:我-253;南-474;鬲-162;离-347;禽-837;鹿-327;臧-773;鼠-773;秉-258;羲-843;爨-768;夔444;裹367;襄367;囊-567。(三)结构相似的字都统一作为单元字编码,如:753成、咸、戍、戌、威;搣5.753;臧-77.753;但是,戊

14、-253;戉-253,例外。373贏、臝、赢、。(四)某些单元字与其对应的部首/偏旁的差异,如:示-89,礻-39;身-264,躯-262.74;正-827,延-74.817。四、双元字双元字就是由两个字元组成的字,即一个部首和一个字根,也可以说是互为部首或字根。附带说一下,双元字最能反映汉字的形、声、义特点,例如:馨香形,声殳声;模木形,莫声;相木目会意。旌旗是两个古字,原以方为部首,表示旗形,近代汉字只取方为部首。其他,依此类推。相信华升码的学习和使用者,都会有这样的基本认识。双元字各字元的编码和采码方法同单元字,例如:(一) 简单双元字,即自然码最多三位的字,如:沐-948;杏-480;

15、仁-88,详见单元字。(二) 码数之和为四位或五位的,相应码组之间要用小数点“.”隔开;码数之和为六位的例外,如:铝-814.66;膜-78.443;密-397.27;家-3.787;突-38.433;寒-358.8;度-327.74;赛-358.78;睿-778.68;俞-81.788;候-82.783;条-74.48。馨-414241;罄-414847;逻-373683;迏-373433;蜜-397563;题-618778;叡-778.74;疑-783778。(三)由两个单字构成的字,以互为部首或互为字根看待,如:林-48.48;炎-88.88;棘-578578;棗-578578;叆-87

16、.294;囍-416416;喆-416416;颠-468778;辡-384384;赣-384748。(四)某些部首字同时作双元字处理,以便降低重码率,如:羽-77.77;走-41.78;鱼-764.1;食-8.367;音-38.61;鼻-268648;采-29.48;釆-2.848;麦-51.74;黑681.88;鼠-7.773;奥-278.43。(五)带字元夂容易被忽略的字,如:冬-748;麦-51.74;夒-778.74;夓-778.74;夏-768.74;敻-768.74;复-861.74;夌-418.74。(六)部首相似容易造成编码混乱的字,如:庆-32.43;度-327.74;庹-3

17、27623;庶-327.88;家-3.787;寒-358.8;塞-358.41;突-38.433;案-357.48;容-3.886;寇-3.884;罕-78.14;冠-7.883;莞-44.388;蓉-44.386;荣-447.48;营-447.66;菅-44.366;管-99.366;幕-447.47;慕-443.93;冢-7.747;蒙-44.717;遂-373887;逐-373787。(七)华升码设定字元(部首)的双元字有:前8.788;俞-81.788;候-82.783;修-82.749;囊-567667;壳-417.8;壶-417881;餐-77.837;祭77.89;韰-77.89

18、1;留77.64;岸-277.14;釐-587651;犛-587.25;款-419.78。小结:一)字元拆分的时候,要注意笔顺和笔画走势,看是否连贯和吻合,依照规则进行编码,如:幽-27.77;走-41.78;是-61.718;骨-678;奂-763;奐-778.43;粤-268.7;奥-278.43。二)明显地由两个单字组成的双元字,就以互为部首和字根处理。三)笔画一和冖被兼并与否密切注意(参见表一),不兼并的有:不-19,灭-188,蒙-44.717,荣-447.48,索-47.79,罕-78.14,当-971;须兼并的有:立-38,旁-38.37,骨-67.78,学-974,党-968。

19、五、三元字就是三个字元组成的字(简单三元字见单元字),每个字元采首码和末码,共六位码;码位不足时,补0。三元字分为:(一)对称三元字,如:犇-252525;辨-347034;狱-423743;獄-423643;森-484848;矗-494949;晶-616161;器-664366;粥-708870;骉-717171;鑫-888888。(二)半对称三元字,如:倡-806161;霖-184848;們-806262;間-626261;淋-904848。(注:艹、吅、比、北、从 是 单个字元 而不是两个字元,以此构成三元字的为数不多,如:箋-995353;菖-446161;器-664366。)(三)行

20、夹心三元字,如:街-824182;衡-827382;衍-829082;衢826182。(四)衣夹心三元字,如:衷-305687;哀-306087;裏-306187;裹306887。(五)其他夹心三元字,如:辡:辨-347034;弜:粥-708870;犾:狱-423743,獄-423643;:器-664366;誩:讟-364836;蠶-776153。(注:衣夹心三元字因为结构复杂,所以同时作为单元字编码,参见单元字。)六、三元结构的字元其本身就是三元字或三元结构,作为双元字的一个字元,须采各自的首码,如:簡-99.666;壘-666.41;橸-48.666;撬-5.222;蘅-44.878;嶽-

21、27.434;疆-741966;劍-866.8;馔-72.667;缰71.966;淵-9.717。有的三元结构字元更为复杂,如:驘-376778;贏-376768;臝-376768;羸-376788。因此,它们同时作为单元字处理,参见单元字。七、字组的编码(一)两字的,各字采首码和末码,共四位码,码位不足时补0:中国 5663;北京 7739;人名 8076;名人 7680; 水晶 2761(不是66);傀儡 2784(不是86)。(二)三字的,第一字采首码,其余各字采首码和末码,共五位码,码位不足时补0:中国人 56380;北京市 73937;奥运会 23787。(三)四字以上的,前三字采首

22、码,末字采首码和末码,共五位码,码位不足时补0:中国人民 56864;家家户户 33332;和谐社会 23387;世界和平-56214。中华人民共和国 58863;横眉冷对千夫指 46751;俯首甘为孺子牛 88725。中国人民抗日战争胜利纪念日 56861。八、汉语数字和数目的编码汉语数字的表示,除了各别单个数字同样编有代码之外,还给它们设计了一种采用阿拉伯数字的顺序编码法,但只限于数目一百以内。具体方法是,先输入相应的阿拉伯数字或数目,再输入0为数目的小写,输入1为大写,如:五50;伍-51;二十(廿)-200;三十(卅)-300;贰拾伍-251;此外,百(一百)-1000;佰(壹佰)10

23、01;千-10000;仟-10001;万-100000;萬-100001。九、字组框架的编码此类框架与字组的编码方法完全相同,但须填入相应字符并修整才能完成,如:【帐目】万仟佰拾元角分整 78857 / 萬仟佰拾元零分整 48857【地址】省市区街号 93767 / 省市區街號 93768【时辰】年月日时分 87687 / 年月日時分 87687十、标点符号和外文字母的编码(主要用于电话机)它们各须有一个前缀识别码,就是用1、2、3、4 分别代表:标点符号,希腊文、英文、俄文的字母。标点符号总共用三位码,其余一律采用四位码,后缀的0表示小写,1表示大写:(1),-101;、-102;。-103

24、;-104;:-105 (2)-2010;-2011;-2020;-2021;-2030;-2031 (3)a-3010;A-3011;b-3020;B-3021;c-3030;C-3031 (4)-4010;-4011;-4020;-4021;-4030;-4031 (5)日文平假名;(6)日文片假名十一、日文假名的编码比照汉字字元一律采3位码,连同前缀(5-平假名;6-片假名)共4位码,码位不足时补0。末位码切换为1代表大号。A、平假名-5557;-5551;-5230;-5231;-5370;-5371;-5380;-5381;-5573;-5571;-5473;-5479;-5570;

25、-5578;-5700;-5780;-5240;-5248;-5800;-5880;-5470;-5478;-5200;-5280;-5562;-5568;-5570;-5578;-5770;-5778;-5417;-5418;-5470;-5478;-5700;-5701;-5780;-5700;-5780;-5270;-5278;-5476;-5217;-5556;-5576;-5670;-5256;-5258;-5256;-5700;-5780;-5760;-5790;-5798;-5796;-5300;-5380;-5360;-5700;-5780;-5760;-5216;-5218;

26、-5216;-5560;-5765;-5563;-5557;-5570;-5747;-5741;-5256;-5251;-5746;-5741;-5770;-5270;-5700;-5700;-5760;-5570;5700;-5570;-5571;-5746;-5769;-5447;-5800;-5800;-5600;-5300;-5900;-5226;-5228;-5226。B.片假名-6700;-6701;-6800;-6801;-6270;-6271;-6820;-6821;-6420;-6421;-6471;-6478;-6500;-6580;-6700;-6780;-6821;-6

27、828;-6700;-6780;-6500;-6580;-6900;-6980;-6730;-6738;-6470;-6478;-6800;-6880;-6740;-6748;-6240;-6248;-6900;-6901;-6980;-6820;-6828;-6700;-6780;-6400;-6800;-6740;-6390;-6200;-6800;-6880;-6860;-6700;-6780;-6760;-6700;-6780;-6760;-6300;-6380;-6360;-6700;-6780;-6760;-6480;-6488;-6486;-6700;-6900;-6901;-6700;-6400;-6147;-6400;-6401;-6700;-6701;-6710;-6711;-6170;-6800;-6800;-6200;-6600;-6700;-6701;-6570;-6710;-6710; -6740;-6700;-6278;-6470;-6820;-6100;-6300;-6900。十二、简码就是以其首码代表某些常用的、笔画比较复杂的字,如:1- 酬、靈、需、零、雷、雾、霧、電、要、露、霜、霸、雹、甭2- 剩、慢、快、豐、乘、性、情、的、除、鬥、鬦、種、段、辞、辭

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论