文字及其处理技术_第1页
文字及其处理技术_第2页
文字及其处理技术_第3页
文字及其处理技术_第4页
文字及其处理技术_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、4251 10011 0010 1010 1101 0001 0100 10114.1 4.1 文本信息加工文本信息加工4.1.1 4.1.1 文字及其处理技术文字及其处理技术第四章 文本和表格信息加工4251 10011 0010 1010 1101 0001 0100 1011云南云南 纳西族纳西族 东巴文字东巴文字猜猜看,上面的象形文字究竟表示什么意思?4251 10011 0010 1010 1101 0001 0100 1011 结绳说结绳说 图画说图画说 仓颉造字说仓颉造字说一、体验文字处理技术一、体验文字处理技术1. 文字是人类为了更加流畅地文字是人类为了更加流畅地表述意义表述意

2、义、传递经验、传递经验而发明的而发明的工具工具。4251 10011 0010 1010 1101 0001 0100 1011一、体验文字处理技术一、体验文字处理技术1.文字是人类为了更加流畅地表述意义、传递经验而发明的工具。文字是人类为了更加流畅地表述意义、传递经验而发明的工具。甲骨文甲骨文 殷周时代金文金文 西周、春秋战国文字战国文字 春秋战国小篆小篆 秦朝隶书隶书 秦朝楷书楷书 东汉行书行书 南北朝草书草书 西汉印刷字体印刷字体 宋朝4251 10011 0010 1010 1101 0001 0100 10112.2.汉字的创造饱含民族的智慧汉字的创造饱含民族的智慧汉字起源于象形文字

3、,至今仍然保留了象形文字的特点。汉字起源于象形文字,至今仍然保留了象形文字的特点。汉字的造字法有四种:象形、指事、会意、形声。汉字的造字法有四种:象形、指事、会意、形声。从字体上看,就是本字倒过来。上部从字体上看,就是本字倒过来。上部为树头,下部为树梢,在树梢上加一为树头,下部为树梢,在树梢上加一小横,就表示这里是树梢。因此,末小横,就表示这里是树梢。因此,末的最初的意义是树梢。的最初的意义是树梢。 象形象形指事指事金文明为日月幷照之会意字。金文明为日月幷照之会意字。 会意会意形声形声形声字的一部分是形声字的一部分是“形旁形旁”表示字义,一部分是表示字义,一部分是“声旁声旁”表表示读音,如:示

4、读音,如:“鸽鸽”是是“鸟鸟”形形“合合”声,声,“河河”是是“水水”形形“可可”声。声。 4251 10011 0010 1010 1101 0001 0100 10113 书法是一种凝结了我国民族文化精髓的特殊的艺术形式书法是一种凝结了我国民族文化精髓的特殊的艺术形式兰亭集序(局部) 晋王羲之4251 10011 0010 1010 1101 0001 0100 1011徐冰徐冰方块英文方块英文将将26个字母改造成类似中国汉字的偏旁部首个字母改造成类似中国汉字的偏旁部首art for the people4251 10011 0010 1010 1101 0001 0100 1011一、文

5、字及其处理技术一、文字及其处理技术历史上使用的文字处理技术历史上使用的文字处理技术, ,请按时请按时间顺序排列:间顺序排列: 活字印刷;活字印刷;机械式打字机;机械式打字机;手写;手写;雕版印刷;雕版印刷; 刻字;刻字;计算机文字处理计算机文字处理手写手写刻字刻字雕版印刷雕版印刷活字印刷活字印刷机械式机械式打字机打字机计算机计算机文字处理文字处理从古代的到现在从古代的到现在4251 10011 0010 1010 1101 0001 0100 1011ti yan qing jing : pin yin yu han zi 体验情境:体验情境:拼音与汉字村居村居 (清) 高 鼎 草长莺飞二月天

6、,草长莺飞二月天, 拂堤杨柳醉春烟。拂堤杨柳醉春烟。 儿童散学归来早,儿童散学归来早, 忙趁东风放纸鸢。忙趁东风放纸鸢。 4251 10011 0010 1010 1101 0001 0100 1011字符的编码字符的编码ascii码码美国信息交换标准代码美国信息交换标准代码( american standard code for information interchange, ascii ) o6f11101101111n6e11001101110m6d10901101101l6c10801101100k6b10701101011j6a10601101010i6910501101001h6

7、810401101000g6710301100111f6610201100110e6510101100101d6410001100100c639901100011.十进制数十进制数二进制数二进制数十六进制数十六进制数字符字符0000 00000000 00010000 00100000 0011+ +1+1+1+110123011111111270 1 2 3 4 5 6 7 8 9 a b c d e f0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 十六进制数的表示十六进制数的表示一个十六进制数需要四个二进制数表示一个十六进制数需要四个二进制数表示f=1111

8、e=1110 d=1101 c=1100b=1011 a=1010 9=1001 8=1000 7=0111 6=0110 5=0101 4=01003=0011 2=0010 1=0001 0=00001个字符需要个字符需要8位二进制数即位二进制数即8个比特个比特 (bit)而而 1个字节个字节b(byte)=8比特(比特(bit)即一个字符需要一个字节来存储即一个字符需要一个字节来存储4251 10011 0010 1010 1101 0001 0100 1011汉字的输入方法 汉字的输入方法目前有两大类四种:汉字的输入方法目前有两大类四种:()键盘输入法。利用各种汉字输入方法()键盘输入

9、法。利用各种汉字输入方法的编码敲击键盘来输入汉字;的编码敲击键盘来输入汉字;()非键盘输入法。目前主要有三种方法:()非键盘输入法。目前主要有三种方法:手写笔输入,语音输入,扫描识别输入手写笔输入,语音输入,扫描识别输入4251 10011 0010 1010 1101 0001 0100 1011二、汉字的编码二、汉字的编码1. 用于输入汉字的编码输入码(外码) 编码方案:区位码、拼音码、王码、自然码 编码类型: 音码:将汉字与读音建立对应关系汉字与读音建立对应关系进行编码的方法如:全拼双音、双拼双音 形码:将汉字的字形按笔画或组合汉字的字形按笔画或组合进行编码的方法,如:王码、郑码、表形码

10、 数字码:将汉字与数字对应汉字与数字对应的编码方法。如:区位码 简介混合码:将汉字的字形和字音汉字的字形和字音相结合的编码方法。如:自然码2. 用于存储汉字的编码用于存储汉字的编码机内码机内码(内码)(内码)汉字的机内码是供计算机系统内部、加工处理、传输而汉字的机内码是供计算机系统内部、加工处理、传输而统一使用的代码统一使用的代码。 国际码(国际码( gb ) 也叫也叫gb国际码国际码,简称简称国际码国际码1980 年,国家标准局颁布了年,国家标准局颁布了信息交换用汉字编码字符集基本集信息交换用汉字编码字符集基本集(代号为(代号为 gb2312-80 ),这是国家标准汉字编码。),这是国家标准

11、汉字编码。 输入码输入码(外码)(外码)机内码机内码(内码)(内码)自动寻找对应自动寻找对应4251 10011 0010 1010 1101 0001 0100 1011二、汉字的编码二、汉字的编码大五码(大五码(big5)又称为五大码,是使用繁体中文社群中最常用的电脑汉字字符集标准,共收录13,060个中文字,其中有二字为重覆编码,big5属中文内码(中文码分为中文内码及中文交换码两类)。big5虽普及于台湾、香港与澳门等繁体中文通行区,但长期以来并非当地的国家标准,而只是业界标准(de facto standard)。倚天中文系统、windows等主要系统的字符集都是以big5为基准,但

12、厂商又各自增删,衍生成多种不同版本。unicode(统一码、万国码、单一码)(统一码、万国码、单一码) 一种在在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发,1994年正式公布。随着计算机工作能力的增强,unicode也在面世以来的十多年里得到普及。4251 10011 0010 1010 1101 0001 0100 1011练习:11个汉字等于( )个字节,1个英文是( )个字节。 a.1个b.2个 c.4个 d.8个2一级汉字有()个,二级汉字按()顺序排列,汉字符号共有( )个。a300

13、8个b682个c3775个d6763个a.汉语拼音b.部首笔画a.7445个b.6763个c.682个3一级汉字一般位于()区,5687区是( )。a45区b8899区c5687d1655区a一级汉字b俄文字母c二级汉字d未用二、汉字的编码二、汉字的编码4251 10011 0010 1010 1101 0001 0100 1011例:课本56页有一个“熊”的区位码是“4860”,在这里我们把这个区位码认为是十进制。分析:区位码由区码和位码组成,区码是高字节二位,位码是低字节二位,区号是十进制“48”,位号是十进制“60”。二进制十进制八进制十六进制bdoh区码(48)10=(30)16位码(

14、60)10=(3c)16国际码高字节两位:30h+20h=50h国际码低字节两位:3c+20h=5ch国际码是505ch机内码高字节=50h+80h=d0h机内码低字节=5ch+80h=dch机内码是d0dch 公式:国际码高字节=区位码高字节+20h 国际码低字节=区位码低字节+20h 机内码高字节=国际码高字节+80h 机内码低字节=国际码低字节+80h二、汉字的编码二、汉字的编码输入码与机内码的转换算法(区位码输入码与机内码的转换算法(区位码机内码)机内码)4251 10011 0010 1010 1101 0001 0100 10113、汉字的、汉字的输出码(字型码)输出码(字型码)

15、用于输出汉字的编码用于输出汉字的编码输出码(字型码)输出码(字型码)宋体楷体0000000000000000000000000000000000000000000000000000000000010101010100100101000000000000000000000000000000000000000000000000000000000000000000000001010101010010010100000000000000000000000000000000000000000000000000000000000000000000000101010101001001010000000000

16、000000000000111100000111000110000111110000000000000000000000000000000000000000000000000000000000000000000101010101001001010000000000000000000000000000000000000000000000000000000000000000000000010101010100100101000000000000000000000000000000000000000000000000000000000000000000000001010101010010010100

17、000000000000000000001111000001110001100001111100000000点阵字型:将汉字分解成若干个点阵字型:将汉字分解成若干个“点点”组成的点阵字型。组成的点阵字型。 例: 16 16 点阵,表示一个汉字,则一个汉字占 16 行,每一行 16 个点,其中每一个点用一个二进制数表示,值“ 0 ”没有笔形,值“ 1 ”表示有笔形。 1 b 8bit 1616bit/8bit=32b 4251 10011 0010 1010 1101 0001 0100 1011练习:132 32点阵表示一个汉字需要( )个字节。a.128个b.64个c.32个d.36个2(

18、)点阵显示的汉字效果最好。(多项选择)a.2424b.精密型c.提高型 d.1616 e. 64 643.存贮在计算机中的汉字以()码形式存储。a.区位码b.机内码c.字形码 d.输出码 e. 二进制码点阵类型 点阵参数(行列) 每个汉字占的字节数 简易型 16 16 32b 普及型 24 24 72b 提高型 32 32 128b 精密型 48 48 288b 3、 输出码(字型码)输出码(字型码)4251 10011 0010 1010 1101 0001 0100 1011汉字的编码汉字的编码输入码输入码(外码)(外码)机内码机内码(内码)(内码)输出码输出码(字型码)(字型码)用于输入

19、汉字的编码用于输入汉字的编码用于存储汉字的编码用于存储汉字的编码用于输出汉字的编码用于输出汉字的编码字模字模1616,2424宋体、楷体、隶书等宋体、楷体、隶书等区位码区位码 :6625全拼编码:全拼编码:chun五笔字型:五笔字型:dw春春用机内码用机内码存储存储如国标码如国标码(gb)和和big5码码用汉字字型码用汉字字型码输出码输出码输出汉字输出汉字(数字码,音码、形码、混数字码,音码、形码、混合码合码) 区位码输入,区位码输入,智能智能abc,微软拼音,微软拼音,郑码,五笔字型,自然码等郑码,五笔字型,自然码等宋体 楷体春4251 10011 0010 1010 1101 0001 0

20、100 1011输入码输入码(外码)(外码)机内码机内码(内码)(内码)自动寻找对应自动寻找对应机内码机内码(内码)(内码)输出码输出码(字型码)(字型码)自动寻找对应自动寻找对应+20h区位码(十进制)+80h国际码(十六进制)机内码(十进制)三、汉字的处理过程三、汉字的处理过程4251 10011 0010 1010 1101 0001 0100 1011思考: 同一个字用不同的输入法输入,输入码一样吗?机内码一样吗?输出码一样吗? 如果用6464点阵表示一个汉字字形,需要用多少个字节来存放?4251 10011 0010 1010 1101 0001 0100 1011思考: 在浏览网页

21、或阅读邮件遇到乱码现象应该怎样解决? 在输入汉字的时候,碰到生僻字,如“喆”、“镕”等字时,可以采取什么办法?4251 10011 0010 1010 1101 0001 0100 1011许旻 张赟 问题情境:问题情境:丁丁是高一(18)班长,开学时要安排值日表,丁丁的计算机基础较好,于是就想通过电脑编制这个表格,以后修改更方便。可是,在他输入学生姓名的的时候,碰到了几个姓名怎么输也输不进去,你能帮他解决这个问题吗? 4251 10011 0010 1010 1101 0001 0100 1011实践1:请新建一个word的文档,尽可能用多种输入法输入汉字“中”,并填写下表。汉字输入方法输入

22、码输入码的编码方式上机实践上机实践4251 10011 0010 1010 1101 0001 0100 1011 实践2:书本p58的1(2),利用truetype程序设计一个新字或个性化签名实践3:请用东巴文输入汉字“喝茶”、“唱歌”上机实践上机实践4251 10011 0010 1010 1101 0001 0100 1011讨 论 在最近几年,作为大学教材的语言文字原理一书中有这样一段结论:“汉字永远只能作为客人在电脑中出现,真正的主人还是拼音文字,因为人们无法直接用汉字设计电脑程序,无法使汉字成为电脑符号”。 火星文是一种什么文字?谈谈你的看法。4251 10011 0010 1010 1101 0001 0100 1011体

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论