




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
计算机网络理论及应用
第三章
通信与信息传输理论
WWW.LEARN.SN.EDU.CN
西安交通大学唐亚哲yztang@nettheory@信息论初步
IntroductiontoInformationTheory提要最优编码自信息熵联合熵、条件熵互信息交叉熵KL-divergence信息论Shannon于20世纪40年代提出在非理想的通信信道内如何传输最大量的信息,包括数据压缩(与熵相关)传输率 (信道容量)信息量的度量信息论被用来解决海量存储(文本压缩编码)推测不确定性-熵解释随机变量及其分布的关系-互信息、KL距离噪声信道信源接收方XX’信息的度量信息是个很抽象的概念。我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到1948年,香农提出了“信息熵”的概念,才解决了对信息的量化问题。
一条信息的信息量大小和它的不确定性有直接的关系。比如说,要搞清楚一件非常不确定的事,或是我们一无所知的事情,就需要了解大量的信息。相反,如果我们对某件事已经有了较多的了解,则不需要太多的信息就能把它搞清楚。从这个角度可认为,信息量的度量就等于不确定性的多少。例子:冠军队预测信息论基本概念编码长度:信源发出的不同信号在传输中需要用多长的编码传输,能够节省对信道的占用,并在接收方获得不歧义的信息Entropy(熵):测量随机变量不确定性,反映混乱程度MutualInformation(互信息):测量两个随机变量的相关/相互依赖程度。解释当已知一个变量时能对减少另一个变量不确定性起到多大的贡献。Kullback-Leiblerdivergence:比较两个分布的差异1.最优编码1.最优编码1.最优编码2.自信息一个信源可按某种概率发出若干不同的信号,每个信号带有的信息量称为其自信息。信源:随机变量;信号:随机变量的取值基于定性分析,自信息的特性应当是非负递增具有这样的特性的函数有很多,人们构造出如下定义式:ωn:随机变量X的某个取值;P(ωn):X取该值的概率3.熵定义:设随机变量X,取值空间Ω,Ω为有限集合。X的分布密度为p(x),p(x)=P(X=x)x∈X,则该随机变量的取值不确定程度,即其熵为:这里需要区分:1)一个信息源发出的某一个信息的信息量,即自信息;
2)一个信息源发出的所有信息的平均信息量,即熵当使用log2时,熵的单位为比特反映一个信源发出不同信号,具有的平均信息量。熵反映出一个信源发出的一个符号,所需要的平均的比特数;或者说一个符号,所具有的平均信息量3.熵熵的基本性质:H(X)≧0,等号表明确定场(无随机性)的熵最小H(X)≦log|X|,等号表明等概场的熵最大。 从编码压缩的角度解释:X的取值越随机,它的编码越难以压缩。以抛硬币为例,匀质、非匀质、完全不匀质时,抛掷结果的不确定性如下:P(Head)H(X)1.0一本五十万字的中文书平均有多少信息量?我们知道常用的汉字(一级二级国标)大约有7000字。假如每个字等概率,那么我们大约需要13个比特(即13位二进制数)表示一个汉字。但汉字的使用是不平衡的。实际上,前10%的汉字占文本的95%以上。因此,即使不考虑上下文的相关性,而只考虑每个汉字的独立的概率,那么,每个汉字的信息熵大约也只有8-9个比特。如果我们再考虑上下文相关性,每个汉字的信息熵只有5比特左右。所以,一本五十万字的中文书,信息量大约是250万比特。如果用一个好的算法压缩一下,整本书可以存成一个320KB的文件。如果我们直接用两字节的国标编码存储这本书,大约需要1MB大小,是压缩文件的三倍。这两个数量的差距,在信息论中称作“冗余度”(redundancy)。需要指出的是我们这里讲的250万比特是个平均数,同样长度的书,所含的信息量可以差很多。如果一本书重复的内容很多,它的信息量就小,冗余度就大。
不同语言的冗余度差别很大,而汉语在所有语言中冗余度是相对小的。这和人们普遍的认识“汉语是最简洁的语言”是一致的。3.熵熵率4.联合熵、条件熵H(Y|X)代表:当接收方已知变量X时,信源方还需要提供平均多少信息才能传达变量Y5.互信息互信息的意义:-MeasureshowmuchreductioninuncertaintyofXgiveninfo.aboutY-MeasurescorrelationbetweenXandY-Relatedtothe“channelcapacity”ininformationtheory5.互信息一般计算中,常计算两个具体事件之间的互信息,称为“点互信息”Reference信息论相关书籍《计算语言学》讲义,常宝宝,北大计算语言学研究所《信息检索》讲义,翟成祥,UIUC数学之美(4),(7),(23),吴军,google§3.1概述
3.1.1信息的处理与网络信息共享信息全球化全球信息化两个问题如何构成具有高效率和高速度信息传输能力的通信网络以什么样的形态,从逻辑上把各自独立存在的网络资源统一起来3.1.2信息网络的现状与未来通信网络的主要功能高速传输信息传输大容量信息高效地传输信息能在网络内任意两点间自由地发送,接收信息能正确无误,高可靠地传送信息3.1.2信息网络的现状与未来1、信息网络的发展高带宽、大容量;全光交换和传输主干网;高安全、高可靠;智能化;
2、信息资源的统一信息结构的统一;信息的完整性;信息的安全性;信息的可用性;信息挖掘的智能化;
3、计算机网络将来的问题移动性灵活性安全性智能化高速化
4、通信网与信息网公路与客车、货车、小车的关系飞机场与各家航空公司的关系铁路与客运列车、货运列车的关系信息传输网与通信网、广电网、计算机网的关系
§3.2通信的概念
3.2.1所谓通信
信息信息发送点A接收点B图3.1通信的概念3.2.2通信系统
信息信息变换
传送
变换图3.2二点间通信的逻辑构成信息源编码信号传输信号信息变换器发送机传输线接收信号接收机目标机编码信号变换器信息图3.3二点通信的实际构成3.2.2通信系统通信系统的基本功能首先要在发送端和接收端之间形成传送信息的逻辑信道,即形成逻辑通信系统利用已形成的信道,把发送设备发出的物理信号加载到传输线路上;并且在接收端把接收到的信号复原成信息3.2.3通信系统的信号传输
1、信号的检测与同步同步信号
发送信号Tt0时间t图3.4发送信号的构成2、调制与多路复用
2、调制与多路复用W0(1)W0(2)····W0(n)信息源频带WW0(1)W0(2)····W0(n)传输线频带图3.5W>>W0的通信系统
调制c-fo
c
c-fo
f
D-fo
D
D-fo
f
图3.6调制
转换开关ST1信息编码信号图3.7时间多路复用···TnT21234n···tTn···4321T2T4T3TnTT
1时分复用T13.2.4链路设置和传输控制过程
1LINE、CHANNEL的关系图3.8信息传输模型A接收(a)LINEB发送
A(b)CHANNELB
3.2.5交换
1.交换的基础
图3.10任意二点间的接续
A
LinkB
oooo输入线
x输出线
y图3.9节点内的交换oooooooooooo
(1)如何在A与B之间构成通信信道?
——路径选择控制的问题。(2)通过路径控制,实现指定节点间的连接
——节点内的交换;
——多个节点通过内部交换实现了“端—端”交换(如下图)。
LiLi12nooooooooooooooooL1oooooooooooooooo12nL2Li图3.11“端—端”交换2.线路交换方式
定义:在网内的任意两点之间直接设置通路的交换方式(circuitswitching)分类: 空分交换方式(spacedivisionswitching) 时分交换方式(timedivisionswitching)
NoooooM
n···i32112··m12··n图3.12时间片的控制方式ooooo1234n···1234n···
图3.13多个交换机········交换机n
交换机2交换机1ij3.存储交换方式
定义:具有信息存储功能的交换方式(storeandforwardswitching)接收发送存储装置交换机存储交换机1······存储交换机i存储交换机n
图3.14存储交换方式
分类:报文交换方式(messageswitching):信息由目标地址和信息两部分组成,它们作为整体存储在交换机中,然后一次发送出去的方式。分组交换方式(PacketSwitching):把信息分成一定长度的段,并在每个信息段前面加上必须的地址信息,再发送出去的方式。
分组的构成地址数据1数据2数据3······地址1数据1地址2数据2地址3数据3···
图3.16数据分组结构(分组后的地址数据编号是分组后的顺序号)分组交换举例
1ioojonkotoomk1i2K2k1i1k2i2i1k2k1i2i1k1i2i1k2t1t1t1t1k1i2K2
图3.17分级交换举例234564.各种交换方式的特点
线路交换方式的特点:(l)由于交换节点的输入输出线路直接连通,
两点之间形成固定回路,故数据传输的透明性好(即终端之间可以传输任意编码、任意格式、任意传送顺序的数据)。(2)交换开销与信息量的依存关系不大,适合大容量数据传送。
存储交换方式的特点:(1)输入输出线路通过缓冲存储器相互连接,
数据编码的格式可以中途变换。输入输出线路的速度可以不同。
(2)信息是通过缓冲后再进行传输,故可压缩判断时间、应答等待时间等无效时间,从而可提高线路的利用率。
分组交换方式的特点(1)由于信息是以分组为单位进行存储的,所以接收完一个分组后,就立刻可以发送出去;又由于采用分组多路复用方式.即使所用的链路正在传送其他信息分组,只须等待很短的时间就可将该组信息传送出去,
因此传送的时延比较短。
(2)由于噪音干扰造成数据损失,也只要对出错的分组进行重发,而不用对全部信息进行重发,同时多个报文分组可混合传送,故回路的利用率很高。§3.3传输的概念
通信传输系统
—信息从发送节点到接收节点所经过的系统。构成通信传输系统的媒质: 有线和无线两种,总称为传输线路。包括发送节点和接收节点在内的整个系统就叫做传输系统。3.3.1传输基础
1、传输系统的构成
传输系统由信息源、目标和连接源和目标的传输线路、发送设备及各种变换器所构成的。此外还有噪音信号。
发送信号传输线路信号源变换器(1)变换器(2)发送机杂音源信息信号接收机接受者变换器(2’)接收信号信息变换器(1’)信号图3.18传输系统的构成
原信号
传输信号模拟信号
模拟信号数字信号
数字信号(a)(b)(c)(d)表3.1信号变换的分类
2信号变换系统和信号传输系统
(1)传输信号变换
(2)信号变换分类(a)模拟信号与模拟信号组合的通信方式称为模拟通信;(b)数字信号与数字信号组合的通信方式称为数字通信。(c)模拟信号与数字信号组合的方式,这时必须把发送端的模拟信号转换成数字信号(即A/D变换)进行传输,而在接收端又必须把数字信号转换为模拟信号(即D/A变换)(如IP电话等)。(d)数字信号与模拟信号的组合,它是把数字信号当作模拟信号来控制的,故可认为(d)包含(a)中。(3)系统的最佳设计
(a)系统构成信息变换系统:信息源编码过程;信息传输系统:通信线路的编码过程。信息传输系统传输线路信息源变换器(1)杂音源信息变换系统(发送方)信息变换系统(接收方)变换器(2)变换器(1’)变换器(2’)发送机接收机接收方图3.19信息变换系统和信息传输系统(b)最佳化设计的目标信息变换系统:
把信息a变换成n位(bit)离散的符号串a1,a2,…,an; 在保证a的信息量不受损的情况下,n值最小—即每位包含的信息量最大。在二进制中,0、1出现的概率相等,互不影响,则每位具有的信息量为:log22=1
。 否则就称该符号串有冗余,每位具有的信息量
1,其冗余度为:r=(Hmax–H)/Hmax
所谓信息变换系统的最佳化设计——就是找到冗余度最小,1个符号包含的信息量最大字符串。
信息传输系统:根据传输通路的特性以及干扰情况,把信息变换为适合传输系统要求的信号再进行传输。假设从信息变换系统送来的符号串有M种,则一个符号具有的信息量为:log2M(bits)
如果传输系统每秒可传输K个符号,则传输速度为:
R=Klog2M(b/s)
在有干扰存在的情况下,假设干扰造成的损失为K
,则系统有效的传输速度为:R’=K(log2M-
)。
传输系统优化的目标是:使R’的值达到最大化。
在最佳情况下,R’的最大值就叫做通信容量,记为C,则:C=maxR’
(3.4)从上式可见:要提高C,就必须提高K、M,而减少,是由噪音而产生的,在传输系统中最主要的噪音是热噪音,它是一种振幅分布服从正态分布(高斯分布)的噪音,故也就叫做高斯噪音。此外,在自然界广泛存在的噪音还有白噪音和有色噪音。白色噪音—从+∞到-∞的频带范围内,频率成分都不变的噪音;有色噪音—频率成分集中在某一部分的噪音。
通信容量的表示
设传输通路的频带宽度为W[HZ],按照采样定理,它可传送2W个独立时间点上的信号,则被传送的信息量
H=2W√log
2
。又假设传递信号的功率为S,噪音的功率为N,且信号、噪音相互独立,则
C=Wlog((S+N)/N)
小结
信息变换系统的最优化就是生成信息量最大的字符串,即近似于相互独立、发生概率相等的字符串;
信息传输系统的最优化就是产生出接近信息量最大的一种传输信号。3.3.2信息传输系统
1.传输系统的组成
被传信号的带宽
假设被传信号的频谱函数为S(t),且S(t)的频率只存在于fa[HZ]到fb[HZ]之间,即:
S(f)=0﹙|f|<fa,|f|>fb), S(t)德带宽为:W=(fa-
fb)[HZ]
S(t)的频谱变换
S(t)=
Aicos2
fit,(fb≤fi≤fa)且S(f)=0﹙|f|<fa,|f|>fb),则
S(t)具有从fa到fb的频率成份,频带宽度是:
W=(fa-fb)[HZ]。两边同乘cos2
f0t得:
S(t)·cos2
f0t=
Aicos2
fit·cos2
f0t=(1/2)
Ai[cos2
(fi+f0)t+cos
(fi-f0)t]
在f0>fb
的条件下,
S(t)变换前后的频谱如下
fa0fbff0f0+fa
f0+fbf0-faf0-fbf图3.20频谱在频率轴上的变换(a)变换前的情况(b)变换后的情况滤波特性(a)(b)
这说明当选择适当的f0就可以使原S(t)波形不变的情况下在频率轴上自由移动,在接收端通过滤波器只要接收任意一个波形,就可以得到原S(t)的内容。如果S(t)的fa=0,说明其频率包含从0到W的所有频率成份,这样的信号叫做基带信号,通过f0把基带信号的频率成份进行移动变换,就可以得到变换后的高频信号,这种过程就叫调制,这里的f0信号就叫载波信号。
传输系统的组成
传输线路Fo
基带频率F1
载波频率
F0调制器解调器发送机接收机
F1
图3.21传送系统的构造
从上图可看出:在发送机和接收机之间有两种不同的传输方式:一种是直接传送基带信号的方式,这就叫基带传送,另一种是需要对基带信号进行变换之后再传送的方式,这就叫载波传送。这时在发送端需要加调制器,在接收端加解调器。
2.模拟/数字变换
采样接收方数字传输系统量化编码恢复均衡发送方图3.22PCM方式(A/D变换部分)的构成
(1)采样:定义:把时间轴上连续变化的信号变换为用离散时间点(采样点)上的值来表示的操作;采样间隔如何选择? 采样定理指出:当信号频率成份限制在W(HZ)以下时,采样信号的间隔小于1/2W[秒],就可保持原信号中的信息不受损害。(2)量化定义:把有连续振幅值的模拟信号变换为对应离散值的过程。
量化过程v/8v/2v8642图3.25量化的过程振幅值量化级数
把幅度从0到V连续变化的信号振幅值变化为
2M=m个离散振幅值。 其中:V/M叫量化级,m为量化的级数。量化误差(或量化噪音):
把模拟信号变换为对应离散值的过程中产生的误差。∆2=1/12m2
量化误差的平方与量化级数m的平方成反比,这就是说量化级数增大1倍,则模拟振幅值的区分幅度减小一半。在系统设计时要根据性能要求和量化级数之间找寻平衡点。
(3)编码:
就是把量化值变换为符号串的过程,也就是把离散值Li与符号串Ai对应分配的过程;在二进制编码中,2M=m表示用M个符号代表一个振幅值,量化级数为m。(4)恢复:
以上过程的反变换过程,即把数字量变换为模拟量的过程
3.3.3数字化传输系统
1、基带数字传送系统必须考虑以下三大问题编码的功率谱;传输系统中的编码错误特性;可实现错误检查和订正的编码构成。
(1)编码的功率谱编码形式——采用二进制编码,0、1分别用不同的脉冲表示;对传输脉冲的要求——脉冲产生容易,在接收端容易得到同步信号,或者正负平衡的脉冲;数字编码二进制数字信号的编码方式:1、单极性码与双极性码:
单极性即利用有无电流表示,而双极性用正负电流表示。2、归零码与不归零码最终是否在无电流处停留
a)单极性不归零码,无电压表示"0",恒定正电压表示"1",每个码元时间的中间点是采样时间,判决门限为半幅电平。
b)双极性不归零码,"1"码和"0"码都有电流,"1"为正电流,"0"为负电流,正和负的幅度相等,判决门限为零电平。
c)单极性归零码,当发"1"码时,发出正电流,但持续时间短于一个码元的时间宽度,即发出一个窄脉冲;当发"0"码时,仍然不发送电流。
d)双极性归零码,其中"1"码发正的窄脉冲,"0"码发负的窄脉冲,两个码元的时间间隔可以大于每一个窄脉冲的宽度,取样时间是对准脉冲的中心。.归零码和不归零码、单极性码和双极性码的特点不归零码在传输中难以确定一位的结束和另一位的开始,需要用某种方法使发送器和接收器之间进行定时或同步;归零码的脉冲较窄,根据脉冲宽度与传输频带宽度成反比的关系,因而归零码在信道上占用的频带较宽。
单极性码会积累直流分量,这样就不能使变压器在数据通信设备和所处环境之间提供良好绝缘的交流耦合,直流分量还会损坏连接点的表面电镀层;双极性码的直流分量大大减少,这对数据传输是很有利的。曼彻斯特克服不归零制编码缺点的一种编码方案是曼彻斯特(Manchester)编码,它是一种自同步编码方式,包括数据信息和时钟信息。
另一种曼彻斯特编码的变种叫做差分曼彻斯特编码,它的编码规则是:若码元为1,则其前半个码元的电平与上一个码元的后半个码元的电平一样;但若码元为0,则其前半个码元的电平与上一个码元的后半个码元的电平相反。不论码元是1或0,在每个码元的正中间时刻,一定要有一次电平的转换。差分曼彻斯特编码需要较复杂的技术,但可以获得较好的抗干扰性能。图2-13常用数字信号编码
各编码形式的特点
单极性编码、双极性编码
—单极性编码就是脉冲电路中使用的编码方式;
—双极性编码是正负平衡的,其基准电平是零电平,易于判断—这种编码也叫平衡式编码。
归零制RZ方式与非归零制NRZ方式
—归零制RZ方式编码中都有“通”和“断”表示“1”和“0”
,故在接收方容易得到位同步信号;
—非归零制NRZ方式是用电平的正、负表示“1”和“0”。
双脉冲编码—用微分脉冲表示“0”和“1”
,
“0”—由负电平跳到正电平(
),微分得正脉冲
“1”—由正电平跳到负电平(
),微分得负脉冲,特点:平衡性极好,且很容易取得位同步信号。
双码—与双脉冲类似,只是它包含“+,0,-”三个电平,
“1”——由“+0”或“0-”表示(微分得负脉冲);
“0”——由“-0”或“0+”表示(微分得正脉冲)
交替符号倒相AMI码
—它与双码类似,有“+,0,-”三个电平,
“1”——由“+、-”电平表示,
“0”——由“0”电平表示。他们的平衡性都很好,特别是AMI码相当于RZ制,使用十分广泛
(2)传输系统中的编码错误特性;传输中继设备的作用
—均衡传输通路的信号放大特性(Reshaping)
—接收信号波形的识别和脉冲的再生(Regenerating)
—取得位同步,并进行再同步的功能(Re-timing)。编码误差的概率表示D-A”O”A”1”图3.26振幅值的发生概率和错误的范围
理论证明得到:误码率与A2/N0
的关系如下图的曲线所示。误码率A2/N010-210-410-610-810-106810121416图3.27编码误差概率特性
(3)错误检查和订正的编码构成(在可靠性中介绍)(4)同步
位同步——在接收端要得到识别脉冲波形的时间基准和间隔基准,即时钟。获得这种基准时钟的过程就叫同步。 同步信号的获得方式
——发送端专门提供;
——由接收的脉冲信号中获得,表3.4给出了各种编码的频谱特性,具有线性频谱的编码可直接得到同步脉冲,无线性频谱的编码信号可从微分脉冲中得到同步信号。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年选任总经理协议样本
- 2025年医疗行业股权投资合作策划协议书样本
- 2025年委托培养合同协议
- 2025年工程保密协议规范示例
- 2025年金融公司保密协议范本
- 理赔业务风险培训持续性风险基础知识点归纳
- 理赔业务风险管理跨部门信息传递风险基础知识点归纳
- 人工智能在医疗健康领域的创新应用
- 开发民俗体验的现状及总体形势
- 大寒营销新突破
- 北京2025年北京市城市管理委员会直属事业单位招聘笔试历年参考题库附带答案详解析
- 鹰眼无人机商业计划书
- 2025年产销蚕丝织品行业深度研究报告
- 北京市烟草专卖局(公司)笔试试题2024
- 2024北京朝阳区六年级毕业考数学试题及答案
- 2025江苏苏州工业园区苏相合作区助理人员招聘15人易考易错模拟试题(共500题)试卷后附参考答案
- 压力容器行业未来发展趋势与市场前景分析
- 2025年度6深圳中考数学考点、知识点的总结模版
- 2025年全国国家版图知识竞赛题库及答案题(中小学组)
- 2025年广东省深圳市福田区中考二模历史试题(含答案)
- 环保管家合同全年
评论
0/150
提交评论