第二章教育信息熵_第1页
第二章教育信息熵_第2页
第二章教育信息熵_第3页
第二章教育信息熵_第4页
第二章教育信息熵_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章教育信息熵第1页,课件共52页,创作于2023年2月第一节熵的概述第二节相对熵与冗余熵第三节测试问题的信息量第四节CAI课件中的信息熵第五节教学过程的信息量分析主要内容第2页,课件共52页,创作于2023年2月第一节熵的概述一、信息量的表示

一般来说,在通信过程中,信源发出的消息对收信者来说总是存在着某种程度的不确定性,通过通信,收信者就可能消除这种不确定性。信息的多少与信源的不确定性有关。研究信息的度量可变成研究信源的不确定性的度量。第3页,课件共52页,创作于2023年2月例1:现有A、B、C、D、E五名学生,以他们作为候选人,需从中选出一名学生作为学生代表。情况一:设定每一名学生被选中的可能性一样(A当选的概率是20%);情况二:设定A当选的概率是90%;情况三:A一定会当选(A当选的概率是100%)。选拔的结果:A被选中。第一节熵的概述第4页,课件共52页,创作于2023年2月

信源输出的消息可以看作是随机事件(数学上对随机事件发生可能性的大小以概率来度量),它的不确定度可根据其出现的概率来衡量:概率大,出现机会多,不确定程度小概率小,出现机会少,不确定程度大以I记消息包含的信息量,P记消息发生的概率,0≤P≤1,则有:用函数可以表示为:I=f(P)或I=g(1/P)信息量是概率的单调减函数。第一节熵的概述第5页,课件共52页,创作于2023年2月例2:某人到剧院找朋友,剧院有20行30列座位,朋友的位置有600种可能。消息A说:“他在第6行”,消息B说:“他在第9列”,合成消息C=AB说:他在第6行第9列“。由概率论知,P(AB)=P(A)×P(B)。但经验告诉人们,消息C的信息量应该是消息A的信息量与消息B的信息量之和。一般地若A和B为两个相互独立的消息,C代表A与B同时发生的合成消息,C=AB,则:I(AB)=I(A)+I(B)当A、B不是独立事件时,I(AB)<I(A)+I(B)信息量具有可加性。第一节熵的概述第6页,课件共52页,创作于2023年2月信息量是概率的单调减函数I=g(1/P)

,同时信息量又具有可加性I(AB)=I(A)+I(B)

。那么信息量可以用什么函数表示?对数函数是可供选用的合适的函数,

logak随k值的增大而增大,且loga(k×l)=logak+logal第一节熵的概述第7页,课件共52页,创作于2023年2月

设某一事件产生的概率为p,则信息量可定义为:I=loga(1/P)=-logaP其中,a>1a=2时,单位为bit(比特),字位a=e时,单位为nat(奈特),自然对数lna=10时,单位为dit(迪特)。常用对数lg通常情况下,我们选择以2为底数,此时信息量的单位为比特。信息量定义以概率p≠0发生的可能消息A所包含的信息量I(A)是概率p的倒数的对数:

I(A)=log21/p;或

I(A)=-log2p补充规定:若P=0,I=0信息量的单位为字位(bit)第一节熵的概述第8页,课件共52页,创作于2023年2月例3:投掷硬币,消息A代表麦穗朝下,发生概率为P(A)=0.5,求其信息量。

例4:工会有一批水果发给会员,其中优质品为40%,合格品为55%,次品为5%。发放规则为随意抓号,按号取货,不许挑拣。问;王东拿到次品这一消息的信息量是多少?

I(A)=-log20.5=-

log22-1=1bitI=-log20.05=4.32bit第一节熵的概述第9页,课件共52页,创作于2023年2月二、信息熵1、信息熵定义

设发送端的可能消息集合为:X=(X1,X2,……,Xn),各可能消息分别按概率P1,P2,……,Pn发生,并满足归一性条件:P1+P2+……+Pn=1。按一定的概率从集合X中随机选择消息发送,形成一个消息序列。设序列中包含的消息总数为N,N非常大。在统计意义上,该序列中包含的消息Xi的数目为PiN个,所有Xi包含的信息量为-(PiN)log2Pi。将序列中所有消息包含的信息量之和除以N,得到序列中每个可能信息的平均信息量为:H=-(P1log2P1+P2log2P2+……+Pnlog2Pn)=-H是可能消息集合X的整体平均信息量,亦即单位消息的信息量。

可能消息集合X=(X1,X2,……,Xn)的整体平均信息量称为信息熵,简称为熵。第一节熵的概述2第10页,课件共52页,创作于2023年2月例6:还是工会发水果的例子。计算其信息熵:消息集合X=(优质品,合格品,次品),各消息可能出现的概率为:(0.4,0.55,0.05)其信息熵为:H=-(0.4log20.4+0.55log20.55+0.05log20.05)=1.22(bit)例5:设某一系统具有四种状态(或四种事件)A1、A2、A3、A4,其产生的概率分别为p1=1/2,p2=1/4,p3=1/8,p4=1/8,求该系统中任一状态产生时所给予的平均信息量。第一节熵的概述22222第11页,课件共52页,创作于2023年2月三、熵的意义

熵的大小可用于表示概率系统的不确定程度。例8:设某一概率系统中,其概率分布是均匀的,它表示系统中每一事件产生的概率相等。对于这样的系统,我们很难预测某一事件的产生,这种系统的不确定性最大。该系统的信息熵具有最大值(在相同事件数的情况下)。

例7:设某一概率系统中,每一事件产生的概率分布为:(1,0…,0)。它表示,该系统中某一事件产生的概率为1,其他事件产生的概率为0,这是一个确定系统,不确定度为0。计算该系统的信息熵,有H=0。第一节熵的概述第12页,课件共52页,创作于2023年2月

例9:设概率系统A、B的分布为:

pA=(0.5,0.5,0,0,0)

pB=(0.5,0.125,0.125,0.125,0.125)

请比较它们哪一个系统的不确定程度大。

分析:为了进行这种比较,我们计算它们的信息熵,并以计算出的信息熵,对它们的不确定程度进行定量的比较。通过A、B系统信息熵的计算,有

H(pA)=1(bit)H(pB)=2(bit)

由此可以判定系统B的不确定程度是系统A的两倍。第一节熵的概述第13页,课件共52页,创作于2023年2月四、信息熵的基本性质1、单峰性(极值性)

设某一系统包含两个事件A、B,其产生的概率分别为p和1-p。该系统的熵为

H=-[plog2p+(1-p)log2(1-p)]H-P图具有单峰性的特点。

对于由n个事件组成的系统,其信息熵也同样具有单峰性。当系统中每一事件产生的概率相同时,系统的熵最大。第一节熵的概述第14页,课件共52页,创作于2023年2月2、对称性

某系统中n个事件的概率分布为:(p1,p2……,pn)

当我们对事件位置的顺序进行任意的置换后,得到新的概率分布:(p1’,p2’……,pn’)

有以下关系成立:

H(p1,p2……,pn)=H(p1’,p2’……,pn’)

它表示,系统中,事件的顺序虽不同,只要总的概率分布相同,系统的熵H是不变的,即系统的熵与事件的顺序无关。

第一节熵的概述第15页,课件共52页,创作于2023年2月3、渐化性

设概率为pn(=q+r)的事件可分解为概率分别为q和r的两个事件,则有

H(p1,p2…,pn-1,q,r)=H(p1,p2…,pn-1,q+r)+(q+r)H(q/(q+r),r/(q+r))

例10:H(p1,p2,p3,p4)=H(p1,p2,p3+p4)+(p3+p4)H(p3/(p3+p4),p4/(p3+p4))H(p1,p2,p3+p4)=H(p1,p2+p3+p4)+(p2+p3+p4)H(p2/(p2+p3+p4)+(p3+p4)/(p2+p3+p4))第一节熵的概述第16页,课件共52页,创作于2023年2月4、展开性

设某一系统的概率分布为:(p1,p2……,pn)

该系统的信息熵具有H(p1,p2……,pn)

=H(p1,p2……,pn,0)

这样的展开性质。在此基础上,进一步展开,有

H(p1,p2……,pn)

=H(p1,p2……,pn,0,…0)

第一节熵的概述第17页,课件共52页,创作于2023年2月5、确定性

概率系统中,任一事件产生的概率为1,则其他事件产生的概率为0,这是一种确定的系统。对于这样的系统,有

H(1,0)=H(0,1)=H(1,0…,0)=H(0,0…,1…0)=0

从上述的讨论可以看出,熵所描述的不是一个一个的事件,而是表现有关概率系统整体概率分布状态的统计特征量。系统的熵是通过实测数据进行计算的,往往我们将它作为一种统计量来使用。

第一节熵的概述第18页,课件共52页,创作于2023年2月第二节相对熵与冗余度英语字母共有26个,加上空格,共计27个符号,若假定所有符号彼此独立且等概率,那么这样的英语系统具有最大熵,其熵值为:Hmax=log227=4.75bit实际上,所有字母不是等概的,空格、E、T、A等字母出现的概率大,而Q、Z等字母出现的概率小。第19页,课件共52页,创作于2023年2月根据上表,可以计算出熵H=4.065bit。由于每种字符出现的概率不同,使得实际使用英语的熵H减少,即H<Hmax第二节相对熵与冗余度第20页,课件共52页,创作于2023年2月联合国五种工作语言文字的信息熵比较:

法文

3.98bit

西班牙文

4.01bit

英文

4.03bit

俄文

4.35bit

中文

9.65bit第二节相对熵与冗余度第21页,课件共52页,创作于2023年2月一、相对信息熵一个实际系统输出的熵H(X)与其最大可能的熵Hmax(X)的比值定义为相对熵,用h表示。h=H/Hmax信息熵的计算与系统中事件数的多少有关,它不利于我们对不同系统的熵进行比较;相对信息熵的计算有利于我们对不同系统的信息熵进行比较。第二节相对熵与冗余度第22页,课件共52页,创作于2023年2月二、冗余度

冗余度或剩余度可定义为:r=1-H/Hmax冗余度表示了由于每种字符出现的概率不同而使信息熵减少的程度。它表示了传递信息时,不必要的冗长部分的比例。

第二节相对熵与冗余度第23页,课件共52页,创作于2023年2月第二节相对熵与冗余度设以英语的N个字符书写文章时,其平均信息量为H,总的信息量为NH。若以27个字符均匀出现的字符序列来表示相同的内容,相同的信息量,由于此时的平均信息量为Hmax,所需的字符数一定少于N,令其为Nmin,则为

NminHmax=NH

Nmin=(H/Hmax)×N=hN

它表示,以具有Hmax的27种字符书写文章,只需要Nmin=hN个字符。冗余度为:r=1-H/Hmax=(N-Nmin)/N

它表明,以效率更高的代码来描述指定的内容,与实际使用的英语相比较,其字符总数可减少r%。第24页,课件共52页,创作于2023年2月假如有:我们大__都喜__使__计__机。

不用很多努力,就可以猜出完整的句子:

我们大家都喜欢使用计算机。

香农指出,能猜出来的字符不运载信息,而不能猜出来的字符运载信息。所隐藏的字符属于冗余字符,不用那些字符也能运载该句子的全部信息。冗余度大小对信息阅读和检错抗错有重要的意义。比如:

我__大________使______机。

就很难猜出完整的句子,在信息传递的时候,也很难做检错和抗错。因此,保留合理比例的冗余度是非常重要的。

信息熵方法的基本目的,是找出某种符号系统的信息量和冗余度之间的关系,以便能用最小的成本和消耗来实现最高效率的数据储存、管理和传递。第25页,课件共52页,创作于2023年2月一、测试问题信息熵的计算多重选择问题是各种测试中使用最为广泛的一种测试问题。例1:下列设备中,只能作为输出设备的是()。A、扫描仪B、打印机C、鼠标D、硬盘E、数码照相机学生对多重选择问题的应答概率分布可能有多种不同的情况:(1)(0,1,0,0,0)(2)(0.5,0.125,0.125,0.125,0.125)(3)(0.5,0.5,0,0,0)(4)(0.2,0.2,0.2,0.2,0.2)请问:哪种情况的应答信息熵最大?最小?能说明什么?问题的信息熵表示了学习者应答选择的不确定程度,同时也能在一定程度上判断该问题的困难程度。第三节测试问题的信息熵第26页,课件共52页,创作于2023年2月二、等价预选项数例2:现有三个多重选择问题,每一个问题都有五个预选项,经测试,学生对每一预选项应答的频度分布如下图:(a)(b)(c)图(a)的概率分布是(1,0,0,0,0),它表示学生的应答集中在一个预选项上。虽有5个预选项,实际上等价于1个预选项。图(b)的概率分布是(0.5,0.5,0,0,0),它表示学生的应答集中在两个预选项上,且各为50%。虽有5个预选项,实际上等价于2个预选项。第三节测试问题的信息熵第27页,课件共52页,创作于2023年2月

等价预选项数是指将实测的应答分布,换算成与之具有等熵的均匀分布的预选项数。设某一多重选择题的应答分布实测值为(P1,……,Pc),该分布具有的熵为H,与之等价的予选项数为k,根据等价予选项数的定义有:

222第三节测试问题的信息熵第28页,课件共52页,创作于2023年2月例3:现有一个多重选择问题,其五个预选项的应答概率分布为(0.5,0.125,0.125,0.125,0.125)。请计算等价预选项数。H=-0.5log20.5-4×0.125log20.125=-0.5log22-1-4×0.125log22-3=0.5+4×0.125×3=2(bit)K=2H=22=4因此,该选择题的等价预选项数为4。第三节测试问题的信息熵第29页,课件共52页,创作于2023年2月三、对不确定程度的判断给定的问题是:从外观上看,12个小球完全相同,在这12个小球中,仅有一个小球的重量与其他小球不一样。请使用无法码天平,能否在三次以内找出这个重量不同的小球,并且指明该小球比其他小球是重还是轻。分析与求解:比较12个小球,并判定轻、重,应是12×2种比较当中的一种。在比较过程中,开始的不确定程度为log224=4.585(bit)

通过左边轻、右边轻或平衡的判断每使用一次天平,不确定程度减少log23=1.585(bit)。由此,使用两次天平,所得到的信息量为2×log23=3.170(bit)

该信息量小于4.585(bit)。它表示,使用两次天平,不能完全消除不确定程度。然而,使用三次天平,所得到的信息量为3×log23=4.755(bit)该信息量大于4.585(bit)。它表示,如果使用三次天平,可完全消除不确定程度,即通过三次使用天平,可找出不同的小球,解决给定的问题。第三节测试问题的信息熵第30页,课件共52页,创作于2023年2月例:设有4个选择题,每一题目有5个预选答案,班级人数为40人,回答情况如下表:第1题第2题第3题第4题A40人(答对)05人8人B005人8人(答对)C0020人(答对)8人D020人(答对)5人8人E020人5人8人信息熵H等价预选项k答对率Pr0(bit)1(bit)2(bit)log25(bit)1245100%50%50%20%问题的信息熵表示了学习者应答选择的不确定程度,同时也能在一定程度上判断该问题的困难程度。等价预选项数是指将实测的应答分布,换算成与之具有等熵的均匀分布的预选项数。k=2H第三节测试问题的信息熵第31页,课件共52页,创作于2023年2月1234M=5:假设该题有5个预选项r:选择题的正确选项pr:考生选择正确答案的概率,即该题的答对率k:等价预选项数学生的错误选择均匀分布在诱惑项上时,K最大学生的错误选择集中在某一在诱惑项上时,K最小正确选项在假想题目的各选项中不占优势理想的题目反应分布模式是:在保证一定答对率pr的条件下(pr值由具体测试目的而定),对诱惑项的选择人数应接近均匀分布,也就是说,k的取值应接近kmax曲线。第32页,课件共52页,创作于2023年2月第四节CAI课件中的信息熵一、多重选择问题的信息熵设学习者对具有两种预选答案问题的应答分布为:(1/2,1/2),H=1bit设学习者对具有三种预选答案问题的应答分布为:(1/2,1/4,1/4),H=1.5bit设学习者对具有四种预选答案问题的应答分布为:(1/2,1/4,1/8,1/8),H=1.75bit设学习者对具有四种预选答案问题的应答分布为:(1/4,1/4,1/4,1/4),H=2bit设学习者对具有五种预选答案问题的应答分布为:(2/5,1/5,1/5,1/10,1/10),H=2.12bit均匀分布的H最的,但这是在相同预选答案数情况下的比较。H的大小不仅与应答分布有关,还与预选答案数有关。预选答案数越多,信息熵越大。第33页,课件共52页,创作于2023年2月相对信息熵为了有效的比较不同问题的信息熵,避开预选答案数对H的影响,我们应对信息熵予以标准化。信息熵采用相对熵进行标准化。

相对信息熵定义为:h=H/Hmax设系统的状态数(即预选答案数)为N,概率分布为(p1,p2……pn)

相对信息熵为:h=-∑pilog2pi/log2N相对信息熵使得熵的计算归一化为标准的范围0~1之间,它使得不同系统的信息熵易于比较。第34页,课件共52页,创作于2023年2月根据相对信息熵的定义,我们对上述不同问题的相对信息熵进行计算后,可以实现有效的比较。

设学习者对具有两种预选答案问题的应答分布为:(1/2,1/2),H=1bitHmax=1bith=H/Hmax=1/1=1设学习者对具有三种预选答案问题的应答分布为:(1/2,1/4,1/4),H=1.5bitHmax=1.58bith=H/Hmax=1.5/1.58=0.95设学习者对具有四种预选答案问题的应答分布为:(1/2,1/4,1/8,1/8),H=1.75bitHmax=2bith=H/Hmax=1.75/2=0.875设学习者对具有四种预选答案问题的应答分布为:(1/4,1/4,1/4,1/4),H=2bitHmax=2bith=H/Hmax=2/2=1设学习者对具有五种预选答案问题的应答分布为:(2/5,1/5,1/5,1/10,1/10),H=2.12bitHmax=2.32bith=H/Hmax=2.12/2.32=0.91第35页,课件共52页,创作于2023年2月二、课件评价从问题、课件所具有的学习功能来看,问题的信息量越大,表示学习者应答分布的分散性越大;问题的信息量越小,表示学习者应答分布越集中。

A问题的应答分布:(1/5,1/5,1/5,1/5,1/5)B问题的应答分布:(1,0,0,0,0)可以使用信息熵来评价课件中所设置的问题。从此促进学习者认真思维,产生较好的学习效果来看,信息熵高的问题优于信息熵低的问题。第36页,课件共52页,创作于2023年2月

课件中包含有许多问题,以每个问题累积信息熵的平均值,可用于课件的评价。课件的平均相对熵可定义为

式中,hT为每个问题相对信息熵的累加;N为课件中的问题数hi为第i个问题的相对信息熵课件的平均相对信息熵为课件评价的量化给出了一种很好的量度标准和量度方法。第37页,课件共52页,创作于2023年2月三、学习状态的描述学习过程中学生学习状态的描述和判断应根据学习过程中的各种应答信息的收集、处理来实现。学习过程中,学生的应答情况可以作为一个子系统来处理,利用该子系统信息熵的变化情况,可以有效的判断学生学习状态的变化。第38页,课件共52页,创作于2023年2月

设用于某一单元学习的CAI课件包含N个问题。根据CAI课件的安排,整个学习过程分为K个阶段,用于第i阶段的学习问题共有M个。学生在第i个阶段的M个问题的学习中,给出正确、错误应答的概率分别为pi和qi,则在第i阶段回答问题所具有的信息熵为以同样的方法可以求出学生在学习过程中每一阶段的信息熵。将每一个阶段的信息熵以图形表示。第39页,课件共52页,创作于2023年2月信息熵表示了学习者学习的稳定性。CAI课件的程序控制中,应根据学习者的学习状态,对课件中的学习过程进行有效的控制。不稳定的学习状态学生应答的信息熵很快的变小,表示学生的学习迅速地进入稳定状态第40页,课件共52页,创作于2023年2月第五节教学过程的信息熵分析一、分类系统

为了有效地表述教学过程、研究教学过程并给予有效的评价,我们应对教学过程进行客观的、定量的记述。

教学过程是一种教师与学生间以语言进行信息传递的过程,教学过程可以通过教师与学生语言序列的记录来表述。当我们对教学过程中,教师与学生的语言行为进行适当地分类,并以这种分类,可对教学过程进行客观地表现。若这种分类、表述着眼于分析的目的,我们称之为相互作用分析,若这种分类,表述着眼于记述方法,我们称之为分类分析。

教师、学生语言行为的分类有多种不同的方法,至今已有一百多种,比较有影响的分类系统有Flanders分类系统和VICS(VerbalInteractionCategorySystem)等。

第41页,课件共52页,创作于2023年2月TheVerbalInteractionCategorySystem(VICS)

课堂语言行为互动分类系统N1Presentinginformation(呈现信息)N2Givinginstructions(给出指示)N3Askingaquestion(提出问题)N4Respondingbyacceptinganideafromastudent(教师接受来自学生的想法)N5Respondingbyrejectinganideafromastudent(教师拒绝来自学生的想法)N6Learnerinitiatestalkwithteacher(学生主动向老师发起谈话)N7Learnerinitiatestalkwithanotherlearner(学生主动向另外的学生发起谈话)N8Learnerrespondstoquestionorcommentfromteacher(学生回答教师的提问或对教师的评价产生反映)N9Learnerrespondstoquestionorcommentfromanotherlearner(学生回答来自另外学生的问题或对另外学生的评价作出反映)N10silence(沉默:教室里没人说话)N11confusion(混乱:很多人同时都在说话,分不清楚到底是谁在说)第42页,课件共52页,创作于2023年2月对VICS作适当修改的分类系统类别内容类别内容1教师的提示2教师的指示3教师的狭义提问4教师的广义提问5教师的接受6教师的拒否7学生向教师的应答8学生向其他学生的反应9学生向教师的发言10学生向其他学生的发言第43页,课件共52页,创作于2023年2月二、教学过程信息熵的计算第一步,按照一定的时间间隔,根据分类系统,对该时刻的行为予以记录,记录下整个教学过程行为。第二步,根据信息熵的定义及公式计算出教学过程的信息熵。第44页,课件共52页,创作于2023年2月类别频数(次数)12421639415516637168398

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论