基于分布式独立学习的多用户动态频谱接入新算法_第1页
基于分布式独立学习的多用户动态频谱接入新算法_第2页
基于分布式独立学习的多用户动态频谱接入新算法_第3页
基于分布式独立学习的多用户动态频谱接入新算法_第4页
基于分布式独立学习的多用户动态频谱接入新算法_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于分布式独立学习的多用户动态频谱接入新算法摘要:随着无线通信的飞速发展,无线频谱资源日益紧张,然而某些频段资源的利用率却很低,认知无线电正好是能有效缓解频谱分配与利用这对矛盾的技术。本文在认知用户独立学习的基础上提出一种多用户动态频谱接入新算法。该算法中每个认知用户都是一个基于独立学习的智能体,它不知道在联合行动中其他认知用户的行动策略,仅维护自己的一个关于状态-行动对的Q值表,并且每个认知用户各自采取独立的迭代过程。同时本文将各个用户频点的信噪比引入到奖赏函数r中,在降低认知用户与主用户发生冲突的概率的同时,提高了系统的平均容量。仿真结果表明该算法可以降低冲突概率,在考虑频点信噪比的情况下

2、,系统的平均容量可以得到提高。关键词:认知无线电;频谱接入;多用户;强化学习;双Q学习算法A new algorithm of dynamic spectrum access of multi-usersbased on independent learningAbstract:With the rapid growth of wireless communications ,cognitive radio has been recognized as an effective solution to the conflict brought by the distribution and u

3、tilization of spectrum resources. In this paper, we put forward a new algorithm of dynamic spectrum access of multi-users based on independent learning. In this algorithm, each cognitive user is an agent based on independent learning. It only protects their own Q-value table of state-action without

4、knowing the actions of other cognitive users in joint operations.Each cognitive user takes their own independent iterative process. Meanwhile this paper takes SNR of each channel into account in the reward function r. Simulation results show that this new algorithm can reduce probability of conflict

5、 between the cognitive users and the main users. Furthermore when considering the SNR this new algorithm can enlarge the systems average capacity.Keywords: cognitive radio; spectrum accessing; multi-users; reinforcement learning;DAQL1 引言随着无线通信技术的飞速发展,频谱资源变得越来越紧张。为了解决频谱资源匮乏的问题,基本思路就是尽量提高现有频谱的利用率1。为此,

6、人们提出了认知无线电的概念2。认知无线电的基本出发点就是:为了提高频谱利用率,具有认知功能的无线通信设备可以按照某种“伺机(Opportunistic Way)”的方式工作在已授权的频段内3。认知无线电的核心思想就是使无线通信设备具有发现“频谱空洞”并合理利用的能力4。人工智能大师Simon Haykin在其认知无线电综述文章中明确提到学习是认知无线电系统的一个重要环节5。在机器学习领域现在研究比较热门的强化学习RL6(Reinforcement Learning,又称加强学习、增强学习等)是一种以环境反馈作为输入、适应环境的特殊学习方法。强化学习是一种从动物学习、自适应策略等理论发展而来的机

7、器学习方法,它的在线学习能力与自适应学习能力使其成为解决策略寻优问题的有力工具7。文献8提出了TD(Temporal Difference)方法,解决了强化学习中根据时间序列进行预测的问题,并证明了在系统满足马尔可夫属性9、绝对递减条件下, TD 方法收敛于最优。文献10,11提出一种著名的强化学习方法:Q-learning,不同于TD学习的迭代仅考虑状态的值函数, Q学习利用状态-动作对的值函数Q ( s , a) 进行迭代,利用其奖赏并作为估计函数来选择下一动作,即直接优化Q函数。文献12提出了Sarsa算法,它是一种基于模型算法,最初被称为改进的Q学习算法。它仍然采用的是Q值迭代。Sar

8、sa是一种在策略TD学习(on-policy TD)。文献13研究了单认知用户情况下基于DAQL算法的动态频谱接入方案,但是却不能解决多认知用户情况下的动态频谱接入问题。本文在文献14的基础上,研究了多认知用户情况下基于强化学习的频谱接入算法,针对信息不完备的情况,提出了一种基于独立学习的多用户动态频谱接入新算法。该算法在各认知用户独立学习的基础上建立协调策略, 以实现协作决策过程的收敛,对所有认知用户均采用相同的奖赏函数, 即一般和对策。同时本文将各个用户信道的信噪比引入到奖赏函数r中,在降低认知用户与主用户发生冲突的概率的同时,提高了系统的平均容量。本文安排如下,第二部分介绍了认知用户动态

9、频谱接入的系统模型,第三部分介绍了分布式独立强化学习的基本原理,第四部分介绍了基于分布式独立学习的多认知用户动态频谱接入新算法,第五部分对新算法进行了仿真。2 系统模型图1 为认知无线电网络结构图, 在授权用户覆盖的大区域中存在多个认知用户小区,假设其中某个小区中存在k个认知用户,n条可用信道,本文研究的系统模型其实就是某个小区的动态频谱接入问题,且小区中的认知用户数仅为2。认知无线电网络是具有接入点(AP)的集中式结构,且其覆盖范围远小于授权用户发射机的覆盖范围。授权用户是按照既定的策略来占用系统频谱的,可以是固定占用频谱,也可以是以某一序列动态的占用频谱。本文研究的问题中,认知用户无法和系

10、统交换信息,因此无法得知系统的频谱图1 认知无线电网络结构图分配情况。本文设计的目标便是认知用户如何在不知道系统频谱分配情况下,智能地占用信噪比高的空闲频谱,即在降低冲突概率的同时,提高系统的平均容量。3分布式独立强化学习分布式独立强化学习中, 每个智能体都是一个独立的学习体, 它们可以独立地执行单Agent强化学习算法。 智能体不知道在联合行动中其它智能体的行动策略, 它只维护自己的一个关于状态-行动对的Q 值表 , 并依据该评价函数确定修正后的行动策略,分布式独立强化学习中每个智能体Q值表更新公式如下: (1)其中s S,S为智能体感知到的环境状态;,A为智能体作用于环境的动作集合;为所有

11、智能体的一个联合行动; 为环境对联合行动的奖赏函数; t表示状态-行动对(s,a)的迭代次数。由式(1) 可知, 迭代过程是一个单调非减的过程。 采用该分布式学习算法的意义在于: 在保证问题求解精度的前提下减少复杂问题的计算量, 并由此构造可并行的计算方式。文献14论证了该算法的收敛性。每个智能体都进行各自的Markov决策过程(MDP) , 状态的变迁决定于所有智能体的联合行动, 称这样的决策过程为多智能体协作决策过程(MACMDP) , 定义为(S , M,A , T , R ) , S为状态,M为各个智能体的集合,A为智能体作用于环境的动作集合,T是状态转移概率函数。分布式独立强化学习算

12、法中智能体优化策略的更新规则: (2)式(2) 为贪婪策略,即智能体仅在能改进自己Q 值的情况下修改自己的行动策略, 否则维持原行动策略。这里存在一个探索和利用的问题。Q强化学习算法中,在当前状态选择动作的依据是的值,即选择能获得最大的。但是刚开始时学习没有先验经验,即每一个值都是不成熟的,也就是说值不能准确地表示对的适用程度。因此选择最高值的动作导致了系统总是沿着相同的方向进行搜索而不可能探索到更好值,即容易造成系统停滞在局部最小值上。因此认知用户要尽可能的选择不同的动作,来寻求没有尝试但可能带来丰厚奖赏的动作,以找到最优的策略,即探索。但是也不可以盲目去探索,过度的探索将导致以前的经验无法

13、利用,学习没有进步,降低系统的性能,影响学习的速度。所以学习开始时应该采用随机动作选择策略,然后随着学习过程逐步转向按照值大小选择动作。分布式独立强化学习算法中智能体的奖赏函数: (3)其中,分别为任意智能体i和智能体j作用于环境的动作,分别为环境对智能体i和智能体j的奖赏,式(3) 表明, 对智能体的联合行动采用一致的评价函数,可以确保所有智能体建立共同的目标,从而各个智能体可以在独立学习的基础上,通过共同的奖赏函数建立协调策略,来解决分布式系统的各种问题。4基于分布式独立学习的多用户动态频谱接入新算法Q学习算法和DAQL学习算法13可以解决单用户动态频谱接入的问题,但对于多用户动态频谱接入

14、问题,我们应采用分布式强化学习算法来解决。本文将分布式独立强化学习算法应用到多认知用户动态频谱接入环境中,同时将各个用户频点的信噪比引入到奖赏函数r中,在降低认知用户与主用户发生冲突的概率的同时,提高了系统的平均容量。4.1 算法描述 本文将分布式独立强化学习算法应用到多用户动态频谱接入环境中,在各认知用户不知道其他认知用户具体频谱分配情况下, 各认知用户采取独立学习的方式。它们只维护自己的一个关于状态-行动对的Q 值表 , 并且每个认知用户 i 各自采取独立的迭代过程,其Q值表更新公式如下: = r (4)式(4)可见将分布式独立强化学习算法应用到认知无线电中多用户动态频谱接入问题时需考虑授

15、权用户和认知用户的动作给系统环境带来的影响。其中s S,S为认知用户感知到的环境状态;,A为认知用户作用于环境的动作集合;为系统中授权用户的动作;为所有认知用户的一个联合行动; 为环境对联合行动的奖赏函数;t表示状态-行动对(s,a)的迭代次数。Q值更新采用式(4)。动作选择策略采用以下的更新规则 任取 (5)基于分布式独立学习的多用户动态频谱接入新算法是为了获得一种从状态到动作的映射关系, 使每次经历这个状态时, 都能利用以前学习的经验和知识, 做出最优的动作决策。认知用户能为每个感知到的环境状态和自己的动作对建立一个Q 值函数, 并不断根据学习到的经验进行更新。通过一段时间的学习过程, 认

16、知用户能够在没有人为干预的情况下自己选择合适的频率进行通信, 使得在通信时对已存在的主用户产生的干扰最小。 同时为了提高系统的平均容量,在奖赏函数r中引入了各信道的信噪比,即 (6)系统的容量C定义为 (7)系统的平均容量定义为 (8) 其中B为频点的带宽,SNR为频点的信噪比,c(i)为认知用户第i次占用频点时系统的容量,m为统计平均容量的次数。具体的算法流程图如图2所示,这是某一个认知用户的算法流程图,可以看出其本质上就是单个智能体的算法流程图,两个认知用户通过共同的奖赏函数r建立协调策略,共同完成降低系统冲突概率这一目标。图2 算法流程图4.2算法实现假设多用户动态频谱接入问题中状态为S

17、,动作集合为A,奖赏回报函数为R,下面具体说明基于分布式独立学习的多用户动态频谱接入算法中的几个要素:1)状态空间S S = , , , , ,,, ,其中=0表示频谱k被占用;=1表示频谱k未被占用。表示主用户占用的频点,k为主用户数,表示认知用户占用的频点,表示m个认知用户,本算法中m为2。 2) 可选动作集A 影响系统状态的动作有2种: 一种是认知用户选择频点时的动作,它占用频点; 还有一种就是授权用户占用频点时动作。本文中授权用户可能是以固定占用方式占用频谱,也可能以跳频等其他方式占用频谱,另外系统环境中有2个认知用户,因此此时系统是多Agent模型的。3) 即时回报R 该算法在奖赏函

18、数r中引入了各频点的信噪比。设定认知用户与授权用户所选用频点相同(冲突)或者各认知用户所选用频点相同(冲突)时,系统的奖赏函数r为 “”; 不相同(没有冲突)时, r 为 “” ,奖赏函数前面一部分的参数反映降低冲突概率的要求,当认知用户与主用户或者其他认知用户发生冲突时,即两者占用同一频点,奖赏函数为-5;当认知用户与主用户或者其他认知用户没有发生冲突时,即两者占用不同的频点,奖赏函数为1。奖赏函数后一部分反映了认知用户占用该频点时信噪比对奖赏函数的影响,其中为第i个频点的信噪比占系统总信噪比的百分比,p(i)为第i个频点的信噪比,n为系统的频点数,a,b为常数。 4) 评价方式本算法针对的

19、是多认知用户动态频谱接入问题,目的是在没有人为干预的情况下,认知用户可以智能的接入系统,降低冲突概率,提高系统平均容量。仿真采用分段统计的方法,仿真了系统的冲突概率和不同信噪比时系统的平均容量,比较了考虑信噪比与不考虑信噪比这两种情况下系统的冲突概率和平均容量情况,采用的是look-up表表达值函数。实现的过程如下:1)初始化参数初始化Q 值,设定折扣因子。2)构建状态S由状态感知模块感知到的授权用户占用系统频谱的情况和认知用户自身占用的情况来构建状态空间S。3)获取Q值根据状态S和授权用户将要采取的动作A, 从Q 值表中获取Q 值。4)选择和执行动作 动作选择模块根据每一个和式(4) , 采

20、用贪婪算法从A中选择两个动作并执行,其中为认知用户一执行的动作,为认知用户二执行的动作。本文采用的贪婪算法并不是完全执行Q值最大所对应的动作,而是大部分时间选择能得到最高回报的动作,偶尔也以小概率随机选择与动作估计值无关的工作。但随着学习时间的推移,最终要选择所处状态的Q值最大所对应的动作,只有这样,最终才能完全收敛,这是探索和利用的平衡问题。5)获取回报本文设定当认知用户选择占用的频率与主用户或者其他认知用户冲突时, r= ; 不冲突时, r= 。6)更新Q 值动作执行后, 新的状态s及其所有的Q 值就能够由步骤(2) (3)得到,可由式(4)更新为。7)更新参数每轮迭代结束时, 折扣因子都

21、需要更新。本文设置它以负指数规律随着学习的过程逐渐减小为0, 以满足收敛性要求。5 仿真与分析本文对基于分布式独立学习的多认知用户动态频谱接入新算法具体实现进行仿真,仿真时假设共有12个可选频段(即信道),主用户数位3个,认知用户数为2个,每个主用户和每个认知用户每次都只占用一个,假设带宽B为1HZ,同时分别令信道的平均信噪比SNR分别为6dB,8dB,10dB,12dB,14dB,16dB,18dB,每个信道的信噪比随机分布。我们分别对以下两种情况进行了仿真:(1)授权用户固定占用信道,(2)授权用户以一序列跳频的方式占用信道。认知用户共学习10000次,在迭代的基础上,分20 个相等的学习

22、阶段统计冲突概率,同时仿真了不同的平均信噪比时的系统的平均容量。本算法中系统的容量仅考虑认知用户的容量,且是经过学习,系统稳定后的容量,本文中认知用户数为2。图3和图4为授权用户固定占用频点时系统的冲突概率以及系统的平均容量。由图3可以看出,随着学习时间的增加, 冲突概率都能够明显降低, 直到完全避免冲突。由图4可以看出,认知用户接入时考虑了信道信噪比后,可以在降低冲突概率的同时,使得系统的平均容量增加。图3授权用户固定占用频点时的冲突概率图4授权用户固定占用频点时的系统平均容量图5和图6为授权用户以随机序列方式跳频时系统的冲突概率以及系统的平均容量。仿真表明,授权用户以随机序列方式跳频时,随

23、着学习时间的增加, 冲突概率也可以明显降低, 直到能完全避免冲突。同样,当考虑频点信噪比时,可以在实现降低冲突概率的同时,保证系统的平均容量增加,但是与授权用户固定占用信道相比,容量会略有下降。 图5多种授权用户存在时的冲突概率图6多种授权用户存在时的系统平均容量曲线6 结束语单用户动态频谱接入问题,普通的Q学习算法和DAQL学习算法已经可以很好解决了,但是对于多用户动态频谱接入问题就无能为力了。在分布式环境下,则由于时间或空间的约束, 认知用户之间不能完全共享信息, 这种情况下的协作决策只能建立在认知用户的独立强化学习上。本文将基于分布式独立学习多智能体协作决策应用到多用户动态频谱接入问题中

24、,理论和仿真实验都表明, 这种方法在信息有限的情况下仍可收敛到一个优化策略。同时本文将频点的信噪比考虑到基于分布式独立学习的多认知用户动态频谱接入新算法的奖赏函数中,提出了一种优化系统容量的新方案,有效地提高了系统的容量,获得了比较好的效果。参考文献1 杨曦,郭爱煌,张超,龚增,赵文晖. 认知无线电主动切换的延时优化J. 电子测量技术,2009,12(09):11-14.2 ALLEN B.MACKENZIE,JEFFREY H.REED,PETER ATHANAS.Cognitive Radio and Networking Research at Virginia TechJ.PROCEE

25、DINGS OF THE IEEE,2009,97(4):660-688.3 吴迎笑,杨震. 基于频谱感知的认知无线电机会功率控制算法J. 仪器仪表学报, 2010,09(06):1235-1240.4 Peha, J.M. Sharing Spectrum Through Spectrum Policy Reform and Cognitive RadioJ. Proceedings of the IEEE, 2009,97(4):708-719.5 HAYK INS . Cognitive radio: brain-empowered wireless communicationsJ .

26、IEEE Journal on Selected Areas in Communications, 2005, 23 (2) : 201-220 . 6 Yang, M., & Grace, D. (2009, June). Cognitive radio with reinforcement learning applied to multicast terrestrial communication systems. In CROWNCOM. Hannover, German.7Mengfei Yang,David Grace.(2010,April). Cognitive radio with reinforcement learning applied to multicast Downlink Transmission with Power Adjustment.In Wireless Pers Commun.8 Huazhong Ning, Wei Xu,Yue Zhou, Yihong Gong,Huang, T. Temp

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论