

下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、【机器学习】在通信的应与综述机器学习分类综述A survey of MLto self organizing cellular networks对整个SON,从应上针对具体使的不同来讨论了机器学习和SON的关系。但是相对来说对SON的介绍更多些接下来看ArtificialNeural Networks-Based Machine Learning for Wireless Networks_ A Tutorial和Deep Learning inMobile and Wireless Networking A Survey。前者对神经络的介绍较充分,对于建框架来说更有价值些。A survey
2、of ML to self organizing cellular networks读后感机器学习应到SON上的点,是从SON的整个构建过程来说的,在不同的时间不同的阶段,去解决在不同阶段的问题。三个阶段动配置、动组、动修复,我们先梳理下在这三个阶段中可能遇到的问题。章开始,给了机器学习的致分类,认为还是很有价值的,Artificial NeuralNetworks-Based Machine Learning读后感由于整个通信领域从应的度分为很多部分,因此对于每个场景,都能够有ANN展的时候,以下道来。线络中的ANN主要有两种:1. 感知环境认知线电;感知络运状态。最终达到智能预测2. 快速
3、调节,智能分配资源(频谱资源、动态调整等),对于超密集线络的组织管理。另外物理层也有效编码、调制。对于ANN的体分类这部分已经致介绍了各个神经络的特点,并在下部分进具体描述。能够同时考虑当前和历史输,很适合移动预测。输到输出不断递归,就好像好个络级联,同时因为时序的原因,考虑到了历史和当前的输。采了存储池计算的思想,见最后。优点:中间的稀疏节点连接能够达到和其它络样的效果,并且只需要训练输出层,使得训练速度很快。特点是有多层隐藏层,能够更深层地学习标特征,但是会对过拟合问题。在线络中的应1.预测:线户的移动,优化频率等资源的使;络运的规律,从交通状态到各络和通信的需求。2.络边缘组织,还是资源
4、管理,户连接。1.训练使得机能够更好的前往需要的地(感知),满地的流量需求。2.基于户的移动模式预测。K均值聚类法,彼此接近的户被分组到个聚类中,更容易确定机位置,分配资源。(有点不懂你惦记着你那机嘛)此时的VR不是在家电视前带着眼睛打游戏的VR了,标是在室外,通过线链路进画的实时传输。因此VR360的信息,户发送实时的户位置和向信息,需要极数据率。所以对户头部运动的跟踪需要极的精度。VR中神经络在识别和预测户的动作和他们的动是有效的。已经:势识别、交互式形状变化、视频转换、头部运动预测和资源分配。还没有:稀缺的频谱资源、有限的数据速率以及如何准确可靠地传输跟踪数据。VR必须考虑上下链路的传输
5、,实现服务质量。上下链路之间的资源分配:最化共同考虑了户关联、上链路资源分配和下链路资源分配的耦合问题。同时还要考虑其它基站的资源分配基于ESN的反向链路算法使每个基站能够以组织式分配下链路和上链路频谱资源,该组织式根据动态环境调整资源分配。(这提到ESN的反向链路算法的优点是,它为络提供了预测每个动作产的虚拟现实服务质量值的能(不是像在Q学习中那样依赖于Q表来记录观察到的效值,需要遍历所有动作)。在线虚拟现实应中,对于信道选择和户关联等问题,在反向链路算法中使浅层神经络可能更合适,基于DNN的反向链路算法更适合功率分配。这是因为在功率分配问题中,优化变量是连续的。SNN很好的处理快速变化的V
6、R视频预测户的动作如眼球和头部运动构建VR图像,减少延时。边缘计算临的两问题:移动边缘存储和计算络切+雾计算。具体问题:计算布局、计算资源分配、计算任务分配、端到端延迟最化以及设备能耗最化。边缘缓存的内容很程度依赖对户为、位置的预测1.预测户的内容请求分布和频率。内容请求分发预测+移动模式预测2.从收集的数据中寻找社会信息,社交络预测户下步事件(户兴趣、热点事件)3.聚类,对户分类,节约资源。预测和聚类常常同时使先分类,每个计算中处理某个确定的任务。ANN在分配计算资源中扮演很重要的,是个多对多匹配问题,通过预测户需求,分析历史信息,实现整体的移动边缘缓存和计算优化问题。神经络可以于频谱资源的
7、管理现在终端都是拥有不同接途径的(WWAN&WLAN)。在需要保持WiFi和LTE公平共存的LTE-U系统中,LSTM可以成为资源管理的有效具。LSTM在这应中带来的主要好处是,它使蜂窝系统能够准确预测未来线络的峰时段,从抢占传输信道。并且其预测能也能够很好的平衡这两者,更好的对未来流量。其中,深度架构对wifi预测好,浅层RNN对VR和机移动性数据够了,简单的神经络(模糊神经络)对物联够了。(P26页有个总结性的,可以看)有趣的个向:整个物联被看作是神经络,物联设备看作节点,通过训练FNN优化络,这种映射可以来通过组中继找到从发射机到接收机的最佳传输链路。单独了解探索部分以下为在看的过程中,
8、对某些概念感兴趣,在知乎/CSDN/github了解的部分强化学习Reinforcement Learning太难看,不好理解,或许会看书智能 - 种现代化法强化学习的基本模型就是个体-环境的交互G = R +2+ +T下围棋回合制/段性任务终的时候给反馈+1t的,当然我们希望将其拆解,尽量把反馈给到每步上G = R +R+2+2+3 = +1连续任务衰减收益+1t=1通过时间差分学习 (Temporal Difference Learning) 来训练的。每个时间步,都会有总结学习,等不到集结束再分析结果。sa强化学习的结果决策,在 状态下执动作 的概率$pi(a|s) $下步的状态只与当前
9、状态和马上采取的动作有关,不需要回溯、记忆(下围棋,知道现在棋,准备哪落,就知道下时刻的棋)马可夫性使得我们可以仅仅利当前状态来估计接下来的收益反馈的收益显然会选择anction2,当然这些Value提前是不知道的,通过不断尝试,和环节交互,获得Reward,最终得到个稳定的Value。缺点:动作空间是离散的,对连续的运动难以拆解;最终学习完每个State对应的最佳Action基本固定。但有些场景即使最终学习完每个State对应的最佳Action也是随机的,如剪头布游戏,最佳策略就是各1/3的概率出剪/头/布。Q-Learning状态和动作的组合是有限个的,可以得到个m的表格,表下状态有m种可
10、能的Q表格。理论上我们只要根据Q表格找到当前位置下的最优动作。最直观易懂的策略(S)是根据Q表格来选择效最的动作(若两个动作效值样,如初始时某位置处效值都为0,那就选第个动作但这样的选择可能会使Q陷局部最优:在位置 S0处,在第次选择了动作1(飞)并获取了 r10的奖赏后,算法将永远法对动作2(不飞)进更新,即使动作2最终会给出 r2r1 的奖赏。改进的策略为-greedy法:每个状态以的概率进探索,此时将随机选取飞或不飞,剩下的1-的概率则进开发,即按上述法,选取当前状态下效值较的动作。就是模拟退思想当然,在开始的训练的时候* *应该设置的更些,这样让模型更有探索性,否则没尝试过的antio
11、n直是0。Q(S,) (1 )Q(S,)+(S,a)+max Q(S,a)更新Q表格:a其中* 为学习速率*(learning rate), 为折扣因(discount factor)。根据公式可以看出,学习速率越,保留之前训练的max Q(S,a)max Q(S,a)什么呢?所起到的作就越。但指aaRmax Q(S,a))。是记忆中的利益。它是鸟记忆,新位置 能给出的最效值。如果鸟在过去的游戏中于位置 的某个动作上amax Q(S,a)SaS吃过甜头(例如选择了某个动作之后获得了50的奖赏),这个公式就可以让它提早地得知这个消息,以便使下回再通过位置 时选择S可以看出,越,鸟就会越重视以往经
12、验,越,鸟只重视眼前利益(R)。SARSA (s,a) = p(as,)基于策略的强化学习(Policy-based RL)则可以解决上述两个问题,这是直接对策略进建模,即学习,给定状S态 ,会直接得到 。显然离散分布的 就可以满离散问题,对于连续动作空间,可以先假设动作服从个分布 ,如斯分布,那么可SN( ,),以从状态 输出个动作的均值 ,然后动作的选取可以利整个动作空间是个概率的分布,虽然某个动作概率很,但是仍然可能选中,选择动作A,然后回溯给reward,因此,更新Policy的Loss为L() = log(as;)f(s,a)其中f(s,a)是对s下动作a的评估。log(as;)就是
13、log likelihood。假如评价较,那么动作A的概率就增加,以后就更率A做个强化学习的程序似乎还挺好玩,如果可以的话有时间整个2021.7.21监督学习朴素贝叶斯这我们联系到朴素贝叶斯公式:我们需要求p(嫁|(不帅、性格不好、矮、不上进),这是我们不知道的,但是通过朴素贝叶斯公式可以转化为好求的三个量朴素:各个假设特征之间相互独个问题:有些项缺失数据呢?当分在进拆分的时候,如果训练量不,很有可能遇到个新的情况,那么在这时其中项P(A|B)就是0,导致整个概率是0,这显然是错误的。这个错误的造成是由于训练量不,会令分类器质量降低。为了解决这个问题,我们引Laplace校准(这就引出了我们的拉普拉斯平滑),它的思想常简单,就是对每个类别下所有划分的计数加1,这样如果训练样本集数量充分时,并不会对结果产影响,并且解决了上述频率为0的尴尬局。拉普拉斯平滑对每项拆分都要进这样的平滑,并不是只对为0的项。,以上是对特征值为离散,如长相(帅,不帅,常帅)进考虑的,此时每项的概率容易数数统计出来。另个问题:特征值为连续函数呢?*实质:*当样本很的时候,取值连续依然可以概率,或者近似概率进求解。只是在样本很少的时候,没办法概率估计,那此时我们就假设样本概率分布满斯分布,根据已有的数据计算均值和差(每类都有的分布都算出来),然后根据这个分布,带要求的情况求出概率。朴素贝叶斯的缺点:认为特征之间
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 管道施工安装合同范本
- 出国劳动合同范本
- 辽宁省铁岭市铁岭县2025届九年级上学期12月期末考试数学试卷
- 2025年终总结汇报模板8
- 2025景观照明工程施工合同书
- 2025年合作经营合同模板示例
- 2025建筑吊车租赁合同模板
- 2025成都市房屋租赁合同样本
- 高一语文新学案:第二单元《短歌行》
- 2025房屋租赁合同范本授权标准版
- 运动营养学(第三版)全套课件第1-10章
- 广东省实验中学广州市天河区附属实验学校2021-2022学年八年级下学期期中物理试题(含答案)
- 2025年吉林司法警官职业学院单招职业技能测试题库审定版
- 2025-2031年中国工业自动化设备行业发展前景预测及投资方向研究报告
- 农村小学实施铸牢中华民族共同体意识教育实践探索
- 2025年国防安全知识竞赛题库及答案(共60题)
- 《营养不良与肥胖》课件
- 《事故汽车常用零部件修复与更换判别规范》
- 第六单元《组合图形的面积》(教学设计)-人教版五年级数学上册
- 地理-北京市朝阳区2024-2025学年高三第一学期期末质量检测考试试题和答案
- 【MOOC】中国红色文化精神-西安交通大学 中国大学慕课MOOC答案
评论
0/150
提交评论