2024机器学习深度学习工程实战_第1页
2024机器学习深度学习工程实战_第2页
2024机器学习深度学习工程实战_第3页
2024机器学习深度学习工程实战_第4页
2024机器学习深度学习工程实战_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

AI首先讲一下平安人寿AI应用技术概览,首先分一个大数据平台开发,分为平台级的开发和HadoopDBhivespark,hivehql,sparkDruid&ESPresto&Impala。还有一些用matlab,SAS做精算量化模型,还用Tensorflow做深度学习,用Hbase,Redis主要做画像存储,提供实时查询,还有一些容器平台对外提供容器调用。AIAIAI算法管些图像的、自然语言的。还有一个成本比较高,互联网所做的模型都要经过A/Btext,但那么如何解决这些问题呢,大致从以下三个方面解决画像产生、质量检验、数据强度。事实三元组即主语、谓语、宾语,对图像就做embedding。将数据抽象统一后做画现不重要,这种建模出问题,因此需要判断变量在模型中的重要性,评价指标有IV值、卡相关性的指标有相关性系数、PCA/RUFS、方差膨胀因子,除此之外还会降维(PCA不够RUFS)spark+python,实现数配置灵活,数据embedding方法有很多,如图像embedding、单词embedding、图节点KBTF/IDF型,word2vecSITFCNNembedding,与worker模型将其汇聚,返回一个worker,然后利用worker进行本地模型的更新。MPMPI,但是它主要是研究Hadoop,编程简单,能容错,但是限定严格,不灵活,通过磁盘交换数据,效率低。接下来就DAG(有向无环图),典型实现就是spark,内存计算,限定放宽,可tensorflow是典型代表,好处就是自动求微分,支持任意迭代,可以实现绝大部分NN算法;缺点就是容错能力弱。后来出现了动态计算图,主要代表有Torch,还有tensorflow也支持,支持计算中更改图,而且很实用RNN。回来,这种方式比较慢,但是能够保证收敛。然后就是ASP,全异步,因此主要用来单机petuum接下来分享一下我们是如何实现的。首先分布式机器学习集群依靠spark,spark特点有:以DAG描述计算任务,以RDD抽象数据操作,基于内存的数据交换,同步参数更新(BSP),与生产环境无缝对接,主要采用数据并行。基于spark分布式集群开发了很多包,MLlib包实现决策树、SVN、LR;splashMCMC,GibbsSampling,LDA,比mllib20还有一个是DeepLearning4j,主要是在spark上做深度学习,支持GPUTensorFlow灵活不能自动写网络结构;接下来就是我们实现的PAMLkit,支持NB,AdaGrad+FM,FTRL+LR算法。基于spark分布式集群实战经验首要的一点是要理解算法,不能有偏差。接下来就是代码Gradient),正则项类(Updater),优化器类(Optimizer)相互独立。还有就接下来讲一下在TensorFlowTensorFlow辅以视觉文本,DNN算法应用广泛,其他相关算法(CNN、AE)已开始成功应用,强化学习正在研发中。TensorFlow分布式特点:编码组建训练集群并分配任务;需要手动在式经过了以下三个阶段:单机单卡,整体一次性读入数据,迭代时逐batch送入显存;后来进入单机双卡,采用输入队列,出队后在GPU之间轮发数据。同步模式,每GPU的梯度做平均后更新参数;后来进入多机多卡,采用Betweengraph,准同步模式。提前切分数据,不用手动启动进程,主要是基于pdsh分发数据,启动服务。GBDT+FM+DNNGBDT+FMspark上训练,DNNTensorFlowsparkTensorFlowHDFSPDSHTensorFlowworkerhdfsSparktensorflowRDD广,投入生产的模型多达数百个,分散运行,监控困难。另一个就是建模平台很多,现有ATLBvaphonASRprkenofwin需要达到目标:集中管理、统一监控;第二个上线快速,节约资源,可伸缩高可靠;不能限thriftjava,c++等;u成熟稳定,开源十年,使用广泛;轻便简单,有编译器(不足3M)即可。服务协调用zookeeper,在线存储用redis,对外通信库用Netty,运行容器用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论