基于星环大数据平台的大数据机器学习优化

上传人：十*** IP属地：广东上传时间：2024-11-07 格式：DOCX 页数：56 大小：3.48MB 积分：50 举报 版权申诉

已阅读5页，还剩51页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于星环大数据平台的大数据机器学习优化目录TOC\o"1-3"\h\u28652【摘要】页基于星环大数据平台的大数据机器学习优化大数据与互联网学院物联网工程梁睿倩学号：20183220128【摘要】我国已处于大数据3.0发展时代的浪潮之中，面对TB-PB级别海量数据，多个行业难以运用发挥数据价值。随着互联网技术发展和大数据分析应用需求日益迫切，如何在大量数据基础上挖掘分析出有用信息已成为当前研究热点之一。虽然从海量信息中挖掘出有价值的知识已经是一种趋势，但这需要投入大量资金和人力进行研究，使得大数据机器学习技术难以在多个传统行业中进行转型发展。如何通过数据分析与机器学习更快速的挖掘出来成为许多行业发展难题。星环大数据分析科技公司作为中国大数据机器学习产业的佼佼者，针对这一难点痛点，其研发的sophon大数据机器学习平台能够很好的处理各个行业产生的数据并且训练机器学习模型。针对玩家付费金额预测，房价涨跌幅预测，用户行为预测等案例进行机器学习优化方向的研究，能够通过最简易的方法处理上百万条数据和百条数值特征，并且将加工分析后的特征工程通过最简洁的图像可视化进行算法优化和参数调优，对于业务开发和决策具有重大意义。本研究主要通过sophon平台以及星环官方提供的数据集进行机器学习工作流的实验，分析了108项数据特征与人们实际付费金额数目之间的关系，搭建一个简单有效的预测模型；根据实验结果对影响用户行为决策因素进行筛选，调参寻找最优化的机器模型。通过对数据进行机器学习实验的案例深度挖掘数据平台功能及其算法，进而实现建模优化。同时根据分析过程中出现的问题以及现象进行一些总结和探索。【关键词】大数据平台;大数据;机器学习;sophon引言研究背景我国已经在大数据3.0的发展时代，该时代中5G、AI、制造互联化、大数据云计算等技术快速发展。目前互联网时代，各行各业以大量业界数据为发展基础，在未来数据将与新的技术融合推动传统产业信息化发展。目前，如何在大数据环境下，将海量数据用于机器学习引起了业界广泛关注。人工智能技术的快速发展，带来了技术平台和行业应用的繁荣，从Caffe、CNTK、CoreML到TensorFlow、TensorRT，从CPU、GPU到TPU、FPGA、ARM，技术发展体系越来越复杂，对开发人员的技能要求也变得更高；大量的技术人员需要不断授受技术更新，更多的应用需要考虑额外的迁移成本，更多的市场需要投入大量的资源以充分体现人工智能赋予的价值。如何提供业界眼前一亮的软件应用，同时该服务统筹硬件资源和数据资源，产生业务价值，进而有效的解决海量数据分析问题，驱动不同行业如金融、电信、教育等领域的信息化建设，这成为当前众多IT企业关注的热点之一。针对多个行业出现TB-PB级海量数据的分析难题，如何创造一个容器对海量的数据进行存储，处理，分析，最终得出直观的结果，并且通过机器学习技术对数据进行一定程度的挖掘分析，产生商业价值成为了工业界发展的当务之急。目前业界开始出现少量技术使用门槛低、应用开发方便的机器学习平台（MLP）或者数据科学平台（DSP），但这些平台大部分还局限在特定行业的有限算法应用，需要不断进行架构优化、模型扩展和算法增强，融合多种场景下的应用迁移工具，才能形成较为成熟的产品化平台。星环科技公司作为国内大数据和人工智能平台的领航者，自2013年成立以来，致力于打造一个完整的产业生态体系，开发出同时具有大数据分析服务和机器学习训练平台，是目前国内大数据领域最早掌握核心技术的企业。其下应用服务星环科技人工智能平台Sophon是一款集成代码和页面的创新性机器学习技术平台，数据开发者可以基于该平台快速完成从数据开发、预处理、搭建机器学习算子进行模型训练到模型上线的机器学习全工作流开发工作。综上所述，随着使用机器学习平台的用户越来越多，应用场景日益广泛，该大数据平台的使用者以及使用场景越来越多样化，用户所分析数据集的要求越来越多，所要求的算法越来越复杂，同时平台的分布式架构和性能等要求越来越高，由此该研究运营而生，通过星环大数据平台实验研究玩家付费方向的大数据机器学习，根据监督学习、回归模型等特点进行调参优化、性能优化、架构优化、基于基础模型不断扩展优化。研究现状目前大数据开源技术一般都是先搭建一个大数据平台对海量数据进行存储，需要数据开发者先学习Hadoop集群搭建的原理，在Hadoop上存储数据，使用Spark应用服务分析数据，运用Hadoop上的HDFS存储TB到PB量级海量数据的调度原理。然后，通过Hadoop支持的Spark分布式计算框架，统计和分析HDFS上的海量数据，通过Hadoop上的Hive提供SQL接口，把SQL翻译成SparkonSQL，最终提交运行。在Hadoop2.0优化后，原来的集群调用机制采取了一定程度的优化，原Hive后台使用MapReduce作为执行引擎，处理速度过慢，采取SQLOnHadoop的框架，使用SparkSQL。同时，对于HDFS中的NameNode高可用提供了实现优化方法。方法一，在集群中部署两台NameNode作为热备节点，分别为ActiveNameNode和StandbyNameNode，防止其中一台机器宕机导致整个集群崩溃。方法二，若集群中一台NameNode宕机，改善另一台备选节点接管集群策略，通过ZooKeeper集群辅助监控NameNode状态，以及辅助选取ActiveNameNode。同时采用QJM（QuorunJournalManager）共享存储系统集群优化edits文件读取过程首先快速恢复元数据信息，同步edits，fsimage的文件。当大数据服务集群基础应用服务搭建完后，需要通过客户端（client）的linux命令主要通过HDFSPUT命令把需要分析的数据源的数据存储到Hadoop集群block块上，调用HDFSAPI数据接口。数据集文件在HDFS中的block块存储备份以及后期寻址调用时的原理流程如图。图STYLEREF1\s1-SEQ图\*ARABIC\s11block块寻址分配上面叙述的仅仅只是整个大数据平台最基础的数据存储和调用过程，对大数据的采集，存储管理，资源分配管理，通用计算，数据分析，数据展现等流程的实现需要集群中不同的应用服务同时提供支持。下图为当前开发大数据平台主要支持的计算框架集合，红色字体为星环大数据平台主要集成的集群服务。图STYLEREF1\s1-SEQ图\*ARABIC\s12技术框架图谱研究内容本课题的研究内容是基于星环大数据平台的主集群服务应用，优化大数据机器学习，并且通过集群监控大数据的应用服务状态、数据集从HDFS到transwarpsophon的上传和存储，搭建机器学习工作流。具体功能包括：数据集上传集群；数据预处理工程：处理不完整数据、错误数据、重复数据；数值转换：空值处理，统一字段类型，过滤不相关数据；回归算法进行机器学习训练；算子参数调参调优；模型的可移植性和性能分析；

星环大数据平台大数据平台特点及优势基于TranswarpSophon平台的基础上，数据开发者可以快速完成整个机器学习工作流的数据加工处理、并在实验界面中清晰展示整个工作流算子的搭建过程。除此之外，Sophon平台内嵌的分析工具涵盖多个领域，运用数据集建立知识图谱，利用数据建立实体之间的关系等，将Sophon平台打造成一款集数据特征工程处理、机器学习算子训练、以及数据分析为一体的人工智能基础平台。基于该平台的机器学习优化，能够快速完成从数据处理到机器学习工作流算子搭建、调参再到机器学习在线训练模型的整个工作流程。同时，拥有大量面向行业领域的数据分析分析算子，从回归，分类，聚类，图计算到自动机器学习等功能均有底层支持，实现细分产品技术开发。大数据平台功能组成TranswarpSophon平台为星环旗下企业级一站式数据科学平台，提供了灵活的数据接入，数据可视化研究，数据预处理，挖掘数值的主要特征，机器学习模型反复训练调优，模型性能校验，任务调度以及不同成员角色之间数据开发共享等功能，该平台集成了spark和sparkMLlib接口，帮助数据开发者进行机器学习模型构建，解决实际业务问题，将机器学习与数据开发融为一体的人工智能基础平台。图STYLEREF1\s2-SEQ图\*ARABIC\s11SophonBase平台架构图SophonBase主要功能可以从四个维度进行刻画。数据方面，支持多源数据接入，数据探索，ETL，实时预处理，数据闭环，数据报表可视化等。模型方面，可通过可视化界面实现拖拽式建模，自动机器学习建模，工作流调度，自动数据特征提取，推荐式建模，实时计算，服务部署，模型共享等。计算方面，可实现分布式计算，多种计算框架支持，CPU/GPU组合等加快计算速度。业务方面，有能力提供国家政府部门，电信网络，商业房地产，能源制造业，交通铁路运输等行业提供业务场景支持。本次实验数据预处理，建模，性能分析等主要通过sophon平台实现。图STYLEREF1\s2-SEQ图\*ARABIC\s12sophon应用功能架构图TranswarpSophonBase实验算子项目详情界面是对整个项目数据的汇总，项目内容包含实验实现可视化算子拖拽建模、数据源接入、数据特征超融合处理、python自定义代码编写、模型多版本性能比对、运行历史日志结果查询、模型线上部署服务、HDFS/NFS文件系统管理。图STYLEREF1\s2-SEQ图\*ARABIC\s13星环实验平台通过平台实验画布界面功能实现可视化建模，实验的主界面分为6大功能区，包括：算子选择、流程区域、参数设置区域、帮助区域、实验操作导航区域、项目导航区域。每个区域都有各自的功能体现，如下图所示。图STYLEREF1\s2-SEQ图\*ARABIC\s14实验界面在左边算子区域。SophonBase平台将智能化建模所用的算法封装成单个算子，包含特征提取、数据清洗、数据预处理、机器学习算法分类器、人工神经网络算子等种类。数据挖掘建模整个流程所需要的数据操作模块都集成在此。在右边参数设置区域。流程框左键点击任一算子，参数区域就是显示该算子所需的所有参数。为解决算子参数较多展示混乱问题，sophon将算子参数进行分类，大致分为三类：IO参数、算子参数、高级参数。参数类别说明如表。表STYLEREF1\s2-SEQ表\*ARABIC\s11三类算子说明参数解释说明IO参数即输入输出参数。定义是否选取属性子集以及预测列是否原地置换这样功能点的参数；算子参数即算子本身的参数，比如随机森林的“树的最大高度”等参数；高级参数部分算子拥有。该参数与分布式计算有关，与算法本身无关。非必填参数。表STYLEREF1\s2-SEQ表\*ARABIC\s12SophonBase回归算法算子算法名称类别简述应用场景特征XGBoost回归回归先对输入数据进行排序，后进行多轮拟合，其中每一轮训练的决策树，后面每轮所建的树均是基于前面决策树的误差调整，最后整合所有树来确定最终的回归模型用于回归问题的预测精度高、速度快，在特征处理时对数据排序并保存为block结构用于并行线性回归回归用线性回归的最小二乘法建立一个或多个独立变量与因变量关系的模型用于回归base-line的预测，如经济预测等实现逻辑简单、运算训练速度快、节省资源开销决策树回归回归基于分支准则（最小平方误差等）确定树的建立，从而确定决策树以进行回归可以很好地拟合非线性。解释性强，能够处理不相关特征随机森林回归回归分类器，带有多个决策树，由决策树输出均值决定最终输出值可以实现并行计算。很少过拟合梯度提升树回归回归每一轮训练一颗决策树，后面每轮所建的树用于矫正前面决策树的误差，最终结合每棵树的输出作为输出值广义线性回归回归提供了高斯分布、二项分布、泊松分布、gamma分布的分布簇用来拟合输入数据保存回归回归对给定有限实数集Y进行分段线性拟合TranswarpSophon性能分析工具表STYLEREF1\s2-SEQ表\*ARABIC\s13验证与评估算子算子名称描述输入参数输出性能（回归）该性能评估算子用来检验回归任务，即当标签属性具有数字型值类型时。此算子的输入为一个测试样本集,这个样本集包含一个具有label角色的属性以及一个具有预测角色的属性。该算子会基于这两个属性计算并输出包含性能标准值的性能矢量。此算子还可额外接收另一个性能矢量作为输入，如果同时输入测试样本集和另一个性能矢量，它的输出将是测试样本集的性能和另一个性能矢量的平均结果。名称：input数据类型：data平均绝对误差（MAE）平均方差(MSE）R2决定系数R2(R-Square)=1-SSE/SST，其中SSE是真实值与预测值的平方差之和，而SST定义为真实值和均值的平方差之和。利用这两个指标对传统的回归方法进行改进，结果取值范围为[0,1]，且R2越大则表明模型的拟合效果越好REF_Ref23346\r\h[3]。均方根误差（RMSE）主要标准（maincriterion）参数可以选多个选项，选项不同表示评估的主标准不同；后面的点选参数，点选对应参数，则表示使用对应的标准。名称：Performance数据类型：perf性能（分类）此性能评估算子应被用于分类任务，即当标签属性具有（多分）字符型值类型时。此算子的输入为一个测试样本集,这个样本集包含一个具有label角色的属性以及一个具有预测角色的属性。该算子会基于这两个属性计算并输出包含性能标准值的性能矢量。此算子还可额外接收另一个性能矢量作为输入，如果同时输入测试样本集和另一个性能矢量，它的输出将是测试样本集的性能和另一个性能矢量的平均结果。名称：input数据类型：data混淆矩阵（confusionmatrix）加权召回率（weightedrecall）加权查准率（weightedprecision）加权F-measure（weightedfmeasure）准确率（accuracy）主要标准（maincriterion）名称：Performance数据类型：perf性能（聚类）此应用性能评估算子可用于评估聚类模型性能。该算子需要输入一个测试样本集，样本集需含有一个具有预测（prediction）角色的列以及一个具有所有特征的列在运行中若出现报错（Numberofclustersmustbegreaterthanone）仔细检查后一般书由于算子传输的参数中类簇个数只有1个或零个。导致样本数据量过少或者引起孤立点之间相互干扰，使得所有数据样本在运行编译时默认成同一个类簇，造成传入参数中的数据集类簇个数小于2，致使算子报错。名称：input数据类型：data轮廓系数（Silhouette）：用于衡量聚类效果的好坏，评估一个点与其所属的聚类相比于其他聚类的相似度。取值范围为-1到1，值越大表明该节点更匹配当前属类。距离衡量指标（distanceMeasure）：用于评估距离的指标，现支持算法为计算余弦距离和欧式距离。名称：Performance数据类型：perf交叉验证运用该算子执行交叉验证流程，输入的样本集S将在运行过程中分割成不同大小的验证集以及测试集名称：trainset数据类型：dataK折交叉验证（k_fold）分层采样（enable_stratified_sampling）机器学习算法原理本次数据集应用案例为搭建优化玩家付费预测相关的模型，在已给出的训练集中明确标注了玩家现实付费金额，所以即可判断这是机器学习中典型的监督学习问题。该类问题的解决办法也在实际业务处理中有着广泛的运用。例如，在经济和金融计量学中需要常常用到一元以及多因子模型；信用风险预测中对客户行为进行预测打分也需要运用回归模型；许多运用场景的基础底层逻辑均需要运用逻辑回归。玩家付费数据集的数值特征为连续型数值，预测结果也需为连续型数值，根据算法中专门用于解决数据集线性不可分的问题，可以采用回归模型进行训练和预测。对于回归模型，可由多个数值指标判断模型优劣，包括平均绝对误差、平均方差、R2以及均方根误差都可以作为衡量模型优劣质量的重要指标。星环Sophon平台基于所有的数值判断标准，形成了一套参数工具，并且提供了多种回归机器学习算子，包括线性回归模型、广义线性回归模型、决策树回归、随机森林、XGBoost回归等。此处主要介绍3种回归算法以及各个回归算法的特征优点与局限性，最终根据星环科技官方提供的数据集分析来选取最合适的算法算子。线性回归线性回归为统计学和机器学习中最基础的算法，数学表达式为y=Ax+B，通过训练学习找出A和B之间的对应关系，再通过新的参数X最终得出Y的对应关系。在生活场景中普遍存在着变量之间的关系，例如在一组不同身高体重的冬奥会运动员中，需要预测新来的冬奥会运动员的体重，估计今年参加冬奥会运动员的身体素质，就可以通过已知运动员组的身高和体重来算出之间未知参数A和B的大致范围，来进行预测新来运动员的体重区间。预测未来房屋销售价格和销售面积的关系，估测人口GDP等实际场景中均需运用该机器学习算法。在星环大数据平台的算子中，该线性回归算子主要的参数说明如下表。表STYLEREF1\s3-SEQ表\*ARABIC\s11线性回归参数参数名称类型意义solver优化方法string是一种调整参数以接近预测结果真实值的方法，有三种选择："l-bfgs"，"normal"和"auto"，默认为“auto”。fitIntercept使用截距bool是否使用截距loss损失函数string度量预测结果与真实值偏差的函数，有两种选择："squaredError"和"huber"，默认为“squaredError”epsilon邻域距离阈值number用于控制鲁棒性的参数，须设置成大于1.0的数，默认为1.35。standardization标准化bool是否在训练模型前标准化输入特征。默认为true。regParam正规化number正规化（正则化），正规化主要通过额外的数据指标判定防止模型过拟合问题。常见的有L1和L2正规化。maxIter最大迭代次数integer最大迭代次数，大于0的整数。默认为100。elasticNetParamelasticnetnumber使用的是elasticNet线性模型进行逻辑回归，为大于等于0小于等于1中的实数，L1正则项的系数为regParam*elasticNetParm，L2正则项的系数为regParam*(1-elasticNetParm)。设置为0时的惩罚项为L2，设置为1时的惩罚为L1。如何设置将根据训练的数据集特性来进一步研究的问题。缺省0tol停止误差number如果训练误差低于该值，则提前跳出循环，优化停止aggregationDepthtreeAggregation方法的深度integer大于等于2的整数，默认为2，当特征的维度很大时,这个参数应该设置为更大的值。weightCol权重列column权重列(可以为空)。如果未设置或者为空，将所有实例权重视为1.0。如何在机器学习的过程中评估线性回归是否是该模型最佳的算法，可以通过求实际值和预测值之差的平方和即SUMSQUARERESIDUALLOSSFUNCTION来评估模型的好坏，得出的结果越小，模型的拟合效果越好。但是，普遍适用的线性回归算法也有限制之处，因为算法兼容的场景比较泛化，缺乏具体性和针对性，导致预测结果产生的误差往往会很大，不具备求解非线性分布的能力，如果预测的结果不是规律的分布在直线周围，则很难预测模型的结果。决策树回归决策树模型可以同时应用于分类及回归问题。根据决策树的树型结构可以理解其算法起始点位于根节点，根据数据样本集进行二节点分裂，一层层分裂后的节点能更加精准的在叶子节点预测目标数值。在此实验中，运用决策树来计算预测连续值即玩家付费的数据，则称为回归决策树。运用算子实验时最重要的一步是如何选择合适的参数选择分割点，如何利用分割点进行分割，以及如何选择损失函数。一般情况下，回归树会在每个节点处最小化一个因变量作为连续类型的损失函数，从而决定数据的切分点，默认特征值大于切分点值的数据分在右边节点，小于切分点值的数据分在左边节点。此运算机制与随机森林回归的模型有相同之处。Sophon集成的回归决策树算法主要由底层spark分布式算法实现，该算法首先对特征进行抽样，计算大致的分位点数值，根据这些分位点进行分桶，处理连续型数值变量需先进行分桶操作，然后对每个分桶进行回归操作。在实验中运用此算子可以采用系统默认参数或者自行调参。表STYLEREF1\s3-SEQ表\*ARABIC\s12决策树回归算子参数参数名称类型意义enableVectorIndexer使用VectorIndexerbool若测试集包含训练集中未包含的数据,vectorindexer将会失效,可使用此变量禁用vectorindexermaxCategories最大类别数integer最大类别数handelInvalid异常特征值处理string在模型fit过程中，对于异常分类值（训练集中不包含此分类值）的处理方式，"error"或"skip"。maxDepth树的最大深度integer大于等于0的整数。0表示树只有一个叶子节点，1表示有一个父节点和两个叶子节点。maxBins最大分桶数integer大于等于2且大于等于分类特征最大类别数量的整数minInstancesPerNode最小分割大小integer不小于0的整数，如果属性包含的样本的大小不小于该值，那么该属性就要做为一个节点minInfoGain最小增益number限定最小增益，不小于0的实数，如果属性的增益不小于该值，那么它就要成为一个需要分割的节点maxMemoryInMB最大内存(MB)integer最大内存(MB)checkPointInterval检查点间隔integer检查点间隔seed种子integer随机种子的参数cacheNodeIds是否缓存节点IDbool是否缓存节点IDuseYgg是否启用高性能模式bool选择原生算法或高性能改进算法,高性能算法使用按列划分数据,原有算法对于大特征维度和训练深度较大的时候会造成巨大的通信开销造成性能瓶颈,按列分区数据的高性能训练算法,可以将这种计算节点间通信最小化迅速训练出非常深的树模型.在训练模型设置参数时需注意，在底层每个worker会使用设置的最大内存数据进行统计，如果内存参数设置比较大，可以减少数据抽样次数，这可能加快运算速度；但是，设置的内存过大会造成worker之间的通讯压力，导致速度变慢。此问题可以通过在高级参数设置时勾选useYgg，实现按列分区数据，优化计算节点之间的通信速度。随机森林回归Randomforest即引导聚合类算法BootstrapAggregation，典型的以弱博强集成算法（ensemblelearning），属于弱监督模型，一般使用决策树进行决策，在sophon算子中已有默认机器算法的超参数，一般为20个决策树（NumofLearners），每棵树默认为5层深度（MaxDepth）。对于数据集中的样本则用随机采样整合成不同维度的数据集，取多个不同的样本数量和特征数量进行每棵树的模型训练，最终一般使用均值将每棵树的结果整合。比如，在玩家付费预测的数值特征有108项，除去不相关字段以及相关性不明显的字段后，还剩有78项数值特征要分析。再从78项数值特征的数据集中随机选取n个样本，x个数值特征feature，从而保证每个决策树看问题的角度都不一样，然后根据每次采样，训练一个决策树。在sophon平台中对于随机森林回归算子的定义是一个组合（ensemblemodel）模型。在随机森林中，对于基决策树的每个节点，从总的母集中随机选择小于母集所有属性的特征子集，接着从子集subset中选择一个最优属性来划分树的左、右叶子节点。本算子支持连续型label，也支持连续特征和类别特征。表STYLEREF1\s3-SEQ表\*ARABIC\s13随机森林算子参数参数名称类型意义enableVectorIndexer使用VectorIndexerbool若测试集包含训练集中未包含的数据,vectorindexer将会失效,可使用此变量禁用vectorindexermaxCategories最大类别数integer最大类别数handelInvalid异常特征值处理string在模型fit过程中，对于异常分类值（训练集中不包含此分类值）的处理方式，"error"或"skip"。maxDepth树的最大深度integer大于等于0的整数。0表示树只有一个叶子节点，1表示有一个父节点和两个叶子节点。maxBins最大分桶数integer大于等于2且大于等于分类特征最大类别数量的整数，随机森林算子最大分桶数默认为32minInstancesPerNode最小分割大小integer不小于0的整数，如果属性包含的样本的大小不小于该值，那么该属性就要做为一个节点minInfoGain最小增益number限定最小增益，不小于0的实数，如果属性的增益不小于该值，那么它就要成为一个需要切分的对象maxMemoryInMB最大内存(MB)integer所支持占用的开销checkPointInterval检查点间隔integer每个检查项之间的树seed种子integer随机种子的参数cacheNodeIds是否缓存节点IDbool是否缓存节点ID该算子的优势是模型最后的整合会包含从不同方向看问题的结果，随机性很强，不易过拟合，对于脏数据的抗噪性强，对异常点outlier不敏感。基于玩家付费预测的数据维度，采用随机森林回归算法能够更加快速处理高维数据。通过模型的树状结构能够更加直观清晰的看出数值特征的feature重要性，具有更高的可解释性。该算子也存在一定的局限性，训练出来的模型预测值过于普遍，缺乏了正确处理过于困难的样本的能力，进而导致模型的表现往往会受限制。该问题可以通过集成学习中的另一种算法boosting来解决。实验步骤与结果准备实验环境Sophon安装硬件要求物理机：≥4台（标准模式）需进行sophon、workflow、inceptorexector、hdfsNameNode等组件隔离，且保证运行稳定，尽量不在虚拟机上进行安装，本次安装通过校实验室机房提供的设备完成。适用人数：3-4人单台服务器配置要求如下：表STYLEREF1\s4-SEQ表\*ARABIC\s11单台服务配置配置级别CPU服务器内存系统盘数据存放盘GPU（非必须）最低配置2路8核以上超线程x86指令集≥64G2个（≥300G）硬盘2个（≥600G）硬盘1*NVIDIATeslaP4中级配置2路12核以上超线程x86指令集≥128G2个（≥600G）硬盘4个（≥1T）硬盘1-3*NVIDIATeslaP4标准配置（生产环境）2路16核以上超线程x86指令集≥256G2个（≥600G）硬盘6个（≥2T）硬盘1-3*NVIDIATeslaV100表STYLEREF1\s4-SEQ表\*ARABIC\s12全部资源分配规则配置级别yarn资源占用（TDH上设置修改）sophon启动默认资源占用用户自由分配启动session总资源最低配置cpu、内存占用1/2CPU：12核内存：54G除去前两者剩余的资源中级配置cpu、内存占用3/4CPU：12核内存：54G除去前两者剩余的资源高级配置（生产环境）cpu、内存占用3/4CPU：12核内存：54G除去前两者剩余的资源表STYLEREF1\s4-SEQ表\*ARABIC\s13磁盘资源分配规则配置级别系统盘数据存放盘其他情况最低配置/var/lib/docker≥100G/var/log≥100GTxsql≥200GHdfsdataNode包含inceptor且存大数据整个空磁盘≥1T中级配置/var/lib/docker≥300G/var/log≥100GTxsql≥200GHdfsdataNode包含inceptor且存大数据整个空磁盘≥1T高级配置（生产环境）/var/lib/docker≥600G/var/log≥100GTxsql≥200GHdfsdataNode包含inceptor且存大数据整个空磁盘≥1T由于该实验场景在学校实验室，项目很可能会增加使用人数，此时资源调整方法如下表。表STYLEREF1\s4-SEQ表\*ARABIC\s14方案策略序号详情方案1保持单台服务器（物理机）配置不变，增加服务器数量方案2保持服务器数量不变，对单台服务器进行相应扩容Sophon分区要求1、需要swap和加载于”/”的系统分区；2、推荐分区250G以上,并挂载到”/”；3、为TxSql预留200G以上的空间,并设置到数据盘的目录；4、每个节点专门的空的数据盘,用作hdfsdataNode；5、给docker分配150G以上的分区或磁盘,即/var/lib/docker至少需要150G,建议多分一点；6、日志空间,/var/log,100G以上；7、依赖组件的资源占用情况.Sophon安装的节点需要避开HDFSNameNode,HDFSStandbyNameNode,Inceptorexector,workflow的节点；运行软件环境要求Sophon可以直接通过Web页面直接管理集群平台应用服务，管理平台支持一下浏览器如下表。表STYLEREF1\s4-SEQ表\*ARABIC\s15浏览器类型浏览器版本GoogleChrome（推荐）62.0及以上Firefox59.0及以上操作系统安装在安装TranswarpSophon之前，集群中的所有节点必须满足安装准备和安装前的星环科技所提供的检查列表中所列举的所有要求。安装前的检查：系统磁盘分区，所需的内存容量要求，网络设置，安全设置，集群和网络拓扑要求，NTP服务设置，系统的推荐设置（安装方法同时也需参考TranswarpManager)可以使用两种方式来安装集群中的服务器的操作系统，单独安装方式和PXE安装方式。TranswarpManager安装安装Sophon需要首先安装TranswarpManager，目前版本sophon支持安装在TDH5.2系列和TDH6.0系列上。TranswarpManager的具体安装步骤需额外参考Manager的安装手册。安装完成后即可登录TranswarpManager界面进行Sophon服务的安装。图STYLEREF1\s4-SEQ图\*ARABIC\s11集群应用服务表STYLEREF1\s4-SEQ表\*ARABIC\s16星环科技transwarpsophon平台使用服务版本说明2022年版前端版本2.5.1-alpha.006.0702.3503290后端微服务版本notebook2.5.0-SNAPSHOT.0703.4f8acbanotification0.2.0-SNAPSHOT.0630.8e925bdretrieve2.5.0-SNAPSHOT.0628.f943edfgateway2.5.0-SNAPSHOT.0630.ec8052abase2.5.0-SNAPSHOT.0701.07ae8c1approval2.5.0-SNAPSHOT.0630.6be3d2cresource2.5.0-SNAPSHOT.0630.be2c7b1jobmanager2.5.0-SNAPSHOT.0630.841a150audit0.2.0-SNAPSHOT.0630.490b954api-manager2.5.0-SNAPSHOT.0703.7941c98kg3.4.0-SNAPSHOT.0630.33c6878user0.2.0-SNAPSHOT.0630.007a8f4share-server0.4.0-SNAPSHOT.0630.401f2c7研究方法本次基于星环大数据平台进行机器学习优化，因为提交论文时间紧迫，疫情原因无法有充裕的时间在学校实验室进行详细的研究设计和代码分析，则暂时先通过平台申请试用环境进行BI数据探索和机器学习算法模型训练，Sophon内置多种图表分析，例如直方图，条形图，点图，箱线图，饼图，雷达图等。图表能够非常直观的找出数据特征之间的关系，提供二维，三维甚至是多维之间的图表关系。平台提供的数据分析和预处理功能模块相较于普通的数据分析工具R等有较快上手，处理速度快等优点；通过数值可视化统计分析，直观看出变量之间的相关性，然后过滤出有效的自变量，将原有的数据类型转化为机器学习算法的输入值，并为模型和任务制定最佳特征。数值属性的开发是机器学习工作流程中关键的步骤，因为适当的特征可以降低建模的复杂度，并使机器学习训练得出的模型产出更优质的预测结果，为玩家付费预测行为领域的机器学习优化的探索奠定基础。首先，在平台创建单独的玩家付费预测项目，之后若项目其他成员加入可直接共享实验数据和模型训练进度，和机器学习模型新的迭代版本。创建好项目后，进入项目详情页。下一步，数据导入。将项目案例所提供的原始数据准备好导入至sophon平台。点击导航栏中【数据集】进入数据集模块。大数据集直接本地导入一般会出现耗时过长的问题，一般可以通过TDH-client环境写入到HDFS再进行数据集上传。此次因为疫情限制原因无法应用实验室的机房环境进行数据集操作，故直接采取本地端上传数据的训练集和验证集，耗时1分钟。平台提供多种形式的数据集写入操作，可以根据数据集大小及其是否为离线数据集使用多种数据集创建方式。图STYLEREF1\s4-SEQ图\*ARABIC\s12数据集上传点击之后即可看到数据集列表页面，图为当前已创建的数据集文件图STYLEREF1\s4-SEQ图\*ARABIC\s13数据仓库列表具体数据集介绍详见4.5节数据来源，进行数据分析和特征工程。训练集统计约有200W多条数据。图STYLEREF1\s4-SEQ图\*ARABIC\s14训练数据集图STYLEREF1\s4-SEQ图\*ARABIC\s15测试数据集数据预处理训练集有200W条数据，测试集有80W条数据，初步分析数据缺失值率为0%，即不存在缺失值。图STYLEREF1\s4-SEQ图\*ARABIC\s16数据分布详情除去user_id,register_time,pay_price,pay_count从其余104条特征找与pay_price数据条数的相关性。采用的方法即利用箱线图和散点图在数据自变量之间找与pay_price因变量的关系，观察图形变化趋势和特殊截断点。在实际建模中，分箱一般都是针对连续型数据（如价格、销量、年龄）进行的。在本次玩家付费预测的建模中，经过分箱后的数据，有利于分析数据可取值的范围，同时数据的可取值会更加确定与稳定，之前取值范围不定的数据经过分箱后，变成了取值固定的数据。数据中信息会变得模糊，这样特征的精准度降低，模型的泛化能力增强，抗噪性增强。分箱后的数据增强了鲁棒性，避免模型训练时过拟合，加快模型训练速度，能够有效包容数据中的异常值，对使用数据集规模大、模型运行效率或响应速度有要求的以及需要部署上线的模型比较合适。前期数据预处理采用箱线图进行数据分区域和趋势分析，数据按固定计数单位上涨的数值用箱线图，样本中数值型数据无固定上涨数值单位，故先考虑进行分箱操作。由图可以直观看到，treatment_acceleraion_add_value以及其他数据特征均无呈现明显的相关性，在不规则变化数值类型中，本次实验数据多偏为0，很难明显看到数据的变化趋势。图STYLEREF1\s4-SEQ图\*ARABIC\s17箱线图分析中期重新分析数值的样本数量以及特性，改用散点图兼顾均匀分箱的方法，每个箱中的数值视情况进行调参，参数范围取300-500。数值有明显的趋势范围，主要呈现负相关和正相关性，以及部分数值特征表现出无相关特性，便于之后机器学习流程中将其数值特征过滤。图STYLEREF1\s4-SEQ图\*ARABIC\s18负相关性缩小区域数值范围视图，能够更加直观看到变量点与点之间的对应关系。图STYLEREF1\s4-SEQ图\*ARABIC\s19缩小范围散点图图STYLEREF1\s4-SEQ图\*ARABIC\s110负相关性参数同时也有呈正相关性的参数图。图STYLEREF1\s4-SEQ图\*ARABIC\s111呈线性上升图STYLEREF1\s4-SEQ图\*ARABIC\s112前期正相关明显图STYLEREF1\s4-SEQ图\*ARABIC\s113呈线性增长图STYLEREF1\s4-SEQ图\*ARABIC\s114散点分布呈正相关部分数值特征呈现复杂的变化趋势，在初期机器学习训练时，需先将其过滤图STYLEREF1\s4-SEQ图\*ARABIC\s115图STYLEREF1\s4-SEQ图\*ARABIC\s116图STYLEREF1\s4-SEQ图\*ARABIC\s117训练模型搭建机器学习工作流前期先从数据预处理算子搭建。从数据池中导入原始数据集，使用过滤运算符删除掉不完整数据、不正确的数据和重复的数据参数，节省磁盘运行内存，缩减计算时间；下一步，选择属性算子可以选取部分数据子集，数据子集的选取范围由前期数据图像化后分析选取108项中成正相关和负相关特性的参数，同时也过滤掉无意义的参数；最终选取设置角色算子，将需要机器学习的预测结果pay_price打上标签。图STYLEREF1\s4-SEQ图\*ARABIC\s118预处理算子流程选中过滤算子，参数设置如下。参数名取值过滤条件customFilters自定义过滤表达式用户可自定义表达式对样本数据进行过滤，表达式通过sql语句表达，本实验设置为“pay_price<260”选中选择属性算子，参数设置如下。参数名取值筛选类型Subset额外列选择除“user_id,register_time,infantry_reduce_value,cavalry_reduce_value,shaman_reduce_value,wound_infantry_add_value,wound_cavalry_add_value,wound_shaman_add_value,treatment_acceleraion_add_value,training_acceleration_add_value,treatment_acceleration_reduce_value,sr_infantry_tier_3_level,sr_cavalry_tier_3_level,sr_shaman_tier_3_level,sr_troop_defense_level,sr_infantry_def_level,sr_cavalry_def_level,sr_shaman_def_level,sr_infantry_hp_level,sr_cavalry_hp_level,sr_shaman_hp_level,sr_infantry_tier_4_level,sr_cavalry_tier_4_level,sr_shaman_tier_4_level,sr_troop_attack_level,sr_rss_b_gather_level,sr_outpost_tier_4_level,sr_guest_troop_capacity_level,sr_march_size_level,sr_rss_help_bonus_level,avg_online_minutes”以外的字段。上述字段经分析后为与因变量不相关字段，特以去除，加速模型训练效率。反向选择勾选选中设置角色算子，参数设置如下。参数名取值列名Pay_price目标角色Label至此，数据预处理环节的设计和调参完成。机器学习训练算子搭建图STYLEREF1\s4-SEQ图\*ARABIC\s119机器学习流程算子搭建完成后，选中算子设置参数。选中样本切分算子，设置切分比例为9:1（训练集：测试集）因为后续还有测试集可供验证，可以设置训练的数据量尽量大；选中随机森林回归算子，参数设置如下。参数名取值一键开启超参优化开启开启后将启动该算子的AutoML自动调参（黑箱超参优化）。调参系统会建议一组或多组参数，并交给机器学习模型训练得到反馈结果，然后根据反馈结果产生下一组建议的参数。迭代次数（超参优化）20超参优化算法Bayes树的最大深度（勾选超参优化）数值区间[5,17]，在此区间内随着数值越大，训练的模型拟合效果越好选择范围1,13采样类型UNIFORM最大分桶数32最小叶子样本数1最小分割增益（勾选超参优化）0.0选择范围0.1,0.9子集抽样比率1.0特征子集策略Auto树的棵树（勾选超参优化）10选择范围10,40不纯度Variance交叉验证（超参优化）10初始随机轮数（bayes）10获取函数（bayes）Ucb实验VectorIndexer不勾选最大内存（MB）256随机数种子可自定义选择性能（回归）算子，进行参数设置参数名取值平均绝对误差不勾选平均方差不勾选R2勾选均方根误差勾选主要标准均方根误差至此，主流程算子搭建完成，点击运行开始训练。图STYLEREF1\s4-SEQ图\*ARABIC\s120大数据机器学习工作流第一轮结果，勾选均方根误差RMSE（rootmeansquarederror）和R2_score两个标准来判断模型的好坏。R2_score表示模型拟合数据集的好坏，越接近1表示拟合效果越好。R2_score=0.77表示模型解释了77%的不确定性，模型效果良好。均方根误差RMSE（rootmeansquarederror）表示模型的偏离程度，越接近0越好。此处2的含义就是说68%的玩家付费价格和真实付费之间的差值在2（元）之间，95%预测付费价格和真实付费之间的差值在4（元）之间。图STYLEREF1\s4-SEQ图\*ARABIC\s121性能参数图STYLEREF1\s4-SEQ图\*ARABIC\s122性能参数第二次模型参数优化，将最大分桶数的默认参数32，改为500，优化模型过拟合的现象。参数优化后的模型性能指标r2_score值为86%，RMSE为12.4,MAE为4.0。图STYLEREF1\s4-SEQ图\*ARABIC\s123随机森林性能参数图STYLEREF1\s4-SEQ图\*ARABIC\s124随机森林计算过程在随机森林回归模型结果中，总共计算出29种树型结果。在模型详情中也可以看到有8项参数值对该模型的非常重要的相关性，如图图STYLEREF1\s4-SEQ图\*ARABIC\s125参数重要性表格中前8项指标的重要性比较高，分别是pay_count(付费次数),bd_barrack_level(建筑：兵营等级),bd_dolmen_level(建筑：智慧神庙等级),bd_stronghold_level(建筑：要塞等级),bd_healing_spring_level(建筑：治疗之泉等级),sr_outpost_tier_3_level(科研：据点三),bd_outpost_portal_level(建筑：据点传送门等级),ivory_reduce_value(象牙消耗数量)由此分析可以得出这几个参数会对玩家是否在游戏中付费的产生较大的影响，未来在游戏策划运营过程中可以首先根据这几个因素判断未来游戏公司收入是否处于一个合理范围。图STYLEREF1\s4-SEQ图\*ARABIC\s126后台运行日志为了进一步找出最合适的机器学习算法，提升整个模型的精确度，在原有的实验基础上加入线性回归算子和决策树回归算子，进行实验结果比对和有关spark层高级参数的调优。首先是随机森林回归算子和决策树回归算子的模型性能比对，两个算法的底层思路均为回归树模型。基于前面随机森林回归调参得出适用该实验需求的最大分桶数为500，树的最大深度为10，启用运算高性能模式，得出实验对比结果。图STYLEREF1\s4-SEQ图\*ARABIC\s127随机森林和回归决策树算子表STYLEREF1\s4-SEQ表\*ARABIC\s17决策树回归参数设置参数名取值树的最大深度5从主节点到叶子节点总共有5层最大分桶数500参数默认值为32，增加到500的分桶数能够降低模型过拟合的风险最小分割大小1每个数值特征属性作为一个分割值最小增益0.0种子5最大类别数20异常特征值处理Skip最大内存256MB检查点间隔10是否缓存节点ID勾选是否启用高性能模式勾选使用VectorIndexter勾选下图为回归决策树模型的概述和结果，可以清晰直观的看到决策树如何根据玩家付费金额样本进行节点分裂，树的深度，每个父子节点之间的联系和叶子节点停止分割的最小增益。图STYLEREF1\s4-SEQ图\*ARABIC\s128决策树模型计算结果在108项参数中，主要影响决策树回归模型计算的参数只有4项。图STYLEREF1\s4-SEQ图\*ARABIC\s129决策树回归参数重要性图STYLEREF1\s4-SEQ图\*ARABIC\s130随机森林性能结果图STYLEREF1\s4-SEQ图\*ARABIC\s131决策树回归性能结果从以上得出的性能结果数值可以看出，在随机森林算子中模型的拟合程度R2可以达到86%，决策树回归算子的模型拟合程度R2在79%；模型的偏离程度RMSE在随机森林算子中的误差也越小。基于该数值初步得出结论：随机森林算子的机器学习模型效果更好。接下来选择随机森林算子与线性回归算子进行实验比对，最终找出最佳的机器学习模型。图STYLEREF1\s4-SEQ图\*ARABIC\s132随机森林和线性回归算子随机森林回归算子树的最大深度在5-15区间模型R2数值越趋近与1，模型拟合度越好，但是运算开销变大。依次对其中参数树的个数从20-30，种子参数从5-15调整找出更好拟合的机器模型。图STYLEREF1\s4-SEQ图\*ARABIC\s133随机森林分支图STYLEREF1\s4-SEQ图\*ARABIC\s134线性回归模型结果图STYLEREF1\s4-SEQ图\*ARABIC\s135随机森林模型结果经过多次实验调参，随机森林的模型优化趋近于R2为86%和线性回归的模型优化趋近于R2为80%的性能结果。随机森林机器学习模型在RMSE即model的偏离程度上比线性回归更小，模型表现效果越好。经过上述实验的反复调参性能结果对比，可以找出目前最优的模型算子为随机森林算子，由于没有完全绝对最佳取值的参数参考，具体参数设置需根据数据集的特征来进行调整。当然，目前实验结果还有望进一步优化，争取模型的拟合程度达到90%以上的准确率。

数据来源本次实验数据集玩家付费数据由星环官方提供CSV文件，为2018年初季度的游戏平台客户7日内的操作数据，数据主要由系统自动录入，不存在人为输入极端值造成数据的分布影响。训练集和测试集提供的数据约达到300万条数据量。有108维数值特征，特征的数据类型除去时间timestamp主要为数值型数据int,double类型。原始数据集数据字段解释如图，总共有108条数据字段，需先根据原始的数据字段筛选出最具特征的数据指标，进而通过学习到的模型预测prediction_pay_price。表STYLEREF1\s5-SEQ表\*ARABIC\s18数据集字段含义名称类型数据有效期变量性质玩家ID身份（类别特征）int永久ID玩家注册时间string永久自变量木头获取数量intdays自变量木头消耗数量intdays自变量石头获取数量intdays自变量石头消耗数量intdays自变量象牙获取数量intdays自变量象牙消耗数量intdays自变量肉获取数量intdays自变量肉消耗数量intdays自变量魔法获取数量intdays自变量魔法消耗数量intdays自变量勇士招募数量intdays自变量勇士损失数量intdays自变量驯兽师招募数量intdays自变量驯兽师损失数量intdays自变量萨满招募数量intdays自变量萨满损失数量intdays自变量勇士伤兵产生数量intdays自变量勇士伤兵恢复数量intdays自变量驯兽师伤兵产生数量intdays自变量驯兽师伤兵恢复数量intdays自变量萨满伤兵产生数量intdays自变量萨满伤兵恢复数量intdays自变量通用加速获取数量intdays自变量通用加速使用数量intdays自变量建筑加速获取数量intdays自变量建筑加速使用数量intdays自变量科研加速获取数量intdays自变量科研加速使用数量intdays自变量训练加速获取数量intdays自变量训练加速使用数量intdays自变量治疗加速获取数量intdays自变量治疗加速使用数量intdays自变量建筑：士兵小屋等级intdays自变量建筑：治疗小井等级intdays自变量建筑：要塞等级intdays自变量建筑：据点传送门等级intdays自变量建筑：兵营等级intdays自变量建筑：治疗之泉等级intdays自变量建筑：智慧神庙等级intdays自变量建筑：联盟大厅等级intdays自变量建筑：仓库等级intdays自变量建筑：瞭望塔等级intdays自变量建筑：魔法幸运树等级intdays自变量建筑：战争大厅等级intdays自变量建筑：联盟货车等级intdays自变量建筑：占卜台等级intdays自变量建筑：祭坛等级intdays自变量建筑：冒险传送门等级intdays自变量科研：侦查等级intdays自变量科研：训练速度等级intdays自变量科研：守护者intdays自变量科研：巨兽驯兽师intdays自变量科研：吟唱者intdays自变量科研：勇士攻击intdays自变量科研：驯兽师攻击intdays自变量科研：萨满攻击intdays自变量科研：战斗大师intdays自变量科研：高阶巨兽骑兵intdays自变量科研：图腾大师intdays自变量科研：部队防御intdays自变量科研：勇士防御intdays自变量科研：驯兽师防御intdays自变量科研：萨满防御intdays自变量科研：勇士生命intdays自变量科研：驯兽师生命intdays自变量科研：萨满生命intdays自变量科研：狂战士intdays自变量科研：龙骑兵intdays自变量科研：神谕者intdays自变量科研：部队攻击intdays自变量科研：建造速度intdays自变量科研：资源保护intdays自变量科研：部队消耗intdays自变量科研：木材生产intdays自变量科研：石头生产intdays自变量科研：象牙生产intdays自变量科研：肉类生产intdays自变量科研：木材采集intdays自变量科研：石头采集intdays自变量科研：象牙采集intdays自变量科研：肉类生产intdays自变量科研：部队负重intdays自变量科研：魔法采集intdays自变量科研：魔法生产intdays自变量科研：据点耐久intdays自变量科研：据点二intdays自变量科研：医院容量intdays自变量科研：领土采集奖励intdays自变量科研：治疗速度intdays自变量科研：据点三intdays自变量科研：联盟行军速度intdays自变量科研：战斗行军速度intdays自变量科研：采集行军速度intdays自变量科研：据点四intdays自变量科研：增援部队容量intdays自变量科研：行军大小intdays自变量科研：资源帮助容量intdays自变量PVP次数intdays自变量主动发起PVP次数intdays自变量PVP胜利次数intdays自变量PVE次数intdays自变量主动发起PVE次数intdays自变量PVE胜利次数intdays自变量在线时长doubledays自变量付费金额doubledays自变量付费次数intdays自变量45日付费金额double45days因变量经由数据分析可视化后的图表找出每条数据特征的特性，分别列出了正相关性、负相关性、无相关性的数值字段。表STYLEREF1\s5-SEQ表\*ARABIC\s19相关性字段分类正相关性变量数据名称数据有效期木头获取数量days木头消耗数量days石头获取数量days石头消耗数量days象牙获取数量days象牙消耗数量days肉获取数量days肉消耗数量days魔法获取数量days魔法消耗数量days勇士招募数量days驯兽师招募数量days萨满招募数量days勇士伤兵产生数量days勇士伤兵恢复数量days萨满伤兵恢复数量days通用加速获取数量days通用加速使用数量days建筑加速获取数量days建筑加速使用数量days科研加速获取数量days科研加速使用数量days训练加速使用数量days建筑：士兵小屋等级days建筑：治疗小井等级days建筑：要塞等级days建筑：据点传送门等级days建筑：兵营等级days建筑：治疗之泉等级days建筑：智慧神庙等级days建筑：联盟大厅等级days建筑：仓库等级days建筑：瞭望塔等级days建筑：魔法幸运树等级days建筑：战争大厅等级days建筑：联盟货车等级days建筑：占卜台等级days建筑：祭坛等级days建筑：冒险传送门等级days科研：驯兽师攻击days科研：萨满攻击days科研：建造速度days科研：资源保护days科研：部队消耗days科研：木材生产days科研：象牙生产days科研：肉类生产days科研：木材采集days科研：象牙采集days科研：肉类生产days科研：部队负重days科研：魔法采集days科研：魔法生产days科研：据点耐久days科研：据点二days科研：医院容量days科研：领土采集奖励days科研：治疗速度days科研：据点三days科研：联盟行军速度days科研：战斗行军速度days科研：采集行军速度daysPVE次数days主动发起PVE次数daysPVE胜利次数days付费次数days负相关性变量字段名数据有效期科研：侦查等级days科研：训练速度等级days科研：守护者days科研：巨兽驯兽师days科研：吟唱者days科研：勇士攻击days科研：石头生产daysPVP次数days主动发起PVP次数daysPVP胜利次数days无相关性字段名数据有效期勇士损失数量daysdays驯兽师损失数量days勇士伤兵产生数量days驯兽师伤兵产生数量days萨满伤兵产生数量days训练加速获取数量days治疗加速获取数量days治疗加速使用数量days科研：战斗大师days科研：高阶巨兽骑兵days科研：图腾大师days科研：部队防御days科研：勇士防御days科研：驯兽师防御days科研：萨满防御days科研：勇士生命days科研：驯兽师生命days科研：萨满生命days科研：狂战士days科研：龙骑兵days科研：神谕者days科研：部队攻击days科研：据点四days科研：增援部队容量days科研：行军大小days科研：资源帮助容量days科研：据点四days在线时长days机器学习模型验证基于前面多次实验验证训练出了优化后准确值较高的模型，再单独搭建模型model写入算子，将优化好的模型导出到Sophon平台算子内，便于后续直接应用该模型进行其他数据集的预测。图STYLEREF1\s4-SEQ图\*ARABIC\s136随机森林model导出模型写入Sophon平台算子参数字段定义如下。参数名称类型意义create_new_model创建新的模型bool创建新的模型model_name模型名称string写入的模型名model_description模型描述string模型描述model_version_prefix模型版本名称前缀stri

人人文库> 全部分类> 毕业设计 > 任务书类

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于星环大数据平台的大数据机器学习优化

文档简介

温馨提示

最新文档

评论

基于星环大数据平台的大数据机器学习优化

文档简介

温馨提示

最新文档

评论

相关文档