2023AI算力平台技术方案_第1页
2023AI算力平台技术方案_第2页
2023AI算力平台技术方案_第3页
2023AI算力平台技术方案_第4页
2023AI算力平台技术方案_第5页
已阅读5页,还剩115页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGEPAGE100AI算力管理平台技术方案2023目录TOC\o"1-3"\h\u173901.AI算力管理平台 5253571.1.概述 5286841.1.1.数据到价值的桥梁 665041.1.2.不同角色相对独立高效协同 6158671.1.3.不止于可视化,还能更智慧 6310391.1.4.核心技术 7275601.2.核心功能概述 826212.快速开始项目 9260502.1.项目管理-作为项目管理者 990452.1.1.创建项目 9226322.2.成员管理 1054382.2.1.将成员归入项目 1167172.2.2.开始项目-数据分析师 11106732.2.3.导入项目数据集 11279512.3.业务专家快速入门 1296202.3.1.业务场景 12108732.3.2.操作流程演示 12116402.4.专业数据分析师快速入门 16234612.4.1.业务场景 16100032.4.2.操作流程演示 1642423.了解控制台 22183473.1.个人首页 227233.2.登录页 22159923.2.1.项目管理员 22227513.2.2.数据分析师 2391073.3.项目管理员 24122693.4.管理项目 25222553.4.1.创建项目 2524103.4.2.调整项目用户资源分配 2562433.4.3.删除项目 26249423.5.成员管理 27104573.6.将成员归入项目 2875873.6.1.项目监控 2815613.7.非管理员用户 29164903.8.实验空间 3076273.8.1.进入空间 30272214.教学资源 31311415.数据集 33174405.1.功能概述 33137865.1.1.数据上传至云 33322165.1.2.项目数据管理 33236295.1.3.智能数据概要 33132645.1.4.支持主流文件类型 35210145.2.文件上传/下载 36206175.2.1.上传文件 36128805.2.2.下载文件 36314365.2.3.数据集文件类型 3721325.3.系统文件夹概述 39229035.4.智能数据概要 40114655.4.1.功能概述 407205.4.2.列数据类型 41256496.数据标注 41233916.1.功能概述 414823图像分类 412198目标识别 41146756.2.图像分类 4232219图像分类标注 4217915数据标注(手动标注): 427846数据标注(自动标注): 43273786.3.目标识别 441750手动标注 44260497.数据探索 45211007.1.功能概述 45196077.1.1.数据探索 45184997.1.2.可视数据挖掘 45221797.1.3.图形工具库 46101248.可视化数据挖掘 46368.1.功能概述 4656468.1.1.它能做什么? 47123308.1.2.在线编辑 47239308.1.3.数据筛选 47299738.1.4.免代码操作 47226118.1.5.探索记录 48221029.实验 49131259.1.功能概述 49279099.1.1.可视流程编辑 4935359.1.2.其他特色功能 52169609.1.3.实验节点设置 5476039.2.实验运行 56106129.2.1.使用技巧 56211409.3.实验运行记录 58158709.3.1.版本号与标签 5899279.3.2.运行记录操作 58161289.4.实验转源代码 5960879.5.实验节点组 59215839.5.1.添加节点组 5921929.5.2.套用节点组 60130399.6.实验导出/导入 6041839.6.1.导出实验 6032659.6.2.导入实验 61692810.组件 622488010.1.功能概述 62219710.1.1.成为实验的节点 623232710.1.2.组件管理 64357910.2.系统预置组件 651208610.2.1.系统预置组件分类 651291610.3.系统组件介绍 661129010.3.1.数据源 661957810.3.2.数据处理 671563210.3.3.数据统计 821871110.3.4.可视化 832121110.3.5.特征工程 86575010.3.6.机器学习 911065210.4.自定义组件 102517610.4.1.功能概述 1022827110.4.2.入门 1021614810.4.3.进阶 1032635910.5.组件共享 1061505010.5.1.项目内共享 1062100510.6.自定义组件导出/导入 1071343610.6.1.导出自定义组件 1071311110.6.2.导入自定义组件 1071046110.7.引入第三方库 109168511.数据云工具 1101353511.1.基础操作 110239711.2.进阶操作 110326712.收藏 1122538012.1.如何收藏对象 1122168813.回收站 113781314.分享 1141214514.1.生成分享码 114509315.标签 1151493015.1.如何为添加标签分类 1151622415.2.如何为对象添加标签 1151130316.与其他模块联动 11781016.1.从数据集拖拽csv文件 1171293816.2.从数据集拖拽文件夹 117867616.3.从组件拖拽 118

AI算力管理平台概述AI析建模SaaS软件平台。充分吸收钢铁、能源、水泥、制造业等领域多年智能应用场景构建最佳实践经验,以算子起源:源自多年的AI算力管理项目实战目标:帮助数据分析师和领域专家加速分析过程定位:一款专业的AI算力管理平台用户:数据分析师和业务领域专家

数据到价值的桥梁输入各类工业原始数据,输出以报告、规则、图表、AI模型等为载体的知识,这些知识用于生产经营决策,将为企业带来数据驱动的价值创造。不同角色相对独立高效协同业务专家根据业务问题,可以无代码、所见即所得的方式进行数据分析和建模,提供生产经营决策指导。不止于可视化,还能更智慧核心技术核心功能概述功能模块功能概述个人首页登陆成功之后进入首页,集中展示您所参与的项目、任务和实验空间服务状态,是实验空间的入口数据集管理管理项目中的原始数据和产生的中间数据,作为其他模块的数据源。划分项目数据、个人数据统、分享数据进行统一管理。数据探索数据可视化是免代码轻松绘制时序图散点图等常规图形,提供丰富的仪表盘拖入数据即刻生成专业图形进行数据探索,还可根据习惯创建个人仪表盘。数据可视化工作流实验低代码易上手的实验分析工具,拖拽组件并连线组织成您的实验工作流,管理并协助您轻松调优您的分析流程,通过添加流程注释成为分析经验。算子组件管理组件是构成实验工作流的基本单元,在实验中被称作节点,本质是一个具备完整功能的代码片段,分为系统预置组件和自定义组件两种类型。沉浸式开发环境集成数据分析师熟悉的交互式编码开发环境,与数据集/实验/组件等模块无缝结合,使用拖拽对象方式快速生成代码,极大提升代码编写效率

快速开始项目系统中的角色主要有项目管理员与数据分析师两种,项目管理员拥有项目管理的权限。数据分析师,将专注于数据分析,该角色仅能查看到与自己相关的任务和进入自己的空间。本文将简单介绍项目管理员如何创建项目并添加项目成员。角色项目管理员项目管理包括新建项目、导入/导出项目、删除项目等操作成员管理包括新建成员、编辑成员账户信息、添加成员至项目等操作项目监控包括项目相关的算子、数据集大小、运行实验、信息统计等功能导入数据管理员有权限将项目需要用到的原始数据集上传角色数据分析师项目管理员将您添加至已创建项目中进入空间,开始数据分析。项目管理-作为项目管理者输入账号登录,如果您身份是项目管理员的话将自动跳转到具有项目管理功能的控制台首页。创建项目进入首页后,点击“新建项目”按钮。根据创建流程指示进行项目创建。如图,注意以下几个参数设定。成员管理成功添加了项目之后,作为项目管理员我们需要来管理项目对应的人员。系统管理->用户管理->理员、数据分析师将成员归入项目选中一个项目,在"···"扩展菜单中使用“邀请成员”功能,将成员批量添加到项目中。添加成功后,成员可使用账号登录AI算力管理平台系统,进入后项目列表中仅展示该成员相关的项目内容。开始项目-数据分析师登录AI算力管理平台系统后,作为数据分析师进入的是个人首页。首页展示关于参与项目的概要信息。点击左边栏->首页,在项目列表中您可以看到和您关联的项目列表及信息。点击项目列表中的“进入实验”按钮进入实验`,将在浏览器打开一个新的页面进入我们的实验空间。当个人空间就绪(变绿灯)时,点击"进入实验",进入为个人专属的空间。导入项目数据集边栏切换至数据集>打开数据集管理>在上传的路径位置点击并选择文件进行上传。如果您的数据文在本地是以文件夹形式存放,还可通过按钮将此文件夹中文件一次性上传至数据集模块。Tips:为了上传功能正常请尽量保证其中文件数不超过500个,且文件夹深度不超过4。可选上传方式:文件上传:可选中同文件夹下的多个文件进行上传文件夹上传:可选中某一文件夹数据进行上传,并保持原文件夹层级结构。(文件数不超过500个为宜)业务专家快速入门本篇将以一个领域专家的角色,结合产品功能进行数据探索过程。业务场景例如,刚拿到某风场某季度单台风机数据(.csv文件)的领域业务专家,将要结合数据对风机基础情况进行探索与了解数据准备,已由管理员或数据分析师完成浏览现有"实验"(数据分析师已得出的分析流程),在"实验"功能中选择已有实验配置并运行,分析流程轻松掌控。借助交互式图形分析,业务专家可单独探索数据中蕴藏的信息。操作流程演示数据准备本示例场景项目中的秒级风机数据已经由管理员或数据分析师准备完毕。浏览实验进入实验:"实验"功能模块,单击系统中的"风机数据探索"实验(实验来自系统预置,或数据分析师自编辑)选择要读取文件:单击选择"数据读取"节点,并设置参数为需要进行数据探索的文件运行实验:点击画布上的按钮"运行"实验。查看结果:以下实验案例"运行"后将会进行风机先关的图形输出,得到该风场的风资源如何,主风向在哪,风向、风速等分布是否符合自然规律等,至此就完成一次简单的机理领域分析。单击画布中的某个节点,可浏览此节点中设置的参数数值或是运行输出结果。实验每一次运行都会记录本次实验运行信息,在运行记录中可以在不同记录中进行切换。若对次实验有灵感或是结果记录,可点击 按钮打开"随手笔记"可将有效的数据分析过程记录下来可对实验流程提出意见,指导数据分析师进一步优化实验,提升针对该案例的数据分析质量。交互式图形分析除了浏览数据分析师构建好的实验,业务专家有时需要对数据进行绘图进一步分析数据,恰好AI算力管理平台能轻松办到。本案例中需要对风机数据绘制时序图进行分析,从左边栏进入"数据探索"功能模块找到并点击"时序图"打开时序图绘图画布,切换"数据集"拖拽需要分析的数据至画布内。X轴将自动匹配为时间列,手动设置Y轴为"机舱气象站风速",来绘制图形。时序图绘制完成后,从图中可以看出风速在某时间段内有缺失值,放大后得到具体时间段,便可询问现场运维人员该时间段内气象站或传感器是否产生异常导致数据缺失。交互式绘图中可通过鼠标滑轮进行缩放和拖动调整时间区间,鼠标悬停在点上能够展示详细数据信息。通过设置更改数据列,支持同时选择多列进行图像绘制。注意评估绘制数据量大小,不要超过浏览器的承载上限造成浏览器崩溃(和客户所使用机器性能相关)。如果您对其中某段时间数据感兴趣,能够将其框选并保存为新的数据集。

专业数据分析师快速入门本篇将以一个专业数据分析师的角色,结合产品功能进行数据探索过程。业务场景例如,数据分析师对火电厂炉管温度是否异常进行探索与分析,达到提前预警防止爆管的目的。数据准备,在"数据集"中上传数据文件(数据如果已由管理员上传则跳过该步骤)初步数据探索,创建实验,使用现有组件进行初步探索特征工程,创建自定义组件,通过实验进行特征工程构建模型和参数调优复用实验,项目模型工程化操作流程演示上传数据文件入"数据集"模块,进入"我的数据集/水冷壁炉管数据"文件夹,如图点按钮,上传从火电厂拿的水冷壁炉管数据。等待进度条完成,则数据集上传操作完成。在"实验"中进行初步探索在实验左边栏,右键菜单>创建实验,创建实验。在实验中从读取文件开始创建分析流程。点击左边栏"组件",切换到组件,选取"组件列表"-"数据源"-"读取csv或parquet",将之拖拽至实验画布。下一步,在画布中单击选中"读取csv或parquet",在右边选则要读取的文件。在这个案例中数据分析师主要想观察监控各炉管间的温度,一旦它们温度过高便需要提前预警。首先将所有的炉管温度数据绘制在一张图上,这样可以直观的让分析师观察炉管温度数据的形态和分布。下一步,在实验中拖拽现有绘图组件进行数据可视化探索。点击左边栏"组件",切换到组件,选取"组件列表"-"可视化"-"散点图",将之拖拽至实验画布,再将上一步中的"读取"节点端子拉出连线首位相连,并根据需要设置节点参数。点击右上角的"运行"图标,运行实验。等待实验结束,我们将会在"控制台"和节点的输出中看到实验中每个节点的运行结果。通过观察炉管温度数据散点图我们发现正常设备中也存在一些异常范围的数据点,可能为传感器的异常,通过异常值的选取来找到该设备的温度图,锁定了异常数据集中在哪几根炉管之中,初步探索完成。在"实验"中进行特征工程通过预置数据过滤组件过滤上述观察到的正常设备中的异常值后,我们已经可以开始特征构建的工作。对炉管原始数据使用特征提取库tsfresh生成了所需要的特征,但系统预置组件中没有我们需要的tsfresh相关组件,所以我们在自定义组件功能,自主编写一个tefresh组件用于生成特征工作。在组件左边栏,自定义组件>右键菜单>新建文件夹,新建组件文件夹。选中刚才新建的文件夹,右键菜单>新建组件,新建自定义组件。下图是自定义组件的操作界面及定义模板介绍,按照提供的自定义组件模板添加特征工程部分逻辑代码。预期正确运行。(此处省略调试过程)在"实验"中构建模型在这个案例中由于炉管数据量大,标注难度大、成本高,所以我们选择两个无监督聚类算法来构建模型k-means算法DBSCAN算法我们只区分设备正常和异常两种波形数据,所以只需要将数据聚成两类。按照上述创建自定义组件的方法创建聚类模型组件加入实验。实验运行之后,聚类结果出来之后我们可以将有标签的数据与预测结果对比,这里使用混淆矩阵查看数据结果(也是以自定义组件的方式在实验中实现)。预测出来的结果发现存在一些错误分类的数据,通过观察错误分类的数据重新进行模型调参,增大数据量。至此,我们完成了预警模型的训练,通过输入现场炉管数据并根据最终的模型输出结果,我们可以判别火电厂的炉管温度数据的形态是否为异常,现场专工可以以此作为决策依据采取应急措施来解决风险或降低损失。复用实验,项目模型工程化根据以上1-4步骤,我们已经完成了一个完整的实验工作流,它将一直保存在系统当中,在未来套用在新的炉管数据时,操作者只需调整数据读取组件的参数并运行,便可以快速复用实验得到分析结果,以达到项目内部快速使用,前人项目经验继承并直接复用的效果。

了解控制台用户在登录通过后后进入到的页面即为用户控制台,根据角色不同,提供不同的管理控制功能。一般会将基本的控制功能集成在个人首页,无需来回跳转也让用户进行常规管理操作,只有一些高级功能会在其他菜单页面中使用。个人首页首页是登录后用户到达的页面,会根据用户角色,只显示角色关心的内容。主要分为两个角色:项目管理员,提供新建项目,项目模板管理,系统管理页面。数据分析师,仅显示包含自己的项目及项目任务。领域专家和具备专业编程能力的数据分析师都属于数据分析师角色。登录页登录后根据角色进入到不同的用户首页。项目管理员除了通用的所属项目区域,管理员能够对项目进行管理。可以直接新建项目,也可以案例模板新建项目。数据分析师数据分析师无需关心其他项目,仅显示与自身有关的项目和信息,在首页中能够进入和管理自己的实验空间。项目管理员输入账号登录,如果您身份是项目管理员的话将自动跳转到具有项目管理功能的控制台首页。控制台管理功能:/导出项目、删除项目等操作成员管理,包括新建成员、编辑成员账户信息、添加成员至项目等操作项目监控,包括项目相关的自定义组件数量、总数据占用空间大小、运行实验信息统计等功能管理项目本篇详细介绍项目管理员如何创建项目。创建项目进入项目管理后,点击“新建项目”按钮创建空白项目。根据创建流程指示进行项目创建。确认信息后,点击"下一步"进入确认界面。再次确认后,项目开始创建,创建项目大概花费2-5分钟,请耐心等待。参数介绍项目基本信息,包括项目名称,项目描述,项目开始结束日期。项目管理员(负责人),指定一个用户作为该项目的负责人,用于派发项目任务和项目资源管理。项目代码,主要用于服务器运维人员维护时使用的唯一码,按照输入框提示填写即可。默认用户资源分配,决定每个用户启动实验空间占用多少服务器资源。要根据实际总的资源情况选择库,选择初始的数据分析相关python库版本,一般默认即可。调整项目用户资源分配进入项目>空间详情,根据服务器资源,用户实验空间资源分配调整。删除项目如图,确认删除的项目并未完全删除,只是暂停了后台服务。在项目回收站中可以选择永久删除或恢复项目。

成员管理成功添加了项目之后,作为项目管理员我们需要来管理项目对应的人员。系统管理->用户管理->理员、数据分析师用户创建界面从右边弹出,输入用户基本信息。为用户选择一个"角色"。角色数据管理员,主要用于数据管理的角色,拥有在任何文件夹上传文件的权限。管理员,可以对进行系统管理,权限较高,建议一个系统只创建拥有该角色的成员。数据分析师,数据分析师,无项目、系统管理功能。登陆后仅展示用户实验空间,数据分析任务。将成员归入项目选中一个项目,在"···"展开菜单中使用“邀请成员”功能,将成员批量添加到项目中。添加成功后,成员可使用账号登录AI算力管理平台系统,进入后项目列表中仅展示该成员相关的项目内容。项目监控对于每个项目都有单独的监控数据收集,点击进入系统监控->项目监控->选择要查看的项目更详细的信息。监控指标:项目数据集占用服务器资源大小项目内用户的实验个数总计正在运行的"用户空间"个数由用户新建的自定义组件个数项目各服务健康状态实验性能表现统计非管理员用户非管理员用户一般指数据分析师用户,输入账号登录成功后,将自动跳转到具有仅有与自身相关项目信息的首页。首页功能:项目查看,显示与自己相关的项目,此处用户是进入"实验空间"的入口我的消息,包括项目任务,项目通知非管理员用户的首页信息非常简单直接,主要和所属项目相关。数据分析师的工作主要是在"实验空间"中进行,提供丰富的数据分析工具为数据分析过程加速。使分析流程更加清晰,数据管理更加便捷,经验积累更加集中。实验空间项目中的每个用户,可以开启一个属于自己的实验空间。在空间中可进行数据分析,享受各种便捷操作。实验空间是独自占有部分云上资源的,空间资源的分配可联系管理员帮助调整。进入空间注意相关项目右上方的空间就绪状态 如果是灰色,说明空间还未启动。点击"进入实验",若是空间未就绪则会提示您是否创建空间,若已就绪则可直接进入。创建空间的时间在1分钟之内,请耐心等待。空间就绪状态为 ,一切准备就绪,点击"进入实验",开始为数据加工吧!教学资源上传的数据集,通过选中右击,分享到教学资源。如图,已分享的资源,管理者可在控制台-教学资源中查看.教学资源分类包括数据集资源、实验资源、Notebook资源.创建新项目时,配置资源可勾选进行自由分配。

数据集功能概述数据集是其他模块的数据源。划分项目数据、个人数据统、分享数据进行云端统一管理。将待分析的数据文件上传至数据集,将会智能生成数据概要信息,帮您快人一步了解认识数据。数据集能做什么上传后数据存储在云上,安全省心。团队合作,为团队合作量身定制的不同功能的系统文件夹,让待分析数据分享变得简单。智能数据概要,后台程序将自动进行数据概要生成,数据探索无需从零开始。数据上传至云数据管理员将数据上传至数据集云端,安心存储,随取随用。项目数据管理为团队合作量身定制的不同功能的系统文件夹,让"重量级"的数据文件不用在彼此的个人电脑上来回拷贝。对于一个项目提供所有项目成员都能访问的"原始数据集"文件夹;对成员提供个人的私有文件夹"我的数据集",提供成员间共享私人数据的"共享文件夹"。智能数据概要无需用户操作,在数据被上传后,后台程序将自动进行数据概要计算,计算完成将在下图位置呈现,帮助您轻松熟悉数据样貌。注意:因编辑等操作导致的文件内容变化将重新触发数据概要的计算。支持主流文件类型目前数据集管理系统支持多种数据格式,可用关联功能如下表:注意:为了系统性能考虑,用户上传规格超过1GB的csv文件时,数据集将会自动将之转换成parquetdir格式并专门优化了对parquetdir格式进行操作时的性能。禁止用户上传parquet文件,也是出于性能考虑,如果parquet文件分区不当将会占用大量机器资源。文件类型查看文件内容数据探索可视数据挖掘实验中读取csv√√√√parquet√××√parquetdir√√√√txt√××√图片文件png,gif√(图片浏览视图)××√pkl二进制文件&其他×××√

文件上传/下载上传文件边栏切换至数据集>打开数据集管理>在上传的路径位置点击并选择文件进行上传。如果您的数据文在本地是以文件夹形式存放,还可通过按钮将此文件夹中文件一次性上传至数据集模块。Tips:为了上传功能正常请尽量保证其中文件数不超过500个,且文件夹深度不超过4。可选上传方式:文件上传:可选中同文件夹下的多个文件进行上传文件夹上传:可选中某一文件夹数据进行上传,并保持原文件夹层级结构。(文件数不超过500个为宜)下载文件在数据集的文件列表中选中您要下载的单个或多个文件,鼠标右键->下载(暂不支持下载文件夹)注意:下载路径是以浏览器默认下载路径为准。以chrome浏览器为例(默认是下载到C:\Users\Administrator\Downloads),下载大量文件时建议主动设置浏览器的下载位置以免系统盘空间被用尽,请在浏览器设置中如下图所示位置进行更改。数据集文件类型目前数据集管理系统支持多种数据格式:parquet,一种新型的列式存储的文件格式,适合大数据分析的数据格式。parquetdir,多文件的parquet格式,实际上是一个文件夹,文件夹下含有parquet的meta元数据文件和主数据文件。csv,通用csv文件,常见于工业设备管理系统导出的数据格式。txt,文本文件,暂时只支持查看数据内容或者上传下载,不能使用图形生成器查看。其他,只支持上传和下载等,不支持内容查看、图形生成器和探索性分析。文件类型查看文件内容数据探索可视数据挖掘实验中读取csv√√√√parquet√×××parquetdir√√√√txt√××√图片文件√(特有图片视图)××√二进制文件&其他×××√#数据分区保存示例importpandasaspddf=pd.read_csv("test.csv")'''1)当engine#数据分区保存示例importpandasaspddf=pd.read_csv("test.csv")'''1)当engine设置为pyarrow(即使用pyarrow写parquet)时,使用row_group_size参数设置每个分区多少行,用户根据数据多少列设置行数。根据估算,一般行数设置为:20000000/列数。每个分区大约占用内存200MB。当engine设置为fastparquet时,使用row_group_offsets(与上述row_group_size参数一个意思)。pyarrow,如果pyarrow没有安装则使用fastparquet,如果fastparquet也没有安装,则报错。'''df.to_parquet("test.parquet",engine="pyarrow",row_group_size=100)df.to_parquet("test.parquet",engine="fastparquet",row_group_offsets=100)'''文件时,一个partition对应生成一个文件,所以如果要生成理想的的文件大小,可以使用repartition指定合适分区个数或大小。'''importdask.dataframeasddddf=dd.read_parquet("test.parquet")ddf=ddf.repartition(npartitions=4)#重新分4个区ddf.to_parquet("testout")

系统文件夹概述系统初始文件夹是特殊文件夹,无法被删除、重命名和移动。实验数据集实验运行过程中产生的中间数据集文件使用建议:对于多人合作的项目,原始数据文件可以考虑上传至原始数据集,为了不影响原始数据源,项目人员要进行自己的分析任务时可以先将原始数据集中的文件复制(也可拖拽)到我的数据集,再进行数据编辑和其他后续操作。智能数据概要功能概述无需用户操作,在数据被上传后,后台程序将自动进行数据概要计算,计算完成将在下图位置呈现,帮助您轻松熟悉数据样貌。注意:因编辑等操作导致的文件内容变化将重新触发数据概要的计算。列数据类型根据各列不同的数据类型,生成的概要信息也不同。如下表:列的数据类型生成概要生成概述信息内容绘制图形numberic数字√最小值(min)、最大值(max)、平均值(mean)、四分位数(q1)、中位数、四分位距(iqr)、标准偏差(std)、变异系数(cv)、量程(range)直方图Boolean布尔值×datetime时间√开始(first)、结束(last)、频率(freq)、唯一值(unique)、量程(range)×string字符串√唯一值(unique)×注意:1)一次上传多个数据文件后,智能数据概要生成是将计算任务排队进行计算,可能出现计算不及时问题,请耐心等待。如果解析失败可以尝试点击"详细信息"页中的"重新生成"优先计算数据概要。数据标注功能概述数据标注是对未经处理过的图片、文本等数据进行加工整理与标注。带有标签的数据被称为训练数据,这些标签帮助机器模型进行深度学习。数据标注能做什么:支持图像分类、目标识别多重场景的数据标注任务;支持手动标注、自动标注功能,能够衔接自有平台标注、训练、验证等功能,支持数据切分、下载等基础操作;图像分类图像分类:根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,(基于色彩特征索引技术、纹理/形状空间关系的图像分类技术)目标识别目标识别:涉及预测图像中一个对象的类别,对象定位是指识别图像一个或多个对象的位置,并在其周围绘制边框。物体识别将这两种任务结合起来,对图像中的一个或多个对象进行定位和分类图像分类图像分类标注在标注界面把已上传的数据集,点击选中拖入画布数据标注(手动标注):该功能适合少量样本数据标注,系统会自动识别已有的标签内容,并展示在右侧数据标注信息栏中,无原始标签直接点击添加标签,进行新建。Tips:勾选图片,点击对应标签前面的“+”,可多选添加到对应标签中;点击进行标签重命名;点击删除整个标签组;勾选图片点击“删除标签”字体可删除图片已有标签;数据标注(自动标注):在右侧注信息栏中切换到自动标注功能,针对大批量数据标注使用该功能。蓝色标签为机器标签,红色为人工标签。操作步骤:操作步骤:首先勾选图片添加样本集分类(每类标签样本不能低于8张);点击自动识别进行模型预训练识别识别结果确认目标识别在标注界面把已上传的数据集,点击选中拖入画布手动标注该功能适合少量样本数据标注,系统会自动识别已有的标签内容,并展示在右侧数据标注信息栏中,无原始标签直接点击添加标签,进行新建。1点击开始标注2.点击进行框选建立标签;3.点击保持框选内容数据探索功能概述数据探索是结合专业数据分析师探索数据需求和领域应用经验,提炼出的具有免代码、高性能特点的图形处理功数据探索,同时对多个数据文件进行宏观探索,提供丰富的图形面板,将相关图形和关键值信息全部放置在一个画布,轻松比对数据,数据拖入简单配置即可获得数据探索报告,更适合领域专家。可视数据挖掘,对单个数据文件以数据表格+交互操作+输出展示的界面组合呈现给数据分析人员,并集成丰富易用的数据处理和绘图方法,如您需要还可开启探索记录(包含交互操作的底层代码),根据探索的代码来进行学习或功能改写,实现数据探索的高级玩法,更适合专业数据分析师。数据探索多个文件,海量数据,数据标记,丰富面板。可视数据挖掘单个文件,数据表格,灵活筛选,交互绘图。图形工具库图形工具库中一般是单图形画布,专注于某一图形进行查看,能同时对不同数据,或者同一数据的不同列绘制图形,且支持对大数据绘图。目前提供时序图、直方图、散点图、频域图、时域图、气泡图。时序图示例,下图以两种不同的数据集将数据绘制在同一画布进行对比。时序图形工具支持交互,放大缩小随心所欲,支持框选数据,并将您选中的数据另存为到数据集。可视化数据挖掘功能概述它是集成了类Excel表格和pandas常用功能的可视数据探索挖掘工具,以极低门槛进行数据探索数据编辑和筛查,也是本产品中数据集的默认打开方式。绝大部分使用场景您只需要双击文件即可使用视化数据挖掘工具打开数据文件。它能做什么?在线编辑,类Excel操作体验轻松编辑数据筛选,得到筛选结果进行进一步操作免代码操作,调用pandas函数进行绘图,类型包括但不限于直方图、散点图、箱线图、拟合线、聚类分析、散点图矩阵、柱状图。时间格式转换,将不可读的时间戳转为东八区标准时间格式探索记录,每一个操作对应的代码记录开放给用户,支持熟练编码的人员进一步自由探索在线编辑类Excel编辑体验,点击选中,双击开始编辑。数据筛选筛选条件可以选择推荐值也可以自由输入,得到筛选结果进行进一步操作。免代码操作轻松调用pandas函数进行绘图。将不可读的时间戳转换为标准时间格式探索记录每一个操作对应的代码将被记录,支持熟练编码的人员进一步自由探索。

实验功能概述在实验画布上拖拽系统或自定义组件,相互连接构成可以运行的可视分析流程,并在多次运行中优化您的流程。待实验成型后可方便地读取同类型数据进行相同的分析流程。实验能做什么可视流程编辑与运行,使用拖拽操作连接每个节点绘制成您的分析流程。参数设置/代码编辑,对于每一个节点,单独设置节点参数,编辑节点代码。记录每一次实验运行,将会记录您每一次运行结果及当时对应的参数配置,并提供记录归档/记录对比功能帮助您便捷地调优实验一目了然的展示分析流程,明晰流程思路,进行节点分组并注释经验复用,成熟的实验片段可以复用在任意实验中实验转源代码,返璞归真可视流程编辑假设我们需要编辑这样一个最简单的流程:读取文件->获取数据基本信息第一步,我们先创建实验,实验>实验列表>右键菜单>创建实验第二步,将组件添加为节点,左边栏菜单切换至组件,在组件列表中拖拽数据源/读取csv和parquet可视化/数据集基息至实验画布,并将节点上的凹槽从上至下连接。组件连线规则说明组件顶部的凹槽代表传入参数,底部的凹槽代表输出参数输出参数可以被多处使用,即一个输出凹槽允许连接多根连线输出凹槽只能连接到下一个组件的输入凹槽,组件代码执行的逻辑顺序是从上至下的第三步,进行参数设置,单击选中读取csv和parquet节点信息,在参数设置区域中设置要读参数),到这里工作流的编辑已经完成,可点击实验画布左上角保存。第四步,点击 运行实验。运行所有节点输出会在下方信息区域的控制台分页中显示,本次运行记录保存行记录分页中。Tips:>展示输出遇到意外情况导致实验无法运行,请点击画布左上角的"重置"按钮,能解决大部分无法运行的问题。的记录。Tips:点击按钮查看该运行记录,画布配置都回到该记录运行时的样子。运行记录中点击♥进行记录归档,已归档的记录将永久保存而不被系统定期自动清理掉。记录对比时,同一节点不同的参数会高亮显示。其他特色功能一键排版与流程注释,帮助您美化节点布局,构建清晰逻辑,实验流程一目了然。实验转源码,点击画布中的 ,实验随机转换成源代码并在"Notebook"模块打开。保存节点中间数据,如果您需要保存某个节点的输出(中间数据),可以选中该节点>设置输出到数据集:是Tips:1.输出文件对应"数据集"中的路径为:/我的数据集/实验数据集/实验名/节点名称_系统标识码.parquet2.打开或去到输出文件所在位置,选中节点>节点输出>查看>打开所在目录在实验画布上,设置了"输出到数据集"的组件上会有特殊标识。节点代码编辑,如果您需要根据实际情况调整组件代码,可以选中该节点>右边区域"节点代码",进行编辑并点击"保存"按钮。Tips"另存为自定义组件"将此节点代码另存为件。实验节点设置进入已创建实验,实验>实验列表>单击实验。左边栏切换至"组件",选取需要的组件拖拽至实验画布。这里使用读取和部分删除组件为例:节点至少会有一个输入或输出,在界面上输入为顶部凹槽,输出为底部凹槽。红色凹槽为必填凹槽(要连),否则实验无法运行。画布中拖入多个相同组件时,节点名会根据拖入顺序带上序号,如"部分删除_1","部分删除_2"可以自由命名节点名。鼠标停留在凹槽部分,可以提示参数名称。单击选中节点,在页面右边会弹出节点信息。包含节点信息,参数设置,和输入输出说明。参数以*开头的是必填参数,否则实验无法运行。输出到数据集,若选择是则该节点运行时产生的中间结果会保存到"数据集"模块中的/我的数据集/据集/[实验名]目录下。某些参数设置需要进行连线后,才能有后续弹出窗口。例如这里的"列选择"的数据信息提供窗口让用户选择。点击节点代码,可以根据需要修改代码逻辑(下图中绿框部分),下图中由"""围起来的注释部分代码如何决定外形可阅读自定义组件说明,此处不再赘述。图中左上角对应图标功能为:保存代码、返回到上一次保存代码、另存为自定义组件。

实验运行在之前的说明中,"运行"通常指运行整个实验。本篇内容详细介绍一下目前支持的几种实验运行操作。运行全部,点击画布左上角的按钮运行整个实验。当有多条不相连分支时,每个分支都会从上至下行。运行到此节点,从顶端节点运行到这个节点即停止,在调试实验流程时用得比较多。从此节点开始运行,从选中的节点运行,一般配合运行到此节点功能调试实验流程。小数量运行该节点,数据源节点的数据抽取前100行来执行,通常用于快速运行并节点功能是否符合预期。使用技巧执行从此节点开始运行和运行到此节点操作时,会遇到以下两种情况,而实验引擎对于两种情况的运行行为是不同的。选中节点之上还有没有进行数据存储的节点,这些节点会从上至下作为依赖节点而运行。选中节点的上一个节点运行进行了数据存储。(节点设置数据存储请参考节点设置)。第一种,当选中节点之上还有没有进行数据存储的节点。如下图所示,运行到"填充空置"节点时,"读取数据集","部分删除"节点将作为依赖节点而运行。第二种,选中节点的上一个节点运行进行了数据存储,那么将会从最近的已存储数据的节点开始向下运行。如下图所示,假如在上一次的实验运行中,对"部分删除列"这个节点设置了。那么,继续运行将不会再从头执行"读取数据集"节点了,而是从"部分删除列"节点直接读取已存储的数据开始向下运行。在下图所示本次"运行到此节点"操作仅会从"部分删除列"节点运行到"填充空值"结束。可以利用这个特点,用输出到数据集功能来达到调试加速的效果。实验运行记录每次实验执行,都会为您保存一次运行记录,在画布下方输出区域的"运行记录"地介绍运行记录部分功能。版本号与标签版本号,对比上一次运行记录,如果节点有增减,参数配置改变,则会在之前的版本号后追加1版本标签,当实验需要往多个思路拓展时,标签能帮助您区别实验属于您的哪个思路。版本标签:默认是master,版本标签编辑为其他字符后,以此记录再次运行,所产生的记录的版本标签将会沿用您所编辑的标签内容。如下图运行记录操作转到某次记录,画布内容、节点参数配置、控制台输出内容都会转回到该此运行时的样子。记录归档,归档后请在画布下方"记录归档"页面中查看,归档的运行记录将永久保存,不会被系统定期自动回收。记录对比,以点击按钮的运行记录节点信息为基础,与其他运行记录进行对比,同名节点的不同参数设置会高亮展示。删除记录,删除那些碍眼的无效记录。查看子录,查看每一次循环运行的子运行记录,此图标只有实验中运行了循环性质的组件时才会出现。

实验转源代码将实验返璞归真!如下图在实验画布的左上工具栏点击"源码"按钮。稍等2-8秒即可转化完成(总时长根据实验规模决定),将在Notebook模块中以代码的方式展示当前实验内容。实验节点组选取实验中需要固化的节点参数和组件组合,创建您的节点组并在其他实验中方便地重复使用。添加节点组框选画布中的节点,成为节点组。点击实验画布区域右上角的图标进入框选模式,框选大致区域进行复选按Ctrl+鼠标左键进行单选调整。完成选择后右键菜单中选择创建节点组。套用节点组实验>节点组,拖拽至画布即可。实验导出/导入支持实验导出->本地,本地实验导入->AI算力管理平台,导出的文件可以跨项目使用。导出:右键实验列表中的实验,点击菜单中“导出”按钮即可成功导出至本地。导入:点击实验列表上的“导入实验”按钮,按照引导即可导入实验。导出实验选中导出实验,右键菜单>导出,即可导出成加密实验文件。导入实验选中导入的文件夹,右键菜单>导入实验,在弹出的文件选择框中选择上一步中的实验导出文件,导入即可完成。

组件功能概述"组件"模块单独使用仅具备组件管理功能,与其他模块交互使用才能发挥它的最大价值。每一个组件都是特定功能的可视载体,能够拖拽组件在实验中进行可视化流程开发,配置参数与编辑节点代码。另外在实验中,认为好用的节点可另存为自定义组件,并在需要的时候重复使用它。组件能做什么成为实验的节点管理组件,查看、编辑、新建、删除、共享在"Notebook"模块中使用,组件代码直接填充至cell成为实验的节点进入已创建实验,实验>实验列表>单击实验。左边栏切换至"组件",和部分删除组件为例:节点至少会有一个输入或输出,在界面上输入为顶部凹槽,输出为底部凹槽。红色凹槽为必填凹槽(要连),否则实验无法运行。画布中拖入多个相同组件时,节点名会根据拖入顺序带上序号,如"部分删除_1","部分删除_2"可以自由命名节点名。鼠标停留在凹槽部分,可以提示参数名称单击选中节点,在页面右边会弹出节点信息。包含节点信息,参数设置,和输入输出说明。参数以*开头的是必填参数,否则实验无法运行。输出到数据集,若选择是则该节点运行时产生的中间结果会保存到"数据集"模块中的/我的数据集/据集/[实验名]目录下。某些参数设置需要进行连线后,才能有后续弹出窗口。例如这里的"列选择"的数据信息提供窗口让用户选择点击节点代码,可以根据需要修改代码逻辑(下图中绿框部分),下图中由"""围起来的注释部分代码如何决定外形可阅读自定义组件说明,此处不再赘述。图中左上角对应图标功能为:保存代码、返回到上一次保存代码、另存为自定义组件组件管理组件管理主要针对用户自定义部分的管理,与您习惯的操作无异,右键菜单>查看、重命名、编辑、新建、删除、分享,拖拽移动组件文件夹位置。在Notebook模块中使用将组件拖拽至Notebook的Cell当中得到组件的代码,将您积累的宝贵经验快速用于其他实践。系统预置组件系统组件是系统预置的组件,您不能修改,但是能在其他模块使用,也能够以它为模板创建自定义组件。系统预置组件分类根据使用场景和功能对系统组件进行了分类,在组件菜单中也明显体现。数据源,这类组件的执行结果作为实验的数据源头,将数据从文件中读取至实验以后续操作,通常读取为DataFrame数据类型。数据处理,这类组件是对上一节点传入的数据进行操作,包括但不限于标准化,数据采样,插值,查询,合并,去重,替换等操作。数据统计,这类组件不对数据操作,仅整体计算。包括但不限于协方差计算,标准方差计算,相关性分析,变化率计算。可视化,这类组件不对数据操作和计算,主要是将数据转化为直观展示的图形或列表的操作。特征工程,这类组件主要提供特征选择,特征降维等操作。机器学习,这类组件主要集成深度学习,无监督学习,有监督学习等高级方法,提供给有一定机器学习基础的人员使用。专用组件,来自于专业领域的应用专用处理组件,一般属于定制化流程操作。

系统组件介绍数据源该类组件一般位于实验头部,用于从不同数据源获取数据并输出为dataframe。目前提供的数据源组件读取mysql,根据sql语句从数据库中读取sql执行结果,输出为dataframe读取csv和parquet,读取"数据集"模块中的csv或parquet格式文件,输出为dataframe读取文件夹,此组件比较特殊,属于"循环组件",传入"数据集"模块的文件夹,实验会以循环的方式对每一个文件执行一次画布中的流程。读取mysql输入参数名默认值描述host,必填""数据库地址port,必填3306数据库端口号user,必填"user"数据库用户名db,必填"db"数据库名sql,必填""sql语句输出凹槽(从左至右)out11pandasDataframe读取csv和parquet参数名默认值描述data_path,必填"""数据集"中文件路径encoding"utf-8"字符编码集输出凹槽(从左至右)描述out11pandasDataframe读取文件夹参数名默认值描述folder_path,必填"""数据集"中文件夹路径encoding"utf-8"字符编码集输出凹槽(从左至右)out11pandasDataframe数据处理数据处理是数据科学研究流程中的一个重要步骤,本系统集成了常用处理方法。本文介绍的是系统预置组件中"数据处理"分类下的组件参数配置训练转换scaler标准化法参数名默认值描述scaler,必填""object声明好的scaler模型。x_train,必填""array-likeofshape(n_samples,n_features)Theinputsamples.x_test,必填""array-likeofshape(n_samples,n_features)Thetestsamples.输出凹槽(从左至右)描述selector1object经过训练的scalerx_train_selected2array-likeofshape(n_samples,n_features_new)经过标准化的训练样本x_test_selected3array-likeofshape(n_samples,n_features_new)经过标准化的测试样本z-score标准化方法参数名默认值描述x_train,必填""array-likeofshape(n_samples,n_features)Theinputsamples.x_test,必填""array-likeofshape(n_samples,n_features)Thetestsamples.默认是None,即没有输入测试样本进行标准化输出凹槽(从左至右)描述selector1object经过训练的scalerx_train_selected2array-likeofshape(n_samples,n_features_new)经过标准化的训练样本x_test_selected3array-likeofshape(n_samples,n_features_new)经过标准化的测试样本最大最小值标准化方法参数名默认值描述x_train,必填""array-likeofshape(n_samples,n_features)Theinputsamples.x_test,必填""array-likeofshape(n_samples,n_features)Thetestsamples.默认是None,即没有输入测试样本进行标准化输出凹槽(从左至右)描述selector1object经过训练的scalerx_train_selected2array-likeofshape(n_samples,n_features_new)经过标准化的训练样本x_test_selected3array-likeofshape(n_samples,n_features_new)经过标准化的测试样本Robust标准化方法参数名默认值描述x_train,必填""array-likeofshape(n_samples,n_features)Theinputsamples.x_test,必填""array-likeofshape(n_samples,n_features)Thetestsamples.默认是None,即没有输入测试样本进行标准化输出凹槽(从左至右)描述selector1object经过训练的scalerx_train_selected2array-likeofshape(n_samples,n_features_new)经过标准化的训练样本x_test_selected3array-likeofshape(n_samples,n_features_new)经过标准化的测试样本SMOTEENN采样参数名默认值描述kwargsNonedict输入的参数字典输入说明凹槽(从左至右)描述x1描述:{array-like,sparsematrix}ofshape(n_samples,n_features)Matrixcontainingthedatawhichhavetobesampled.y2描述:array-likeofshape(n_samples,)CorrespondinglabelforeachsampleinX.输出凹槽(从左至右)描述x_sampled1{ndarray,sparsematrix}ofshape(n_samples_new,n_features)Thearraycontainingtheresampleddata.采样后的样本y_sampled2ndarrayofshape(n_samples_new,)ThecorrespondinglabelofX_resampled.采样后的样本对应标签SMOTETomek采样参数名默认值描述kwargsNonedict输入的参数字典输入说明凹槽(从左至右)描述x1描述:{array-like,sparsematrix}ofshape(n_samples,n_features)Matrixcontainingthedatawhichhavetobesampled.y2描述:array-likeofshape(n_samples,)CorrespondinglabelforeachsampleinX.输出凹槽(从左至右)描述x_sampled1{ndarray,sparsematrix}ofshape(n_samples_new,n_features)Thearraycontainingtheresampleddata.采样后的样本y_sampled2ndarrayofshape(n_samples_new,)ThecorrespondinglabelofX_resampled.采样后的样本对应标签ADASYN采样参数名默认值描述kwargsNonedict输入的参数字典输入说明凹槽(从左至右)描述x1描述:{array-like,sparsematrix}ofshape(n_samples,n_features)Matrixcontainingthedatawhichhavetobesampled.y2描述:array-likeofshape(n_samples,)CorrespondinglabelforeachsampleinX.输出凹槽(从左至右)描述x_sampled1{ndarray,sparsematrix}ofshape(n_samples_new,n_features)Thearraycontainingtheresampleddata.采样后的样本y_sampled2ndarrayofshape(n_samples_new,)ThecorrespondinglabelofX_resampled.采样后的样本对应标签RandomOverSampler随机采样参数名默认值描述kwargsNonedict输入的参数字典输入说明凹槽(从左至右)描述x1描述:{array-like,sparsematrix}ofshape(n_samples,n_features)Matrixcontainingthedatawhichhavetobesampled.y2描述:array-likeofshape(n_samples,)CorrespondinglabelforeachsampleinX.输出凹槽(从左至右)描述x_sampled1{ndarray,sparsematrix}ofshape(n_samples_new,n_features)Thearraycontainingtheresampleddata.采样后的样本y_sampled2ndarrayofshape(n_samples_new,)ThecorrespondinglabelofX_resampled.采样后的样本对应标签SMOTE采样参数名默认值描述kwargsNonedict输入的参数字典输入说明凹槽(从左至右)描述x1描述:{array-like,sparsematrix}ofshape(n_samples,n_features)Matrixcontainingthedatawhichhavetobesampled.y2描述:array-likeofshape(n_samples,)CorrespondinglabelforeachsampleinX.输出凹槽(从左至右)描述x_sampled1{ndarray,sparsematrix}ofshape(n_samples_new,n_features)Thearraycontainingtheresampleddata.采样后的样本y_sampled2ndarrayofshape(n_samples_new,)ThecorrespondinglabelofX_resampled.采样后的样本对应标签SVMSMOTE采样参数名默认值描述kwargsNonedict输入的参数字典输入说明凹槽(从左至右)描述x1描述:{array-like,sparsematrix}ofshape(n_samples,n_features)Matrixcontainingthedatawhichhavetobesampled.y2描述:array-likeofshape(n_samples,)CorrespondinglabelforeachsampleinX.输出凹槽(从左至右)描述x_sampled1{ndarray,sparsematrix}ofshape(n_samples_new,n_features)Thearraycontainingtheresampleddata.采样后的样本y_sampled2ndarrayofshape(n_samples_new,)ThecorrespondinglabelofX_resampled.采样后的样本对应标签KMeansSMOTE采样参数名默认值描述kwargsNonedict输入的参数字典输入说明凹槽(从左至右)描述x1描述:{array-like,sparsematrix}ofshape(n_samples,n_features)Matrixcontainingthedatawhichhavetobesampled.y2描述:array-likeofshape(n_samples,)CorrespondinglabelforeachsampleinX.输出凹槽(从左至右)描述x_sampled1{ndarray,sparsematrix}ofshape(n_samples_new,n_features)Thearraycontainingtheresampleddata.采样后的样本y_sampled2ndarrayofshape(n_samples_new,)ThecorrespondinglabelofX_resampled.采样后的样本对应标签BorderlineSMOTE采样参数名默认值描述kwargsNonedict输入的参数字典输入说明凹槽(从左至右)描述x1描述:{array-like,sparsematrix}ofshape(n_samples,n_features)Matrixcontainingthedatawhichhavetobesampled.y2描述:array-likeofshape(n_samples,)CorrespondinglabelforeachsampleinX.输出凹槽(从左至右)描述x_sampled1{ndarray,sparsematrix}ofshape(n_samples_new,n_features)Thearraycontainingtheresampleddata.采样后的样本y_sampled2ndarrayofshape(n_samples_new,)ThecorrespondinglabelofX_resampled.采样后的样本对应标签SMOTENC采样参数名默认值描述kwargsNonedict输入的参数字典输入说明凹槽(从左至右)描述x1描述:{array-like,sparsematrix}ofshape(n_samples,n_features)Matrixcontainingthedatawhichhavetobesampled.y2描述:array-likeofshape(n_samples,)CorrespondinglabelforeachsampleinX.输出凹槽(从左至右)描述x_sampled1{ndarray,sparsematrix}ofshape(n_samples_new,n_features)Thearraycontainingtheresampleddata.采样后的样本y_sampled2ndarrayofshape(n_samples_new,)ThecorrespondinglabelofX_resampled.采样后的样本对应标签随机下采样参数名默认值描述kwargsNonedict输入的参数字典输入说明凹槽(从左至右)描述x1描述:{array-like,sparsematrix}ofshape(n_samples,n_features)Matrixcontainingthedatawhichhavetobesampled.y2描述:array-likeofshape(n_samples,)CorrespondinglabelforeachsampleinX.输出凹槽(从左至右)描述x_sampled1{ndarray,sparsematrix}ofshape(n_samples_new,n_features)Thearraycontainingtheresampleddata.采样后的样本y_sampled2ndarrayofshape(n_samples_new,)ThecorrespondinglabelofX_resampled.采样后的样本对应标签InstanceHardness下采样参数名默认值描述kwargsNonedict输入的参数字典输入说明凹槽(从左至右)描述x1描述:{array-like,sparsematrix}ofshape(n_samples,n_features)Matrixcontainingthedatawhichhavetobesampled.y2描述:array-likeofshape(n_samples,)CorrespondinglabelforeachsampleinX.输出凹槽(从左至右)描述x_sampled1{ndarray,sparsematrix}ofshape(n_samples_new,n_features)Thearraycontainingtheresampleddata.采样后的样本y_sampled2ndarrayofshape(n_samples_new,)ThecorrespondinglabelofX_resampled.采样后的样本对应标签NearMiss采样参数名默认值描述kwargsNonedict输入的参数字典输入说明凹槽(从左至右)描述x1描述:{array-like,sparsematrix}ofshape(n_samples,n_features)Matrixcontainingthedatawhichhavetobesampled.y2描述:array-likeofshape(n_samples,)CorrespondinglabelforeachsampleinX.输出凹槽(从左至右)描述x_sampled1{ndarray,sparsematrix}ofshape(n_samples_new,n_features)Thearraycontainingtheresampleddata.采样后的样本y_sampled2ndarrayofshape(n_samples_new,)ThecorrespondinglabelofX_resampled.采样后的样本对应标签TomekLinks采样参数名默认值描述kwargsNonedict输入的参数字典输入说明凹槽(从左至右)描述x1描述:{array-like,sparsematrix}ofshape(n_samples,n_features)Matrixcontainingthedatawhichhavetobesampled.y2描述:array-likeofshape(n_samples,)CorrespondinglabelforeachsampleinX.输出凹槽(从左至右)描述x_sampled1{ndarray,sparsematrix}ofshape(n_samples_new,n_features)Thearraycontainingtheresampleddata.采样后的样本y_sampled2ndarrayofshape(n_samples_new,)ThecorrespondinglabelofX_resampled.采样后的样本对应标签EditedNearestNeighbours采样参数名默认值描述kwargsNonedict输入的参数字典输入说明凹槽(从左至右)描述x1描述:{array-like,sparsematrix}ofshape(n_samples,n_features)Matrixcontainingthedatawhichhavetobesampled.y2描述:array-likeofshape(n_samples,)CorrespondinglabelforeachsampleinX.输出凹槽(从左至右)描述x_sampled1{ndarray,sparsematrix}ofshape(n_samples_new,n_features)Thearraycontainingtheresampleddata.采样后的样本y_sampled2ndarrayofshape(n_samples_new,)ThecorrespondinglabelofX_resampled.采样后的样本对应标签RepeatedEditedNearestNeighbours采样参数名默认值描述kwargsNonedict输入的参数字典输入说明凹槽(从左至右)描述x1描述:{array-like,sparsematrix}ofshape(n_samples,n_features)Matrixcontainingthedatawhichhavetobesampled.y2描述:array-likeofshape(n_samples,)CorrespondinglabelforeachsampleinX.输出凹槽(从左至右)描述x_sampled1{ndarray,sparsematrix}ofshape(n_samples_new,n_features)Thearraycontainingtheresampleddata.采样后的样本y_sampled2ndarrayofshape(n_samples_new,)ThecorrespondinglabelofX_resampled.采样后的样本对应标签AllKNN采样参数名默认值描述kwargsNonedi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论